JP6916167B2

JP6916167B2 - 音声及びビデオ通話のためのインタラクティブ制御方法及び装置

Info

Publication number: JP6916167B2
Application number: JP2018510102A
Authority: JP
Inventors: 豊李
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2015-09-28
Filing date: 2015-12-03
Publication date: 2021-08-11
Anticipated expiration: 2035-12-03
Also published as: JP2018525751A; US10719293B2; CN105204743A; US20200301663A1; US20180260189A1; WO2017054309A1; US11487503B2

Description

本発明は、インターネット技術分野に関し、特に、音声及びビデオ通話のためのインタラクティブ制御方法及び装置に関する。

インターネット技術の急速発展に伴い、インスタントメッセージＩＭ（Ｉｎｓｔａｎｔｍｅｓｓａｇｉｎｇ）ツール（例えば、ウィーチャット、ＱＱなど）は、人々の生活及び仕事においてますます多く応用されてきており、ＩＭツール（ＩＭソフトウェア）は、既に人々の生活においてよく使用されるコミュニケーションツールとなっている。ＩＭソフトウェアを使用するプロセスにおいて、ユーザは、文字、音声及びビデオなどの方式で、ＩＭの友達と、又はチャットグループでコミュニケーションすることができる。

ユーザがビデオの方式で友人とチャットする過程において、ユーザが何らかの操作を実行する必要がある場合、ユーザの通常のやり方は、対応する操作を手動で実行することである。例えば、ユーザは、ビデオウィンドウのサイズを調整する必要があり、この場合、ビデオウィンドウのサイズを調整するために、ユーザはマウスを操作する必要がある。また、例えば、ユーザは、遠端のチャットユーザに最も美しい画像の選択を助けてもらう必要があるが、画像が遠いクラウドに格納されているため、まずローカルで遠いクラウドにおける画像をダウンロードしてチャットユーザに送信するしかできなく、チャットユーザは、画像の転送を受信してクリックしてチェックし、次に選択の結果をユーザに伝える。

しかしながら、ビデオ通話の過程において、ユーザが手動で何らかの操作を実行することが都合がよくない状況が現れることがある。従来のインタラクティブ制御方式は、比較的シンプルであるため、ユーザは、ビデオ通話の過程において両手を解放することができず、ユーザのインタラクティブな体験が理想的ではない。

本発明は、関連技術における一つの技術的課題を少なくともある程度で解決することを目的とする。

そのため、本発明は、音声及びビデオ通話のためのインタラクティブ制御方法を提供することを第１の目的とし、当該方法により、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

本発明は、音声及びビデオ通話のためのインタラクティブ制御装置を提供することを第２の目的とする。

本発明は、音声及びビデオ通話のためのインタラクティブ制御装置を提供することを第３の目的とする。

本発明は、記憶媒体を提供することを第４の目的とする。

上記目的を達成するために、本発明の第１の観点の実施例は、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得するステップと、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含む音声及びビデオ通話のためのインタラクティブ制御方法を提供する。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

上記目的を達成するために、本発明の第２の観点の実施例は、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する取得モジュールと、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令における前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含む音声及びビデオ通話のためのインタラクティブ制御装置を提供する。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、取得モジュールにより、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、判断モジュールにより、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、処理モジュールにより、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

上記目的を達成するために、本発明の第３の観点の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを含み、前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される際に、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する操作と、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

上記目的を達成するために、本発明の第４の観点の実施例における記憶媒体は、本発明の第１の観点の実施例に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムを記憶する。

本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御装置の概略構成図である。

以下に、本発明の実施例を詳しく説明する。前記実施例の例が図面に示され、ここで、同一又は類似する符号が常に同一又は類似する要素又は同一又は類似する機能を有する要素を表す。図面を参照しながら説明される以下の実施例は、単に例示するものであり、本発明を解釈するためのものであり、本発明を限定するものではないと理解しなくてはならない。

以下に、本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法及び装置を図面を参照して説明する。

図１は、本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。

図１に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップＳ１０１と、ステップＳ１０２と、ステップＳ１０３とを含む。

ステップＳ１０１では、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する。

具体的には、ユーザと１つ又は複数の他のユーザとの音声通話の過程において、ユーザの入力された音声データに応じて一部の操作を実行することができるために、ユーザの入力された音声データをモニタリングすることができる。

また、ユーザと１つ又は複数の他のユーザとのビデオ通話の過程において、ユーザの入力された音声データ又はジェスチャ動作に応じて一部の操作を実行することができるために、ユーザの入力された音声データをモニタリングするとともに、端末におけるカメラをモニタリングしてもよい。これにより、カメラに基づいて取得されたビデオ情報に基づいてユーザによって入力されたジェスチャ動作を取得する。

ステップＳ１０２では、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。

ユーザの正常な音声又はビデオ通話への影響を減少させるために、ユーザが、端末がユーザ自身によって入力された音声又はジェスチャに応じて一部の操作を自動で実行することを必要とする場合、ユーザは、一部の操作を実行するように端末を制御するアプリケーションプログラムをトリガする一部のトリガ語又はトリガ動作を入力することができる。これにより、アプリケーションプログラムは、ユーザがトリガ語又はトリガ動作の後に入力した音声又はジェスチャ動作を取得し、音声又はジェスチャ動作に応じて一部の操作を実行する。

ここで、トリガ情報は、トリガ語、動作操作語、キーワード、トリガジェスチャ動作、及びジェスチャ動作を含むが、これらに限定されない。

本発明の一実施例において、ユーザによって音声方式でユーザ行動データを入力することがモニタリングされた場合、ユーザ行動データに所定のトリガ語が含まれているか否かを判断することができる。トリガ語が含まれていると判断・通知された場合、ユーザ行動データに所定の動作操作語が含まれているか否かをさらに判断する。なお、この場合のユーザ行動データが音声データである。

また、ユーザがビデオ通話方式でチャットする過程において、カメラによりユーザの入力されたユーザ行動データを取得することができる。ユーザ行動データを取得した後、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断することができる。トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。

ステップＳ１０３では、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。

なお、ここで、トリガ情報と操作命令とイベントとの対応関係は予め保存されているものである。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令（トリガ語）が、「Ｘ音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「Ｘ音声アシスタント」が含まれている場合、音声データにおける「Ｘ音声アシスタント」の後の音声データを認識して、ユーザによって入力された「Ｘ音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。ユーザによって入力された現在の音声データが「Ｘ音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像ｘ．ｊｐｇ及びｙ．ｊｐｇをダウンロードし、ユーザＢに送信して選択させる。この場合、ユーザの入力された音声データを従来技術で解析して音声データの解析結果を取得することができ、解析結果に所定の動作操作語が含まれているか否かを判断し、所定の動作操作語が含まれている場合、動作操作語に対応する操作命令を取得し、操作命令に従って対応する操作を実行する。

また、例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令は、「ＯＫのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより採取されたビデオ情報に「ＯＫのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力したことがモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチャ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。

また、本発明の一実施例において、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する経過において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。

具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性がある。従って、対応するイベントを実行する前に、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。

例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが１つあり、写真・ＪＰＧというファイルも１つある。ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・ＪＰＧというファイルを開く」意向であるかを明確にすることができない。そのため、この場合、解析した後、２つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション１であり、「デスクトップの写真・ＪＰＧというファイルを開く」の後の確認文字が写真確認オプション２であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション１」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」イベントを実行する必要があると決定し、ユーザにデスクトップの写真フォルダを自動的に開くことができる。

図２は本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。

図２に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップＳ２０１と、ステップＳ２０２と、ステップＳ２０３と、ステップＳ２０４とを含む。

ステップＳ２０１では、ユーザによって音声方式で入力された音声データを取得する。

具体的には、ユーザと１つ又は複数の他のユーザとの音声通話の過程において、ユーザの入力された音声データをモニタリングすることができる。

ステップＳ２０２では、音声データに所定のトリガ語が含まれているか否かを決定する。

ステップＳ２０３では、所定のトリガ語が含まれている場合、音声データに所定の動作操作語が含まれているか否かをさらに判断する。

具体的には、ユーザの入力された音声データを取得した後、従来技術で音声データを解析して音声データの解析結果を取得し、解析結果に所定のトリガ語が含まれているか否かを判断し、所定のトリガ語が含まれていると判断・通知された場合、所定の動作操作語が含まれているか否かをさらに判断する。

ステップＳ２０４では、動作操作語が含まれていると判断・通知された場合、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、動作操作語に対応する操作命令に対応するイベントを実行する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令（トリガ語）は、「Ｘ音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「Ｘ音声アシスタント」が含まれている場合、音声データにおける「Ｘ音声アシスタント」の後の音声データを認識して、ユーザによって入力された「Ｘ音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。ユーザによって入力された現在の音声データが「Ｘ音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像ｘ．ｊｐｇ及びｙ．ｊｐｇをダウンロードし、ユーザＢに送信して選択させる。この場合、音声データを解析し、次に解析結果に所定のトリガ語が含まれているか否かを判断し、判断により、ユーザよって入力された現在の音声データにトリガ語が含まれていると判断することができ、解析結果に所定の動作操作語が含まれているか否かをさらに判断することができる。判断により、「ダウンロード」及び「送信」という動作操作語が含まれていると決定することができ、動作操作語に対応する操作命令を取得し、操作命令に従って対応するイベントを実行する。即ち、まずバイドォクラウドから画像ｘ．ｊｐｇ及びｙ．ｊｐｇをダウンロードし、画像ｘ．ｊｐｇ及びｙ．ｊｐｇをユーザＢに送信する。これにより、ユーザは、端末が画像をダウンロードして送信する操作を実行するように音声方式で制御することができ、自ら手動で画像をダウンロードして送信することによる面倒さが減少する。

また、本発明の一実施例において、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する過程において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。

具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性がある。従って、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。

例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが１つあり、写真・ＪＰＧというファイルも１つあり、ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・ＪＰＧというファイルを開く」意向であるかを明確にすることができない。このため、この場合、解析した後、２つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション１であり、「デスクトップの写真・ＪＰＧというファイルを開く」の後の確認文字が写真確認オプション２であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション１」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」というイベントを実行する必要があると決定することができ、ユーザにデスクトップ上の写真フォルダを自動的に開く。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

図３は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。

図３に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップＳ３０１と、ステップＳ３０２と、ステップＳ３０３とを含む。

ステップＳ３０１では、カメラによりユーザの入力されたユーザ行動データを取得する。

具体的には、ユーザと１つ又は複数の他のユーザとの音声通話の過程において、ユーザがジェスチャ動作により動作命令を入力することができるため、端末におけるカメラをモニタリングし、カメラにより採取されたビデオ情報を取得することができる。

ステップＳ３０２では、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。

本発明の一実施例において、カメラによりユーザ行動データを取得した後、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断することができる。トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。

具体的には、カメラにより採取されたビデオ情報を取得した後、関連するビデオアルゴリズムに基づいてビデオ情報を認識し、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガジェスチャ動作が含まれているか否かを判断する。トリガジェスチャ動作が含まれている場合、ユーザがトリガジェスチャ動作を入力した後に入力したジェスチャ動作が所定のトリガジェスチャ動作であるか否かをさらに判断する。

ステップＳ３０３では、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令が、「ＯＫのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより採取されたビデオ情報に「ＯＫのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力することがモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチャ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャ動作によりビデオウィンドウの大きさを調整することができ、ユーザの手動操作による面倒さが減少する。

なお、ジェスチャ動作によりビデオウィンドウの大きさを調整することは、単に本発明の一例であり、ユーザは、さらに、ジェスチャ動作により、端末が他の操作を実行するように制御することができ、例えば、ユーザは、ジェスチャ動作により、ビデオウィンドウを閉じることを実行するように制御することができる。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、カメラによりユーザの入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、処理モジュールは、所定の操作命令セットに従ってトリガ情報に対応するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。

ユーザが音声又はビデオ通信により他のユーザと話し合うプロセスにおいて、ユーザの入力された音声データに応じて、端末が一部の操作を実行するように制御することができるだけでなく、音声データにおける一部のキーワードに基づいて、キーワードに関連する推薦情報を推薦して情報をユーザに正確に送ることもでき、これにより、ユーザは、キーワードに関連する情報を取得しやすくなる。

図４は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。

図４に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップＳ４０１と、ステップＳ４０２と、ステップＳ４０３と、ステップＳ４０４とを含む。

ステップＳ４０１では、ユーザによって音声方式で入力された音声データを取得する。

具体的には、ユーザと１つ又は複数の他のユーザとの音声又はビデオ通話の過程において、ユーザの入力された音声データをモニタリングすることができる。

ステップＳ４０２では、音声データに所定のキーワードが含まれているか否かを決定する。

具体的には、ユーザの入力された音声データを取得した後、従来技術により音声データを認識し、認識結果に所定のキーワードが含まれているか否かを判断することができる。

ステップＳ４０３では、所定のキーワードが含まれている場合、サーバがキーワードに対応する推薦情報を取得するように、キーワードをサーバに送信する。

ステップＳ４０４では、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、チャット音声におけるキーワードを絶えずに認識し、サーバにキーワードを持続的に送信することができる。サーバは、最新の時間内（例えば５分間）のキーワードを分析して、チャット双方のチャットテーマを認識する。ユーザＡとユーザＢとのビデオ通話の過程において現れた高頻度のキーワードが「服」「ショッピング」「買う」「買い過ぎ」などであると仮定すると、サーバは、ユーザ間のチャットテーマが買い物のテーマであると決定することができ、買い物のテーマに関連する広告、例えば電子商取引広告を取得し、対応する広告を端末に返信する。端末は、サーバから返信された広告を受信し、ビデオウィンドウの隣又は他の位置に広告を表示する。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のキーワードが含まれているか否かを決定し、キーワードが含まれていると判断・通知された場合、キーワードをサーバに送信し、サーバから返信されたキーワードに関連する推薦情報を受信する。これにより、チャットの音声に応じて、キーワードに関連する推薦情報を正確にユーザに送り、ユーザが手動でキーワードに関連する情報を検索することによる面倒さが回避され、ユーザのインタラクティブな体験が向上する。

ビデオ通話の過程において、ユーザによって入力されたジェスチャ動作に応じて端末が一部の操作を実行するように制御することができるだけでなく、カメラにより採取されたビデオ情報に物が含まれている場合、ビデオにおける物を認識し、物に関する推薦情報をユーザに送ることもできる。この場合、ユーザは、推奨情報をクリックすることにより、物に関する情報をチェックすることができる。

図５は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。

図５に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップＳ５０１と、ステップＳ５０２と、ステップＳ５０３と、ステップＳ５０４と、ステップＳ５０５とを含む。

ステップＳ５０１では、カメラにより取得されたビデオ情報を取得する。

ステップＳ５０２では、ビデオ認識アルゴリズムに基づいてビデオ情報を認識して、ビデオ情報の認識結果を生成する。

具体的には、ビデオ通話の過程において、カメラにより採取されたビデオ情報を取得し、ビデオ認識アルゴリズムに基づいてビデオ情報を認識し、ビデオ情報に物が含まれていると認識した場合、物に対応するキーワードを決定する。

ステップＳ５０３では、認識結果に所定のキーワードが含まれているか否かを判断する。

ステップＳ５０４では、キーワードが含まれていると判断・通知された場合、サーバがキーワードに対応する推薦情報を取得するように、キーワードをサーバに送信する。

ステップＳ５０５では、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。

例えば、ユーザＡとユーザＢとがビデオ通話し、ユーザＡが１つのアイフォンを手持ちしてアイフォンに関する情報をユーザＢに紹介していると仮定すると、この場合、アプリケーションプログラムは、カメラにより採取されたビデオ情報を取得することができ、ビデオ認識アルゴリズムに基づいて認識した後、ビデオ情報には１つの物が含まれていると決定することができる。ビデオにおける物の特徴情報を分析することにより、当該物に対応するキーワードがアイフォンであると決定することができる。この場合、アプリケーションプログラムは、キーワードをサーバに送信し、サーバは、キーワードに応じた適切な広告を選択し、対応する広告を返信する。アプリケーションサーバは、サーバから返信された広告を受信し、ビデオ認識された物に広告を表示し、広告は、ビデオにおける物が消えるに伴って消える。これにより、ユーザが物に関する情報をチェックする必要がある場合、ビデオにおける物をクリックすることにより、物に関する情報を取得することができる。

本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、カメラにより採取されたビデオ情報を取得し、ビデオ情報を認識し、認識結果に所定の物が含まれているか否かを決定し、所定の物が含まれている場合、物に対応するキーワードを決定し、キーワードをサーバに送信し、サーバから返信されたキーワードに関連する推薦情報を受信する。これにより、物に関する推薦情報を正確にユーザに送り、ユーザが手動で物に関する情報を検索することによる面倒さが回避され、ユーザのインタラクティブな体験が向上する。

図６は、本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御装置の概略構成図である。

図６に示すように、当該音声及びビデオ通話のためのインタラクティブ制御装置は、取得モジュール１００と、判断モジュール２００と、処理モジュール３００と、を含む。

取得モジュール１００は、音声方式及び/又はジェスチャ方式を含む所定の方式で、ユーザの入力されたユーザ行動データを取得する。判断モジュール２００は、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。処理モジュール３００は、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。

なお、ここで、トリガ情報と操作命令とイベントとの対応関係は、予め保存されているものである。

本発明の一実施例において、上記トリガ情報は、トリガ語と動作操作語とを含んでもよい。上記判断モジュール２００は、具体的に、ユーザ行動データに所定のトリガ語が含まれているか否かを判断し、トリガ語が含まれていると判断・通知された場合、ユーザ行動データに所定の動作操作語が含まれているか否かをさらに判断する。処理モジュール３００は、具体的に、動作操作語が含まれていると判断・通知された場合、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、動作操作語に対応する操作命令に対応するイベントを実行する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令（トリガ語）は、「Ｘ音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「Ｘ音声アシスタント」が含まれている場合、音声データにおける「Ｘ音声アシスタント」の後の音声データを認識して、ユーザによって入力された「Ｘ音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。取得モジュール１００が、ユーザによって入力された現在の音声データが「Ｘ音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像ｘ．ｊｐｇ及びｙ．ｊｐｇをダウンロードし、ユーザＢに送信して選択させる。音声データが解析され、次に判断モジュール２００は、解析結果に所定のトリガ語が含まれているか否かを判断し、判断により、ユーザによって入力された現在の音声データにトリガ語が含まれていると判断することができ、解析結果に所定の動作操作語が含まれているか否かをさらに判断することができる。判断により、「ダウンロード」及び「送信」という動作操作語が含まれていると決定することができ、この場合、処理モジュール３００は、動作操作語に対応する操作命令を取得し、操作命令に応じて対応するイベントを実行することができる。即ち、まずバイドォクラウドから画像ｘ．ｊｐｇ及びｙ．ｊｐｇをダウンロードし、次に画像ｘ．ｊｐｇ及びｙ．ｊｐｇをユーザＢに送信する。これにより、ユーザは、端末が画像をダウンロードして送信する操作を実行するように音声方式で制御することができ、自ら手動で画像をダウンロードして送信することによる面倒さが減少する。

また、処理モジュール３００は、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する過程において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。

具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性があるため、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。

例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが１つあり、写真・ＪＰＧというファイルも１つあり、ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・ＪＰＧというファイルを開く」意向であるかを明確にすることができない。そのため、この場合、解析した後、２つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション１であり、「デスクトップの写真・ＪＰＧというファイルを開く」の後の確認文字が写真確認オプション２であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション１」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」イベントを実行する必要があると決定し、ユーザはデスクトップの写真フォルダを自動的に開くことができる。

また、上記トリガ情報が、さらに、トリガジェスチャ動作及びジェスチャ操作であってもよい。取得モジュール１００は、具体的に、カメラによりユーザの入力されたユーザ行動データを取得する。判断モジュール２００は、具体的に、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断し、トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。処理モジュール３００は、具体的に、ジェスチャ動作が含まれていると判断・通知された場合、所定の操作命令セットに基づいてジェスチャ動作に対応する操作命令を決定し、ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令が、「ＯＫのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより取得されたビデオ情報に「ＯＫのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力することをモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャ動作によりビデオウィンドウの大きさを調整することができ、ユーザの手動操作による面倒さが減少する。

また、上記トリガ情報が、さらに、キーワードであってもよい。ユーザの音声又はビデオ通話の過程において、取得モジュール１００がユーザによって音声方式で入力された音声データを取得した後、判断モジュール２００は、具体的に、ユーザ行動データに所定のキーワードが含まれているか否かを判断する。処理モジュール３００は、具体的に、キーワードが含まれていると判断・通知された場合、キーワードをサーバに送信して、サーバにキーワードに対応する推薦情報を取得させ、また、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。

例えば、ユーザＡとユーザＢとのビデオ通話の過程において、チャット音声におけるキーワードを絶えずに認識し、キーワードを持続的にサーバに送信することができる。サーバは、最新の時間内（例えば５分間）のキーワードを分析して、チャット双方のチャットテーマを認識する。ユーザＡとユーザＢとのビデオ通話の過程において現れた高頻度のキーワードが「服」「ショッピング」「買う」「買い過ぎ」などであると仮定すると、サーバは、ユーザ間のチャットテーマが買い物のテーマであると決定することができ、買い物のテーマに関連する広告、例えば、電子商取引広告を取得し、対応する広告を端末に返信する。端末は、サーバから返信された広告を受信し、ビデオウィンドウの隣又は他の位置に広告を表示する。

ユーザのビデオ通話の過程において、上記トリガ情報は、さらに、ビデオにおける物に対応するキーワードであってもよい。取得モジュール１００は、カメラにより取得されたビデオ情報を取得し、ビデオ認識アルゴリズムに基づいてビデオ情報を認識して、ビデオ情報の認識結果を生成する。次に、判断モジュール２００は、認識結果に所定のキーワードが含まれているか否かを判断し、キーワードが含まれていると判断・通知された場合、処理モジュール３００は、キーワードをサーバに送信して、サーバにキーワードに対応する推薦情報を取得させ、また、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。

なお、音声及びビデオ通話のためのインタラクティブ制御方法の実施例に対する前記解釈及び説明は、当該実施例における音声及びビデオ通話のためのインタラクティブ制御装置にも適するため、ここでは、説明を省略する。

上記目的を達成するために、本発明は、音声及びビデオ通話のためのインタラクティブ制御装置をさらに提供する。前記装置は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを含み、前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される際に、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する操作と、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う。

上記目的を達成するために、本発明は、本発明の第１の観点の実施例に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムを記憶する記憶媒体をさらに提供する。

本明細書の説明において、「一実施例」、「一部の実施例」、「例」、「具体的な例」又は「一部の例」などの用語を参考した説明とは、当該実施例又は例に合わせて説明された具体的な特徴、構造、材料、又は特徴が、本発明の少なくとも一つの実施例又は例に含まれることを意味する。本明細書において、前記用語に対する例示的な説明は必ずしも同一の実施例又は例を示すことではない。また、説明された具体的な特徴、構造、材料、又は特徴は、いずれか一つ又は複数の実施例又は例において適切な形態で結合することができる。なお、相互に矛盾しない場合、当業者であれば、本明細書における異なる実施例又は例、及び異なる実施例又は例における特徴を結合又は組合せすることができる。

なお、「第１」、「第２」の用語は、単に目的を説明するためのものであり、とても重要であることを指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第１」、「第２」が限定されている特徴は、一つ又はより多くの該特徴を含むことを明示又は暗示するものである。本発明の説明において、他の明確且つ具体的な限定がない限り、「複数」とは、少なくとも二つ、例えば、二つ、三つを意味する。

フローチャートの中で又はここで他の形態で説明されたあらゆるプロセス又は方法の説明は、特定の論理機能又はプロセスのステップを実現することに使われる一つ又はより多くの実行可能な命令のコードのモジュール、セグメント又は一部を含む。また、本発明の好ましい実施形態の範囲は、ほかの実現も含み、示された又は議論された順番に従わずに、関連機能に基づいてほぼ同時の形態又は反対の順番に従うことを含み、機能を実行できることを表すことと理解されてもよい。これは本発明の実施例の当業者に理解されるべきである。

フローチャートで示された又はここで他の形態で説明された論理及び/又はステップは、例えば、論理機能を実現するための実行可能な命令の定配列表だと思われてもよく、あらゆるコンピュータ可読媒体において具体的に実現されて、命令実行システム、装置又はデバイス（例えば、コンピュータによるシステム、プロセッサを含むシステム、又は命令実行システム、装置又は設備から命令を読み出すとともに、命令を実行することができる他のシステム）によって使用され、又はこれらの命令実行システム、装置又は設備に合わせて使用されてもよい。本明細書について、「コンピュータ可読媒体」は、プログラムを包括、記憶、通信、伝播又は伝送して、命令実行システム、装置又は設備に使用され、又はこれらの命令実行システム、装置又は設備に合わせて使用されるあらゆるデバイスであってもよい。コンピュータ可読媒体は、さらに具体的な例（包括的でないリスト）で示すと、一つ又は複数の配線を有する電気的接続部（電子デバイス）と、携帯式コンピュータディスクカートリッジ（磁気装置）と、ランダム・アクセス・メモリー（ＲＡＭ）と、読み出し専用メモリー（ＲＯＭ）と、消去可能編集可能な読み出し専用メモリー（ＥＰＲＯＭ又はフラッシュメモリー）と、光ファイバー装置と、携帯式ディスク読み出し専用メモリー（ＣＤＲＯＭ）と、を含む。なお、コンピュータ可読媒体は、さらに、その上に前記プログラムがプリントされる紙、又は他の適切な媒体であってもよい。これは、例えば、紙又はその他の媒体を光学的にスキャンし、次に編集、解釈し、又は必要な時に他の適切な方式で処理することにより、電子方式で前記プログラムを取得してコンピュータメモリーに記憶するからである。

なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせにより、実現することができる。上記の実施形態において、複数のステップ又は方法は、メモリーに記憶される、且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアで実現すると、もう一つの実施形態と同様に、データ信号の論理機能を実現する論理ゲート回路を有する離散的論理回路、適切な組み合わせ論理ゲートを有する専用集成回路、プログラマブル・ゲート・アレイ（ＰＧＡ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など本分野における周知技術のいずれか又はこれらの組み合わせで実現することができる。

普通の当業者は、上記の実施例の方法におけるステップの全部又は一部を実現するには、プログラムが関連ハードウェアを指示することにより完成できると理解することができる。前記プログラムは、コンピュータ読み出し可能な記憶媒体に記憶されてもよい。当該プログラムが実行される場合、方法の実施例におけるステップの一つ又はその組み合わせが含まれる。

また、本発明の各実施例における各機能ユニットが一つの処理モジュールに集成されてもよいし、各ユニットが個別に物理的に存在してもよいし、二つ以上のユニットが一つのモジュールに集成されてもよい。上記集成されたモジュールがハードウェアの形で実現されてもよいし、ソフトウェア機能を持つモジュールの形で実現されてもよい。前記集成されたモジュールがソフトウェア機能のモジュールの形で実現され、独立する製品として販売又は使用される場合、一つのコンピュータ読み出し可能な記憶媒体に記憶されてもよい。

上記言及された記憶媒体は読み出し専用メモリー、磁気ディスク又はＣＤなどであってもよい。なお、以上、本発明の実施例を示して説明したが、上記実施例は例示的なものであり、本発明を限定するものであると理解してはならず、当業者は、本発明の範囲内で、上記実施例に対して変化、修正、置き換え及び変形を行うことができる。

本出願は、バイドォオンラインネットワークテクノロジー（ペイジン）カンパニーリミテッドが２０１５年９月２８日に提出した発明の名称が「音声及びビデオ通話のためのインタラクティブ制御方法及び装置」で、中国特許出願番号が２０１５１０６２９５４９.１である特許出願の優先権を主張する。

（付記）
（付記１）
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含む、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。

（付記２）
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断するステップと、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行するステップを含む、
ことを特徴とする付記１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。

（付記３）
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得するステップを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断するステップと、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行するステップを含む、
ことを特徴とする付記１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。

（付記４）
前記トリガ情報は、キーワードを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記キーワードが含まれているか否かを判断するステップを含み、
前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信するステップと、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するステップと、を含む、
ことを特徴とする付記１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。

（付記５）
前記トリガ情報は、キーワードを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラにより採取されたビデオ情報を取得するステップと、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を生成するステップと、を含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記認識結果に所定の前記キーワードが含まれているか否かを判断するステップを含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信するステップと、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報を前記ユーザに提供するステップと、を含む、
ことを特徴とする付記１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。

（付記６）
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する取得モジュールと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含む、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。

（付記７）
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断し、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行する、
ことを特徴とする付記６に記載の音声及びビデオ通話のためのインタラクティブ制御装置。

（付記８）
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
前記取得モジュールは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得し、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断し、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する、
ことを特徴とする付記６に記載の音声及びビデオ通話のためのインタラクティブ制御装置。

（付記９）
前記トリガ情報は、キーワードを含み、
前記判断モジュールは、
前記ユーザ行動データに所定の前記キーワードが含まれているか否かを判断し、
前記処理モジュールは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供する、
ことを特徴とする付記６に記載の音声及びビデオ通話のためのインタラクティブ制御装置。

（付記１０）
前記トリガ情報は、キーワードを含み、
前記取得モジュールは、
カメラにより採取されたビデオ情報を取得し、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を生成し、
前記判断モジュールは、
前記認識結果に所定の前記キーワードが含まれているか否かを判断し、
前記処理モジュールは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報を前記ユーザに提供する、
ことを特徴とする付記６に記載の音声及びビデオ通話のためのインタラクティブ制御装置。

（付記１１）
一つ又は複数のプロセッサと、
メモリと、
一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される場合に、
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する操作と、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。

（付記１２）
付記１〜５のいずれか１つに記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムが記憶されている、
ことを特徴とする記憶媒体。

Claims

ユーザと１つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含み、
前記トリガ情報は、キーワードを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラにより採取されたビデオ情報を取得するステップと、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成するステップであって、前記認識結果は、前記ビデオ情報における物の特徴情報を含むステップと、を含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断するステップを含み、
前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行すること、を含む、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断するステップと、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行するステップを含む、
ことを特徴とする請求項１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得するステップを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断するステップと、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行するステップを含む、
ことを特徴とする請求項１に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
ユーザと１つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する取得モジュールと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含み、
前記トリガ情報は、キーワードを含み、
前記取得モジュールは、
カメラにより採取されたビデオ情報を取得し、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、
前記判断モジュールは、
前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、
前記処理モジュールは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断し、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行する、
ことを特徴とする請求項４に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
前記取得モジュールは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得し、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断し、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する、
ことを特徴とする請求項４に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
一つ又は複数のプロセッサと、
メモリと、
一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される場合に、
ユーザと１つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する操作と、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行い、
前記トリガ情報は、キーワードを含み、
前記取得する操作は、
カメラにより採取されたビデオ情報を取得し、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、
前記決定する操作は、
前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、
前記イベントを実行する操作は、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
請求項１〜３のいずれか１項に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムが記憶されている、
ことを特徴とする記憶媒体。