JP6916167B2 - 音声及びビデオ通話のためのインタラクティブ制御方法及び装置 - Google Patents

音声及びビデオ通話のためのインタラクティブ制御方法及び装置 Download PDF

Info

Publication number
JP6916167B2
JP6916167B2 JP2018510102A JP2018510102A JP6916167B2 JP 6916167 B2 JP6916167 B2 JP 6916167B2 JP 2018510102 A JP2018510102 A JP 2018510102A JP 2018510102 A JP2018510102 A JP 2018510102A JP 6916167 B2 JP6916167 B2 JP 6916167B2
Authority
JP
Japan
Prior art keywords
user
determined
behavior data
predetermined
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018510102A
Other languages
English (en)
Other versions
JP2018525751A (ja
Inventor
豊 李
豊 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2018525751A publication Critical patent/JP2018525751A/ja
Application granted granted Critical
Publication of JP6916167B2 publication Critical patent/JP6916167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、インターネット技術分野に関し、特に、音声及びビデオ通話のためのインタラクティブ制御方法及び装置に関する。
インターネット技術の急速発展に伴い、インスタントメッセージIM(Instant messaging)ツール(例えば、ウィーチャット、QQなど)は、人々の生活及び仕事においてますます多く応用されてきており、IMツール(IMソフトウェア)は、既に人々の生活においてよく使用されるコミュニケーションツールとなっている。IMソフトウェアを使用するプロセスにおいて、ユーザは、文字、音声及びビデオなどの方式で、IMの友達と、又はチャットグループでコミュニケーションすることができる。
ユーザがビデオの方式で友人とチャットする過程において、ユーザが何らかの操作を実行する必要がある場合、ユーザの通常のやり方は、対応する操作を手動で実行することである。例えば、ユーザは、ビデオウィンドウのサイズを調整する必要があり、この場合、ビデオウィンドウのサイズを調整するために、ユーザはマウスを操作する必要がある。また、例えば、ユーザは、遠端のチャットユーザに最も美しい画像の選択を助けてもらう必要があるが、画像が遠いクラウドに格納されているため、まずローカルで遠いクラウドにおける画像をダウンロードしてチャットユーザに送信するしかできなく、チャットユーザは、画像の転送を受信してクリックしてチェックし、次に選択の結果をユーザに伝える。
しかしながら、ビデオ通話の過程において、ユーザが手動で何らかの操作を実行することが都合がよくない状況が現れることがある。従来のインタラクティブ制御方式は、比較的シンプルであるため、ユーザは、ビデオ通話の過程において両手を解放することができず、ユーザのインタラクティブな体験が理想的ではない。
本発明は、関連技術における一つの技術的課題を少なくともある程度で解決することを目的とする。
そのため、本発明は、音声及びビデオ通話のためのインタラクティブ制御方法を提供することを第1の目的とし、当該方法により、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
本発明は、音声及びビデオ通話のためのインタラクティブ制御装置を提供することを第2の目的とする。
本発明は、音声及びビデオ通話のためのインタラクティブ制御装置を提供することを第3の目的とする。
本発明は、記憶媒体を提供することを第4の目的とする。
上記目的を達成するために、本発明の第1の観点の実施例は、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得するステップと、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含む音声及びビデオ通話のためのインタラクティブ制御方法を提供する。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
上記目的を達成するために、本発明の第2の観点の実施例は、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する取得モジュールと、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令における前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含む音声及びビデオ通話のためのインタラクティブ制御装置を提供する。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、取得モジュールにより、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、判断モジュールにより、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、処理モジュールにより、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
上記目的を達成するために、本発明の第3の観点の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを含み、前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される際に、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する操作と、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
上記目的を達成するために、本発明の第4の観点の実施例における記憶媒体は、本発明の第1の観点の実施例に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムを記憶する。
本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。 本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。 本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。 本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。 本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。 本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御装置の概略構成図である。
以下に、本発明の実施例を詳しく説明する。前記実施例の例が図面に示され、ここで、同一又は類似する符号が常に同一又は類似する要素又は同一又は類似する機能を有する要素を表す。図面を参照しながら説明される以下の実施例は、単に例示するものであり、本発明を解釈するためのものであり、本発明を限定するものではないと理解しなくてはならない。
以下に、本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法及び装置を図面を参照して説明する。
図1は、本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。
図1に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップS101と、ステップS102と、ステップS103とを含む。
ステップS101では、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する。
具体的には、ユーザと1つ又は複数の他のユーザとの音声通話の過程において、ユーザの入力された音声データに応じて一部の操作を実行することができるために、ユーザの入力された音声データをモニタリングすることができる。
また、ユーザと1つ又は複数の他のユーザとのビデオ通話の過程において、ユーザの入力された音声データ又はジェスチャ動作に応じて一部の操作を実行することができるために、ユーザの入力された音声データをモニタリングするとともに、端末におけるカメラをモニタリングしてもよい。これにより、カメラに基づいて取得されたビデオ情報に基づいてユーザによって入力されたジェスチャ動作を取得する。
ステップS102では、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。
ユーザの正常な音声又はビデオ通話への影響を減少させるために、ユーザが、端末がユーザ自身によって入力された音声又はジェスチャに応じて一部の操作を自動で実行することを必要とする場合、ユーザは、一部の操作を実行するように端末を制御するアプリケーションプログラムをトリガする一部のトリガ語又はトリガ動作を入力することができる。これにより、アプリケーションプログラムは、ユーザがトリガ語又はトリガ動作の後に入力した音声又はジェスチャ動作を取得し、音声又はジェスチャ動作に応じて一部の操作を実行する。
ここで、トリガ情報は、トリガ語、動作操作語、キーワード、トリガジェスチャ動作、及びジェスチャ動作を含むが、これらに限定されない。
本発明の一実施例において、ユーザによって音声方式でユーザ行動データを入力することがモニタリングされた場合、ユーザ行動データに所定のトリガ語が含まれているか否かを判断することができる。トリガ語が含まれていると判断・通知された場合、ユーザ行動データに所定の動作操作語が含まれているか否かをさらに判断する。なお、この場合のユーザ行動データが音声データである。
また、ユーザがビデオ通話方式でチャットする過程において、カメラによりユーザの入力されたユーザ行動データを取得することができる。ユーザ行動データを取得した後、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断することができる。トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。
ステップS103では、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。
なお、ここで、トリガ情報と操作命令とイベントとの対応関係は予め保存されているものである。
例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令(トリガ語)が、「X音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「X音声アシスタント」が含まれている場合、音声データにおける「X音声アシスタント」の後の音声データを認識して、ユーザによって入力された「X音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。ユーザによって入力された現在の音声データが「X音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像x.jpg及びy.jpgをダウンロードし、ユーザBに送信して選択させる。この場合、ユーザの入力された音声データを従来技術で解析して音声データの解析結果を取得することができ、解析結果に所定の動作操作語が含まれているか否かを判断し、所定の動作操作語が含まれている場合、動作操作語に対応する操作命令を取得し、操作命令に従って対応する操作を実行する。
また、例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令は、「OKのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより採取されたビデオ情報に「OKのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力したことがモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチャ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。
また、本発明の一実施例において、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する経過において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。
具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性がある。従って、対応するイベントを実行する前に、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。
例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが1つあり、写真・JPGというファイルも1つある。ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・JPGというファイルを開く」意向であるかを明確にすることができない。そのため、この場合、解析した後、2つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション1であり、「デスクトップの写真・JPGというファイルを開く」の後の確認文字が写真確認オプション2であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション1」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」イベントを実行する必要があると決定し、ユーザにデスクトップの写真フォルダを自動的に開くことができる。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
図2は本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。
図2に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップS201と、ステップS202と、ステップS203と、ステップS204とを含む。
ステップS201では、ユーザによって音声方式で入力された音声データを取得する。
具体的には、ユーザと1つ又は複数の他のユーザとの音声通話の過程において、ユーザの入力された音声データをモニタリングすることができる。
ステップS202では、音声データに所定のトリガ語が含まれているか否かを決定する。
ステップS203では、所定のトリガ語が含まれている場合、音声データに所定の動作操作語が含まれているか否かをさらに判断する。
具体的には、ユーザの入力された音声データを取得した後、従来技術で音声データを解析して音声データの解析結果を取得し、解析結果に所定のトリガ語が含まれているか否かを判断し、所定のトリガ語が含まれていると判断・通知された場合、所定の動作操作語が含まれているか否かをさらに判断する。
ステップS204では、動作操作語が含まれていると判断・通知された場合、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、動作操作語に対応する操作命令に対応するイベントを実行する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令(トリガ語)は、「X音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「X音声アシスタント」が含まれている場合、音声データにおける「X音声アシスタント」の後の音声データを認識して、ユーザによって入力された「X音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。ユーザによって入力された現在の音声データが「X音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像x.jpg及びy.jpgをダウンロードし、ユーザBに送信して選択させる。この場合、音声データを解析し、次に解析結果に所定のトリガ語が含まれているか否かを判断し、判断により、ユーザよって入力された現在の音声データにトリガ語が含まれていると判断することができ、解析結果に所定の動作操作語が含まれているか否かをさらに判断することができる。判断により、「ダウンロード」及び「送信」という動作操作語が含まれていると決定することができ、動作操作語に対応する操作命令を取得し、操作命令に従って対応するイベントを実行する。即ち、まずバイドォクラウドから画像x.jpg及びy.jpgをダウンロードし、画像x.jpg及びy.jpgをユーザBに送信する。これにより、ユーザは、端末が画像をダウンロードして送信する操作を実行するように音声方式で制御することができ、自ら手動で画像をダウンロードして送信することによる面倒さが減少する。
また、本発明の一実施例において、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する過程において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。
具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性がある。従って、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。
例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが1つあり、写真・JPGというファイルも1つあり、ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・JPGというファイルを開く」意向であるかを明確にすることができない。このため、この場合、解析した後、2つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション1であり、「デスクトップの写真・JPGというファイルを開く」の後の確認文字が写真確認オプション2であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション1」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」というイベントを実行する必要があると決定することができ、ユーザにデスクトップ上の写真フォルダを自動的に開く。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
図3は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。
図3に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップS301と、ステップS302と、ステップS303とを含む。
ステップS301では、カメラによりユーザの入力されたユーザ行動データを取得する。
具体的には、ユーザと1つ又は複数の他のユーザとの音声通話の過程において、ユーザがジェスチャ動作により動作命令を入力することができるため、端末におけるカメラをモニタリングし、カメラにより採取されたビデオ情報を取得することができる。
ステップS302では、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。
本発明の一実施例において、カメラによりユーザ行動データを取得した後、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断することができる。トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。
具体的には、カメラにより採取されたビデオ情報を取得した後、関連するビデオアルゴリズムに基づいてビデオ情報を認識し、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガジェスチャ動作が含まれているか否かを判断する。トリガジェスチャ動作が含まれている場合、ユーザがトリガジェスチャ動作を入力した後に入力したジェスチャ動作が所定のトリガジェスチャ動作であるか否かをさらに判断する。
ステップS303では、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令が、「OKのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより採取されたビデオ情報に「OKのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力することがモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチャ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャ動作によりビデオウィンドウの大きさを調整することができ、ユーザの手動操作による面倒さが減少する。
なお、ジェスチャ動作によりビデオウィンドウの大きさを調整することは、単に本発明の一例であり、ユーザは、さらに、ジェスチャ動作により、端末が他の操作を実行するように制御することができ、例えば、ユーザは、ジェスチャ動作により、ビデオウィンドウを閉じることを実行するように制御することができる。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、カメラによりユーザの入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、処理モジュールは、所定の操作命令セットに従ってトリガ情報に対応するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
ユーザが音声又はビデオ通信により他のユーザと話し合うプロセスにおいて、ユーザの入力された音声データに応じて、端末が一部の操作を実行するように制御することができるだけでなく、音声データにおける一部のキーワードに基づいて、キーワードに関連する推薦情報を推薦して情報をユーザに正確に送ることもでき、これにより、ユーザは、キーワードに関連する情報を取得しやすくなる。
図4は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。
図4に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップS401と、ステップS402と、ステップS403と、ステップS404とを含む。
ステップS401では、ユーザによって音声方式で入力された音声データを取得する。
具体的には、ユーザと1つ又は複数の他のユーザとの音声又はビデオ通話の過程において、ユーザの入力された音声データをモニタリングすることができる。
ステップS402では、音声データに所定のキーワードが含まれているか否かを決定する。
具体的には、ユーザの入力された音声データを取得した後、従来技術により音声データを認識し、認識結果に所定のキーワードが含まれているか否かを判断することができる。
ステップS403では、所定のキーワードが含まれている場合、サーバがキーワードに対応する推薦情報を取得するように、キーワードをサーバに送信する。
ステップS404では、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、チャット音声におけるキーワードを絶えずに認識し、サーバにキーワードを持続的に送信することができる。サーバは、最新の時間内(例えば5分間)のキーワードを分析して、チャット双方のチャットテーマを認識する。ユーザAとユーザBとのビデオ通話の過程において現れた高頻度のキーワードが「服」「ショッピング」「買う」「買い過ぎ」などであると仮定すると、サーバは、ユーザ間のチャットテーマが買い物のテーマであると決定することができ、買い物のテーマに関連する広告、例えば電子商取引広告を取得し、対応する広告を端末に返信する。端末は、サーバから返信された広告を受信し、ビデオウィンドウの隣又は他の位置に広告を表示する。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、ユーザによって音声方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のキーワードが含まれているか否かを決定し、キーワードが含まれていると判断・通知された場合、キーワードをサーバに送信し、サーバから返信されたキーワードに関連する推薦情報を受信する。これにより、チャットの音声に応じて、キーワードに関連する推薦情報を正確にユーザに送り、ユーザが手動でキーワードに関連する情報を検索することによる面倒さが回避され、ユーザのインタラクティブな体験が向上する。
ビデオ通話の過程において、ユーザによって入力されたジェスチャ動作に応じて端末が一部の操作を実行するように制御することができるだけでなく、カメラにより採取されたビデオ情報に物が含まれている場合、ビデオにおける物を認識し、物に関する推薦情報をユーザに送ることもできる。この場合、ユーザは、推奨情報をクリックすることにより、物に関する情報をチェックすることができる。
図5は、本発明のもう一つの実施例における音声及びビデオ通話のためのインタラクティブ制御方法のフローチャートである。
図5に示すように、当該音声及びビデオ通話のためのインタラクティブ制御方法は、以下のステップS501と、ステップS502と、ステップS503と、ステップS504と、ステップS505とを含む。
ステップS501では、カメラにより取得されたビデオ情報を取得する。
ステップS502では、ビデオ認識アルゴリズムに基づいてビデオ情報を認識して、ビデオ情報の認識結果を生成する。
具体的には、ビデオ通話の過程において、カメラにより採取されたビデオ情報を取得し、ビデオ認識アルゴリズムに基づいてビデオ情報を認識し、ビデオ情報に物が含まれていると認識した場合、物に対応するキーワードを決定する。
ステップS503では、認識結果に所定のキーワードが含まれているか否かを判断する。
ステップS504では、キーワードが含まれていると判断・通知された場合、サーバがキーワードに対応する推薦情報を取得するように、キーワードをサーバに送信する。
ステップS505では、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。
例えば、ユーザAとユーザBとがビデオ通話し、ユーザAが1つのアイフォンを手持ちしてアイフォンに関する情報をユーザBに紹介していると仮定すると、この場合、アプリケーションプログラムは、カメラにより採取されたビデオ情報を取得することができ、ビデオ認識アルゴリズムに基づいて認識した後、ビデオ情報には1つの物が含まれていると決定することができる。ビデオにおける物の特徴情報を分析することにより、当該物に対応するキーワードがアイフォンであると決定することができる。この場合、 アプリケーションプログラムは、キーワードをサーバに送信し、サーバは、キーワードに応じた適切な広告を選択し、対応する広告を返信する。アプリケーションサーバは、サーバから返信された広告を受信し、ビデオ認識された物に広告を表示し、広告は、ビデオにおける物が消えるに伴って消える。これにより、ユーザが物に関する情報をチェックする必要がある場合、ビデオにおける物をクリックすることにより、物に関する情報を取得することができる。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御方法は、カメラにより採取されたビデオ情報を取得し、ビデオ情報を認識し、認識結果に所定の物が含まれているか否かを決定し、所定の物が含まれている場合、物に対応するキーワードを決定し、キーワードをサーバに送信し、サーバから返信されたキーワードに関連する推薦情報を受信する。これにより、物に関する推薦情報を正確にユーザに送り、ユーザが手動で物に関する情報を検索することによる面倒さが回避され、ユーザのインタラクティブな体験が向上する。
図6は、本発明の一実施例における音声及びビデオ通話のためのインタラクティブ制御装置の概略構成図である。
図6に示すように、当該音声及びビデオ通話のためのインタラクティブ制御装置は、取得モジュール100と、判断モジュール200と、処理モジュール300と、を含む。
取得モジュール100は、音声方式及び/又はジェスチャ方式を含む所定の方式で、ユーザの入力されたユーザ行動データを取得する。判断モジュール200は、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する。処理モジュール300は、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。
なお、ここで、トリガ情報と操作命令とイベントとの対応関係は、予め保存されているものである。
本発明の一実施例において、上記トリガ情報は、トリガ語と動作操作語とを含んでもよい。上記判断モジュール200は、具体的に、ユーザ行動データに所定のトリガ語が含まれているか否かを判断し、トリガ語が含まれていると判断・通知された場合、ユーザ行動データに所定の動作操作語が含まれているか否かをさらに判断する。処理モジュール300は、具体的に、動作操作語が含まれていると判断・通知された場合、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、動作操作語に対応する操作命令に対応するイベントを実行する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザの入力された音声データに応じて一部の操作を実行するようにトリガするプリセット音声命令(トリガ語)は、「X音声アシスタント」であると仮定する。即ち、ユーザの入力された音声データに「X音声アシスタント」が含まれている場合、音声データにおける「X音声アシスタント」の後の音声データを認識して、ユーザによって入力された「X音声アシスタント」の後の音声データに所定の動作操作語が含まれているか否かを決定する。取得モジュール100が、ユーザによって入力された現在の音声データが「X音声アシスタント」であることを取得した場合、バイドォクラウドにおける画像x.jpg及びy.jpgをダウンロードし、ユーザBに送信して選択させる。音声データが解析され、次に判断モジュール200は、解析結果に所定のトリガ語が含まれているか否かを判断し、判断により、ユーザによって入力された現在の音声データにトリガ語が含まれていると判断することができ、解析結果に所定の動作操作語が含まれているか否かをさらに判断することができる。判断により、「ダウンロード」及び「送信」という動作操作語が含まれていると決定することができ、この場合、処理モジュール300は、動作操作語に対応する操作命令を取得し、操作命令に応じて対応するイベントを実行することができる。即ち、まずバイドォクラウドから画像x.jpg及びy.jpgをダウンロードし、次に画像x.jpg及びy.jpgをユーザBに送信する。これにより、ユーザは、端末が画像をダウンロードして送信する操作を実行するように音声方式で制御することができ、自ら手動で画像をダウンロードして送信することによる面倒さが減少する。
また、処理モジュール300は、所定の操作命令セットに基づいて動作操作語に対応する操作命令を決定し、操作語に対応する操作命令に対応するイベントを実行する過程において、複数のイベントを取得した場合、複数のイベントをユーザに提供して確認してもらう。
具体的には、ユーザの入力された音声データに応じて実行する過程において、ユーザの指示があまり明確でない場合がある。この場合、音声データに応じてイベントを実行することによって複数のイベントを得る可能性があるため、複数のイベントに番号づけ、イベント、番号、及びイベントを確認する提示情報を表示して、イベントを確認するようにユーザに提示する。
例えば、ユーザの音声データが「デスクトップの写真を開く」であり、デスクトップに「写真」というフォルダが1つあり、写真・JPGというファイルも1つあり、ユーザの入力された音声データに応じて実行する過程において、ユーザが「デスクトップの写真というフォルダを開く」意向であるか、それとも「デスクトップの写真・JPGというファイルを開く」意向であるかを明確にすることができない。そのため、この場合、解析した後、2つのオプションをユーザに提供して確認してもらう。ユーザの確認を正しく認識するために、各命令の確認パスワードにより認識する。「デスクトップの写真というフォルダを開く」の後の確認文字が写真確認オプション1であり、「デスクトップの写真・JPGというファイルを開く」の後の確認文字が写真確認オプション2であると仮定すると、アプリケーションプログラムにおけるユーザによって音声で入力された「写真確認オプション1」を受信した場合、アプリケーションプログラムは、ユーザによって入力された現在の音声データに応じて、ユーザが「デスクトップの写真というフォルダを開く」イベントを実行する必要があると決定し、ユーザはデスクトップの写真フォルダを自動的に開くことができる。
また、上記トリガ情報が、さらに、トリガジェスチャ動作及びジェスチャ操作であってもよい。取得モジュール100は、具体的に、カメラによりユーザの入力されたユーザ行動データを取得する。判断モジュール200は、具体的に、ユーザ行動データに所定のトリガジェスチャ動作が含まれているか否かを判断し、トリガジェスチャ動作が含まれていると判断・通知された場合、ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断する。処理モジュール300は、具体的に、ジェスチャ動作が含まれていると判断・通知された場合、所定の操作命令セットに基づいてジェスチャ動作に対応する操作命令を決定し、ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、アプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするプリセット動作命令が、「OKのジェスチャ」であると仮定する。即ち、カメラにより採取されたビデオ情報を分析するプロセスにおいて、カメラにより取得されたビデオ情報に「OKのジェスチャ」が含まれていると分析された場合、ビデオ情報にアプリケーションプログラムにおけるユーザによって入力されたジェスチャ動作に応じて一部の操作を実行するようにトリガするトリガ動作が含まれていると決定することができる。この場合、ユーザがトリガ動作を入力した後、「拡大ジェスチャ」をさらに入力することをモニタリングされた場合、カメラにより採取されたビデオ情報を分析することにより、ユーザによって入力された現在のジェスチャ動作が所定のジェスチ動作であると決定することができる。この場合、「拡大ジェスチャ」に対応する操作命令を取得することができる。「拡大ジェスチャ」に対応する操作指令が「ウィンドウを最大化する」であると仮定する場合、アプリケーションプログラムは、操作命令に従ってビデオウィンドウを最大化するイベントを実行する。これにより、ユーザは、ビデオ通話の過程において、ジェスチャ動作によりビデオウィンドウの大きさを調整することができ、ユーザの手動操作による面倒さが減少する。
また、上記トリガ情報が、さらに、キーワードであってもよい。ユーザの音声又はビデオ通話の過程において、取得モジュール100がユーザによって音声方式で入力された音声データを取得した後、判断モジュール200は、具体的に、ユーザ行動データに所定のキーワードが含まれているか否かを判断する。処理モジュール300は、具体的に、キーワードが含まれていると判断・通知された場合、キーワードをサーバに送信して、サーバにキーワードに対応する推薦情報を取得させ、また、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。
例えば、ユーザAとユーザBとのビデオ通話の過程において、チャット音声におけるキーワードを絶えずに認識し、キーワードを持続的にサーバに送信することができる。サーバは、最新の時間内(例えば5分間)のキーワードを分析して、チャット双方のチャットテーマを認識する。ユーザAとユーザBとのビデオ通話の過程において現れた高頻度のキーワードが「服」「ショッピング」「買う」「買い過ぎ」などであると仮定すると、サーバは、ユーザ間のチャットテーマが買い物のテーマであると決定することができ、買い物のテーマに関連する広告、例えば、電子商取引広告を取得し、対応する広告を端末に返信する。端末は、サーバから返信された広告を受信し、ビデオウィンドウの隣又は他の位置に広告を表示する。
ユーザのビデオ通話の過程において、上記トリガ情報は、さらに、ビデオにおける物に対応するキーワードであってもよい。取得モジュール100は、カメラにより取得されたビデオ情報を取得し、ビデオ認識アルゴリズムに基づいてビデオ情報を認識して、ビデオ情報の認識結果を生成する。次に、判断モジュール200は、認識結果に所定のキーワードが含まれているか否かを判断し、キーワードが含まれていると判断・通知された場合、処理モジュール300は、キーワードをサーバに送信して、サーバにキーワードに対応する推薦情報を取得させ、また、サーバから返信された推薦情報を受信し、推薦情報をユーザに提供する。
なお、音声及びビデオ通話のためのインタラクティブ制御方法の実施例に対する前記解釈及び説明は、当該実施例における音声及びビデオ通話のためのインタラクティブ制御装置にも適するため、ここでは、説明を省略する。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、取得モジュールにより、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、判断モジュールにより、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、処理モジュールにより、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
上記目的を達成するために、本発明は、音声及びビデオ通話のためのインタラクティブ制御装置をさらに提供する。前記装置は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを含み、前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される際に、音声方式及び/又はジェスチャ方式を含む所定の方式でユーザの入力されたユーザ行動データを取得する操作と、前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う。
本発明の実施例における音声及びビデオ通話のためのインタラクティブ制御装置は、ユーザによって音声方式及び/又はジェスチャ方式で入力されたユーザ行動データを取得し、ユーザ行動データに所定のトリガ情報が含まれているか否かを決定し、トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうちトリガ情報に対応する操作命令を決定し、操作命令に対応するイベントを実行する。これにより、ユーザは、音声及び/又はビデオ通話の過程において、音声及び/又はジェスチャの方式で端末が他の操作を実行するように制御することができ、ユーザの手動操作による面倒さが回避され、ユーザのインタラクティブな体験が向上する。
上記目的を達成するために、本発明は、本発明の第1の観点の実施例に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムを記憶する記憶媒体をさらに提供する。
本明細書の説明において、「一実施例」、「一部の実施例」、「例」、「具体的な例」又は「一部の例」などの用語を参考した説明とは、当該実施例又は例に合わせて説明された具体的な特徴、構造、材料、又は特徴が、本発明の少なくとも一つの実施例又は例に含まれることを意味する。本明細書において、前記用語に対する例示的な説明は必ずしも同一の実施例又は例を示すことではない。また、説明された具体的な特徴、構造、材料、又は特徴は、いずれか一つ又は複数の実施例又は例において適切な形態で結合することができる。なお、相互に矛盾しない場合、当業者であれば、本明細書における異なる実施例又は例、及び異なる実施例又は例における特徴を結合又は組合せすることができる。
なお、「第1」、「第2」の用語は、単に目的を説明するためのものであり、とても重要であることを指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第1」、「第2」が限定されている特徴は、一つ又はより多くの該特徴を含むことを明示又は暗示するものである。本発明の説明において、他の明確且つ具体的な限定がない限り、「複数」とは、少なくとも二つ、例えば、二つ、三つを意味する。
フローチャートの中で又はここで他の形態で説明されたあらゆるプロセス又は方法の説明は、特定の論理機能又はプロセスのステップを実現することに使われる一つ又はより多くの実行可能な命令のコードのモジュール、セグメント又は一部を含む。また、本発明の好ましい実施形態の範囲は、ほかの実現も含み、示された又は議論された順番に従わずに、関連機能に基づいてほぼ同時の形態又は反対の順番に従うことを含み、機能を実行できることを表すことと理解されてもよい。これは本発明の実施例の当業者に理解されるべきである。
フローチャートで示された又はここで他の形態で説明された論理及び/又はステップは、例えば、論理機能を実現するための実行可能な命令の定配列表だと思われてもよく、あらゆるコンピュータ可読媒体において具体的に実現されて、命令実行システム、装置又はデバイス(例えば、コンピュータによるシステム、プロセッサを含むシステム、又は命令実行システム、装置又は設備から命令を読み出すとともに、命令を実行することができる他のシステム)によって使用され、又はこれらの命令実行システム、装置又は設備に合わせて使用されてもよい。本明細書について、「コンピュータ可読媒体」は、プログラムを包括、記憶、通信、伝播又は伝送して、命令実行システム、装置又は設備に使用され、又はこれらの命令実行システム、装置又は設備に合わせて使用されるあらゆるデバイスであってもよい。コンピュータ可読媒体は、さらに具体的な例(包括的でないリスト)で示すと、一つ又は複数の配線を有する電気的接続部(電子デバイス)と、携帯式コンピュータディスクカートリッジ(磁気装置)と、ランダム・アクセス・メモリー(RAM)と、読み出し専用メモリー(ROM)と、消去可能編集可能な読み出し専用メモリー(EPROM又はフラッシュメモリー)と、光ファイバー装置と、携帯式ディスク読み出し専用メモリー(CD ROM)と、を含む。なお、コンピュータ可読媒体は、さらに、その上に前記プログラムがプリントされる紙、又は他の適切な媒体であってもよい。これは、例えば、紙又はその他の媒体を光学的にスキャンし、次に編集、解釈し、又は必要な時に他の適切な方式で処理することにより、電子方式で前記プログラムを取得してコンピュータメモリーに記憶するからである。
なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせにより、実現することができる。上記の実施形態において、複数のステップ又は方法は、メモリーに記憶される、且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアで実現すると、もう一つの実施形態と同様に、データ信号の論理機能を実現する論理ゲート回路を有する離散的論理回路、適切な組み合わせ論理ゲートを有する専用集成回路、プログラマブル・ゲート・アレイ(PGA)、フィールド・プログラマブル・ゲート・アレイ(FPGA)など本分野における周知技術のいずれか又はこれらの組み合わせで実現することができる。
普通の当業者は、上記の実施例の方法におけるステップの全部又は一部を実現するには、プログラムが関連ハードウェアを指示することにより完成できると理解することができる。前記プログラムは、コンピュータ読み出し可能な記憶媒体に記憶されてもよい。当該プログラムが実行される場合、方法の実施例におけるステップの一つ又はその組み合わせが含まれる。
また、本発明の各実施例における各機能ユニットが一つの処理モジュールに集成されてもよいし、各ユニットが個別に物理的に存在してもよいし、二つ以上のユニットが一つのモジュールに集成されてもよい。上記集成されたモジュールがハードウェアの形で実現されてもよいし、ソフトウェア機能を持つモジュールの形で実現されてもよい。前記集成されたモジュールがソフトウェア機能のモジュールの形で実現され、独立する製品として販売又は使用される場合、一つのコンピュータ読み出し可能な記憶媒体に記憶されてもよい。
上記言及された記憶媒体は読み出し専用メモリー、磁気ディスク又はCDなどであってもよい。なお、以上、本発明の実施例を示して説明したが、上記実施例は例示的なものであり、本発明を限定するものであると理解してはならず、当業者は、本発明の範囲内で、上記実施例に対して変化、修正、置き換え及び変形を行うことができる。
本出願は、バイドォオンラインネットワークテクノロジー(ペイジン)カンパニーリミテッドが2015年9月28日に提出した発明の名称が「音声及びビデオ通話のためのインタラクティブ制御方法及び装置」で、中国特許出願番号が201510629549.1である特許出願の優先権を主張する。
(付記)
(付記1)
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含む、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。
(付記2)
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断するステップと、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行するステップを含む、
ことを特徴とする付記1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
(付記3)
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得するステップを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断するステップと、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断するステップと、を含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行するステップを含む、
ことを特徴とする付記1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
(付記4)
前記トリガ情報は、キーワードを含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記ユーザ行動データに所定の前記キーワードが含まれているか否かを判断するステップを含み、
前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信するステップと、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するステップと、を含む、
ことを特徴とする付記1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
(付記5)
前記トリガ情報は、キーワードを含み、
ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
カメラにより採取されたビデオ情報を取得するステップと、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を生成するステップと、を含み、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
前記認識結果に所定の前記キーワードが含まれているか否かを判断するステップを含み、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信するステップと、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報を前記ユーザに提供するステップと、を含む、
ことを特徴とする付記1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
(付記6)
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する取得モジュールと、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含む、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
(付記7)
前記トリガ情報は、トリガ語と動作操作語とを含み、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断し、
前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行する、
ことを特徴とする付記6に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
(付記8)
前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
前記取得モジュールは、
カメラによって前記ユーザにより入力されたユーザ行動データを取得し、
前記判断モジュールは、
前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断し、
前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断し、
前記処理モジュールは、
前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する、
ことを特徴とする付記6に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
(付記9)
前記トリガ情報は、キーワードを含み、
前記判断モジュールは、
前記ユーザ行動データに所定の前記キーワードが含まれているか否かを判断し、
前記処理モジュールは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供する、
ことを特徴とする付記6に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
(付記10)
前記トリガ情報は、キーワードを含み、
前記取得モジュールは、
カメラにより採取されたビデオ情報を取得し、
ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を生成し、
前記判断モジュールは、
前記認識結果に所定の前記キーワードが含まれているか否かを判断し、
前記処理モジュールは、
前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、
前記サーバから返信された前記推薦情報を受信し、前記推薦情報を前記ユーザに提供する、
ことを特徴とする付記6に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
(付記11)
一つ又は複数のプロセッサと、
メモリと、
一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される場合に、
ユーザにより音声方式及び/又はジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する操作と、
前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、
前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行う、
ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
(付記12)
付記1〜5のいずれか1つに記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムが記憶されている、
ことを特徴とする記憶媒体。

Claims (8)

  1. ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、
    前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含
    前記トリガ情報は、キーワードを含み、
    ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
    カメラにより採取されたビデオ情報を取得するステップと、
    ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成するステップであって、前記認識結果は、前記ビデオ情報における物の特徴情報を含むステップと、を含み、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
    前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断するステップを含み、
    前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
    前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行すること、を含む、
    ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。
  2. 前記トリガ情報は、トリガ語と動作操作語とを含み、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
    前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断するステップと、
    前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断するステップと、を含み、
    前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
    前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行するステップを含む、
    ことを特徴とする請求項1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
  3. 前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
    ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、
    カメラによって前記ユーザにより入力されたユーザ行動データを取得するステップを含み、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、
    前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断するステップと、
    前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断するステップと、を含み、
    前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、
    前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行するステップを含む、
    ことを特徴とする請求項1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。
  4. ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する取得モジュールと、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、
    前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含
    前記トリガ情報は、キーワードを含み、
    前記取得モジュールは、
    カメラにより採取されたビデオ情報を取得し、
    ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、
    前記判断モジュールは、
    前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、
    前記処理モジュールは、
    前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、
    ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
  5. 前記トリガ情報は、トリガ語と動作操作語とを含み、
    前記判断モジュールは、
    前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断し、
    前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断し、
    前記処理モジュールは、
    前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行する、
    ことを特徴とする請求項に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
  6. 前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、
    前記取得モジュールは、
    カメラによって前記ユーザにより入力されたユーザ行動データを取得し、
    前記判断モジュールは、
    前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断し、
    前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断し、
    前記処理モジュールは、
    前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する、
    ことを特徴とする請求項に記載の音声及びビデオ通話のためのインタラクティブ制御装置。
  7. 一つ又は複数のプロセッサと、
    メモリと、
    一つ又は複数のモジュールと、を含み、
    前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される場合に、
    ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する操作と、
    前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、
    前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行
    前記トリガ情報は、キーワードを含み、
    前記取得する操作は、
    カメラにより採取されたビデオ情報を取得し、
    ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、
    前記決定する操作は、
    前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、
    前記イベントを実行する操作は、
    前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、
    ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。
  8. 請求項1〜のいずれか1項に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムが記憶されている、
    ことを特徴とする記憶媒体。
JP2018510102A 2015-09-28 2015-12-03 音声及びビデオ通話のためのインタラクティブ制御方法及び装置 Active JP6916167B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510629549.1 2015-09-28
CN201510629549.1A CN105204743A (zh) 2015-09-28 2015-09-28 用于语音和视频通讯的交互控制方法及装置
PCT/CN2015/096340 WO2017054309A1 (zh) 2015-09-28 2015-12-03 用于语音和视频通讯的交互控制方法及装置

Publications (2)

Publication Number Publication Date
JP2018525751A JP2018525751A (ja) 2018-09-06
JP6916167B2 true JP6916167B2 (ja) 2021-08-11

Family

ID=54952466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018510102A Active JP6916167B2 (ja) 2015-09-28 2015-12-03 音声及びビデオ通話のためのインタラクティブ制御方法及び装置

Country Status (4)

Country Link
US (2) US10719293B2 (ja)
JP (1) JP6916167B2 (ja)
CN (1) CN105204743A (ja)
WO (1) WO2017054309A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105204743A (zh) * 2015-09-28 2015-12-30 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置
WO2017128227A1 (zh) * 2016-01-28 2017-08-03 陈学良 一种应用程序的调用方法及移动终端
CN105690385B (zh) * 2016-03-18 2019-04-26 北京光年无限科技有限公司 基于智能机器人的应用调用方法与装置
KR20180049787A (ko) * 2016-11-03 2018-05-11 삼성전자주식회사 전자 장치, 그의 제어 방법
WO2018084576A1 (en) 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
CN106791921B (zh) * 2016-12-09 2020-03-03 北京小米移动软件有限公司 视频直播的处理方法、装置及存储介质
CN106777099A (zh) * 2016-12-14 2017-05-31 掌阅科技股份有限公司 业务语音数据的处理方法、装置及终端设备
CN106791071A (zh) * 2016-12-15 2017-05-31 珠海市魅族科技有限公司 通话控制方法及系统
CN108073273A (zh) * 2016-12-27 2018-05-25 北京市商汤科技开发有限公司 业务对象的操作方法、装置和电子设备
CN108076392A (zh) * 2017-03-31 2018-05-25 北京市商汤科技开发有限公司 直播互动方法、装置和电子设备
CN109992095A (zh) * 2017-12-29 2019-07-09 青岛有屋科技有限公司 一种智能厨房的语音和手势结合的控制方法及控制装置
CN108449487A (zh) * 2018-01-26 2018-08-24 珠海市魅族科技有限公司 彩蛋触发方法及装置、计算机装置和计算机可读存储介质
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN112272846A (zh) * 2018-08-21 2021-01-26 谷歌有限责任公司 用于调用自动助理的动态的和/或特定于场境的热词
EP4036910A1 (en) 2018-08-21 2022-08-03 Google LLC Dynamic and/or context-specific hot words to invoke automated assistant
WO2020051893A1 (zh) * 2018-09-14 2020-03-19 郑永利 互动系统、方法及处理装置
US10991364B1 (en) * 2018-09-18 2021-04-27 Amazon Technologies, Inc. Obtaining context data
CN110928977A (zh) * 2018-09-19 2020-03-27 上海擎感智能科技有限公司 语音信息的分享方法、系统、可读存储介质、服务端
CN110971747A (zh) * 2018-09-30 2020-04-07 华为技术有限公司 一种媒体展示的控制方法及相关产品
KR20200074635A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN109828660B (zh) * 2018-12-29 2022-05-17 深圳云天励飞技术有限公司 一种基于增强现实的控制应用操作的方法及装置
CN111435981B (zh) * 2019-01-11 2021-06-08 华为技术有限公司 通话处理方法及装置
CN110058835A (zh) * 2019-02-26 2019-07-26 百度国际科技(深圳)有限公司 设备控制方法、装置及设备
CN110311945B (zh) * 2019-04-30 2022-11-08 上海掌门科技有限公司 一种用于在实时视频流中呈现资源推送信息的方法与设备
US11308284B2 (en) 2019-10-18 2022-04-19 Facebook Technologies, Llc. Smart cameras enabled by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
CN111273990A (zh) * 2020-01-21 2020-06-12 腾讯科技(深圳)有限公司 信息交互方法、装置、计算机设备和存储介质
JP7001241B2 (ja) * 2020-02-18 2022-01-19 Necプラットフォームズ株式会社 パケット監視装置、構内交換機、バーチャルアシスタント呼び出し方法、及びプログラム
CN113467604A (zh) * 2020-05-28 2021-10-01 海信集团有限公司 一种数据交互方法以及相关设备
CN111913630B (zh) * 2020-06-30 2022-10-18 维沃移动通信有限公司 视频会话方法、装置和电子设备
WO2022070352A1 (ja) * 2020-09-30 2022-04-07 株式会社Pfu 情報処理装置、コンテンツ提供方法、及びプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203295A (ja) * 1998-01-08 1999-07-30 Ntt Data Corp 情報提供装置および方法
CN1351459A (zh) * 2000-10-26 2002-05-29 安捷伦科技有限公司 手持式通信和处理装置及其操作方法
JP2002271507A (ja) 2001-03-08 2002-09-20 Matsushita Electric Ind Co Ltd テレビ電話端末を用いた広告提供方法及び該広告提供方法に用いるテレビ電話端末、並びにプログラムを格納した媒体
JP2003032388A (ja) * 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP4376525B2 (ja) 2003-02-17 2009-12-02 株式会社メガチップス 多地点通信システム
JP2007018456A (ja) 2005-07-11 2007-01-25 Nikon Corp 情報表示装置及び情報表示方法
JP2008269174A (ja) 2007-04-18 2008-11-06 Fujifilm Corp 制御装置、方法およびプログラム
US9268404B2 (en) * 2010-01-08 2016-02-23 Microsoft Technology Licensing, Llc Application gesture interpretation
JP2011205238A (ja) * 2010-03-24 2011-10-13 Ntt Docomo Inc 通信端末及び情報検索方法
WO2012017525A1 (ja) 2010-08-04 2012-02-09 パイオニア株式会社 処理装置及びコマンド入力支援方法
CN102170617A (zh) * 2011-04-07 2011-08-31 中兴通讯股份有限公司 移动终端及其远程控制方法
US9026441B2 (en) * 2012-02-29 2015-05-05 Nant Holdings Ip, Llc Spoken control for user construction of complex behaviors
CN103513752B (zh) 2012-06-18 2017-02-22 华为技术有限公司 一种手势操作的方法、装置及系统
CN103576839B (zh) * 2012-07-24 2019-03-12 广州三星通信技术研究有限公司 基于面部识别来控制终端操作的设备和方法
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
CN103152244B (zh) * 2013-01-30 2015-12-02 歌尔声学股份有限公司 一种控制即时通信平台通信的方法、装置和通信系统
CN104010154B (zh) * 2013-02-27 2019-03-08 联想(北京)有限公司 信息处理方法及电子设备
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
WO2014171144A1 (ja) * 2013-04-19 2014-10-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 家電機器の制御方法、家電機器制御システム、及びゲートウェイ
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9525811B2 (en) 2013-07-01 2016-12-20 Qualcomm Incorporated Display device configured as an illumination source
CN105531671A (zh) 2013-09-13 2016-04-27 高通股份有限公司 对用户界面的前台访问具有确定性控制的无线通信设备
US10134395B2 (en) 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
CN111984165B (zh) 2013-09-29 2022-07-08 小米科技有限责任公司 一种显示消息的方法、装置及终端设备
US20150095856A1 (en) * 2013-09-29 2015-04-02 Xiaomi Inc. Method and terminal device for displaying messages
JP6851133B2 (ja) * 2014-01-03 2021-03-31 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザに方向付けられた個人情報アシスタント
CN104618220A (zh) 2014-12-31 2015-05-13 北京国创富盛通信股份有限公司 一种基于蓝牙技术的im双向交互系统
CN105204743A (zh) * 2015-09-28 2015-12-30 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置

Also Published As

Publication number Publication date
JP2018525751A (ja) 2018-09-06
US10719293B2 (en) 2020-07-21
CN105204743A (zh) 2015-12-30
US20200301663A1 (en) 2020-09-24
US20180260189A1 (en) 2018-09-13
WO2017054309A1 (zh) 2017-04-06
US11487503B2 (en) 2022-11-01

Similar Documents

Publication Publication Date Title
JP6916167B2 (ja) 音声及びビデオ通話のためのインタラクティブ制御方法及び装置
CN109844717B (zh) 用于移动应用程序的实时远程控制的系统和方法
US20190306277A1 (en) Interaction between devices displaying application status information
US11194448B2 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
EP2977926A1 (en) Method and device for verification using verification code
RU2643486C2 (ru) Способ и устройство сбора информации
KR20210134675A (ko) 사용자 시연을 통하여 명령들을 학습하고 실행 가능하게 하기 위한 방법 및 시스템
US20210352059A1 (en) Message Display Method, Apparatus, and Device
EP2811400A1 (en) Method for executing program and electronic device thereof
US11140534B2 (en) Non-intrusive proximity based advertising and message delivery
JP2018504657A (ja) タブベースのブラウザコンテンツ共有
JP2017191602A5 (ja)
KR102415607B1 (ko) 사용자 단말의 메신저 프로그램과 클라우드 서버의 연동 방법 및 시스템
CN106796605A (zh) 分段数据录入的验证
CN116762055A (zh) 同步虚拟现实通知
KR101720747B1 (ko) 채팅창 제공 방법 및 사용자 단말
US20160077795A1 (en) Display apparatus and method of controlling thereof
CN112579032A (zh) 智能设备引导的方法及装置
CN111385409A (zh) 一种通信输入的方法、装置、设备和介质
CN110865853A (zh) 云服务的智能操作方法和装置以及电子设备
KR101546502B1 (ko) 페이지의 텍스트를 활용한 키워드 검색시스템 및 검색방법
KR20170079283A (ko) 클립의 제목을 자동으로 선정하는 컨텐츠 클립핑 방법
CN109062422A (zh) 快捷输入方法、客户端及服务器
CN113359978A (zh) 多媒体设备的控制方法及装置、电子设备和存储介质
CN110531952A (zh) 语音技能的处理方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200129

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200218

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200225

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200410

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200414

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201006

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201215

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210518

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210622

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6916167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150