JP2019185733A - 音声制御方法、端末機器、クラウドサーバ及びシステム - Google Patents

音声制御方法、端末機器、クラウドサーバ及びシステム Download PDF

Info

Publication number
JP2019185733A
JP2019185733A JP2018247630A JP2018247630A JP2019185733A JP 2019185733 A JP2019185733 A JP 2019185733A JP 2018247630 A JP2018247630 A JP 2018247630A JP 2018247630 A JP2018247630 A JP 2018247630A JP 2019185733 A JP2019185733 A JP 2019185733A
Authority
JP
Japan
Prior art keywords
voice
widget
information
terminal device
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018247630A
Other languages
English (en)
Inventor
礼超 徐
li chao Xu
礼超 徐
玉樹 曹
yu shu Cao
玉樹 曹
立尚 肖
li shang Xiao
立尚 肖
立峰 趙
li feng Zhao
立峰 趙
向東 薛
Xiang Dong Xue
向東 薛
冀 周
Ji Zhou
冀 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019185733A publication Critical patent/JP2019185733A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声による端末機器の制御の程度を向上させ、ユーザエクスペリエンスを向上する、音声制御方法、端末機器、クラウドサーバ及びシステムを提供する。【解決手段】音声制御方法は、ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップ101と、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップ102と、クラウドサーバが送信した音声ウィジェットコマンドを受信するステップ103と、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップ104と、を含む。【選択図】図1

Description

本発明は、音声制御の技術分野に関し、より具体的には、音声制御方法、端末機器、クラウドサーバ及びシステムに関する。
科学技術の継続的な発展に伴って端末機器のスマート化が進み、人々の生活が益々便利になっている。今や、テレビ、スピーカ、冷蔵庫、車載型中央制御システム等の多くの端末機器には、スマート化されたオペレーティングシステムが搭載されており、特に、通信、決済、娯楽、学習等の機能を兼ね備えたスマートフォンは、人々の生活において不可欠となっている。ユーザは、タッチ操作、ボタン、リモートコントローラ、マウス等によって、端末機器を制御することができる。
しかしながら、ユーザの両手が作業に用いられることによって、端末機器を制御する余裕を持たない場合も多々ある。例えば、運転手が、運転中に車載中央制御システムを操作できなかったり、施術中の医師が、スマート型医療機器を操作することが不可能であったり、両手が油で汚れているために電話に対応できなかったりする。そのような場合にも端末機器を制御できるように、よりスマートな制御方法が必要になる。人工知能(AI:Artificial Intelligence)技術の継続的な発展により、音声対話技術が大きな進歩を遂げており、今や、音声に基づいて端末機器を制御する技術が開発されている。例えば、「タロウに電話する」という音声コマンドによってスマートフォンを制御して、登録された連絡先に電話することができ、また、「音楽再生」という音声コマンドによってスマートフォンを制御して、音楽プレーヤーで音楽を開くことができる。
従来の音声に基づく端末機器の制御方法は、簡単な対話による操作が可能であるが、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができない。つまり、従来技術による音声制御方法では、端末機器に対する制御が不十分であり、ユーザのニーズに応えられない場合があるため、ユーザエクスペリエンスを向上させる余地がある。
本発明は、従来技術の音声制御方法における端末機器の制御が不十分であるために、ユーザのニーズに応えられない場合があるという問題を解決するためになされたものであり、音声制御方法、端末機器、クラウドサーバ及びシステムを提供する。
本発明の第1の態様として、音声制御方法を提供する。当該方法は、ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップと、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップと、クラウドサーバが送信した音声ウィジェットコマンドを受信するステップと、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップと、を含む。
一つの可能な実施形態として、音声情報をクラウドサーバに送信する前に、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップと、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信するステップと、をさらに含んでもよい。
一つの可能な実施形態として、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得することを含んでもよい。
一つの可能な実施形態として、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップは、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガすることを含んでもよい。
一つの可能な実施形態として、クラウドサーバが送信した指示情報を受信するステップと、指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行うステップと、をさらに含んでもよい。
本発明の第2の態様として、音声制御方法を提供する。当該方法は、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信するステップと、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成するステップと、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップと、を含む。
一つの可能な実施形態として、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信するステップをさらに含んでもよい。
一つの可能な実施形態として、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定するステップと、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせるステップと、をさらに含んでもよい。
本発明の第3の態様として、端末機器を提供する。当該機器は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する第1の受信モジュールと、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる第1の送信モジュールと、クラウドサーバが送信した音声ウィジェットコマンドを受信する第2の受信モジュールと、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる制御モジュールと、を含む。
一つの可能な実施形態として、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含んでもよく、第1の送信モジュールは、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信してもよい。
一つの可能な実施形態として、クロールモジュールは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得してもよい。
一つの可能な実施形態として、制御モジュールは、音声ウィジェットコマンドに基いて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガしてもよい。
一つの可能な実施形態として、第2の受信モジュールは、クラウドサーバが送信した指示情報を受信し、端末機器は、指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含んでもよい。
本発明の第4の態様として、クラウドサーバを提供する。当該サーバは、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する第3の受信モジュールと、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成する決定モジュールと、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる第2の送信モジュールと、を含む。
一つの可能な実施形態として、第3の受信モジュールは、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信してもよい。
一つの可能な実施形態として、決定モジュールは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定してもよく、第2の送信モジュールは、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせてもよい。
本発明の第5の態様として、端末機器を提供する。当該機器は、メモリと、プロセッサと、前記メモリに記憶されたコンピュータプログラムであって、前記プロセッサにより実行されると、上記本発明の第1の態様の方法をプロセッサに実行させるためのコンピュータプログラムと、を含む。
本発明の第6の態様として、クラウドサーバを提供する。当該サーバは、メモリと、プロセッサと、前記メモリに記憶されたコンピュータプログラムであって、前記プロセッサにより実行されると、上記本発明の第2の態様の方法をプロセッサに実行させるためのコンピュータプログラムと、を含む。
本発明の第7の態様として、音声制御システムを提供する。当該システムは、少なくとも1つの上記本発明の第3の態様の端末機器と、少なくとも1つの上記本発明の第4の態様のクラウドサーバと、を含む。
本発明の第8の態様として、コンピュータ可読記憶媒体を提供する。当該媒体には、プロセッサにより実行されると、上記本発明の第1の態様及び第2の態様の何れかの方法をプロセッサに実行させるためのコンピュータプログラムが記憶されている。
本発明に係る音声制御方法、端末機器、クラウドサーバ及びシステムによれば、ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて決定した現在のインタフェースにおける当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させることにより、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができ、音声による端末機器の制御の程度を向上させるとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御精度を高めることができる。
以下の図は、本発明に係る実施例を示すものであり、本発明の原理を説明するために本明細書を構成する一部として組み込まれる。
本発明に係る音声制御方法の一実施例のプロセスを概略的に示す図である。 本発明に係る音声制御方法の別の実施例のプロセスを概略的に示す図である。 本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。 本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。 本発明に係る音声制御方法のさらに別の実施例のプロセスを概略的に示す図である。 本発明に係る音声制御方法の一実施例における装置間の対話のプロセスを概略的に示す図である。 本発明に係る端末機器の一実施例の構造を概略的に示す図である。 本発明に係る端末機器の別の実施例の構造を概略的に示す図である。 本発明に係るクラウドサーバの一実施例の構造を概略的に示す図である。 本発明に係るクラウドサーバの別の実施例の構造を概略的に示す図である。 本発明に係る音声制御システムの一実施例の構造を概略的に示す図である。
上述した各図面に係る本発明の各実施例について、以下に詳細に説明する。これらの図面及び以下の説明は、本発明の趣旨に対して限定を加えることなく、当業者が本発明を理解できるように、特定の実施例を参照しながら説明するためのものである。
以下、例示的な各実施例について詳細に説明し、各実施例を対応する図面に示す。以下の説明において図が参照される場合には、特に断らない限り、異なる図面における同一符号は、同一又は類似の要素を表している。以下、例示的な実施例において説明される実施形態は、本発明に該当する全ての実施形態を表すものではなく、特許請求の範囲に記載された本発明のいくつかの態様に合致する装置及び方法の一例に過ぎない。
本発明の明細書及び特許請求の範囲に使用されている、「含む」、「有する」という用語及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットを含んでもよいし、これらのプロセス、方法、製品又機器に固有の他のステップ又はユニットを含んでもよい。
本発明における「第1」及び「第2」という用語は、識別目的のためにのみ使用され、順番関係、相対的重要性を指示又は示唆し、又は、指示された技術的特徴の数を暗示的に示すものとして解釈されるべきではない。「複数」とは、2つ以上を意味する。「及び/又は」とは、関連するオブジェクトの関連関係を示し、3種類の関係を示すことができる。例えば、A及び/又はBは、Aが独立して存在する場合、AとBが同時に存在する場合、Bが独立して存在する場合を示す。「/」という文字は、一般的に、前後における関連オブジェクトが「又は」の関係を有することを示している。
本発明の明細書全体を通して使用される「1つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造又は特性が、本発明の少なくとも1つの実施例に含まれることを意味する。従って、本明細書を通して使用される「1つの実施例では」又は「一実施例では」とは、必ずしも同じ実施例を指しているわけではない。なお、矛盾がない限り、本発明の実施例及び実施例の特徴を組み合わせることが可能である。
図1は、本発明に係る音声制御方法の一実施例のプロセスを概略的に示す図である。当該方法は、スマートフォン、タブレットパソコン、コンピュータデバイス、スマート家電製品、車載型中央制御システム等の端末機器により実行されてもよく、本実施例では特に限定されない。図1に示すように、本実施例に係る音声制御方法は、ステップ101と、ステップ102と、ステップ103と、ステップ104と、を含む。
ステップ101において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。
ユーザが端末機器に対して音声制御を行うための音声情報は、端末機器のマイクロフォンによって収集されてもよいし、音声ファイルの変換によって取得されてもよい。
ユーザが端末機器に対して音声制御を行うための音声情報は、操作したいウィジェット及び対応する操作コマンドを含む。例えば、写真を閲覧するインタフェースには、拡大、縮小及び削除の3つのボタンウィジェットが設けられている。ユーザは、インタフェース上の拡大ボタンを指でタッチする代わりに、「拡大ボタンをクリックする」という音声情報によって、写真を拡大する操作を行うことができる。なお、当該音声情報は、例示的なものに過ぎず、ユーザが端末機器に対して音声制御を行うための音声情報は、インタフェースに含まれるウィジェット及びウィジェットがサポートする操作に基づいて決定されてもよい。
オプションとして、端末機器が音声制御をサポートする場合には、マイクロフォンが常時オン状態にあることによって端末機器の消費電力が増加するのを避けるために、音声制御機能をオンするか否かのオプションを設定画面に追加してもよい。デフォルトではオフにセットされており、ユーザが音声制御機能をオンにすると、マイクロフォンをオンにして、ユーザが端末機器に対して音声制御を行うための音声情報を収集する。
ステップ102において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。
ユーザが端末機器に対して音声制御を行うための音声情報がクラウドサーバに送信されると、クラウドサーバの強力な処理能力によって、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを迅速且つ正確に取得して、対応する音声ウィジェットコマンドを生成することができる。音声情報は、有線及び/又は無線方式によってクラウドサーバに送信されてもよく、本実施例では特に限定されない。端末機器及びクラウドサーバ間の通信プロトコルに基づいて、ユーザが端末機器に対して音声制御を行うための音声情報をカプセル化し、カプセル化された音声情報がクラウドサーバに送信されてもよく、本実施例では特に限定されない。
本実施例における音声ウィジェットは、音声対話機能を備えており、ウィジェットに対して、対応する操作を音声によって実行させることができる。前記音声ウィジェットは、音声によってボタンのクリック、長押し及びダブルクリック等の操作を制御する音声ボタンウィジェット、音声によってリストのスクロール、オプションのクリック、長押し及びダブルクリック等の操作を制御する音声リストウィジェット、音声によってブラウザ上のリンクに対応するウェブページを開く機能を実現する音声リンクウィジェット、音声によって特定のオプションを選択する機能を実現する音声ラジオボタンウィジェット、音声によって入力ボックスに文字を入力する機能を実現する音声入力ボックスウィジェット、音声によってタブの切り替えを制御する音声タブウィジェット、カスタマイズされた機能を開発するために第三者が提供した音声対話情報を設定可能な音声カスタマイズウィジェット等を含むが、これらに限定されない。
オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、マッチング失敗情報を端末機器に送信してもよい。端末機器は、当該マッチング失敗情報に基づいて、音声及び/又は文字方式により指示(例えば「音声情報を再入力してください」という音声で指示)してもよい。
オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成して端末機器に送信してもよい。端末機器は、当該指示情報に基づいて、音声及び/又は文字方式により指示(例えば「『拡大ボタンをクリックする』と言ってみてください」)という音声で指示)してもよい。
操作時の習慣はユーザによって様々である。写真を閲覧するインタフェースについての操作を一例として説明すると、インタフェース上の写真拡大ボタンを指でタッチする代わりに音声制御によって写真の拡大操作を行う場合には、受信した音声が、「拡大ボタンをクリックする」、「拡大ボタンをタッチする」、「拡大ボタンをクリックする」、「写真を拡大する」、「写真をズームインする」と多種多様になる可能性がある。マッチングを行う際に何度も失敗することによってユーザエクスペリエンスが損なわれるのを避け、よりマッチングしやすくするために、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させるステップは、クラウドサーバが、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、のマッチングを行うことを含んでもよい。
ステップ103において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。
ステップ104において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。
クラウドサーバが送信した音声ウィジェットコマンドには、音声情報にマッチングする音声ウィジェット及びウィジェットコマンドの情報が含まれるので、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガして、端末機器に対する音声制御を実現することができる。これにより、指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。
本実施例に係る音声制御方法では、ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて決定した現在のインタフェースにおける当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させることにより、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができ、音声による端末機器の制御の程度を向上させるとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御精度を高めることができ、さらにはユーザエクスペリエンスを向上させることができる。
本実施例に係る音声制御方法では、拡張性を高めるために、前記実施例に基づいて、音声情報をクラウドサーバに送信する前に、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールし、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信するステップを含んでもよい。
ここで、端末機器のインタフェースが変更されることは、インタフェースがジャンプすること(すなわち、インタフェースAからインタフェースBへジャンプすること)であってもよい。スマートフォンを一例として説明すると、例えば連絡帳インタフェースからショートメッセージインタフェースへジャンプすることであってもよい。また、インタフェースが変更されることは、インタフェース内のウィジェットが変更されたことを指してもよい。例えば、インタフェースにおけるラジオボタンウィジェットが選択されたことであってもよいし、タブウィジェットが切り替わったことであってもよいし、入力ボックスウィジェットに新しい文字情報が入力されたことであってもよい。音声ウィジェットの情報は、例えば音声ウィジェットのタイプ、対応可能な操作方式、現在のインタフェースにおける機能、音声情報の説明等の当該音声ウィジェットの全ての関連情報を含んでもよい。
端末機器のインタフェースが変更される毎に、変更後の現在のインタフェースにおける音声ウィジェットの情報を再度クロールし、クラウドサーバに送信する。これにより、クラウドサーバが取得した音声ウィジェットの情報が、端末機器と同期される。
オプションとして、予め設定された通信プロトコルに基づいて、クロールして得られた音声ウィジェット情報をカプセル化し、カプセル化した後の音声ウィジェット情報をクラウドサーバに送信することによって、クラウドサーバは、情報を正しく解析して、現在のインタフェースにおける音声ウィジェットの情報を取得することができる。
オプションとして、現在のインタフェースにおける音声ウィジェットの情報をクロールする方法は、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースし、現在のインタフェースにおける音声ウィジェットの情報を取得することを含んでもよい。
ここで、現在のインタフェースのウィジェット構造ツリーを取得するためには、様々な方法があり、本実施例では特に限定されない。本実施例のオプションの形態として、dump方式により、現在のインタフェース全体のレイアウトを含み、レイアウトウィジェット及びユーザインタフェースウィジェット等で構成されるxml構造ファイルを取得し、取得したxml構造ファイルを解析することによって、現在のインタフェースのウィジェット構造ツリーを取得してもよい。
ウィジェット構造ツリーには、現在のインタフェースにおける音声操作をサポートする全ての音声ウィジェットの情報と、全ての非音声ウィジェット(例えば、表示機能のみを有するテキストボックス)の情報と、が含まれてもよい。ウィジェット構造ツリーのノードに対してポリシーに基づくトラバースを実行して、現在のインタフェースにおける音声ウィジェットの情報を取得する。取得した音声ウィジェットの情報をテンポラリの配列に追加し、テンポラリの配列における全ての音声ウィジェットの情報を分析して処理(例えば、フィルタをかけて一部の不要な情報を除去する)してもよい。
本実施例に係る音声制御方法において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、インタフェースでの音声対話に関連する設定(例えば、特定のインタフェースにおける音声情報をサポートするウィジェットについての設定)をしなくてもクラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させることが可能にある。製品のアップグレード、故障の回復等に伴ってインタフェース内のウィジェットが調整された場合であっても、本実施例に係る音声制御方法によれば、クラウドサーバが再度変更を行って適合させる必要がなく、変更後のウィジェットに対して自動的に設定し直すことが可能になるので、プロセス全体の完全な自動化が実現される。本実施例に係る音声制御方法によれば、音声制御の適用される場面が拡張し、ユーザエクスペリエンスが向上する。
本実施例では、上記の実施例に基づいて、さらなる音声制御方法を提供する。図2は、本発明に係る音声制御方法の別の実施例のプロセスを概略的に示す図である。図2を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例に係る音声制御方法は、ステップ201〜ステップ206を含む。ステップ201において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。ステップ202において、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。ステップ203において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。ステップ204において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定させ、対応する音声ウィジェットコマンドを生成させる。ステップ205において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。ステップ206において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。
本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、クラウドサーバが取得した音声ウィジェットの情報が端末機器と常に同期される。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、当該音声情報に基づいて決定した現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによりクラウドサーバによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することによって、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させ、音声制御が適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
本実施例に係る音声制御方法は、ユーザエクスペリエンスをさらに向上させ、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させ、音声制御の精度を向上させるために、上述した何れかの実施例に基づいて、クラウドサーバが送信した指示情報を受信し、当該指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行うことをさらに含んでもよい。
当該指示情報は、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。例えば、音声リストウィジェットの場合には、「リストを上にスクロールしてみてください」という指示情報が生成されてもよい。また、連絡帳、メッセージボード及びアルバムの3つのタブを有する音声タブウィジェットの場合には、「メッセージボードに切り替えてみてください」という指示情報が生成されてもよい。端末機器が当該指示情報を受信した後、現在のインタフェースにおいて当該指示情報を文字方式で表示してもよいし、端末機器のスピーカによって音声を出力して指示を行ってもよい。
オプションとして、現在のインタフェースに複数の音声ウィジェットが存在する場合には、ユーザの使用習慣に基づいて、最も頻繁に使用される音声ウィジェットに関する指示情報が生成されてもよい。
オプションとして、当該指示情報は、ユーザが端末機器に対して音声制御を行うための音声情報にマッチングする音声ウィジェットが現在のインタフェースに存在しない場合に、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。一つの可能な実施形態において、クラウドサーバは、ユーザが端末機器に対して音声制御を行うための音声情報と、現在のインタフェースにおける音声ウィジェットの情報と、を分析し、ユーザが端末機器に対して音声制御を行うための音声情報に最もマッチングする音声ウィジェットに関する指示情報を生成してもよい。
本実施例に係る音声制御方法において、クラウドサーバが送信した指示情報を受信し、音声及び/又は文字方式によってユーザに表示して指示することにより、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を向上させることができ、さらにユーザエクスペリエンスを向上させることができる。
以下、上述した実施例に基づいて、一つの具体的な実施例を用いて、本実施例に係る音声制御方法を詳しく説明する。図3を用いて本実施例を説明しているが、本発明はこれに限定されない。図3A及び図3Bは、本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。
本実施例では、ユーザインタフェース(UI:User Interface)クローラは、端末機器においてソフトウェア及び/又はハードウェアにより実現された、端末機器のインタフェースにおける音声ウィジェットの情報を取得するための装置として理解されてもよい。送信エンジンは、端末機器においてソフトウェア及び/又はハードウェアにより実現された、端末機器とクラウドサーバとの間で上り送信及び下り送信機能を実現するための装置として理解されてもよい。
ユーザがメッセージボードアプリケーションを開く場合、端末機器は、図3Aに示すインタフェースを表示する。別のインタフェースから現在のインタフェースにジャンプしてもよいし、現在のインタフェースにおけるタブウィジェットによって、現在のインタフェースに切り替えられてもよい。何れの場合においても、UIクローラは、変更したインタフェースの情報を取得し、現在のインタフェースにおける音声ウィジェットの情報をクロールする。より具体的には、現在のインタフェースのウィジェット構造ツリーをトラバースして、全ての音声ウィジェットの情報を取得してもよい。図3Aに示すように、現在のインタフェースは、連絡帳、メッセージボード及びアルバムの3つのタブを含む音声タブウィジェットと、映像を撮影するための音声ボタンウィジェットと、音声メッセージを残すための音声ボタンウィジェットと、写真を撮るための音声ボタンウィジェットと、「現在、メッセージはありません」という文字情報を表示するテキストウィジェットと、を含む。UIクローラは、音声ウィジェットの情報のみを取得する。すなわち、UIクローラは、1つの音声タブウィジェットおよび3つの音声ボタンウィジェットの関連情報(例えば、各ウィジェットの説明情報、対応可能な操作及び実現される機能等)のみを取得する。UIクローラは、クロールして得られた全ての音声ウィジェットの情報を送信エンジンに転送し、送信エンジンが、予め設定された通信プロトコルに基づいてカプセル化してクラウドサーバに伝送する。したがって、インタフェース内のウィジェットにおける音声対話について予め設定することなく、UIクローラによって、当該プロセスを自動的に行うことが可能になる。
クラウドサーバは、受信した現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成することができる。例えば、図3Aに示すインタフェースの場合には、指示情報は、「連絡帳に切り替える」、「アルバムに切り替える」、「音声メッセージを開く」、「カメラを開く」、「映像を撮影する」等であってもよい。クラウドサーバは、メッセージボードインタフェースにおいて最も頻繁に実行される操作が、音声メッセージを開く操作であるということを分析して決定するため、「音声メッセージを開く」という指示情報のみを端末機器に送信してもよく、端末機器は、当該指示情報に基づいて、ユーザに対応する指示を行ってもよい。例えば、図3Aに示すように、文字方式の指示をインタフェースに表示してもよいし、音声を流して指示を行ってもよい。上記の処理プロセスは、何れもバックグラウンドで実行されるので、ユーザがメッセージボードアプリケーションを開いた場合には、図3Aに示すインタフェースが表示されると考えてもよい。
図3Aに示すインタフェースが端末機器に表示される場合、ユーザが「連絡帳に切り替える」と言うと、端末機器が連絡帳インタフェースに切り替わり、ユーザが「写真を撮る」と言うと、カメラを起動する。以下、音声メッセージを開く操作を一例として説明する。ユーザが「音声メッセージを開く」と言うと、端末機器のマイクロフォンが当該音声情報を収集し、通信ユニットを介して当該音声情報をクラウドサーバに送信する。クラウドサーバは、当該音声情報を受信した後に、先ず、これを認識して対応する文字情報に変換し、次に、現在のインタフェースにおいて音声ウィジェットの情報とマッチングし、何れかの音声ウィジェットとマッチングする程度が予め設定した値より高い場合に、当該音声ウィジェットを、音声情報にマッチングする音声ウィジェットとして決定する。図3Aに示す場合、「音声メッセージを開く」という音声情報にマッチングする音声ウィジェットは、音声メッセージの音声ボタンウィジェットであり、ウィジェットコマンドは、クリックである。クラウドサーバは、生成した音声ウィジェットコマンドを端末機器にフィードバックする。送信エンジンは、当該音声ウィジェットコマンドを解析して、音声メッセージの音声ボタンウィジェットに送信する。当該音声ボタンウィジェットは、ウィジェットクリックのコマンドに応じて、図3Bに示すインタフェースにジャンプする。
この場合にもインタフェースが変更されるので、UIクローラは、図3Bに示すインタフェースにおいて音声ウィジェットの情報を再度クロールする。後続する実行プロセスは、上述したプロセスに類似するので、ここでの詳細な説明については省略する。
本実施例に係る音声制御方法では、音声制御の安全性を向上させ、端末機器への不正な音声制御を避けるために、上述した何れかの実施例に基づいて、端末機器が対応する音声ウィジェットを音声ウィジェットコマンドに基づいて制御して操作を実行する前に、ユーザが端末機器に対して音声制御を行うための音声情報に基づいて声紋情報を決定し、当該声紋情報を予め設定された声紋情報とマッチングし、マッチングに成功する場合に、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することを含んでもよい。
声紋情報を決定し、声紋情報を予め設定された声紋情報とマッチングすることは、端末機器によって実行されてもよいし、クラウドサーバによって実行されてもよく、本実施例では特に限定されない。
本実施例によれば、安全性の高い音声制御方法を提供することができる。当該方法は、安全性が強く求められる場面に適用することができ、安全性を保証しつつ、音声による端末機器の制御の程度を向上させ、ユーザエクスペリエンスを向上させることができる。
図4は、本発明に係る音声制御方法のさらに別の実施例のプロセスを概略的に示す図である。当該方法は、クラウドサーバにより実行されてもよい。図4に示すように、本実施例に係る音声制御方法は、ステップ401と、ステップ402と、ステップ403と、を含む。
ステップ401において、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。
ステップ402において、音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。
オプションとして、クラウドサーバは、受信した音声情報を認識して、対応する文字情報に変換し、当該文字情報を現在のインタフェースにおける音声ウィジェットの文字説明情報とマッチングしてもよいし、受信した音声情報を現在のインタフェースにおける音声ウィジェットの音声説明情報と直接マッチングしてもよく、本実施例では特に限定されない。
オプションとして、クラウドサーバは、マッチングの精度を高めるために、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、をマッチングしてもよい。
ステップ403において、前記音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。
本実施例に係る音声制御方法によれば、音声情報に基づいて、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、対応する音声ウィジェットを端末機器に制御せせ操作を実行させることができるので、音声による端末機器の制御の程度を向上させることができ、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
オプションとして、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信して、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させてもよい。
オプションとして、上記の方法は、現在のインタフェースにおける音声ウィジェットの情報に基づいて指示情報を決定し、当該指示情報を端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせることをさらに含む。指示を行うことによって、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を高めることができる。
本発明は、さらなる音声制御方法を提供する。図5は、本発明に係る音声制御方法の一実施例における装置間の対話のプロセスを概略的に示す図である。図5を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例は、端末機器とクラウドサーバとの対話により音声制御を実現するプロセスを提供し、図5に示すように、本実施例に係る音声制御方法は、ステップ501〜ステップ507を含む。
ステップ501において、端末機器は、インタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。
ここで、インタフェースが変更される(例えば、インタフェースのジャンプが発生したり、インタフェースにおけるウィジェットが変更したりする)場合、端末機器は、現在のインタフェースにおける音声ウィジェットの情報をクロールする(例えば、現在のインタフェースのウィジェット構造ツリーをトラバースする)ことによって、現在のインタフェースにおける音声ウィジェットの情報を取得する。
ステップ502において、端末機器は、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。
ここで、インタフェースが変更される毎に、端末機器は、クロールして得られた現在のインタフェースの音声ウィジェットの情報をクラウドサーバに送信し、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させる。
ステップ503において、端末機器は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。
ここで、端末機器は、マイクロフォン等の音声収集装置によって、ユーザが端末機器に対して音声制御を行うための音声情報を取得する。
ステップ504において、端末機器は、音声情報をクラウドサーバに送信する。
ステップ505において、クラウドサーバは、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。
ステップ506において、クラウドサーバは、音声ウィジェットコマンドを端末機器に送信する。
ステップ507において、端末機器は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを制御して操作を実行する。
本実施例における各ステップは、上述した何れかの方法に関する実施例による発明を参照して実施可能であるため、ここでの詳細な説明については省略する。
本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することにより、クラウドサーバが取得した音声ウィジェットの情報を端末機器と常に同期させることができる。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて、現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器が制御して操作を実行することにより、音声による端末機器の制御を実現することができ、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させることができ、音声制御の適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
本発明は、端末機器をさらに提供する。図6は、本発明に係る端末機器の一実施例の構造を概略的に示す図である。図6を用いて本実施例を説明しているが、本発明はこれに限定されない。図6に示すように、本実施例に係る端末機器60は、第1の受信モジュール601と、第1の送信モジュール602と、第2の受信モジュール603と、制御モジュール604と、を含む。
第1の受信モジュール601は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。第1の送信モジュール602は、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。第2の受信モジュール603は、クラウドサーバが送信した音声ウィジェットコマンドを受信する。制御モジュール604は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。
本実施例に係る端末機器は、図1の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。
オプションとして、当該端末機器は、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含んでもよい。この場合、第1の送信モジュールは、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信してもよい。
オプションとして、クロールモジュールは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得してもよい。
オプションとして、制御モジュールは、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガしてもよい。
オプションとして、第2の受信モジュールは、クラウドサーバが送信した指示情報を受信し、当該端末機器は、指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含んでもよい。
本実施例に係る端末機器は、図1〜図3の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、さらなる端末機器を提供する。図7は、本発明に係る端末機器の別の実施例の構造を概略的に示す図である。図7を用いて本実施例を説明しているが、本発明はこれに限定されない。当該端末機器は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット装置、医療機器、フィットネス装置及び携帯情報端末等であってもよい。図7に示すように、本実施例に係る端末機器は、処理ユニット701と、メモリ702と、電源ユニット704と、マルチメディアユニット706と、音声ユニット703と、入力/出力(I/O)インタフェース708と、センサユニット707と、通信ユニット705と、のうち1つ以上を含む。
処理ユニット701は、概して、端末機器全体における操作(例えば、表示、電話の発呼、データ通信、カメラの操作及び記録操作に関連する操作等)を制御する。処理ユニット701は、上述した方法の全てのステップ又は一部のステップを行うためのコマンドを実行する1つ以上のプロセッサ7011を含む。また、処理ユニット701は、処理ユニット701と別のユニットとの対話を実現するための1つ以上のモジュールを含んでもよい。例えば、処理ユニット701は、マルチメディアユニット706と処理ユニット701との対話を実現するためのマルチメディアモジュールを含む。
メモリ702は、端末機器での操作をサポートするための各種データを記憶するように構成されている。前記データは、例えば、端末機器において実行される任意のアプリケーションプログラム又は方法のコマンド、連絡先データ、連絡帳データ、メッセージ、画像及び映像等を含む。メモリ702は、あらゆるタイプの揮発性記憶装置及び不揮発性記憶装置、又は、これらの組み合わせによって実装することができる。このような記憶装置としては、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM:Electric Erasable Programmable Read-Only Memory)、消去可能なプログラマブル読み出し専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、プログラマブル読み出し専用メモリ(PROM:Programmable Read-Only Memory)、読み出し専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は、コンパクトディスク等が挙げられる。本実施例では、メモリ702には、プロセッサ7011により実行されると、図1〜図3の方法をプロセッサ7011に実行させるコンピュータプログラムが記憶されている。
電源ユニット704は、端末機器の様々なユニットに給電する。電源ユニット704は、電源管理システムと、1つ以上の電源と、端末機器における電力の発生、管理及び配分に係るその他のユニットと、を含んでもよい。
マルチメディアユニット706は、前記端末機器とユーザとの間における出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、当該スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。タッチパネルを含む場合には、インタフェースは、ユーザからの入力信号を受信するタッチスクリーンとして実施することができる。前記タッチパネルは、タッチ、スワイプ、及び、タッチパネル上のジェスチャを検知するための1つ以上のタッチセンサを含む。前記タッチセンサは、タッチ動作又はスワイプ動作の境界を検出するだけではなく、前記タッチ操作又はスワイプ操作の持続時間や関連する圧力も検出することができる。いくつかの実施例では、マルチメディアユニット706は、フロントカメラ及び/又はバックカメラを含む。端末機器が撮影モード又は映像モード等の操作モードにある場合、フロントカメラ及び/又はバックカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよいし、焦点距離及び光学ズーム機能を有するものであってもよい。
音声ユニット703は、音声信号を出力及び/又は入力するように構成されている。例えば、音声ユニット703は、端末機器が発呼モード、記録モード及び音声認識モード等の操作モードにある場合、外部の音声信号を受信するように構成されたマイクロフォン(MIC)を含む。さらに、受信した音声信号をメモリ702に記憶してもよいし、通信ユニット705を介して送信してもよい。本実施例では、ユーザが端末機器に対して音声制御を行うための音声信号をマイクロフォンによって収集し、通信ユニット705が音声信号をクラウドサーバに送信してもよい。いくつかの実施例では、音声ユニット703は、音声信号を出力するためのスピーカをさらに含む。本実施例では、ユーザに対応する指示をスピーカによって行ってもよい。
I/Oインタフェース708は、処理ユニット701と周辺インタフェースモジュールとの間のインタフェースを提供する。前記周辺インタフェースモジュールは、キーボード、マウスホイール及びボタン等であってもよい。前記ボタンは、ホームページボタン、音量ボタン、開始ボタン及びロックボタンを含むが、これらに限定されない。
センサユニット707は、端末機器の各種状態を検出するための1つ以上のセンサを含む。例えば、センサユニット707は、端末機器のオン/オフ状態や、端末機器のディスプレイ及びテンキー等の部品の相対的位置を検出することができる。センサユニット707は、端末機器又は端末機器内の1つのユニットの位置変化、ユーザが端末機器に接触したか否か、端末機器の方向又は加速/減速、端末機器の温度変化を検出することもできる。センサユニット707は、物理的に接触しない場合に、近傍の物体の存在を検出するように構成された近接センサを含んでもよいし、結像アプリケーションに用いるCMOSやCCD画像センサ等の光センサをさらに含んでもよい。いくつかの実施例では、当該センサユニット707は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含んでもよい。
通信ユニット705は、端末機器と他の機器との間における有線又は無線方式の通信を実現するように構成されている。本実施例では、通信ユニット705は、端末機器とクラウドサーバとの対話を実現する。端末機器は、通信規格に基づく無線ネットワーク(例えば、WiFi(登録商標)、2G、3G、4G、又は、これらの組み合わせによる通信ネットワーク)にアクセスすることができる。1つの例示的な実施例では、通信ユニット705は、放送チャネルを介して、外部の放送管理システムからの放送信号又は放送に関連する情報を受信する。また、1つの例示的な実施例では、通信ユニット705は、近距離の無線通信を行うための近距離無線通信(NFC)モジュールをさらに含む。当該NFCモジュールは、例えば、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術、及び、他の技術に基づいて実装されてもよい。
例示的な実施例において、端末機器は、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサを含む、上述した方法を実行可能な1つ以上の電子部品や、他の電子部品によって実装されてもよい。
例示的な実施例では、端末機器のプロセッサ7011により実行されると、上述した方法をプロセッサ7011に実行させるコマンドを含む非一時的なコンピュータ可読記憶媒体(例えば、コマンドを含むメモリ702)を提供する。非一時的なコンピュータ可読記憶媒体は、例えば、ROM、ランダムアクセスメモリ(RAM:Random Access Memory)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク及び光学式のデータ記憶装置等であってもよい。
本実施例に係る端末機器は、図1〜図3の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、クラウドサーバをさらに提供する。図8は、本発明に係るクラウドサーバの一実施例の構造を概略的に示す図である。図8を用いて本実施例を説明しているが、本発明はこれに限定されない。図8に示すように、本実施例に係るクラウドサーバ80は、第3の受信モジュール801と、決定モジュール802と、第2の送信モジュール803と、を含む。
第3の受信モジュール801は、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。決定モジュール802は、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。第2の送信モジュール803は、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させる。
本実施例に係るクラウドサーバは、図4の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。
オプションとして、第3の受信モジュールは、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信してもよい。
オプションとして、決定モジュールは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定してもよい。第2の送信モジュールは、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせてもよい。
本発明は、さらなるクラウドサーバを提供する。図9は、本発明に係るクラウドサーバの別の実施例の構造を概略的に示す図である。図9を用いて本実施例を説明しているが、本発明はこれに限定されない。図9に示すように、本実施例に係るクラウドサーバ90は、メモリ901と、プロセッサ902と、各コンポーネント間の接続を実現するバス903と、を含む。
メモリ901には、プロセッサ902により実行されると、図4の方法をプロセッサ902に実行させるコンピュータプログラムが記憶されている。
ここで、メモリ901とプロセッサ902とは直接的又は間接的な方式により電気的に接続されており、データの伝送又は対話を実現する。例えば、これらのコンポーネントは、1つ以上の通信バス又は信号線(例えば、バス903)によって電気的に接続されてもよい。メモリ901には、車両シミュレーション技術におけるデータ分析方法を実現するためのコンピュータプログラムが記憶されており、ソフトウェア又はファームウェアの形式でメモリ901に記憶される少なくとも1つのソフトウェア機能モジュールを含む。プロセッサ902は、メモリ901に記憶されたソフトウェアプログラム及びモジュールを実行することにより、様々な機能を応用したデータ処理を実行する。
メモリ901は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)等を含むが、これらに限定されない。なお、メモリ901はプログラムを記憶し、プロセッサ902は、実行コマンドを受信すると、プログラムを実行する。さらに、メモリ901内のソフトウェアプログラム及びモジュールは、オペレーティングシステムを含んでもよい。当該システムは、システムタスク(例えば、メモリ管理、記憶装置の制御、電源管理等)を管理するための各種ソフトウェアユニット及び/又はドライバを含んでもよく、且つ、様々なハードウェア又はソフトウェアユニットと通信して、他のソフトウェアユニットのための動作環境を提供してもよい。
プロセッサ902は、信号処理機能を備える集積回路チップであってもよい。プロセッサ902は、中央処理装置(CPU:Central Processing Unit)、ネットワークプロセッサ(NP:Network Processor)等を含む汎用プロセッサであってもよい。本実施例に係る各方法、ステップ及びロジックブロック図を実行又は実施することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサ等であってもよい。なお、図9に示す構造は、例示的なものに過ぎず、図9に示すユニットよりも多い又は少ないユニットを含むように構成されてもよいし、図9と異なる構成を有してもよい。図9に示す各ユニットは、ハードウェア及び/又はソフトウェアによって実装することができる。
本発明は、音声制御システムをさらに提供する。図10は、本発明に係る音声制御システムの一実施例の構造を概略的に示す図である。図10を用いて本実施例を説明しているが、本発明はこれに限定されない。図10に示すように、本実施例に係る音声制御システム100は、少なくとも1つの端末機器1001と、少なくとも1つのクラウドサーバ1002と、を含む。端末機器1001は、図1〜図3の方法に関する実施例による発明を実施することができ、クラウドサーバ1002は、図4の方法に関する実施例による発明を実施することができる。端末機器1001には、図6の実施例に対応する端末機器が採用されてもよく、クラウドサーバ1002には、図8の実施例に対応するクラウドサーバが採用されてもよい。或いは、端末機器1001には、図7の実施例に対応する端末機器が採用されてもよく、クラウドサーバ1002には、図9の実施例に対応するクラウドサーバが採用されてもよい。
本実施例に係る音声制御システムは、図5の方法に関する実施例による発明を実施することができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、プロセッサにより実行されると、上述した何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。
なお、以上の各実施例は、本発明の技術を説明するものであって、本発明を限定するものではない。上述した各実施例を参照しながら本発明を詳細に説明したが、当業者には明らかであるように、上述した各実施例で説明した技術を変更してもよいし、その一部又は全ての技術的特徴に対して同等の置換を行ってもよく、これらの変更又は置換は、本発明の各実施例の技術的範囲から逸脱するものではない。

Claims (20)

  1. 音声制御方法であって、
    ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップと、
    前記音声情報をクラウドサーバに送信して、前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを前記クラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップと、
    前記クラウドサーバが送信した前記音声ウィジェットコマンドを受信するステップと、
    前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを前記端末機器に制御させ操作を実行させるステップと、を含む、
    ことを特徴とする音声制御方法。
  2. 前記音声情報を前記クラウドサーバに送信する前に、
    前記端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップと、
    クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報を前記クラウドサーバに送信するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記現在のインタフェースにおける音声ウィジェットの情報をクロールするステップは、
    前記現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、前記ウィジェット構造ツリーをトラバースして、前記現在のインタフェースにおける音声ウィジェットの情報を取得することを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップは、
    前記音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガすることを含む、
    ことを特徴とする請求項1〜3の何れか1項に記載の方法。
  5. 前記クラウドサーバが送信した指示情報を受信するステップと、
    前記指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行うステップと、をさらに含む、
    ことを特徴とする請求項1〜3の何れか1項に記載の方法。
  6. 音声制御方法であって、
    端末機器が送信した、前記端末機器に対して音声制御を行うための音声情報を受信するステップと、
    前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成するステップと、
    前記音声ウィジェットコマンドを前記端末機器に送信して、前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを前記端末機器に制御させて操作を実行させるステップと、
    を含むことを特徴とする音声制御方法。
  7. 前記端末機器が送信した音声情報を受信する前に、
    前記端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信するステップをさらに含む、
    ことを特徴とする請求項6に記載の方法。
  8. 現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定するステップと、
    前記指示情報を前記端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせるステップと、をさらに含む、
    ことを特徴とする請求項6又は7に記載の方法。
  9. 端末機器であって、
    ユーザが端末機器に対して音声制御を行うための音声情報を受信する第1の受信モジュールと、
    前記音声情報をクラウドサーバに送信して、前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを前記クラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる第1の送信モジュールと、
    前記クラウドサーバが送信した前記音声ウィジェットコマンドを受信する第2の受信モジュールと、
    前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを前記端末機器に制御させ操作を実行させる制御モジュールと、を含む、
    ことを特徴とする端末機器。
  10. 前記端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含み、
    前記第1の送信モジュールは、クロールして得られた前記現在のインタフェースにおける全ての音声ウィジェットの情報を前記クラウドサーバに送信する、
    ことを特徴とする請求項9に記載の端末機器。
  11. 前記クロールモジュールは、
    前記現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む前記現在のインタフェースのウィジェット構造ツリーを取得し、前記ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得する、
    ことを特徴とする請求項10に記載の端末機器。
  12. 前記制御モジュールは、
    前記音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガする、
    ことを特徴とする請求項9〜11の何れか1項に記載の機器。
  13. 前記第2の受信モジュールは、前記クラウドサーバが送信した指示情報を受信し、
    前記端末機器は、前記指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含む、
    ことを特徴とする請求項9〜11の何れか1項に記載の機器。
  14. クラウドサーバであって、
    端末機器が送信した、前記端末機器に対して音声制御を行うための音声情報を受信する第3の受信モジュールと、
    前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成する決定モジュールと、
    前記音声ウィジェットコマンドを前記端末機器に送信して、前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを前記端末機器に制御させ操作を実行させる第2の送信モジュールと、を含む、
    ことを特徴とするクラウドサーバ。
  15. 前記第3の受信モジュールは、
    前記端末機器が送信した音声情報を受信する前に、前記端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信する、
    ことを特徴とする請求項14に記載のクラウドサーバ。
  16. 前記決定モジュールは、前記現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定し、
    前記第2の送信モジュールは、前記指示情報を前記端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせる、
    ことを特徴とする請求項14又は15に記載のクラウドサーバ。
  17. メモリと、
    プロセッサと、
    コンピュータプログラムと、を備え、
    前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項1〜5の何れか1項に記載の方法を前記プロセッサに実行させるように構成されている、
    ことを特徴とする端末機器。
  18. クラウドサーバであって、
    メモリと、
    プロセッサと、
    コンピュータプログラムと、を備え、
    前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項6〜8の何れか1項に記載の方法を前記プロセッサに実行させるように構成されている、
    ことを特徴とするクラウドサーバ。
  19. 請求項9〜13の何れか1項に記載の少なくとも1つの端末機器と、
    請求項14〜16の何れか1項に記載の少なくとも1つのクラウドサーバと、を備える、
    ことを特徴とする音声制御システム。
  20. コンピュータ可読記憶媒体であって、
    コンピュータプログラムを記憶しており、
    前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜8の何れか1項に記載の方法を前記プロセッサに実行させる、
    ことを特徴とするコンピュータ可読記憶媒体。
JP2018247630A 2018-04-11 2018-12-28 音声制御方法、端末機器、クラウドサーバ及びシステム Pending JP2019185733A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810319653.4 2018-04-11
CN201810319653.4A CN108538291A (zh) 2018-04-11 2018-04-11 语音控制方法、终端设备、云端服务器及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021002458A Division JP2021073567A (ja) 2018-04-11 2021-01-08 音声制御方法、端末機器、クラウドサーバ及びシステム

Publications (1)

Publication Number Publication Date
JP2019185733A true JP2019185733A (ja) 2019-10-24

Family

ID=63479985

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018247630A Pending JP2019185733A (ja) 2018-04-11 2018-12-28 音声制御方法、端末機器、クラウドサーバ及びシステム
JP2021002458A Pending JP2021073567A (ja) 2018-04-11 2021-01-08 音声制御方法、端末機器、クラウドサーバ及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021002458A Pending JP2021073567A (ja) 2018-04-11 2021-01-08 音声制御方法、端末機器、クラウドサーバ及びシステム

Country Status (3)

Country Link
US (1) US11127398B2 (ja)
JP (2) JP2019185733A (ja)
CN (1) CN108538291A (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215650A (zh) * 2018-09-17 2019-01-15 珠海格力电器股份有限公司 一种基于终端界面识别的语音控制方法、系统及智能终端
CN109448709A (zh) * 2018-10-16 2019-03-08 华为技术有限公司 一种终端投屏的控制方法和终端
CN109471678A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 基于图像识别的语音中控方法及装置
CN111312234A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端处理器及终端设备
CN111489747B (zh) * 2019-01-25 2024-04-23 上海数字电视国家工程研究中心有限公司 一种语音控制应急广播方法和系统
CN109857472A (zh) * 2019-02-19 2019-06-07 苏州思必驰信息科技有限公司 面向有屏设备的交互方法及装置
CN110060672A (zh) * 2019-03-08 2019-07-26 华为技术有限公司 一种语音控制方法及电子设备
CN110211589B (zh) * 2019-06-05 2022-03-15 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
CN110428832A (zh) * 2019-07-26 2019-11-08 苏州蜗牛数字科技股份有限公司 一种自定义语音实现屏幕控制的方法
CN110797022B (zh) * 2019-09-06 2023-08-08 腾讯科技(深圳)有限公司 一种应用控制方法、装置、终端和服务器
CN110493123B (zh) * 2019-09-16 2022-06-28 腾讯科技(深圳)有限公司 即时通讯方法、装置、设备及存储介质
CN110865760A (zh) * 2019-11-18 2020-03-06 北京小米移动软件有限公司 电子设备操作方法、装置、电子设备及存储介质
CN110968362B (zh) * 2019-11-18 2023-09-26 北京小米移动软件有限公司 应用运行方法、装置及存储介质
CN112905825B (zh) * 2019-12-04 2023-03-21 博泰车联网科技(上海)股份有限公司 用于信息处理的方法、设备和计算机存储介质
CN112825030B (zh) * 2020-02-28 2023-09-19 腾讯科技(深圳)有限公司 一种应用程序控制方法、装置、设备及存储介质
CN113590001A (zh) * 2020-04-30 2021-11-02 华为技术有限公司 一种ui控件生成、触发方法及终端
CN113741770A (zh) * 2020-05-29 2021-12-03 比亚迪股份有限公司 基于图像识别的控制方法和系统及车辆、存储介质
CN113741769A (zh) * 2020-05-29 2021-12-03 比亚迪股份有限公司 基于图像识别的控制方法和系统及车辆、存储介质
CN111768777A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器
CN111722825A (zh) * 2020-06-28 2020-09-29 广州小鹏车联网科技有限公司 交互方法、信息处理方法、车辆和服务器
CN111753039A (zh) * 2020-06-28 2020-10-09 广州小鹏车联网科技有限公司 调整方法、信息处理方法、车辆和服务器
CN111722905A (zh) * 2020-06-28 2020-09-29 广州小鹏车联网科技有限公司 交互方法、信息处理方法、车辆和服务器
CN114255745A (zh) * 2020-09-10 2022-03-29 华为技术有限公司 一种人机交互的方法、电子设备及系统
CN112259076B (zh) * 2020-10-12 2024-03-01 北京声智科技有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
CN112416776B (zh) * 2020-11-24 2022-12-13 天津五八到家货运服务有限公司 运行环境的选择方法、装置、测试设备及存储介质
CN112286485B (zh) * 2020-12-30 2021-04-13 智道网联科技(北京)有限公司 通过语音控制应用的方法、装置、电子设备与存储介质
CN112885354B (zh) * 2021-01-25 2022-09-23 海信视像科技股份有限公司 一种显示设备、服务器及基于语音的显示控制方法
CN113076079A (zh) * 2021-04-20 2021-07-06 广州小鹏汽车科技有限公司 语音控制方法、服务器、语音控制系统和存储介质
CN115408492A (zh) * 2021-05-26 2022-11-29 华为技术有限公司 资源显示的方法、终端及服务器
WO2022268136A1 (zh) * 2021-06-22 2022-12-29 海信视像科技股份有限公司 一种进行语音控制的终端设备及服务器
CN113359690B (zh) * 2021-06-28 2023-07-11 北京小鹏汽车有限公司 一种车辆地图全览呈现控制方法和装置
TWI809462B (zh) * 2021-07-29 2023-07-21 費米股份有限公司 具升降功能之共享裝置的控制系統及其控制方法
CN114121012A (zh) * 2021-12-09 2022-03-01 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质
CN114724566A (zh) * 2022-04-18 2022-07-08 中国第一汽车股份有限公司 语音处理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221270A (ja) * 2005-02-08 2006-08-24 Nec Saitama Ltd 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法
WO2012165122A1 (ja) * 2011-05-27 2012-12-06 株式会社エヌ・ティ・ティ・ドコモ 機能提示システム、端末装置、サーバ装置、プログラム及び機能提示方法
JP2013037689A (ja) * 2011-08-05 2013-02-21 Samsung Electronics Co Ltd 電子装置及びその制御方法
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
JP2015018365A (ja) * 2013-07-10 2015-01-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2015095002A (ja) * 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001029823A1 (en) * 1999-10-19 2001-04-26 Sony Electronics Inc. Natural language interface control system
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
US20100299590A1 (en) * 2006-03-31 2010-11-25 Interact Incorporated Software Systems Method and system for processing xml-type telecommunications documents
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
CN101645064B (zh) * 2008-12-16 2011-04-06 中国科学院声学研究所 一种浅层自然口语理解系统及方法
CN101464896B (zh) * 2009-01-23 2010-08-11 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
CN102036033A (zh) * 2010-12-31 2011-04-27 Tcl集团股份有限公司 一种语音遥控电视机的方法及语音遥控器
JP5620338B2 (ja) 2011-06-02 2014-11-05 株式会社マキタ 動力工具
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
CN103226568A (zh) * 2013-03-12 2013-07-31 北京百度网讯科技有限公司 一种用于爬取页面的方法和设备
US20150170053A1 (en) * 2013-12-13 2015-06-18 Microsoft Corporation Personalized machine learning models
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9746930B2 (en) * 2015-03-26 2017-08-29 General Electric Company Detection and usability of personal electronic devices for field engineers
BR112017021673B1 (pt) * 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
CN104899322B (zh) * 2015-06-18 2021-09-17 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
US20170140750A1 (en) * 2015-11-17 2017-05-18 Le Holdings (Beijing) Co., Ltd. Method and device for speech recognition
US11599709B2 (en) * 2016-05-19 2023-03-07 Palo Alto Research Center Incorporated Natural language web browser
CN105869643A (zh) * 2016-06-06 2016-08-17 青岛海信移动通信技术股份有限公司 基于语音的终端控制方法及语音控制装置
US10462619B2 (en) * 2016-06-08 2019-10-29 Google Llc Providing a personal assistant module with a selectively-traversable state machine
CN106653006B (zh) * 2016-11-17 2019-11-08 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
US10327117B2 (en) * 2017-02-08 2019-06-18 CliniCloud Inc. Virtual mesh network for medical voice command devices
CN107451062B (zh) * 2017-08-09 2020-12-29 百度在线网络技术(北京)有限公司 一种用户界面遍历测试方法、装置、服务器、存储介质
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN107608652B (zh) * 2017-08-28 2020-05-22 三星电子(中国)研发中心 一种语音控制图形界面的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221270A (ja) * 2005-02-08 2006-08-24 Nec Saitama Ltd 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法
WO2012165122A1 (ja) * 2011-05-27 2012-12-06 株式会社エヌ・ティ・ティ・ドコモ 機能提示システム、端末装置、サーバ装置、プログラム及び機能提示方法
JP2013037689A (ja) * 2011-08-05 2013-02-21 Samsung Electronics Co Ltd 電子装置及びその制御方法
JP2015018365A (ja) * 2013-07-10 2015-01-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
JP2015095002A (ja) * 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体

Also Published As

Publication number Publication date
US11127398B2 (en) 2021-09-21
CN108538291A (zh) 2018-09-14
US20190318736A1 (en) 2019-10-17
JP2021073567A (ja) 2021-05-13

Similar Documents

Publication Publication Date Title
JP2019185733A (ja) 音声制御方法、端末機器、クラウドサーバ及びシステム
JP6030808B2 (ja) インテリジェント遠隔制御方法、ルータ、端末、装置、プログラム、及び記録媒体
WO2020244266A1 (zh) 智能电视的远程控制方法、移动终端和智能电视
RU2670032C2 (ru) Способ и аппарат для управления интеллектуальными устройствами
JP6285615B2 (ja) リモートアシスタンス方法、クライアント、プログラム及び記録媒体
WO2017113842A1 (zh) 控制智能设备的方法及装置
KR20160077011A (ko) 스마트 홈 디바이스의 운전상태 조절 방법, 장치, 프로그램 및 기록매체
JP2016526244A (ja) アプリケーションプログラムの処理方法、装置、プログラム及び記憶媒体
KR20140144104A (ko) 전자기기 및 이의 서비스 제공 방법
CN111343489B (zh) 一种显示设备及播放终端中音乐的方法
JP6143969B2 (ja) デバイスリストのダイナミック表示方法、装置、プログラム、及び記録媒体
CN108476339B (zh) 一种遥控方法和终端
JP6317040B2 (ja) スマート機器をコントロールするための方法、装置、プログラム及び記録媒体
JP6283749B2 (ja) 機器接続を促す方法および装置
JP2017530493A (ja) 外付け機器の接続方法および装置、プログラム及び記録媒体
CN104958898A (zh) 游戏控制方法、装置及系统
CN104111720A (zh) 电子设备控制方法、装置及电子设备
RU2663709C2 (ru) Способ и устройство для обработки информации
CN106453032B (zh) 信息推送方法及装置、系统
US20150288533A1 (en) Method and device for remote intelligent control
EP3823251A1 (en) Function control method, function control device, and computer-readable storage medium
CN114071243A (zh) 视频播放方法及装置、电子设备和存储介质
JP2017505963A (ja) 情報表示方法、装置、プログラム、及び記録媒体
CN103902688A (zh) 一种文件操作的同步方法及装置
US20150350312A1 (en) Information processing method and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200908