JP2021073567A

JP2021073567A - 音声制御方法、端末機器、クラウドサーバ及びシステム

Info

Publication number: JP2021073567A
Application number: JP2021002458A
Authority: JP
Inventors: 礼超徐; li chao Xu; 玉樹曹; yu shu Cao; 立尚肖; li shang Xiao; 立峰趙; li feng Zhao; 向東薛; Xiang Dong Xue; 冀周; Ji Zhou
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-04-11
Filing date: 2021-01-08
Publication date: 2021-05-13
Also published as: US11127398B2; JP2019185733A; US20190318736A1; CN108538291A

Abstract

【課題】音声による端末機器の制御を実現し、音声制御への応答を速めて制御精度を高める音声制御方法、端末機器、クラウドサーバ及びシステムを提供する。【解決手段】音声制御方法は、ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップと、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップと、クラウドサーバが送信した音声ウィジェットコマンドを受信するステップと、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップと、を含む。【選択図】図１

Description

本発明は、音声制御の技術分野に関し、より具体的には、音声制御方法、端末機器、クラウドサーバ及びシステムに関する。

科学技術の継続的な発展に伴って端末機器のスマート化が進み、人々の生活が益々便利になっている。今や、テレビ、スピーカ、冷蔵庫、車載型中央制御システム等の多くの端末機器には、スマート化されたオペレーティングシステムが搭載されており、特に、通信、決済、娯楽、学習等の機能を兼ね備えたスマートフォンは、人々の生活において不可欠となっている。ユーザは、タッチ操作、ボタン、リモートコントローラ、マウス等によって、端末機器を制御することができる。

しかしながら、ユーザの両手が作業に用いられることによって、端末機器を制御する余裕を持たない場合も多々ある。例えば、運転手が、運転中に車載中央制御システムを操作できなかったり、施術中の医師が、スマート型医療機器を操作することが不可能であったり、両手が油で汚れているために電話に対応できなかったりする。そのような場合にも端末機器を制御できるように、よりスマートな制御方法が必要になる。人工知能（ＡＩ：Artificial Intelligence）技術の継続的な発展により、音声対話技術が大きな進歩を遂げており、今や、音声に基づいて端末機器を制御する技術が開発されている。例えば、「タロウに電話する」という音声コマンドによってスマートフォンを制御して、登録された連絡先に電話することができ、また、「音楽再生」という音声コマンドによってスマートフォンを制御して、音楽プレーヤーで音楽を開くことができる。

従来の音声に基づく端末機器の制御方法は、簡単な対話による操作が可能であるが、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができない。つまり、従来技術による音声制御方法では、端末機器に対する制御が不十分であり、ユーザのニーズに応えられない場合があるため、ユーザエクスペリエンスを向上させる余地がある。

本発明は、従来技術の音声制御方法における端末機器の制御が不十分であるために、ユーザのニーズに応えられない場合があるという問題を解決するためになされたものであり、音声制御方法、端末機器、クラウドサーバ及びシステムを提供する。

本発明の第１の態様として、音声制御方法を提供する。当該方法は、ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップと、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップと、クラウドサーバが送信した音声ウィジェットコマンドを受信するステップと、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップと、を含む。

一つの可能な実施形態として、音声情報をクラウドサーバに送信する前に、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップと、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信するステップと、をさらに含んでもよい。

一つの可能な実施形態として、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得することを含んでもよい。

一つの可能な実施形態として、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップは、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガすることを含んでもよい。

一つの可能な実施形態として、クラウドサーバが送信した指示情報を受信するステップと、指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行うステップと、をさらに含んでもよい。

本発明の第２の態様として、音声制御方法を提供する。当該方法は、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信するステップと、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成するステップと、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップと、を含む。

一つの可能な実施形態として、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信するステップをさらに含んでもよい。

一つの可能な実施形態として、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定するステップと、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせるステップと、をさらに含んでもよい。

本発明の第３の態様として、端末機器を提供する。当該機器は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する第１の受信モジュールと、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる第１の送信モジュールと、クラウドサーバが送信した音声ウィジェットコマンドを受信する第２の受信モジュールと、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる制御モジュールと、を含む。

一つの可能な実施形態として、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含んでもよく、第１の送信モジュールは、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信してもよい。

一つの可能な実施形態として、クロールモジュールは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得してもよい。

一つの可能な実施形態として、制御モジュールは、音声ウィジェットコマンドに基いて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガしてもよい。

一つの可能な実施形態として、第２の受信モジュールは、クラウドサーバが送信した指示情報を受信し、端末機器は、指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含んでもよい。

本発明の第４の態様として、クラウドサーバを提供する。当該サーバは、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する第３の受信モジュールと、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成する決定モジュールと、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる第２の送信モジュールと、を含む。

一つの可能な実施形態として、第３の受信モジュールは、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信してもよい。

一つの可能な実施形態として、決定モジュールは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定してもよく、第２の送信モジュールは、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせてもよい。

本発明の第５の態様として、端末機器を提供する。当該機器は、メモリと、プロセッサと、前記メモリに記憶されたコンピュータプログラムであって、前記プロセッサにより実行されると、上記本発明の第１の態様の方法をプロセッサに実行させるためのコンピュータプログラムと、を含む。

本発明の第６の態様として、クラウドサーバを提供する。当該サーバは、メモリと、プロセッサと、前記メモリに記憶されたコンピュータプログラムであって、前記プロセッサにより実行されると、上記本発明の第２の態様の方法をプロセッサに実行させるためのコンピュータプログラムと、を含む。

本発明の第７の態様として、音声制御システムを提供する。当該システムは、少なくとも１つの上記本発明の第３の態様の端末機器と、少なくとも１つの上記本発明の第４の態様のクラウドサーバと、を含む。

本発明の第８の態様として、コンピュータ可読記憶媒体を提供する。当該媒体には、プロセッサにより実行されると、上記本発明の第１の態様及び第２の態様の何れかの方法をプロセッサに実行させるためのコンピュータプログラムが記憶されている。

本発明に係る音声制御方法、端末機器、クラウドサーバ及びシステムによれば、ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて決定した現在のインタフェースにおける当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させることにより、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができ、音声による端末機器の制御の程度を向上させるとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御精度を高めることができる。

以下の図は、本発明に係る実施例を示すものであり、本発明の原理を説明するために本明細書を構成する一部として組み込まれる。

本発明に係る音声制御方法の一実施例のプロセスを概略的に示す図である。本発明に係る音声制御方法の別の実施例のプロセスを概略的に示す図である。本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。本発明に係る音声制御方法のさらに別の実施例のプロセスを概略的に示す図である。本発明に係る音声制御方法の一実施例における装置間の対話のプロセスを概略的に示す図である。本発明に係る端末機器の一実施例の構造を概略的に示す図である。本発明に係る端末機器の別の実施例の構造を概略的に示す図である。本発明に係るクラウドサーバの一実施例の構造を概略的に示す図である。本発明に係るクラウドサーバの別の実施例の構造を概略的に示す図である。本発明に係る音声制御システムの一実施例の構造を概略的に示す図である。

上述した各図面に係る本発明の各実施例について、以下に詳細に説明する。これらの図面及び以下の説明は、本発明の趣旨に対して限定を加えることなく、当業者が本発明を理解できるように、特定の実施例を参照しながら説明するためのものである。

以下、例示的な各実施例について詳細に説明し、各実施例を対応する図面に示す。以下の説明において図が参照される場合には、特に断らない限り、異なる図面における同一符号は、同一又は類似の要素を表している。以下、例示的な実施例において説明される実施形態は、本発明に該当する全ての実施形態を表すものではなく、特許請求の範囲に記載された本発明のいくつかの態様に合致する装置及び方法の一例に過ぎない。

本発明の明細書及び特許請求の範囲に使用されている、「含む」、「有する」という用語及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットを含んでもよいし、これらのプロセス、方法、製品又機器に固有の他のステップ又はユニットを含んでもよい。

本発明における「第１」及び「第２」という用語は、識別目的のためにのみ使用され、順番関係、相対的重要性を指示又は示唆し、又は、指示された技術的特徴の数を暗示的に示すものとして解釈されるべきではない。「複数」とは、２つ以上を意味する。「及び／又は」とは、関連するオブジェクトの関連関係を示し、３種類の関係を示すことができる。例えば、Ａ及び／又はＢは、Ａが独立して存在する場合、ＡとＢが同時に存在する場合、Ｂが独立して存在する場合を示す。「／」という文字は、一般的に、前後における関連オブジェクトが「又は」の関係を有することを示している。

本発明の明細書全体を通して使用される「１つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造又は特性が、本発明の少なくとも１つの実施例に含まれることを意味する。従って、本明細書を通して使用される「１つの実施例では」又は「一実施例では」とは、必ずしも同じ実施例を指しているわけではない。なお、矛盾がない限り、本発明の実施例及び実施例の特徴を組み合わせることが可能である。

図１は、本発明に係る音声制御方法の一実施例のプロセスを概略的に示す図である。当該方法は、スマートフォン、タブレットパソコン、コンピュータデバイス、スマート家電製品、車載型中央制御システム等の端末機器により実行されてもよく、本実施例では特に限定されない。図１に示すように、本実施例に係る音声制御方法は、ステップ１０１と、ステップ１０２と、ステップ１０３と、ステップ１０４と、を含む。

ステップ１０１において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。

ユーザが端末機器に対して音声制御を行うための音声情報は、端末機器のマイクロフォンによって収集されてもよいし、音声ファイルの変換によって取得されてもよい。

ユーザが端末機器に対して音声制御を行うための音声情報は、操作したいウィジェット及び対応する操作コマンドを含む。例えば、写真を閲覧するインタフェースには、拡大、縮小及び削除の３つのボタンウィジェットが設けられている。ユーザは、インタフェース上の拡大ボタンを指でタッチする代わりに、「拡大ボタンをクリックする」という音声情報によって、写真を拡大する操作を行うことができる。なお、当該音声情報は、例示的なものに過ぎず、ユーザが端末機器に対して音声制御を行うための音声情報は、インタフェースに含まれるウィジェット及びウィジェットがサポートする操作に基づいて決定されてもよい。

オプションとして、端末機器が音声制御をサポートする場合には、マイクロフォンが常時オン状態にあることによって端末機器の消費電力が増加するのを避けるために、音声制御機能をオンするか否かのオプションを設定画面に追加してもよい。デフォルトではオフにセットされており、ユーザが音声制御機能をオンにすると、マイクロフォンをオンにして、ユーザが端末機器に対して音声制御を行うための音声情報を収集する。

ステップ１０２において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。

ユーザが端末機器に対して音声制御を行うための音声情報がクラウドサーバに送信されると、クラウドサーバの強力な処理能力によって、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを迅速且つ正確に取得して、対応する音声ウィジェットコマンドを生成することができる。音声情報は、有線及び／又は無線方式によってクラウドサーバに送信されてもよく、本実施例では特に限定されない。端末機器及びクラウドサーバ間の通信プロトコルに基づいて、ユーザが端末機器に対して音声制御を行うための音声情報をカプセル化し、カプセル化された音声情報がクラウドサーバに送信されてもよく、本実施例では特に限定されない。

本実施例における音声ウィジェットは、音声対話機能を備えており、ウィジェットに対して、対応する操作を音声によって実行させることができる。前記音声ウィジェットは、音声によってボタンのクリック、長押し及びダブルクリック等の操作を制御する音声ボタンウィジェット、音声によってリストのスクロール、オプションのクリック、長押し及びダブルクリック等の操作を制御する音声リストウィジェット、音声によってブラウザ上のリンクに対応するウェブページを開く機能を実現する音声リンクウィジェット、音声によって特定のオプションを選択する機能を実現する音声ラジオボタンウィジェット、音声によって入力ボックスに文字を入力する機能を実現する音声入力ボックスウィジェット、音声によってタブの切り替えを制御する音声タブウィジェット、カスタマイズされた機能を開発するために第三者が提供した音声対話情報を設定可能な音声カスタマイズウィジェット等を含むが、これらに限定されない。

オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、マッチング失敗情報を端末機器に送信してもよい。端末機器は、当該マッチング失敗情報に基づいて、音声及び／又は文字方式により指示（例えば「音声情報を再入力してください」という音声で指示）してもよい。

オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成して端末機器に送信してもよい。端末機器は、当該指示情報に基づいて、音声及び／又は文字方式により指示（例えば「『拡大ボタンをクリックする』と言ってみてください」）という音声で指示）してもよい。

操作時の習慣はユーザによって様々である。写真を閲覧するインタフェースについての操作を一例として説明すると、インタフェース上の写真拡大ボタンを指でタッチする代わりに音声制御によって写真の拡大操作を行う場合には、受信した音声が、「拡大ボタンをクリックする」、「拡大ボタンをタッチする」、「拡大ボタンをクリックする」、「写真を拡大する」、「写真をズームインする」と多種多様になる可能性がある。マッチングを行う際に何度も失敗することによってユーザエクスペリエンスが損なわれるのを避け、よりマッチングしやすくするために、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させるステップは、クラウドサーバが、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、のマッチングを行うことを含んでもよい。

ステップ１０３において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。

ステップ１０４において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。

クラウドサーバが送信した音声ウィジェットコマンドには、音声情報にマッチングする音声ウィジェット及びウィジェットコマンドの情報が含まれるので、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガして、端末機器に対する音声制御を実現することができる。これにより、指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。

本実施例に係る音声制御方法では、ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて決定した現在のインタフェースにおける当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させることにより、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができ、音声による端末機器の制御の程度を向上させるとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御精度を高めることができ、さらにはユーザエクスペリエンスを向上させることができる。

本実施例に係る音声制御方法では、拡張性を高めるために、前記実施例に基づいて、音声情報をクラウドサーバに送信する前に、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールし、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信するステップを含んでもよい。

ここで、端末機器のインタフェースが変更されることは、インタフェースがジャンプすること（すなわち、インタフェースＡからインタフェースＢへジャンプすること）であってもよい。スマートフォンを一例として説明すると、例えば連絡帳インタフェースからショートメッセージインタフェースへジャンプすることであってもよい。また、インタフェースが変更されることは、インタフェース内のウィジェットが変更されたことを指してもよい。例えば、インタフェースにおけるラジオボタンウィジェットが選択されたことであってもよいし、タブウィジェットが切り替わったことであってもよいし、入力ボックスウィジェットに新しい文字情報が入力されたことであってもよい。音声ウィジェットの情報は、例えば音声ウィジェットのタイプ、対応可能な操作方式、現在のインタフェースにおける機能、音声情報の説明等の当該音声ウィジェットの全ての関連情報を含んでもよい。

端末機器のインタフェースが変更される毎に、変更後の現在のインタフェースにおける音声ウィジェットの情報を再度クロールし、クラウドサーバに送信する。これにより、クラウドサーバが取得した音声ウィジェットの情報が、端末機器と同期される。

オプションとして、予め設定された通信プロトコルに基づいて、クロールして得られた音声ウィジェット情報をカプセル化し、カプセル化した後の音声ウィジェット情報をクラウドサーバに送信することによって、クラウドサーバは、情報を正しく解析して、現在のインタフェースにおける音声ウィジェットの情報を取得することができる。

オプションとして、現在のインタフェースにおける音声ウィジェットの情報をクロールする方法は、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースし、現在のインタフェースにおける音声ウィジェットの情報を取得することを含んでもよい。

ここで、現在のインタフェースのウィジェット構造ツリーを取得するためには、様々な方法があり、本実施例では特に限定されない。本実施例のオプションの形態として、ｄｕｍｐ方式により、現在のインタフェース全体のレイアウトを含み、レイアウトウィジェット及びユーザインタフェースウィジェット等で構成されるｘｍｌ構造ファイルを取得し、取得したｘｍｌ構造ファイルを解析することによって、現在のインタフェースのウィジェット構造ツリーを取得してもよい。

ウィジェット構造ツリーには、現在のインタフェースにおける音声操作をサポートする全ての音声ウィジェットの情報と、全ての非音声ウィジェット（例えば、表示機能のみを有するテキストボックス）の情報と、が含まれてもよい。ウィジェット構造ツリーのノードに対してポリシーに基づくトラバースを実行して、現在のインタフェースにおける音声ウィジェットの情報を取得する。取得した音声ウィジェットの情報をテンポラリの配列に追加し、テンポラリの配列における全ての音声ウィジェットの情報を分析して処理（例えば、フィルタをかけて一部の不要な情報を除去する）してもよい。

本実施例に係る音声制御方法において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、インタフェースでの音声対話に関連する設定（例えば、特定のインタフェースにおける音声情報をサポートするウィジェットについての設定）をしなくてもクラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させることが可能にある。製品のアップグレード、故障の回復等に伴ってインタフェース内のウィジェットが調整された場合であっても、本実施例に係る音声制御方法によれば、クラウドサーバが再度変更を行って適合させる必要がなく、変更後のウィジェットに対して自動的に設定し直すことが可能になるので、プロセス全体の完全な自動化が実現される。本実施例に係る音声制御方法によれば、音声制御の適用される場面が拡張し、ユーザエクスペリエンスが向上する。

本実施例では、上記の実施例に基づいて、さらなる音声制御方法を提供する。図２は、本発明に係る音声制御方法の別の実施例のプロセスを概略的に示す図である。図２を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例に係る音声制御方法は、ステップ２０１〜ステップ２０６を含む。ステップ２０１において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。ステップ２０２において、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。ステップ２０３において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。ステップ２０４において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定させ、対応する音声ウィジェットコマンドを生成させる。ステップ２０５において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。ステップ２０６において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。

本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、クラウドサーバが取得した音声ウィジェットの情報が端末機器と常に同期される。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、当該音声情報に基づいて決定した現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによりクラウドサーバによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することによって、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させ、音声制御が適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。

本実施例に係る音声制御方法は、ユーザエクスペリエンスをさらに向上させ、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させ、音声制御の精度を向上させるために、上述した何れかの実施例に基づいて、クラウドサーバが送信した指示情報を受信し、当該指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行うことをさらに含んでもよい。

当該指示情報は、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。例えば、音声リストウィジェットの場合には、「リストを上にスクロールしてみてください」という指示情報が生成されてもよい。また、連絡帳、メッセージボード及びアルバムの３つのタブを有する音声タブウィジェットの場合には、「メッセージボードに切り替えてみてください」という指示情報が生成されてもよい。端末機器が当該指示情報を受信した後、現在のインタフェースにおいて当該指示情報を文字方式で表示してもよいし、端末機器のスピーカによって音声を出力して指示を行ってもよい。

オプションとして、現在のインタフェースに複数の音声ウィジェットが存在する場合には、ユーザの使用習慣に基づいて、最も頻繁に使用される音声ウィジェットに関する指示情報が生成されてもよい。

オプションとして、当該指示情報は、ユーザが端末機器に対して音声制御を行うための音声情報にマッチングする音声ウィジェットが現在のインタフェースに存在しない場合に、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。一つの可能な実施形態において、クラウドサーバは、ユーザが端末機器に対して音声制御を行うための音声情報と、現在のインタフェースにおける音声ウィジェットの情報と、を分析し、ユーザが端末機器に対して音声制御を行うための音声情報に最もマッチングする音声ウィジェットに関する指示情報を生成してもよい。

本実施例に係る音声制御方法において、クラウドサーバが送信した指示情報を受信し、音声及び／又は文字方式によってユーザに表示して指示することにより、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を向上させることができ、さらにユーザエクスペリエンスを向上させることができる。

以下、上述した実施例に基づいて、一つの具体的な実施例を用いて、本実施例に係る音声制御方法を詳しく説明する。図３を用いて本実施例を説明しているが、本発明はこれに限定されない。図３Ａ及び図３Ｂは、本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。

本実施例では、ユーザインタフェース（ＵＩ：User Interface）クローラは、端末機器においてソフトウェア及び／又はハードウェアにより実現された、端末機器のインタフェースにおける音声ウィジェットの情報を取得するための装置として理解されてもよい。送信エンジンは、端末機器においてソフトウェア及び／又はハードウェアにより実現された、端末機器とクラウドサーバとの間で上り送信及び下り送信機能を実現するための装置として理解されてもよい。

ユーザがメッセージボードアプリケーションを開く場合、端末機器は、図３Ａに示すインタフェースを表示する。別のインタフェースから現在のインタフェースにジャンプしてもよいし、現在のインタフェースにおけるタブウィジェットによって、現在のインタフェースに切り替えられてもよい。何れの場合においても、ＵＩクローラは、変更したインタフェースの情報を取得し、現在のインタフェースにおける音声ウィジェットの情報をクロールする。より具体的には、現在のインタフェースのウィジェット構造ツリーをトラバースして、全ての音声ウィジェットの情報を取得してもよい。図３Ａに示すように、現在のインタフェースは、連絡帳、メッセージボード及びアルバムの３つのタブを含む音声タブウィジェットと、映像を撮影するための音声ボタンウィジェットと、音声メッセージを残すための音声ボタンウィジェットと、写真を撮るための音声ボタンウィジェットと、「現在、メッセージはありません」という文字情報を表示するテキストウィジェットと、を含む。ＵＩクローラは、音声ウィジェットの情報のみを取得する。すなわち、ＵＩクローラは、１つの音声タブウィジェットおよび３つの音声ボタンウィジェットの関連情報（例えば、各ウィジェットの説明情報、対応可能な操作及び実現される機能等）のみを取得する。ＵＩクローラは、クロールして得られた全ての音声ウィジェットの情報を送信エンジンに転送し、送信エンジンが、予め設定された通信プロトコルに基づいてカプセル化してクラウドサーバに伝送する。したがって、インタフェース内のウィジェットにおける音声対話について予め設定することなく、ＵＩクローラによって、当該プロセスを自動的に行うことが可能になる。

クラウドサーバは、受信した現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成することができる。例えば、図３Ａに示すインタフェースの場合には、指示情報は、「連絡帳に切り替える」、「アルバムに切り替える」、「音声メッセージを開く」、「カメラを開く」、「映像を撮影する」等であってもよい。クラウドサーバは、メッセージボードインタフェースにおいて最も頻繁に実行される操作が、音声メッセージを開く操作であるということを分析して決定するため、「音声メッセージを開く」という指示情報のみを端末機器に送信してもよく、端末機器は、当該指示情報に基づいて、ユーザに対応する指示を行ってもよい。例えば、図３Ａに示すように、文字方式の指示をインタフェースに表示してもよいし、音声を流して指示を行ってもよい。上記の処理プロセスは、何れもバックグラウンドで実行されるので、ユーザがメッセージボードアプリケーションを開いた場合には、図３Ａに示すインタフェースが表示されると考えてもよい。

図３Ａに示すインタフェースが端末機器に表示される場合、ユーザが「連絡帳に切り替える」と言うと、端末機器が連絡帳インタフェースに切り替わり、ユーザが「写真を撮る」と言うと、カメラを起動する。以下、音声メッセージを開く操作を一例として説明する。ユーザが「音声メッセージを開く」と言うと、端末機器のマイクロフォンが当該音声情報を収集し、通信ユニットを介して当該音声情報をクラウドサーバに送信する。クラウドサーバは、当該音声情報を受信した後に、先ず、これを認識して対応する文字情報に変換し、次に、現在のインタフェースにおいて音声ウィジェットの情報とマッチングし、何れかの音声ウィジェットとマッチングする程度が予め設定した値より高い場合に、当該音声ウィジェットを、音声情報にマッチングする音声ウィジェットとして決定する。図３Ａに示す場合、「音声メッセージを開く」という音声情報にマッチングする音声ウィジェットは、音声メッセージの音声ボタンウィジェットであり、ウィジェットコマンドは、クリックである。クラウドサーバは、生成した音声ウィジェットコマンドを端末機器にフィードバックする。送信エンジンは、当該音声ウィジェットコマンドを解析して、音声メッセージの音声ボタンウィジェットに送信する。当該音声ボタンウィジェットは、ウィジェットクリックのコマンドに応じて、図３Ｂに示すインタフェースにジャンプする。

この場合にもインタフェースが変更されるので、ＵＩクローラは、図３Ｂに示すインタフェースにおいて音声ウィジェットの情報を再度クロールする。後続する実行プロセスは、上述したプロセスに類似するので、ここでの詳細な説明については省略する。

本実施例に係る音声制御方法では、音声制御の安全性を向上させ、端末機器への不正な音声制御を避けるために、上述した何れかの実施例に基づいて、端末機器が対応する音声ウィジェットを音声ウィジェットコマンドに基づいて制御して操作を実行する前に、ユーザが端末機器に対して音声制御を行うための音声情報に基づいて声紋情報を決定し、当該声紋情報を予め設定された声紋情報とマッチングし、マッチングに成功する場合に、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することを含んでもよい。

声紋情報を決定し、声紋情報を予め設定された声紋情報とマッチングすることは、端末機器によって実行されてもよいし、クラウドサーバによって実行されてもよく、本実施例では特に限定されない。

本実施例によれば、安全性の高い音声制御方法を提供することができる。当該方法は、安全性が強く求められる場面に適用することができ、安全性を保証しつつ、音声による端末機器の制御の程度を向上させ、ユーザエクスペリエンスを向上させることができる。

図４は、本発明に係る音声制御方法のさらに別の実施例のプロセスを概略的に示す図である。当該方法は、クラウドサーバにより実行されてもよい。図４に示すように、本実施例に係る音声制御方法は、ステップ４０１と、ステップ４０２と、ステップ４０３と、を含む。

ステップ４０１において、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。

ステップ４０２において、音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。

オプションとして、クラウドサーバは、受信した音声情報を認識して、対応する文字情報に変換し、当該文字情報を現在のインタフェースにおける音声ウィジェットの文字説明情報とマッチングしてもよいし、受信した音声情報を現在のインタフェースにおける音声ウィジェットの音声説明情報と直接マッチングしてもよく、本実施例では特に限定されない。

オプションとして、クラウドサーバは、マッチングの精度を高めるために、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、をマッチングしてもよい。

ステップ４０３において、前記音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。

本実施例に係る音声制御方法によれば、音声情報に基づいて、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、対応する音声ウィジェットを端末機器に制御せせ操作を実行させることができるので、音声による端末機器の制御の程度を向上させることができ、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。

オプションとして、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信して、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させてもよい。

オプションとして、上記の方法は、現在のインタフェースにおける音声ウィジェットの情報に基づいて指示情報を決定し、当該指示情報を端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせることをさらに含む。指示を行うことによって、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を高めることができる。

本発明は、さらなる音声制御方法を提供する。図５は、本発明に係る音声制御方法の一実施例における装置間の対話のプロセスを概略的に示す図である。図５を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例は、端末機器とクラウドサーバとの対話により音声制御を実現するプロセスを提供し、図５に示すように、本実施例に係る音声制御方法は、ステップ５０１〜ステップ５０７を含む。

ステップ５０１において、端末機器は、インタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。

ここで、インタフェースが変更される（例えば、インタフェースのジャンプが発生したり、インタフェースにおけるウィジェットが変更したりする）場合、端末機器は、現在のインタフェースにおける音声ウィジェットの情報をクロールする（例えば、現在のインタフェースのウィジェット構造ツリーをトラバースする）ことによって、現在のインタフェースにおける音声ウィジェットの情報を取得する。

ステップ５０２において、端末機器は、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。

ここで、インタフェースが変更される毎に、端末機器は、クロールして得られた現在のインタフェースの音声ウィジェットの情報をクラウドサーバに送信し、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させる。

ステップ５０３において、端末機器は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。

ここで、端末機器は、マイクロフォン等の音声収集装置によって、ユーザが端末機器に対して音声制御を行うための音声情報を取得する。

ステップ５０４において、端末機器は、音声情報をクラウドサーバに送信する。

ステップ５０５において、クラウドサーバは、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。

ステップ５０６において、クラウドサーバは、音声ウィジェットコマンドを端末機器に送信する。

ステップ５０７において、端末機器は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを制御して操作を実行する。

本実施例における各ステップは、上述した何れかの方法に関する実施例による発明を参照して実施可能であるため、ここでの詳細な説明については省略する。

本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することにより、クラウドサーバが取得した音声ウィジェットの情報を端末機器と常に同期させることができる。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて、現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器が制御して操作を実行することにより、音声による端末機器の制御を実現することができ、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させることができ、音声制御の適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。

本発明は、端末機器をさらに提供する。図６は、本発明に係る端末機器の一実施例の構造を概略的に示す図である。図６を用いて本実施例を説明しているが、本発明はこれに限定されない。図６に示すように、本実施例に係る端末機器６０は、第１の受信モジュール６０１と、第１の送信モジュール６０２と、第２の受信モジュール６０３と、制御モジュール６０４と、を含む。

第１の受信モジュール６０１は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。第１の送信モジュール６０２は、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。第２の受信モジュール６０３は、クラウドサーバが送信した音声ウィジェットコマンドを受信する。制御モジュール６０４は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。

本実施例に係る端末機器は、図１の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。

オプションとして、当該端末機器は、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含んでもよい。この場合、第１の送信モジュールは、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信してもよい。

オプションとして、クロールモジュールは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得してもよい。

オプションとして、制御モジュールは、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガしてもよい。

オプションとして、第２の受信モジュールは、クラウドサーバが送信した指示情報を受信し、当該端末機器は、指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含んでもよい。

本実施例に係る端末機器は、図１〜図３の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。

本発明は、さらなる端末機器を提供する。図７は、本発明に係る端末機器の別の実施例の構造を概略的に示す図である。図７を用いて本実施例を説明しているが、本発明はこれに限定されない。当該端末機器は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット装置、医療機器、フィットネス装置及び携帯情報端末等であってもよい。図７に示すように、本実施例に係る端末機器は、処理ユニット７０１と、メモリ７０２と、電源ユニット７０４と、マルチメディアユニット７０６と、音声ユニット７０３と、入力／出力（Ｉ／Ｏ）インタフェース７０８と、センサユニット７０７と、通信ユニット７０５と、のうち１つ以上を含む。

処理ユニット７０１は、概して、端末機器全体における操作（例えば、表示、電話の発呼、データ通信、カメラの操作及び記録操作に関連する操作等）を制御する。処理ユニット７０１は、上述した方法の全てのステップ又は一部のステップを行うためのコマンドを実行する１つ以上のプロセッサ７０１１を含む。また、処理ユニット７０１は、処理ユニット７０１と別のユニットとの対話を実現するための１つ以上のモジュールを含んでもよい。例えば、処理ユニット７０１は、マルチメディアユニット７０６と処理ユニット７０１との対話を実現するためのマルチメディアモジュールを含む。

メモリ７０２は、端末機器での操作をサポートするための各種データを記憶するように構成されている。前記データは、例えば、端末機器において実行される任意のアプリケーションプログラム又は方法のコマンド、連絡先データ、連絡帳データ、メッセージ、画像及び映像等を含む。メモリ７０２は、あらゆるタイプの揮発性記憶装置及び不揮発性記憶装置、又は、これらの組み合わせによって実装することができる。このような記憶装置としては、スタティックランダムアクセスメモリ（ＳＲＡＭ：Static Random Access Memory）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ：Electric Erasable Programmable Read-Only Memory）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ：Erasable Programmable Read-Only Memory）、プログラマブル読み出し専用メモリ（ＰＲＯＭ：Programmable Read-Only Memory）、読み出し専用メモリ（ＲＯＭ：Read Only Memory）、磁気メモリ、フラッシュメモリ、磁気ディスク、又は、コンパクトディスク等が挙げられる。本実施例では、メモリ７０２には、プロセッサ７０１１により実行されると、図１〜図３の方法をプロセッサ７０１１に実行させるコンピュータプログラムが記憶されている。

電源ユニット７０４は、端末機器の様々なユニットに給電する。電源ユニット７０４は、電源管理システムと、１つ以上の電源と、端末機器における電力の発生、管理及び配分に係るその他のユニットと、を含んでもよい。

マルチメディアユニット７０６は、前記端末機器とユーザとの間における出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、当該スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。タッチパネルを含む場合には、インタフェースは、ユーザからの入力信号を受信するタッチスクリーンとして実施することができる。前記タッチパネルは、タッチ、スワイプ、及び、タッチパネル上のジェスチャを検知するための１つ以上のタッチセンサを含む。前記タッチセンサは、タッチ動作又はスワイプ動作の境界を検出するだけではなく、前記タッチ操作又はスワイプ操作の持続時間や関連する圧力も検出することができる。いくつかの実施例では、マルチメディアユニット７０６は、フロントカメラ及び／又はバックカメラを含む。端末機器が撮影モード又は映像モード等の操作モードにある場合、フロントカメラ及び／又はバックカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよいし、焦点距離及び光学ズーム機能を有するものであってもよい。

音声ユニット７０３は、音声信号を出力及び／又は入力するように構成されている。例えば、音声ユニット７０３は、端末機器が発呼モード、記録モード及び音声認識モード等の操作モードにある場合、外部の音声信号を受信するように構成されたマイクロフォン（ＭＩＣ）を含む。さらに、受信した音声信号をメモリ７０２に記憶してもよいし、通信ユニット７０５を介して送信してもよい。本実施例では、ユーザが端末機器に対して音声制御を行うための音声信号をマイクロフォンによって収集し、通信ユニット７０５が音声信号をクラウドサーバに送信してもよい。いくつかの実施例では、音声ユニット７０３は、音声信号を出力するためのスピーカをさらに含む。本実施例では、ユーザに対応する指示をスピーカによって行ってもよい。

Ｉ／Ｏインタフェース７０８は、処理ユニット７０１と周辺インタフェースモジュールとの間のインタフェースを提供する。前記周辺インタフェースモジュールは、キーボード、マウスホイール及びボタン等であってもよい。前記ボタンは、ホームページボタン、音量ボタン、開始ボタン及びロックボタンを含むが、これらに限定されない。

センサユニット７０７は、端末機器の各種状態を検出するための１つ以上のセンサを含む。例えば、センサユニット７０７は、端末機器のオン／オフ状態や、端末機器のディスプレイ及びテンキー等の部品の相対的位置を検出することができる。センサユニット７０７は、端末機器又は端末機器内の１つのユニットの位置変化、ユーザが端末機器に接触したか否か、端末機器の方向又は加速／減速、端末機器の温度変化を検出することもできる。センサユニット７０７は、物理的に接触しない場合に、近傍の物体の存在を検出するように構成された近接センサを含んでもよいし、結像アプリケーションに用いるＣＭＯＳやＣＣＤ画像センサ等の光センサをさらに含んでもよい。いくつかの実施例では、当該センサユニット７０７は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含んでもよい。

通信ユニット７０５は、端末機器と他の機器との間における有線又は無線方式の通信を実現するように構成されている。本実施例では、通信ユニット７０５は、端末機器とクラウドサーバとの対話を実現する。端末機器は、通信規格に基づく無線ネットワーク（例えば、ＷｉＦｉ（登録商標）、２Ｇ、３Ｇ、４Ｇ、又は、これらの組み合わせによる通信ネットワーク）にアクセスすることができる。１つの例示的な実施例では、通信ユニット７０５は、放送チャネルを介して、外部の放送管理システムからの放送信号又は放送に関連する情報を受信する。また、１つの例示的な実施例では、通信ユニット７０５は、近距離の無線通信を行うための近距離無線通信（ＮＦＣ）モジュールをさらに含む。当該ＮＦＣモジュールは、例えば、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術、及び、他の技術に基づいて実装されてもよい。

例示的な実施例において、端末機器は、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサを含む、上述した方法を実行可能な１つ以上の電子部品や、他の電子部品によって実装されてもよい。

例示的な実施例では、端末機器のプロセッサ７０１１により実行されると、上述した方法をプロセッサ７０１１に実行させるコマンドを含む非一時的なコンピュータ可読記憶媒体（例えば、コマンドを含むメモリ７０２）を提供する。非一時的なコンピュータ可読記憶媒体は、例えば、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク及び光学式のデータ記憶装置等であってもよい。

本発明は、クラウドサーバをさらに提供する。図８は、本発明に係るクラウドサーバの一実施例の構造を概略的に示す図である。図８を用いて本実施例を説明しているが、本発明はこれに限定されない。図８に示すように、本実施例に係るクラウドサーバ８０は、第３の受信モジュール８０１と、決定モジュール８０２と、第２の送信モジュール８０３と、を含む。

第３の受信モジュール８０１は、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。決定モジュール８０２は、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。第２の送信モジュール８０３は、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させる。

本実施例に係るクラウドサーバは、図４の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。

オプションとして、第３の受信モジュールは、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信してもよい。

オプションとして、決定モジュールは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定してもよい。第２の送信モジュールは、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせてもよい。

本発明は、さらなるクラウドサーバを提供する。図９は、本発明に係るクラウドサーバの別の実施例の構造を概略的に示す図である。図９を用いて本実施例を説明しているが、本発明はこれに限定されない。図９に示すように、本実施例に係るクラウドサーバ９０は、メモリ９０１と、プロセッサ９０２と、各コンポーネント間の接続を実現するバス９０３と、を含む。

メモリ９０１には、プロセッサ９０２により実行されると、図４の方法をプロセッサ９０２に実行させるコンピュータプログラムが記憶されている。

ここで、メモリ９０１とプロセッサ９０２とは直接的又は間接的な方式により電気的に接続されており、データの伝送又は対話を実現する。例えば、これらのコンポーネントは、１つ以上の通信バス又は信号線（例えば、バス９０３）によって電気的に接続されてもよい。メモリ９０１には、車両シミュレーション技術におけるデータ分析方法を実現するためのコンピュータプログラムが記憶されており、ソフトウェア又はファームウェアの形式でメモリ９０１に記憶される少なくとも１つのソフトウェア機能モジュールを含む。プロセッサ９０２は、メモリ９０１に記憶されたソフトウェアプログラム及びモジュールを実行することにより、様々な機能を応用したデータ処理を実行する。

メモリ９０１は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）等を含むが、これらに限定されない。なお、メモリ９０１はプログラムを記憶し、プロセッサ９０２は、実行コマンドを受信すると、プログラムを実行する。さらに、メモリ９０１内のソフトウェアプログラム及びモジュールは、オペレーティングシステムを含んでもよい。当該システムは、システムタスク（例えば、メモリ管理、記憶装置の制御、電源管理等）を管理するための各種ソフトウェアユニット及び／又はドライバを含んでもよく、且つ、様々なハードウェア又はソフトウェアユニットと通信して、他のソフトウェアユニットのための動作環境を提供してもよい。

プロセッサ９０２は、信号処理機能を備える集積回路チップであってもよい。プロセッサ９０２は、中央処理装置（ＣＰＵ：Central Processing Unit）、ネットワークプロセッサ（ＮＰ：Network Processor）等を含む汎用プロセッサであってもよい。本実施例に係る各方法、ステップ及びロジックブロック図を実行又は実施することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサ等であってもよい。なお、図９に示す構造は、例示的なものに過ぎず、図９に示すユニットよりも多い又は少ないユニットを含むように構成されてもよいし、図９と異なる構成を有してもよい。図９に示す各ユニットは、ハードウェア及び／又はソフトウェアによって実装することができる。

本発明は、音声制御システムをさらに提供する。図１０は、本発明に係る音声制御システムの一実施例の構造を概略的に示す図である。図１０を用いて本実施例を説明しているが、本発明はこれに限定されない。図１０に示すように、本実施例に係る音声制御システム１００は、少なくとも１つの端末機器１００１と、少なくとも１つのクラウドサーバ１００２と、を含む。端末機器１００１は、図１〜図３の方法に関する実施例による発明を実施することができ、クラウドサーバ１００２は、図４の方法に関する実施例による発明を実施することができる。端末機器１００１には、図６の実施例に対応する端末機器が採用されてもよく、クラウドサーバ１００２には、図８の実施例に対応するクラウドサーバが採用されてもよい。或いは、端末機器１００１には、図７の実施例に対応する端末機器が採用されてもよく、クラウドサーバ１００２には、図９の実施例に対応するクラウドサーバが採用されてもよい。

本実施例に係る音声制御システムは、図５の方法に関する実施例による発明を実施することができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。

本発明は、プロセッサにより実行されると、上述した何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。

なお、以上の各実施例は、本発明の技術を説明するものであって、本発明を限定するものではない。上述した各実施例を参照しながら本発明を詳細に説明したが、当業者には明らかであるように、上述した各実施例で説明した技術を変更してもよいし、その一部又は全ての技術的特徴に対して同等の置換を行ってもよく、これらの変更又は置換は、本発明の各実施例の技術的範囲から逸脱するものではない。

Claims

音声制御方法であって、
ユーザが端末機器に対して音声制御を行うための音声情報を受信するステップと、
前記音声情報をクラウドサーバに送信して、前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを前記クラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させるステップと、
前記クラウドサーバが送信した前記音声ウィジェットコマンドを受信するステップと、
前記端末機器における前記音声ウィジェットコマンドによって指示された音声ウィジェットを制御して前記ウィジェットコマンドを実行させるステップと、を含み、
前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを前記クラウドサーバに決定させることは、
前記クラウドサーバに、まず、セマンティクスに基づき、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理をさせ、次いでファジーマッチングの方法により、受信した音声情報と現在のインタフェースにおける音声ウィジェットのマッチングをさせ、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定させることを含むことを特徴とする音声制御方法。
前記音声情報を前記クラウドサーバに送信する前に、
前記端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするステップと、
クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報を前記クラウドサーバに送信するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記現在のインタフェースにおける音声ウィジェットの情報をクロールするステップは、
前記現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、前記ウィジェット構造ツリーをトラバースして、前記現在のインタフェースにおける音声ウィジェットの情報を取得することを含む、
ことを特徴とする請求項２に記載の方法。
前記音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させるステップは、
前記音声ウィジェットコマンドに基づいて、当該音声ウィジェットコマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガすることを含む、
ことを特徴とする請求項１〜３の何れか１項に記載の方法。
前記クラウドサーバが送信した指示情報を受信するステップと、
前記指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行うステップと、をさらに含む、
ことを特徴とする請求項１〜３の何れか１項に記載の方法。
音声制御方法であって、
端末機器が送信した、前記端末機器に対して音声制御を行うための音声情報を受信するステップと、
前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成するステップと、
前記音声ウィジェットコマンドを前記端末機器に送信して、前記端末機器における前記音声ウィジェットコマンドによって指示された音声ウィジェットを前記端末機器に制御させて前記音声ウィジェットコマンドを実行させるステップと、
を含み、
前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを決定することは、
まず、セマンティクスに基づき、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理をさせ、次いでファジーマッチングの方法により、受信した音声情報と現在のインタフェースにおける音声ウィジェットのマッチングを行い、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定することを含むことを特徴とする音声制御方法。
前記端末機器が送信した音声情報を受信する前に、
前記端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信するステップをさらに含む、
ことを特徴とする請求項６に記載の方法。
現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定するステップと、
前記指示情報を前記端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせるステップと、をさらに含む、
ことを特徴とする請求項６又は７に記載の方法。
端末機器であって、
ユーザが端末機器に対して音声制御を行うための音声情報を受信する第１の受信モジュールと、
前記音声情報をクラウドサーバに送信して、前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを前記クラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる第１の送信モジュールと、
前記クラウドサーバが送信した前記音声ウィジェットコマンドを受信する第２の受信モジュールと、
前記端末機器における前記音声ウィジェットコマンドによって指示された音声ウィジェットを制御して前記ウィジェットコマンドを実行させる制御モジュールと、を含み、
前記第１の送信モジュールは、前記クラウドサーバに前記音声情報に基づき、現在のインタフェースにおける前記音声情報にマッチングする、音声対話機能を備える音声ウィジェットおよびウィジェットコマンドを決定させるとき、さらに、
前記クラウドサーバに、まず、セマンティクスに基づき、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理をさせ、次いでファジーマッチングの方法により、受信した音声情報と現在のインタフェースにおける音声ウィジェットのマッチングをさせ、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェットおよびウィジェットコマンドを決定させることに用いられることを特徴とする端末機器。
前記端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含み、
前記第１の送信モジュールは、クロールして得られた前記現在のインタフェースにおける全ての音声ウィジェットの情報を前記クラウドサーバに送信する、
ことを特徴とする請求項９に記載の端末機器。
前記クロールモジュールは、
前記現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む前記現在のインタフェースのウィジェット構造ツリーを取得し、前記ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得する、
ことを特徴とする請求項１０に記載の端末機器。
前記制御モジュールは、
前記音声ウィジェットコマンドに基づいて、当該音声ウィジェットコマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガする、
ことを特徴とする請求項９〜１１の何れか１項に記載の機器。
前記第２の受信モジュールは、前記クラウドサーバが送信した指示情報を受信し、
前記端末機器は、前記指示情報に基づいて、音声及び／又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含む、
ことを特徴とする請求項９〜１１の何れか１項に記載の機器。
クラウドサーバであって、
端末機器が送信した、前記端末機器に対して音声制御を行うための音声情報を受信する第３の受信モジュールと、
前記音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする、音声対話機能を備える音声ウィジェット及びウィジェットコマンドを決定して、対応する音声ウィジェットコマンドを生成する決定モジュールと、
前記音声ウィジェットコマンドを前記端末機器に送信して、前記端末機器における前記音声ウィジェットコマンドによって指示された音声ウィジェットを前記端末機器に制御させて前記ウィジェットコマンドを実行させる第２の送信モジュールと、を含み、
前記決定モジュールは、前記音声情報に基づき、現在のインタフェースにおける前記音声情報にマッチングする、音声対話機能を備える音声ウィジェットおよびウィジェットコマンドを決定するとき、さらに、
まず、セマンティクスに基づき、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次いでファジーマッチングの方法により、受信した音声情報と現在のインタフェースにおける音声ウィジェットのマッチングを行い、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェットおよびウィジェットコマンドを決定することに用いられることを特徴とするクラウドサーバ。
前記第３の受信モジュールは、
前記端末機器が送信した音声情報を受信する前に、前記端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信する、
ことを特徴とする請求項１４に記載のクラウドサーバ。
前記決定モジュールは、前記現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定し、
前記第２の送信モジュールは、前記指示情報を前記端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせる、
ことを特徴とする請求項１４又は１５に記載のクラウドサーバ。
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項１〜５の何れか１項に記載の方法を前記プロセッサに実行させるように構成されている、
ことを特徴とする端末機器。
クラウドサーバであって、
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項６〜８の何れか１項に記載の方法を前記プロセッサに実行させるように構成されている、
ことを特徴とするクラウドサーバ。
請求項９〜１３の何れか１項に記載の少なくとも１つの端末機器と、
請求項１４〜１６の何れか１項に記載の少なくとも１つのクラウドサーバと、を備える、
ことを特徴とする音声制御システム。
コンピュータ可読記憶媒体であって、
コンピュータプログラムを記憶しており、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項１〜８の何れか１項に記載の方法を前記プロセッサに実行させる、
ことを特徴とするコンピュータ可読記憶媒体。