上述した各図面に係る本発明の各実施例について、以下に詳細に説明する。これらの図面及び以下の説明は、本発明の趣旨に対して限定を加えることなく、当業者が本発明を理解できるように、特定の実施例を参照しながら説明するためのものである。
以下、例示的な各実施例について詳細に説明し、各実施例を対応する図面に示す。以下の説明において図が参照される場合には、特に断らない限り、異なる図面における同一符号は、同一又は類似の要素を表している。以下、例示的な実施例において説明される実施形態は、本発明に該当する全ての実施形態を表すものではなく、特許請求の範囲に記載された本発明のいくつかの態様に合致する装置及び方法の一例に過ぎない。
本発明の明細書及び特許請求の範囲に使用されている、「含む」、「有する」という用語及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットを含んでもよいし、これらのプロセス、方法、製品又機器に固有の他のステップ又はユニットを含んでもよい。
本発明における「第1」及び「第2」という用語は、識別目的のためにのみ使用され、順番関係、相対的重要性を指示又は示唆し、又は、指示された技術的特徴の数を暗示的に示すものとして解釈されるべきではない。「複数」とは、2つ以上を意味する。「及び/又は」とは、関連するオブジェクトの関連関係を示し、3種類の関係を示すことができる。例えば、A及び/又はBは、Aが独立して存在する場合、AとBが同時に存在する場合、Bが独立して存在する場合を示す。「/」という文字は、一般的に、前後における関連オブジェクトが「又は」の関係を有することを示している。
本発明の明細書全体を通して使用される「1つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造又は特性が、本発明の少なくとも1つの実施例に含まれることを意味する。従って、本明細書を通して使用される「1つの実施例では」又は「一実施例では」とは、必ずしも同じ実施例を指しているわけではない。なお、矛盾がない限り、本発明の実施例及び実施例の特徴を組み合わせることが可能である。
図1は、本発明に係る音声制御方法の一実施例のプロセスを概略的に示す図である。当該方法は、スマートフォン、タブレットパソコン、コンピュータデバイス、スマート家電製品、車載型中央制御システム等の端末機器により実行されてもよく、本実施例では特に限定されない。図1に示すように、本実施例に係る音声制御方法は、ステップ101と、ステップ102と、ステップ103と、ステップ104と、を含む。
ステップ101において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。
ユーザが端末機器に対して音声制御を行うための音声情報は、端末機器のマイクロフォンによって収集されてもよいし、音声ファイルの変換によって取得されてもよい。
ユーザが端末機器に対して音声制御を行うための音声情報は、操作したいウィジェット及び対応する操作コマンドを含む。例えば、写真を閲覧するインタフェースには、拡大、縮小及び削除の3つのボタンウィジェットが設けられている。ユーザは、インタフェース上の拡大ボタンを指でタッチする代わりに、「拡大ボタンをクリックする」という音声情報によって、写真を拡大する操作を行うことができる。なお、当該音声情報は、例示的なものに過ぎず、ユーザが端末機器に対して音声制御を行うための音声情報は、インタフェースに含まれるウィジェット及びウィジェットがサポートする操作に基づいて決定されてもよい。
オプションとして、端末機器が音声制御をサポートする場合には、マイクロフォンが常時オン状態にあることによって端末機器の消費電力が増加するのを避けるために、音声制御機能をオンするか否かのオプションを設定画面に追加してもよい。デフォルトではオフにセットされており、ユーザが音声制御機能をオンにすると、マイクロフォンをオンにして、ユーザが端末機器に対して音声制御を行うための音声情報を収集する。
ステップ102において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。
ユーザが端末機器に対して音声制御を行うための音声情報がクラウドサーバに送信されると、クラウドサーバの強力な処理能力によって、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを迅速且つ正確に取得して、対応する音声ウィジェットコマンドを生成することができる。音声情報は、有線及び/又は無線方式によってクラウドサーバに送信されてもよく、本実施例では特に限定されない。端末機器及びクラウドサーバ間の通信プロトコルに基づいて、ユーザが端末機器に対して音声制御を行うための音声情報をカプセル化し、カプセル化された音声情報がクラウドサーバに送信されてもよく、本実施例では特に限定されない。
本実施例における音声ウィジェットは、音声対話機能を備えており、ウィジェットに対して、対応する操作を音声によって実行させることができる。前記音声ウィジェットは、音声によってボタンのクリック、長押し及びダブルクリック等の操作を制御する音声ボタンウィジェット、音声によってリストのスクロール、オプションのクリック、長押し及びダブルクリック等の操作を制御する音声リストウィジェット、音声によってブラウザ上のリンクに対応するウェブページを開く機能を実現する音声リンクウィジェット、音声によって特定のオプションを選択する機能を実現する音声ラジオボタンウィジェット、音声によって入力ボックスに文字を入力する機能を実現する音声入力ボックスウィジェット、音声によってタブの切り替えを制御する音声タブウィジェット、カスタマイズされた機能を開発するために第三者が提供した音声対話情報を設定可能な音声カスタマイズウィジェット等を含むが、これらに限定されない。
オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、マッチング失敗情報を端末機器に送信してもよい。端末機器は、当該マッチング失敗情報に基づいて、音声及び/又は文字方式により指示(例えば「音声情報を再入力してください」という音声で指示)してもよい。
オプションとして、現在のインタフェースにおいて、音声情報にマッチングする音声ウィジェットが存在しない場合には、クラウドサーバは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成して端末機器に送信してもよい。端末機器は、当該指示情報に基づいて、音声及び/又は文字方式により指示(例えば「『拡大ボタンをクリックする』と言ってみてください」)という音声で指示)してもよい。
操作時の習慣はユーザによって様々である。写真を閲覧するインタフェースについての操作を一例として説明すると、インタフェース上の写真拡大ボタンを指でタッチする代わりに音声制御によって写真の拡大操作を行う場合には、受信した音声が、「拡大ボタンをクリックする」、「拡大ボタンをタッチする」、「拡大ボタンをクリックする」、「写真を拡大する」、「写真をズームインする」と多種多様になる可能性がある。マッチングを行う際に何度も失敗することによってユーザエクスペリエンスが損なわれるのを避け、よりマッチングしやすくするために、音声情報に基づいて、現在のインタフェースにおける音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させるステップは、クラウドサーバが、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、のマッチングを行うことを含んでもよい。
ステップ103において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。
ステップ104において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。
クラウドサーバが送信した音声ウィジェットコマンドには、音声情報にマッチングする音声ウィジェット及びウィジェットコマンドの情報が含まれるので、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガして、端末機器に対する音声制御を実現することができる。これにより、指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。
本実施例に係る音声制御方法では、ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて決定した現在のインタフェースにおける当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させることにより、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作に代替することができ、音声による端末機器の制御の程度を向上させるとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御精度を高めることができ、さらにはユーザエクスペリエンスを向上させることができる。
本実施例に係る音声制御方法では、拡張性を高めるために、前記実施例に基づいて、音声情報をクラウドサーバに送信する前に、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールし、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信するステップを含んでもよい。
ここで、端末機器のインタフェースが変更されることは、インタフェースがジャンプすること(すなわち、インタフェースAからインタフェースBへジャンプすること)であってもよい。スマートフォンを一例として説明すると、例えば連絡帳インタフェースからショートメッセージインタフェースへジャンプすることであってもよい。また、インタフェースが変更されることは、インタフェース内のウィジェットが変更されたことを指してもよい。例えば、インタフェースにおけるラジオボタンウィジェットが選択されたことであってもよいし、タブウィジェットが切り替わったことであってもよいし、入力ボックスウィジェットに新しい文字情報が入力されたことであってもよい。音声ウィジェットの情報は、例えば音声ウィジェットのタイプ、対応可能な操作方式、現在のインタフェースにおける機能、音声情報の説明等の当該音声ウィジェットの全ての関連情報を含んでもよい。
端末機器のインタフェースが変更される毎に、変更後の現在のインタフェースにおける音声ウィジェットの情報を再度クロールし、クラウドサーバに送信する。これにより、クラウドサーバが取得した音声ウィジェットの情報が、端末機器と同期される。
オプションとして、予め設定された通信プロトコルに基づいて、クロールして得られた音声ウィジェット情報をカプセル化し、カプセル化した後の音声ウィジェット情報をクラウドサーバに送信することによって、クラウドサーバは、情報を正しく解析して、現在のインタフェースにおける音声ウィジェットの情報を取得することができる。
オプションとして、現在のインタフェースにおける音声ウィジェットの情報をクロールする方法は、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースし、現在のインタフェースにおける音声ウィジェットの情報を取得することを含んでもよい。
ここで、現在のインタフェースのウィジェット構造ツリーを取得するためには、様々な方法があり、本実施例では特に限定されない。本実施例のオプションの形態として、dump方式により、現在のインタフェース全体のレイアウトを含み、レイアウトウィジェット及びユーザインタフェースウィジェット等で構成されるxml構造ファイルを取得し、取得したxml構造ファイルを解析することによって、現在のインタフェースのウィジェット構造ツリーを取得してもよい。
ウィジェット構造ツリーには、現在のインタフェースにおける音声操作をサポートする全ての音声ウィジェットの情報と、全ての非音声ウィジェット(例えば、表示機能のみを有するテキストボックス)の情報と、が含まれてもよい。ウィジェット構造ツリーのノードに対してポリシーに基づくトラバースを実行して、現在のインタフェースにおける音声ウィジェットの情報を取得する。取得した音声ウィジェットの情報をテンポラリの配列に追加し、テンポラリの配列における全ての音声ウィジェットの情報を分析して処理(例えば、フィルタをかけて一部の不要な情報を除去する)してもよい。
本実施例に係る音声制御方法において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、インタフェースでの音声対話に関連する設定(例えば、特定のインタフェースにおける音声情報をサポートするウィジェットについての設定)をしなくてもクラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させることが可能にある。製品のアップグレード、故障の回復等に伴ってインタフェース内のウィジェットが調整された場合であっても、本実施例に係る音声制御方法によれば、クラウドサーバが再度変更を行って適合させる必要がなく、変更後のウィジェットに対して自動的に設定し直すことが可能になるので、プロセス全体の完全な自動化が実現される。本実施例に係る音声制御方法によれば、音声制御の適用される場面が拡張し、ユーザエクスペリエンスが向上する。
本実施例では、上記の実施例に基づいて、さらなる音声制御方法を提供する。図2は、本発明に係る音声制御方法の別の実施例のプロセスを概略的に示す図である。図2を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例に係る音声制御方法は、ステップ201〜ステップ206を含む。ステップ201において、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。ステップ202において、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。ステップ203において、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。ステップ204において、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定させ、対応する音声ウィジェットコマンドを生成させる。ステップ205において、クラウドサーバが送信した音声ウィジェットコマンドを受信する。ステップ206において、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行する。
本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することによって、クラウドサーバが取得した音声ウィジェットの情報が端末機器と常に同期される。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、当該音声情報に基づいて決定した現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドによりクラウドサーバによって生成された音声ウィジェットコマンドを受信し、当該音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することによって、音声による端末機器の制御を実現し、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器に対して行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させ、音声制御が適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
本実施例に係る音声制御方法は、ユーザエクスペリエンスをさらに向上させ、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させ、音声制御の精度を向上させるために、上述した何れかの実施例に基づいて、クラウドサーバが送信した指示情報を受信し、当該指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行うことをさらに含んでもよい。
当該指示情報は、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。例えば、音声リストウィジェットの場合には、「リストを上にスクロールしてみてください」という指示情報が生成されてもよい。また、連絡帳、メッセージボード及びアルバムの3つのタブを有する音声タブウィジェットの場合には、「メッセージボードに切り替えてみてください」という指示情報が生成されてもよい。端末機器が当該指示情報を受信した後、現在のインタフェースにおいて当該指示情報を文字方式で表示してもよいし、端末機器のスピーカによって音声を出力して指示を行ってもよい。
オプションとして、現在のインタフェースに複数の音声ウィジェットが存在する場合には、ユーザの使用習慣に基づいて、最も頻繁に使用される音声ウィジェットに関する指示情報が生成されてもよい。
オプションとして、当該指示情報は、ユーザが端末機器に対して音声制御を行うための音声情報にマッチングする音声ウィジェットが現在のインタフェースに存在しない場合に、クラウドサーバによって、現在のインタフェースにおける音声ウィジェットの情報に基づいて生成されるものであってもよい。一つの可能な実施形態において、クラウドサーバは、ユーザが端末機器に対して音声制御を行うための音声情報と、現在のインタフェースにおける音声ウィジェットの情報と、を分析し、ユーザが端末機器に対して音声制御を行うための音声情報に最もマッチングする音声ウィジェットに関する指示情報を生成してもよい。
本実施例に係る音声制御方法において、クラウドサーバが送信した指示情報を受信し、音声及び/又は文字方式によってユーザに表示して指示することにより、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を向上させることができ、さらにユーザエクスペリエンスを向上させることができる。
以下、上述した実施例に基づいて、一つの具体的な実施例を用いて、本実施例に係る音声制御方法を詳しく説明する。図3を用いて本実施例を説明しているが、本発明はこれに限定されない。図3A及び図3Bは、本発明に係る音声制御方法のさらに別の実施例におけるインタフェースを概略的に示す図である。
本実施例では、ユーザインタフェース(UI:User Interface)クローラは、端末機器においてソフトウェア及び/又はハードウェアにより実現された、端末機器のインタフェースにおける音声ウィジェットの情報を取得するための装置として理解されてもよい。送信エンジンは、端末機器においてソフトウェア及び/又はハードウェアにより実現された、端末機器とクラウドサーバとの間で上り送信及び下り送信機能を実現するための装置として理解されてもよい。
ユーザがメッセージボードアプリケーションを開く場合、端末機器は、図3Aに示すインタフェースを表示する。別のインタフェースから現在のインタフェースにジャンプしてもよいし、現在のインタフェースにおけるタブウィジェットによって、現在のインタフェースに切り替えられてもよい。何れの場合においても、UIクローラは、変更したインタフェースの情報を取得し、現在のインタフェースにおける音声ウィジェットの情報をクロールする。より具体的には、現在のインタフェースのウィジェット構造ツリーをトラバースして、全ての音声ウィジェットの情報を取得してもよい。図3Aに示すように、現在のインタフェースは、連絡帳、メッセージボード及びアルバムの3つのタブを含む音声タブウィジェットと、映像を撮影するための音声ボタンウィジェットと、音声メッセージを残すための音声ボタンウィジェットと、写真を撮るための音声ボタンウィジェットと、「現在、メッセージはありません」という文字情報を表示するテキストウィジェットと、を含む。UIクローラは、音声ウィジェットの情報のみを取得する。すなわち、UIクローラは、1つの音声タブウィジェットおよび3つの音声ボタンウィジェットの関連情報(例えば、各ウィジェットの説明情報、対応可能な操作及び実現される機能等)のみを取得する。UIクローラは、クロールして得られた全ての音声ウィジェットの情報を送信エンジンに転送し、送信エンジンが、予め設定された通信プロトコルに基づいてカプセル化してクラウドサーバに伝送する。したがって、インタフェース内のウィジェットにおける音声対話について予め設定することなく、UIクローラによって、当該プロセスを自動的に行うことが可能になる。
クラウドサーバは、受信した現在のインタフェースにおける音声ウィジェットの情報に基づいて、対応する指示情報を生成することができる。例えば、図3Aに示すインタフェースの場合には、指示情報は、「連絡帳に切り替える」、「アルバムに切り替える」、「音声メッセージを開く」、「カメラを開く」、「映像を撮影する」等であってもよい。クラウドサーバは、メッセージボードインタフェースにおいて最も頻繁に実行される操作が、音声メッセージを開く操作であるということを分析して決定するため、「音声メッセージを開く」という指示情報のみを端末機器に送信してもよく、端末機器は、当該指示情報に基づいて、ユーザに対応する指示を行ってもよい。例えば、図3Aに示すように、文字方式の指示をインタフェースに表示してもよいし、音声を流して指示を行ってもよい。上記の処理プロセスは、何れもバックグラウンドで実行されるので、ユーザがメッセージボードアプリケーションを開いた場合には、図3Aに示すインタフェースが表示されると考えてもよい。
図3Aに示すインタフェースが端末機器に表示される場合、ユーザが「連絡帳に切り替える」と言うと、端末機器が連絡帳インタフェースに切り替わり、ユーザが「写真を撮る」と言うと、カメラを起動する。以下、音声メッセージを開く操作を一例として説明する。ユーザが「音声メッセージを開く」と言うと、端末機器のマイクロフォンが当該音声情報を収集し、通信ユニットを介して当該音声情報をクラウドサーバに送信する。クラウドサーバは、当該音声情報を受信した後に、先ず、これを認識して対応する文字情報に変換し、次に、現在のインタフェースにおいて音声ウィジェットの情報とマッチングし、何れかの音声ウィジェットとマッチングする程度が予め設定した値より高い場合に、当該音声ウィジェットを、音声情報にマッチングする音声ウィジェットとして決定する。図3Aに示す場合、「音声メッセージを開く」という音声情報にマッチングする音声ウィジェットは、音声メッセージの音声ボタンウィジェットであり、ウィジェットコマンドは、クリックである。クラウドサーバは、生成した音声ウィジェットコマンドを端末機器にフィードバックする。送信エンジンは、当該音声ウィジェットコマンドを解析して、音声メッセージの音声ボタンウィジェットに送信する。当該音声ボタンウィジェットは、ウィジェットクリックのコマンドに応じて、図3Bに示すインタフェースにジャンプする。
この場合にもインタフェースが変更されるので、UIクローラは、図3Bに示すインタフェースにおいて音声ウィジェットの情報を再度クロールする。後続する実行プロセスは、上述したプロセスに類似するので、ここでの詳細な説明については省略する。
本実施例に係る音声制御方法では、音声制御の安全性を向上させ、端末機器への不正な音声制御を避けるために、上述した何れかの実施例に基づいて、端末機器が対応する音声ウィジェットを音声ウィジェットコマンドに基づいて制御して操作を実行する前に、ユーザが端末機器に対して音声制御を行うための音声情報に基づいて声紋情報を決定し、当該声紋情報を予め設定された声紋情報とマッチングし、マッチングに成功する場合に、音声ウィジェットコマンドに基づいて、端末機器が対応する音声ウィジェットを制御して操作を実行することを含んでもよい。
声紋情報を決定し、声紋情報を予め設定された声紋情報とマッチングすることは、端末機器によって実行されてもよいし、クラウドサーバによって実行されてもよく、本実施例では特に限定されない。
本実施例によれば、安全性の高い音声制御方法を提供することができる。当該方法は、安全性が強く求められる場面に適用することができ、安全性を保証しつつ、音声による端末機器の制御の程度を向上させ、ユーザエクスペリエンスを向上させることができる。
図4は、本発明に係る音声制御方法のさらに別の実施例のプロセスを概略的に示す図である。当該方法は、クラウドサーバにより実行されてもよい。図4に示すように、本実施例に係る音声制御方法は、ステップ401と、ステップ402と、ステップ403と、を含む。
ステップ401において、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。
ステップ402において、音声情報に基づいて、現在のインタフェースにおいて前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。
オプションとして、クラウドサーバは、受信した音声情報を認識して、対応する文字情報に変換し、当該文字情報を現在のインタフェースにおける音声ウィジェットの文字説明情報とマッチングしてもよいし、受信した音声情報を現在のインタフェースにおける音声ウィジェットの音声説明情報と直接マッチングしてもよく、本実施例では特に限定されない。
オプションとして、クラウドサーバは、マッチングの精度を高めるために、先ず、セマンティクスに基づいて、現在のインタフェースにおける全ての音声ウィジェットの情報に対して一般化処理を行い、次に、ファジーマッチングの方法により、受信した音声情報と、現在のインタフェースにおける音声ウィジェットと、をマッチングしてもよい。
ステップ403において、前記音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。
本実施例に係る音声制御方法によれば、音声情報に基づいて、現在のインタフェースにおける前記音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、対応する音声ウィジェットを端末機器に制御せせ操作を実行させることができるので、音声による端末機器の制御の程度を向上させることができ、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
オプションとして、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信して、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させてもよい。
オプションとして、上記の方法は、現在のインタフェースにおける音声ウィジェットの情報に基づいて指示情報を決定し、当該指示情報を端末機器に送信して、ユーザに対応する指示を前記端末機器に行わせることをさらに含む。指示を行うことによって、ユーザが端末機器に対して音声制御を行うための音声情報を標準化させることができ、音声制御の精度を高めることができる。
本発明は、さらなる音声制御方法を提供する。図5は、本発明に係る音声制御方法の一実施例における装置間の対話のプロセスを概略的に示す図である。図5を用いて本実施例を説明しているが、本発明はこれに限定されない。本実施例は、端末機器とクラウドサーバとの対話により音声制御を実現するプロセスを提供し、図5に示すように、本実施例に係る音声制御方法は、ステップ501〜ステップ507を含む。
ステップ501において、端末機器は、インタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールする。
ここで、インタフェースが変更される(例えば、インタフェースのジャンプが発生したり、インタフェースにおけるウィジェットが変更したりする)場合、端末機器は、現在のインタフェースにおける音声ウィジェットの情報をクロールする(例えば、現在のインタフェースのウィジェット構造ツリーをトラバースする)ことによって、現在のインタフェースにおける音声ウィジェットの情報を取得する。
ステップ502において、端末機器は、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信する。
ここで、インタフェースが変更される毎に、端末機器は、クロールして得られた現在のインタフェースの音声ウィジェットの情報をクラウドサーバに送信し、クラウドサーバが取得した音声ウィジェットの情報を端末機器と同期させる。
ステップ503において、端末機器は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。
ここで、端末機器は、マイクロフォン等の音声収集装置によって、ユーザが端末機器に対して音声制御を行うための音声情報を取得する。
ステップ504において、端末機器は、音声情報をクラウドサーバに送信する。
ステップ505において、クラウドサーバは、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。
ステップ506において、クラウドサーバは、音声ウィジェットコマンドを端末機器に送信する。
ステップ507において、端末機器は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを制御して操作を実行する。
本実施例における各ステップは、上述した何れかの方法に関する実施例による発明を参照して実施可能であるため、ここでの詳細な説明については省略する。
本実施例に係る音声制御方法によれば、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールして、クラウドサーバに送信することにより、クラウドサーバが取得した音声ウィジェットの情報を端末機器と常に同期させることができる。ユーザが端末機器に対して音声制御を行うための音声情報をクラウドサーバに送信し、クラウドサーバが当該音声情報に基づいて、現在のインタフェースにおいて当該音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、音声ウィジェットコマンドを生成し、当該音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器が制御して操作を実行することにより、音声による端末機器の制御を実現することができ、特に、音声制御インタフェースにおけるウィジェットを操作することによって、例えば指、リモートコントローラ、マウス等によってユーザが端末機器において行うボタンのクリック、リストスクロールやページ捲り、入力ボックスへの文字入力等の操作を代替することができる。これにより、音声による端末機器の制御の程度を向上させることができ、音声制御の適用される場面が拡張するとともに、クラウドサーバの強力な処理能力によって、音声制御への応答を速めて制御の精度を高めることができ、さらにユーザエクスペリエンスを向上させることができる。
本発明は、端末機器をさらに提供する。図6は、本発明に係る端末機器の一実施例の構造を概略的に示す図である。図6を用いて本実施例を説明しているが、本発明はこれに限定されない。図6に示すように、本実施例に係る端末機器60は、第1の受信モジュール601と、第1の送信モジュール602と、第2の受信モジュール603と、制御モジュール604と、を含む。
第1の受信モジュール601は、ユーザが端末機器に対して音声制御を行うための音声情報を受信する。第1の送信モジュール602は、音声情報をクラウドサーバに送信して、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドをクラウドサーバに決定させ、対応する音声ウィジェットコマンドを生成させる。第2の受信モジュール603は、クラウドサーバが送信した音声ウィジェットコマンドを受信する。制御モジュール604は、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させ操作を実行させる。
本実施例に係る端末機器は、図1の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。
オプションとして、当該端末機器は、端末機器のインタフェースが変更されると、現在のインタフェースにおける音声ウィジェットの情報をクロールするクロールモジュールをさらに含んでもよい。この場合、第1の送信モジュールは、クロールして得られた現在のインタフェースにおける全ての音声ウィジェットの情報をクラウドサーバに送信してもよい。
オプションとして、クロールモジュールは、現在のインタフェースにおける全ての音声ウィジェットの情報と、全ての非音声ウィジェットの情報と、を含む現在のインタフェースのウィジェット構造ツリーを取得し、ウィジェット構造ツリーをトラバースして、現在のインタフェースにおける音声ウィジェットの情報を取得してもよい。
オプションとして、制御モジュールは、音声ウィジェットコマンドに基づいて、当該コマンドを実行する音声ウィジェット及びウィジェットコマンドを決定し、対応するウィジェットの動作をトリガしてもよい。
オプションとして、第2の受信モジュールは、クラウドサーバが送信した指示情報を受信し、当該端末機器は、指示情報に基づいて、音声及び/又は文字方式によって、ユーザに対応する指示を行う指示モジュールをさらに含んでもよい。
本実施例に係る端末機器は、図1〜図3の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、さらなる端末機器を提供する。図7は、本発明に係る端末機器の別の実施例の構造を概略的に示す図である。図7を用いて本実施例を説明しているが、本発明はこれに限定されない。当該端末機器は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット装置、医療機器、フィットネス装置及び携帯情報端末等であってもよい。図7に示すように、本実施例に係る端末機器は、処理ユニット701と、メモリ702と、電源ユニット704と、マルチメディアユニット706と、音声ユニット703と、入力/出力(I/O)インタフェース708と、センサユニット707と、通信ユニット705と、のうち1つ以上を含む。
処理ユニット701は、概して、端末機器全体における操作(例えば、表示、電話の発呼、データ通信、カメラの操作及び記録操作に関連する操作等)を制御する。処理ユニット701は、上述した方法の全てのステップ又は一部のステップを行うためのコマンドを実行する1つ以上のプロセッサ7011を含む。また、処理ユニット701は、処理ユニット701と別のユニットとの対話を実現するための1つ以上のモジュールを含んでもよい。例えば、処理ユニット701は、マルチメディアユニット706と処理ユニット701との対話を実現するためのマルチメディアモジュールを含む。
メモリ702は、端末機器での操作をサポートするための各種データを記憶するように構成されている。前記データは、例えば、端末機器において実行される任意のアプリケーションプログラム又は方法のコマンド、連絡先データ、連絡帳データ、メッセージ、画像及び映像等を含む。メモリ702は、あらゆるタイプの揮発性記憶装置及び不揮発性記憶装置、又は、これらの組み合わせによって実装することができる。このような記憶装置としては、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM:Electric Erasable Programmable Read-Only Memory)、消去可能なプログラマブル読み出し専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、プログラマブル読み出し専用メモリ(PROM:Programmable Read-Only Memory)、読み出し専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は、コンパクトディスク等が挙げられる。本実施例では、メモリ702には、プロセッサ7011により実行されると、図1〜図3の方法をプロセッサ7011に実行させるコンピュータプログラムが記憶されている。
電源ユニット704は、端末機器の様々なユニットに給電する。電源ユニット704は、電源管理システムと、1つ以上の電源と、端末機器における電力の発生、管理及び配分に係るその他のユニットと、を含んでもよい。
マルチメディアユニット706は、前記端末機器とユーザとの間における出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、当該スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。タッチパネルを含む場合には、インタフェースは、ユーザからの入力信号を受信するタッチスクリーンとして実施することができる。前記タッチパネルは、タッチ、スワイプ、及び、タッチパネル上のジェスチャを検知するための1つ以上のタッチセンサを含む。前記タッチセンサは、タッチ動作又はスワイプ動作の境界を検出するだけではなく、前記タッチ操作又はスワイプ操作の持続時間や関連する圧力も検出することができる。いくつかの実施例では、マルチメディアユニット706は、フロントカメラ及び/又はバックカメラを含む。端末機器が撮影モード又は映像モード等の操作モードにある場合、フロントカメラ及び/又はバックカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよいし、焦点距離及び光学ズーム機能を有するものであってもよい。
音声ユニット703は、音声信号を出力及び/又は入力するように構成されている。例えば、音声ユニット703は、端末機器が発呼モード、記録モード及び音声認識モード等の操作モードにある場合、外部の音声信号を受信するように構成されたマイクロフォン(MIC)を含む。さらに、受信した音声信号をメモリ702に記憶してもよいし、通信ユニット705を介して送信してもよい。本実施例では、ユーザが端末機器に対して音声制御を行うための音声信号をマイクロフォンによって収集し、通信ユニット705が音声信号をクラウドサーバに送信してもよい。いくつかの実施例では、音声ユニット703は、音声信号を出力するためのスピーカをさらに含む。本実施例では、ユーザに対応する指示をスピーカによって行ってもよい。
I/Oインタフェース708は、処理ユニット701と周辺インタフェースモジュールとの間のインタフェースを提供する。前記周辺インタフェースモジュールは、キーボード、マウスホイール及びボタン等であってもよい。前記ボタンは、ホームページボタン、音量ボタン、開始ボタン及びロックボタンを含むが、これらに限定されない。
センサユニット707は、端末機器の各種状態を検出するための1つ以上のセンサを含む。例えば、センサユニット707は、端末機器のオン/オフ状態や、端末機器のディスプレイ及びテンキー等の部品の相対的位置を検出することができる。センサユニット707は、端末機器又は端末機器内の1つのユニットの位置変化、ユーザが端末機器に接触したか否か、端末機器の方向又は加速/減速、端末機器の温度変化を検出することもできる。センサユニット707は、物理的に接触しない場合に、近傍の物体の存在を検出するように構成された近接センサを含んでもよいし、結像アプリケーションに用いるCMOSやCCD画像センサ等の光センサをさらに含んでもよい。いくつかの実施例では、当該センサユニット707は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含んでもよい。
通信ユニット705は、端末機器と他の機器との間における有線又は無線方式の通信を実現するように構成されている。本実施例では、通信ユニット705は、端末機器とクラウドサーバとの対話を実現する。端末機器は、通信規格に基づく無線ネットワーク(例えば、WiFi(登録商標)、2G、3G、4G、又は、これらの組み合わせによる通信ネットワーク)にアクセスすることができる。1つの例示的な実施例では、通信ユニット705は、放送チャネルを介して、外部の放送管理システムからの放送信号又は放送に関連する情報を受信する。また、1つの例示的な実施例では、通信ユニット705は、近距離の無線通信を行うための近距離無線通信(NFC)モジュールをさらに含む。当該NFCモジュールは、例えば、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術、及び、他の技術に基づいて実装されてもよい。
例示的な実施例において、端末機器は、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサを含む、上述した方法を実行可能な1つ以上の電子部品や、他の電子部品によって実装されてもよい。
例示的な実施例では、端末機器のプロセッサ7011により実行されると、上述した方法をプロセッサ7011に実行させるコマンドを含む非一時的なコンピュータ可読記憶媒体(例えば、コマンドを含むメモリ702)を提供する。非一時的なコンピュータ可読記憶媒体は、例えば、ROM、ランダムアクセスメモリ(RAM:Random Access Memory)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク及び光学式のデータ記憶装置等であってもよい。
本実施例に係る端末機器は、図1〜図3の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、クラウドサーバをさらに提供する。図8は、本発明に係るクラウドサーバの一実施例の構造を概略的に示す図である。図8を用いて本実施例を説明しているが、本発明はこれに限定されない。図8に示すように、本実施例に係るクラウドサーバ80は、第3の受信モジュール801と、決定モジュール802と、第2の送信モジュール803と、を含む。
第3の受信モジュール801は、端末機器が送信した、端末機器に対して音声制御を行うための音声情報を受信する。決定モジュール802は、音声情報に基づいて、現在のインタフェースにおいて音声情報にマッチングする音声ウィジェット及びウィジェットコマンドを決定し、対応する音声ウィジェットコマンドを生成する。第2の送信モジュール803は、音声ウィジェットコマンドを端末機器に送信して、音声ウィジェットコマンドに基づいて、対応する音声ウィジェットを端末機器に制御させて操作を実行させる。
本実施例に係るクラウドサーバは、図4の方法に関する実施例による発明を実施するために用いることができる。この原理及び技術的効果は類似するため、ここでの詳細な説明については省略する。
オプションとして、第3の受信モジュールは、端末機器が送信した音声情報を受信する前に、端末機器が送信した現在のインタフェースにおける全ての音声ウィジェットの情報を受信してもよい。
オプションとして、決定モジュールは、現在のインタフェースにおける音声ウィジェットの情報に基づいて、指示情報を決定してもよい。第2の送信モジュールは、指示情報を端末機器に送信して、ユーザに対応する指示を端末機器に行わせてもよい。
本発明は、さらなるクラウドサーバを提供する。図9は、本発明に係るクラウドサーバの別の実施例の構造を概略的に示す図である。図9を用いて本実施例を説明しているが、本発明はこれに限定されない。図9に示すように、本実施例に係るクラウドサーバ90は、メモリ901と、プロセッサ902と、各コンポーネント間の接続を実現するバス903と、を含む。
メモリ901には、プロセッサ902により実行されると、図4の方法をプロセッサ902に実行させるコンピュータプログラムが記憶されている。
ここで、メモリ901とプロセッサ902とは直接的又は間接的な方式により電気的に接続されており、データの伝送又は対話を実現する。例えば、これらのコンポーネントは、1つ以上の通信バス又は信号線(例えば、バス903)によって電気的に接続されてもよい。メモリ901には、車両シミュレーション技術におけるデータ分析方法を実現するためのコンピュータプログラムが記憶されており、ソフトウェア又はファームウェアの形式でメモリ901に記憶される少なくとも1つのソフトウェア機能モジュールを含む。プロセッサ902は、メモリ901に記憶されたソフトウェアプログラム及びモジュールを実行することにより、様々な機能を応用したデータ処理を実行する。
メモリ901は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)等を含むが、これらに限定されない。なお、メモリ901はプログラムを記憶し、プロセッサ902は、実行コマンドを受信すると、プログラムを実行する。さらに、メモリ901内のソフトウェアプログラム及びモジュールは、オペレーティングシステムを含んでもよい。当該システムは、システムタスク(例えば、メモリ管理、記憶装置の制御、電源管理等)を管理するための各種ソフトウェアユニット及び/又はドライバを含んでもよく、且つ、様々なハードウェア又はソフトウェアユニットと通信して、他のソフトウェアユニットのための動作環境を提供してもよい。
プロセッサ902は、信号処理機能を備える集積回路チップであってもよい。プロセッサ902は、中央処理装置(CPU:Central Processing Unit)、ネットワークプロセッサ(NP:Network Processor)等を含む汎用プロセッサであってもよい。本実施例に係る各方法、ステップ及びロジックブロック図を実行又は実施することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサ等であってもよい。なお、図9に示す構造は、例示的なものに過ぎず、図9に示すユニットよりも多い又は少ないユニットを含むように構成されてもよいし、図9と異なる構成を有してもよい。図9に示す各ユニットは、ハードウェア及び/又はソフトウェアによって実装することができる。
本発明は、音声制御システムをさらに提供する。図10は、本発明に係る音声制御システムの一実施例の構造を概略的に示す図である。図10を用いて本実施例を説明しているが、本発明はこれに限定されない。図10に示すように、本実施例に係る音声制御システム100は、少なくとも1つの端末機器1001と、少なくとも1つのクラウドサーバ1002と、を含む。端末機器1001は、図1〜図3の方法に関する実施例による発明を実施することができ、クラウドサーバ1002は、図4の方法に関する実施例による発明を実施することができる。端末機器1001には、図6の実施例に対応する端末機器が採用されてもよく、クラウドサーバ1002には、図8の実施例に対応するクラウドサーバが採用されてもよい。或いは、端末機器1001には、図7の実施例に対応する端末機器が採用されてもよく、クラウドサーバ1002には、図9の実施例に対応するクラウドサーバが採用されてもよい。
本実施例に係る音声制御システムは、図5の方法に関する実施例による発明を実施することができる。この原理及び技術的効果は類似するので、ここでの詳細な説明については省略する。
本発明は、プロセッサにより実行されると、上述した何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。
なお、以上の各実施例は、本発明の技術を説明するものであって、本発明を限定するものではない。上述した各実施例を参照しながら本発明を詳細に説明したが、当業者には明らかであるように、上述した各実施例で説明した技術を変更してもよいし、その一部又は全ての技術的特徴に対して同等の置換を行ってもよく、これらの変更又は置換は、本発明の各実施例の技術的範囲から逸脱するものではない。