JP6272496B2

JP6272496B2 - 単語のシーケンスを含む音声を認識するための方法及びシステム

Info

Publication number: JP6272496B2
Application number: JP2016554899A
Authority: JP
Inventors: ハーシャム、ブレット; ハーシェイ、ジョン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-22
Filing date: 2015-07-22
Publication date: 2018-01-31
Anticipated expiration: 2035-07-22
Also published as: CN106537489B; JP2017511899A; CN106537489A; DE112015003357B4; DE112015003357T5; WO2016013685A1

Description

本発明は、包括的には、自動音声認識に関し、より詳細には、ユーザーに課す認知的負荷を低くしながら音声認識を提供することに関する。

運転者が行う運転に関連していない作業はいずれも、運転から注意を逸らす可能性があることが一般に知られている。これに起因して、法的手段及び運転者教育の双方によって、運転中の移動電話の使用を減らすことが近年注目されている。また、車両内で運転者が情報、通信及び娯楽機能にアクセスすることへの需要も増大している。

音声に基づくインターフェースは、従来の視覚インターフェース又は手動インターフェースよりも注意を逸らさないことができることが研究により示されている。限られた機能についてのコマンドに基づく音声インターフェースは車両において一般的になっている。一方、豊富な語彙の連続音声の認識は誤りが生じやすいので、ＳＭＳとしてのそのような機能について音声を用いてテキストを入力することは困難である。このため、運転中にユーザー側で注意を逸らすことを減らしながら、音声を用いて入力されたテキストを訂正又は他の形で変更することが必要とされている。

制約を受けない音声を訂正するための幾つかの方法は、編集アプリケーション、すなわち、コンピュータディスプレイ及び従来のキーボードを有するワードプロセッサを利用する。例えば、特許文献１に記載されている方法は、認識されたテキスト内の単語を関連する音声でタグ付けし、ワードプロセッシングソフトウェアのユーザーがテキストトランスクリプションを編集するために音声を聴くことを可能にすることによって、音声の誤認識を訂正する。

特許文献２に記載されている別の方法は、編集アプリケーションプログラムにおいて「音声イベントデータベース」をテキストトランスクリプション内の位置と関連付け、コンテキストを広げることによって、編集動作を改善している。そのような方法は、従来のキーボード、マウス及びメニュー選択を含む訂正作業に主に注意を払うことを必要とし、特に、視覚表示に注意を払うには視覚リソースを駆使することが必要である。しかしながら、キーボード、タッチスクリーン及び大きな視覚表示を用いると、運転から注意をそらすことが最小限にならない。

他の方法は、後続の音声を用いて最初の音声の結果として得られるトランスクリプションを編集することによって、インタラクションの複雑性を最小限にする。例えば、特許文献３に記載されている方法は、後続の発話を用いて音声認識の結果を訂正する。同様に、特許文献４に記載されている方法は、再認識されるべき音声認識の部分を選択する。しかしながら、音声の後続の解釈は誤りを生じる可能性があり、結果として、誤り訂正の労力を増大させ、運転者の注意散漫の更なる一因となる。

特許文献５に記載されている別の方法は、ユーザーによって与えられた単一の単語の訂正を用いて、その単一の単語に隣接する単語の代替的な提案を調整する。しかしながら、ユーザーの音声における複数の単語が誤って解釈される場合、ユーザーは音声解釈を複数回訂正しなくてはならない。さらに、この方法の訂正は、より一般的なタイプのインタラクションと対照的に、選択された単語の置換に限定され、これによってユーザーの注意を更に逸らすことにつながる場合がある。したがって、音声の解釈を誘導するのに必要なインタラクション及びユーザーの注意を最小限にする必要がある。

米国特許第５，９６０，４４７号米国特許第５，９７０，４６０号米国特許第６，０６４，９５９号米国特許第７，４４４，２８６号米国特許出願公開第２００６／２９３，８８９号

本発明の幾つかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の音声認識において生じる誤りは、多くの場合に他の誤りに関連付けられているという認識に基づく。したがって、単に最初の誤りを訂正して追加のユーザー入力を待つのではなく、認識結果に対する訂正を用いて、他の誤りが生じた可能性がある場所を予測し、更なる誤りを訂正することができる。これらの他の誤りは、隣接する単語位置において生じる場合もあるし、又は隣接する単語に対する変更を一切必要とすることなく、より離れた位置において生じる場合もあり、このため、訂正を用いて認識結果を更新するべきである。このため、訂正制約を用いて、ユーザーが発した音声を再解釈することができる。

そのような制約は、個々の単語に対応する音響信号のみを用いる解釈と対照的に、単語のグループを正しく解釈する確率を改善することができる。例えば、代替候補「Wreck a nice beach」及び「Recognize speech」を含む認識結果を所与として、トピックが「pollution」であるという制約を用いて、第１の認識の確率を更新することができる。

例えば、ユーザーに、音声の解釈の１つ又は複数の特定の単語を訂正することを依頼する代わりに、ユーザーからの入力を用いて単語シーケンス制約を確定し、これを用いて音声の全体解釈を更新することができる。この認識によって、ユーザーが音声を訂正する労力を低減することが可能になる。なぜなら、単語の訂正はその単語のみの訂正しかもたらすことができないのに対し、単語シーケンス制約によって、音声の全体解釈の訂正をもたらすことができるためである。

例えば、幾つかの実施形態では、単語シーケンス制約は、音声における単語数、又は音声における特定の単語の欠如等の、音声のメタデータを含む。別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声の初期解釈に関する情報を含むことができ、そのような情報を用いて全体音声の解釈が再評価される。

また、幾つかの実施形態は、システムがユーザーに課す認知的負荷を低くするためには、単語シーケンス制約のエントリの方法が、制約の選択に必要なユーザーのアクションを最小限にするべきであるという認識に基づいている。単語シーケンス制約は、様々な値を有することができるが、様々なタイプも有することができる。例えば、単語シーケンス制約のタイプは、単語の選択又は拒否、単語のシーケンスの選択、タイムスロットの選択、シーケンス内の正しい単語のトレース、単語又は単語の順序の置換等を含むことができる。したがって、ユーザーの注意を運転等の主要な作業から逸らすことを最小限にしながら、制約のタイプ及び値の双方に選択に適合されたインターフェースを提供することが望ましい。

本発明の幾つかの実施形態は、ユーザーの単一のジェスチャーを解析して、単語シーケンス制約のタイプ及び値の双方を確定することができるという認識に基づいている。特に、ジェスチャーの形状を用いて単語シーケンス制約のタイプを確定することができ、インターフェースに対するジェスチャーのロケーション、例えば、ユーザーインターフェースの座標空間にマッピングされるとき（場合によっては、出力デバイス上に表示されるとき）のジェスチャー経路のロケーションを用いて、単語シーケンス制約の値を確定することができる。

例えば、水平方向のジェスチャーは、単語のシーケンスを選択する単語シーケンス制約のタイプにマッピングすることができる。表示デバイスにおけるこのジェスチャーの経路のロケーションを用いて、音声の解釈において存在する単語のシーケンスを確定することができる。同様に、垂直方向のジェスチャーは、単語のタイムスロットを選択するタイプにマッピングすることができ、表示デバイスにおけるこのジェスチャーの経路のロケーションを用いて、特定の単語の発話の時点及び／又は順序を確定することができる。同様にして、フリック、丸で囲む、ドラッグ選択、及び単語経路のトレースのようなジェスチャーの様々な形状を、様々なタイプの制約にマッピングすることができ、表示デバイスにおけるジェスチャーのロケーションを用いて、音声の可能な解釈の後続の再スコアリングのための制約の値を確定することができる。

したがって、本発明の１つの実施形態は、単語のシーケンスを含む音声を認識する方法を開示する。本方法は、
ジェスチャーの形状、及び音声の解釈の組を示す表示デバイスに対するジェスチャーのロケーションを求めることと、
ジェスチャーの形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて単語シーケンス制約のタイプを確定することと、
ジェスチャーのロケーションに基づいて単語シーケンス制約の値を確定することと、
単語シーケンス制約を用いて音声を認識することと、
を含む。本方法のステップはプロセッサによって実行される。

別の実施形態は、単語のシーケンスを含む音声を認識するシステムであって、
表示デバイスであって、音声の解釈の組を表示し、表示に応答して、表示デバイスに対するジェスチャーを受信するための表示デバイスと、
ジェスチャーの形状、及び表示デバイスにおける解釈の組からの要素のロケーションに対するジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、単語シーケンス制約を用いて音声を認識するための少なくとも１つのプロセッサと、
を備える、システムを開示する。

本発明の１つの実施形態による、音声認識のためのシステムの構成要素の概略図である。本発明の幾つかの実施形態によるシステムを備える車両のインストゥルメンタルパネルの部分前面図である。本発明の１つの実施形態による、音声認識モジュールの機能を示すブロック図である。図２Ａの方法のステップの一例である。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の１つの実施形態による、強調された単語を有する単語のシーケンスの概略図である。本発明の１つの実施形態による、２つの強調された単語を有する単語のシーケンスの概略図である。本発明の１つの実施形態による、単語のシーケンス及び単語候補のソートされた組の概略図である。本発明の例示的な実施形態の概略図である。本発明の例示的な実施形態の概略図である。本発明の例示的な実施形態の概略図である。本発明の１つの実施形態による単語のシーケンスを含む音声を認識する方法のブロック図である。入力デバイスの空間内の座標ロケーションのシーケンスによって表されるジェスチャーの例示的な形状の図である。表示デバイスの座標空間におけるジェスチャーのロケーションによって表される表示デバイスに対するジェスチャーのロケーションの図である。本発明の幾つかの実施形態による、単語シーケンス制約を表示及び指定するためのヒューマンマシンインターフェースの一例である。本発明の幾つかの実施形態による、単語シーケンス制約を表示及び指定するためのヒューマンマシンインターフェースの一例である。本発明の幾つかの実施形態による、ジェスチャーの形状の組と、単語シーケンス制約のタイプの組との間のマッピングの一例である。

図１Ａは、本発明の幾つかの実施形態による、音声を発するユーザーに対する認知的負荷を最小限にしながら、音声を認識する方法を実施することが可能なシステム１の一例を示す。

システム１は、全体システムの動作を制御する中央処理装置（ＣＰＵ）１００を備える。システム１は、システムのオペレーティングシステム（ＯＳ）１０１０に関連するソフトウェアと、ＣＰＵ１００によって実行してシステムのユーザーにディクテーション及び誤り訂正等の特定の機能を提供することができるアプリケーションプログラム１０１１と、音声認識に関連するソフトウェア１０１２とを備えるメモリ１０１とインタラクトする。システム１は、音声を受信するオーディオインターフェース（Ｉ／Ｆ）１０２を更に備え、この音声は、マイクロフォン１０３によって記録するか、又は外部システムから取得した音声等の外部入力１０４から受信することができる。

システム１は、ディスプレイ１０６の動作を制御するためのディスプレイコントローラー１０５等の１つ又は幾つかのコントローラーを更に備えることができる。ディスプレイ１０６は、例えば、液晶ディスプレイ（ＬＣＤ）又は他のタイプのディスプレイとすることができる。ディスプレイ１０６は、システム１の視覚ユーザーインターフェースとしての役割を果たし、例えば、単語のシーケンスをシステム１のユーザーに提示することを可能にする。システム１は、オーディオ出力システム１１２、例えば、１つ又は複数のスピーカーの動作を制御するためのオーディオ出力コントローラー１１１に更に接続することができる。システム１は、ジョイスティック１０８から入力を受信するためのジョイスティックコントローラー１０７、及びキーパッド１１０から入力を受信するためのキーパッドコントローラー１０９等の１つ又は複数の入力インターフェースに更に接続することができる。ジョイスティック及び／又はキーパッドの使用は単なる例示であることが容易に理解される。トラックボール又は矢印キーも必要な機能を実施するのに同様に良好に用いることができる。さらに、ディスプレイ１０６は、ユーザーからの入力を受信するためのインターフェースとしての役割を果たすタッチスクリーンディスプレイとすることができる。さらに、音声認識を実行する機能に起因して、システム１は、音声に関係しないインターフェースを全て全く用いずに済ますことができる。オーディオＩ／Ｆ１０２、ジョイスティックコントローラー１０７、キーパッドコントローラー１０９及びディスプレイコントローラー１０５は、ＣＰＵ１００が現在実行しているＯＳ１０１０及び／又はアプリケーションプログラム１０１１に従ってＣＰＵ１００によって制御される。

図１Ｂに示すように、システム１は、車両１９９のインストゥルメンタルパネル１５０内に埋め込むことができる。システム１の動作を制御するための様々な制御部１３１〜１３３をハンドル１３０に配置することができる。代替的に又はさらに、制御部１２５は、制御モジュール１２０上に設置することができる。システム１は、ユーザーの音声の解釈を改善して、ユーザーインタラクション数を低減するように構成され、それによってユーザーは車両の操作に集中することができる。

図２Ａは、本発明の幾つかの実施形態による、誤り訂正機能が改善した音声認識システム２００の機能を概略的に示す。音声認識ユニット２００は、音声認識モジュール２１０を備え、音声認識モジュール２１０は、システム１のＣＰＵ１００によって、メモリ１０１内に記憶される音声認識ソフトウェア１０１２を実行することにより実施することができる。

音声認識モジュール２１０は、単語のシーケンス（例えば完全な一文）の発話表現である音声２３０を受信する。様々な実施形態において、音声は、オーディオ信号、音声特徴、又はフレームベースの音響スコアの１つ又は複数の組合せを含む。単語のシーケンスは通常、複数の単語、例えば３つ以上の単語を含む。

音声認識モジュールは、音声２３０の音声認識を実行して、最適な事例では音声によって表現される単語のシーケンスに類似した、１組の解釈を求めるように構成される。組内の各解釈は単語のシーケンスを含む。音声認識モジュールは、音響モデル２０１及び言語モデル２０２を用いることができる。

音響モデル２０１は、例えば、システム１のメモリ１０１内に記憶することができ、１つの実施形態では、単語シーケンス仮説を所与とした音響特徴のシーケンス、又は単語の音素特性を表す単位の他のシーケンスの条件付き確率を記述する。音響モデルは、音素又は何らかの他の音単位を含むことができる。幾つかの実施形態では、音響モデルは音素シーケンスモデルと、音素片（sub-phonetic）状態シーケンスのモデルと、各音素片状態を所与とした音響特徴の確率のガウス混合モデルとを含むことができる。他の実施形態では、音響モデルは、例えばニューラルネットワークを用いた、音響特徴から音素状態シーケンス確率への変換を含むことができる。

言語モデル２０２は、システム１のメモリ１０１にも記憶することができ、少なくとも１つの単語を含む単語のシーケンスが言語に生じる確率に関する統計を含むことができる。言語モデル２０２は、例えば、言語において用いられる単一の単語の尤度に関するユニグラム言語モデル、又は言語の２つの単語が互いの後に続く尤度を表すバイグラム言語モデルとすることができる。また、より多くの数の後続の単語を検討する言語モデル、例えば、トリグラム言語モデル等も用いることができる。

幾つかの実施形態では、音声認識モジュール２１０は、音声を、単一の単語に関係すると想定されるセグメントに分割することによって音声認識を実行し、次に、例えば入力音声シーケンスセグメント内の音素を識別し、これらの音素を言語モデル２０２の音素対テキストマッピングと比較することによって、この単一の単語を認識する。

音声認識モジュール２１０は通常、入力音声シーケンスセグメントごとに１組の可能な解釈を特定し、ここで各解釈は単語のシーケンスを含む。解釈は、認識結果としても知られる。各解釈は、認識信頼度値、例えば解釈が単語のシーケンスを表す正確度を表すスコアに関連付けられる。スコアは、音声認識の、認識結果が正しいことの信頼度を表す。入力音声セグメントごとに、音声認識モジュールは、最も大きな認識信頼度値を有する認識結果、例えば単語を求め、入力音声シーケンスを表すとみなされる単語のシーケンスを得ることができる。

したがって、音声の音声認識は、言語モデル２０１を考慮に入れることによって更に精緻化される。次に、言語モデル及び認識語彙を用いて音声の解釈の組を生成する際に、認識信頼度値に加えて、言語において１つ又は複数の単語の組が生じる確率を考慮に入れる。例えば、バイグラム言語モデルの場合、可能な認識結果、例えば「three」ではなく「free」が、バイグラム言語モデルに起因して、音響空間に関して高い信頼度を有する場合であっても、それにもかかわらず、音声認識モジュール２１０は、コンテキスト、例えば意図される単語のシーケンス「at three o'clock」における「at」及び「o'clock」を用いて、「three」に有利に判定することができる。

図２Ｂは、音声２４０の解釈の組の例を示す。幾つかの実施形態では、解釈の組は、音声のｎベストリスト２５０として又は音声の単語ラティス２６０として求められるか又は表現される。さらに、様々な実施形態は、組２５１内の解釈ごとに、スコア、例えば単語シーケンス制約を受ける解釈の正確度を表すスコア２５５を求める。スコアは、複数の方法によって求めることができる。

例えば、解釈の組の代替的な表現は、ラティス２６０として知られるグラフであり、このグラフでは、ノード、例えばノード２６５及び２６７は、音声の特定の領域により識別され、特定のコンテキストとともに生じる、仮定された各単語を表す。この表現において、ｎベストリスト内の多くの仮説における同じ場所に生じる単語及び単語シーケンスは、ラティス内の共通部分経路を共有するように低減することができる。単語に加えて、ラティスのアークは、音響モデルスコア及び言語モデルスコアを含むことができ、それによって、単語シーケンスのための全体スコアは、ラティスを通る経路に沿ってスコアから導出することができる。例えば、アーク２６１、２６２及び２６３は、単語「I」に単語「don't」、「want」及び「went」が続く対応する確率によって規定されるスコアを表すことができる。

幾つかの実施形態では、音声認識システムは確率モデルとして定式化され、スコアは、音響特徴の観察されるシーケンスを所与とした解釈又は単語のシーケンスの確率に基づく。解釈は、単語のシーケンスを含むことができ、仮定された単語に対応する発話の概算の時間領域も特定することができる。幾つかの実施形態におけるスコアＳ（Ｗ｜Ｘ）は、音響データを所与とした単語シーケンスの確率に基づく。例えば、

であり、ここで、∝は比例を示し（すなわち、Ｓ（Ｗ｜Ｘ）＝ｐ_θ（Ｗ｜Ｘ）ｃであり、ここで、ｃは正の定数である）、θはモデルのパラメーターであり、ｐ_θは、パラメーターθを用いた確率測度を示し、Ｗ＝｛ｗ_ｉ｝^Ｎ _ｉ＝１は、解釈における仮定される単語のシーケンスｗ_１，ｗ_２，．．．，ｗ_Ｎであり、ｗ_ｉは（Ｎ個の単語での仮説について）位置ｉにおいて仮定される単語である。音響特徴は、Ｘ＝｛ｘ_ｊ｝^Ｔ _ｊ＝１で表され、ここで、ｘ_ｊは（Ｍ個の音響特徴ベクトルを有する発話についての）発話の音響特徴のｊ番目のベクトルである。ｐ_θ（Ｗ｜Ｘ）は、Ｘを所与としたＷの事後確率として知られる。別の実施形態では、スコアはこの量の対数として規定することができる。

ここで、ｋは任意の定数である。

１つの実施形態において、スコアは様々なサブスコアに分離される。

ここで、ｐ_θＬＭ（Ｗ）は、パラメーターθ_ＬＭを有する単語言語モデルからのスコアであり、ｐ_θＡＭ（Ｘ｜Ｗ）は、パラメーターθ_ＡＭを有する音響モデルからのスコアである。単純にするために、以後、必要な場合を除いてパラメーターθを省略する。

別の実施形態は、単語シーケンスを、仮定される単語ごとに発話の仮定される時間領域のシーケンス

に関連付ける。ここで、

は単語ｗ_ｉについて仮定される位置である。その実施形態において、スコアは、ｐ（Ｗ）ｐ（Ｘ｜Ｗ）＝ｍａｘ_Ｒｐ（Ｗ）ｐ（Ｒ｜Ｗ）ｐ（Ｘ｜Ｗ，Ｒ）であるようなアライメント項ｐ（Ｒ｜Ｗ）を用いた拡張モデルに基づくことができる。その実施形態では、

は、全ての可能なアライメントの組Ｓにわたってスコアを最大にすることによって得られ、

仮定される単語ｗ_ｉに関連付けられた領域

に対応する特徴の部分シーケンス

のための音響スコアは、

である。

言語モデルスコアは、離散確率モデル、ニューラルネットワーク、識別的に訓練された条件付き確率場等を用いることを含む多くの方法で計算することができる。例えば、１つの実施形態は、確率モデルを以下のように定式化する。

確率は、コンテキストとして知られる、シーケンス内で以前に現れた単語を条件とする。通常、一般モデルは複雑すぎるので、ｎグラムモデルとして知られる、より単純なモデルが用いられる。ここで、コンテキストは先行するｎ−１個の項に制限される。

幾つかの実施形態では、ｎグラムモデルとともに様々な他のパラメーター化及び推定手順を用いて、訓練データから試験データに一般化する機能を改善する。

音声認識モデルにおける推測は、仮説Ｗにわたって探索を行い、最も良好なスコアの仮説を見つけることとして特徴付けることができる。

さらに、通常、最も大きなスコアを有するｎベスト仮説が求められる。全ての可能なＷの評価は大規模な計算となる可能性があり、幾つかの実施形態は、例えば、探索プロセス、例えばビーム探索法のヒューリスティックな低減と組み合わせたビタビアルゴリズムとして、再帰的動的計画法アルゴリズムを用いてｎベスト仮説を求める。多くの代替的な探索アルゴリズム及びヒューリスティクスも存在し、様々な実施形態によって用いられる。

幾つかの実施形態では、仮説にわたる探索の出力は、解釈のスコア２５５、例えば音響モデルのスコア及び言語モデルのスコアのうちの一方又はこれらの組合せとともに単語のシーケンスのｎ個の解釈を含むｎベストリスト２５０とすることができる。幾つかの実施形態は、音響信号の時間セグメントとともに、単語の最良スコアのアライメントを出力として提供する。

幾つかの実施形態では、仮説にわたる探索の出力は、ラティス２６０とすることができる。スコアの確定は通常、ラティスにおいて、ｎベストリストを用いることよりも効率的である。一方、明確にする目的で、幾つかの実施形態はｎベスト表現を用いて説明される。

言語モデル及び音響モデルは探索を制約するが、生成される認識は、依然として曖昧さ及び誤差を有する場合がある。例えば、最も高いスコアを有する解釈２５１が依然として不正確である可能性がある。一方、ユーザーに特定の解釈２５１を訂正するように要求することは、正しい解釈を含み得る他の解釈を無視する。また、特定の解釈を訂正することの要求は、ユーザーとの複数のインタラクションを必要とする可能性があり、ユーザーの注意を他の作業から逸らす可能性がある。

本発明の幾つかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の認識結果の訂正が、全体音声の解釈の制約に基づくべきであるという一般的な認識に基づく。そのような制約は、単一の単語のみを変更する訂正と対照的に、全体音声を正しく解釈する確率を改善することができる。

したがって、音声認識ユニット２００は、言語モデル２０２及び単語シーケンス制約２７０を考慮に入れることによって認識結果を再解釈する誤り訂正モジュール２２０も備える。具体的には、幾つかの実施形態では、誤り訂正モジュール２２０は、解釈と制約２７０との整合性に基づいて、各解釈のスコアを更新する。更新後、例えば最も高いスコアを有する解釈２１５を求め、認識された音声として出力することができる。

幾つかの実施形態は、全体音声を解釈するための制約は、例えば、音声を発声するユーザーによって提供される音声の単語シーケンス制約２７０によって補償することができるという認識に基づく。例えば、単語シーケンス制約は、音声内の単語の数及び順序、音声における特定の時点で発せられる特定の単語、音声における特定の単語の欠如、音声における２つの特定の単語の連結又は分離を含むことができる。単語シーケンス制約は、音声出力のトピック、例えば、音声のトピックがpollutionであることを指定することもできる。

この認識によって、ユーザーが音声を訂正する労力を最小限にすることができる。なぜなら、単語の訂正は単語の訂正しかもたらすことができないのに対し、単語シーケンス制約は、音声の全体解釈の訂正をもたらすことができるためである。特に、制約２７０を用いて、解釈の全体組のスコアを更新することができる。

このため、幾つかの実施形態では、単語シーケンス制約は、音声の一部分の後続の訂正のために制約を用いることと対照的に、音声の解釈と同時に用いられる。単語シーケンス制約の下で、全体音声の最良スコアの解釈が求められる。最も大きなスコアを有する解釈を、認識された音声として求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。

図３Ａは、本発明の１つの実施形態による、ユーザーの音声を認識するための方法のフローチャートを示す。本方法３００は、上記で説明した幾つかの原理及び認識を用い、プロセッサ３０１を用いて実施することができる。本方法は、単語のシーケンスを表す音声を受信し（３０５）、音響モデル及び言語モデルを用いて、音声の解釈の組を生成する（３１０）。解釈の組は１つ又は複数の解釈を含み、ここで各解釈は、話された可能性がある単語の可能なシーケンスである。様々な実施形態が、解釈のｎベストリスト、単語ラティス、又は可能な単語シーケンスの組の他の表現として、解釈を受信又は生成する。

各解釈について、本方法は、その解釈のための正確度スコアを求めて１組のスコアを生成する（３１５）。例えば、スコアは、音響モデル及び言語モデルによって与えられる確率、及び／又は以下で説明する正確度関数に基づいて求めることができる。幾つかの実施形態では、本方法は、最も大きなスコアを有する解釈を求め（３２０）、解釈の部分組をユーザーに通信する（３２５）。１つの実施形態では、最も大きなスコアを有する解釈のみがユーザーに通信される。代替的な実施形態では、複数の解釈が通信される。

様々な実施形態は、ユーザーインターフェースコンポーネントを用いて、ユーザーが必要な場合に解釈の組について制約を提供することを可能にする。本方法は、単語シーケンス制約を用いた訂正が所望されるか否かを、ユーザーインターフェースコンポーネントを通じて与えられるユーザーからの入力に基づいて判定する（３３０）。ユーザーは、システム１の任意のインターフェース又はその組合せを用いて制約を提供することができる。例えば、ユーザーは、キーパッド１１０、ジョイスティック１０８、ディスプレイ１０６のタッチスクリーン、音声インターフェース１０３及びそれらの組合せを用いることができる。

訂正が所望されるとき、本方法は、単語シーケンスに対する制約を受信する（３３５）。様々な実施形態は、選択リスト、ボタン等のユーザーインターフェースコンポーネントを通じたユーザーインターフェース動作に基づいて単語シーケンス制約を受信するか又は求める。システムの幾つかの実施形態では、単語シーケンス制約は、様々な事象の発生確率として表される。

幾つかの実施形態では、単語シーケンス制約は、音声における単語数、又は音声における特定の単語の欠如等の音声のメタデータを含む。音声のメタデータは、単語シーケンスのコンテキストに関連する情報と対照的に、単語シーケンスに関する情報である。そのような単語シーケンス制約は任意の時点に収集することができる。

本方法は、各解釈が制約とどの程度整合しているかに従って音声の解釈の組のスコアを更新する（３４０）。スコアが更新された後、最も高いスコアが求められ（３２０）、本方法は、ユーザーがこれ以上訂正を望まなくなるまで反復的に継続する。本方法から解釈の組を出力することができ、例えば後に用いるためにメモリに記憶することができる。

図３Ｂは、制約を受ける解釈のスコアを更新する方法のフローチャートを示す。単語シーケンス制約がユーザーから受信される（３５０）。幾つかの実施形態では、単語シーケンス制約は変更され、解釈に適した制約が確定される（３６０）。例えば、幾つかの実施形態は、ユーザーから受信した単語シーケンス制約に基づいて制約を確定する。

例えば、幾つかの実施形態では、単語シーケンス制約は、解釈の部分組を通信することに応答してユーザーから受信される。実施形態は、単語シーケンス制約に基づいて制約のタイプを確定し（３６１）、タイプに基づいて制約を確定する（３６０）。例えば、制約のタイプは、言語タイプ、すなわち言語確率に対する制約、音響タイプ、すなわち仮定された単語を所与とした音響特徴の確率分布に対する制約、及びコンテキストタイプ、すなわち解釈内の単語シーケンスに対する制約、のうちの１つ又はこれらの組合せとすることができる。

図３Ｃは、幾つかの実施形態による制約の確定の一例を示す。確定される制約のタイプは、更新されるスコアに基づく。これらの実施形態は、言語及び／又は音響モデルのうちの１つ又はこれらの組合せを更新する（３６５）。幾つかの実施形態は、ユーザーから受信した単語シーケンス制約に基づいて制約のタイプを確定する。例えば、幾つかの実施形態では、単語シーケンス制約は、音声における単語数、音声のトピック、音声の特定の期間内に話された単語数等の音声のメタデータを含む。これらの制約は通常、言語又は音響タイプの制約である。

別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声内の特定の単語の有無に関する情報を含むことができる。これらの制約は通例、コンテキストタイプ制約である。

例えば、単語シーケンス制約がシーケンス内の単語数である場合、１つの実施形態では、スコアの更新は、例えば、ｐ（Ｗ｜ｌｅｎｇｔｈ（Ｗ）＝６）を用いて言語モデルスコアを再計算することによって行われる。この実施形態の１つの変形形態では、音響モデルスコア、及び各単語に対応する推定領域Ｒは変更されないままである。

１つの実施形態では、制約のタイプは言語タイプであり、スコアの更新は、変更された言語モデルを用いて言語モデルスコアを再計算することによって行われる。例えば、元の言語モデルｐ_θＬＭ（Ｗ）の代わりに、ラティスは、ｐ_θ’ＬＭ（Ｗ）＝ｐ_θＬＭ（Ｗ｜ｌｅｎｇｔｈ（Ｗ）＝６）を用いて再スコアリングされる。ここで、θ_ＬＭは元の言語モデルパラメーターであり、θ’_ＬＭは、シーケンス内に６つの単語が存在するという制約の下で条件付けすることによって得られるパラメーターである。このため、スコアは以下の式を評価することによって更新することができ、

ここで、Ｓ’（Ｗ｜Ｘ）は変更されたスコアである。

１つの実施形態は、同様にして、トピックが「pollution」であるという制約を課す。実施形態は、「pollution」のトピックにおける単語シーケンスに適したパラメーターθ’_ＬＭを有する制約付き言語モデルｐ_θ’ＬＭ（Ｗ）を用いる。このため、実施形態は、制約付き言語モデルを用いて上記のスコア関数Ｓ’（Ｗ｜Ｘ）を更新することができる。

各解釈の更新されたスコアを所与として、再スコアリングによって、ｎベストリストの各エントリにおいて変更されたスコア関数を用いてスコアが評価されることになる。代替的に、ラティス又はｎベストリストに基づいて、変更されたスコア関数を用いた前方−後方アルゴリズム、ビタビ復号又はスタック復号等の様々なアルゴリズムを用いて、可能な単語シーケンスのグラフを効率的に探索することができる。スコアを評価する過程で、変更されたｎベストリスト又はラティスが生成される。

制約が単語シーケンスに対してのみである場合、上記の例におけるｐ_θＡＭ（Ｘ｜Ｗ）等の音響モデルスコア、及び各単語に対応する推定領域Ｒは変更されないままにすることができる。一方、他の実施形態では、制約のタイプは音響タイプであり、音響スコアｐ（Ｘ｜Ｗ）は制約に依拠して変更される。例えば、単語と音響特徴との間のアライメントが計算される場合、再スコアリングもアライメントに依拠することができる。１つの実施形態はモデルｐ（Ｗ）ｐ（Ｘ｜Ｗ）＝ｍａｘ_Ｒ∈Ｓｐ（Ｗ）ｐ（Ｒ｜Ｗ）ｐ（Ｘ｜Ｗ，Ｒ）を定義し、Ｒに対する制約に基づいてスコアを更新する。

ここで、Ｃ⊆Ｓは所望の制約を実施する許可されるアライメントの部分組を表す。例えば、１つのそのような制約は、特定の時間領域内に１つのみの単語が存在することとすることができる。

図３Ｄは、スコアを更新するための絶対的制約又は相対的制約を確定する方法のフローチャートを示す。幾つかの実施形態では、制約が絶対的である場合、制約に合致しない単語シーケンスの解釈は、可能な限り最も小さなスコアを用いて再スコアリングされる。逆に、制約が相対的である、例えば確率的である場合、制約に合致しない解釈は、制約に合致する解釈よりも小さな重みで再スコアリングされるが、合致しない解釈は、相対的制約に整合する解釈のスコアよりも依然として高い最終スコアを有することができる。

例えば、幾つかの実施形態では、相対的制約は、異なる制約満足度を表す連続値を有する。そのような制約は、制約を表す倍数因子を用いて定式化することができる。１つの実施形態では、制約は制約因子ｆ（Ｘ，Ｗ，Ｒ）３６９を含み、その出力は、音響シーケンス、単語シーケンス及びアライメントのうちの１つ又は複数についての制約満足度を示す数である。この制約因子を用いて、１つの実施形態は以下の一般再スコアリング関数を定式化する。

制約因子に依拠して、絶対的制約及び相対的制約の場合を含む多くの様々な種類の制約を実施することができる。例えば、幾つかの実施形態では、制約因子は、ユーザーによって指定される単語シーケンス制約を、解釈のスコアを更新するのに適した制約にマッピングする指標関数３６３、及び（最大で相対的な制約を絶対的にすることまでの）相対的な制約の度合いを示す重みパラメーター３６７を用いて求めることができる。

例えば、制約因子

である場合、ここで、ｆ（Ｗ）という表記は、制約因子がこの場合はＸ及びＲに依存しないことを示し、α及びβは制約満足度を表す非負の重みパラメーターであり、例えば、

は、シーケンス内に６つの単語が存在するという制約についての指標関数である。重みパラメーターαがβに対して大きい場合、制約満足は強く、そうでない場合、制約は弱い。絶対的な制約は、所望されない全ての場合に関数ｆ（Ｗ）がゼロ値を有するようにβをゼロに設定することによって達成することができる。

別の実施形態では、アライメントに対する制約は、ｆ（Ｘ，Ｗ，Ｒ）＝ｆ（Ｒ）＝αＩ_Ｒ∈Ｃ＋βを用いて実施することができる。ここで、Ｉ_Ｒ∈Ｃは、Ｒが制約集合Ｃ内にあるという条件についての指標関数である。

パラメーターθ’_ＬＭを有する制約付き言語モデルｐ_θ’ＬＭ（Ｗ）において具現される制約の場合、制約因子は、

であり、ここで、ｐ（Ｗ）は初期認識において用いられる言語モデルである。これは、新たなモデルｐ_θ’ＬＭ（Ｗ）を古いモデルｐ（Ｗ）と置換することと同じ影響をスコアに対し有する。

再スコアリングの後、ｆの絶対的なスケールは、様々な単語仮説の相対的なスコアリングに影響を与えず、それによって、別の制約因子に比例する任意の他の制約因子ｆ’（Ｘ，Ｗ，Ｒ）∝ｆ（Ｘ，Ｗ，Ｒ）が結果としてのｎベストリスト又はラティスに対し同じ効果を生じることに留意されたい。

さらに又は代替的に、ユーザーから受信した単語シーケンス制約に基づいて解釈のための複数の制約を確定することができる。例えば、単語シーケンス内の単語が正しいことをユーザーが示した場合、幾つかの実施形態は、単語の左又は右にある単語（言語モデルに依拠する）も正しいと判断する。これらの実施形態では、近傍の単語についての追加の制約が生成される。

例えば、１つの実施形態では、スコアリング関数は特定の単語の存在について試験する。例えば、音声の向きは、言語モデルに基づいて求めることができ、スコアリング関数は、音声の向きに従って、ユーザーに通信される解釈における特定の単語に先行及び後続する単語の存在についての試験を用いて更新される。この実施形態では、スコアリング関数は、特定の単語についてのみ試験するのではなく、音声の向きから単語の近傍にある他の単語についても試験する。

解釈のための制約が確定された後、幾つかの解釈のスコアは、特定の解釈と制約との整合性に基づいて更新される（３７０）。幾つかの実施形態では、各解釈は更新され、それによって各解釈のスコアを増大又は減少させることができる。これは、更新３７０の後、各解釈のスコアを増大又は減少させることができることを意味する。実施形態の幾つかの変形形態は、幾つかの解釈のスコアが変更されないままであることを可能にする。

スコアが更新された後、最も大きなスコアを有する解釈が求められ（３８０）、ユーザーへの出力が形成され（３９０）、ユーザーに通信される。幾つかの実施形態は、ディスプレイに示される単語及び文字等の視覚的手段を用いて解釈を通信する。幾つかの実施形態は、テキスト読み上げ（Text-to-speech）又は記録されたオーティオ波形を用いてスピーカーから生成される音等のオーディオフィードバックを用いて解釈を通信する。様々な実施形態は、最良のスコアを有する１つ又は複数の解釈を通信することができる。

図４、図５及び図６は、音声のユーザーに通信される解釈に基づいて単語シーケンス制約を選択するためのインターフェースの例を示す。解釈は、音声の初期解釈とすることができるか、スコアの更新後に選択される後続の解釈とすることができる。

単語のシーケンス４は、５つの単語を含む文であり、第３の単語（Ｗｏｒｄ３）は、強調されている破線のフレーム４０を与えられる。別の実施形態では、Ｗｏｒｄ３は、単語シーケンスのための最も効率的な制約であると判断される。

さらに、図４の例において、破線のフレーム４０は強調を意図するのみでなく、セレクターも表し、このセレクターは、誤って認識され、このため訂正を必要とする単語を選択するためにユーザーによって移動することができる。そのような移動は、例えば、ジョイスティック又は矢印キーによって単語ごとに行うことができ、次に、専用ボタン又はキーを押下することによって選択を行うことができる（これは、例えば、上記ジョイスティック又はタッチスクリーンに統合するか又はこれらによって実施することができる）。

図５は、代替的なインターフェースを示し、ユーザーは１つ又は複数の単語、例えばＷｏｒｄ３及びＷｏｒｄ５を選択することができる。ユーザーは、単語又は単語シーケンスを選択した後、以下の動作、すなわち、選択された単語若しくはシーケンスを正しいとマーク付けすること、選択された単語若しくはシーケンスのうちの１つ若しくは複数を誤りであるとマーク付けすること、選択された単語若しくはシーケンスをスキップすること、選択された単語若しくはシーケンスのための追加の選択肢を要求すること、又は場合によっては、テキストの主題若しくはスタイル等の何らかの他の制約を変更すること、のうちの１つを行うことができる。

１つの実施形態では、単語又は単語シーケンスが選択された後、選択された単語に関連付けられた時間又は時間窓を用いて、その時間又は時間窓において話された可能性がある単語の組を検索することができ、これらのうちの幾つか又は全てがユーザーに表示され、好ましくはスコアの降順でランク付けされる。

図６は、単語のシーケンス６の第３の単語（Ｗｏｒｄ３）についてスクロールダウンリスト６０を例示する。スクロールダウンリスト６０は、単語３に対応する時間窓に基づいて選択された４つの単語候補を含む。セレクター６１は上記スクロールダウンリスト６０内の第１のエントリ上に自動的に設置され、これは上記スクロールダウンリスト６０から選択されたエントリまで垂直方向に移動させることができる。

例
図７Ａは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７１０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、単語数に対する制約７１４、すなわち、音声が６つの単語を有するという制約を含む。特に、制約７１４は、解釈の組７１１全体のスコア７１２を更新し、解釈の更新されたスコア７１６を有する更新された組７１５を生成するのに用いられる。図７Ａの例からわかるように、解釈の組全体のスコア７１６が更新される。

この例示的な実施形態について、一般再スコアリング関数

を、上記で説明したように特定の制約因子ｆ（Ｘ，Ｗ，Ｒ）とともに用いることができる。この制約因子は、以下のように、６つの単語を有するシーケンスに、より高い重みを与える。

他の制約因子及び／又は指標関数も用いることができる。

図７Ｂは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７２０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声のトピックに対する制約７２４、すなわち、音声がpollutionに関するという制約を含む。制約７２４は、解釈の組７２１全体のスコア７２２を更新し、解釈の更新されたスコア７１６を有する更新された組７２５を生成するのに用いられる。

この例示的な実施形態は、「pollution」のトピックにおいて単語シーケンスに適したパラメーターθ’_ＬＭを有する制約付き言語モデルｐ_θ’ＬＭ（Ｗ）を用いる。このため、実施形態は、制約付き言語モデルを用いて上記のスコア関数Ｓ’（Ｗ｜Ｘ）を更新することができる。

図７Ｃは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７３０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声における特定の単語「Carts」の存在に対する制約７３４を含む。制約７３４は、解釈の組７３１全体のスコア７３２を更新し、解釈の更新されたスコア７３６を有する更新された組７３５を生成するのに用いられる。

この例示的な実施形態について、一般再スコアリング関数

を、上記で説明したように特定の関数ｆ（Ｘ，Ｗ，Ｒ）とともに用いることができる。この関数は、以下のように、単語「Carts」を有するシーケンスに、より高い重みを与える。

他の制約因子及び／又は指標関数も用いることができる。

低認知音声認識のための単語シーケンス制約の確定
また、幾つかの実施形態は、システムがユーザーに課す認知的負荷を低くするためには、単語シーケンス制約のエントリの方法が、制約の選択に必要なユーザーのアクションを最小限にするべきであるという認識に基づいている。単語シーケンス制約は、様々な値を有することができるが、様々なタイプも有することができる。例えば、単語シーケンス制約のタイプは、単語の選択又は拒否、単語のシーケンスの選択、タイムスロットの選択、シーケンス内の正しい単語のトレース、単語又は単語の順序の置換等を含むことができる。したがって、ユーザーの注意を運転等の主要な作業から逸らすことを最小限にしながら、制約のタイプ及び値の双方の選択に適合されたインターフェースを提供することが望ましい。

本発明の幾つかの実施形態は、ユーザーの単一のジェスチャーを解析して、単語シーケンス制約のタイプ及び値の双方を確定することができるという認識に基づいている。特に、ジェスチャーのタイプを用いて単語シーケンス制約のタイプを確定することができ、インターフェースに対するジェスチャーの経路、例えば、表示デバイス上の経路のロケーションを用いて、単語シーケンス制約の値を確定することができる。

図８は、本発明の１つの実施形態による、単語のシーケンスを含む音声を認識するための方法のブロック図を示す。実施形態は、ジェスチャーの形状８１７と、音声の解釈の組を示す表示デバイスに対するジェスチャーのロケーション８１５を求める（８１０）。

図９Ａは、入力デバイスにおいてユーザーによって行われるジェスチャーの形状９０１の一例を示す。例えば、入力デバイスは、ジェスチャーの経路を、入力デバイスの座標空間内のロケーション座標９０４のシーケンスとして表すことができる。

タッチデバイスでは、座標シーケンスは、タッチ面の２Ｄ平面内にある。３Ｄフリーハンドジェスチャーデバイスでは、座標シーケンスはデバイスによって測定される運動の３Ｄ空間内にある。ジェスチャーの形状は、互いに対するこれらの座標のロケーションによって形成され、スケーリング及び／又は回転等の変形によって受ける影響が最小限の幾何学的パターンを含むことができる。幾つかの実施形態では、ロケーション座標のシーケンスは順序付けされ、ジェスチャーの形状は、掴むジェスチャー、又はズームイン若しくはズームアウトジェスチャー等におけるジェスチャーの形成のダイナミクスを含む。

図９Ｂは、表示デバイス９０２上の形状９０１を有するジェスチャーのロケーション９０３を示す。ジェスチャーのロケーションは、絶対的又は相対的とすることができる。例えば、絶対ロケーションは、ジェスチャーの幾何学的中心のロケーション、又はジェスチャーの形状を取り囲む円のロケーションとして求めることができる。代替的な実施形態では、ジェスチャーのロケーションは、ＵＩ要素のディスプレイの座標空間内にマッピングすることができ、入力デバイスのＵＩ上に表示される要素に対して求めることができる。例えば、ロケーション９０３は、デバイス９０２上に表示される解釈の組に対して求めることができる。図９Ｂの例では、ジェスチャーのロケーションは、要素９０５に最も近いと判断される。

幾つかの実施形態では、ジェスチャーのロケーションは、ジェスチャーの方向変化に対応する形状の角等の、ジェスチャーの形状の幾何学的特異点のロケーションの組を含む。さらに又は代替的に、特異点は、特定のＵＩ要素に最も近い点、すなわち、音声の解釈の単語に最も近いジェスチャーの点を含むことができる。

次に、実施形態は、ジェスチャーの形状、ジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピング８３０に基づいて、単語シーケンス制約８６０のタイプを確定する（８５０）。幾つかの実施形態では、マッピング８３０は事前に確定されており、メモリ１０１等のメモリに記憶されている。さらに又は代替的に、マッピング８３０は、音声認識システムの動作中に確定又は更新することができる。

実施形態はまた、ジェスチャーのロケーション８１５及びジェスチャーの形状８１７に基づいて単語シーケンス制約８６０の値８４５を確定し（８４０）、単語シーケンス制約８６０を用いて音声を認識する（８２０）。例えば、水平方向のジェスチャーは、単語のシーケンスを選択する単語シーケンス制約のタイプにマッピングすることができる。入力デバイスにおけるこのジェスチャーの経路のロケーションは、ユーザーインターフェースの座標空間内のロケーションにマッピングされ、これを用いて、音声の解釈において存在する単語のシーケンスを確定することができる。同様に、垂直方向のジェスチャーは、単語のタイムスロットを選択するタイプにマッピングすることができ、入力デバイスにおけるこのジェスチャーの経路のロケーションは、ユーザーインターフェース空間におけるジェスチャーの対応するロケーションにマッピングすることができ、これを用いて、特定の単語の発話の時点及び／又は順序を求めることができる。

同様にして、フリック、丸で囲む、ドラッグ選択、及び単語経路のトレースのようなジェスチャーの様々な形状を、様々なタイプの制約にマッピングすることができ、ＵＩ要素デバイスの空間におけるジェスチャーのロケーションを用いて、音声の可能な解釈の後続の再スコアリングのための制約の値を確定することができる。

ジェスチャーの形状及びロケーションの双方を、単一の最良の選択肢として、又はスコアに関連付けられた形状及びロケーションの可能性の確率リストとして表現することができる。さらに、幾つかの実施形態では、ジェスチャーの形状及びロケーションを、それらの共同コレスポンデンス（joint correspondence）の確率に基づいて更新することができる（８１６）。例えば、ジェスチャーの形状が、単語の除去又は単語シーケンスの選択として解釈され得るが、ジェスチャーのロケーションが単一の単語のみに関係している場合、単語の除去に対応するジェスチャーの形状の確率を増大させることができる。

図９Ｃは、本発明の１つの実施形態による、単語シーケンス制約を表示及び指定するための表示デバイス９０２のために示される例示的なヒューマンマシンインターフェース（ＨＭＩ）を示す。この実施形態では、音声入力及び現在の単語シーケンス制約に従って相対的に高い現在の正確度スコアを有する単語が、多次元視覚化で示される。示される単語候補ごとに特定の仮想インターフェース要素９１０が存在する。インターフェース要素９１０は、単語、文字、音素又は単語シーケンスを表すことができる。この例では、水平次元は時間を表し、垂直次元は、各要素のスコアを表し、要素は視覚化の最上部に向かうにつれ、より高いスコアを有する。

互いの上／下にある要素は、音声発話の同じ部分中に話された可能性があるものの代替的な候補（possibilities）であり、発話の最良の（最も可能性の高い）解釈を、視覚化の最上部にわたって読み取ることができる。図８は、単語シーケンス制約を指定するために行うことができる幾つかの種類の選択を示す。例えば、色、背景シェーディング又は他の視覚情報を用いてインターフェース要素を強調することによって、単語シーケンスにおける単一の単語選択９３０をユーザーに示すことができる。単語シーケンス選択９４０は単語のシーケンスを選択する。タイムスライス選択９２０は、発話の時間で区切られたセクションを選択し、その時間セクション中に話された可能性がある全ての可能性のある単語を参照する。

ＨＭＩは、ジェスチャー入力デバイスを有するヘッドアップディスプレイ若しくはウエアラブルディスプレイ、又はタッチスクリーン等の直接タッチを用いた表示スクリーン等の様々な種類の表示デバイス９０２を用いて実施することができる。視覚的出力及びタッチ入力、マウス入力又はジェスチャー入力の他の組合せが可能である。いずれの場合も、実施形態は、特定のジェスチャー形状を、特定の種類の制約、又は単語８３０、単語シーケンス８４０及び／又はタイムスライス８２０を選択するためのアクションのいずれかにマッピングする。特定の要素が選択された後、更なるインターフェースアクションが、選択された１つ又は複数の要素に対し単語シーケンス制約を課す。

幾つかの実施形態では、幾つかのジェスチャーは、別個のジェスチャーセグメントに分割することができ、これらのジェスチャーセグメントは、形状及びロケーション情報について別個に解析することができる。

図９Ｄは、ユーザーが発話の１つの特定の解釈を選好し、その解釈のための単語シーケンス制約を提供することを可能にする特定のタイプのアクションの例を示す。表示デバイス９０２は、正しい単語を表すインターフェース要素を通じて曲線をトレースする機能をユーザーに提供する。図９Ｄは、２つの異なるトレースの例を示す。トレース９５０は、解釈「I want to get some rice and beans.」を表し、トレース９６０は、解釈「I went to get the same jeans.」を表す。

ジェスチャー及びタッチトレースは共に曖昧でありノイズがあるため、タッチ／ジェスチャートレースは確率ｐ（Ｚ│Ｖ，Ｗ）に変換することができる。ここで、Ｚはジェスチャーの経路であり、Ｖは表示デバイスにおける視覚要素のレイアウトであり、Ｗは解釈における単語シーケンスである。この定式化は、トレースを言語モデル及び音響スコアと組み合わせ、トレース及び言語モデルの双方に整合する解釈のスコアが増大されるように正確度スコアを更新する。

したがって、幾つかの実施形態は、単語シーケンス制約との整合の度合いを示す制約因子を求める。制約因子は、制約因子に基づくスコアリング関数を確定し、スコアリング関数を用いてスコアの組を更新するのに用いることができる。

例えば、トレース９６０を所与として、単語｛nice, my, slice,...｝を含むタイムスライスにおける最良の選択肢のための幾つかの可能性が存在する。トレースは、「slice」に最も近いように見えるが、この結果「I went to get the same slice jeans」となり、言語モデルとのマッチが不良である。この場合、トレース制約及び言語モデル制約を組み合わせた後の最高スコアの解釈は「I went to get the jeans」及び「I went to get the nice jeans」であり得る。

図１０は、ジェスチャーのタイプの組１０２０と、単語シーケンス制約のタイプの組１０１０との間のマッピング８３０の一例を示す。通常、タッチ／ジェスチャーアクションのロケーションは、何が選択されるか、又はどこに制約が課されるかに関するコンテキストを提供する。例えば、視覚化Ｖにおける単語の上で「×」ジェスチャーを行うことは、単語を拒否する（そのスコアを非常に低い値に低減する）ことにマッピングされ得る。

幾つかの実施形態では、単語シーケンス制約のタイプによって、制約因子のタイプが決まる。これらの実施形態は、単語シーケンス制約のタイプに基づいて制約因子を求める。例えば、１つの実施形態では、マッピング８３０は、水平方向の選択のジェスチャーを含み、制約因子に対応して、単語シーケンスとの整合の度合いを示す数を出力する。別の実施形態では、マッピング８３０は、正しい単語シーケンスのトレースのジェスチャーを含み、制約因子に対応して、トレースとの整合の度合いを示す数を出力する。

例えば、１つの実施形態ではｆ（Ｘ，Ｗ，Ｒ）＝ｆ_Ｚ，Ｖ（Ｗ）であり、ここで、ｆ_Ｚ，Ｖ（Ｗ）は、トレース及び視覚化との単語シーケンスの整合の度合いを示す数を出力する制約因子である。例えば、ｆ_Ｚ，Ｖ（Ｗ）はｐ（Ｚ│Ｖ，Ｗ）に比例することができる。

制約にマッピングされるジェスチャーＧを所与として、ｆ（Ｘ，Ｗ，Ｒ）＝ｆ_Ｇ，Ｖ（Ｗ）であり、ここで、ｆ_Ｇ，Ｖ（Ｗ）は、ジェスチャー及び視覚化との単語シーケンスの整合の度合いを示す数を出力する制約因子である。例えば、ｆ_Ｇ，Ｖ（Ｗ）はｐ（Ｇ│Ｖ，Ｗ）に比例することができる。

拒否ジェスチャーの例において、ｗ_ｒｅｊを、ユーザーが拒否した単語とする。このとき、

である。

さらに又は代替的に、幾つかの実施形態では、マッピングは、掴むジェスチャーに対応する選択制約、水平方向のジェスチャーに対応するシーケンス制約、丸で囲むジェスチャーに対応する同意語制約、経路トレースジェスチャーに対応するトレース制約、ハットジェスチャーに対応するインターセクション制約、ドラッグトレースジェスチャーに対応する並べ替え制約のうちの１つ又はこれらの組合せを含む。

上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組合せを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ又は複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

さらに、コンピューターは、ラックマウント型コンピューター、デスクトップコンピューター、ラップトップコンピューター、ミニコンピューター又はタブレットコンピューター等の複数の形態のいずれにおいても実現できることが理解されるべきである。また、コンピューターは、１つ又は複数の入力システム及び出力システムを有することができる。これらのシステムは、特に、ユーザーインターフェースを提示するのに用いることができる。そのようなコンピューターは、ローカルエリアネットワーク又はワイドエリアネットワークとしてエンタープライズネットワーク又はインターネット等を含む１つ又は複数のネットワークによって任意の適した形態で相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワーク又は光ファイバーネットワークを含むことができる。

また、本明細書において概説される様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意のものを用いる１つ又は複数のプロセッサ上で実行可能なソフトウェアとして符号化することができる。加えて、そのようなソフトウェアは、複数の適切なプログラミング言語及び／又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて書くことができ、フレームワーク又は仮想マシン上で実行される実行可能な機械語コード又は中間コードとしてコンパイルすることもできる。

「プログラム」又は「ソフトウェア」という用語は、本明細書において、一般的な意味で、上記で論考したような本発明の様々な態様を実施するようにコンピューター又は他のプロセッサをプログラムするのに用いることができる任意のタイプのコンピューターコード又はコンピューター実行可能命令のセットを指すように用いられる。

コンピューター実行可能命令は、１つ若しくは複数のコンピューター又は他のシステムによって実行された、プログラムモジュール等の多くの形式をとることができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、及びデータ構造を含む。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることも分散させることもできる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

単語のシーケンスを含む音声を認識するための方法であって、
ジェスチャーの形状、及び前記音声の解釈の組を示す表示デバイスに対する前記ジェスチャーのロケーションを求めることと、
前記ジェスチャーの前記形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて前記単語シーケンス制約のタイプを確定することと、
前記ジェスチャーの前記ロケーションに基づいて前記単語シーケンス制約の値を確定することと、
前記単語シーケンス制約を用いて前記音声を認識することと、
音響モデル及び言語モデルを用いて前記音声の前記解釈の組を生成することと、
解釈ごとに、解釈が前記単語のシーケンスを表す正確度を表すスコアを求めて、スコアの組を生成することと、
前記音声の前記解釈の組を前記表示デバイス上にレンダリングすることと、
前記単語シーケンス制約の前記タイプ及び前記値に基づいて前記音声を認識するための制約を確定することと、
前記制約との各解釈の整合性に基づいて前記スコアの組を更新することと、
を含み、
前記方法のステップはプロセッサによって実行される、
方法。
前記単語シーケンス制約との整合の度合いを示す制約因子を求めることと、
前記制約因子に基づいて、スコアリング関数を求めることと、
前記スコアリング関数を用いて前記スコアの組を更新することと、
を更に含む、請求項１に記載の方法。
前記単語シーケンス制約の前記タイプに基づいて前記制約因子を求めることを更に含む、
請求項２に記載の方法。
前記スコアリング関数Ｓ’（Ｗ｜Ｘ）は、

であり、ここで、∝は比例を表し、Ｗ＝｛ｗ_ｉ｝^Ｎ _ｉ＝１は、前記解釈におけるＮ個の単語のシーケンスｗ_１，ｗ_２，．．．，ｗ_Ｎであり、ｗ_ｉは位置ｉにおいて仮定される単語であり、Ｘ＝｛ｘ_ｊ｝^Ｔ _ｊ＝１は前記音響モデルの音響特徴を示し、ｘ_ｊは音声入力の前記音響特徴のｊ番目のベクトルであり、Ｔは音響特徴ベクトルの数であり、関数ｐ（．｜．．）は確率であり、Ｓは可能なアライメントの組であり、Ｒ＝｛ｒ_ｉ｝^Ｎ _ｉ＝１は、仮定される単語ごとの前記音声の仮定される時間領域の組であり、ここでｒ_ｉは単語ｗ_ｉについて仮定される前記位置であり、ｆ（Ｘ，Ｗ，Ｒ）は前記制約因子である、
請求項３に記載の方法。
前記ジェスチャーは、水平方向の選択を含み、
前記制約因子は、単語シーケンスとの整合の度合いを示す数を出力する、
請求項４に記載の方法。
前記ジェスチャーは、正しい単語シーケンスのトレースを含み、
前記制約因子は、前記トレースとの整合の度合いを示す数を出力する、
請求項４に記載の方法。
前記マッピングは、掴むジェスチャーに対応する選択制約を含む、
請求項１に記載の方法。
前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含む、
請求項１に記載の方法。
前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含む、
請求項１に記載の方法。
前記マッピングは、フリックジェスチャーに対応する拒否制約を含む、
請求項１に記載の方法。
前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含む、
請求項１に記載の方法。
前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含む、
請求項１に記載の方法。
前記マッピングは、ハットジェスチャーに対応する挿入制約を含む、
請求項１に記載の方法。
前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
請求項１に記載の方法。
単語のシーケンスを含む音声を認識するためのシステムであって、
表示デバイスであって、前記音声の解釈の組を表示し、前記表示に応答して、前記表示デバイスに対するジェスチャーを受信するための表示デバイスと、
前記ジェスチャーの形状、及び前記表示デバイスにおける前記解釈の組からの要素のロケーションに対する前記ジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、前記単語シーケンス制約を用いて前記音声を認識するための少なくとも１つのプロセッサと、
を備え、
少なくとも１つのプロセッサが、音声認識モジュール及び誤り訂正モジュールを実装するプロセッサを備え、
前記音声認識モジュールは、音響モデル及び言語モデルを用いて音声入力の前記解釈の組を生成し、解釈ごとに、解釈が前記音声を表す正確度を表すスコアを求め、
前記誤り訂正モジュールは、前記単語シーケンス制約の前記タイプ及び前記値を用いて、前記音声を認識するための制約を確定し、前記制約との前記解釈の整合性に基づいて各解釈の前記スコアを更新する、
システム。
前記音声を認識する前記システムは、車両のインストゥルメンタルパネルに埋め込まれる、
請求項１５に記載のシステム。
少なくとも１つのプロセッサは、前記ジェスチャーの前記タイプ、及びジェスチャーのタイプの組と単語シーケンス制約のタイプの組との間のマッピングに基づいて、前記単語シーケンス制約の前記タイプを確定する、
請求項１５に記載のシステム。
前記マッピングは、掴むジェスチャーに対応する選択制約を含み、
前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含み、
前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含み、
前記マッピングは、フリックジェスチャーに対応する拒否制約を含み、
前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含み、
前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含み、
前記マッピングは、ハットジェスチャーに対応する挿入制約を含み、
前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
請求項１７に記載のシステム。