JP2019535034A

JP2019535034A - 音声認識のためのシステム及び方法

Info

Publication number: JP2019535034A
Application number: JP2019517330A
Authority: JP
Inventors: ヂョウヂェンユー; フェンヂェ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2016-09-30
Filing date: 2017-09-14
Publication date: 2019-12-05
Anticipated expiration: 2037-09-14
Also published as: WO2018059957A1; US9959861B2; CN109791767A; DE112017004374B4; CN109791767B; US20180096678A1; DE112017004374T5; JP6869339B2

Abstract

自動音声認識のための方法は、第１の汎用音声認識エンジンと第２のドメイン固有音声認識エンジンとをそれぞれ用いて、オーディオ入力データに対応する第１及び第２の複数の候補音声認識結果を生成することを含む。この方法はさらに、第１の複数の音声認識結果のうちの１つの結果中に含まれる複数の単語と、第２の複数の音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含む、第３の複数の候補音声認識結果を生成すること、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて第３の複数の候補音声認識結果をランク付けすること、及び、最も高くランク付けされた音声認識結果をユーザからの入力として用いて、自動システムを動作させることを含む。

Description

本開示は、全般的には、自動音声認識の分野に関するものであり、より具体的には、複数の音声認識エンジンを活用する音声認識システムの動作を改善するシステム及び方法に関するものである。

背景
自動音声認識は、広範囲に及ぶ適用事例においてヒューマンマシンインタフェース（ＨＭＩ）を実現するための重要な技術である。詳細には、マウスやキーボードなど慣用の入力デバイスを使用するのが不便であるか又は非実用的なところで、ヒューマンユーザがタスクの実施に集中しなければならない状況において、音声認識は有用である。例えば、車載「インフォテイメント」システム、ホームオートメーションシステム、並びに、スマートフォン、タブレット及びウェアラブルコンピュータなどの小型電子モバイルデバイスの数多くの用途は、音声命令及び他の入力をユーザから受け取るために、音声認識を採用することができる。

多くの従来技術による音声認識システムは、訓練済みの音声認識エンジンを使用して、記録されたユーザ発話入力が、コンピュータ化システムにおける処理に適したディジタルデータに変換される。当該技術分野において知られている様々な音声エンジンは、自然言語を理解する技術を実施してユーザが発話する単語を認識し、それらの単語から意味論的意味を抽出して、コンピュータ化システムの動作を制御する。

一部の状況において単一の音声認識エンジンは、ユーザが種々のタスクを実施している最中にユーザからの音声を認識するためには、必ずしも最適化されていない。従来技術の解決手段によれば、音声認識の精度を改善するために複数の音声認識システムを組み合わせることが試みられており、これには音響モデルである種々の音声認識モデルからの下位レベル出力を選択すること、又は、所定のランキングプロセスに基づき、種々の音声認識エンジンからの複数の出力から成るセット全体を選択することが含まれる。しかしながら、種々の音声認識エンジンから出力を選び出す従来の技術は、ユーザが自然言語からのいくつかの音声をしばしば用いるが、自然言語の音声命令を固有の目的のために使用される単語及び文章と組み合わせるような固有のタスクでの使用には、適していないことが多い。例えば車載インフォテイメントシステムの場合、車両運転者からの音声入力には、英語又は中国語といった自然言語が、音声認識エンジンによってもうまく認識されない固有の単語及びフレーズと組み合わせられて含まれている可能性があり、各々が高い確率でエラーを含む種々の音声認識エンジンの出力を単に選択するだけでは、音声認識の総合的な精度は高められない。しかも、複数の音響モデル出力などのような複数の下位レベル出力又は複数の音声認識エンジンから得られた他の下位レベルの特徴だけを組み合わせる既存の音声認識システムは、上位レベルの言語的特徴を用いて種々の音声認識エンジンの出力を評価することができない。従って、複数の音声認識エンジンを用いた音声認識の精度を高めるために、自動システムの動作を改善することが有用となるであろう。

概要
１つの実施形態によれば、ハイブリッド音声認識結果を用いて音声認識を実施するための方法が開発された。この方法は、オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、コントローラにより、第１の汎用音声認識エンジンを用いて、オーディオ入力データに対応する第１の複数の候補音声認識結果を生成すること、コントローラにより、第１のドメイン固有音声認識エンジンを用いて、オーディオ入力データに対応する第２の複数の候補音声認識結果を生成すること、コントローラにより、第３の複数の候補音声認識結果を生成すること、ただし、この第３の複数の候補音声認識結果における各候補音声認識結果は、第１の複数の候補音声認識結果のうちの１つの結果中に含まれる複数の単語と、第２の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含み、コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも第３の複数の音声認識結果をランク付けすること、及び、コントローラにより、最も高くランク付けされた候補音声認識結果をユーザからの入力として用いて、自動システムを動作させることを含む。

他の実施形態によれば、ハイブリッド音声認識結果を用いて音声認識を実施する自動システムが開発された。このシステムは、ユーザからの音声入力に対応するオーディオ入力データを生成するように構成されたオーディオ入力デバイスと、このオーディオ入力デバイス及びメモリに動作可能に接続されたコントローラとを含む。このコントローラは以下のように構成されている。即ち、オーディオ入力デバイスからオーディオ入力データを受け取り、第１の汎用音声認識エンジンを用いてオーディオ入力データに対応する第１の複数の候補音声認識結果を生成し、第１のドメイン固有音声認識エンジンを用いて、オーディオ入力データに対応する第２の複数の候補音声認識結果を生成し、第３の複数の候補音声認識結果を生成し、ただし、この第３の複数の候補音声認識結果における各候補音声認識結果は、第１の複数の候補音声認識結果のうちの１つの結果中に含まれる複数の単語と、第２の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含み、最も高くランク付けされた候補音声認識結果を識別するためにペアワイズランカーを用いて、少なくとも第３の複数の候補音声認識結果をランク付けし、かつ、最も高くランク付けされた候補音声認識結果をユーザからの入力として用いて、自動システムを動作させるように構成されている。

車両の乗員室内の車載情報システムにおいて具現化された、ユーザから音声入力命令を受け取るコンピュータ化システムの構成要素の概略図である。複数の音声認識エンジン及びペアワイズランカーを用いて音声認識を実施するためのプロセスのブロック図である。音声認識結果中のトリガ単語系列に基づき特徴ベクトルを生成するためのプロセスのブロック図である。単一の音声入力に対する２つの異なる音声認識結果と、これらの音声認識結果双方から得られた単語を組み合わせたハイブリッド音声認識結果とを示す図である。

詳細な説明
次に、本明細書で開示する実施形態の原理を理解しやすくする目的で、図面及び以下に記載された明細書中の説明について言及する。この言及は、保護対象の範囲に対する限定を意図するものではない。本開示には、例示した実施形態に対するあらゆる代案や変更も含まれ、また、本開示が属する技術分野の当業者であれば通常想定するであろう開示された実施形態の原理のさらなる応用も含まれる。

本明細書においては、用語「音声認識エンジン」は、マイクロフォン又は他のオーディオ入力デバイスを介して受け取られた発話単語の記録されたオーディオ入力データに基づき、コンピュータ化システムが操作者からの発話単語を識別することができるようにするデータモデル及び実行可能なプログラムコードのことを指す。音声認識システムは、音響記録における人声の個々の音響を認識する下位レベルの音響モデルと、所定の言語に対する音響モデルから得られた音響系列に基づき単語及び文章を認識する上位レベルの言語モデルとを含むことが多い。当該技術分野において知られている音声認識エンジンは一般に、１つ又は複数の統計モデルを実現しており、これは、例えば、隠れマルコフモデル（ＨＭＭ）、サポートベクターマシン（ＳＶＭ）、訓練済みニューラルネットワーク、又は、その他の統計モデルなどであって、そのようなモデルによれば、人声に対応する入力データの特徴ベクトルに適用される複数の訓練済みパラメータを用いて、記録された人声に対する統計的予測が生成される。音声認識エンジンは、例えば、当該技術分野において知られている様々な信号処理技術を用いて特徴ベクトルを生成し、そのような信号処理技術によれば、記録された音声信号の特性（「特徴」）が抽出され、それらの特徴が一次元ベクトル又は多次元ベクトルとしてまとめられ、個々の単語及び文章を含む音声の様々な部分を識別するために、統計モデルを用いてそれらのベクトルを処理することができる。音声認識エンジンは、発話された個々の音素及びより複雑な音響パターンに対応する音声入力に対する結果を作成することができ、この場合、音響パターンには、発話された単語及び関連単語系列を含む文章が含まれている。

本明細書においては、用語「音声認識結果」は、所与の入力に対して音声認識エンジンが生成する機械可読出力のことを指す。この結果を、例えば、機械可読フォーマットでコーディングされたテキスト、又は、自動システムの動作を制御するための入力として用いられるその他のコーディングデータセットとすることができる。音声認識エンジンの統計的特性ゆえに、一部の構成によれば音声エンジンは、単一の入力に対し可能性のある複数の音声認識結果を生成する。また、音声エンジンは、音声認識結果各々に対する「信頼度スコア」も生成し、この場合、信頼度スコアは、音声認識エンジンの訓練済み統計モデルに基づき音声認識結果各々が正確であるという尤度の統計的推定である。あとでさらに詳細に述べるように、ハイブリッド音声認識システムは、複数の音声認識エンジンにより作成された音声認識結果を使用し、付加的なハイブリッド音声認識結果を生成し、先行して生成された複数の音声認識結果に基づき、最終的に少なくとも１つの出力音声認識結果を作成する。本明細書においては、用語「候補音声認識結果」又はより簡単に「候補結果」は、ハイブリッド音声認識システムから得られた最終的な音声認識結果となるべき候補である音声認識結果のことを指し、この場合、ハイブリッド音声認識システムは、複数の候補結果を作成し、最終的な音声認識結果として、それらの結果のうち１つのサブセット（又は一般的には１つの結果）だけを選択する。様々な実施形態によれば、候補音声認識結果には、汎用音声認識エンジン及びドメイン固有音声認識エンジンから得られた音声認識結果と、複数の候補音声認識結果から得られた単語を用いてシステム１００が生成するハイブリッド音声認識結果の双方が含まれる。

本明細書においては、用語「汎用音声認識エンジン」は、英語又は中国語など人間の自然言語からの一般的な範囲の音声を認識するように訓練された、音声認識エンジンの１つのタイプのことを指す。汎用音声認識エンジンは、自然言語において広く用いられる音声パターンに対応する訓練済み単語と訓練済み文法モデルとから成る一般的な語彙に基づき、音声認識結果を生成する。本明細書においては、用語「ドメイン固有音声認識エンジン」は、特定の使用エリアにおいて、又は、より一般的な自然言語とはいくらか異なる語彙及び場合によってはそれらとは異なることが予期される文法構造を含むことが多い「ドメイン」において、音声入力を認識するように訓練された音声認識エンジンの１つのタイプのことを指す。固有のドメインに対する語彙は典型的には、より一般的な自然言語からの一部の語句を含むけれども、より狭められた全体語彙を含むようにすることができ、一部の事例においては、自然言語における公用語としては正式には認められないが特定のドメインではよく知られている特化された語句を含んでいる。例えば、ナビゲーションアプリケーションの場合には、ドメイン固有音声認識は、道路、町、又は、より一般的な言語では固有名詞としては一般的には認められないその他の地理的呼称に対する語句を認識することができる。他の構成によれば、ある特定のドメインは、ある特定のドメインに対しては通用するが、より一般的な言語ではよく認知されていない可能性がある専門用語の特定のセットを使用する。例えば航空機操縦士は、通信用の言語として正式には英語を使用するが、多数のドメイン固有の専門用語及び標準英語には含まれないその他の略語も使用する。

本明細書においては、用語「トリガペア」は、以下のような２つの単語のことを指す。即ち、この２つの単語各々を、１つの単語（例えば「再生」）であるか又は所定の１つの分類（例えば＜曲名＞）とすることができ、この分類は、曲、人、地名等の固有名詞などのように所定の分類に入る１つの単語系列（例えば「ポーカー・フェース」）を表す。トリガペアにおける単語は、１つの音声認識結果の文章テキスト内容における複数の単語の中で固有の順序で現れる場合、Ａ→Ｂのトリガペアに関してオーディオ入力データにおいて先行する単語Ａが観測される状況においては、後続の単語Ｂの出現との間において高い相関レベルを有する。トリガペアは３つ以上の単語を伴う系列を含むことができるとはいえ、多くの事例においては、トリガペアは１つのトリガペア内に２つの単語を含んでいる。あとで詳細に述べるように、訓練プロセスを介してトリガペアセットが識別された後、候補音声認識結果のテキストにトリガ単語ペアが出現すると、各候補結果に対し１つの特徴ベクトルの一部分が形成され、ランキングプロセスがこれを使用して、種々の候補音声認識結果をランク付けする。

図１には、ヘッドアップディスプレイ（ＨＵＤ）１２０、１つ又は複数のコンソールＬＣＤパネル１２４、１つ又は複数の入力マイクロフォン１２８、及び、１つ又は複数の出力スピーカ１３２を含む車載情報システム１００が示されている。ＬＣＤディスプレイ１２４及びＨＵＤ１２０は、少なくとも部分的に、車両の運転者又は他の乗員からシステム１００が受け取った音声入力命令に基づき、システム１００からの視覚的出力応答を生成する。コントローラ１４８は、車載情報システム１００内の構成要素各々に動作可能に接続されている。一部の実施形態によれば、コントローラ１４８は、ナビゲーション、並びに、外部のデータネットワーク及びコンピューティングデバイスとの通信を提供する目的で、グローバルポジショニングシステム（ＧＰＳ）受信機１５２及びワイヤレスネットワークデバイス１５４といった付加的な構成要素に接続されており、又は、それらの構成要素を組み込んでいる。

一部の動作モードによれば車載情報システム１００は、他の動作モードにおいて車載情報システム１００がスマートフォン１７０、タブレット、ノートブックコンピュータ又は他の電子デバイスといったモバイル電子デバイスと対話している間に、独立して動作する。車載情報システムは、ＵＳＢなどのような有線インタフェース又はブルートゥースなどのような無線インタフェースを用いて、スマートフォン１７０と通信する。車載情報システム１００は、車両運転中の注意散漫を抑制する発話命令を用いて、運転者がスマートフォン１７０又は他のモバイル電子通信デバイスを制御し得るようにする音声認識ユーザインタフェースを提供する。例えば、車載情報システム１００は、車両運転者がスマートフォン１７０を掴んだり注視したりする必要なく、運転者がスマートフォン１７０を用いて電話をかけたりテキストメッセージを送信したりすることができるようにする音声インタフェースを提供する。一部の実施形態によれば、スマートフォン１７０は、ＧＰＳ及びワイヤレスネットワークデバイスなど、車両内に収容されたデバイスの機能を補完又は置換する様々なデバイスを含んでいる。

マイクロフォン１２８は、車両運転者又は他の車両乗員から受け取った発話入力からオーディオデータを生成する。コントローラ１４８は、オーディオデータを処理するＤＳＰなどのようなハードウェアと、マイクロフォン１２８からの入力信号をオーディオ入力データに変換するソフトウェア構成要素とを含んでいる。あとで述べるように、コントローラ１４８は、少なくとも１つの汎用音声認識エンジンと少なくとも１つのドメイン固有音声認識エンジンとを使用して、オーディオ入力データに基づき候補音声認識結果を生成し、コントローラ１４８はさらにペアワイズランカーを使用して、最終音声認識結果出力の精度を改善する。これに加えて、コントローラ１４８は、合成された音声又は他のオーディオ出力を、スピーカ１３２を介して生成することができるようにするハードウェア及びソフトウェアの構成要素を含んでいる。

車載情報システム１００は、ＬＣＤパネル１２４、フロントガラス１０２に投影されるＨＵＤ１２０を用いて、さらに、計器、インジケータライト、又は、ダッシュボード１０８内に配置された付加的なＬＣＤパネルを介して、車両運転者に視覚的フィードバックを提供する。車両が動いているとき、車両運転者が注意散漫になるのを抑制するために、コントローラ１４８は、任意選択的に、ＬＣＤパネル１２４をディアクティベートし、又は、ＬＣＤパネル１２４を介して単純化された出力だけを表示する。コントローラ１４８は、視覚的フィードバックを受け取りながら運転者が車両周囲の環境を見ることができるようにするために、ＨＵＤ１２０を用いて視覚的フィードバックを表示する。コントローラ１４８は一般的には、車両運転者の周辺視野に対応する領域において、ＨＵＤ１２０に単純化されたデータを表示し、これによって車両運転者は、道路及び車両周囲の環境の遮られないビューを得ることができるようになる。

上述のようにＨＵＤ１２０は、視覚的情報をフロントガラス１０２の一部分の上に表示する。本明細書においては、用語「ＨＵＤ」は、広範囲に及ぶヘッドアップディスプレイデバイスのことを総称的に指し、それらのヘッドアップディスプレイデバイスには、以下に限定されるものではないが、別個のコンバイナ部材等を有する複合型ヘッドアップディスプレイ（ＣＨＵＤ）が含まれる。一部の実施形態によれば、ＨＵＤ１２０は、単色のテキスト及びグラフィックスを表示するのに対し、他のＨＵＤの実施形態には多色ディスプレイが含まれる。ＨＵＤ１２０は、フロントガラス１０２上で表示するように描かれているのに対し、選択的な実施形態によれば、ヘッドアップユニットは、運転者が運転中に装着するメガネ、ヘルメットの庇又はレチクルと一体化されている。

コントローラ１４８は、中央処理ユニット（ＣＰＵ）、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ディジタル信号プロセッサ（ＤＳＰ）、又は、他の任意の適切なディジタルロジックデバイスとして構成された１つ又は複数の集積回路を含んでいる。コントローラ１４８は、半導体ストレージデバイス又は磁気データストレージデバイスなど、車載情報システム１００を動作させるためにプログラミングされた命令を記憶するメモリも含んでいる。

動作中、車載情報システム１００は、マイクロフォン１２８を介して受信される音声入力命令を含め、複数の入力デバイスからの入力要求を受け取る。詳細にはコントローラ１４８は、マイクロフォン１２８を介したユーザからの音声に対応するオーディオ入力データを受け取る。

コントローラ１４８は、中央処理ユニット（ＣＰＵ）、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ディジタル信号プロセッサ（ＤＳＰ）、又は、他の任意の適切なディジタルロジックデバイスとして構成された１つ又は複数の集積回路を含んでいる。コントローラ１４８は、半導体ストレージデバイス又は磁気データストレージデバイスなど、車載情報システム１００を動作させるためにプログラミングされた命令を記憶するメモリ１６０とも動作可能に接続されている。メモリ１６０は、モデルデータ及び実行可能なプログラム命令コードを記憶しており、これによって、少なくとも１つの汎用音声認識エンジン及び少なくとも１つのドメイン固有音声認識エンジン１６２、ハイブリッド音声認識結果生成エンジン１６３、音声認識エンジン１６２から得られた候補音声認識結果とハイブリッド音声認識結果生成エンジン１６３から得られた候補ハイブリッド音声認識結果とをランク付けするペアワイズランカー１６４、及び、ペアワイズランカー１６４がランキングプロセスの一部として使用する複数の所定のトリガペア１６６が実装される。音声認識エンジン１６２は、所定の訓練プロセスを用いて訓練され、その他の点においては、音声認識エンジン１６２は当該技術分野において知られたものである。図１の実施形態には、自動車内のシステム１００のメモリ１６０の中に記憶された要素が含まれているのに対し、一部の実施形態によれば、ネットワーク接続されたサーバなど外部のコンピューティングデバイスによって、システム１００内に示された特徴の一部又はすべてが実装される。よって、当業者であれば、コントローラ１４８及びメモリ１６０を含むシステム１００の動作についてのいかなる言及にも当然ながら、システム１００の選択的な実施形態においてサーバコンピューティングデバイス及び他の分散型コンピューティング構成要素の動作がさらに含まれる、ということを明確に理解するであろう。

図１の実施形態によれば、ハイブリッド音声認識結果生成エンジン１６３は付加的な音声認識エンジンを生成し、これには音声認識エンジン１６２がシステム１００の動作中に作成した少なくとも２つの異なる音声認識結果セットから得られた複数の単語が含まれる。あとで詳細に述べるように、ハイブリッド音声認識結果生成エンジン１６３は、汎用音声認識エンジンの音声認識結果から得られた単語を、ドメイン固有音声認識結果から選択された単語と組み合わせて、個々の音声認識エンジン１６２のいずれによっても作成されなかった新たな音声認識結果を作成する。本明細書においては、用語「ハイブリッド」音声認識結果は、汎用音声認識エンジン及びドメイン固有音声認識エンジン１６２により作成された音声認識結果のうち、少なくとも２つの結果から得られた単語を含む音声認識結果のことを指す。ハイブリッド音声認識結果生成エンジン１６３は、慣用の音声認識エンジンではない。そうではなく、ハイブリッド音声認識結果生成エンジン１６３は言語モデルを使用して、ドメイン固有音声認識のドメイン内で言語的に重要なドメイン固有音声認識結果から得られた単語を識別し、ドメイン固有音声認識結果から得られたそれらの単語を使用して、汎用音声認識エンジンから得られた音声認識結果中の単語を置き換える。ハイブリッド音声認識結果生成エンジン１６３は、ハイブリッド結果を形成する元の音声認識結果各々についての音声認識エンジン１６２から得られた信頼度スコアの平均として、ハイブリッド音声認識結果各々についての信頼度スコアも生成する。

ペアワイズランカー１６４は、ランダムフォレストペアワイズランカーであり、これは音声認識エンジン１６２を訓練するために用いられるのと同じ訓練データセットを用いて訓練される。ただし、ペアワイズランカー１６４は、慣用の音声認識エンジンではない。そうではなく、ペアワイズランカーは、音声認識エンジン１６２の候補音声認識結果とハイブリッド音声認識結果生成エンジン１６３から得られた候補ハイブリッド音声認識結果とを、ペアワイズランキングプロセスを用いてランク付けするために訓練される。このペアワイズランキングプロセスによれば、音声認識結果のペアの組み合わせごとに、入力音声認識結果のペアのうち最低推定単語誤り率を有する一方の音声認識結果が、「勝者」として選択される。訓練プロセス中、ペアワイズランカー１６４は、候補音声認識結果各々に対応する特徴ベクトル入力に基づき、音声認識結果をランク付けして単語誤り率を推定するように訓練され、この場合、所与のペアについて最低推定単語誤り率を有する音声認識入力が「勝者」となる。ペアワイズランカーは、ベースラインとして所定の適正値を有する訓練入力を用いた種々の音声認識結果を使用して訓練され、これによって複数の音声認識エンジン１６２から得られた音声認識結果の精度に関する推定がなされる。一部の実施形態によれば、ペアワイズランカー１６４は、所定のトリガペア１６６を識別する特徴ベクトルや、音声認識エンジン１６２各々が音声認識結果と共に作成する信頼度スコアなど、音声認識結果から得られた付加的なデータを用いても訓練される。これに加えあとで述べるように、コントローラ１４８はハイブリッド音声認識結果を生成し、これによれば汎用音声認識エンジンの結果において選択された単語が、ドメイン固有音声認識エンジンの結果から得られた単語と置き換えられて、ペアワイズランカー１６４が入力として使用する複数のハイブリッド音声認識結果が作成される。

例えば、２つの候補音声認識結果ｈ１及びｈ２に対して生成された特徴ベクトルが入力として与えられるとすれば、コントローラ１４８はペアワイズランカー１６４を実行し、ｈ１に対する特徴ベクトル入力がｈ２よりも低い推定単語誤り率を有する場合には、ｈ１が勝利を得たことを意味する第１の「正の」出力を生成し、このことはｈ１がｈ２よりも「良い」ことを表す。さもなければ、ペアワイズランカー１６４は第２の「負の」出力を生成し、これによってｈ２の推定単語誤り率がｈ１よりも低いことが表される。候補音声認識結果のすべてのペアが処理された後、システム１００は、ペアワイズランカー１６４から得られた最多勝利数を有する候補音声認識結果を、最も高くランク付けされた候補音声認識結果として識別する。例えば、仮説リスト「ｈ１，ｈ２，ｈ３」の場合、ｈ２が仮説ペア（ｈ１，ｈ２）において勝ち、ｈ１が（ｈ１，ｈ３）において勝ち、さらにｈ２が（ｈ２，ｈ３）において勝ったなら、それぞれｈ１は１回、ｈ２は２回、ｈ３は０回、勝利を得たことになる。ｈ２は最多回数で勝利を得たので、システム１００はｈ２を最も高くランク付けされた候補音声認識結果として識別する。ペアワイズランカー１６４の選択的な実施形態によれば、候補音声認識結果をランク付けするために、ランダムフォレストアプローチではなく他の分類技術が用いられる。一部の実施形態によれば、ペアワイズランカー１６４は、トリガペアに関連する特徴に加えて、信頼度スコアに関連する特徴や「減衰性バッグ・オブ・ワーズ」（“bag-of-words with decay”）に関連する特徴など、他の分類特徴を用いても訓練される。信頼度スコアに関連する特徴は、特定のアプローチを用いた候補仮説の文章レベルの信頼度スコアに基づき計算される。ペアワイズランカー１６４のステップ１において生成された候補文章仮説リスト中、音声認識エンジンから得られた元の認識結果である仮説は、音声認識エンジン１６２各々が音声認識結果と共に作成する文章レベルの信頼度スコアと、ハイブリッド音声認識結果に対する信頼度スコアとを有する。「減衰性バッグ・オブ・ワーズ」に関連する特徴は、候補仮説のテキスト内容（即ち、単語系列）に基づき計算される。

システム１００においてトリガペア１６６各々は、予期される音声入力の構造を表す訓練コーパスからの音声入力系列において強い相関を有するものとして先行して識別されていた２つ以上の単語から成る所定のセットを含んでいる。第１のトリガ単語は、音声入力のトリガペアにおける第２のトリガ単語が次に続くという強い統計的尤度を有しており、ただし、これらの単語は、種々の音声入力において不定数の中間単語によって分離されている場合もある。従って、音声認識結果がトリガ単語を含んでいるならば、音声認識結果中のそれらのトリガ単語が正確であるという尤度は、第１のトリガ単語と第２のトリガ単語との間の統計的相関ゆえに比較的高い。システム１００においてトリガ単語１６６が、当該技術分野において知られている統計的手法を用いた相互情報スコアに基づき生成される。メモリ１６０は、特徴ベクトルにおけるＮ個のトリガペア要素から成る所定のセットを記憶しており、それらのトリガペア要素は、高い相互情報スコアを有するトリガ単語セットに基づき、トリガ単語系列中の第１の単語と１つ又は複数の後続の単語との間において高い相関レベルを有するトリガペアに対応する。あとで述べるように、トリガ単語系列１６６は、ペアワイズランカー１６４に音声認識結果の付加的な特徴を供給し、これによってペアワイズランカー１６４は、音声認識結果中に存在する単語を凌ぐ音声認識結果の付加的な特徴を用いて、音声認識結果をランク付けすることができるようになる。

あとでさらに詳細に述べるように、システム１００は、マイクロフォン１２８を用いてオーディオ入力データを受け取り、複数の音声エンジン１６２を用いて複数の音声認識結果を生成する。コントローラ１４８は、ハイブリッド音声認識結果を生成する目的で、ドメイン固有音声認識エンジン結果から選択された語句も、汎用音声エンジンから得られた音声エンジン結果と組み合わせる。コントローラ１４８は、ペアワイズランカー１６４を使用してハイブリッド音声認識結果をランク付けし、最も高くランク付けされた結果を使用して、車載情報システム１００の動作を制御し、又は、選択的な実施形態として他の任意の自動システムの動作を制御する。ランキングプロセスの一部として、ペアワイズランカー１６４は、音声認識結果において所定のトリガペア１６６の出現を識別し、識別されたトリガペアに基づき特徴ベクトルを生成して、付加的な上位レベルの言語情報をペアワイズランカー１６４に供給する。

図１には、ユーザからの命令を受け取って実施するために音声認識を実施する自動システムを説明するための例として、車載情報システム１００が示されているけれども、同様の音声認識プロセスをこれとは異なる状況において実現することができる。例えば、スマートフォン１７０などのようなモバイル電子デバイス又は他の適切なデバイスは、一般に１つ又は複数のマイクロフォン及びプロセッサを含み、このプロセッサによって、音声認識エンジン、ペアワイズランカー、記憶されたトリガペア、並びに、音声認識及び制御システムを実現する他の構成要素を実装することができる。他の実施形態によれば、ホームオートメーションシステムが、少なくとも１つのコンピューティングデバイスを用いて家屋内のＨＶＡＣ及び器具を制御し、その際に少なくとも１つのコンピューティングデバイスは、ユーザからの音声入力を受け取り、複数の音声認識エンジンを用いて音声認識を実施し、家屋内の様々な自動システムの動作を制御する。いずれの実施形態においてもシステムは任意選択的に、固有の用途及び種々の自動システムの動作に合わせて作られた種々のドメイン固有音声認識エンジンセットを使用するように構成されている。

図２には、複数の音声認識エンジン及びペアワイズランカーを用いて音声認識を実施するためのプロセス２００が示されている。あとで述べるように、ある機能又はアクションを実施するプロセス２００についての言及は、音声認識インタフェースを介して命令入力を受け取る自動システムの１つ又は複数の構成要素を用いてその機能又はアクションを実現するために、記憶されたプログラム命令を実行するコントローラの動作のことを指す。プロセス２００については、例示目的で図１のシステム１００と関連させて説明する。

プロセス２００は、システム１００がユーザからオーディオ入力データを受け取るとスタートする（ブロック２０４）。マイクロフォン１２８などのようなオーディオ入力デバイスが、ユーザからの音声入力に対応するオーディオ入力データを生成する。コントローラ１４８は、オーディオ入力データをディジタル形式で受け取り、任意選択的にフィルタリング又は他のディジタル信号処理演算を実施して、オーディオ入力データからノイズを除去する。

これに続いてプロセス２００によれば、システム１００は、オーディオ入力データに基づき第１の汎用音声認識エンジンを用いて、オーディオ入力データに対応する第１の複数の候補音声認識結果を生成する（ブロック２０８）。システム１００は、少なくとも１つのドメイン固有音声認識エンジンを用いて、第２の複数の候補音声認識結果も生成する（ブロック２１２）。システム１００の場合、コントローラ１４８は、第１の複数の結果を生成するために１つ又は複数の汎用音声認識エンジン１６２を用い、第２の複数の候補結果を生成するために１つ又は複数のドメイン固有音声認識エンジン１６２を用いる。一部の実施形態によれば、コントローラ１４８は、各音声認識エンジンが最高信頼度スコア値を有することを表す、各音声認識エンジンから得られた所定数の音声認識結果を選択して、複数の音声認識結果各々を形成する。例えば、１つの実施形態によれば、コントローラ１４８は音声認識エンジン１６２各々から、最高信頼度スコア値を有する５つの候補音声認識結果を生成する。第１及び第２の複数の候補音声認識結果の生成は任意の順序で行われ、又は、マルチプロセッサコアなど並列処理ハードウェアを含むコントローラ１４８の実施形態であれば、同時に行われる。

これに続いてプロセス２００によれば、コントローラ１４８は、第１の複数の候補音声認識結果と第２の複数の候補音声認識結果とに基づき、第３の複数の候補ハイブリッド音声認識結果を生成する（ブロック２１６）。第３の複数の候補音声認識結果はハイブリッド音声認識結果とも呼ばれる。その理由は、それらの結果は、２つ以上の音声認識エンジンにより作成された音声認識結果から得られた複数の単語を組み合わせているからである。コントローラ１４８は、汎用音声認識から得られた第１の複数の候補音声認識結果のうちの１つの結果中に含まれる複数の単語と、ドメイン固有音声認識エンジンから得られた第２の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含む、第３の複数の候補音声認識結果の中で音声認識結果各々を生成する。コントローラ１４８は、音声エンジン双方の候補音声認識結果において共通する単語を識別し、汎用音声エンジンの結果から得られた単語を、汎用音声認識結果とは異なるドメイン固有音声エンジンの結果から得られた対応する単語と置き換える。

第３の複数の音声認識結果において各候補ハイブリッド音声認識結果を生成するため、コントローラ１４８はまずは、単語系列間の差を最小化する「最小編集距離」を用いて単語をアライメントするダイナミックプログラミングプロセスを用いるなど、当該技術分野において知られている技術を用いて、音声認識結果各々における共通の単語をアライメントする。次にコントローラ１４８は、第１の音声認識結果中の種々の単語とアライメントされたドメイン固有音声認識エンジンの候補音声認識結果から単語を選択し、それらの単語を汎用音声認識エンジンの候補音声認識結果に代入し、それによって第３の複数の候補音声認識結果においてハイブリッド候補音声認識結果を作成する。ドメイン固有音声認識エンジンから得られた候補音声認識結果が、汎用音声認識エンジンの対応する候補音声認識結果中には出現していないドメイン固有の単語ｔ_１，ｔ_２，．．．ｔ_ｋを含むならば、コントローラ１４８は、ドメイン固有音声認識エンジンから得られた個々の単語の順列及び個々の単語の組み合わせを、汎用音声認識エンジンから得られた候補音声認識結果に代入し、それによってドメイン固有音声認識エンジンから得られた種々の単語の順列を含む複数の候補ハイブリッド音声認識結果を作成する。

図４には、２つの候補音声認識結果４０４及び４０８並びにハイブリッド候補音声認識結果４５０の例が示されている。図４の例の場合、音声入力は、ユーザから車載ナビゲーションシステムへのナビゲーションリクエストに基づくものである。汎用音声認識エンジンは、一般的な英語の言語モデルに基づいて音声認識結果４０４を生成する。ドメイン固有音声認識エンジンは、ナビゲーションだけに着目し、公用英語の語彙には入らない語句を含む道路名及び地名に関する付加的な語句を含んでいる。システム１００においてコントローラ１４８は、ハイブリッド音声認識結果生成エンジン１６３におけるプログラムコードを実行し、汎用音声認識エンジン及びドメイン固有音声認識エンジン１６２により生成された少なくとも２つの音声認識結果から得られた単語を用いて、ハイブリッド音声認識結果を生成する。各音声認識結果は、１つの文章を成す１つの単語系列を含んでいる。コントローラ１４８は、具体例として挙げた単語“boulevard”のように双方の文章に共通する単語に基づき、２つの音声認識結果４０４及び４０８をアライメントする。この場合、“boulevard”は、第１の音声認識結果では共通の単語４０６として、第２の音声認識結果では共通の単語４１０として示されている。第１の音声認識結果４０４における単語“mope”４２０は、音声認識結果４０８における単語“Mopac”４２４とアライメントされる。次いでコントローラ１４８は、アライメントされた音声認識結果４０４には存在しないドメイン固有音声認識エンジンから得られた第２の音声認識結果４０８における単語を識別する。図４の例によれば、第２の音声認識結果４０８における語句“Mopac”４２４は、テキサス州オースティンの主要な大通りを表すために用いられる俗称であり、これをドメイン固有音声認識エンジンがオーディオ入力データにおいて認識する。ただし、汎用音声認識エンジンは、単語“Mopac”を“mope”と誤って識別している。その理由は、汎用音声認識エンジンは、一般的な範囲の英単語を認識するように訓練されているからである。しかも第２の音声認識結果４０８は、より狭められた語句セットを含んでいる。その理由は、ドメイン固有音声認識エンジンは、オーディオ入力データからの単語の一部を直接的には認識しないからである。

コントローラ１４８は、第１の候補音声認識結果４０４から得られた単語をベースとして使用し、第２の候補音声認識結果４０８から得られた異なる語句を組み入れる目的で、単語“mope”を置き換えるために代入された語句“Mopac”を用いて、ハイブリッド候補音声認識出力４５０を生成する。コントローラ１４８は任意選択的に、汎用音声認識エンジンの音声認識結果から得られた複数の語句を、ドメイン固有音声認識エンジンから得られた異なる単語と置き換えて、ハイブリッド音声認識結果を形成する。プロセス２００中、コントローラ１４８は、汎用音声認識結果とドメイン固有音声認識結果とから成る複数のセットに対し上述のプロセスを実施して、第３の複数のハイブリッド音声認識結果を生成する。これには、１つ又は複数の汎用音声認識エンジン及びドメイン固有音声認識エンジン双方から得られた単語が含まれている。

一部の実施形態によれば、コントローラ１４８は、ドメイン固有音声認識エンジンの候補音声認識結果において固有の意味論的重要性をもつ単語だけを、汎用音声認識エンジンの音声認識結果に代入する。例えば、図４の場合、ドメイン固有音声認識エンジン１６２は、通りの名前及び他の地理的な語句を汎用音声認識エンジンよりも高い精度で認識するように、特に訓練されている。このためコントローラ１４８は、図４において単語“mope”を“Mopac”と取り替える。その理由は、語句“Mopac”は、ドメイン固有音声認識エンジンにおいて道路の名前として意味論的重要性をもつからである。しかしながら、ドメイン固有音声認識エンジンが、通例用いられる英語の動詞や代名詞などのような他の単語に対し異なる結果を生成したならば、コントローラ１４８は汎用音声認識エンジンから得られた結果に依拠し続け、これによってより一般的な自然言語パターンに対しより正確な結果がまず間違いなく形成される。コントローラ１４８は、音声認識エンジン１６２各々における言語モデルから得られた情報に基づき、特定の単語の意味論的分類を識別する。

プロセス２００中、コントローラ１４８は、候補ハイブリッド音声認識結果各々について信頼度スコアを作成するために、ハイブリッド音声認識結果生成エンジン１６３も使用する。システム１００においてコントローラ１４８は、ハイブリッド音声認識結果に対する信頼度の値として、汎用音声認識エンジン及びドメイン固有音声認識エンジン１６２の音声認識結果から信頼度スコアの平均値を生成する。あとでさらに詳細に述べるように、コントローラ１４８は、２つ以上の異なる音声認識エンジンの信頼度スコアを正規化するために線形回帰プロセスを使用し、１つの実施形態によれば、コントローラ１４８は、ハイブリッド音声認識結果に対する信頼度スコアを生成するために、ハイブリッド音声認識結果のベースを形成する元の音声認識結果から得られた信頼度スコアを正規化する。プロセス２００中、ペアワイズランカー１６４は、候補音声認識結果のペアをランク付けするために、入力特徴ベクトルにおける１つの特徴として、ハイブリッド音声認識結果に対する正規化された信頼度スコアを受け取る。

再び図２を参照すると、これに続いてプロセス２００によれば、コントローラ１４８は、ペアワイズランカー１６４を使用して、第３の複数の候補ハイブリッド音声認識結果に対するランキングスコアを生成する。これは音声認識結果から得られた推定単語誤り率に基づいて行われ、さらに任意選択的に、音声認識結果において識別された単語トリガペア及びバッグ・オブ・ワーズ特徴、並びに、音声認識結果に対する信頼度スコアに基づき行われる（ブロック２２０）。上述のように、コントローラ１４８は、ペアワイズプロセスを用いて音声認識結果をランク付けするためにペアワイズランカー１６４を使用し、このペアワイズプロセスによれば、ペアワイズランカー１６４は２つの音声認識結果を受け取り、そのペアにおける最低推定単語誤り率を有する音声認識結果として、「勝利を得た」結果を識別する。これに加え一部の実施形態によれば、システム１００は、第３の複数の候補ハイブリッド音声認識結果に加えて、汎用音声認識エンジンから得られた第１の複数の候補音声認識結果、又は、ドメイン固有音声認識エンジンから得られた第２の複数の候補音声認識結果、又は、これら第１及び第２の複数の結果の双方、のうちの一部又はすべてをランク付けする。

システム１００の場合、ペアワイズランカー１６４はランダムフォレストランキングシステムであり、これは２つの音声認識結果を入力として受け取り、音声認識結果各々に対する推定単語誤り率に基づき音声認識結果のペアをランク付けする。この場合、より低い推定単語誤り率によって、より高いランクが生じる。プロセス２００中、コントローラ１４８は、音声認識結果のペアの組み合わせ各々をペアワイズランカー１６４に供給して、音声認識結果の種々のペアの相対的なランクを決定する。コントローラ１４８は、最低推定単語誤り率を有するという点で、ペアワイズランカーによる各比較で「勝利を得た」、第１の候補音声認識結果又は第２の候補音声認識結果のいずれかに関連づけられたランキングスコアをインクリメントする。次いでコントローラ１４８は、ペアワイズランカー１６４が音声認識結果の各ペア間における最低単語誤り率を識別した後、最高ランキングスコアを有する候補音声認識結果として最高ランク結果を識別する。

動作中、ペアワイズランカー１６４は、所定の特徴ベクトルのフォーマットで音声認識結果を受け取り、ペアワイズランカーにおける訓練済みランダムフォレストモデルは、各音声認識結果中の単語、単語構造、及び、各音声認識結果を作成した音声認識エンジンのアイデンティティに基づき、各音声認識結果において単語誤り率の推定値を生成する。詳細には、２つ以上の汎用音声認識エンジン又は特別な目的の音声認識エンジンを使用するシステム１００の構成の場合、訓練済みランダムフォレストペアワイズランカーは、各音声認識結果を生成した音声認識エンジンのアイデンティティに基づき、単語誤り率についてそれぞれ異なる推定値を生成する可能性がある。その理由は、例えば、一部の音声認識エンジンは、単語又はフレーズの固有のセットの識別にあたり、より正確だからである。ペアワイズランカー１６４は、プロセス２００よりも前に行われる訓練プロセス中、所定の訓練データのセットに基づき、音声認識エンジン１６２の各々から得られた観測された単語誤り率をベースにして、単語誤り率を推定するように訓練される。あとでさらに詳細に述べるように、各結果の現在の内容に基づく音声認識結果のランキングに加え、ペアワイズランカー１６４は任意選択的に、単語トリガペア、候補音声認識結果の信頼度スコア値、及び、候補音声認識結果の特徴ベクトルに関連づけられた、減衰性バッグ・オブ・ワーズ特徴を用いて、最低単語誤り率を推定し、候補音声認識結果の各ペアに対しランキングを作成する。

図３には、１つ又は複数の音声認識結果中に存在するトリガペアに対応する特徴ベクトルを生成するためのプロセス３００が示されている。あとで述べるように、ある機能又はアクションを実施するプロセス３００についての言及は、音声認識インタフェースを介して命令入力を受け取る自動システムの１つ又は複数の構成要素を用いてその機能又はアクションを実現するために、記憶されたプログラム命令を実行するコントローラの動作のことを指す。プロセス３００については、例示目的で図１のシステム１００及び図２のプロセス２００と関連させて説明する。

プロセス３００がスタートすると、コントローラ１４８は、候補音声認識結果のペアに対応するテキストデータにおいて、トリガペア、信頼度スコア、及び、減衰性バッグ・オブ・ワーズ特徴のうちの少なくとも１つを含む特徴を識別する（ブロック３０４）。例えば、図４の例示的な音声認識結果４５０を用いると、メモリ１６０に記憶された複数のトリガ単語系列１６６のうちの１つが、トリガペア（“Shops”，“around”）を含んでいるならば、コントローラ１４８は、単語“Shops”をこのトリガペアにおける第１のトリガ語句であるとして識別し、単語“around”のようなこのトリガペアにおける付加的な単語を識別するために、音声認識結果中のいずれの後続の単語についても構文解析する。一部の事例においては、コントローラ１４８は、単一の音声認識結果において複数のトリガ単語系列セットを識別する。

これに続いてプロセス３００によれば、コントローラ１４８は、トリガペア各々に対する値、信頼度スコア、及び、音声認識結果において識別された減衰性バッグ・オブ・ワーズ特徴を含む特徴ベクトルを生成する（ブロック３０８）。コントローラ１４８は、メモリ１６０に記憶されているＮ個のトリガ単語系列１６６のうちの１つに各々対応する所定数のＮ個の要素を含む特徴ベクトルを生成する。よって、この特徴ベクトルにおける各インデックスは、複数の音声認識結果の間において一貫したかたちで１つのトリガフレーズに対応する。１つの典型的な事例においては、トリガ単語系列の大部分（ときにはすべて）が音声認識結果中には存在せず、コントローラ１４８は任意選択的に、音声認識結果内に現在存在しているトリガ単語系列に対する非自明的なエントリだけしか含まない疎ベクトルとして、特徴ベクトルを生成する。

ペアワイズランキングプロセスによれば、コントローラ１４８は、双方ともが同じトリガペアを含む２つの特徴ベクトルにおいてトリガペア各々が出現するのを相殺する。例えば、双方の候補音声認識結果が共にトリガペア（“Shops”，“around”）を含んでいるならば、コントローラ１４８は、このエントリを双方の候補音声認識結果の特徴ベクトルから除去する。その理由は、このトリガペアが双方の候補結果中に出現し、ペアワイズ比較プロセスにおいて効果的に相殺されるからである。しかしながら、一方の候補結果だけがトリガペアを含んでいるならば、この候補結果に対する特徴ベクトルは、トリガペアがこの候補音声認識結果中にだけに存在することを表す値を含む。次いでコントローラ１４８は、２つの候補結果の２つの特徴ベクトル間の差に基づき、候補音声認識結果のペアに対応するペアワイズランカー１６４に対し、１つの入力特徴ベクトルを生成する。プロセス２００中、コントローラ１４８は、ペアワイズ比較ごとに第１の特徴ベクトルと第２の特徴ベクトルとに基づき、第３の特徴ベクトルを生成する。第３の特徴ベクトルは、ペアワイズランカー１６４に対する入力を成し、これは２つの元の特徴ベクトルの結果の間におけるコーディングされた差を含んでいる。第３の特徴ベクトルは負の値と正の値とを含んでおり、これによってペアワイズランカー１６４は、各特徴を含む特定の音声認識結果を識別することができる。例えば、トリガペア、減衰性バッグ・オブ・ワーズ値、信頼度スコア、又は、他の特徴に対応する単純化された特徴ベクトル配列を用いるならば、第１の候補音声認識結果は［０，０，１，１，０，０］を含み、第２の候補音声認識結果は［０，１，１，０，０，０］を含み、コントローラ１４８は、第１の特徴ベクトルから第２の特徴ベクトルを減算して［０，−１，０，１，０，０］に基づき、ペアワイズランカー１６４に対する最終的な音声認識結果を生成する。この例においては、負の値は、ある特徴が第２の特徴ベクトルのみに存在していることを表し、又は、ある所与の特徴について第２の特徴ベクトルがより高い数値的特徴の値を有することを表す。上述の例によれば、第１及び第２の特徴ベクトルの双方についてインデックス化された第３の値は「１」であり、双方の入力特徴ベクトルが同じ特徴を含むことから、最終的な特徴ベクトルは第３のインデックスにおいて自明の値「０」を含み、この特徴は２つの候補音声認識結果の間では区別されないことから、ペアワイズランカー１６４はこれを無視する。

一部の実施形態によれば、コントローラ１４８は、候補音声認識結果の各ペアにおける各トリガペアの出現の頻度を識別する。候補音声認識結果各々が、同じ頻度で出現する同じトリガペアを含んでいるならば、コントローラ１４８はこのトリガペアを双方の候補音声認識結果の特徴ベクトルから除去する。その理由は、このトリガペアの出現によっても、ランキングプロセスを実施するためにペアワイズランカー１６４に対する付加的な情報はもたらされないからである。しかしながら、候補音声認識結果のうちの一方が、ペアにおける他方の音声認識結果よりも、より頻繁にこのトリガペアを含んでいるのであれば、コントローラ１４８は、候補音声認識結果のペアについて生成された最終的な特徴ベクトルにおけるトリガフレーズに対応する値として、頻度の差を含む。

プロセス３００によれば最後に、図２のブロック２２０の処理を参照しながら上述したように、コントローラ１４８は、トリガ単語ペア、信頼度スコア及び減衰性バッグ・オブ・ワーズ特徴に対応する特徴ベクトルデータを、音声認識結果をランク付けするためのプロセスの一部として使用する（ブロック３１２）。プロセス２００中、コントローラ１４８は、音声認識結果各々に対し付加的な特徴ベクトルデータを生成するためにプロセス３００を実施する。コントローラ１４８は、ペアワイズランカー１６４を使用して、１つのトリガペアにおける非隣接単語間の関係に関する付加的な情報をコーディングする特徴ベクトルに少なくとも部分的に基づき、各音声認識結果において単語誤り率を推定する。この特徴ベクトルにおける付加的な情報によれば、典型的には１つの文章内で隣接する単語を含まないトリガ単語系列に関してより上位レベルの言語的特徴が、ペアワイズランカー１６４に対してコーディングされ、これによってランキングプロセスの精度が改善される。

トリガペア要素を含む各候補音声認識結果に対し特徴ベクトルを生成することに加えて、ペアワイズランカー１６４は任意選択的に、候補文章仮説に基づき計算された「減衰性バッグ・オブ・ワーズ」特性を特徴ベクトルに付加する。本明細書で用いられる用語「減衰性バッグ・オブ・ワーズ」特性は、候補音声認識結果中に存在する各単語に対し、その結果内の単語のポジション及び単語の出現頻度に基づき、コントローラ１４８が割り当てる数値スコアのことを指す。コントローラ１４８は、候補音声認識結果中に存在する認識された辞書単語各々に対し、減衰性バッグ・オブ・ワーズ・スコアを生成する。システム１００によれば辞書データは、例えば、音声認識エンジンモデルデータ１６２に関連づけられて、メモリ１６０内に記憶されている。所定の辞書内の所与の単語ｗ_ｉについて、減衰性バッグ・オブ・ワーズ・スコアはｂｏｗ_ｉ＝Σ_{ｐ∈Ｐ’（ｗｉ）}γ^Ｐであり、ただし、Ｐ’（ｗ_ｉ）は、単語ｗ_ｉが出現している場合の候補音声認識結果中のポジションのセットであり、項γは、範囲（０，１．０）内の所定の数値による減衰係数であり、これはシステム１００の例示的な実施形態においては、例えば０．９にセットされている。

プロセス２００中、候補音声認識結果中に所定の辞書からの各単語が存在するのかしないのかを表す特徴ベクトル値を補完するか又は置き換えるために、コントローラ１４８は、減衰性バッグ・オブ・ワーズ値を含む特徴ベクトルを生成する。トリガペアの特徴ベクトル値と同様の手法で、コントローラ１４８は、ペアにおける候補音声認識結果各々について、個々の減衰性バッグ・オブ・ワーズ特徴値を生成し、次いで２つの特徴ベクトル間の差を、ペアワイズランカー１６４に供給される最終的な特徴ベクトル値として生成する。従って、コントローラ１４８は、このペアにおける２つの音声認識結果が、ある単語に対し異なる減衰性バッグ・オブ・ワーズ・スコアを有する場合のみ、その単語に対し非自明のエントリを有する特徴ベクトルを生成し、そのペアにおける２つの候補音声認識結果各々には出現しない、又は、そのペアにおける候補音声認識結果の双方について同じ減衰性バッグ・オブ・ワーズ・スコアを有する各単語に対しては、ゼロ値の特徴ベクトルエントリを含む。

トリガペア要素及び減衰性バッグ・オブ・ワーズ特徴を含む候補音声認識結果の各ペアに対し特徴ベクトルを生成することに加えて、ペアワイズランカー１６４は任意選択的に、ペアワイズランカーに供給される特徴ベクトルにおける１つの付加的な特徴として、信頼度スコア特徴を付加する。信頼度スコア特徴は、ペアにおける２つの音声認識結果の信頼度スコア間の差として計算される。

図２を再び参照すると、プロセス２００は、上述の特徴ベクトル入力に基づき、第３の複数の候補ハイブリッド音声認識結果の各ペアに対し、ランキングスコアを生成する。一部の構成によれば、コントローラ１４８は、汎用音声認識エンジンから得られた第１の複数の音声認識結果と、ドメイン固有音声認識エンジンから得られた第２の複数の音声認識結果のいずれか又は双方についても、ランキングスコアを生成する。

図２の実施形態の場合、音声認識結果各々について生成されたランキングスコアは、最も高くランク付けされた音声認識結果を識別するためにコントローラ１４８が使用する単なるメトリックではない。コントローラ１４８は、ランキングプロセス中、ハイブリッド音声認識結果を含め各音声認識結果に関連して音声認識エンジン各々が生成する信頼度スコアも使用する。プロセス２００中、コントローラ１４８は、最高信頼度スコアを有する候補音声認識結果を識別し、この最高信頼度スコアを最高ランキングスコアを有する音声認識結果の信頼度スコアと比較する。最高ランキングスコアを有する候補音声認識結果の信頼度スコアが、最高総合信頼度スコアの所定の閾値範囲内にあるならば（ブロック２２４）、コントローラ１４８は、最高ランキングスコアを有する候補音声認識結果を、複数の候補音声認識結果から選択された最も高くランク付けされた出力音声認識結果として選択する（ブロック２２８）。例えば、信頼度スコアにおける差が、あとでさらに詳細に述べる正規化された信頼度スコア範囲において１５％以内であれば、コントローラ１４８は、最高ランキングスコアを有する音声認識結果を、総合的に最も高くランク付けされた音声認識結果として選択する。しかしながら、他の音声認識結果の最高信頼度スコアが、最高ランキングスコアを有する音声認識結果の信頼度スコアを、所定の閾値を超えた大きさで上回っているならば（ブロック２２４）、コントローラ１４８は、最高信頼度スコアを有するその音声認識結果を、出力音声認識結果として選択する（ブロック２３２）。ブロック２２４乃至２３２に示された処理に対する選択的な実施形態によれば、コントローラ１４８は、候補音声認識結果の信頼度スコアを比較するために付加的な処理を実施することなく、最高ランキングスコアを有する候補音声認識結果を、最終的な出力音声認識結果として選択する。

当然ながら多くの事例によれば、最高ランキングスコアを有する音声認識結果の信頼度スコアは、音声認識結果すべての中で最高の信頼度スコア又は著しく高い信頼度スコアでもあり、コントローラ１４８は、最高ランキングスコアを有する音声認識結果を、最高ランク音声認識結果として識別する。ただし、他の状況において、最高ランキングスコアを有する音声認識結果がはるかに低い信頼度スコアを有する場合には、コントローラ１４８は、最高信頼度スコアを有する音声認識結果を選択する。他の構成によれば、コントローラ１４８は、最も高くランク付けされた音声認識結果を識別するために、ランキングスコアと信頼度スコアとを組み合わせて、複合スコアを形成する。例えば、一部の状況によれば、ある音声認識結果が高いランキングスコア及び高い信頼度スコアを有するかもしれないが、この音声認識結果は、音声認識結果すべての中で最高のランキングスコア又は信頼度スコアを有していない場合もある。コントローラ１４８は、ランキングスコアと信頼度スコアとの重み付け平均又は他の組み合わせとして複合スコアを用いて、この音声認識結果を最高ランキングを有するものとして識別する。

上述のようにコントローラ１４８は、各音声認識結果に関連づけられた信頼度スコアに部分的に基づき、最も高くランク付けされた音声認識結果を識別する。信頼度スコアは、音声認識エンジン１６２が複数の音声認識結果に関連づけて生成した各音声認識結果に対する精度（信頼度）の統計的推定値である。ただし、１つの音声認識エンジンに対する数値的な信頼度スコアの範囲は、一般的には他の音声認識エンジンには移し換えられず、このことから複数の音声認識エンジンから得られた音声認識結果の信頼度スコアを比較することの難しさが増大する。例えば、第１の音声認識エンジンＡは１乃至１００のスケールで信頼度スコアを生成する一方、第２の音声認識エンジンＢは１乃至１０００のスケールで信頼度スコアを生成する。とはいえ、エンジンＡにおける数値結果をエンジンＢにおける信頼度スコアの範囲にマッチさせるようにスケーリングする又はその逆を行うだけでは、信頼度スコアを比較可能にするには不十分である。その理由は、ある特定の信頼度スコアに対応する実際の精度推定は、２つの異なる音声認識エンジンの間において一般的に同じではないからである。例えば、エンジンＡに対して正規化されたスケールにおいて３３０という任意の信頼度スコアを、７５％の推定精度に対応させることができるかもしれないが、エンジンＢに対する同じスコアは、８４％の推定精度に対応することになるかもしれず、高品質の音声認識エンジンにおいて予期される精度レベル範囲を前提とすれば、これは大きな差であるといえる。

システム１００の場合、コントローラ１４８は線形回帰プロセスを用いて、種々の音声認識エンジンの間で信頼度スコアを正規化する。コントローラ１４８は最初に、信頼度スコア範囲を所定数の下位区分又は「ビン」に細分化し、例えば、２つの音声認識エンジンＡ及びＢについて２０個のユニークなビンに細分化する。次いでコントローラ１４８は、観測された音声認識結果と、プロセス２００に先立ち訓練プロセス中に使用されていた基礎となる現在の入力とに基づき、スコアの各ビンに対応する様々な音声認識結果に対し、現在の精度率を識別する。コントローラ１４８は、結果セット各々に対するビンを異なる音声認識エンジンから分離する「エッジ」周囲の複数の所定の数値窓内で、信頼度スコアのクラスタリング演算を実施し、各エッジ信頼度スコア値に対応する平均精度スコアを識別する。「エッジ」信頼度スコアは、各音声認識エンジンの信頼度スコア範囲に沿って均一に分布しており、第１の音声認識エンジンの信頼度スコアを類似の精度率を有する他の音声認識エンジンの信頼度スコアにマッピングする線形回帰を実施するために、所定数の比較ポイントを提供する。コントローラ１４８は、各エッジスコアについて識別された精度データを使用して線形回帰マッピングを実施し、これによってコントローラ１４８は、第１の音声認識エンジンから得られた信頼度スコアを、第２の音声認識エンジンから得られた等価の信頼度スコアに対応する他の信頼度スコア値に変換することができる。第１の音声認識エンジンから得られた一方の信頼度スコアから、他の音声認識から得られた他方の信頼度スコアへのマッピングは、スコアアライメントプロセスとも呼ばれ、一部の実施形態によれば、コントローラ１４８は、第１の音声認識エンジンから得られた信頼度スコアと第２の音声認識エンジンとのアライメントを、次式を用いて決定する。
ｘ’＝ｅ’_ｉ＋（（ｘ−ｅ_ｉ）／（ｅ_ｉ＋１−ｅ_ｉ））（ｅ’_ｉ＋１−ｅ’_ｉ）
ただし、ｘは、第１の音声認識エンジンから得られたスコアであり、ｘ’は、第２の音声認識エンジンの信頼度スコア範囲内のｘの等価値であり、値ｅ_ｉ及びｅ_ｉ＋１は、第１の音声認識エンジンに対する値ｘに最も近い種々のエッジ値に対し推定された精度スコア（例えば、信頼度スコア２２周囲のエッジ値２０及び２５に対し推定された精度スコア）に対応し、さらに値ｅ’_ｉ及びｅ’_ｉ＋１は、第２の音声認識エンジンに対する同じ相対的エッジ値において推定された精度スコアに対応する。

一部の実施形態によれば、コントローラ１４８は、線形回帰の結果をルックアップテーブル又は他の適切なデータ構造としてメモリ１６０に記憶し、これによって比較のたびに線形回帰を生成しなおす必要なく、種々の音声認識エンジン１６２の間において信頼度スコアの効率的な正規化が可能となる。

図２を再び参照すると、これに続いてプロセス２００によればコントローラ１４８は、自動システムを制御するためのユーザからの入力として、最も高くランク付けされた選択された音声認識結果を使用する（ブロック２３６）。図１の車載情報システム１００によれば、ユーザからの音声入力に応答して車両のナビゲーション動作を実施するために、コントローラ１４８は様々なシステムを動作させ、それらのシステムには、例えば、ＧＰＳ１５２を使用する車両ナビゲーションシステム、ワイヤレスネットワークデバイス１５４、及び、ＬＣＤディスプレイ１２４又はＨＵＤ１２０が含まれている。他の構成によれば、コントローラ１４８は、音声命令に応答しオーディオ出力デバイス１３２を介して音楽を再生する。さらに他の構成によれば、システム１００は、ユーザからの音声入力に基づきハンズフリーで電話をかけたりテキストメッセージを送信したりするために、スマートフォン１７０又はネットワーク接続された他のデバイスを使用する。図１は、車載情報システムの実施形態を示しているが、他の実施形態によれば、オーディオ入力データを使用して様々なハードウェア構成要素及びソフトウェアアプリケーションの動作を制御する自動システムが採用される。

自明のとおり、これまで開示してきた特徴及び機能並びにその他の特徴及び機能の変形又はそれらの代替案を所望のように組み合わせて、さらに他の多くの種々のシステム、アプリケーション又は方法を実現することができる。現時点においては予見することができない又は予期されない様々な代替案、修正、変形又は改善を、後から当業者が行うことができ、それらも以下の特許請求の範囲に含まれるものとする。

Claims

自動システムにおける音声認識のための方法であって、
オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、
コントローラにより、第１の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第１の複数の候補音声認識結果を生成すること、
前記コントローラにより、第１のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第２の複数の候補音声認識結果を生成すること、
前記コントローラにより、第３の複数の候補音声認識結果を生成すること、ただし、当該第３の複数の候補音声認識結果における各候補音声認識結果は、前記第１の複数の候補音声認識結果のうちの１つの結果中に含まれる複数の単語と、前記第２の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含み、
前記コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第３の複数の候補音声認識結果をランク付けすること、及び、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、前記自動システムを動作させること
を包含する、
自動システムにおける音声認識のための方法。
前記第３の複数の候補音声認識結果において少なくとも１つの候補音声認識結果を生成することはさらに、
前記コントローラにより、前記第１の複数の候補音声認識結果における第１の候補音声認識結果の第１の複数の単語において第１の単語を識別すること、ただし、当該第１の単語は、前記第２の複数の候補音声認識結果における第２の候補音声認識結果中の第２の複数の単語において、前記第１の単語とは異なる第２の単語に対応し、
前記コントローラにより、前記第３の複数の候補音声認識結果のために前記候補音声認識結果を生成すること、ただし、当該候補音声認識結果は、前記第１の候補音声認識結果からの前記第１の複数の単語を、前記第１の候補音声認識結果からの前記第１の単語を置き換える前記第２の候補音声認識結果からの前記第２の単語と共に含む、
を包含する、
請求項１に記載の方法。
さらに、
前記コントローラにより、前記第２の候補音声認識結果中の前記第２の複数の単語を、前記第１の複数の単語にも存在する前記第２の複数の単語における少なくとも１つの単語のポジションに基づき、前記第１の候補音声認識結果中の前記第１の複数の単語とアライメントすること、及び、
前記コントローラにより、前記第１の複数の音声認識結果における前記第１の候補音声認識結果の前記第１の複数の単語において前記第１の単語を識別すること、ただし、前記第１の単語は、前記第２の複数の単語とアライメントされた前記第１の複数の単語における１つの単語ポジションにおいて、第２の候補音声認識結果中の前記第２の複数の単語における前記第２の単語に対応する、
を包含する、
請求項２に記載の方法。
前記ランク付けすることはさらに、
前記コントローラにより、前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別すること
を包含し、各候補音声認識結果ペアをランク付けすることはさらに、
前記コントローラにより、前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果における第１の候補音声認識結果の第１の単語誤り率を推定すること、
前記コントローラにより、前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果における第２の候補音声認識結果の第２の単語誤り率を推定すること、
前記コントローラにより、前記第１の単語誤り率が前記第２の単語誤り率よりも低いことに応答して、前記第１の候補音声認識結果に関連づけられたランキングスコアを増分すること、及び、
前記コントローラにより、前記第１の単語誤り率が前記第２の単語誤り率よりも高いことに応答して、前記第２の候補音声認識結果に関連づけられた他のランキングスコアを増分すること
を包含する、
請求項１に記載の方法。
さらに、
前記コントローラにより、メモリに記憶された複数の所定のトリガペアを参照して、前記第１の候補音声認識結果内で２つの所定のトリガ単語を含む、少なくとも１つのトリガペアに対応する特徴を含む第１の特徴ベクトルを生成すること、
前記コントローラにより、前記複数の所定のトリガペアを参照して、前記第２の候補音声認識結果内で２つの所定のトリガ単語を含む、少なくとも１つのトリガペアに対応する特徴を含む第２の特徴ベクトルを生成すること、
前記コントローラにより、前記第１の特徴ベクトルと前記第２の特徴ベクトルとの間の差に基づき、第３の特徴ベクトルを生成すること、及び、
前記コントローラにより、ペアワイズランカーを用いて前記第３の特徴ベクトルに基づき、前記第１の候補音声認識結果における前記第１の単語誤り率と、前記第２の候補音声認識結果における前記第２の単語誤り率とを推定すること
を包含する、
請求項４に記載の方法。
さらに、
前記コントローラにより、前記第１の候補音声認識結果中の少なくとも１つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第１の特徴ベクトルを生成すること、
前記コントローラにより、前記第２の候補音声認識結果中の少なくとも１つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第２の特徴ベクトルを生成すること、
前記コントローラにより、前記第１の特徴ベクトルと前記第２の特徴ベクトルとの間の差に基づき第３の特徴ベクトルを生成すること、及び、
前記コントローラにより、ペアワイズランカーを用いて前記第３の特徴ベクトルに基づき、前記第１の候補音声認識結果における前記第１の単語誤り率と、前記第２の候補音声認識結果における前記第２の単語誤り率とを推定すること
を包含する、
請求項４に記載の方法。
前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第３の複数の候補音声認識結果において前記最高ランキングスコアを有する１つの候補音声認識結果として識別すること、ただし、当該識別を、前記１つの候補音声認識結果の信頼度スコアが、前記第３の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
前記コントローラにより、前記第３の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別すること、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記１つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
を包含する、
請求項４に記載の方法。
前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第３の複数の候補音声認識結果において前記最高ランキングスコアを有する１つの候補音声認識結果として識別すること
を包含する、
請求項４に記載の方法。
前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第１の複数の候補音声認識結果と前記第３の複数の候補音声認識結果とをランク付けすること
を包含する、
請求項１に記載の方法。
音声入力制御を有する自動システムであって、
ユーザからの音声入力に対応するオーディオ入力データを生成するように構成されたオーディオ入力デバイスと、前記オーディオ入力デバイス及びメモリに動作可能に接続されたコントローラとを備えており、前記コントローラは、
前記オーディオ入力デバイスから前記オーディオ入力データを受け取り、
第１の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第１の複数の候補音声認識結果を生成し、
第１のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第２の複数の候補音声認識結果を生成し、
第３の複数の候補音声認識結果を生成し、ただし、当該第３の複数の候補音声認識結果における各候補音声認識結果は、前記第１の複数の候補音声認識結果のうちの１つの結果中に含まれる複数の単語と、前記第２の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも１つの単語とを含み、
最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第３の複数の候補音声認識結果をランク付けし、
前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、当該自動システムを動作させる
ように構成されている、
音声入力制御を備えた自動システム。
前記コントローラはさらに、
前記第１の複数の候補音声認識結果における第１の候補音声認識結果の第１の複数の単語において第１の単語を識別し、ただし、当該第１の単語は、前記第２の複数の候補音声認識結果における第２の候補音声認識結果中の第２の複数の単語において、前記第１の単語とは異なる第２の単語に対応し、
前記第３の複数の候補音声認識結果のために前記候補音声認識結果を生成し、ただし、当該候補音声認識結果は、前記第１の候補音声認識結果からの前記第１の複数の単語を、前記第１の候補音声認識結果からの前記第１の単語を置き換える前記第２の候補音声認識結果からの前記第２の単語と共に含む、
ように構成されている、
請求項１０に記載の自動システム。
前記コントローラはさらに、
前記第２の候補音声認識結果中の前記第２の複数の単語を、前記第１の複数の単語にも存在する前記第２の複数の単語における少なくとも１つの単語のポジションに基づき、前記第１の候補音声認識結果中の前記第１の複数の単語とアライメントし、
前記第１の複数の候補音声認識結果における前記第１の候補音声認識結果の前記第１の複数の単語において前記第１の単語を識別する、ただし、前記第１の単語は、前記第２の複数の単語とアライメントされた前記第１の複数の単語における１つの単語ポジションにおいて、第２の候補音声認識結果中の前記第２の複数の単語における前記第２の単語に対応する、
ように構成されている、
請求項１１に記載の自動システム。
前記コントローラはさらに、
前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別する
ように構成されており、各候補音声認識結果ペアをランク付けすることはさらに、
前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果における第１の候補音声認識結果の第１の単語誤り率を推定し、
前記ペアワイズランカーを用いて前記第３の複数の候補音声認識結果における第２の候補音声認識結果の第２の単語誤り率を推定し、
前記コントローラにより、前記第１の単語誤り率が前記第２の単語誤り率よりも低いことに応答して、前記第１の候補音声認識結果に関連づけられたランキングスコアを増分し、
前記第１の単語誤り率が前記第２の単語誤り率よりも高いことに応答して、前記第２の候補音声認識結果に関連づけられた他のランキングスコアを増分する
ように、前記コントローラが構成されていることを包含する、
請求項１０に記載の自動システム。
前記コントローラはさらに、
前記メモリに記憶された複数の所定のトリガペアを参照して、前記第１の候補音声認識結果内で２つの所定のトリガ単語を含む、少なくとも１つのトリガペアに対応する特徴を含む第１の特徴ベクトルを生成し、
前記複数の所定のトリガペアを参照して、前記第２の候補音声認識結果内で２つの所定のトリガ単語を含む、少なくとも１つのトリガペアに対応する特徴を含む第２の特徴ベクトルを生成し、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとの間の差に基づき、第３の特徴ベクトルを生成し、
ペアワイズランカーを用いて前記第３の特徴ベクトルに基づき、前記第１の候補音声認識結果における前記第１の単語誤り率と、前記第２の候補音声認識結果における前記第２の単語誤り率とを推定する
ように構成されている、
請求項１３に記載の自動システム。
前記コントローラはさらに、
前記第１の候補音声認識結果中の少なくとも１つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第１の特徴ベクトルを生成し、
前記第２の候補音声認識結果中の少なくとも１つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第２の特徴ベクトルを生成し、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとの間の差に基づき第３の特徴ベクトルを生成し、
ペアワイズランカーを用いて前記第３の特徴ベクトルに基づき、前記第１の候補音声認識結果における前記第１の単語誤り率と、前記第２の候補音声認識結果における前記第２の単語誤り率とを推定する
ように構成されている、
請求項１３に記載の自動システム。
前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を、前記第３の複数の候補音声認識結果において前記最高ランキングスコアを有する１つの候補音声認識結果として識別し、ただし、当該識別を、前記１つの候補音声認識結果の信頼度スコアが、前記第３の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
前記第３の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別し、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記１つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
ように構成されている、
請求項１３に記載の自動システム。
前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を、前記第３の複数の音声認識結果において前記最高ランキングスコアを有する１つの候補音声認識結果として識別する
ように構成されている、
請求項１３に記載の自動システム。
前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第１の複数の候補音声認識結果と前記第３の複数の候補音声認識結果とをランク付けする
ように構成されている、
請求項１０に記載の自動システム。