JP6030135B2

JP6030135B2 - 音声認識システムにおいて、誤った肯定を低減すること

Info

Publication number: JP6030135B2
Application number: JP2014527200A
Authority: JP
Inventors: シャウ、ジョナサン; バーメウレン、ピーター; サットン、ステファン; サボイエ、ロバート
Original assignee: センソリー・インコーポレイテッド
Priority date: 2011-08-24
Filing date: 2012-08-17
Publication date: 2016-11-24
Anticipated expiration: 2032-08-17
Also published as: CN103797535B; CN103797535A; WO2013028518A1; DE112012003479T5; US8781825B2; JP2014524599A; US20130054242A1

Description

関連出願に対する相互参照

本願は、「音声認識システムにおいて誤った肯定を低減すること」（Reducing False Positives in Speech Recognition Systems）と題され本明細書において参照によってその開示が組み込まれている２０１１年８月２３付けの米国特許出願１３／２１７，１３４号からの優先権の利益を主張する。

本発明は、音声認識に関し、さらに詳しくは、持続時間およびエネルギを用いて音声認識を向上するシステムおよび方法に関する。

ハンドヘルド・デバイスの爆発的な利用度と、小型化するデバイス・サイズによって、音声認識は、電子システムとのシームレスなユーザ・インタラクションをサポートするための、ますます重要な技術となっている。しかしながら、正確な認識システムを構築することは、非常に難しい。高度に正確な認識システムは、計算負荷が大きくなる可能性があり、小型のハンドヘルド電子デバイスには適切ではない可能性がある。

いくつかの音声認識器が、誤った認識を生成した場合、１つの問題が生じる。この場合、認識器は、事実、ワードやフレーズが実際に話されていない場合に、特定のワードまたはフレーズが認識されたことを示す出力を生成しうる。この現象は、しばしば、音のストリームを受信し、このストリームにおける特定の音をピック・アウト（“スポット”）するように構成されたワード・スポット認識器において見出される。

本発明は、持続時間およびエネルギを用いて音声認識を実行するシステムおよび方法に伴うこれらの問題およびその他の問題を解決する。

本発明の実施形態は、音声認識を実行する方法を改善する。１つの実施形態では、本発明は、話された発声を受け取ることと、認識結果を生成するために、音声認識器において、この話された発声を処理することと、話された発声の成分音の１または複数のパラメータの一貫性を判定することと、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、話された発声の各成分音は、パラメータの対応する値を有する、これらパラメータのうちの少なくとも１つの一貫性に基づいて、認識結果を検証することと、を備える方法を含む。

図１は、本発明の１つの実施形態にしたがって音声認識を実行するための方法を例示する。図２は、本発明の１つの実施形態にしたがって音声認識を実現するためのシステムを例示する。

本明細書では、持続時間とエネルギを用いて音声認識を実行するための技術が記載されている。以下の記載では、説明の目的のために、本発明の完全な理解を提供するために多くの例および具体的な詳細が記載されている。しかしながら、請求項によって定義されたような本発明は、これら例における機能のうちのいくつかまたはすべてを、単独で、または、以下に記載されたその他の機能とともに含み、さらに、本明細書に記載された機能および概念の明確な修正および等価物を含みうることが当業者に明らかになるであろう。

図１は、本発明の１つの実施形態にしたがって音声認識を実行するための方法を例示する。本発明の実施形態は、音声認識結果を改善するために、認識器において受け取られたユーザ発声の特定のパラメータをモニタする。特に、本発明の実施形態は、実際の音声にとって非現実的な結果である認識結果における非一貫性を認識することによって、誤った認識を低減する。例えば、認識器は、“ｈｏｔ”というワードを求めてリスンしうる。“ｈ”は１０ミリ秒を要し、“ｏ”の左手部分は１０ミリ秒を要し、“ｏ”の右手部分は４００ミリ秒を要し、“ｔ”は１００ミリ秒を要しうる。実際の音声は、これよりもより一貫性のある割合で生じる。同様に、“ｈ”および“ｏ”の左側は、非常に大きいかもしれない。その一方で、この発言の残りは、非常に静かである。この非一貫性は、また、実際の音声の、非常に非現実的な形態でもある。最後に、認識された音声は、一般に、女性に関連付けられた場合、高ピッチで始まり、一般に、男性に関連付けられた場合、低ピッチへと落ちる。この非一貫性も同様に非現実的である。既存の認識器は、このような非現実的な結果を認識しないであろう。なぜなら、以前の認識器は、持続時間モデルを、各セグメントについて独立して適用し、より広いコンテキストにわたる一貫性を強要しないからである。例えば、持続時間モデルのために使用される統計は、一般に、話者独立であり、特定の話者についてさほど正確ではない。このシステムが、認識器へのピッチ、エネルギ、または持続時間の一貫性に関する追加情報を含んでいる場合、認識器は、はるかに希にしか、誤った認識をしない。

図１は、１つの実施形態にしたがう処理を例示する。１０１では、話された発声が受け取られる。１０２では、音声認識を実行するために、話された発声が、認識器において処理される。いくつかの実施形態では、認識器は、例えば、マイクロプロセッサ、マイクロコントローラ、または、音声認識のために最適化された特定用途向けＩＣ（ＡＳＩＣ）のような、音声認識を実行するためのハードウェアの、アプリケーション特有のユニットでありうる。他の実施形態では、認識器は、プロセッサにおいて実行可能な命令群を含むソフトウェアで実現されうる。例えば、認識器は、ソフトウェアとして実現され、例えば、汎用マイクロプロセッサまたはマイクロコントローラにおいて実行されうる。１０３では、持続時間、エネルギ、またはピッチの一貫性が判定される。例えば、話された発声が、成分ベースで分析されうる。例えば、話された発声は、サブ・フォン、音素、音節、またはワードにさえも基づいて分析されうる。サブ・フォンが使用された場合、各セグメントがどのサブ・フォンに対応しているのかを決定するために、話された発声のセグメントが分析されうる。さらなる例として、話者が、ワード“ｈｏｔ”を発声すると、システムは、“ｈｏｔ”の音のセグメントが、“ｈ”−“ｏ”−“ｔ”の音素であると判定しうる。システムは、音の成分にわたるピッチ、エネルギ、または持続時間の一貫性を判定しうる。１０４では、この一貫性に基づいて、認識結果が検証される。例えば、認識器が、認識された特定のワードまたはフレーズを示す認識結果を生成した場合、この認識結果が、話された発声のピッチ、エネルギ、または持続時間といったパラメータのうちの１または複数の一貫性に基づいて検証されうる。特に、例えば、持続時間が、一貫性がないと判定された場合、この認識結果は有効ではなく、却下されうる。

図２は、１つの実施形態にしたがうシステムを例示する。システム２００は、内部メモリ２０３を含むプロセッサ２０１を含む。内部メモリ２０３は、例えば、ローカル・データ記憶および検索のためのレジスタ、キャッシュ、またはスタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）を含みうる。プロセッサ２０１はさらに、データを格納し、および、例えば、バス２０５を介して外部メモリ２０４からのデータを検索しうる。例えば、外部メモリ２０４は、ダイナミック・ランダム・アクセス・メモリでありうる。プロセッサはさらに、データを格納し、および、例えば、ハード・ディスク・ドライブまたはソリッド・ステート・メモリでありうる周辺メモリ２０９からデータを検索しうる。例えば、システム２００は、他のリソースと通信するためのネットワーク・インタフェース２１０を含みうる。インタフェース２１０は、例えば、ブルートゥース・インタフェース、セルラ・インタフェース、ＩＥＥＥ８０２ベースのインタフェースのような無線インタフェースでありうるか、または、例えばイーサネット（登録商標）、ＵＳＢ、または光インタフェースのような有線インタフェースでありうる。いくつかの実施形態では、認識処理において使用されるデータは、外部的に格納され、インタフェース２１０を介してアクセスされうる。

この例において、プロセッサ２０１は、本明細書で記載された、一貫性を判定することと、認識結果を検証することとの処理技術を実行するようにプロセッサをプログラミングするためのソフトウェアとして実現される認識器２０２を含む。認識器２０２は、プロセッサに対して、入力された音声について認識演算を実行させ、持続時間、エネルギ、およびピッチの一貫性を判定させ、認識結果を検証させるための実行可能な命令群を含みうる。この例において、一貫性分析２２０は、認識器２０２の１または複数の構成要素によって実行されうる。他の実施形態では、一貫性分析２２０は、例えば、認識器２０２から分離したソフトウェアでありうる。

話された発声は、オーディオ・インタフェース２０６を介してシステムに受信される。オーディオ・インタフェース２０６は、音信号を電子信号に変換するためのマイクロフォンまたはその他の形態のオーディオ−電子変換器を含みうる。オーディオ・インタフェース２０６は、アナログ音声信号をデジタル信号に変換するためのアナログ・トゥ・デジタル変換器を含みうる。話された発声のデジタル表現は、例えばバス２０７を介してプロセッサ２０１に渡されうるかメモリ２０９に格納され、プロセッサ２０１によってアクセスされうる。認識器２０２は、認識結果を生成するために、話された発声のデジタル表現を処理する。認識結果は、中間認識結果または最終認識結果を含みうる。最終認識結果は、認識器が決定したワードまたはフレーズが、話された発声によって具体化されたことを示す。最終結果および中間結果のタイプは、使用されている認識アルゴリズムに依存して変化しうる。中間結果は、認識処理中に生成された音（例えば、フォン）の成分の確率でありうる。そして、例えば、内部メモリ２０３またはＤＲＡＭ２０４に格納されうる。例えば、以下により詳細に記載されるように、一貫性を判定することと、認識結果を検証することとは、例えば、中間認識結果または最終認識結果の何れか、あるいはその両方についてなされうる。

いくつかの実施形態では、１つのパラメータの一貫性が判定されうる。他の実施形態では、複数のパラメータの一貫性が判定されうる。例えば、１つの実施形態では、話された発声の成分音の持続時間の一貫性が判定されうる。この場合、例えば、話された発声にわたるサブ・フォンの持続時間の一貫性が、話された発声において認識されたサブ・フォンの期待値に対して判定されうる。別の実施形態では、話された発声の成分音のエネルギ（あるいは、その代わりに、ピッチ）の一貫性が判定されうる。エネルギの場合には、例えば、話された発声にわたるサブ・フォンのエネルギの一貫性が判定されうる。

別の実施形態では、複数のパラメータの一貫性が判定されうる。そして、認識結果を検証することは、判定された各パラメータの個別の一貫性に基づく。例えば、持続時間とエネルギとの一貫性が判定され、検証は、これら両方の一貫性に基づきうる。

１つの実施形態では、認識結果は、スコアであり、一貫性は各々スコアを有する。この場合、認識結果を検証することは、結合スコアを生成するために、認識結果スコアを一貫性スコアと結合することと、結合スコアを、例えばしきい値と比較することと、を含みうる。

別の実施形態では、一貫性は以下のようにして検証されうる。特定のパラメータ（すなわち持続時間、エネルギ、ピッチ）の特定の一貫性が、しきい値と比較される。パラメータの一貫性がしきい値を超える場合、認識結果は却下され、パラメータの一貫性がしきい値を超えない場合、認識結果が受諾される。例えば、パラメータの一貫性がしきい値を超える場合、パラメータは十分な一貫性を有しておらず、パラメータの一貫性がしきい値を超えない場合、パラメータは十分に一貫性を有する。いくつかの実施形態では、一貫性は、数として計算され、別の数と比較されうる。一貫性を判定するために、さまざまな技術が使用されうる。いくつかの技術を用いると、高いスコアは、一貫性のないパラメータに相当しうる。したがって、スコアがしきい値を上回る場合、認識結果は却下される。他の技術は、一貫性パラメータに対応する高いスコアを有しうるので、例えば、スコアがしきい値を下回る場合、認識結果は却下される。

（一貫性を判定することを実施する例）
１つの実施例では、持続時間の一貫性を判定することは、発声割合を判定することを含む。一貫性スコアは、発声割合、話された発声の成分音の実際の持続時間、および、この発声における各成分音の１または複数の統計パラメータに基づきうる。具体的な例として、発声割合は、この発声における音の異なる各成分の持続時間の期待値の総和によって除された、話された発声の合計持続時間に基づきうる。例えば、ユーザが、ワード“ＴＯ”を話せば、ここでは音素である成分音は、“Ｔ”と“Ｏ”との音素音でありうる。“Ｔ”音に対応する発声部分の持続時間は１００ミリ秒でありうる。また、“Ｏ”音に対応する発声部分の持続時間は２００ミリ秒でありうる。したがって、話された発声の合計持続時間は３００ミリ秒である。１つの実施形態では、期待値は、平均値でありうる。学習中、“Ｔ”音の持続時間は、１００から２００ミリ秒の範囲にあり、平均持続時間Ｔａｖｅは１５０ミリ秒であると判定されうる。同様に、“Ｏ”音の持続時間は、２００から３００ミリ秒の範囲にあり、平均持続時間Ｏａｖｅは２５０ミリ秒であると判定されうる。したがって、この例において、発声割合（ＳＲ）は、以下のように計算されうる。
ＳＲ＝合計持続時間／ｓｕｍ（期待される持続時間）
ＳＲ＝（１００ミリ秒＋２００ミリ秒）／（１５０ミリ秒＋２５０ミリ秒）＝３／４
現在の例において、発声割合は、一貫性スコアを決定するために使用されうる。例えば、発声割合に、発声の音の異なる各成分の持続時間の期待値を乗じることによって、修正された期待値が決定されうる。この例において、修正された期待値は、発声割合に基づいて以下のように決定されうる。
Ｔ’ａｖｅ＝Ｔａｖｅ＊ＳＲ、およびＯ’ａｖｅ＝Ｏａｖｅ＊ＳＲ、
Ｔ’ａｖｅ＝（１５０ミリ秒）（３／４）＝１１２．５、
Ｏ’ａｖｅ＝（２５０ミリ秒）（３／４）＝１８７．５、
ここで、Ｔ’ａｖｅは、Ｔａｖｅの修正された期待値であり、Ｏ’ａｖｅは、Ｏａｖｅの修正された期待値である。

一貫性（例えば、一貫性スコア）を判定することは、デルタ値を判定することを含みうる。１つの実施形態では、デルタ値は、修正された各期待値と、特定の修正された各期待値に対応する音の成分の持続時間との差分である。例えば、デルタ値は、各成分について、以下のように計算されうる。
（１）Ｔ＿ｄｅｌｔａ＝Ｔ’ａｖｅ、Ｔａ、
（２）Ｏ＿ｄｅｌｔａ＝Ｏ’ａｖｅ−Ｏａ、
ここで、Ｔａは、発声の“Ｔ”成分の実際の持続時間であり、Ｏａは、発声の“Ｏ”成分の実際の持続時間である。いくつかの実施形態では、デルタ値は、修正された各期待値について演算可能な第１の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第２の関数との差分でありうる。例えば、使用されうる別のデルタ値は、以下の通りである。
（３）Ｔ＿ｄｅｌｔａ＝ｌｎ（Ｔ’ａｖｅ）―ｌｎ（Ｔａ）、
（４）Ｏ＿ｄｅｌｔａ＝ｌｎ（Ｏ’ａｖｅ）―ｌｎ（Ｏａ）、
ここで、第１の関数と第２の関数とはともに自然対数である。

また別の例として、使用されうる別のデルタ値は、以下のとおりである。
（５）Ｔ＿ｄｅｌｔａ＝ｌｎ（Ｔ’ａｖｅ＊ｅｘｐ（１／２（ｓｔｄ＿ｄｅｖ＾２）））―ｌｎ（Ｔａ）、
（６）Ｏ＿ｄｅｌｔａ＝ｌｎ（Ｏ’ａｖｅ＊ｅｘｐ（１／２（ｓｔｄ＿ｄｅｖ＾２）））―ｌｎ（Ｏａ）、
ここで、ｓｔｄ＿ｄｅｖ＾２は、この例では音素“Ｔ”および音素“Ｏ”である成分音の持続時間の対数の標準偏差であり、“ｅｘｐ”は、指数関数ｅ^ｘである。したがって、この例において、第２の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を含む。

いくつかの実施例では、一貫性は、スコアとして表されうる。ここで、一貫性を判定することはさらに、発声における音のＮ個の成分に関するデルタ値の平方を加えることと、Ｎによって除することとを備える。ここで、Ｎは整数である。上記（１）および（２）を用いた１つの例は、以下の通りである。
（７）Ｓ＝（１／Ｎ）＊［Ｔ＿ｄｅｌｔａ］ ^２＋（１／Ｎ）＊［Ｏ＿ｄｅｌｔａ］ ^２、ここでＮ＝２である。
式（１）、（２）、および、（７）を適用して、Ｓ＝１５６．２５の一貫性スコアが取得される。１つの実施形態において、一貫性スコアは、しきい値と比較されてもよく、スコアがしきい値を超えたのであれば、認識結果は却下される。このケースにおいて、“Ｔ”と“Ｏ”の実際の値は、ともに高速であった（Ｔａｖｅ＝１５０ミリ秒であるＴａ＝１００ミリ秒は、速く話される“Ｔ”音であり、Ｏａｖｅ＝２５０ミリ秒であるＯａ＝２００ミリ秒は、速く話される“Ｏ”音である）。このケースにおいて、“Ｔ”と“Ｏ”の両方は速く、一貫性がある。したがって、一貫性スコアは、いくつかの予め設定されたしきい値を下回り、認識結果は有効となる。
一貫性スコアがどのように変化するのかを示すために、速い“Ｔ”と遅い“Ｏ”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ｔａ＝１００ミリ秒、およびＯａ＝３００ミリ秒
この場合、発声割合は、
ＳＲ＝（１００ミリ秒＋３００ミリ秒）／（１５０ミリ秒＋２５０ミリ秒）＝４／４＝１である。
修正された期待値は、
Ｔ’ａｖｅ＝（１５０ミリ秒）（１）＝１５０、および
Ｏ’ａｖｅ＝（２５０ミリ秒）（１）＝２５０である。
デルタ値は、
Ｔ＿ｄｅｌｔａ＝Ｔ’ａｖｅ−Ｔａ＝１５０−１００＝５０、および
Ｏ＿ｄｅｌｔａ＝Ｏ’ａｖｅ−Ｏａ＝２５０−３００＝５０である。
一貫性スコアは、
Ｓ＝（１／Ｎ）＊［Ｔ＿ｄｅｌｔａ］ ^２＋（１／Ｎ）＊［Ｏ＿ｄｅｌｔａ］ ^２＝（５０ ^２＋５０ ^２）／２＝２５００である。
しきい値が１５６．２５＜Ｔｈ＜２５００の間で設定されている場合、ここで、Ｔｈはしきい値であり、システムは、Ｔａ＝１００ミリ秒、およびＯａ＝３００ミリ秒である話された発声に対する認識結果を却下するだろう。
別のケースを例示するために、遅い“Ｔ”および遅い“Ｏ”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ｔａ＝２００ミリ秒、およびＯａ＝３００ミリ秒、ここで、ＴａとＯａとの両方が、例えば、学習コーパスからの統計平均よりも持続時間が長い。この場合、発声割合は、
ＳＲ＝（２００ミリ秒＋３００ミリ秒）／（１５０ミリ秒＋２５０ミリ秒）＝５／４である。
修正された期待値は、
Ｔ’ａｖｅ＝（１５０ミリ秒）（５／４）＝１８７．５、および
Ｏ’ａｖｅ＝（２５０ミリ秒）（５／４）＝３１２．５である。
デルタ値は、
Ｔ＿ｄｅｌｔａ＝Ｔ’ａｖｅ−Ｔａ＝１８７．５−２００＝１２．５、および
Ｏ＿ｄｅｌｔａ＝Ｏ’ａｖｅ−Ｏａ＝３１２．５−３００＝１２．５である。

一貫性スコアは、
Ｓ＝（１／Ｎ）＊［Ｔ＿ｄｅｌｔａ］^２＋（１／Ｎ）＊［Ｏ＿ｄｅｌｔａ］^２＝（１２．５^２＋１２．５^２）／２＝１５６．２５であり、これは、速い−速いケースと同じ結果である。したがって、一貫して遅い話者の認識結果は、しきい値Ｔｈを下回る一貫性スコアを生成し、結果は有効となるだろう。

別のケースを例示するために、遅い“Ｔ”および速い“Ｏ”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。Ｔａ＝２００ミリ秒およびＯａ＝２００ミリ秒であり、ここで、Ｔａは、統計平均よりも持続時間が長く、Ｏａは、統計平均よりも持続時間が短い。この場合、発声割合は、
ＳＲ＝（２００ミリ秒＋２００ミリ秒）／（１５０ミリ秒＋２５０ミリ秒）＝４／４＝１である。
修正された期待値は、
Ｔ’ａｖｅ＝（１５０ミリ秒）（１）＝１５０、および
Ｏ’ａｖｅ＝（２５０ミリ秒）（１）＝２５０である。
デルタ値は、
Ｔ＿ｄｅｌｔａ＝Ｔ’ａｖｅ−Ｔａ＝１５０−２００＝５０、および
Ｏ＿ｄｅｌｔａ＝Ｏ’ａｖｅ−Ｏａ＝２５０−２００＝５０である。
一貫性スコアは、
Ｓ＝（１／Ｎ）＊［Ｔ＿ｄｅｌｔａ］ ^２＋（１／Ｎ）＊［Ｏ＿ｄｅｌｔａ］ ^２＝（５０ ^２＋５０ ^２）／２＝２５００である。
これは、速い−遅いケースと同じ結果である。したがって、一貫性のない入力の認識結果は、しきい値Ｔｈを上回る一貫性スコアを生成し、結果は却下されるだろう。
より一般的には、音のＮ個の成分の持続時間が、Ｎで除されることによって、上記（７）に示されるような一貫性スコアＳを生成するために使用されうる。以下の式は、前述した実施の例にしたがうさまざまな実施形態にしたがって、一貫性スコアを判定するための一般的な技術を示す。第１の式は、（７）の一般的なケースである。

ここで、ｄ_ｉは、ｉ番目の成分（例えば、フォン）の実際の持続時間であり、ＳＲは、発声割合であり、μ_ｉは、例えば、学習コーパスから決定されたようなｉ番目の平均持続時間である。

別の例として、話された発声の各成分の実際の持続時間および平均持続時間は、デルタ値（３）および（４）または（５）および（６）を用いて対数領域に変換され、平均フォン持続時間が、発声割合に基づいて規格化される。一貫性スコアＳは、平均平方差を用いる。以下の実施例では、ゼロであるスコアが完璧であり、このスコアが、ある予め設定されたしきい値を上回るのであれば、認識結果は却下される。複数の成分のための一般的な形式は、

である。

例えばフォンのようないくつかの成分は、その他のものよりも多くのバリエーションを有する。１つの実施形態では、成分音における変化は、例えば、標準偏差によって、各フォンのスコアを重み付けることによって考慮されうる。以下の例では、スコアは、持続時間の標準偏差の平方で除されうる。したがって、スコアＳは、以下のように、複数の成分のために一般化された形式を用いて、（３）および（４）に類似したデルタ値から計算されうる。

ここで、ｄ_ｉは、ｉ番目の成分（例えば、フォン）の実際の持続時間であり、ＳＲは、発声割合であり、μ_ｉは、例えば、学習コーパスから決定されるようなｉ番目の成分の平均持続時間であり、σ_ｉ ^２は、学習コーパスから決定されるようなｉ番目の標準偏差である。

所与のフォンの持続時間の対数の平均がｌｎ（μ_ｉ）である一方、そのフォンの平均持続時間は、正確にはμ_ｉではない。１つの実施形態では、特定のフォンのフレームの平均数は、μ_ｉについて演算する関数の一部として含まれうる。したがって、スコアＳは、以下のように、複数の成分のために一般化された形式を用いて、（５）および（６）に類似したデルタ値から計算されうる。

いくつかの応用では、持続時間の分散が、対数正規でありうる。したがって、各フォンの持続時間の確率が（例えば、学習コーパス）から見出されうる。これら確率の幾何平均は、各フォンの平均確率を得るために使用されうる。これは、以下の式を用いて計算されうる。

この場合、実際の入力と、修正された発声割合との両方が、同じ関数によって演算され、各成分の自然対数（“ｌｎ（ｘ）”）とデルタ値とが、指数関数（“ｅ（ｘ）”）によって演算され、ともに掛け合わされ、その結果のＮ乗根が取られる。これは、幾何平均の一例である。

上記の例は、持続時間の認識結果を検証するために一貫性が判定される多くの方式の例示として意図されている。一貫性の持続時間、エネルギ、およびピッチを判定するためのその他の技術は、とりわけ、所望の結果、特定のアプリケーション、特定の認識処理、およびパラメータ（例えば、統計パラメータ）の予め決定された一貫性特性に基づいて使用されうる。上記の例は限定的でなく、請求項の範囲を制限することはない。

（認識結果の検証）
前述されたように、一貫性スコアが判定され、しきい値と比較され、このスコアがしきい値を下回っているか（あるいは、一貫性スコアがどのようにして計算されたのかに依存して、上回っているか）が検証されうる。しかしながら、認識結果があるしきい値を上回っているか、または下回っているのであれば、認識結果を検証する代わりに、一貫性スコアが、認識スコアと結合されうる。１つの実施例では、一貫性スコアがスケールされ、認識結果のスコアから差し引かれる。そして、例えば、結合された認識スコアが、ゼロを上回る場合にのみに有効な認識結果となる。ここでは、小さな一貫性スコアが、より一貫性のあるパラメータに対応する。新たに結合されたスコアがゼロを下回るのであれば、この認識結果は却下されうる。他の実施形態では、別のしきい値や、一貫性スコアと認識スコアとの間の別の結合関係が使用されうる。また、別の実施形態では、複数の異なるパラメータのための複数の一貫性スコアが、認識スコアと結合され、この認識スコアを検証するために使用されうる。

いくつかの実施形態では、最終認識結果が検証され、その他の実施形態では、中間認識結果が検証されうる。第１のケースでは、認識器は、複数のワードまたはフレーズを認識するように構成されうる。認識器が認識するように構成されているワード、フレーズ、またはその他の発声は、一般に、認識セットまたは文法または語彙と相互置換可能であると留意される。認識器は、話された発声を処理し、最終認識結果を出力しうる。この結果の後処理は、前述したように、一貫性に基づいて結果を検証することを含みうる。

別の実施形態では、認識処理の終了までずっと待つ代わりに、認識アルゴリズムが、中間状態において一貫性をチェックしうる。特定の状態までの中間認識結果が、発声割合との一貫性がないのであれば、中間結果が却下されうる。無効な中間結果を却下することは、少なくとも２つの理由により有利でありうる。第１に、計算負荷が低減される。なぜなら、無効な中間結果の余分な処理がスキップされるからである。第２に、いくつかのアプリケーションでは、それは、より正確でありうる。最高スコアの最終結果が、発声割合と一貫性がないことがありうるが、発声割合と一貫性を有する、ほとんど良好なスコアを有する中間結果が存在していた。この場合、一貫性のない最終結果のみが最後までたどり着き、一貫性に基づいて却下された。この場合、何も返されず、結果は誤っており、却下される。このシステムが、処理におけるより早期の最終結果を排除するのであれば、さらに一貫性のある中間結果が、最終結果となり、一貫性に基づいて検証される。一貫性を判定することと、中間結果を検証することとに伴う１つの困難は、まだ多くが聞かれていないために発声の早期における発声割合の良好な推定がないかもしれないことである。これは、中間結果が劣悪であるか否かと、それをいつ却下するのが安全であるかとを知ることを困難にする。１つの実施形態では、一貫性のある発声割合の概念が修正される。話者が話すことができる特定の割合を見つける代わりに、任意の数の音素の結合分布が決定される。例えば、以前の音素のすべてに基づくｎ番目の音素の持続時間分布が存在し、各音素の持続時間が、この分布に基づいてスコア付けされうる。

（認識処理の例）
いくつかの実施形態では、本明細書に記載されたように、一貫性を判定することと、認識結果を検証することとは、フレーズ／ワード・スポット認識処理において使用されうる。ワードまたはフレーズ・スポット処理の一例は、「ハンズ・フリー音声制御および探索のためのシステムおよび方法」（Systems and Methods for Hands Free Voice Control and Search）と題され２０１０／７／６に出願された米国特許出願１２／８３１，０５１号に記載されている。この開示全体は、参照によって本明細書に組み込まれている。前述したように、持続時間、エネルギ、またはピッチは、音声のストリームにおいてスポットされた特定のワードまたはフレーズの認識に対応する出力でありうる最終認識結果を後処理するために使用されうる。あるいは、このようなパラメータは、中間結果を処理するために使用されうる。

その他の実施形態では、本明細書に記載されたように、一貫性を判定することと、認識結果を検証することとは、認識器の特定の認識セットに基づいて、利用可能な認識結果の選択を改善するために使用されうる。例えば、認識器は、Ｎ個の最良の結果を返しうる。認識器が、コマンドＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆからなるコマンド・セットを有しており、かつ、発声が、認識器において受け取られた場合、先頭の３つの結果が、Ｄ、Ａ、Ｅとなりうる。例えば、持続時間、エネルギ、またはピッチ・スコアが、Ｄ、Ａ、Ｅについて計算され、スケールされ、Ｄ、Ａ、Ｅの認識スコアに加えられうる。例えば、これら３つのうち、どれが、持続時間に基づいて、最高の修正結果を有しているかが、認識器の回答として返されるだろう。したがって、フレーズ・スポット認識器における誤った認識をフィルタ・アウトするために、持続時間、エネルギ、またはピットを用いることに加えて、持続時間、エネルギ、またはピットは、どれが最良であるかを見つけるために結果を再スコアするためにも使用されうる。前述された認識処理は単なる例であり、持続時間、エネルギ、および／または、ピッチの一貫性を判定することを他の認識処理に適用することを制限しないことが理解されるべきである。

前述された記載は、本発明のさまざまな実施形態を、本発明の態様がどのようにして実現されるかの例とともに例示している。前述された例および実施形態は、唯一の実施形態であると考えられるのではなく、以下に示す請求項によって定義されるような本発明の柔軟性および利点を例示するために示されている。前述された開示および以下の請求項に基づいて、その他の構成、実施形態、実施例、および等価物が、当業者に明らかになるであろう。そして、請求項によって定義されたような本発明の精神および範囲から逸脱することなく適用されうる。本明細書で適用されている用語および表現は、さまざまな実施形態および例を記述するために使用される。これら用語および表現は、図示され記述された特徴の等価物、またはその一部を除外するものとして解釈されるべきではなく、請求項の範囲内でさまざまな修正が可能であることが認識される。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［発明１］
方法であって、
話された発声を受け取ることと、
認識結果を生成するために、前記話された発声を、音声認識器において処理することと、
前記話された発声の成分音の１または複数のパラメータの一貫性を判定することと、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも１つの一貫性に基づいて、前記認識結果を検証することと、
を備える方法。
［発明２］
前記１または複数のパラメータの一貫性を判定することは、前記話された発声の成分音の持続時間の一貫性を判定することを備える、発明１に記載の方法。
［発明３］
前記１または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のエネルギの一貫性を判定することを備える、発明１に記載の方法。
［発明４］
前記１または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のピッチの一貫性を判定することを備える、発明１に記載の方法。
［発明５］
複数のパラメータの一貫性が判定され、前記認識結果を検証することは、前記判定された各パラメータの個別の一貫性に基づく、発明１に記載の方法。
［発明６］
前記認識結果は、第１のスコアであり、１または複数の一貫性がおのおのスコアを有し、
前記認識結果を検証することは、
第２のスコアを生成するために、前記第１のスコアを、１または複数の一貫性のスコアと結合することと、
前記第２のスコアをしきい値と比較することと
を備える、発明１に記載の方法。
［発明７］
前記一貫性を判定することは、前記パラメータの予め決定された一貫性特性と、前記話された発声におけるパラメータの実際の特性とに基づいて、一貫性測定値を計算することを備える、発明１に記載の方法。
［発明８］
前記予め決定された一貫性特性は、前記話された発声の成分音の１または複数のパラメータのおのおのについて予め決定された１または複数の統計パラメータである、発明７に記載の方法。
［発明９］
前記予め決定された１または複数の統計パラメータは、前記話された発声の各成分音のパラメータの平均値を備え、前記平均値は、発声の学習セットから生成される、発明８に記載の方法。
［発明１０］
前記認識結果を検証することは、
特定のパラメータの特定の一貫性をしきい値と比較することと、
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記認識結果を却下することと、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記認識結果を受諾することと
を備える、発明１に記載の方法。
［発明１１］
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記パラメータは、十分な一貫性を有しておらず、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記パラメータは、十分な一貫性を有している、発明１０に記載の方法。
［発明１２］
前記パラメータは、持続時間であり、
前記持続時間の一貫性を判定することは、発声割合を判定することを備え、
前記発声割合は、前記発声における音の異なる各成分の持続時間の期待値の総和によって除された、前記話された発声の合計持続時間に基づく、発明１に記載の方法。
［発明１３］
前記持続時間の期待値は、前記発声における音の異なる各成分の平均持続時間である、発明１２に記載の方法。
［発明１４］
前記話された発声の成分音の１または複数のパラメータの一貫性のうちの少なくとも１つが、一貫性スコアを備え、
前記一貫性スコアは、前記発声割合、前記話された発声の成分音の実際の持続時間、および、前記発声における各成分音の１または複数の統計パラメータに基づく、発明１２に記載の方法。
［発明１５］
前記発声割合に基づいて、修正された期待値を決定すること、をさらに備える発明１２に記載の方法。
［発明１６］
前記発声割合に、前記発声の音の異なる各成分の持続時間の期待値を乗じることによって、前記修正された期待値が決定される、発明１５に記載の方法。
［発明１７］
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値と、特定の修正された各期待値に対応する音の成分の持続時間との差分である、発明１５に記載の方法。
［発明１８］
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値について演算可能な第１の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第２の関数との差分である、発明１５に記載の方法。
［発明１９］
一貫性は、スコアとして表わされ、
前記一貫性を判定することはさらに、
前記発声における音のＮ個の成分に関するデルタ値の平方を加えることと、
Ｎによって除することと
を備える、発明１８に記載の方法。
［発明２０］
前記第１の関数および第２の関数は自然対数である、発明１８に記載の方法。
［発明２１］
前記第２の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を備える、発明１８に記載の方法。
［発明２２］
前記成分音は、音素、サブ・フォン、音節、およびワードのうちの１つである、発明１に記載の方法。
［発明２３］
システムであって、
プロセッサと、
メモリとを備え、
前記プロセッサは、
話された発声を受け取り、
認識結果を生成するために、前記話された発声を、音声認識器において処理し、
前記話された発声の成分音の１または複数のパラメータの一貫性を判定し、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも１つの一貫性に基づいて、前記認識結果を検証するように構成された、システム。

Claims

方法であって、
話された発声を、コンピューティング・デバイスによって受け取ることと、
前記コンピューティング・デバイスによって、前記話された発声について音声認識処理を実行し、認識結果を生成することと、
前記コンピューティング・デバイスによって、前記認識結果の成分音の持続時間の一貫性を判定することとを備え、前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記方法はさらに、
前記コンピューティング・デバイスによって、前記持続時間一貫性スコアに基づいて、前記認識結果を検証することを備える方法。
前記認識結果は、認識スコアに関連付けられており、
前記認識結果を検証することは、
結合スコアを生成するために、前記認識スコアを、前記持続時間一貫性スコアと結合することと、
前記結合スコアを、しきい値と比較することとを備える、請求項１に記載の方法。
各成分音の期待される持続時間は、発声の話者独立の学習セットから生成される平均持続時間値である、請求項１に記載の方法。
前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項１に記載の方法。
前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記成分音の持続時間は、十分な一貫性を有しておらず、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記成分音の持続時間は、十分な一貫性を有している、請求項４に記載の方法。
前記成分音は、音素、サブ・フォン、音節、およびワードのうちの１つである、請求項１に記載の方法。
システムであって、
プロセッサと、
格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体とを備え、
前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対して、
話された発声を受け取らせ、
前記話された発声について音声認識処理を実行させて、認識結果を生成させ、
前記認識結果の成分音の持続時間の一貫性を判定させ、
前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対してさらに、
前記持続時間一貫性スコアに基づいて、前記認識結果を検証させる、システム。
各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項７に記載のシステム。
前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項７に記載のシステム。
プロセッサによって実行可能な、格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体であって、前記プログラム・コードは、
前記プロセッサに対して、話された発声を受け取らせるためのコードと、
前記プロセッサに対して、前記話された発声について音声認識処理を実行させ、認識結果を生成させるためのコードと、
前記プロセッサに対して、前記認識結果の成分音の持続時間の一貫性を判定させるためのコードとを備え、
前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記プログラム・コードはさらに、
前記プロセッサに対して、前記持続時間一貫性スコアに基づいて、前記認識結果を検証させるためのコードを備える、非一時的なコンピュータ読取可能な記憶媒体。
各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項１０に記載の非一時的なコンピュータ読取可能な記憶媒体。
前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項１０に記載の非一時的なコンピュータ読取可能な記憶媒体。