JP2015520410A

JP2015520410A - 音声認識に対する負例（アンチワード）に基づく性能改善

Info

Publication number: JP2015520410A
Application number: JP2015509160A
Authority: JP
Inventors: ガナパティラジュ，アラビンド; アイヤー，アナンス，ナガラジャ; ワイス，フェリックス，イマニュエル
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2012-04-27
Filing date: 2013-04-26
Publication date: 2015-07-16
Also published as: BR112014026148A2; NZ700273A; CA2869530A1; EP2842124A1; US20130289987A1; WO2013163494A1; CL2014002859A1; EP2842124A4; AU2013251457A1

Abstract

音声認識に対する負例に基づく性能改善のためのシステムおよび方法が提示される。本開示の実施形態は、自動音声認識（ＡＳＲ）システムにおける、識別される誤検知、および、キーワードの負例の識別に対処する。キーワードの負例を識別するのに様々な方法が使用されてもよい。そのような方法は、たとえば、分野特有の大きいテキストソースからの人間による聴き取りおよび学習可能な負例を含んでもよい。少なくとも１つの実施形態において、キーワードの負例は、誤検知を低減することによってＡＳＲシステムの性能を改善するのに使用されてもよい。【選択図】図１

Description

本開示の実施形態は、概して、遠隔通信システムおよび方法、ならびに自動音声認識システムに関する。より詳細には、本開示の実施形態は、自動音声認識システム内での音声認識に対する負例またはアンチワードに基づく性能改善に係る。

音声認識に対する負例に基づく性能改善のためのシステムおよび方法が提示される。本開示の実施形態は、自動音声認識（ＡＳＲ）システムにおける、識別される誤検知、および、キーワードの負例の識別に対処する。キーワードの負例を識別するのに様々な方法が使用されてもよい。そのような方法は、たとえば、分野特有の大きいテキストソースからの人間による聴き取りおよび学習可能な負例を含んでもよい。少なくとも１つの実施形態において、キーワードの負例は、誤検知を低減することによってＡＳＲシステムの性能を改善するのに使用されてもよい。

一実施形態において、音声認識システムにおいて単語の負例を使用するための方法が説明されており、方法は、単語のセットを定義するステップと、前記単語の負例のセットを識別するステップと、単語の前記セットおよび負例の前記セットに対してキーワード認識を実行するステップと、単語の前記セット内の単語の信頼値を決定するステップと、負例の前記セット内の単語の信頼値を決定するステップと、単語の前記セットから、単語の前記セット内の前記信頼値は第１の基準を満たす、少なくとも１つの候補単語を識別するステップと、前記少なくとも１つの候補単語の前記信頼値を、単語の負例の前記セット内の少なくとも１つの単語の前記信頼値と比較するステップと、前記比較が第２の基準を満たす場合、前記少なくとも１つの候補単語を一致として受け入れるステップとを含む。

別の実施形態において、音声認識システムにおいて単語の負例を使用するための方法が説明されており、方法は、単語のセットを定義するステップと、単語の前記セットによる第１のキーワード認識を実行するステップと、単語の前記セット内の単語の信頼値を決定するステップと、単語の前記セットから、単語の前記セット内の前記信頼値は第１の基準を満たす、少なくとも１つの候補単語を識別するステップと、前記少なくとも１つの候補単語の負例のセットを選択するステップと、負例の前記セットによる第２のキーワード認識を実行するステップと、負例の前記セット内の単語の信頼値を決定するステップと、前記少なくとも１つの候補単語の前記信頼値を、負例の前記セット内の少なくとも１つの単語の前記信頼値と比較するステップと、前記比較が第２の基準を満たす場合、前記少なくとも１つの候補単語を一致として受け入れるステップとを含む。

別の実施形態において、キーワードの負例を識別するためのシステムが説明されており、システムは、オーディオストリーム内のキーワードを検出するための手段と、オーディオストリーム内の前記キーワードの負例を検出するための手段と、前記検出されたキーワードと前記キーワードの検出された負例とからの情報を組み合わせるための手段と、検出された単語がキーワードの負例であるか否かを判定するための手段とを備える。

キーワードスポッタの一実施形態における基本構成要素を示す図である。人間による聴き取りに基づくキーワードの負例の識別のためのプロセスの一実施形態を示す流れ図である。キーワードの負例の提案を自動的に決定するためのプロセスの一実施形態を示す図である。キーワードの負例の使用のためのプロセスの一実施形態を示す図である。

本発明の原理の理解を促進する目的で、ここで、図面に示されている実施形態を参照し、特定の用語がこれを説明するために使用される。しかし、本発明の範囲の限定はそれによって意図されていないことが理解されよう。説明されている実施形態における任意の変更およびさらなる修正、ならびに本明細書に記載されている本発明の原理の任意のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように企図されている。

自動音声認識（ＡＳＲ）システムは、発話された単語を分析し、音声を音声単位のモデルに統計的に一致させる。これらのシステムの性能は、一般的に、精度、および、音声が認識され得る速度に基づいて評価される。多くの要因が、ＡＳＲシステムの精度に影響を及ぼし得る。これらの要因は、アクセント、明瞭さ、発話速度、発音、背景雑音などを含み得る。

ＡＳＲシステムの一例としては、キーワードスポッタが挙げられ得る。キーワードスポッタにおいては、特有の所定の単語および語句のみが、オーディオストリーム内で認識され得る。しかしながら、キーワードスポッタの性能は、検出および誤検知によって影響を受け得る。検出は、キーワードスポッタが、指定されたキーワードが発話されたときに、オーディオストリーム内でそのキーワードを確認すると、発生し得る。誤検知は、オーディオストリーム内で発話されなかった指定されたキーワードをキーワードスポッタが確認するときに発生するタイプの誤りであり得る。キーワードスポッタは、指定されたキーワードを、発話された別の単語または単語フラグメントと混同している場合がある。キーワードスポッタは、高検出率および低誤検知率での性能を有することが理想的である。キーワードのアンチワードまたは負例は、一般的に特定のキーワードと混同される単語として定義され得る。アンチワードの識別は、誤検知を低減することによって、特にキーワードスポッティングにおいて、一般的に任意の他の形態の音声認識において、音声認識システムを改善するのに使用され得る。

一実施形態において、ＡＳＲシステムにおいてキーワードスポッタによって識別される誤検知およびアンチワードの識別が対処される。たとえば、株式仲買業の分野に特有のＡＳＲシステムにおいて、キーワード「ｓｈａｒｅ」がシステムにおいて指定され得る。話者によって単語「ｃｈａｉｒ」が発話される結果として、システムが単語「ｓｈａｒｅ」を誤って認識する確率が高くなり得る。この誤りが予測通りに発生する場合、システムは、キーワード「ｓｈａｒｅ」と、「ｃｈａｉｒ」のような単語との間のこの混同に気づくようにすることができる。単語「ｃｈａｉｒ」の検出は、システムに、単語「ｓｈａｒｅ」と結果として仮定しないように示し得る。単語「ｃｈａｉｒ」は、単語「ｓｈａｒｅ」の負例、またはアンチワードになる。代替的に、ＡＳＲシステムが家具店の分野に特有である場合、単語「ｓｈａｒｅ」の発話は、キーワードスポッタに、キーワード「ｃｈａｉｒ」と誤って仮定させる場合がある。したがって、「ｓｈａｒｅ」は単語「ｃｈａｉｒ」のアンチワードになる。

別の実施形態において、キーワードスポッタの方法と類似の方法を使用して、任意のタイプの音声認識システムが調整されてもよい。たとえば、文法に基づく音声認識システムは、ユーザが語句「ｃａｌｌＤｉａｎｅ」を発話するときはいつでも、単語「Ｄｉａｌ」と誤って認識し得る。次いで、システムは、「Ｄｉａｎｅ」または別の類似の単語が発話されるときに単語「Ｄｉａｌ」がトリガされる確率の増大を表示し得る。したがって、「Ｄｉａｎｅ」は「Ｄｉａｌ」のアンチワードとして識別され得る。

正確なアンチワードの識別は、誤検知を低減するために少なくとも１つの実施形態に不可欠である。アンチワードを識別するのにいくつかの方法が使用され得る。１つのそのような方法は、大規模な実験からの結果の分析に基づいてアンチワードを提案するために専門家の人間の知識を使用してもよい。専門家は、単語が互いに誤解されていることが示されている既存の実験から示される結果に基づいて、混同する単語の人知によってリストを編集する。この方法は非常に効果的であると考えられるが、冗長で費用がかかり得、人間の主題専門家、分析すべき大量のデータ、および、このデータを処理してアンチワードのライブラリーを構築するための相当の時間の利用可能性を負う。

別の実施形態において、時間およびリソースの利用可能性に対する上記の必要性を緩和する自動アンチワード提案メカニズムが使用されてもよい。たとえば、いくつかの利用可能なメトリックを使用して所与のキーワードに近く一致する単語および語句について、指定された言語における大きい単語−発音辞書全体の検索が実行される。そのような混同しやすい単語の候補リストが、キーワードを指定する時点でそこから選ぶために、ユーザに提示され得る。

図１は、全体的に１００で示されるキーワードスポッタの一実施形態における基本構成要素を示す図である。キーワードスポッタ１００の基本構成要素は、ユーザデータ／キーワード１０５と、キーワードモデル１１０と、音響モデル１２０および発音辞書／予測器１２５を含んでもよい知識ソース１１５と、オーディオストリーム１３０と、フロントエンド特徴計算器１３５と、認識エンジン（パターンマッチング）１４０と、報告された結果１４５とを含んでもよい。

ユーザデータ／キーワード１０５は、システムのユーザによってユーザの嗜好に従って定義されてもよい。キーワードモデル１１０は、ユーザによって定義されるユーザデータ／キーワード１０５、および、知識ソース１１５に基づくキーワードモデル１１０への入力に基づいて構成されてもよい。そのような知識ソースは、音響モデル１２０および発音辞書／予測器１２５を含んでもよい。

音素は、音の基本単位であると想定され得る。そのような音素の所定のセットは、特定の言語のすべての音を完全に記述すると想定され得る。知識ソース１１５は、発音（音素）と、音声信号から抽出される一連の特徴ベクトルのような音響事象との間の関係の確率モデル、たとえば、隠れマルコフモデル−ガウス混合モデル（ＨＭＭ−ＧＭＭ）を記憶してもよい。隠れマルコフモデル（ＨＭＭ）は、観察されたオーディオ信号と観察されない音素との関係を符号化し得る。次いで、トレーニングプロセスが、転記されたトレーニングデータの大きい収集物にわたって所与の音素に対応するＨＭＭ状態によって放出される特徴ベクトルの統計的特性を研究し得る。音素の所与のＨＭＭ状態における特徴ベクトルの放出確率密度が、トレーニングプロセスにより学習され得る。このプロセスは、音響モデルトレーニングと称される場合もある。トレーニングは、トライフォンについても実行されてもよい。トライフォンの一例は、中心音に対応する発音表記シーケンス内の３つの音素のタプルであり得る。トライフォンのいくつかのＨＭＭ状態が、共通の放出確率密度関数を共有するためにともに結び付けられる。一般的に、放出確率密度関数は、ガウス混合モデル（ＧＭＭ）を使用してモデル化される。これらのＧＭＭおよびＨＭＭのセットが、音響モデルと称される。

知識ソース１１５は、大量のオーディオデータを分析することによって開発され得る。音響モデル１２０および発音辞書／予測器１２５は、たとえば、「ｈｅｌｌｏ」のような単語およびその単語を含む音素を調査することによって作成される。システム内のすべてのキーワードは、音素と呼ばれるその構成サブワード単位の統計モデルによって表され得る。標準音素辞書において定義されている「ｈｅｌｌｏ」の音素は、「ｈｈ」、「ｅｈ」、「ｌ」、および「ｏｗ」である。次いで、これらは一連のトライフォン、たとえば、「ｓｉｌ−ｈｈ＋ｅｈ」、「ｈｈ−ｅｈ＋ｌ」、「ｅｈ−ｌ＋ｏｗ」、および「ｌ−ｏｗ＋ｓｉｌ」に変換され、ここで、「ｓｉｌ」は無音音素である。最後に、前述のように、すべての可能性のあるトライフォンのＨＭＭ状態は、結び付けられた状態にマッピングされ得る。結び付けられた状態は、音響モデルトレーニングが実行され得る固有の状態である。これらのモデルは言語依存であり得る。多言語サポートも提供するために、複数の知識ソースが提供されてもよい。

音響モデル１２０は、特定の言語で発生する様々な音を統計的にモデル化することによって形成され得る。発音辞書１２５は、単語を一連の音素に分解する役割を担い得る。たとえば、ユーザから提示される単語は、特定の言語の書記素／アルファベットのような、人間による読解可能な形態にあり得る。しかしながら、パターンマッチングアルゴリズムは、キーワードの発音を表す一連の音素に依拠し得る。一連の音素が得られると、音響モデル内の音素の各々の対応する統計モデルが調査され得る。これらの統計モデルの連結が、対象の単語のキーワードスポッティングを実行するのに使用され得る。辞書に存在しない単語について、言語学的規則に基づく予測器が、発音を分解するのに使用されてもよい。

オーディオストリーム１３０はフロントエンド特徴計算器１３５に供給されてもよく、フロントエンド特徴計算器は、オーディオストリーム１３０をオーディオストリームの表現、または一連のスペクトル特徴に変換し得る。オーディオストリーム１３０は、ユーザによってシステムへと発話される単語から構成され得る。オーディオ分析は、スペクトル特徴、たとえば、メル周波数ケプストラム係数（ＭＦＣＣ）および／またはその変換を計算することによって実行されてもよい。

次いで、音素隠れマルコフモデル（ＨＭＭ）を連結することによって形成されてもよいキーワードモデル１１０とオーディオストリーム１３０からの信号との両方が、パターンマッチングのための認識エンジン１４０に供給され得る。たとえば、認識エンジン１４０のタスクは、語彙とも称される単語のセットをとること、および音響モデル１２０からの確率を使用して、提示されたオーディオストリーム１３０全体を検索して、そのオーディオ信号内で発話されている最も可能性の高い文を決定することであり得る。音声認識エンジンの一例としては、それに限定ではないが、キーワードスポッティングシステムが挙げられ得る。たとえば、特徴計算器１３５によって構築される多次元空間において、発話されている単語は、音響空間における軌跡を形成する一連のＭＦＣＣベクトルになり得る。ここで、キーワードスポッティングは、キーワードモデルを所与として軌跡を生成する確率を計算する問題になり得る。この演算は、キーワードモデルをオーディオ信号の最良のセグメントに整列させる結果として一致スコアをもたらす、動的プログラミングの公知の原理、特にビタビアルゴリズムを使用して達成されてもよい。一致スコアが大きい場合、キーワードスポッティングアルゴリズムは、キーワードが発話されたと推測し得、したがって、キーワードスポッティングされた事象を報告し得る。

次いで、結果としてもたらされた一連の単語が、リアルタイムで報告される、１４５。たとえば、報告は、キーワードが見出されたという信頼値を有する、オーディオストリーム内のキーワードの開始および終了時刻として提示されてもよい。基礎的な信頼値は、キーワードがどのように発話されるかの関数であってもよい。たとえば、単一の単語に複数の発音がある場合、キーワード「ｔｏｍａｔｏ」は、「ＴＯＷＭＡＡＴＯＷ」および「ＴＯＷＭＥＹＴＯＷ」として発話され得る。基礎的な信頼値は、単語がより一般的でない発音において発話されたとき、または単語があまり明瞭に発音されなかったときにはより低くなり得る。特定の認識の一部である発音の特有の異型も、報告において表示される。

図２に示されているように、人間による聴き取りに基づくキーワードの負例の識別のためのプロセス２００の一実施形態が提供される。プロセス２００は、システム１００（図１）において動作し得る。

動作２０５において、会話が収集される。たとえば、会話は、コールセンターまたは他のシステム発生源から収集されてもよい。任意の数の会話が収集されてもよい。一実施形態において、キーワードスポッティングは、これらの会話に対してそれらの収集時点においてリアルタイムで実行されてもよい。制御は動作２１０に移り、プロセス２００は継続する。

動作２１０において、キーワードスポッティングが実行される。たとえば、キーワードスポッティングは、指定されたキーワードが収集された会話内に出現するすべての事例を決定するために、検索可能データベースとして保存された会話に対して実行されてもよい。制御は動作２１５に移り、プロセス２００は継続する。

動作２１５において、会話および会話内に見出されたキーワードが検索可能データベースとして保存される。たとえば、録音機構成要素が会話を獲得し、キーワードについて検索され得る検索可能データベースとして会話を保存してもよい。制御は動作２２０に移り、プロセス２００は継続する。

動作２２０において、キーワードが、録音されたもの内でタグ付けされる。たとえば、会話は、キーワードが存在するとタグ付け（またはインデックス付け）される。タグは、キーワードがオーディオストリーム内でスポッティングされた位置に関する情報を表し得る。タグはまた、キーワードスポットにおけるシステムの信頼性、および、キーワードスポットに使用される実際の音素発音のような他の情報も含み得る。制御は動作２２５に移り、プロセス２００は継続する。

動作２２５において、大きいデータファイルが生成される。たとえば、システムは、スポッティングされたその特定のキーワードのすべての事例を含む会話の部分をつなぎ合わせてもよい。制御は動作２３０に移り、プロセス２００は継続する。

動作２３０において、結果が保存される。たとえば、キーワードスポッティングの結果が、元の会話およびキーワードスポットとともに保存される。制御は動作２３５に移り、プロセス２００は継続する。

動作２３５において、会話が調査される。たとえば、タグ付けされた会話が、人間による聴き取りによって調査される。次いで、人は、会話内で発生しているパターンの認識を開始するために、置かれているタグを使用して１つの事例から次の事例へと移り得る。それらの会話は、キーワードが誤検出される最も一般的な場所を決定するために、タグを使用して調査され得る。たとえば、単語「ｔｈｒｅｅｔｈｏｕｓａｎｄ」が発話されているとき、単語「ｂｒｅａｋｏｕｔ」が検出される場合がある。これは、システムが、音「ｔｈｒｅｅｔｈｏｕ」を、単語からの「ｂｒｅａｋｏｕ」と混同した結果であり得る。制御は次いで、動作２４０に移り、プロセス２００は継続する。

動作２４０において、分析者がシステムの混同を書き留める。たとえば、システムは、単語「ｔｈｒｅｅｔｈｏｕｓａｎｄ」および「ｂｒｅａｋｏｕｔ」を混同している場合がある。「ｔｈｒｅｅｔｈｏｕｓａｎｄ」は、検出されたキーワードの他の負例について、「ｂｒｅａｋｏｕｔ」などのアンチワードとして識別され、次いで、この混同が書き留められる。プロセス２００は終了する。

図３に示されているように、キーワードの負例の提案を自動的に決定するためのプロセス３００の一実施形態が提供される。プロセス３００は、図２のステップ２３５において動作し得る。

動作３０５において、単語の大きい語彙が選ばれる。たとえば、２００００のような多数の単語が選択されてもよい。しかしながら、選らばれる数が識別される適用分野における人々によって発話される言葉の大部分を包含するように、任意の数の単語が選ばれてもよい。聴き取るための分析者なしに、たとえば保険産業のような産業に特有に関連する言葉が対象とされ得る。識別される分野は、たとえば、保険産業または仲買店のような、任意の分野を含んでもよい。制御は動作３１０に移り、プロセス３００は継続する。

動作３１０において、キーワードが定義される。次いで、ギガバイト単位の情報に含まれている言葉が、１つの単語から別の単語への距離メトリックを決定するために識別される。制御は動作３１５に移り、プロセス３００は継続する。

動作３１５において、指定されたキーワードが分野特有の単語と比較される。たとえば、指定されたキーワードは、識別された分野特有の単語と比較されてもよく、次いで、そのキーワードに最も近い混同しやすい単語が、単語の大きい語彙から選択される。これは、音素距離測定または文法経路分析を使用して実行されてもよい。たとえば、近い一致が構成するものが、音韻的類似性に基づいて最小編集距離として定義されてもよい。このメトリックは、認識システムにおいて符号化される言語音のモデルに特有の情報によって増強される。

音素距離測定は、キーワードスポッティングタイプの用途において最も一般的に使用されているが、アンチワードを決定するために音素距離測定を使用することは、アンチワードセットを構築することに固有の手法である。キーワードスポッタは、オーディオのストリーム内で試行および識別するために聴き取らなければならない単語の所定のセットを有する。任意の単語があらゆる場所に起こり得る。文法に基づくシステムにおいて、キーワードスポッタは、所定の構文に言及する。文法は、単語「ｃａｌｌ」の発語の後に、７桁数のファーストネームまたはファーストネームとラストネームとの組合せのタイプが続く可能性があることとして定義され得る。これは、この状況においては単語「ｃａｌｌ」が数に先行しなければならないため、いつでも／どこでも桁が起こり得ると指定することよりも制約される。

文法は、どのタイプの文がシステムに発声され得るか、または、代替的にどのタイプの文をシステムが予測するかを制約する。同じ混同または音素距離分析が、文法に対して行われ、適用され得る。文法が定義されると、その文法によって解剖され得る文のセットが、網羅的に生成され得る。限られた数の文が得られる。次いで、システムは、対象のキーワードを使用して、そのキーワードがテキスト全体にわたって他の単語として類似の位置に発生するか否かを調査する。システムは、これらの他の単語がこのキーワードと混同され得るか、または、類似に聞こえ得るかを調査する。そうである場合、これらの単語は、この特定のキーワードのアンチワードセットの一部になる。

以下は、図３に関連する音素距離測定の説明のいくつかの例である。

例１：単語「ｃａｔ」および「ｂａｔ」内の音素距離
ＣＡＴ−＞ｋａｅｔ
ＢＡＴ−＞ｂａｅｔ
異なるすべての音素について１のスコアが結果としてもたらされ、完全な一致について０のスコアと想定される場合、１つの音素（ｋ＜−＞ｂ）のみが異なっているため、この例について、スコアは１である。

例２：異なる数の音素を有する単語「ｃａｔ」と「ｖａｃａｔｅ」との間の音素距離
ＣＡＴ−＞ｘｘｋａｅｔ
ＶＡＣＡＴＥ：−＞ｗａｈｋｅｙｔ
音素の挿入に１消費し、「ａｅ」と「ｅｙ」との間の距離が０．３であると想定される場合、単語間の合計距離は２．３である。「ａｅ」と「ｅｙ」との間の距離は、音響モデル１２０（図１）内の収集物として記憶されている統計モデル間の距離であり得る。

例３：異なる数の音素、ならびに、音素の挿入、欠失および置換を含む誤りを有する単語「ｃａｔ」と「ｆａｌｌ」との間の音素距離
ＣＡＴ：ｋａｅｔｘ
ＡＦＴ：ｘａｅｆｔ
音素の挿入に１消費し、欠失に２消費し、音素「ｔ」と「ｆ」との間の距離が０．７であると想定される場合、２つの単語間の合計距離は３．７である。このスコアは、音素の１つの挿入、１つの欠失および１つの置換からなる。

別の実施形態において、システムが互いに類似している単語を見出すために所与の言語における大きい単語−発音辞書全体を自動的に検索する方法が利用され得る。自動提案を利用する代わりにアンチワードを手作業で入力することを好むユーザに対して、複数の手動入力モードが可能にされ得る。モードは、たとえば、単語および／またはそれらの音素発音の通常のスペリングを含み得る。

動作３２０において、キーワードアンチワードセットが決定される。たとえば、アンチワードを決定するのにボキャブラリに関する分野の知識が利用される。それらの近い一致の単語が、次いで、キーワードのアンチワードになる。キーワードアンチワードセットの選択に人間が介入することはない。プロセス３００は終了する。

図４に示されているように、キーワードスポッティング中にキーワードの負例を使用するためのプロセス４００の一実施形態が提示される。プロセス４００は、図１の認識エンジン１４０内のパターンマッチングにおいて動作し得る。

動作４０５において、音声データが入力される。たとえば、フロントエンド分析を含み得る音声データが、キーワード検索モジュールに入力される。制御は動作４１０に移り、プロセス４００は継続する。

動作４１０において、検索が実行される。たとえば、音声データ内のキーワードおよびアンチワードのパターンについて検索が実行されてもよい。そのようなパターンは、キーワードおよびキーワードの負例について、図１のキーワードモデル１１０内で決定されたものであり得る。制御は動作４１５に移り、プロセス４００は継続する。

動作４１５において、キーワードおよびアンチワードについて確率または信頼値が計算される。たとえば、特定の音声ストリーム内のキーワード、アンチワードなどが見出された確率が計算される。制御は動作４２０に移り、プロセス４００は継続する。

動作４２０において、最良のアンチワードが決定される。たとえば、キーワードに対する最良のアンチワードは、決定された各単語の確率に基づき得る。任意の数のアンチワードが検索の結果として調査されてもよく、図４に示す例には限定されない。

動作４２５において、キーワードの確率が閾値よりも大きいか否か、および、最良のアンチワードの確率が閾値よりも大きいか否か、および、アンチワードとの重なりが閾値よりも大きいか否かが判定される。キーワードの確率が閾値よりも大きい、最良のアンチワードの確率が閾値よりも大きい、アンチワードとの重なりが閾値よりも大きいと決定される場合、制御は動作４３０に移り、プロセス４００は継続する。それらの条件のうちの少なくとも１つが満たされないと決定される場合、制御は動作４３５に移り、プロセス４００は継続する。

動作４２５における判定は任意の適切な様式で行われてもよい。たとえば、キーワードの確率およびアンチワードの確率が、それらのそれぞれの閾値と比較される。キーワードの確率が、そのキーワードのユーザ定義の閾値よりも大きく、最良のアンチワードの確率が、経験的に定義されたアンチワード閾値よりも良好であり、キーワードと最良のアンチワードとが、オーディオストリーム内の所定の百分率の時間よりも長く重なる場合、キーワードは拒絶されている。キーワードのアンチワードの確率が大きくない場合、キーワードは受け入れられている。たとえば、アンチワード閾値は０．５に設定され得、拒絶が起こるためのキーワードとアンチワードとの時間的重なりは、５０パーセントである。確率閾値数はユーザ指定である。したがって、（ｐ（ＫＷ）≧ｔｈｒｅｓｈｏｌｄ_ＫＷ）および（ｐ（ＢｅｓｔＡＷ）≧ｔｈｒｅｓｈｏｌｄ_ＡＷ）および（ｏｖｅｒｌａｐ（ＫＷ，ＢｅｓｔＡＷ）≧ｔｈｒｅｓｈｏｌｄ_ＯＶ）であり、式中、ｐは確率であり、ＫＷはキーワードであり、ＡＷはアンチワードである。誤検知に関して短い単語が問題になる場合、より高い数が閾値として使用されてもよい。一実施形態において、たとえば、１の値が、より厳密な音響一致があることを示し得る。０に近い値は、厳密でないまたは不正確な一致があることを示し得る。

動作４３０においてキーワードが拒絶され、プロセス４００は終了する。

動作４３５においてキーワードが受け入れられ、プロセス４００は終了する。

キーワードとアンチワードとを比較するためのより洗練された方式が使用され得、上述した例に限定されない。キーワードの負例は、スペリングを使用したアンチワード検索により指定することができる。文字列または音素スペリングが定義として指定および／または使用され得る。人間による聴き取りと自動化との組合せも使用され得る。自動的に決定または提案されたアンチワードの語彙も、タグが決定されている人間による聴き取りから決定されたアンチワードに加えられてもよい。このように、一般的にまたは頻繁に発生するアンチワードのみがシステム内に含められる。自動的方法が、分野特有の大きいデータの語彙から導出される統計に基づいて、いずれの混同されやすい単語が「一般的」であるかを判定する。人間の聴き手が、聴き取り方法によってアンチワードを決定し、アンチワードのリストを構成する。人間の聴き手によって編集されたリスト内の単語は、自動化システムによって「一般的」として認証される。

本発明は図面および前記の説明において詳細に図示および説明されたが、これは本質的に例示であり限定ではないとして考えられるべきであり、好ましい実施形態のみが図示および説明されていること、ならびに、本明細書においておよび／または添付の特許請求の範囲によって記載されているような本発明の精神の中に入るすべての均等物、変更、および修正が保護されるべきであることを理解されたい。

Claims

音声認識システムにおいて単語の負例を使用するための方法であって、
ａ．単語のセットを定義するステップと、
ｂ．前記単語の負例のセットを識別するステップと、
ｃ．単語の前記セットおよび負例の前記セットに対してキーワード認識を実行するステップと、
ｄ．単語の前記セット内の単語の信頼値を決定するステップと、
ｅ．負例の前記セット内の単語の信頼値を決定するステップと、
ｆ．単語の前記セットから、単語の前記セット内の単語の前記信頼値は第１の基準を満たす、少なくとも１つの候補単語を識別するステップと、
ｇ．前記少なくとも１つの候補単語の前記信頼値を、単語の負例の前記セット内の少なくとも１つの単語の前記信頼値と比較するステップと、
ｈ．前記比較が第２の基準を満たす場合に、前記少なくとも１つの候補単語を一致として受け入れるステップと
を含む、方法。
ステップ（ａ）は、
ａ．１）録音された会話をシステム発生源から収集するステップと、
ａ．２）前記会話を検索可能データベースとして保存するステップと、
ａ．３）検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
ａ．４）検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
ａ．５）検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
ａ．６）前記識別されたキーワードを調査するステップと、
ａ．７）キーワードの負例を検出するステップと、
ａ．８）キーワードの前記負例を識別するステップと
をさらに含む、請求項１に記載の方法。
ステップ（ａ．５）は、
ａ．５．１）前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項２に記載の方法。
ステップ（ａ．５．１）は、
ａ．５．１．１）前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項３に記載の方法。
ステップ（ａ．５）は、
ａ．５．１）前記システムの混同を書き留めるステップをさらに含む、請求項２に記載の方法。
ステップ（ａ）は、
ａ．１）単語の大きい語彙を選択するステップと、
ａ．２）キーワードの数を定義するステップと、
ａ．３）前記キーワードの間の距離メトリックを決定するステップと、
ａ．４）指定されたキーワードを単語の前記語彙と比較するステップと、
ａ．５）少なくとも１つの識別される分野特有の単語に最も近い少なくとも１つの混同しやすい単語を単語の前記語彙から選択するステップと
をさらに含む、請求項１に記載の方法。
ステップ（ａ．１）は、
ａ．１．１）単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項６に記載の方法。
ステップ（ａ．４）は、
ａ．４．１）音素距離測定を実行するステップをさらに含む、請求項６に記載の方法。
ステップ（ａ．４）は、
ａ．４．１）文法経路分析を実行するステップをさらに含む、請求項６に記載の方法。
ステップ（ａ．３）は、
ａ．３．１）類似した発音を有する単語について、所与の言語における単語−発音辞書を検索するステップをさらに含む、請求項６に記載の方法。
ステップ（ｂ）は、
ｂ．１）キーワードの負例を手作業で入力するステップをさらに含む、請求項１に記載の方法。
ステップ（ａ）は、
ａ．１）音声データを入力するステップと、
ａ．２）検索を実行するステップと、
ａ．３）キーワードおよび前記キーワードの少なくとも１つの負例の信頼値を計算するステップと、
ａ．４）前記キーワードの最良の負例を決定するステップと、
ａ．５）信頼値が基準を満たすか否かを判定するステップと、
ａ．６）前記信頼値が前記基準を満たさない場合、前記キーワードを拒絶するステップと
をさらに含む、請求項１に記載の方法。
ステップ（ａ．５）は、
ａ．５．１）前記キーワードの前記信頼値が前記基準を満たすか否かを判定するステップと、
ａ．５．２）前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
ａ．５．３）前記キーワードの負例との重なりの信頼値が基準を満たすか否かを判定するステップと
をさらに含む、請求項１２に記載の方法。
ステップ（ａ．５．３）は、
ａ．５．３．１）前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項１３に記載の方法。
音声認識システムにおいて単語の負例を使用するための方法であって、
ａ．単語のセットを定義するステップと、
ｂ．単語の前記セットによる第１のキーワード認識を実行するステップと、
ｃ．単語の前記セット内の単語の信頼値を決定するステップと、
ｄ．単語の前記セットから、単語の前記セット内の単語の前記信頼値は第１の基準を満たす、少なくとも１つの候補単語を識別するステップと、
ｅ．前記少なくとも１つの候補単語の負例のセットを選択するステップと、
ｆ．負例の前記セットによる第２のキーワード認識を実行するステップと、
ｇ．負例の前記セット内の単語の信頼値を決定するステップと、
ｈ．前記少なくとも１つの候補単語の前記信頼値を、負例の前記セット内の少なくとも１つの単語の前記信頼値と比較するステップと、
ｉ．前記比較が第２の基準を満たす場合に、前記少なくとも１つの候補単語を一致として受け入れるステップと
を含む、方法。
ステップ（ａ）は、
ａ．１）録音された会話をシステム発生源から収集するステップと、
ａ．２）前記会話を検索可能データベースとして保存するステップと、
ａ．３）検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
ａ．４）検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
ａ．５）検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
ａ．６）前記識別されたキーワードを調査するステップと、
ａ．７）キーワードの負例を検出するステップと、
ａ．８）キーワードの前記負例を識別するステップと
をさらに含む、請求項１５に記載の方法。
ステップ（ａ．５）は、
ａ．５．１）前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項１６に記載の方法。
ａ．５．１．１）前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項１７に記載の方法。
ａ．５．１．１．１）前記システムの混同を書き留めるステップをさらに含む、請求項１８に記載の方法。
ステップ（ａ）は、
ａ．１）単語の大きい語彙を選択するステップと、
ａ．２）キーワードの数を定義するステップと、
ａ．３）前記キーワードの間の距離メトリックを決定するステップと、
ａ．４）指定されたキーワードを単語の前記語彙と比較するステップと、
ａ．５）少なくとも１つの識別される分野特有の単語に最も近い少なくとも１つの混同しやすい単語を単語の前記語彙から選択するステップと
をさらに含む、請求項１５に記載の方法。
ステップ（ａ．１）は、
ａ．１．１）単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項２０に記載の方法。
ステップ（ａ．４）は、
ａ．４．１）音素距離測定を実行するステップをさらに含む、請求項２０に記載の方法。
ステップ（ａ．４）は、
ａ．４．１）文法経路分析を実行するステップをさらに含む、請求項２０に記載の方法。
ステップ（ａ．３）は、
ａ．３．１）類似した発音を有する単語について、所与の言語における単語−発音辞書全体を検索するステップをさらに含む、請求項２０に記載の方法。
ステップ（ｅ）は、
ｅ．１）キーワードの負例を手作業で入力するステップをさらに含む、請求項１５に記載の方法。
ステップ（ａ）は、
ａ．１）音声データを入力するステップと、
ａ．２）検索を実行するステップと、
ａ．３）キーワードおよび前記キーワードの少なくとも１つの負例の信頼値を計算するステップと、
ａ．４）前記キーワードの最良の負例を決定するステップと、
ａ．５）信頼値が基準を満たすか否かを判定するステップと、
ａ．６）前記信頼値が基準を満たす場合、前記キーワードを拒絶するステップと
をさらに含む、請求項１５に記載の方法。
ステップ（ａ．５）は、
ａ．５．１）前記キーワードの前記信頼値が基準を満たすか否かを判定するステップと、
ａ．５．２）前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
ａ．５．３）前記キーワードの負例との重なりの前記信頼値が基準を満たすか否かを判定するステップと
をさらに含む、請求項２６に記載の方法。
ステップ（ａ．５．３）は、
ａ．５．３．１）前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項２７に記載の方法。
ステップ（ｉ）は、
ｉ．１）前記受け入れを実行するステップであって、前記第２の基準は、前記候補単語の認識の、負例の前記セット内の前記単語の認識に対する時間的近似性を含む、実行するステップをさらに含む、請求項１５に記載の方法。
キーワードの負例を識別するためのシステムであって、
ａ．オーディオストリーム内のキーワードを検出するための手段と、
ｂ．オーディオストリーム内の前記キーワードの負例を検出するための手段と、
ｃ．前記検出されたキーワードと、前記キーワードの検出された負例とからの情報を組み合わせるための手段と、
ｄ．検出された単語がキーワードの負例であるか否かを判定するための手段と
を備える、システム。