JP5150747B2

JP5150747B2 - 音声認識エラー予測値としての文法適合度評価のための方法およびシステム

Info

Publication number: JP5150747B2
Application number: JP2011109538A
Authority: JP
Inventors: エー．ヘルナンデス−アブレーゴグスタボ
Original assignee: Sony Interactive Entertainment Inc; Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-05-14
Filing date: 2011-05-16
Publication date: 2013-02-27
Anticipated expiration: 2031-05-16
Also published as: KR101262812B1; US20140039896A1; US20110282667A1; EP2387031B1; EP2387031A1; CN102243871B; US8560318B2; JP2011242775A; CN102243871A; US8818813B2; KR20110126058A

Description

本発明は、一般に、音声認識システムの方法に関し、より詳細には、音声認識システムに使用する、文法の適合度を評価するための方法および装置に関する。

システムのユーザのために、電子デバイスとインタフェースするための堅固で有効な技術を実装することは、システムの設計者とメーカーにとって考慮すべき重要な事項である。電子デバイスの音声制御操作は、システムのユーザに、電子デバイスを制御し、これと対話するための望ましいインタフェースを提供することができる場合が多い。例えば、電子デバイスの音声制御操作は、ユーザが同時に他の作業を実行できるようにしたり、ある種の動作環境において有効なものとなりうる。また、電子デバイスのハンズフリー操作は、身体的な制約や他の特別な要求のあるユーザにとって望ましいものとなりうる。

電子デバイスのハンズフリー操作は、さまざまな音声起動電子デバイスによって実装することができる。音声起動電子デバイスを使用することにより、従来の入力装置の利用が不便であるか危険となることがある状況でも、ユーザが電子デバイスとインタフェースすることが可能となり、有利である。しかし、音声認識システムの効果的な実装は、システム設計者にとって大きな難題を突きつけるものとなる。

音声認識システムの分野においては、音声認識システムが音声ストリームを受け取り、この音声ストリームがフィルタリングされて、音声であるサウンドセグメントが抽出および分離される。次に、音声認識エンジンが、定義済みの発音辞書、文法認識ネットワークおよび音響モデルと比較することにより、音声サウンドセグメントを分析する。

副語彙音声認識システムは、通常、音声波形をモデリングするより基本的な単位から、単語および文章を生成する方法を備えている。例えば、音素モデルに基づく音声認識システムでは、単語を、その単語の発音表記から生成するためのルックアップテーブルとして、発音辞書が使用されうる。また、単語から文章を生成するために、単語の組み合せの明示的な規則が与えられる。文章生成のための規則は「認識文法」とみなされる。

認識文法の複雑さは、認識対象のアプリケーションの性質によって変わる。例えば、単純なコマンドベースのアプリケーションでは分離した単語の文法を必要とするが、対話ベースのアプリケーションでは、より複雑な文章の生成が必要となる。アプリケーションの複雑さを問わず、アプリケーション開発者は、完全性（すなわち、アプリケーションに必要な全ての文章を文法がカバーしていること）を保証し、かつ過剰生成を回避する（すなわち、アプリケーションが理解できない予想外の文章の生成を、文法が許さないことを保証する）ために、文法を慎重に指定し、文法の精度を上げる必要がある。この作業は、経験豊富なアプリケーション開発者にとっても、特に時間がかかることがある。

開発者が文法の構築に多大な労力を費やしているにも関わらず、音声認識システムがエラーを発生しうる領域が文法に含まれる可能性が高い。この理由は、異なる意味を有し、異なる動作に関連する異なる単語が音響的に似ているため、あるいは、特定の単語の組み合せが、異なる意味または動作を表す別の単語の組み合せに非常に近いためである。このために、音声認識システムが単語同士を区別することが困難となり、認識エラーが発生する。

このため、アプリケーション開発者は、文法の混同が生じ得る発生源、つまり潜在的発生源を考慮に入れることに取り組んでおり、文法の交換可能な位置に、混同されやすい単語を配置するのを回避することによって、混同の潜在的発生源を除去しようとしている。しかし、文法内の可能な単語の組み合せが多すぎ、開発者が、手作業で十分に詳細かつ確実に調べることができない場合には、この作業は非常に困難となりうる。このため、文法内の交換可能な位置に、混同されやすい単語が存在することを特定するための、文法を自動的に評価する体系的な方法を備えることが望ましい。

一実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法が開示される。前記方法は、文法構造内から複数のステートメントを受け取るための操作を有する。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記方法は、前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって幾つかのアライメント領域を特定するための操作も有する。整合させたそれぞれの単語セットがアライメント領域である。前記方法は、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するための操作も更に有する。各混同可能性ゾーンは、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。前記特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に聴取可能な状態で音声認識システムによって処理される際の前記単語間の混同確率の尺度を決定するための操作が実行される。また、前記方法は、前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するための操作も有する。

別の実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのシステムが開示される。前記システムは、文法構造内から複数のステートメントを受け取るために定義された入力モジュールを有する。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記システムは、前記入力モジュールが受け取った前記複数のステートメントにわたって幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュールも有する。アライメント領域は、前記複数のステートメントにわたって整合させた同一の単語セットに対応している。また、前記システムは、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュールも有する。各混同可能性ゾーンは、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記単語レベルアライメントモジュールによって特定された前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。また、前記システムは、前記混同ゾーン特定モジュールによって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析するために定義された混同確率分析モジュールも有する。前記単語の音声的発音の前記分析は、前記演算イベント中に聴取できる状態で音声認識システムによって処理される際の、前記所定の混同可能性ゾーン内の前記単語間の混同確率の尺度の決定を与える。

別の実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのプログラム命令を含むコンピュータ可読媒体が開示される。プログラム命令は、文法構造内から複数のステートメントを受け取るためものである。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって幾つかのアライメント領域を特定するためのプログラム命令も提供される。整合させたそれぞれの単語セットがアライメント領域である。また、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するためのプログラム命令も提供される。各混同可能性ゾーンは、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。また、前記演算イベント中に聴取できる状態で音声認識システムによって処理される際の、各混同可能性ゾーン内の単語の音声的発音を解析して、各混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するためのプログラム命令も提供される。

本発明の他の態様は、例示のために本発明を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。

本発明の一実施形態による入力テキストファイルの例を示す。本発明の一実施形態による、ステートメントを指定するための代替表現または変数表現を使用して定義された、図１Ａの入力テキストファイルを示す。本発明の一実施形態による、図１Ａ，１Ｂの入力テキストファイルに対応するＧｎＤファイルを示す。本発明の一実施形態による、図２のＧｎＤファイルに定義されているステートメントのうちの２つのステートメントの、文法を通る経路ネットワークを示す。本発明の一実施形態による文法適合度評価（ＧＦＥ）プロセスの動作図を示す。本発明の一実施形態による、図２の入力文法の例にＧＦＥを実行することによって生成される文法適合度レポートからの抜粋例を示す。本発明の一実施形態による、ＧｎＤファイルの構成と、その対応する文法適合度評価とのプロセスフローチャートを示す。本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントのセットに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法のフローチャートを示す。本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントのセットに対して、文法構造内の混同可能性を評価するためのシステムのブロック図を示す。

以下の説明では、本発明を完全に理解できるように、具体的な詳細を数多く記載する。しかし、これらの詳細な内容の一部または全てを用いなくとも本発明を実施しうることは当業者にとって自明である。場合によっては、本発明を不必要にあいまいにすることのないよう、公知の処理操作は詳述していない。

一実施形態においては、ここに開示の方法および装置は、ソニープレイステーション（登録商標）ボイスレスポンス（ＰＳＶＲ）ツール内に実装される。ＰＳＶＲツールは、アプリケーション（すなわち、コンピュータプログラム）の開発者が、アプリケーションの実行中に、聴取可能な音声入力を、アプリケーションがリアルタイムで認識して処理可能なフォーマットに処理できるように定義されている。しかし、他の実施形態においては、ここに開示の方法およびシステムがＰＳＶＲツール以外の場合に実装されてもよいことを理解すべきである。このため、ここに開示の方法および装置は、ＰＳＶＲツール内での使用に限定されると解釈されるべきではない。

音声認識とは、人間に、コンピュータに向って話させ、話した内容をコンピュータに認識させるプロセスである。音声応答ソフトウェアは、音声認識中に当該プロセスに関する一定の情報を提供するために定義されており、アプリケーションは、この情報を使用して、話す顔のアニメーションまたはユーザの音声の視覚的表現など、アプリケーションのユーザのリアルタイムのフィードバックまたは表示を与えることが可能となる。音声認識は、アプリケーションに対して、限られた語彙、すなわち辞書と、文法とを指定することによって簡略化することができる。文法は、語彙単語の有効な組み合せを集めたものである。言い換えると、文法とは、アプリケーションのための有効なステートメント（テキストの文章／句）の組み合わせである。文法は、単語およびその発音を含むアプリケーションの語彙の表現と、アプリケーションに対して有効なステートメントの組み合わせを形成するための単語間のリンクとを含む文法および辞書（grammar-and-dictionary：ＧｎＤ）ファイルに定義することができる。ＧｎＤファイル中の有効な語彙を通る経路は、文法ネットワークと呼ばれる。

一実施形態では、ＰＳＶＲなどの音声認識システムは、アプリケーションで使用される有効なステートメントを指定しているテキストファイルを、入力として受け取ることができる。この入力テキストファイルは、アプリケーションが適切に応答するために、音声認識システムによる認識が必要なステートメントに基づいて、アプリケーション開発者によって作成されうる。図１Ａは、本発明の一実施形態による入力テキストファイルの例を示す。図１Ａに示すように、入力テキストファイルは、ステートメントの単純なリストを有してもよい。あるいは、入力テキストファイルは、ステートメントを指定するための代替表現および変数表現を使用することもできる。一実施形態では、入力テキストファイル内で、代替の単語／句が「｜」等の記号によって指定されてもよい。また、一実施形態では、入力テキストファイル内で単語／句を表すために変数ラベルを使用してもよい。例えば、単語／句を変数ラベルに割り当てるために、＄｛変数ラベル｝＝｛単語／句｝の表記を使用することができる。また、一実施形態では、入力テキストファイルは、単語／句を結合グループ化するために括弧表記を使用することもできる。図１Ｂは、本発明の一実施形態による、ステートメントを指定するための代替表現または変数表現を使用して定義された、図１Ａの入力テキストファイルを示す。

図２は、本発明の一実施形態による、図１Ａ，１Ｂの入力テキストファイルに対応するＧｎＤファイルを示す。ＧｎＤファイルは、入力テキストファイル内のステートメントの文法を定義する。ＧｎＤファイルには、文法内の単語セット、単語セットの発音、および有効なステートメントを作成するための単語セット間のリンクが含まれる。図２の例では、それぞれの単語セットが引用符（””）で囲まれている。単語セットが集められてグループ化されており、可能なステートメントを定義するために、（＝＝＞記号によって）グループ間のリンクが指定されている。グループ間のリンクは、ＧｎＤファイル内の文法的に取りうる経路を定義する。例えば、図３は、本発明の一実施形態による、図２のＧｎＤファイルに定義されているステートメントのうちの２つのステートメントの、文法による経路ネットワークを示す。

音声認識プロセス中に、文法と辞書とが連携して文法ネットワークを提供する。音声認識ツールは、認識プロセス中にこの文法ネットワークを辿る。文法ネットワークがより複雑かつ／または混同を招くものになるのに伴い、音声認識プロセスがより困難かつ／または不正確となる。アプリケーションの実行中に正しい音声認識結果が得られることを保証するために、ＧｎＤファイルの文法ネットワークに関する混同を可能な限り減らすかなくすことが望ましい。これを行なうには、ＧｎＤファイル内で、潜在的に混同を招く、あるいは混同を招く可能性のある文法の部分を特定することが必要である。混同を招く可能性がある文法の部分の特定および測定は、「文法適合度評価」または「文法品質評価」と呼ばれる。

自動音声認識では、認識仮説は、音響信号が、文法または言語モデルによって許される経路を辿ると蓄積されるスコアセットの結果である。副語彙音声認識（音素など、単語より短い単位に基づく音声認識）では、文法によって許されるこれらの経路は、単語および文章を表す音声のシーケンスによって形成される。非常に「近い」経路の組み合わせは、経路同士に明確かつ明瞭な違いを有する経路の組み合わせよりも混同されやすい。図３に示す経路は、文法的に近い経路の例を示す。より詳細には、図３の２本の経路は、１つの単語の違いによって分岐しており、経路間の違いを作り出している単語は、似た音素（すなわち似た音声音）を有する。

文法内で、ある経路と別の経路との近さは、これら経路間の音声的差違の量、位置および大きさに応じて変わりうる。つまり、文法内の経路間の認識距離は、経路の構成の仕方と、各経路の要素間の聴覚的類似性との関数である。文法内の経路間の認識距離を測定することにより、相互に矛盾し、音声認識エラーを引き起こす可能性のある音声シーケンス間の「近さ」を評価することが可能である。文法適合度評価とは、アプリケーションの文法内の全てのステートメント（および基礎となる音声経路）に対する認識距離評価である。この文法適合度評価は、アプリケーションの文法設計プロセスにおけるフィードバックメカニズムの一部であり、アプリケーションの実行中の音声認識エラーの量および頻度を低減させることを意図するものである。

図４は、本発明の一実施形態による文法適合度評価（ＧＦＥ）プロセスの動作図を示す。ＧＦＥプロセスでは、入力文法４０１が生成され、ＧＦＥモジュール４０３への入力として提供される。一実施形態では、入力文法４０１が、図２に例示したようなＧｎＤファイルの形で提供される。別の実施形態では、入力文法４０１のフォーマットがＧＦＥモジュール４０３によって理解され、かつ、入力文法４０１が、音声認識システム（例えばＰＳＶＲシステム）によって認識されるステートメントを作成するための単語セットの有効な組み合わせを指定していれば、入力文法４０１が他のフォーマットで提供されてもよい。

ＧＦＥモジュール４０３によって入力文法４０１を受け取ると、入力文法４０１から全ての有効なステートメントを抽出するために、ステートメント拡張プロセス４０５が実行される。言い換えると、ステートメント拡張プロセス４０５は、入力文法４０１によって許される全てのステートメントを明示的に生成する。定義上、文法とは、所定のアプリケーションについて有効なステートメントの組合わせのシンセティックな表現、つまり総合的表現である。ステートメント拡張プロセス４０５は、各ステートメント内の構成の分析を可能にし、ステートメント間の認識距離の推定を可能にするために実行される。一見異なるが、その完全な文脈を考慮に入れると音声上似ている単語間またはステートメント間で発生しうる混同可能性が見落されないように、入力文法４０１が、その有効なステートメントの組み合わせになるように完全に拡張される点を理解すべきである。ステートメント拡張プロセス４０５から得られた有効なステートメントの組み合わせは、その後行なうＧＦＥの基礎となる。

ステートメント中の各単語を、入力文法４０１の辞書の対応する発音で置換することにより、単語が音声シーケンスに変換されうる。単語のなかには、複数の発音を有するものもある。このため、１つの一単語のステートメントから、幾つかの音声シーケンスが生成されることもある。所定のステートメント中の単語の性質および発音の数によっては、各単語を、対応する発音で置換する操作により、複数の音声シーケンスが生成されることがある。ステートメントの音声シーケンスは、音声信号に含まれる音素を判別するために、自動音声レコグナイザが音声入力との比較に使用するのと同じ音声シーケンスである点に注意すべきである。

ステートメント中の１以上の単語に対して、複数の音声シーケンスが可能な場合には、これらの複数の音声シーケンスがツリー構造に編成されうる。一実施形態では、ツリー構造は、異なる音声シーケンスの検索に、より多くの構造を与えるためにも使用されるが、簡略化かつ明確化のために、本明細書の説明では、全ての音声シーケンスが明示的に表現されているとする。このため、ステートメント拡張プロセス４０３において、所定のステートメント中の１以上の単語が複数の発音を有する場合、その所定のステートメントの複数のインスタンスが得られ、その所定のステートメントの各インスタンスが、その所定のステートメントの一意な音声的発音に対応していることがある。

どの文章が混同を招く可能性があるかを決定するには、ＧＦＥでは不十分なことがある。また、このような混同の理由と、混同を回避するためにアクションを取るべき場合に、そのアクションを適用すべき位置とを決定することも必要である。このために、ＧＦＥは、単語レベルアライメントプロセス４０７と、音声的類似性評価４０９とを備える。単語レベルアライメントプロセス４０７は、ステートメント拡張プロセス４０５から得られた有効なステートメントの組み合わせに対して実行される。単語レベルアライメントプロセス４０７は、入力文法４０１内で、潜在的に混同されやすいステートメントを特定する。音声的類似性評価４０９は、単語レベルアライメントプロセス４０７によって特定された混同が発生しやすいステートメント内で、潜在的混同の発生源を特定する。

このため、単語レベルアライメントプロセス４０７は、混同検出操作とみなすことができ、音声的類似性評価４０９は、混同検出操作によって明らかにされた混同されやすい領域を詳しく調べる操作とみなすことができる。以下、図４は、音声的類似性評価４０９が、単語レベルアライメントプロセス４０７に依存している（すなわち、単語レベルアライメントプロセス４０７内に視覚的に配置されている）ことを示す。その後行なう音声的類似性評価４０９のためのフォーカスメカニズムとしての単語レベルアライメントプロセス４０７を実装することにより、それぞれのステートメントが多くの音素を含む多数の音声シーケンスを、全ステートメントにわたって比較するのに要する計算の負担が低減される点を理解すべきである。

単語レベルアライメントプロセス４０７は、入力文法４０１から抽出された各ステートメントと、入力文法４０１から抽出された全ての他のステートメントとの比較を含む。単語レベルアライメントプロセス４０７は、２つの異なるシンボルのシーケンス、すなわち、２つの異なるステートメントを比較し、事前に定義された何らかの距離尺度に従ってこれらをマッチングする。一実施形態では、比較されるシンボルは、比較されるステートメント中の単語セットに対応している。一実施形態では、ステートメントの比較に使用される単語セットは、入力文法４０１内のグループに定義されている単語セットである。この場合、単語セットに１以上の単語が含まれてもよいことを理解すべきである。単語セットが複数の単語を含む場合、これらの複数の単語は、入力文法４０１内で常に一緒に現れる。

一実施形態では、単語レベルアライメントプロセス４０７は、動的プログラミングプロシージャとして実装される。この実施形態では、単語レベルアライメントプロセス４０７は、あるステートメントの１つのシンボル（すなわち、単語セット）を、別のステートメントのシンボル（すなわち、単語セット）で置換するためのコストによって駆動される。ステートメントの構造によっては、２つ以上のステートメントにわたって単語セット（シンボル）を整合させるやり方が複数存在することがある。一実施形態では、単語レベルアライメントプロセス４０７は、ステートメントの「最適な」整合を決定する。この最適なステートメントの整合とは、ステートメントの整合において総置換コストが最も低いものである。

一実施形態では、単語レベルアライメントプロセス４０７は、入力文法４０１内の全ステートメントに対して、一度に２ステートメントずつ実行される。所定のステートメントの対に対して単語レベルアライメントプロセス４０７を実行すると、その所定のステートメントの対のアライメントシーケンスが得られる。このアライメントシーケンスは、対象の２つのステートメントの要素（単語セット）を結合させ、ステートメントの要素間で見つかった一致の種類を報告する。アライメントシーケンスは、ＨＩＴ（一致する要素）、ＳＵＢＳ（要素の置換）、ＩＮＳ（要素の挿入）およびＤＥＬ（要素の削除）の単位として考えることができる。この場合も、単語レベルアライメントプロセス４０７においては、単語レベルのアライメントシーケンスのみが考慮される。単語レベルのアライメントシーケンスは、２つの文章中の単語セットが等しいエリアかあるいは異なるエリアかを示す。

単語レベルアライメントプロセス４０７と、得られる単語レベルのアライメントシーケンスとを、以下の例で示す。

第１のステートメント：＿ＢＥＧＩＮ＿ＹｏｕＬｉｋｅｔｏＤｒｅｓｓｕｐ＿ＥＮＤ＿
第２のステートメント：＿ＢＥＧＩＮ＿ＹｏｕＬｏｖｅｔｏＤｒｅｓｓｕｐ＿ＥＮＤ＿
得られる単語レベルのアライメントシーケンス：Ｙｏｕ：ＨＩＴ，Ｌｏｖｅｔｏ→Ｌｉｋｅｔｏ：ＳＵＢＳ，Ｄｒｅｓｓｕｐ：ＨＩＴ．

上の例で得られる単語レベルのアライメントシーケンスは、アライメント領域および混同可能性ゾーンとして考えることができる。詳細には、各ＨＩＴ（一致する要素）はアライメント領域を表し、ＨＩＴ以外の単位（すなわち、ＳＵＢＳ、ＩＮＳ、ＤＥＬ）は混同可能性ゾーンを表す。上のアライメントシーケンスは、３つのエリアに分割されうる。第１のエリアは、各ステートメントに単語セット「Ｙｏｕ」を含むアライメント領域である。第２のエリアは、第１のステートメントに単語セット「Ｌｉｋｅ」を含み、第２のステートメントに単語セット「Ｌｏｖｅ」を含む混同可能性ゾーンである。第３のエリアは、各ステートメントに単語セット「Ｄｒｅｓｓｕｐ」を含むアライメント領域である。

２つのステートメント間の距離は、ステートメント中の単語の整合のさせ方の関数である。したがって、２つの同一のステートメントの分離距離はゼロであり、得られるアライメントシーケンスには１つのアライメント領域しか含まれない。また、全く異なる２つのステートメントにはアライメント領域が一切含まれず、得られるアライメントシーケンスには１つの長い混同可能性ゾーンが含まれる。最適化されている文法は、近いステートメント経路が含まれることを可能であれば回避し、音声認識に使用される場合にエラーを回避するのに十分に離れたステートメント経路を含む必要がある。

音声認識の目的には、２つの同一の単語ステートメントは、認識エラーを発生させることはない。同一であるため、両者間に混同が存在しない。このため、入力文法４０１において認識エラーが発生する可能性のある位置を決定するプロセス、すなわちＧＦＥは、ステートメント間でのアライメント領域の特定に限定されない。そうではなく、ＧＦＥは、入力文法４０１内のステートメントが近すぎるが、同一でないかどうかの決定と、近すぎる場合に、ステートメント間の混同可能性ゾーンの単語が、音声認識エラーを引き起こす可能性がどの程度高いかの決定とに関与する。このため、ステートメントが混同可能性ゾーン内でどの程度近いかの尺度を提供するために、単語レベルアライメントプロセス４０７においてステートメント間で特定された混同可能性ゾーンに音声的類似性評価４０９が実行され、これらのステートメントが音声認識エラーを引き起こす可能性が高いかどうかの判断を通知する。

音声的類似性評価４０９では、単語レベルアライメントプロセス４０７から得られた各混同可能性ゾーンが、混同可能性ゾーン内の単語を、対応する音声表現で置換することによって、音声シーケンスに変換される。各混同可能性ゾーンに対して、音声的類似性評価４０９は、１）混同可能性ゾーン内の各ステートメント中の単語を対応する音素に拡張し、２）混同可能性ゾーン内のステートメント間の最適な音素の整合を決定し、３）最適な音素の整合に基づいて、混同可能性ゾーン内のそれぞれのステートメントにおいて、単語、すなわちその音素間の混同可能性の尺度を計算する。

単語レベルアライメントプロセス４０７と同様に、一実施形態では、音声的類似性評価４０９の音素レベルの整合は、動的プログラミングプロシージャとして実装される。この実施形態では、音素レベルの整合は、（混同可能性ゾーン内の）あるステートメントのある音素を、（同じ混同可能性ゾーン内の）他のステートメントの音素で置換するためのコストによって駆動される。音素レベル整の合は、混同可能性ゾーン内の音素の「最適な」整合を決定する。この最適な音素の整合とは、混同可能性ゾーン内の音素の整合において総置換コストが最も低いものである。

上に記載した上記の例を参照して、第１のステートメントに単語セット「Ｌｉｋｅ」を含み、第２のステートメントに単語セット「Ｌｏｖｅ」を含む混同可能性ゾーンを考える。この混同可能性ゾーン内の２つのステートメントの単語の音素拡張は以下の通りである。
第１のステートメント／第１の混同可能性ゾーン：ｌａｙｋ＿＿＿ｔｕｗ
第２のステートメント／第１の混同可能性ゾーン：ｌａｈｖ＿＿＿ｔｕｗ
混同可能性ゾーン内のステートメント間の最適な音素の整合は、得られる以下の音素レベルのアライメントシーケンスとして考えることができる。
ｌ：ＨＩＴ，ａｈ→ａｙ：ＳＵＢＳ，ｖ→ｋ：ＳＵＢＳ，ｔ：ＨＩＴ，ｕｗ：ＨＩＴ

一実施形態では、２つの音声的整合間の混同確率の尺度（すなわち距離）は、数式１に従って計算した加重音声整合精度（ＷＰＡ）値として表現される。

数式１からわかるように、加重音声整合精度（ＷＰＡ）は、１００の最大値（精度が完全であることは、音素のシーケンスが同一であることを意味する）を上限とする尺度である。また、音素の挿入の数（＃ＩＮＳ）が一致する音素の数（＃ＨＩＴ）よりも大きい場合、加重音声整合精度（ＷＰＡ）の下限は負をとりうる。

数式１において、

は、分析が行なわれる位置の単語シーケンスの文字長に基づいて、加重音声整合精度（ＷＰＡ）を重み付けするための倍率である。

パラメータＬ１は、分析における第１のステートメント全体の文字長である。パラメータＬ２は、分析における第２のステートメント全体の文字長である。パラメータｌ１は、第１のステートメント中の対象の混同可能性ゾーン内の文字長である。パラメータｌ２は、第２のステートメント中の対象の混同可能性ゾーン内の文字長である。一実施形態では、文字長には、ステートメント領域の単語内のテキスト文字と、ステートメント領域内の単語間のスペースとの数が含まれる。また、ステートメント拡張プロセス４０５が、各ステートメントを、＿ＢＥＧＩＮ＿および＿ＥＮＤ＿などの開始フラグと終了フラグとで囲む一実施形態では、開始フラグと終了フラグ間のスペースと、これらのフラグにステートメントテキスト方向に隣接するスペースとも文字長に含まれる。

音声的類似性評価４０９に係わっている少なくとも２つのステートメントが常に存在するため、それぞれの文字長パラメータの最大値（ｍａｘ（ｌ１，ｌ２）およびｍａｘ（Ｌ１，Ｌ２））を使用して倍率が計算される。倍率は、ステートメント全体のサイズに対する混同可能性ゾーンのサイズに基づいて、加重音声整合精度（ＷＰＡ）に重み付けする役割を果たす点を理解すべきである。ステートメントのサイズに対して混同可能性ゾーンのサイズが小さくなると、倍率が大きくなる。このため、ステートメントのサイズに対して混同可能性ゾーンのサイズが小さくなると、加重音声整合精度（ＷＰＡ）値も大きくなる。また、高い加重音声整合精度（ＷＰＡ）値は、混同可能性ゾーン内のステートメント部分間の類似性が高いこと、すなわち、近さが高いこと／距離が短いことに対応している点を理解すべきである。

上に記載した上記の例を参照すると、音素レベルのアライメントシーケンス（ｌ：ＨＩＴ，ａｈ→ａｙ：ＳＵＢＳ，ｖ→ｋ：ＳＵＢＳ，ｔ：ＨＩＴ，ｕｗ：ＨＩＴ）により、加重音声整合精度（ＷＰＡ）計算に、＃ＨＩＴ＝３、＃ＩＮＳ＝０、＃ＳＵＢＳ＝２、＃ＤＥＬ＝０、ｍａｘ（ｌ１，ｌ２）＝７、ｍａｘ（Ｌ１，Ｌ２）＝３４の各パラメータが与えられる。対応する加重音声整合精度（ＷＰＡ）を計算すると４７．６５となる。

より高い類似性があり、音声認識プロセス中にエラーを生じる可能性の高い混同可能性ゾーンにフォーカスするために、加重音声整合精度（ＷＰＡ）値にしきい値を用いた操作が実行されうる。入力文法４０１における全体的な混同されやすさを低減させ、これにより音声認識エラーのリスクを低減させるために、加重音声整合精度（ＷＰＡ）値が、予め定義されたしきい値よりも高い混同可能性ゾーンが、入力文法４０１内で変更または抑制する候補として選択的に報告されうる。

別の実施形態では、混同可能性ゾーン内の２つの音声的整合間の混同確率、すなわち距離の尺度を評価するために、数式１によるものとは異なる方式が使用されてもよい。しかし、どのような異なる技術であっても、音声認識プロセス中に混同またはエラーを生じる可能性に関して、文法内の混同可能性ゾーンを相対的に分類可能にするため、特定された混同可能性ゾーン内のステートメント部分の類似性の定量的評価を与える必要がある。

所定の入力文法４０１において、単語レベルアライメントプロセス４０７によって特定された混同可能性ゾーンが、一意的なステートメントの対に関連付けられないこともある点に留意すべきである。言い換えると、その単語レベルの内容を特徴として有する所定の混同可能性ゾーンが、入力文法４０１内の異なるステートメントの対に複数現れることがある。このため、入力文法４０１内の異なるステートメントの単語レベルの整合から、同じ混同可能性ゾーンが得られ、したがって、同じ音声的整合が得られることがある。同一の混同可能性ゾーンの分析は、繰り返し行なう必要はない。繰り返し分析を行なう代わりに、このような繰り返し現れる混同可能性ゾーンに対する加重音声整合精度（ＷＰＡ）値を記憶しておき、この混同可能性ゾーンが入力文法４０１内の任意のステートメントの対に現れるたびに、この値が取得されてもよい。

単語同士が似ているからといって、これらの単語が、必ずしも音声認識プロセス中に混同を引き起こすとは限らない点を理解すべきである。似た単語は、入力文法４０１内で似た文脈に現れるか、あるいは同じ分岐点に現れる場合、混同を引き起こしうる。しかし、似た単語が、入力文法４０１内で十分に異なる文脈に現れる場合、あるいは異なる分岐点に現れる場合、これらの似た単語が音声認識プロセス中に混同を引き起こさないこともある。例えば、以下の２つのステートメントについて考える。
第１のステートメント：＿ＢＥＧＩＮ＿Ｂｏｙ，Ｉａｍａｓｍａｒｔｒｏｂｏｔ＿ＥＮＤ＿
第２のステートメント：＿ＢＥＧＩＮ＿Ｉａｍａｓｍａｒｔｔｏｙ＿ＥＮＤ＿
得られる単語レベルのアライメントシーケンス：Ｂｏｙ，：ＤＥＬ，Ｉ：ＨＩＴ，ａｍ：ＨＩＴ，ａ：ＨＩＴ，ｓｍａｒｔ：ＨＩＴ，ｒｏｂｏｔ→ｔｏｙ：ＳＵＢＳ．

この例では、単語Ｂｏｙと単語ｔｏｙとは、似ているが、文法内で異なる文脈に現れ、同じ分岐点に現れないため、混同を引き起こさない。この例では、２つの混同可能性ゾーンが存在する（アライメントシーケンスの最初に１つ、アライメントシーケンスの終わりに１つ存在）。この結果から、ｒｏｂｏｔとｔｏｙが文法内で似た文脈に現れ、共通の語幹を共有するため、ｒｏｂｏｔとｔｏｙとの間の音声的レベルの比較が行なわれる。

上で説明したように、一実施形態では、音声的類似性評価４０９は、混同可能性ゾーン内の異なるステートメント中の音素が、同一であるかまたは異なるか否かに基づいて実行されうる。別の実施形態では、音声的類似性評価４０９が、比較される音素の性質に関して、更なる情報を考察する。例えば、音素／ｍ／と音素／ｎ／間の混同可能性には、／ｍ／と／ｉ／間の混同可能性よりも高い重みが与えられうる。高い重みは、より混同を招きやすい音素（例えば、２つの単語を唯一識別するものとなりうる似た音声音素）に付与されうる。例えば、単語「ｎｏｒｍ」と単語「ｍｏｒｎ」の対における音素／ｍ／と音素／ｎ／が挙げられる。

図４に戻ると、音声的類似性評価４０９を実行するための入力リソースとして、音声的距離マトリックス４１１が提供されうる。一実施形態では、音声的距離マトリックス４１１は、混同マトリックス（認識後距離尺度）に基づくか、あるいは、各音素の聴覚モデル間の相対距離（認識前距離尺度）に基づく。混同マトリックスの内容は、生の音声認識テストの実施に用いられたデータおよび認識設定によって決まる。聴覚モデルに基づく音素距離尺度は、生の音声認識の前に計算され、単語間の対象の音声的距離の精度を更に上げるために、シンボルベースの音素比較の代わりに用いられる。

更に図４を参照すると、ＧＦＥの結果が、文法適合度レポート４１３で通知されうる。文法適合度レポート４１３は、入力文法４０１のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率尺度、すなわち、計算で求めた、その加重音声整合精度（ＷＰＡ）値とを通知するためのフォーマットになっている。文法適合度レポート４１３の混同可能性ゾーンの識別子は、加重音声整合精度（ＷＰＡ）でソートすることができる。図５は、本発明の一実施形態による、図２の入力文法の例にＧＦＥを実行することによって生成される文法適合度レポートからの抜粋例を示す。図５の先頭のＬｉｋｅとＬｏｖｅの対のように、混同可能性ゾーン内の単語セットの一部であるため、認識エラーを発生させやすいとされたいくつかの単語が文法適合度レポートに存在することがある。

高い加重音声整合精度（ＷＰＡ）値は、対応する混同可能性ゾーン内の単語が異なる単語であるが、これらの発音が互いに非常に近いことを示し、音声認識エラーの可能性が高いことを示す。このため、加重音声精度（ＷＰＡ）値の高い混同可能性ゾーンが、文法適合度レポート４１３の最初に記載されている。文法適合度レポート４１３を調べる人が、文法内に潜在的な音声認識エラーの発生源を、より容易に見つけることができるように、混同可能性ゾーンの文脈も、文法適合度レポート４１３に包含されている。

ここに開示の文法適合度評価（ＧＦＥ）によって生成される文法適合度結果は、音声認識エラーを低減させるために音声認識文法の修正に使用することができる。一実施形態では、文法開発者の監督なしで自動的に文法を修正するために、文法適合度結果が使用されうる。別の実施形態では、手動で文法を修正するために文法適合度結果が使用される。より詳細には、図４を参照すると、文法適合度レポート４１３は、入力文法４０１の手動または自動修正プロセス４１５で使用するために提供される。手動または自動修正プロセス４１５は、文法適合度レポート４１３に基づいて、入力文法４０１内のステートメントの混同しやすい部分が除去または抑制されている最適化された文法４１７を生成する。

ここに記載の文法適合度評価は、音声信号（可聴音／音声を表すデジタルデータ）を使用せずに実行される点を理解し、留意すべきである。また、ここに記載の文法適合度評価が文法の構造に基づいて実行される点も理解し、留意すべきである。文法適合度評価により、実際の音声認識実験を行なう必要なく、文法の編集と修正を文法生成プロセスに近づけることが可能となるという点で、上記の点は有利である。更に、文法適合度評価は、ＧｎＤファイルを生成するプロセスにおいてフィードバックメカニズムとして使用することができるという点も理解すべきである。

図６は、本発明の一実施形態による、ＧｎＤファイルの構成と、その対応する文法適合度評価とのプロセスフローチャートを示す。プレーンテキストファイル６０５（例えば、図１Ａ〜１Ｂ）またはＧｎＤファイル６０３（例えば、図２）を、ｐｓｖｒＧｎＤ実行可能ファイル６０１として表される文法構成／評価ツールへの入力として供給することにより、このプロセスが開始されうる。プレーンテキストファイル６０５およびＧｎＤファイル６０３は、それぞれ、文法内のステートメントを指定するために定義される。

発音生成をサポートするために、補助ファイルが文法構成／評価ツール６０１に提供される。詳細には、１つ以上の書記素−音素（Ｇ２Ｐ）データファイル６０７が、文法構成／評価ツール６０１に提供される。Ｇ２Ｐデータファイル６０７は、単語の書記素（文字）を、その発音の音素と対応付けている。これを用いて、文法構成／評価ツール６０１が、単語のスペルに基づいて単語の発音を生成することが可能となる。また、１つ以上の発音辞書６０９も、文法構成／評価ツール６０１に提供される。発音辞書６０９には、Ｇ２Ｐデータファイル６０７を使用して処理するのが困難な多用される単語など、特定の単語の組み合わせの発音が含まれる。

文法構成／評価ツール６０１は、テキストサンプルから、ステートメントを構成する単語間の関係を自動抽出することによって、文法生成を実行する。文法構成／評価ツール６０１は、プレーンテキストのステートメントか、あるいは変数宣言および代替の単語によって文章の総合的表現を可能にする特別にフォーマットされたステートメントを、入力としてとりうる。また、文法構成／評価ツール６０１は、発音辞書６０９を参照するか、あるいは、Ｇ２Ｐデータファイル６０７を使用して書記素−音素変換を実行することによって、発音生成を実行することもできる。Ｇ２Ｐ変換プロセスにおいて、文法構成／評価ツール６０１は、単語を入力としてとり、標的言語でのその単語の発音を自動的に生成する。

文法および発音の生成が終了すると、文法構成／評価ツール６０１は文法と発音の両方を一緒に編集し、結果をＧｎＤファイル６１１にフォーマットする。この出力に、他の情報（例えば遷移確率および言語の識別子）が含まれてもよい。また、文法構成／評価ツール６０１は、図４について上で説明した文法適合度評価を実行するためにも定義されている。文法適合度評価の結果は、適合度レポート６１３に書き込まれる。適合度レポート６１３内の情報は、元の入力テキストファイル６０５または新しく生成されたＧｎＤファイル６１１を編集／調整するために使用されうる。次に、編集／調整によって文法の適合度が改善されたかどうかを確認するためにこのプロセスが繰り返されうる。文法および辞書が音声認識プロセスで使用するのに適したものとなるまで、このプロセスが繰り返し実行されうる。

図７は、本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法のフローチャートを示す。この方法は、文法構造内から複数のステートメントを受け取るための操作７０１を有する。複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。各単語セットには、１以上の単語が含まれうる。また、本方法には、複数のステートメントを単語セット単位で整合させることによって、複数のステートメントにわたって幾つかのアライメント領域を特定するための操作７０３も含まれる。整合させたそれぞれの単語セットがアライメント領域である。一実施形態では、操作７０３には、複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものの決定も含まれる。

一実施形態では、複数のステートメントにわたって特定されたアライメント領域の数がゼロである場合、コンピュータ実装方法内の複数のステートメントの処理が終了される。また、一実施形態では、複数のステートメントが互いに同一の場合、コンピュータ実装方法内の複数のステートメントの処理が終了される。

更に本方法は、複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するための操作７０５も有する。各混同可能性ゾーンは、複数のステートメントのうちの２つ以上のステートメントに含まれ、幾つかのアライメント領域外の対応する位置にある単語によって定義される。特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、単語間の混同確率の尺度を決定するための操作７０７が実行される。

一実施形態では、操作７０７では、混同可能性ゾーン内の複数のステートメントの単語の音素にわたって音素レベルの整合が実行される。音素は、言語の音声体系の別個の最小単位である。一例では、音素レベルの整合の実行で、複数のステートメントにわたって混同可能性ゾーン内の単語の同一の音素の全体的な整合に関して最善のものの決定が行なわれる。また、本実施形態において、操作７０７は、音素レベルの整合に基づいて混同可能性ゾーンに対する音声精度値の計算を含む。音声精度値は、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、混同可能性ゾーン内の複数のステートメントの単語間の混同確率の尺度に対応している。

また、本方法は、複数のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するための操作７０９を有する。一実施形態では、混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみがレポートで特定されるように、レポートを生成する際に混同確率のしきい値が適用される。図７のコンピュータ実装方法は、聴覚的入力なしで実行される点を理解すべきである。

図８は、本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのシステム８００のブロック図を示す。システム８００は、文法構造内から複数のステートメントを受け取るために定義された入力モジュール８０１を有する。複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。各単語セットには、１以上の単語が含まれる。

また、システム８００は、入力モジュール８０１が受け取った複数のステートメントにわたって幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュール８０３も有する。アライメント領域は、複数のステートメントにわたって整合させた同一の単語セットに対応している。一実施形態では、単語レベルアライメントモジュール８０３は、複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するために定義される。

また、システム８００は、複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュール８０５も有する。各混同可能性ゾーンは、複数のステートメントのうちの２つ以上のステートメントに含まれ、単語レベルアライメントモジュール８０３によって特定された幾つかのアライメント領域外の対応する位置にある単語によって定義される。

また、システム８００は、混同ゾーン特定モジュール８０５によって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析し、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、この所定の混同可能性ゾーン内の単語間の混同確率の尺度を決定するために定義された混同確率分析モジュール８０７も有する。一実施形態では、混同確率分析モジュール８０７は、この所定の混同可能性ゾーン内の複数のステートメントの単語の音素にわたって音素レベルの整合を実行するために定義される。この実施形態の一例では、混同確率分析モジュール８０７は、音素レベルの整合の実行時に、複数のステートメントにわたるこの所定の混同可能性ゾーン内で単語の同一の音素で全体的な整合に関して最善のものを決定するために定義される。

また、この実施形態では、混同確率分析モジュール８０７は、音素レベルの整合に基づいて音声精度値を計算するためにも定義される。音声精度値は、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、この所定の混同可能性ゾーン内の単語間の混同確率の尺度に対応している。

また、システム８００は、複数のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するために定義された出力モジュール８０９も有する。一実施形態では、出力モジュール８０９は、混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみがレポートで特定されるように、レポートを生成するための混同確率のしきい値を適用するために定義される。

本発明の実施形態は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなどの各種のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、ネットワークを介してリンクされているリモートのデバイスによってタスクが実行される。

上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されているデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作は、物理量の物理的操作を必要とする。本発明の一部を構成している、本明細書に記載した操作はいずれも、有用な機械的操作である。本発明は、これらの操作を実行するデバイスまたは装置にも関する。装置は、特殊用途コンピュータなど、必要な目的のために特別に構成されてもよい。コンピュータが特殊用途コンピュータとして定義される場合、特殊用途の一部ではない他の処理、プログラムの実行またはルーチンも実行できる一方で、特殊用途のためにも動作することもできる。あるいは、操作が、汎用コンピュータによって処理され、汎用コンピュータが、コンピュータメモリ、キャッシュに記憶されるか、あるいはネットワークを介して取得される１つ以上のコンピュータプログラムによって選択的に起動または構成されてもよい。データがネットワークを介して取得される場合、データがネットワーク（例えば、コンピューティングリソースのクラウド）上の他のコンピュータによって処理されてもよい。

本発明の実施形態は、データをある状態から別の状態に変換するマシンとして定義されてもよい。変換されたデータは、記憶装置に保存され、その後プロセッサによって操作されてもよい。このように、プロセッサは、データをある形態から別の形態に変換する。更に、本方法が、ネットワークを介して接続されうる１台以上のマシンまたはプロセッサによって処理されてもよい。各マシンは、データをある状態から別の状態に変換したり、データを処理したり、データをストレージに保存したり、ネットワークを介してデータを送信したり、結果を表示したり、あるいは、結果を別のマシンに通信してもよい。

また、本発明は、コンピュータ可読媒体上のコンピュータ可読コードとして実施されてもよい。コンピュータ可読媒体は、コンピュータシステムによって後から読み取ることができるデータを記憶可能なデータ記憶デバイスであれば、どのようなものであってもよい。コンピュータ可読媒体の例には、ハードディスク、ネットワーク接続記憶装置（ＮＡＳ）、リードオンリーメモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、コンピュータ可読媒体は、コンピュータ可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されたコンピュータ可読有形媒体を介して分散されてもよい。

方法の操作を特定の順序で記載したが、同時に実行される操作の処理が所期どおりに実行される限り、操作と操作の間に他の管理操作が実行されても、操作がわずかに時間をずらして実行されるように操作が調整されても、操作がシステム内で分散されて、処理に係るさまざまな間隔で処理操作を行なうことができるようにしてもよい。

上記に、本発明を明確に理解できるように多少詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。

Claims

コンピュータが実行する、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するための方法であって、
文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るステップであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには１つ以上の語彙単語が含まれるステップと、
前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって、それぞれが整合させた単語セットである幾つかのアライメント領域を特定するステップと、
前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するステップと、
前記特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の前記単語間の混同確率の尺度を決定するステップと、
前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するステップと、を有する方法。
前記方法は聴覚的入力なしで実行される請求項１に記載の方法。
各単語セットは１以上の単語を含む請求項１に記載の方法。
前記複数のステートメントにわたって前記幾つかのアライメント領域を特定するステップは、前記複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するステップを有する請求項１に記載の方法。
前記混同可能性ゾーン内の前記単語の音声的発音を分析するステップは、
前記混同可能性ゾーン内の前記複数のステートメントの前記単語の音素にわたって音素レベルの整合を実行するステップと、
前記音素レベルの整合に基づいて前記混同可能性ゾーンに対する音声精度値を計算するステップと、を有し、前記音声精度値は、前記演算イベント中に前記音声認識システムによって聴取できる状態で処理される際の、前記混同可能性ゾーン内の前記複数ステートメントの前記単語間の前記混同確率の尺度に対応している請求項１に記載の方法。
音素は、言語の音声体系の別個の最小単位である請求項５に記載の方法。
前記音素レベルの整合を実行するステップは、前記複数のステートメントにわたって前記混同可能性ゾーン内の前記単語の同一の音素の全体的な整合に関して最善のものを決定するステップを有する請求項６に記載の方法。
前記混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみが前記レポートで特定されるように、前記レポートを生成する際に前記混同確率のしきい値を適用するステップを更に有する請求項１に記載の方法。
前記複数のステートメントにわたって特定されたアライメント領域の数がゼロである場合、前記方法内で前記複数のステートメントの処理を終了するステップを更に有する請求項１に記載の方法。
前記複数のステートメントが互いに同一の場合、前記方法内で前記複数のステートメントの処理を終了するステップを更に有する請求項１に記載の方法。
演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の潜在的な混同を評価するためのシステムであって、
文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るために定義された入力モジュールであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには１つ以上の語彙単語が含まれるモジュールと、
前記入力モジュールが受け取った前記複数のステートメントにわたって、前記複数のステートメントにわたって整合させた同一の単語セットに対応する幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュールと、
前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記単語レベルアライメントモジュールによって特定された前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュールと、
前記混同ゾーン特定モジュールによって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析し、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の、前記所定の混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するために定義された混同確率分析モジュールと、を有するシステム。
各単語セットは１以上の単語を含む請求項１１に記載のシステム。
前記単語レベルアライメントモジュールは、前記複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するために定義されている請求項１１に記載のシステム。
前記混同確率分析モジュールは、前記所定の混同可能性ゾーン内の前記複数のステートメントの前記単語の音素にわたって音素レベルの整合を実行し、
前記音素レベルの整合に基づいて、音声精度値を計算するために定義されており、前記音声精度値は、前記演算イベント中に前記音声認識システムによって聴取できる状態で処理される際の、前記所定の混同可能性ゾーン内の前記単語間の前記混同確率の尺度に対応している請求項１１に記載のシステム。
音素は、言語の音声体系の別個の最小単位である請求項１４に記載のシステム。
前記混同確率分析モジュールは、前記音素レベルの整合の実行時に、前記複数のステートメントにわたる前記所定の混同可能性ゾーン内で前記単語の同一の音素で全体的な整合に関して最善のものを決定するために定義されている請求項１５に記載のシステム。
前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するために定義された出力モジュールを更に有する請求項１１に記載のシステム。
前記出力モジュールは、前記混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみが前記レポートで特定されるように、前記レポートを生成するための前記混同確率のしきい値を適用するために定義されている請求項１７に記載のシステム。
コンピュータに、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の潜在的な混同を評価させるためのプログラム命令が記録されたコンピュータ可読媒体であって、
文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るためのステップであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには１つ以上の語彙単語が含まれるものであるステップと、
前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって、それぞれが整合させた単語セットである幾つかのアライメント領域を特定するステップと、
前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの２つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するためのステップと、
各混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の、各混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するためのステップとをコンピュータに実行させるためのプログラム命令が記録されたコンピュータ可読媒体。
前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するステップをコンピュータに実行させるためのプログラム命令を更に有する請求項１９に記載のコンピュータ可読媒体。