JP5150747B2 - 音声認識エラー予測値としての文法適合度評価のための方法およびシステム - Google Patents

音声認識エラー予測値としての文法適合度評価のための方法およびシステム Download PDF

Info

Publication number
JP5150747B2
JP5150747B2 JP2011109538A JP2011109538A JP5150747B2 JP 5150747 B2 JP5150747 B2 JP 5150747B2 JP 2011109538 A JP2011109538 A JP 2011109538A JP 2011109538 A JP2011109538 A JP 2011109538A JP 5150747 B2 JP5150747 B2 JP 5150747B2
Authority
JP
Japan
Prior art keywords
confusion
statements
words
word
zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011109538A
Other languages
English (en)
Other versions
JP2011242775A (ja
Inventor
エー. ヘルナンデス−アブレーゴ グスタボ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2011242775A publication Critical patent/JP2011242775A/ja
Application granted granted Critical
Publication of JP5150747B2 publication Critical patent/JP5150747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Description

本発明は、一般に、音声認識システムの方法に関し、より詳細には、音声認識システムに使用する、文法の適合度を評価するための方法および装置に関する。
システムのユーザのために、電子デバイスとインタフェースするための堅固で有効な技術を実装することは、システムの設計者とメーカーにとって考慮すべき重要な事項である。電子デバイスの音声制御操作は、システムのユーザに、電子デバイスを制御し、これと対話するための望ましいインタフェースを提供することができる場合が多い。例えば、電子デバイスの音声制御操作は、ユーザが同時に他の作業を実行できるようにしたり、ある種の動作環境において有効なものとなりうる。また、電子デバイスのハンズフリー操作は、身体的な制約や他の特別な要求のあるユーザにとって望ましいものとなりうる。
電子デバイスのハンズフリー操作は、さまざまな音声起動電子デバイスによって実装することができる。音声起動電子デバイスを使用することにより、従来の入力装置の利用が不便であるか危険となることがある状況でも、ユーザが電子デバイスとインタフェースすることが可能となり、有利である。しかし、音声認識システムの効果的な実装は、システム設計者にとって大きな難題を突きつけるものとなる。
音声認識システムの分野においては、音声認識システムが音声ストリームを受け取り、この音声ストリームがフィルタリングされて、音声であるサウンドセグメントが抽出および分離される。次に、音声認識エンジンが、定義済みの発音辞書、文法認識ネットワークおよび音響モデルと比較することにより、音声サウンドセグメントを分析する。
副語彙音声認識システムは、通常、音声波形をモデリングするより基本的な単位から、単語および文章を生成する方法を備えている。例えば、音素モデルに基づく音声認識システムでは、単語を、その単語の発音表記から生成するためのルックアップテーブルとして、発音辞書が使用されうる。また、単語から文章を生成するために、単語の組み合せの明示的な規則が与えられる。文章生成のための規則は「認識文法」とみなされる。
認識文法の複雑さは、認識対象のアプリケーションの性質によって変わる。例えば、単純なコマンドベースのアプリケーションでは分離した単語の文法を必要とするが、対話ベースのアプリケーションでは、より複雑な文章の生成が必要となる。アプリケーションの複雑さを問わず、アプリケーション開発者は、完全性(すなわち、アプリケーションに必要な全ての文章を文法がカバーしていること)を保証し、かつ過剰生成を回避する(すなわち、アプリケーションが理解できない予想外の文章の生成を、文法が許さないことを保証する)ために、文法を慎重に指定し、文法の精度を上げる必要がある。この作業は、経験豊富なアプリケーション開発者にとっても、特に時間がかかることがある。
開発者が文法の構築に多大な労力を費やしているにも関わらず、音声認識システムがエラーを発生しうる領域が文法に含まれる可能性が高い。この理由は、異なる意味を有し、異なる動作に関連する異なる単語が音響的に似ているため、あるいは、特定の単語の組み合せが、異なる意味または動作を表す別の単語の組み合せに非常に近いためである。このために、音声認識システムが単語同士を区別することが困難となり、認識エラーが発生する。
このため、アプリケーション開発者は、文法の混同が生じ得る発生源、つまり潜在的発生源を考慮に入れることに取り組んでおり、文法の交換可能な位置に、混同されやすい単語を配置するのを回避することによって、混同の潜在的発生源を除去しようとしている。しかし、文法内の可能な単語の組み合せが多すぎ、開発者が、手作業で十分に詳細かつ確実に調べることができない場合には、この作業は非常に困難となりうる。このため、文法内の交換可能な位置に、混同されやすい単語が存在することを特定するための、文法を自動的に評価する体系的な方法を備えることが望ましい。
一実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法が開示される。前記方法は、文法構造内から複数のステートメントを受け取るための操作を有する。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記方法は、前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって幾つかのアライメント領域を特定するための操作も有する。整合させたそれぞれの単語セットがアライメント領域である。前記方法は、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するための操作も更に有する。各混同可能性ゾーンは、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。前記特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に聴取可能な状態で音声認識システムによって処理される際の前記単語間の混同確率の尺度を決定するための操作が実行される。また、前記方法は、前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するための操作も有する。
別の実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのシステムが開示される。前記システムは、文法構造内から複数のステートメントを受け取るために定義された入力モジュールを有する。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記システムは、前記入力モジュールが受け取った前記複数のステートメントにわたって幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュールも有する。アライメント領域は、前記複数のステートメントにわたって整合させた同一の単語セットに対応している。また、前記システムは、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュールも有する。各混同可能性ゾーンは、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記単語レベルアライメントモジュールによって特定された前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。また、前記システムは、前記混同ゾーン特定モジュールによって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析するために定義された混同確率分析モジュールも有する。前記単語の音声的発音の前記分析は、前記演算イベント中に聴取できる状態で音声認識システムによって処理される際の、前記所定の混同可能性ゾーン内の前記単語間の混同確率の尺度の決定を与える。
別の実施形態では、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのプログラム命令を含むコンピュータ可読媒体が開示される。プログラム命令は、文法構造内から複数のステートメントを受け取るためものである。前記複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。また、前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって幾つかのアライメント領域を特定するためのプログラム命令も提供される。整合させたそれぞれの単語セットがアライメント領域である。また、前記複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するためのプログラム命令も提供される。各混同可能性ゾーンは、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される。また、前記演算イベント中に聴取できる状態で音声認識システムによって処理される際の、各混同可能性ゾーン内の単語の音声的発音を解析して、各混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するためのプログラム命令も提供される。
本発明の他の態様は、例示のために本発明を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
本発明の一実施形態による入力テキストファイルの例を示す。 本発明の一実施形態による、ステートメントを指定するための代替表現または変数表現を使用して定義された、図1Aの入力テキストファイルを示す。 本発明の一実施形態による、図1A,1Bの入力テキストファイルに対応するGnDファイルを示す。 本発明の一実施形態による、図2のGnDファイルに定義されているステートメントのうちの2つのステートメントの、文法を通る経路ネットワークを示す。 本発明の一実施形態による文法適合度評価(GFE)プロセスの動作図を示す。 本発明の一実施形態による、図2の入力文法の例にGFEを実行することによって生成される文法適合度レポートからの抜粋例を示す。 本発明の一実施形態による、GnDファイルの構成と、その対応する文法適合度評価とのプロセスフローチャートを示す。 本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントのセットに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法のフローチャートを示す。 本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントのセットに対して、文法構造内の混同可能性を評価するためのシステムのブロック図を示す。
以下の説明では、本発明を完全に理解できるように、具体的な詳細を数多く記載する。しかし、これらの詳細な内容の一部または全てを用いなくとも本発明を実施しうることは当業者にとって自明である。場合によっては、本発明を不必要にあいまいにすることのないよう、公知の処理操作は詳述していない。
一実施形態においては、ここに開示の方法および装置は、ソニープレイステーション(登録商標)ボイスレスポンス(PSVR)ツール内に実装される。PSVRツールは、アプリケーション(すなわち、コンピュータプログラム)の開発者が、アプリケーションの実行中に、聴取可能な音声入力を、アプリケーションがリアルタイムで認識して処理可能なフォーマットに処理できるように定義されている。しかし、他の実施形態においては、ここに開示の方法およびシステムがPSVRツール以外の場合に実装されてもよいことを理解すべきである。このため、ここに開示の方法および装置は、PSVRツール内での使用に限定されると解釈されるべきではない。
音声認識とは、人間に、コンピュータに向って話させ、話した内容をコンピュータに認識させるプロセスである。音声応答ソフトウェアは、音声認識中に当該プロセスに関する一定の情報を提供するために定義されており、アプリケーションは、この情報を使用して、話す顔のアニメーションまたはユーザの音声の視覚的表現など、アプリケーションのユーザのリアルタイムのフィードバックまたは表示を与えることが可能となる。音声認識は、アプリケーションに対して、限られた語彙、すなわち辞書と、文法とを指定することによって簡略化することができる。文法は、語彙単語の有効な組み合せを集めたものである。言い換えると、文法とは、アプリケーションのための有効なステートメント(テキストの文章/句)の組み合わせである。文法は、単語およびその発音を含むアプリケーションの語彙の表現と、アプリケーションに対して有効なステートメントの組み合わせを形成するための単語間のリンクとを含む文法および辞書(grammar-and-dictionary:GnD)ファイルに定義することができる。GnDファイル中の有効な語彙を通る経路は、文法ネットワークと呼ばれる。
一実施形態では、PSVRなどの音声認識システムは、アプリケーションで使用される有効なステートメントを指定しているテキストファイルを、入力として受け取ることができる。この入力テキストファイルは、アプリケーションが適切に応答するために、音声認識システムによる認識が必要なステートメントに基づいて、アプリケーション開発者によって作成されうる。図1Aは、本発明の一実施形態による入力テキストファイルの例を示す。図1Aに示すように、入力テキストファイルは、ステートメントの単純なリストを有してもよい。あるいは、入力テキストファイルは、ステートメントを指定するための代替表現および変数表現を使用することもできる。一実施形態では、入力テキストファイル内で、代替の単語/句が「|」等の記号によって指定されてもよい。また、一実施形態では、入力テキストファイル内で単語/句を表すために変数ラベルを使用してもよい。例えば、単語/句を変数ラベルに割り当てるために、${変数ラベル}={単語/句}の表記を使用することができる。また、一実施形態では、入力テキストファイルは、単語/句を結合グループ化するために括弧表記を使用することもできる。図1Bは、本発明の一実施形態による、ステートメントを指定するための代替表現または変数表現を使用して定義された、図1Aの入力テキストファイルを示す。
図2は、本発明の一実施形態による、図1A,1Bの入力テキストファイルに対応するGnDファイルを示す。GnDファイルは、入力テキストファイル内のステートメントの文法を定義する。GnDファイルには、文法内の単語セット、単語セットの発音、および有効なステートメントを作成するための単語セット間のリンクが含まれる。図2の例では、それぞれの単語セットが引用符(””)で囲まれている。単語セットが集められてグループ化されており、可能なステートメントを定義するために、(==>記号によって)グループ間のリンクが指定されている。グループ間のリンクは、GnDファイル内の文法的に取りうる経路を定義する。例えば、図3は、本発明の一実施形態による、図2のGnDファイルに定義されているステートメントのうちの2つのステートメントの、文法による経路ネットワークを示す。
音声認識プロセス中に、文法と辞書とが連携して文法ネットワークを提供する。音声認識ツールは、認識プロセス中にこの文法ネットワークを辿る。文法ネットワークがより複雑かつ/または混同を招くものになるのに伴い、音声認識プロセスがより困難かつ/または不正確となる。アプリケーションの実行中に正しい音声認識結果が得られることを保証するために、GnDファイルの文法ネットワークに関する混同を可能な限り減らすかなくすことが望ましい。これを行なうには、GnDファイル内で、潜在的に混同を招く、あるいは混同を招く可能性のある文法の部分を特定することが必要である。混同を招く可能性がある文法の部分の特定および測定は、「文法適合度評価」または「文法品質評価」と呼ばれる。
自動音声認識では、認識仮説は、音響信号が、文法または言語モデルによって許される経路を辿ると蓄積されるスコアセットの結果である。副語彙音声認識(音素など、単語より短い単位に基づく音声認識)では、文法によって許されるこれらの経路は、単語および文章を表す音声のシーケンスによって形成される。非常に「近い」経路の組み合わせは、経路同士に明確かつ明瞭な違いを有する経路の組み合わせよりも混同されやすい。図3に示す経路は、文法的に近い経路の例を示す。より詳細には、図3の2本の経路は、1つの単語の違いによって分岐しており、経路間の違いを作り出している単語は、似た音素(すなわち似た音声音)を有する。
文法内で、ある経路と別の経路との近さは、これら経路間の音声的差違の量、位置および大きさに応じて変わりうる。つまり、文法内の経路間の認識距離は、経路の構成の仕方と、各経路の要素間の聴覚的類似性との関数である。文法内の経路間の認識距離を測定することにより、相互に矛盾し、音声認識エラーを引き起こす可能性のある音声シーケンス間の「近さ」を評価することが可能である。文法適合度評価とは、アプリケーションの文法内の全てのステートメント(および基礎となる音声経路)に対する認識距離評価である。この文法適合度評価は、アプリケーションの文法設計プロセスにおけるフィードバックメカニズムの一部であり、アプリケーションの実行中の音声認識エラーの量および頻度を低減させることを意図するものである。
図4は、本発明の一実施形態による文法適合度評価(GFE)プロセスの動作図を示す。GFEプロセスでは、入力文法401が生成され、GFEモジュール403への入力として提供される。一実施形態では、入力文法401が、図2に例示したようなGnDファイルの形で提供される。別の実施形態では、入力文法401のフォーマットがGFEモジュール403によって理解され、かつ、入力文法401が、音声認識システム(例えばPSVRシステム)によって認識されるステートメントを作成するための単語セットの有効な組み合わせを指定していれば、入力文法401が他のフォーマットで提供されてもよい。
GFEモジュール403によって入力文法401を受け取ると、入力文法401から全ての有効なステートメントを抽出するために、ステートメント拡張プロセス405が実行される。言い換えると、ステートメント拡張プロセス405は、入力文法401によって許される全てのステートメントを明示的に生成する。定義上、文法とは、所定のアプリケーションについて有効なステートメントの組合わせのシンセティックな表現、つまり総合的表現である。ステートメント拡張プロセス405は、各ステートメント内の構成の分析を可能にし、ステートメント間の認識距離の推定を可能にするために実行される。一見異なるが、その完全な文脈を考慮に入れると音声上似ている単語間またはステートメント間で発生しうる混同可能性が見落されないように、入力文法401が、その有効なステートメントの組み合わせになるように完全に拡張される点を理解すべきである。ステートメント拡張プロセス405から得られた有効なステートメントの組み合わせは、その後行なうGFEの基礎となる。
ステートメント中の各単語を、入力文法401の辞書の対応する発音で置換することにより、単語が音声シーケンスに変換されうる。単語のなかには、複数の発音を有するものもある。このため、1つの一単語のステートメントから、幾つかの音声シーケンスが生成されることもある。所定のステートメント中の単語の性質および発音の数によっては、各単語を、対応する発音で置換する操作により、複数の音声シーケンスが生成されることがある。ステートメントの音声シーケンスは、音声信号に含まれる音素を判別するために、自動音声レコグナイザが音声入力との比較に使用するのと同じ音声シーケンスである点に注意すべきである。
ステートメント中の1以上の単語に対して、複数の音声シーケンスが可能な場合には、これらの複数の音声シーケンスがツリー構造に編成されうる。一実施形態では、ツリー構造は、異なる音声シーケンスの検索に、より多くの構造を与えるためにも使用されるが、簡略化かつ明確化のために、本明細書の説明では、全ての音声シーケンスが明示的に表現されているとする。このため、ステートメント拡張プロセス403において、所定のステートメント中の1以上の単語が複数の発音を有する場合、その所定のステートメントの複数のインスタンスが得られ、その所定のステートメントの各インスタンスが、その所定のステートメントの一意な音声的発音に対応していることがある。
どの文章が混同を招く可能性があるかを決定するには、GFEでは不十分なことがある。また、このような混同の理由と、混同を回避するためにアクションを取るべき場合に、そのアクションを適用すべき位置とを決定することも必要である。このために、GFEは、単語レベルアライメントプロセス407と、音声的類似性評価409とを備える。単語レベルアライメントプロセス407は、ステートメント拡張プロセス405から得られた有効なステートメントの組み合わせに対して実行される。単語レベルアライメントプロセス407は、入力文法401内で、潜在的に混同されやすいステートメントを特定する。音声的類似性評価409は、単語レベルアライメントプロセス407によって特定された混同が発生しやすいステートメント内で、潜在的混同の発生源を特定する。
このため、単語レベルアライメントプロセス407は、混同検出操作とみなすことができ、音声的類似性評価409は、混同検出操作によって明らかにされた混同されやすい領域を詳しく調べる操作とみなすことができる。以下、図4は、音声的類似性評価409が、単語レベルアライメントプロセス407に依存している(すなわち、単語レベルアライメントプロセス407内に視覚的に配置されている)ことを示す。その後行なう音声的類似性評価409のためのフォーカスメカニズムとしての単語レベルアライメントプロセス407を実装することにより、それぞれのステートメントが多くの音素を含む多数の音声シーケンスを、全ステートメントにわたって比較するのに要する計算の負担が低減される点を理解すべきである。
単語レベルアライメントプロセス407は、入力文法401から抽出された各ステートメントと、入力文法401から抽出された全ての他のステートメントとの比較を含む。単語レベルアライメントプロセス407は、2つの異なるシンボルのシーケンス、すなわち、2つの異なるステートメントを比較し、事前に定義された何らかの距離尺度に従ってこれらをマッチングする。一実施形態では、比較されるシンボルは、比較されるステートメント中の単語セットに対応している。一実施形態では、ステートメントの比較に使用される単語セットは、入力文法401内のグループに定義されている単語セットである。この場合、単語セットに1以上の単語が含まれてもよいことを理解すべきである。単語セットが複数の単語を含む場合、これらの複数の単語は、入力文法401内で常に一緒に現れる。
一実施形態では、単語レベルアライメントプロセス407は、動的プログラミングプロシージャとして実装される。この実施形態では、単語レベルアライメントプロセス407は、あるステートメントの1つのシンボル(すなわち、単語セット)を、別のステートメントのシンボル(すなわち、単語セット)で置換するためのコストによって駆動される。ステートメントの構造によっては、2つ以上のステートメントにわたって単語セット(シンボル)を整合させるやり方が複数存在することがある。一実施形態では、単語レベルアライメントプロセス407は、ステートメントの「最適な」整合を決定する。この最適なステートメントの整合とは、ステートメントの整合において総置換コストが最も低いものである。
一実施形態では、単語レベルアライメントプロセス407は、入力文法401内の全ステートメントに対して、一度に2ステートメントずつ実行される。所定のステートメントの対に対して単語レベルアライメントプロセス407を実行すると、その所定のステートメントの対のアライメントシーケンスが得られる。このアライメントシーケンスは、対象の2つのステートメントの要素(単語セット)を結合させ、ステートメントの要素間で見つかった一致の種類を報告する。アライメントシーケンスは、HIT(一致する要素)、SUBS(要素の置換)、INS(要素の挿入)およびDEL(要素の削除)の単位として考えることができる。この場合も、単語レベルアライメントプロセス407においては、単語レベルのアライメントシーケンスのみが考慮される。単語レベルのアライメントシーケンスは、2つの文章中の単語セットが等しいエリアかあるいは異なるエリアかを示す。
単語レベルアライメントプロセス407と、得られる単語レベルのアライメントシーケンスとを、以下の例で示す。
第1のステートメント:_BEGIN_ You Like to Dress up _END_
第2のステートメント:_BEGIN_ You Love to Dress up _END_
得られる単語レベルのアライメントシーケンス:You:HIT, Love to→Like to:SUBS, Dress up:HIT.
上の例で得られる単語レベルのアライメントシーケンスは、アライメント領域および混同可能性ゾーンとして考えることができる。詳細には、各HIT(一致する要素)はアライメント領域を表し、HIT以外の単位(すなわち、SUBS、INS、DEL)は混同可能性ゾーンを表す。上のアライメントシーケンスは、3つのエリアに分割されうる。第1のエリアは、各ステートメントに単語セット「You」を含むアライメント領域である。第2のエリアは、第1のステートメントに単語セット「Like」を含み、第2のステートメントに単語セット「Love」を含む混同可能性ゾーンである。第3のエリアは、各ステートメントに単語セット「Dress up」を含むアライメント領域である。
2つのステートメント間の距離は、ステートメント中の単語の整合のさせ方の関数である。したがって、2つの同一のステートメントの分離距離はゼロであり、得られるアライメントシーケンスには1つのアライメント領域しか含まれない。また、全く異なる2つのステートメントにはアライメント領域が一切含まれず、得られるアライメントシーケンスには1つの長い混同可能性ゾーンが含まれる。最適化されている文法は、近いステートメント経路が含まれることを可能であれば回避し、音声認識に使用される場合にエラーを回避するのに十分に離れたステートメント経路を含む必要がある。
音声認識の目的には、2つの同一の単語ステートメントは、認識エラーを発生させることはない。同一であるため、両者間に混同が存在しない。このため、入力文法401において認識エラーが発生する可能性のある位置を決定するプロセス、すなわちGFEは、ステートメント間でのアライメント領域の特定に限定されない。そうではなく、GFEは、入力文法401内のステートメントが近すぎるが、同一でないかどうかの決定と、近すぎる場合に、ステートメント間の混同可能性ゾーンの単語が、音声認識エラーを引き起こす可能性がどの程度高いかの決定とに関与する。このため、ステートメントが混同可能性ゾーン内でどの程度近いかの尺度を提供するために、単語レベルアライメントプロセス407においてステートメント間で特定された混同可能性ゾーンに音声的類似性評価409が実行され、これらのステートメントが音声認識エラーを引き起こす可能性が高いかどうかの判断を通知する。
音声的類似性評価409では、単語レベルアライメントプロセス407から得られた各混同可能性ゾーンが、混同可能性ゾーン内の単語を、対応する音声表現で置換することによって、音声シーケンスに変換される。各混同可能性ゾーンに対して、音声的類似性評価409は、1)混同可能性ゾーン内の各ステートメント中の単語を対応する音素に拡張し、2)混同可能性ゾーン内のステートメント間の最適な音素の整合を決定し、3)最適な音素の整合に基づいて、混同可能性ゾーン内のそれぞれのステートメントにおいて、単語、すなわちその音素間の混同可能性の尺度を計算する。
単語レベルアライメントプロセス407と同様に、一実施形態では、音声的類似性評価409の音素レベルの整合は、動的プログラミングプロシージャとして実装される。この実施形態では、音素レベルの整合は、(混同可能性ゾーン内の)あるステートメントのある音素を、(同じ混同可能性ゾーン内の)他のステートメントの音素で置換するためのコストによって駆動される。音素レベル整の合は、混同可能性ゾーン内の音素の「最適な」整合を決定する。この最適な音素の整合とは、混同可能性ゾーン内の音素の整合において総置換コストが最も低いものである。
上に記載した上記の例を参照して、第1のステートメントに単語セット「Like」を含み、第2のステートメントに単語セット「Love」を含む混同可能性ゾーンを考える。この混同可能性ゾーン内の2つのステートメントの単語の音素拡張は以下の通りである。
第1のステートメント/第1の混同可能性ゾーン:l ay k ___ t uw
第2のステートメント/第1の混同可能性ゾーン:l ah v ___ t uw
混同可能性ゾーン内のステートメント間の最適な音素の整合は、得られる以下の音素レベルのアライメントシーケンスとして考えることができる。
l:HIT, ah→ay:SUBS, v→k:SUBS, t:HIT, uw:HIT
一実施形態では、2つの音声的整合間の混同確率の尺度(すなわち距離)は、数式1に従って計算した加重音声整合精度(WPA)値として表現される。
Figure 0005150747
数式1からわかるように、加重音声整合精度(WPA)は、100の最大値(精度が完全であることは、音素のシーケンスが同一であることを意味する)を上限とする尺度である。また、音素の挿入の数(#INS)が一致する音素の数(#HIT)よりも大きい場合、加重音声整合精度(WPA)の下限は負をとりうる。
数式1において、
Figure 0005150747
は、分析が行なわれる位置の単語シーケンスの文字長に基づいて、加重音声整合精度(WPA)を重み付けするための倍率である。
パラメータL1は、分析における第1のステートメント全体の文字長である。パラメータL2は、分析における第2のステートメント全体の文字長である。パラメータl1は、第1のステートメント中の対象の混同可能性ゾーン内の文字長である。パラメータl2は、第2のステートメント中の対象の混同可能性ゾーン内の文字長である。一実施形態では、文字長には、ステートメント領域の単語内のテキスト文字と、ステートメント領域内の単語間のスペースとの数が含まれる。また、ステートメント拡張プロセス405が、各ステートメントを、_BEGIN_および_END_などの開始フラグと終了フラグとで囲む一実施形態では、開始フラグと終了フラグ間のスペースと、これらのフラグにステートメントテキスト方向に隣接するスペースとも文字長に含まれる。
音声的類似性評価409に係わっている少なくとも2つのステートメントが常に存在するため、それぞれの文字長パラメータの最大値(max(l1, l2)およびmax(L1, L2))を使用して倍率が計算される。倍率は、ステートメント全体のサイズに対する混同可能性ゾーンのサイズに基づいて、加重音声整合精度(WPA)に重み付けする役割を果たす点を理解すべきである。ステートメントのサイズに対して混同可能性ゾーンのサイズが小さくなると、倍率が大きくなる。このため、ステートメントのサイズに対して混同可能性ゾーンのサイズが小さくなると、加重音声整合精度(WPA)値も大きくなる。また、高い加重音声整合精度(WPA)値は、混同可能性ゾーン内のステートメント部分間の類似性が高いこと、すなわち、近さが高いこと/距離が短いことに対応している点を理解すべきである。
上に記載した上記の例を参照すると、音素レベルのアライメントシーケンス(l:HIT, ah→ay:SUBS, v→k:SUBS, t:HIT, uw:HIT)により、加重音声整合精度(WPA)計算に、#HIT=3、#INS=0、#SUBS=2、#DEL=0、max(l1,l2)=7、max(L1,L2)=34の各パラメータが与えられる。対応する加重音声整合精度(WPA)を計算すると47.65となる。
より高い類似性があり、音声認識プロセス中にエラーを生じる可能性の高い混同可能性ゾーンにフォーカスするために、加重音声整合精度(WPA)値にしきい値を用いた操作が実行されうる。入力文法401における全体的な混同されやすさを低減させ、これにより音声認識エラーのリスクを低減させるために、加重音声整合精度(WPA)値が、予め定義されたしきい値よりも高い混同可能性ゾーンが、入力文法401内で変更または抑制する候補として選択的に報告されうる。
別の実施形態では、混同可能性ゾーン内の2つの音声的整合間の混同確率、すなわち距離の尺度を評価するために、数式1によるものとは異なる方式が使用されてもよい。しかし、どのような異なる技術であっても、音声認識プロセス中に混同またはエラーを生じる可能性に関して、文法内の混同可能性ゾーンを相対的に分類可能にするため、特定された混同可能性ゾーン内のステートメント部分の類似性の定量的評価を与える必要がある。
所定の入力文法401において、単語レベルアライメントプロセス407によって特定された混同可能性ゾーンが、一意的なステートメントの対に関連付けられないこともある点に留意すべきである。言い換えると、その単語レベルの内容を特徴として有する所定の混同可能性ゾーンが、入力文法401内の異なるステートメントの対に複数現れることがある。このため、入力文法401内の異なるステートメントの単語レベルの整合から、同じ混同可能性ゾーンが得られ、したがって、同じ音声的整合が得られることがある。同一の混同可能性ゾーンの分析は、繰り返し行なう必要はない。繰り返し分析を行なう代わりに、このような繰り返し現れる混同可能性ゾーンに対する加重音声整合精度(WPA)値を記憶しておき、この混同可能性ゾーンが入力文法401内の任意のステートメントの対に現れるたびに、この値が取得されてもよい。
単語同士が似ているからといって、これらの単語が、必ずしも音声認識プロセス中に混同を引き起こすとは限らない点を理解すべきである。似た単語は、入力文法401内で似た文脈に現れるか、あるいは同じ分岐点に現れる場合、混同を引き起こしうる。しかし、似た単語が、入力文法401内で十分に異なる文脈に現れる場合、あるいは異なる分岐点に現れる場合、これらの似た単語が音声認識プロセス中に混同を引き起こさないこともある。例えば、以下の2つのステートメントについて考える。
第1のステートメント:_BEGIN_ Boy, I am a smart robot _END_
第2のステートメント:_BEGIN_ I am a smart toy _END_
得られる単語レベルのアライメントシーケンス:Boy,:DEL, I:HIT, am:HIT, a:HIT, smart:HIT, robot→toy:SUBS.
この例では、単語Boyと単語toyとは、似ているが、文法内で異なる文脈に現れ、同じ分岐点に現れないため、混同を引き起こさない。この例では、2つの混同可能性ゾーンが存在する(アライメントシーケンスの最初に1つ、アライメントシーケンスの終わりに1つ存在)。この結果から、robotとtoyが文法内で似た文脈に現れ、共通の語幹を共有するため、robotとtoyとの間の音声的レベルの比較が行なわれる。
上で説明したように、一実施形態では、音声的類似性評価409は、混同可能性ゾーン内の異なるステートメント中の音素が、同一であるかまたは異なるか否かに基づいて実行されうる。別の実施形態では、音声的類似性評価409が、比較される音素の性質に関して、更なる情報を考察する。例えば、音素/m/と音素/n/間の混同可能性には、/m/と/i/間の混同可能性よりも高い重みが与えられうる。高い重みは、より混同を招きやすい音素(例えば、2つの単語を唯一識別するものとなりうる似た音声音素)に付与されうる。例えば、単語「norm」と単語「morn」の対における音素/m/と音素/n/が挙げられる。
図4に戻ると、音声的類似性評価409を実行するための入力リソースとして、音声的距離マトリックス411が提供されうる。一実施形態では、音声的距離マトリックス411は、混同マトリックス(認識後距離尺度)に基づくか、あるいは、各音素の聴覚モデル間の相対距離(認識前距離尺度)に基づく。混同マトリックスの内容は、生の音声認識テストの実施に用いられたデータおよび認識設定によって決まる。聴覚モデルに基づく音素距離尺度は、生の音声認識の前に計算され、単語間の対象の音声的距離の精度を更に上げるために、シンボルベースの音素比較の代わりに用いられる。
更に図4を参照すると、GFEの結果が、文法適合度レポート413で通知されうる。文法適合度レポート413は、入力文法401のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率尺度、すなわち、計算で求めた、その加重音声整合精度(WPA)値とを通知するためのフォーマットになっている。文法適合度レポート413の混同可能性ゾーンの識別子は、加重音声整合精度(WPA)でソートすることができる。図5は、本発明の一実施形態による、図2の入力文法の例にGFEを実行することによって生成される文法適合度レポートからの抜粋例を示す。図5の先頭のLikeとLoveの対のように、混同可能性ゾーン内の単語セットの一部であるため、認識エラーを発生させやすいとされたいくつかの単語が文法適合度レポートに存在することがある。
高い加重音声整合精度(WPA)値は、対応する混同可能性ゾーン内の単語が異なる単語であるが、これらの発音が互いに非常に近いことを示し、音声認識エラーの可能性が高いことを示す。このため、加重音声精度(WPA)値の高い混同可能性ゾーンが、文法適合度レポート413の最初に記載されている。文法適合度レポート413を調べる人が、文法内に潜在的な音声認識エラーの発生源を、より容易に見つけることができるように、混同可能性ゾーンの文脈も、文法適合度レポート413に包含されている。
ここに開示の文法適合度評価(GFE)によって生成される文法適合度結果は、音声認識エラーを低減させるために音声認識文法の修正に使用することができる。一実施形態では、文法開発者の監督なしで自動的に文法を修正するために、文法適合度結果が使用されうる。別の実施形態では、手動で文法を修正するために文法適合度結果が使用される。より詳細には、図4を参照すると、文法適合度レポート413は、入力文法401の手動または自動修正プロセス415で使用するために提供される。手動または自動修正プロセス415は、文法適合度レポート413に基づいて、入力文法401内のステートメントの混同しやすい部分が除去または抑制されている最適化された文法417を生成する。
ここに記載の文法適合度評価は、音声信号(可聴音/音声を表すデジタルデータ)を使用せずに実行される点を理解し、留意すべきである。また、ここに記載の文法適合度評価が文法の構造に基づいて実行される点も理解し、留意すべきである。文法適合度評価により、実際の音声認識実験を行なう必要なく、文法の編集と修正を文法生成プロセスに近づけることが可能となるという点で、上記の点は有利である。更に、文法適合度評価は、GnDファイルを生成するプロセスにおいてフィードバックメカニズムとして使用することができるという点も理解すべきである。
図6は、本発明の一実施形態による、GnDファイルの構成と、その対応する文法適合度評価とのプロセスフローチャートを示す。プレーンテキストファイル605(例えば、図1A〜1B)またはGnDファイル603(例えば、図2)を、psvrGnD実行可能ファイル601として表される文法構成/評価ツールへの入力として供給することにより、このプロセスが開始されうる。プレーンテキストファイル605およびGnDファイル603は、それぞれ、文法内のステートメントを指定するために定義される。
発音生成をサポートするために、補助ファイルが文法構成/評価ツール601に提供される。詳細には、1つ以上の書記素−音素(G2P)データファイル607が、文法構成/評価ツール601に提供される。G2Pデータファイル607は、単語の書記素(文字)を、その発音の音素と対応付けている。これを用いて、文法構成/評価ツール601が、単語のスペルに基づいて単語の発音を生成することが可能となる。また、1つ以上の発音辞書609も、文法構成/評価ツール601に提供される。発音辞書609には、G2Pデータファイル607を使用して処理するのが困難な多用される単語など、特定の単語の組み合わせの発音が含まれる。
文法構成/評価ツール601は、テキストサンプルから、ステートメントを構成する単語間の関係を自動抽出することによって、文法生成を実行する。文法構成/評価ツール601は、プレーンテキストのステートメントか、あるいは変数宣言および代替の単語によって文章の総合的表現を可能にする特別にフォーマットされたステートメントを、入力としてとりうる。また、文法構成/評価ツール601は、発音辞書609を参照するか、あるいは、G2Pデータファイル607を使用して書記素−音素変換を実行することによって、発音生成を実行することもできる。G2P変換プロセスにおいて、文法構成/評価ツール601は、単語を入力としてとり、標的言語でのその単語の発音を自動的に生成する。
文法および発音の生成が終了すると、文法構成/評価ツール601は文法と発音の両方を一緒に編集し、結果をGnDファイル611にフォーマットする。この出力に、他の情報(例えば遷移確率および言語の識別子)が含まれてもよい。また、文法構成/評価ツール601は、図4について上で説明した文法適合度評価を実行するためにも定義されている。文法適合度評価の結果は、適合度レポート613に書き込まれる。適合度レポート613内の情報は、元の入力テキストファイル605または新しく生成されたGnDファイル611を編集/調整するために使用されうる。次に、編集/調整によって文法の適合度が改善されたかどうかを確認するためにこのプロセスが繰り返されうる。文法および辞書が音声認識プロセスで使用するのに適したものとなるまで、このプロセスが繰り返し実行されうる。
図7は、本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのコンピュータ実装方法のフローチャートを示す。この方法は、文法構造内から複数のステートメントを受け取るための操作701を有する。複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。各単語セットには、1以上の単語が含まれうる。また、本方法には、複数のステートメントを単語セット単位で整合させることによって、複数のステートメントにわたって幾つかのアライメント領域を特定するための操作703も含まれる。整合させたそれぞれの単語セットがアライメント領域である。一実施形態では、操作703には、複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものの決定も含まれる。
一実施形態では、複数のステートメントにわたって特定されたアライメント領域の数がゼロである場合、コンピュータ実装方法内の複数のステートメントの処理が終了される。また、一実施形態では、複数のステートメントが互いに同一の場合、コンピュータ実装方法内の複数のステートメントの処理が終了される。
更に本方法は、複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するための操作705も有する。各混同可能性ゾーンは、複数のステートメントのうちの2つ以上のステートメントに含まれ、幾つかのアライメント領域外の対応する位置にある単語によって定義される。特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、単語間の混同確率の尺度を決定するための操作707が実行される。
一実施形態では、操作707では、混同可能性ゾーン内の複数のステートメントの単語の音素にわたって音素レベルの整合が実行される。音素は、言語の音声体系の別個の最小単位である。一例では、音素レベルの整合の実行で、複数のステートメントにわたって混同可能性ゾーン内の単語の同一の音素の全体的な整合に関して最善のものの決定が行なわれる。また、本実施形態において、操作707は、音素レベルの整合に基づいて混同可能性ゾーンに対する音声精度値の計算を含む。音声精度値は、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、混同可能性ゾーン内の複数のステートメントの単語間の混同確率の尺度に対応している。
また、本方法は、複数のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するための操作709を有する。一実施形態では、混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみがレポートで特定されるように、レポートを生成する際に混同確率のしきい値が適用される。図7のコンピュータ実装方法は、聴覚的入力なしで実行される点を理解すべきである。
図8は、本発明の一実施形態による、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するためのシステム800のブロック図を示す。システム800は、文法構造内から複数のステートメントを受け取るために定義された入力モジュール801を有する。複数のステートメントのそれぞれは、幾つかの単語セットによって形成される。各単語セットには、1以上の単語が含まれる。
また、システム800は、入力モジュール801が受け取った複数のステートメントにわたって幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュール803も有する。アライメント領域は、複数のステートメントにわたって整合させた同一の単語セットに対応している。一実施形態では、単語レベルアライメントモジュール803は、複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するために定義される。
また、システム800は、複数のステートメントにわたって幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュール805も有する。各混同可能性ゾーンは、複数のステートメントのうちの2つ以上のステートメントに含まれ、単語レベルアライメントモジュール803によって特定された幾つかのアライメント領域外の対応する位置にある単語によって定義される。
また、システム800は、混同ゾーン特定モジュール805によって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析し、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、この所定の混同可能性ゾーン内の単語間の混同確率の尺度を決定するために定義された混同確率分析モジュール807も有する。一実施形態では、混同確率分析モジュール807は、この所定の混同可能性ゾーン内の複数のステートメントの単語の音素にわたって音素レベルの整合を実行するために定義される。この実施形態の一例では、混同確率分析モジュール807は、音素レベルの整合の実行時に、複数のステートメントにわたるこの所定の混同可能性ゾーン内で単語の同一の音素で全体的な整合に関して最善のものを決定するために定義される。
また、この実施形態では、混同確率分析モジュール807は、音素レベルの整合に基づいて音声精度値を計算するためにも定義される。音声精度値は、演算イベント中に音声認識システムによって聴取できる状態で処理される際の、この所定の混同可能性ゾーン内の単語間の混同確率の尺度に対応している。
また、システム800は、複数のステートメントにわたる混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するために定義された出力モジュール809も有する。一実施形態では、出力モジュール809は、混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみがレポートで特定されるように、レポートを生成するための混同確率のしきい値を適用するために定義される。
本発明の実施形態は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなどの各種のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、ネットワークを介してリンクされているリモートのデバイスによってタスクが実行される。
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されているデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作は、物理量の物理的操作を必要とする。本発明の一部を構成している、本明細書に記載した操作はいずれも、有用な機械的操作である。本発明は、これらの操作を実行するデバイスまたは装置にも関する。装置は、特殊用途コンピュータなど、必要な目的のために特別に構成されてもよい。コンピュータが特殊用途コンピュータとして定義される場合、特殊用途の一部ではない他の処理、プログラムの実行またはルーチンも実行できる一方で、特殊用途のためにも動作することもできる。あるいは、操作が、汎用コンピュータによって処理され、汎用コンピュータが、コンピュータメモリ、キャッシュに記憶されるか、あるいはネットワークを介して取得される1つ以上のコンピュータプログラムによって選択的に起動または構成されてもよい。データがネットワークを介して取得される場合、データがネットワーク(例えば、コンピューティングリソースのクラウド)上の他のコンピュータによって処理されてもよい。
本発明の実施形態は、データをある状態から別の状態に変換するマシンとして定義されてもよい。変換されたデータは、記憶装置に保存され、その後プロセッサによって操作されてもよい。このように、プロセッサは、データをある形態から別の形態に変換する。更に、本方法が、ネットワークを介して接続されうる1台以上のマシンまたはプロセッサによって処理されてもよい。各マシンは、データをある状態から別の状態に変換したり、データを処理したり、データをストレージに保存したり、ネットワークを介してデータを送信したり、結果を表示したり、あるいは、結果を別のマシンに通信してもよい。
また、本発明は、コンピュータ可読媒体上のコンピュータ可読コードとして実施されてもよい。コンピュータ可読媒体は、コンピュータシステムによって後から読み取ることができるデータを記憶可能なデータ記憶デバイスであれば、どのようなものであってもよい。コンピュータ可読媒体の例には、ハードディスク、ネットワーク接続記憶装置(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、コンピュータ可読媒体は、コンピュータ可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されたコンピュータ可読有形媒体を介して分散されてもよい。
方法の操作を特定の順序で記載したが、同時に実行される操作の処理が所期どおりに実行される限り、操作と操作の間に他の管理操作が実行されても、操作がわずかに時間をずらして実行されるように操作が調整されても、操作がシステム内で分散されて、処理に係るさまざまな間隔で処理操作を行なうことができるようにしてもよい。
上記に、本発明を明確に理解できるように多少詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。

Claims (20)

  1. コンピュータが実行する、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の混同可能性を評価するための方法であって、
    文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るステップであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには1つ以上の語彙単語が含まれるステップと、
    前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって、それぞれが整合させた単語セットである幾つかのアライメント領域を特定するステップと、
    前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するステップと、
    前記特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の前記単語間の混同確率の尺度を決定するステップと、
    前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するステップと、を有する方法。
  2. 前記方法は聴覚的入力なしで実行される請求項1に記載の方法。
  3. 各単語セットは1以上の単語を含む請求項1に記載の方法。
  4. 前記複数のステートメントにわたって前記幾つかのアライメント領域を特定するステップは、前記複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するステップを有する請求項1に記載の方法。
  5. 前記混同可能性ゾーン内の前記単語の音声的発音を分析するステップは、
    前記混同可能性ゾーン内の前記複数のステートメントの前記単語の音素にわたって音素レベルの整合を実行するステップと、
    前記音素レベルの整合に基づいて前記混同可能性ゾーンに対する音声精度値を計算するステップと、を有し、前記音声精度値は、前記演算イベント中に前記音声認識システムによって聴取できる状態で処理される際の、前記混同可能性ゾーン内の前記複数ステートメントの前記単語間の前記混同確率の尺度に対応している請求項1に記載の方法。
  6. 音素は、言語の音声体系の別個の最小単位である請求項5に記載の方法。
  7. 前記音素レベルの整合を実行するステップは、前記複数のステートメントにわたって前記混同可能性ゾーン内の前記単語の同一の音素の全体的な整合に関して最善のものを決定するステップを有する請求項6に記載の方法。
  8. 前記混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみが前記レポートで特定されるように、前記レポートを生成する際に前記混同確率のしきい値を適用するステップを更に有する請求項1に記載の方法。
  9. 前記複数のステートメントにわたって特定されたアライメント領域の数がゼロである場合、前記方法内で前記複数のステートメントの処理を終了するステップを更に有する請求項1に記載の方法。
  10. 前記複数のステートメントが互いに同一の場合、前記方法内で前記複数のステートメントの処理を終了するステップを更に有する請求項1に記載の方法。
  11. 演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の潜在的な混同を評価するためのシステムであって、
    文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るために定義された入力モジュールであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには1つ以上の語彙単語が含まれるモジュールと、
    前記入力モジュールが受け取った前記複数のステートメントにわたって、前記複数のステートメントにわたって整合させた同一の単語セットに対応する幾つかのアライメント領域を特定するために定義された単語レベルアライメントモジュールと、
    前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記単語レベルアライメントモジュールによって特定された前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するために定義された混同ゾーン特定モジュールと、
    前記混同ゾーン特定モジュールによって特定された所定の混同可能性ゾーン内の単語の音声的発音を分析し、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の、前記所定の混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するために定義された混同確率分析モジュールと、を有するシステム。
  12. 各単語セットは1以上の単語を含む請求項11に記載のシステム。
  13. 前記単語レベルアライメントモジュールは、前記複数のステートメントにわたって同一の単語セットの全体的な整合に関して最善のものを決定するために定義されている請求項11に記載のシステム。
  14. 前記混同確率分析モジュールは、前記所定の混同可能性ゾーン内の前記複数のステートメントの前記単語の音素にわたって音素レベルの整合を実行し、
    前記音素レベルの整合に基づいて、音声精度値を計算するために定義されており、前記音声精度値は、前記演算イベント中に前記音声認識システムによって聴取できる状態で処理される際の、前記所定の混同可能性ゾーン内の前記単語間の前記混同確率の尺度に対応している請求項11に記載のシステム。
  15. 音素は、言語の音声体系の別個の最小単位である請求項14に記載のシステム。
  16. 前記混同確率分析モジュールは、前記音素レベルの整合の実行時に、前記複数のステートメントにわたる前記所定の混同可能性ゾーン内で前記単語の同一の音素で全体的な整合に関して最善のものを決定するために定義されている請求項15に記載のシステム。
  17. 前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するために定義された出力モジュールを更に有する請求項11に記載のシステム。
  18. 前記出力モジュールは、前記混同確率の尺度が混同確率のしきい値以上である混同可能性ゾーンのみが前記レポートで特定されるように、前記レポートを生成するための前記混同確率のしきい値を適用するために定義されている請求項17に記載のシステム。
  19. コンピュータに、演算イベント中に音声認識で使用されるステートメントの組み合わせに対して、文法構造内の潜在的な混同を評価させるためのプログラム命令が記録されたコンピュータ可読媒体であって、
    文法構造内から、それぞれが幾つかの単語セットによって形成されている複数のステートメントを受け取るためのステップであって、前記文法構造は、有効なステートメントのセットに対応する語彙単語の有効な組み合わせの集合であって、かつ、各単語セットには1つ以上の語彙単語が含まれるものであるステップと、
    前記複数のステートメントを単語セット単位で整合させることによって、前記複数のステートメントにわたって、それぞれが整合させた単語セットである幾つかのアライメント領域を特定するステップと、
    前記複数のステートメントにわたって、それぞれが、前記複数のステートメントのうちの2つ以上のステートメントに含まれ、前記幾つかのアライメント領域外の対応する位置にある単語によって定義される幾つかの混同可能性ゾーンを特定するためのステップと、
    各混同可能性ゾーン内の単語の音声的発音を分析して、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の、各混同可能性ゾーン内の前記単語間の混同確率の尺度を決定するためのステップとをコンピュータに実行させるためのプログラム命令が記録されたコンピュータ可読媒体。
  20. 前記複数のステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とを通知するためのレポートを生成するステップをコンピュータに実行させるためのプログラム命令を更に有する請求項19に記載のコンピュータ可読媒体。
JP2011109538A 2010-05-14 2011-05-16 音声認識エラー予測値としての文法適合度評価のための方法およびシステム Active JP5150747B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/780,818 US8560318B2 (en) 2010-05-14 2010-05-14 Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US12/780,818 2010-05-14

Publications (2)

Publication Number Publication Date
JP2011242775A JP2011242775A (ja) 2011-12-01
JP5150747B2 true JP5150747B2 (ja) 2013-02-27

Family

ID=44358156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011109538A Active JP5150747B2 (ja) 2010-05-14 2011-05-16 音声認識エラー予測値としての文法適合度評価のための方法およびシステム

Country Status (5)

Country Link
US (2) US8560318B2 (ja)
EP (1) EP2387031B1 (ja)
JP (1) JP5150747B2 (ja)
KR (1) KR101262812B1 (ja)
CN (1) CN102243871B (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US10544677B2 (en) * 2017-09-01 2020-01-28 United Technologies Corporation Turbine disk
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
GB201322377D0 (en) 2013-12-18 2014-02-05 Isis Innovation Method and apparatus for automatic speech recognition
US10002543B2 (en) * 2014-11-04 2018-06-19 Knotbird LLC System and methods for transforming language into interactive elements
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US20170337923A1 (en) * 2016-05-19 2017-11-23 Julia Komissarchik System and methods for creating robust voice-based user interface
CN106847273B (zh) * 2016-12-23 2020-05-05 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN108197107A (zh) * 2017-12-29 2018-06-22 秦男 数据处理方法
CN110111779B (zh) * 2018-01-29 2023-12-26 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置
CN109887507B (zh) * 2019-04-22 2021-03-12 成都启英泰伦科技有限公司 一种降低相似语音命令词误识别率的方法
CN112562675A (zh) 2019-09-09 2021-03-26 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
CN111128238B (zh) * 2019-12-31 2022-06-24 云知声智能科技股份有限公司 普通话评测方法及装置
JP2021177598A (ja) * 2020-05-08 2021-11-11 シャープ株式会社 音声処理システム、音声処理方法、及び音声処理プログラム
US20210375270A1 (en) * 2020-06-02 2021-12-02 Knowles Electronics, Llc Methods and systems for confusion reduction for compressed acoustic models
US11875780B2 (en) * 2021-02-16 2024-01-16 Vocollect, Inc. Voice recognition performance constellation graph
CN112802494B (zh) * 2021-04-12 2021-07-16 北京世纪好未来教育科技有限公司 语音评测方法、装置、计算机设备和介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
ES2128390T3 (es) * 1992-03-02 1999-05-16 At & T Corp Metodo de adiestramiento y dispositivo para reconocimiento de voz.
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH09138695A (ja) * 1995-11-15 1997-05-27 Nec Corp 音声認識装置
US5768498A (en) 1996-01-23 1998-06-16 Lucent Technologies Protocol verification using symbolic representations of queues
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
CA2226233C (en) 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition
US5995918A (en) 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6961954B1 (en) 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6397179B2 (en) 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6059837A (en) 1997-12-30 2000-05-09 Synopsys, Inc. Method and system for automata-based approach to state reachability of interacting extended finite state machines
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6691078B1 (en) 1999-07-29 2004-02-10 International Business Machines Corporation Target design model behavior explorer
EP1109152A1 (en) 1999-12-13 2001-06-20 Sony International (Europe) GmbH Method for speech recognition using semantic and pragmatic informations
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7092883B1 (en) * 2002-03-29 2006-08-15 At&T Generating confidence scores from word lattices
US7169996B2 (en) 2002-11-12 2007-01-30 Medialab Solutions Llc Systems and methods for generating music using data/music data file transmitted/received via a network
US7552051B2 (en) 2002-12-13 2009-06-23 Xerox Corporation Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
JP4236597B2 (ja) * 2004-02-16 2009-03-11 シャープ株式会社 音声認識装置、音声認識プログラムおよび記録媒体。
US20060031071A1 (en) 2004-08-03 2006-02-09 Sony Corporation System and method for automatically implementing a finite state automaton for speech recognition
US7636657B2 (en) 2004-12-09 2009-12-22 Microsoft Corporation Method and apparatus for automatic grammar generation from data entries
US7711551B2 (en) 2005-06-13 2010-05-04 Microsoft Corporation Static analysis to identify defects in grammars
US7784008B1 (en) 2006-01-11 2010-08-24 Altera Corporation Performance visualization system
US7844456B2 (en) 2007-03-09 2010-11-30 Microsoft Corporation Grammar confusability metric for speech recognition
JP4829910B2 (ja) * 2008-02-20 2011-12-07 日本電信電話株式会社 音声認識誤り分析装置、方法、プログラム及びその記録媒体
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations

Also Published As

Publication number Publication date
KR101262812B1 (ko) 2013-05-10
US20140039896A1 (en) 2014-02-06
US20110282667A1 (en) 2011-11-17
EP2387031B1 (en) 2018-01-10
EP2387031A1 (en) 2011-11-16
CN102243871B (zh) 2013-06-05
US8560318B2 (en) 2013-10-15
JP2011242775A (ja) 2011-12-01
CN102243871A (zh) 2011-11-16
US8818813B2 (en) 2014-08-26
KR20110126058A (ko) 2011-11-22

Similar Documents

Publication Publication Date Title
JP5150747B2 (ja) 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US9613638B2 (en) Computer-implemented systems and methods for determining an intelligibility score for speech
WO2013080406A1 (ja) 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
US9087519B2 (en) Computer-implemented systems and methods for evaluating prosodic features of speech
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
JPWO2009078093A1 (ja) 非音声区間検出方法及び非音声区間検出装置
Qian et al. Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT)
JP2009145853A (ja) 混同音の生成および検知の方法およびシステム
CN108597538B (zh) 语音合成系统的评测方法和系统
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US20210082311A1 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP5007401B2 (ja) 発音評定装置、およびプログラム
Kopparapu Non-linguistic analysis of call center conversations
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
Proença et al. Automatic evaluation of reading aloud performance in children
KR20210130024A (ko) 대화 시스템 및 그 제어 방법
Yuen et al. Asdf: A differential testing framework for automatic speech recognition systems
CN115083437B (zh) 一种确定学习者发音的不确定性的方法及装置
JP5066668B2 (ja) 音声認識装置、およびプログラム
Marie-Sainte et al. A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm
JPWO2016009634A1 (ja) 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体
CN114387950A (zh) 语音识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121203

R150 Certificate of patent or registration of utility model

Ref document number: 5150747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250