JP2004526197A

JP2004526197A - 入力された音声のトランスクリプションおよび表示

Info

Publication number: JP2004526197A
Application number: JP2002574654A
Authority: JP
Inventors: バッソン、サラ、ヘレン; カネフスキー、ディミトリ; メイソン、ベノット、エマニュエル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-16
Filing date: 2002-01-28
Publication date: 2004-08-26
Anticipated expiration: 2022-01-28
Also published as: ATE293274T1; DE60203705T2; EP1368808A1; DE60203705D1; US6785650B2; WO2002075723A1; JP3935844B2; EP1368808B1; CN1206620C; US20020133340A1; CN1509467A

Abstract

【課題】使用者にトランスクリプションの混成表示を提示することができる能力を提供すること。
【解決手段】混成表示は、好ましくは階層形式で組織されている。単語、音節、および単音を、同じディスプレイ上に配置することができ、適切なシンボル・トランスクリプションを、最低信頼度を満たす音声部分に基づいて選択することができる。単語が最低信頼度を満たす場合にはその単語が表示され、そうでない場合は、その単語を構成する音節が表示される。さらに、音節が所定の信頼度を満たさない場合には、その音節を構成する単音を表示することができる。

Description

【技術分野】
【０００１】
本発明は、自動音声認識に関し、より詳細には、入力された音声のトランスクリプションおよび表示に関する。
【背景技術】
【０００２】
自動音声認識（ＡＳＲ）に基づく単語のトランスクリプションは、聴覚障害者のコミュニケーション能力を改善する助けをするためのよく知られている方法である。この手法に関する問題は、エラー認識率が比較的高い場合に、言語を依然として学習中の聴覚障害をもつ子供にとって、トランスクリプションが効率的でないことである。これは、そのような子供が、誤ってデコードされた単語によって混乱しやすくなる場合があるためである。この問題に対処する一手法は、単語ではなく単音出力を表示することである。しかし、正確に認識された単語を読むほうが単音出力を読むよりも簡単であり、効率が良いので、この手法は最適ではない。
【０００３】
聴覚障害のある人に読みを教えるためにＡＳＲを使用することもよく知られている方法である。この手法では、使用者に参照テキストが表示され、ＡＳＲは、使用者が大きな声でテキストを読んでいる間に使用者の音声をデコードし、デコードした出力を参照テキストと比較する。この目的に関するＡＳＲのこの使用法を説明する１つの参考文献は、「Reading Tutor Using an Automatic Speech」Technical DisclosureBulletin, Volume 36、Number8, 08-93, pp. 287-290である。この手法に関する問題は、音声認識中の任意のエラーにより、そのエラーが実際にはプログラムの故障であるにもかかわらず、使用者が、自分が単語を誤って発音したと考えてしまうことである。
【０００４】
ＡＳＲに関する別の問題は、電話など扱いにくいチャネルを用いて行うとき、または音声がどもりを伴っているときなど、ノイズの多い環境で生じる。このような状況では、かなりの数のエラーが生じる可能性がある。エラーは、文脈により使用者によって識別することができる場合もあるが、結果として生じる混乱および解釈の難しさの増大が、単語ベースの表示の利点を損なう場合がある。これは特に、使用者が、言語学習段階の子供であるときに当てはまる。この場合、実質的にエラーを許すべきでない。
【０００５】
この問題は、適切に発話することを学んでいる子供に関して特に問題となるが、ＡＳＲの高いエラー率も一般的な問題である。人がＡＳＲシステムに口述するとき、システムは、確率に基づいてトランスクリプション決定を行い、その決定は、低い確率に基づいている場合もある。使用者が不正確なトランスクリプションを即座に把握しない場合、文脈が分かっているときでさえ、正確なトランスクリプションを決定することが難しい場合がある。
【特許文献１】
米国特許第６０７３０９１号
【特許文献２】
米国特許出願第０９／６６３８１２号
【非特許文献１】
「Reading Tutor Using an AutomaticSpeech」Technical Disclosure Bulletin, Volume 36、Number8, 08-93, pp. 287-290
【非特許文献２】
Gopalakrishnan等著「Fast MatchTechniques」Automatic Speech Recognition, pp. 413-428, 1996, Kluwer Academic（出版元）
【非特許文献３】
Jelineck著「Statistical Methods forSpeech Recognition」1998, the MIT Press
【非特許文献４】
Mangu等著「Finding Consensus in SpeechRecognition」：Word Error Minimization and Other Applications of ConfusionNetworks」Computer Speech and Language 14, 2000, pp. 373-400
【発明の開示】
【発明が解決しようとする課題】
【０００６】
したがって、聴覚障害者のコミュニケーション能力またはリーディング技能、あるいはその両方を向上させるためにＡＳＲを使用する際、または、他の音声認識目的でＡＳＲを使用する際、高い認識エラー率の問題を制限または解決する方法が求められている。
【課題を解決するための手段】
【０００７】
本発明は、請求項１に記載の方法と、請求項４に記載のシステムと、請求項３に記載のコンピュータ・プログラムとを提供する。
【０００８】
一般に、本発明の好ましい実施形態は、使用者にトランスクリプションの混成表示を提示することができる能力を提供する。混成表示は、好ましくは階層形式で組織されている。好ましくは、単語、音節、および単音を、同じディスプレイ上に配置することができ、適切なシンボル・トランスクリプションを、最低信頼度を満たす音声部分に基づいて選択することができる。単語が最低信頼度を満たす場合にはその単語が表示され、そうでない場合は、その単語を構成する音節が表示される。さらに、音節が所定の信頼度を満たさない場合には、その音節を構成する単音を表示することができる。本発明の一実施形態では、トランスクリプションを階層トランスクリプションとして記述することもできるが、これは、混成された単語／音節／単音のデータを反映する独自の信頼度が導き出されるためである。
【０００９】
本発明の好ましい実施形態のより完全な理解、および本発明のさらなる特徴および利点は、以下の詳細な説明および図面を参照して得られる。
【発明を実施するための最良の形態】
【００１０】
本発明の好ましい実施形態は、最も可能性が高い音声部分を求めてその音声部分を表示する、音声の階層表示およびトランスクリプションを提供することによって、従来技術の問題を解決または緩和する。一実施形態では、各音声部分が、最低信頼レベルまたは許容しきい値を有する。すなわち、単語、音節、および単音の許容しきい値が存在する。単語がその許容しきい値を満たす場合、その単語が表示される。単語がその許容しきい値を満たさない場合は、各音節を検査して、その音節が音節許容しきい値を満たすかどうか調べる。音節許容しきい値を満たす場合には、その（１つまたは複数の）音節が表示される。音節が音節許容しきい値を満たさない場合は、その音節を構成する（１つまたは複数の）単音が表示される。
【００１１】
例えば、認識された単語が「embodiment」であり、しかしその認識された単語が、単語に関する許容しきい値を満たさない低い信頼度を有すると仮定する。音節が「em」、「bod」、「i」、「ment」であると仮定して、これらの音節の信頼度を、音節に関する許容しきい値とそれぞれ比較する。「bod」および「i」の信頼度が高い場合、これらの音節が表示される。音節「em」および「ment」は、単音に分解されて、単音に分解した形で表示される。したがって、最終的な表示は、「em 'bod' 'i' m (e) n t」のようになる。
【００１２】
本発明の好ましい実施形態は、音声の１セクションに関するエラーの確率がより高いことを音声認識の被験者が知ることができるという利点を有する。これは、その音声セクションが、単語ではなく、音節または単音で置き換えられるからである。さらに、単語が不正確であってもいくつかの音節または単音が正確である可能性があるので、使用者が、その音節または単音に対応する正確な（１つまたは複数の）単語をより良く求めることができるはずである。
【００１３】
最新の自動音声認識（ＡＳＲ）システムは、音声をテキストに変換するように設計されている。そのため、これらのシステムは、単語に関する確率および信頼度尺度を求める。音声を音節に変換するＡＳＲシステムもいくつか存在する。これらのシステムでは、確率および信頼度尺度が音節に基づいており、単語には基づいていない。これらの確率および信頼度尺度を本発明の実施形態と共に使用することができるが、本発明の実施形態は、混成音声トランスクリプションに関する信頼度を求めることもできる。求めた結果を用いて、単語、その単語の要素である音節、またはそれら音節の要素である単音のいずれが、ある音声セグメントの最も信頼できるトランスクリプションとなるか計算することができる。
【００１４】
ここで図１を参照すると、この図は、本発明の一実施形態による例示的な階層トランスクリプションおよび表示システム１００のブロック図を示す。システム１００は、ＡＳＲモジュール１３０と、セパレータ・モジュール１４０と、ディスプレイ・コントローラ・モジュール１５０と、ディスプレイ１６０とを備える。人（図示せず）が、マイクロフォン１２０に音声１１０を発し、その結果得られる電気波形が、ＡＳＲモジュール１３０によって操作される。ＡＳＲモジュール１３０は、音声をＡＳＲ出力１３５に変換する。ＡＳＲ出力１３５は、単語、または単語と音節との列を含むことができ、それと共にその列に関する開始および終了時間、ならびに仮説スコア（hypothesis score）を含むことができる。ＡＳＲモジュール１３０は、図２を参照しながらより詳細に述べる。
【００１５】
セパレータ・モジュール１４０は、ＡＳＲ出力１３５を受け取り、その出力を、単語および音節、ならびに任意選択で単音に分ける。セパレータ・モジュール１４０は、図３を参照しながらより詳細に述べる。したがって、セパレータ出力１４５は、単語および音節、単語および音節の信頼度、ならびに単語および音節の開始および終了時間を含むことができる。任意選択で、単音、単音の信頼度、ならびに単音の開始および停止時間も、セパレータ出力１４５に追加することができる。
【００１６】
ディスプレイ・コントローラ・モジュール１５０は、セパレータ出力１４５を受け取り、この出力を階層形式でディスプレイ１６０に表示する。ディスプレイ・コントローラ・モジュール１５０はまた、システム１００の様々なプログラム可能アスペクトを任意選択で制御することもできる。ディスプレイ・コントローラ・モジュール１５０自体のプログラム可能性は、図４を参照しながらより詳細に説明する。様々な階層表示スキームは、図５〜７を参照しながら説明する。
【００１７】
一般に、システム１００は以下のように動作する。人が、音声１１０を発し、生成し、この音声１１０がマイクロフォン１２０内で電気信号に変換される。これらの電気信号は、ＡＳＲモジュール１３０によって、１つまたは複数の単語および複数の音節を含むデータ・ストリーム（ＡＳＲ出力１３５の一部）に変換される。セパレータ・モジュール１４０が、受信したデータ・ストリームを、単語および音節、ならびに任意選択で単音に分ける。セパレータ・モジュール１４０はまた、音節または単音の信頼度または確率、ならびに音声の一部を階層的に転記する方法について求める。ディスプレイ・コントローラ１５０は、この情報を使用して、正確である可能性が最も高いのはどの音声部分であるか求め、音声の階層表示を示すようにディスプレイ１６０を修正する。階層表示は、混成された単語、音節、および単音の表示を備えることができる。
【００１８】
次に図２を参照すると、この図は、本発明の一実施形態によるＡＳＲモジュール１３０のブロック図を示す。ＡＳＲモジュール１３０は、信号処理モジュール２１０と、ボキャブラリ２２０と、汎用言語モデル２３０と、トピック言語モデル２４０と、音響プロトタイプ・モデル２５０と、高速合致デコーダ（fast match decoder）２６０と、詳細合致デコーダ２７０と、デコードされたデータ２８０とを備える。
【００１９】
音声データは、信号処理モジュール２１０によって処理される。当技術分野で知られているように、信号処理モジュール２１０は、音声信号を収集するステップ、信号を重複するフレームに分割し、それにより各フレームがシステムの残りの部分によって個別に処理されるようにするステップといったステップを行うことができる。フレームを特徴抽出器に提供することができ、特徴抽出器は、一定の間隔で、例えば約１０ミリ秒ごとに、信号からスペクトル特徴を抽出することができる。スペクトル特徴は通常、特徴ベクトルの形であり、これが次いで、高速合致デコーダ２６０および詳細合致デコーダ２７０によって操作される。信号処理モジュール２１０は、よく知られている機能を行う。
【００２０】
ボキャブラリ２２０もよく知られているモジュールである。本発明の一実施形態では、ボキャブラリ２２０が、単語および音節を備える。例えば、ボキャブラリ２２０は、最も頻出度の高い２万語の英単語と、単語の一部分の英語での発音の全ての取り得る類を網羅する５千の音節とを含む場合がある。この手法は、初期ボキャブラリ内にない単語を表示することを可能にする。しかし、一般には、単語自体は表示されず、代わりに単語を構成する音節が表示される。また、この実施形態では、汎用言語モデル２３０（これもよく知られているデバイスである）が、言語モデル・スコアを単語／音節列に割り当てることができる。混成された単語／音節ボキャブラリを有するこのタイプの言語モデルは、2000年6月6日に発行されたKavensky他による「Apparatus and method for forming afiltered inflected language model for automatic speech recognition」という名称の米国特許第６０７３０９１号に記載されている。
【００２１】
本発明の別の実施形態では、ボキャブラリ２２０が単語のみを含み、音節は、（例えばセパレータ・モジュール１４０による）後のデコーディング段階で生成される。次いで、汎用言語モデル２３０が、言語モデル・スコアを単語列に割り当てる。使用する実施形態は、信頼度スコアが付与される方法に応じて決まる。信頼度尺度が単語のみに関して定義されている場合、単語のみを有するボキャブラリ２２０を使用し、単語が低いスコアを有する場合にはその単語を音節にマップすることがより望ましい。ボキャブラリ２２０内にない発話された単語をデコードすることが望まれる場合、ボキャブラリ２２０での単語／音節の混成が有用になる場合がある。後者の手法では、単語および音節に適用することができるより洗練された信頼度尺度を使用することが有利である。そのような尺度は、本明細書で図９を参照しながら説明する。
【００２２】
トピック言語モデル２４０は任意選択のものである。このモデルは、いくつかのトピックに制約された統計およびボキャブラリを含む。この言語モデルは、例えば、歴史、数学、または生物学など特定の教科の講義の教室で使用することができる。音響プロトタイプ・モジュール２５０は、発話された発声に関する音響スコアを計算するために使用される。音響プロトタイプ・モジュール２５０のいくつかの実装が可能である。音響プロトタイプ・モジュール２５０は、訓練音響データにより訓練される隠れマルコフ・モデルからなる場合がある。隠れマルコフ・モデルはまた、音節に関して作成することもでき、これは、「Syllable and Morheme-Based Automatic Indexing and Searching Methodand Apparatus for Textual Archive Systems」という名称の2000年9月15日出願の米国特許出願第０９／６６３８１２号によって識別される特許出願によって説明されている。
【００２３】
高速合致デコーダ２６０は、発話された音響発声に合致する候補単語または単語／音節のリストを生成する。適切な高速合致デコーダ２６０を説明する参考文献は、Gopalakrishnan等著「Fast Match Techniques」Automatic Speech Recognition,pp. 413-428, 1996, Kluwer Academic（出版元）である。高速合致デコーダ２６０は、単語または単語／音節、あるいはより厳密には音節出力２７３を生成する。音節デコーディングは、高速合致デコーディングの場合でさえも十分に正確である場合がある。次いで、このデコードされたデータ２８０を、図１に示されるようにセパレータ・モジュール１４０に送ることができる。任意選択で、高速合致デコーダからの出力２７３を、（図１に示される）ディスプレイ・コントローラ・モジュール１５０に直接ルーティングすることもできる。これは、一方が、場合によっては多くのエラーを伴う状態で迅速に求められ、もう一方が、エラーが比較的少ないプロセスによって転記される、２つのトランスクリプション表示が存在する状況で有用になる場合がある。これは、即時のフィードバックを可能にするが、時間が許す場合にはより良いトランスクリプションも提供する。
【００２４】
詳細合致デコーダ２７０は、高速合致デコーダ２６０によって生成される出力２７３に比べて、より良いデコーディング精度を有する出力２７７を生成する。この出力２７７は、単語、または単語と音節との列を含むことができる。詳細合致を論じている参考文献は、Jelineck著「Statistical Methods for Speech Recognition」1998, the MITPressである。次いで、デコードされたデータ２８０を、セパレータ・モジュール１４０に送ることができる（図１または３参照）。
【００２５】
次に図３を参照すると、この図は、本発明の一実施形態による単語／音節／単音セパレータ・モジュール１４０のブロック図を示す。セパレータ・モジュール１４０は、信頼度スコア機構３１０と、コンセンサス計算（consensus computation）３２０と、学生履歴比較３３０と、階層データ３４０とを備える。ディスプレイ・コントローラ１５０は、ディスプレイ・コントローラ１５０からこれらのモジュールへの接続によって図３に示されるように、これらのモジュールのアスペクトを任意選択で制御することができる。
【００２６】
単語、または単語と音節とを含む高速合致データ２７３と、やはり単語、または単語と音節とを含む詳細合致データ２７７が、モジュール３１０、３２０、および３３０への入力である。３つのモジュール３１０〜３３０が全て、システム内で同時に使用されるわけでは必ずしもないことに留意されたい。図３は、音声処理システムで使用することができるモジュールの単なる代表例である。これは、以下でより詳細に論じる。信頼度スコア計算モジュール３１０は、図９を参照しながらより詳細に説明するが、一般に、単位時間当たりの信頼度を求めることを試みる。これは、単音に関する信頼度を求めることができるようにする。
【００２７】
コンセンサス計算３２０を実施することもできる。コンセンサス計算は、Mangu等著「FindingConsensus in Speech Recognition」：Word Error Minimization and Other Applicationsof Confusion Networks」Computer Speech and Language 14, 2000, pp. 373-400に、より詳細に記載されている。基本的には、コンセンサス計算は、最も可能性が高い単語のシーケンス、すなわち全体として正解である可能性が最も高い単語のシーケンスを出力する従来の認識器とは異なり、最小数のエラーを含む単語のシーケンスを見出すことを試みる。これは、特定の位置で最も可能性が高い（または、単に、Ｎベスト・リスト（N-bestlist）中で最も頻繁に現れる）単語に関する仮説を認識器のＮベスト・リスト中で見ることによって、各単語位置に関して個別の決定を行うことによって行われる。一般に、信頼度スコア計算３１０が使用されるか、またはコンセンサス計算３２０が使用されるかのどちらかである。また、所与のアプリケーションに有用なときには、信頼度計算の前にコンセンサス計算を挿入するなど両方の計算を使用することも可能である。学生履歴比較３３０は、モジュール３１０または３２０と組み合わせることができ、あるいはセパレータ・モジュール１４０内の唯一のモジュールにすることもできる。学生履歴比較３３０は、学生がリーディング・パッケージを使用するときなど、単語がすでに学習されている状況で有用である。
【００２８】
これらのモジュール３１０〜３３０はそれぞれ、例えば単語、音節、または単音、およびそれぞれに関するスコア、信頼度、または確率を含む階層データ出力３４０を生成する。この階層データ３４０は、何を表示するか決定するためにディスプレイ・コントローラ１５０で使用することができる。
【００２９】
選択されるモジュールまたはモジュールのグループは、アプリケーションのタイプ、およびディスプレイ・コントローラ１５０によって制御される他の因子に応じて決まる。例えば、システムがリーディング・チュータとして使用される場合、学生履歴比較３３０を使用することができる。この場合、学生履歴比較３３０は、学生がすでに学習している単語に関する情報を含む。この情報に応じて、単語または音節が表示される。例えば、単語がすでに学習されている場合には、その単語が表示され、そうでない場合には、音節が表示される。学生履歴比較は、学生がすでにいくつかの単語を知っているときに、リップ・リーディング（lip reading）を教えるために使用することもできる。
【００３０】
学生履歴比較３３０は、リーディング・チュータに関連付けて使用されるとき、以下のように動作する。学生がテキストを大きな声で読む。そのテキストは、ディスプレイからのものであり、したがって、本発明を使用するＡＳＲシステムは、学生が何を読んでいるのかを知ることができる。ＡＳＲシステムは、学生が発した音声をデコードし、各音響発声に関する単語および単音をバッファに記憶する。ＡＳＲシステムは、単音列（すなわち、学生が発した音声をシステムがデコードした状態）を、システムのデータベースに記憶されたその単語に関する正確な単音列と比較する。学生が単語を発音した方法と、単語を発音すべき方法とに不一致が存在する場合、システムは、正確な単音の列を（単語の上に）表示して、不正確に発話された１つまたは複数の単音を強調する。
【００３１】
例えば、学生が単語「CAT」を読み、この単語を「k a p」と言ったとする。システムは、そのデータベースから、単語「CAT」は単音列「ka t」をもつということを知る。システムは、「k a T」を表示して、「p」ではなく「t」と読むべきだということを強調する。システムは、ディスプレイ上の単語「CAT」の上に単音列「ka T」をプリントすることができる。
【００３２】
システムは、以下のように学生履歴を考慮することができる。システムは、学生がいくつかの単語をうまく読むことができることを知ることができる。例えば、学生が、訂正を受けた後に、数回の試験段階の後、CATを「k a t」と読み始めたとする。システムは、この情報を使用して、そのデコーディングを向上することができる。ＡＳＲシステムがデコーディング・エラーをする確率がいくらか存在し、これは、学生が、単語を発音する際に誤っていないことを意味する。例えば、学生が単語「CAT」を読み、正確に「ka t」と発音したが、ＡＳＲシステムがミスをして、この学生が「k a p」と発音したと判定することがある。前述したように、システムは、学生がすでに単語「CAT」を正確に読むことができるようになっていることを知ることができる。システムはまた、デコードされた発声「ka p」に関する信頼度スコアを測定し、この信頼度スコアが比較的低いことを見出すことができる。このとき、システムは、エラーをしたのは学生ではなくＡＳＲシステムであると判定することができ、したがって、学生への訂正「ka T」をプリントしない。
【００３３】
したがって、学生がリーディング・ミスをする可能性に関する履歴を使用することによって、信頼度スコアを向上させることができる。したがって、学生履歴比較３３０を使用するＡＳＲシステムは、（デコードされる発音として）学生が発したものを、その単語の正確な発音と比較して、発せられデコードされた発音を正確な発音と合致させ、不一致の単音を識別することができる。次いで、システムは、正確な発音を、不一致であって強調された単音と共にプリントすることができる。さらに、発せられた学生発音に関する信頼度スコアがしきい値よりも低く、かつ学生が単語を発音することができるという履歴上の証拠が存在する場合、システムは、訂正された発音をプリントしない。
【００３４】
次に図４に移ると、ディスプレイ・コントローラ１５０のブロック図が、本発明の一実施形態に従って示されている。ディスプレイ・コントローラ１５０は、制御テーブル４０５と、１つまたは複数の制御モジュール４５０と、階層データ３４０と、ディスプレイ配置モジュール４６０とを備える。制御テーブル４０５は、ユーザが、コントローラに関する基準を設定できるようにする。そのような基準は、アプリケーション４１０と、遅延４２０と、許容確度４３０と、モジュールをイネーブルまたはディスエーブルする追加の基準４４１〜４４５とを含む。追加の基準は以下のようなものであり、それぞれが、それに対応するモジュールをディスエーブルまたはイネーブルする。基準４４１は高速合致デコーダ２６０に対応し、基準４４２は詳細合致デコーダ２７０に対応し、基準４４３は信頼度スコア計算３１０に対応し、基準４４４はコンセンサス計算３２０に対応し、基準４４５は学生履歴比較３３０に対応する。制御テーブル４０５は、この例では、リップ・リーディング４１１、コミュニケーション４１２、およびリーディング・チュータ４１３のアプリケーションに関して構成されている。
【００３５】
遅延４２０は、単語が発音されたときと、その単語がディスプレイ１６０に現れるときとの許容される遅延の量を示す。通常、遅延は、２分の１秒程度またはそれ未満である。許容確度は、システムが音節または単音に変更する前に、単語に関するトランスクリプションがどの程度正確でなければならないかを示す。前述したように、音節または単音を表示する前に、所定の許容しきい値を満たさない低い信頼度を単語が有するかどうかをはじめに判定することが有利である。
【００３６】
リップ・リーディング４１１アプリケーションを実施する際、システムは、ｔ_１の遅延４２１と、４１パーセントの許容確度４３１とを有し、高速合致デコーダ２６０およびコンセンサス計算３２０モジュールが（それぞれ基準４４１および４４４によって示されるように）イネーブルされる。コミュニケーション４１２アプリケーションを実施する際、システムは、ｔ_２の遅延４２２と、５０パーセントの許容確度４３２とを有し、高速合致デコーダ２６０、詳細合致デコーダ２７０、および信頼度スコア計算３１０モジュールが（それぞれ基準４４１、４４２、および４４３によって示されるように）イネーブルされる。リーディング・チュータ４１３アプリケーションが実施される際、システムは、ｔ_３の遅延４２３と、６０パーセントの許容確度４３３とを有し、詳細合致デコーダ２７０、信頼度スコア計算３１０、および学生履歴比較３３０モジュールが（それぞれ基準４４２、４４３、および４４５によって示されるように）イネーブルされる。
【００３７】
一般に、高速合致デコーダ２６０、および詳細合致デコーダ２７０など他のデコーディング・ブロックは、常に作動している。高速合致デコーダ２６０は、完全になくすべきではないが、候補単語のより短いリストをプリントするように変更することができる。全体の許容遅延は、（高速合致遅延を含めた）デコーディング時間全体よりも短くすべきではない。しかし、高速合致および他のデコーディング・ブロックを、（例えば、高速合致単語のリストをより短くすることによって）より高速で走るように調節することができる。したがって、基準４４１および４４２は、それぞれ高速合致デコーダ２６０または詳細合致デコーダ２７０からの出力が表示されるかどうかを制御する。
【００３８】
制御テーブル４０５のデータは、１つまたは複数の制御モジュール４５０によって使用され、このモジュールは、モジュールＡＳＲ１３０、高速合致デコーダ２６０、詳細合致デコーダ２７０、信頼度スコア計算３１０、コンセンサス計算３２０、学生履歴比較３３０、およびディスプレイ配置モジュール４６０を構成する。１つまたは複数の制御モジュール４５０はまた、任意の他の必要な構成を実施することもできる。ディスプレイ配置モジュール４６０は、（１つまたは複数の）制御モジュール４５０によって構成することができ、スクロール・テキスト、スライド・テキスト、またはこれらの組合せを表示する。取り得る表示は、以下で図５〜７を参照して論じる。
【００３９】
次に、図５に移ると、取り得る表示５００が示されている。表示５００には、２つのセクションが存在する。セクション５１０に、より正確な翻訳が示されている。この翻訳は通常、確度の高い単語を含み、確度がより低いときには音節を含む。セクション５２０には、正確さのより低い翻訳が示されている。この翻訳は、単語を含むこともでき、しかしこの例では、セクション５２０は音節のみを含む。このような表示５００は、高速デコーディングが必要なリップ・リーディング中に使用することができる。図５の例では、音節１および２が単語１を構成し、音節３〜５が単語２を構成する。このバージョンでは、翻訳は、左から右にスクロールする。
【００４０】
図６は、別の取り得る表示を示す。この表示では、翻訳は、ラインが埋まるまで右から左にスクロールし、次いで下から上にスクロールする。これは、映画でクレジットが示されるのと同様である。ここでは、単語、音節、および単音の混成が存在する。単音６１０は、低い確率の単音であり、括弧内に入れるなど何らかの表示技法によってそのようなものとして示される。これを行う他の方法は、高い確率の項目を強調表示する、または異なるフォント（太線、下線）で表示し、低い確率の項目をあまり顕著には表示しない（例えばイタリック体で、またはグレーで表示する）ことである。図６では、低確率の単音がイタリック体になっている。
【００４１】
図７は、別の表示可能性を示す。この表示では、取り得る単音が、各適切な位置にリストされている。一般に、これらは、最大信頼度の単音を一番上に、より低い信頼度の単音を下にして順序付けられている。このタイプの表示は、単語、音節、および単音を用いて行うこともできることに留意されたい。例えば、ある単語が許容しきい値を満たさない低い信頼度を有し、その単語と同じ時間スパン中に、２つの音節が、音節許容しきい値を満たすものとして選択される場合、単語と２つの音節とを図７に示されるように表示することができる。これにより使用者は単語か音節かを選択することができるので、適切な翻訳に関する決定を行うことができるようになる。
【００４２】
そのまま表示するか、またはより低いレベルの要素に分解するかを決定するために各レベル（単語、音節、または単音）で使用される信頼度しきい値は、より高いレベルの表現を表示することの利点と、そのレベルで不正確な項目を表示する潜在的な損害とのバランスを取ることによって選択される。
【００４３】
次に図８を参照すると、方法８００が、本発明の一実施形態による単語／音節処理に関して示されている。方法８００は、音節に対応する単語が特定の確度しきい値を満たさない場合に、より正確な音節を表示することが望まれるときには常に実施される。同じ時間枠にわたって転記された音節に対応しない単語が転記される場合があることに留意されたい。すなわち、ある時間枠にわたって最も可能性が高い音節とみなされた音節が、実際には、その時間枠にわたって最も可能性が高いとみなされる単語に対応しない場合がある。
【００４４】
方法８００は、アプリケーションがリップ・リーディングに関するものかどうかを判定するステップ８０５から始まる。前述したように、アプリケーションの設定は、ディスプレイ・コントローラ１５０によって構成することができる。アプリケーションがリップ・リーディングに関するものである場合（ステップ８０５＝YES）、詳細合致リストからのデコード・データのプリントの遅延が所定のしきい値未満であるかどうか判定される（ステップ８２５）。遅延が所定のしきい値遅延未満でない場合（ステップ８２５＝NO）、音節が、高速合致デコーダからディスプレイにプリントされる。遅延しきい値は、図４を参照して論じたように、使用者によって構成可能である。遅延が所定のしきい値遅延未満である場合（ステップ８２５＝YES）、信頼度スコアが所定の信頼度よりも大きいかどうか判定される（ステップ８３５）。大きい場合（ステップ８３５＝YES）、単語がディスプレイにプリントされる（ステップ８４０）。信頼度スコアが所定の信頼度未満である場合（ステップ８３５＝NO）、単語は、音節に変換されて（ステップ８４５）、音節がディスプレイにプリントされる（ステップ８５０）。
【００４５】
アプリケーションがリップ・リーディングに関連しない場合（ステップ８０５＝NO）、次に、アプリケーションがリーディング・チュータに関するものであるかどうか判定される（ステップ８１０）。アプリケーションがリーディング・チュータに関するものである場合、ディスプレイ・コントローラ１５０の制御テーブル４０５（図４参照）によって示される命令が実施される（ステップ８１５）。この一連のステップは、ステップ８２５〜８５０などリップ・リーディングに関して説明したものと非常に似ている。リーディング・チュータ・アプリケーションでは、高速合致デコーダを使用することはできず、これは、ステップ８２５が使用されないことを意味する。しかし、単語または音節が、これらの音声部分に関する信頼度レベルに基づいて、表示のために選択される。アプリケーションがリーディング・チュータとして使用されない場合（ステップ８１０＝NO）、（図４に示される）ディスプレイ・コントローラ１５０の制御テーブル４０５によって定義される別のアプリケーションに関してシステムが使用されるかどうかを調べるためにチェックされる。特定のアプリケーションに関する（制御テーブル４０５によって決定される）他の基準が設定され、実行される。
【００４６】
方法８００は、音節デコーディングが所定の確度レベルに達していない場合に、単音の表示を含むように修正することができることに留意されたい。
【００４７】
次に図９に移ると、方法９００のブロック図、および方法９００中に生じる様々なＮベスト・リスト・コンテンツが、本発明の一実施形態に従って示されている。方法９００は、時間に応じた信頼度を求めるために使用され、この信頼度は次いで、どの音声部分（単語または音節、および任意選択で単音）が最も確率の高い翻訳であるかを判定するために使用することができる。方法９００は、ＡＳＲの出力が、単語と音節（任意選択で単音）の混成出力であるときに適用される。図９で、偶数が、Ｎベスト・リストのコンテンツに対応し、奇数が、Ｎベスト・リストで実施される方法ステップに対応する。Ｎベスト・リストが、ここに示されているもの以外に追加の情報を含むことができることに留意されたい。
【００４８】
Ｎベスト・リスト９１０で、このリストは、単語および音節、その単語および音節に関する開始および終了時間、ならびに仮説スコアを含む。これは、ＡＳＲ１３０が実行された後に生じるＮベスト・リストである。システムが、このときに単語のみを含む場合もあることに留意されたい。ステップ９１５で、単語および音節は、対応する単音のシーケンスに変換される。元の仮説での各トークンの最初の単音は、そのトークンの開始時間を引き継ぐ。元の仮説での各トークンの最後の単音は、そのトークンの終了時間を引き継ぐ。この時点で、一時Ｎベスト・リスト９２０は、単音、いくつかの開始および終了時間、ならびに仮説スコアを含む。ステップ９２５で、トップ仮説単音に関する欠落している開始および終了時間が、既存の時間を挿間することによって埋められ、それにより元の仮説での同じトークンから生じる全ての単音が同じ持続期間を与えられる。残りのＮ−１仮説の単音に関する欠落している開始および終了時間は、以下のように埋められる。Ｎ−１の単音シーケンスがそれぞれ、２つのシーケンス間の編集（またはLevehnstein）距離を最小にすることによってトップ・シーケンスと位置合わせされる。シーケンス中の各単音は、トップ仮説に関して合致すると識別される、挿入される、または置換される。合致する単音では、開始および終了時間が、トップ仮説から考慮中の仮説にコピーされる。挿入または置換される単音のシーケンスでは、開始および終了時間は、すでに求められている時間の間で均等に間隔を取られるように設定される。
【００４９】
ステップ９２５の後、一時Ｎベスト・リストは、単音、開始および終了時間、ならびに仮説スコアを含む（これがＮベスト・リスト９３０である）。ステップ９３５で、スケーリング・ファクタおよび指数を乗算された各仮説の仮説スコアが得られる。これらは、音声解析での標準ステップである。他の非線形単調増加関数を使用することもできる。次いで、変換されたスコアが、各スコアをスコアの合計で割ることによって正規化される。これらの数は、仮説の確率と呼ばれる。この時点で、Ｎベスト・リストは、（Ｎベスト・リスト９４０によって示されるように）各完全な仮説に関する単音、開始／終了時間、および確率を含む。確率に関して、１０ベスト・リストが存在する場合、合計が１となる１０個の確率が存在する。
【００５０】
ステップ９４５で、フレーム信頼度が計算される。各時間フレームｔに関して、フレーム信頼度は、時間ｔで仮説された単音がトップ仮説で時間ｔで仮説された単音に合致する（トップ仮説を含む）全ての仮説の確率を加えることによって計算される。この時点で、Ｎベスト・リストは、（Ｎベスト・リスト９５０によって示されるように）時間に応じた信頼度を含む。このＮベスト・リストが、単音、開始および終了時間、ならびに確率など前述した全ての項目を含むことができることに留意されたい。
【００５１】
ステップ９５５で、２つのＮベスト・リスト９１０および９５０が組み合わされて、音節および単語（任意選択で単音）の信頼度が得られ、これがＮベスト・リスト９６０をもたらす。基本的に、各フレーム信頼度は、ある音声部分にわたって平均化されて、その音声部分に関する信頼度を求める。例えば、単音が３つのフレームにまたがっている場合、単音に割り当てられる信頼度は、３つのフレームに関する信頼度の平均である。同様に、単語が１０個のフレームにまたがっている場合、その単語に割り当てられる信頼度は、１０個のフレームそれぞれに関する信頼度の平均である。またがるフレームの信頼度の平均を使用することは、ある音声部分に関する信頼度を求める１つの方法である。しかし、他の方法を使用することもできる。例えば、音声部分の持続期間にわたるフレーム信頼度の幾何平均、または最小または最大を使用することもできる。
【００５２】
望みであれば、方法９００で、全Ｎ個の仮説の全ての単音に信頼度スコアを割り当てることができる。仮説番号ｉのフレーム信頼度は、時間ｔで仮説される単音が仮説番号ｉで時間ｔで仮説された単音に合致する（仮説番号ｉを含めた）全ての仮説の確率を加えることによって計算される。次いで、仮説番号ｉの全ての単音に関する信頼度が、トップ仮説に関して述べたようにフレーム信頼度スコアを組み合わせることによって計算される。
【００５３】
時間に応じた信頼度の尺度を求めて使用することによって、方法９００は、単音、音節、および単語の信頼度を１つの方法によって求めることができるようにする。方法９００の結果を他の結果と組み合わせて、別のレベルの信頼度測定を提供することができることに留意されたい。例えば、ＡＳＲ１３０によって使用される言語モデル・スコアまたは音響モデル・スコアを、信頼度９００と組み合わせることができる。
【００５４】
次に図１０を参照すると、本発明の実施形態を実行するのに適した例示システムが示されている。システム１０００は、コンピュータ・システム１０１０およびコンパクト・ディスク（ＣＤ）１０５０を備える。コンピュータ・システム１０１０は、プロセッサ１０２０と、メモリ１０３０と、ディスプレイ１０４０とを備える。
【００５５】
当技術分野で知られているように、本明細書で論じた方法および装置を、コンピュータ可読コード手段が具体化されているコンピュータ可読媒体をそれ自体備える製造物品として分散させることもできる。コンピュータ可読プログラム・コード手段は、コンピュータ・システム１０１０などのコンピュータ・システムに関連して動作可能であり、本明細書で論じた方法を行うため、または装置を作成するためのステップの全てまたはいくつかを実施する。コンピュータ可読媒体は、記録可能媒体（例えばフロッピー（Ｒ）・ディスク、ハード・ドライブ、コンパクト・ディスク、またはメモリ・カード）、または伝送媒体（例えば、光ファイバ、ワールドワイドウェブ、ケーブル、あるいは時分割多重接続、符号分割多重接続、または他の無線周波数チャネルを使用するワイヤレス・チャネルを備えるネットワーク）であってよい。コンピュータ・システムと共に使用するのに適した情報を記憶することができる、知られている、または開発される任意の媒体を使用することができる。コンピュータ可読コード手段は、磁気媒体での磁気変化、またはコンパクト・ディスク１０５０などコンパクト・ディスクの表面での高さ変化など、命令およびデータをコンピュータが読むことができるようにする任意の機構である。
【００５６】
メモリ１０３０は、本明細書で開示した方法、ステップ、および機能を実施するようにプロセッサ１０２０を構成する。メモリ１０３０は、分散させる、または局所化することができ、プロセッサ１０２０は、分散させる、または単独のものにすることができる。メモリ１０３０は、電気、磁気、または光メモリ、あるいはこれらまたはその他のタイプの記憶デバイスの任意の組合せとして実装することができる。さらに、用語「メモリ」は、プロセッサ１０１０によってアクセスされるアドレス可能空間内のアドレスから読み出す、またはそのアドレスに書き込むことができる任意の情報を包含するように十分広く解釈すべきである。この定義では、ネットワーク上の情報は、プロセッサ１０２０がネットワークからその情報を検索することができるので、やはりメモリ１０３０内にある。プロセッサ１０３０を構成する各分散プロセッサは通常、それ独自のアドレス可能メモリ空間を含むことに留意されたい。また、コンピュータ・システム１０１０の全てまたはいくつかを、アプリケーション専用または汎用集積回路に組み込むことができることに留意されたい。
【００５７】
ディスプレイ１０４０は、図５〜７に示されるタイプの階層情報を生成するのに適した任意のタイプのディスプレイである。一般に、ディスプレイ１０４０は、コンピュータ・モニタ、または他の同様のビデオ・ディスプレイである。
【００５８】
したがって、図示したものは、階層形式で音声部分を表示するための方法およびシステムである。音声認識中、本発明の好ましい実施形態によるシステムは、最も確率の高い音声部分を求めて、適切な単語、音節、または単音を表示することができる。また、任意の音声部分（単語、音節、単音、または任意の他の音声の断片）の信頼度を簡単に求めることができるようにする、時間の尺度として信頼度を求める独自の方法を説明した。
【００５９】
図示し、本明細書で説明した実施形態および代替形態は、本発明の原理の単なる例であり、本発明の範囲および精神を逸脱することなく様々な修正形態を当業者が実施することができることを理解されたい。例えば、セパレータ・モジュール１４０は、単語を音節から分離する（かつ、望みであれば音節を単音から分離する）ための追加の、または異なるモジュールを備えることができる。
【００６０】
さらに、本明細書では、単語および音節を備える認識されたセンテンス部分を提供するステップと、認識されたセンテンス部分の複数の仮説スコアを単音レベルに変換するステップと、変換された仮説スコアを使用することによって、認識されたセンテンス部分の信頼度を時間に応じて求めるステップと、時間に応じた信頼度を使用して、認識されたセンテンス部分中の音声部分に関する信頼度を求めるステップとを含む方法を開示した。
【００６１】
さらに、本明細書では、時間に応じた信頼度を使用することによって、認識されたセンテンス部分中の一連の単音を求めるステップであって、その列の中の各単音が最も可能性の高い単音として選択されるステップと、単語の正確な発音を求めるステップと、単語に対応する列の中の単音が、単語の正確な発音に合致するかどうかを求めるステップと、１つまたは複数の単音が不正確の場合に、単語の正確な発音を表示して、不正確な単音を強調するステップとを含む方法を開示した。
【００６２】
さらに、本明細書では、認識されたセンテンス部分の複数の仮説スコアを単音レベルに変換するステップがさらに、認識されたセンテンス部分に関する複数の仮説を求めるステップと、複数の仮説を単音のシーケンスに変換するステップと、各仮説スコアからの確率を求めるステップと、各単音に関する開始および終了時間を求めるステップであって、それにより、確率を各単音に割り当てることができ、それにより仮説スコアが単音レベルに変換されるステップとを含み、時間に応じた信頼度を求めるステップが、複数の仮説、関連する確率および単音を、複数のフレームそれぞれに関連付けるステップと、各フレームに関して、時間ｔで仮説される単音がトップ仮説で時間ｔで仮説された単音と合致する全ての仮説の確率を加えることによってフレーム信頼度を計算するステップとを含む上述した方法を論じた。
【００６３】
さらに、本明細書では、時間に応じた信頼度を使用して、認識されたセンテンス部分中の音声部分に関する信頼度を求めるステップがさらに、対象の各音声部分に関して、ある時間枠にわたる音声部分を選択するステップと、その時間枠にわたる平均信頼度を求めるステップと、音声部分の信頼度として、その時間枠にわたる平均信頼度を均等化するステップとを含む上述した方法を開示している。
【００６４】
さらに、本明細書では、入力された音声の階層トランスクリプションおよび表示のための方法であって、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップと、その音声部分に関する所定の基準を満たす音声部分を表示するステップとを含む方法を開示した。
【００６５】
さらに、本明細書では、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップが、音声部分に関する時間に応じた信頼度を求めるステップと、単語がわたっている時間枠の平均信頼度を求めることによって単語に関する信頼度を求めるステップと、単語の信頼度が所定の単語信頼度を満たすかどうかを求めるステップとを含み、音声部分に関する所定の基準を満たす音声部分を表示するステップが、単語の信頼度が所定の単語信頼度を満たす場合に単語を表示するステップと、単語の信頼度が所定の単語信頼度を満たさない場合に、単語に対応する少なくとも１つの音節を表示するステップとを含む上述した方法を開示した。
【００６６】
さらに、本明細書では、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップが、各音節に関する平均信頼度を求めることによって単語に対応する少なくとも１つの音節それぞれに関する信頼度を求めるステップであって、各音節が、単語がわたる時間枠に等しい、またはそれ未満の期間にわたっているステップと、各音節に関する信頼度が所定の音節信頼度を満たすかどうかを判定するステップとを含み、音声部分に関する所定の基準を満たす音声部分を表示するステップが、各音節に関して、音節の信頼度が所定の音節信頼度を満たす場合に音節を表示するステップと、各音節に関して、音節の信頼度が所定の音節信頼度を満たさない場合に音節に対応する少なくとも１つの単音を表示するステップとを含む方法が開示されている。
【図面の簡単な説明】
【００６７】
【図１】本発明の一実施形態による例示階層トランスクリプションおよび表示システムのブロック図である。
【図２】本発明の一実施形態による自動音声認識（ＡＳＲ）モジュールのブロック図である。
【図３】本発明の一実施形態による単語／音節／単音セパレータのブロック図である。
【図４】本発明の一実施形態によるディスプレイ・コントローラのブロック図である。
【図５】本発明の実施形態による例示的な表示である。
【図６】本発明の実施形態による例示的な表示である。
【図７】本発明の実施形態による例示的な表示である。
【図８】本発明の一実施形態による、単語／音節処理に関する方法の流れ図である。
【図９】本発明の一実施形態による方法、およびその方法中に生じる様々なＮベスト・リスト・コンテンツのブロック図である。
【図１０】本発明の実施形態を実行するのに適した例示システムのブロック図である。

Claims

入力された音声のトランスクリプションおよび表示のための方法であって、
音声部分を単語に変換するステップと、
単語の信頼度を求めるステップと
を含み、さらに、
単語の信頼度がしきい値信頼度を満たす場合に、単語を表示するステップと、
単語の信頼度がしきい値信頼度を満たさない場合に、単語に対応する少なくとも１つの音節を表示するステップと
を含むことを特徴とする方法。
少なくとも１つの音節を表示する前記ステップが、
少なくとも１つの音節の信頼度を求めるステップと、
少なくとも１つの音節の信頼度がしきい値信頼度を満たさない場合に、少なくとも１つの音節に対応する少なくとも１つの単音を表示するステップと
を含む請求項１に記載の方法。
プログラムがコンピュータ・システム上で走るときに、前記方法請求項のいずれかの方法ステップを行うように適合されたプログラム・コードを有するコンピュータ・プログラム。
入力された音声のトランスクリプションおよび表示のためのシステムであって、
音声部分を単語に変換する手段と、
単語の信頼度を求める手段と
を含み、さらに、
単語の信頼度がしきい値信頼度を満たす場合に、単語を表示する手段と、
単語の信頼度がしきい値信頼度を満たさない場合に、単語に対応する少なくとも１つの音節を表示する手段と
を備えることを特徴とするシステム。
少なくとも１つの音節を表示する前記手段が、
少なくとも１つの音節の信頼度を求める手段と、
少なくとも１つの音節の信頼度がしきい値信頼度を満たさない場合に、前記少なくとも１つの音節に対応する少なくとも１つの単音を表示する手段と
を備える請求項４に記載のシステム。