JP2004526197A - 入力された音声のトランスクリプションおよび表示 - Google Patents

入力された音声のトランスクリプションおよび表示 Download PDF

Info

Publication number
JP2004526197A
JP2004526197A JP2002574654A JP2002574654A JP2004526197A JP 2004526197 A JP2004526197 A JP 2004526197A JP 2002574654 A JP2002574654 A JP 2002574654A JP 2002574654 A JP2002574654 A JP 2002574654A JP 2004526197 A JP2004526197 A JP 2004526197A
Authority
JP
Japan
Prior art keywords
word
syllable
reliability
display
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002574654A
Other languages
English (en)
Other versions
JP3935844B2 (ja
Inventor
バッソン、サラ、ヘレン
カネフスキー、ディミトリ
メイソン、ベノット、エマニュエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004526197A publication Critical patent/JP2004526197A/ja
Application granted granted Critical
Publication of JP3935844B2 publication Critical patent/JP3935844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

【課題】使用者にトランスクリプションの混成表示を提示することができる能力を提供すること。
【解決手段】混成表示は、好ましくは階層形式で組織されている。単語、音節、および単音を、同じディスプレイ上に配置することができ、適切なシンボル・トランスクリプションを、最低信頼度を満たす音声部分に基づいて選択することができる。単語が最低信頼度を満たす場合にはその単語が表示され、そうでない場合は、その単語を構成する音節が表示される。さらに、音節が所定の信頼度を満たさない場合には、その音節を構成する単音を表示することができる。

Description

【技術分野】
【0001】
本発明は、自動音声認識に関し、より詳細には、入力された音声のトランスクリプションおよび表示に関する。
【背景技術】
【0002】
自動音声認識(ASR)に基づく単語のトランスクリプションは、聴覚障害者のコミュニケーション能力を改善する助けをするためのよく知られている方法である。この手法に関する問題は、エラー認識率が比較的高い場合に、言語を依然として学習中の聴覚障害をもつ子供にとって、トランスクリプションが効率的でないことである。これは、そのような子供が、誤ってデコードされた単語によって混乱しやすくなる場合があるためである。この問題に対処する一手法は、単語ではなく単音出力を表示することである。しかし、正確に認識された単語を読むほうが単音出力を読むよりも簡単であり、効率が良いので、この手法は最適ではない。
【0003】
聴覚障害のある人に読みを教えるためにASRを使用することもよく知られている方法である。この手法では、使用者に参照テキストが表示され、ASRは、使用者が大きな声でテキストを読んでいる間に使用者の音声をデコードし、デコードした出力を参照テキストと比較する。この目的に関するASRのこの使用法を説明する1つの参考文献は、「Reading Tutor Using an Automatic Speech」Technical DisclosureBulletin, Volume 36、Number8, 08-93, pp. 287-290である。この手法に関する問題は、音声認識中の任意のエラーにより、そのエラーが実際にはプログラムの故障であるにもかかわらず、使用者が、自分が単語を誤って発音したと考えてしまうことである。
【0004】
ASRに関する別の問題は、電話など扱いにくいチャネルを用いて行うとき、または音声がどもりを伴っているときなど、ノイズの多い環境で生じる。このような状況では、かなりの数のエラーが生じる可能性がある。エラーは、文脈により使用者によって識別することができる場合もあるが、結果として生じる混乱および解釈の難しさの増大が、単語ベースの表示の利点を損なう場合がある。これは特に、使用者が、言語学習段階の子供であるときに当てはまる。この場合、実質的にエラーを許すべきでない。
【0005】
この問題は、適切に発話することを学んでいる子供に関して特に問題となるが、ASRの高いエラー率も一般的な問題である。人がASRシステムに口述するとき、システムは、確率に基づいてトランスクリプション決定を行い、その決定は、低い確率に基づいている場合もある。使用者が不正確なトランスクリプションを即座に把握しない場合、文脈が分かっているときでさえ、正確なトランスクリプションを決定することが難しい場合がある。
【特許文献1】
米国特許第6073091号
【特許文献2】
米国特許出願第09/663812号
【非特許文献1】
「Reading Tutor Using an AutomaticSpeech」Technical Disclosure Bulletin, Volume 36、Number8, 08-93, pp. 287-290
【非特許文献2】
Gopalakrishnan等著「Fast MatchTechniques」Automatic Speech Recognition, pp. 413-428, 1996, Kluwer Academic(出版元)
【非特許文献3】
Jelineck著「Statistical Methods forSpeech Recognition」1998, the MIT Press
【非特許文献4】
Mangu等著「Finding Consensus in SpeechRecognition」:Word Error Minimization and Other Applications of ConfusionNetworks」Computer Speech and Language 14, 2000, pp. 373-400
【発明の開示】
【発明が解決しようとする課題】
【0006】
したがって、聴覚障害者のコミュニケーション能力またはリーディング技能、あるいはその両方を向上させるためにASRを使用する際、または、他の音声認識目的でASRを使用する際、高い認識エラー率の問題を制限または解決する方法が求められている。
【課題を解決するための手段】
【0007】
本発明は、請求項1に記載の方法と、請求項4に記載のシステムと、請求項3に記載のコンピュータ・プログラムとを提供する。
【0008】
一般に、本発明の好ましい実施形態は、使用者にトランスクリプションの混成表示を提示することができる能力を提供する。混成表示は、好ましくは階層形式で組織されている。好ましくは、単語、音節、および単音を、同じディスプレイ上に配置することができ、適切なシンボル・トランスクリプションを、最低信頼度を満たす音声部分に基づいて選択することができる。単語が最低信頼度を満たす場合にはその単語が表示され、そうでない場合は、その単語を構成する音節が表示される。さらに、音節が所定の信頼度を満たさない場合には、その音節を構成する単音を表示することができる。本発明の一実施形態では、トランスクリプションを階層トランスクリプションとして記述することもできるが、これは、混成された単語/音節/単音のデータを反映する独自の信頼度が導き出されるためである。
【0009】
本発明の好ましい実施形態のより完全な理解、および本発明のさらなる特徴および利点は、以下の詳細な説明および図面を参照して得られる。
【発明を実施するための最良の形態】
【0010】
本発明の好ましい実施形態は、最も可能性が高い音声部分を求めてその音声部分を表示する、音声の階層表示およびトランスクリプションを提供することによって、従来技術の問題を解決または緩和する。一実施形態では、各音声部分が、最低信頼レベルまたは許容しきい値を有する。すなわち、単語、音節、および単音の許容しきい値が存在する。単語がその許容しきい値を満たす場合、その単語が表示される。単語がその許容しきい値を満たさない場合は、各音節を検査して、その音節が音節許容しきい値を満たすかどうか調べる。音節許容しきい値を満たす場合には、その(1つまたは複数の)音節が表示される。音節が音節許容しきい値を満たさない場合は、その音節を構成する(1つまたは複数の)単音が表示される。
【0011】
例えば、認識された単語が「embodiment」であり、しかしその認識された単語が、単語に関する許容しきい値を満たさない低い信頼度を有すると仮定する。音節が「em」、「bod」、「i」、「ment」であると仮定して、これらの音節の信頼度を、音節に関する許容しきい値とそれぞれ比較する。「bod」および「i」の信頼度が高い場合、これらの音節が表示される。音節「em」および「ment」は、単音に分解されて、単音に分解した形で表示される。したがって、最終的な表示は、「em 'bod' 'i' m (e) n t」のようになる。
【0012】
本発明の好ましい実施形態は、音声の1セクションに関するエラーの確率がより高いことを音声認識の被験者が知ることができるという利点を有する。これは、その音声セクションが、単語ではなく、音節または単音で置き換えられるからである。さらに、単語が不正確であってもいくつかの音節または単音が正確である可能性があるので、使用者が、その音節または単音に対応する正確な(1つまたは複数の)単語をより良く求めることができるはずである。
【0013】
最新の自動音声認識(ASR)システムは、音声をテキストに変換するように設計されている。そのため、これらのシステムは、単語に関する確率および信頼度尺度を求める。音声を音節に変換するASRシステムもいくつか存在する。これらのシステムでは、確率および信頼度尺度が音節に基づいており、単語には基づいていない。これらの確率および信頼度尺度を本発明の実施形態と共に使用することができるが、本発明の実施形態は、混成音声トランスクリプションに関する信頼度を求めることもできる。求めた結果を用いて、単語、その単語の要素である音節、またはそれら音節の要素である単音のいずれが、ある音声セグメントの最も信頼できるトランスクリプションとなるか計算することができる。
【0014】
ここで図1を参照すると、この図は、本発明の一実施形態による例示的な階層トランスクリプションおよび表示システム100のブロック図を示す。システム100は、ASRモジュール130と、セパレータ・モジュール140と、ディスプレイ・コントローラ・モジュール150と、ディスプレイ160とを備える。人(図示せず)が、マイクロフォン120に音声110を発し、その結果得られる電気波形が、ASRモジュール130によって操作される。ASRモジュール130は、音声をASR出力135に変換する。ASR出力135は、単語、または単語と音節との列を含むことができ、それと共にその列に関する開始および終了時間、ならびに仮説スコア(hypothesis score)を含むことができる。ASRモジュール130は、図2を参照しながらより詳細に述べる。
【0015】
セパレータ・モジュール140は、ASR出力135を受け取り、その出力を、単語および音節、ならびに任意選択で単音に分ける。セパレータ・モジュール140は、図3を参照しながらより詳細に述べる。したがって、セパレータ出力145は、単語および音節、単語および音節の信頼度、ならびに単語および音節の開始および終了時間を含むことができる。任意選択で、単音、単音の信頼度、ならびに単音の開始および停止時間も、セパレータ出力145に追加することができる。
【0016】
ディスプレイ・コントローラ・モジュール150は、セパレータ出力145を受け取り、この出力を階層形式でディスプレイ160に表示する。ディスプレイ・コントローラ・モジュール150はまた、システム100の様々なプログラム可能アスペクトを任意選択で制御することもできる。ディスプレイ・コントローラ・モジュール150自体のプログラム可能性は、図4を参照しながらより詳細に説明する。様々な階層表示スキームは、図5〜7を参照しながら説明する。
【0017】
一般に、システム100は以下のように動作する。人が、音声110を発し、生成し、この音声110がマイクロフォン120内で電気信号に変換される。これらの電気信号は、ASRモジュール130によって、1つまたは複数の単語および複数の音節を含むデータ・ストリーム(ASR出力135の一部)に変換される。セパレータ・モジュール140が、受信したデータ・ストリームを、単語および音節、ならびに任意選択で単音に分ける。セパレータ・モジュール140はまた、音節または単音の信頼度または確率、ならびに音声の一部を階層的に転記する方法について求める。ディスプレイ・コントローラ150は、この情報を使用して、正確である可能性が最も高いのはどの音声部分であるか求め、音声の階層表示を示すようにディスプレイ160を修正する。階層表示は、混成された単語、音節、および単音の表示を備えることができる。
【0018】
次に図2を参照すると、この図は、本発明の一実施形態によるASRモジュール130のブロック図を示す。ASRモジュール130は、信号処理モジュール210と、ボキャブラリ220と、汎用言語モデル230と、トピック言語モデル240と、音響プロトタイプ・モデル250と、高速合致デコーダ(fast match decoder)260と、詳細合致デコーダ270と、デコードされたデータ280とを備える。
【0019】
音声データは、信号処理モジュール210によって処理される。当技術分野で知られているように、信号処理モジュール210は、音声信号を収集するステップ、信号を重複するフレームに分割し、それにより各フレームがシステムの残りの部分によって個別に処理されるようにするステップといったステップを行うことができる。フレームを特徴抽出器に提供することができ、特徴抽出器は、一定の間隔で、例えば約10ミリ秒ごとに、信号からスペクトル特徴を抽出することができる。スペクトル特徴は通常、特徴ベクトルの形であり、これが次いで、高速合致デコーダ260および詳細合致デコーダ270によって操作される。信号処理モジュール210は、よく知られている機能を行う。
【0020】
ボキャブラリ220もよく知られているモジュールである。本発明の一実施形態では、ボキャブラリ220が、単語および音節を備える。例えば、ボキャブラリ220は、最も頻出度の高い2万語の英単語と、単語の一部分の英語での発音の全ての取り得る類を網羅する5千の音節とを含む場合がある。この手法は、初期ボキャブラリ内にない単語を表示することを可能にする。しかし、一般には、単語自体は表示されず、代わりに単語を構成する音節が表示される。また、この実施形態では、汎用言語モデル230(これもよく知られているデバイスである)が、言語モデル・スコアを単語/音節列に割り当てることができる。混成された単語/音節ボキャブラリを有するこのタイプの言語モデルは、2000年6月6日に発行されたKavensky他による「Apparatus and method for forming afiltered inflected language model for automatic speech recognition」という名称の米国特許第6073091号に記載されている。
【0021】
本発明の別の実施形態では、ボキャブラリ220が単語のみを含み、音節は、(例えばセパレータ・モジュール140による)後のデコーディング段階で生成される。次いで、汎用言語モデル230が、言語モデル・スコアを単語列に割り当てる。使用する実施形態は、信頼度スコアが付与される方法に応じて決まる。信頼度尺度が単語のみに関して定義されている場合、単語のみを有するボキャブラリ220を使用し、単語が低いスコアを有する場合にはその単語を音節にマップすることがより望ましい。ボキャブラリ220内にない発話された単語をデコードすることが望まれる場合、ボキャブラリ220での単語/音節の混成が有用になる場合がある。後者の手法では、単語および音節に適用することができるより洗練された信頼度尺度を使用することが有利である。そのような尺度は、本明細書で図9を参照しながら説明する。
【0022】
トピック言語モデル240は任意選択のものである。このモデルは、いくつかのトピックに制約された統計およびボキャブラリを含む。この言語モデルは、例えば、歴史、数学、または生物学など特定の教科の講義の教室で使用することができる。音響プロトタイプ・モジュール250は、発話された発声に関する音響スコアを計算するために使用される。音響プロトタイプ・モジュール250のいくつかの実装が可能である。音響プロトタイプ・モジュール250は、訓練音響データにより訓練される隠れマルコフ・モデルからなる場合がある。隠れマルコフ・モデルはまた、音節に関して作成することもでき、これは、「Syllable and Morheme-Based Automatic Indexing and Searching Methodand Apparatus for Textual Archive Systems」という名称の2000年9月15日出願の米国特許出願第09/663812号によって識別される特許出願によって説明されている。
【0023】
高速合致デコーダ260は、発話された音響発声に合致する候補単語または単語/音節のリストを生成する。適切な高速合致デコーダ260を説明する参考文献は、Gopalakrishnan等著「Fast Match Techniques」Automatic Speech Recognition,pp. 413-428, 1996, Kluwer Academic(出版元)である。高速合致デコーダ260は、単語または単語/音節、あるいはより厳密には音節出力273を生成する。音節デコーディングは、高速合致デコーディングの場合でさえも十分に正確である場合がある。次いで、このデコードされたデータ280を、図1に示されるようにセパレータ・モジュール140に送ることができる。任意選択で、高速合致デコーダからの出力273を、(図1に示される)ディスプレイ・コントローラ・モジュール150に直接ルーティングすることもできる。これは、一方が、場合によっては多くのエラーを伴う状態で迅速に求められ、もう一方が、エラーが比較的少ないプロセスによって転記される、2つのトランスクリプション表示が存在する状況で有用になる場合がある。これは、即時のフィードバックを可能にするが、時間が許す場合にはより良いトランスクリプションも提供する。
【0024】
詳細合致デコーダ270は、高速合致デコーダ260によって生成される出力273に比べて、より良いデコーディング精度を有する出力277を生成する。この出力277は、単語、または単語と音節との列を含むことができる。詳細合致を論じている参考文献は、Jelineck著「Statistical Methods for Speech Recognition」1998, the MITPressである。次いで、デコードされたデータ280を、セパレータ・モジュール140に送ることができる(図1または3参照)。
【0025】
次に図3を参照すると、この図は、本発明の一実施形態による単語/音節/単音セパレータ・モジュール140のブロック図を示す。セパレータ・モジュール140は、信頼度スコア機構310と、コンセンサス計算(consensus computation)320と、学生履歴比較330と、階層データ340とを備える。ディスプレイ・コントローラ150は、ディスプレイ・コントローラ150からこれらのモジュールへの接続によって図3に示されるように、これらのモジュールのアスペクトを任意選択で制御することができる。
【0026】
単語、または単語と音節とを含む高速合致データ273と、やはり単語、または単語と音節とを含む詳細合致データ277が、モジュール310、320、および330への入力である。3つのモジュール310〜330が全て、システム内で同時に使用されるわけでは必ずしもないことに留意されたい。図3は、音声処理システムで使用することができるモジュールの単なる代表例である。これは、以下でより詳細に論じる。信頼度スコア計算モジュール310は、図9を参照しながらより詳細に説明するが、一般に、単位時間当たりの信頼度を求めることを試みる。これは、単音に関する信頼度を求めることができるようにする。
【0027】
コンセンサス計算320を実施することもできる。コンセンサス計算は、Mangu等著「FindingConsensus in Speech Recognition」:Word Error Minimization and Other Applicationsof Confusion Networks」Computer Speech and Language 14, 2000, pp. 373-400に、より詳細に記載されている。基本的には、コンセンサス計算は、最も可能性が高い単語のシーケンス、すなわち全体として正解である可能性が最も高い単語のシーケンスを出力する従来の認識器とは異なり、最小数のエラーを含む単語のシーケンスを見出すことを試みる。これは、特定の位置で最も可能性が高い(または、単に、Nベスト・リスト(N-bestlist)中で最も頻繁に現れる)単語に関する仮説を認識器のNベスト・リスト中で見ることによって、各単語位置に関して個別の決定を行うことによって行われる。一般に、信頼度スコア計算310が使用されるか、またはコンセンサス計算320が使用されるかのどちらかである。また、所与のアプリケーションに有用なときには、信頼度計算の前にコンセンサス計算を挿入するなど両方の計算を使用することも可能である。学生履歴比較330は、モジュール310または320と組み合わせることができ、あるいはセパレータ・モジュール140内の唯一のモジュールにすることもできる。学生履歴比較330は、学生がリーディング・パッケージを使用するときなど、単語がすでに学習されている状況で有用である。
【0028】
これらのモジュール310〜330はそれぞれ、例えば単語、音節、または単音、およびそれぞれに関するスコア、信頼度、または確率を含む階層データ出力340を生成する。この階層データ340は、何を表示するか決定するためにディスプレイ・コントローラ150で使用することができる。
【0029】
選択されるモジュールまたはモジュールのグループは、アプリケーションのタイプ、およびディスプレイ・コントローラ150によって制御される他の因子に応じて決まる。例えば、システムがリーディング・チュータとして使用される場合、学生履歴比較330を使用することができる。この場合、学生履歴比較330は、学生がすでに学習している単語に関する情報を含む。この情報に応じて、単語または音節が表示される。例えば、単語がすでに学習されている場合には、その単語が表示され、そうでない場合には、音節が表示される。学生履歴比較は、学生がすでにいくつかの単語を知っているときに、リップ・リーディング(lip reading)を教えるために使用することもできる。
【0030】
学生履歴比較330は、リーディング・チュータに関連付けて使用されるとき、以下のように動作する。学生がテキストを大きな声で読む。そのテキストは、ディスプレイからのものであり、したがって、本発明を使用するASRシステムは、学生が何を読んでいるのかを知ることができる。ASRシステムは、学生が発した音声をデコードし、各音響発声に関する単語および単音をバッファに記憶する。ASRシステムは、単音列(すなわち、学生が発した音声をシステムがデコードした状態)を、システムのデータベースに記憶されたその単語に関する正確な単音列と比較する。学生が単語を発音した方法と、単語を発音すべき方法とに不一致が存在する場合、システムは、正確な単音の列を(単語の上に)表示して、不正確に発話された1つまたは複数の単音を強調する。
【0031】
例えば、学生が単語「CAT」を読み、この単語を「k a p」と言ったとする。システムは、そのデータベースから、単語「CAT」は単音列「ka t」をもつということを知る。システムは、「k a T」を表示して、「p」ではなく「t」と読むべきだということを強調する。システムは、ディスプレイ上の単語「CAT」の上に単音列「ka T」をプリントすることができる。
【0032】
システムは、以下のように学生履歴を考慮することができる。システムは、学生がいくつかの単語をうまく読むことができることを知ることができる。例えば、学生が、訂正を受けた後に、数回の試験段階の後、CATを「k a t」と読み始めたとする。システムは、この情報を使用して、そのデコーディングを向上することができる。ASRシステムがデコーディング・エラーをする確率がいくらか存在し、これは、学生が、単語を発音する際に誤っていないことを意味する。例えば、学生が単語「CAT」を読み、正確に「ka t」と発音したが、ASRシステムがミスをして、この学生が「k a p」と発音したと判定することがある。前述したように、システムは、学生がすでに単語「CAT」を正確に読むことができるようになっていることを知ることができる。システムはまた、デコードされた発声「ka p」に関する信頼度スコアを測定し、この信頼度スコアが比較的低いことを見出すことができる。このとき、システムは、エラーをしたのは学生ではなくASRシステムであると判定することができ、したがって、学生への訂正「ka T」をプリントしない。
【0033】
したがって、学生がリーディング・ミスをする可能性に関する履歴を使用することによって、信頼度スコアを向上させることができる。したがって、学生履歴比較330を使用するASRシステムは、(デコードされる発音として)学生が発したものを、その単語の正確な発音と比較して、発せられデコードされた発音を正確な発音と合致させ、不一致の単音を識別することができる。次いで、システムは、正確な発音を、不一致であって強調された単音と共にプリントすることができる。さらに、発せられた学生発音に関する信頼度スコアがしきい値よりも低く、かつ学生が単語を発音することができるという履歴上の証拠が存在する場合、システムは、訂正された発音をプリントしない。
【0034】
次に図4に移ると、ディスプレイ・コントローラ150のブロック図が、本発明の一実施形態に従って示されている。ディスプレイ・コントローラ150は、制御テーブル405と、1つまたは複数の制御モジュール450と、階層データ340と、ディスプレイ配置モジュール460とを備える。制御テーブル405は、ユーザが、コントローラに関する基準を設定できるようにする。そのような基準は、アプリケーション410と、遅延420と、許容確度430と、モジュールをイネーブルまたはディスエーブルする追加の基準441〜445とを含む。追加の基準は以下のようなものであり、それぞれが、それに対応するモジュールをディスエーブルまたはイネーブルする。基準441は高速合致デコーダ260に対応し、基準442は詳細合致デコーダ270に対応し、基準443は信頼度スコア計算310に対応し、基準444はコンセンサス計算320に対応し、基準445は学生履歴比較330に対応する。制御テーブル405は、この例では、リップ・リーディング411、コミュニケーション412、およびリーディング・チュータ413のアプリケーションに関して構成されている。
【0035】
遅延420は、単語が発音されたときと、その単語がディスプレイ160に現れるときとの許容される遅延の量を示す。通常、遅延は、2分の1秒程度またはそれ未満である。許容確度は、システムが音節または単音に変更する前に、単語に関するトランスクリプションがどの程度正確でなければならないかを示す。前述したように、音節または単音を表示する前に、所定の許容しきい値を満たさない低い信頼度を単語が有するかどうかをはじめに判定することが有利である。
【0036】
リップ・リーディング411アプリケーションを実施する際、システムは、tの遅延421と、41パーセントの許容確度431とを有し、高速合致デコーダ260およびコンセンサス計算320モジュールが(それぞれ基準441および444によって示されるように)イネーブルされる。コミュニケーション412アプリケーションを実施する際、システムは、tの遅延422と、50パーセントの許容確度432とを有し、高速合致デコーダ260、詳細合致デコーダ270、および信頼度スコア計算310モジュールが(それぞれ基準441、442、および443によって示されるように)イネーブルされる。リーディング・チュータ413アプリケーションが実施される際、システムは、tの遅延423と、60パーセントの許容確度433とを有し、詳細合致デコーダ270、信頼度スコア計算310、および学生履歴比較330モジュールが(それぞれ基準442、443、および445によって示されるように)イネーブルされる。
【0037】
一般に、高速合致デコーダ260、および詳細合致デコーダ270など他のデコーディング・ブロックは、常に作動している。高速合致デコーダ260は、完全になくすべきではないが、候補単語のより短いリストをプリントするように変更することができる。全体の許容遅延は、(高速合致遅延を含めた)デコーディング時間全体よりも短くすべきではない。しかし、高速合致および他のデコーディング・ブロックを、(例えば、高速合致単語のリストをより短くすることによって)より高速で走るように調節することができる。したがって、基準441および442は、それぞれ高速合致デコーダ260または詳細合致デコーダ270からの出力が表示されるかどうかを制御する。
【0038】
制御テーブル405のデータは、1つまたは複数の制御モジュール450によって使用され、このモジュールは、モジュールASR130、高速合致デコーダ260、詳細合致デコーダ270、信頼度スコア計算310、コンセンサス計算320、学生履歴比較330、およびディスプレイ配置モジュール460を構成する。1つまたは複数の制御モジュール450はまた、任意の他の必要な構成を実施することもできる。ディスプレイ配置モジュール460は、(1つまたは複数の)制御モジュール450によって構成することができ、スクロール・テキスト、スライド・テキスト、またはこれらの組合せを表示する。取り得る表示は、以下で図5〜7を参照して論じる。
【0039】
次に、図5に移ると、取り得る表示500が示されている。表示500には、2つのセクションが存在する。セクション510に、より正確な翻訳が示されている。この翻訳は通常、確度の高い単語を含み、確度がより低いときには音節を含む。セクション520には、正確さのより低い翻訳が示されている。この翻訳は、単語を含むこともでき、しかしこの例では、セクション520は音節のみを含む。このような表示500は、高速デコーディングが必要なリップ・リーディング中に使用することができる。図5の例では、音節1および2が単語1を構成し、音節3〜5が単語2を構成する。このバージョンでは、翻訳は、左から右にスクロールする。
【0040】
図6は、別の取り得る表示を示す。この表示では、翻訳は、ラインが埋まるまで右から左にスクロールし、次いで下から上にスクロールする。これは、映画でクレジットが示されるのと同様である。ここでは、単語、音節、および単音の混成が存在する。単音610は、低い確率の単音であり、括弧内に入れるなど何らかの表示技法によってそのようなものとして示される。これを行う他の方法は、高い確率の項目を強調表示する、または異なるフォント(太線、下線)で表示し、低い確率の項目をあまり顕著には表示しない(例えばイタリック体で、またはグレーで表示する)ことである。図6では、低確率の単音がイタリック体になっている。
【0041】
図7は、別の表示可能性を示す。この表示では、取り得る単音が、各適切な位置にリストされている。一般に、これらは、最大信頼度の単音を一番上に、より低い信頼度の単音を下にして順序付けられている。このタイプの表示は、単語、音節、および単音を用いて行うこともできることに留意されたい。例えば、ある単語が許容しきい値を満たさない低い信頼度を有し、その単語と同じ時間スパン中に、2つの音節が、音節許容しきい値を満たすものとして選択される場合、単語と2つの音節とを図7に示されるように表示することができる。これにより使用者は単語か音節かを選択することができるので、適切な翻訳に関する決定を行うことができるようになる。
【0042】
そのまま表示するか、またはより低いレベルの要素に分解するかを決定するために各レベル(単語、音節、または単音)で使用される信頼度しきい値は、より高いレベルの表現を表示することの利点と、そのレベルで不正確な項目を表示する潜在的な損害とのバランスを取ることによって選択される。
【0043】
次に図8を参照すると、方法800が、本発明の一実施形態による単語/音節処理に関して示されている。方法800は、音節に対応する単語が特定の確度しきい値を満たさない場合に、より正確な音節を表示することが望まれるときには常に実施される。同じ時間枠にわたって転記された音節に対応しない単語が転記される場合があることに留意されたい。すなわち、ある時間枠にわたって最も可能性が高い音節とみなされた音節が、実際には、その時間枠にわたって最も可能性が高いとみなされる単語に対応しない場合がある。
【0044】
方法800は、アプリケーションがリップ・リーディングに関するものかどうかを判定するステップ805から始まる。前述したように、アプリケーションの設定は、ディスプレイ・コントローラ150によって構成することができる。アプリケーションがリップ・リーディングに関するものである場合(ステップ805=YES)、詳細合致リストからのデコード・データのプリントの遅延が所定のしきい値未満であるかどうか判定される(ステップ825)。遅延が所定のしきい値遅延未満でない場合(ステップ825=NO)、音節が、高速合致デコーダからディスプレイにプリントされる。遅延しきい値は、図4を参照して論じたように、使用者によって構成可能である。遅延が所定のしきい値遅延未満である場合(ステップ825=YES)、信頼度スコアが所定の信頼度よりも大きいかどうか判定される(ステップ835)。大きい場合(ステップ835=YES)、単語がディスプレイにプリントされる(ステップ840)。信頼度スコアが所定の信頼度未満である場合(ステップ835=NO)、単語は、音節に変換されて(ステップ845)、音節がディスプレイにプリントされる(ステップ850)。
【0045】
アプリケーションがリップ・リーディングに関連しない場合(ステップ805=NO)、次に、アプリケーションがリーディング・チュータに関するものであるかどうか判定される(ステップ810)。アプリケーションがリーディング・チュータに関するものである場合、ディスプレイ・コントローラ150の制御テーブル405(図4参照)によって示される命令が実施される(ステップ815)。この一連のステップは、ステップ825〜850などリップ・リーディングに関して説明したものと非常に似ている。リーディング・チュータ・アプリケーションでは、高速合致デコーダを使用することはできず、これは、ステップ825が使用されないことを意味する。しかし、単語または音節が、これらの音声部分に関する信頼度レベルに基づいて、表示のために選択される。アプリケーションがリーディング・チュータとして使用されない場合(ステップ810=NO)、(図4に示される)ディスプレイ・コントローラ150の制御テーブル405によって定義される別のアプリケーションに関してシステムが使用されるかどうかを調べるためにチェックされる。特定のアプリケーションに関する(制御テーブル405によって決定される)他の基準が設定され、実行される。
【0046】
方法800は、音節デコーディングが所定の確度レベルに達していない場合に、単音の表示を含むように修正することができることに留意されたい。
【0047】
次に図9に移ると、方法900のブロック図、および方法900中に生じる様々なNベスト・リスト・コンテンツが、本発明の一実施形態に従って示されている。方法900は、時間に応じた信頼度を求めるために使用され、この信頼度は次いで、どの音声部分(単語または音節、および任意選択で単音)が最も確率の高い翻訳であるかを判定するために使用することができる。方法900は、ASRの出力が、単語と音節(任意選択で単音)の混成出力であるときに適用される。図9で、偶数が、Nベスト・リストのコンテンツに対応し、奇数が、Nベスト・リストで実施される方法ステップに対応する。Nベスト・リストが、ここに示されているもの以外に追加の情報を含むことができることに留意されたい。
【0048】
Nベスト・リスト910で、このリストは、単語および音節、その単語および音節に関する開始および終了時間、ならびに仮説スコアを含む。これは、ASR130が実行された後に生じるNベスト・リストである。システムが、このときに単語のみを含む場合もあることに留意されたい。ステップ915で、単語および音節は、対応する単音のシーケンスに変換される。元の仮説での各トークンの最初の単音は、そのトークンの開始時間を引き継ぐ。元の仮説での各トークンの最後の単音は、そのトークンの終了時間を引き継ぐ。この時点で、一時Nベスト・リスト920は、単音、いくつかの開始および終了時間、ならびに仮説スコアを含む。ステップ925で、トップ仮説単音に関する欠落している開始および終了時間が、既存の時間を挿間することによって埋められ、それにより元の仮説での同じトークンから生じる全ての単音が同じ持続期間を与えられる。残りのN−1仮説の単音に関する欠落している開始および終了時間は、以下のように埋められる。N−1の単音シーケンスがそれぞれ、2つのシーケンス間の編集(またはLevehnstein)距離を最小にすることによってトップ・シーケンスと位置合わせされる。シーケンス中の各単音は、トップ仮説に関して合致すると識別される、挿入される、または置換される。合致する単音では、開始および終了時間が、トップ仮説から考慮中の仮説にコピーされる。挿入または置換される単音のシーケンスでは、開始および終了時間は、すでに求められている時間の間で均等に間隔を取られるように設定される。
【0049】
ステップ925の後、一時Nベスト・リストは、単音、開始および終了時間、ならびに仮説スコアを含む(これがNベスト・リスト930である)。ステップ935で、スケーリング・ファクタおよび指数を乗算された各仮説の仮説スコアが得られる。これらは、音声解析での標準ステップである。他の非線形単調増加関数を使用することもできる。次いで、変換されたスコアが、各スコアをスコアの合計で割ることによって正規化される。これらの数は、仮説の確率と呼ばれる。この時点で、Nベスト・リストは、(Nベスト・リスト940によって示されるように)各完全な仮説に関する単音、開始/終了時間、および確率を含む。確率に関して、10ベスト・リストが存在する場合、合計が1となる10個の確率が存在する。
【0050】
ステップ945で、フレーム信頼度が計算される。各時間フレームtに関して、フレーム信頼度は、時間tで仮説された単音がトップ仮説で時間tで仮説された単音に合致する(トップ仮説を含む)全ての仮説の確率を加えることによって計算される。この時点で、Nベスト・リストは、(Nベスト・リスト950によって示されるように)時間に応じた信頼度を含む。このNベスト・リストが、単音、開始および終了時間、ならびに確率など前述した全ての項目を含むことができることに留意されたい。
【0051】
ステップ955で、2つのNベスト・リスト910および950が組み合わされて、音節および単語(任意選択で単音)の信頼度が得られ、これがNベスト・リスト960をもたらす。基本的に、各フレーム信頼度は、ある音声部分にわたって平均化されて、その音声部分に関する信頼度を求める。例えば、単音が3つのフレームにまたがっている場合、単音に割り当てられる信頼度は、3つのフレームに関する信頼度の平均である。同様に、単語が10個のフレームにまたがっている場合、その単語に割り当てられる信頼度は、10個のフレームそれぞれに関する信頼度の平均である。またがるフレームの信頼度の平均を使用することは、ある音声部分に関する信頼度を求める1つの方法である。しかし、他の方法を使用することもできる。例えば、音声部分の持続期間にわたるフレーム信頼度の幾何平均、または最小または最大を使用することもできる。
【0052】
望みであれば、方法900で、全N個の仮説の全ての単音に信頼度スコアを割り当てることができる。仮説番号iのフレーム信頼度は、時間tで仮説される単音が仮説番号iで時間tで仮説された単音に合致する(仮説番号iを含めた)全ての仮説の確率を加えることによって計算される。次いで、仮説番号iの全ての単音に関する信頼度が、トップ仮説に関して述べたようにフレーム信頼度スコアを組み合わせることによって計算される。
【0053】
時間に応じた信頼度の尺度を求めて使用することによって、方法900は、単音、音節、および単語の信頼度を1つの方法によって求めることができるようにする。方法900の結果を他の結果と組み合わせて、別のレベルの信頼度測定を提供することができることに留意されたい。例えば、ASR130によって使用される言語モデル・スコアまたは音響モデル・スコアを、信頼度900と組み合わせることができる。
【0054】
次に図10を参照すると、本発明の実施形態を実行するのに適した例示システムが示されている。システム1000は、コンピュータ・システム1010およびコンパクト・ディスク(CD)1050を備える。コンピュータ・システム1010は、プロセッサ1020と、メモリ1030と、ディスプレイ1040とを備える。
【0055】
当技術分野で知られているように、本明細書で論じた方法および装置を、コンピュータ可読コード手段が具体化されているコンピュータ可読媒体をそれ自体備える製造物品として分散させることもできる。コンピュータ可読プログラム・コード手段は、コンピュータ・システム1010などのコンピュータ・システムに関連して動作可能であり、本明細書で論じた方法を行うため、または装置を作成するためのステップの全てまたはいくつかを実施する。コンピュータ可読媒体は、記録可能媒体(例えばフロッピー(R)・ディスク、ハード・ドライブ、コンパクト・ディスク、またはメモリ・カード)、または伝送媒体(例えば、光ファイバ、ワールドワイドウェブ、ケーブル、あるいは時分割多重接続、符号分割多重接続、または他の無線周波数チャネルを使用するワイヤレス・チャネルを備えるネットワーク)であってよい。コンピュータ・システムと共に使用するのに適した情報を記憶することができる、知られている、または開発される任意の媒体を使用することができる。コンピュータ可読コード手段は、磁気媒体での磁気変化、またはコンパクト・ディスク1050などコンパクト・ディスクの表面での高さ変化など、命令およびデータをコンピュータが読むことができるようにする任意の機構である。
【0056】
メモリ1030は、本明細書で開示した方法、ステップ、および機能を実施するようにプロセッサ1020を構成する。メモリ1030は、分散させる、または局所化することができ、プロセッサ1020は、分散させる、または単独のものにすることができる。メモリ1030は、電気、磁気、または光メモリ、あるいはこれらまたはその他のタイプの記憶デバイスの任意の組合せとして実装することができる。さらに、用語「メモリ」は、プロセッサ1010によってアクセスされるアドレス可能空間内のアドレスから読み出す、またはそのアドレスに書き込むことができる任意の情報を包含するように十分広く解釈すべきである。この定義では、ネットワーク上の情報は、プロセッサ1020がネットワークからその情報を検索することができるので、やはりメモリ1030内にある。プロセッサ1030を構成する各分散プロセッサは通常、それ独自のアドレス可能メモリ空間を含むことに留意されたい。また、コンピュータ・システム1010の全てまたはいくつかを、アプリケーション専用または汎用集積回路に組み込むことができることに留意されたい。
【0057】
ディスプレイ1040は、図5〜7に示されるタイプの階層情報を生成するのに適した任意のタイプのディスプレイである。一般に、ディスプレイ1040は、コンピュータ・モニタ、または他の同様のビデオ・ディスプレイである。
【0058】
したがって、図示したものは、階層形式で音声部分を表示するための方法およびシステムである。音声認識中、本発明の好ましい実施形態によるシステムは、最も確率の高い音声部分を求めて、適切な単語、音節、または単音を表示することができる。また、任意の音声部分(単語、音節、単音、または任意の他の音声の断片)の信頼度を簡単に求めることができるようにする、時間の尺度として信頼度を求める独自の方法を説明した。
【0059】
図示し、本明細書で説明した実施形態および代替形態は、本発明の原理の単なる例であり、本発明の範囲および精神を逸脱することなく様々な修正形態を当業者が実施することができることを理解されたい。例えば、セパレータ・モジュール140は、単語を音節から分離する(かつ、望みであれば音節を単音から分離する)ための追加の、または異なるモジュールを備えることができる。
【0060】
さらに、本明細書では、単語および音節を備える認識されたセンテンス部分を提供するステップと、認識されたセンテンス部分の複数の仮説スコアを単音レベルに変換するステップと、変換された仮説スコアを使用することによって、認識されたセンテンス部分の信頼度を時間に応じて求めるステップと、時間に応じた信頼度を使用して、認識されたセンテンス部分中の音声部分に関する信頼度を求めるステップとを含む方法を開示した。
【0061】
さらに、本明細書では、時間に応じた信頼度を使用することによって、認識されたセンテンス部分中の一連の単音を求めるステップであって、その列の中の各単音が最も可能性の高い単音として選択されるステップと、単語の正確な発音を求めるステップと、単語に対応する列の中の単音が、単語の正確な発音に合致するかどうかを求めるステップと、1つまたは複数の単音が不正確の場合に、単語の正確な発音を表示して、不正確な単音を強調するステップとを含む方法を開示した。
【0062】
さらに、本明細書では、認識されたセンテンス部分の複数の仮説スコアを単音レベルに変換するステップがさらに、認識されたセンテンス部分に関する複数の仮説を求めるステップと、複数の仮説を単音のシーケンスに変換するステップと、各仮説スコアからの確率を求めるステップと、各単音に関する開始および終了時間を求めるステップであって、それにより、確率を各単音に割り当てることができ、それにより仮説スコアが単音レベルに変換されるステップとを含み、時間に応じた信頼度を求めるステップが、複数の仮説、関連する確率および単音を、複数のフレームそれぞれに関連付けるステップと、各フレームに関して、時間tで仮説される単音がトップ仮説で時間tで仮説された単音と合致する全ての仮説の確率を加えることによってフレーム信頼度を計算するステップとを含む上述した方法を論じた。
【0063】
さらに、本明細書では、時間に応じた信頼度を使用して、認識されたセンテンス部分中の音声部分に関する信頼度を求めるステップがさらに、対象の各音声部分に関して、ある時間枠にわたる音声部分を選択するステップと、その時間枠にわたる平均信頼度を求めるステップと、音声部分の信頼度として、その時間枠にわたる平均信頼度を均等化するステップとを含む上述した方法を開示している。
【0064】
さらに、本明細書では、入力された音声の階層トランスクリプションおよび表示のための方法であって、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップと、その音声部分に関する所定の基準を満たす音声部分を表示するステップとを含む方法を開示した。
【0065】
さらに、本明細書では、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップが、音声部分に関する時間に応じた信頼度を求めるステップと、単語がわたっている時間枠の平均信頼度を求めることによって単語に関する信頼度を求めるステップと、単語の信頼度が所定の単語信頼度を満たすかどうかを求めるステップとを含み、音声部分に関する所定の基準を満たす音声部分を表示するステップが、単語の信頼度が所定の単語信頼度を満たす場合に単語を表示するステップと、単語の信頼度が所定の単語信頼度を満たさない場合に、単語に対応する少なくとも1つの音節を表示するステップとを含む上述した方法を開示した。
【0066】
さらに、本明細書では、ある音声部分に関して、その音声部分に関する所定の基準を満たすのは複数の音声部分のどれかを求めるステップが、各音節に関する平均信頼度を求めることによって単語に対応する少なくとも1つの音節それぞれに関する信頼度を求めるステップであって、各音節が、単語がわたる時間枠に等しい、またはそれ未満の期間にわたっているステップと、各音節に関する信頼度が所定の音節信頼度を満たすかどうかを判定するステップとを含み、音声部分に関する所定の基準を満たす音声部分を表示するステップが、各音節に関して、音節の信頼度が所定の音節信頼度を満たす場合に音節を表示するステップと、各音節に関して、音節の信頼度が所定の音節信頼度を満たさない場合に音節に対応する少なくとも1つの単音を表示するステップとを含む方法が開示されている。
【図面の簡単な説明】
【0067】
【図1】本発明の一実施形態による例示階層トランスクリプションおよび表示システムのブロック図である。
【図2】本発明の一実施形態による自動音声認識(ASR)モジュールのブロック図である。
【図3】本発明の一実施形態による単語/音節/単音セパレータのブロック図である。
【図4】本発明の一実施形態によるディスプレイ・コントローラのブロック図である。
【図5】本発明の実施形態による例示的な表示である。
【図6】本発明の実施形態による例示的な表示である。
【図7】本発明の実施形態による例示的な表示である。
【図8】本発明の一実施形態による、単語/音節処理に関する方法の流れ図である。
【図9】本発明の一実施形態による方法、およびその方法中に生じる様々なNベスト・リスト・コンテンツのブロック図である。
【図10】本発明の実施形態を実行するのに適した例示システムのブロック図である。

Claims (5)

  1. 入力された音声のトランスクリプションおよび表示のための方法であって、
    音声部分を単語に変換するステップと、
    単語の信頼度を求めるステップと
    を含み、さらに、
    単語の信頼度がしきい値信頼度を満たす場合に、単語を表示するステップと、
    単語の信頼度がしきい値信頼度を満たさない場合に、単語に対応する少なくとも1つの音節を表示するステップと
    を含むことを特徴とする方法。
  2. 少なくとも1つの音節を表示する前記ステップが、
    少なくとも1つの音節の信頼度を求めるステップと、
    少なくとも1つの音節の信頼度がしきい値信頼度を満たさない場合に、少なくとも1つの音節に対応する少なくとも1つの単音を表示するステップと
    を含む請求項1に記載の方法。
  3. プログラムがコンピュータ・システム上で走るときに、前記方法請求項のいずれかの方法ステップを行うように適合されたプログラム・コードを有するコンピュータ・プログラム。
  4. 入力された音声のトランスクリプションおよび表示のためのシステムであって、
    音声部分を単語に変換する手段と、
    単語の信頼度を求める手段と
    を含み、さらに、
    単語の信頼度がしきい値信頼度を満たす場合に、単語を表示する手段と、
    単語の信頼度がしきい値信頼度を満たさない場合に、単語に対応する少なくとも1つの音節を表示する手段と
    を備えることを特徴とするシステム。
  5. 少なくとも1つの音節を表示する前記手段が、
    少なくとも1つの音節の信頼度を求める手段と、
    少なくとも1つの音節の信頼度がしきい値信頼度を満たさない場合に、前記少なくとも1つの音節に対応する少なくとも1つの単音を表示する手段と
    を備える請求項4に記載のシステム。
JP2002574654A 2001-03-16 2002-01-28 入力された音声のトランスクリプションおよび表示 Expired - Fee Related JP3935844B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/811,053 US6785650B2 (en) 2001-03-16 2001-03-16 Hierarchical transcription and display of input speech
PCT/GB2002/000359 WO2002075723A1 (en) 2001-03-16 2002-01-28 Transcription and display of input speech

Publications (2)

Publication Number Publication Date
JP2004526197A true JP2004526197A (ja) 2004-08-26
JP3935844B2 JP3935844B2 (ja) 2007-06-27

Family

ID=25205414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002574654A Expired - Fee Related JP3935844B2 (ja) 2001-03-16 2002-01-28 入力された音声のトランスクリプションおよび表示

Country Status (7)

Country Link
US (1) US6785650B2 (ja)
EP (1) EP1368808B1 (ja)
JP (1) JP3935844B2 (ja)
CN (1) CN1206620C (ja)
AT (1) ATE293274T1 (ja)
DE (1) DE60203705T2 (ja)
WO (1) WO2002075723A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271283B2 (en) 2005-02-18 2012-09-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech by measuring confidence levels of respective frames
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US6915258B2 (en) * 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US8321427B2 (en) * 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
EP1524650A1 (en) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Confidence measure in a speech recognition system
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US20080140398A1 (en) * 2004-12-29 2008-06-12 Avraham Shpigel System and a Method For Representing Unrecognized Words in Speech to Text Conversions as Syllables
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US8321197B2 (en) * 2006-10-18 2012-11-27 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
WO2008084476A2 (en) * 2007-01-09 2008-07-17 Avraham Shpigel Vowel recognition system and method in speech to text applications
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US8271281B2 (en) * 2007-12-28 2012-09-18 Nuance Communications, Inc. Method for assessing pronunciation abilities
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
TWI377560B (en) * 2008-12-12 2012-11-21 Inst Information Industry Adjustable hierarchical scoring method and system
KR101634247B1 (ko) * 2009-12-04 2016-07-08 삼성전자주식회사 피사체 인식을 알리는 디지털 촬영 장치, 상기 디지털 촬영 장치의 제어 방법
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
KR20130005160A (ko) * 2011-07-05 2013-01-15 한국전자통신연구원 음성인식기능을 이용한 메세지 서비스 방법
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9020803B2 (en) * 2012-09-20 2015-04-28 International Business Machines Corporation Confidence-rated transcription and translation
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
GB2511078A (en) * 2013-02-22 2014-08-27 Cereproc Ltd System for recording speech prompts
CN103106900B (zh) * 2013-02-28 2016-05-04 用友网络科技股份有限公司 语音识别装置和语音识别方法
KR20150092996A (ko) * 2014-02-06 2015-08-17 삼성전자주식회사 디스플레이 장치 및 이를 이용한 전자 장치의 제어 방법
CA2887291A1 (en) * 2014-04-02 2015-10-02 Speakread A/S Systems and methods for supporting hearing impaired users
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US20190221213A1 (en) * 2018-01-18 2019-07-18 Ezdi Inc. Method for reducing turn around time in transcription
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US6006183A (en) 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
DE19821422A1 (de) 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
WO2000058949A1 (en) * 1999-03-25 2000-10-05 Kent Ridge Digital Labs Low data transmission rate and intelligible speech communication
EP1088299A2 (en) * 1999-03-26 2001-04-04 Scansoft, Inc. Client-server speech recognition
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271283B2 (en) 2005-02-18 2012-09-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech by measuring confidence levels of respective frames
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Also Published As

Publication number Publication date
ATE293274T1 (de) 2005-04-15
DE60203705T2 (de) 2006-03-02
EP1368808A1 (en) 2003-12-10
DE60203705D1 (de) 2005-05-19
US6785650B2 (en) 2004-08-31
WO2002075723A1 (en) 2002-09-26
JP3935844B2 (ja) 2007-06-27
EP1368808B1 (en) 2005-04-13
CN1206620C (zh) 2005-06-15
US20020133340A1 (en) 2002-09-19
CN1509467A (zh) 2004-06-30

Similar Documents

Publication Publication Date Title
JP3935844B2 (ja) 入力された音声のトランスクリプションおよび表示
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
US6862568B2 (en) System and method for converting text-to-voice
US6990450B2 (en) System and method for converting text-to-voice
Fosler-Lussier Dynamic pronunciation models for automatic speech recognition
US6990451B2 (en) Method and apparatus for recording prosody for fully concatenated speech
US7624013B2 (en) Word competition models in voice recognition
US6871178B2 (en) System and method for converting text-to-voice
Goronzy Robust adaptation to non-native accents in automatic speech recognition
Kasuriya et al. Thai speech corpus for Thai speech recognition
KR20080015935A (ko) 합성 생성된 음성 객체의 발음 정정
Arslan et al. Selective training for hidden Markov models with applications to speech classification
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
US6990449B2 (en) Method of training a digital voice library to associate syllable speech items with literal text syllables
EP3791388A1 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
Dilley et al. The RaP (Rhythm and Pitch) Labeling System
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
US7451087B2 (en) System and method for converting text-to-voice
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
Arslan Foreign accent classification in American English
RU2119196C1 (ru) Способ лексической интерпретации слитной речи и система для его реализации
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
CN112988955B (zh) 多语语音识别及主题语意分析方法与装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060518

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070320

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees