JP4714694B2 - 音声−テキストトランスクリプションシステムの誤り検出 - Google Patents

音声−テキストトランスクリプションシステムの誤り検出 Download PDF

Info

Publication number
JP4714694B2
JP4714694B2 JP2006537527A JP2006537527A JP4714694B2 JP 4714694 B2 JP4714694 B2 JP 4714694B2 JP 2006537527 A JP2006537527 A JP 2006537527A JP 2006537527 A JP2006537527 A JP 2006537527A JP 4714694 B2 JP4714694 B2 JP 4714694B2
Authority
JP
Japan
Prior art keywords
text
speech
audio signal
signal
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006537527A
Other languages
English (en)
Other versions
JP2007510943A (ja
JP2007510943A5 (ja
Inventor
シュラム,ハオケ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007510943A publication Critical patent/JP2007510943A/ja
Publication of JP2007510943A5 publication Critical patent/JP2007510943A5/ja
Application granted granted Critical
Publication of JP4714694B2 publication Critical patent/JP4714694B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Description

本発明は、音声−テキストトランスクリプションシステム及び方法の分野に関し、より詳細には、音声−テキストトランスクリプションシステムにおける誤り検出に関する。
音声トランスクリプション及び音声認識システムは、音声、たとえば話されたディクテーション(spoken dictation)を認識し、認識された音声をテキストに文字で置き換える。音声トランスクリプションシステムは、医療セクタ又はリーガルプラクティスにおいて今日では広く使用されている。Philips Electronics NVのSpeech MagicTM及びIBM CorporationのVia VoiceTMシステムのような多様な音声トランスクリプションシステムが存在する。人間のトランスクリプショニストと比較して、一方で、音声トランスクリプションシステムは、時間及びコストを節約するが、他方で、人間のトランスクリプショニストよりも、高い精度の音声理解及びコマンド解釈を提供することができない。
音声−テキストトランスクリプションシステムにより発生されたテキストは、誤ったテキスト部分を必然的に含んでいる。かかる誤ったテキスト部分は、音声が記録されている雑音、又はシステムが適切に適合することができない異なるスピーカのような異なる環境条件のような、多くの理由のために生じる。句読点に関連するディクテーション内の話されたコマンド、テキストフォーマット又はタイプフェースは、実際に単語として文字に置き換えられる代わりに、音声−テキストトランスクリプションシステムにより適切に解釈される必要がある。
音声−テキストトランスクリプションシステムは、制限されたコマンド解釈機能と同様に、制限された音声認識機能を特徴とするので、文字に置き換えられたテキストにおいて必然的に誤りを生成する。ディクテーションがテキストに適切に変換されたことを保証するため、音声−テキストトランスクリプションシステムの生成されたテキストは、プルーフリーディングステップにおいて、誤り及び誤ったテキスト部分についてチェックされる必要がある。プルーフリーディングは、人間のプルーフリーダにより典型的に実行される必要がある。プルーフリーダは、ディクテーションのオリジナルスピーチ信号を、音声−テキストトランスクリプションシステムにより発生された文字で置き換えられたテキストと比較する。
比較の形式でのプルーフリーディングは、文字で置き換えられたテキストを同時に読みつつ、オリジナルの音声信号を聞くことで典型的に実行される。特に、この類の比較は、視覚情報の形式でのテキストは、音声情報の形式で提供された音声信号と比較される必要があるので、プルーフリーダを極端に使い果たす。したがって、比較は、ディクテーションの期間に対応する時間についてプルーフリーダの高い密度を必要とする。
音声−テキストトランスクリプションシステムの誤り率は20%以下であり、近い将来には減少する場合さえあることを考慮して、プルーフリーディングは、文字で置き換えられたテキストの主要部分について必要ではない。しかし、テキストのオリジナルソースは、それを聞くことでシーケンシャルな方法でのみアクセス可能な音声信号としてのみ利用可能である。書かれたテキストと音響信号との比較は、その完全な形で音響信号を聞くことで実行することができる。したがって、プルーフリーディングは、トランスクリプションプロセスそれ自身よりも時間のかかる場合さえある。
本発明は、自動音声−テキストトランスクリプションシステムにより生成されたテキスト内での効率的な誤り検出のための方法、システム及びコンピュータプログラムプロダクトを提供することにある。
本発明は、音声−テキストトランスクリプションシステムのための誤り検出の方法を提供する。音声−テキストトランスクリプションシステムは、第一の音声信号を受け、この第一の音声信号をテキストに文字で置き換える。人間のプルーフリーダにより実行されるべきプルーフリーディング(proof reading)又は補正手順を容易にするため、文字で置き換えられたテキスト(transcripted text)は、第二の合成の音声信号に再び変換される。このようにして、プルーフリーダは、第一の音声信号を文字で置き換えられたテキストと比較する代わりに、第一及び第二の音声信号からなる2つの音響信号を比較する必要があるだけである。第一及び第二の音声信号は、たとえばステレオヘッドフォンを介してプルーフリーダに供給される。このように、プルーフリーダは、第一及び第二の音声信号を同時に聞き、2つの音声信号間の潜在的な変動を容易に検出し、音声−テキストトランスクリプションプロセスで誤りが生じたことを示すことができる。
文字で置き換えられたテキストの第二の音声信号への再変換は、いわゆるテキスト−音声合成システムにより実行される。テキスト−音声合成システムの例は、たとえばEP0363233及びEP0706170に開示されている。典型的なテキスト−音声合成システムは、声の記録された部分が記憶されるデータベースを含むダイフォン合成技術又はユニット選択技術に基づいている。
本発明の好適な実施の形態によれば、第一の音声信号に同期する文字で書き取られたテキストからの合成の第二の音声信号を発生する方法は、音声認識プロセスを逆転することである。(たとえば、第一の音声信号の10msの部分を表す)入力の特徴ベクトルから出力のテキストを生成する代わりに、音声認識システムは、入力のテキストからの出力の特徴ベクトルを生成するためにも適用される。これは、テキストを(コンテクスト(context)に依存する)音素系列にはじめに変換し、音素系列を隠れマルコフモデル(HMM)シーケンスに続いて変換することで達成することができる。次いで、連鎖HMMは、別個のHMMの状態シーケンスに従って出力の特徴ベクトル系列を生成する。第一の音声信号と第二の音声信号との間の同期をサポートするため、第二の音声信号を生成するHMM状態シーケンスは、前の音声認識ステップで得られた最適な(ビタビ)状態シーケンスであり、ここで第一の音声信号はテキストに変換される。この状態シーケンスは、それぞれの特徴ベクトルを別個の隠れマルコフモデル状態に揃え、したがって文字に置き換えられたテキストの別個の部分に揃える。
本発明の更なる好適な実施の形態によれば、第一の音声信号の文字に置き換えられたテキストから抽出された第二の音声信号の速度及び/又はボリュームは、第一の音声信号の速度及び/又はボリュームに整合する。文字に置き換えられたテキストからの第二の音声信号の同期は、第一の、自然の音声信号の速度及び/又はボリュームに関して実行される。これは、同期される2つの音響信号間の比較は、同期されない2つの音響信号間の比較よりも非常に容易であるので有利である。したがって、文字に置き換えられたテキストの同期は、第一の、自然の音声信号の速度及びダイナミックレンジと同様に、文字に置き換えられたテキストのコーパスそれ自身に依存する。
本発明の更なる好適な実施の形態によれば、第一の音声信号は変換の目的である。好ましくは、フィルタ機能のセットが第一の音声信号に適用され、第一の音声信号のスペクトルを変換する。このように、第一の音声信号のスペクトルは、同期された第二の音声信号のスペクトルに同化する。結果として、自然の第一の音声信号及び合成された第二の音声信号の音は近づき、人間のプルーフリーダにより実行されるべき2つの音声信号の更なる比較が容易になる。最後に、2つに人口的に発生されたか又は人口的に聞こえる音響信号は、人工的かつ1つの自然の音響信号の代わりに比較される必要がある。
本発明の更なる好適な実施の形態によれば、第一及び第二の音声信号を減算又は重ね合わせすることで更なる信号が生成される。第一の音声信号と第二の音声信号を現在することでこの種の比較信号が生成されたとき、この比較信号の振幅は、第一の音声信号と第二の音声信号との間の変動を示す。特に、第一及び第二の音声信号の間の大きな変動は、音声−テキストトランスクリプションシステムが誤りを生じたことの示唆である。したがって、比較信号は、音声−テキストトランスクリプションプロセスで誤りが生じたかに関する直接の示唆を与える。比較信号は、2つの音声信号の現在により必ずしも生成される必要はない。一般に、第一及び第二の音声信号からの比較信号につながる広く多様な方法は、たとえば、音声信号の重ね合わせ又は畳み込みにより考えることができる。
本発明の更なる好適な実施の形態によれば、比較信号は、聴覚的及び/又は視覚的にプルーフリーダに供給される。このように、生成された比較信号はプルーフリーダに供給される。この比較信号を利用して、プローフリーダは、誤りのある文字に置き換えられたテキストの部分を容易に識別することができる。特に、比較信号が文字に置き換えられたテキストで視覚的に供給されたとき、プルーフリーダの注目は、望ましい比較信号が対応するテキスト部分に惹き付けられる。低い振幅の比較信号に関連された正しく文字に置き換えられたテキストの主要な部分は、プルーフリーディングプロセスでスキップされる。結果的に、プルーフリーダ及びプルーフリーディングプロセスの効率は、著しく向上される。
本発明の更なる好適な実施の形態によれば、誤り検出の方法は、比較信号の振幅が予め定義されたレンジを超えたときに関する誤りの示唆を生成する。たとえば、第一及び第二の音声信号の現在により比較信号が生成されたとき、誤りの指示は、比較信号の振幅が予め定義された閾値を超えるときにプルーフリーダに出力される。この誤りの示唆により、プルーフリーダは、もはや、厄介に聞こえる比較信号を観察又は聞く必要がない。誤りの示唆は、たとえば別個のリンギングトーンにより実現される。
本発明の更なる好適な実施の形態によれば、誤りの示唆は、グラフィカルユーザインタフェースにより文字に置き換えられたテキストないで視覚的に出力される。このように、プルーフリーダは、もはや、2つの音声信号を聞くか又は比較する必要がない。さらに、第一及び第二の音声信号間の比較は、比較信号により全体的に表現される。比較信号は予め定義された閾値を超えるケースでのみ、誤りの示唆は、文字に置き換えられたテキスト内で出力される。プルーフリーダのタスクは、誤りの指示で割り当てられたテキスト部分の手動の制御に低減する。プルーフリーダは、潜在的に謝りなるこれらテキスト部分をシステマティックに選択する場合がある。音声−テキストトランスクリプションシステムが誤りを生成したかをチェックするため、プルーフリーダは、誤りの指示で割り当てられたテキスト部分に対応する第一及び第二の音声信号のクリッピングを聞くのみである。
したがって、本方法は、誤りかも知れない文字に置き換えられたテキストのテキスト部分のみをフィルタリングするアプローチを提供する。完全な第一の音声信号を聞くこと、及びプルーフリーディングのために全体の文字に置き換えられたテキストを読取ることは、もはや必要とされない。人間のプルーフリーダにより実行されるべきプルーフリーディングは、誤り検出システムにより潜在的に誤っているとして識別されたテキスト部分に効果的に低減する。プルーフリーディングプロセスの減少の時間の露出と同様にして、プルーフリーディングの全体の効率が向上される。
本発明の更なる好適な実施の形態によれば、テキストにおける別個のタイプの誤りを示す比較信号の予め定義されたパターンを識別するため、比較信号にパターン認識が実行される。音声−テキストトランスクリプションシステムにより生成された誤りは、典型的に、第一の、自然の音声信号の部分の誤った解釈による。かかる誤りは、特に、異なる意味すなわち異なる綴りをもつ類似の周囲の単語のような、自然の音声信号の曖昧な部分について生じる。たとえば、音声−テキストトランスクリプションシステムは、たとえば別個の話された単語が類似の周囲の単語として誤って認識されたときに、意味のない単語を生成する場合がある。かかる混乱は、トランスクリプションプロセスの間に数回生じる場合がある。ここで文字に置き換えられたテキストが第二の音声信号に再変換されたとき、さらに、第一及び第二の音声信号が先に記載された比較信号により比較されたとき、かかる2つの単語間の混乱は、比較信号における別個のパターンにつながる場合がある。
比較信号に適用されるパターン認識により、トランスクリプションシステムにより生成された所定のタイプの誤りは、直接に識別される場合がある。音声−テキストトランスクリプションシステムにより生成された所定のタイプの誤りに対応する別個のパターンは、典型的に、ある種の記憶手段により記憶され、異なるタイプの誤りを識別するために誤り検出方法に供給される。さらに、あるタイプの誤りを示す如何なる公知のパターンに整合しない比較信号におけるパターンは、プルーフリーダにより手動で実行される誤り及び訂正手順に割り当てられる。このように、誤り検出の方法は、個別のタイプの誤りに割り当てられた比較信号における様々なパターンを収集する場合がある。かかる機能は、独立の学習として解釈される。
本発明の更なる好適な実施の形態によれば、訂正の示唆には、音声−テキストトランスクリプションシステムにより生成された検出されたタイプの誤りが提供される。文字で置き換えられたテキストにおける別個のタイプの誤りは、比較信号の対応するパターンにより識別されるので、誤りの源、誤って認識された音声信号の部分を解決することができる。訂正の示唆は、グラフィカルユーザインタフェースにより視覚的に提供されることが好ましい。人間のプルーフリーダにより実行される必要があるプルーフリーディングは、理想的には、誤り検出システムにより提供された訂正の示唆を許容又は拒否するステップに低減する。プルーフリーダが誤り訂正を受けたとき、誤り検出システムは、文字で置き換えられたテキストの誤ったテキスト部分を生成された訂正の示唆で自動的に置き換える。誤り検出システムにより提供される訂正の示唆をプルーフリーダが拒否した他のケースが与えられると、プルーフリーダは、文字で置き換えられたテキストの誤ったテキスト部分を手動的に訂正する必要がある。
音声−テキストトランスクリプションシステムにより生成されたテキストでの誤り検出の記載される方法及びシステムは、文字で置き換えられたテキストのプルーフリーディングのための効率的かつ時間のかからないアプローチを提供する。本質的に欠くことのできない人間のプルーフリーダの本質的なタスクは、文字で置き換えられたテキスト内での、最小の数の潜在的に誤って認識されたテキスト部分に低減する。プルーフリーディングの従来の方法と比較して、プルーフリーダは、もはや、音声−テキストトランスクリプションシステムにより文字で置き換えられた全体の自然の音声信号を聞く必要がない。
以下では、本発明の好適な実施の形態は、添付図面を参照して更に詳細に記載される。
図1は、本発明の誤り検出方法のフローチャートを示す。第一のステップ100では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが生成される。次のステップ102では、ステップ100の文字で置き換えられたテキストは、従来のテキスト−音声合成システムにより第二の音声信号に再変換される。次のステップ104では、第一の自然の音声信号及び第二の人工的に生成された音声信号は、人間のプルーフリーダに供給される。ステップ106で、プルーフリーダは、第一及び第二の音声信号の両者を同時に聞く。典型的に、プルーフリーダにより実行される音響の比較を容易にするため、第一及び第二の音声信号が合成される。ステップ108では、プルーフリーダは、第一の音声信号と第二の音声信号との間の違いを検出する。かかる違いは、ステップ100で誤りが生じたことを示し、第一の、自然の音声信号がテキストに文字で置き換えられる。ステップ108でプルーフリーダが誤りを検出したとき、テキスト内で検出された誤りの訂正は、手動で実行される必要がある。
このように、プルーフリーディング、すなわち最初の、自然の音声信号と文字で置き換えられたテキストとの比較は、もはや、音響信号と視覚信号との比較に基づくものではない。かわりに、プルーフリーダは、2つの異なる音響信号を聞くのみである。誤りが検出されたケースでのみ、プルーフリーダは、文字で置き換えられたテキスト内での対応するテキスト部分を発見し、訂正を実行する必要がある。
図2は、本発明の好適な実施の形態に係る、誤り検出方法を例示するフローチャートである。図1に例示されるのと同様に、第一のステップ200では、テキストは、従来のテキスト−音声トランスクリプションシステムにより第一の音声信号から文字に置き換えられる。文字で置き換えられたテキストに基づいて、次のステップ202では、人工的な音声信号は、テキスト−音声合成システムにより合成される。2つの音声信号間の比較を容易にするため、第一の、自然の音声信号は、ステップ204でフィルタ機能のセットに適用され、自然の音声信号のスペクトルを、第二の、人工的に生成された音声信号のスペクトルに近似される。
その後、本方法は、ステップ206又はステップ208に進む。ステップ206では、フィルタリングされた、第一の自然の音声信号は、第二の人口的に生成された音声信号と同様に、プルーフリーダに音響的に供給される。対照的に、ステップ208では、フィルタリングされた、自然の第一の音声信号と、第二の人口的に生成された音声信号は、プルーフリーダに視覚的に提供される。プルーフリーダに第一及び第二の音声信号を供給した後、本方法は、ステップ210に進み、プルーフリーダは、音響的及び/又は視覚的のいずれかで第一及び第二の音声信号を比較する。次のステップ212では、プルーフリーダは、2つの異なる音声信号を聞くか、及び/又は2つの音声信号のグラフィカルな表現によるかのいずれかで、生成されたテキストにおける誤りを検出する。最後のステップ214では、検出された誤りは、プルーフリーダにより手動で訂正される。
図3では、本発明に係る誤り検出方法を例示する別のフローチャートが示される。さらに、第一のステップ300では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが文字で置き換えられる。次のステップ302では、文字で置き換えられたテキストは、テキスト−音声合成システムにより第二の音声信号に再変換される。図2で記載されたのと同様に、ステップ304では、第一の、自然の音声信号は、第一の音声信号の音及びスペクトルを人口的に生成された第二の音声信号の音及びスペクトルに同化させるため、フィルタ機能のセットに適用される。
以下のステップ306では、たとえば、第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで、第一及び第二の音声信号間の比較信号が生成される。音声信号を直接的に供給する代わりに、本方法は、生成された比較信号を提供する制約を与える。比較信号は、ステップ308で音響的に提供されるか、又はステップ310で視覚的に提供される。テキストにおける潜在的な誤りは、比較信号によりステップ312で容易に検出することができる。
たとえば、比較信号が2つの音声信号を減算することで生成されたとき、比較信号の振幅が予め定義された閾値を超えるときに、テキストにおける潜在的な誤りを容易に検出することができる。ステップ312における潜在的な誤ったテキスト部分の検出の後、検出された誤りの訂正は、ステップ318で手動的に実行されるか、代替的にステップ314及び316を利用することができる。ステップ314では、パターン認識は比較信号に適用される。比較信号の別個のパターンがシステムで記憶される2つの特徴的なパターンに整合したとき、文字で置き換えられたテキストの対応するテキスト部分は、潜在的な誤りであるとして識別される。以下のステップ316では、潜在的に誤りのあるテキスト部分は、個別のタイプの誤りに割り当てられる。このように収集された誤り情報は、文字に置き換えられたテキストにおいてこれらの誤りを除くための訂正の示唆を生成するために更に利用される場合がある。
図4は、音声−テキストトランスクリプションシステムのための誤り検出システムのブロック図を示している。第一の音声信号400は、誤り検出モジュール402に入力される。誤り検出モジュール402は、音声−テキストトランスクリプションの手段を有し、誤り検出モジュール402から出力されたテキスト412を生成する。さらに、誤り検出モジュール402は、グラフィカルユーザインタフェース406及び音響的なユーザインタフェース404に接続される。誤り検出モジュール402は、テキスト412、第一の音声信号418及び第二の音声信号416と同様に、音声合成モジュール408、音声−テキストトランスクリプションモジュール410、テキスト−音声変換モジュール414を有する。
ディクテーションを表す自然の音声信号400は、誤り検出モジュール402の音声合成モジュール408及び音声−テキストトランスクリプションモジュール410に入力される。音声−テキストトランスクリプションモジュール410は、音声信号400をテキスト412に文字で置き換える。生成されたテキスト412は、誤り検出モジュール402で更に処理されるのと同様に、文字で置き換えられたテキストとして出力される。テキスト412は、テキスト−音声変換モジュール414に供給され、このモジュールは、文字で置き換えられたテキスト412を第二の人口的に生成された音声信号416に再変換する。
テキスト−音声再変換モジュール414は、テキスト−音声合成システムから知られている従来の技術に基づいている。人口的に生成された音声信号416は、音響的なユーザインタフェース404により誤り検出モジュール402に入力する、最初の、自然の音声信号400と比較される。音響的なユーザインタフェース404は、たとえば、ステレオヘッドフォンにより実現することができる。自然の音声信号400は、ステレオヘッドフォンの左チャネルに供給される場合があり、人口的に生成された音声信号416は、ヘッドフォンの右チャネルに供給される場合がある。
両方の音声信号を聞いている人間のプルーフリーダは、音声−テキストトランスクリプションモジュール410により実行された誤った解釈又は誤りによる、2つの音声信号400及び416の間の違いを容易に検出することができる。
自然の音声信号400とマシンで生成された音声信号416の間の比較は、プルーフリーダにとって混乱又はぎこちなく聞こえる場合があるので、自然の音声信号400は、自然の音声信号400のスペクトル及び音を合成された音声信号416のスペクトル及び音に同化させるため、自然の音声信号にフィルタ機能のセットを適用する音声合成モジュール408によりフィルタリングすることができる。したがって、音声合成モジュール408は、自然の音声信号400をフィルタリングされた音声信号418に変換する。記載された先の両方の音声信号と同様に、フィルタリングされた音声信号418は、合成された音声信号416と同様に、音響的なユーザインタフェース404によりプルーフリーダに音響的に供給することができる。
付加的又は代替的に、2つの生成された音声信号は、グラフィカルユーザインタフェース406によりグラフィカルな表現で供給することができる。音声信号416及び418のグラフィカルな表現により、プルーフリーダは、正しく文字で置き換えられた文字で置き換えられたテキストの主要な部分をスキップする場合がある。特に、2つの音声信号の大きな違いを示す比較信号を生成することで、誤り検出モジュール402が更なる処理を提供するとき、プルーフリーディングプロセス、及び音声−テキスト変換モジュール410により生成される誤りの検出及び訂正は、より効率的であって時間がかからない。別個のパターンが特定のタイプの誤りに割り当てられるパターン認識により生成された比較信号の更なる処理は、人間のプルーフリーダにより実行されるべき検出及び訂正のタスクを容易にするために更なる利点である。
誤り検出方法を例示するフローチャートである。 誤り検出方法を例示するフローチャートである。 比較信号のパターン認識を含む、誤り検出方法を例示するフローチャートである。 誤り検出手段をもつ音声−テキストトランスクリプションシステムのブロック図である。
符号の説明
400:第一の音声信号
402:誤り検出モジュール
404:音響ユーザインタフェース
406:グラフィカルユーザインタフェース
408:音声合成モジュール
410:音声−テキストトランスクリプションモジュール
412:テキスト
414:テキスト−音声変換モジュール
416:第二の音声信号
418:フィルタリングされた音声信号

Claims (20)

  1. 自動的な音声−テキストトランスクリプションシステムにより第一の音声信号から文字に置き換えられたテキスト内の誤りを検出する方法であって、
    当該方法は、
    前記システムの合成システムが、文字に置き換えられたテキストから第二の音声信号を合成するステップと、
    前記システムの供給手段が、テキストにおける潜在的な誤りの示唆のために第一の音声信号と第二の音声信号とを比較するため第一及び第二の音声信号出力を前記システムのユーザインタフェースに供給するステップと、
    を含むことを特徴とする方法。
  2. 前記システムの整合手段が、前記第二の音声信号のスピード及び/又はボリューム、前記第の音声信号のスピード及び/又はボリューム整合させるステップを更に含む
    請求項1記載の方法。
  3. 前記システムのフィルタリング手段が、前記第一の音声信号にフィルタ機能のセットを適用して、前記第一の音声信号のスペクトルを前記第二の音声信号のスペクトルに近似するステップを更に含む、
    請求項1又は2記載の方法。
  4. 前記合成手段は、逆音声トランスクリプションプロセスを適用することで前記第二の音声信号を生成し、(a)音声−テキストトランスクリプションシステムの統計的なモデル及び(b)前記第一の音声信号からのテキストのトランスクリプションプロセスで得られた状態系列を使用して、テキストから特徴的なベクトル系列を生成する
    請求項1乃至3のいずれか記載の方法。
  5. 前記システムの比較手段が、前記第一の音声信号と前記第二の音声信号とを減算又は重ね合わせすることで比較信号生成するステップを更に含む
    請求項1乃至4のいずれか記載の方法。
  6. 前記比較手段は、前記比較信号音響的及び/又は視覚的に前記ユーザインタフェースに供給する
    請求項5記載の方法。
  7. 前記比較手段は、前記比較信号の振幅が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに出力する
    請求項5又は6記載の方法。
  8. 前記比較手段は、前記誤りの示唆を前記ユーザインタフェースで、文字に置き換えられたテキスト内で視覚的に出力する
    請求項7記載の方法。
  9. 前記システムのパターン認識手段が、テキストにおいてあるタイプの誤りを示す前記比較信号の予めトレーニングされたパターンを識別するため、前記比較信号のパターン認識を実行するステップを更に含む、
    請求項5乃至8のいずれか記載の方法。
  10. 前記システムの示唆手段が、訂正の示唆、生成されたテキストにおいて検出されたタイプの誤りにより前記ユーザインタフェースに供給する
    請求項9記載の方法。
  11. 第一の音声信号から文字で置き換えられたテキストを提供する音声−テキストトランスクリプションシステムのための誤り検出システムであって、
    当該誤り検出システムは、
    文字で置き換えられたテキストから第二の音声信号を合成する手段と、
    テキストにおける潜在的な誤りの識別のために第一の音声信号と第二の音声信号とを比較するため、第一の音声信号と第二の音声信号とをユーザインタフェースに供給する手段と、
    を有することを特徴とする誤り検出システム。
  12. 第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで比較信号生成する比較手段を更に有する
    請求項11記載の誤り検出システム。
  13. 前記供給手段は、前記第一の音声信号及び前記第二の音声信号を供給し、及び/又は前記比較手段は、前記比較信号、誤り検出のために音響的又は視覚的に前記ユーザインタフェースに供給する
    請求項11又は12記載の検出システム。
  14. 前記比較手段は、前記比較信号が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに供給する
    請求項12又は13記載の誤り検出システム。
  15. 前記比較信号における個別のパターン文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て訂正の示唆、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給する示唆手段を更に有する
    請求項12乃至14のいずれか記載の誤り検出システム。
  16. 第一の音声信号から文字に置き換えられたテキストを供給する音声−テキストトランスクリプションシステムの誤りを検出するためのコンピュータプログラムあって、
    コンピュータにより実行されたときに、前記コンピュータに
    前記システムの合成手段が、文字に置き換えられたテキストから第二の音声信号を合成するステップと
    前記システムの整合手段が、前記第二の音声信号のスピード及び/又はボリュームを前記第の音声信号のスピード及び/又はボリュームに整合させるステップと
    前記システムの供給手段が、第一の音声信号と第二の音声信号との間の比較のため、第一の音声信号及び整合された第二の音声信号の出力を前記システムのユーザインタフェースに供給するステップと
    を含む方法を実行させるための命令を含むことを特徴とするコンピュータプログラム。
  17. 前記コンピュータにより実行されたときに、前記コンピュータに、
    前記システムの比較手段が、第一及び第二の音声信号を減算又は重ね合わせすることで、比較信号を生成するステップを実行させるための命令を更に含む
    請求項16記載のコンピュータプログラム。
  18. 前記コンピュータにより実行されたときに、前記コンピュータに、
    前記供給手段、前記第一の音声信号及び前記整合された第二の音声信号を供給し、及び/又は前記比較手段が、誤り検出のために音響的又は視覚的に前記比較信号を前記ユーザインタフェースに供給するステップを実行させるための命令を更に含む
    請求項16又は17記載のコンピュータプログラム。
  19. 前記コンピュータにより実行されたときに、前記コンピュータに、
    前記比較手段が、前記比較信号が予め定義された範囲を超えるとき、誤りの示唆を前記ユーザインタフェースに供給するステップを実行させる命令を更に含む
    請求項17又は18記載のコンピュータプログラム。
  20. 前記コンピュータにより実行されたときに、前記コンピュータに、
    前記システムの示唆手段が、前記比較信号における別個のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正の示唆を、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給するステップを実行させる命令を更に含む
    請求項17乃至19のいずれか記載のコンピュータプログラム。
JP2006537527A 2003-11-05 2004-10-27 音声−テキストトランスクリプションシステムの誤り検出 Expired - Fee Related JP4714694B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03104078.5 2003-11-05
EP03104078 2003-11-05
PCT/IB2004/052218 WO2005045803A1 (en) 2003-11-05 2004-10-27 Error detection for speech to text transcription systems

Publications (3)

Publication Number Publication Date
JP2007510943A JP2007510943A (ja) 2007-04-26
JP2007510943A5 JP2007510943A5 (ja) 2007-12-13
JP4714694B2 true JP4714694B2 (ja) 2011-06-29

Family

ID=34560196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006537527A Expired - Fee Related JP4714694B2 (ja) 2003-11-05 2004-10-27 音声−テキストトランスクリプションシステムの誤り検出

Country Status (7)

Country Link
US (1) US7617106B2 (ja)
EP (1) EP1702319B1 (ja)
JP (1) JP4714694B2 (ja)
CN (1) CN1879146B (ja)
AT (1) ATE417347T1 (ja)
DE (1) DE602004018385D1 (ja)
WO (1) WO2005045803A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910481B2 (en) * 2003-03-28 2005-06-28 Ric Investments, Inc. Pressure support compliance monitoring system
US9520068B2 (en) * 2004-09-10 2016-12-13 Jtt Holdings, Inc. Sentence level analysis in a reading tutor
US8014650B1 (en) * 2006-01-24 2011-09-06 Adobe Systems Incorporated Feedback of out-of-range signals
FR2902542B1 (fr) * 2006-06-16 2012-12-21 Gilles Vessiere Consultants Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede
KR101373336B1 (ko) 2007-08-08 2014-03-10 엘지전자 주식회사 방송수신 휴대단말기
US9280971B2 (en) * 2009-02-27 2016-03-08 Blackberry Limited Mobile wireless communications device with speech to text conversion and related methods
CN102163379B (zh) * 2010-02-24 2013-03-13 英业达股份有限公司 听写文章之校正语音的定位与播放系统及其方法
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
US10522133B2 (en) * 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition
CN102665012B (zh) * 2012-05-02 2015-07-08 江苏南大数码科技有限公司 远程电话语音查询平台故障自动巡检方法
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
US10069965B2 (en) 2013-08-29 2018-09-04 Unify Gmbh & Co. Kg Maintaining audio communication in a congested communication channel
EP3039803B1 (en) 2013-08-29 2017-07-19 Unify GmbH & Co. KG Maintaining audio communication in a congested communication channel
KR101808810B1 (ko) * 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
US20160379640A1 (en) * 2015-06-24 2016-12-29 Honeywell International Inc. System and method for aircraft voice-to-text communication with message validation
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
WO2018075224A1 (en) 2016-10-20 2018-04-26 Google Llc Determining phonetic relationships
US10446138B2 (en) * 2017-05-23 2019-10-15 Verbit Software Ltd. System and method for assessing audio files for transcription services
CN109949828B (zh) * 2017-12-20 2022-05-24 苏州君林智能科技有限公司 一种文字校验方法及装置
WO2020014730A1 (en) * 2018-07-16 2020-01-23 Bookbot Pty Ltd Learning aid
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11410658B1 (en) * 2019-10-29 2022-08-09 Dialpad, Inc. Maintainable and scalable pipeline for automatic speech recognition language modeling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6375798A (ja) * 1986-09-19 1988-04-06 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH0488399A (ja) * 1990-08-01 1992-03-23 Clarion Co Ltd 音声認識装置
JPH11194790A (ja) * 1997-12-29 1999-07-21 Kyocera Corp 音声認識作動装置
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61233832A (ja) * 1985-04-08 1986-10-18 Toshiba Corp 読合わせ校正装置
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6088674A (en) * 1996-12-04 2000-07-11 Justsystem Corp. Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
DE19824450C2 (de) * 1998-05-30 2001-05-31 Grundig Ag Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
DE19920501A1 (de) * 1999-05-05 2000-11-09 Nokia Mobile Phones Ltd Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6375798A (ja) * 1986-09-19 1988-04-06 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH0488399A (ja) * 1990-08-01 1992-03-23 Clarion Co Ltd 音声認識装置
JPH11194790A (ja) * 1997-12-29 1999-07-21 Kyocera Corp 音声認識作動装置
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置

Also Published As

Publication number Publication date
CN1879146B (zh) 2011-06-08
CN1879146A (zh) 2006-12-13
ATE417347T1 (de) 2008-12-15
EP1702319B1 (en) 2008-12-10
US20070027686A1 (en) 2007-02-01
US7617106B2 (en) 2009-11-10
WO2005045803A8 (en) 2006-08-10
WO2005045803A1 (en) 2005-05-19
JP2007510943A (ja) 2007-04-26
EP1702319A1 (en) 2006-09-20
DE602004018385D1 (de) 2009-01-22

Similar Documents

Publication Publication Date Title
JP4714694B2 (ja) 音声−テキストトランスクリプションシステムの誤り検出
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
JP3588302B2 (ja) 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法
JPH02163819A (ja) テキスト処理装置
JP2007140200A (ja) 語学学習装置およびプログラム
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP3701850B2 (ja) 音声言語の韻律表示装置および記録媒体
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP6291808B2 (ja) 音声合成装置及び方法
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2006139162A (ja) 語学学習装置
JP3277579B2 (ja) 音声認識方法および装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2001134276A (ja) 音声文字化誤り検出装置および記録媒体
JP2013195928A (ja) 音声素片切出装置
US20230038118A1 (en) Correction method of synthesized speech set for hearing aid
EP1422691B1 (en) Method for adapting a speech recognition system
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP2017090856A (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
JP2005037423A (ja) 音声出力装置
JP2001256223A (ja) 自動翻訳装置
JPH08171396A (ja) 音声認識装置
JP2003108180A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees