JP4714694B2

JP4714694B2 - 音声−テキストトランスクリプションシステムの誤り検出

Info

Publication number: JP4714694B2
Application number: JP2006537527A
Authority: JP
Inventors: シュラム，ハオケ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-05
Filing date: 2004-10-27
Publication date: 2011-06-29
Anticipated expiration: 2024-10-27
Also published as: WO2005045803A1; DE602004018385D1; EP1702319B1; WO2005045803A8; ATE417347T1; EP1702319A1; US20070027686A1; CN1879146A; US7617106B2; CN1879146B; JP2007510943A

Description

本発明は、音声−テキストトランスクリプションシステム及び方法の分野に関し、より詳細には、音声−テキストトランスクリプションシステムにおける誤り検出に関する。

音声トランスクリプション及び音声認識システムは、音声、たとえば話されたディクテーション（spoken dictation）を認識し、認識された音声をテキストに文字で置き換える。音声トランスクリプションシステムは、医療セクタ又はリーガルプラクティスにおいて今日では広く使用されている。ＰｈｉｌｉｐｓＥｌｅｃｔｒｏｎｉｃｓＮＶのＳｐｅｅｃｈＭａｇｉｃ^TM及びＩＢＭＣｏｒｐｏｒａｔｉｏｎのＶｉａＶｏｉｃｅ^TMシステムのような多様な音声トランスクリプションシステムが存在する。人間のトランスクリプショニストと比較して、一方で、音声トランスクリプションシステムは、時間及びコストを節約するが、他方で、人間のトランスクリプショニストよりも、高い精度の音声理解及びコマンド解釈を提供することができない。

音声−テキストトランスクリプションシステムにより発生されたテキストは、誤ったテキスト部分を必然的に含んでいる。かかる誤ったテキスト部分は、音声が記録されている雑音、又はシステムが適切に適合することができない異なるスピーカのような異なる環境条件のような、多くの理由のために生じる。句読点に関連するディクテーション内の話されたコマンド、テキストフォーマット又はタイプフェースは、実際に単語として文字に置き換えられる代わりに、音声−テキストトランスクリプションシステムにより適切に解釈される必要がある。

音声−テキストトランスクリプションシステムは、制限されたコマンド解釈機能と同様に、制限された音声認識機能を特徴とするので、文字に置き換えられたテキストにおいて必然的に誤りを生成する。ディクテーションがテキストに適切に変換されたことを保証するため、音声−テキストトランスクリプションシステムの生成されたテキストは、プルーフリーディングステップにおいて、誤り及び誤ったテキスト部分についてチェックされる必要がある。プルーフリーディングは、人間のプルーフリーダにより典型的に実行される必要がある。プルーフリーダは、ディクテーションのオリジナルスピーチ信号を、音声−テキストトランスクリプションシステムにより発生された文字で置き換えられたテキストと比較する。

比較の形式でのプルーフリーディングは、文字で置き換えられたテキストを同時に読みつつ、オリジナルの音声信号を聞くことで典型的に実行される。特に、この類の比較は、視覚情報の形式でのテキストは、音声情報の形式で提供された音声信号と比較される必要があるので、プルーフリーダを極端に使い果たす。したがって、比較は、ディクテーションの期間に対応する時間についてプルーフリーダの高い密度を必要とする。

音声−テキストトランスクリプションシステムの誤り率は２０％以下であり、近い将来には減少する場合さえあることを考慮して、プルーフリーディングは、文字で置き換えられたテキストの主要部分について必要ではない。しかし、テキストのオリジナルソースは、それを聞くことでシーケンシャルな方法でのみアクセス可能な音声信号としてのみ利用可能である。書かれたテキストと音響信号との比較は、その完全な形で音響信号を聞くことで実行することができる。したがって、プルーフリーディングは、トランスクリプションプロセスそれ自身よりも時間のかかる場合さえある。

本発明は、自動音声−テキストトランスクリプションシステムにより生成されたテキスト内での効率的な誤り検出のための方法、システム及びコンピュータプログラムプロダクトを提供することにある。

本発明は、音声−テキストトランスクリプションシステムのための誤り検出の方法を提供する。音声−テキストトランスクリプションシステムは、第一の音声信号を受け、この第一の音声信号をテキストに文字で置き換える。人間のプルーフリーダにより実行されるべきプルーフリーディング（proof reading）又は補正手順を容易にするため、文字で置き換えられたテキスト（transcripted text）は、第二の合成の音声信号に再び変換される。このようにして、プルーフリーダは、第一の音声信号を文字で置き換えられたテキストと比較する代わりに、第一及び第二の音声信号からなる２つの音響信号を比較する必要があるだけである。第一及び第二の音声信号は、たとえばステレオヘッドフォンを介してプルーフリーダに供給される。このように、プルーフリーダは、第一及び第二の音声信号を同時に聞き、２つの音声信号間の潜在的な変動を容易に検出し、音声−テキストトランスクリプションプロセスで誤りが生じたことを示すことができる。

文字で置き換えられたテキストの第二の音声信号への再変換は、いわゆるテキスト−音声合成システムにより実行される。テキスト−音声合成システムの例は、たとえばＥＰ０３６３２３３及びＥＰ０７０６１７０に開示されている。典型的なテキスト−音声合成システムは、声の記録された部分が記憶されるデータベースを含むダイフォン合成技術又はユニット選択技術に基づいている。

本発明の好適な実施の形態によれば、第一の音声信号に同期する文字で書き取られたテキストからの合成の第二の音声信号を発生する方法は、音声認識プロセスを逆転することである。（たとえば、第一の音声信号の１０ｍｓの部分を表す）入力の特徴ベクトルから出力のテキストを生成する代わりに、音声認識システムは、入力のテキストからの出力の特徴ベクトルを生成するためにも適用される。これは、テキストを（コンテクスト（context）に依存する）音素系列にはじめに変換し、音素系列を隠れマルコフモデル（ＨＭＭ）シーケンスに続いて変換することで達成することができる。次いで、連鎖ＨＭＭは、別個のＨＭＭの状態シーケンスに従って出力の特徴ベクトル系列を生成する。第一の音声信号と第二の音声信号との間の同期をサポートするため、第二の音声信号を生成するＨＭＭ状態シーケンスは、前の音声認識ステップで得られた最適な（ビタビ）状態シーケンスであり、ここで第一の音声信号はテキストに変換される。この状態シーケンスは、それぞれの特徴ベクトルを別個の隠れマルコフモデル状態に揃え、したがって文字に置き換えられたテキストの別個の部分に揃える。

本発明の更なる好適な実施の形態によれば、第一の音声信号の文字に置き換えられたテキストから抽出された第二の音声信号の速度及び／又はボリュームは、第一の音声信号の速度及び／又はボリュームに整合する。文字に置き換えられたテキストからの第二の音声信号の同期は、第一の、自然の音声信号の速度及び／又はボリュームに関して実行される。これは、同期される２つの音響信号間の比較は、同期されない２つの音響信号間の比較よりも非常に容易であるので有利である。したがって、文字に置き換えられたテキストの同期は、第一の、自然の音声信号の速度及びダイナミックレンジと同様に、文字に置き換えられたテキストのコーパスそれ自身に依存する。

本発明の更なる好適な実施の形態によれば、第一の音声信号は変換の目的である。好ましくは、フィルタ機能のセットが第一の音声信号に適用され、第一の音声信号のスペクトルを変換する。このように、第一の音声信号のスペクトルは、同期された第二の音声信号のスペクトルに同化する。結果として、自然の第一の音声信号及び合成された第二の音声信号の音は近づき、人間のプルーフリーダにより実行されるべき２つの音声信号の更なる比較が容易になる。最後に、２つに人口的に発生されたか又は人口的に聞こえる音響信号は、人工的かつ１つの自然の音響信号の代わりに比較される必要がある。

本発明の更なる好適な実施の形態によれば、第一及び第二の音声信号を減算又は重ね合わせすることで更なる信号が生成される。第一の音声信号と第二の音声信号を現在することでこの種の比較信号が生成されたとき、この比較信号の振幅は、第一の音声信号と第二の音声信号との間の変動を示す。特に、第一及び第二の音声信号の間の大きな変動は、音声−テキストトランスクリプションシステムが誤りを生じたことの示唆である。したがって、比較信号は、音声−テキストトランスクリプションプロセスで誤りが生じたかに関する直接の示唆を与える。比較信号は、２つの音声信号の現在により必ずしも生成される必要はない。一般に、第一及び第二の音声信号からの比較信号につながる広く多様な方法は、たとえば、音声信号の重ね合わせ又は畳み込みにより考えることができる。

本発明の更なる好適な実施の形態によれば、比較信号は、聴覚的及び／又は視覚的にプルーフリーダに供給される。このように、生成された比較信号はプルーフリーダに供給される。この比較信号を利用して、プローフリーダは、誤りのある文字に置き換えられたテキストの部分を容易に識別することができる。特に、比較信号が文字に置き換えられたテキストで視覚的に供給されたとき、プルーフリーダの注目は、望ましい比較信号が対応するテキスト部分に惹き付けられる。低い振幅の比較信号に関連された正しく文字に置き換えられたテキストの主要な部分は、プルーフリーディングプロセスでスキップされる。結果的に、プルーフリーダ及びプルーフリーディングプロセスの効率は、著しく向上される。

本発明の更なる好適な実施の形態によれば、誤り検出の方法は、比較信号の振幅が予め定義されたレンジを超えたときに関する誤りの示唆を生成する。たとえば、第一及び第二の音声信号の現在により比較信号が生成されたとき、誤りの指示は、比較信号の振幅が予め定義された閾値を超えるときにプルーフリーダに出力される。この誤りの示唆により、プルーフリーダは、もはや、厄介に聞こえる比較信号を観察又は聞く必要がない。誤りの示唆は、たとえば別個のリンギングトーンにより実現される。

本発明の更なる好適な実施の形態によれば、誤りの示唆は、グラフィカルユーザインタフェースにより文字に置き換えられたテキストないで視覚的に出力される。このように、プルーフリーダは、もはや、２つの音声信号を聞くか又は比較する必要がない。さらに、第一及び第二の音声信号間の比較は、比較信号により全体的に表現される。比較信号は予め定義された閾値を超えるケースでのみ、誤りの示唆は、文字に置き換えられたテキスト内で出力される。プルーフリーダのタスクは、誤りの指示で割り当てられたテキスト部分の手動の制御に低減する。プルーフリーダは、潜在的に謝りなるこれらテキスト部分をシステマティックに選択する場合がある。音声−テキストトランスクリプションシステムが誤りを生成したかをチェックするため、プルーフリーダは、誤りの指示で割り当てられたテキスト部分に対応する第一及び第二の音声信号のクリッピングを聞くのみである。

したがって、本方法は、誤りかも知れない文字に置き換えられたテキストのテキスト部分のみをフィルタリングするアプローチを提供する。完全な第一の音声信号を聞くこと、及びプルーフリーディングのために全体の文字に置き換えられたテキストを読取ることは、もはや必要とされない。人間のプルーフリーダにより実行されるべきプルーフリーディングは、誤り検出システムにより潜在的に誤っているとして識別されたテキスト部分に効果的に低減する。プルーフリーディングプロセスの減少の時間の露出と同様にして、プルーフリーディングの全体の効率が向上される。

本発明の更なる好適な実施の形態によれば、テキストにおける別個のタイプの誤りを示す比較信号の予め定義されたパターンを識別するため、比較信号にパターン認識が実行される。音声−テキストトランスクリプションシステムにより生成された誤りは、典型的に、第一の、自然の音声信号の部分の誤った解釈による。かかる誤りは、特に、異なる意味すなわち異なる綴りをもつ類似の周囲の単語のような、自然の音声信号の曖昧な部分について生じる。たとえば、音声−テキストトランスクリプションシステムは、たとえば別個の話された単語が類似の周囲の単語として誤って認識されたときに、意味のない単語を生成する場合がある。かかる混乱は、トランスクリプションプロセスの間に数回生じる場合がある。ここで文字に置き換えられたテキストが第二の音声信号に再変換されたとき、さらに、第一及び第二の音声信号が先に記載された比較信号により比較されたとき、かかる２つの単語間の混乱は、比較信号における別個のパターンにつながる場合がある。

比較信号に適用されるパターン認識により、トランスクリプションシステムにより生成された所定のタイプの誤りは、直接に識別される場合がある。音声−テキストトランスクリプションシステムにより生成された所定のタイプの誤りに対応する別個のパターンは、典型的に、ある種の記憶手段により記憶され、異なるタイプの誤りを識別するために誤り検出方法に供給される。さらに、あるタイプの誤りを示す如何なる公知のパターンに整合しない比較信号におけるパターンは、プルーフリーダにより手動で実行される誤り及び訂正手順に割り当てられる。このように、誤り検出の方法は、個別のタイプの誤りに割り当てられた比較信号における様々なパターンを収集する場合がある。かかる機能は、独立の学習として解釈される。

本発明の更なる好適な実施の形態によれば、訂正の示唆には、音声−テキストトランスクリプションシステムにより生成された検出されたタイプの誤りが提供される。文字で置き換えられたテキストにおける別個のタイプの誤りは、比較信号の対応するパターンにより識別されるので、誤りの源、誤って認識された音声信号の部分を解決することができる。訂正の示唆は、グラフィカルユーザインタフェースにより視覚的に提供されることが好ましい。人間のプルーフリーダにより実行される必要があるプルーフリーディングは、理想的には、誤り検出システムにより提供された訂正の示唆を許容又は拒否するステップに低減する。プルーフリーダが誤り訂正を受けたとき、誤り検出システムは、文字で置き換えられたテキストの誤ったテキスト部分を生成された訂正の示唆で自動的に置き換える。誤り検出システムにより提供される訂正の示唆をプルーフリーダが拒否した他のケースが与えられると、プルーフリーダは、文字で置き換えられたテキストの誤ったテキスト部分を手動的に訂正する必要がある。

音声−テキストトランスクリプションシステムにより生成されたテキストでの誤り検出の記載される方法及びシステムは、文字で置き換えられたテキストのプルーフリーディングのための効率的かつ時間のかからないアプローチを提供する。本質的に欠くことのできない人間のプルーフリーダの本質的なタスクは、文字で置き換えられたテキスト内での、最小の数の潜在的に誤って認識されたテキスト部分に低減する。プルーフリーディングの従来の方法と比較して、プルーフリーダは、もはや、音声−テキストトランスクリプションシステムにより文字で置き換えられた全体の自然の音声信号を聞く必要がない。

以下では、本発明の好適な実施の形態は、添付図面を参照して更に詳細に記載される。
図１は、本発明の誤り検出方法のフローチャートを示す。第一のステップ１００では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが生成される。次のステップ１０２では、ステップ１００の文字で置き換えられたテキストは、従来のテキスト−音声合成システムにより第二の音声信号に再変換される。次のステップ１０４では、第一の自然の音声信号及び第二の人工的に生成された音声信号は、人間のプルーフリーダに供給される。ステップ１０６で、プルーフリーダは、第一及び第二の音声信号の両者を同時に聞く。典型的に、プルーフリーダにより実行される音響の比較を容易にするため、第一及び第二の音声信号が合成される。ステップ１０８では、プルーフリーダは、第一の音声信号と第二の音声信号との間の違いを検出する。かかる違いは、ステップ１００で誤りが生じたことを示し、第一の、自然の音声信号がテキストに文字で置き換えられる。ステップ１０８でプルーフリーダが誤りを検出したとき、テキスト内で検出された誤りの訂正は、手動で実行される必要がある。

このように、プルーフリーディング、すなわち最初の、自然の音声信号と文字で置き換えられたテキストとの比較は、もはや、音響信号と視覚信号との比較に基づくものではない。かわりに、プルーフリーダは、２つの異なる音響信号を聞くのみである。誤りが検出されたケースでのみ、プルーフリーダは、文字で置き換えられたテキスト内での対応するテキスト部分を発見し、訂正を実行する必要がある。

図２は、本発明の好適な実施の形態に係る、誤り検出方法を例示するフローチャートである。図１に例示されるのと同様に、第一のステップ２００では、テキストは、従来のテキスト−音声トランスクリプションシステムにより第一の音声信号から文字に置き換えられる。文字で置き換えられたテキストに基づいて、次のステップ２０２では、人工的な音声信号は、テキスト−音声合成システムにより合成される。２つの音声信号間の比較を容易にするため、第一の、自然の音声信号は、ステップ２０４でフィルタ機能のセットに適用され、自然の音声信号のスペクトルを、第二の、人工的に生成された音声信号のスペクトルに近似される。

その後、本方法は、ステップ２０６又はステップ２０８に進む。ステップ２０６では、フィルタリングされた、第一の自然の音声信号は、第二の人口的に生成された音声信号と同様に、プルーフリーダに音響的に供給される。対照的に、ステップ２０８では、フィルタリングされた、自然の第一の音声信号と、第二の人口的に生成された音声信号は、プルーフリーダに視覚的に提供される。プルーフリーダに第一及び第二の音声信号を供給した後、本方法は、ステップ２１０に進み、プルーフリーダは、音響的及び／又は視覚的のいずれかで第一及び第二の音声信号を比較する。次のステップ２１２では、プルーフリーダは、２つの異なる音声信号を聞くか、及び／又は２つの音声信号のグラフィカルな表現によるかのいずれかで、生成されたテキストにおける誤りを検出する。最後のステップ２１４では、検出された誤りは、プルーフリーダにより手動で訂正される。

図３では、本発明に係る誤り検出方法を例示する別のフローチャートが示される。さらに、第一のステップ３００では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが文字で置き換えられる。次のステップ３０２では、文字で置き換えられたテキストは、テキスト−音声合成システムにより第二の音声信号に再変換される。図２で記載されたのと同様に、ステップ３０４では、第一の、自然の音声信号は、第一の音声信号の音及びスペクトルを人口的に生成された第二の音声信号の音及びスペクトルに同化させるため、フィルタ機能のセットに適用される。

以下のステップ３０６では、たとえば、第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで、第一及び第二の音声信号間の比較信号が生成される。音声信号を直接的に供給する代わりに、本方法は、生成された比較信号を提供する制約を与える。比較信号は、ステップ３０８で音響的に提供されるか、又はステップ３１０で視覚的に提供される。テキストにおける潜在的な誤りは、比較信号によりステップ３１２で容易に検出することができる。

たとえば、比較信号が２つの音声信号を減算することで生成されたとき、比較信号の振幅が予め定義された閾値を超えるときに、テキストにおける潜在的な誤りを容易に検出することができる。ステップ３１２における潜在的な誤ったテキスト部分の検出の後、検出された誤りの訂正は、ステップ３１８で手動的に実行されるか、代替的にステップ３１４及び３１６を利用することができる。ステップ３１４では、パターン認識は比較信号に適用される。比較信号の別個のパターンがシステムで記憶される２つの特徴的なパターンに整合したとき、文字で置き換えられたテキストの対応するテキスト部分は、潜在的な誤りであるとして識別される。以下のステップ３１６では、潜在的に誤りのあるテキスト部分は、個別のタイプの誤りに割り当てられる。このように収集された誤り情報は、文字に置き換えられたテキストにおいてこれらの誤りを除くための訂正の示唆を生成するために更に利用される場合がある。

図４は、音声−テキストトランスクリプションシステムのための誤り検出システムのブロック図を示している。第一の音声信号４００は、誤り検出モジュール４０２に入力される。誤り検出モジュール４０２は、音声−テキストトランスクリプションの手段を有し、誤り検出モジュール４０２から出力されたテキスト４１２を生成する。さらに、誤り検出モジュール４０２は、グラフィカルユーザインタフェース４０６及び音響的なユーザインタフェース４０４に接続される。誤り検出モジュール４０２は、テキスト４１２、第一の音声信号４１８及び第二の音声信号４１６と同様に、音声合成モジュール４０８、音声−テキストトランスクリプションモジュール４１０、テキスト−音声変換モジュール４１４を有する。

ディクテーションを表す自然の音声信号４００は、誤り検出モジュール４０２の音声合成モジュール４０８及び音声−テキストトランスクリプションモジュール４１０に入力される。音声−テキストトランスクリプションモジュール４１０は、音声信号４００をテキスト４１２に文字で置き換える。生成されたテキスト４１２は、誤り検出モジュール４０２で更に処理されるのと同様に、文字で置き換えられたテキストとして出力される。テキスト４１２は、テキスト−音声変換モジュール４１４に供給され、このモジュールは、文字で置き換えられたテキスト４１２を第二の人口的に生成された音声信号４１６に再変換する。

テキスト−音声再変換モジュール４１４は、テキスト−音声合成システムから知られている従来の技術に基づいている。人口的に生成された音声信号４１６は、音響的なユーザインタフェース４０４により誤り検出モジュール４０２に入力する、最初の、自然の音声信号４００と比較される。音響的なユーザインタフェース４０４は、たとえば、ステレオヘッドフォンにより実現することができる。自然の音声信号４００は、ステレオヘッドフォンの左チャネルに供給される場合があり、人口的に生成された音声信号４１６は、ヘッドフォンの右チャネルに供給される場合がある。

両方の音声信号を聞いている人間のプルーフリーダは、音声−テキストトランスクリプションモジュール４１０により実行された誤った解釈又は誤りによる、２つの音声信号４００及び４１６の間の違いを容易に検出することができる。

自然の音声信号４００とマシンで生成された音声信号４１６の間の比較は、プルーフリーダにとって混乱又はぎこちなく聞こえる場合があるので、自然の音声信号４００は、自然の音声信号４００のスペクトル及び音を合成された音声信号４１６のスペクトル及び音に同化させるため、自然の音声信号にフィルタ機能のセットを適用する音声合成モジュール４０８によりフィルタリングすることができる。したがって、音声合成モジュール４０８は、自然の音声信号４００をフィルタリングされた音声信号４１８に変換する。記載された先の両方の音声信号と同様に、フィルタリングされた音声信号４１８は、合成された音声信号４１６と同様に、音響的なユーザインタフェース４０４によりプルーフリーダに音響的に供給することができる。

付加的又は代替的に、２つの生成された音声信号は、グラフィカルユーザインタフェース４０６によりグラフィカルな表現で供給することができる。音声信号４１６及び４１８のグラフィカルな表現により、プルーフリーダは、正しく文字で置き換えられた文字で置き換えられたテキストの主要な部分をスキップする場合がある。特に、２つの音声信号の大きな違いを示す比較信号を生成することで、誤り検出モジュール４０２が更なる処理を提供するとき、プルーフリーディングプロセス、及び音声−テキスト変換モジュール４１０により生成される誤りの検出及び訂正は、より効率的であって時間がかからない。別個のパターンが特定のタイプの誤りに割り当てられるパターン認識により生成された比較信号の更なる処理は、人間のプルーフリーダにより実行されるべき検出及び訂正のタスクを容易にするために更なる利点である。

誤り検出方法を例示するフローチャートである。誤り検出方法を例示するフローチャートである。比較信号のパターン認識を含む、誤り検出方法を例示するフローチャートである。誤り検出手段をもつ音声−テキストトランスクリプションシステムのブロック図である。

符号の説明

４００：第一の音声信号
４０２：誤り検出モジュール
４０４：音響ユーザインタフェース
４０６：グラフィカルユーザインタフェース
４０８：音声合成モジュール
４１０：音声−テキストトランスクリプションモジュール
４１２：テキスト
４１４：テキスト−音声変換モジュール
４１６：第二の音声信号
４１８：フィルタリングされた音声信号

Claims

自動的な音声−テキストトランスクリプションシステムにより第一の音声信号から文字に置き換えられたテキスト内の誤りを検出する方法であって、
当該方法は、
前記システムの合成システムが、文字に置き換えられたテキストから第二の音声信号を合成するステップと、
前記システムの供給手段が、テキストにおける潜在的な誤りの示唆のために第一の音声信号と第二の音声信号とを比較するため、第一及び第二の音声信号出力を前記システムのユーザインタフェースに供給するステップと、
を含むことを特徴とする方法。
前記システムの整合手段が、前記第二の音声信号のスピード及び／又はボリュームを、前記第一の音声信号のスピード及び／又はボリュームと整合させるステップを更に含む、
請求項１記載の方法。
前記システムのフィルタリング手段が、前記第一の音声信号にフィルタ機能のセットを適用して、前記第一の音声信号のスペクトルを前記第二の音声信号のスペクトルに近似するステップを更に含む、
請求項１又は２記載の方法。
前記合成手段は、逆音声トランスクリプションプロセスを適用することで前記第二の音声信号を生成し、（ａ）音声−テキストトランスクリプションシステムの統計的なモデル及び（ｂ）前記第一の音声信号からのテキストのトランスクリプションプロセスで得られた状態系列を使用して、テキストから特徴的なベクトル系列を生成する、
請求項１乃至３のいずれか記載の方法。
前記システムの比較手段が、前記第一の音声信号と前記第二の音声信号とを減算又は重ね合わせすることで比較信号を生成するステップを更に含む、
請求項１乃至４のいずれか記載の方法。
前記比較手段は、前記比較信号を音響的及び／又は視覚的に前記ユーザインタフェースに供給する、
請求項５記載の方法。
前記比較手段は、前記比較信号の振幅が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに出力する、
請求項５又は６記載の方法。
前記比較手段は、前記誤りの示唆を前記ユーザインタフェースで、文字に置き換えられたテキスト内で視覚的に出力する、
請求項７記載の方法。
前記システムのパターン認識手段が、テキストにおいてあるタイプの誤りを示す前記比較信号の予めトレーニングされたパターンを識別するため、前記比較信号のパターン認識を実行するステップを更に含む、
請求項５乃至８のいずれか記載の方法。
前記システムの示唆手段が、訂正の示唆を、生成されたテキストにおいて検出されたタイプの誤りにより前記ユーザインタフェースに供給する、
請求項９記載の方法。
第一の音声信号から文字で置き換えられたテキストを提供する音声−テキストトランスクリプションシステムのための誤り検出システムであって、
当該誤り検出システムは、
文字で置き換えられたテキストから第二の音声信号を合成する手段と、
テキストにおける潜在的な誤りの識別のために第一の音声信号と第二の音声信号とを比較するため、第一の音声信号と第二の音声信号とをユーザインタフェースに供給する手段と、
を有することを特徴とする誤り検出システム。
第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで比較信号を生成する比較手段を更に有する、
請求項１１記載の誤り検出システム。
前記供給手段は、前記第一の音声信号及び前記第二の音声信号を供給し、及び／又は前記比較手段は、前記比較信号を、誤り検出のために音響的又は視覚的に前記ユーザインタフェースに供給する、
請求項１１又は１２記載の検出システム。
前記比較手段は、前記比較信号が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに供給する、
請求項１２又は１３記載の誤り検出システム。
前記比較信号における個別のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正の示唆を、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給する示唆手段を更に有する、
請求項１２乃至１４のいずれか記載の誤り検出システム。
第一の音声信号から文字に置き換えられたテキストを供給する音声−テキストトランスクリプションシステムの誤りを検出するためのコンピュータプログラムであって、
コンピュータにより実行されたときに、前記コンピュータに、
前記システムの合成手段が、文字に置き換えられたテキストから第二の音声信号を合成するステップと、
前記システムの整合手段が、前記第二の音声信号のスピード及び／又はボリュームを前記第一の音声信号のスピード及び／又はボリュームに整合させるステップと、
前記システムの供給手段が、第一の音声信号と第二の音声信号との間の比較のため、第一の音声信号及び整合された第二の音声信号の出力を前記システムのユーザインタフェースに供給するステップと、
を含む方法を実行させるための命令を含むことを特徴とするコンピュータプログラム。
前記コンピュータにより実行されたときに、前記コンピュータに、
前記システムの比較手段が、第一及び第二の音声信号を減算又は重ね合わせすることで、比較信号を生成するステップを実行させるための命令を更に含む、
請求項１６記載のコンピュータプログラム。
前記コンピュータにより実行されたときに、前記コンピュータに、
前記供給手段が、前記第一の音声信号及び前記整合された第二の音声信号を供給し、及び／又は前記比較手段が、誤り検出のために音響的又は視覚的に前記比較信号を前記ユーザインタフェースに供給するステップを実行させるための命令を更に含む、
請求項１６又は１７記載のコンピュータプログラム。
前記コンピュータにより実行されたときに、前記コンピュータに、
前記比較手段が、前記比較信号が予め定義された範囲を超えるとき、誤りの示唆を前記ユーザインタフェースに供給するステップを実行させる命令を更に含む、
請求項１７又は１８記載のコンピュータプログラム。
前記コンピュータにより実行されたときに、前記コンピュータに、
前記システムの示唆手段が、前記比較信号における別個のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正の示唆を、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給するステップを実行させる命令を更に含む、
請求項１７乃至１９のいずれか記載のコンピュータプログラム。