JP5284785B2

JP5284785B2 - コンテンツベースの音声再生強調

Info

Publication number: JP5284785B2
Application number: JP2008522799A
Authority: JP
Inventors: シュバート，ジェル; フリッツ，ジュエルジェン; フィンケ，マイケル; コール，デトロフ
Original assignee: マルチモーダル・テクノロジーズ・エルエルシー
Priority date: 2005-07-22
Filing date: 2006-07-06
Publication date: 2013-09-11
Anticipated expiration: 2026-07-06
Also published as: ATE454691T1; US20070033032A1; EP1908055A2; EP1908055B1; US9454965B2; US20140309995A1; US7844464B2; WO2007018842A2; WO2007018842A3; US20100318347A1; US20160005402A1; US9135917B2; DE602006011622D1; JP2009503560A; EP1908055A4; US8768706B2

Description

本発明は、音声再生に関し、より具体的には、発話の原稿転写物を校正する際に使用される再生に関する。

（関連出願との相互参照）
本出願は、参照により本明細書に組み込まれる、以下の同一人所有の米国特許出願に関連する。

２００４年８月２０日に出願され、「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＣｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」と表題の付いた、米国特許出願番号１０／９２３，５１７号。

２００４年８月２０日に出願され、「ＤｏｃｕｍｅｎｔＴｒａｎｓｃｒｉｐｔｉｏｎＳｙｓｔｅｍＴｒａｉｎｉｎｇ」と表題の付いた、米国特許出願番号１０／９２２，５１３号。

（従来の技術）
人間の発話を転写することが、多くの状況において望ましい。法律専門分野においては、例えば、転写士は、供述書の文書による転写物を生成するために、公判および宣誓証言で得た供述を転写する。同様に、医療専門分野においては、医者および他の医療専門家によって口述された診断、予後診断、処方薬、ならびに他の情報の転写物が生成される。これらおよび他の分野の転写士は通常、得られる転写物に対する依存および不正確さから生じる可能性のある害（患者に誤った処方薬を与えるなど）のために、非常に正確（元の発話の語義内容（意味）と得られる転写物の語義内容との一致度の観点から測定される）であることが要求される。（１）発話が転写される発話者の特徴（例えば、訛り、音量、方言、速度）、（２）外部条件（例えば、背景の騒音）（３）転写士または転写システム（例えば、不完全な聴力または音声獲得能力、言語の不完全な理解力）、または（４）録音／伝送媒体（例えば、紙、アナログオーディオテープ、アナログ電話網、デジタル電話網に適用される圧縮アルゴリズム、携帯電話チャネルによる雑音／アーチファクト）におけるばらつきなどの様々な理由により、非常に正確な初期転写物を生成することは困難となる場合がある。

従って、人間の転写士または自動発話認識システムによって生成されたに関わらず、転写物の第１の原稿は、様々なエラーを含んでいる可能性がある。通常、かかる原稿文書は、そこに含まれているエラーを修正するために校正および編集することが必要である。修正が必要な転写物のエラーは、例えば、以下のうちのどれをも含む可能性がある。単語または単語列の欠落；過剰な言い回し；間違って綴られ、タイプされ、または認識された語、句読点の欠落または過剰、意味観念の誤った解釈（例えば、アレルギーを医薬品自体として特定の医薬品と誤って解釈する）；誤った文書構造（誤った、欠落した、または冗長な節、列挙、段落またはリスト）。

ただ単に転写物を読むことにより原稿転写物を校正することは、その発話が転写される発話者にとって可能となり得るが（発話の内容が、発話者の記憶に新しい場合があるので）、他のいかなる校正者においては、通常、校正するために原稿転写物を読むと同時に、発話の録音を聞く必要がある。このように実行される校正は、面倒であり、多大な時間を必要とし、費用がかかり、それ自体エラーが発生しやすい。従って、必要とされるものは、原稿転写物におけるエラーを修正するための改良された技術である。

（要約）
口頭の音声ストリームの原稿転写物を校正するプロセスを容易にするための技術が開示されている。一般に、原稿転写物の校正は、関連性が高いか、またはおそらく不正確に転写されている前記音声ストリームのこれらの領域を強調することにより、対応する前記口頭の音声ストリームを再生することによって容易にする。領域は、例えば、関連性が低く、またおそらく正確に転写されている領域より遅く再生することにより強調してもよい。正確に転写するために最も重要な前記音声ストリームのこれらの領域、および不正確に転写されている可能性の高いこれらの領域を強調することは、校正者が、これらの領域でのどのようなエラーでも正確に修正する可能性を向上させることによって、転写物全体の精度を向上させる。

本発明の多様な側面および実施態様の他の特長および利点は、以下の説明および特許請求の範囲から明白となるであろう。

図１Ａ〜１Ｂを参照して、口頭の音声ストリーム１０２の原稿転写物１２４のエラーの修正を容易にするためのシステム１００ａ〜ｂのデータフロー図を示す。一般に、システム１００ａ〜ｂのそれぞれは、原稿転写物１２４のアクセスもまた有する人間の校正者１２６に対して、音声ストリーム１０２の変更バージョン１２２を再生する。原稿転写物１２４において、関連性が高い（重要）か、またはおそらく不正確に転写されている音声ストリーム１０２の領域は、人間の校正者１２６に対して再生する音声ストリーム１０２の変更バージョン１２２において強調される。領域は、例えば、関連性が低く、またおそらく正確に転写されている領域より遅く再生することにより強調してもよい。かかる強調は、例えば、再生速度のディフォルト値（default)と比較して音声ストリーム１０２の残りの領域（関連性が低く、また正確性の高い可能性(likelihood)を有する）の再生の速度を速めることにより、達成してもよい。結果として、校正者１２６の注意を、正確に転写されるのに最も重要な音声ストリーム１０２のこれらの領域、および不正確に転写される可能性の高いこれらの領域に集中させることにより、校正者１２６がこれらの領域で様々なエラーも修正する可能性を増加させる。さらに、関連性がなく、またおそらく正確に転写される領域での再生の速度を速めることによって強調を達成する場合、校正は従来の再生方法より速く実行される場合があるが、正確さを犠牲にすることはない。

２つのシステム１００ａ〜ｂは、図１Ｂに示すシステム１００ｂが、原稿転写物１２４を生成する人間の転写士１２８ｂおよびタイミング情報１３０および代替の憶測１３４を生成する自動発話認識器１３２を利用する一方で、図１Ａに示すシステム１００ａは、原稿転写物１２４を生成する自動転写システム１２８ａおよびタイミング情報１３０および代替の憶測１３４を利用する点で異なる。それ以外では、２つのシステム１００ａおよび１００ｂは類似しているので、前記２つのシステムは、本明細書では集合的にシステム１００と称することができる。同様に、自動転写システム１２８ａおよび人間の転写士１２８ｂは、本明細書では集合的に転写システム１２８と称することができる。前記２つのシステムの差異は、関連性のあるところで説明する。

音声ストリーム１０２はどのような種類の口頭の音声ストリームであってもよい。口頭の音声ストリーム１０２は、例えば、患者の診察を記述する医者による口述であってもよい。口頭の音声ストリーム１０２は、どのような形態を取ってもよい。例えば、それは、直接的または間接的（電話またはＩＰ接続などで）に受け取る生の音声ストリーム、または任意の媒体に、また任意のフォーマットで記録される音声ストリームであってよい。

原稿転写物１２４は、口頭の音声ストリーム１０２の内容の一部または全部を表すどのような文書であってもよい。原稿転写物１２４は、例えば、人間の転写士、自動発話認識器、またはそれらの任意の組み合わせも含む転写システム１２８によって生成されている。原稿転写物１２４は、「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＣｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」と表題の付いた、上述の特許出願に開示されている技術のうちのどれを使用して生成してもよい。そこで説明しているように、原稿転写物１２４は、口頭の音声ストリーム１０２の文字（逐語的）転写または非文字転写のどちらであってもよい。さらにそこで説明しているように、原稿転写物１２４は標準的なテキスト文書であってもよいが、原稿転写物１０６はまた、例えば、文書区分および他の種類の文書構造を描写するＸＭＬ文書などの構造化文書であってもよい。

原稿転写物１２４は、標準的なテキストだけでなく、「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＣｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」と表題と付いた上述の特許出願でこれらの用語を定義しているように、語義的または統語的な概念を表す文書構造をも含む構造化文書であってもよい。そこでさらに詳細に説明しているように、用語「概念」は、例えば、日付、時間、数字、コード、医薬品、病歴、診断、処方薬、語句、列挙、区分の頭出しを含む。用語「内容（content)」は、本明細書では文書のどのようなサブセットに対しても一般的に参照するよう使用し、したがって、標準的なテキストだけでなく１つ以上の概念の表現もまた含む。

「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＣｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」と表題と付いた上述の特許出願に開示されている技術、および、より一般的に、自動転写システムは、内容を音声ストリーム１０２の対応する領域と関連付けるタイミング情報１３０を生成する。かかるタイミング情報１３０は、例えば、原稿転写物１２４のそれぞれの単語を、その単語を表す音声ストリーム１０２の対応する領域に位置付けてもよい。以下の考察は、かかるタイミング情報１３０が強調システム１００を再生するのに利用できることを前提とする。図１Ａのシステム１００ａでは、タイミング情報１３０は、原稿転写物１２４の生成中に自動転写システム１２８ａによって生成する。図１Ｂのシステム１００ｂでは、タイミング情報１３０は、音声ストリーム１０２、および人間の転写士１２８ｂによって生成された原稿転写物１２４に基づき自動発話認識器１３２によって生成する。

図２を参照して、再生中に音声ストリーム１０２の領域を強調するために、本発明の１実施形態の再生強調システム１００によって実行する方法２００のフローチャートを示す。音声ストリームイテレータ１０４は、音声ストリームのそれぞれの音声領域Ａ１０６にループを入れる（ステップ２０２）。

正確性識別子１０８は、音声領域Ａが原稿転写物１２４で正確に認識される（転写される）という、推定値Ｃ１１０の可能性を特定する（ステップ２０４）。この推定値は、本明細書では「正確性スコア」と称す。正確性スコアＣ１１０を生成するのに使用しうる技術の実例を、図４を参照して以下に説明する。

関連性識別子１１２は、領域Ａの潜在的な関連性（すなわち、重要性）の程度Ｒ１１４を特定する（ステップ２０６）。この程度を表す量は、本明細書では「関連スコア」と称す。関連スコアＲ１１４を生成するのに使用しうる技術の実例を、図５を参照して以下に説明する。

強調係数識別子１１６は、正確性スコアＣ１１０および関連スコアＲ１１４に基づき強調係数Ｅ１１８を特定する（ステップ２０８）。強調係数Ｅ１１８を生成するのに使用しうる技術の実例を、図６を参照して詳細を以下に説明する。

音声再生エンジン１２０は、人間の校正者１２６に対して再生される強調が調整された音声信号１２２の領域を生成するために、強調係数Ｅ１１８に従って音声領域Ａ１０６を再生する（ステップ２１０）。強調係数Ｅ１１８がはっきりしない強調を示す場合、強調が調整される音声ストリーム１２２の、結果として生じる領域は、元の音声ストリーム１０２の領域Ａ１０６と同じであってもよいことに留意されたい。音声再生エンジン１２０が従来の音声再生エンジンである場合、プリプロセッサ（図示せず）は、音声再生エンジン１２０によって再生するために適切な音声信号を生成するために、強調係数Ｅ１１８を音声領域Ａ１０６に適用してもよい。さらに、強調が調整される音声ストリーム１２２は、ユーザーの選択または他の要件に従って、（さらに速度を速める、または遅くすることなどによって）さらに処理してもよい。方法２００は、音声ストリーム１０２の残りの領域のために、ステップ２０４〜２１０を繰り返し（ステップ２１２）、それによって、校正者１２６に対してそれを再生するとき、どのような適切な強調をも領域に適用する。

本発明の１実施形態を一般的に説明したが、本発明の特定の実施態様をさらに詳細に今から説明する。音声ストリーム１０２の領域を強調することのできる１つの方法は、音声ストリームの他の領域よりも、遅く再生することによるものである。強調係数１１８は、したがって、対応する音声領域Ａ１０６を再生するための速度を達成するために、再生速度のディフォルト値を乗じることのできる時間スケール調整係数であってもよい。音声再生エンジン１２０は、この場合、音声領域Ａ１０６の時間スケールが調整されたバージョンである、強調が調整された音声信号１２２を生成するとき、強調係数１１８に従ってこの時間スケール調整を実行してもよい。

例えば、図３を参照して、強調係数Ｅ１１８によって特定されたどのような強調も有する音声領域Ａ１０６を再生するために、図２に示す方法２００のステップ２１０を導入するのに使用しうる方法のフローチャートを示す。前記方法は、再生速度のディフォルト値を特定する（ステップ３０４）。再生速度Ｐ_Ｄのディフォルト値は、リアルタイムの再生速度などの、音声ストリーム１０２が、強調されることなく再生されるどんな再生速度であってもよい。前記方法は、強調係数Ｅ１１８により再生速度Ｐ_Ｄのディフォルト値を割ることによって、強調された再生速度Ｐ_Ｅを特定する（ステップ３０６）。前記方法は、強調された再生速度Ｐ_Ｅで音声領域Ａを再生する（ステップ３０８）。

強調係数Ｅは、１未満、１に等しく、または１より大きくてもよいので、「強調された」再生速度Ｐ_Ｅは、再生速度Ｐ_Ｄのディフォルト値より遅く、速く、または等しくてもよいことに留意されたい。従って、Ｐ_Ｅは、本明細書では「強調された」再生速度と称するが、速度Ｐ_Ｅで音声領域Ａ１０６を再生するステップは、Ｅの値（したがってＰ_Ｅの値）に応じて音声領域Ａ１０６を強調する、重視しないようにする、強調をおかないのいずれであってもよい。同じことが、強調係数Ｅ１１８に基づく再生の間、音声領域Ａ１０６を変更するのに使用してもよい時間スケール調整以外の技術にも一般的に当てはまる。

さらに、強調された音声領域は、基本的に以下の２つ方法で、他の領域より遅い速度で再生してもよい。（１）再生速度Ｐ_Ｄのディフォルト値と比較して、強調された音声領域での再生速度を落とす方法、および（２）再生速度Ｐ_Ｄのディフォルト値と比較して、強調された音声領域を囲む領域での再生速度を上げる方法。かかる技術は両方とも、本発明の範囲内にあり、その２つは、様々な方法でお互いに組み合わせてもよい。同じことが、強調係数Ｅ１１８に基づく再生の間、音声領域Ａ１０６を変更するのに使用してもよい時間スケール調整以外の技術にも一般的に当てはまる。しかしながら、囲んでいる音声領域での再生の速度を上げることによって、特定の音声領域を強調する１つの利点は、そうすることにより、校正者１２６に対して音声ストリーム１０２を再生するために必要とされる総合時間を削減することである。それによって、校正を実行できる速度が上がることである。

正確性識別子１０８は、音声領域Ａ１０６のための正確性スコア１０８を特定することを上に述べてある。正確性識別子１０８は、様々な方法のうちのどんな方法によってでも正確性スコア１０８を特定してもよい。例えば、図４を参照して、正確性スコアＣ１１０を特定するために図２に示す方法２００のステップ２０４を導入するのに使用しうる方法のフローチャートを示す。

正確性識別子１０８は、音声領域Ａ１０６に対応する原稿転写物１２４の領域での正確性Ｃ_Ｐの前の可能性を特定する（ステップ４０２）。原稿転写物１２４のこの領域は、その用語が本明細書で定義される「内容」のどんな種類をも含んでもよい。「前の正確性の可能性」は、特定の内容に事前に割り当てられた正確な可能性の推定値である。例えば、人間の転写士はしばしば、「上がる」および「下りる」という単語をお互いに間違える。従って、原稿転写物１２４の「上がる」および「下りる」という単語は、おそらく不正確に転写されているものである。かかる単語は、比較的低い前の正確性の可能性を割り当ててもよい。同様に、自動転写システムは、特定の単語を体系的に間違って認識する場合があり、それには比較的低い前の正確性の可能性を割り当てることができる。自動転写システムはしばしば、人間の転写士に比べて異なる単語を間違って認識し、その結果、同一の単語が、使用している転写方法に応じて異なる前の正確性の可能性を有することがある。

正確性識別子１０８は、口頭の音声ストリーム１０２の発話者の独自性、および口頭の音声ストリーム１０２の信号対雑音比などの、口頭の音声ストリーム１０２の特長を特徴付ける値Ｃ_Ａを特定する（ステップ４０４）。例えば、特定の発話者（の発話）を理解するのに困難であり、したがって、おそらく不正確に転写される可能性が高いと知られている場合は、正確性識別子１０８は、比較的低い値をＣ_Ａに割り当ててもよい。例えば、音声ストリーム１０２が、比較的高い信号対雑音比を有する場合は、その結果、原稿転写物１２４は、おそらく比較的正確に転写されており、また正確性識別子１０８は、比較的高い値をＣ_Ａに割り当ててもよい。

自動の発話認識器は通常、単語が正確に認識される、すなわち、単語が認識された音声ストリームで対応する発話を正確に表す信頼度を表している文書でのそれぞれの単語の信頼値を生成する。正確性識別子１０８が、かかる信頼値へのアクセスを有する場合、正確性識別子１０８は、音声ストリーム１０２の領域Ａ１０６に対応する原稿転写物１２４の領域に関連した信頼値に基づき値Ｃ_Ｍを特定してもよい（ステップ４０６）。

正確性識別子１０８は、個別のスコアＣ_Ｐ、Ｃ_ＡおよびＣ_Ｍに基づき、全体の正確性スコアＣ１１０を特定する（ステップ４０８）。正確性識別子１０８は、例えば、Ｃ_Ｐ、Ｃ_ＡおよびＣ_Ｍの加重和として全体の正確性スコアＣ１１０を特定してもよい。かかる加重は、例えば、低い前の可能性の正確性を有する音声領域、高い可能性でエラーを示す特徴（低い信号対雑音比など）を有する音声ストリーム、および低い信頼値を有する領域を強調するのに有利である。あるいは、正確性識別子１０８は、Ｃ_Ｐ、Ｃ_ＡおよびＣ_Ｍの最小値として全体の正確性スコアＣ１１０を特定してもよい。これらは単に実例であり、正確性識別子１０８は、任意の規則またはアルゴリズムを使用するなど、任意の方法を用いて全体の正確性スコアＣ１１０を特定してもよい。

さらに、個別のスコアＣ_Ｐ、Ｃ_ＡおよびＣ_Ｍは、正確性識別子１０８が正確性スコア１１０を生成するとき考慮に入れてもよい要素の単なる実例である。正確性識別子１０８は、正確性スコアを生成するとき、どんな加重または他の組み合わせの機能でも使用して、これらまたは他の要素のどんな組み合わせをも考慮に入れてもよい。

関連性識別子１１２は、音声領域Ａ１０６のために関連スコア１１４を生成すると上に述べてある。関連性識別子１１２は、様々の方法のうち任意の方法によって関連スコア１１４を生成してもよい。例えば、図５を参照して、関連スコアＲ１１４を生成するために図２に示す方法２００のステップ２０６を導入するのに使用しうる方法のフローチャートを示す。

関連性識別子１１２は、音声ストリーム１０２の領域Ａ１０６に対応する原稿転写物１２４の領域の前の関連性Ｒ_Ｐを特定する（ステップ５０２）。例えば、医学報告では、患者のアレルギーを説明する区分は常に非常に重要（関連性あり）である。従って、アレルギーの項は高い前の関連性を割り当ててもよい。同様に、単語「ｎｏ」および「ｎｏｔ」などの特定の内容は、高い前の関連性に割り当ててもよい。さらに、空テキストは（おそらく、無言の期間または咳などの発話でない事象を表す）は、低い前の関連性に割り当ててもよい。

自動の発話認識器は通常、音声ストリームのそれぞれの認識される領域のために、代替の憶測１３４（すなわち、候補の単語）のセットを生成する。例えば、自動転写システム１２８ａが、話言葉「ｋｎｏｔ」を認識しようと試みるとき、システム１２８ａは、単語「ｋｎｏｔ」、「ｎｏｔ」、「ｎａｕｇｈｔ」、および「ｎｉｔ」の順で構成される代替の憶測１３４のリストを生成してもよい。システム１２８ａは通常、信頼値を、憶測が対応する音声領域を正確に表す信頼度を表すそれぞれの憶測に関連付ける。原稿転写物１２４などの自動の発話認識器の最終の出力は通常、音声ストリーム１０２でのそれぞれの対応する領域のために、最良の憶測（すなわち、最も高い信頼値を有する憶測）だけを含む。しかしながら、原稿転写物１２４が、競合する憶測についての情報を含む場合、または、関連性識別子１１２が、他の方法で、競合する憶測１３４へのアクセスを有する場合、関連性識別子１１２は、関連スコアＲ１１４を生成するために、かかる競合する憶測の情報１３４を利用してもよい。

例えば、関連性識別子１１２は、現在の文書領域のための全ての競合する憶測のうち最も高い前の関連性を有する競合する憶測の前の関連性Ｒ_Ｈを特定することができる（ステップ５０４）。競合する憶測が「ｋｎｏｔ」、「ｎｏｔ」、「ｎａｕｇｈｔ」、および「ｎｉｔ」である上の実例では、単語「ｎｏｔ」は、最も高い可能性のある前の関連性を有する。このような場合には、単語「ｎｏｔ」が原稿転写物１２４に現れないとしても、関連性識別子１１２は、Ｒ_Ｈの値として単語「ｎｏｔ」の前の関連性を使用してもよい。高い関連性のある単語「ｎｏｔ」が「ｋｎｏｔ」として間違って認識される場合には、校正者１２６に単語を注目させることは重要であるので、このような方法で単語「ｋｎｏｔ」の関連性を高めることは、有益な場合がある。

関連性識別子１１２は、個別のスコアＲ_ＰおよびＲ_Ｈに基づき、全体の関連スコアＲ１１４を特定する（ステップ５０６）。関連性識別子１１２は、例えば、Ｒ_ＰおよびＲ_Ｈの加重和として全体の関連スコアＲ１１２を特定してもよい。かかる加重は、例えば、高い前の関連性を有し、また高い前の関連性のある競合する憶測を有する音声領域を強調するのに有利である。これは単に実例であり、関連性識別子１１２は、任意の方法によって全体の関連スコアＲ１１２を特定してよい。さらに、個別のスコアＲ_ＰおよびＲ_Ｈは、関連性識別子１１２が関連スコア１１４を生成するとき考慮に入れてもよい要素の単なる実例である。さらに、関連性識別子１１２は、関連スコア１１４を生成するとき、どのような加重または他の組み合わせの機能をも使用して、これらまたは他の要素の任意の組み合わせを考慮に入れてもよい。例えば、関連性識別子１１２は、Ｒ_ＰおよびＲ_Ｈの最大値として全体の関連スコアＲ１１４を特定してもよい。

上記記載の通り、強調係数識別子１１６は、正確性スコアＣ１１０および関連スコアＲ１１４に基づく強調係数Ｅ１１８を生じる。強調係数識別子１１６は様々な方法で強調係数Ｅ１１８を特定する。例えば、図６を参照すると、フローチャートには強調係数Ｅ１１８の特定するために図２に示された方法２００のステップ２０８の実施に使用される方法が記されている。図６の方法で、強調係数識別子１１６は、正確性スコア１１０および関連係数１１４の加重和である強調係数１１８を生じる。

強調係数識別子１１６は正確性スコアＣ（ステップ６０２）の重みＷ_Ｃおよび関連スコアＲ（ステップ６０４）の重みＷ_Ｒを特定する。強調係数識別子１１６は、Ｗ_ＣとＷ_Ｒの重みをそれぞれ使用し、ＣおよびＲの加重和である強調係数Ｅ１１８を特定する（ステップ６０６）。Ｗ_ＣとＷ_Ｒの各重みは正数、負数、あるいはゼロである可能性がある。

関連スコアＲは、例えば、以下のうちの一つの記号値を持つことができる：（１）いかなる発話内容を有しない音声領域（無言および咳払い等）に対応する「フィラー」、（２）完全に無関連で、そのため転写されない発話（第三者との挨拶、および断続的会話等）を含む音声領域に対応する「非転写」、（３）転写に適した通常の発話機能を含む音声領域に対応する「通常」、（４）クリティカルな（適合度の高い）発話（ｎｏおよびｎｏｔ等）を含む音声領域に対応する「クリティカル」。前記記号値は、適合度の最も低い「フィラー」および適合度の最も高い「クリティカル」を最初と最後にして、順序づけることができる。

再生速度を調整するための上記記号値の使用法は、固定乗数を各記号値と関連付けることであり、値の低い乗数がより関連した内容と関連付けられる。「フィラー」音声領域は、特例として扱われることがある。前記各領域は固定持続時間（例えば１秒間）あるいは、固定値（例えば１秒）プラス音声領域のもとの時間の一部（例えば１０分の１）に相当する時間において再生が可能である。そのような仕組みの意図は、「フィラー」以外の内容については、その関連性と逆比例した速度で再生することである。「フィラー」は、かなり高速だが、使用者が、フィラーでない音声を識別し、その内容があやまって「フィラー」とされたことがわかるような速度で再生される。

正確性スコアＣおよび関連スコアＲ１１４を、例えば以下の通り強調指数Ｅ１１８を生み出す目的で組み合わせてもよい。発話識別者に、識別者の認識精度の観測平均率を基に、規定値の正確性スコアＣ_Ｒを割り当てることができる。信頼値Ｃ_Ｍは、各文書領域に関連していることを思い起こされたい。文書領域の最終の正確性スコアＣは、Ｃ_Ｍ／Ｃ_Ｒとして計算できる。最終強調係数Ｅ１１８はＲ／Ｃで得られる。

上限および下限が強調係数Ｅに課せられることがある。例えば、Ｅが再生速度調整係数である場合、音声ストリームは、速度のディフォルト値の少なくとも半分、および２倍以下で再生できる様、１から１０の範囲に限定される。

本発明の利点は、以下の一つ以上の事柄である。本発明の実施形態は、音声領域のクリティカル領域を強調し、口頭の音声ストリームを再生することで原稿転写物の校正過程を促進する。クリティカル領域はその内容により特定される。具体的には、非常に関連性がある場合、あるいは不適格に転写された可能性がある場合、領域はクリティカルと考えられる。これらの領域を強調することで、その校正者の注意を引き、それにより可能性が増加し、前記校正者がそれらの領域のいかなるエラーも校正する。

上記に記載された通り、音声ストリームのクリティカル領域は、ノンクリティカル領域より遅い速度で再生することで強調されてもよい。再生速度のディフォルト値に相対してノンクリティカル領域の再生速度を早めることで強調された場合、校正は正確性を損なうことなく、標準再生法よりもより早い速度で行われる。さらに、再生速度のディフォルト値に相対してクリティカル領域の速度を遅くすることで強調された場合、校正者は、それら領域での発話をより識別でき、それによりいかなる対応する転送エラーもより良く修正できるようになる。ノンクリティカル領域の再生速度を速めること、およびクリティカル領域の再生速度を遅くすること双方により強調された場合、減速したクリティカル領域の利点を校正者に提供する一方で、音声ストリームがディフォルト値（例えば実時間の）速度で再生される時に比べ、さらに短時間で再生することが可能になる。

非強調ノンクリティカル領域は、エラーを含んだ文書領域にほとんど対応しない領域であるため、正確性を損なうことなく、さらに正確性をも向上させながら速度を速めることが可能になる。前記領域は、対応する文書領域が修正を必要としない可能性が高いため、構成者が注意を集中させる必要がない。非強調が再生速度を速めることで得られる場合、前記領域はより迅速に再生可能になり、それにより正確性を損なうことなく、校正に必要な全時間を短縮することができる。

その上、本発明の実施形態は、ノンクリティカル領域におけるエラーの修正を妨げるものではない。ノンクリティカル領域が、強調されていない場合でも、校正者は領域内のエラーを認識し、修正してよい。例えば、ノンクリティカル領域が通常より早く再生された場合でも、ノンクリティカル領域の発話は、校正者に可聴であってよく、領域内のエラーを認識し修正することができる。この機能は、ノンクリティカルあるいは、非強調されたときであっても、有効に人間の校正者が検出可能なエラーが発生した際のそのような分類を無効にできることにより、ノンクリティカルという領域の誤認に対するある程度の防止力を提供する。このノンクリティカルと分類されるのを無効にする機能は、ノンクリティカルと分類された音声の再生を単に取り外し、あるいは削除する従来の技術には備わっていない。

前記考察において、前記領域は「クリティカル」と「ノンクリティカル」および「強調」と「非強調」と参照されているが、本発明の実施態様は、領域間の二分識別法、およびそれにかかる強調に制限されない。むしろ、いかなる領域も、重要性が連続して変化する連続体のどこかに位置し、独自の連続体の中に位置する強調の程度と対応している可能性がある。上記記載の通り、正確性スコアＣと関連スコアＲとその各重みは、任意の値を有し、任意の組み合わせで、強調係数を得ることができる。従って、強調係数Ｅ１１８を従来の音声領域Ａ１０６に適用することにより生じた修正済音声ストリーム１２２は、様々な強調を兼ね揃えることになる。この柔軟性により、システム１００は、音声ストリーム１０２の異なる領域を異なる度合いへと強調することが可能になる。音声領域を周囲の領域よりも遅い速度で再生することにより強調が得られる場合、この方法で様々な度合いの強調を生む機能により、最も効率のよい再生速度および原稿転写物１２４の校正に必要とされる時間に最も正確さを生じるであろう速度を生み出すことができる。

この柔軟性に関わらず、本発明の実施態様で、量子化された強調の程度を用いることができる。例えば、システム１００は、強調係数Ｅ１１８を「強調された」「非強調された」「中立」の値に量子化することができる。時間スケール調整を用いて強調が得られた場合、これら３つの値は、リアルタイムより遅い再生速度と、リアルタイムより早い再生速度と、リアルタイム再生速度に対応可能である。これは単に、強調係数が量子化する一方法であり、本発明を制限するものではない。

本発明はある特定の実施形態に関して上記されているが、前述の実施形態は、実施例としてのみ示されており、本発明の範囲を限定あるいは規定するものではないことを理解するものである。様々なその他の実施形態もまた（ただし、必ずしも以下に限定されない）、本請求の範囲内に含まれるものである。例えば、この中に記載されている要素は、さらに追加成分に分割でき、あるいは同じ機能を発揮するために、要素を結合し、より少ない要素を構成する。

上記記載の通り、音声ストリーム１０２内の領域の再生速度は、適切な強調を備えるために修正されてよい。前記再生速度調整は、ピッチ調整、含有信号の電力調整、あるいは母音再生を子音再生より短縮する知覚的修正転換などの追加調整をすることなく、あるいは、それとともに行われてよい。

単語を強調することで、単語が理解し難く、また不自然に聴こえるため、視聴者に不快な影響を及ぼす可能性がある。例えば、前後する単語にくらべ、迅速に１語を再生するために再生速度が急激に調整された場合、そのような結果が生じる。この問題に対処するために、例えば、強調語の前の２、３語の始まりの発話の強調を徐々に強めながら、その上、強調語の後の２、３語の発話の強調を抑えながら、強調語が自然に聞こえるよう調整される。そのような強調の平滑化により、強調語を自然な音にするだけでなく、より理解し易くすることができる。それにより、原稿転写物１２４内の転写エラーの修正のために、強調語の有効性が増大する。

同様に、単語の正確性スコアが比較的低い（および、したがって不正確の可能性が比較的高い）場合、人間の校正者１２６に、（おそらく）不正確な単語を編集するのに充分な時間を提供するために１語あるいは、１語以上のそれに続く単語がゆっくりと再生されることがある。前記それに続く単語の再生速度を遅らせることは、音声ストリーム１０２の停止や巻き戻し、その後再生を再始動することすることなく編集を行うことを可能にし、編集過程そのものを最適化する。

ここに開示されている特定の実施例には、前記領域を周囲の領域よりも遅い速度で再生することで音声ストリーム１０２の領域が強調されるが、これは、本発明を限定するものではない。強調は、他の方法を用いて得られてもよい。例えば、音声ストリーム１０２の領域Ａ１０６は、音声領域Ａ１０６に対応する強調調整音声ストリーム１２２の出力を増大することで強調されてよい。さらに、原稿転写物１２４の対応内容を表示する方法を調整しながら、付加強調は、音声ストリーム１０２の領域にかけられる。例えば、原稿転写物１２４内の対応語の色、フォント、フォントサイズを変更することで、音声ストリーム１０２の領域に、付加強調がかけられる。

上記考察は正確性スコアＣ１１０および関連スコアＲ１１４に言及する。前記スコアは任意の尺度で測定された値を有してよい。例えば、正確性スコア１１０は０から１の値を有し、関連スコアＲ１１４は上記記載の記号値を有してよい。さらに、正確性スコアＲ１１４の高値は、正確性の高い可能性あるいはエラーの高い可能性を示してよい。従って、「正確性」のスコアＣ１００は、正確性スコアあるいは非正確性スコア（エラー）として解釈されてよい。同様に、関連スコアＲ１１４の高い値は高い関連性、あるいは低い関連性を示してよい。従って、「関連性」スコアＲ１１４は関連性スコアあるいは非関連性スコアとして解釈されてよい。

同様に、強調係数Ｅ１１８は、任意の尺度で測定される値を有してよい。さらに、強調係数Ｅ１１８の高値は、より大きな、または小さな強調を示してよい。従って、「強調」関数Ｅ１１８は強調係数あるいは非強調係数として解釈されてよい。

上記考察は、「極めて」関連性がある、および／または「おそらく」誤って転写された音声領域に関する可能性がある。これらの表現およびその他類似表現は、説明図の用途に使用されるものであって、本契約の実施形態にいかなる限定を課すものではない。例えば、音声領域は、再生中強調されるために、関連性、エラーの可能性が特定の基準点を超過することを必要とされていない。むしろ、上記考察で明確なように，ある特定の音声領域に関連した正確性スコアと関連スコア間になんらかの関係がある場合がある。一般的に、強調係数は、正確性スコアおよび／あるいは関連スコアのみを基準とする必要がある。

上記記載の様々な実施例の強調係数識別子１１６は、正確性スコアＣ１１０と関連スコアＲ１１４の組み合わせを基にした強調係数Ｅ１１８を特定するが、これは本発明の要件ではない。むしろ、強調係数識別子１１６は、正確性スコアＣ１１０のみ、あるいは、関連スコアＲ１１４のみを基にした強調係数Ｅ１１４を特定できるものである。

音声領域Ａ１０６の修正版は、ここに「強調された」あるいは「強調修正済み」と称されることもあるが、強調修正済み音声ストリーム１２２が、原型音声領域Ａ１０６と異なることを意味するものではない。むしろ、強調修正済み音声ストリーム１２２は、強調係数Ｅ１１８の値に従って、音声領域Ａ１０６の強調版、音声領域Ａ１０６の非強調版あるいは、音声領域Ａ１０６と同種になりえる。

さらに、ここに使用されている「強調」という用語は、ある特定の内容における特定の音声領域の再生を強調する効果を言及するものであって、特に、前記強調を得るための、いかなる特別の技術を言及するものではない。例えば、音声領域はその再生速度を遅くすることや、周囲の音声領域の再生速度を速めることや、両方を併用することで強調される。従って、修正無しに音声領域そのものを再生することと周囲の音声領域の再生を修正することで、音声領域の再生を「強調」することが可能である。この中の「強調する」音声領域の参考例は、強調を得るための、いかなる技術を参考にするものであると理解するべきである。

ここに開示された本発明の一定の実施形態は発話を基に生じる文書内のエラーを検出し修正するが、ここに開示された技術もまた、発話を基に生じない書類内のエラーの検出あるいは修正に使用されるものである。例えば、ここに開示された技術は、文書内の領域用強調係数の特定、およびテキスト発話エンジンを使用した強調係数に一致した文書の領域を「再生する」ために使用されるものである。例えば、文書は再生時間を最小限にするために電話回線インターフェース上で、このように「再生」される。

前記説明は、正確性の前の可能性、あるいは／または原稿転写物１２４内の領域の前関連性に影響を及ぼす係数を示すが、前記領域は単なる実施例であり、本発明の限定を構成するものではない。正確性の前の可能性、あるいは／または原稿転写物１２４の前関連領域に影響を及ぼす可能性のあるその他関数の実施例は、発話の同一性、音声ストリーム１０２（例えば、医学上や法律上の）範囲、原稿転写物１２４の種類（例えば医学報告の文脈では、手紙、遂行概略、経過記録、コンサルティング記録、退院報告および放射線報告）および領域が生じる原稿転写物１２４の部分を含む。結果、例えば同語がその単語が生じる文書の部分により、異なる正確性の前の可能性および／または関連性を有する。

例えば、上記記載の技術は、ハードウェア、ソフトウェア、ファームフェア、あるいは、そのいかなる複合形態にて実施される。上記記載の技術は、プロセッサーとプロセッサーで可読記憶媒体（例えば、揮発性あるいは非揮発性あるいは／および記憶素子を含む）と、少なくとも一つの入力装置と、少なくとも一つの出力装置を含むプログラム可能コンピューター上で実行される一つあるいは一つ以上のコンピュータープログラム内で実施される。プログラムコードは、記載の機能の実行および出力を生じるために、入力装置を使用して入力した入力に使用される。出力は、一つあるいは一つ以上の出力装置に与えられる。

以下の特許請求の範囲内の各コンピュータープログラムは、アセンブリ言語、機械言語、ハイレベル手続きプログラミング言語およびオブジェクト指向プログラミング言語を含むいかなるプログラミング言語で実施される。例えば、上記プログラミング言語は、コンパイル型、あるいはインタープリター型プログラミング言語であってよい。

各コンピュータープログラムは、コンピュータープロセッサーで実行するための機械解読記憶機械内に明白に統合されたコンピュータープログラム製品内で実装される。本発明の方法のステップは、本発明の機能を実行するため、入力に対し作動し出力を生じながら、コンピューター可読媒体に明白に統合されたプログラムを実行するコンピュータープロセッサーによって実施される。一例として、適切なプロセッサーは汎用および特種用途マイクロプロセッサを含むものである。一般的に、プロセッサーはＲＯＭおよび／またはＲＡＭから命令およびデータを受信する。コンピュータープログラム命令を明白に実装するのに適した記憶装置は、例えば、ＥＰＲＯＭとＥＥＰＥＯＭとフラッシュメモリを含む半導体メモリ装置などの全ての非揮発性メモリ装置と、内部ハードディスクおよびリムーバブルディスクなどの磁器ディスクと、光磁器ディスク、およびＣＤ−ＲＯＭを含む。前述のいずれも、特別設計のＡＳＩＣ（特定用途向け集積回路）およびＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）により補足あるいは、その中に内蔵されてよい。一般的にコンピューターは、内蔵ディスク（示されていない）あるいはリム−バブルディスクを含む記憶媒体からのプログラムおよびデータも受信することができる。これらの要素は、従来のデスクトップやワークステーションコンピューターや、ここに記載された方法を実施するコンピュータープログラムの実行に適したその他のコンピューター内にもみられ、それは、いかなるデジタルプリントエンジンあるいはマーキングエンジン、表示モニター、もしくは紙、フイルム、表示モニターあるいはその他の出力媒体の色やグレースケール画素を生じることの出来るその他のラスタ出力装置と関連して使用されてよい。

図１Ａ〜１Ｂは、本発明の実施態様による、口頭の音声ストリームの原稿転写物のエラーの修正を容易にするためのシステムのデータフロー図である。図２は、再生の間、音声ストリームの領域を強調するための本発明の１実施形態において、図１の再生強調システムによって実行する方法のフローチャートである。図３は、本発明の１実施形態による、特定された強調係数に従って音声領域を再生するための方法のフローチャートである。図４は、本発明の１実施形態による、音声ストリームの領域のための正確性スコアを特定するための方法のフローチャートである。図５は、本発明の１実施形態による、音声ストリームの領域のための関連スコアを特定するための方法のフローチャートである。図６は、領域での正確性スコアおよび関連スコアに基づき、音声ストリームの領域に適用する強調係数を特定するための方法のフローチャートである。

Claims

（Ａ）文書の一の領域と口頭の音声ストリームの対応する一の領域とから、前記文書の前記領域が、前記口頭の音声ストリームの前記対応する領域での内容を正確に表す可能性を特定するステップと、
（Ｂ）前記口頭の音声ストリームの前記領域での関連性の値を選択するステップであって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものであるステップと、
（Ｃ）前記可能性および前記関連性の値から、再生されたとき、前記口頭の音声ストリームの前記領域に対する強調を変更するための強調係数を特定するステップであって、前記特定された可能性に関連した第１の重みを特定し、前記関連性の値に関連した第２の重みを特定し、且つ、前記第１及び第２の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、ステップを含む方法。
前記ステップ（Ｃ）は、前記可能性および前記関連性の値から、前記口頭の音声ストリームの前記領域での再生速度を調整するための時間スケール調整係数を特定するステップを含む、
請求項１に記載の方法。
（Ｄ）強調が調整される音声ストリームを生成するために前記強調係数に従って、前記口頭の音声ストリームの前記領域での強調を変更するステップをさらに含む、請求項１記載の方法。
前記ステップ（Ａ）は、（Ａ）（１）前記文書の前記領域が、前記口頭の音声ストリームの前記対応する領域での前記内容を正確に表す信頼度を表す信頼値から前記可能性を特定するステップであって、
前記信頼値は、前記口頭の音声ストリームの前記領域に基づき、前記文書の前記領域を生成した自動転写システムによって提供されるステップを含む、請求項１記載の方法。
文書の一の領域と口頭の音声ストリームの対応する一の領域とから、前記文書の前記領域が、前記口頭の音声ストリームの対応する前記領域での内容を正確に表す可能性を特定するための正確性特定手段と、
前記口頭の音声ストリームの前記領域の関連性の値を選択する関連性特定手段であって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものである関連性特定手段と、
前記可能性および前記関連性の値から、再生されたとき、前記口頭の音声ストリームの前記領域に置かれる強調を変更するために強調係数を特定するための第２の特定手段と、
を含む器具。
（Ａ）文書の一の領域と特定の内容とから、前記文書の前記領域が前記特定の内容を正確に表す可能性を特定するステップと、
（Ｂ）口頭の音声ストリームの領域の関連性の値を選択するステップであって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものであるステップと、
（Ｃ）前記可能性および前記関連性の値から、強調係数を特定するステップであって、前記特定された可能性に関連した第１の重みを特定し、前記関連性の値に関連した第２の重みを特定し、且つ、前記第１及び第２の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、ステップと、
（Ｄ）前記強調係数によって特定された強調を有する前記文書の前記領域を表す音声ストリームを再生するためのテキスト発話エンジンを使用するステップと、
を含む、方法。
（Ｅ）前記音声ストリームに基づき、前記文書のエラーを修正するステップ、
をさらに含む、請求項６記載の方法。
文書の一の領域と特定の内容とから、前記文書の領域が、前記特定の内容を正確に表す可能性を特定するための正確性特定手段と、
口頭の音声ストリームの前記領域の関連性の値を選択する関連性特定手段であって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものである関連性特定手段と、
前記可能性および前記関連性の値から、強調係数を特定するための第２の特定手段であって、前記特定された可能性に関連した第１の重みを特定し、前記関連性の値に関連した第２の重みを特定し、且つ、前記第１及び第２の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、第２の特定手段と、
前記強調係数によって特定された強調を有する前記文書の前記領域を表す音声ストリームを再生するためのテキスト発話エンジンと、
含む、器具。
前記第２の特定手段は、前記可能性および前記関連性の値から、前記音声ストリームの再生速度を調整するための時間スケール調整係数を特定するための手段を含む、請求項８に記載の器具。