JP5284785B2 - コンテンツベースの音声再生強調 - Google Patents

コンテンツベースの音声再生強調 Download PDF

Info

Publication number
JP5284785B2
JP5284785B2 JP2008522799A JP2008522799A JP5284785B2 JP 5284785 B2 JP5284785 B2 JP 5284785B2 JP 2008522799 A JP2008522799 A JP 2008522799A JP 2008522799 A JP2008522799 A JP 2008522799A JP 5284785 B2 JP5284785 B2 JP 5284785B2
Authority
JP
Japan
Prior art keywords
audio stream
region
relevance
value
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008522799A
Other languages
English (en)
Other versions
JP2009503560A5 (ja
JP2009503560A (ja
Inventor
シュバート,ジェル
フリッツ,ジュエルジェン
フィンケ,マイケル
コール,デトロフ
Original Assignee
マルチモーダル・テクノロジーズ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マルチモーダル・テクノロジーズ・エルエルシー filed Critical マルチモーダル・テクノロジーズ・エルエルシー
Publication of JP2009503560A publication Critical patent/JP2009503560A/ja
Publication of JP2009503560A5 publication Critical patent/JP2009503560A5/ja
Application granted granted Critical
Publication of JP5284785B2 publication Critical patent/JP5284785B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声再生に関し、より具体的には、発話の原稿転写物を校正する際に使用される再生に関する。
(関連出願との相互参照)
本出願は、参照により本明細書に組み込まれる、以下の同一人所有の米国特許出願に関連する。
2004年8月20日に出願され、「Automated Extraction of Semantic Content and Generation of a Structured Document from Speech」と表題の付いた、米国特許出願番号10/923,517号。
2004年8月20日に出願され、「Document Transcription System Training」と表題の付いた、米国特許出願番号10/922,513号。
(従来の技術)
人間の発話を転写することが、多くの状況において望ましい。法律専門分野においては、例えば、転写士は、供述書の文書による転写物を生成するために、公判および宣誓証言で得た供述を転写する。同様に、医療専門分野においては、医者および他の医療専門家によって口述された診断、予後診断、処方薬、ならびに他の情報の転写物が生成される。これらおよび他の分野の転写士は通常、得られる転写物に対する依存および不正確さから生じる可能性のある害(患者に誤った処方薬を与えるなど)のために、非常に正確(元の発話の語義内容(意味)と得られる転写物の語義内容との一致度の観点から測定される)であることが要求される。(1)発話が転写される発話者の特徴(例えば、訛り、音量、方言、速度)、(2)外部条件(例えば、背景の騒音)(3)転写士または転写システム(例えば、不完全な聴力または音声獲得能力、言語の不完全な理解力)、または(4)録音/伝送媒体(例えば、紙、アナログオーディオテープ、アナログ電話網、デジタル電話網に適用される圧縮アルゴリズム、携帯電話チャネルによる雑音/アーチファクト)におけるばらつきなどの様々な理由により、非常に正確な初期転写物を生成することは困難となる場合がある。
従って、人間の転写士または自動発話認識システムによって生成されたに関わらず、転写物の第1の原稿は、様々なエラーを含んでいる可能性がある。通常、かかる原稿文書は、そこに含まれているエラーを修正するために校正および編集することが必要である。修正が必要な転写物のエラーは、例えば、以下のうちのどれをも含む可能性がある。単語または単語列の欠落;過剰な言い回し;間違って綴られ、タイプされ、または認識された語、句読点の欠落または過剰、意味観念の誤った解釈(例えば、アレルギーを医薬品自体として特定の医薬品と誤って解釈する);誤った文書構造(誤った、欠落した、または冗長な節、列挙、段落またはリスト)。
ただ単に転写物を読むことにより原稿転写物を校正することは、その発話が転写される発話者にとって可能となり得るが(発話の内容が、発話者の記憶に新しい場合があるので)、他のいかなる校正者においては、通常、校正するために原稿転写物を読むと同時に、発話の録音を聞く必要がある。このように実行される校正は、面倒であり、多大な時間を必要とし、費用がかかり、それ自体エラーが発生しやすい。従って、必要とされるものは、原稿転写物におけるエラーを修正するための改良された技術である。
(要約)
口頭の音声ストリームの原稿転写物を校正するプロセスを容易にするための技術が開示されている。一般に、原稿転写物の校正は、関連性が高いか、またはおそらく不正確に転写されている前記音声ストリームのこれらの領域を強調することにより、対応する前記口頭の音声ストリームを再生することによって容易にする。領域は、例えば、関連性が低く、またおそらく正確に転写されている領域より遅く再生することにより強調してもよい。正確に転写するために最も重要な前記音声ストリームのこれらの領域、および不正確に転写されている可能性の高いこれらの領域を強調することは、校正者が、これらの領域でのどのようなエラーでも正確に修正する可能性を向上させることによって、転写物全体の精度を向上させる。
本発明の多様な側面および実施態様の他の特長および利点は、以下の説明および特許請求の範囲から明白となるであろう。
図1A〜1Bを参照して、口頭の音声ストリーム102の原稿転写物124のエラーの修正を容易にするためのシステム100a〜bのデータフロー図を示す。一般に、システム100a〜bのそれぞれは、原稿転写物124のアクセスもまた有する人間の校正者126に対して、音声ストリーム102の変更バージョン122を再生する。原稿転写物124において、関連性が高い(重要)か、またはおそらく不正確に転写されている音声ストリーム102の領域は、人間の校正者126に対して再生する音声ストリーム102の変更バージョン122において強調される。領域は、例えば、関連性が低く、またおそらく正確に転写されている領域より遅く再生することにより強調してもよい。かかる強調は、例えば、再生速度のディフォルト値(default)と比較して音声ストリーム102の残りの領域(関連性が低く、また正確性の高い可能性(likelihood)を有する)の再生の速度を速めることにより、達成してもよい。結果として、校正者126の注意を、正確に転写されるのに最も重要な音声ストリーム102のこれらの領域、および不正確に転写される可能性の高いこれらの領域に集中させることにより、校正者126がこれらの領域で様々なエラーも修正する可能性を増加させる。さらに、関連性がなく、またおそらく正確に転写される領域での再生の速度を速めることによって強調を達成する場合、校正は従来の再生方法より速く実行される場合があるが、正確さを犠牲にすることはない。
2つのシステム100a〜bは、図1Bに示すシステム100bが、原稿転写物124を生成する人間の転写士128bおよびタイミング情報130および代替の憶測134を生成する自動発話認識器132を利用する一方で、図1Aに示すシステム100aは、原稿転写物124を生成する自動転写システム128aおよびタイミング情報130および代替の憶測134を利用する点で異なる。それ以外では、2つのシステム100aおよび100bは類似しているので、前記2つのシステムは、本明細書では集合的にシステム100と称することができる。同様に、自動転写システム128aおよび人間の転写士128bは、本明細書では集合的に転写システム128と称することができる。前記2つのシステムの差異は、関連性のあるところで説明する。
音声ストリーム102はどのような種類の口頭の音声ストリームであってもよい。口頭の音声ストリーム102は、例えば、患者の診察を記述する医者による口述であってもよい。口頭の音声ストリーム102は、どのような形態を取ってもよい。例えば、それは、直接的または間接的(電話またはIP接続などで)に受け取る生の音声ストリーム、または任意の媒体に、また任意のフォーマットで記録される音声ストリームであってよい。
原稿転写物124は、口頭の音声ストリーム102の内容の一部または全部を表すどのような文書であってもよい。原稿転写物124は、例えば、人間の転写士、自動発話認識器、またはそれらの任意の組み合わせも含む転写システム128によって生成されている。原稿転写物124は、「Automated Extraction of Semantic Content and Generation of a Structured Document from Speech」と表題の付いた、上述の特許出願に開示されている技術のうちのどれを使用して生成してもよい。そこで説明しているように、原稿転写物124は、口頭の音声ストリーム102の文字(逐語的)転写または非文字転写のどちらであってもよい。さらにそこで説明しているように、原稿転写物124は標準的なテキスト文書であってもよいが、原稿転写物106はまた、例えば、文書区分および他の種類の文書構造を描写するXML文書などの構造化文書であってもよい。
原稿転写物124は、標準的なテキストだけでなく、「Automated Extraction of Semantic Content and Generation of a Structured Document from Speech」と表題と付いた上述の特許出願でこれらの用語を定義しているように、語義的または統語的な概念を表す文書構造をも含む構造化文書であってもよい。そこでさらに詳細に説明しているように、用語「概念」は、例えば、日付、時間、数字、コード、医薬品、病歴、診断、処方薬、語句、列挙、区分の頭出しを含む。用語「内容(content)」は、本明細書では文書のどのようなサブセットに対しても一般的に参照するよう使用し、したがって、標準的なテキストだけでなく1つ以上の概念の表現もまた含む。
「Automated Extraction of Semantic Content and Generation of a Structured Document from Speech」と表題と付いた上述の特許出願に開示されている技術、および、より一般的に、自動転写システムは、内容を音声ストリーム102の対応する領域と関連付けるタイミング情報130を生成する。かかるタイミング情報130は、例えば、原稿転写物124のそれぞれの単語を、その単語を表す音声ストリーム102の対応する領域に位置付けてもよい。以下の考察は、かかるタイミング情報130が強調システム100を再生するのに利用できることを前提とする。図1Aのシステム100aでは、タイミング情報130は、原稿転写物124の生成中に自動転写システム128aによって生成する。図1Bのシステム100bでは、タイミング情報130は、音声ストリーム102、および人間の転写士128bによって生成された原稿転写物124に基づき自動発話認識器132によって生成する。
図2を参照して、再生中に音声ストリーム102の領域を強調するために、本発明の1実施形態の再生強調システム100によって実行する方法200のフローチャートを示す。音声ストリームイテレータ104は、音声ストリームのそれぞれの音声領域A106にループを入れる(ステップ202)。
正確性識別子108は、音声領域Aが原稿転写物124で正確に認識される(転写される)という、推定値C110の可能性を特定する(ステップ204)。この推定値は、本明細書では「正確性スコア」と称す。正確性スコアC110を生成するのに使用しうる技術の実例を、図4を参照して以下に説明する。
関連性識別子112は、領域Aの潜在的な関連性(すなわち、重要性)の程度R114を特定する(ステップ206)。この程度を表す量は、本明細書では「関連スコア」と称す。関連スコアR114を生成するのに使用しうる技術の実例を、図5を参照して以下に説明する。
強調係数識別子116は、正確性スコアC110および関連スコアR114に基づき強調係数E118を特定する(ステップ208)。強調係数E118を生成するのに使用しうる技術の実例を、図6を参照して詳細を以下に説明する。
音声再生エンジン120は、人間の校正者126に対して再生される強調が調整された音声信号122の領域を生成するために、強調係数E118に従って音声領域A106を再生する(ステップ210)。強調係数E118がはっきりしない強調を示す場合、強調が調整される音声ストリーム122の、結果として生じる領域は、元の音声ストリーム102の領域A106と同じであってもよいことに留意されたい。音声再生エンジン120が従来の音声再生エンジンである場合、プリプロセッサ(図示せず)は、音声再生エンジン120によって再生するために適切な音声信号を生成するために、強調係数E118を音声領域A106に適用してもよい。さらに、強調が調整される音声ストリーム122は、ユーザーの選択または他の要件に従って、(さらに速度を速める、または遅くすることなどによって)さらに処理してもよい。方法200は、音声ストリーム102の残りの領域のために、ステップ204〜210を繰り返し(ステップ212)、それによって、校正者126に対してそれを再生するとき、どのような適切な強調をも領域に適用する。
本発明の1実施形態を一般的に説明したが、本発明の特定の実施態様をさらに詳細に今から説明する。音声ストリーム102の領域を強調することのできる1つの方法は、音声ストリームの他の領域よりも、遅く再生することによるものである。強調係数118は、したがって、対応する音声領域A106を再生するための速度を達成するために、再生速度のディフォルト値を乗じることのできる時間スケール調整係数であってもよい。音声再生エンジン120は、この場合、音声領域A106の時間スケールが調整されたバージョンである、強調が調整された音声信号122を生成するとき、強調係数118に従ってこの時間スケール調整を実行してもよい。
例えば、図3を参照して、強調係数E118によって特定されたどのような強調も有する音声領域A106を再生するために、図2に示す方法200のステップ210を導入するのに使用しうる方法のフローチャートを示す。前記方法は、再生速度のディフォルト値を特定する(ステップ304)。再生速度Pのディフォルト値は、リアルタイムの再生速度などの、音声ストリーム102が、強調されることなく再生されるどんな再生速度であってもよい。前記方法は、強調係数E118により再生速度Pのディフォルト値を割ることによって、強調された再生速度Pを特定する(ステップ306)。前記方法は、強調された再生速度Pで音声領域Aを再生する(ステップ308)。
強調係数Eは、1未満、1に等しく、または1より大きくてもよいので、「強調された」再生速度Pは、再生速度Pのディフォルト値より遅く、速く、または等しくてもよいことに留意されたい。従って、Pは、本明細書では「強調された」再生速度と称するが、速度Pで音声領域A106を再生するステップは、Eの値(したがってPの値)に応じて音声領域A106を強調する、重視しないようにする、強調をおかないのいずれであってもよい。同じことが、強調係数E118に基づく再生の間、音声領域A106を変更するのに使用してもよい時間スケール調整以外の技術にも一般的に当てはまる。
さらに、強調された音声領域は、基本的に以下の2つ方法で、他の領域より遅い速度で再生してもよい。(1)再生速度Pのディフォルト値と比較して、強調された音声領域での再生速度を落とす方法、および(2)再生速度Pのディフォルト値と比較して、強調された音声領域を囲む領域での再生速度を上げる方法。かかる技術は両方とも、本発明の範囲内にあり、その2つは、様々な方法でお互いに組み合わせてもよい。同じことが、強調係数E118に基づく再生の間、音声領域A106を変更するのに使用してもよい時間スケール調整以外の技術にも一般的に当てはまる。しかしながら、囲んでいる音声領域での再生の速度を上げることによって、特定の音声領域を強調する1つの利点は、そうすることにより、校正者126に対して音声ストリーム102を再生するために必要とされる総合時間を削減することである。それによって、校正を実行できる速度が上がることである。
正確性識別子108は、音声領域A106のための正確性スコア108を特定することを上に述べてある。正確性識別子108は、様々な方法のうちのどんな方法によってでも正確性スコア108を特定してもよい。例えば、図4を参照して、正確性スコアC110を特定するために図2に示す方法200のステップ204を導入するのに使用しうる方法のフローチャートを示す。
正確性識別子108は、音声領域A106に対応する原稿転写物124の領域での正確性Cの前の可能性を特定する(ステップ402)。原稿転写物124のこの領域は、その用語が本明細書で定義される「内容」のどんな種類をも含んでもよい。「前の正確性の可能性」は、特定の内容に事前に割り当てられた正確な可能性の推定値である。例えば、人間の転写士はしばしば、「上がる」および「下りる」という単語をお互いに間違える。従って、原稿転写物124の「上がる」および「下りる」という単語は、おそらく不正確に転写されているものである。かかる単語は、比較的低い前の正確性の可能性を割り当ててもよい。同様に、自動転写システムは、特定の単語を体系的に間違って認識する場合があり、それには比較的低い前の正確性の可能性を割り当てることができる。自動転写システムはしばしば、人間の転写士に比べて異なる単語を間違って認識し、その結果、同一の単語が、使用している転写方法に応じて異なる前の正確性の可能性を有することがある。
正確性識別子108は、口頭の音声ストリーム102の発話者の独自性、および口頭の音声ストリーム102の信号対雑音比などの、口頭の音声ストリーム102の特長を特徴付ける値Cを特定する(ステップ404)。例えば、特定の発話者(の発話)を理解するのに困難であり、したがって、おそらく不正確に転写される可能性が高いと知られている場合は、正確性識別子108は、比較的低い値をCに割り当ててもよい。例えば、音声ストリーム102が、比較的高い信号対雑音比を有する場合は、その結果、原稿転写物124は、おそらく比較的正確に転写されており、また正確性識別子108は、比較的高い値をCに割り当ててもよい。
自動の発話認識器は通常、単語が正確に認識される、すなわち、単語が認識された音声ストリームで対応する発話を正確に表す信頼度を表している文書でのそれぞれの単語の信頼値を生成する。正確性識別子108が、かかる信頼値へのアクセスを有する場合、正確性識別子108は、音声ストリーム102の領域A106に対応する原稿転写物124の領域に関連した信頼値に基づき値Cを特定してもよい(ステップ406)。
正確性識別子108は、個別のスコアC、CおよびCに基づき、全体の正確性スコアC110を特定する(ステップ408)。正確性識別子108は、例えば、C、CおよびCの加重和として全体の正確性スコアC110を特定してもよい。かかる加重は、例えば、低い前の可能性の正確性を有する音声領域、高い可能性でエラーを示す特徴(低い信号対雑音比など)を有する音声ストリーム、および低い信頼値を有する領域を強調するのに有利である。あるいは、正確性識別子108は、C、CおよびCの最小値として全体の正確性スコアC110を特定してもよい。これらは単に実例であり、正確性識別子108は、任意の規則またはアルゴリズムを使用するなど、任意の方法を用いて全体の正確性スコアC110を特定してもよい。
さらに、個別のスコアC、CおよびCは、正確性識別子108が正確性スコア110を生成するとき考慮に入れてもよい要素の単なる実例である。正確性識別子108は、正確性スコアを生成するとき、どんな加重または他の組み合わせの機能でも使用して、これらまたは他の要素のどんな組み合わせをも考慮に入れてもよい。
関連性識別子112は、音声領域A106のために関連スコア114を生成すると上に述べてある。関連性識別子112は、様々の方法のうち任意の方法によって関連スコア114を生成してもよい。例えば、図5を参照して、関連スコアR114を生成するために図2に示す方法200のステップ206を導入するのに使用しうる方法のフローチャートを示す。
関連性識別子112は、音声ストリーム102の領域A106に対応する原稿転写物124の領域の前の関連性Rを特定する(ステップ502)。例えば、医学報告では、患者のアレルギーを説明する区分は常に非常に重要(関連性あり)である。従って、アレルギーの項は高い前の関連性を割り当ててもよい。同様に、単語「no」および「not」などの特定の内容は、高い前の関連性に割り当ててもよい。さらに、空テキストは(おそらく、無言の期間または咳などの発話でない事象を表す)は、低い前の関連性に割り当ててもよい。
自動の発話認識器は通常、音声ストリームのそれぞれの認識される領域のために、代替の憶測134(すなわち、候補の単語)のセットを生成する。例えば、自動転写システム128aが、話言葉「knot」を認識しようと試みるとき、システム128aは、単語「knot」、「not」、「naught」、および「nit」の順で構成される代替の憶測134のリストを生成してもよい。システム128aは通常、信頼値を、憶測が対応する音声領域を正確に表す信頼度を表すそれぞれの憶測に関連付ける。原稿転写物124などの自動の発話認識器の最終の出力は通常、音声ストリーム102でのそれぞれの対応する領域のために、最良の憶測(すなわち、最も高い信頼値を有する憶測)だけを含む。しかしながら、原稿転写物124が、競合する憶測についての情報を含む場合、または、関連性識別子112が、他の方法で、競合する憶測134へのアクセスを有する場合、関連性識別子112は、関連スコアR114を生成するために、かかる競合する憶測の情報134を利用してもよい。
例えば、関連性識別子112は、現在の文書領域のための全ての競合する憶測のうち最も高い前の関連性を有する競合する憶測の前の関連性Rを特定することができる(ステップ504)。競合する憶測が「knot」、「not」、「naught」、および「nit」である上の実例では、単語「not」は、最も高い可能性のある前の関連性を有する。このような場合には、単語「not」が原稿転写物124に現れないとしても、関連性識別子112は、Rの値として単語「not」の前の関連性を使用してもよい。高い関連性のある単語「not」が「knot」として間違って認識される場合には、校正者126に単語を注目させることは重要であるので、このような方法で単語「knot」の関連性を高めることは、有益な場合がある。
関連性識別子112は、個別のスコアRおよびRに基づき、全体の関連スコアR114を特定する(ステップ506)。関連性識別子112は、例えば、RおよびRの加重和として全体の関連スコアR112を特定してもよい。かかる加重は、例えば、高い前の関連性を有し、また高い前の関連性のある競合する憶測を有する音声領域を強調するのに有利である。これは単に実例であり、関連性識別子112は、任意の方法によって全体の関連スコアR112を特定してよい。さらに、個別のスコアRおよびRは、関連性識別子112が関連スコア114を生成するとき考慮に入れてもよい要素の単なる実例である。さらに、関連性識別子112は、関連スコア114を生成するとき、どのような加重または他の組み合わせの機能をも使用して、これらまたは他の要素の任意の組み合わせを考慮に入れてもよい。例えば、関連性識別子112は、RおよびRの最大値として全体の関連スコアR114を特定してもよい。
上記記載の通り、強調係数識別子116は、正確性スコアC110および関連スコアR114に基づく強調係数E118を生じる。強調係数識別子116は様々な方法で強調係数E118を特定する。例えば、図6を参照すると、フローチャートには強調係数E118の特定するために図2に示された方法200のステップ208の実施に使用される方法が記されている。図6の方法で、強調係数識別子116は、正確性スコア110および関連係数114の加重和である強調係数118を生じる。
強調係数識別子116は正確性スコアC(ステップ602)の重みWおよび関連スコアR(ステップ604)の重みWを特定する。強調係数識別子116は、WとWの重みをそれぞれ使用し、CおよびRの加重和である強調係数E118を特定する(ステップ606)。WとWの各重みは正数、負数、あるいはゼロである可能性がある。
関連スコアRは、例えば、以下のうちの一つの記号値を持つことができる:(1)いかなる発話内容を有しない音声領域(無言および咳払い等)に対応する「フィラー」、(2)完全に無関連で、そのため転写されない発話(第三者との挨拶、および断続的会話等)を含む音声領域に対応する「非転写」、(3)転写に適した通常の発話機能を含む音声領域に対応する「通常」、(4)クリティカルな(適合度の高い)発話(noおよびnot等)を含む音声領域に対応する「クリティカル」。前記記号値は、適合度の最も低い「フィラー」および適合度の最も高い「クリティカル」を最初と最後にして、順序づけることができる。
再生速度を調整するための上記記号値の使用法は、固定乗数を各記号値と関連付けることであり、値の低い乗数がより関連した内容と関連付けられる。「フィラー」音声領域は、特例として扱われることがある。前記各領域は固定持続時間(例えば1秒間)あるいは、固定値(例えば1秒)プラス音声領域のもとの時間の一部(例えば10分の1)に相当する時間において再生が可能である。そのような仕組みの意図は、「フィラー」以外の内容については、その関連性と逆比例した速度で再生することである。「フィラー」は、かなり高速だが、使用者が、フィラーでない音声を識別し、その内容があやまって「フィラー」とされたことがわかるような速度で再生される。
正確性スコアCおよび関連スコアR114を、例えば以下の通り強調指数E118を生み出す目的で組み合わせてもよい。発話識別者に、識別者の認識精度の観測平均率を基に、規定値の正確性スコアCを割り当てることができる。信頼値Cは、各文書領域に関連していることを思い起こされたい。文書領域の最終の正確性スコアCは、C/Cとして計算できる。最終強調係数E118はR/Cで得られる。
上限および下限が強調係数Eに課せられることがある。例えば、Eが再生速度調整係数である場合、音声ストリームは、速度のディフォルト値の少なくとも半分、および2倍以下で再生できる様、1から10の範囲に限定される。
本発明の利点は、以下の一つ以上の事柄である。本発明の実施形態は、音声領域のクリティカル領域を強調し、口頭の音声ストリームを再生することで原稿転写物の校正過程を促進する。クリティカル領域はその内容により特定される。具体的には、非常に関連性がある場合、あるいは不適格に転写された可能性がある場合、領域はクリティカルと考えられる。これらの領域を強調することで、その校正者の注意を引き、それにより可能性が増加し、前記校正者がそれらの領域のいかなるエラーも校正する。
上記に記載された通り、音声ストリームのクリティカル領域は、ノンクリティカル領域より遅い速度で再生することで強調されてもよい。再生速度のディフォルト値に相対してノンクリティカル領域の再生速度を早めることで強調された場合、校正は正確性を損なうことなく、標準再生法よりもより早い速度で行われる。さらに、再生速度のディフォルト値に相対してクリティカル領域の速度を遅くすることで強調された場合、校正者は、それら領域での発話をより識別でき、それによりいかなる対応する転送エラーもより良く修正できるようになる。ノンクリティカル領域の再生速度を速めること、およびクリティカル領域の再生速度を遅くすること双方により強調された場合、減速したクリティカル領域の利点を校正者に提供する一方で、音声ストリームがディフォルト値(例えば実時間の)速度で再生される時に比べ、さらに短時間で再生することが可能になる。
非強調ノンクリティカル領域は、エラーを含んだ文書領域にほとんど対応しない領域であるため、正確性を損なうことなく、さらに正確性をも向上させながら速度を速めることが可能になる。前記領域は、対応する文書領域が修正を必要としない可能性が高いため、構成者が注意を集中させる必要がない。非強調が再生速度を速めることで得られる場合、前記領域はより迅速に再生可能になり、それにより正確性を損なうことなく、校正に必要な全時間を短縮することができる。
その上、本発明の実施形態は、ノンクリティカル領域におけるエラーの修正を妨げるものではない。ノンクリティカル領域が、強調されていない場合でも、校正者は領域内のエラーを認識し、修正してよい。例えば、ノンクリティカル領域が通常より早く再生された場合でも、ノンクリティカル領域の発話は、校正者に可聴であってよく、領域内のエラーを認識し修正することができる。この機能は、ノンクリティカルあるいは、非強調されたときであっても、有効に人間の校正者が検出可能なエラーが発生した際のそのような分類を無効にできることにより、ノンクリティカルという領域の誤認に対するある程度の防止力を提供する。このノンクリティカルと分類されるのを無効にする機能は、ノンクリティカルと分類された音声の再生を単に取り外し、あるいは削除する従来の技術には備わっていない。
前記考察において、前記領域は「クリティカル」と「ノンクリティカル」および「強調」と「非強調」と参照されているが、本発明の実施態様は、領域間の二分識別法、およびそれにかかる強調に制限されない。むしろ、いかなる領域も、重要性が連続して変化する連続体のどこかに位置し、独自の連続体の中に位置する強調の程度と対応している可能性がある。上記記載の通り、正確性スコアCと関連スコアRとその各重みは、任意の値を有し、任意の組み合わせで、強調係数を得ることができる。従って、強調係数E118を従来の音声領域A106に適用することにより生じた修正済音声ストリーム122は、様々な強調を兼ね揃えることになる。この柔軟性により、システム100は、音声ストリーム102の異なる領域を異なる度合いへと強調することが可能になる。音声領域を周囲の領域よりも遅い速度で再生することにより強調が得られる場合、この方法で様々な度合いの強調を生む機能により、最も効率のよい再生速度および原稿転写物124の校正に必要とされる時間に最も正確さを生じるであろう速度を生み出すことができる。
この柔軟性に関わらず、本発明の実施態様で、量子化された強調の程度を用いることができる。例えば、システム100は、強調係数E118を「強調された」「非強調された」「中立」の値に量子化することができる。時間スケール調整を用いて強調が得られた場合、これら3つの値は、リアルタイムより遅い再生速度と、リアルタイムより早い再生速度と、リアルタイム再生速度に対応可能である。これは単に、強調係数が量子化する一方法であり、本発明を制限するものではない。
本発明はある特定の実施形態に関して上記されているが、前述の実施形態は、実施例としてのみ示されており、本発明の範囲を限定あるいは規定するものではないことを理解するものである。様々なその他の実施形態もまた(ただし、必ずしも以下に限定されない)、本請求の範囲内に含まれるものである。例えば、この中に記載されている要素は、さらに追加成分に分割でき、あるいは同じ機能を発揮するために、要素を結合し、より少ない要素を構成する。
上記記載の通り、音声ストリーム102内の領域の再生速度は、適切な強調を備えるために修正されてよい。前記再生速度調整は、ピッチ調整、含有信号の電力調整、あるいは母音再生を子音再生より短縮する知覚的修正転換などの追加調整をすることなく、あるいは、それとともに行われてよい。
単語を強調することで、単語が理解し難く、また不自然に聴こえるため、視聴者に不快な影響を及ぼす可能性がある。例えば、前後する単語にくらべ、迅速に1語を再生するために再生速度が急激に調整された場合、そのような結果が生じる。この問題に対処するために、例えば、強調語の前の2、3語の始まりの発話の強調を徐々に強めながら、その上、強調語の後の2、3語の発話の強調を抑えながら、強調語が自然に聞こえるよう調整される。そのような強調の平滑化により、強調語を自然な音にするだけでなく、より理解し易くすることができる。それにより、原稿転写物124内の転写エラーの修正のために、強調語の有効性が増大する。
同様に、単語の正確性スコアが比較的低い(および、したがって不正確の可能性が比較的高い)場合、人間の校正者126に、(おそらく)不正確な単語を編集するのに充分な時間を提供するために1語あるいは、1語以上のそれに続く単語がゆっくりと再生されることがある。前記それに続く単語の再生速度を遅らせることは、音声ストリーム102の停止や巻き戻し、その後再生を再始動することすることなく編集を行うことを可能にし、編集過程そのものを最適化する。
ここに開示されている特定の実施例には、前記領域を周囲の領域よりも遅い速度で再生することで音声ストリーム102の領域が強調されるが、これは、本発明を限定するものではない。強調は、他の方法を用いて得られてもよい。例えば、音声ストリーム102の領域A106は、音声領域A106に対応する強調調整音声ストリーム122の出力を増大することで強調されてよい。さらに、原稿転写物124の対応内容を表示する方法を調整しながら、付加強調は、音声ストリーム102の領域にかけられる。例えば、原稿転写物124内の対応語の色、フォント、フォントサイズを変更することで、音声ストリーム102の領域に、付加強調がかけられる。
上記考察は正確性スコアC110および関連スコアR114に言及する。前記スコアは任意の尺度で測定された値を有してよい。例えば、正確性スコア110は0から1の値を有し、関連スコアR114は上記記載の記号値を有してよい。さらに、正確性スコアR114の高値は、正確性の高い可能性あるいはエラーの高い可能性を示してよい。従って、「正確性」のスコアC100は、正確性スコアあるいは非正確性スコア(エラー)として解釈されてよい。同様に、関連スコアR114の高い値は高い関連性、あるいは低い関連性を示してよい。従って、「関連性」スコアR114は関連性スコアあるいは非関連性スコアとして解釈されてよい。
同様に、強調係数E118は、任意の尺度で測定される値を有してよい。さらに、強調係数E118の高値は、より大きな、または小さな強調を示してよい。従って、「強調」関数E118は強調係数あるいは非強調係数として解釈されてよい。
上記考察は、「極めて」関連性がある、および/または「おそらく」誤って転写された音声領域に関する可能性がある。これらの表現およびその他類似表現は、説明図の用途に使用されるものであって、本契約の実施形態にいかなる限定を課すものではない。例えば、音声領域は、再生中強調されるために、関連性、エラーの可能性が特定の基準点を超過することを必要とされていない。むしろ、上記考察で明確なように,ある特定の音声領域に関連した正確性スコアと関連スコア間になんらかの関係がある場合がある。一般的に、強調係数は、正確性スコアおよび/あるいは関連スコアのみを基準とする必要がある。
上記記載の様々な実施例の強調係数識別子116は、正確性スコアC110と関連スコアR114の組み合わせを基にした強調係数E118を特定するが、これは本発明の要件ではない。むしろ、強調係数識別子116は、正確性スコアC110のみ、あるいは、関連スコアR114のみを基にした強調係数E114を特定できるものである。
音声領域A106の修正版は、ここに「強調された」あるいは「強調修正済み」と称されることもあるが、強調修正済み音声ストリーム122が、原型音声領域A106と異なることを意味するものではない。むしろ、強調修正済み音声ストリーム122は、強調係数E118の値に従って、音声領域A106の強調版、音声領域A106の非強調版あるいは、音声領域A106と同種になりえる。
さらに、ここに使用されている「強調」という用語は、ある特定の内容における特定の音声領域の再生を強調する効果を言及するものであって、特に、前記強調を得るための、いかなる特別の技術を言及するものではない。例えば、音声領域はその再生速度を遅くすることや、周囲の音声領域の再生速度を速めることや、両方を併用することで強調される。従って、修正無しに音声領域そのものを再生することと周囲の音声領域の再生を修正することで、音声領域の再生を「強調」することが可能である。この中の「強調する」音声領域の参考例は、強調を得るための、いかなる技術を参考にするものであると理解するべきである。
ここに開示された本発明の一定の実施形態は発話を基に生じる文書内のエラーを検出し修正するが、ここに開示された技術もまた、発話を基に生じない書類内のエラーの検出あるいは修正に使用されるものである。例えば、ここに開示された技術は、文書内の領域用強調係数の特定、およびテキスト発話エンジンを使用した強調係数に一致した文書の領域を「再生する」ために使用されるものである。例えば、文書は再生時間を最小限にするために電話回線インターフェース上で、このように「再生」される。
前記説明は、正確性の前の可能性、あるいは/または原稿転写物124内の領域の前関連性に影響を及ぼす係数を示すが、前記領域は単なる実施例であり、本発明の限定を構成するものではない。正確性の前の可能性、あるいは/または原稿転写物124の前関連領域に影響を及ぼす可能性のあるその他関数の実施例は、発話の同一性、音声ストリーム102(例えば、医学上や法律上の)範囲、原稿転写物124の種類(例えば医学報告の文脈では、手紙、遂行概略、経過記録、コンサルティング記録、退院報告および放射線報告)および領域が生じる原稿転写物124の部分を含む。結果、例えば同語がその単語が生じる文書の部分により、異なる正確性の前の可能性および/または関連性を有する。
例えば、上記記載の技術は、ハードウェア、ソフトウェア、ファームフェア、あるいは、そのいかなる複合形態にて実施される。上記記載の技術は、プロセッサーとプロセッサーで可読記憶媒体(例えば、揮発性あるいは非揮発性あるいは/および記憶素子を含む)と、少なくとも一つの入力装置と、少なくとも一つの出力装置を含むプログラム可能コンピューター上で実行される一つあるいは一つ以上のコンピュータープログラム内で実施される。プログラムコードは、記載の機能の実行および出力を生じるために、入力装置を使用して入力した入力に使用される。出力は、一つあるいは一つ以上の出力装置に与えられる。
以下の特許請求の範囲内の各コンピュータープログラムは、アセンブリ言語、機械言語、ハイレベル手続きプログラミング言語およびオブジェクト指向プログラミング言語を含むいかなるプログラミング言語で実施される。例えば、上記プログラミング言語は、コンパイル型、あるいはインタープリター型プログラミング言語であってよい。
各コンピュータープログラムは、コンピュータープロセッサーで実行するための機械解読記憶機械内に明白に統合されたコンピュータープログラム製品内で実装される。本発明の方法のステップは、本発明の機能を実行するため、入力に対し作動し出力を生じながら、コンピューター可読媒体に明白に統合されたプログラムを実行するコンピュータープロセッサーによって実施される。一例として、適切なプロセッサーは汎用および特種用途マイクロプロセッサを含むものである。一般的に、プロセッサーはROMおよび/またはRAMから命令およびデータを受信する。コンピュータープログラム命令を明白に実装するのに適した記憶装置は、例えば、EPROMとEEPEOMとフラッシュメモリを含む半導体メモリ装置などの全ての非揮発性メモリ装置と、内部ハードディスクおよびリムーバブルディスクなどの磁器ディスクと、光磁器ディスク、およびCD−ROMを含む。前述のいずれも、特別設計のASIC(特定用途向け集積回路)およびFPGA(フィールド・プログラマブル・ゲート・アレイ)により補足あるいは、その中に内蔵されてよい。一般的にコンピューターは、内蔵ディスク(示されていない)あるいはリム−バブルディスクを含む記憶媒体からのプログラムおよびデータも受信することができる。これらの要素は、従来のデスクトップやワークステーションコンピューターや、ここに記載された方法を実施するコンピュータープログラムの実行に適したその他のコンピューター内にもみられ、それは、いかなるデジタルプリントエンジンあるいはマーキングエンジン、表示モニター、もしくは紙、フイルム、表示モニターあるいはその他の出力媒体の色やグレースケール画素を生じることの出来るその他のラスタ出力装置と関連して使用されてよい。
図1A〜1Bは、本発明の実施態様による、口頭の音声ストリームの原稿転写物のエラーの修正を容易にするためのシステムのデータフロー図である。 図2は、再生の間、音声ストリームの領域を強調するための本発明の1実施形態において、図1の再生強調システムによって実行する方法のフローチャートである。 図3は、本発明の1実施形態による、特定された強調係数に従って音声領域を再生するための方法のフローチャートである。 図4は、本発明の1実施形態による、音声ストリームの領域のための正確性スコアを特定するための方法のフローチャートである。 図5は、本発明の1実施形態による、音声ストリームの領域のための関連スコアを特定するための方法のフローチャートである。 図6は、領域での正確性スコアおよび関連スコアに基づき、音声ストリームの領域に適用する強調係数を特定するための方法のフローチャートである。

Claims (9)

  1. (A)文書の一の領域と口頭の音声ストリームの対応する一の領域とから、前記文書の前記領域が、前記口頭の音声ストリームの前記対応する領域での内容を正確に表す可能性を特定するステップと、
    (B)前記口頭の音声ストリームの前記領域での関連性の値を選択するステップであって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものであるステップと、
    (C)前記可能性および前記関連性の値から、再生されたとき、前記口頭の音声ストリームの前記領域に対する強調を変更するための強調係数を特定するステップであって、前記特定された可能性に関連した第1の重みを特定し、前記関連性の値に関連した第2の重みを特定し、且つ、前記第1及び第2の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、ステップを含む方法。
  2. 前記ステップ(C)は、前記可能性および前記関連性の値から、前記口頭の音声ストリームの前記領域での再生速度を調整するための時間スケール調整係数を特定するステップを含む、
    請求項1に記載の方法。
  3. (D)強調が調整される音声ストリームを生成するために前記強調係数に従って、前記口頭の音声ストリームの前記領域での強調を変更するステップをさらに含む、請求項1記載の方法。
  4. 前記ステップ(A)は、(A)(1)前記文書の前記領域が、前記口頭の音声ストリームの前記対応する領域での前記内容を正確に表す信頼度を表す信頼値から前記可能性を特定するステップであって、
    前記信頼値は、前記口頭の音声ストリームの前記領域に基づき、前記文書の前記領域を生成した自動転写システムによって提供されるステップを含む、請求項1記載の方法。
  5. 文書の一の領域と口頭の音声ストリームの対応する一の領域とから、前記文書の前記領域が、前記口頭の音声ストリームの対応する前記領域での内容を正確に表す可能性を特定するための正確性特定手段と、
    前記口頭の音声ストリームの前記領域の関連性の値を選択する関連性特定手段であって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものである関連性特定手段と、
    前記可能性および前記関連性の値から、再生されたとき、前記口頭の音声ストリームの前記領域に置かれる強調を変更するために強調係数を特定するための第2の特定手段と、
    を含む器具。
  6. (A)文書の一の領域と特定の内容とから、前記文書の前記領域が前記特定の内容を正確に表す可能性を特定するステップと、
    (B)口頭の音声ストリームの領域の関連性の値を選択するステップであって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものであるステップと、
    (C)前記可能性および前記関連性の値から、強調係数を特定するステップであって、前記特定された可能性に関連した第1の重みを特定し、前記関連性の値に関連した第2の重みを特定し、且つ、前記第1及び第2の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、ステップと、
    (D)前記強調係数によって特定された強調を有する前記文書の前記領域を表す音声ストリームを再生するためのテキスト発話エンジンを使用するステップと、
    を含む、方法。
  7. (E)前記音声ストリームに基づき、前記文書のエラーを修正するステップ、
    をさらに含む、請求項6記載の方法。
  8. 文書の一の領域と特定の内容とから、前記文書の領域が、前記特定の内容を正確に表す可能性を特定するための正確性特定手段と、
    口頭の音声ストリームの前記領域の関連性の値を選択する関連性特定手段であって、前記関連性の値が人間の校正者の注意を前記口頭の音声ストリームの前記領域に向けさせることの重要性の値を表しているものである関連性特定手段と、
    前記可能性および前記関連性の値から、強調係数を特定するための第2の特定手段であって、前記特定された可能性に関連した第1の重みを特定し、前記関連性の値に関連した第2の重みを特定し、且つ、前記第1及び第2の重みによってそれぞれ加重した前記特定された可能性と前記関連性の値との組み合わせから前記強調係数を特定する、第2の特定手段と、
    前記強調係数によって特定された強調を有する前記文書の前記領域を表す音声ストリームを再生するためのテキスト発話エンジンと、
    含む、器具。
  9. 前記第2の特定手段は、前記可能性および前記関連性の値から、前記音声ストリームの再生速度を調整するための時間スケール調整係数を特定するための手段を含む、請求項8に記載の器具。
JP2008522799A 2005-07-22 2006-07-06 コンテンツベースの音声再生強調 Expired - Fee Related JP5284785B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/187,119 2005-07-22
US11/187,119 US7844464B2 (en) 2005-07-22 2005-07-22 Content-based audio playback emphasis
PCT/US2006/026141 WO2007018842A2 (en) 2005-07-22 2006-07-06 Content-based audio playback emphasis

Publications (3)

Publication Number Publication Date
JP2009503560A JP2009503560A (ja) 2009-01-29
JP2009503560A5 JP2009503560A5 (ja) 2009-08-13
JP5284785B2 true JP5284785B2 (ja) 2013-09-11

Family

ID=37718652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008522799A Expired - Fee Related JP5284785B2 (ja) 2005-07-22 2006-07-06 コンテンツベースの音声再生強調

Country Status (6)

Country Link
US (4) US7844464B2 (ja)
EP (1) EP1908055B1 (ja)
JP (1) JP5284785B2 (ja)
AT (1) ATE454691T1 (ja)
DE (1) DE602006011622D1 (ja)
WO (1) WO2007018842A2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US7640158B2 (en) 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
WO2007150004A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Verification of extracted data
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
KR100883657B1 (ko) * 2007-01-26 2009-02-18 삼성전자주식회사 음성 인식 기반의 음악 검색 방법 및 장치
US8019608B2 (en) 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9715540B2 (en) * 2010-06-24 2017-07-25 International Business Machines Corporation User driven audio content navigation
US20120035922A1 (en) * 2010-08-05 2012-02-09 Carroll Martin D Method and apparatus for controlling word-separation during audio playout
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US9575960B1 (en) * 2012-09-17 2017-02-21 Amazon Technologies, Inc. Auditory enhancement using word analysis
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9135916B2 (en) 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
US11022456B2 (en) 2013-07-25 2021-06-01 Nokia Technologies Oy Method of audio processing and audio processing apparatus
US9293150B2 (en) 2013-09-12 2016-03-22 International Business Machines Corporation Smoothening the information density of spoken words in an audio signal
CN105335595A (zh) 2014-06-30 2016-02-17 杜比实验室特许公司 基于感受的多媒体处理
CN106797512B (zh) * 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US10169826B1 (en) * 2014-10-31 2019-01-01 Intuit Inc. System and method for generating explanations for tax calculations
US10387970B1 (en) 2014-11-25 2019-08-20 Intuit Inc. Systems and methods for analyzing and generating explanations for changes in tax return results
US20160336023A1 (en) * 2015-05-13 2016-11-17 Nuance Communications, Inc. Methods and apparatus for improving understandability of audio corresponding to dictation
US9852743B2 (en) * 2015-11-20 2017-12-26 Adobe Systems Incorporated Automatic emphasis of spoken words
US12020334B2 (en) 2016-10-26 2024-06-25 Intuit Inc. Methods, systems and computer program products for generating and presenting explanations for tax questions
US20180130484A1 (en) 2016-11-07 2018-05-10 Axon Enterprise, Inc. Systems and methods for interrelating text transcript information with video and/or audio information
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10546655B2 (en) 2017-08-10 2020-01-28 Nuance Communications, Inc. Automated clinical documentation system and method
US11227688B2 (en) 2017-10-23 2022-01-18 Google Llc Interface for patient-provider conversation and auto-generation of note or summary
US11743243B2 (en) 2017-10-31 2023-08-29 Conduent Business Services, Llc Post billing short-range communications HCE (host card emulation) method and system
US10657202B2 (en) 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
WO2019173331A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. System and method for review of automated clinical documentation
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11515020B2 (en) 2018-03-05 2022-11-29 Nuance Communications, Inc. Automated clinical documentation system and method
US11245950B1 (en) * 2019-04-24 2022-02-08 Amazon Technologies, Inc. Lyrics synchronization
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
KR102914202B1 (ko) * 2019-09-18 2026-01-20 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CA3162501A1 (en) 2019-12-18 2021-06-24 Lutron Technology Company Llc Optimization of load control environments
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US12443388B2 (en) * 2023-06-13 2025-10-14 Sony Group Corporation Audio skip back response to noise interference

Family Cites Families (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4696039A (en) 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS61233832A (ja) 1985-04-08 1986-10-18 Toshiba Corp 読合わせ校正装置
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5828994A (en) 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US20020032571A1 (en) * 1996-09-25 2002-03-14 Ka Y. Leung Method and apparatus for storing digital audio and playback thereof
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6285978B1 (en) * 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6161087A (en) 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6374225B1 (en) 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US6490558B1 (en) * 1999-07-28 2002-12-03 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program through repetitive training
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US7003456B2 (en) * 2000-06-12 2006-02-21 Scansoft, Inc. Methods and systems of routing utterances based on confidence estimates
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
US20020156816A1 (en) * 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US7039585B2 (en) * 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US6973428B2 (en) 2001-05-24 2005-12-06 International Business Machines Corporation System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
JP4128342B2 (ja) * 2001-07-19 2008-07-30 三菱電機株式会社 対話処理装置及び対話処理方法並びにプログラム
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
EP1442451B1 (en) * 2001-10-31 2006-05-03 Koninklijke Philips Electronics N.V. Method of and system for transcribing dictations in text files and for revising the texts
US20030144885A1 (en) * 2002-01-29 2003-07-31 Exscribe, Inc. Medical examination and transcription method, and associated apparatus
US7266127B2 (en) 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US6625387B1 (en) 2002-03-01 2003-09-23 Thomson Licensing S.A. Gated silence removal during video trick modes
US7130528B2 (en) 2002-03-01 2006-10-31 Thomson Licensing Audio data deletion and silencing during trick mode replay
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP2004191620A (ja) 2002-12-11 2004-07-08 Pentax Corp 記録媒体、再生装置、及び記録媒体の再生方法
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP5025261B2 (ja) * 2003-03-31 2012-09-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 信頼水準の指示により音声認識の結果を訂正するためのシステム
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US7383172B1 (en) * 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US7274775B1 (en) * 2003-08-27 2007-09-25 Escription, Inc. Transcription playback speed setting
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
US8200487B2 (en) * 2003-11-21 2012-06-12 Nuance Communications Austria Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US20070067168A1 (en) * 2003-11-28 2007-03-22 Koninklijke Philips Electronics N.V. Method and device for transcribing an audio signal
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US7912713B2 (en) * 2004-12-28 2011-03-22 Loquendo S.P.A. Automatic speech recognition system and method using weighted confidence measure
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US7640158B2 (en) * 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
WO2007150004A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Verification of extracted data
JP4875752B2 (ja) * 2006-11-22 2012-02-15 マルチモーダル・テクノロジーズ・インク 編集可能なオーディオストリームにおける音声の認識
WO2008073850A2 (en) * 2006-12-08 2008-06-19 Sri International Method and apparatus for reading education
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens

Also Published As

Publication number Publication date
ATE454691T1 (de) 2010-01-15
US20070033032A1 (en) 2007-02-08
EP1908055A2 (en) 2008-04-09
EP1908055B1 (en) 2010-01-06
US9454965B2 (en) 2016-09-27
US20140309995A1 (en) 2014-10-16
US7844464B2 (en) 2010-11-30
WO2007018842A2 (en) 2007-02-15
WO2007018842A3 (en) 2007-10-04
US20100318347A1 (en) 2010-12-16
US20160005402A1 (en) 2016-01-07
US9135917B2 (en) 2015-09-15
DE602006011622D1 (de) 2010-02-25
JP2009503560A (ja) 2009-01-29
EP1908055A4 (en) 2008-11-26
US8768706B2 (en) 2014-07-01

Similar Documents

Publication Publication Date Title
JP5284785B2 (ja) コンテンツベースの音声再生強調
US7292975B2 (en) Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US9552809B2 (en) Document transcription system training
JP5167256B2 (ja) コンピュータ実装方法
JP2018077870A (ja) 音声認識方法
CN109584906B (zh) 口语发音评测方法、装置、设备及存储设备
CN1585969A (zh) 在预定窗口编辑文本的装置
US12531051B2 (en) System and method for secure processing of speech signals using pseudo-speech representations
Badenhorst et al. Automated Enhancement of isiZulu Data Collection for the African Health Research Institute
CN121260177A (zh) 一种用于语音克隆的提示音获取方法
JP2022129403A (ja) 制御プログラム、制御方法、および情報処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120214

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130530

R150 Certificate of patent or registration of utility model

Ref document number: 5284785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees