JP4940139B2 - 音声からの意味内容の自動抽出および構造化文書の生成 - Google Patents

音声からの意味内容の自動抽出および構造化文書の生成 Download PDF

Info

Publication number
JP4940139B2
JP4940139B2 JP2007528000A JP2007528000A JP4940139B2 JP 4940139 B2 JP4940139 B2 JP 4940139B2 JP 2007528000 A JP2007528000 A JP 2007528000A JP 2007528000 A JP2007528000 A JP 2007528000A JP 4940139 B2 JP4940139 B2 JP 4940139B2
Authority
JP
Japan
Prior art keywords
document
language model
structured
hierarchy
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007528000A
Other languages
English (en)
Other versions
JP2008511024A (ja
JP2008511024A5 (ja
Inventor
フリッチェ、ユルゲン
フィンケ、ミハエル
コール、デトレフ
ウォスッチニャ、モニカ
エグナナラヤナン、ギリジャ
Original Assignee
マルチモーダル・テクノロジーズ・インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マルチモーダル・テクノロジーズ・インク filed Critical マルチモーダル・テクノロジーズ・インク
Publication of JP2008511024A publication Critical patent/JP2008511024A/ja
Publication of JP2008511024A5 publication Critical patent/JP2008511024A5/ja
Application granted granted Critical
Publication of JP4940139B2 publication Critical patent/JP4940139B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、自動音声認識に関し、より詳しくは自動的に音声を書き起こす技術に関する。
関連出願の相互参照
本出願は、同時出願された米国特許出願の名称「文書書起しシステムトレーニング(Document Transcription System Training)」に関するものである。該出願は参照のためにここ組み入れられる。
従来技術
人間の音声に基づいて文書を生成することは、多くの状況において望ましいことである。法律専門家においては、例えば、記録転写士は、証言を書き起こした文書を作成するために、公判および供述録取において得られる証言を書き起こす。同様に、医業においては、医師および他の医療専門家が口述した、診断、予後、処方、および他の情報の筆記録を作成する。これらの分野および他の分野における筆記録は、得られる筆記録に対する信頼性および不正確さに起因しうる損害(誤った処方箋を患者に提供する、など)から、(元の音声の意味内容(意味)と得られる筆記録の意味内容との相関関係の度合いを測る場合)一般に非常に正確であることが求められる。しかし、(1)書が起こされる話者の音声の特徴(例、アクセント、音量、方言、速さ)、(2)外部状況(例、暗騒音)、(3)記録転写士または転写システム(例、不完全な聴取または音声捕捉能力、言語の不十分な理解力)、または(4)記録/伝送媒体(例、紙、アナログ音声テープ、アナログ電話網、デジタル電話網に適用される圧縮アルゴリズム、および携帯電話チャネルによるノイズ/アーチファクト)、などの変動による様々な理由から、高い信頼性を確実に得ることは困難な場合がある。
当初、転写は、リアルタイムで(すなわち、人が「口述を書き取る」ことによって)、または録音したものを聴き取ることによって、音声を聴き取る記録転写士だけで行われていた。人間の記録転写士の1つの利点は、薬剤や医療用語の知識のような特定分野の知識を有する場合があることであり、それによって、記録転写士は曖昧な音声を解釈でき、筆記録の精度を向上させることができる。しかし、人間の記録転写士には様々な不利点がある。例えば、人間の記録転写士は、筆記録の作成が比較的遅く、疲労によって経時的に精度が低下する傾向がある。
人間の音声を概ね認識するための、そして特に音声を書き起こすための、様々な自動音声認識システムが存在する。筆記録を作成する音声認識システムは、本明細書において、「自動転写システム」または「自動書き取りシステム」と称する。市販の書き取りソフトウェアは、例えば、パーソナルコンピュータのユーザーが、キーボードを使用して当該の文書をタイピングする代わりに、ワードプロセッサに文書を書き取らせるために使用することが可能である。
自動書き取りシステムは、一般に音声の逐語的な筆記録を生成しようとするものである。口語音声ストリーム内の単語と筆記録内の単語との1対1マッピングを行うそのような筆記録は、本明細書において、「逐語記録」と称する。自動書き取りシステムは、完全なものではないので、完全な逐語記録を生成できない場合がある。
しかし、状況によっては、逐語記録が望まれないことがある。実際に、記録転写士は、転写文書への様々な変更を意図的に行う場合がある。例えば、記録転写士は、自発的な音声効果(例、つなぎ言葉、躊躇、出だしの失敗)を除去したり、無関係な発言およびコメントを破棄したり、標準のフォーマットにデータを変換したり、見出しまたは他の説明的な要素を挿入したり、または報告書の構造に合わせるように音声のシーケンスを変更する場合がある。
医療分野では、例えば、医師によって作成される口語の報告書は、標準的なフォーマットの報告書に書き起こされることが多い。図1Bに、構造化およびフォーマット化された診断書111の一例を示す。報告書111は、報告書111が表示されたときに所定のシーケンスで出現する様々な部分112乃至138を含む。図1Bに示される特定の例では、報告書は、ヘッダー部112、主観部122、客観部134、評価部136、および計画部138を含む。各部は、サブ部とともにテキストを含むことが可能である。例えば、ヘッダー部112は、病院名部120(テキスト「総合病院」を含む)、患者名部114(テキスト「Jane Doe」を含む)、カルテ番号部116(テキスト「851D」を含む)、および報告書日付部118(テキスト「10/1/1993」を含む)を含む。
同様に、主観部122は、テキストと、病歴部124、投薬部126、アレルギー部128、家族歴部130、および社会歴部132との両方に含まれる、患者に関する様々な主観的情報を含む。客観部134は、体重および血圧のような、患者の様々な客観的情報を含む。図1Bには示されないが、客観部の情報は、示された情報を含むためにサブ部を含むことが可能である。評価部136は、患者の状態のテキスト評価を含み、計画サブ部138は、治療計画のテキスト記述を含む。
情報は、口述する医師が話す当該の情報の形式とは異なる形式で報告書111に現れる場合があることに留意されたい。例えば、報告書日付部118の日付は、「1993年10月1日」、「93年10月初日」、または他の形式で話されている場合がある。しかし、記録転写士は、報告書日付部118にはテキスト「10/1/1993」を用いて当該の音声を書き起こすが、これは、病院部120で指定された病院では、報告書の日付を当該のフォーマットで表現するように定められているからであろう。
同様に、診断書111の情報は、所要の報告書フォーマットに適合させるため、または他の何らかの理由で、元の音声記録とは異なるシーケンスで現れる場合がある。例えば、口述する医師は、客観部134を最初に口述し、続けて主観部122、ヘッダー部120の順に口述している場合がある。しかし、報告書111には、ヘッダー部120が最初に含まれ、続けて主観部122、客観部134の順に含まれている。当該の報告書の構造は、例えば、病院部120に指定された病院での診断書に必要な場合がある。
例えば、報告書111の始めは、以下のような口語音声ストリームに基づいて生成される。「スミス医師、えー、1993年の、10月1日。患者IDは、851―で、次は、私がレビューした患者の家族暦で・・・」。この音声の逐語記録は、分かりにくいこと、またとりわけ有用ではないことが明らかなはずである。
例えば、「次は」のような特定の単語は、報告書111内には現れないことに留意されたい。同様に、「えー」のような中断のつなぎ言葉も、報告書111内には現れない。加えて、報告書111は、音声を並べ換えることによって、所定の部112乃至140に元の音声を構成する。これらの例が示すように、報告書111は、口述する医師の音声の逐語記録ではない。
要約すると、様々な理由から(例えば、容易に理解できるように情報を構成するため)、逐語記録よりも報告書111のような報告書が望ましい場合がある。したがって、自動転写システムでは、非構造化音声に基づいて、(逐語記録ではなく)構造化報告書を生成できることが望ましい。
図1Aを参照する。図1Aは、口語音声ストリーム102に基づいて構造化文書110を生成するための、従来技術のシステム100のデータフロー図である。当該のシステムは、以下の2つのステップのプロセスを使用して、口語音声ストリーム102から構造化テキスト文書110を生成する:(1)自動音声認識装置104は、口語音声ストリーム102に基づいて逐語記録106を生成する。(2)自然言語プロセッサ108は、筆記録106内の構造を識別し、それによって、構造化文書110を作成する。構造化文書110は筆記録106と同じ内容を有するが、自然言語プロセッサ108によって識別される構造(例、報告書のフォーマット)に構成される。
例えば、いくつかの既存のシステムでは、以下によって構造化テキスト文書の生成を試みる:(1)音声ストリーム102内の明示的または暗黙の構造的ヒントから、音声ストリーム102内の口語の内容を識別および区別するために、口語音声ストリーム102を分析する。(2)未加工のテキストに口語音声ストリーム102の「内容」部分を変換する。(3)構造化報告書110に未加工のテキストを変換するために、識別された構造的ヒントを使用する。明示的な構造的ヒントの例には、フォーマットコマンド(例、「新しい段落」、「新しい行」、「次の項目」)、および段落識別子(例、「所見」、「所感」、「結び」)が挙げられる。暗黙の構造的ヒントの例には、段落の境界を示す場合のある長い中断、列挙の終わりを示す韻律的キュー、口語の内容自身が挙げられる。
下記に詳述する様々な理由から、システム100によって生成される構造化文書110は、次善となる場合がある。例えば、構造化文書110は、不正確に書き起こされた(すなわち、誤って構成された)単語を含む場合があり、構造化文書110の構造は、所望の文書構造を反映できない場合があり、また口語音声ストリーム102からの内容は、構造化文書内の誤った部分構造(例、節、段落、または文)に挿入される場合がある。
さらに、口語音声ストリーム102に基づいた構造化文書110の生成に加えて、またはこの代わりに、口語音声ストリーム102から意味内容(音声ストリーム102内に記述された、患者の投薬、アレルギー、または以前の疾患に関する情報など)を抽出することが望ましい場合がある。当該の意味内容は、構造化文書110の生成に有用となりうるが、当該の内容はまた、構造化文書110とは無関係に分析することができる、患者情報のデータベースをポピュレートするような、他の目的にも有用となりうる。しかし、図1に示されるシステム100のような従来技術のシステムは、一般に、主として、または単に口語音声ストリーム102内の統語的な情報に基づいて、構造化文書110を生成するように設計されている。したがって、当該のシステムは、意味内容の抽出には有用ではない。
よって、口語音声ストリームに基づいて構造化文書を生成するための改善された技術が必要である。
関連する概念およびそれらの解釈の識別を含む、音声に基づいた構造化文書を自動的に生成するための技術を開示する。一実施態様では、構造化文書ジェネレータは、口語音声ストリームに基づいて、構造化テキスト文書(構造化テキストの医療レポートなど)を生成するために、統合プロセスを使用する。口語音声ストリームは、階層構造内に配置される複数のサブモデルを含む言語モデルを使用して認識することが可能である。各々のサブモデルは、口語音声ストリーム内に現れると予想される概念に対応付けることが可能である。例えば、サブモデルは、文書部に対応付けることが可能である。サブモデルは、例えば、nグラム言語モデルまたは文脈自由文法であってよい。口語音声ストリームの別の部分は、別のサブモデルを使用して認識することが可能である。得られた構造化テキスト文書は、構造化テキスト文書を生成するために使用された言語サブモデルの階層構造に対応する、階層構造を有することが可能である。
例えば、本発明の一側面では、(A)文書の複数の部分構造に関連する複数の確率的言語モデルを含む確率的言語モデルを識別するステップと、(B)口語音声ストリームに前記確率的言語モデルを適用するために音声認識デコーダを使用して、前記複数の部分構造に構成された内容を含む文書を生成するステップと、を含む方法であって、前記複数の部分構造のそれぞれにおける内容は、前記部分構造に関連する前記確率的言語モデルを使用して、音声を認識することによって生成される、方法を提供する。本発明の別の側面は、ステップ(A)において識別される確率的言語モデルを目的とする。
本発明のさらに別の側面では、複数の言語モデルが階層に論理的に構成され、前記複数の言語モデルが第1の言語モデルおよび第2の言語モデルを含む、データ構造であって、前記第1の言語モデルは、前記階層において第2の言語モデルの親であり、前記第1の言語モデルは、文書の部分構造に関連する第1の概念を表す音声の認識に好適であり、前記第2の言語モデルは、前記文書の部分構造のサブセットに関連する第2の概念を表す音声の認識に好適である、データ構造を提供する。
本発明の更なる側面では、(A)第1の階層内に論理的に構成された複数の概念に関連する複数の確率的言語モデルを含む確率的言語モデルを識別するステップと、(B)口語音声ストリームに前記確率的言語モデルを適用するために音声認識デコーダを使用して、前記第1の階層を介した経路によって定義される論理構造を有する第2の階層に論理的に構成された複数の部分構造に構成された内容を含む文書を生成するステップと、を含む方法を提供する。
本発明の様々な側面および実施態様の特徴および効果は、以下の説明および請求項から明らかになろう。
図2を参照して、口頭文書に基づいた構造化テキスト文書を生成するために、本発明の一実施形態で実行される方法200のフローチャートを示す。図3を参照して、本発明の一実施形態に従い、図2の方法200を実行するためのシステム300のデータフロー図を示す。
システム300は口語的音声ストリーム302を含むが、これは例えば、医師によって口述された診断書の生のまたは録音された口語的音声ストリームであってもよい。図4を参照して、口語的音声ストリーム302の例のテキストプレゼンテーションを示す。図4では、オーディオストリーム302では、パーセント記号間のテキストは、口語の句読法(例えば、「%コンマ%」、「%ピリオド%」「%コロン%」)および明示的な構造上のキュー(例えば、「%新しい−段落%」)を表す。オーディオストリーム302の逐語筆記録は、オーディオストリーム302によって表される診断書に含まれる診断、予後診断、またはその他の情報を理解する目的にはとりわけ有益にはならないことが、図4に示されるオーディオストリーム302から分かる場合がある。
システム300は確率的言語モデル304も含む。ここで使われる「確率的言語モデル」という用語は、口頭言語の順序に確率を割り当てるどのような言語モデルのことも指す。(確率的な)文脈自由文法およびnグラム言語モデル306a〜eは両方とも、ここで使用される用語「確率的言語モデル」の例である。
概して、文脈自由文法は、一つの概念に対して複数の口頭形式を特定し、また確率とそれぞれの口頭形式を結び付ける。有限状態文法は文脈自由文法の一つの例である。例えば、1993年10月1日に対する有限状態文法は、0.7の確率で口頭形式「1993年10月1日」、0.2の確率で口頭形式「93、10、1」、0.1の確率で口頭形式「93、10月、初日」含む場合がある。それぞれの口頭形式に結び付けられる確率は、概念が特定のオーディオストリーム内の口頭形式で話される推定確率である。従って、有限状態文法は、確率的言語モデルの一種である。
概して、nグラム言語モデルは、n言語の特定の順序が口語的音声ストリーム内に存在することがある確率を特定する。例えば、n=1に対する「ユニグラム」言語モデルを考察する。言語の各単語に対して、ユニグラムは、単語が口頭文書内に存在する確率を特定する。「バイグラム」言語モデル(n=2に対する)は、単語の一組が口頭文書内に存在する確率を特定する。例えば、バイグラムモデルは、「猫」という単語が、文書内の前の語が「前記」となっている口頭文書内に存在する条件付き確率を特定してもよい。同様に、「トライグラム」言語モデルは、三語の順序の確率などを特定する。nグラム言語モデルによって特定された確率および有限状態文法は、「Document Transcription System Training」という名称の先述の特許出願で、より詳細に説明されたようなトレーニング音声およびトレーニングテキストを使用する文書のトレーニングを行うことによって、nグラム言語モデルによって特定された確率および有限状態文法を取得してもよい。
確率的言語モデル304は、それぞれが確率言語である複数のサブモデル306a〜eを含む。サブモデル306a〜eは、どのような組み合わせのnグラム言語モデルおよび/または有限状態文法を含んでもよい。さらに、以下により詳細に説明するように、それぞれのサブモデル306a〜eは、さらにサブモデルなどを含んでもよい。5つのサブモデルを図3に示すが、確率的言語モデル304は、サブモデルをいくつ含んでもよい。
図3に示すシステム300の目的は、口語的音声ストリーム302からの内容を含む構造化テキスト文書310を作成することであり、ここで内容が特定の構造に構成され、概念が識別されて機械可読形式に解釈される。構造化テキスト文書310は、節、段落および/または文などの複数の部分構造312a〜fを含む。それぞれの部分構造312a〜fはさらに部分構造などを含んでもよい。6つの部分構造を図3に示すが、構造化テキスト文書310はいくつもの部分構造を含んでもよい。
例えば、図5を参照して、構造化テキスト文書310の例を示す。図5に示す例では、構造化テキスト文書310はXML文書である。しかしながら、どのような形式で構造化テキスト文書310を作成してもよい。図5に示すように、構造化文書310は6つの部分構造312a〜fを含み、それぞれは文書310の節を表してもよい。
例えば、構造化文書310は、ヘッダー部312aを含み、それは、文書310(「胸部CTスキャン(造影なし)」)のタイトル314および文書310が口述される日付316(「<date>2003年−4月−22日</date>」)などの文書310についてのメタデータを含む。ヘッダー部312a内の内容は、口語的音声ストリーム302(図4)の開始から取得されることに留意されたい。さらに、ヘッダー部312aは、フラットテキスト(すなわち、タイトル314)および部分構造(例えば、日付316)の両方を含み、それらは、三つぞろいの値(年―月―日)として機械可読形式で解釈されている概念を表す。
機械可読形式の日付を表すことにより、日付をデータベースに簡単に保存でき、また日付がテキスト形式で格納される場合よりも、より簡単に処理できる。例えば、オーディオストリーム302内の多数の日付が、機械可読形式で認識され、また格納されている場合、コンピュータによって、そのような日付をお互いに簡単に比較できる。その他の例として、日付がコンピュータ可読形式で格納される場合は、医師による巡回の合間の平均時間など、オーディオストリーム302の内容についての統計情報を簡単に生成できる。本発明の実施例のこの利点は概して、日付に対してだけでなく、どのような種類の意味内容の認識および機械可読形式のそのような内容の格納にもあてはまる。
構造化文書310はさらに比較部312bを含み、それは、文書(報告)310の被験者である患者と同じ患者に実施される研究の前に説明する内容を含む。比較部312bの内容は、「と比較する」から始まり、「2001年4月6日」で終わるオーディオストリーム302の一部から取得されるが、比較部312bは、節のキューの例である、テキスト「と比較する」を含まないことに留意されたい。節またはその他の文書の部分構造の開始を識別するためのそのようなキューの使用を、以下により詳細に説明する。手短に、構造化文書310は、患者に実施される手順に実行される手法を説明する手法部312c、医師の所見を説明する所見部312d、患者の医師の印象を説明する印象部312eも含む。
図5に示す例の構造化文書310のようなXML文書は通常、エンドユーザーによって直接見られることを意図していない。より正確に言えば、そのような文書は通常、エンドユーザーに見せる前により簡単に可読となる形式でレンダリングされる。例えば、システム300はレンダリングエンジン314を含み、これはレンダリングされた文書318を作成するために、スタイルシート316に基づき構造化テキスト文書310をレンダリングする。スタイルシートを生成するため、およびスタイルシートに従い文書をレンダリングするための技術は、当技術分野において通常の技術を有する者にとっては周知である。
図6を参照して、レンダリングされた文書318の例を示す。レンダリングされた文書318は、5つの節602a〜eを含み、それぞれは、構造化テキスト文書310で6つの部分構造312a〜fの一つまたは複数に対応してもよい。より詳しくは、レンダリングされた文書318は、ヘッダー部602a、比較部602b、手法部602c、所見部602d、および印象部602eを含む。レンダリングされた文書318の節および構造化テキスト文書310の部分構造間には、1対1マッピングがあってもなくてもよいことに留意されたい。例えば、それぞれの部分構造312a〜fは、文書節のタイプが区別できなくてもよい。例えば、二つ以上の部分構造312a〜fが同じタイプの節(ヘッダー部のような)を表す場合、レンダリングエンジン314は、レンダリングされた文書318の同じ節の部分構造の両方をレンダリングしてもよい。
システム300は構造化文書ジェネレータ308を含むが、これは確率的言語モデル304を識別し(ステップ202)、また口語的音声ストリーム302を認識し、それにより構造化テキスト文書310を作成するために、言語モデル304を使用する(ステップ204)。例えば、構造化文書ジェネレータ308は、自動音声認識デコーダ320を含み、これは確率的言語モデル304のサブモデル306a〜eの対応する一つを使用して、構造化テキスト文書310のそれぞれの部分構造312a〜fを作成する。当技術分野において通常の技術を有する者に周知であるように、デコーダはオーディオをテキストの変換する音声認識装置の素子である。例えば、デコーダ320は、口語的音声ストリーム302の第一部分を認識するために、サブモデル306aを使用して、部分構造312aを作成してもよい。同様に、デコータ320は、口語的音声ストリーム302の第二部分を認識するために、サブモデル306bを使用して、部分構造312bを作成してもよい。
言語モデル304のサブモデル306a〜eおよび構造化文書310の部分構造312a〜f間の1対1マッピングは必要ないことに留意されたい。例えば、音声認識デコーダは、口語的音声ストリーム302の第一部分を認識し、それにより部分構造312aを作成するために、サブモデル306aを使用してもよく、また口語的音声ストリーム302の第二部分を認識し、それにより部分構造312bを作成するために、同じサブモデル306aを使用してもよい。そのような場合は、構造化テキスト文書310の多数の部分構造は、単一の意味構造(例えば、節および段落)のための内容を含んでもよい。
例えば、サブモデル306aは、「見出し」言語モデルであってもよく、これはヘッダー部312aの内容を含む口語的音声ストリーム302の一部を認識するために使用され、例えば、サブモデル306bは、「比較」言語モデルであってもよく、これは比較部312bの内容を含む口語的音声ストリーム302の一部を認識するために使用される、などいろいろである。トレーニング文書の対応する節からのトレーニングテキストを使用して、それぞれのそのような言語モデルをトレーニングしてもよい。例えば、複数のトレーニング文書のヘッダー部からのテキストを使用して、見出しサブモデル306aをトレーニングしてもよく、また複数のトレーニング文書の比較部からのテキストを使用して、比較サブモデルをトレーニングしてもよい。
本発明の様々な実施例の特徴を大まかに説明したが、以降本発明の実施例をより詳細に説明する。図7を参照して、構造化テキスト文書310(図2、ステップ204)を生成するために、本発明の一実施形態において構造化文書ジェネレータ308によって実行される方法のフローチャートを示す。図8を参照して、図7の方法に関する詳細なシステム300の一部を説明するデータフロー図を示す。
図8で説明されている例では、構造化文書ジェネレータ308は、セグメント識別子814を含み、これは口語的音声ストリーム302で複数のセグメントS802a〜cを識別する(ステップ701)。例えば、セグメント802a〜cは、節、段落、文、単語、日付、時間または倫理規定などの概念を表してもよい。図8には3つのセグメント802a〜cのみを示しているが、口語的音声ストリーム302はいくつの部分を含んでもよい。以下の図11Bおよび12Bについてさらに詳細に説明されるとはいえ、説明を簡単にするために、方法700の残りを実行する前に、図7のステップ701ですべてのセグメント802a〜cを識別し、オーディオストリーム302の認識および構造化文書310の生成と同時に、セグメント802a〜cの識別を実行してもよい。
構造化文書ジェネレータ308は、口語的音声ストリーム302でそれぞれのセグメントSに対しループに入る(ステップ702)。上述したように、構造化文書ジェネレータ308は、音声認識デコーダ320を含み、例えば、これは異なる種類の言語モデルを使用して、音声を認識するための一つまたは複数の従来型の音声認識デコーダを含んでもよい。さらに上述したように、それぞれのサブモデル306a〜eは、nグラム言語モデル、文脈自由文法、またはその両方の組み合わせであってもよい。
例を挙げる目的で、構造化文書ジェネレータ308は現在、口頭オーディオストリーム302のセグメント802aを生成していると仮定する。構造化文書ジェネレータ308は、現在のセグメントSを認識するためのサブモデル306a〜eの複数の804を選択する。例えば、サブモデル804は、言語サブモデル306a〜eのすべて、またはサブモデル306a〜eのサブセットであってもよい。音声認識デコーダ320は、それぞれの選択サブモデル804を使って現在のセグメントS(例えば、セグメント802a)を認識し、それによりセグメントSに対応する複数の候補内容808を作成する(ステップ704)。言い換えれば、明確なサブモデル804の一つを使用して、現在のセグメントSを認識するために、音声認識デコーダ320を使用することによって、それぞれの候補内容808を作成する。それぞれの候補内容808は、認識テキストだけでなく、機械可読形式にエンコードされる概念(例えば、日付、時間、倫理規定、投薬、アレルギー、バイタルなど)のような、その他の種類の内容も含んでよいことに留意されたい。
構造化文書ジェネレータ308は、最終内容セレクタ810を含み、これはセグメントSのための最終内容812として、候補内容808の一つを選択する(ステップ706)。最終内容セレクタ810は、出力が導かれる音声に最も近く一致する音声認識出力を選択するために、当技術分野において通常の技術を有する者にとっては既知のどのような種類の手法を使用してもよい。
構造化文書ジェネレータ308は、それぞれの候補内容808を作成するのに使用されるサブモデルの経過をたどる。例を挙げる目的で、サブモデル304は、サブモデル306a〜eのすべてを含み、従って、候補内容808はセグメント802a〜c(それぞれのサブモデル306a〜eを使用して作成されたもの)ごとに5つの候補内容を含む、と仮定する。例えば、図9を参照して、文書部分構造312a〜f、サブモデル306a〜e、候補内容808a〜e間のマッピングを説明する図を示す。上述したように、それぞれのサブモデル306a〜eは、構造化テキスト文書310の中で、一つまたは複数の対応する部分構造312a〜fと関連してもよい。部分構造312a〜eおよびサブモデルa〜e間のマッピング902a〜eによるこれらの対応を図9に表示する。構造化文書ジェネレータ308は、テーブルまたはその他の方法を使用して、そのようなマッピング902a〜eを維持してもよい。
音声認識デコーダ320が、それぞれのサブモデル306a〜eを使ってセグメントS(例えば、セグメント802a)を認識する場合、これは候補内容808a〜eに対応して作成する。例えば、音声認識デコーダ320が、サブモデル306aを使ってセグメント802aを認識する場合、候補内容808aは作成されるテキストである、音声認識デコーダ320が、サブモデル306bを使ってセグメント802aを認識する場合、候補内容808bは作成されるテキストである、など。構造化文書ジェネレータ308は、一式の候補モデル内容マッピング816において、候補内容808a−eおよび対応するサブモデル306a〜e間のマッピングを記録してもよい。
従って、構造化文書ジェネレータ308が、セグメントSのための最終内容812として、候補内容808a〜eの一つを選択する場合(ステップ706)、最終内容812として選択されている候補内容を作成した言語サブモデルを識別するために、最終マッピング識別子818は、マッピング816および選択最終内容812を使用してもよい(ステップ708)。例えば、候補内容808cが最終内容812とてして選択される場合、最終マッピング識別子818は、候補内容808cを作成したサブモデルとして、サブモデル306cを識別してもよいことが、図9からわかる。最終マッピング識別子818は、一式のマッピング820において、それぞれの識別サブモデルを蓄積してもよく、これによって、マッピング820はその時々で、構造化テキスト文書310に含めるために選択されている最終内容を生成するために使用される言語サブモデルの順序を識別できる。
最終内容812に対応するサブモデルが識別される時点で、構造化文書ジェネレータ308は、識別サブモデルと関連のある文書部分構造を識別してもよい(ステップ710)。例えば、サブモデル306cが、ステップ708で識別されている場合、文書部分構造312cはサブモデル306cと関連があることが図9からわかる。
構造化内容挿入子822は、最終内容812を構造化テキスト文書310の識別部分構造の中へ挿入する(ステップ712)。例えば、部分構造312cが、ステップ710で識別される場合、テキスト挿入子514は、最終内容812を部分構造312cの中へ挿入する。
構造化文書ジェネレータは、口語的音声ストリーム302の残りのセグメント802b〜cに対して、704〜712のステップを繰り返し(ステップ714)、その結果、残りのセグメント802b〜cのそれぞれに対して最終内容812を生成し、また最終内容812をテキスト文書310の部分構造312a〜fの適切な一つに挿入する。方法700が終わるとすぐに、構造化テキスト文書310は、口語的音声ストリーム302に対応するテキストを含み、また最終モデル内容マッピング820は、構造化テキスト文書310においてテキストを生成するために、音声認識デコータ320によって使用された言語サブモデルの順序を識別する。
口語的音声ストリーム302を認識する過程において、方法700は、口語的音声に対応するテキストを生成してもよいだけでなく、音声によって表された意味情報を識別し、また機械可読形式でそのような意味情報を保存してもよいことに留意されたい。例えば、図5を再び参照して、比較部312bは日付要素を含み、そこには、特定の日付は、日(「06」)、月(「4月」)、および年(「2001」)の個々の値を含む三つぞろいとして表される。医療領域における意味概念のその他の例は、バイタルサイン、投薬およびその用量、アレルギー、医師の倫理規定などを含む。このようにして、意味情報を抽出および表明することは、そのような情報の自動処理を実行する過程を容易にする。図5に表される意味情報の特定の形態は単なる例であり、また本発明の制限を設定しないことに留意されたい。
ステップ701から、図7Aで示した方法700が、セグメント802a〜cを認識するために使用されるサブモデルを認識する前に、一式のセグメント802a〜cを識別することを思い出していただきたい。しかしながら、構造化文書ジェネレータ308は、セグメント802a〜cを識別する過程と、セグメント802a〜cを認識するために使用されるサブモデルを識別する過程、およびセグメント802a〜cに音声認識を実行する過程を統合してもよいことに留意されたい。図11Bおよび12Bに関して、統合されたそのようなセグメンテーション、および認識を実行するために使用可能な技法の例を以下により詳細に説明する。
図7で説明される方法の操作を大まかに説明して、図4に示した例の音声ストリーム302に対する図7の方法のアプリケーションを今から考慮する。口語的音声ストリーム302の第一部分は発話の音声ストリームであると仮定する。すなわち、「胸部CTスキャン(造影なし)2003年4月22日」。この部分は、ステップ702で選択されてもよく、また複数の候補内容808a〜eを作成するために、ステップ704ですべての言語サブモデル306a〜eを使用して認識されてもよい。上述したように、サブモデル306aは「ヘッダー」言語モデル、サブモデル306bは「比較」言語モデル、サブモデル306cは「手法」言語モデル、サブモデル306dは「所見」言語モデル、およびサブモデル306eは「印象」言語モデルと仮定する。
サブモデル306aは言語モデルで、これは文書310(例えば、部分構造312a)の「ヘッダー」部で音声を認識するようにトレーニングされているので、サブモデル306aを使用して作成される候補内容808aは、その他の候補内容808b−eよりも、先述の音声部分の単語をより厳密に一致させることがあり得る。この音声部分に対する最終内容812として候補内容808aを選択すると仮定して、内容挿入子822は、サブモデル306aによって作成される最終内容812を構造化テキスト文書310のヘッダー部312aの中に挿入することになる。
口語的音声ストリームの第二部分は発話の音声ストリームであると仮定する。すなわち、「2002年3月26日および2001年4月6日から前の研究との比較」。この部分は、ステップ702で選択されてもよく、また複数の候補内容808a〜eを作成するために、ステップ704ですべての言語サブモデル306a〜eを使用して認識されてもよい。サブモデル306bは言語モデルで、これは文書310(例えば、部分構造312b)の「比較」部で音声を認識するようにトレーニングされているので、サブモデル306bを使用して作成される候補内容808bは、その他の候補内容808aおよび808c〜eよりも、先述の音声部分の単語をより厳密に一致させることがあり得る。この音声部分に対する最終内容812として候補内容808bを選択すると仮定して、テキスト挿入子514は、サブモデル306bによって作成される最終内容812を構造化テキスト文書310の比較部312bの中に挿入することになる。
図4で説明される音声ストリーム302の残りも、同様に、認識され、また構造化テキスト文書310の部分構造312a〜fの適切な一つの中へ挿入されてもよい。図4で説明される口語的音声ストリーム302の内容が、構造化テキスト文書310の部312a〜fと同様の順序で現れるが、これは本発明の必要条件でないことに留意されたい。もっと正確に言えば、内容は、任意の順序で、音声ストリーム302に現れてもよい。音声ストリーム302のそれぞれのセグメント802a〜cは、音声認識デコーダ320によって認識され、また結果として起こる最終内容812は、部分構造312a−fの適切な一つの中に挿入される。結果的に、部分構造312a〜fのテキスト内容の順序は、口語的音声ストリームの内容の順序と同様でなくともよい。しかしながら、テキスト内容の順序が、音声ストリーム302および構造化テキスト文書310の両方と同様であるとしても、レンダリングエンジン314(図3)は、文書310のテキスト内容を好ましい順序でレンダリングしてもよいことに留意されたい。
本発明の他の実施例は、確率的言語モデル304は階層的言語モデルである。具体的には、本実施例では、複数のサブモデル306a〜eは階層に構造化される。上述したように、サブモデル306a〜eは、追加のサブモデルなどをさらに含んでもよく、これによって言語モデル304の階層は多数のレベルを含むことができる。
図10Aを参照して、階層形式での言語モデル304の例を説明する図を示す。言語モデル304は、複数のノード1002、306a〜e、1006a〜e、および1010と1012を含む。四角ノード1002、306b〜e、および1006eと1012は、非常に制約された概念(報告部順序、節のキュー、日付および時間など)をモデル化するために、確率有限状態文法を使用する。楕円形ノード306a、1006a−dおよび1010は、制約の低い言語をモデル化するために、統計的(nグラム)言語モデルを使用する。
例えば、ここで使用される用語「概念」は、日付、時間、番号、倫理規定、投薬、病歴、診断、処方薬、成句、列挙および節のキューを含む。概念は複数の方法で話されてもよい。特定の概念を話すそれぞれの方法は、ここでは、概念の「口語形式」と称される。「意味」概念および「統語」概念の間で時々区別がされる。ここで使用される用語「概念」は、意味概念および統語概念の両方を含むが、どちらかに限定されることはなく、「意味概念」または「統語概念」の特定のどのような定義、またはその二つの間のどのような区別に依存しない。
例えば、ここで使用される用語としての概念の例である1993年10月1日を考えてみる。この概念の口語形式は、口語的な成句、「1993年10月1日」「1日、10月、93年」「93―10―1」を含む。「1993年10月1日」および「10/01/1993」のようなテキストは、この概念の「書面形式」の例である。
ここで「John Jonesは肺炎になっていた。」という文を考えてみる。ここで使用される用語としての概念であるこの文は、口語的な成句、「john jonesは肺炎になっていた。」、「患者jones診断肺炎」および「診断肺炎患者jones」のような複数の方法で話されてもよい。書面の文「John Jonesは肺炎になっていた。」は、同様の概念の「書面形式」の例である。
日付および時間のような下層の概念に対する言語モデルは図10Aには示していないが、(サブモデル1012を除く)、階層的言語モデル304はこのような下層の概念に対するサブモデルを含んでもよい。例えば、nグラムサブモデル306a、1006a〜d、および1010は、日付、時間およびその他の下層の概念を表す単語の順序に対する確率を割り当ててもよい。
言語モデル304は、ルートノード1002を含み、これはノード1002のサブノード306a〜eが発生する確率を表す有限状態文法を含む。例えば、ルートノード1002は、口語的音声ストリーム302で特定の順序で現れ、文書310のヘッダー、比較、手法、所見、および印象部の確率を示す。
言語モデル304の階層を一つ下層に移動して、ノード306aは、「ヘッダー」であり、これは構造化テキスト文書310をヘッダー部312aに含むことを目的として、口語的音声ストリーム302の部分に単語の発生の確率を表すnグラム言語モデルである。
ノード306bは、テキスト文書の比較部312bのための多様な代替の音声形式のキューが発生する確率を表す「比較」有限状態文法を含む。例えば、比較ノード306bの有限状態文法は、「と比較」「のために比較」「前は」「前の研究は」などのキューを含む。有限状態文法は、それぞれこれらのキューの確率を含む。例えば、そのような確率は、同一話者対する一式のトレーニング音声での、あるいは口語的音声ストリーム302と同一のドメインでのキューの実際の使用頻度に基づいてもよい。例えば、「Document Transcription System Training」という名称の先述の特許出願で開示されている手法を使用して、そのような頻度を得てもよい。
比較ノード306bは、「比較内容」サブノード1006aを含み、これはテキスト文書310を比較部312bの本体に含むことを目的として、口語的音声ストリーム302の部分に単語の発生の確率を表すnグラム言語モデルである。比較内容ノード1006aは子として日付ノード1012を有する。以下により詳細に説明するように、日付ノード1012は、様々な言い方で話される日付の確率を表す有限状態文法である。
ノード306cおよび306dも同様に理解してよい。ノード306cは、テキスト文書310の手法部312cのための多様な代替の音声形式のキューが発生する確率を表す「手法」有限状態文法を含む。手法ノード306cは、「手法内容」サブノード1006bを含み、これはテキスト文書310を手法部312cの本体に含むことを目的として、口語的音声ストリーム302の部分に単語の発生の確率を表すnグラム言語モデルである。同様に、ノード306dは、テキスト文書310の所見部312dのための多様な代替の音声形式のキューが発生する確率を表す「所見」有限状態文法を含む。所見ノード306dは、「所見内容」サブノード1006cを含み、これはテキスト文書310を所見部312dの本体に含むことを目的として、口語的音声ストリーム302の部分に単語の発生の確率を表すnグラム言語モデルである。
印象ノード306eは、ノード306b〜dと同様であり、これは節のキューおよび認識部内容に対するnグラム言語モデルを含むサブノード1006dを認識するための有限状態文法を含む。しかしながら、さらに、印象ノード306eは、追加のサブノード1006eを含み、これは同様にサブノード1010を含む。これは印象部の内容が、印象ノード306eに対応する有限状態文法に基づく言語モデルによって管理される、印象内容ノード1006dまたは「列挙型」ノード1006eのどちらかの言語モデルを使用して認識されてもよいことを示す。「列挙型」ノード1006eは、発話列挙キュー(「一番」「二番」「第一」「第二」「第三」などのような)の異なる方法と関連のある確率を示す有限状態文法を含む。印象内容ノード1010は、印象内容ノード1006dと同一の言語モデルを含んでもよい。
本発明の一実施形態で言語モデル304の階層構造を説明して、言語モデル304を使用した構造化文書310を生成するために使用されてもよい手法の例を今から説明する。図11Aを参照して、構造化テキスト文書310を生成するために、本発明の一実施形態で、構造化文書ジェネレータ308によって実行される方法のフローチャートを示す(図2、ステップ204)。図12Aを参照して、図11Aの方法に相当するシステム300の部分を詳細に説明するデータフロー図を示す。
構造化文書ジェネレータ308は、経路セレクタ1202を含み、これは階層的言語モデル304を介して、経路1204を識別する(ステップ1102)。経路1204は、階層的言語モデル304内の整然としたノードの順序である。ノードは経路1204を何度もトラバースしてもよい。経路1204を生成する手法の例は、図11Bおよび12Bについて、以下により詳細に説明する。図10Bを参照して、経路1204の例を説明する。経路1204はポイント1020a〜jを含み、これらは、言語モデル304でノードをトラバースする順序を特定する。ポイント1020a〜jは、言語モデル304で、これらとノ−ド1002、306a〜e、1006a〜e、および1010と区別するために、「ノード」というよりは「ポイント」と称する。
図10Bで説明される例では、経路1204は、言語モデル304の以下のノードを順序正しくトラバースする。すなわち、(1)ルートノード1002(ポイント1020a)、(2)ヘッダー内容ノード306a(ポイント1020b)、(3)比較ノード306b(ポイント1020c)、(4)比較内容ノード1006a(ポイント1020d)、(5)手法ノード306c(ポイント1020e)、(6)手法内容ノード1006b(ポイント1020f)、(7)所見ノード306d(ポイント1020g)、(8)所見内容ノード1006c(ポイント1020h)、(9)印象ノード306e(ポイント1020i)、および(10)印象内容ノード1006d(ポイント1020j)である。
図4を参照することによってわかる可能性があるように、音声ストリーム302は、図10Bに説明される経路1204の言語サブモデルと同一の順序で発生するので、図10Bに説明される経路1204の沿って移動する言語サブモデルを使用する口語的音声ストリーム302を認識することは、最善の音声認識をもたらすことになる。例えば、口語的音声ストリーム302は、ヘッダー内容言語モデル306a(「2003年4月22日胸部CTスキャン(造影なし)」)によって最善に認識される音声によって始まり、その後、比較言語モデル306b(と比較する)によって最善に認識される発話が続き、その後、比較内容言語モデル1006a(2002年3月26日および2001年4月6日から前の)によって最善に認識される音声が続く、など。
経路1204を識別して、構造化文書ジェネレータ308は、構造化テキスト文書310を作成するために、経路1204によってトラバースされる言語モデルを使用して、口語的音声ストリーム302を認識する(ステップ1104)。図11Bおよび12Bについて、以下により詳細に説明するように、ステップ1104の音声認識および構造化テキスト文書の生成は、単独に実行するよりもむしろ、ステップ1102の経路の認識と統合してもよい。
より具体的には、構造化文書ジェネレータ308は、列挙子1206を含んでもよく、これは選択された経路1204によってトラバースされるそれぞれの言語モデルノードN1208間を繰り返す(ステップ1106)。そのようなそれぞれのノードNに対して、対応する構造化テキストTを作成するために、音声認識デコーダ320は、ノードNで言語モデルに対応する音声ストリーム302の部分を認識してもよい(ステップ1108)。構造化文書ジェネレータ308は、テキストT1210を、言語モデル304のノードN1208に対応する構造化テキスト文書310の部分構造の中へ挿入してもよい(ステップ1110)。
例えば、ノードNが比較ノード306b(図10A)である場合、口語的音声ストリーム302(図4)の中でテキスト「と比較」を認識するために、比較ノード306bを使用してもよい。比較ノード306bは、内容よりもむしろ文書部分構造(例えば、比較部312b)に対応するので、この場合ステップ1108で実行された音声認識の結果は、文書部分構造、すなわち空の「比較」部であってもよい。ステップ1110、例えば、「<comparison>」および「</comparison>」タグの形式で、そのような部を構造化文書310の中へ挿入してもよい。
ノードNが比較内容ノード1006a(図10A)である場合、口語的音声ストリーム302(図4)の中のテキスト「2002年3月26日および2001年4月6日から前の研究」を認識するために、比較内容ノード1006aを使用してもよく、これによって、図5に示すように、構造化テキスト「<date>2002−3月―26</date>および<date>2001−4月―06</date>から前の研究」を作成する。その後、ステップ1110で、この構造化テキストを比較部312bの中へ挿入してもよい(例えば、図5に示すように、「<comparison>」および「</comparison>」タグの間)。
構造化文書ジェネレータ308は、経路1204によってトラバースされる残りのノードNに対して、ステップ1108〜1110を繰り返し(ステップ1112)、これによって、複数の構造化テキスト1210を構造化テキスト文書310の中へ挿入する。図11Aで説明される方法の最終結果は、構造化テキスト文書310を創出することであり、これは言語モデル304を介して経路1204の構造に対応する構造を有するテキストを含む。例えば、説明された経路の構造は、順序正しく、ヘッダー、比較、手法、所見および印象部に対応する言語モデルノードをトラバースすることが、図10Bからわかる。その結果としてできる構造化テキスト文書310(例えば、図5で説明されるように)は、同様に、順序正しく、ヘッダー、比較、手法、所見および印象部を含んでもよい。従って、構造化テキスト文書310は、構造化テキスト文書310を創出するために使用される言語モデル経路1204と同一の構造を有する。
構造化文書ジェネレータ308は、認識された構造化テキスト1210を構造化テキスト文書310の適切な部分構造の中へ挿入することを上記に述べた(図11A、ステップ1110)。図5に示すように、XML文書または入れ子構造を支えるその他の文書として、構造化テキスト文書310を実行してもよい。そのような場合は、最終構造化テキスト文書310は、経路1204の構造に対応する構造を有することができるように、それぞれの認識された構造化テキスト1210を適切な部分構造の内側に挿入することが必要である。当技術分野において通常の技術を有する者は、言語モデル304の構造をトラバースするための経路1204を使用し、これによってそのような構造化文書を創出する最終モデル内容マッピング820(図8)の使用法を理解できる。
図12Aで説明したシステムは経路セレクタ1202を含み、これは言語モデル304を介して経路1204を選択する。図11Aで説明される方法はその後、構造化テキスト文書310を生成するために、選択された経路1204を使用する。言い換えれば、図11Aおよび12Aにおいて、経路の選択および構造化文書の創出のステップは、単独で実行される。しかしながら、これは本発明を制限するものではない。
もっと正確に言えば、図11Bを参照して、経路の選択および構造化文書の生成のステップを統合する方法1150のフローチャートを示す。図12Bを参照して、本発明の一実施形態である図11Bの方法1150を実行する構造化文書ジェネレータ308を示す。概略では、図11Bの方法1150は、ルートノード1002から始まり、外に向かい拡大しながら、言語モデル304(図10A)の階層を介して可能性のある経路を検索する。言語モデル階層を介して検索するのに、当技術分野において通常の技術を有する者に周知の手法を含み、様々などのような手法を使用してもよい。方法1150が言語モデル階層を介して部分経路を識別しながら、方法1150は、部分経路に沿って移動する言語モデルを使用し、これによって部分候補構造化文書を創出する口語的音声ストリーム302の大部分を次第に認識するための音声認識デコーダ320を使用する。方法1150は、それぞれの部分候補構造化文書にフィットネススコアを割り当てる。それぞれの候補構造化文書に対するフィットネススコアは、候補構造化文書を生成した経路がいかにうまく実行したかの尺度である。全ての口語的音声ストリーム302が認識されるまで、方法1150は部分経路を拡大し、これによって言語モデル階層を介して検索を続ける。構造化文書ジェネレータ308は、最終構造化テキスト文書310として最も高いフィットネススコアを有する候補構造化文書を選択する。
さらに具体的には、方法1150は、言語モデル304を介して一つまたは複数の候補経路1224を初期化する(ステップ1152)。例えば、候補経路1224は、ルートノード1002から成る単一経路を含んで初期化されてもよい。「フレーム」という用語は、ここでは10ミリ秒のような短期間のことを示す。方法1150は、音声ストリーム302内の第一フレームを指し示すための音声ストリームポインターを初期化する(ステップ1153)。例えば、図12Bで説明される実施例では、構造化文書ジェネレータ308は、音声ストリーム列挙子1240を含み、これは音声認識デコーダ320に音声ストリーム302の部分1242を提供する。方法1150が初期化されるとすぐに、部分1242は音声ストリーム302の第一フレームを単独で含んでもよい。
音声認識デコーダ320は、一つまたは複数の候補構造化部分文書1232を生成するために、候補経路1224内の言語サブモデルを使用して、音声ストリーム302の現在の部分1242を認識する(ステップ1154)。文書1232は、音声ストリーム302の部分のみに基づき生成されたので、唯一の部分文書1232であることに留意されたい。ステップ1154が最初に実行されると、音声認識デコーダ320は単に、言語モデル304のルートノード1002の言語モデルを使用して、音声ストリーム302の最初のフレームを認識する。
候補経路1224を使用して、候補構造化部分文書1232を生成するために、音声認識デコーダ320によって、図11Aおよび図12Aについて上記に開示された手法を利用してもよいことに留意されたい。より具体的には、ステップ1102で識別された経路としてそれぞれの候補経路1224を使用して、音声認識デコーダ320は、図11Aで説明した方法を音声ストリーム部分1242に適用する(図11A)。
図11Bおよび12Bに戻り、フィットネス評価部1234は、それぞれの候補構造化部分文書1232に対してフィットネススコア1236を生成する(ステップ1156)。フィットネススコア1236は、候補構造化部分文書1232がいかにうまく音声ストリーム302の対応する部分を表すかの尺度である。概して、単一候補文書に対するフィトネススコアは、(1)候補経路1224の対応する一つ内のそれぞれのノードに対してフィットネススコアを生成すること、および(2)ステップ(1)で生成された個々のノードフィットネススコアを、候補構造化文書に対する総体的なフィットネススコアの中へ統合する統合機能を利用すること、により生成されることができる。候補フィットネススコア1236を生成するために使用する手法の例を、図11Cについて以下により詳細に説明する。
言語モデル304の階層を介して可能性のあるすべての経路を検索するのに構造化文書ジェネレータ308を試みる場合、それぞれの可能性のある経路を評価するのに必要なコンピュータ資源は、可能性のある経路の数の急激な増加のために、法外に費用がかかり、および/または多大な時間を必要とする可能性がある。従って、図12Bで説明される実施例では、経路切取部1230は、不適合経路を候補経路1224から取り除くのに候補フィットネススコア1236を使用し、これによって、一式の切り取られた経路1222を作成する(ステップ1158)。
全部の音声ストリーム302が認識されている場合(ステップ1160)、最終文書セレクタ1238は、最も高いフィットネススコアを有する候補構造化文書を候補構造化部分文書1232の中から選択し、最終構造化テキスト文書310として選択された文書を提供する(ステップ1164)。全部の音声ストリーム302が認識されていない場合は、経路拡張部1220は、新しい一式の候補経路1224を作成するために、言語モデル304内で切り取られた経路1222を拡張する。例えば、切り取られた経路1222がルートノード1002を含む単一経路から成る場合、経路拡張部1220は、ルートノード1002からヘッダー内容ノード306aへの経路、ルートノード1002から比較ノード306bへの経路、ルートノード1002から手法ノード306cへの経路などのようなルートノード1002から拡張された複数の候補経路を作成するために、図10Aで説明された階層で、ノードを一つ下げることによりこの経路を拡張してもよい。縦型、横型、またはその他の種類の階層的な検索を実行するのに経路1224を拡張する様々な手法は、当技術分野において通常の技術を有する者に既知である。
音声ストリーム列挙子1240は、次のフレームを音声ストリーム302内に含めるために、音声ストリーム302の部分1242を拡張する(ステップ1163)。その後、音声ストリーム302の部分1242を認識するために、新しい候補経路1224を使用して、ステップ1154〜1160を繰り返す。このようにして、言語モデル304内の適切なサブモデルを使用して、全体の音声ストリーム302を認識してもよい。
図11Bおよび12Bについて上記に説明したように、言語モデル304を介して候補経路1224を評価している間に、構造化文書ジェネレータ308によって作成されるそれぞれの候補構造化部分文書1232に対して、フィットネススコア1236を生成してもよい。図12Bで説明した部分候補構造化部分文書1232またはより一般的な構造化文書のどちらかに対するフィットネススコアを生成するために、手法の例を今から説明する。
例えば、図10Aを参照して、比較内容ノード1006aは子として日付ノード1012を有することに留意されたい。テキスト「2003年4月22日胸部CTスキャン(造影なし)」は、比較内容ノード1006aに対応するテキストとして認識されたと仮定する。テキスト「胸部CTスキャン(造影なし)」を認識するために、比較内容ノード1006aを使用し、またテキスト「2003年4月22日」を生成するために、比較内容ノード1006aの子である日付ノード1012を使用したことに留意されたい。従って、テキスト「胸部CTスキャン(造影なし)」に対する第一フィットネススコアを計算するために、比較内容ノード1006aを使用して、その後に、日付ノード1012に基づき、テキスト「2003年4月22日」に対して、第二フィットネススコアを計算する日付が続き、第一および第二フィットネススコアを掛け算して、このテキストのフィットネススコアを計算してもよい。
図11Cを参照して、候補文書に対するフィットネススコアを計算するために、本発明の一実施形態で実行され、従って、また図11Bで説明された方法1150のステップ1156を実行するのに使用される方法のフローチャートを示す。評価された候補構造化文書の一つの値に対して、フィットネススコアSを初期化する(ステップ1172)。方法は、候補文書に対応する候補経路内のルートノードを指し示すために、現在のノードポインターNを割り当てる(ステップ1174)。
方法は、値NおよびSを一緒に、Fitness()と呼ばれる関数を呼び出し(ステップ1176)、また候補文書に対するフィットネススコアとして結果を戻す(ステップ1178)。今からさらに詳細に説明するように、関数Fitness()は、候補文書に対応する候補経路をトラバースすることによる階層的因数分解を使用して、フィットネススコアSを生成する。
図11Dを参照して、本発明の一実施形態に従う関数Fitness()1180のフローチャートを示す。関数1180は、現在のノードNに対応するテキストが、そのノードに関連する言語モデルによって認識される確率P(W(N))Wを識別し、またSの新しい値を作成するためにSの現在の値による確率を掛け算する(ステップ1184)。
ノードNに子がない場合(ステップ1186)、Sの値は戻される(ステップ1194)。ノードNに子がある場合、ひいては、関数Fitness()1180は、Sの新しい値を作成するために、Sの値によって掛け算された結果とともに、それぞれの子ノードに再帰的に呼び出される(ステップ1188〜1192)。その結果としてできるSの値は戻される(ステップ1194)。
図11Cで説明された方法が完了するとすぐに、Sの値は、全体の候補構造化文書に対するフィットネススコアを表し、Sの値は、例えば、図11Bで説明された方法1150で使用するために戻される(ステップ1194)。
例えば、「胸部CTスキャン(造影なし)二千三年四月二十二日」を思い出していただきたい。<日付>がどのような日付も意味するテキスト「胸部CTスキャン(造影なし)<日付>」の確率を識別することにより、このテキストのフィットネススコア(確率)を得てもよく、また、もしテキストが日付を表すならば起きるテキスト「2003年4月22日」の条件付き確率によって、このテキストのフィットネススコア(確率)を掛け算してもよい。
より一般には、図11Cで説明された方法の効果は、言語モデル304の階層に従う単語の順序の確率を階層的に因数に分解することであり、これによりそれぞれの言語モデルノードに関連する個々の確率評価を、その他のノードと関連する確率評価とシームレスに組み合わせることができる。この確率的な構成により、システムは、モデルを作り、組み込み確率有限状態文法および組み込み統計言語モデル付き有限状態文法とともに、統計言語モデルを使用できる。
上記に説明したように、言語モデル304内のノードは言語サブモデルを表し、これは口語的音声ストリーム302内の単語の順序が発生する確率を特定する。これまでの考察では、確率はそのような言語モデルに既に割り当てられていると仮定してきた。言語モデル304内で、確率を言語サブモデル(nグラム言語モデルおよび文脈自由文法)に割り当てるために、手法の例を今から開示する。
図13を参照して、言語モデル304を生成するために、本発明の一実施形態に使用される方法1300のフローチャートを示す。言語モデルに使用するために、複数のノードを選択する(ステップ1302)。例えば、記録転写士または相当する分野で技術を有するその他の者によってノードを選択してもよい。口語的音声ストリーム302内で現れる可能性のあるすべての概念のタイプを確保しようとしてノードを選択してもよい。例えば、医学分野で、診断書の部および診断書に現れることが予想される概念(例えば、日付、時間、投薬、アレルギー、バイタルサインおよび医師の倫理規定)を表すノード(例えば、図10Aで示すものなど)を選択してもよい。
概念および言語モデルタイプをステップ1302で選択されたそれぞれのノードに割り当ててもよい(ステップ1304〜1306)。例えば、ノード306b(図10A)は概念「比較部キュー」に割り当てられてもよく、また言語モデルタイプ「有限状態文法」に割り当てられてもよい。同様に、ノード1006aは、概念「比較内容」および言語モデルタイプ「nグラム言語モデル」に割り当てられてもよい。
ステップ1302で選択されたノードを階層構造の中へ配列してもよい(ステップ1308)。例えば、ノード間の構造上の依存性を表し、実行するために、ノード1002、306a〜e、1006a〜e、および1010を図10Aで説明した階層構造の中へ配列してもよい。
その後、対応する概念を表すテキストを使用して、ステップ1302で選択したそれぞれのノードをトレーニングしてもよい(ステップ1310)。例えば、一式のトレーニング文書を識別してもよい。例えば、一式のトレーニング文書は、一式の既存の診断書または口語的音声ストリーム302と同一のドメイン内のその他の文書であってもよい。部、サブ部、日付、時間、倫理規定およびその他の概念のような文書内の構造の存在および場所を示すために、トレーニング文書を手作業で印を付けてもよい。例えば、フォーマット済みの文書で自動的に、または記録転写士または相当する分野で技術を有するその他の者によって手作業によって、そのような印付けを実行してもよい。ステップ1302で選択されたノードをトレーニングするための手法の例は、「Document Transcription System Training」という名称の先述の特許出願で説明される。
トレーニング文書内でマークされたそれぞれの概念に対する概念に特有の言語モデルのトレーニングを行うために、従来型の言語モデルトレーニング手法をステップ1310で使用してもよい。例えば、ヘーダー部を表す言語モデルノード306aのトレーニングを行うために、トレーニング文書内のマークされたすべての「ヘッダー」部からのテキストを使用してもよい。このようにして、図10Aで説明された言語モデル304内のそれぞれのノード1002、306a〜e、1006a〜e、および1010に対する言語モデルのトレーニングを行ってもよい。図13で説明された方法1300の結果は、トレーニングされた確率を有する階層的言語モデルであり、上記に説明した方法で、構造化テキスト文書310を生成するためにこれを使用できる。その後、例えば、図11Bおよび12Bと関連して上記に開示した手法を使用するなどによって、トレーニングテキストを反復して再分割するために、階層的言語モデルを使用してもよい。階層的言語モデルを保持するために、分割されたトレーニングテキストを使用してもよい。言語モデルの質を繰り返して改善するために、再分割および再トレーニングのこの過程を反復して実行してもよい。
上記に説明した例では、構造化文書ジェネレータ308は、中間の非構造化筆記録を生成する範囲内で、統合された過程を使用し、口語的音声ストリーム302の認識、および構造化テキスト文書310の生成の両方を行う。しかしながら、そのような手法は単に例示目的のために開示され、本発明に制限を加えるものではない。
図14を参照して、区別できる音声認識および構造化構文解析ステップを使用し、構造化テキスト文書310を生成するために、本発明の別の実施形態で使用される方法1400のフローチャートを示す。図15を参照して、本発明の一実施形態に従う図14の方法1400を実行するシステム1500のデータフロー図を示す。
音声認識デコーダ320は、口語的音声ストリーム302の筆記録1502を生成するための言語モデル1506を使用し、口語的音声ストリーム302を認識する。言語モデル1506は、言語モデル304と異なる従来型の言語モデルであってもよいことに留意されたい。より具体的には、言語モデル1506は、従来の一体型の言語モデルであってもよい。例えば、言語モデル304をトレーニングするのに使用される同一のトレーニング言語資料を使用して、言語モデル1506を生成してもよい。言語モデル304のノードのトレーニングを行うために、トレーニング言語資料の一部を使用してもよいが、言語モデル1506のトレーニングを行うために、言語資料の全体を使用してもよい。従って、音声認識デコーダ320は、言語モデル1506を使用し、口語的音声ストリーム302を認識し、それによって筆記録1502を生成するために、従来型の音声認識手法を使用してもよい。
筆記録1502は、上記に開示された前の例にあるような構造化文書よりはむしろ、口語的音声ストリーム302の「フラット」筆記録1502であってもよいことに留意されたい。例えば、筆記録1502は、図4(これはテキスト形式で口語的音声ストリーム302と示す)で説明されたテキストと似ているフラットテキストの順序を含んでもよい。
システム1500は構造化構文解析ツール1504も含むが、これは筆記録1502を構文解析し、それによって構造化テキスト文書310を生成するために、階層的言語モデル304を使用する(ステップ1404)。構造化構文解析ツール1504は、(1)筆記録1502と同一の内容を有するが、言語モデル304を介して異なる経路に対応する構造を有する多数の候補構造化文書を作成するため、(2)それぞれの候補構造化文書に対するフィットネススコアを生成するため、および(3)最終構造化テキスト文書として最も高いフィットネススコアを有する候補構造化文書を選択するため、という目的のために、図11Cおよび12Bについて上記に開示した手法を使用してもよい。しかしながら、図11Cおよび12Bについて上記に開示した手法と対照的に、それぞれの候補構造化文書を生成するために、音声認識を実行することなく、ステップ1404を実行してもよい。もっと正確に言えば、音声認識デコーダ320を使用して、筆記録1502を作成した時点で、音声認識を追加で実行することなく、筆記録1502に基づいて、候補構造化文書を生成してもよい。
さらに、構造化パーサー1504は、構造化テキスト文書310を作成するために完全な言語モデル304を使用する必要はない。むしろ、構造化パーサー1504は、図10Cに示す言語モデル1030等の「骨格」言語モデルを使用してよい。図10Cに示す言語モデル例1030は、骨格言語モデル1030において内容言語モデルノード306a、1006a〜dおよび1010が、「ドントケア」言語モデルとも称される汎用対応言語モデル1032a〜fに置き換えられているという点を除いては、図10Aに示す言語モデル304と同じであることに留意されたい。言語モデル1032a〜fは、それらに入力として提供されるいかなるテキストにも対応するであろう。骨格言語モデル1030内のヘッダーキュー言語モデル306b〜eは、構造化パーサー1504に、筆記録1502を構造化文書310内の的確な部分構造へ構文解析させることができる。しかしながら、汎用対応言語モデル1032a〜fの使用は、構造化パーサー1504に、図10Aに示すモデル306a、1006a〜d、および1010等の内容言語モデルをトレーニングする(一般にかなりの)費用を負担することなく、該当する構造的な構文解析を実行させることができる。
骨格言語モデル1030はさらに、下位概念に対応する日付言語モデル1012等の言語モデルを含んでよいことに留意されたい。結果として、骨格言語モデル1030は、下位概念を構造化文書310へ構文解析する能力を維持しながら、内容言語モデルをトレーニングする諸経費を負担することなく、筆記録1502から構造化文書310を生成するために使用されることができる。
本発明の利点には、以下のうち1つ以上が含まれる。本明細書において開示される技術は、従来の世界言語モデルを、単一の一般言語モデルよりも文書の節に適している特定ローカル言語モデルの組み合わせに置き換えるものである。該当する言語モデルは、様々な利点を有する。
例えば、それぞれが特定の概念に対応するサブモデルを含有する言語モデルの使用は、ほとんどの適切な言語モデルが各概念に対応する音声を認識するために使用されることを可能にするため、好都合である。換言すると、サブモデルのそれぞれが異なる概念に対応する場合、そのサブモデルのそれぞれは、対応する概念を表現する音声における音声認識を実行するために使用されることができる。音声の特性は概念によって異なるため、該当する概念固有言語モデルの使用によって、すべての概念用のモノリシック言語モデルを使用して作成されるものよりも良い認識結果を作成することができる。
言語モデルのサブモデルは文書の節に対応することができるが、これは本発明を限定するものではない。むしろ、言語モデルにおける各サブモデルは、節、段落、文、日付、時刻、またはICD9コード等、いかなる概念にも対応することができる。結果として、言語モデルにおけるサブモデルは、節固有言語モデルのみを用いた場合に考えられるよりも高度な精密度を持つ特定の概念に適合されることができる。そのような多種多様の概念用の概念固有言語モデルを使用することで、音声認識精度をさらに向上させることができる。
さらに、本発明の実施形態に従って設計された階層的言語モデルは、互いの内側でサブモデルを入れ子にする効果を持つ多層階層構造を有することができる。結果として、言語モデル内のサブモデルは、各レベルの粒度において適用される最も適切な言語モデルとともに、様々なレベルの粒度における口語的音声ストリーム302の一部に適用されることができる。例えば、「ヘッダー部」言語モデルは概して文書のヘッダー部の内側の音声に適用されることができ、一方、「日付」言語モデルは特にヘッダー部において日付を表現する音声に適用されることができる。言語モデルを入れ子にし、入れ子にされた言語モデルを音声の異なる部分に適用するためのこの能力は、口語的音声ストリームの各部分に最も適切な言語モデルが適用できるようにすることによって、認識精度をさらに向上させることができる。
複数のサブモデルを含む言語モデルを使用することの別の利点は、本明細書において開示される技術が、図1Aに示す、音声認識ステップに続いて自然言語処理ステップが行われる先行技術の2ステッププロセス100よりもむしろ、単一の総合プロセスを使用して口語的音声ストリームから構造化テキスト文書を生成するために、該当する言語モデルを使用できることである。図1Aに示す2ステッププロセス100において、音声認識装置104と自然言語プロセッサ108とによって実行されるステップは完全に分離されている。自動音声認識装置104および自然言語プロセッサ108は互いに独立して動作するため、自動音声認識装置104の出力106は音声ストリーム102内の口語的内容の文言記録である。したがって文言記録106は、該当する発話が最終的に望ましい構造化テキスト文書に関連するか否かにかかわらず、音声ストリーム102内のすべての口語的発話に対応するテキストを含有する。該当する発話は、構造的示唆またはタスク関連語に加えて、例えば躊躇、無関係な語、または繰り返しを含んでよい。さらに、自然言語プロセッサ108は、構造的示唆等、一定のキーワードおよび/またはキーフレーズの検出および記録転写の成功に依存している。キーワード/フレーズが自動音声識別装置104によって誤認識されると、自然言語プロセッサ108による構造エントリの識別が悪影響を受ける場合がある。対照的に、図2に示す方法200においては、音声認識および自然言語処理が統合され、それによって言語モデルが音声ストリーム302における語の認識および構造化テキスト文書310における構造の生成の両方に影響を及ぼすことが可能になり、それによって構造化文書310の品質全体が向上する。
本明細書において開示される技術は、構造化文書310を生成することに加えて、音声ストリーム302から意味内容を抽出および解釈するために使用されてもよい。例えば、日付言語モデル1012(図10A〜10B)は、音声ストリーム302の日付を表現する部分を識別し、そのような日付の表現をコンピュータ可読形式で保存するために使用されてよい。例えば、本明細書に開示される技術は、口語的フレーズ「1993年10月1日」を日付として識別し、その日付を「月=10,日=1,年=1998」等のコンピュータ可読形式で保存するために使用されてよい。そのような概念をコンピュータ可読形式で保存することは、日付ごとに文書節を保存すること、または任意の日付より前に処方された薬物を識別すること等により、そのような概念の内容がコンピュータによって容易に処理されることを可能にする。さらに、本明細書において開示される技術は、ユーザーが文書の異なる部分(例えば、節)を定義し、各節においてどの概念を抽出するかを選ぶことを可能にする。したがって、本明細書において開示される技術は、口語的音声ストリームにおける意味内容の認識および処理を容易にする。該当する技術は、抽出された情報を構造化文書に保存することの代わりに、またはそれに加えて適用されることができる。
医療および法律分野等、トレーニングテキストとして使用するためにまとまった量の事前録音済み音声ストリームがある分野は、本明細書において開示される技術に特定の利益を見出すことができる。該当するトレーニングテキストは、図13に関連して上記で開示した技術を使用して、言語モデル304をトレーニングするために使用されることができる。そのような分野における文書は明確に定義された構造を有することを要求される場合があるため、また該当する構造は既存の文書において直ちに識別可能な場合があるため、言語モデル304内の概念固有言語モデルノードのそれぞれをトレーニングする際において使用するために、該当する既存の文書の部分を正確に識別することは(時間はかかるが)比較的容易である。結果として、言語モデルノードのそれぞれは、対応する概念を認識するよう十分にトレーニングされることができ、それによって認識精度が向上し、また、要求される構造を有する文書を生成するためのシステムの能力が向上する。
さらに、本明細書において開示される技術は、音声が録音および記録転写される既存のプロセスにおいていかなる変更も必要とすることなく、該当する分野内に適用できる。医療分野においては、例えば、医師は現在の様式で診断書を口述し続けることができる。本明細書において開示される技術は、口語的音声ストリームが口述される様式にかかわらず、望ましい構造を有する文書を生成するために使用されることができる。話者が(トレーニングテキストを読むことによって)エンロールすることを必要とする技術、話者が自らの口語の様式を(所定の口語形式を使用して常に特定の概念を話すこと等によって)修正することを必要とする技術、または筆記録が特定のフォーマットで生成されることを必要とする技術等、ワークフローにおいて変更を必要とする代替技術は、医療および法律分野等の分野において実装するには極めて高価となりうる。事実、そのような変更は、報告書の構造に関連する制度的または法的要件(保険報告要件によって課されるもの等)と矛盾するおそれがある。対照的に、本明細書において開示される技術は、音声ストリーム302が任意の様式で生成され、任意の形式を有することを可能にする。
また、言語モデル304内の個別のサブモデル306a〜eは、残りの言語モデルに影響することなく容易に更新されることができる。例えば、ヘッダー内容306aサブモデルは、文書ヘッダーが口述される手法について異なる説明をする、異なるヘッダー内容サブモデルに置き換えられてよい。言語モデル304のモジュール構造は、そのようなサブモデルの修正/置換が、言語モデル304のその他いかなる部分を修正することも必要とせずに実行されることを可能にする。結果として、言語モデル304の一部は、異なる文書口述筆記仕様を反映するために、容易に更新されることができる。
さらに、本発明の様々な実施形態によって作成される構造化テキスト文書310は、言語モデルをトレーニングするために使用されることができる。例えば、上記で参照した特許出願の名称「Document Transcription System Training」に記載のトレーニング技術は、言語モデル304を再トレーニングし、それによって言語モデル304を向上させるために、構造化テキスト文書310を使用することができる。再トレーニングされた言語モデル304はその後、次の構造化テキスト文書を作成するために使用されることができ、これが同様に言語モデル304を再トレーニングするために使用されることができる。この反復プロセスは、時間をかけて作成される構造化文書の品質を向上させるために用いられることができる。
本発明を特定の実施形態の観点で上記に説明したが、当然のことながら、前述の実施形態は一例として提供したにすぎず、本発明の範囲を限定または定義するものではない。以下を含むがそれらに限定されないその他様々な実施形態も、特許請求の範囲内である。例えば、本明細書において記載されている要素および構成要素は、追加構成要素へさらに分割されてもよく、または、同じ機能を実行するより少ない構成要素を形成するために結合されてもよい。
口語的音声ストリーム302は、直接的にまたは間接的に(電話またはIP接続等を介して)受信されたライブ音声ストリーム、または任意の媒体に任意のフォーマットで録音された音声ストリーム等、任意の音声ストリームであってよい。分散型音声認識(Distributed Speech Recognition;DSR)において、クライアントは、サーバへ伝送される処理された音声ストリームを作成するために音声ストリームの前処理を実行し、サーバがその処理された音声ストリームについて音声認識を実行する。音声ストリーム302は、例えば、DSRクライアントによって作成された、処理された音声ストリームであってよい。
上記の例において、言語モデル304内の各ノードは特定の概念に対応する言語モデルを含有するとして説明されているが、これは本発明の要件ではない。例えばノードは、(1)世界背景言語モデル、または(2)その他のノードに関連する概念固有言語モデルを補間することによって生じる言語モデルのうち1つ以上を持つノードに関連する概念固有言語モデルを含んでよい。
上記の例において、区別は「文法」と「テキスト」との間でなされうる。テキストは文法として表現されることができ、その場合、確率1を有する単一の口述形式があることを十分に理解すべきである。したがって、本明細書においてテキストおよび文法の両方を含むとして説明されている文書は、必要に応じて、文法のみを使用して実装されることができる。さらに、有限状態文法は、表現される概念の多数の代替口述形式を可能にする言語モデルの一種である、文脈自由文法の中のほんの一種類にすぎない。したがって、本明細書における、有限状態文法に適用される技術についてのあらゆる説明は、その他任意の種類の文法に、より広く適用されることができる。さらに、上記の説明は有限状態言語モデルおよびnグラム言語モデルに言及している場合もあるが、これらは本発明の実施形態に関連して使用されうる言語モデルの種類の例にすぎない。本発明の実施形態は、任意の特定の種類の言語モデルに関連して使用するよう限定されるものではない。
本発明は、説明した領域(診断書および法的報告書等)のいずれかに限定されるものではなく、あらゆる種類の構造化文書に広く当てはまる。
上記で説明した技術は、例えば、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせにおいて実装されることができる。上記で説明した技術は、プロセッサ、プロセッサにより可読である記憶媒体(例えば、揮発性および不揮発性メモリならびに/または記憶素子を含む)、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを含むプログラム可能コンピュータ上で実行する、1つ以上のコンピュータプログラムにおいて実装されることができる。説明した機能を実行するためおよび出力を生成するために、入力デバイスを使用して入力された入力に、プログラムコードを適用してもよい。出力は、1つ以上の出力デバイスに提供されてよい。
以下の特許請求の範囲内における各コンピュータプログラムは、アセンブリ言語、機械語、高水準の手続き型プログラミング言語、またはオブジェクト指向プログラミング言語等、任意のプログラミング言語において実装されることができる。プログラミング言語は、例えば、コンパイル型またはインタープリタ型プログラミング言語であってよい。
各該当するコンピュータプログラムは、コンピュータプロセッサによる実行のための機械可読ストレージデバイスにおいて明白に具現化されるコンピュータプログラム製品において実装されることができる。本発明の方法のステップは、入力を操作し出力を生成することによって、本発明の機能を実行するために、コンピュータ可読媒体において明白に具現化されるプログラムを実行するコンピュータプロセッサによって実行されることができる。適したプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方を含む。概して、プロセッサは、リードオンリーメモリおよび/またはランダムアクセスメモリから命令およびデータを受信する。コンピュータプログラム命令を明白に具現化するのに適したストレージデバイスは、例えば、EPROM、EEPROM、およびフラッシュメモリデバイスを含む半導体メモリデバイス;内蔵ハードディスクおよびリムーバブルディスク等の磁気ディスク;光磁気ディスク;ならびにCD‐ROM等、すべての形式の不揮発性メモリを含む。上述のいずれも、特別に設計されたASIC(Application−Specific Integrated Circuits;特定用途向け集積回路)またはFPGA(Field−Programmable Gate Arrays;フィールドプログラマブルゲートアレイ)によって補完されるか、または、それらに組み込まれることができる。コンピュータは概して、内蔵ディスク(図示せず)またはリムーバブルディスク等の記憶媒体からプログラムおよびデータを受信することもできる。これらの要素は、本明細書において説明した方法を実装するコンピュータプログラムを実行するのに適した他のコンピュータに加えて、従来のデスクトップまたはワークステーションコンピュータにおいても見られ、任意のデジタルプリントエンジンもしくはマーキングエンジン、ディスプレイモニタ、または、紙、フィルム、ディスプレイ画面、もしくはその他の出力媒体上にカラーもしくはグレースケールピクセルを作成することができるラスタ出力デバイスと関連して使用されることもできる。
図1Aは、口語音声ストリームに基づいて構造化文書を生成するための、従来技術のシステムのデータフロー図である。図1Bは、口語の報告書に基づいて生成されるテキスト診断書の図である。 口語の文書に基づいて構造化テキスト文書を生成するために、本発明の一実施態様において行われる方法のフローチャートの図である。 本発明の一実施態様における図2の方法を行うシステムのデータフロー図である。 本発明の一実施態様の口語音声ストリームの一例を示す図である。 本発明の一実施態様による、構造化テキスト文書を示す図である。 本発明の一実施態様による、図5の構造化テキスト文書に基づいてレンダリングされる、レンダリングされた文書の一例を示す図である。 構造化テキスト文書を生成するために、本発明の一実施態様における図3の構造化文書ジェネレータによって行われる方法のフローチャートの図である。 本発明の一実施態様による、図7の方法に関連する、図3のシステムの一部を詳細に示すデータフロー図である。 言語モデルと、該言語モデルに対応する文書の部分構造と、本発明の一実施態様による言語モデルを使用して生成された候補内容とのマッピングを示す図である。 図10Aは、本発明の一実施態様による、階層的言語モデルを示す図である。図10Bは、本発明の一実施態様による図10Aの階層的言語モデルを介した経路を示す図である。図10Cは、本発明の別の実施態様による、階層的言語モデルを示す図である。 図11Aは、本発明の一実施態様による、構造化テキスト文書を生成するために、図3の構造化文書ジェネレータによって行われる方法のフローチャートの図である。図11Bは、本発明の一実施態様による、階層的言語モデルを介して経路を選択し、音声に基づいて構造化テキスト文書を生成するために、統合プロセスを使用する方法のフローチャートの図である。図11C及び図11Dは、候補文書に対するフィットネススコアを計算するために、本発明の一実施態様において行われる方法のフローチャートの図である。 図12Aは、本発明の一実施態様による、図11Aの方法に関連する、図3のシステムの一部を詳細に示すデータフロー図である。図12Bは、本発明の一実施態様における図11Bの方法を行う図3の構造化文書ジェネレータの一実施態様を示すデータフロー図である。 構造化テキスト文書の生成において使用するための階層的言語モデルを生成するために、本発明の一実施態様において使用される方法のフローチャートの図である。 相異なる音声認識および構造的な構文解析ステップを使用して、構造化テキスト文書を生成するために、本発明の一実施態様において使用される方法のフローチャートの図である。 本発明の一実施態様による、図14の方法を行うシステムのデータフロー図である。

Claims (21)

  1. (A)第1の階層内に論理的に構成された複数の概念に関連する複数の確率的言語モデルを含む確率的言語モデルを識別するステップと、
    (B)口語音声ストリームに前記確率的言語モデルを適用するために音声認識デコーダを使用して、前記第1の階層を介した経路によって定義される論理構造を有する第2の階層に論理的に構成された複数の部分構造に構成された内容を含む文書を生成するステップと、
    を含む方法であって、
    前記ステップ(B)は、
    (B)(1)前記階層を介して経路を識別するステップであって、
    (B)(1)(a)前記階層を介して複数の経路を識別するステップと、
    (B)(1)(b)前記複数の経路Pのそれぞれに対して、経路P上の前記言語モデルを使用して前記口語音声ストリームを認識するために、前記音声認識デコーダを使用して前記口語音声ストリームに対する構造化文書であって、フラットテキストと意味概念を含む構造化文書の候補を生成するステップと、
    (B)(1)(c)前記複数の構造化文書の候補に対する複数のフィットネススコアを生成するために、ステップ(B)(1)(b)で生成された前記複数の構造化文書の候補にメトリックを適用するステップと、
    (B)(1)(d)最も高いフィットネススコアを有する前記構造化文書の候補を生成する前記経路を選択するステップと、を含むステップと、
    (B)(2) ステップ(B)(1)で識別された前記経路に対応する構造を有する文書を生成するステップと、を含む、
    方法。
  2. 前記ステップ(B)(2)は、前記文書を生成するために、前記第1の階層を介して前記経路をトラバースするステップを含む、
    請求項1に記載の方法。
  3. 前記ステップ(B)(1)は、前記口語音声ストリームを認識するために音声認識デコーダによって適用された場合に、前記複数の確率的言語モデルの前記第1の階層に関する最適認識結果を生成する前記第1の階層を介して経路を識別するステップを含む、
    請求項1に記載の方法。
  4. 前記複数の部分構造は意味概念を表す部分構造を含む、
    請求項1に記載の方法。
  5. 前記意味概念は日付を含む、
    請求項4に記載の方法。
  6. 前記意味概念は投薬を含む、
    請求項4に記載の方法。
  7. 前記意味概念はコンピュータ可読形式で前記文書内に表される、
    請求項4に記載の方法。
  8. 前記複数の確率的言語モデルは少なくとも1つのnグラム言語モデルを含む、
    請求項1に記載の方法。
  9. (C)前記文書の構造を示す解釈を生成するために、前記文書をレンダリングするステップをさらに含む、
    請求項1に記載の方法。
  10. 前記複数の確率的言語モデルは少なくとも1つの有限状態言語モデルを含む、
    請求項1に記載の方法。
  11. 前記複数の確率的言語モデルは少なくとも1つのnグラム言語モデルを含む、
    請求項10に記載の方法。
  12. 第1の階層内に論理的に構成される複数の概念に関連する複数の確率的言語モデルを含む確率的言語モデルを識別するための識別手段と、
    口語音声ストリームに前記確率的言語モデルを適用するために音声認識デコーダを使用して、前記第1の階層を介した経路によって定義される論理構造を有する第2の階層に論理的に構成された複数の部分構造に構成された内容を含む文書を生成するための文書生成手段と、を備える装置であって、
    前記文書生成手段は:
    前記第1の階層を介して経路を識別するための第2の識別手段であって、前記第2の識別手段は、
    前記第1の階層を介して複数の経路を識別するための手段と、
    前記複数の経路Pのそれぞれに対して、経路P上の前記言語モデルを使用して前記口語音声ストリームを認識するために、前記音声認識デコーダを使用して前記口語音声ストリームに対する構造化文書であって、フラットテキストと意味概念を含む構造化文書の候補を生成するための候補生成手段と、
    前記複数の構造化文書の候補に対する複数のフィットネススコアを生成するために、前記候補生成手段で生成された前記複数の構造化文書の候補にメトリックを適用するための手段と、
    最も高いフィットネススコアを有する前記構造化文書の候補を生成する前記経路を選択するための手段と、を備える第2の識別手段と;
    前記第2の識別手段で識別された前記経路に対応する構造を有する文書を生成するための手段と、
    を備える装置。
  13. 前記文書生成手段は、前記文書を生成するために、前記第1の階層を介して前記経路をトラバースする手段を備える、
    請求項12に記載の装置。
  14. 前記複数の確率的言語モデルは少なくとも1つのnグラム言語モデルを含む、
    請求項12に記載の装置。
  15. 前記複数の確率的言語モデルは少なくとも1つの有限状態言語モデルを含む、
    請求項12に記載の装置。
  16. 前記複数の確率的言語モデルは少なくとも1つのnグラム言語モデルを含む、
    請求項15に記載の装置。
  17. 前記複数の部分構造は意味概念を表す部分構造を含む、
    請求項12に記載の装置。
  18. 前記意味概念は日付を含む、
    請求項17に記載の装置。
  19. 前記意味概念は投薬を含む、
    請求項17に記載の装置。
  20. 前記意味概念はコンピュータ可読形式で前記文書内に表される、
    請求項17に記載の装置。
  21. 前記文書の構造を示す解釈を生成するために、前記文書をレンダリングするための手段をさらに含む、
    請求項12に記載の装置。
JP2007528000A 2004-08-20 2005-08-18 音声からの意味内容の自動抽出および構造化文書の生成 Expired - Fee Related JP4940139B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/923,517 2004-08-20
US10/923,517 US7584103B2 (en) 2004-08-20 2004-08-20 Automated extraction of semantic content and generation of a structured document from speech
PCT/US2005/029354 WO2006023622A2 (en) 2004-08-20 2005-08-18 Automated extraction of semantic content and generation of a structured document from speech

Publications (3)

Publication Number Publication Date
JP2008511024A JP2008511024A (ja) 2008-04-10
JP2008511024A5 JP2008511024A5 (ja) 2008-10-09
JP4940139B2 true JP4940139B2 (ja) 2012-05-30

Family

ID=35910687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007528000A Expired - Fee Related JP4940139B2 (ja) 2004-08-20 2005-08-18 音声からの意味内容の自動抽出および構造化文書の生成

Country Status (8)

Country Link
US (2) US7584103B2 (ja)
EP (1) EP1787288B1 (ja)
JP (1) JP4940139B2 (ja)
CA (1) CA2577721C (ja)
DK (1) DK1787288T3 (ja)
ES (1) ES2394726T3 (ja)
PL (1) PL1787288T3 (ja)
WO (1) WO2006023622A2 (ja)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003274592A1 (en) 2002-11-28 2004-06-18 Koninklijke Philips Electronics N.V. Method to assign word class information
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7818041B2 (en) * 2004-07-07 2010-10-19 Young Kim System and method for efficient diagnostic analysis of ophthalmic examinations
US7793217B1 (en) * 2004-07-07 2010-09-07 Young Kim System and method for automated report generation of ophthalmic examinations from digital drawings
EP1787289B1 (en) * 2004-07-30 2018-01-10 Dictaphone Corporation A system and method for report level confidence
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7908141B2 (en) * 2004-09-29 2011-03-15 International Business Machines Corporation Extracting and utilizing metadata to improve accuracy in speech to text conversions
US8600728B2 (en) * 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US20060212452A1 (en) * 2005-03-18 2006-09-21 Cornacchia Louis G Iii System and method for remotely inputting and retrieving records and generating reports
US7430715B2 (en) * 2005-05-31 2008-09-30 Sap, Aktiengesellschaft Interface for indicating the presence of inherited values in a document
US7640255B2 (en) 2005-05-31 2009-12-29 Sap, Ag Method for utilizing a multi-layered data model to generate audience specific documents
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US8676563B2 (en) * 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8577684B2 (en) 2005-07-13 2013-11-05 Intellisist, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8032372B1 (en) * 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US20070081428A1 (en) * 2005-09-29 2007-04-12 Spryance, Inc. Transcribing dictation containing private information
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7640158B2 (en) 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
ATE514162T1 (de) 2005-12-08 2011-07-15 Nuance Comm Austria Gmbh Dynamische erzeugung von kontexten zur spracherkennung
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
WO2007150006A2 (en) 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Applying service levels to transcripts
US8433915B2 (en) 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US20080027726A1 (en) * 2006-07-28 2008-01-31 Eric Louis Hansen Text to audio mapping, and animation of the text
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8132104B2 (en) * 2007-01-24 2012-03-06 Cerner Innovation, Inc. Multi-modal entry for electronic clinical documentation
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8615389B1 (en) * 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
EP2130167A1 (en) * 2007-03-29 2009-12-09 Nuance Communications Austria GmbH Method and system for generating a medical report and computer program product therefor
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP5145751B2 (ja) * 2007-04-06 2013-02-20 コニカミノルタエムジー株式会社 医療用の情報処理システム
US20080273774A1 (en) * 2007-05-04 2008-11-06 Maged Mikhail System and methods for capturing a medical drawing or sketch for generating progress notes, diagnosis and billing codes
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US20090216532A1 (en) * 2007-09-26 2009-08-27 Nuance Communications, Inc. Automatic Extraction and Dissemination of Audio Impression
US8301633B2 (en) * 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8019608B2 (en) 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US20100125450A1 (en) 2008-10-27 2010-05-20 Spheris Inc. Synchronized transcription rules handling
US20100145720A1 (en) * 2008-12-05 2010-06-10 Bruce Reiner Method of extracting real-time structured data and performing data analysis and decision support in medical reporting
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
US8990064B2 (en) * 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CA2789158C (en) 2010-02-10 2016-12-20 Mmodal Ip Llc Providing computable guidance to relevant evidence in question-answering systems
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8463673B2 (en) 2010-09-23 2013-06-11 Mmodal Ip Llc User feedback in semi-automatic question answering systems
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US8924394B2 (en) 2011-02-18 2014-12-30 Mmodal Ip Llc Computer-assisted abstraction for reporting of quality measures
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9412369B2 (en) 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
WO2012177662A1 (en) * 2011-06-19 2012-12-27 Mmodal Ip Llc Document extension in dictation-based document generation workflow
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
US9569593B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
WO2013133891A1 (en) * 2012-03-08 2013-09-12 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8612261B1 (en) 2012-05-21 2013-12-17 Health Management Associates, Inc. Automated learning for medical data processing system
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9679077B2 (en) * 2012-06-29 2017-06-13 Mmodal Ip Llc Automated clinical evidence sheet workflow
CA2881564A1 (en) 2012-08-13 2014-02-20 Mmodal Ip Llc Maintaining a discrete data representation that corresponds to information contained in free-form text
US9710431B2 (en) * 2012-08-18 2017-07-18 Health Fidelity, Inc. Systems and methods for processing patient information
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
WO2014102569A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
US10115202B2 (en) 2012-12-27 2018-10-30 Arria Data2Text Limited Method and apparatus for motion detection
GB2524934A (en) 2013-01-15 2015-10-07 Arria Data2Text Ltd Method and apparatus for document planning
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US9819798B2 (en) 2013-03-14 2017-11-14 Intellisist, Inc. Computer-implemented system and method for efficiently facilitating appointments within a call center via an automatic call distributor
JP2016512372A (ja) * 2013-03-15 2016-04-25 エムモーダル アイピー エルエルシー 動的スーパー治療明細書コード化方法とシステム
WO2014165837A1 (en) * 2013-04-04 2014-10-09 Waterhouse Jonathan Displaying an action vignette while text of a passage is correctly read aloud
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10324966B2 (en) 2014-03-21 2019-06-18 Mmodal Ip Llc Search by example
US10664558B2 (en) 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
US10152532B2 (en) 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
US10169826B1 (en) * 2014-10-31 2019-01-01 Intuit Inc. System and method for generating explanations for tax calculations
US10387970B1 (en) 2014-11-25 2019-08-20 Intuit Inc. Systems and methods for analyzing and generating explanations for changes in tax return results
WO2016090010A1 (en) * 2014-12-03 2016-06-09 Hakman Labs LLC Workflow definition, orchestration and enforcement via a collaborative interface according to a hierarchical checklist
US10950329B2 (en) 2015-03-13 2021-03-16 Mmodal Ip Llc Hybrid human and computer-assisted coding workflow
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10747947B2 (en) * 2016-02-25 2020-08-18 Nxgn Management, Llc Electronic health record compatible distributed dictation transcription system
JP2017167433A (ja) * 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US10754978B2 (en) 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information
US10567850B2 (en) 2016-08-26 2020-02-18 International Business Machines Corporation Hierarchical video concept tagging and indexing system for learning content orchestration
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
US12020334B2 (en) 2016-10-26 2024-06-25 Intuit Inc. Methods, systems and computer program products for generating and presenting explanations for tax questions
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
US10860685B2 (en) 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
EP3571608A4 (en) 2017-01-17 2020-10-28 MModal IP LLC PROCEDURES AND SYSTEMS FOR MANIFESTATION AND TRANSMISSION OF FOLLOW-UP NOTIFICATIONS
WO2018152352A1 (en) 2017-02-18 2018-08-23 Mmodal Ip Llc Computer-automated scribe tools
US11605448B2 (en) 2017-08-10 2023-03-14 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10699065B2 (en) 2017-11-06 2020-06-30 Microsoft Technology Licensing, Llc Electronic document content classification and document type determination
EP3714466A4 (en) 2017-11-22 2021-08-18 3M Innovative Properties Company AUTOMATED CODE FEEDBACK SYSTEM
US11515020B2 (en) 2018-03-05 2022-11-29 Nuance Communications, Inc. Automated clinical documentation system and method
US20190272895A1 (en) 2018-03-05 2019-09-05 Nuance Communications, Inc. System and method for review of automated clinical documentation
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US10891436B2 (en) * 2018-03-09 2021-01-12 Accenture Global Solutions Limited Device and method for voice-driven ideation session management
US10664662B2 (en) * 2018-04-18 2020-05-26 Microsoft Technology Licensing, Llc Multi-scale model for semantic matching
US11836454B2 (en) 2018-05-02 2023-12-05 Language Scientific, Inc. Systems and methods for producing reliable translation in near real-time
KR20190136578A (ko) * 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
US11455497B2 (en) * 2018-07-23 2022-09-27 Accenture Global Solutions Limited Information transition management platform
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11094322B2 (en) 2019-02-07 2021-08-17 International Business Machines Corporation Optimizing speech to text conversion and text summarization using a medical provider workflow model
US10522138B1 (en) * 2019-02-11 2019-12-31 Groupe Allo Media SAS Real-time voice processing systems and methods
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
WO2021111374A1 (en) * 2019-12-04 2021-06-10 Rajanna Pooran Prasad A system and method for providing contextual information and actions to make a conversation meaningful and engaging
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
JP6818916B2 (ja) * 2020-01-08 2021-01-27 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11429780B1 (en) * 2021-01-11 2022-08-30 Suki AI, Inc. Systems and methods to briefly deviate from and resume back to amending a section of a note
US20220383874A1 (en) 2021-05-28 2022-12-01 3M Innovative Properties Company Documentation system based on dynamic semantic templates
US20230395063A1 (en) * 2022-06-03 2023-12-07 Nuance Communications, Inc. System and Method for Secure Transcription Generation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001523019A (ja) * 1997-10-20 2001-11-20 マイクロソフト コーポレイション テキストの本文の談話構造の自動認識
WO2002033691A1 (en) * 2000-10-17 2002-04-25 Cyberpulse, Llc Structured speech recognition
JP2002169803A (ja) * 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020123891A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Hierarchical language models
JP2002540478A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 並列する認識エンジン
JP2004212715A (ja) * 2003-01-06 2004-07-29 Mitsubishi Electric Corp 音声対話処理装置とそのプログラム

Family Cites Families (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62221775A (ja) 1986-03-20 1987-09-29 Fujitsu Ltd 自然言語処理方式
US5434962A (en) 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
JPH0769921B2 (ja) 1990-11-09 1995-07-31 株式会社日立製作所 文書論理構造生成方法
AU2868092A (en) * 1991-09-30 1993-05-03 Riverrun Technology Method and apparatus for managing information
JPH06168267A (ja) 1992-11-30 1994-06-14 Itec:Kk 構造化文書作成方法及び構造化文書作成支援装置
DE4397100C2 (de) 1992-12-31 2003-02-27 Apple Computer Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
US5384892A (en) 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5594638A (en) * 1993-12-29 1997-01-14 First Opinion Corporation Computerized medical diagnostic system including re-enter function and sensitivity factors
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JP2618832B2 (ja) 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
US5701469A (en) * 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
GB9525719D0 (en) * 1995-12-15 1996-02-14 Hewlett Packard Co Speech system
US6041292A (en) 1996-01-16 2000-03-21 Jochim; Carol Real time stenographic system utilizing vowel omission principle
US6684188B1 (en) * 1996-02-02 2004-01-27 Geoffrey C Mitchell Method for production of medical records and other technical documents
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5823948A (en) * 1996-07-08 1998-10-20 Rlis, Inc. Medical records, documentation, tracking and order entry system
US5797123A (en) 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6182029B1 (en) 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US6055494A (en) 1996-10-28 2000-04-25 The Trustees Of Columbia University In The City Of New York System and method for medical language extraction and encoding
US5839106A (en) 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
CA2284168A1 (en) * 1997-03-13 1998-09-17 First Opinion Corporation Disease management system
US5970449A (en) 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
US6490561B1 (en) 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
US5926784A (en) 1997-07-17 1999-07-20 Microsoft Corporation Method and system for natural language parsing using podding
EP0903727A1 (en) 1997-09-17 1999-03-24 Istituto Trentino Di Cultura A system and method for automatic speech recognition
WO1999017223A1 (en) 1997-09-30 1999-04-08 Ihc Health Services, Inc. Aprobabilistic system for natural language processing
US6304870B1 (en) 1997-12-02 2001-10-16 The Board Of Regents Of The University Of Washington, Office Of Technology Transfer Method and apparatus of automatically generating a procedure for extracting information from textual information sources
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
DE19809563A1 (de) 1998-03-05 1999-09-09 Siemens Ag Medizinischer Arbeitsplatz
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
US6915254B1 (en) 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
US6304848B1 (en) 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
US6122614A (en) 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US6249765B1 (en) 1998-12-22 2001-06-19 Xerox Corporation System and method for extracting data from audio messages
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
WO2000054180A1 (fr) 1999-03-05 2000-09-14 Cai Co., Ltd. Systeme et procede de creation de document formate sur la base de la reconnaissance vocale conversationnelle
JP2000259175A (ja) 1999-03-08 2000-09-22 Mitsubishi Electric Corp 音声認識装置
US6609087B1 (en) 1999-04-28 2003-08-19 Genuity Inc. Fact recognition system
US6345249B1 (en) * 1999-07-07 2002-02-05 International Business Machines Corp. Automatic analysis of a speech dictated document
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP2003515778A (ja) 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
US6535849B1 (en) 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US6738784B1 (en) * 2000-04-06 2004-05-18 Dictaphone Corporation Document and information processing system
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
EP1305767B1 (en) * 2000-05-18 2014-03-19 Commwell, Inc. Method for remote medical monitoring incorporating video processing
US6662168B1 (en) * 2000-05-19 2003-12-09 International Business Machines Corporation Coding system for high data volume
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
WO2002046886A2 (en) 2000-11-07 2002-06-13 Antaeus Healthcom, Inc. D.B.A. Ascriptus, Inc. System for the creation of database and structured information from verbal input
JP2004514981A (ja) * 2000-11-22 2004-05-20 リケア・インコーポレイテッド 医学検査の医療上の発見を記録するシステム及び方法
US20020087311A1 (en) 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US6714939B2 (en) 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US20020099717A1 (en) * 2001-01-24 2002-07-25 Gordon Bennett Method for report generation in an on-line transcription system
WO2002082318A2 (en) 2001-02-22 2002-10-17 Volantia Holdings Limited System and method for extracting information
US7366979B2 (en) * 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
EP1490790A2 (en) * 2001-03-13 2004-12-29 Intelligate Ltd. Dynamic natural language understanding
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
JP2003022091A (ja) 2001-07-10 2003-01-24 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
US20030069760A1 (en) * 2001-10-04 2003-04-10 Arthur Gelber System and method for processing and pre-adjudicating patient benefit claims
AU2002332971B2 (en) * 2001-10-18 2008-07-03 Yeong Kuang Oon System and method of improved recording of medical transactions
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
US20030105638A1 (en) 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US20030144885A1 (en) 2002-01-29 2003-07-31 Exscribe, Inc. Medical examination and transcription method, and associated apparatus
EP1473639A1 (en) * 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US7869998B1 (en) * 2002-04-23 2011-01-11 At&T Intellectual Property Ii, L.P. Voice-enabled dialog system
US7028038B1 (en) 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US20040230404A1 (en) * 2002-08-19 2004-11-18 Messmer Richard Paul System and method for optimizing simulation of a discrete event process using business system data
US20060041836A1 (en) * 2002-09-12 2006-02-23 Gordon T J Information documenting system with improved speed, completeness, retriveability and granularity
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
EP1576586A4 (en) * 2002-11-22 2006-02-15 Transclick Inc LANGUAGE TRANSLATION SYSTEM AND METHOD
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7958443B2 (en) 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US20040243545A1 (en) 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US8095544B2 (en) * 2003-05-30 2012-01-10 Dictaphone Corporation Method, system, and apparatus for validation
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US7860717B2 (en) * 2003-09-25 2010-12-28 Dictaphone Corporation System and method for customizing speech recognition input and output
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US7996223B2 (en) 2003-10-01 2011-08-09 Dictaphone Corporation System and method for post processing speech recognition output
US20050144184A1 (en) 2003-10-01 2005-06-30 Dictaphone Corporation System and method for document section segmentation
WO2005091175A1 (en) * 2004-03-15 2005-09-29 Yahoo! Inc. Search systems and methods with integration of user annotations
US7379946B2 (en) * 2004-03-31 2008-05-27 Dictaphone Corporation Categorization of information using natural language processing and predefined templates
US20050240439A1 (en) * 2004-04-15 2005-10-27 Artificial Medical Intelligence, Inc, System and method for automatic assignment of medical codes to unformatted data
US20050273365A1 (en) 2004-06-04 2005-12-08 Agfa Corporation Generalized approach to structured medical reporting
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7421647B2 (en) * 2004-07-09 2008-09-02 Bruce Reiner Gesture-based reporting method and system
US20060020886A1 (en) * 2004-07-15 2006-01-26 Agrawal Subodh K System and method for the structured capture of information and the generation of semantically rich reports
US20060020466A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based medical patient evaluation method for data capture and knowledge representation
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US20060129435A1 (en) * 2004-12-15 2006-06-15 Critical Connection Inc. System and method for providing community health data services
US7502741B2 (en) 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US20070043761A1 (en) * 2005-08-22 2007-02-22 The Personal Bee, Inc. Semantic discovery engine
WO2007056601A2 (en) * 2005-11-09 2007-05-18 The Regents Of The University Of California Methods and apparatus for context-sensitive telemedicine
US7957968B2 (en) * 2005-12-22 2011-06-07 Honda Motor Co., Ltd. Automatic grammar generation using distributedly collected knowledge
US7610192B1 (en) * 2006-03-22 2009-10-27 Patrick William Jamieson Process and system for high precision coding of free text documents against a standard lexicon
US8731954B2 (en) * 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US8233751B2 (en) * 2006-04-10 2012-07-31 Patel Nilesh V Method and system for simplified recordkeeping including transcription and voting based verification
US8121838B2 (en) * 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
WO2007150006A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Applying service levels to transcripts
US8356245B2 (en) * 2007-01-05 2013-01-15 International Business Machines Corporation System and method of automatically mapping a given annotator to an aggregate of given annotators
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001523019A (ja) * 1997-10-20 2001-11-20 マイクロソフト コーポレイション テキストの本文の談話構造の自動認識
JP2002540478A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 並列する認識エンジン
JP2002169803A (ja) * 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
WO2002033691A1 (en) * 2000-10-17 2002-04-25 Cyberpulse, Llc Structured speech recognition
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020123891A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Hierarchical language models
JP2004523004A (ja) * 2001-03-01 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層言語モデル
JP2004212715A (ja) * 2003-01-06 2004-07-29 Mitsubishi Electric Corp 音声対話処理装置とそのプログラム

Also Published As

Publication number Publication date
US20090048833A1 (en) 2009-02-19
ES2394726T3 (es) 2013-02-05
EP1787288A2 (en) 2007-05-23
DK1787288T3 (da) 2012-10-29
EP1787288A4 (en) 2008-10-08
US20060041428A1 (en) 2006-02-23
JP2008511024A (ja) 2008-04-10
EP1787288B1 (en) 2012-08-15
WO2006023622A3 (en) 2007-04-12
PL1787288T3 (pl) 2013-01-31
US7584103B2 (en) 2009-09-01
WO2006023622A2 (en) 2006-03-02
CA2577721C (en) 2015-03-24
CA2577721A1 (en) 2006-03-02

Similar Documents

Publication Publication Date Title
JP4940139B2 (ja) 音声からの意味内容の自動抽出および構造化文書の生成
US20100299135A1 (en) Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US9552809B2 (en) Document transcription system training
US8666742B2 (en) Automatic detection and application of editing patterns in draft documents
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
Tur et al. Spoken language understanding: Systems for extracting semantic information from speech
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US9442910B2 (en) Method and system for adding punctuation to voice files
Griol et al. Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
US20240281710A1 (en) Handling multi-loop feedback for machine learning model pipelines
Watanabe et al. Xinjian Li Carnegie Mellon University
Ekpenyong et al. A Template-Based Approach to Intelligent Multilingual Corpora Transcription
Li Low-Resource Speech Recognition for Thousands of Languages
Kiefer Improving Automatic Transcription Using Natural Language Processing
Sims et al. The use of research software tools in qualitative IS research

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080815

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110808

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110815

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110908

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111006

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4940139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees