JP2013122599A - コンテキストの動的作成のための方法及びシステム - Google Patents

コンテキストの動的作成のための方法及びシステム Download PDF

Info

Publication number
JP2013122599A
JP2013122599A JP2013000242A JP2013000242A JP2013122599A JP 2013122599 A JP2013122599 A JP 2013122599A JP 2013000242 A JP2013000242 A JP 2013000242A JP 2013000242 A JP2013000242 A JP 2013000242A JP 2013122599 A JP2013122599 A JP 2013122599A
Authority
JP
Japan
Prior art keywords
context
sub
text
speech
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013000242A
Other languages
English (en)
Inventor
Grobauer Gerhard
グロバオアー,ゲルハルト
Papai Miklos
パパイ,ミクロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Nuance Communications Austria GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Austria GmbH filed Critical Nuance Communications Austria GmbH
Publication of JP2013122599A publication Critical patent/JP2013122599A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

【課題】音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備える音声ベースの文書である電子文書を備える音声認識システムのための方法及びシステムであって、音声ベースの文書のテキストの対応する部分のサブ・コンテキストを提供する。
【解決手段】音声の部分は、作成者によって口述され、サブ・コンテキストを音声認識器により、動的に作成及び/又は適合する工程と、サブ・コンテキストをテキストの部分と関連付ける工程とを含む。
【選択図】図1

Description

本発明は一般に、音声認識の分野に関する。特に、本発明は、特化されたコンテキストの動的作成のための方法及びシステムに関する。
音声認識(SR)システムは今日では、ますます効果的になってきており、複数の業界内でよく用いられている。音声認識は、マイクロフォンによって受け取られた音響信号が、コンピュータにより、語の組を備えた文書に変換される処理である。前述の認識された語を次いで、種々の目的で種々のアプリケーションに使用することができる。音声をテキストに変換する自動音声認識システムは、コスト効率の高い文書作成及び高い翻訳生産性をもたらすことが望ましい。
しかし、音声認識によって作成された文書をその後、作成者、翻訳者、品質保証(QA)担当者や他の者により、手作業で、又は口述筆記で文書を修正することによって訂正又はレビューする必要があることにより、前述の音声認識システムの複雑度が増大する。
音声認識精度を向上させるいくつかの考え方が、過去数年にわたって提案されている。国際公開第2005/052785号には、文書作成の効率化のために文書構造の知識をどのようにして用いるかの例が開示されている。文書の論理構造を検出し、処理して音声イネーブル文書を生成するためのフレームワークを用いる。
一定の(例えば、音響標準、言語モデル、辞典又は辞書、及び文法規則の)組を有する、文書全体に対して大局的に1つの単一の音声認識器構成を使用することが知られている。この場合、データは、一般的すぎる、又は大きすぎることがあり得る(例えば、潜在的な主題全ての超集合であり得る)。これにより、認識率が低下し得るものであり、前述の構成を微調整するための動的なやり方は存在しない。
文書の部分又はセクション毎に、局所的に静的な構成、コンテキスト(特定の辞書、言語モデルや、文書特有の文法等など)の有限の組を使用することも知られている。前述の場合、種々の構成を判定し、それらを文書の部分にマッピングすることは一般に難しいことがあり得る。コンテキストの作成が、通常数百万語を有するコーパスの処理を伴うので、特定の局所的な構成を作成することは、非常に時間がかかるプロセスでもある。
例えば、医療ディクテーション・システムにおいては、医師が報告書(例えば、脊髄X線報告書)を口述すると、音声認識システムは、一般放射線医学の構成、すなわち、放射線医学のコンテキスト(放射線医学に特有の辞典、言語モデル及び文法を含む)を使用する。しかし、放射線医学の分野はなお非常に広く、誤認が理由で、誤った語が認識される(特定の主題(例えば脊髄)に対して全く無関係であり得る(例えば網膜))。前述のシステムによって提供されるコンテキストはよってなお静的であり、使用される辞典又は特定の語彙に関する正確性又は特定性を欠く。非常に多くの場合、コンテキストは一般的過ぎ、特定の文書領域において必要であり得るものよりもずっと多くの語及び文をサポートする。よって、特定の文書領域において本当に必要な前述の語及び文(コンテキストの部分集合)を強調することが望ましい。
よって、より静的でなく、音声認識システムの誤り率を低下させるための、コンテキスト適用及び作成がより好適であり、かつより狭い改良されたシステムが効果的になる。
よって、本発明は好ましくは、当該技術分野における前述の欠点、及び不利点のうちの1つ又は複数を単独又は何れかの組み合わせで軽減、緩和、又は除去しようとし、特許請求の範囲記載の、特化されたコンテキストを動的に作成するシステム及び方法を提供することによって少なくとも前述の問題を少なくとも部分的に解決する。
特に、本発明は、構造及びコンテンツ情報(例えば、見出し、タグ等)をテキスト文書から抽出し、音声認識の向上のために使用する音声認識システムに関する。特化されたコンテキスト(例えば、辞典、文法及び言語モデル)が、テキスト文書の部分について自動的に作成又は生成される。
本発明の一局面によれば、音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備えた音声ベースの文書である電子文書を備える音声認識システムのための方法を提供する。音声の部分は、作成者によって口述され、音声認識システム内の音声認識器により、音声ベースの文書のテキストの対応する部分に処理される。上記方法は、サブ・コンテキストを音声認識器により、動的に作成及び/又は適合する工程と、サブ・コンテキストをテキストの部分と関連付ける工程とを含む。方法は、電子文書に関する基本主題を識別する工程と、電子文書に基本コンテキストを関連付ける工程であって、基本コンテキストは少なくとも語の組を備え、上記語の組の使用は基本主題に関係する工程と、電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別する工程と、サブ・コンテキストを基本コンテキストから作成する工程であって、サブ・コンテキストは少なくとも特定された語の組を備え、特定された語の組の使用はサブ主題に関係する工程と、サブ・コンテキストそれぞれを電子文書内のテキストの一致する部分に関連付ける工程とを更に含む。更に、方法では、テキストの各部分に対するサブ・コンテキストを作成する工程、及び電子文書にサブ・コンテキストを適合する工程が自動的に行われ得る。更に、方法では、基本コンテキストからサブ・コンテキストを作成する工程が、電子文書の残りの部分とは異なる、テキストの特定の部分に関する語を識別する工程と、特定された語の組を、基本コンテキストを使用することによって作成する工程とを備え得る。
本発明の別の局面によれば、音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備えた音声ベースの文書である電子文書を備える音声認識システムのためのシステムを提供する。音声の部分は、作成者によって口述され、音声認識システム内の音声認識器により、音声ベースの文書のテキストの対応する部分に処理される。上記システムは、サブ・コンテキストを音声認識システムによって作成及び/又は適合する手段と、サブ・コンテキストをテキストの部分と関連付ける手段とを備える。該手段は更に、電子文書に関係した基本主題を識別する手段と、基本コンテキストを電子文書と関連付ける手段であって、基本コンテキストが少なくとも語の組を備え、語の組の使用が基本主題に関係する手段と、電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別する手段と、サブ・コンテキストを基本主題から作成する手段であって、サブ・コンテキストが、少なくとも特定された語の組を備え、特定された語の組の使用がサブ主題に関係する手段と、サブ・コンテキストそれぞれを電子文書内のテキストの一致する部分と関連付ける手段とを備える。更に、電子文書内の各テキスト部分にサブ・コンテキストを作成及び/又は適合する手段は自動的な手段であり得る。更に、基本コンテキストからサブ・コンテキストを作成する手段は、電子文書の残りの部分とは異なる、テキストの特定の部分に関する語を識別する手段と、特定された語の組を、基本コンテキストを使用することによって作成する手段とを備え得る。
本発明に更なる局面によれば、コンピュータによって処理するためのコンピュータ・プログラムを上に実施したコンピュータ読み取り可能な媒体を提供し、コンピュータ・プログラムは、電子文書を備える音声認識システム用に構成され、電子文書は、音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備える音声ベースの文書であり、上記音声の部分は、作成者によって口述され、音声ベースの文書のテキストの対応する部分に音声認識システム内の音声認識器によって処理される。コンピュータ・プログラムは、サブ・コンテキストを作成し、音声認識器に適合し、サブ・コンテキストをテキスト部分に関連付けるためのコード・セグメントを備える。該コード・セグメントは、電子文書に関係した基本主題を判定するためのコード・セグメントと、基本コンテキストを電子文書と関連付けるためのコード・セグメントであって、基本コンテキストが語の組を備え、語の組の使用が基本主題に関係するコード・セグメントと、電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別するためのコード・セグメントと、基本コンテキストを使用することによってサブ・コンテキストを作成するためのコード・セグメントであって、サブ・コンテキストが、少なくとも特定された語の組を備え、特定された語の組の使用がサブ主題に関係するコード・セグメントと、サブ・コンテキストそれぞれを電子文書内のテキストの一致する部分と関連付けるためのコード・セグメントとを備える。特化されたコンテキストの動的な作成のためのシステムの利点には特に、静的なコンテキスト(例えば、一般放射線医学のコンテキスト)をユーザ特有のニーズ(例えば、医療報告書における、肺X線に関する部分について)に適合することの容易性がある。
本発明の例示的な実施例による装置のブロック図である。
本発明によって可能な前述並びに他の局面、特徴及び利点は、添付図面を参照して、本発明の実施例の以下の説明によって明らかになり、明らかにされるであろう。
以下の説明は、音声認識システムに適用可能な本発明の実施例に焦点を当てており、特に、音声ベースの文書における口述テキストの認識のために使用される対象の特化されたコンテキストを動的に作成する方法に適用可能な本発明の実施例に焦点を当てている。しかし、本発明は、このアプリケーションに限定されないが、多くの他のディクテーション又は音声管理システムに適用することができる。
音声ベースの文書のタイプには、全く構造化されていないプレーン・テキストから、非常に構造化されている書式及びテンプレートまである。音声ベースの文書の構造は、静的に(例えば、テンプレートの一部として)規定するか、又は文書構成要素の組から作成者により、動的に作成することができる。
話を単純にするために、「音声ベースの文書」は、本明細書では以降、「文書」として表すものとし、文書には、少なくとも部分的には音声から得られる情報の再生が想定される。
図1は、国際公開第2005/052785号から得られたものであり、本発明に適切な部分のみをここで説明する。図1は、信号部分を含むオーディオ信号を、文書のテキスト部分を含むテキストに翻訳するよう企図されたシステム1を示す。オーディオ信号は、話者によってマイクロフォン2に与えられる口述を表す。システムは、オーディオ信号を受け取るための入力3を有する。オーディオ信号は、実質的に同様なやり方で設定される手段を装置が有する場合、別のやり方で(例えば、データ担体を利用するか、又はデータ・ネットワークを介してディジタル表現の形式で)供給することも可能である。更に、システムは、音声イネーブル・フレームワーク9を備える。
この実施例のフレームワーク9は、コンピュータ内の1つ又は複数のデータ・プロセッサ上で実行されるコンピュータ・ソフトウェアとして実現される。更に、フレームワーク9は、他の実施例において、他の手段によって(例えば、コード化されたハードウェアにおいて)実現することもできる。
フレームワークは特に、オーディオ信号を受け取り、信号部分をテキスト部分に翻訳するよう企図された翻訳手段4(音声認識器)を含む。信号部分の翻訳(音声認識)は、話者データ及びコンテキスト・データを考慮に入れて行われる。コンテキスト・データは、利用可能な種々の選択可能なコンテキストを表し、各コンテキストは、辞典、文法、及び言語モデル(LM)(語、及び語の系列の確率についての統計情報を備える)を規定するか、又は備える。翻訳手段4は、認識されたテキスト部分を表すテキスト・データを生成する。
翻訳手段は、文書の検出構造に応じて構成され、構造に応じて、別々のコンテキスト間で選ばれる。
国際公開第2005/052785号には、構造要素「報告の最初」が認識された場合、第1のコンテキストが選択され、構造要素「章の見出し」が認識された場合、第2のコンテキストが選択され、構造要素「テキスト」が認識された場合、第3のコンテキストが選択されることが開示されている。更に、構造要素「テキスト」が存在するやいなや、最大のレキシカル・スコープを備えたコンテキストが供給される。
本発明の実施例では、フレームワーク9は、翻訳手段のそれぞれのコンテキストを適合し、かつ/あるいは改良し、かつ/あるいは作成するよう企図された適合手段5を備えている。
認識されたテキスト・データは次いで再生制御手段6に転送される。再生制御手段6は、文書のテキスト・データの音響的再生及び視覚的再生(ここでは更に詳細に扱わないものとする)に影響を及ぼすよう企図された再生制御手段6である。音響再生データは第1の再生装置7(スピーカなど)に供給され、テキスト再生データは第2の再生装置8に送信される。再生装置8は、モニタやディスプレイなどの情報の視覚的再生用に企図されている。
文書は通常、文書全体に関連付けられたいくつかの属性(言語、作成者、コンテキストなど)を有する。コンテキストは、利用可能な語(辞典)及びその使用(言語モデル)を規定する。コンテキストは、特定の口述に関係する潜在的な主題(見出し、クライエント特有の記述、薬剤特有の記述、患者履歴、治療法等など)全ての超集合である。コンテキストは多くの場合、実際の口述のニーズよりもずっと広い主題の組、及びずっと多数の語を有する。口述の品質と、コンテキスト「サイズ」との間にはトレードオフが存在している。コンテキストは有限であるので、新たなコンテキストの作成などの連続したコンテキスト改良に対する必要性が存在している。実行時の性能が理由で、オンライン口述セッション中のすばやいコンテキスト切り換えは賢明でないので、種々のコンテキストを有するよりも、基本コンテキスト及び種々のサブ・コンテキストが望ましいと思われる。よって、この実施例によれば、認識は、遅いコンテキスト切り換えの代わりに、サブ・コンテキストの組によって動的に拡張される基本コンテキストに基づいて改善される。
コンテキストは、主題領域において大きな文書の組を収集することにより、作成することができる。コンテキストは、特定の主題領域(例えば、放射線医学)について一般的であり得るか、又は特定の口述タイプ又は文書テンプレートに特化され得る。
特定の文書領域は、患者履歴、治療法等などの特定の主題と関連付けることができる。文書の種々の領域に関連付けられた主題は、テンプレートの設計者によって規定することができる。主題の定義はコンテキスト作成時に行うことが可能であり、その場合、音声認識フレームワークは自動的に、文書テンプレートの音声イネーブル時に、又は音声イネーブル文書のロード時に得る。このことは、以下本明細書では、更に詳細な説明はしないものとする。
この実施例では、サブ・コンテキストは特定の主題に関連付けられる。各主題は通常、1つの単一のサブ・コンテキストとのみ、つながっている。サブ・コンテキストは、少なくともサブ・コンテキスト辞典及びサブ・コンテキストLMを備える。サブ・コンテキストLMは、そのサブ・コンテキストに関連付けられた文書領域に口述筆記が存在している場合に自動的に適合される。
特定の主題に関連付けられない文書領域も存在し得る。この場合、基本コンテキストは、前述と関連付けられる。
基本コンテキスト及びサブ・コンテキストへの参照は文書に記憶することができ、音声認識の統合器は、参照を、正しいコンテキストと関連付けることができる。
脊髄X線などの特定の主題に関する特定の文書領域内の口述筆記中、システムは。脊髄X線に既存のサブ・コンテキストを使用する。脊髄X線に一般的な語は、基本的な放射線医学のコンテキストよりも脊髄X線サブ・コンテキストによって、より好適にサポートされ、より容易に認識され得る。逆に、基本的な放射線学のコンテキストは、一部の脊髄X線特有の語を含んでいないことがあり得るか、又は、低い確率でのみ、一部の脊髄X線特有の語を設けており、それにより、前述の語を認識することがより難しくなる。適切なサブ・コンテキストをそのサブ・コンテキスト言語モデルとともに使用することにより、脊髄X線特有の語は、その他の語よりも高い確率を有することになる。サブ・コンテキストの作成プロセスは、種々の時点で始めることができる。最も早い場合、基本コンテキストが作成された時点で作成することができる。これは、テンプレート等などの文書の作成プロセスの前又は前述の作成プロセス中である。サブ・コンテキストは、文書テンプレートが音声認識フレームワークによって自動的に、あるいはユーザ相互作用により、あるいは部分的に両方によって作成された時点で作成することもできる。
文書が特定の主題に関連付けられており、よって、特定のサブ・コンテキストに関連付けられており、口述筆記がその領域に行われ、その後、文書がコンテキスト適合される場合、その領域のテキストがサブ・コンテキストに動的に適合されることになる。
フレームワーク9に含まれる別の構成は、サブ・コンテキストの自動的な適合又は作成もサポートする。これは、文書からの構造情報を使用することによる、既存のコンテキストの適合/作成手段5によって行われる。例えば、文書領域が通常、患者履歴のような特定の主題の語及び文を含んでいる場合、前述の文(語)が、サブ・コンテキストを作成するための候補として利用される。更に、作成者が通常、同様な文を文書の同じ領域に口述筆記し、適切なコンテキストを関連付けることが容易になることを前提とする。
適合/作成手段は、文書の別々の領域を特別なやり方で扱う。新たな主題の場合、新たな辞典及び新たなLMを備える新たなサブ・コンテキストが作成されることになり、割り当てられたサブ・コンテキストを既に有する部分からのデータが、割り当てられたサブ・コンテキストに厳密に適合するために使用されることになる。
文書を生成するための例示的なプロセスは以下の通りである。作成者は、マイクロフォン2を使用してテキストを口述筆記する。口述筆記は、汎用プレーン・テキストの口述筆記、制限された主題、短いテキストの口述筆記、選択されたキーワード識別子、ナビゲーション・コマンド、選択コマンド及び/又は短いキー駆動コマンドの口述筆記であり得る。口述筆記テキスト/ファイルはシステム1のフレームワーク9に入力される。システム1のフレームワーク9では、音声認識器4は、口述筆記テキスト/ファイルを処理し、言語、作成者、コンテキストなどの関連属性を備えた音声ベースの文書を生成する。
音声ベースの文書内のコンテンツに関係する主な主題が判定される。利用可能な所定のコンテキストの組が存在している。前述の主題に関する基本コンテキストは、文書に適合され、かつ/又は文書に関連付けられ、基本コンテキストは、語の組、基本コンテキスト語彙、及び語の組の使用(語法)、基本コンテキストLMを含む。基本コンテキストの何れかの部分であるサブ・コンテキストは、音声認識の目的でその構造を検出することによる文書のカスタマイズにおいて(すなわち、文書の音声イネーブルにおいて)作成され、文書領域に関連付けられることになる。
サブ・コンテキストは、テキストの特定された部分にそれぞれが関連する、特定された語の組、サブ・コンテキスト語彙、及び特定された語の組の使用(語法)、サブ・コンテキストLMを含む。文書における部分は、サブ・コンテキストに関連付けられないか、又は単一のサブ・コンテキストと関連付けられる。
この実施例のワークフローの例:
1. Topic1+SubContextl及びTopic2+SubContext2は既にContextAに関係している。
2. 文書テンプレートが、音声イネーブル手順を経る。
3. 音声イネーブルにおいて、DocumentXの一部の領域がSubContextlと関連付けられる。
4. 新たなTopic3+SubContext3及びTopic4+SubContex4が、音声イネーブル手順において識別され、DocumentXの領域がSubContext3及びSubContext4と関連付けられる。次いで、DocumentXの音声イネーブル手順を終了した後、効率的な口述筆記に備える。
5. 音声イネーブルされたDocumentXをロードし、作成者は文書の別々の領域に口述筆記する。作成者は、必ずしも主題について知らなくてよい。特定の文書領域が、Topic1、Topic3及びTopic4と関連付けられる。
6. その後、口述筆記(及び訂正等)を終えると、次の工程は、DocumentXの適合である。適合器は、ContextAが、SubContext3及びSubContext4を有していないことを認識し、よって、それらを作成する。
7. 口述筆記された語を適合すると、非主題関連領域がContextAの基本コンテキストにおいて適合され、他の領域は基本コンテキストにおいて適合されるのみならず、サブ・コンテキストにおいても適合される。
本発明は、ハードウェア、ソフトウェア、ファームウェアや、これらの何れかの組み合わせをはじめとする何れかの適切な形態で実現することが可能である。しかし、好ましくは、本発明は、1つ又は複数のデータ・プロセッサ上及び/若しくはディジタル信号プロセッサ上で実行されるコンピュータ・ソフトウェアとして実現される。本発明の実施例の構成要素及び構成部分は、何れかの適切なやり方で物理的に、機能的に、及び論理的に実現することができる。実際に、機能は、単一の装置において、複数の装置において、又は、他の機能的装置の一部として実現することができる。そういうものとして、本願の実施例は、単一装置において実現することができ、又は、別々の装置及びプロセッサに物理的及び機能的に分散させることができる。
本発明は、特定の実施例に関して前述してきたが、本明細書及び特許請求の範囲記載の特定の形態に限定することを意図するものでない。むしろ、本発明は、特許請求の範囲にのみ限定され、前述の特定のもの以外の他の実施例も、前述の特許請求の範囲内で同様に考えられる。例えば、サブ・コンテキスト及びサブ・サブ・コンテキストのいくつかのレベルが存在し得る。
特許請求の範囲では、「comprises/comprising」の語は、他の構成要素や工程が存在することを排除するものでない。更に、個々に列挙されているが、複数の手段、構成要素又は方法工程は、例えば、単一の装置又はプロセッサによって実現することができる。更に、個々の特徴は、別々の請求項に備え得るが、場合によっては、効果的に組み合わせてもよく、別々の請求項に備えていることは、特徴の組み合わせが実現可能でないこと及び/又は効果的でないことを示唆するものでない。更に、単数形の記載は、複数形を排除するものでない。「a」、「an」、「first」、「second」等の語は、複数形を排除するものでない。単に明瞭化する例として記載した、特許請求の範囲における参照符号は、特許請求の範囲を如何なるやり方によって限定されるものとも解されないものとする。

Claims (8)

  1. 音声の部分から認識又は翻訳されたテキストの部分を備える音声ベースの文書である電子文書を備える音声認識システムのための方法であって、前記音声の部分は、作成者によって口述され、前記音声認識システム内の音声認識器により、前記音声ベースの文書のテキストの対応する部分に処理され、前記方法は、前記音声認識器による、別々のコンテキストを動的に作成及び/又は適合する工程と、前記別々のコンテキストを前記テキストの部分に関連付ける工程とを含み、前記別々のコンテキストを前記テキストの部分に関連付ける工程は、
    前記電子文書に関係した基本主題を識別する工程と、
    基本コンテキストを前記電子文書に関連付ける工程であって、前記基本コンテキストは、少なくとも語の組、及び前記基本主題に関係する前記語の組の使用を備える工程と、
    前記電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別する工程と、
    サブ・コンテキストを前記基本コンテキストから作成する工程であって、前記サブ・コンテキストは、少なくとも特定された語の組、及び前記サブ主題に関係する前記特定された語の組の使用それぞれを備える工程と、
    前記サブ・コンテキストそれぞれを前記電子文書内のテキストの一致する部分に関連付ける工程とを更に含む方法。
  2. 請求項1記載の方法であって、テキストの各部分に対する前記サブ・コンテキストを作成する工程、及び前記サブ・コンテキストを前記電子文書において適合する工程が自動的に行われる方法。
  3. 請求項1記載の方法であって、前記基本コンテキストから前記サブ・コンテキストを作成する工程は、前記電子文書の残りの部分とは異なる、前記テキストの特定の部分に関する語を識別する工程と、
    前記特定された語の組を、前記基本コンテキストを使用することによって作成する工程とを備える方法。
  4. 音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備える音声ベースの文書である電子文書を備える音声認識システムのためのシステムであって、前記音声の部分は、作成者によって口述され、前記音声認識システム内の音声認識器により、前記音声ベースの文書のテキストの対応する部分に処理され、前記システムは、前記音声認識器による、別々のコンテキストを作成及び/又は適合する手段と、前記コンテキストを前記テキストの部分に関連付ける手段とを備え、前記コンテキストを前記テキストの部分に関連付ける手段は、
    前記電子文書に関係した基本主題を識別する手段と、
    基本コンテキストを前記電子文書に関連付ける手段であって、前記基本コンテキストは、少なくとも語の組、及び前記基本主題に関係する前記語の組の使用を備える手段と、
    前記電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別する手段と、
    サブ・コンテキストを前記基本コンテキストから作成する手段であって、前記サブ・コンテキストは、少なくとも特定された語の組、及び前記サブ主題に関係する前記特定された語の組の使用それぞれを備える手段と、
    前記サブ・コンテキストそれぞれを前記電子文書内のテキストの一致する部分に関連付ける手段とを備えるシステム。
  5. 請求項4記載のシステムであって、前記電子文書内の各テキスト部分にサブ・コンテキストを作成及び/又は適合する手段は自動的な手段であるシステム。
  6. 請求項4記載のシステムであって、前記基本コンテキストからサブ・コンテキストを作成する手段は、前記電子文書の残りの部分とは異なる、前記テキストの特定の部分に関する語を識別する手段と、
    前記特定された語の組を、前記基本コンテキストを使用することによって作成する手段とを備えるシステム。
  7. コンピュータによって処理するためのコンピュータ・プログラムを上に実施したコンピュータ読み取り可能な媒体であって、前記コンピュータ・プログラムは、音声の部分から認識又は翻訳されたテキストの1つ又は複数の部分を備える音声ベースの文書である電子文書を備える音声認識システム用に構成され、前記音声の部分は、前記音声認識システム内の音声認識器により、前記音声ベースの文書のテキストの対応する部分に処理され、前記コンピュータ・プログラムは、別々のコンテキストを作成し、前記音声認識器において適合し、前記テキストの部分に前記コンテキストを関連付けるためのコード・セグメントを備え、前記コード・セグメントは、
    前記電子文書に関係した基本主題を判定するためのコード・セグメントと、
    基本コンテキストを前記電子文書と関連付けるためのコード・セグメントであって、前記基本コンテキストが、語の組、及び前記基本主題に関係する前記語の組の使用を備えるコード・セグメントと、
    前記電子文書内のテキストの特定の部分にそれぞれが関係するサブ主題を識別するためのコード・セグメントと、
    前記基本コンテキストを使用することによってサブ・コンテキストを作成するためのコード・セグメントであって、前記サブ・コンテキストが、少なくとも特定された語の組、及び前記サブ主題に関係する前記特定された語の組の使用それぞれを備えるコード・セグメントと、
    前記サブ・コンテキストそれぞれを前記電子文書内のテキストの一致する部分と関連付けるためのコード・セグメントとを備えるコンピュータ読み取り可能な媒体。
  8. 請求項4乃至6の何れかに記載のシステムを備えた医療ディクテーション装置。
JP2013000242A 2005-12-08 2013-01-04 コンテキストの動的作成のための方法及びシステム Pending JP2013122599A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05111834 2005-12-08
EP05111834.7 2005-12-08

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008543983A Division JP5401096B2 (ja) 2005-12-08 2006-12-07 コンテキストの動的作成のための方法及びシステム

Publications (1)

Publication Number Publication Date
JP2013122599A true JP2013122599A (ja) 2013-06-20

Family

ID=38001915

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008543983A Expired - Fee Related JP5401096B2 (ja) 2005-12-08 2006-12-07 コンテキストの動的作成のための方法及びシステム
JP2013000242A Pending JP2013122599A (ja) 2005-12-08 2013-01-04 コンテキストの動的作成のための方法及びシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008543983A Expired - Fee Related JP5401096B2 (ja) 2005-12-08 2006-12-07 コンテキストの動的作成のための方法及びシステム

Country Status (6)

Country Link
US (3) US8473296B2 (ja)
EP (1) EP1960998B1 (ja)
JP (2) JP5401096B2 (ja)
CN (1) CN101326573A (ja)
AT (1) ATE514162T1 (ja)
WO (1) WO2007066304A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6820632B1 (ja) * 2020-10-05 2021-01-27 株式会社グルーパー 情報処理装置、及びプログラム
JP2022028897A (ja) * 2020-12-25 2022-02-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 文章翻訳方法、装置、電子機器及び記憶媒体

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066304A1 (en) 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Method and system for dynamic creation of contexts
US20090287487A1 (en) * 2008-05-14 2009-11-19 General Electric Company Systems and Methods for a Visual Indicator to Track Medical Report Dictation Progress
US10203861B2 (en) 2008-05-21 2019-02-12 Please Don't Go, LLC. Messaging window overlay for a browser
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US20120316874A1 (en) * 2011-04-13 2012-12-13 Lipman Brian T Radiology verification system and method
CN102436813A (zh) * 2011-12-21 2012-05-02 成都众询科技有限公司 一种可控语音控制系统
US9620111B1 (en) * 2012-05-01 2017-04-11 Amazon Technologies, Inc. Generation and maintenance of language model
US9448772B2 (en) * 2013-03-15 2016-09-20 Microsoft Technology Licensing, Llc Generating program fragments using keywords and context information
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9756185B1 (en) * 2014-11-10 2017-09-05 Teton1, Llc System for automated call analysis using context specific lexicon
WO2021080033A1 (ko) 2019-10-23 2021-04-29 엘지전자 주식회사 음성 분석 방법 및 장치
US11688394B1 (en) * 2020-06-01 2023-06-27 Amazon Technologies, Inc. Entity language models for speech processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273299A (ja) * 1991-02-28 1992-09-29 Ricoh Co Ltd 音声認識装置
WO2002033691A1 (en) * 2000-10-17 2002-04-25 Cyberpulse, Llc Structured speech recognition
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
JP2004523004A (ja) * 2001-03-01 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層言語モデル
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
JP2009518678A (ja) * 2005-12-08 2009-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテキストの動的作成のための方法及びシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
US5918236A (en) * 1996-06-28 1999-06-29 Oracle Corporation Point of view gists and generic gists in a document browsing system
US5864819A (en) * 1996-11-08 1999-01-26 International Business Machines Corporation Internal window object tree method for representing graphical user interface applications for speech navigation
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
CN1886726A (zh) 2003-11-28 2006-12-27 皇家飞利浦电子股份有限公司 转录音频信号的方法和设备
US20050273839A1 (en) * 2004-06-02 2005-12-08 Nokia Corporation System and method for automated context-based data presentation
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273299A (ja) * 1991-02-28 1992-09-29 Ricoh Co Ltd 音声認識装置
WO2002033691A1 (en) * 2000-10-17 2002-04-25 Cyberpulse, Llc Structured speech recognition
JP2004523004A (ja) * 2001-03-01 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層言語モデル
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
JP2007512608A (ja) * 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP2009518678A (ja) * 2005-12-08 2009-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテキストの動的作成のための方法及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6820632B1 (ja) * 2020-10-05 2021-01-27 株式会社グルーパー 情報処理装置、及びプログラム
JP2022060632A (ja) * 2020-10-05 2022-04-15 株式会社グルーパー 情報処理装置、及びプログラム
JP2022028897A (ja) * 2020-12-25 2022-02-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 文章翻訳方法、装置、電子機器及び記憶媒体
JP7395553B2 (ja) 2020-12-25 2023-12-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 文章翻訳方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
JP2009518678A (ja) 2009-05-07
US8798997B2 (en) 2014-08-05
US20130275131A1 (en) 2013-10-17
US20080288249A1 (en) 2008-11-20
EP1960998A1 (en) 2008-08-27
JP5401096B2 (ja) 2014-01-29
WO2007066304A1 (en) 2007-06-14
ATE514162T1 (de) 2011-07-15
US9412370B2 (en) 2016-08-09
US20140303976A1 (en) 2014-10-09
EP1960998B1 (en) 2011-06-22
CN101326573A (zh) 2008-12-17
US8473296B2 (en) 2013-06-25

Similar Documents

Publication Publication Date Title
JP5401096B2 (ja) コンテキストの動的作成のための方法及びシステム
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
US10720152B2 (en) Negative n-gram biasing
US9442910B2 (en) Method and system for adding punctuation to voice files
US8612231B2 (en) Method and system for speech based document history tracking
JP2006521578A (ja) 音声認識システム
JP2006521578A5 (ja)
JP2006085160A (ja) アルファニューメリック概念のための音声認識文法の作成
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP2003162524A (ja) 言語処理装置
Komatani et al. Restoring incorrectly segmented keywords and turn-taking caused by short pauses
US20230317069A1 (en) Context aware speech transcription
US20230153538A1 (en) Bootstrapping Topic Detection in Conversations
Le-Duc VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
Tran et al. Automatic speech recognition performance for digital scribes: a performance comparison between general-purpose and specialized models tuned for patient-clinician conversations
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム
CN113763921A (zh) 用于纠正文本的方法和装置
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140310

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140610