JP2011186491A - テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル - Google Patents

テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル Download PDF

Info

Publication number
JP2011186491A
JP2011186491A JP2011106732A JP2011106732A JP2011186491A JP 2011186491 A JP2011186491 A JP 2011186491A JP 2011106732 A JP2011106732 A JP 2011106732A JP 2011106732 A JP2011106732 A JP 2011106732A JP 2011186491 A JP2011186491 A JP 2011186491A
Authority
JP
Japan
Prior art keywords
text
section
speech recognition
topic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011106732A
Other languages
English (en)
Other versions
JP5330450B2 (ja
Inventor
Jochen Peters
ヨヒェン ペテルス
Evgeny Matusov
エフゲニー マトゥソフ
Carsten Meyer
カルステン メイアー
Dietrich Klakow
ディートリヒ クラコヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Nuance Communications Austria GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Austria GmbH filed Critical Nuance Communications Austria GmbH
Publication of JP2011186491A publication Critical patent/JP2011186491A/ja
Application granted granted Critical
Publication of JP5330450B2 publication Critical patent/JP5330450B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

【課題】テキスト又はスピーチ入力のコンテクスト特有の及び/又は構造的な情報を明確に使用することによってスピーチ認識及びテキストフォーマッティングの改善された方法を提供する。
【解決手段】第1のスピーチ認識パスから取得されうるテキスト文書は、セグメント化されそれぞれの取得されたセクションごとにトピック特有のモデルの対応付けを施される。モデルの組の中の各モデルは、テキスト処理又はフォーマッティング規則、言語モデル蓋然性についての統計情報を提供する。更にスピーチ認識及び/又はフォーマッティングシステムの他の特性(例えば発話速度の設定)が統計モデルにおいて符号化されることができる。モデルは注釈付き訓練データに基づいて及び/又は手動のコーディングによって生成される。テキストのセクションに対するモデルの対応付けに基づき、改善されたスピーチ認識及び/又はテキストフォーマッティングプロシージャが実施される。
【選択図】図2

Description

本発明は、自動のテキストフォーマッティング及びスピーチ認識の分野に関する。スピーチ認識及びテキストフォーマッティングの両方のプロセスは、例えば注釈付き訓練データに基づいて生成される言語モデル及びフォーマッティング規則のような、トピック特有の統計モデルを使用する。
記録されたスピーチ信号をマシン処理可能なテキストに変換するスピーチ認識及びスピーチ転写システムは、例えば医療分野及び法律業務において広く普及している。話されたディクテーションは、スピーチからテキストへの転写システムに、スピーチ信号の形で入力される。スピーチからテキストへの転写システムは、スピーチ信号を解析し、認識されたスピーチパターンを、対応するテキストブロックに変換する。スピーチパターンとテキストブロックとの間の対応付けは、ユーザの好みにあわせてカスタマイズされることができるデータベースによって、提供される。法律業務におけるディクテーションの語彙は、医用レポートに関係するディクテーションの語彙とは著しく異なるので、スピーチからテキストへの転写システムの適用分野に関連するデータベースの適当な組のみをスピーチからテキストへの転写システムに供給することが、合理的である。
しかしながら、一般に、スピーチからテキストへの転写システムから最終的に出力されるテキストは、予め規定された標準を満たさない。例えば、テキスト部分の句読点、フォーマッティング又は強調表示に関係する口述されたコマンドは、システムによって逐語的に転写される代わりに、解釈される必要がある。この場合、句読点コマンドの「終止符」は認識され、「.(ピリオド)」と置き換えられなければならない。解釈、文章の明確化(disambiguation)及びフォーマッティングタスクの他の例が、ディクテーション内の数の処理について与えられることができる。
コンテクストに依存して、数は、デジット、列挙(enumerarion)、日付等として又は逐語的な語として、転写されなければならない。例えば、「第2のコロン(number two colon)」、「アスピリン2錠(two tablets of Aspirin)」及び「これらの2つの所見(these two findings)」なる表現における「2(two)」は、それぞれ、列挙、デジット又は逐語的な語の「2」としてフォーマットされなければならない。曖昧なテキスト部分のフォーマッティング又は解釈についてのこの決定は、結局は、異なる文書タイプ又は文書の異なる部分に特有のさまざまなフォーマッティング標準を取り入れて、コンテクストに依存するやり方でのみ行われることができる。しかしながら、自動スピーチ転写システムは、入力スピーチについての洗練されたコンテクスト特有の知識に欠けているので、転写された原稿は、人間の校正者による注意深い校正を常に必要とし、これは、かなり時間がかかり、コスト集約的である。
最も一般的には、テキスト文書は、文書のコンテントの展開を記述する文書構造を含む。例えば、医用レポートは、一般に、人口統計学的なヘッダ、家族歴、放射線科、理学的検査、投薬のようにセクションにセグメント化される。これらのセクションの各々は、或るテキストフォーマッティング又はテキスト解釈規則が適用される独特のコンテントに関係する。例えば、医用レポートの開始セクションでは、口述される数(number)がデジットで書かれなければならない日付、アドレス又は生年月日に関係している蓋然性は、デジットが「患者履歴」セクションに現れる蓋然性よりも非常に高い。更に、「人口統計学的なヘッダ」セクションにおいて、数がデジットでフォーマットされる蓋然性は、数が逐語的な語としてフォーマットされる蓋然性よりも高い。従って、この知識は、例えば例示の数のように、曖昧なイベントについて最も可能性のあるフォーマッティングスタイルに有利な決定を下すのを助ける。
通常のスピーチ認識及びテキストフォーマッティングプロシージャは、いかなる種類のコンテクスト特有の専門技術をも特徴とせず、処理されているセクション又は文書の(意味論上の)コンテントについての知識も利用しないので、曖昧なテキスト部分に関係し、これらのプロシージャによって実施される、認識及び/又はフォーマッティングに関する重要な決定は、一般に、高いエラー率を示す。
特許文献1は、テキストストリームをセグメント化し、テキストストリームのトピックを識別する技法を開示している。この技法は、一連のセクションを表す一組の訓練テキストを入力として利用するクラスタリング方法を用いている。ここで、セクションは、単一のトピックを扱う連続する文章ストリームである。クラスタリング方法は、入力テキストのセクションを、指定された数のクラスタに分けるように設計される。異なるクラスタは、異なるトピックを扱う。
上述の技法は、複数の言語モデルを使用して、一連のテキストブロック(例えば文章)で構成されるテキストストリームを、セグメントに区分することを特徴とする。このセグメンテーションは、2つのステップで行われる。第1に、それぞれのテキストブロックは、1つのクラスタ言語モデルに対応付けられる。そののち、テキストセクション(セグメント)が、同じクラスタ言語モデルに対応付けられた連続するテキストブロックから決定される。
第2のステップにおいて、テキストストリームのセグメントの境界が、選択された一連の言語モデルにおける言語モデルの変化、すなわちトピック遷移に対応して、識別される。
テキストセグメンテーション及びトピック注釈は、本出願人によって同時に出願されている「Text segmentation and topic annotation for document structuring」というタイトルの特許出願明細書によって与えられている。この明細書には、テキスト発行の蓋然性、トピックシーケンスの蓋然性、トピック位置の蓋然性及びセクション長の蓋然性を考慮に入れるテキストセグメンテーション及びトピック注釈プロシージャが記載されている。このようにして、訓練コーパスによって提供されるさまざまな統計情報が、改善されたテキストセグメンテーション及び文書構造化のために、抽出され、効果的に利用されることができる。
米国特許第6,052,657号明細書
しかしながら、これらの技法は、テキストセクションを取り出し、識別し、これらのテキストセクションとコンテクスト特有のトピックとの関連付けを提供するが、集められたコンテクスト特有の及び/又は構造的な情報を更には使用しない。
本発明の目的は、テキスト又はスピーチ入力のコンテクスト特有の及び/又は構造的な情報を明確に使用することによって、スピーチ認識及びテキストフォーマッティングの改善された方法を提供することである。
本発明は、訓練データに基づいて生成される例えば言語モデル又はテキスト処理(フォーマッティング)規則のような複数の統計モデルを使用することによって、テキストを変更する方法を提供する。方法は、テキストを複数のセクションにセグメント化するステップと、各セクションに複数の統計モデルのうちの1つの統計モデルを対応付けるステップと、セクションに対応付けられる統計モデルに関して、各セクションごとにテキスト変更プロシージャを最終的に実施するステップと、を含む。
本発明の好適な実施例によれば、テキストのセクションに対応付けられる統計モデルは、各セクションに特有の独特のテキストフォーマッティング規則を記述するテキストフォーマッティング規則の組を提供する。それぞれの統計モデルは、テキストのコンテント依存のトピックに関係する。例えば、テキストの或るセクションが、冒頭セクションとして識別されると、この冒頭セクションは、このセクションのコンテントを示すトピックに対応付けられ、すなわち、当該セクションは、テキストの冒頭部分に関係する。加えて、複数の統計モデルの各々は、コンテント特有のトピックに対応付けられている。統計モデル及びテキストセクションの間の確立された相関関係に依存して、テキスト変更プロシージャは、それぞれのテキストセクションに対応付けられる統計モデルによって提供されるテキストフォーマッティング規則に基づいて、セクションに関するテキストフォーマッティングプロシージャを実施する。
医用レポートの冒頭セクションの上述の例の場合、フォーマッティング規則のこの組は、この特定のテキストセクション内で認識されるそれぞれの数が、デジットで転写されなければならないことを指定するフォーマッティング規則を提供することができる。文書の冒頭セクション内に日付又はアドレスの数が現れる蓋然性は、数が逐語的な語によって転写されなければならない蓋然性よりも非常に高いので、このようなフォーマッティング規則は合理的である。例えば「所見」のような他のセクションに関しては、列挙が、このようなセクションにおいてより頻繁に見られるので、数についての好適なフォーマッティング規則は、数を列挙として転写することを規定することができる。当然ながら、それぞれの規則は、他のコンテント依存を有することもでき、それゆえ、すべての数が、トピックごとに同じように処理されなければならないわけではない。従って、上述の例は、例外を有することができる「デフォルト規則」として考えられるべきである。
本発明の他の好適な実施例によれば、「統計モデル」なる語は、スピーチ認識及び/又はフォーマッティングのために使用されるいかなる知識源(ナレッジソース)をも意味する。テキストフォーマッティング規則に加えて、統計モデルは、更に、それぞれのテキストセクションについて特徴的である語又は句の統計情報を提供する言語モデルを含む。更に、言語モデルは、それぞれのテキストセクションについて特徴的である語又は語の組を提供するトピック特有の語彙を使用する。例えば、医用レポートの冒頭セクションについて特に訓練される統計モデルは、この冒頭セクションにおいて使用される一般の語又はフォーミュレーションついての情報を符号化する。その上、特有の語彙は、更に、このようなセクションにおいて期待される語についての事前の知識を改善し、従って、なんらかの未知の語を逃し又は誤って認識する可能性が低減される。例えば、医用レポートの開始セクションに道路又は都市名が現れる尤度は、例えば医学的処置に関する他のセクションと比較して非常に高いので、医用レポートの冒頭セクションに対して指定される統計モデルの言語モデルは、一般に、道路及び都市名の組を提供する。
すべての統計モデルは、注釈付き訓練データに基づいて訓練される。更に、規則又は言語モデルのいくつかの組が、任意には、訓練データから導き出される統計学的な重みによって、手動で設計されることができる。それぞれのモデル又は規則の訓練プロセスの間、訓練コーパスが、統計学的に評価される。このようにして、文書の冒頭セクションに対して指定される言語モデルは、このようなセクションにおいて期待される語又は句の蓋然性に特有であり、規則の組は、このようなセクションに適用されなければならない独特のフォーマッティング規則を指定する。言語モデルの訓練は、従来技術において知られており、例えば米国特許第6,188,976B1号明細書に記載の「apparatus and method for building domain specific language models」に従って実施されることができる。
語彙のようななんらかの構成要素又はなんらかのフォーマッティング規則は、例えば訓練コーパスにおける語数のような統計情報に基づいて導き出されることができるが、一旦それらが生成されると、「統計的な性質」に欠けることがありうる。更に、「「終止符」の各出現を「.(ピリオド)」に変換する(convert each occurrence of 'full stop' to '.')」のようないくつかの規則は、統計的な証拠なしで、手動で設計されることができる。いずれにせよ、ここでは、統計モデルのいずれかが統計的な性質をもたない場合であっても、知識源のいかなる組も「統計モデル」と呼ばれる。
本発明の他の好適な実施例によれば、変更を受けるテキストは、スピーチからテキストへの転写システムから取得され、一般に、話されたディクテーションから逐語的に転写される、語の構造化されていない1つの大きいストリームを特徴とする。テキストセグメンテーション技法を使用することによって、取得されたテキストの構造が、関連する情報をテキストの各セクションに対応付けるために抽出される。より具体的には、認識されたテキストは、セクションにセグメント化され、各セクションは、例えばトピック依存の言語モデル及び/又はテキスト処理規則のような統計モデルに関連付けられるトピックに対応付けられる。これらのモデルの各々は、テキストの異なるセクションに特有であり、すなわち、それぞれの言語モデル又は規則の組は、テキストセクションに対応付けられたコンテント依存のトピックにあわせてカスタマイズされる。
第1のスピーチ認識パスから生成されるテキストのセグメンテーションが実施され、適当なモデルの各テキストセクションに対する対応付けが達成されると、テキスト変更プロシージャが、セクションに対応付けられているモデルに関して、各セクションごとに実施されることができる。第2の認識パスは、認識エラーを除去することができ、関連付けられた規則によるセクションに関するフォーマッティングは、トピックに影響されないフォーマッティング又はテキスト処理と比較して、結果を改善することができる。
本発明の他の好適な実施例によれば、変更を受けるテキストは、転写パスとしても表わされる第1のスピーチ転写プロセスによって生成される。第1のスピーチ認識及び転写パスの間、スピーチ入力は、通常のやり方で、逐語的にテキストに転写される。この第1のスピーチ認識及び転写パスの間、多くの認識エラーが生じるものとされることができる。結果として得られる部分的に誤ったテキストは、セクションにセグメント化され、それぞれのセクションは、特有の言語モデルに関連付けられる特有のトピックに対応付けられる。
テキスト変更プロシージャは、各セクションに対応付けられる言語モデルを明確に使用することによる第2のスピーチ認識パスを含む。この第2のスピーチ認識パスは、セクションに関して(section-wise)実施され、すなわち、テキストの各セクションごとに、適当な言語モデルが選択され、選択された言語モデルによる蓋然性が、第1のスピーチ認識パスの間に生じるエラーを除去するために、第2のスピーチ認識パスの間に適用される。
トピック特有のモデルのこのセクションに関する対応付けの目標は、2つの部分を有する:特有の言語モデル及び/又は語彙を使用して、第1のパスの認識は、第2のパスにおいて改善されることができる。その上、トピック特有のテキスト処理規則の使用は、当該トピックにあてはまる特定のフォーマッティングタスクにより良く焦点をあてることを可能にする。同じ生テキストが、局所的なコンテント又はトピックに依存して異なるやり方でフォーマットされる場合、局所的な「正しい」モデルの使用が、1又は別のフォーマッティング動作が実施されるべきであるかどうかの曖昧さをなくす助けとなる。
従って、本発明の方法は、スピーチ認識プロセスに局所的なトピック情報を提供するための効果的な方法を表す。従って、誤った認識を起こしやすく、通常は人間の専門技術を必要とする曖昧なテキスト部分に関する決定が、音声認識システムによって自動的に実施されることができる。
本発明の他の好適な実施例によれば、セクションに対応付けられるそれぞれの統計モデルは、トピック特有の語彙を有する。このようにして、スピーチ認識は、認識されることができる語のコンテクスト依存の組を利用することによっても改善されることができる。例えば、医用レポートの冒頭セクション用にカスタマイズされている語彙は、レポートの他のセクションにおいてはあまり現れそうにない、例えば道路名又は都市名のような住所に一般に使用される語のリストを提供することができる。注意深く適応されたトピック特有の語のリストは、未知の語の数を低減し、語の混乱の尤度をかなり低減することができる。
完全な第2の認識パスに代わるものとして、第1の認識パスの間に生成される多数のテキスト仮説(hypotheses)のリスコアリングが、トピック特有の言語モデルによって及び/又はトピック特有の語彙によって提供される統計情報を使用して、実施されることができる。
注釈を簡略化するために、トピック特有の言語モデル及びトピック特有の語彙の組み合わせは、単に、トピック特有の語彙を含むトピック特有の「言語モデル」と称される。
完全な第2のスピーチ認識パス又はすでに生成された仮説のリスコアリングの双方のために、同じサウンディング(響き)を特徴としているが、かなり異なるつづり又は意味を有する語又は句が、セクションに対応付けられたトピック特有の言語モデルに記憶された統計情報を利用することによって、正しく識別されることができる。このようにして、誤った認識又は固有の曖昧さによるエラー率が、かなり低減されることができる。
例えば、スピーチのスピーチパターンが、第1又は第2の語に関係し、いずれかの語へのスピーチパターンのマッピングが、同じスコアリングを有するとき、方法は、2つの語のうちどちらが本セクションにおいて現れる可能性がより高いかを示すトピック特有の言語モデルによって提供される統計情報を参照する。
本発明の他の好適な実施例によれば、トピック特有の統計モデルのセクションに関する選択は、更に、テキストフォーマッティングプロシージャの知識源の役目を果たす。ここで、フォーマッティングは、選択された統計モデルによって提供される規則によって実施される。
対応付けられたフォーマッティング規則に基づいて、取得された(例えば最初に又は繰り返し認識された)テキストのフォーマッティングは、セクションに関して(セクションごとに)実施されることができる。数、テキストフォーマッティング又は句読点に関係する明確に口述されたコマンド、その他は、フォーマッティング規則のセクションに対応付けられたトピック特有の組によって提供される統計情報を使用することによって、正しく識別されることができる。このようにして、方法は、本質的に曖昧なテキスト部分の曖昧さをなくすために利用されることができるコンテクスト特有の統計情報を提供する。
このようにして、本発明の方法は、スピーチ認識及びテキストフォーマッティングプロシージャの両方に適用されることができ、文書内の各セクションについて、コンテント特有の統計情報を普遍的に利用する。
本発明の他の好適な実施例によれば、特有のトピックに対応付けられるテキストのセクションは、当該トピックに関連する統計モデル、すなわちトピック特有の言語モデル及び/又はトピック特有の語彙及び/又はトピック特有の規則を適応化するために使用される。これは、モデル及びそれらの統計情報が、訓練データに基づくだけでなく、本発明の適用を受けるテキスト及びテキストコンテントにあわせて適応化されることができることをも意味する。それゆえ、モデルは、対応付けられたテキストセクションの統計的解析を通じて永続的に訓練される。一方では、モデルが、文書の未知のタイプに適応化されることができ、他方では、スピーチ認識及び/又はテキストフォーマッティングプロシージャの性能及び信頼性が永続的に高まる。
本発明の他の好適な実施例によれば、すでに、第1のスピーチ認識プロセスは、言語モデルによって提供されるコンテクスト特有の情報を使用することができる。ここで、第1のステップにおいて、スピーチ認識プロセスは、スピーチの第1の部分を認識するために開始される。一般にほんの少数の語又はほんの少数の文章のみをカバーするスピーチのこの第1の部分は、基礎をなすセクションのコンテントについてすでに特徴的である。認識されたスピーチのこの第1の部分に基づいて、方法は、トピックを仮定し、スピーチの第1の部分に対応するテキストの第1の部分に、関連する言語モデルを対応付ける。
言語モデルの対応付けの後、同じ言語モデルが、続行するスピーチ認識のために使用される。言い換えると、方法は、セクションの最初の数個の特徴的な語又は文に基づいて、独特の言語モデルに切り替わる。このようにして、トピック特有の情報の利用を取り入れるスピーチ認識プロセス全体が、単一のスピーチ認識プロセスの間に実施されることができる。スピーチ認識又はテキストフォーマッティングの2つの連続するパスを使用する本発明の上述の実施例と比較して、言語モデルの仮定を取り入れるスピーチ認識のこの一体化された方法は、スピーチ認識のより正確ではないがより効率的なプロセスをもたらす。
本発明の他の好適な実施例によれば、更に、第1のテキストフォーマッティングプロシージャは、言語モデルによって提供されるコンテクスト特有の情報をすでに使用することができる。第1のテキストフォーマッティングプロシージャの間、本発明の方法は、トピックを仮定し、仮定されたトピックに関連するテキストフォーマッティング規則の組を更に使用する。更に、テキストフォーマッティングプロシージャは、コンテクスト特有のテキストフォーマッティングを実施するために規則のこの組に切り替わる。
本発明の他の好適な実施例によれば、統計モデルは、トピック特有のスピーチ認識パスを提供するために、トピック特有のスピーチ認識パラメータを更に含む。スピーチ認識パラメータとは、スピーチ認識パスに一般に関連し、スピーチ認識パスの適応化を指定するパラメータをさす。スピーチ認識パスの適応化とは、例えば発話速度の特有の設定、スピーチのトピック特有のサウンド適応化(例えば、或るトピックが、特有の音響条件下で口述される場合)、又はトピック特有の発音目録をさす。このようにして、トピック特有のディクテーション特性が、効果的に考慮されることができる。例えば、方法は、増減する口述スピードによって一般に口述される、独特のトピックに関係するスピーチ部分が、識別されるとき、異なる発話速度に適応化される。統計モデルによって提供されるこのようなスピード情報を利用することは、スピーチ認識パスの効率的なトピック特有の速度適応を可能にする。
以下、本発明の好適な実施例が、添付の図を参照することによって更に詳しく説明される。
テキストフォーマッティングを実施するためのフローチャート。 スピーチ認識を実施するためのフローチャート。 スピーチ認識プロセスをより詳しく表すフローチャート。 異なる言語モデルに対応付けられるセクションにセグメント化されたテキストのブロック図。 言語モデルのカスタマイゼーションのためのフローチャート。 一体化された言語モデル仮定によってスピーチ認識を実施するためのフローチャート。 スピーチ認識のためのコンピュータシステムのブロック図。
図1は、コンテクスト特有のフォーマッティング又はテキスト処理規則を使用することによって、テキストをフォーマットするためのフローチャートを示している。ステップ100において、完全に又は部分的に構造化されていないテキストが取得される。続くステップ102において、取得されたテキストが、自動的な構造化を受ける。この構造化は、例えば「Text segmentation and identification of topic using language models」というタイトルの米国特許第6,052,657号明細書に記載されるような標準の技法によって実施されることができる。文書構造化の別の改善された方法は、本出願人によって同時に出願された「Text segmentation and topic annotation for document structuring」というタイトルの特許出願明細書に開示されている。
ステップ102において実施されるテキストの構造化により、ステップ104において、適当な規則の組が、構造化されたテキストの各セクションについて選択される。ステップ102の構造化されたテキスト及びステップ104の適当な規則は、ステップ106に与えられ、ステップ106において、テキストフォーマッティングが実施される。ステップ106のテキストフォーマッティングは、セクションごとに達成される。テキストの各セクションは、選択された規則に従ってフォーマットされる。テキストフォーマッティングが、ステップ106において実施されたのち、フォーマットされたテキストが、ステップ108において提供される。これは、さまざまな異なるやり方で実施されることができ、例えば、ある種の記憶手段によってフォーマットされたテキストを記憶することによって、ある種のグラフィックディスプレイ又は投影手段によってテキストを示すことによって、又は印刷出力の形でテキストを再生することによって、実施される。
図2は、テキストの構造化及び言語モデルの対応付けを使用してスピーチ認識を実施するためのフローチャートを示している。第1のステップ200において、スピーチ信号が取得される。ステップ202において、このスピーチ信号に基づいて、第1のスピーチ認識パスが、実施される。この第1のスピーチ認識パスは、取得されたスピーチを逐語的にテキストに転写する通常のスピーチ認識に対応する。ステップ202において実施される第1のスピーチ認識パスの結果であるテキストは、次のステップ204に入力され、このステップ204において、テキストは、テキスト構造化を受けることになる。更にステップ204において、テキスト構造化及び各テキストセクションごとの適当な言語モデルの選択が、実施される。
注釈付き訓練コーパスに基づく言語モデルが、ステップ206によって、ステップ204に提供される。このようにして、ステップ204は、テキストのテキストセクションへの構造化を実施し、ステップ206によって提供される言語モデルのうちの1つを、テキストの各セクションに対して選択する。構造化及びテキストの各セクションに対する言語モデルの対応付けに基づいて、第2のスピーチ認識パスが、次のステップ208において実施される。ステップ208のこの第2のスピーチ認識パスは、スピーチ入力の完全な新しい認識、又はステップ202において実施された第1のスピーチ認識パスの間に生成されたさまざまな仮説のリスコアリングを含む。スピーチのセクションに対応付けられた言語モデルを使用することによって、ステップ208の第2のスピーチ認識パスは、正しいやり方でスピーチのパターンを識別するために、言語モデルによって提供される統計情報を明確に使用する。
第2のスピーチ認識パスが、ステップ208によって実施されたのち、転写されたテキストは、ある種の記憶手段によってテキストを記憶することによって、又は表示技法の助けを借りてテキストを視覚化することによって、ステップ210によって提供される。
図3は、本発明のスピーチ認識及び/又はテキストフォーマッティングプロシージャを説明するより詳しいフローチャートを示している。第1のステップ300において、テキストが、スピーチからテキストへの転写システムから又は任意のソースから取得される。ステップ302において、テキストの構造が、抽出される。訓練コーパスに基づく統計モデルが、ステップ304によって、ステップ302のテキスト構造抽出プロシージャに提供される。本実施例において、ステップ302において実施されるテキストの構造化は、ステップ304によって提供される統計モデルを明確に使用する。統計モデルは、更に、ステップ304によって、ステップ306にも提供される。ステップ302のテキスト構造化が実施されたのち、続くステップ306において、統計モデルが、テキストの各セクションに対応付けられる。テキストのセグメンテーションが実施されるスケールは、テキスト文書のより細かい又はより粗いセグメンテーションを指定する粒度(granularity)パラメータによって規定されることができる。粒度パラメータによって、セグメンテーションのレベルが、制御されることができる。
次のステップは、セクションに関するテキスト変更及び/又はスピーチ認識を記述する。ステップ308において、テキストの第1のセクション(i=1)が、選択される。インデックスiは、ステップ302のテキスト構造化に従う、テキストの単一のセクションを表す。第1のセクションが、ステップ308によって選択されたのち、モデルインデックスjを有する統計モデルが、セクションiに対応付けられる。統計モデルjの対応付けは、ステップ306においてすでに実施された統計モデル及びセクション間の対応付けに応じて、実施される。適当な統計モデルが、ステップ310において選択されたのち、方法は、ステップ312又は314を続ける。統計モデルは、改善されたスピーチ認識のための言語モデル及びテキストフォーマッティングのための規則の組をカバーするので、単一のステップが、ステップ312及び314において実施されるべきそれらの特有のタスクについて設計される適当な知識ベースを選択する。
ステップ312において、セクションiの第2のスピーチ認識パスが、統計モデルjからの言語モデルjによって実施される。対照的に、ステップ314において、セクションiのテキストフォーマッティングが、同じく統計モデルjからの規則の組jによって実施される。特にステップ312において実施されるコンテクスト特有の第2のスピーチ認識パスの場合、それぞれの言語モデルは、ステップ312のスピーチ認識パスにトピック特有の認識又はリスコアリング情報を提供するために、コンテクスト特有の語彙を提供する。ステップ312及び314において、選択された統計モデルjは、誤った認識又は誤った解釈によるテキスト内の誤りを取り除くために、明確に利用される。ステップ312のスピーチ認識又はステップ314のテキストフォーマッティングが実施されたのち、方法は、ステップ316を続ける。
ステップ316において、セクションiは、テキストの最後のセクションを表すimaxと比較される。ステップ316において、iがimaxより小さい場合、セクションインデックスiが、1だけインクリメントされ、方法は、ステップ310に戻る。他の場合、ステップ316においてセクションインデックスiがimaxに等しいとき、方法は、ステップ318において終わる。この最後のステップは、テキストの各セクションがスピーチ認識及び/又はテキストフォーマッティングを受けたとき、実施される。ステップ310の後、スピーチ認識が、ステップ312において実施されるか、又はテキストフォーマッティングプロシージャがステップ314において達成されるかは、ユーザによって、予め規定されるやり方で指定されなければならない。テキスト全体について、すなわちすべてのセクションi=1...imaxについて、方法は、ステップ312又はステップ314を実施し、これは、スピーチ認識又はテキストフォーマッティングが、テキストのセクションに対応付けられる統計モデルに基づいて実施されることを意味する。
代替例として、更に、ステップ314に記述されるテキストフォーマッティングステップがスピーチ認識ステップ312の後に続く組み合わせが考えられる。この場合、方法は、まず、ステップ312においてスピーチ認識を実施し、ステップ312からステップ314に連続的に切り替わり、ステップ314において、テキストフォーマッティングプロシージャが実施される。このケースでは、ステップ312からステップ314への切り替えは、テキストの当該セクションiに対応付けられる同じ統計モデルjに両方とも関連する、言語モデルと規則の組との間の切り替えを取り入れる。
図4は、テキスト400がセクション402、404...にセグメント化されているブロック図を示している。テキスト400の各セクション402、404は、統計モデルの組406、408に対応付けられる。このケースでは、第1のセクション402は、統計モデル406に対応付けられ、第2のセクション404は、統計モデル408に対応付けられる。統計モデル406、408の各々は、言語モデル410、416、第1の規則412、418、第2の規則414、420、及び詳しく指定されない他の規則を有する。それぞれの言語モデル410、416は、コンテクスト特有のスピーチ認識パスにトピック特有の認識又はリスコアリング情報を提供するために、コンテクスト特有の語彙を有する。
テキスト400の第1のセクション402に対応付けられる統計モデル406の第1の規則412は、例えば、セクション402内のいかなる数もデジットで表わされなければならないことを指定することができる。同様に、統計モデル406の言語モデル410が、テキスト400のセクション402について指定される。例えば、この第1のセクション402が、テキスト400の冒頭セクションを表すとき、統計モデル406の言語モデル410は、医用レポートの開始時に一般に道路及び/又は都市名が現れることを強調することが合理的である。同様に、統計モデル408が、テキスト400の第2のセクション404に対応付けられる。第2のセクション404が、医用レポート内の「理学的検査」セクションを表すとき、統計モデル408が、モデルのリストの中から選択され、この統計モデル408の言語モデル416は、「理学的検査」セクション404において一般に使用される多数の医学用語を提供する。
図5は、統計モデルの適応化のためのフローチャートを示している。第1のステップ500において、テキストは、ステップ502に提供され、ステップ502において、提供されたテキストのテキスト構造が抽出される。テキスト構造の抽出後、テキスト及び構造が、ステップ504に提供され、ステップ504において、適当なトピック特有のモデルの組が、構造化されたテキストの各セクションに対応付けられる。続くステップ506において、トピック特有のスピーチ認識及び/又はテキストフォーマッティングが、実施される。続くステップ507において、ユーザは、手動で変更を挿入し、又は実施された変更を好適にはアンドゥ(undo)機能によって拒否することによって、実施されたテキストフォーマッティング及び/又はスピーチ認識を手動で制御することができる。最終的に、最後のステップ508において、テキストの各セクションについて選択されたモデルが、現在セクションのコンテントに基づいて適応化され、それゆえ、現在セクションのコンテントが、変化のない訓練データに加えて活用される。従って、ステップ504は、モデル適応化が行われるステップ508に直接接続される。
更に、このモデル適応化は、スピーチ認識又はテキストフォーマッティングステップがステップ506において実施され、最終的な手動の補正がユーザによって取り入れられたのちに行われる。このようにして、統計モデルがステップ508において適応化される前に、最初のテキストにおいて得られる潜在的なエラーが、効果的に除去されることができる。ステップ508のこの適応化プロセスの間、独特のモデルの組に対応付けられるテキストのセクションは、他の統計データを取得するために統計学的に解析され、かかる他の統計データは、適当な統計モデルに組み込まれる。このようにして、モデルは、永続的に、適応化及び更なる訓練を受ける。
図6は、言語モデルの選択がスピーチ認識プロセスに組み込まれるフローチャートを示している。第1のステップ600において、スピーチ認識プロセスが開始される。次のステップ602において、p=1を有するスピーチの第1の部分が、選択される。ここで、pは、スピーチの部分のインデックスを表す。そののち、ステップ604において、スピーチの選択された部分pが、テキストの対応する部分tに転写される。この第1のテキスト部分tに基づいて、適当な、すなわち最も良く適合する言語モデルmが、ステップ606においてテキスト部分tに対応付けられる。このアプローチは、セクションの最初の数個の語又は文が、セクションのコンテントにとって特徴的であるという事実を有効に利用する。言語モデルmが、ステップ606において、テキスト部分tに対応付けられたのち、スピーチの次の部分p=p+1が、続くステップ608において選択される。
続くステップ610において、スピーチの次の部分pのスピーチ認識が、次のテキスト部分tを生成するために、ステップ606において選択される言語モデルmを使用することによって実施される。第1のスピーチ認識のような事前のいかなる処理もなく、スピーチは、適当な言語モデルを使用することによって直接認識される。次のステップ612において、スピーチ部分pのインデックスが、スピーチ信号内のスピーチの最後の部分を表すpmaxと比較される。ステップ612において、スピーチ部分pが、pmaxに等しいとき、方法は、ステップ616を続け、終了する。他の場合、ステップ612においてスピーチ部分pのインデックスがpmaxより小さいとき、方法は、ステップ614を続ける。
ステップ614において、方法は、スピーチの部分pから転写されたテキスト部分tが、なお、ステップ606において前のテキスト部分tに対応付けられた言語モデルmに「適合している」かどうかチェックする。言語モデルmが、なお、テキスト部分tに最も良く適合する言語モデルであるとき、方法は、ステップ608に戻り、ステップ608において、スピーチの次の部分p=p+1が選択される。対照的に、ステップ614において、より良く適合する他の言語モデルが、テキスト部分tについて見つけられると、方法は、ステップ606へ戻り、ステップ606において、最も良く適合する別の言語モデルmが、テキスト部分tに対応付けられる。言い換えると、ステップ614は、選択された言語モデルが、すべての提供される言語モデルの中で最も良くその瞬間のテキスト部分を記述しているかどうか、継続的にチェックする。このようにして、方法は、言語モデル遷移を取得するセクション境界を検出するようにカスタマイズされる。
スピーチのスピーチ部分への分割は、ユーザの好みに従って規定されることができる。これらの部分は、予め規定された時間間隔等によって指定されることができる。
図7は、言語モデル特有のスピーチ認識を実施するためのコンピュータシステムのブロック図を示している。コンピュータシステム700は、処理ユニット706、テキスト記憶モジュール708、セグメント化されたテキスト記憶モジュール710及び言語モデルモジュール712を有する。処理ユニット706は、更に、スピーチ702を受け取り、スピーチからテキストへの転写プロセスを実施し、結果的に、コンピュータシステム700から出力されるテキスト704をもたらす。スピーチ702が、処理ユニット706によって受け取られると、スピーチ702は、まず、通常のスピーチからテキストへの変換手段によって、構造化されていないテキストに逐語的に変換され、構造化されていないテキストは、モジュール708に記憶される。この最初のスピーチからテキストへの変換は、処理ユニット706によって実施される。モジュール710に記憶される構造化されたテキストを与える次のテキスト構造化のステップが、モジュール708に記憶された構造化されていないテキストに基づいて、処理ユニット706によって更に実施される。
更に、処理ユニット706は、モジュール710に記憶された構造化されたテキストの各セクションについて、言語モデルモジュール712によって提供される適当な言語モデルを選択する。テキストのセクションと言語モデルとの間の対応付けが、処理ユニット706によって実施されると、処理ユニットは、対応付けられたセクションに対してそれぞれの言語モデルによって提供される規則及び語彙を明確に使用することによって、第2のスピーチ認識プロセスを続ける。処理ユニット706によって更に実施されるこの第2のスピーチ認識プロセスの結果は、テキスト704の形でコンピュータシステムから出力される。この出力は、例えば電子ファイルシステムにファイルの形で、ある種の記憶手段によってテキストを記憶することによって実施されることができる。代替例として、生成されたテキスト704は、ある種の表示手段によって視覚的に示されることができ、又は印刷出力の形で再生されることができる。
従って、本発明は、トピック特有の言語モデル及び語彙並びにフォーマッティング又は解釈規則の形で、セクションに関連する情報を提供する統計モデルのコンテクスト特有の対応付けに従ってテキスト構造化を使用することによって、スピーチからテキストへの認識及びスピーチからテキストへの転写システムを改善するための効果的なアプローチを提供する。統計モデルは、注釈付き訓練データから集められる統計情報に基づいている。
なお、上記の実施形態について付記を下記する。
(付記1)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更する方法であって、
前記テキストを複数のセクションにセグメント化するステップと、
前記統計モデルの組のうちの1つを各セクションに対応付けるステップと、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するステップと、
を含む方法。
(付記2)前記テキスト変更プロシージャが、テキストフォーマッティングプロセスを含み、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロセスについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記1に記載の方法。
(付記3)前記テキストは、第1のスピーチ認識パスによって生成され、前記変更プロシージャは、各セクションに対応付けられる前記統計モデルの言語モデル及び/又はスピーチ認識パラメータを使用する、第2のスピーチ認識パスを含む、付記1に記載の方法。
(付記4)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記1乃至付記3のいずれか1項に記載の方法。
(付記5)統計モデルに対応付けられる前記セクションが、前記統計モデルを解析されたセクションに適応させるために、解析される、付記1乃至付記4のいずれか1項に記載の方法。
(付記6)訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写する方法であって、
スピーチの第1の部分を認識するためにスピーチ認識プロセスを始めるステップと、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの組のうち第1の言語モデルを選択し、前記スピーチの前記第1の部分に前記第1の言語モデルを対応付けるステップと、
前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続けるステップと、
前記スピーチの以降の部分が、前記第1の言語モデルよりも第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付けるステップと、
を含む方法。
(付記7)前記統計モデルは、更に、トピック特有のスピーチ認識パスを提供するために、トピック特有のスピーチ認識パラメータを含む、付記3乃至付記6のいずれか1項に記載の方法。
(付記8)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータシステムであって、
前記テキストを複数のセクションにセグメント化する手段と、
各セクションに前記統計モデルの組のうちの1つを対応付ける手段と、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施する手段と、
を有するコンピュータシステム。
(付記9)前記テキスト変更プロシージャを実施する前記手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記8に記載のコンピュータシステム。
(付記10)前記テキストは、第1のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記手段は、各セクションに対応付けられる前記統計モデルの言語モデル及び/又はスピーチ認識パラメータを使用して、第2のスピーチ認識パスを達成するように構成される、付記8に記載のコンピュータシステム。
(付記11)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記8乃至付記10のいずれか1項に記載のコンピュータシステム。
(付記12)統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられる前記セクションを解析する手段を更に有する、付記8乃至付記11のいずれか1項に記載のコンピュータシステム。
(付記13)訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータシステムであって、
スピーチ認識プロセスを始める手段であって、スピーチの第1の部分を認識するように構成される手段と、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの前記組のうち第1の言語モデルを選択する手段、及び 前記スピーチの前記第1の部分に前記第1の言語モデルを対応付ける手段と、
前記スピーチ認識プロセスを続ける手段であって、前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するように構成される手段と、
前記スピーチの以降の部分が、前記第1の言語モデルよりも第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付ける手段と、
を有するコンピュータシステム。
(付記14)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータプログラムであって、
前記テキストを複数のセクションにセグメント化するプログラム手段と、
各セクションに統計モデルの組のうちの1つを対応付け、前記セクションに対応付けられる統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するプログラム手段と、
を含むコンピュータプログラム。
(付記15)前記テキスト変更プロシージャを実施する前記プログラム手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記14に記載のコンピュータプログラム。
(付記16)前記テキストは、第1のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記プログラム手段は、各セクションに対応付けられる言語モデル及び/又はスピーチ認識パラメータを使用して、第2のスピーチ認識パスを達成するように構成される、付記15に記載のコンピュータプログラム。
(付記17)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記14乃至付記16のいずれか1項に記載のコンピュータプログラム。
(付記18)統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられるセクションを解析する手段を更に有する、付記14乃至付記17のいずれか1項に記載のコンピュータプログラム。
(付記19)訓練データに基づいて及び/又は手動のコーディングによって生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータプログラムであって、
スピーチの第1の部分を認識するために、スピーチ認識プロセスを始め、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの組のうち第1の言語モデルを選択し、前記スピーチの前記第1の部分に前記第1の言語モデルを対応付け、
前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続け、
前記スピーチの以降の部分が、前記第1の言語モデルより第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付ける、
ように構成されるプログラム手段を含む、コンピュータプログラム。
400 テキスト
402 セクション
404 セクション
406 統計モデル
408 統計モデル
410 言語モデル
412 規則
414 規則
416 言語モデル
418 規則
420 規則
700 コンピュータシステム
702 スピーチ
704 テキスト
706 処理ユニット
708 テキスト記憶モジュール
710 構造化されたテキスト記憶モジュール
712 言語モデルモジュール

Claims (17)

  1. トレーニングデータ及び/またはマニュアルコーディングに基づきそれぞれ生成された複数の統計モデルを用いてテキストを変更する、コンピュータで実施する方法であって、
    格納した命令を実行する処理ユニットを動作させて、前記テキストを複数のセクションにセグメント化する段階と、
    格納された命令を実行する処理ユニットを動作させて、前記セクションのテキストの分析に応じて、前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける段階と、
    格納した命令を実行する処理ユニットを用いて、各セクションに対してテキスト変更プロシージャを実行して、そのセクションに対応付けた統計モデルの規則と語彙とを用いて、そのセクションのテキストを変更する段階とを有する、方法。
  2. 前記テキスト変更プロシージャは、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを有する、請求項1に記載の方法。
  3. 第1の音声認識パスにより前記テキストを生成する段階をさらに有し、
    前記テキスト変更プロシージャは、各セクションに対応付けられた統計モデルの言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを有する、請求項1に記載の方法。
  4. 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項1ないし3いずれか一項に記載の方法。
  5. 前記統計モデルを対応付けたセクションを分析して、前記統計モデルを、分析したセクションに適応させる、請求項1ないし4いずれか一項に記載の方法。
  6. 前記統計モデルは、トピックに特有な音声認識パスを提供するために、トピックに特有な音声認識パラメータをさらに有する、請求項3ないし5いずれか一項に記載の方法。
  7. トレーニングデータ及びマニュアルコーディングにより生成した複数の統計モデルを用いてテキストを変更するコンピュータシステムであって、
    前記テキストを複数のセクションにセグメント化する手段と、
    前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける手段と、
    各セクションに対して、そのセクションに対応付けた統計モデルによりテキスト変更プロシージャを実行する手段と、を有するコンピュータシステム。
  8. 前記テキスト変更プロシージャを実行する手段は、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを実施するように構成されている、請求項7に記載のコンピュータシステム。
  9. 前記テキストは第1の音声認識パスにより生成され、
    前記テキスト変更プロシージャを実行する手段は、各セクションに対応付けられた統計モデルの言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを実施するように構成されている、請求項7に記載のコンピュータシステム。
  10. 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項7ないし9いずれか一項に記載のコンピュータシステム。
  11. 統計モデルをセクションに適応させるため、前記統計モデルを対応付けたセクションを分析する手段をさらに有する、請求項7ないし10いずれか一項に記載のコンピュータシステム。
  12. トレーニングデータにより生成された複数の言語モデルを用いて音声をテキストに変換するコンピュータシステムであって、
    音声の第1部分を認識するように構成された、音声認識プロセスを開始する手段と、
    認識した音声の第1部分に基づき前記複数の言語モデルのうちの第1の言語モデルを選択する手段と、前記音声の第1部分に、前記第1の言語モデルを対応付ける手段と、
    前記第1の言語モデルを利用して音声の後続の部分を認識するように構成された、前記音声認識プロセスを継続する手段と、
    音声の後続の部分が前記第1の言語モデルと比較して前記第2の言語モデルにより、より良くモデル化できる場合、第2の言語モデルを選択して、音声の後続の部分に前記第2の言語モデルを対応付ける手段と、を有する、コンピュータシステム。
  13. トレーニングデータ及びマニュアルコーディングにより生成した複数の統計モデルを用いてテキストを変更するコンピュータプログラム製品であって、
    前記コンピュータプログラム製品は、処理ユニットにより実行されると次の手段を提供する命令がエンコードされたコンピュータ読み取り可能媒体を有する:
    前記テキストを複数のセクションにセグメント化する手段と、
    前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける手段と、
    各セクションに対して、そのセクションに対応付けた統計モデルによりテキスト変更プロシージャを実行する手段。
  14. 前記テキスト変更プロシージャを実行するプログラム手段は、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを実行する、請求項14に記載のコンピュータプログラム製品。
  15. 前記テキストは第1の音声認識パスにより生成され、
    前記テキスト変更プロシージャを実行する手段は、各セクションに対応付けられた言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを実施するように構成されている、請求項14に記載のコンピュータプログラム製品。
  16. 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項13ないし15いずれか一項に記載のコンピュータプログラム製品。
  17. 統計モデルをセクションに適応させるため、前記統計モデルを対応付けたセクションを分析する手段をさらに有する、請求項13ないし15いずれか一項に記載のコンピュータプログラム製品。
JP2011106732A 2003-11-21 2011-05-11 テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル Expired - Fee Related JP5330450B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104314 2003-11-21
EP03104314.4 2003-11-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006540704A Division JP5255769B2 (ja) 2003-11-21 2004-11-12 テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Publications (2)

Publication Number Publication Date
JP2011186491A true JP2011186491A (ja) 2011-09-22
JP5330450B2 JP5330450B2 (ja) 2013-10-30

Family

ID=34610118

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006540704A Expired - Fee Related JP5255769B2 (ja) 2003-11-21 2004-11-12 テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP2011106732A Expired - Fee Related JP5330450B2 (ja) 2003-11-21 2011-05-11 テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2006540704A Expired - Fee Related JP5255769B2 (ja) 2003-11-21 2004-11-12 テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Country Status (4)

Country Link
US (1) US8041566B2 (ja)
EP (2) EP1687807B1 (ja)
JP (2) JP5255769B2 (ja)
WO (1) WO2005050621A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511733A (ja) * 2012-05-24 2015-04-20 三菱電機株式会社 テキストを分類する方法
JP2017167247A (ja) * 2016-03-15 2017-09-21 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US20050216256A1 (en) * 2004-03-29 2005-09-29 Mitra Imaging Inc. Configurable formatting system and method
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8473296B2 (en) 2005-12-08 2013-06-25 Nuance Communications, Inc. Method and system for dynamic creation of contexts
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
FR2902542B1 (fr) * 2006-06-16 2012-12-21 Gilles Vessiere Consultants Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US20100070263A1 (en) * 2006-11-30 2010-03-18 National Institute Of Advanced Industrial Science And Technology Speech data retrieving web site system
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8671104B2 (en) 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US20100145720A1 (en) * 2008-12-05 2010-06-10 Bruce Reiner Method of extracting real-time structured data and performing data analysis and decision support in medical reporting
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US8290273B2 (en) * 2009-03-27 2012-10-16 Raytheon Bbn Technologies Corp. Multi-frame videotext recognition
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US20110307252A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Using Utterance Classification in Telephony and Speech Recognition Applications
US8606581B1 (en) * 2010-12-14 2013-12-10 Nuance Communications, Inc. Multi-pass speech recognition
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US9053750B2 (en) 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
RU2500024C2 (ru) * 2011-12-27 2013-11-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного определения языка и (или) кодировки текстового документа
US9652452B2 (en) 2012-01-06 2017-05-16 Yactraq Online Inc. Method and system for constructing a language model
US8374865B1 (en) * 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9620111B1 (en) * 2012-05-01 2017-04-11 Amazon Technologies, Inc. Generation and maintenance of language model
WO2014018039A1 (en) * 2012-07-26 2014-01-30 Nuance Communications, Inc. Text formatter with intuitive customization
US9135231B1 (en) 2012-10-04 2015-09-15 Google Inc. Training punctuation models
KR20140116642A (ko) * 2013-03-25 2014-10-06 삼성전자주식회사 음성 인식 기반의 기능 제어 방법 및 장치
US9575958B1 (en) * 2013-05-02 2017-02-21 Athena Ann Smyros Differentiation testing
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US20140379334A1 (en) * 2013-06-20 2014-12-25 Qnx Software Systems Limited Natural language understanding automatic speech recognition post processing
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US10438581B2 (en) 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
US10515631B2 (en) * 2013-12-17 2019-12-24 Koninklijke Philips N.V. System and method for assessing the cognitive style of a person
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
WO2015199653A1 (en) * 2014-06-24 2015-12-30 Nuance Communications, Inc. Methods and apparatus for joint stochastic and deterministic dictation formatting
US10115394B2 (en) * 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
US20160098645A1 (en) * 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
US9502032B2 (en) 2014-10-08 2016-11-22 Google Inc. Dynamically biasing language models
US9858923B2 (en) 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10565986B2 (en) * 2017-07-20 2020-02-18 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US10672380B2 (en) 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
CN109979435B (zh) * 2017-12-28 2021-10-22 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
WO2019140027A1 (en) * 2018-01-10 2019-07-18 Takeda Pharmaceutical Company Limited Method and system for managing clinical trial participation
US11514914B2 (en) * 2019-02-08 2022-11-29 Jpmorgan Chase Bank, N.A. Systems and methods for an intelligent virtual assistant for meetings
US11257484B2 (en) * 2019-08-21 2022-02-22 Microsoft Technology Licensing, Llc Data-driven and rule-based speech recognition output enhancement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221898A (ja) * 1985-03-27 1986-10-02 株式会社東芝 金銭登録機
JPH03104295U (ja) * 1990-02-07 1991-10-29
JPH0926963A (ja) * 1995-06-07 1997-01-28 At & T Ipm Corp テキスト分類器をトレーニングする方法及び装置
JP2001166790A (ja) * 1999-12-09 2001-06-22 Nippon Hoso Kyokai <Nhk> 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2003123149A (ja) * 2001-10-16 2003-04-25 East Japan Railway Co 簡易式カード決済システム、ならびにそのプログラム、および記録媒体
JP2004199680A (ja) * 2002-12-16 2004-07-15 Xerox Corp トピックベースのインタラクティブなテキストの要約を表示するシステムと方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623679A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects
US5623681A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. Method and apparatus for synchronizing, displaying and manipulating text and image documents
US6279017B1 (en) * 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6104989A (en) 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6327561B1 (en) * 1999-07-07 2001-12-04 International Business Machines Corp. Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20030018668A1 (en) * 2001-07-20 2003-01-23 International Business Machines Corporation Enhanced transcoding of structured documents through use of annotation techniques
US20040189713A1 (en) * 2001-10-31 2004-09-30 Metacyber.Net Computer-based user interface for a memory-resident rapid comprehension document for original source information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221898A (ja) * 1985-03-27 1986-10-02 株式会社東芝 金銭登録機
JPH03104295U (ja) * 1990-02-07 1991-10-29
JPH0926963A (ja) * 1995-06-07 1997-01-28 At & T Ipm Corp テキスト分類器をトレーニングする方法及び装置
JP2001166790A (ja) * 1999-12-09 2001-06-22 Nippon Hoso Kyokai <Nhk> 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2003123149A (ja) * 2001-10-16 2003-04-25 East Japan Railway Co 簡易式カード決済システム、ならびにそのプログラム、および記録媒体
JP2004199680A (ja) * 2002-12-16 2004-07-15 Xerox Corp トピックベースのインタラクティブなテキストの要約を表示するシステムと方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511733A (ja) * 2012-05-24 2015-04-20 三菱電機株式会社 テキストを分類する方法
JP2017167247A (ja) * 2016-03-15 2017-09-21 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US10535337B2 (en) 2016-03-15 2020-01-14 Panasonic Intellectual Property Management Co., Ltd. Method for correcting false recognition contained in recognition result of speech of user

Also Published As

Publication number Publication date
EP1687807B1 (en) 2016-03-16
EP1687807A2 (en) 2006-08-09
JP2007512608A (ja) 2007-05-17
US8041566B2 (en) 2011-10-18
WO2005050621A2 (en) 2005-06-02
WO2005050621A3 (en) 2005-10-27
JP5255769B2 (ja) 2013-08-07
EP2506252A2 (en) 2012-10-03
JP5330450B2 (ja) 2013-10-30
EP2506252A3 (en) 2012-11-28
EP2506252B1 (en) 2019-06-05
US20070271086A1 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP6550068B2 (ja) 音声認識における発音予測
US7424427B2 (en) Systems and methods for classifying audio into broad phoneme classes
CN112397091B (zh) 中文语音综合评分及诊断系统和方法
US7315811B2 (en) System and method for accented modification of a language model
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US7584103B2 (en) Automated extraction of semantic content and generation of a structured document from speech
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
US11935523B2 (en) Detection of correctness of pronunciation
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
CN109300468B (zh) 一种语音标注方法及装置
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
Wutiwiwatchai et al. Phonetically Distributed Continuous Speech Corpus for Thai Language.
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
CN116434779A (zh) 语言学习系统
CN116434780A (zh) 具备多读音纠错功能的语言学习系统
JP2003345372A (ja) 音声合成装置及び音声合成方法
Arvidsson et al. Automatic Speech Recognition for Swedish language

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121107

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130725

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees