JP2007512608A

JP2007512608A - テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Info

Publication number: JP2007512608A
Application number: JP2006540704A
Authority: JP
Inventors: ヨヒェンペテルス; エフゲニーマトゥソフ; カルステンメイアー; ディートリヒクラコヴ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-21
Filing date: 2004-11-12
Publication date: 2007-05-17
Anticipated expiration: 2024-11-12
Also published as: JP2011186491A; US20070271086A1; EP2506252A3; JP5330450B2; WO2005050621A3; EP2506252B1; US8041566B2; EP1687807A2; EP1687807B1; EP2506252A2; WO2005050621A2; JP5255769B2

Abstract

本発明は、トピック特有の統計モデルを使用することによってスピーチ認識及び／又はテキストフォーマッティングを行うための方法、コンピュータシステム及びコンピュータプログラムに関する。第１のスピーチ認識パスから取得されうるテキスト文書は、セグメント化され、それぞれの取得されたセクションごとにトピック特有のモデルの対応付けを施される。モデルの組の中の各モデルは、例えば句読点、フォーマッティング、テキスト強調表示のためのコマンド、又は特有のフォーマッティングを必要とする曖昧なテキスト部分の解釈、認識されたテキストの各セクションにとって特徴的な特有の語彙、のようなテキスト処理又はフォーマッティング規則、言語モデル蓋然性についての統計情報を提供する。更に、スピーチ認識及び／又はフォーマッティングシステムの他の特性（例えば発話速度の設定）が、統計モデルにおいて符号化されることができる。モデルは、注釈付き訓練データに基づいて及び／又は手動のコーディングによって、それ自体生成される。テキストのセクションに対するモデルの対応付けに基づいて、改善されたスピーチ認識及び／又はテキストフォーマッティングプロシージャが、実施される。

Description

本発明は、自動のテキストフォーマッティング及びスピーチ認識の分野に関する。スピーチ認識及びテキストフォーマッティングの両方のプロセスは、例えば注釈付き訓練データに基づいて生成される言語モデル及びフォーマッティング規則のような、トピック特有の統計モデルを使用する。

記録されたスピーチ信号をマシン処理可能なテキストに変換するスピーチ認識及びスピーチ転写システムは、例えば医療分野及び法律業務において広く普及している。話されたディクテーションは、スピーチからテキストへの転写システムに、スピーチ信号の形で入力される。スピーチからテキストへの転写システムは、スピーチ信号を解析し、認識されたスピーチパターンを、対応するテキストブロックに変換する。スピーチパターンとテキストブロックとの間の対応付けは、ユーザの好みにあわせてカスタマイズされることができるデータベースによって、提供される。法律業務におけるディクテーションの語彙は、医用レポートに関係するディクテーションの語彙とは著しく異なるので、スピーチからテキストへの転写システムの適用分野に関連するデータベースの適当な組のみをスピーチからテキストへの転写システムに供給することが、合理的である。

しかしながら、一般に、スピーチからテキストへの転写システムから最終的に出力されるテキストは、予め規定された標準を満たさない。例えば、テキスト部分の句読点、フォーマッティング又は強調表示に関係する口述されたコマンドは、システムによって逐語的に転写される代わりに、解釈される必要がある。この場合、句読点コマンドの「終止符」は認識され、「．（ピリオド）」と置き換えられなければならない。解釈、文章の明確化（disambiguation）及びフォーマッティングタスクの他の例が、ディクテーション内の数の処理について与えられることができる。

コンテクストに依存して、数は、デジット、列挙（enumerarion）、日付等として又は逐語的な語として、転写されなければならない。例えば、「第２のコロン（number two colon）」、「アスピリン２錠（two tablets of Aspirin）」及び「これらの２つの所見（these two findings）」なる表現における「２（two）」は、それぞれ、列挙、デジット又は逐語的な語の「２」としてフォーマットされなければならない。曖昧なテキスト部分のフォーマッティング又は解釈についてのこの決定は、結局は、異なる文書タイプ又は文書の異なる部分に特有のさまざまなフォーマッティング標準を取り入れて、コンテクストに依存するやり方でのみ行われることができる。しかしながら、自動スピーチ転写システムは、入力スピーチについての洗練されたコンテクスト特有の知識に欠けているので、転写された原稿は、人間の校正者による注意深い校正を常に必要とし、これは、かなり時間がかかり、コスト集約的である。

最も一般的には、テキスト文書は、文書のコンテントの展開を記述する文書構造を含む。例えば、医用レポートは、一般に、人口統計学的なヘッダ、家族歴、放射線科、理学的検査、投薬のようにセクションにセグメント化される。これらのセクションの各々は、或るテキストフォーマッティング又はテキスト解釈規則が適用される独特のコンテントに関係する。例えば、医用レポートの開始セクションでは、口述される数（number）がデジットで書かれなければならない日付、アドレス又は生年月日に関係している蓋然性は、デジットが「患者履歴」セクションに現れる蓋然性よりも非常に高い。更に、「人口統計学的なヘッダ」セクションにおいて、数がデジットでフォーマットされる蓋然性は、数が逐語的な語としてフォーマットされる蓋然性よりも高い。従って、この知識は、例えば例示の数のように、曖昧なイベントについて最も可能性のあるフォーマッティングスタイルに有利な決定を下すのを助ける。

通常のスピーチ認識及びテキストフォーマッティングプロシージャは、いかなる種類のコンテクスト特有の専門技術をも特徴とせず、処理されているセクション又は文書の（意味論上の）コンテントについての知識も利用しないので、曖昧なテキスト部分に関係し、これらのプロシージャによって実施される、認識及び／又はフォーマッティングに関する重要な決定は、一般に、高いエラー率を示す。

米国特許第６，０５２，６５７号明細書は、テキストストリームをセグメント化し、テキストストリームのトピックを識別する技法を開示している。この技法は、一連のセクションを表す一組の訓練テキストを入力として利用するクラスタリング方法を用いている。ここで、セクションは、単一のトピックを扱う連続する文章ストリームである。クラスタリング方法は、入力テキストのセクションを、指定された数のクラスタに分けるように設計される。異なるクラスタは、異なるトピックを扱う。

上述の技法は、複数の言語モデルを使用して、一連のテキストブロック（例えば文章）で構成されるテキストストリームを、セグメントに区分することを特徴とする。このセグメンテーションは、２つのステップで行われる。第１に、それぞれのテキストブロックは、１つのクラスタ言語モデルに対応付けられる。そののち、テキストセクション（セグメント）が、同じクラスタ言語モデルに対応付けられた連続するテキストブロックから決定される。

第２のステップにおいて、テキストストリームのセグメントの境界が、選択された一連の言語モデルにおける言語モデルの変化、すなわちトピック遷移に対応して、識別される。

テキストセグメンテーション及びトピック注釈は、本出願人によって同時に出願されている「Text segmentation and topic annotation for document structuring」というタイトルの特許出願明細書によって与えられている。この明細書には、テキスト発行の蓋然性、トピックシーケンスの蓋然性、トピック位置の蓋然性及びセクション長の蓋然性を考慮に入れるテキストセグメンテーション及びトピック注釈プロシージャが記載されている。このようにして、訓練コーパスによって提供されるさまざまな統計情報が、改善されたテキストセグメンテーション及び文書構造化のために、抽出され、効果的に利用されることができる。

しかしながら、これらの技法は、テキストセクションを取り出し、識別し、これらのテキストセクションとコンテクスト特有のトピックとの関連付けを提供するが、集められたコンテクスト特有の及び／又は構造的な情報を更には使用しない。

本発明の目的は、テキスト又はスピーチ入力のコンテクスト特有の及び／又は構造的な情報を明確に使用することによって、スピーチ認識及びテキストフォーマッティングの改善された方法を提供することである。

本発明は、訓練データに基づいて生成される例えば言語モデル又はテキスト処理（フォーマッティング）規則のような複数の統計モデルを使用することによって、テキストを変更する方法を提供する。方法は、テキストを複数のセクションにセグメント化するステップと、各セクションに複数の統計モデルのうちの１つの統計モデルを対応付けるステップと、セクションに対応付けられる統計モデルに関して、各セクションごとにテキスト変更プロシージャを最終的に実施するステップと、を含む。

本発明の好適な実施例によれば、テキストのセクションに対応付けられる統計モデルは、各セクションに特有の独特のテキストフォーマッティング規則を記述するテキストフォーマッティング規則の組を提供する。それぞれの統計モデルは、テキストのコンテント依存のトピックに関係する。例えば、テキストの或るセクションが、冒頭セクションとして識別されると、この冒頭セクションは、このセクションのコンテントを示すトピックに対応付けられ、すなわち、当該セクションは、テキストの冒頭部分に関係する。加えて、複数の統計モデルの各々は、コンテント特有のトピックに対応付けられている。統計モデル及びテキストセクションの間の確立された相関関係に依存して、テキスト変更プロシージャは、それぞれのテキストセクションに対応付けられる統計モデルによって提供されるテキストフォーマッティング規則に基づいて、セクションに関するテキストフォーマッティングプロシージャを実施する。

医用レポートの冒頭セクションの上述の例の場合、フォーマッティング規則のこの組は、この特定のテキストセクション内で認識されるそれぞれの数が、デジットで転写されなければならないことを指定するフォーマッティング規則を提供することができる。文書の冒頭セクション内に日付又はアドレスの数が現れる蓋然性は、数が逐語的な語によって転写されなければならない蓋然性よりも非常に高いので、このようなフォーマッティング規則は合理的である。例えば「所見」のような他のセクションに関しては、列挙が、このようなセクションにおいてより頻繁に見られるので、数についての好適なフォーマッティング規則は、数を列挙として転写することを規定することができる。当然ながら、それぞれの規則は、他のコンテント依存を有することもでき、それゆえ、すべての数が、トピックごとに同じように処理されなければならないわけではない。従って、上述の例は、例外を有することができる「デフォルト規則」として考えられるべきである。

本発明の他の好適な実施例によれば、「統計モデル」なる語は、スピーチ認識及び／又はフォーマッティングのために使用されるいかなる知識源（ナレッジソース）をも意味する。テキストフォーマッティング規則に加えて、統計モデルは、更に、それぞれのテキストセクションについて特徴的である語又は句の統計情報を提供する言語モデルを含む。更に、言語モデルは、それぞれのテキストセクションについて特徴的である語又は語の組を提供するトピック特有の語彙を使用する。例えば、医用レポートの冒頭セクションについて特に訓練される統計モデルは、この冒頭セクションにおいて使用される一般の語又はフォーミュレーションついての情報を符号化する。その上、特有の語彙は、更に、このようなセクションにおいて期待される語についての事前の知識を改善し、従って、なんらかの未知の語を逃し又は誤って認識する可能性が低減される。例えば、医用レポートの開始セクションに道路又は都市名が現れる尤度は、例えば医学的処置に関する他のセクションと比較して非常に高いので、医用レポートの冒頭セクションに対して指定される統計モデルの言語モデルは、一般に、道路及び都市名の組を提供する。

すべての統計モデルは、注釈付き訓練データに基づいて訓練される。更に、規則又は言語モデルのいくつかの組が、任意には、訓練データから導き出される統計学的な重みによって、手動で設計されることができる。それぞれのモデル又は規則の訓練プロセスの間、訓練コーパスが、統計学的に評価される。このようにして、文書の冒頭セクションに対して指定される言語モデルは、このようなセクションにおいて期待される語又は句の蓋然性に特有であり、規則の組は、このようなセクションに適用されなければならない独特のフォーマッティング規則を指定する。言語モデルの訓練は、従来技術において知られており、例えば米国特許第６，１８８，９７６Ｂ１号明細書に記載の「apparatus and method for building domain specific language models」に従って実施されることができる。

語彙のようななんらかの構成要素又はなんらかのフォーマッティング規則は、例えば訓練コーパスにおける語数のような統計情報に基づいて導き出されることができるが、一旦それらが生成されると、「統計的な性質」に欠けることがありうる。更に、「「終止符」の各出現を「．（ピリオド）」に変換する（convert each occurrence of 'full stop' to '.'）」のようないくつかの規則は、統計的な証拠なしで、手動で設計されることができる。いずれにせよ、ここでは、統計モデルのいずれかが統計的な性質をもたない場合であっても、知識源のいかなる組も「統計モデル」と呼ばれる。

本発明の他の好適な実施例によれば、変更を受けるテキストは、スピーチからテキストへの転写システムから取得され、一般に、話されたディクテーションから逐語的に転写される、語の構造化されていない１つの大きいストリームを特徴とする。テキストセグメンテーション技法を使用することによって、取得されたテキストの構造が、関連する情報をテキストの各セクションに対応付けるために抽出される。より具体的には、認識されたテキストは、セクションにセグメント化され、各セクションは、例えばトピック依存の言語モデル及び／又はテキスト処理規則のような統計モデルに関連付けられるトピックに対応付けられる。これらのモデルの各々は、テキストの異なるセクションに特有であり、すなわち、それぞれの言語モデル又は規則の組は、テキストセクションに対応付けられたコンテント依存のトピックにあわせてカスタマイズされる。

第１のスピーチ認識パスから生成されるテキストのセグメンテーションが実施され、適当なモデルの各テキストセクションに対する対応付けが達成されると、テキスト変更プロシージャが、セクションに対応付けられているモデルに関して、各セクションごとに実施されることができる。第２の認識パスは、認識エラーを除去することができ、関連付けられた規則によるセクションに関するフォーマッティングは、トピックに影響されないフォーマッティング又はテキスト処理と比較して、結果を改善することができる。

本発明の他の好適な実施例によれば、変更を受けるテキストは、転写パスとしても表わされる第１のスピーチ転写プロセスによって生成される。第１のスピーチ認識及び転写パスの間、スピーチ入力は、通常のやり方で、逐語的にテキストに転写される。この第１のスピーチ認識及び転写パスの間、多くの認識エラーが生じるものとされることができる。結果として得られる部分的に誤ったテキストは、セクションにセグメント化され、それぞれのセクションは、特有の言語モデルに関連付けられる特有のトピックに対応付けられる。

テキスト変更プロシージャは、各セクションに対応付けられる言語モデルを明確に使用することによる第２のスピーチ認識パスを含む。この第２のスピーチ認識パスは、セクションに関して（section-wise）実施され、すなわち、テキストの各セクションごとに、適当な言語モデルが選択され、選択された言語モデルによる蓋然性が、第１のスピーチ認識パスの間に生じるエラーを除去するために、第２のスピーチ認識パスの間に適用される。

トピック特有のモデルのこのセクションに関する対応付けの目標は、２つの部分を有する：特有の言語モデル及び／又は語彙を使用して、第１のパスの認識は、第２のパスにおいて改善されることができる。その上、トピック特有のテキスト処理規則の使用は、当該トピックにあてはまる特定のフォーマッティングタスクにより良く焦点をあてることを可能にする。同じ生テキストが、局所的なコンテント又はトピックに依存して異なるやり方でフォーマットされる場合、局所的な「正しい」モデルの使用が、１又は別のフォーマッティング動作が実施されるべきであるかどうかの曖昧さをなくす助けとなる。

従って、本発明の方法は、スピーチ認識プロセスに局所的なトピック情報を提供するための効果的な方法を表す。従って、誤った認識を起こしやすく、通常は人間の専門技術を必要とする曖昧なテキスト部分に関する決定が、音声認識システムによって自動的に実施されることができる。

本発明の他の好適な実施例によれば、セクションに対応付けられるそれぞれの統計モデルは、トピック特有の語彙を有する。このようにして、スピーチ認識は、認識されることができる語のコンテクスト依存の組を利用することによっても改善されることができる。例えば、医用レポートの冒頭セクション用にカスタマイズされている語彙は、レポートの他のセクションにおいてはあまり現れそうにない、例えば道路名又は都市名のような住所に一般に使用される語のリストを提供することができる。注意深く適応されたトピック特有の語のリストは、未知の語の数を低減し、語の混乱の尤度をかなり低減することができる。

完全な第２の認識パスに代わるものとして、第１の認識パスの間に生成される多数のテキスト仮説（hypotheses）のリスコアリングが、トピック特有の言語モデルによって及び／又はトピック特有の語彙によって提供される統計情報を使用して、実施されることができる。

注釈を簡略化するために、トピック特有の言語モデル及びトピック特有の語彙の組み合わせは、単に、トピック特有の語彙を含むトピック特有の「言語モデル」と称される。

完全な第２のスピーチ認識パス又はすでに生成された仮説のリスコアリングの双方のために、同じサウンディング（響き）を特徴としているが、かなり異なるつづり又は意味を有する語又は句が、セクションに対応付けられたトピック特有の言語モデルに記憶された統計情報を利用することによって、正しく識別されることができる。このようにして、誤った認識又は固有の曖昧さによるエラー率が、かなり低減されることができる。

例えば、スピーチのスピーチパターンが、第１又は第２の語に関係し、いずれかの語へのスピーチパターンのマッピングが、同じスコアリングを有するとき、方法は、２つの語のうちどちらが本セクションにおいて現れる可能性がより高いかを示すトピック特有の言語モデルによって提供される統計情報を参照する。

本発明の他の好適な実施例によれば、トピック特有の統計モデルのセクションに関する選択は、更に、テキストフォーマッティングプロシージャの知識源の役目を果たす。ここで、フォーマッティングは、選択された統計モデルによって提供される規則によって実施される。

対応付けられたフォーマッティング規則に基づいて、取得された（例えば最初に又は繰り返し認識された）テキストのフォーマッティングは、セクションに関して（セクションごとに）実施されることができる。数、テキストフォーマッティング又は句読点に関係する明確に口述されたコマンド、その他は、フォーマッティング規則のセクションに対応付けられたトピック特有の組によって提供される統計情報を使用することによって、正しく識別されることができる。このようにして、方法は、本質的に曖昧なテキスト部分の曖昧さをなくすために利用されることができるコンテクスト特有の統計情報を提供する。

このようにして、本発明の方法は、スピーチ認識及びテキストフォーマッティングプロシージャの両方に適用されることができ、文書内の各セクションについて、コンテント特有の統計情報を普遍的に利用する。

本発明の他の好適な実施例によれば、特有のトピックに対応付けられるテキストのセクションは、当該トピックに関連する統計モデル、すなわちトピック特有の言語モデル及び／又はトピック特有の語彙及び／又はトピック特有の規則を適応化するために使用される。これは、モデル及びそれらの統計情報が、訓練データに基づくだけでなく、本発明の適用を受けるテキスト及びテキストコンテントにあわせて適応化されることができることをも意味する。それゆえ、モデルは、対応付けられたテキストセクションの統計的解析を通じて永続的に訓練される。一方では、モデルが、文書の未知のタイプに適応化されることができ、他方では、スピーチ認識及び／又はテキストフォーマッティングプロシージャの性能及び信頼性が永続的に高まる。

本発明の他の好適な実施例によれば、すでに、第１のスピーチ認識プロセスは、言語モデルによって提供されるコンテクスト特有の情報を使用することができる。ここで、第１のステップにおいて、スピーチ認識プロセスは、スピーチの第１の部分を認識するために開始される。一般にほんの少数の語又はほんの少数の文章のみをカバーするスピーチのこの第１の部分は、基礎をなすセクションのコンテントについてすでに特徴的である。認識されたスピーチのこの第１の部分に基づいて、方法は、トピックを仮定し、スピーチの第１の部分に対応するテキストの第１の部分に、関連する言語モデルを対応付ける。

言語モデルの対応付けの後、同じ言語モデルが、続行するスピーチ認識のために使用される。言い換えると、方法は、セクションの最初の数個の特徴的な語又は文に基づいて、独特の言語モデルに切り替わる。このようにして、トピック特有の情報の利用を取り入れるスピーチ認識プロセス全体が、単一のスピーチ認識プロセスの間に実施されることができる。スピーチ認識又はテキストフォーマッティングの２つの連続するパスを使用する本発明の上述の実施例と比較して、言語モデルの仮定を取り入れるスピーチ認識のこの一体化された方法は、スピーチ認識のより正確ではないがより効率的なプロセスをもたらす。

本発明の他の好適な実施例によれば、更に、第１のテキストフォーマッティングプロシージャは、言語モデルによって提供されるコンテクスト特有の情報をすでに使用することができる。第１のテキストフォーマッティングプロシージャの間、本発明の方法は、トピックを仮定し、仮定されたトピックに関連するテキストフォーマッティング規則の組を更に使用する。更に、テキストフォーマッティングプロシージャは、コンテクスト特有のテキストフォーマッティングを実施するために規則のこの組に切り替わる。

本発明の他の好適な実施例によれば、統計モデルは、トピック特有のスピーチ認識パスを提供するために、トピック特有のスピーチ認識パラメータを更に含む。スピーチ認識パラメータとは、スピーチ認識パスに一般に関連し、スピーチ認識パスの適応化を指定するパラメータをさす。スピーチ認識パスの適応化とは、例えば発話速度の特有の設定、スピーチのトピック特有のサウンド適応化（例えば、或るトピックが、特有の音響条件下で口述される場合）、又はトピック特有の発音目録をさす。このようにして、トピック特有のディクテーション特性が、効果的に考慮されることができる。例えば、方法は、増減する口述スピードによって一般に口述される、独特のトピックに関係するスピーチ部分が、識別されるとき、異なる発話速度に適応化される。統計モデルによって提供されるこのようなスピード情報を利用することは、スピーチ認識パスの効率的なトピック特有の速度適応を可能にする。

以下、本発明の好適な実施例が、添付の図を参照することによって更に詳しく説明される。

図１は、コンテクスト特有のフォーマッティング又はテキスト処理規則を使用することによって、テキストをフォーマットするためのフローチャートを示している。ステップ１００において、完全に又は部分的に構造化されていないテキストが取得される。続くステップ１０２において、取得されたテキストが、自動的な構造化を受ける。この構造化は、例えば「Text segmentation and identification of topic using language models」というタイトルの米国特許第６，０５２，６５７号明細書に記載されるような標準の技法によって実施されることができる。文書構造化の別の改善された方法は、本出願人によって同時に出願された「Text segmentation and topic annotation for document structuring」というタイトルの特許出願明細書に開示されている。

ステップ１０２において実施されるテキストの構造化により、ステップ１０４において、適当な規則の組が、構造化されたテキストの各セクションについて選択される。ステップ１０２の構造化されたテキスト及びステップ１０４の適当な規則は、ステップ１０６に与えられ、ステップ１０６において、テキストフォーマッティングが実施される。ステップ１０６のテキストフォーマッティングは、セクションごとに達成される。テキストの各セクションは、選択された規則に従ってフォーマットされる。テキストフォーマッティングが、ステップ１０６において実施されたのち、フォーマットされたテキストが、ステップ１０８において提供される。これは、さまざまな異なるやり方で実施されることができ、例えば、ある種の記憶手段によってフォーマットされたテキストを記憶することによって、ある種のグラフィックディスプレイ又は投影手段によってテキストを示すことによって、又は印刷出力の形でテキストを再生することによって、実施される。

図２は、テキストの構造化及び言語モデルの対応付けを使用してスピーチ認識を実施するためのフローチャートを示している。第１のステップ２００において、スピーチ信号が取得される。ステップ２０２において、このスピーチ信号に基づいて、第１のスピーチ認識パスが、実施される。この第１のスピーチ認識パスは、取得されたスピーチを逐語的にテキストに転写する通常のスピーチ認識に対応する。ステップ２０２において実施される第１のスピーチ認識パスの結果であるテキストは、次のステップ２０４に入力され、このステップ２０４において、テキストは、テキスト構造化を受けることになる。更にステップ２０４において、テキスト構造化及び各テキストセクションごとの適当な言語モデルの選択が、実施される。

注釈付き訓練コーパスに基づく言語モデルが、ステップ２０６によって、ステップ２０４に提供される。このようにして、ステップ２０４は、テキストのテキストセクションへの構造化を実施し、ステップ２０６によって提供される言語モデルのうちの１つを、テキストの各セクションに対して選択する。構造化及びテキストの各セクションに対する言語モデルの対応付けに基づいて、第２のスピーチ認識パスが、次のステップ２０８において実施される。ステップ２０８のこの第２のスピーチ認識パスは、スピーチ入力の完全な新しい認識、又はステップ２０２において実施された第１のスピーチ認識パスの間に生成されたさまざまな仮説のリスコアリングを含む。スピーチのセクションに対応付けられた言語モデルを使用することによって、ステップ２０８の第２のスピーチ認識パスは、正しいやり方でスピーチのパターンを識別するために、言語モデルによって提供される統計情報を明確に使用する。

第２のスピーチ認識パスが、ステップ２０８によって実施されたのち、転写されたテキストは、ある種の記憶手段によってテキストを記憶することによって、又は表示技法の助けを借りてテキストを視覚化することによって、ステップ２１０によって提供される。

図３は、本発明のスピーチ認識及び／又はテキストフォーマッティングプロシージャを説明するより詳しいフローチャートを示している。第１のステップ３００において、テキストが、スピーチからテキストへの転写システムから又は任意のソースから取得される。ステップ３０２において、テキストの構造が、抽出される。訓練コーパスに基づく統計モデルが、ステップ３０４によって、ステップ３０２のテキスト構造抽出プロシージャに提供される。本実施例において、ステップ３０２において実施されるテキストの構造化は、ステップ３０４によって提供される統計モデルを明確に使用する。統計モデルは、更に、ステップ３０４によって、ステップ３０６にも提供される。ステップ３０２のテキスト構造化が実施されたのち、続くステップ３０６において、統計モデルが、テキストの各セクションに対応付けられる。テキストのセグメンテーションが実施されるスケールは、テキスト文書のより細かい又はより粗いセグメンテーションを指定する粒度（granularity）パラメータによって規定されることができる。粒度パラメータによって、セグメンテーションのレベルが、制御されることができる。

次のステップは、セクションに関するテキスト変更及び／又はスピーチ認識を記述する。ステップ３０８において、テキストの第１のセクション（ｉ＝１）が、選択される。インデックスｉは、ステップ３０２のテキスト構造化に従う、テキストの単一のセクションを表す。第１のセクションが、ステップ３０８によって選択されたのち、モデルインデックスｊを有する統計モデルが、セクションｉに対応付けられる。統計モデルｊの対応付けは、ステップ３０６においてすでに実施された統計モデル及びセクション間の対応付けに応じて、実施される。適当な統計モデルが、ステップ３１０において選択されたのち、方法は、ステップ３１２又は３１４を続ける。統計モデルは、改善されたスピーチ認識のための言語モデル及びテキストフォーマッティングのための規則の組をカバーするので、単一のステップが、ステップ３１２及び３１４において実施されるべきそれらの特有のタスクについて設計される適当な知識ベースを選択する。

ステップ３１２において、セクションｉの第２のスピーチ認識パスが、統計モデルｊからの言語モデルｊによって実施される。対照的に、ステップ３１４において、セクションｉのテキストフォーマッティングが、同じく統計モデルｊからの規則の組ｊによって実施される。特にステップ３１２において実施されるコンテクスト特有の第２のスピーチ認識パスの場合、それぞれの言語モデルは、ステップ３１２のスピーチ認識パスにトピック特有の認識又はリスコアリング情報を提供するために、コンテクスト特有の語彙を提供する。ステップ３１２及び３１４において、選択された統計モデルｊは、誤った認識又は誤った解釈によるテキスト内の誤りを取り除くために、明確に利用される。ステップ３１２のスピーチ認識又はステップ３１４のテキストフォーマッティングが実施されたのち、方法は、ステップ３１６を続ける。

ステップ３１６において、セクションｉは、テキストの最後のセクションを表すｉｍａｘと比較される。ステップ３１６において、ｉがｉｍａｘより小さい場合、セクションインデックスｉが、１だけインクリメントされ、方法は、ステップ３１０に戻る。他の場合、ステップ３１６においてセクションインデックスｉがｉｍａｘに等しいとき、方法は、ステップ３１８において終わる。この最後のステップは、テキストの各セクションがスピーチ認識及び／又はテキストフォーマッティングを受けたとき、実施される。ステップ３１０の後、スピーチ認識が、ステップ３１２において実施されるか、又はテキストフォーマッティングプロシージャがステップ３１４において達成されるかは、ユーザによって、予め規定されるやり方で指定されなければならない。テキスト全体について、すなわちすべてのセクションｉ＝１...ｉｍａｘについて、方法は、ステップ３１２又はステップ３１４を実施し、これは、スピーチ認識又はテキストフォーマッティングが、テキストのセクションに対応付けられる統計モデルに基づいて実施されることを意味する。

代替例として、更に、ステップ３１４に記述されるテキストフォーマッティングステップがスピーチ認識ステップ３１２の後に続く組み合わせが考えられる。この場合、方法は、まず、ステップ３１２においてスピーチ認識を実施し、ステップ３１２からステップ３１４に連続的に切り替わり、ステップ３１４において、テキストフォーマッティングプロシージャが実施される。このケースでは、ステップ３１２からステップ３１４への切り替えは、テキストの当該セクションｉに対応付けられる同じ統計モデルｊに両方とも関連する、言語モデルと規則の組との間の切り替えを取り入れる。

図４は、テキスト４００がセクション４０２、４０４...にセグメント化されているブロック図を示している。テキスト４００の各セクション４０２、４０４は、統計モデルの組４０６、４０８に対応付けられる。このケースでは、第１のセクション４０２は、統計モデル４０６に対応付けられ、第２のセクション４０４は、統計モデル４０８に対応付けられる。統計モデル４０６、４０８の各々は、言語モデル４１０、４１６、第１の規則４１２、４１８、第２の規則４１４、４２０、及び詳しく指定されない他の規則を有する。それぞれの言語モデル４１０、４１６は、コンテクスト特有のスピーチ認識パスにトピック特有の認識又はリスコアリング情報を提供するために、コンテクスト特有の語彙を有する。

テキスト４００の第１のセクション４０２に対応付けられる統計モデル４０６の第１の規則４１２は、例えば、セクション４０２内のいかなる数もデジットで表わされなければならないことを指定することができる。同様に、統計モデル４０６の言語モデル４１０が、テキスト４００のセクション４０２について指定される。例えば、この第１のセクション４０２が、テキスト４００の冒頭セクションを表すとき、統計モデル４０６の言語モデル４１０は、医用レポートの開始時に一般に道路及び／又は都市名が現れることを強調することが合理的である。同様に、統計モデル４０８が、テキスト４００の第２のセクション４０４に対応付けられる。第２のセクション４０４が、医用レポート内の「理学的検査」セクションを表すとき、統計モデル４０８が、モデルのリストの中から選択され、この統計モデル４０８の言語モデル４１６は、「理学的検査」セクション４０４において一般に使用される多数の医学用語を提供する。

図５は、統計モデルの適応化のためのフローチャートを示している。第１のステップ５００において、テキストは、ステップ５０２に提供され、ステップ５０２において、提供されたテキストのテキスト構造が抽出される。テキスト構造の抽出後、テキスト及び構造が、ステップ５０４に提供され、ステップ５０４において、適当なトピック特有のモデルの組が、構造化されたテキストの各セクションに対応付けられる。続くステップ５０６において、トピック特有のスピーチ認識及び／又はテキストフォーマッティングが、実施される。続くステップ５０７において、ユーザは、手動で変更を挿入し、又は実施された変更を好適にはアンドゥ（undo）機能によって拒否することによって、実施されたテキストフォーマッティング及び／又はスピーチ認識を手動で制御することができる。最終的に、最後のステップ５０８において、テキストの各セクションについて選択されたモデルが、現在セクションのコンテントに基づいて適応化され、それゆえ、現在セクションのコンテントが、変化のない訓練データに加えて活用される。従って、ステップ５０４は、モデル適応化が行われるステップ５０８に直接接続される。

更に、このモデル適応化は、スピーチ認識又はテキストフォーマッティングステップがステップ５０６において実施され、最終的な手動の補正がユーザによって取り入れられたのちに行われる。このようにして、統計モデルがステップ５０８において適応化される前に、最初のテキストにおいて得られる潜在的なエラーが、効果的に除去されることができる。ステップ５０８のこの適応化プロセスの間、独特のモデルの組に対応付けられるテキストのセクションは、他の統計データを取得するために統計学的に解析され、かかる他の統計データは、適当な統計モデルに組み込まれる。このようにして、モデルは、永続的に、適応化及び更なる訓練を受ける。

図６は、言語モデルの選択がスピーチ認識プロセスに組み込まれるフローチャートを示している。第１のステップ６００において、スピーチ認識プロセスが開始される。次のステップ６０２において、ｐ＝１を有するスピーチの第１の部分が、選択される。ここで、ｐは、スピーチの部分のインデックスを表す。そののち、ステップ６０４において、スピーチの選択された部分ｐが、テキストの対応する部分ｔに転写される。この第１のテキスト部分ｔに基づいて、適当な、すなわち最も良く適合する言語モデルｍが、ステップ６０６においてテキスト部分ｔに対応付けられる。このアプローチは、セクションの最初の数個の語又は文が、セクションのコンテントにとって特徴的であるという事実を有効に利用する。言語モデルｍが、ステップ６０６において、テキスト部分ｔに対応付けられたのち、スピーチの次の部分ｐ＝ｐ＋１が、続くステップ６０８において選択される。

続くステップ６１０において、スピーチの次の部分ｐのスピーチ認識が、次のテキスト部分ｔを生成するために、ステップ６０６において選択される言語モデルｍを使用することによって実施される。第１のスピーチ認識のような事前のいかなる処理もなく、スピーチは、適当な言語モデルを使用することによって直接認識される。次のステップ６１２において、スピーチ部分ｐのインデックスが、スピーチ信号内のスピーチの最後の部分を表すｐｍａｘと比較される。ステップ６１２において、スピーチ部分ｐが、ｐｍａｘに等しいとき、方法は、ステップ６１６を続け、終了する。他の場合、ステップ６１２においてスピーチ部分ｐのインデックスがｐｍａｘより小さいとき、方法は、ステップ６１４を続ける。

ステップ６１４において、方法は、スピーチの部分ｐから転写されたテキスト部分ｔが、なお、ステップ６０６において前のテキスト部分ｔに対応付けられた言語モデルｍに「適合している」かどうかチェックする。言語モデルｍが、なお、テキスト部分ｔに最も良く適合する言語モデルであるとき、方法は、ステップ６０８に戻り、ステップ６０８において、スピーチの次の部分ｐ＝ｐ＋１が選択される。対照的に、ステップ６１４において、より良く適合する他の言語モデルが、テキスト部分ｔについて見つけられると、方法は、ステップ６０６へ戻り、ステップ６０６において、最も良く適合する別の言語モデルｍが、テキスト部分ｔに対応付けられる。言い換えると、ステップ６１４は、選択された言語モデルが、すべての提供される言語モデルの中で最も良くその瞬間のテキスト部分を記述しているかどうか、継続的にチェックする。このようにして、方法は、言語モデル遷移を取得するセクション境界を検出するようにカスタマイズされる。

スピーチのスピーチ部分への分割は、ユーザの好みに従って規定されることができる。これらの部分は、予め規定された時間間隔等によって指定されることができる。

図７は、言語モデル特有のスピーチ認識を実施するためのコンピュータシステムのブロック図を示している。コンピュータシステム７００は、処理ユニット７０６、テキスト記憶モジュール７０８、セグメント化されたテキスト記憶モジュール７１０及び言語モデルモジュール７１２を有する。処理ユニット７０６は、更に、スピーチ７０２を受け取り、スピーチからテキストへの転写プロセスを実施し、結果的に、コンピュータシステム７００から出力されるテキスト７０４をもたらす。スピーチ７０２が、処理ユニット７０６によって受け取られると、スピーチ７０２は、まず、通常のスピーチからテキストへの変換手段によって、構造化されていないテキストに逐語的に変換され、構造化されていないテキストは、モジュール７０８に記憶される。この最初のスピーチからテキストへの変換は、処理ユニット７０６によって実施される。モジュール７１０に記憶される構造化されたテキストを与える次のテキスト構造化のステップが、モジュール７０８に記憶された構造化されていないテキストに基づいて、処理ユニット７０６によって更に実施される。

更に、処理ユニット７０６は、モジュール７１０に記憶された構造化されたテキストの各セクションについて、言語モデルモジュール７１２によって提供される適当な言語モデルを選択する。テキストのセクションと言語モデルとの間の対応付けが、処理ユニット７０６によって実施されると、処理ユニットは、対応付けられたセクションに対してそれぞれの言語モデルによって提供される規則及び語彙を明確に使用することによって、第２のスピーチ認識プロセスを続ける。処理ユニット７０６によって更に実施されるこの第２のスピーチ認識プロセスの結果は、テキスト７０４の形でコンピュータシステムから出力される。この出力は、例えば電子ファイルシステムにファイルの形で、ある種の記憶手段によってテキストを記憶することによって実施されることができる。代替例として、生成されたテキスト７０４は、ある種の表示手段によって視覚的に示されることができ、又は印刷出力の形で再生されることができる。

従って、本発明は、トピック特有の言語モデル及び語彙並びにフォーマッティング又は解釈規則の形で、セクションに関連する情報を提供する統計モデルのコンテクスト特有の対応付けに従ってテキスト構造化を使用することによって、スピーチからテキストへの認識及びスピーチからテキストへの転写システムを改善するための効果的なアプローチを提供する。統計モデルは、注釈付き訓練データから集められる統計情報に基づいている。

テキストフォーマッティングを実施するためのフローチャート。スピーチ認識を実施するためのフローチャート。スピーチ認識プロセスをより詳しく表すフローチャート。異なる言語モデルに対応付けられるセクションにセグメント化されたテキストのブロック図。言語モデルのカスタマイゼーションのためのフローチャート。一体化された言語モデル仮定によってスピーチ認識を実施するためのフローチャート。スピーチ認識のためのコンピュータシステムのブロック図。

符号の説明

４００テキスト
４０２セクション
４０４セクション
４０６統計モデル
４０８統計モデル
４１０言語モデル
４１２規則
４１４規則
４１６言語モデル
４１８規則
４２０規則
７００コンピュータシステム
７０２スピーチ
７０４テキスト
７０６処理ユニット
７０８テキスト記憶モジュール
７１０構造化されたテキスト記憶モジュール
７１２言語モデルモジュール

Claims

訓練データに基づいて及び／又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更する方法であって、
前記テキストを複数のセクションにセグメント化するステップと、
前記統計モデルの組のうちの１つを各セクションに対応付けるステップと、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するステップと、
を含む方法。
前記テキスト変更プロシージャが、テキストフォーマッティングプロセスを含み、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロセスについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、請求項１に記載の方法。
前記テキストは、第１のスピーチ認識パスによって生成され、前記変更プロシージャは、各セクションに対応付けられる前記統計モデルの言語モデル及び／又はスピーチ認識パラメータを使用する、第２のスピーチ認識パスを含む、請求項１に記載の方法。
各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、請求項１乃至請求項３のいずれか１項に記載の方法。
統計モデルに対応付けられる前記セクションが、前記統計モデルを解析されたセクションに適応させるために、解析される、請求項１乃至請求項４のいずれか１項に記載の方法。
訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写する方法であって、
スピーチの第１の部分を認識するためにスピーチ認識プロセスを始めるステップと、
前記スピーチの前記認識された第１の部分に基づいて、前記言語モデルの組のうち第１の言語モデルを選択し、前記スピーチの前記第１の部分に前記第１の言語モデルを対応付けるステップと、
前記第１の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続けるステップと、
前記スピーチの以降の部分が、前記第１の言語モデルよりも第２の言語モデルによってより良くモデル化される場合、前記第２の言語モデルを選択し、前記スピーチの前記以降の部分に前記第２の言語モデルを対応付けるステップと、
を含む方法。
前記統計モデルは、更に、トピック特有のスピーチ認識パスを提供するために、トピック特有のスピーチ認識パラメータを含む、請求項３乃至請求項６のいずれか１項に記載の方法。
訓練データに基づいて及び／又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータシステムであって、
前記テキストを複数のセクションにセグメント化する手段と、
各セクションに前記統計モデルの組のうちの１つを対応付ける手段と、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施する手段と、
を有するコンピュータシステム。
前記テキスト変更プロシージャを実施する前記手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、請求項８に記載のコンピュータシステム。
前記テキストは、第１のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記手段は、各セクションに対応付けられる前記統計モデルの言語モデル及び／又はスピーチ認識パラメータを使用して、第２のスピーチ認識パスを達成するように構成される、請求項８に記載のコンピュータシステム。
各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、請求項８乃至請求項１０のいずれか１項に記載のコンピュータシステム。
統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられる前記セクションを解析する手段を更に有する、請求項８乃至請求項１１のいずれか１項に記載のコンピュータシステム。
訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータシステムであって、
スピーチ認識プロセスを始める手段であって、スピーチの第１の部分を認識するように構成される手段と、
前記スピーチの前記認識された第１の部分に基づいて、前記言語モデルの前記組のうち第１の言語モデルを選択する手段、及び前記スピーチの前記第１の部分に前記第１の言語モデルを対応付ける手段と、
前記スピーチ認識プロセスを続ける手段であって、前記第１の言語モデルを使用することによって前記スピーチの以降の部分を認識するように構成される手段と、
前記スピーチの以降の部分が、前記第１の言語モデルよりも第２の言語モデルによってより良くモデル化される場合、前記第２の言語モデルを選択し、前記スピーチの前記以降の部分に前記第２の言語モデルを対応付ける手段と、
を有するコンピュータシステム。
訓練データに基づいて及び／又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータプログラムであって、
前記テキストを複数のセクションにセグメント化するプログラム手段と、
各セクションに統計モデルの組のうちの１つを対応付け、前記セクションに対応付けられる統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するプログラム手段と、
を含むコンピュータプログラム。
前記テキスト変更プロシージャを実施する前記プログラム手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、請求項１４に記載のコンピュータプログラム。
前記テキストは、第１のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記プログラム手段は、各セクションに対応付けられる言語モデル及び／又はスピーチ認識パラメータを使用して、第２のスピーチ認識パスを達成するように構成される、請求項１５に記載のコンピュータプログラム。
各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、請求項１４乃至請求項１６のいずれか１項に記載のコンピュータプログラム。
統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられるセクションを解析する手段を更に有する、請求項１４乃至請求項１７のいずれか１項に記載のコンピュータプログラム。
訓練データに基づいて及び／又は手動のコーディングによって生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータプログラムであって、
スピーチの第１の部分を認識するために、スピーチ認識プロセスを始め、
前記スピーチの前記認識された第１の部分に基づいて、前記言語モデルの組のうち第１の言語モデルを選択し、前記スピーチの前記第１の部分に前記第１の言語モデルを対応付け、
前記第１の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続け、
前記スピーチの以降の部分が、前記第１の言語モデルより第２の言語モデルによってより良くモデル化される場合、前記第２の言語モデルを選択し、前記スピーチの前記以降の部分に前記第２の言語モデルを対応付ける、
ように構成されるプログラム手段を含む、コンピュータプログラム。