JP2007512609A

JP2007512609A - 文書構造化のためのテキストセグメンテーション及びトピック注釈付け

Info

Publication number: JP2007512609A
Application number: JP2006540705A
Authority: JP
Inventors: ヨヘンペテルス; カルステンメイエル; ディートリヒクラコー; エフジェニーマトゥソフ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-21
Filing date: 2004-11-12
Publication date: 2007-05-17
Also published as: US20070260564A1; EP1687737A2; WO2005050472A2; WO2005050472A3; CN1894686A

Abstract

本発明は、注釈付けされた訓練データに基づいて訓練される統計モデルを使用することによって、構造化されていないテキストを構造化するための方法、コンピュータプログラム及びコンピュータシステムに関する。テキストがセグメント化される各テキストセクションは、更に、ラベルの組に関連するトピックに割り当てられる。テキストのセグメンテーション及びテキストセクションに対するトピック及びその関連するラベルの割り当てのための統計モデルは、テキストセクションとトピックとの間の相関関係、セクション間のトピック遷移、文書内のトピック位置、及び（トピック依存の）セクション長、を明示的に説明する。それゆえ、訓練データの構造的な情報が、未知のテキストのセグメンテーション及び注釈付けを実施するために利用される。

Description

本発明は、構造化されていないテキストをセクションにセグメント化し、セマンティックなトピックを各セクションに割り当てることによって、構造化されていないテキストから構造化された文書を生成する分野に関する。

テキストを複数のセクションにセグメント化すること、及びセクションの内容を表わすラベルを各セクションに割り当てることは、テキスト文書を構造化するための基本的な且つ広範にわたる作業である。リーダに対して明確な関連性を有するテキストセクションは、関連するラベル又は見出しによって、文書内で容易に取り出されることができる。ラベルに基づいて、リーダは、迅速的に且つ効果的に、テキストセクションの内容関連性を識別することができる。残念なことに、不十分な構造化しか与えない、又はまったく構造化を与えない膨大な量のテキスト文書が存在する。

構造化されていない又は貧弱に構造化された文書によって提供される情報を集めることは、広範囲な読み取り及び／又は手の込んだサーチを必要とし、これは、リーダにとって、疲労が大きく、非常に時間がかかる。従って、広範囲な研究開発が、構造化されていないテキストに構造を与える方法及び技術に焦点を合わせられている。構造化されていないテキストの例は、記録されたスピーチをマシン処理可能なテキストに転写する音声認識システムによって生成されるテキストストリームである。

概して、テキストの構造化は、テキストセグメンテーション及びトピックの割り当ての２つの作業と考えられることができる。まず、所与のテキストは、セクション境界を挿入することによって、複数のセクションに分割される。セグメンテーションのこの第１のステップは、各セクションがセマンティックなトピックに対応するように実施されなければならない。第２のステップにおいて、テキストの各々のセクションは、セクションの内容を表わすラベルに割り当てられなければならない。テキストのセグメンテーション及びテキストセクションに対するトピックの割り当ては、同時に実施されることができ、ここで、セグメンテーションは、テキストセクションに対するトピックの割り当てに関して実施され、テキストセクションに対するトピックの割り当ては、セグメンテーションに関して実施される。

米国特許第６，０５２，６５７号明細書は、テキストストリームをセグメント化し、テキストストリーム中のトピックを識別する技法を開示している。この技法は、セクションのシーケンスを表現する訓練テキストの組を入力として利用するクラスタリング方法を使用する。ここで、セクションは、単一のトピックを扱う文の連続するストリームである。クラスタリング方法は、入力テキストのセクションを、指定された数のクラスタに分けるように設計されている。それぞれ異なるクラスタは、それぞれ異なるトピックを扱う。トピックは、クラスタリング方法を訓練テキストに適用する前に規定されない。一旦クラスタが規定されると、言語モデルが、各クラスタごとに生成される。

技法は、複数の言語モデルを使用して、テキストブロックのシーケンス（例えば文）で構成されるテキストストリームを、セグメントにセグメント化することを特徴とする。このセグメンテーションは、２つのステップで行われる：まず、各々のテキストブロックは、１つのクラスタ言語モデルに割り当てられる。そののち、テキストセクション（セグメント）が、同じクラスタ言語モデルに割り当てられる順次のテキストブロックから決定される。第１のステップのために、各々のテキストブロックは、まず、このテキストブロックに関する言語モデルスコアを生成するために、言語モデルに対してスコアリングされる。テキストブロックに関する言語モデルスコアは、テキストブロックと言語モデルとの間の相関関係を示す。第２に、テキストブロックのシーケンスが対応しうる言語モデルのそれぞれ異なるシーケンスに関する言語モデルシーケンススコアが、生成される。全てのスコア情報を組み合わせることにより、言語モデルの最善のスコアリングのシーケンスが決定され、その結果、各々の文ｓ_ｉが、あるクラスタ言語モデルｓｌｍ_ｉに割り当てられることになる。

テキストストリームのセグメント境界は、言語モデルの選択されたシーケンスにおける言語モデル変化に対応するものとして、すなわちｓｌｍ_ｉ＋１がｓｌｍ_ｉと異なる文の遷移に対応するものとして、第２のステップにおいて識別される。

テキストセグメンテーション及び／又はトピックの識別のための上述の技法及び方法は、テキスト発出（emission）モデルと、隣接する文に割り当てられるクラスタ間の遷移に関するモデルと、の使用に焦点を合わせている。言い換えると、テキストセグメンテーション及びトピック識別は、テキストセグメントと予め規定されたトピックと間の相関関係を表わすスコア又は尤度を決定し、隣接する文のクラスタ間の相関関係を表わすスコア又は尤度を決定することによって、実施される。セクションは、通常、多くの順次の文で構成され、隣接するクラスタ間の相関関係は、１つのクラスタから同じクラスタへの遷移を含む。同じクラスタ間の遷移は、１の固定のクラスタ内の「ルーピング（looping）」として示される。セクション境界において、この「ルーピング」は終わり、すなわちセクション境界において、２つの異なるクラスタ間の遷移が生じる。

まず文をクラスタに割り当て、クラスタ変化からセクション境界を決定するという基本の方法は、いくつかの欠点を有する：方法は、例えばより離れたセクションへの依存性のような、より長いレンジにわたる情報を捕らえるために拡張されることができない。なぜなら、これらは、クラスタ割り当てが完了したあとにのみ現れるからである。また、セクション内の（例えば一般的な開始フレーズのような）下位構造は、文ごとのクラスタ割り当て方法において捕らえられることができない。更に、セクションの一般的な長さに関する明示的なモデルは、この方法に取り入れられることができない。

本発明の目的は、１又はいくつかの訓練コーパスから又は手動で符号化される事前の知識から集められる多数の統計情報を使用することによって、テキストのセグメンテーション及びトピック及び／又はラベルのテキストセクションに対する割り当てを行うための改善された方法、コンピュータプログラム製品及びコンピュータシステムを提供することである。

本発明は、訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成する方法であって、各テキストセクションが、トピックに割り当てられる、方法を提供する。テキストセグメンテーションモデルを生成する方法は、トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するために、テキスト発出モデルを生成し、テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するために、トピックシーケンスモデルを生成し、テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するために、トピック位置モデルを生成し、いくつかの特定のトピックをカバーするテキストセクションの長さを表わすセクション長蓋然性を提供するために、トピック依存のセクション長モデルを生成する。更に、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルは、完全なセクションのレベルで作用し、米国特許第６，０５２，６５７号明細書に記載されるようにテキストブロック（文）のレベルでは作用しない。

モデルは、１又はいくつかの訓練コーパスを含む訓練データに基づいて訓練される。代替例として、いくつかのモデルは、事前の知識から手動で符号化されることもできる。訓練コーパスに基づいて、方法は、テキストの部分とテキスト部分の内容を表現するセマンティックなトピックとの間の相関関係を示すテキスト発出蓋然性を決定する。

更に、方法は、割り当てられたトピックに基づいて、訓練コーパスの構造を更に利用する。訓練コーパスは、テキスト部分とトピックとの間の相関関係に関する情報だけでなく、訓練コーパスにおいてトピックが現れるシーケンスに関する情報も含む。トピックシーケンスモデルは、トピックシーケンス蓋然性を生成するために、この種の情報を利用する。トピックシーケンス蓋然性は、訓練コーパス内で第１のトピックの後に第２のトピックが続く尤度を示す。

更に、訓練コーパスの構造は、明確なセマンティックなトピックが訓練コーパス内で特定の位置に現れる尤度に関する統計情報を生成するトピック位置モデルによって利用されることができる。より具体的には、この位置モデルは、訓練コーパスからのあるテキストの第１のセクションが、任意の特定のトピックによってラベリングされ、第２のセクションが、任意の特定のトピックによってラベリングされ、第３のセクションが、任意の特定のトピックによってラベリングされる、等の蓋然性を記述する。

更に、訓練コーパスに関する他の構造的な情報が、トピック依存のセクション長蓋然性を提供するセクション長モデルによって集められる。セクション長蓋然性は、明確なトピックに割り当てられるセクションの長さに関する統計情報を提供する。データがまばらな場合、いくつかのトピックは、例えば短い、中間の長さの及び長いセクションに対応するトピックのクラスにクラスタリングされることができ、よりロバストな長さモデルが、（各トピックごとに別々に評価される代わりに）各クラスごとに評価されることができる。特別なケースとして、すべてのトピックを１つのクラスにクラスタリングして、その結果、各トピックに適用できるグローバルなセクション長モデルを与えることが、考えられる。本発明の方法は、特に、例えばトピックの予め規定される又は抑制されるシーケンスのような予め規定された外部条件によって特徴付けられるいわゆる組織化された文書に適用できる。組織化された文書は、例えば、テクニカルマニュアル、科学又は医用レポート、法律文書又はビジネス会議の筆記録であり、これらの各々は、一般的なトピックシーケンスのあとに続く。例えば、科学レポートのトピックシーケンスは、概要、導入、原理、実験、結論及びまとめのシーケンスを特徴とすることができる。特許出願のトピックシーケンスは、発明の属する技術分野、背景、概要、詳細な説明、図面の説明、図面、請求項でありうる。

訓練コーパスからの上述のトピックシーケンスモデルの生成は、それが訓練コーパスから抽出されるとき、トピックのシーケンスに焦点を合わせる。

本発明の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法、すなわち、訓練データの統計解析によってモデルを訓練する方法は、様々なタイプの組織化された文書を明示的に説明（account for）する。例えば、訓練コーパスが、異なるタイプの組織化された文書に関連する多数の訓練文書を特徴とするとき、テキストセグメンテーションモデルの生成は、異なるタイプの文書を識別し、各ドキュメントタイプに関する統計情報を別々に抽出する。例えば、訓練コーパスが、科学レポートの大きい組を提供するとき、テキスト内の第１のセクションが概要として示される、生成されたトピックシーケンス蓋然性は、ほぼ１である。同様に、文書がセクション「実験」から始まる蓋然性は、ほぼ０である。更に、トピックシーケンスモデルは、第１のトピックのあとに第２のトピックが続くという統計情報を訓練コーパスから集める。トピックシーケンスモデルは、例えば「原理」としてラベリングされるセクションのあとに「実験」としてラベリングされるセクションが続くことが多いという蓋然性を把握する。

本発明の他の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法は、更に、訓練コーパス内の特定のトピックの位置を把握する。結果として得られるトピック位置蓋然性は、明確なトピックが訓練テキストの始まりの近くに、中央に、又は終わりにあるかどうかの尤度を表わす。例えば、「結論」と示されるトピックが文書の始めに見つけられることがありうる蓋然性は、ほぼ０であるが、「結論」セクションが、文書の終わりの近くありえる蓋然性は、非常に高い。

本発明の他の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法は、更に、訓練コーパス内のテキストセクションの長さの統計解析を取り入れる。アプリケーションの間、例えば、個々のセクション長が、訓練データ内の「概要」に関して見られるように２、３の文を越えないとき、「概要」として示されるセクションのセクション長蓋然性は、高い。対照的に、訓練の間に見られない限り、個々のセクションが、１００より多くの文をカバーするとき、「概要」セクションに関するセクション長蓋然性は、ほぼ０である。

本発明の他の好適な実施例によれば、訓練コーパスは、テキストセクションにセグメント化されるテキストを含み、セクションの各々には、ラベルが割り当てられ、更にトピックも割り当てられる。これは、訓練コーパスが、注釈付けされた構造を具えることを意味する。ここで、ラベルは、セクションに対応する個別の見出しを表わす。対照的に、トピックは、セクションの内容に関係する。このようにして、トピックは、同じセマンティックな意味を有する見出しすなわちラベルをクラスタリングする。

例えば、科学レポート内の実験を記述するセクションは、例えば「実験」、「実験方法」、「実験装置」のように、複数の異なるやり方でラベリングされることができる。このようにして、方法は、同じセマンティックな意味を有するセクションに関係する非常に多様な明示的なラベル又は見出しを説明する。ラベルとは対照的に、トピックは、セクションの概要識別子を表わす。訓練コーパス内のテキストの各セクションは、トピックに割り当てられなければならない。更に、トピックの組、すなわちトピックの数及び特定の名前が、提供されなければならず、又は訓練コーパスに注釈付けされなければならない。

トピック名の規定及び訓練テキストに現れうるラベルのトピックに対する割り当ては、手動で又はあるクラスタリング技法によって実施されなければならない。訓練コーパスの構造に依存して、ラベル又はセクション見出しに対するテキストセクションの割り当ては、手動で及び／又は自動的に実施されることができる。例えば、訓練コーパスが、見出しをラベルリングされているセクションにセグメント化されるとき、これらの見出しは、テキストセグメンテーションモデルの訓練中に抽出されることができ、予め規定されたトピックに更に割り当てられることができる。ラベル（見出し）が存在しない場合、又はラベルからトピックへのマッピングが規定されていない場合、各セクションは、対応するトピックによって手動の注釈付けがなされなければならない。いずれの場合も、セクションと対応するトピックとの間の割り当てが、与えられなければならない。

本発明の他の好適な実施例によれば、トピックシーケンスモデルは、トピック遷移Ｍ−グラムモデルを使用することによって、複数の連続するトピック遷移を説明する。これは、トピックシーケンス蓋然性が、第１のセクションのあとに第２のセクションが続くことのみを示すバイグラムモデルに制約されないこと意味する。むしろ、シーケンス蓋然性は、訓練テキストのトピックシーケンス全体を、又は少なくともトピックのより長いレンジにわたるサブシーケンスを把握する。このようなＭ−グラムモデルを使用することによって、トピックシーケンス蓋然性は、第１のトピックのあとに第２のトピックが続き、第２のトピックのあとに第３のトピックが続き、第３のトピックのあとに第４のトピックが続く、等の情報を与える。トピックシーケンス蓋然性は、Ｍ次のオーダーのマルコフプロセスを使用することによりトピックシーケンスモデルを適用することによって生成される。

文書のトピックシーケンス全体を考慮に入れるトピックシーケンス蓋然性は、バイグラムモデルに基づいて生成されるトピックシーケンス蓋然性よりも、トピック遷移に関して一層信頼できる情報を与える。以下の例は、バイグラムの代わりにトリグラムを使用することからの利点を示す。アプリケーションにおいて、２つのトピック「図面の説明」及び「発明の詳細な説明」が、任意の順序で互いに隣り合って現れるとき、ペアワイズ（バイグラム）遷移が考慮される場合、トピック１（「図面の説明」）のあとにトピック２（「発明の詳細な説明」）が続き、トピック２のあとにトピック１が続くシーケンスが、もっともらしくみえる。対照的に、トピックのフルトリプル（トリグラム）が考えられる場合、同じシーケンスはとてもありそうになく、この場合、トピック１の第１の出現は、同じトピックの２位置あとに繰り返される出現を阻止する。

本発明の他の好適な実施例によれば、テキスト発出蓋然性は、テキストセクション内の特徴的なテキスト部分の位置を説明する。これは、テキストセグメンテーションモデルを生成する方法が、セクションの最初のいくつかの文の範囲内の明確な語の組み合わせ又は句を明示的に把握することを意味する。「…を要約すると」のような句又は「結論として…」は、「まとめ」又は「結論」としてラベリングされるセクションの初めに現れることが可能性が非常に高い。このようにして、文書の構造だけでなくセクションの下位構造も、注意深く解析される。

従って、完全なセクションについてのトピック特定のテキスト発出モデルだけでなく、セクションの特定の部分について設計される統計モデルも、考えられる。更に、トピック特定のテキスト発出モデルは、個々のセクションのさまざまな部分について、それぞれ異なって重み付けされることができる。

本発明の他の好適な実施例によれば、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性の決定及びセクション長蓋然性の生成は、テキストがセグメント化されるセクションの数に影響を与える粒度パラメータに関して実施される。技術的な観点から、粒度パラメータは、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの平滑化又は再重み付けを決定する。セクション長モデルの明示的な変更が、セグメンテーション粒度に影響を及ぼすために、更に用いられることができる。所与の粒度パラメータに依存して、統計モデルの生成は、テキストのより細かい又はより粗いセグメンテーションを説明する。それゆえ、粒度パラメータの助けを借りて、テキストセグメンテーション及びトピック割り当てが実施されるレベルが、変更されることができる。予め計算される平滑化された統計モデルは、より少ない記憶を必要とし、アプリケーション中のオンライン平滑化より容易にアクセス可能であるので、訓練中の統計モデルの平滑化は、テキストセグメンテーションシステムの記憶容量又はシステム負荷に関して特に有利である。

本発明の方法の上述の特徴は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性の形の訓練データの統計情報を提供するために、訓練プロシージャに焦点を合わせているが、以下では、上述の訓練プロシージャから結果的に得られるテキストセグメンテーションモデルの適用が、記述される。テキストセグメンテーションモデルの適用は、テキストセグメンテーション及びテキストセクションに対するトピックの割り当てを実施する。

本発明の好適な実施例によれば、訓練コーパスに基づいて訓練されたテキストセグメンテーションモデルは、テキストセグメンテーションの方法によって適用されることができる。テキストセグメンテーションのこの方法は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性についてのモデルを明示的に使用する。このテキストセグメンテーション方法は、更に、明確なタイプの組織化された文書に属する構造化されていないテキスト文書のセグメンテーションを実施するように設計される。このような構造化されていないテキスト文書は、例えば科学レポート又は特許出願の口述されたテキストを自動的に転写する音声認識システムからの出力としてもたらされることができる。

テキストセグメンテーションの方法は、訓練データの統計情報を提供するテキストセグメンテーションモデルを使用する。テキストセグメンテーションの方法は、テキストセグメンテーション及びトピック割り当てを実施するために、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性を利用する。

訓練プロセスの間に集められ、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びトピック依存のセクション長モデルによって提供される統計情報は、構造化されていないテキストのセグメンテーションのために明示的に使用される。テキストセグメンテーションの方法は、提供される蓋然性を処理することによって、テキストのセグメンテーションを実施する。従って、方法は、所与のテキスト部分がトピックと相関する蓋然性を決定するために、テキスト発出モデルを使用する。トピック遷移モデルによって、テキストセグメンテーションの方法は、第１のトピックに割り当てられるテキスト部分のあとに第２のトピックに割り当てられるテキスト部分が続く蓋然性を決定する。これに対応して、テキスト部分が、テキスト内のテキスト部分の位置に関してトピックに割り当てられる蓋然性を決定するために、トピック位置モデルが利用される。テキストセグメンテーションの方法は、セクションのトピック依存の長さに関する統計情報を提供するセクション長モデルを更に使用する。

構造化されていないテキストのテキストセクションへのセグメンテーション、及びこれらのテキストセクションの予め規定されたトピックに対する割り当ては、訓練データに基づくテキストセグメンテーションモデルの生成プロセスの間に集められる完全な統計情報を説明する。

本発明の他の好適な実施例によれば、テキストセグメンテーションモデルの適用は、セクション境界を越えて且つ割り当てられたトピックを超えて、２次元同時最適化によって実施される。この最適化は、Ｎ語ｗ_１ ^Ｎ：＝ｗ_１，．．．，ｗ_ｎの所与の語ストリームを、トピックｔ_１ ^Ｋ：＝ｔ_１，．．．，ｔ_Ｋによってラベリングされるとともに、セクション終了位置、すなわち語インデックスｎ_１ ^Ｋ：＝ｎ_１，．．．ｎ_Ｋによって特徴付けられるセクションに最適にセグメント化することを見つけることを目的とする。テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性に関してテキストの最適なセグメンテーションを見つける最終的な作業は、以下の最適化基準となる：

上式で、項ｐ（ｔ_ｋ｜ｔ_ｋ−１）は、トピック遷移蓋然性を反映し、Δｎ_ｋ＝（ｎ_ｋ−ｎ_ｋ−１）を有する項ｐ（Δｎ_ｋ｜ｔ_ｋ）は、セクション長蓋然性を表し、項ｐ（ｗ_ｎ｜ｔ_ｋ，ｎ−ｎ_ｋ−１）は、テキストセクション内の語のシーケンスの位置依存を考慮するテキスト発出蓋然性を反映する。簡潔さの理由で、ここに示される蓋然性は、バイグラム蓋然性として与えられる。本発明の方法は、更に、トリグラム又はＭ−グラム蓋然性及び／又は各トピックの位置依存を説明し、それに対応してカスタマイズされることができる。

例えば、テキストの第１の部分が第１のトピックに関連するテキスト発出蓋然性が、０．５に等しく、テキストストリームの第２の部分が、０．５のテキスト発出蓋然性をもって第３のトピックに関連し、テキストストリームの同じ第２部分が、０．３のテキスト発出蓋然性をもって第２のトピックと相関するとき、テキストセグメンテーションの方法は、テキストストリームの第１の部分に第１のトピックを割り当て、テキストストリームの第２の部分に第３のトピックを割り当てる。トピック１からトピック２への遷移について０．９のトピック遷移蓋然性を有し、トピック１からトピック３への遷移について０．２のトピック遷移蓋然性を有する、トピックシーケンス蓋然性を更に考慮に入れることにより、テキストセグメンテーションの方法は、テキストストリームの第２の部分が、第３のトピックの代わりに第２のトピックに割り当てられることを、決定することができる。

テキストセクションに対するトピックの割り当てだけでなく、テキストのテキストセクション自体へのセグメンテーションも、テキスト発出、トピックシーケンス、トピック位置及びセクション長に関係する統計モデルによって提供される蓋然性を利用する。更に、トピックシーケンス蓋然性は、トピック遷移Ｍ−グラムモデルに明示的に基づくこともできる。それゆえ、トピックシーケンス蓋然性は、第１及び第２のトピック間の遷移の情報を提供するだけではなく、事実上、潜在的にテキスト文書全体をカバーしつつ、複数トピック間の連続する遷移の統計情報を提供する。

本発明の他の好適な実施例によれば、構造化されていない文書のセグメンテーション及びテキストセクションに対するトピックの割り当ては、トピック位置蓋然性に関して実施される。例えば、テキスト発出蓋然性及びトピックシーケンス蓋然性に従って、テキストセグメンテーション及びトピック割り当ての２又はそれ以上の異なる構成が、同様の蓋然性を特徴とするとき、トピック位置蓋然性が、これらの２つの構成間の決定基準の役目を果たすこともできる。

例えば、組み合わせられたテキスト発出蓋然性及びトピックシーケンス蓋然性が、トピック１のあとにトピック２が続くというテキストセグメンテーションの構成について０．５の組み合わせられた蓋然性を与え、更にトピック１のあとにトピック３が続くという構成について０．４５の組み合わせられた蓋然性を与えるとき、トピック位置蓋然性は、正しい決定を行うために他の統計情報を提供することができる。このケースにおいて、トピック３のトピック位置蓋然性が、トピック２のトピック位置蓋然性をはるかに上回るとき、トピック１のあとにトピック３が続く構成は、トピック１のあとにトピック２が続く他の構成よりもっともらしくなる。

本発明の他の好適な実施例によれば、セクション長蓋然性が、更に、テキストセグメンテーション及びトピック割り当てのために利用されることができる。例えば、テキスト発出蓋然性に従って、テキストセグメンテーション及びトピック割り当ての第１の構成のトピックシーケンス蓋然性及び位置蓋然性が、第２の構成よりわずかに高い蓋然性を有するとき、セクション長蓋然性は、更なる決定基準の役目を果たすことができる付加情報を提供することができる。

例えば、第１の構成内で、第１のセクションが、「概要」セクションの一般的な長さをはるかに越える長さを有する「概要」トピックとして割り当てられるとき、この第１の構成は、セクション長蓋然性に従って、あまり現実的でなさそうである。セクション長蓋然性を評価し、説明するとき、テキストセグメンテーション及びトピック割り当ての方法は、このケースにおいて、異なる構成を決定することができる。

本発明の他の好適な実施例によれば、テキストセグメンテーション及びテキストセクションの予め規定されたトピックへの割り当ては、更に、セクションの下位構造を説明する。テキスト発出モデルの特徴的な能力は、あるトピック特定の表現が、セクションの開始部分に一般に生ずるという事実を利用することによって、かなり強化されることができる。この事実は、セクションの規定された部分について指定されるテキスト発出モデルを明示的に使用することによって、利用されることができる。更に、セクションの明確な部分内のそれぞれ異なる蓋然性の重み又は影響のバリエーションが、適用されることができる。

他のトピックにより密接に関連するいくつかのキーワードが現れる場合、長いセクションの「本体」において多くの語のテキスト発出蓋然性の重みを下げることが、例えば他のトピックへの局所的な遷移を回避する。適当な重み付け技法は、トピック変化を示す十分に多くの語を観察したあとにのみ、局所的に「最善の」トピックへの多くの局所的な遷移を有する積極的なセグメンテーションから、より保守的なセグメンテーションに、セグメンテーションの粒度を制御するために更に使用されることができる。このような重み付け技法は、各々の語の蓋然性タームの単純な（位置依存の）潜在的なダウンスケーリング、又はグローバルな（トピック依存でない）モデルによるトピック特定のモデルの線形又は対数線形補間のような平滑化技法を含む。

本発明の他の好適な実施例によれば、テキストセグメンテーションの方法は、更に、各テキストセクションにラベルを割り当てる。テキストセクションに割り当てられるラベルは、前記テキストセクションに割り当てられるトピックに関連するラベルの組から選択される。トピックが一般用語を表し、セクションのセマンティックな意味に関係するのに対して、ラベルは、セクションの具体的な見出しを表わす。ラベルは、個人の好みに従って複数の個別の見出しを表わすことができるのに対して、トピックは、予め規定されたやり方で与えられ、構造化されていないテキストのセグメンテーション及び構造化のために使用される。

本発明の他の好ましい実施例によれば、セグメンテーションの粒度は、ユーザの好みに従って指定されることができる粒度パラメータによって、調整されることができる。粒度パラメータは、文書のより細かい又はより粗いセグメンテーションを指定し、その結果、多かれ少なかれ文書のラベル又は見出しの挿入をもたらす。テキスト発出モデルに関する上述の重み付けスキームの他に、セグメンテーション粒度は、また、変更されるセクション長モデルによって、又は文書ごとに期待されるセクション数に関する付加の明示的なモデルによって、制御されることもできる。

本発明の他の好適な実施例によれば、ラベルが、テキストセクションに割り当てられているトピックに関連するラベルの並べられた組に従って、テキストセクションに割り当てられることができる。一般に、ラベルの組全体が、トピックに関連する。各テキストセクションは、トピックに割り当てられるので、それは、また、トピックに関連するラベルの対応する組に間接的に割り当てられる。方法は、ここで、ラベルの組の中から１つのラベルを選択し、選択されたラベルをテキストセクションに割り当てなければならず、すなわち、テキストセクションのための見出しとして、ラベルを挿入しなければならない。

ラベルの組からの単一のラベルの選択は、さまざまな異なるやり方で実施されることができる。例えば、ラベルの組が、並べられたやり方で提供されるとき、ラベルの並べられた組のうちの第１のラベルが、当該テキストセクションに割り当てられる。代替例として、方法は、ラベルの提供される組の中のラベルが、当該セクション内の表現に対応するかどうか調べる。これは、例えば、テキストが、見出しが明示的に転写された口述に由来する場合のように、セクション見出しが、構造化されていないテキストに既に存在する場合である。更に、テキストセクションに対するラベルの割り当ては、訓練コーパスに基づいてカウント統計に関して実施されることができる。このカウント統計は、トピックと関連するラベルとの間の相関関係を把握する。特にこのケースでは、デフォルトのラベルが、各トピックごとに指定されることができる。このデフォルトのラベルは、訓練コーパスに基づいて決定され、デフォルトのラベルがトピックと最も相関する見込みがあるものであることを表わす。

本発明の他の好適な実施例によれば、テキストセグメンテーション及びトピック及び／又はラベル割り当ての結果、並びにテキストセグメンテーションモデルの生成が、ユーザの決定に応じて変更されることができる。これは、ユーザが、テキストセグメンテーション及びテキスト内のテキストセクションへのトピック及びラベルの割り当てを変えるための完全なアクセスを有するとともに、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性を変えるためのアクセスを有することを意味する。上述の蓋然性の変更は、ユーザによって実施される決定及び／又は修正に基づいて、訓練データの連続的な改善を取り入れる。

更に、方法は、セグメント化されたテキストの手動で導かれる変更を把握する。ラベルの好適な選択又はテキストセクションへのセグメンテーションは、生成された統計モデルを変更するために更に処理されることができる。このようなケースでは、テキストセクションとトピック又はラベルとの間の訓練された相関関係が、手動で挿入される変更によって更新され又は変えられる。

以下、本発明の好適な実施例が、添付の図面を参照することによって更に詳しく説明される。

図１は、複数の語ｗ_１．．．ｗ_Ｎを含むテキスト１００のブロック図を示している。テキスト１００は、複数のセクション１０２にセグメント化されている。例えば、第１のセクション１０２は、テキストｗ_１１０４の第１の語から始まり、語ｗ_ｘ１０６で終わる。次のセクション１０２は、語のストリームの次の語ｗ_ｘ＋１から始まり、語ｗ_ｙで終わる。残りのセクション１０２のセクション境界も同様に規定される。セクション１０２は、第１の語ｗ_１１０４の位置及び最後の語ｗ_ｘ１０６の位置によって特徴づけられるそのセクション境界によって規定される。ここで、語なる表現は、語、数、文字又は他のタイプのテキスト符号をさす。

語１０１の連結されたシーケンスとして規定されるセクション１０２は、更に、トピック１０８に割り当てられる。トピック１０８は、更に、少なくとも１つのラベル１１０に関連する。概して、トピック１０８は、ラベル１１０、１１２、１１４の組に関係する。トピック１０８は、セクション１０２のセマンティックな意味を表し、ラベル１１０、１１２、１１４は、セクションの僅かに異なる見出し又はラベルに関係する。トピックの数及び名称は、予め規定されたやり方で与えられ、トピック１０８に関連するラベル１１０、１１２、１１４は、僅かに異なりうる。例えば、実験を記述する科学レポート内のセクションは、「実験」として示されるトピックに割り当てられることができるが、関連するラベルは、例えば「実験結果」、「実験方法」又は「実験装置」として、さまざまに異なって示されることができる。

訓練プロセスの間、すなわち訓練コーパスに基づくテキストセグメンテーションモデルの生成の間、注釈付けされた訓練コーパスの各セクションは、予め規定されたトピックに割り当てられなければならない。この割り当てに基づいて、テキストセグメンテーションモデルを生成する方法は、構造化されていないテキストのセグメンテーションを実施し、結果として得られるテキストセクションにラベル及びトピックを割り当てるために必要とされるテキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性、セクション長蓋然性を抽出することが可能である。訓練プロセスの間、訓練コーパスに関連するラベル又は見出しは、訓練方法によって抽出され、対応するトピックに自動的に割り当てられることができる。

図２は、訓練プロセス、すなわち注釈付けされた訓練コーパスに基づいてテキストセグメンテーションモデルを生成するためのフローチャートを示している。第１のステップ２００において、訓練テキストが、入力されなければならず、すなわち方法に与えられなければならない。テキストセグメンテーションモデルを生成する方法は、ステップ２０２を続け、ステップ２０２において、訓練テキストのセクション境界の位置が特定される。次のステップ２０４において、セクションに関連するラベルが、見つけられ、抽出される。方法は、更に、ステップ２０６において、トピックの予め規定された入力リストを受け取る。トピックのこの入力リスト及び（ステップ２０４において抽出された）セクションラベルが、ステップ２０８に与えられ、ステップ２０８は、それぞれのラベリングされたセクションを、その対応するトピックにマップする。

代替例として、訓練コーパス内のセクションが、トピックに既に割り当てられているとき、ステップ２０２、２０４及び２０８が、スキップされることができる。この場合、ラベルは抽出される必要がない（又は訓練データに存在する）。次のステップ２１０において、テキストセグメンテーションモデルの生成のための当該モデルが、訓練される。この訓練プロシージャは、各セクションのさまざまな部分に関して１又はいくつかのテキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの訓練を組み込む。訓練プロシージャの結果として、対応する蓋然性が生成される。結果として得られる蓋然性、すなわちテキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性が、最終ステップ２１２において提供される。

特に、テキスト発出モデルは、例えばセクションの最初のモデル対セクションの残りについてのモデルのように、各セクション内のそれぞれ異なるテキスト領域を区別するために訓練されることができる。

テキスト発出モデルについての特定の重み付けスキーム又はセクション長モデルについての何らかの変更のような粒度パラメータが指定されるとき、モデルは、それに応じて、訓練プロシージャの間に変更されることができる。代替例として、粒度パラメータが、セグメンテーションプロセスの間に適用されることができ、その結果、影響を及ぼされるモデルの「オンライン」の変更をもたらす。

実際的な理由のため、ステップ２１２において提供される蓋然性は、ある種の記憶手段によって記憶される。これらの蓋然性は、訓練データから抽出されることができる膨大な量の統計情報を表わす。このようにして、１つの語又は特徴的な文の予め規定されたトピックに対する相関関係だけでなく、トピックのシーケンス、或るトピックの位置及び特定のセクションの長さが、説明される。

図３は、２次元のダイナミックなプログラミングとして当業者に知られている２次元同時最適化プロシージャに基づいて、テキストセグメンテーション及びトピック割り当てを実施するためのフローチャートを示している。第１のステップ３００において、構造化されていないテキストが、入力される。次のステップ３０１において、最適化プロシージャによって必要とされる統計パラメータが、初期化される。これらの統計パラメータは、テキスト発出蓋然性、トピック推移蓋然性、セクション長蓋然性及びトピック位置蓋然性に関係する。この初期化ステップは、訓練データに基づいて訓練されたセグメンテーションモデルによって提供される情報を抽出する。従って、ステップ３０２は、ステップ３０１において実施される初期化に必要とされるパラメータを提供する。

統計パラメータの初期化の後、方法は、ステップ３０４を続ける。ステップ３０４において、テキストブロックインデックスｉ＝１を有する第１のテキストブロックが選択される。テキストブロックは、単一の語、又は例えば文全体のような語のシーケンスを含むことができる。第１のテキストブロックが、ステップ３０４において選択されたのち、トピックの組のうちのあるトピックに関係するトピックインデックスｊが、ステップ３０６においてｊ＝１に初期化される。

テキストブロックｉ及びトピックｊの所与の組み合わせについて、方法は、ステップ３０８において、最善の部分的なセグメンテーションを決定する。最善の部分的なセグメンテーションは、あるセクションが、入力されたテキストのテキストブロックｉの終わりで終わるものと仮定する。この仮定されるセクションエンドに基づいて、ステップ３０８は、テキストセグメンテーション及びトピック割り当ての全ての組み合わせについて、部分的なパススコアを決定する最適化プロシージャを実施する。ステップ３０８の最善の部分的なセグメンテーションは、テキストセグメンテーション及びトピック割り当てに関係する２つのネスト化されたループを実施し、部分的なパススコアを計算する。最善の部分的なセグメンテーションは、全ての計算されたパススコアのうち最善の部分的なパススコアを決定することによって計算される。

テキストブロックｉのトピックｊとの各々の組み合わせについて、最善の部分的なセグメンテーションが、ステップ３０８において決定され、ステップ３１０において連続的に記憶される。ステップ３１２において、トピックインデックスｊが、最大トピックインデックスｊ_ｍａｘと比較され、ｊがｊ_ｍａｘより小さいとき、方法は、トピックインデックスｊを１だけインクリメントすることによってステップ３０８に戻る。ステップ３０８において、トピックインデックスｊがｊ_ｍａｘに等しいとき、方法はステップ３１４を続ける。ステップ３１４は、テキストブロックインデックスｉを、入力されたテキストの終わりを表わす最大テキストブロックインデックスｉ_ｍａｘと比較する。ステップ３１４において、ｉがｉ_ｍａｘより小さいとき、テキストブロックインデックスｉは、１だけインクリメントされ、方法は、ステップ３０８に戻る。ステップ３１４において、ｉがｉ_ｍａｘに等しいとき、方法はステップ３１６へ進み、ステップ３１６において、テキストの最善のグローバルなセグメンテーションが実施される。このグローバルなセグメンテーションは、ステップ３１０によって記憶された全てのトピックｊについて最善の部分的なセグメンテーションを利用する。この最終の最適化ステップは、最後のトピックｊから、文書中の一般的なトピックに関する統計情報を符号化する付加の知識源として働く仮想の終了トピックまでの、最終のトピック遷移蓋然性を含むことができる。この項は、上述した例示的な式に示されている。このようにして、２次元の同時最適化プロシージャが、決定された部分的な最善のセグメンテーションの組に基づいて、テキストの最適化されたグローバルなセグメンテーションを計算することによって実施される。テキストセグメンテーション及びトピック割り当ては、同時に実施され、すなわち、テキストのセグメンテーションは、セクションに対するトピックの割り当て又はその逆に関して実施される。

図４は、ユーザ対話を取り入れるテキストセグメンテーション方法のフローチャートを示している。ステップ４００において、構造化されていないテキストが提供され、次のステップ４０４において、適当なテキストセグメンテーションが、本発明に従って実施される。次のステップ４０６において、テキストセクションに対するラベルの割り当てが、実施される。ステップ４０４からセグメント化されたテキストを受け取る代わりに、ステップ４０６は、ステップ４０２から構造化されているがラベリングされていないテキストを取得することもできる。ステップ４０６において、ラベルをテキストセクションに割り当てたのち、実行されたセグメンテーション及び割り当てが、ステップ４０８においてユーザに提供される。次のステップ４１０において、ユーザは、実施されたセグメンテーション及び／又は割り当てを変更するためのアクセスを有する。ユーザが、ステップ４１０において、実施されたセグメンテーション及び割り当てを受け入れるとき、方法は、ステップ４１６において終了する。ユーザが、ステップ４１０において、実施されたセグメンテーション及び／又は割り当てを拒絶する他の場合には、方法は、ステップ４１２を続け、ステップ４１２において、ユーザは、変更を導入することができる。ステップ４１２における変更の導入は、セグメンテーション、及びトピック及び／又はラベルのテキストセクションに対する割り当てに関係する。

次のステップ４１４において、ステップ４１２において行われた変更が、テキストセグメンテーションモデルに実現される。テキストセグメンテーションモデルに変更を実現することは、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの変更をもたらす。ステップ４１４から結果的に得られる変更されたモデルは、ステップ４０４のテキストセグメンテーションを実施し、ステップ４０６におけるテキストセクションに対するラベルの割り当てを実施するために、繰り返し使用されることができる。更に、変更されたモデルは、新たな文書の以降のセグメンテーションのために使用されることができ、従って、ユーザからのフィードバックを利用し、ユーザの好みに合わせることができる。

従って、本発明は、一般的な構造に従う組織化された文書を構造化するための方法を提供する。構造化の方法は、構造化されていない文書が、例えば音声認識又はスピーチ転写システムから得られるとき、それらの構造化されていない文書に適用されることができる。このような文書の構造化は、文書のセクションへのセグメンテーション及びこれらのセクションへのラベルの割り当てを組み込む。これらのセグメンテーション及び割り当てプロセスは、訓練データ及び／又は手動でコード化される事前の知識に基づく。訓練データの生成及び使用は、明示的に、訓練文書の構造、すなわち、セクションに対するトピックの割り当て、トピックシーケンス、トピック位置及び訓練コーパスのテキストセクションの長さを説明する。

複数のセクションに分割されているテキストのブロック図。訓練コーパスに基づくテキストセグメンテーションモデルの訓練のフローチャート。テキストセグメンテーション及びトピック割り当てを実施するためのフローチャート。ユーザ対話を取り入れたテキストセグメンテーションのフローチャート。

符号の説明

１００テキスト、１０１語、１０２セクション、１０４語、１０６語、１０８トピック、１１０ラベル、１１２ラベル、１１４ラベル、

Claims

訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成する方法であって、各テキストセクションが、トピックに割り当てられ、前記方法が、
トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成するステップと、
前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成するステップと、
前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成するステップと、
トピックに割り当てられるテキストセクションの長さを表わすセクション長蓋然性を提供するためにセクション長モデルを生成するステップと、
を含む方法。
前記訓練データが、テキストセクションにセグメント化される少なくとも１つのテキストを含み、各テキストセクションには、トピックが割り当てられる、請求項１に記載の方法。
前記トピックシーケンスモデルは、トピック遷移Ｍ−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応される、請求項１又は請求項２に記載の方法。
前記テキスト発出蓋然性が、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項１乃至請求項３のいずれか１項に記載の方法。
前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性は、前記テキストがセグメント化されるセクションの数に影響を与える粒度パラメータに関して決定される、請求項１乃至請求項４のいずれか１項に記載の方法。
請求項１乃至請求項５のいずれか１項に記載の方法に従って生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化する方法であって、
前記テキストの前記セグメント化は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性からなる蓋然性のグループのうち少なくとも１つの蓋然性を選択し、前記選択された蓋然性を使用することによって実施され、前記テキストの前記セグメント化は更に、トピックを各テキストセクションに割り当てることを含む、方法。
ラベルを各テキストセクションに割り当てることを更に含み、前記ラベルは、各テキストセクションに割り当てられる前記トピックに関連するラベルの組に属している、請求項６に記載の方法。
粒度パラメータが、前記テキストがセグメント化されるセクションの数に影響を与える、請求項６又は請求項７に記載の方法。
トピックに関連するラベルの並べられた組に従って、ラベルをセクションに割り当てるステップと、
セクション内のテキスト部分に関して、前記セクションにラベルを割り当てるステップであって、前記テキスト部分が、前記ラベルについて特徴的である、ステップと、
前記訓練データに基づいて、トピックとラベルとの間の相関関係の蓋然性を表わすカウント統計に関して、セクションにラベルを割り当てるステップと、
を更に含む、請求項７又は請求項８に記載の方法。
前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の変更が、ユーザの決定に応じて実施され、前記ユーザは、テキストセグメンテーション、及びテキストセクションに対するトピック及びラベルの割り当てを変えるためのアクセスを有する、請求項１乃至請求項９のいずれか１項に記載の方法。
注釈付けされた訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成するコンピュータプログラムであって、各テキストセクションは、トピックに割り当てられ、前記コンピュータプログラムは、
トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成する処理と、
前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成する処理と、
前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成する処理と、
トピックに割り当てられるテキストセクションの長さを表わすセクション長蓋然性を提供するためにセクション長モデルを生成する処理と、
を行うプログラム手段を含む、コンピュータプログラム。
前記トピックシーケンスモデルは、トピック遷移Ｍ−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応され、前記テキスト発出蓋然性は、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項１１に記載のコンピュータプログラム。
請求項１１又は請求項１２に記載のコンピュータプログラムによって生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化するためのコンピュータプログラムであって、前記テキストをセグメント化するための前記コンピュータプログラムは、前記テキストをセグメント化するためのプログラム手段を含み、前記プログラム手段は、前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の蓋然性のグループのうち少なくとも１つの蓋然性を選択し、前記選択された蓋然性を使用し、前記プログラム手段は、更に、各テキストセクションにトピックを割り当てるように適応される、コンピュータプログラム。
粒度パラメータは、前記テキストがセグメント化されるセクションの数を規定する、請求項１３に記載のコンピュータプログラム。
セクションに割り当てられるトピックに関連するラベルの並べられた組に従って、前記セクションにラベルを割り当てる処理と、
セクション内のテキスト部分に関して、前記セクションにラベルを割り当てる処理であって、前記テキスト部分が、前記ラベルについて特徴的である、処理と、
前記訓練データに基づいて、トピックとラベルとの間の相関蓋然性を表わすカウント統計に関して、セクションにラベルを割り当てる処理と、
を行うように適応されるプログラム手段を更に有する、請求項１３又は請求項１４に記載のコンピュータプログラム。
ユーザの決定に応じて、前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の変更を実施するプログラム手段を更に有し、前記ユーザは、前記テキストセグメンテーション、及びテキストセクションに対するトピック及びラベルの割り当てを変えるためのアクセスを有する、請求項１１乃至請求項１５のいずれか１項に記載のコンピュータプログラム。
注釈付けされた訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成するコンピュータシステムであって、各テキストセクションは、トピックに割り当てられ、前記コンピュータシステムは、
トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成する手段と、
前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成する手段と、
前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成する手段と、
トピックに割り当てられるテキストセクションの長さを示すセクション長蓋然性を提供するためにセクション長モデルを生成する手段と、
を有するコンピュータシステム。
前記トピックシーケンスモデルは、トピック遷移Ｍ−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応され、前記テキスト発出蓋然性は、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項１７に記載のコンピュータシステム。
請求項１７又は請求項１８に記載のコンピュータシステムによって生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化するコンピュータシステムであって、前記テキストをセグメント化する前記コンピュータシステムは、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性からなる蓋然性のグループのうち少なくとも１つを選択し、前記選択された蓋然性を使用するように適応される手段を有し、前記コンピュータシステム手段は、更に、トピックを各テキストセクションに割り当てるように適応される、コンピュータシステム。
セクションに割り当てられるトピックに関連するラベルの並べられた組に従って、ラベルをセクションに割り当てる手段と、
セクション内のテキスト部分に関して、ラベルをセクションに割り当てる手段であって、前記テキスト部分が、前記ラベルについて特徴的である、手段と、
前記訓練データに基づいて、テキスト部分とラベルとの間の相関蓋然性を表わすカウント統計に関して、ラベルをセクションに割り当てる手段と、
を有する請求項１９に記載のコンピュータシステム。