JP2007512609A - 文書構造化のためのテキストセグメンテーション及びトピック注釈付け - Google Patents

文書構造化のためのテキストセグメンテーション及びトピック注釈付け Download PDF

Info

Publication number
JP2007512609A
JP2007512609A JP2006540705A JP2006540705A JP2007512609A JP 2007512609 A JP2007512609 A JP 2007512609A JP 2006540705 A JP2006540705 A JP 2006540705A JP 2006540705 A JP2006540705 A JP 2006540705A JP 2007512609 A JP2007512609 A JP 2007512609A
Authority
JP
Japan
Prior art keywords
text
topic
probability
section
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006540705A
Other languages
English (en)
Inventor
ヨヘン ペテルス
カルステン メイエル
ディートリヒ クラコー
エフジェニー マトゥソフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007512609A publication Critical patent/JP2007512609A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、注釈付けされた訓練データに基づいて訓練される統計モデルを使用することによって、構造化されていないテキストを構造化するための方法、コンピュータプログラム及びコンピュータシステムに関する。テキストがセグメント化される各テキストセクションは、更に、ラベルの組に関連するトピックに割り当てられる。テキストのセグメンテーション及びテキストセクションに対するトピック及びその関連するラベルの割り当てのための統計モデルは、テキストセクションとトピックとの間の相関関係、セクション間のトピック遷移、文書内のトピック位置、及び(トピック依存の)セクション長、を明示的に説明する。それゆえ、訓練データの構造的な情報が、未知のテキストのセグメンテーション及び注釈付けを実施するために利用される。

Description

本発明は、構造化されていないテキストをセクションにセグメント化し、セマンティックなトピックを各セクションに割り当てることによって、構造化されていないテキストから構造化された文書を生成する分野に関する。
テキストを複数のセクションにセグメント化すること、及びセクションの内容を表わすラベルを各セクションに割り当てることは、テキスト文書を構造化するための基本的な且つ広範にわたる作業である。リーダに対して明確な関連性を有するテキストセクションは、関連するラベル又は見出しによって、文書内で容易に取り出されることができる。ラベルに基づいて、リーダは、迅速的に且つ効果的に、テキストセクションの内容関連性を識別することができる。残念なことに、不十分な構造化しか与えない、又はまったく構造化を与えない膨大な量のテキスト文書が存在する。
構造化されていない又は貧弱に構造化された文書によって提供される情報を集めることは、広範囲な読み取り及び/又は手の込んだサーチを必要とし、これは、リーダにとって、疲労が大きく、非常に時間がかかる。従って、広範囲な研究開発が、構造化されていないテキストに構造を与える方法及び技術に焦点を合わせられている。構造化されていないテキストの例は、記録されたスピーチをマシン処理可能なテキストに転写する音声認識システムによって生成されるテキストストリームである。
概して、テキストの構造化は、テキストセグメンテーション及びトピックの割り当ての2つの作業と考えられることができる。まず、所与のテキストは、セクション境界を挿入することによって、複数のセクションに分割される。セグメンテーションのこの第1のステップは、各セクションがセマンティックなトピックに対応するように実施されなければならない。第2のステップにおいて、テキストの各々のセクションは、セクションの内容を表わすラベルに割り当てられなければならない。テキストのセグメンテーション及びテキストセクションに対するトピックの割り当ては、同時に実施されることができ、ここで、セグメンテーションは、テキストセクションに対するトピックの割り当てに関して実施され、テキストセクションに対するトピックの割り当ては、セグメンテーションに関して実施される。
米国特許第6,052,657号明細書は、テキストストリームをセグメント化し、テキストストリーム中のトピックを識別する技法を開示している。この技法は、セクションのシーケンスを表現する訓練テキストの組を入力として利用するクラスタリング方法を使用する。ここで、セクションは、単一のトピックを扱う文の連続するストリームである。クラスタリング方法は、入力テキストのセクションを、指定された数のクラスタに分けるように設計されている。それぞれ異なるクラスタは、それぞれ異なるトピックを扱う。トピックは、クラスタリング方法を訓練テキストに適用する前に規定されない。一旦クラスタが規定されると、言語モデルが、各クラスタごとに生成される。
技法は、複数の言語モデルを使用して、テキストブロックのシーケンス(例えば文)で構成されるテキストストリームを、セグメントにセグメント化することを特徴とする。このセグメンテーションは、2つのステップで行われる:まず、各々のテキストブロックは、1つのクラスタ言語モデルに割り当てられる。そののち、テキストセクション(セグメント)が、同じクラスタ言語モデルに割り当てられる順次のテキストブロックから決定される。第1のステップのために、各々のテキストブロックは、まず、このテキストブロックに関する言語モデルスコアを生成するために、言語モデルに対してスコアリングされる。テキストブロックに関する言語モデルスコアは、テキストブロックと言語モデルとの間の相関関係を示す。第2に、テキストブロックのシーケンスが対応しうる言語モデルのそれぞれ異なるシーケンスに関する言語モデルシーケンススコアが、生成される。全てのスコア情報を組み合わせることにより、言語モデルの最善のスコアリングのシーケンスが決定され、その結果、各々の文sが、あるクラスタ言語モデルslmに割り当てられることになる。
テキストストリームのセグメント境界は、言語モデルの選択されたシーケンスにおける言語モデル変化に対応するものとして、すなわちslmi+1がslmと異なる文の遷移に対応するものとして、第2のステップにおいて識別される。
テキストセグメンテーション及び/又はトピックの識別のための上述の技法及び方法は、テキスト発出(emission)モデルと、隣接する文に割り当てられるクラスタ間の遷移に関するモデルと、の使用に焦点を合わせている。言い換えると、テキストセグメンテーション及びトピック識別は、テキストセグメントと予め規定されたトピックと間の相関関係を表わすスコア又は尤度を決定し、隣接する文のクラスタ間の相関関係を表わすスコア又は尤度を決定することによって、実施される。セクションは、通常、多くの順次の文で構成され、隣接するクラスタ間の相関関係は、1つのクラスタから同じクラスタへの遷移を含む。同じクラスタ間の遷移は、1の固定のクラスタ内の「ルーピング(looping)」として示される。セクション境界において、この「ルーピング」は終わり、すなわちセクション境界において、2つの異なるクラスタ間の遷移が生じる。
まず文をクラスタに割り当て、クラスタ変化からセクション境界を決定するという基本の方法は、いくつかの欠点を有する:方法は、例えばより離れたセクションへの依存性のような、より長いレンジにわたる情報を捕らえるために拡張されることができない。なぜなら、これらは、クラスタ割り当てが完了したあとにのみ現れるからである。また、セクション内の(例えば一般的な開始フレーズのような)下位構造は、文ごとのクラスタ割り当て方法において捕らえられることができない。更に、セクションの一般的な長さに関する明示的なモデルは、この方法に取り入れられることができない。
本発明の目的は、1又はいくつかの訓練コーパスから又は手動で符号化される事前の知識から集められる多数の統計情報を使用することによって、テキストのセグメンテーション及びトピック及び/又はラベルのテキストセクションに対する割り当てを行うための改善された方法、コンピュータプログラム製品及びコンピュータシステムを提供することである。
本発明は、訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成する方法であって、各テキストセクションが、トピックに割り当てられる、方法を提供する。テキストセグメンテーションモデルを生成する方法は、トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するために、テキスト発出モデルを生成し、テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するために、トピックシーケンスモデルを生成し、テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するために、トピック位置モデルを生成し、いくつかの特定のトピックをカバーするテキストセクションの長さを表わすセクション長蓋然性を提供するために、トピック依存のセクション長モデルを生成する。更に、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルは、完全なセクションのレベルで作用し、米国特許第6,052,657号明細書に記載されるようにテキストブロック(文)のレベルでは作用しない。
モデルは、1又はいくつかの訓練コーパスを含む訓練データに基づいて訓練される。代替例として、いくつかのモデルは、事前の知識から手動で符号化されることもできる。訓練コーパスに基づいて、方法は、テキストの部分とテキスト部分の内容を表現するセマンティックなトピックとの間の相関関係を示すテキスト発出蓋然性を決定する。
更に、方法は、割り当てられたトピックに基づいて、訓練コーパスの構造を更に利用する。訓練コーパスは、テキスト部分とトピックとの間の相関関係に関する情報だけでなく、訓練コーパスにおいてトピックが現れるシーケンスに関する情報も含む。トピックシーケンスモデルは、トピックシーケンス蓋然性を生成するために、この種の情報を利用する。トピックシーケンス蓋然性は、訓練コーパス内で第1のトピックの後に第2のトピックが続く尤度を示す。
更に、訓練コーパスの構造は、明確なセマンティックなトピックが訓練コーパス内で特定の位置に現れる尤度に関する統計情報を生成するトピック位置モデルによって利用されることができる。より具体的には、この位置モデルは、訓練コーパスからのあるテキストの第1のセクションが、任意の特定のトピックによってラベリングされ、第2のセクションが、任意の特定のトピックによってラベリングされ、第3のセクションが、任意の特定のトピックによってラベリングされる、等の蓋然性を記述する。
更に、訓練コーパスに関する他の構造的な情報が、トピック依存のセクション長蓋然性を提供するセクション長モデルによって集められる。セクション長蓋然性は、明確なトピックに割り当てられるセクションの長さに関する統計情報を提供する。データがまばらな場合、いくつかのトピックは、例えば短い、中間の長さの及び長いセクションに対応するトピックのクラスにクラスタリングされることができ、よりロバストな長さモデルが、(各トピックごとに別々に評価される代わりに)各クラスごとに評価されることができる。特別なケースとして、すべてのトピックを1つのクラスにクラスタリングして、その結果、各トピックに適用できるグローバルなセクション長モデルを与えることが、考えられる。本発明の方法は、特に、例えばトピックの予め規定される又は抑制されるシーケンスのような予め規定された外部条件によって特徴付けられるいわゆる組織化された文書に適用できる。組織化された文書は、例えば、テクニカルマニュアル、科学又は医用レポート、法律文書又はビジネス会議の筆記録であり、これらの各々は、一般的なトピックシーケンスのあとに続く。例えば、科学レポートのトピックシーケンスは、概要、導入、原理、実験、結論及びまとめのシーケンスを特徴とすることができる。特許出願のトピックシーケンスは、発明の属する技術分野、背景、概要、詳細な説明、図面の説明、図面、請求項でありうる。
訓練コーパスからの上述のトピックシーケンスモデルの生成は、それが訓練コーパスから抽出されるとき、トピックのシーケンスに焦点を合わせる。
本発明の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法、すなわち、訓練データの統計解析によってモデルを訓練する方法は、様々なタイプの組織化された文書を明示的に説明(account for)する。例えば、訓練コーパスが、異なるタイプの組織化された文書に関連する多数の訓練文書を特徴とするとき、テキストセグメンテーションモデルの生成は、異なるタイプの文書を識別し、各ドキュメントタイプに関する統計情報を別々に抽出する。例えば、訓練コーパスが、科学レポートの大きい組を提供するとき、テキスト内の第1のセクションが概要として示される、生成されたトピックシーケンス蓋然性は、ほぼ1である。同様に、文書がセクション「実験」から始まる蓋然性は、ほぼ0である。更に、トピックシーケンスモデルは、第1のトピックのあとに第2のトピックが続くという統計情報を訓練コーパスから集める。トピックシーケンスモデルは、例えば「原理」としてラベリングされるセクションのあとに「実験」としてラベリングされるセクションが続くことが多いという蓋然性を把握する。
本発明の他の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法は、更に、訓練コーパス内の特定のトピックの位置を把握する。結果として得られるトピック位置蓋然性は、明確なトピックが訓練テキストの始まりの近くに、中央に、又は終わりにあるかどうかの尤度を表わす。例えば、「結論」と示されるトピックが文書の始めに見つけられることがありうる蓋然性は、ほぼ0であるが、「結論」セクションが、文書の終わりの近くありえる蓋然性は、非常に高い。
本発明の他の好適な実施例によれば、テキストセグメンテーションモデルを生成する方法は、更に、訓練コーパス内のテキストセクションの長さの統計解析を取り入れる。アプリケーションの間、例えば、個々のセクション長が、訓練データ内の「概要」に関して見られるように2、3の文を越えないとき、「概要」として示されるセクションのセクション長蓋然性は、高い。対照的に、訓練の間に見られない限り、個々のセクションが、100より多くの文をカバーするとき、「概要」セクションに関するセクション長蓋然性は、ほぼ0である。
本発明の他の好適な実施例によれば、訓練コーパスは、テキストセクションにセグメント化されるテキストを含み、セクションの各々には、ラベルが割り当てられ、更にトピックも割り当てられる。これは、訓練コーパスが、注釈付けされた構造を具えることを意味する。ここで、ラベルは、セクションに対応する個別の見出しを表わす。対照的に、トピックは、セクションの内容に関係する。このようにして、トピックは、同じセマンティックな意味を有する見出しすなわちラベルをクラスタリングする。
例えば、科学レポート内の実験を記述するセクションは、例えば「実験」、「実験方法」、「実験装置」のように、複数の異なるやり方でラベリングされることができる。このようにして、方法は、同じセマンティックな意味を有するセクションに関係する非常に多様な明示的なラベル又は見出しを説明する。ラベルとは対照的に、トピックは、セクションの概要識別子を表わす。訓練コーパス内のテキストの各セクションは、トピックに割り当てられなければならない。更に、トピックの組、すなわちトピックの数及び特定の名前が、提供されなければならず、又は訓練コーパスに注釈付けされなければならない。
トピック名の規定及び訓練テキストに現れうるラベルのトピックに対する割り当ては、手動で又はあるクラスタリング技法によって実施されなければならない。訓練コーパスの構造に依存して、ラベル又はセクション見出しに対するテキストセクションの割り当ては、手動で及び/又は自動的に実施されることができる。例えば、訓練コーパスが、見出しをラベルリングされているセクションにセグメント化されるとき、これらの見出しは、テキストセグメンテーションモデルの訓練中に抽出されることができ、予め規定されたトピックに更に割り当てられることができる。ラベル(見出し)が存在しない場合、又はラベルからトピックへのマッピングが規定されていない場合、各セクションは、対応するトピックによって手動の注釈付けがなされなければならない。いずれの場合も、セクションと対応するトピックとの間の割り当てが、与えられなければならない。
本発明の他の好適な実施例によれば、トピックシーケンスモデルは、トピック遷移M−グラムモデルを使用することによって、複数の連続するトピック遷移を説明する。これは、トピックシーケンス蓋然性が、第1のセクションのあとに第2のセクションが続くことのみを示すバイグラムモデルに制約されないこと意味する。むしろ、シーケンス蓋然性は、訓練テキストのトピックシーケンス全体を、又は少なくともトピックのより長いレンジにわたるサブシーケンスを把握する。このようなM−グラムモデルを使用することによって、トピックシーケンス蓋然性は、第1のトピックのあとに第2のトピックが続き、第2のトピックのあとに第3のトピックが続き、第3のトピックのあとに第4のトピックが続く、等の情報を与える。トピックシーケンス蓋然性は、M次のオーダーのマルコフプロセスを使用することによりトピックシーケンスモデルを適用することによって生成される。
文書のトピックシーケンス全体を考慮に入れるトピックシーケンス蓋然性は、バイグラムモデルに基づいて生成されるトピックシーケンス蓋然性よりも、トピック遷移に関して一層信頼できる情報を与える。以下の例は、バイグラムの代わりにトリグラムを使用することからの利点を示す。アプリケーションにおいて、2つのトピック「図面の説明」及び「発明の詳細な説明」が、任意の順序で互いに隣り合って現れるとき、ペアワイズ(バイグラム)遷移が考慮される場合、トピック1(「図面の説明」)のあとにトピック2(「発明の詳細な説明」)が続き、トピック2のあとにトピック1が続くシーケンスが、もっともらしくみえる。対照的に、トピックのフルトリプル(トリグラム)が考えられる場合、同じシーケンスはとてもありそうになく、この場合、トピック1の第1の出現は、同じトピックの2位置あとに繰り返される出現を阻止する。
本発明の他の好適な実施例によれば、テキスト発出蓋然性は、テキストセクション内の特徴的なテキスト部分の位置を説明する。これは、テキストセグメンテーションモデルを生成する方法が、セクションの最初のいくつかの文の範囲内の明確な語の組み合わせ又は句を明示的に把握することを意味する。「…を要約すると」のような句又は「結論として…」は、「まとめ」又は「結論」としてラベリングされるセクションの初めに現れることが可能性が非常に高い。このようにして、文書の構造だけでなくセクションの下位構造も、注意深く解析される。
従って、完全なセクションについてのトピック特定のテキスト発出モデルだけでなく、セクションの特定の部分について設計される統計モデルも、考えられる。更に、トピック特定のテキスト発出モデルは、個々のセクションのさまざまな部分について、それぞれ異なって重み付けされることができる。
本発明の他の好適な実施例によれば、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性の決定及びセクション長蓋然性の生成は、テキストがセグメント化されるセクションの数に影響を与える粒度パラメータに関して実施される。技術的な観点から、粒度パラメータは、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの平滑化又は再重み付けを決定する。セクション長モデルの明示的な変更が、セグメンテーション粒度に影響を及ぼすために、更に用いられることができる。所与の粒度パラメータに依存して、統計モデルの生成は、テキストのより細かい又はより粗いセグメンテーションを説明する。それゆえ、粒度パラメータの助けを借りて、テキストセグメンテーション及びトピック割り当てが実施されるレベルが、変更されることができる。予め計算される平滑化された統計モデルは、より少ない記憶を必要とし、アプリケーション中のオンライン平滑化より容易にアクセス可能であるので、訓練中の統計モデルの平滑化は、テキストセグメンテーションシステムの記憶容量又はシステム負荷に関して特に有利である。
本発明の方法の上述の特徴は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性の形の訓練データの統計情報を提供するために、訓練プロシージャに焦点を合わせているが、以下では、上述の訓練プロシージャから結果的に得られるテキストセグメンテーションモデルの適用が、記述される。テキストセグメンテーションモデルの適用は、テキストセグメンテーション及びテキストセクションに対するトピックの割り当てを実施する。
本発明の好適な実施例によれば、訓練コーパスに基づいて訓練されたテキストセグメンテーションモデルは、テキストセグメンテーションの方法によって適用されることができる。テキストセグメンテーションのこの方法は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性についてのモデルを明示的に使用する。このテキストセグメンテーション方法は、更に、明確なタイプの組織化された文書に属する構造化されていないテキスト文書のセグメンテーションを実施するように設計される。このような構造化されていないテキスト文書は、例えば科学レポート又は特許出願の口述されたテキストを自動的に転写する音声認識システムからの出力としてもたらされることができる。
テキストセグメンテーションの方法は、訓練データの統計情報を提供するテキストセグメンテーションモデルを使用する。テキストセグメンテーションの方法は、テキストセグメンテーション及びトピック割り当てを実施するために、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性を利用する。
訓練プロセスの間に集められ、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びトピック依存のセクション長モデルによって提供される統計情報は、構造化されていないテキストのセグメンテーションのために明示的に使用される。テキストセグメンテーションの方法は、提供される蓋然性を処理することによって、テキストのセグメンテーションを実施する。従って、方法は、所与のテキスト部分がトピックと相関する蓋然性を決定するために、テキスト発出モデルを使用する。トピック遷移モデルによって、テキストセグメンテーションの方法は、第1のトピックに割り当てられるテキスト部分のあとに第2のトピックに割り当てられるテキスト部分が続く蓋然性を決定する。これに対応して、テキスト部分が、テキスト内のテキスト部分の位置に関してトピックに割り当てられる蓋然性を決定するために、トピック位置モデルが利用される。テキストセグメンテーションの方法は、セクションのトピック依存の長さに関する統計情報を提供するセクション長モデルを更に使用する。
構造化されていないテキストのテキストセクションへのセグメンテーション、及びこれらのテキストセクションの予め規定されたトピックに対する割り当ては、訓練データに基づくテキストセグメンテーションモデルの生成プロセスの間に集められる完全な統計情報を説明する。
本発明の他の好適な実施例によれば、テキストセグメンテーションモデルの適用は、セクション境界を越えて且つ割り当てられたトピックを超えて、2次元同時最適化によって実施される。この最適化は、N語w :=w,...,wの所与の語ストリームを、トピックt :=t,...,tによってラベリングされるとともに、セクション終了位置、すなわち語インデックスn :=n,...nによって特徴付けられるセクションに最適にセグメント化することを見つけることを目的とする。テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性に関してテキストの最適なセグメンテーションを見つける最終的な作業は、以下の最適化基準となる:
Figure 2007512609
上式で、項p(t|tk−1)は、トピック遷移蓋然性を反映し、Δn=(n−nk−1)を有する項p(Δn|t)は、セクション長蓋然性を表し、項p(w|t,n−nk−1)は、テキストセクション内の語のシーケンスの位置依存を考慮するテキスト発出蓋然性を反映する。簡潔さの理由で、ここに示される蓋然性は、バイグラム蓋然性として与えられる。本発明の方法は、更に、トリグラム又はM−グラム蓋然性及び/又は各トピックの位置依存を説明し、それに対応してカスタマイズされることができる。
例えば、テキストの第1の部分が第1のトピックに関連するテキスト発出蓋然性が、0.5に等しく、テキストストリームの第2の部分が、0.5のテキスト発出蓋然性をもって第3のトピックに関連し、テキストストリームの同じ第2部分が、0.3のテキスト発出蓋然性をもって第2のトピックと相関するとき、テキストセグメンテーションの方法は、テキストストリームの第1の部分に第1のトピックを割り当て、テキストストリームの第2の部分に第3のトピックを割り当てる。トピック1からトピック2への遷移について0.9のトピック遷移蓋然性を有し、トピック1からトピック3への遷移について0.2のトピック遷移蓋然性を有する、トピックシーケンス蓋然性を更に考慮に入れることにより、テキストセグメンテーションの方法は、テキストストリームの第2の部分が、第3のトピックの代わりに第2のトピックに割り当てられることを、決定することができる。
テキストセクションに対するトピックの割り当てだけでなく、テキストのテキストセクション自体へのセグメンテーションも、テキスト発出、トピックシーケンス、トピック位置及びセクション長に関係する統計モデルによって提供される蓋然性を利用する。更に、トピックシーケンス蓋然性は、トピック遷移M−グラムモデルに明示的に基づくこともできる。それゆえ、トピックシーケンス蓋然性は、第1及び第2のトピック間の遷移の情報を提供するだけではなく、事実上、潜在的にテキスト文書全体をカバーしつつ、複数トピック間の連続する遷移の統計情報を提供する。
本発明の他の好適な実施例によれば、構造化されていない文書のセグメンテーション及びテキストセクションに対するトピックの割り当ては、トピック位置蓋然性に関して実施される。例えば、テキスト発出蓋然性及びトピックシーケンス蓋然性に従って、テキストセグメンテーション及びトピック割り当ての2又はそれ以上の異なる構成が、同様の蓋然性を特徴とするとき、トピック位置蓋然性が、これらの2つの構成間の決定基準の役目を果たすこともできる。
例えば、組み合わせられたテキスト発出蓋然性及びトピックシーケンス蓋然性が、トピック1のあとにトピック2が続くというテキストセグメンテーションの構成について0.5の組み合わせられた蓋然性を与え、更にトピック1のあとにトピック3が続くという構成について0.45の組み合わせられた蓋然性を与えるとき、トピック位置蓋然性は、正しい決定を行うために他の統計情報を提供することができる。このケースにおいて、トピック3のトピック位置蓋然性が、トピック2のトピック位置蓋然性をはるかに上回るとき、トピック1のあとにトピック3が続く構成は、トピック1のあとにトピック2が続く他の構成よりもっともらしくなる。
本発明の他の好適な実施例によれば、セクション長蓋然性が、更に、テキストセグメンテーション及びトピック割り当てのために利用されることができる。例えば、テキスト発出蓋然性に従って、テキストセグメンテーション及びトピック割り当ての第1の構成のトピックシーケンス蓋然性及び位置蓋然性が、第2の構成よりわずかに高い蓋然性を有するとき、セクション長蓋然性は、更なる決定基準の役目を果たすことができる付加情報を提供することができる。
例えば、第1の構成内で、第1のセクションが、「概要」セクションの一般的な長さをはるかに越える長さを有する「概要」トピックとして割り当てられるとき、この第1の構成は、セクション長蓋然性に従って、あまり現実的でなさそうである。セクション長蓋然性を評価し、説明するとき、テキストセグメンテーション及びトピック割り当ての方法は、このケースにおいて、異なる構成を決定することができる。
本発明の他の好適な実施例によれば、テキストセグメンテーション及びテキストセクションの予め規定されたトピックへの割り当ては、更に、セクションの下位構造を説明する。テキスト発出モデルの特徴的な能力は、あるトピック特定の表現が、セクションの開始部分に一般に生ずるという事実を利用することによって、かなり強化されることができる。この事実は、セクションの規定された部分について指定されるテキスト発出モデルを明示的に使用することによって、利用されることができる。更に、セクションの明確な部分内のそれぞれ異なる蓋然性の重み又は影響のバリエーションが、適用されることができる。
他のトピックにより密接に関連するいくつかのキーワードが現れる場合、長いセクションの「本体」において多くの語のテキスト発出蓋然性の重みを下げることが、例えば他のトピックへの局所的な遷移を回避する。適当な重み付け技法は、トピック変化を示す十分に多くの語を観察したあとにのみ、局所的に「最善の」トピックへの多くの局所的な遷移を有する積極的なセグメンテーションから、より保守的なセグメンテーションに、セグメンテーションの粒度を制御するために更に使用されることができる。このような重み付け技法は、各々の語の蓋然性タームの単純な(位置依存の)潜在的なダウンスケーリング、又はグローバルな(トピック依存でない)モデルによるトピック特定のモデルの線形又は対数線形補間のような平滑化技法を含む。
本発明の他の好適な実施例によれば、テキストセグメンテーションの方法は、更に、各テキストセクションにラベルを割り当てる。テキストセクションに割り当てられるラベルは、前記テキストセクションに割り当てられるトピックに関連するラベルの組から選択される。トピックが一般用語を表し、セクションのセマンティックな意味に関係するのに対して、ラベルは、セクションの具体的な見出しを表わす。ラベルは、個人の好みに従って複数の個別の見出しを表わすことができるのに対して、トピックは、予め規定されたやり方で与えられ、構造化されていないテキストのセグメンテーション及び構造化のために使用される。
本発明の他の好ましい実施例によれば、セグメンテーションの粒度は、ユーザの好みに従って指定されることができる粒度パラメータによって、調整されることができる。粒度パラメータは、文書のより細かい又はより粗いセグメンテーションを指定し、その結果、多かれ少なかれ文書のラベル又は見出しの挿入をもたらす。テキスト発出モデルに関する上述の重み付けスキームの他に、セグメンテーション粒度は、また、変更されるセクション長モデルによって、又は文書ごとに期待されるセクション数に関する付加の明示的なモデルによって、制御されることもできる。
本発明の他の好適な実施例によれば、ラベルが、テキストセクションに割り当てられているトピックに関連するラベルの並べられた組に従って、テキストセクションに割り当てられることができる。一般に、ラベルの組全体が、トピックに関連する。各テキストセクションは、トピックに割り当てられるので、それは、また、トピックに関連するラベルの対応する組に間接的に割り当てられる。方法は、ここで、ラベルの組の中から1つのラベルを選択し、選択されたラベルをテキストセクションに割り当てなければならず、すなわち、テキストセクションのための見出しとして、ラベルを挿入しなければならない。
ラベルの組からの単一のラベルの選択は、さまざまな異なるやり方で実施されることができる。例えば、ラベルの組が、並べられたやり方で提供されるとき、ラベルの並べられた組のうちの第1のラベルが、当該テキストセクションに割り当てられる。代替例として、方法は、ラベルの提供される組の中のラベルが、当該セクション内の表現に対応するかどうか調べる。これは、例えば、テキストが、見出しが明示的に転写された口述に由来する場合のように、セクション見出しが、構造化されていないテキストに既に存在する場合である。更に、テキストセクションに対するラベルの割り当ては、訓練コーパスに基づいてカウント統計に関して実施されることができる。このカウント統計は、トピックと関連するラベルとの間の相関関係を把握する。特にこのケースでは、デフォルトのラベルが、各トピックごとに指定されることができる。このデフォルトのラベルは、訓練コーパスに基づいて決定され、デフォルトのラベルがトピックと最も相関する見込みがあるものであることを表わす。
本発明の他の好適な実施例によれば、テキストセグメンテーション及びトピック及び/又はラベル割り当ての結果、並びにテキストセグメンテーションモデルの生成が、ユーザの決定に応じて変更されることができる。これは、ユーザが、テキストセグメンテーション及びテキスト内のテキストセクションへのトピック及びラベルの割り当てを変えるための完全なアクセスを有するとともに、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性を変えるためのアクセスを有することを意味する。上述の蓋然性の変更は、ユーザによって実施される決定及び/又は修正に基づいて、訓練データの連続的な改善を取り入れる。
更に、方法は、セグメント化されたテキストの手動で導かれる変更を把握する。ラベルの好適な選択又はテキストセクションへのセグメンテーションは、生成された統計モデルを変更するために更に処理されることができる。このようなケースでは、テキストセクションとトピック又はラベルとの間の訓練された相関関係が、手動で挿入される変更によって更新され又は変えられる。
以下、本発明の好適な実施例が、添付の図面を参照することによって更に詳しく説明される。
図1は、複数の語w...wを含むテキスト100のブロック図を示している。テキスト100は、複数のセクション102にセグメント化されている。例えば、第1のセクション102は、テキストw 104の第1の語から始まり、語w 106で終わる。次のセクション102は、語のストリームの次の語wx+1から始まり、語wで終わる。残りのセクション102のセクション境界も同様に規定される。セクション102は、第1の語w 104の位置及び最後の語w 106の位置によって特徴づけられるそのセクション境界によって規定される。ここで、語なる表現は、語、数、文字又は他のタイプのテキスト符号をさす。
語101の連結されたシーケンスとして規定されるセクション102は、更に、トピック108に割り当てられる。トピック108は、更に、少なくとも1つのラベル110に関連する。概して、トピック108は、ラベル110、112、114の組に関係する。トピック108は、セクション102のセマンティックな意味を表し、ラベル110、112、114は、セクションの僅かに異なる見出し又はラベルに関係する。トピックの数及び名称は、予め規定されたやり方で与えられ、トピック108に関連するラベル110、112、114は、僅かに異なりうる。例えば、実験を記述する科学レポート内のセクションは、「実験」として示されるトピックに割り当てられることができるが、関連するラベルは、例えば「実験結果」、「実験方法」又は「実験装置」として、さまざまに異なって示されることができる。
訓練プロセスの間、すなわち訓練コーパスに基づくテキストセグメンテーションモデルの生成の間、注釈付けされた訓練コーパスの各セクションは、予め規定されたトピックに割り当てられなければならない。この割り当てに基づいて、テキストセグメンテーションモデルを生成する方法は、構造化されていないテキストのセグメンテーションを実施し、結果として得られるテキストセクションにラベル及びトピックを割り当てるために必要とされるテキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性、セクション長蓋然性を抽出することが可能である。訓練プロセスの間、訓練コーパスに関連するラベル又は見出しは、訓練方法によって抽出され、対応するトピックに自動的に割り当てられることができる。
図2は、訓練プロセス、すなわち注釈付けされた訓練コーパスに基づいてテキストセグメンテーションモデルを生成するためのフローチャートを示している。第1のステップ200において、訓練テキストが、入力されなければならず、すなわち方法に与えられなければならない。テキストセグメンテーションモデルを生成する方法は、ステップ202を続け、ステップ202において、訓練テキストのセクション境界の位置が特定される。次のステップ204において、セクションに関連するラベルが、見つけられ、抽出される。方法は、更に、ステップ206において、トピックの予め規定された入力リストを受け取る。トピックのこの入力リスト及び(ステップ204において抽出された)セクションラベルが、ステップ208に与えられ、ステップ208は、それぞれのラベリングされたセクションを、その対応するトピックにマップする。
代替例として、訓練コーパス内のセクションが、トピックに既に割り当てられているとき、ステップ202、204及び208が、スキップされることができる。この場合、ラベルは抽出される必要がない(又は訓練データに存在する)。次のステップ210において、テキストセグメンテーションモデルの生成のための当該モデルが、訓練される。この訓練プロシージャは、各セクションのさまざまな部分に関して1又はいくつかのテキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの訓練を組み込む。訓練プロシージャの結果として、対応する蓋然性が生成される。結果として得られる蓋然性、すなわちテキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性が、最終ステップ212において提供される。
特に、テキスト発出モデルは、例えばセクションの最初のモデル対セクションの残りについてのモデルのように、各セクション内のそれぞれ異なるテキスト領域を区別するために訓練されることができる。
テキスト発出モデルについての特定の重み付けスキーム又はセクション長モデルについての何らかの変更のような粒度パラメータが指定されるとき、モデルは、それに応じて、訓練プロシージャの間に変更されることができる。代替例として、粒度パラメータが、セグメンテーションプロセスの間に適用されることができ、その結果、影響を及ぼされるモデルの「オンライン」の変更をもたらす。
実際的な理由のため、ステップ212において提供される蓋然性は、ある種の記憶手段によって記憶される。これらの蓋然性は、訓練データから抽出されることができる膨大な量の統計情報を表わす。このようにして、1つの語又は特徴的な文の予め規定されたトピックに対する相関関係だけでなく、トピックのシーケンス、或るトピックの位置及び特定のセクションの長さが、説明される。
図3は、2次元のダイナミックなプログラミングとして当業者に知られている2次元同時最適化プロシージャに基づいて、テキストセグメンテーション及びトピック割り当てを実施するためのフローチャートを示している。第1のステップ300において、構造化されていないテキストが、入力される。次のステップ301において、最適化プロシージャによって必要とされる統計パラメータが、初期化される。これらの統計パラメータは、テキスト発出蓋然性、トピック推移蓋然性、セクション長蓋然性及びトピック位置蓋然性に関係する。この初期化ステップは、訓練データに基づいて訓練されたセグメンテーションモデルによって提供される情報を抽出する。従って、ステップ302は、ステップ301において実施される初期化に必要とされるパラメータを提供する。
統計パラメータの初期化の後、方法は、ステップ304を続ける。ステップ304において、テキストブロックインデックスi=1を有する第1のテキストブロックが選択される。テキストブロックは、単一の語、又は例えば文全体のような語のシーケンスを含むことができる。第1のテキストブロックが、ステップ304において選択されたのち、トピックの組のうちのあるトピックに関係するトピックインデックスjが、ステップ306においてj=1に初期化される。
テキストブロックi及びトピックjの所与の組み合わせについて、方法は、ステップ308において、最善の部分的なセグメンテーションを決定する。最善の部分的なセグメンテーションは、あるセクションが、入力されたテキストのテキストブロックiの終わりで終わるものと仮定する。この仮定されるセクションエンドに基づいて、ステップ308は、テキストセグメンテーション及びトピック割り当ての全ての組み合わせについて、部分的なパススコアを決定する最適化プロシージャを実施する。ステップ308の最善の部分的なセグメンテーションは、テキストセグメンテーション及びトピック割り当てに関係する2つのネスト化されたループを実施し、部分的なパススコアを計算する。最善の部分的なセグメンテーションは、全ての計算されたパススコアのうち最善の部分的なパススコアを決定することによって計算される。
テキストブロックiのトピックjとの各々の組み合わせについて、最善の部分的なセグメンテーションが、ステップ308において決定され、ステップ310において連続的に記憶される。ステップ312において、トピックインデックスjが、最大トピックインデックスjmaxと比較され、jがjmaxより小さいとき、方法は、トピックインデックスjを1だけインクリメントすることによってステップ308に戻る。ステップ308において、トピックインデックスjがjmaxに等しいとき、方法はステップ314を続ける。ステップ314は、テキストブロックインデックスiを、入力されたテキストの終わりを表わす最大テキストブロックインデックスimaxと比較する。ステップ314において、iがimaxより小さいとき、テキストブロックインデックスiは、1だけインクリメントされ、方法は、ステップ308に戻る。ステップ314において、iがimaxに等しいとき、方法はステップ316へ進み、ステップ316において、テキストの最善のグローバルなセグメンテーションが実施される。このグローバルなセグメンテーションは、ステップ310によって記憶された全てのトピックjについて最善の部分的なセグメンテーションを利用する。この最終の最適化ステップは、最後のトピックjから、文書中の一般的なトピックに関する統計情報を符号化する付加の知識源として働く仮想の終了トピックまでの、最終のトピック遷移蓋然性を含むことができる。この項は、上述した例示的な式に示されている。このようにして、2次元の同時最適化プロシージャが、決定された部分的な最善のセグメンテーションの組に基づいて、テキストの最適化されたグローバルなセグメンテーションを計算することによって実施される。テキストセグメンテーション及びトピック割り当ては、同時に実施され、すなわち、テキストのセグメンテーションは、セクションに対するトピックの割り当て又はその逆に関して実施される。
図4は、ユーザ対話を取り入れるテキストセグメンテーション方法のフローチャートを示している。ステップ400において、構造化されていないテキストが提供され、次のステップ404において、適当なテキストセグメンテーションが、本発明に従って実施される。次のステップ406において、テキストセクションに対するラベルの割り当てが、実施される。ステップ404からセグメント化されたテキストを受け取る代わりに、ステップ406は、ステップ402から構造化されているがラベリングされていないテキストを取得することもできる。ステップ406において、ラベルをテキストセクションに割り当てたのち、実行されたセグメンテーション及び割り当てが、ステップ408においてユーザに提供される。次のステップ410において、ユーザは、実施されたセグメンテーション及び/又は割り当てを変更するためのアクセスを有する。ユーザが、ステップ410において、実施されたセグメンテーション及び割り当てを受け入れるとき、方法は、ステップ416において終了する。ユーザが、ステップ410において、実施されたセグメンテーション及び/又は割り当てを拒絶する他の場合には、方法は、ステップ412を続け、ステップ412において、ユーザは、変更を導入することができる。ステップ412における変更の導入は、セグメンテーション、及びトピック及び/又はラベルのテキストセクションに対する割り当てに関係する。
次のステップ414において、ステップ412において行われた変更が、テキストセグメンテーションモデルに実現される。テキストセグメンテーションモデルに変更を実現することは、テキスト発出モデル、トピックシーケンスモデル、トピック位置モデル及びセクション長モデルの変更をもたらす。ステップ414から結果的に得られる変更されたモデルは、ステップ404のテキストセグメンテーションを実施し、ステップ406におけるテキストセクションに対するラベルの割り当てを実施するために、繰り返し使用されることができる。更に、変更されたモデルは、新たな文書の以降のセグメンテーションのために使用されることができ、従って、ユーザからのフィードバックを利用し、ユーザの好みに合わせることができる。
従って、本発明は、一般的な構造に従う組織化された文書を構造化するための方法を提供する。構造化の方法は、構造化されていない文書が、例えば音声認識又はスピーチ転写システムから得られるとき、それらの構造化されていない文書に適用されることができる。このような文書の構造化は、文書のセクションへのセグメンテーション及びこれらのセクションへのラベルの割り当てを組み込む。これらのセグメンテーション及び割り当てプロセスは、訓練データ及び/又は手動でコード化される事前の知識に基づく。訓練データの生成及び使用は、明示的に、訓練文書の構造、すなわち、セクションに対するトピックの割り当て、トピックシーケンス、トピック位置及び訓練コーパスのテキストセクションの長さを説明する。
複数のセクションに分割されているテキストのブロック図。 訓練コーパスに基づくテキストセグメンテーションモデルの訓練のフローチャート。 テキストセグメンテーション及びトピック割り当てを実施するためのフローチャート。 ユーザ対話を取り入れたテキストセグメンテーションのフローチャート。
符号の説明
100 テキスト、101 語、102 セクション、104 語、106 語、108 トピック、110 ラベル、112 ラベル、114 ラベル、

Claims (20)

  1. 訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成する方法であって、各テキストセクションが、トピックに割り当てられ、前記方法が、
    トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成するステップと、
    前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成するステップと、
    前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成するステップと、
    トピックに割り当てられるテキストセクションの長さを表わすセクション長蓋然性を提供するためにセクション長モデルを生成するステップと、
    を含む方法。
  2. 前記訓練データが、テキストセクションにセグメント化される少なくとも1つのテキストを含み、各テキストセクションには、トピックが割り当てられる、請求項1に記載の方法。
  3. 前記トピックシーケンスモデルは、トピック遷移M−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応される、請求項1又は請求項2に記載の方法。
  4. 前記テキスト発出蓋然性が、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項1乃至請求項3のいずれか1項に記載の方法。
  5. 前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性は、前記テキストがセグメント化されるセクションの数に影響を与える粒度パラメータに関して決定される、請求項1乃至請求項4のいずれか1項に記載の方法。
  6. 請求項1乃至請求項5のいずれか1項に記載の方法に従って生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化する方法であって、
    前記テキストの前記セグメント化は、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性からなる蓋然性のグループのうち少なくとも1つの蓋然性を選択し、前記選択された蓋然性を使用することによって実施され、前記テキストの前記セグメント化は更に、トピックを各テキストセクションに割り当てることを含む、方法。
  7. ラベルを各テキストセクションに割り当てることを更に含み、前記ラベルは、各テキストセクションに割り当てられる前記トピックに関連するラベルの組に属している、請求項6に記載の方法。
  8. 粒度パラメータが、前記テキストがセグメント化されるセクションの数に影響を与える、請求項6又は請求項7に記載の方法。
  9. トピックに関連するラベルの並べられた組に従って、ラベルをセクションに割り当てるステップと、
    セクション内のテキスト部分に関して、前記セクションにラベルを割り当てるステップであって、前記テキスト部分が、前記ラベルについて特徴的である、ステップと、
    前記訓練データに基づいて、トピックとラベルとの間の相関関係の蓋然性を表わすカウント統計に関して、セクションにラベルを割り当てるステップと、
    を更に含む、請求項7又は請求項8に記載の方法。
  10. 前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の変更が、ユーザの決定に応じて実施され、前記ユーザは、テキストセグメンテーション、及びテキストセクションに対するトピック及びラベルの割り当てを変えるためのアクセスを有する、請求項1乃至請求項9のいずれか1項に記載の方法。
  11. 注釈付けされた訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成するコンピュータプログラムであって、各テキストセクションは、トピックに割り当てられ、前記コンピュータプログラムは、
    トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成する処理と、
    前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成する処理と、
    前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成する処理と、
    トピックに割り当てられるテキストセクションの長さを表わすセクション長蓋然性を提供するためにセクション長モデルを生成する処理と、
    を行うプログラム手段を含む、コンピュータプログラム。
  12. 前記トピックシーケンスモデルは、トピック遷移M−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応され、前記テキスト発出蓋然性は、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項11に記載のコンピュータプログラム。
  13. 請求項11又は請求項12に記載のコンピュータプログラムによって生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化するためのコンピュータプログラムであって、前記テキストをセグメント化するための前記コンピュータプログラムは、前記テキストをセグメント化するためのプログラム手段を含み、前記プログラム手段は、前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の蓋然性のグループのうち少なくとも1つの蓋然性を選択し、前記選択された蓋然性を使用し、前記プログラム手段は、更に、各テキストセクションにトピックを割り当てるように適応される、コンピュータプログラム。
  14. 粒度パラメータは、前記テキストがセグメント化されるセクションの数を規定する、請求項13に記載のコンピュータプログラム。
  15. セクションに割り当てられるトピックに関連するラベルの並べられた組に従って、前記セクションにラベルを割り当てる処理と、
    セクション内のテキスト部分に関して、前記セクションにラベルを割り当てる処理であって、前記テキスト部分が、前記ラベルについて特徴的である、処理と、
    前記訓練データに基づいて、トピックとラベルとの間の相関蓋然性を表わすカウント統計に関して、セクションにラベルを割り当てる処理と、
    を行うように適応されるプログラム手段を更に有する、請求項13又は請求項14に記載のコンピュータプログラム。
  16. ユーザの決定に応じて、前記テキスト発出蓋然性、前記トピックシーケンス蓋然性、前記トピック位置蓋然性及び前記セクション長蓋然性の変更を実施するプログラム手段を更に有し、前記ユーザは、前記テキストセグメンテーション、及びテキストセクションに対するトピック及びラベルの割り当てを変えるためのアクセスを有する、請求項11乃至請求項15のいずれか1項に記載のコンピュータプログラム。
  17. 注釈付けされた訓練データに基づいて、テキストをテキストセクションにセグメント化するためのテキストセグメンテーションモデルを生成するコンピュータシステムであって、各テキストセクションは、トピックに割り当てられ、前記コンピュータシステムは、
    トピックと相関するテキストセクションを表わすテキスト発出蓋然性を提供するためにテキスト発出モデルを生成する手段と、
    前記テキスト内のトピックのシーケンスの蓋然性を表わすトピックシーケンス蓋然性を提供するためにトピックシーケンスモデルを生成する手段と、
    前記テキスト内のトピックの位置を表わすトピック位置蓋然性を提供するためにトピック位置モデルを生成する手段と、
    トピックに割り当てられるテキストセクションの長さを示すセクション長蓋然性を提供するためにセクション長モデルを生成する手段と、
    を有するコンピュータシステム。
  18. 前記トピックシーケンスモデルは、トピック遷移M−グラムモデルを使用することによって、複数の連続するトピック遷移を説明するように適応され、前記テキスト発出蓋然性は、更に、テキストセクション内の特徴的なテキスト部分の位置に関して決定される、請求項17に記載のコンピュータシステム。
  19. 請求項17又は請求項18に記載のコンピュータシステムによって生成されるテキストセグメンテーションモデルを使用することによって、テキストをテキストセクションにセグメント化するコンピュータシステムであって、前記テキストをセグメント化する前記コンピュータシステムは、テキスト発出蓋然性、トピックシーケンス蓋然性、トピック位置蓋然性及びセクション長蓋然性からなる蓋然性のグループのうち少なくとも1つを選択し、前記選択された蓋然性を使用するように適応される手段を有し、前記コンピュータシステム手段は、更に、トピックを各テキストセクションに割り当てるように適応される、コンピュータシステム。
  20. セクションに割り当てられるトピックに関連するラベルの並べられた組に従って、ラベルをセクションに割り当てる手段と、
    セクション内のテキスト部分に関して、ラベルをセクションに割り当てる手段であって、前記テキスト部分が、前記ラベルについて特徴的である、手段と、
    前記訓練データに基づいて、テキスト部分とラベルとの間の相関蓋然性を表わすカウント統計に関して、ラベルをセクションに割り当てる手段と、
    を有する請求項19に記載のコンピュータシステム。
JP2006540705A 2003-11-21 2004-11-12 文書構造化のためのテキストセグメンテーション及びトピック注釈付け Withdrawn JP2007512609A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104315 2003-11-21
PCT/IB2004/052404 WO2005050472A2 (en) 2003-11-21 2004-11-12 Text segmentation and topic annotation for document structuring

Publications (1)

Publication Number Publication Date
JP2007512609A true JP2007512609A (ja) 2007-05-17

Family

ID=34610119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006540705A Withdrawn JP2007512609A (ja) 2003-11-21 2004-11-12 文書構造化のためのテキストセグメンテーション及びトピック注釈付け

Country Status (5)

Country Link
US (1) US20070260564A1 (ja)
EP (1) EP1687737A2 (ja)
JP (1) JP2007512609A (ja)
CN (1) CN1894686A (ja)
WO (1) WO2005050472A2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071406A (ja) * 2014-09-26 2016-05-09 大日本印刷株式会社 ラベル付与装置、ラベル付与方法、及びプログラム
KR20190139970A (ko) * 2017-05-15 2019-12-18 이베이 인크. 쿼리 세그먼트화를 위한 방법 및 시스템
JP2020074020A (ja) * 2020-01-08 2020-05-14 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
JP2020154661A (ja) * 2019-03-19 2020-09-24 株式会社リコー テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム
JP2021111342A (ja) * 2020-01-14 2021-08-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド テキストワードセグメンテーションの方法、装置、デバイスおよび媒体

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796390B2 (en) * 2006-07-03 2020-10-06 3M Innovative Properties Company System and method for medical coding of vascular interventional radiology procedures
US8671104B2 (en) 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8090669B2 (en) * 2008-05-06 2012-01-03 Microsoft Corporation Adaptive learning framework for data correction
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US9135603B2 (en) 2010-06-07 2015-09-15 Quora, Inc. Methods and systems for merging topics assigned to content items in an online application
CN102945228B (zh) * 2012-10-29 2016-07-06 广西科技大学 一种基于文本分割技术的多文档文摘方法
CN103902524A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子边界识别方法
US9575958B1 (en) * 2013-05-02 2017-02-21 Athena Ann Smyros Differentiation testing
US9058374B2 (en) 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
US10503480B2 (en) * 2014-04-30 2019-12-10 Ent. Services Development Corporation Lp Correlation based instruments discovery
US20160070692A1 (en) * 2014-09-10 2016-03-10 Microsoft Corporation Determining segments for documents
EP3304342A4 (en) * 2015-05-29 2019-01-16 Microsoft Technology Licensing, LLC COMMENTARY MESSAGE READER
CN107924398B (zh) 2015-05-29 2022-04-29 微软技术许可有限责任公司 用于提供以评论为中心的新闻阅读器的系统和方法
US10095779B2 (en) * 2015-06-08 2018-10-09 International Business Machines Corporation Structured representation and classification of noisy and unstructured tickets in service delivery
CN106649345A (zh) 2015-10-30 2017-05-10 微软技术许可有限责任公司 用于新闻的自动会话创建器
CN107229609B (zh) * 2016-03-25 2021-08-13 佳能株式会社 用于分割文本的方法和设备
CN107305541B (zh) * 2016-04-20 2021-05-04 科大讯飞股份有限公司 语音识别文本分段方法及装置
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US10372821B2 (en) * 2017-03-17 2019-08-06 Adobe Inc. Identification of reading order text segments with a probabilistic language model
US10713519B2 (en) 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US10726061B2 (en) * 2017-11-17 2020-07-28 International Business Machines Corporation Identifying text for labeling utilizing topic modeling-based text clustering
US11276407B2 (en) 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
US11494555B2 (en) * 2019-03-29 2022-11-08 Konica Minolta Business Solutions U.S.A., Inc. Identifying section headings in a document
CN110110326B (zh) * 2019-04-25 2020-10-27 西安交通大学 一种基于主题信息的文本切割方法
US11775775B2 (en) * 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
CN113204956B (zh) * 2021-07-06 2021-10-08 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
JP2023035617A (ja) * 2021-09-01 2023-03-13 株式会社東芝 コミュニケーションデータログ処理装置、方法及びプログラム
CN115600577B (zh) * 2022-10-21 2023-05-23 文灵科技(北京)有限公司 一种用于新闻稿件标注的事件分割方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052657A (en) 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071406A (ja) * 2014-09-26 2016-05-09 大日本印刷株式会社 ラベル付与装置、ラベル付与方法、及びプログラム
KR20190139970A (ko) * 2017-05-15 2019-12-18 이베이 인크. 쿼리 세그먼트화를 위한 방법 및 시스템
KR102402340B1 (ko) 2017-05-15 2022-05-27 이베이 인크. 쿼리 세그먼트화를 위한 방법 및 시스템
US11640436B2 (en) 2017-05-15 2023-05-02 Ebay Inc. Methods and systems for query segmentation
JP2020154661A (ja) * 2019-03-19 2020-09-24 株式会社リコー テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム
JP7293767B2 (ja) 2019-03-19 2023-06-20 株式会社リコー テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム
JP2020074020A (ja) * 2020-01-08 2020-05-14 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
JP2021111342A (ja) * 2020-01-14 2021-08-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド テキストワードセグメンテーションの方法、装置、デバイスおよび媒体
JP7197542B2 (ja) 2020-01-14 2022-12-27 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド テキストワードセグメンテーションの方法、装置、デバイスおよび媒体

Also Published As

Publication number Publication date
US20070260564A1 (en) 2007-11-08
EP1687737A2 (en) 2006-08-09
WO2005050472A2 (en) 2005-06-02
WO2005050472A3 (en) 2006-07-20
CN1894686A (zh) 2007-01-10

Similar Documents

Publication Publication Date Title
JP2007512609A (ja) 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
US8041566B2 (en) Topic specific models for text formatting and speech recognition
US7542903B2 (en) Systems and methods for determining predictive models of discourse functions
US8688448B2 (en) Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
US7949532B2 (en) Conversation controller
JP4849663B2 (ja) 会話制御装置
CN101223572B (zh) 用于语音合成的系统、程序和控制方法
US20070244690A1 (en) Clustering of Text for Structuring of Text Documents and Training of Language Models
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
JP2007115143A (ja) 会話制御装置
WO2015171875A1 (en) Language model optimization for in-domain application
US11645447B2 (en) Encoding textual information for text analysis
CN113239666B (zh) 一种文本相似度计算方法及系统
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN111445899A (zh) 语音情绪识别方法、装置及存储介质
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Zlacký et al. Text categorization with latent Dirichlet allocation
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP3832613B2 (ja) 自動要約装置および自動要約プログラムを記録した記録媒体
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP7334293B1 (ja) 情報処理システム、情報処理方法及びプログラム
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205