JP3726742B2

JP3726742B2 - 文書の一般テキストサマリを作成する方法およびシステム

Info

Publication number: JP3726742B2
Application number: JP2001356813A
Authority: JP
Inventors: キョウイコウ; リュウシン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-12-12
Filing date: 2001-11-22
Publication date: 2005-12-14
Anticipated expiration: 2021-11-22
Also published as: US7607083B2; JP2005251211A; JP2002197096A; US20020138528A1

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に、文書内容のサマリ作成（サマライゼーション）に関し、特に、適合性測定技術および潜在意味分析技術の実装によりテキスト文書の内容を要約（サマライズ）するシステムおよび方法に関する。
【０００２】
【従来の技術】
ワールドワイドウェブ（ＷＷＷ）の爆発的な成長は、情報伝播の速度および規模を急激に増大させている。大量のアクセス可能なテキスト文書が現在インターネット上で利用可能であるため、従来の情報検索（ＩＲ：Information Retrieval）技術は、適合性のある情報を効果的に発見するにはますます不十分になっている。最近では、インターネット上でのキーワードに基づく検索は、数百（さらには数千）ヒットの結果を返すことも全く普通のことになっており、これにはユーザはしばしば圧倒される。ユーザが大量の情報のふるい分けをするのを支援し、最も適合性の高い文書をすばやく識別することができる新規な技術がますます必要とされている。
【０００３】
大量のテキスト文書が与えられた場合、これらの文書のサマリ（要約）をユーザに提示することは、所望の情報を含む文書を発見する作業を大幅に容易にする。テキスト検索およびテキストサマリ作成は、相互に補い合う２つの本質的な技術である。従来のテキスト検索エンジンは、キーワードクエリに関する適合性測定に基づいて、文書のセットを返す。例えば、テキストサマリ作成システムはその場合、検索によって返される各テキスト文書の内容の素早い調査を容易にする文書サマリを生成する（例えば、概要、キーワードサマリ、またはアブストラクトを提供することによって）。
【０００４】
換言すれば、テキスト検索エンジンは一般に、適合性のある文書の初期セットを識別するための情報フィルタとして作用し、一方、協働するテキストサマリ作成システムは、ユーザが所望のすなわち適合性のある文書の最終セットを識別するのを支援する情報スポッタとして作用する。
【０００５】
テキストサマリには、一般サマリとクエリ適合サマリという２つのタイプのものがある。一般サマリは、特定の文書の内容のすべての意味を提供し、一方、クエリ適合サマリは、初期検索クエリに密接に関連する特定の文書からの内容のみを提示する。
【０００６】
よい一般サマリは、冗長性を最小限にしながら、文書中に提示された主要なトピックを含むべきである。一般サマリ作成プロセスは、特定のキーワードクエリやトピック検索に応答するものではないため、高品質の一般サマリ作成の方法およびシステムを開発することは非常に困難であることがわかっている。他方、クエリ適合サマリは、初期検索クエリに特に関連する文書内容を提示する。従来の多くのシステムでは、クエリ適合サマリを作成することは本質的に、文書からクエリ（検索質問）に適合するセンテンスを検索するプロセスである。当業者には理解されるように、このプロセスは、テキスト検索プロセスに密接に関連している。したがって、クエリ適合サマリ作成は、単に従来のＩＲ技術を拡張することによって達成されることがほとんどである。
【０００７】
これまで多くのテキストサマリ作成方法が提案されている。最近の多くの研究は、クエリ適合テキストサマリ作成方法に関するものである。例えば、B. BaldwinとT. S. Mortonは、クエリ中のすべてのフレーズが表現されるまで、文書からセンテンスを選択するクエリセンシティブなサマリ作成方法を提案している。文書中のセンテンスがクエリ中のフレーズを表現するとみなされるのは、そのセンテンスおよびフレーズが同じ人、組織、事件などを「同一指示」(co-refer)する場合である(B. Baldwin et al., "Dynamic Co-reference-Based Summarization", in Proceedings of the Third Conference on Empirical Methods in Natural Language Processing (EMNLP3), Granada, Spain, June 1998)。R. BarzilayとM. Elhadadは、文書中の語彙連鎖を見つけることによって、テキストサマリを作成する方法を開発している(R. Barzilay et al., "Using Lexical Chains For Text Summarization", in Proceedings of the Workshop on Intelligent Scalable Text Summarization (Madrid, Spain), August 1997)。
【０００８】
Mark Sandersonによるこの問題へのアプローチでは、各文書を等サイズの重なり合うパッセージに分割し、INQUERY IRシステムを用いて各文書からクエリに最もよくマッチするパッセージを検索する。この「最適パッセージ」が、文書のサマリとして使用される。最適パッセージ検索の前に、局所文脈分析（ＬＣＡ：Local Context Analysis、これもINQUERYからのものである）と呼ばれるクエリ拡張技術が用いられる。トピックおよび文書コレクションが与えられると、ＬＣＡ手続きは、コレクションから最高ランクの文書を検索し、検索された各文書中でトピックターム付近の文脈を検査する。その後、ＬＣＡは、これらの文脈に頻出するワードまたはフレーズを選択し、これらのワードまたはフレーズをもとのクエリに追加する(M. Sanderson, "Accurate User Directed Summarization From Existing Tools", in Proceedings of the 7th International Conference on Information and Knowledge Management (CIKM98), 1998)。
【０００９】
南カリフォルニア大学によるSUMMARISTテキストサマライザは、次の式に基づいてテキストサマリを作成しようとする。
サマリ作成＝トピック識別＋解釈＋生成
識別段階は、入力文書をフィルタリングして、最も重要な中心トピックを決定する。解釈段階は、ワードをクラスタリングして、いくつかの包含概念へと抽象化する。最後に、生成段階は、入力のいくつかの部分を出力することによって、または、文書概念の解釈に基づく新しいセンテンスを作成することによって、サマリを生成する(E. Hovy et al., "Automated Text Summarization in Summarist", in Proceedings of the TIPSTER Workshop, Baltimore, MD, 1998)。
【００１０】
SRA International, Inc.によるＫＭ(Knowledge Management)システムは、形態素解析、名前タグ付け、および同一指示解決を用いてサマリ作成特徴を抽出する。ＫＭ法は、機械学習技術を用いて、コーパスからの統計的情報を利用して特徴の最適な組合せを決定し、サマリに含めるべき最適なセンテンスを識別する(http://www.SRA.com)。Cornell/Sabirシステムは、SMARTテキスト検索エンジンの文書ランキングおよびパッセージ検索機能を用いて、文書中の適合性のあるパッセージを識別する（C. Buckley et al., "The SMART/Empire TIPSTER IR System", in Proceedings of TIPSTER Phase III Workshop, 1999）。CGI/CMUによるテキストサマライザは、ＭＭＲ(Maximal Marginal Relevance)と呼ばれる技術を利用する。この技術は、クエリに関してとともに、サマリにすでに追加されているセンテンスに関して、文書中の各センテンスの適合性(relevance)を測定する。その後、ＭＭＲシステムは、文書中に見つかったキー適合性のある非冗長情報を識別することによって、文書のサマリを生成する(J. Goldstain et al., "Summarizing Text Documents: Sentence Selection and Evaluation Metrics", in Proceedings of ACM SIGIR'99, Berkeley, CA, August 1999)。
【００１１】
【発明が解決しようとする課題】
上記のようなクエリ適合テキストサマリは、与えられた文書がユーザのクエリに適合するかどうかを判定するため、および、文書が適合性のある場合にはその文書のどの部分がクエリに適合性があるかを識別するためには有用となる可能性がある。しかし、クエリ適合サマリは個々のクエリに応答して作成されるため、このようなタイプのサマリは、文書内容の全体の意味を提供しない。したがって、クエリ適合サマリは、内容概観のためには適当でない。文書中のキートピックを識別してそれらの文書をカテゴライズするための一般テキストサマリ作成技術が開発される必要がある。
【００１２】
【課題を解決するための手段】
本発明は、所定の、または、ユーザ指定の長さの、高品質の一般テキストサマリを出力する２つのアプローチを提供する。略言すれば、さまざまな本発明の実施例は、適合性測定技術および潜在意味分析技術を用いて、文書内容の一般サマリ作成を行う。一般テキストサマリは、もとの文書からセンテンスをランク付けして抽出することによって生成される。高くランク付けされた相異なるセンテンスからサマリを作成することによって、文書内容を広範囲にカバーするとともに、冗長性を低くすることが同時に達成される。
【００１３】
本発明の１つの側面によれば、例えば、サマリ作成を実行するために従来のＩＲ技術が特有の方法で適用される。一実施例では、高精度のサマリを保証するために、３つのＩＲプロセスが組み合わされる。本発明によるテキストサマリ作成のシステムあるいは方法は、以下のオペレーションを実行する。すなわち、文書全体とその各センテンスとの間の適合性を測定し、全文書の文脈において最も適合性のあるセンテンスを選択し、選択されたセンテンスに含まれるすべてのターム（索引語）を消去する。これらの適合性測定、センテンス選択、およびターム消去の手続きは、所定数のセンテンスが選択されるまで、順次反復される。
【００１４】
本発明のもう１つの側面によれば、例えば、全文書の「ターム対センテンス」行列が作成される。文書からのすべてのセンテンスが特異ベクトル空間に射影されるように、特異値分解法がターム対センテンス行列に適用される。その後、一般テキストサマリのシステムおよび方法が、最も重要な特異値ベクトルに最大指標値を有するセンテンスを、テキストサマリの一部として選択する。
【００１５】
本発明の上記およびその他の付随する利点は、添付図面を参照して本発明の好ましい実施例についての以下の詳細な説明を検討すれば明らかとなる。
【００１６】
【発明の実施の形態】
図面を参照すると、図１は、一般テキストサマリ作成のシステムおよび方法の一実施例のオペレーションの概略流れ図であり、図２は、一般テキストサマリ作成のシステムおよび方法のもう１つの実施例のオペレーションの概略流れ図である。
【００１７】
背景的知識として、文書は、通常、いくつかのトピックからなる。いくつかのトピックは、一般に、他のトピックより多くのセンテンスによって詳細に記述されるため、その文書の主要な（または最も重要な）内容を含むと推論される。他のトピックは、主要トピックを補足しあるいは裏付け、あるいは全体の話をより完全にするために、短く言及される。当業者には理解されるように、よい一般テキストサマリは、文書の主要トピックを規定の長さ（例えば、ワード数またはセンテンス数）以内でできる限り綿密にカバーしながら、同時に、冗長性を最小にするべきである。
【００１８】
一般テキストサマリ作成のシステムおよび方法は、全文書を複数の個別のセンテンスに分解する。このような分解の後、重み付きターム頻度ベクトルが、以下のようにして、文書中の各センテンスごとに生成される。パッセージｉに対するターム頻度ベクトルＴ_iは次のように表される。
Ｔ_i＝［ｔ_1i，ｔ_2i，...，ｔ_ni］^t
ただし、各成分ｔ_jiは、与えられたタームｊがパッセージｉに出現する頻度（度数）を表す。パッセージｉは、例えば、個々のフレーズ、センテンス、パラグラフ、または全文書を表す。
【００１９】
同様に、同じパッセージに対する重み付きターム頻度ベクトルＡ_iは次のように表される。
Ａ_i＝［ａ_1i，ａ_2i，...，ａ_ni］^t
ただし、重み付きターム頻度ベクトルの各成分ａ_jiは、さらに次のように定義される。
ａ_ji＝Ｌ（ｔ_ji）Ｇ（ｔ_ji）
【００２０】
上の式で、Ｌ（ｔ_ji）は、パッセージｉ中のタームｊに対する局所重み関数を表し、Ｇ（ｔ_ji）はタームｊに対する大域重み関数を表す。その生成中に、重み付きターム頻度ベクトルＡ_iは、その長さ｜Ａ_i｜で正規化される。したがって、後の計算中は、システムは、もとの重み付きターム頻度ベクトルＡ_iまたは正規化ベクトルのいずれを使用することも可能である。
【００２１】
当業者には理解されるように、局所重み関数Ｌ（ｔ_ji）および大域重み関数Ｇ（ｔ_ji）のいずれについても、多くの可能な重み付け方式が存在する。重み付け方式が異なると、一般テキストサマリ作成のシステムおよび方法のパフォーマンスに影響を及ぼすことがある。パフォーマンスおよび精度は、適当な局所重み関数および適当な大域重み関数の両方が同時に適用されるときに最大化される。
【００２２】
単なる例示であって限定のためではないが、局所重み関数Ｌ（ｉ）は、次の４つのよく知られた形のうちの１つをとることが可能である。
【００２３】
最も単純な、重みなし方式：Ｌ（ｉ）＝ｔｆ（ｉ）。ただし、ｔｆ（ｉ）は、与えられたセンテンスにタームｉが出現する回数を表す。
【００２４】
２値重み方式：与えられたセンテンスにタームｉが少なくとも１回現れるときＬ（ｉ）＝１とし、それ以外のときＬ（ｉ）＝０とする。
【００２５】
拡張重み方式：Ｌ（ｉ）＝０．５＋０．５（ｔｆ（ｉ）／ｔｆ（ｍａｘ））。
ただし、ｔｆ（ｍａｘ）は、センテンスに最も頻繁に出現するタームのターム頻度を表す。
【００２６】
対数重み方式：Ｌ（ｉ）＝ｌｏｇ（１＋ｔｆ（ｉ））。
【００２７】
同じく単なる例示であるが、大域重み関数Ｇ（ｉ）は、次の２つのよく知られた形のうちの１つをとることが可能である。
【００２８】
重みなし方式：任意の与えられたタームｉに対して、Ｇ（ｉ）＝１。
【００２９】
逆文書重み方式：Ｇ（ｉ）＝ｌｏｇ（Ｎ／ｎ（ｉ））。ただし、Ｎは、文書中の総センテンス数であり、ｎ（ｉ）は、タームｉを含むセンテンスの数である。
【００３０】
さらに、上記のように、センテンスｋの重み付きターム頻度ベクトルＡ_kが、例えば上記の局所重み付け方式のうちの１つおよび大域重み付け方式のうちの１つを用いて生成されると、Ａ_kのもとの形式がサマライザによって使用されることも可能であり、あるいは、Ａ_kをその長さすなわち絶対値｜Ａ_k｜で正規化することによって別のベクトルを生成することも可能である。４個の可能な局所重み付け関数と、２つの可能な大域重み付け関数と、もとのまたは正規化されたベクトルを実装するオプションとを有するこの実施例では、１６個の可能な重み付け方式が存在する。当業者には理解されるように、局所および大域重み付けについての異なるアプローチやストラテジでは、他の組合せや可能性も存在する。
【００３１】
次に、図１を参照すると、一般テキストサマライザの実施例は、精度の高い非冗長なサマリを作成するために、従来のＩＲ技術を適用する。まず、文書は、複数の個別のセンテンスに分解され、それらのセンテンスから、候補センテンスセットが生成される（ブロック１０１）。例えば上記の重み付きターム頻度ベクトルが、文書全体に対して、および、候補センテンスセット中の各センテンスに対して、生成される（ブロック１０２）。次に、適合性スコアが、文書全体への適合性に従って候補センテンスセット中の各センテンスごとに計算され、最大の適合性スコアを有するセンテンスが、サマリに含めるためのセンテンスとして選択される（ブロック１０３および１０４）。
【００３２】
あるベクトルの、別のベクトルに対する適合性スコアを計算するためのさまざまな技術が当業者には知られている。例えば、ブロック１０３で、一般テキストサマリ作成の方法およびシステムは、考慮対象のセンテンスに対する重み付きターム頻度ベクトルと、文書に対する重み付きターム頻度ベクトルとの内積（すなわちドット積）を計算することが可能である。
【００３３】
次に、選択されたセンテンスは、候補センテンスセットから除去され、この選択されたセンテンスに含まれるすべてのタームが文書から消去される（ブロック１０５）。ブロック１０５に示されるように、センテンスを削除することおよびそのセンテンスのタームを文書から消去することは、文書全体に対する重み付きターム頻度ベクトルの再作成を要求する。これは、以後の適合性計算の精度を保証する。
【００３４】
ブロック１０６に示されるように、残りのセンテンスに関して、所定数のセンテンスが選択されるまで、適合性スコア計算（ブロック１０３）、センテンス選択（ブロック１０４）、およびターム消去（ブロック１０５）のオペレーションが繰り返される。
【００３５】
当業者には理解されるように、上記のオペレーションのブロック１０４で、最大の適合性スコア（文書に対して）を有するセンテンスｋは、文書の主要な内容を最もよく表現するセンテンスと見なされる。したがって、上記のようにして適合性スコアに基づいてセンテンスを選択することは、サマリができる限り広い範囲で文書の主要なトピックを表現することを保証する。他方、ブロック１０５に示されるように、ｋに含まれるすべてのタームを文書から除去することは、（その後の反復における）最大適合性スコアを有する後続のセンテンスの検索が、センテンスｋに含まれる事項との間で生成する重複を最小限にすることを保証する。このようにして、文書のあらゆる主要トピックをカバーするサマリの作成中に、非常に低いレベルの冗長性が達成される。
【００３６】
図２の実施例に示す潜在意味索引付け（ＬＳＩ）法によれば、以下で詳細に説明するように、一般テキストサマリの作成中に、特異値分解（ＳＶＤ）法が用いられる。ブロック２０１に示されるように、まず、この代替実施例は、図１の実施例と同様に、すなわち、文書を複数の個々のセンテンスに分解し、それらのセンテンスから候補センテンスセットが生成される。
【００３７】
背景的知識として、理解されるべき点であるが、文書サマリ作成中にＳＶＤを実行するためには、文書に対する「ターム対センテンス」行列が作成される（ブロック２０２）。ターム対センテンス行列は次の形となる。
Ａ＝［Ａ₁，Ａ₂，，Ａ_n］
ただし、各列ベクトルＡ_iは、考慮対象の文書中のセンテンスｉの重み付きターム頻度ベクトルを表す。文書中の全部でｍ個のタームおよびｎ個のセンテンスがある場合、全文書に対するターム対センテンス行列Ａの次元はｍ×ｎとなる。通常、あらゆるワードが各センテンスに現れるわけではないので、行列Ａは通常は疎である。実際には、当業者に知られているように、特定のセンテンス中あるいは複数のセンテンス中のタームの重要度を増減するために、上記のような局所および大域重み付けが適用される（例えば、S. Dumais, "Improving The Retrieval of Information From External Sources", Behavior Research Methods, Instruments, and Computers, vol.23, 1991、参照）。
【００３８】
次元ｍ×ｎ（ただし、一般性を失うことなく、ｍ≧ｎ）の行列Ａが与えられた場合、ＡのＳＶＤは次のように定義される（W. Press et al., "Numerical Recipes in C: The Art of Scientific Computing", Cambridge, England: Cambridge University Press, 2 ed., 1992、参照）：
Ａ＝ＵΣＶ^T
【００３９】
上の式で、Ｕ＝［ｕ_ij］は、ｍ×ｎ次の列直交行列であり、その列は左特異ベクトルと呼ばれる。Σ＝ｄｉａｇ（σ₁，σ₂，...，σ_n）は、ｎ×ｎ次の対角行列であり、その対角成分は、降順にソートされた非負特異値である。Ｖ＝［ｖ_ij］は、ｎ×ｎ次の直交行列であり、その列は右特異ベクトルと呼ばれる。Ｖ^Tは、Ｖの転置である。ｒａｎｋ（Ａ）＝ｒの場合、Σは次の関係を満たす。
σ₁≧σ₂≧・・・≧σ_r≧σ_r+1＝・・・＝σ_n＝０
【００４０】
このようにＳＶＤ法を行列Ａに適用することは、２つの異なる観点から解釈することが可能である。変換の観点から見ると、ＳＶＤは、重み付きターム頻度ベクトルによって張られるｍ次元空間と、そのすべての軸が線形独立なｒ次元特異ベクトル空間との間の写像を導出する。この写像は、行列Ａの各列ベクトルを、行列Ｖ^Tの列ベクトルψ_i＝［ｖ_i1，ｖ_i2，...，ｖ_ir］^Tに射影し、行列Ａの各行ベクトル（これは、各文書におけるタームｊの出現回数を表す）を行列Ｕの行ベクトルφ_j＝［ｕ_j1，ｕ_j2，...，ｕ_jr］に写像する。ここで、ψ_iの各成分ｖ_ix、φ_jの各成分ｕ_jyは、それぞれ、ｉ番目、ｊ番目の特異ベクトルの指標(index)と呼ばれる。
【００４１】
意味論の観点から見ると、ＳＶＤ法は、サマライザが、行列Ａによって表される文書の潜在意味構造を導出することを可能にする（例えば、S. Deerwester et al., "Indexing By Latent Semantic Analysis", Journal of the American Society for Information Science, vol.41, pp.391-407, 1990、参照）。このオペレーションは、もとの文書を、ある数ｒ個の線形独立な基底ベクトルあるいは概念に分解することを反映している。文書からのそれぞれのタームおよびセンテンスは、これらの基底ベクトルおよび概念によって同時索引付けされる。従来のＩＲ技術に欠けている特有のＳＶＤの特徴は、ＳＶＤが一般に、タームおよびセンテンスの意味的クラスタが生成されるようにターム間の相互関係を捕捉しモデル化することができることである。
【００４２】
例として、ワードdoctor、physician、hospital、medicine、およびnurseを考える。ワードdoctorおよびphysicianは、多くの状況で同義語的に用いられることがある一方、hospital、medicine、およびnurseは、密接に関連した概念を表す。２つの同義語doctorおよびphysicianは、hospital、medicine、nurseなどのような同じ関連ワードの多くとともにしばしば現れる。このようなワードの類似のあるいは予測可能なパターンが与えられた場合、ワードdoctorおよびphysicianは、ｒ次元特異ベクトル空間内で互いに近くに写像される。
【００４３】
さらに（M. Berry et al., "Using Linear Algebra For Intelligent Information Retrieval", Tech. Rep. UT-CS-94-270, University of Tennessee, Computer Science Department, Dec. 1994、に記載されているように）、ワードまたはセンテンスＷが、重要な特異ベクトルに大きい指標値を有する場合、Ｗは、文書全体の主要なあるいは重要なトピックや概念を表現している可能性が非常に高い。Ｗに密接に関連する他のワードまたはセンテンスは、Ｗの近くに、空間内でＷと同じ特異ベクトルに沿って、写像される。換言すれば、ＳＶＤからの各特異ベクトルは、文書中の識別可能な顕著な概念やトピックを表現していると解釈され、それに対応する特異値の大きさは、その顕著なトピックの重要度を表す。
【００４４】
図２に戻って、ＳＶＤに基づく文書サマライザの実施例のオペレーションは、実質的に以下のように進行する。まず、上記のように、文書は複数の個々のセンテンスに分解され、それらのセンテンスから候補センテンスセットが生成される（ブロック２０１）。さらに、センテンスカウンタ変数ｋがｋ＝１に初期化される。文書分解の後、ターム対センテンス行列Ａ（例えば、上記のもの）が、全文書に対して生成される（ブロック２０２）。ターム対センテンス行列の生成は、文書中の各タームに対する局所重み付け関数および大域重み付け関数の両方を使用することが可能である。
【００４５】
次に、ブロック２０３に示されるように、特異値行列Σ、および右特異ベクトル行列Ｖ^Tを得るために、ＳＶＤがＡに対して実行される。各センテンスｉは、Ｖ^Tの列ベクトルψ_i＝［ｖ_i1，ｖ_i2，...，ｖ_ir］^Tによって表される。次に、システムは、行列Ｖ^Tから、ｋ番目の特異ベクトルを選択する。これは、Ｖ^Tの第ｋ行を選択することと等価である。
【００４６】
次に、この実施例では、ｋ番目の右特異ベクトルに最大指標値を有するセンテンスが、適合性センテンスとして選択され、サマリに含められる（ブロック２０５）。さいごに、ブロック２０６に示されるように、センテンスカウンタ変数ｋが所定数に達した場合、オペレーションは終了する。そうでない場合、ｋが１だけインクリメントされ、システムは、次の反復のためにブロック２０４に戻る。
【００４７】
図２のブロック２０５で、ｋ番目の右特異ベクトルに最大指標値を有するセンテンスを識別することは、その第ｋ成分ｖ_ikが最大の列ベクトルψ_iを見つけることと等価である。このオペレーションは一般に、ｋ番目の特異ベクトルによって表される顕著なトピックを記述するセンテンスを見つけることと等価である。特異ベクトルはその特異値の降順にソートされているため、ｋ番目の特異ベクトルは、ｋ番目に重要なトピックを表す。すべての特異ベクトルは互いに独立であるため、この技術によって選択されるセンテンスが含む冗長性は最小限となる。
【００４８】
【発明の効果】
以上詳細に説明したように、本発明によれば、もとの文書からセンテンスをランク付けして抽出し、高くランク付けされた相異なるセンテンスからサマリを作成する。これによって、文書内容を広範囲にカバーするとともに、冗長性を低くすることが同時に達成され、システム資源を効率的に利用しながら、所望の長さの、精度の高い、一般テキストサマリを提供することができる。
【００４９】
なお、ここに開示した好ましい実施例は、単なる例示のために記載したものであり、限定のためのものではない。当業者には明らかなように、本発明の技術思想および技術的範囲を離れることなく、本発明のさまざまな変形例を考えることが可能である。
【図面の簡単な説明】
【図１】一般テキストサマリ作成のシステムおよび方法の一実施例のオペレーションの概略流れ図である。
【図２】一般テキストサマリ作成のシステムおよび方法のもう１つの実施例のオペレーションの概略流れ図である。

Claims

文書の一般テキストサマリを作成する方法において、
ａ）前記文書を第１メモリに格納するステップと、
ｂ）前記文書に対して、重み付き文書ターム頻度ベクトルを生成して第２メモリに格納するステップと、
ｃ）前記第１メモリに格納された文書中の各センテンスに対して、重み付きセンテンスターム頻度ベクトルを生成して第３メモリに格納するステップと、
ｄ）前記重み付き文書ターム頻度ベクトルとの適合性に従って、それぞれの前記重み付きセンテンスターム頻度ベクトルに対するスコアを計算するステップと、
ｅ）前記スコアに従って、前記一般テキストサマリに含めるためのセンテンスを選択して第４メモリに格納するステップと、
ｆ）前記選択されたセンテンスを前記第１メモリに格納された文書から削除し、前記選択されたセンテンス中のタームを前記第１メモリに格納された文書から消去するステップと、
ｇ）前記削除および消去ステップｆ）の終了後に、前記第１メモリに格納された文書を用いて前記ステップｂ）を実行し重み付き文書ターム頻度ベクトルを再生成して前記第２メモリに格納するステップと、
ｈ）前記第１メモリに格納された文書、前記第２メモリに格納された重み付き文書ターム頻度ベクトルおよび前記第３メモリに格納された重み付きセンテンスターム頻度ベクトルを用いながら、前記計算ステップｄ）、前記選択ステップｅ）、前記削除および消去ステップｆ）、および前記再生成ステップｇ）を選択的に反復するステップと、
を有することを特徴とする、文書の一般テキストサマリを作成する方法。
前記選択的反復ステップｈ）は、所定数のセンテンスが選択されたときに終了することを特徴とする請求項１記載の方法。
前記計算ステップｄ）は、前記重み付きセンテンスターム頻度ベクトルと、前記重み付き文書ターム頻度ベクトルとの内積を計算することを含むことを特徴とする請求項１記載の方法。
前記重み付きセンテンスターム頻度ベクトルを生成するステップは、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項１記載の方法。
前記重み付きセンテンスターム頻度ベクトルを生成するステップｃ）は、それぞれの前記重み付きセンテンスターム頻度ベクトルを正規化することを含むことを特徴とする請求項４記載の方法。
前記重み付き文書ターム頻度ベクトルを生成するステップｂ）は、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項１記載の方法。
前記重み付き文書ターム頻度ベクトルを生成するステップｂ）は、前記重み付き文書ターム頻度ベクトルを正規化することを含むことを特徴とする請求項６記載の方法。
文書の一般テキストサマリを作成するシステムにおいて、
コンピュータと、
前記一般テキストサマリを提示する手段と、
前記文書の分析およびサマリ作成を行うための、前記コンピュータ上で動作可能なサマライザプログラムコードとを有し、
前記サマライザプログラムコードは、
前記文書に対して重み付き文書ターム頻度ベクトルを生成するとともに、前記文書中の各センテンスに対して重み付きセンテンスターム頻度ベクトルを生成する第１手段と、
前記重み付き文書ターム頻度ベクトルとの適合性に従って、それぞれの前記重み付きセンテンスターム頻度ベクトルに対するスコアを計算する第２手段と、
前記スコアリングエンジンからの出力結果に従って、前記一般テキストサマリに含めるためのセンテンスを選択する第３手段と、
前記選択されたセンテンスを前記文書から削除し前記センテンス中のタームを前記文書から消去する第４手段と、
を有し、前記第１手段は、前記選択されたセンテンスおよび前記タームを前記文書から削除および消去した前記第４手段からの出力結果に従って、前記重み付き文書ターム頻度ベクトルを再生成することを特徴とする、文書の一般テキストサマリを作成するシステム。
前記サマライザプログラムコードは、前記第１手段、前記第２手段、前記第３手段、および前記第４手段の反復順次動作を生成するループルーチンをさらに有することを特徴とする請求項８記載のシステム。
前記ループルーチンは、前記一般テキストサマリが所定数のセンテンスからなるように所定の限界に応答することを特徴とする請求項９記載のシステム。
文書の一般テキストサマリを作成する方法において、
ａ）前記文書を第１メモリに格納するステップと、
ｂ）前記第１メモリに格納された文書を個々のセンテンスに分解するステップと、
ｃ）前記個々のセンテンスから候補センテンスセットを形成して第２メモリに格納するステップと、
ｄ）前記第２メモリに格納された候補センテンスセット中の前記個々のセンテンスのそれぞれに対して、重み付きセンテンスターム頻度ベクトルを生成して第３メモリに格納するステップと、
ｅ）前記第１メモリに格納された文書に対して、重み付き文書ターム頻度ベクトルを生成して第４メモリに格納するステップと、
ｆ）前記第２メモリに格納された候補センテンスセット中の前記個々のセンテンスのそれぞれに対して、前記重み付き文書ターム頻度ベクトルに関する、前記重み付きセンテンスターム頻度ベクトルの適合性スコアを計算するステップと、
ｇ）前記適合性スコアに従って、前記一般テキストサマリに含めるためのセンテンスを選択して第５メモリに格納するステップと、
ｈ）前記選択されたセンテンスを前記第２メモリに格納された候補センテンスセットから削除するステップと、
ｉ）前記選択されたセンテンス中のタームを前記第１メモリに格納された文書から消去するステップと、
ｊ）前記削除ステップｈ）および前記消去ステップｉ）が終了した後、前記第１メモリに格納された文書を用いて前記ステップｅ）を実行し重み付き文書ターム頻度ベクトルを再生成して前記第４メモリに格納するステップと、
を有することを特徴とする、文書の一般テキストサマリを作成する方法。
ｋ）前記第１メモリに格納された文書、前記第２メモリに格納された候補センテンスセット、前記第３メモリに格納された重み付きセンテンスターム頻度ベクトル、前記第４メモリに格納された重み付き文書ターム頻度ベクトルを用いながら、前記計算ステップｆ）、前記選択ステップｇ）、前記削除ステップｈ）、前記消去ステップｉ）、および前記再生成ステップｊ）を選択的に反復するステップ
をさらに有することを特徴とする請求項１１記載の方法。
前記選択的反復ステップｋ）は、所定数のセンテンスが選択されたときに終了することを特徴とする請求項１２記載の方法。
前記計算ステップｆ）は、前記重み付きセンテンスターム頻度ベクトルと、前記重み付き文書ターム頻度ベクトルとの内積を計算することを含むことを特徴とする請求項１１記載の方法。
前記重み付きセンテンスターム頻度ベクトルを生成するステップは、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項１１記載の方法。
前記重み付きセンテンスターム頻度ベクトルを生成するステップｄ）は、それぞれの前記重み付きセンテンスターム頻度ベクトルを正規化することを含むことを特徴とする請求項１５記載の方法。
前記重み付き文書ターム頻度ベクトルを生成するステップｅ）は、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項１１記載の方法。
前記重み付き文書ターム頻度ベクトルを生成するステップｅ）は、前記重み付き文書ターム頻度ベクトルを正規化することを含むことを特徴とする請求項１７記載の方法。