JP5733062B2 - 文書からの1つ又は複数のキー要素取得方法及び装置 - Google Patents

文書からの1つ又は複数のキー要素取得方法及び装置 Download PDF

Info

Publication number
JP5733062B2
JP5733062B2 JP2011149434A JP2011149434A JP5733062B2 JP 5733062 B2 JP5733062 B2 JP 5733062B2 JP 2011149434 A JP2011149434 A JP 2011149434A JP 2011149434 A JP2011149434 A JP 2011149434A JP 5733062 B2 JP5733062 B2 JP 5733062B2
Authority
JP
Japan
Prior art keywords
layer
weight
title
document
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011149434A
Other languages
English (en)
Other versions
JP2012018674A (ja
Inventor
ジュアヌソォン シエ
ジュアヌソォン シエ
シャヌシャヌ ジアン
シャヌシャヌ ジアン
ジィチョアヌ ジォン
ジィチョアヌ ジォン
リジュヌ ジャオ
リジュヌ ジャオ
ジュヌ スヌ
ジュヌ スヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2012018674A publication Critical patent/JP2012018674A/ja
Application granted granted Critical
Publication of JP5733062B2 publication Critical patent/JP5733062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキスト処理に関し、詳細に、キー要素を取得するテキスト処理に関する。
ネットワーク上に出現する文書が日増しに増加するにつれて、各文書から該文書情報を代表可能な、文書検索や文書要約の生成等に用いられるキーワード(語)やキーフレーズ(句)の取得の必要性も高まってきている。また、如何に文書からキーワードやキーフレーズといったキー要素をより正確に抽出するかが注目されてきている。得られるキー要素が正確になるほど、該キー要素による検索から所望の文書が得られる可能性も高くなり、該キー要素により生成される文書要約でより適切に文書の情報を表すことができる。
文書からキー要素を取得する従来の技術としては、TextRank(テキストランク)方法があり、Rada Mihalcea 及びPaul Tarauの論文“TextRank: Bring Order into Texts”から関連記載を見つけることができる。TextRankモデルは、自然言語の文書から語や句要素を抽出後、これらの語や句要素をグラフのノードとしてスコアをつけており、その基本思想としては、1つのノードが他のノードにリンクすると、該他のノードに1ポイントを与え、該ノードのスコアが高くなるほど、該ノードの重要度も高くなっている。これらのノードの最後のスコアを算出することで、各ノードの重要度を取得することができ、キーとなる語要素や句要素を取得することができる。しかしながら、該TextRank方法においては、同一種類(例えば、語や句)の要素間のリンク関係だけ考慮し、異なる種類の要素間(例えば、語と句の間)の関係は考慮していないため、このような方法により算出されたノードのスコアは、該要素の重要度を正確に表すことができず、キー要素による検索から所望の結果が得られない恐れがある。
文書からキー要素を取得する他の従来の技術として、特許文献WO2006/001906のGraph-based Ranking Algorithms for Text Processingには、グラフによる少なくとも自然言語形式のテキストの処理方法が提案されている。該方法は、自然言語テキストから同種類(例えば、語や句)の複数のテキスト単位を決定し、該複数のテキスト単位と複数のグラフノードとの関連付けを行うとともに、少なくとも2つのテキスト単位間の少なくとも1つの接続関係を決定しているが、該公開は、主に独立した句と句の関係や字と字の関係といった、同種類のテキスト単位間の関係に注目しており、句と字の関係は考慮していないことから、同様に、このような方法により得られる同種類のテキスト単位間の関係によっても、該テキスト単位の文書全体における重要度を正確に表すことができないため、該キー要素による検索から所望の結果が得られないという問題がある。
また、文書からキー要素を取得する他の従来技術として、Xiaojun Wan等の「“Towards an Iterative Reinforcement Approach for Simultaneous Document Summarization and Keyword Extraction”(ACL)、2007」には、句と語の関係に基づくキーワード取得方法が提案されている。しかしながら、該方法は、文書の標題の、文書における句と語への影響は考慮されておらず、また、該方法は、他のテキスト要素(例えば、領域、段落等)内や間の関係には及ばないため、同様に、このような方法により得られる同種類のテキスト単位間の関係によっても、該テキスト単位の文書全体における重要度を正確に表すことができない。
このため、文書からテキスト要素の重要度を取得することで、キー要素を正確に取得可能な、改善される方法及び装置が求められている。
キー要素の取得及びテキスト要約とも、文書から該文書の情報を代表可能なキー要素を取得することに照準を合わせている。従来技術における通常の技術手段は、全て独立した句、語及びこれらの間の関係を利用することに注目しているが、文書の構造を、十分に考慮していないため、従来技術におけるキー要素の取得手段によっては、該テキスト要素の文書全体における重要度を正確に表すことができない。このため、得られるキー要素が文書全体の内容情報を適切に表すことができないことから、該キー要素により所望の文書検索結果が得られず、適切な文書要約が得られない。
本発明の目的は、文書からの1つ又は複数のキー要素を取得する方法及び装置を提供することにある。
上述の課題を解決するために、本発明の一側面によると、文書から1つまたは複数のキー要素を取得する方法が提供される。この方法は、前記文書から少なくとも標題要素を含む構成要素を抽出するステップであって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、且つ、前記構成要素の各々は、各自の層に対応するステップと、標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定するステップと、前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定するステップと、前記被抽出構成要素と前記標題要素との間の全体重みを決定するステップと、前記被抽出構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップと、前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するステップと、を含む。
本発明の他の側面によると、文書から1つまたは複数のキー要素を取得する装置が提供される。この装置は、前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、且つ、前記構成要素の各々は、各自の層に対応する抽出装置と、標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、前記被抽出構成要素と前記標題要素との間の全体重みを決定する全体重み決定装置と、前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するキー要素取得装置と、を含む。
このため、本願によれば、文書における構成要素の重要度のより正確な算出が可能となり、文書からキー構成要素をより正確に取得することができ、これらのキー構成要素を用いた1連の関連の応用が実現可能となる。
本発明の1実施例による、1つまたは複数のキー要素の取得方法を示した図である。 樹形構造により、本発明の1実施例による文書の構成要素の関係を示した図である。 本発明の実施例による異なる要素の層内重み、層間重み及び全体重みの組み合わせの全体演算法を具体的に示した図である。 本発明の1実施例による語、字層の層内関係の構築を示した図である。 本発明の1実施例による層内重みの算出時に用いられるTextRankのグラフに基づく算出法を示した図である。 本発明の1実施例による層間関係の算出時に用いられる目標マトリクスを示した図である。 本発明の1実施例による1つまたは複数のキー要素の取得装置を示した図である。
以下、図面を参照しながら、本発明の各実施例について詳細に説明する。なお、これらの実施例は単なる例として挙げたもので、本発明がこれらに限るものではない。
図1は、本発明の1実施例による、文書から1つまたは複数のキー要素の取得方法100を示している。該方法100には、該文書の構成要素を抽出するステップS101が含まれている。前述のように、該構成要素には、少なくとも標題要素が含まれており、該文書には、複数の構成上の層が含まれている。これらの構成上の層には、少なくとも標題層が含まれており、各構成要素は、各自の層に対応している。該方法100には、さらに標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定するステップS102が含まれている。該方法100には、さらに前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定するステップS103が含まれている。該方法100には、さらに前記被抽出構成要素と、標題要素との間の全体重みを決定するステップS104が含まれている。該方法100には、さらに前記被抽出構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップS105が含まれている。該方法100には、さらに前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するステップS106が含まれている。
このようにして、構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、構成要素の重要度を正確に取得することができ、1つまたは複数のキー要素をより正確に取得することができる。
以下、本発明の1実施例による1つまたは複数のキー要素の取得フローを詳細に説明する。
記載の便宜上、以下、樹形構造により、文書の構成情報を自然に表すが、本発明は、これに限るものではない。該樹形構造における各層は、標題、領域、段落、句、語(及び/または字)をそれぞれ代表しており、このような階層関係は、同様に有意義な多くの情報を現している。ここで、領域とは、文書を全体として分割された部分をいい、1つまたは複数の段落が含まれている。なお、語と字は、中国語や日本語の記載においては区分しており、英語等の記載においては区分せずに語と総称する。すなわち、中国語や日本語の記載においては、字がテキストの最小単位であるが、英語等の記載においては語がテキストの最小単位となるため、本願においては、最大の保護範囲を確保するために、中国語や日本語の環境における語と字を含んでいるが、実際に英語等の環境においては、語と字を総称して語としてもよい。異なる階層におけるキー要素を取得し、かつこれらの関係を整合して考慮することで、より合理性を有することになり、キー要素の重要度をより正確に取得することができ、より優れた効果を得ることができる。
なお、共同モデルにおいて、異なる種類のキー要素を取得するとともに、同一層内の関係及び異なる層との層間関係も同時に考慮し、このようなモデルは、有用であり斬新であるため、以下、樹形情報により1つまたは複数のキー要素を取得する具体的方法について詳細に説明する。
図2は、樹形構造により、本発明の1実施例による文書の構成要素の関係を示した図である。図2には、文書における、例えば標題層、領域層、句層、語層といった4階層が示されている。しかし、これの階層構成は、記述の便宜を図るためのもので、本願はこれに限るものではない。階層は、取得しようとするキー要素や、得られるキー要素の正確性や、他の要求によって、例えば、標題層、句層、語層といった3つの層のみ有してもよく、それ以下の層を有してもよい。もしくは、該階層は、文書における段落層や字層といった他の階層を有してもよい。文書の構成情報によっては、要約層や図面層といった他の階層を用いてもよい。
図2から、同層間の層内関係及び異なる層間の層間関係の2種類の関係が分かる。
該実施例において、一部の構成化情報は仮設するとともに抽出することができる。
各文書は、通常、標題がある。
各文書は、通常、1連の領域からなる。
各領域は、通常、1連の句からなる。
各句は、通常、1連の語からなる。
このため、図2には、4種の層、即ち、標題層と、領域層と、句層と、語層とが示されている。この場合、層内の関係は、位置関係、順序関係または要素間の類似度から得られる。
層間の関係からすると、最も自然な関係は、樹形における親子間の関係であり、同様にこのような樹形における関係は、子が最も重要な親の下にいると、彼らは最も重要であり、親が重要であれば、彼らの下の子も重要であると仮設することができる。この仮設により、
標題は、1つの文書の比較的重要な情報を表していること、
句が重要な領域にあると、これらの句も比較的に重要であること、
領域に重要な句が含まれていると、この領域も比較的に重要であること、
語が重要な句にあると、これらの語も比較的に重要であること、及び、
句に重要な語が含まれていると、この句も比較的に重要であること、が分かる。
以上は、1つの構成要素の重要度評価の一部の仮設であるが、その他の構成要素の重要度の評価や推論があってもよい。
図3は、異なる要素の層内重み、層間重み及び全体重みの組み合わせの全体演算法を具体的に示した図である。当然ながら、このような演算法は、具体的な演算法を示した1例に過ぎず、本発明は、これに限定されるものではない。
図3に示したように、領域、句、語(及び/または段落、字等)に対して、ステップS201〜S209は構成要素の同層内の層内重みを算出するためのもので、ステップS201、S202、S203で同層の構成要素の初期重みを算出し、ステップS204、S205、S206で構成要素の同層内の層内関係を構築し、ステップS207、S208、S209で同層の構成要素の層内重みを算出している。
ステップS210〜S211は、異なる層の構成要素間の層間重みを算出するためのものである。
標題については、標題は対応の標題層の一つの独立したノードであり、ステップS212において、標題は、以下の要素(領域、句、語要素を含む)の全てに対し全体的な重み付関係を有している。この場合、標題は、検索条件として、関連のテキスト要素を検索することになる。
<層内重みの算出>
以下、領域、句、語要素の層内重みの具体的な算出方法について詳細に説明する。該算出方法は、以下のステップにより行われる。
各構成要素の初期重み:
先ず、各構成要素に初期重みを与える(S201、S202、S203)。
領域要素や段落要素の初期重みは、領域や段落の位置情報に関係しており、句要素の初期重みは、該句の他の句に引用される回数に関係しており、及び/または、語や字の初期重みは、該語や字の性質及び/または出現頻度に関係している。
具体的には、領域や段落に対しては、初期重みを決定するのは位置でよい。異なる位置には、異なる経験の初期重みが与えられ(S201)、1つの実施方法としては、
Figure 0005733062
位置が開始位置または終了位置であると、1となり、そうでなければ、0.5となる。
ここで、c(si)は、要素Siの初期重みである。前述の初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定可能なことは言うまでもない。
句に対しては、先験的な初期重みを、該句の他の句に引用される回数で決めてもよい。1つの実施方式としては、式(1)である。
Figure 0005733062
ここで、c(si)は、要素Siの初期重みであり、Cinは、他の要素の要素siへの引用回数である。引用回数は該句の代表性語の他の句における出現回数である。
前述の初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定可能なことは言うまでもない。
語/字に対しては、初期重みを、語の性質の経験重みから決めることができ(S203)、例えば、名詞の重要度が高いと1.0とし、動きがやや劣ると0.7となる。しかし、初期重みはこれに限らず、語/字の出現頻度や、所定値から決めてもよい。換言すると、前記初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定することができる。
<層内関係チェーンの重みの算出>
ここで、該構成要素とその対応層内の他の構成要素間の層内関係チェーンの重みを決定することができる。
領域要素、段落要素、句要素に関しては、2つの構成要素に共通に含まれる語や字の数と、2つの構成要素の語や字の総数から、2つの構成要素間の層内関係チェーンの重みを算出することができる。
具体的には、領域(または段落)と句層において、層内の関係チェーンは、類似度から決められており(S204、S205)、その算出方式は、以下となる。
Figure 0005733062
ここで、
Figure 0005733062
は、要素eiとejの類似度を表し、eiとejは、樹形構造における2つの属性ノードであり、通常は、領域(または段落)や句層内の連語や語であり、wkは、該語を構成する単語や字を表し、
Figure 0005733062
は、該属性ノードにいくつの字があるかを表し、
Figure 0005733062
は、eiに属し且つejに属する字の数を表している。
このようにして、領域(または段落)や句層内のすべての連語や字を遍歴し、2つの領域(または段落)や句の間の総類似度を得ることができる。もちろん、領域(または段落)と句層の類似度は、他の従来方法で取得してもよい。なお、類似度が所定の閾値を超えると、2つの要素間には層内関係があると判定してもよい。
語要素と字要素に関しては、同層の2つの構成要素が同一の所定サイズの要素窓に同時に出現した際の距離と、該要素窓の所定サイズから、2つの構成要素の該要素窓内の関連値を算出することができ、該2つの構成要素の文書全体における各要素窓内の関連値の和から、該2つの構成要素の文書全体における層内関係チェーンの重みを算出することができる。
具体的には、語、字層の関係チェーンの構築に関しては、例えば、共出現の方法を用いることができる(S206)。図4は、語、字層の層内関係チェーンの構築図である。
ある語/字が同一の所定サイズの窓内(例えば、サイズが5である)にあると、該2つの語/字には関連があると判定する。
距離により、2つの語/字の該窓内の関連値を算出することができ、その式は、
Figure 0005733062
となる。
ここで、dは、2つの要素の距離であり、nは、窓のサイズである。
次に、文書全体を遍歴し、1つの字を単位とするか、複数の字を単位として該所定の窓を移動するとともに、ある2つの語/字の文書全体の全ての窓内における関連値を順次算出し、総和を算出することで、該2つの語/字の文書全体における層内関係チェーンの重みを取得する。当然ながら、前述の式は制限的なものではなく、他の式を用いて層内関係チェーンの重みを得てもよい。
<層内重み算出(並べ替え)方法>
該構成要素の初期重みとその層内関係チェーンの重みから、構成要素の対応層内の層内重みを決定することができる。TextRankのグラフによる算出法を用いて、該構成要素の初期重みとその層内関係チェーンの重みから、該構成要素のその対応層内の層内重みを算出してもよい。
具体的には、図5により、グラフに基づく配列算出法(S207、S208、S209)を説明する。例えば、TextRank方法により要素の層内重みを算出ことができる。各要素を1つのノードと見なし、式は、
Figure 0005733062
となる。
ここで、W(Vi)は、目標ノードViのスコアであり、1回目反復においては、該スコアが初期重みとなる。
In(Vi)は、該ノードViに関連するノード集合(すなわち、図5におけるVjとVk)を表し、
Out(Vj)は、該ノードVjに関連するノード集合(すなわち、図5におけるViとVkとVl)を表し、
ωjiは、該2つのノード(ViとVj)間の辺(関連)の重み、例えば、前述により求められた関係チェーンの重みを表し、
該式におけるVjは、現在ノードViに関連するノードのうちの1つを表している。
前述の式の算出により、毎回各ノードから1つの新たなノードの重みスコアを得ることができ、該スコアを再び式に代入して算出し、数回(例えば、5回)の反復後に、比較的に収束した値を得ることができ、該値を各要素のノードの最後の値、すなわち、層内重みとする。もちろん、層内重みの算出方法はこれに限らず、初期重みと層内関係チェーンの重みにより、他の方式や式から層内重みを算出してもよい。
<層間重みの算出>
構成要素と他の層における構成要素間の含有回数、該構成要素の層内重み及び/または他の層の構成要素の層内重みから、該構成要素の層間重みを算出することができる。
以下、図6により、要素の層間関係の具体的な算出方法を説明する。
先ず、目標マトリクスを定義する。
Figure 0005733062
ここで、
Figure 0005733062
は、句のような、1つの要素を表し、
Figure 0005733062
は、語のような他の要素を表し、
Figure 0005733062
は、語jが句iに出現する回数を表している。ここで、mは句の数を表し、nは語の数を表している。図6に示した通りである。
ここで、各句には、重みwsiがあり、各語にも各自の重みwtjがある。図6の右半分から分かるように、Xiは、目標語を表し、Yjは、目標句(S210、S211)を表している。最終重みの算出方法は、以下となる。
Figure 0005733062
当然ながら、要素の層間関係の重みの算出は、前述の方式に限らず、他の算出方式を考慮してもよい。
<標題要素と構成要素との間の全体重みの算出>
構成要素と標題要素に共通に含まれる語や字の数、共通に含まれる語や字の出現頻度、共通に含まれる語や字の性質、構成要素の語や字の総数、標題要素の語や字の総数、構成要素の層内重み及び/または構成要素の層間重みといった、これらのパラメータのうちの1つまたは複数により、構成要素の全体重みを算出することができる。
以下、標題要素と構成要素間の全体重みを算出する2つの方法について詳細に説明する。
(第1の方法)
標題については、標題を他の全ての下層要素に関連する全体重みと見なしてもよく、標題を検索条件として関連構成要素を検索するプロセスと理解してもよい。標題は、通常、1つの文書の主題や最も重要な情報を表しているため、標題情報の使用は、キー要素の取得に潜在的な意義がある。本願の1実施例においては、句を例にすると、各句は、標題から追加の重み付きを得ることができ(全体重みと称する)、標題をStとすると、ステップS212における全体重みの算出式(6)は、
Figure 0005733062
となる。
ここで、
Figure 0005733062
で、Siは、句のような目標ノードを表し、w(Si、St)は、類似度といった、要素SiとStの関係を表している。類似度の算出は、本願に開示された方法によって行ってもよく、他の方式を用いてもよいため、ここでは詳細は割愛する。換言すると、このような全体重みの算出方法は、該構成要素と該標題要素間の類似度(例えば、共通に含まれる語や字の数、構成要素の語や字の総数、標題要素の語や字の総数から算出することができる)、及び該構成要素と他の構成要素の類似度(例えば、該構成要素の層内重みから算出することができる)に基づいている。
(第2の方法)
先ず、ある語/字の頻度が句の語頻度と全文の語頻度を含むとする。所謂「句の語頻度」とは、ある語/字の全文における全ての句に出現する頻度を指し、該語がある句に出現すると1とカウントし、ある句に繰り返し出現するとカウントを加算しないといった、2つの特徴がある。該句の頻度は、通常の全文の語頻度とは異なり、全文の語頻度は、該語の全文に出現する頻度を指している。
句要素と標題要素の関係を例にすると、該方法は、「句の逆頻度」に基づいても良い。
仮に標題を重複しない語に分割可能とする。
Figure 0005733062
ここで、nは、標題に含まれる重複しない語数である。
句要素と標題要素に共出現する語は、
Figure 0005733062
で、
Figure 0005733062
かつ
Figure 0005733062
で、kは、句要素と標題要素に共出現する語数であり、
共出現する各語の対応句における語頻度は、
Figure 0005733062
であり、
該文書の全句数は、
Figure 0005733062
とすると、
ステップS212から、該句と標題の全体関係の重み計算式(7)は、以下となる。
Figure 0005733062
換言すると、該構成要素と標題要素に共通に含まれる各語や字が出現する句の語頻度(或いは、全文の語頻度)が大きくなるほど、該標題要素の該構成要素に対して付加される全体重みが小さくなり、所謂「句の逆頻度」となる。例えば、中国語の場合、1つの句と標題要素に共通に含まれる語や字が例えば、「是」や「的」等で、これらの語や字の句頻度が、通常大きい場合、該句と標題要素に共通に含まれる語や字が特殊なものではなく、該句の全体重みが比較的に小さくなる。一方、1つの句と標題要素に共通に含まれる語や字が例えば、「キー要素」や「文書」等で、これらの語や字の句頻度が、比較的に小さいと、該句と標題要素に共通に含まれる語や字が比較的に特殊なものや、重要なもので、該句の全体重みが比較的に大きくなる。
該2種類の算出方法により、標題と構成要素(例えば、句)の全体重みを得ることができるが、これらの方法は例示的なもので、制限的なものではないことは明らかであり、その他のパラメータである、例えば、構成要素と標題要素に共通に含まれる語の性質による算出でもよい。例えば、共通に含まれる語が、名詞であると比較的重要であるが、共通に含まれる語が前置詞や副詞のようなものであれば、さほど重要ではない。すなわち、該構成要素と該標題要素間の関連重みを正確に判定できる算出方法であれば、適用可能な方法である。
<各種要素の最終重みの算出>
具体的には、各要素の最終重みの組み合わせは、該要素の層内重み、層間重み、及び標題からの全体重みの共同により決められ、下記式の通りである。
Figure 0005733062
Winsideは、算出された層内重みを表し、
Wcrossは、算出された層間重みを表し、
Wtitleは、算出された標題に基づく全体重みを表し、
λi、λc、λtは、各重みに対応する経験比率を表し、実際の応用においては、状況に応じて変化するものと見なされ、ゼロであってもよい。
<キー要素の取得>
以上の各ステップにより、各異なる層における異なる要素の、最終重みスコアが得られる。いずれかの層のキー要素を取得したい場合は、該当層の全ての要素に対して最終重みの大きさ順で並べ替えを行い、最終重みが最高となるnの要素をキー要素とすればよい。
具体的には、文書を標題と領域と句と語との4層に分割し、例えば、キーフレーズを取得したい場合は、句層の各要素を最終重み順で並べ替え、最終重みが最高となるnの句をキーフレーズとすることができる。
なお、1層における各要素の最終重みと所定閾値との比較により、最終重みが所定閾値を超える要素をキー要素としてもよい。
もちろん、キー要素の取得方法は、前述の2種類に限らず、その他の方法を用いて要素の最終重みからキー要素を取得してもよい。
本発明の実施例によると、新たな文書から構成情報に基づいてキー要素を取得可能な装置を提供することができる。このような構成情報(表題層、句層、語層等)には、有意義な情報が多く含まれており、本願の方法は、統一的モデルによる該文書からの異なる層のキー要素の取得が可能となり、異なる階層の各キー要素を同時にかつ自動的に取得することが可能となる。
該方法は、情報の概括に用いることができ、1篇の文章から代表可能な要約句、キーワード等の非常に有用な情報を得ることができ、文書の要約生成、統計分析、自動タグ付け、自動分類、索引等に用いることができる。
図7は、本発明の1実施例による、文書から1つまたは複数のキー要素の取得装置を示した図である。該装置700は、該文書の構成要素を抽出する抽出装置701を有している。前記構成要素には、少なくとも標題要素が含まれており、該文書には、複数の構成上の層が含まれている。これらの構成上の層には、少なくとも標題層が含まれており、各構成要素は、各自の層に対応している。該装置700は、さらに標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置702を有している。該装置700は、さらに前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置703を有している。該装置700は、さらに前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置704を有している。該装置100は、さらに前記被抽出構成要素の層内重みと、層間重みと、全体重みの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置705を有している。該装置700は、さらに前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するキー要素取得装置706を有している。
本発明の他の実施例によると、前記層内重み決定装置702は、被抽出構成要素に初期重みを付与する装置と、被抽出構成要素と、対応層内の他の構成要素との間の層内関係チェーンの重みを決定する装置と、被抽出構成要素の初期重みと、層内関係チェーンの重みとに基づき、被抽出構成要素の対応層内の層内重みを決定する装置を有している。
なお、領域要素または段落要素の初期重みが、領域または段落の位置情報に関係し、句要素の初期重みが、該句の他の句に引用される回数に関係し、語または字の初期重みが、該語または字の性質及び/または出現頻度に関係していることが好ましい。
なお、層内重み決定装置702は、領域要素、段落要素、句要素に対し、2つの構成要素間に共通に含まれる語または字の数、及び2つの構成要素の語または字の総数から、2つの構成要素間の層内関係チェーンの重みを算出し、語要素と字要素に対しては、同層の2つの構成要素の、同一の所定サイズの要素窓に同時出現した際の距離、及び該要素窓の所定サイズにより、2つの構成要素の該要素窓内の関連値を算出し、該2つの構成要素の文書全体における各要素窓内の関連値の和から、該2つの構成要素の文書全体における層内関係チェーンの重みを算出することが好ましい。
なお、層内重み決定装置702は、TextRankのグラフに基づく演算法を用いて、被抽出構成要素の初期重みとその層内関係チェーンの重みから、被抽出構成要素の対応層内の層内重みを算出するようにしてもよい。
なお、層間重み決定装置703は、前記被抽出構成要素と前記他層中の構成要素間の含有回数、該被抽出構成要素の層内重み、及び/または他層の構成要素の層内重みといったこれらのパラメータのうちの1つまたは複数により、前記被抽出構成要素の層間重みを算出するようにしてもよい。
なお、全体重み決定装置704は、被抽出構成要素と標題要素に共通に含まれる語または字の数と、共通に含まれる語または字の出現頻度と、共通に含まれる語または字の性質と、被抽出構成要素の語または字の総数と、標題要素の語または字の総数と、被抽出構成要素の層内重み及び/または、被抽出構成要素の層間重みといった、これらのパラメータのうちの1つまたは複数により、被抽出構成要素の全体重みを算出するようにしてもよい。
キー要素取得装置706は、前記1層における構成要素の最終重みの並べ替えを行い、最終重みが最高となる1つまたは複数の構成要素を前記1層における1つまたは複数のキー要素とするようにしてもよい。
本発明によると、新たな文書から構成情報に基づいてキー要素を取得可能な装置を提供することができる。このような構成情報(表題層、句層、語層等)には、有意義な情報が多く含まれており、本願の装置は、統一的モデルによる該文書からの異なる層のキー要素の取得が可能となり、異なる階層の各キー要素を同時にかつ自動的に取得することが可能となる。
該装置は、情報の概括に用いることができ、1篇の文章を代表可能な要約句、キーワード等の非常に有用な情報を得ることができ、文書の要約生成、統計分析、自動タグ付け、自動分類、索引等に用いることができる。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (2)

  1. 文書から1つまたは複数のキー要素を取得する装置であって、
    前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応する抽出装置と、
    前記標題層を除く1層における前記被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、
    前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、
    前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置と、
    前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、
    前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するキー要素取得装置と、を含む、装置。
  2. 前記構成要素が、さらに、領域要素、段落要素、句要素、語要素、字要素のうちの少なくとも一つを有し、前記構成上の層が、さらに、領域層、段落層、句層、語層、字層のうち少なくとも一つを有する、請求項に記載の装置。
JP2011149434A 2010-07-06 2011-07-05 文書からの1つ又は複数のキー要素取得方法及び装置 Active JP5733062B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010218148.4 2010-07-06
CN2010102181484A CN102314448B (zh) 2010-07-06 2010-07-06 一种在文档中获得一个或多个关键元素的设备和方法

Publications (2)

Publication Number Publication Date
JP2012018674A JP2012018674A (ja) 2012-01-26
JP5733062B2 true JP5733062B2 (ja) 2015-06-10

Family

ID=45427627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011149434A Active JP5733062B2 (ja) 2010-07-06 2011-07-05 文書からの1つ又は複数のキー要素取得方法及び装置

Country Status (2)

Country Link
JP (1) JP5733062B2 (ja)
CN (1) CN102314448B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
CN104461348B (zh) * 2014-10-31 2018-09-04 小米科技有限责任公司 信息选取方法及装置
US10592541B2 (en) * 2015-05-29 2020-03-17 Intel Corporation Technologies for dynamic automated content discovery
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN105718445B (zh) * 2016-01-28 2018-05-11 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN109255118B (zh) * 2017-07-11 2023-08-08 普天信息技术有限公司 一种关键词提取方法及装置
CN111611341B (zh) * 2020-04-09 2023-04-25 中南大学 一种词项文档结构位置权重的获取方法及装置
WO2021248435A1 (en) * 2020-06-12 2021-12-16 Bayer Aktiengesellschaft Method and apparatus for automatically generating summary document

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997412B2 (ja) * 2002-11-13 2007-10-24 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4525154B2 (ja) * 2004-04-21 2010-08-18 富士ゼロックス株式会社 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JPWO2006048998A1 (ja) * 2004-11-05 2008-05-22 株式会社アイ・ピー・ビー キーワード抽出装置
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
CN100492366C (zh) * 2007-06-28 2009-05-27 腾讯科技(深圳)有限公司 摘要提取方法以及摘要提取模块
CN101398814B (zh) * 2007-09-26 2010-08-25 北京大学 一种同时抽取文档摘要和关键词的方法及系统

Also Published As

Publication number Publication date
JP2012018674A (ja) 2012-01-26
CN102314448A (zh) 2012-01-11
CN102314448B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
JP5733062B2 (ja) 文書からの1つ又は複数のキー要素取得方法及び装置
US7424421B2 (en) Word collection method and system for use in word-breaking
Soboroff et al. Overview of the TREC 2006 Enterprise Track.
Bergsma et al. Bootstrapping path-based pronoun resolution
Akter et al. An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm
JP4754247B2 (ja) 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
Thakkar et al. Graph-based algorithms for text summarization
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN105426360B (zh) 一种关键词抽取方法及装置
US20040243388A1 (en) System amd method of analyzing text using dynamic centering resonance analysis
Guo et al. A graph-based method for entity linking
US10528664B2 (en) Preserving and processing ambiguity in natural language
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Attia et al. Arabic spelling error detection and correction
Ozturkmenoglu et al. Comparison of different lemmatization approaches for information retrieval on Turkish text collection
Yang et al. Ontology generation for large email collections.
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
Ahmed et al. Incorporating hand-crafted features in a neural network model for stance detection on microblog
Campbell et al. Content+ context networks for user classification in twitter
Castro et al. Authorship verification, combining linguistic features and different similarity functions
JP5477910B2 (ja) 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法
Campelo et al. A model for geographic knowledge extraction on web documents
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2012: A Joint Approach.
JP4895988B2 (ja) 文書分類装置の余分構造減退方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R151 Written notification of patent or utility model registration

Ref document number: 5733062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151