JP5733062B2

JP5733062B2 - 文書からの１つ又は複数のキー要素取得方法及び装置

Info

Publication number: JP5733062B2
Application number: JP2011149434A
Authority: JP
Inventors: ジュアヌソォンシエ; シャヌシャヌジアン; ジィチョアヌジォン; リジュヌジャオ; ジュヌスヌ
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-07-06
Filing date: 2011-07-05
Publication date: 2015-06-10
Anticipated expiration: 2031-07-05
Also published as: JP2012018674A; CN102314448A; CN102314448B

Description

本発明は、テキスト処理に関し、詳細に、キー要素を取得するテキスト処理に関する。

ネットワーク上に出現する文書が日増しに増加するにつれて、各文書から該文書情報を代表可能な、文書検索や文書要約の生成等に用いられるキーワード（語）やキーフレーズ（句）の取得の必要性も高まってきている。また、如何に文書からキーワードやキーフレーズといったキー要素をより正確に抽出するかが注目されてきている。得られるキー要素が正確になるほど、該キー要素による検索から所望の文書が得られる可能性も高くなり、該キー要素により生成される文書要約でより適切に文書の情報を表すことができる。

文書からキー要素を取得する従来の技術としては、ＴｅｘｔＲａｎｋ（テキストランク）方法があり、Rada Mihalcea 及びPaul Tarauの論文“TextRank: Bring Order into Texts”から関連記載を見つけることができる。TextRankモデルは、自然言語の文書から語や句要素を抽出後、これらの語や句要素をグラフのノードとしてスコアをつけており、その基本思想としては、１つのノードが他のノードにリンクすると、該他のノードに１ポイントを与え、該ノードのスコアが高くなるほど、該ノードの重要度も高くなっている。これらのノードの最後のスコアを算出することで、各ノードの重要度を取得することができ、キーとなる語要素や句要素を取得することができる。しかしながら、該TextRank方法においては、同一種類（例えば、語や句）の要素間のリンク関係だけ考慮し、異なる種類の要素間（例えば、語と句の間）の関係は考慮していないため、このような方法により算出されたノードのスコアは、該要素の重要度を正確に表すことができず、キー要素による検索から所望の結果が得られない恐れがある。

文書からキー要素を取得する他の従来の技術として、特許文献ＷＯ2006/001906のGraph-based Ranking Algorithms for Text Processingには、グラフによる少なくとも自然言語形式のテキストの処理方法が提案されている。該方法は、自然言語テキストから同種類（例えば、語や句）の複数のテキスト単位を決定し、該複数のテキスト単位と複数のグラフノードとの関連付けを行うとともに、少なくとも２つのテキスト単位間の少なくとも１つの接続関係を決定しているが、該公開は、主に独立した句と句の関係や字と字の関係といった、同種類のテキスト単位間の関係に注目しており、句と字の関係は考慮していないことから、同様に、このような方法により得られる同種類のテキスト単位間の関係によっても、該テキスト単位の文書全体における重要度を正確に表すことができないため、該キー要素による検索から所望の結果が得られないという問題がある。

また、文書からキー要素を取得する他の従来技術として、Xiaojun Wan等の「“Towards an Iterative Reinforcement Approach for Simultaneous Document Summarization and Keyword Extraction”（ＡＣＬ）、２００７」には、句と語の関係に基づくキーワード取得方法が提案されている。しかしながら、該方法は、文書の標題の、文書における句と語への影響は考慮されておらず、また、該方法は、他のテキスト要素（例えば、領域、段落等）内や間の関係には及ばないため、同様に、このような方法により得られる同種類のテキスト単位間の関係によっても、該テキスト単位の文書全体における重要度を正確に表すことができない。

このため、文書からテキスト要素の重要度を取得することで、キー要素を正確に取得可能な、改善される方法及び装置が求められている。

キー要素の取得及びテキスト要約とも、文書から該文書の情報を代表可能なキー要素を取得することに照準を合わせている。従来技術における通常の技術手段は、全て独立した句、語及びこれらの間の関係を利用することに注目しているが、文書の構造を、十分に考慮していないため、従来技術におけるキー要素の取得手段によっては、該テキスト要素の文書全体における重要度を正確に表すことができない。このため、得られるキー要素が文書全体の内容情報を適切に表すことができないことから、該キー要素により所望の文書検索結果が得られず、適切な文書要約が得られない。

本発明の目的は、文書からの１つ又は複数のキー要素を取得する方法及び装置を提供することにある。

上述の課題を解決するために、本発明の一側面によると、文書から１つまたは複数のキー要素を取得する方法が提供される。この方法は、前記文書から少なくとも標題要素を含む構成要素を抽出するステップであって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、且つ、前記構成要素の各々は、各自の層に対応するステップと、標題層を除く１層における被抽出構成要素の対応層内の層内重みを決定するステップと、前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定するステップと、前記被抽出構成要素と前記標題要素との間の全体重みを決定するステップと、前記被抽出構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップと、前記１層における構成要素の最終重みに基づき、前記１層における１つまたは複数のキー要素を取得するステップと、を含む。

本発明の他の側面によると、文書から１つまたは複数のキー要素を取得する装置が提供される。この装置は、前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、且つ、前記構成要素の各々は、各自の層に対応する抽出装置と、標題層を除く１層における被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、前記被抽出構成要素と前記標題要素との間の全体重みを決定する全体重み決定装置と、前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、前記１層における構成要素の最終重みに基づき、前記１層における１つまたは複数のキー要素を取得するキー要素取得装置と、を含む。

このため、本願によれば、文書における構成要素の重要度のより正確な算出が可能となり、文書からキー構成要素をより正確に取得することができ、これらのキー構成要素を用いた１連の関連の応用が実現可能となる。

本発明の１実施例による、１つまたは複数のキー要素の取得方法を示した図である。樹形構造により、本発明の１実施例による文書の構成要素の関係を示した図である。本発明の実施例による異なる要素の層内重み、層間重み及び全体重みの組み合わせの全体演算法を具体的に示した図である。本発明の１実施例による語、字層の層内関係の構築を示した図である。本発明の１実施例による層内重みの算出時に用いられるＴｅｘｔＲａｎｋのグラフに基づく算出法を示した図である。本発明の１実施例による層間関係の算出時に用いられる目標マトリクスを示した図である。本発明の１実施例による１つまたは複数のキー要素の取得装置を示した図である。

以下、図面を参照しながら、本発明の各実施例について詳細に説明する。なお、これらの実施例は単なる例として挙げたもので、本発明がこれらに限るものではない。

図１は、本発明の１実施例による、文書から１つまたは複数のキー要素の取得方法１００を示している。該方法１００には、該文書の構成要素を抽出するステップＳ１０１が含まれている。前述のように、該構成要素には、少なくとも標題要素が含まれており、該文書には、複数の構成上の層が含まれている。これらの構成上の層には、少なくとも標題層が含まれており、各構成要素は、各自の層に対応している。該方法１００には、さらに標題層を除く１層における被抽出構成要素の対応層内の層内重みを決定するステップＳ１０２が含まれている。該方法１００には、さらに前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定するステップＳ１０３が含まれている。該方法１００には、さらに前記被抽出構成要素と、標題要素との間の全体重みを決定するステップＳ１０４が含まれている。該方法１００には、さらに前記被抽出構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップＳ１０５が含まれている。該方法１００には、さらに前記１層における構成要素の最終重みに基づき、前記１層における１つまたは複数のキー要素を取得するステップＳ１０６が含まれている。

このようにして、構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、構成要素の重要度を正確に取得することができ、１つまたは複数のキー要素をより正確に取得することができる。

以下、本発明の１実施例による１つまたは複数のキー要素の取得フローを詳細に説明する。

記載の便宜上、以下、樹形構造により、文書の構成情報を自然に表すが、本発明は、これに限るものではない。該樹形構造における各層は、標題、領域、段落、句、語（及び/または字）をそれぞれ代表しており、このような階層関係は、同様に有意義な多くの情報を現している。ここで、領域とは、文書を全体として分割された部分をいい、１つまたは複数の段落が含まれている。なお、語と字は、中国語や日本語の記載においては区分しており、英語等の記載においては区分せずに語と総称する。すなわち、中国語や日本語の記載においては、字がテキストの最小単位であるが、英語等の記載においては語がテキストの最小単位となるため、本願においては、最大の保護範囲を確保するために、中国語や日本語の環境における語と字を含んでいるが、実際に英語等の環境においては、語と字を総称して語としてもよい。異なる階層におけるキー要素を取得し、かつこれらの関係を整合して考慮することで、より合理性を有することになり、キー要素の重要度をより正確に取得することができ、より優れた効果を得ることができる。

なお、共同モデルにおいて、異なる種類のキー要素を取得するとともに、同一層内の関係及び異なる層との層間関係も同時に考慮し、このようなモデルは、有用であり斬新であるため、以下、樹形情報により１つまたは複数のキー要素を取得する具体的方法について詳細に説明する。

図２は、樹形構造により、本発明の１実施例による文書の構成要素の関係を示した図である。図２には、文書における、例えば標題層、領域層、句層、語層といった４階層が示されている。しかし、これの階層構成は、記述の便宜を図るためのもので、本願はこれに限るものではない。階層は、取得しようとするキー要素や、得られるキー要素の正確性や、他の要求によって、例えば、標題層、句層、語層といった３つの層のみ有してもよく、それ以下の層を有してもよい。もしくは、該階層は、文書における段落層や字層といった他の階層を有してもよい。文書の構成情報によっては、要約層や図面層といった他の階層を用いてもよい。

図２から、同層間の層内関係及び異なる層間の層間関係の２種類の関係が分かる。

該実施例において、一部の構成化情報は仮設するとともに抽出することができる。

各文書は、通常、標題がある。

各文書は、通常、１連の領域からなる。

各領域は、通常、１連の句からなる。

各句は、通常、１連の語からなる。

このため、図２には、４種の層、即ち、標題層と、領域層と、句層と、語層とが示されている。この場合、層内の関係は、位置関係、順序関係または要素間の類似度から得られる。

層間の関係からすると、最も自然な関係は、樹形における親子間の関係であり、同様にこのような樹形における関係は、子が最も重要な親の下にいると、彼らは最も重要であり、親が重要であれば、彼らの下の子も重要であると仮設することができる。この仮設により、
標題は、１つの文書の比較的重要な情報を表していること、
句が重要な領域にあると、これらの句も比較的に重要であること、
領域に重要な句が含まれていると、この領域も比較的に重要であること、
語が重要な句にあると、これらの語も比較的に重要であること、及び、
句に重要な語が含まれていると、この句も比較的に重要であること、が分かる。

以上は、１つの構成要素の重要度評価の一部の仮設であるが、その他の構成要素の重要度の評価や推論があってもよい。

図３は、異なる要素の層内重み、層間重み及び全体重みの組み合わせの全体演算法を具体的に示した図である。当然ながら、このような演算法は、具体的な演算法を示した１例に過ぎず、本発明は、これに限定されるものではない。

図３に示したように、領域、句、語（及び/または段落、字等）に対して、ステップＳ２０１〜Ｓ２０９は構成要素の同層内の層内重みを算出するためのもので、ステップＳ２０１、Ｓ２０２、Ｓ２０３で同層の構成要素の初期重みを算出し、ステップＳ２０４、Ｓ２０５、Ｓ２０６で構成要素の同層内の層内関係を構築し、ステップＳ２０７、Ｓ２０８、Ｓ２０９で同層の構成要素の層内重みを算出している。

ステップＳ２１０〜Ｓ２１１は、異なる層の構成要素間の層間重みを算出するためのものである。

標題については、標題は対応の標題層の一つの独立したノードであり、ステップＳ２１２において、標題は、以下の要素（領域、句、語要素を含む）の全てに対し全体的な重み付関係を有している。この場合、標題は、検索条件として、関連のテキスト要素を検索することになる。

＜層内重みの算出＞
以下、領域、句、語要素の層内重みの具体的な算出方法について詳細に説明する。該算出方法は、以下のステップにより行われる。

各構成要素の初期重み：
先ず、各構成要素に初期重みを与える（Ｓ２０１、Ｓ２０２、Ｓ２０３）。

領域要素や段落要素の初期重みは、領域や段落の位置情報に関係しており、句要素の初期重みは、該句の他の句に引用される回数に関係しており、及び/または、語や字の初期重みは、該語や字の性質及び/または出現頻度に関係している。

具体的には、領域や段落に対しては、初期重みを決定するのは位置でよい。異なる位置には、異なる経験の初期重みが与えられ（Ｓ２０１）、１つの実施方法としては、

位置が開始位置または終了位置であると、１となり、そうでなければ、0.5となる。

ここで、ｃ（ｓｉ）は、要素Ｓｉの初期重みである。前述の初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定可能なことは言うまでもない。

句に対しては、先験的な初期重みを、該句の他の句に引用される回数で決めてもよい。１つの実施方式としては、式（１）である。

ここで、ｃ（ｓｉ）は、要素Ｓｉの初期重みであり、Ｃｉｎは、他の要素の要素ｓｉへの引用回数である。引用回数は該句の代表性語の他の句における出現回数である。

前述の初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定可能なことは言うまでもない。

語/字に対しては、初期重みを、語の性質の経験重みから決めることができ（Ｓ２０３）、例えば、名詞の重要度が高いと１．０とし、動きがやや劣ると０．７となる。しかし、初期重みはこれに限らず、語/字の出現頻度や、所定値から決めてもよい。換言すると、前記初期重みの設定方式は、唯一のものではなく、状況に応じて異なる初期重みの算出方式を設定することができる。

＜層内関係チェーンの重みの算出＞
ここで、該構成要素とその対応層内の他の構成要素間の層内関係チェーンの重みを決定することができる。

領域要素、段落要素、句要素に関しては、２つの構成要素に共通に含まれる語や字の数と、２つの構成要素の語や字の総数から、２つの構成要素間の層内関係チェーンの重みを算出することができる。

具体的には、領域（または段落）と句層において、層内の関係チェーンは、類似度から決められており（Ｓ２０４、Ｓ２０５）、その算出方式は、以下となる。

ここで、

は、要素ｅｉとｅｊの類似度を表し、ｅｉとｅｊは、樹形構造における２つの属性ノードであり、通常は、領域（または段落）や句層内の連語や語であり、ｗｋは、該語を構成する単語や字を表し、

は、該属性ノードにいくつの字があるかを表し、

は、ｅｉに属し且つｅｊに属する字の数を表している。

このようにして、領域（または段落）や句層内のすべての連語や字を遍歴し、２つの領域（または段落）や句の間の総類似度を得ることができる。もちろん、領域（または段落）と句層の類似度は、他の従来方法で取得してもよい。なお、類似度が所定の閾値を超えると、２つの要素間には層内関係があると判定してもよい。

語要素と字要素に関しては、同層の２つの構成要素が同一の所定サイズの要素窓に同時に出現した際の距離と、該要素窓の所定サイズから、２つの構成要素の該要素窓内の関連値を算出することができ、該２つの構成要素の文書全体における各要素窓内の関連値の和から、該２つの構成要素の文書全体における層内関係チェーンの重みを算出することができる。

具体的には、語、字層の関係チェーンの構築に関しては、例えば、共出現の方法を用いることができる（Ｓ２０６）。図４は、語、字層の層内関係チェーンの構築図である。

ある語/字が同一の所定サイズの窓内（例えば、サイズが５である）にあると、該２つの語/字には関連があると判定する。

距離により、２つの語/字の該窓内の関連値を算出することができ、その式は、

となる。

ここで、ｄは、２つの要素の距離であり、ｎは、窓のサイズである。

次に、文書全体を遍歴し、１つの字を単位とするか、複数の字を単位として該所定の窓を移動するとともに、ある２つの語/字の文書全体の全ての窓内における関連値を順次算出し、総和を算出することで、該２つの語/字の文書全体における層内関係チェーンの重みを取得する。当然ながら、前述の式は制限的なものではなく、他の式を用いて層内関係チェーンの重みを得てもよい。

＜層内重み算出（並べ替え）方法＞
該構成要素の初期重みとその層内関係チェーンの重みから、構成要素の対応層内の層内重みを決定することができる。ＴｅｘｔＲａｎｋのグラフによる算出法を用いて、該構成要素の初期重みとその層内関係チェーンの重みから、該構成要素のその対応層内の層内重みを算出してもよい。

具体的には、図５により、グラフに基づく配列算出法（Ｓ２０７、Ｓ２０８、Ｓ２０９）を説明する。例えば、ＴｅｘｔＲａｎｋ方法により要素の層内重みを算出ことができる。各要素を１つのノードと見なし、式は、

となる。

ここで、Ｗ（Ｖｉ）は、目標ノードＶｉのスコアであり、１回目反復においては、該スコアが初期重みとなる。

Ｉｎ（Ｖｉ）は、該ノードＶｉに関連するノード集合（すなわち、図５におけるＶｊとＶｋ）を表し、
Ｏｕｔ（Ｖｊ）は、該ノードＶｊに関連するノード集合（すなわち、図５におけるＶｉとＶｋとＶｌ）を表し、
ωｊｉは、該２つのノード（ＶｉとＶｊ）間の辺（関連）の重み、例えば、前述により求められた関係チェーンの重みを表し、
該式におけるＶｊは、現在ノードＶｉに関連するノードのうちの１つを表している。

前述の式の算出により、毎回各ノードから１つの新たなノードの重みスコアを得ることができ、該スコアを再び式に代入して算出し、数回（例えば、５回）の反復後に、比較的に収束した値を得ることができ、該値を各要素のノードの最後の値、すなわち、層内重みとする。もちろん、層内重みの算出方法はこれに限らず、初期重みと層内関係チェーンの重みにより、他の方式や式から層内重みを算出してもよい。

＜層間重みの算出＞
構成要素と他の層における構成要素間の含有回数、該構成要素の層内重み及び/または他の層の構成要素の層内重みから、該構成要素の層間重みを算出することができる。

以下、図６により、要素の層間関係の具体的な算出方法を説明する。

先ず、目標マトリクスを定義する。

ここで、

は、句のような、１つの要素を表し、

は、語のような他の要素を表し、

は、語ｊが句ｉに出現する回数を表している。ここで、ｍは句の数を表し、ｎは語の数を表している。図６に示した通りである。

ここで、各句には、重みｗｓｉがあり、各語にも各自の重みｗｔｊがある。図６の右半分から分かるように、Ｘｉは、目標語を表し、Ｙｊは、目標句（Ｓ２１０、Ｓ２１１）を表している。最終重みの算出方法は、以下となる。

当然ながら、要素の層間関係の重みの算出は、前述の方式に限らず、他の算出方式を考慮してもよい。

＜標題要素と構成要素との間の全体重みの算出＞
構成要素と標題要素に共通に含まれる語や字の数、共通に含まれる語や字の出現頻度、共通に含まれる語や字の性質、構成要素の語や字の総数、標題要素の語や字の総数、構成要素の層内重み及び/または構成要素の層間重みといった、これらのパラメータのうちの１つまたは複数により、構成要素の全体重みを算出することができる。

以下、標題要素と構成要素間の全体重みを算出する２つの方法について詳細に説明する。

（第１の方法）
標題については、標題を他の全ての下層要素に関連する全体重みと見なしてもよく、標題を検索条件として関連構成要素を検索するプロセスと理解してもよい。標題は、通常、１つの文書の主題や最も重要な情報を表しているため、標題情報の使用は、キー要素の取得に潜在的な意義がある。本願の１実施例においては、句を例にすると、各句は、標題から追加の重み付きを得ることができ（全体重みと称する）、標題をＳｔとすると、ステップＳ２１２における全体重みの算出式（６）は、

となる。

ここで、

で、Ｓｉは、句のような目標ノードを表し、ｗ（Ｓｉ、Ｓｔ）は、類似度といった、要素ＳｉとＳｔの関係を表している。類似度の算出は、本願に開示された方法によって行ってもよく、他の方式を用いてもよいため、ここでは詳細は割愛する。換言すると、このような全体重みの算出方法は、該構成要素と該標題要素間の類似度（例えば、共通に含まれる語や字の数、構成要素の語や字の総数、標題要素の語や字の総数から算出することができる）、及び該構成要素と他の構成要素の類似度（例えば、該構成要素の層内重みから算出することができる）に基づいている。

（第２の方法）
先ず、ある語/字の頻度が句の語頻度と全文の語頻度を含むとする。所謂「句の語頻度」とは、ある語/字の全文における全ての句に出現する頻度を指し、該語がある句に出現すると１とカウントし、ある句に繰り返し出現するとカウントを加算しないといった、２つの特徴がある。該句の頻度は、通常の全文の語頻度とは異なり、全文の語頻度は、該語の全文に出現する頻度を指している。

句要素と標題要素の関係を例にすると、該方法は、「句の逆頻度」に基づいても良い。

仮に標題を重複しない語に分割可能とする。

ここで、ｎは、標題に含まれる重複しない語数である。

句要素と標題要素に共出現する語は、

で、

かつ

で、ｋは、句要素と標題要素に共出現する語数であり、

共出現する各語の対応句における語頻度は、

であり、
該文書の全句数は、

とすると、

ステップＳ２１２から、該句と標題の全体関係の重み計算式（７）は、以下となる。

換言すると、該構成要素と標題要素に共通に含まれる各語や字が出現する句の語頻度（或いは、全文の語頻度）が大きくなるほど、該標題要素の該構成要素に対して付加される全体重みが小さくなり、所謂「句の逆頻度」となる。例えば、中国語の場合、１つの句と標題要素に共通に含まれる語や字が例えば、「是」や「的」等で、これらの語や字の句頻度が、通常大きい場合、該句と標題要素に共通に含まれる語や字が特殊なものではなく、該句の全体重みが比較的に小さくなる。一方、１つの句と標題要素に共通に含まれる語や字が例えば、「キー要素」や「文書」等で、これらの語や字の句頻度が、比較的に小さいと、該句と標題要素に共通に含まれる語や字が比較的に特殊なものや、重要なもので、該句の全体重みが比較的に大きくなる。

該２種類の算出方法により、標題と構成要素（例えば、句）の全体重みを得ることができるが、これらの方法は例示的なもので、制限的なものではないことは明らかであり、その他のパラメータである、例えば、構成要素と標題要素に共通に含まれる語の性質による算出でもよい。例えば、共通に含まれる語が、名詞であると比較的重要であるが、共通に含まれる語が前置詞や副詞のようなものであれば、さほど重要ではない。すなわち、該構成要素と該標題要素間の関連重みを正確に判定できる算出方法であれば、適用可能な方法である。

＜各種要素の最終重みの算出＞
具体的には、各要素の最終重みの組み合わせは、該要素の層内重み、層間重み、及び標題からの全体重みの共同により決められ、下記式の通りである。

Ｗinsideは、算出された層内重みを表し、
Ｗcrossは、算出された層間重みを表し、
Ｗtitleは、算出された標題に基づく全体重みを表し、
λｉ、λｃ、λｔは、各重みに対応する経験比率を表し、実際の応用においては、状況に応じて変化するものと見なされ、ゼロであってもよい。

＜キー要素の取得＞
以上の各ステップにより、各異なる層における異なる要素の、最終重みスコアが得られる。いずれかの層のキー要素を取得したい場合は、該当層の全ての要素に対して最終重みの大きさ順で並べ替えを行い、最終重みが最高となるｎの要素をキー要素とすればよい。

具体的には、文書を標題と領域と句と語との４層に分割し、例えば、キーフレーズを取得したい場合は、句層の各要素を最終重み順で並べ替え、最終重みが最高となるｎの句をキーフレーズとすることができる。

なお、１層における各要素の最終重みと所定閾値との比較により、最終重みが所定閾値を超える要素をキー要素としてもよい。

もちろん、キー要素の取得方法は、前述の２種類に限らず、その他の方法を用いて要素の最終重みからキー要素を取得してもよい。

本発明の実施例によると、新たな文書から構成情報に基づいてキー要素を取得可能な装置を提供することができる。このような構成情報（表題層、句層、語層等）には、有意義な情報が多く含まれており、本願の方法は、統一的モデルによる該文書からの異なる層のキー要素の取得が可能となり、異なる階層の各キー要素を同時にかつ自動的に取得することが可能となる。

該方法は、情報の概括に用いることができ、１篇の文章から代表可能な要約句、キーワード等の非常に有用な情報を得ることができ、文書の要約生成、統計分析、自動タグ付け、自動分類、索引等に用いることができる。

図７は、本発明の１実施例による、文書から１つまたは複数のキー要素の取得装置を示した図である。該装置７００は、該文書の構成要素を抽出する抽出装置７０１を有している。前記構成要素には、少なくとも標題要素が含まれており、該文書には、複数の構成上の層が含まれている。これらの構成上の層には、少なくとも標題層が含まれており、各構成要素は、各自の層に対応している。該装置７００は、さらに標題層を除く１層における被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置７０２を有している。該装置７００は、さらに前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置７０３を有している。該装置７００は、さらに前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置７０４を有している。該装置１００は、さらに前記被抽出構成要素の層内重みと、層間重みと、全体重みの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置７０５を有している。該装置７００は、さらに前記１層における構成要素の最終重みに基づき、前記１層における１つまたは複数のキー要素を取得するキー要素取得装置７０６を有している。

本発明の他の実施例によると、前記層内重み決定装置７０２は、被抽出構成要素に初期重みを付与する装置と、被抽出構成要素と、対応層内の他の構成要素との間の層内関係チェーンの重みを決定する装置と、被抽出構成要素の初期重みと、層内関係チェーンの重みとに基づき、被抽出構成要素の対応層内の層内重みを決定する装置を有している。

なお、領域要素または段落要素の初期重みが、領域または段落の位置情報に関係し、句要素の初期重みが、該句の他の句に引用される回数に関係し、語または字の初期重みが、該語または字の性質及び/または出現頻度に関係していることが好ましい。

なお、層内重み決定装置７０２は、領域要素、段落要素、句要素に対し、２つの構成要素間に共通に含まれる語または字の数、及び２つの構成要素の語または字の総数から、２つの構成要素間の層内関係チェーンの重みを算出し、語要素と字要素に対しては、同層の２つの構成要素の、同一の所定サイズの要素窓に同時出現した際の距離、及び該要素窓の所定サイズにより、２つの構成要素の該要素窓内の関連値を算出し、該２つの構成要素の文書全体における各要素窓内の関連値の和から、該２つの構成要素の文書全体における層内関係チェーンの重みを算出することが好ましい。

なお、層内重み決定装置７０２は、ＴｅｘｔＲａｎｋのグラフに基づく演算法を用いて、被抽出構成要素の初期重みとその層内関係チェーンの重みから、被抽出構成要素の対応層内の層内重みを算出するようにしてもよい。

なお、層間重み決定装置７０３は、前記被抽出構成要素と前記他層中の構成要素間の含有回数、該被抽出構成要素の層内重み、及び/または他層の構成要素の層内重みといったこれらのパラメータのうちの１つまたは複数により、前記被抽出構成要素の層間重みを算出するようにしてもよい。

なお、全体重み決定装置７０４は、被抽出構成要素と標題要素に共通に含まれる語または字の数と、共通に含まれる語または字の出現頻度と、共通に含まれる語または字の性質と、被抽出構成要素の語または字の総数と、標題要素の語または字の総数と、被抽出構成要素の層内重み及び/または、被抽出構成要素の層間重みといった、これらのパラメータのうちの１つまたは複数により、被抽出構成要素の全体重みを算出するようにしてもよい。

キー要素取得装置７０６は、前記１層における構成要素の最終重みの並べ替えを行い、最終重みが最高となる１つまたは複数の構成要素を前記１層における１つまたは複数のキー要素とするようにしてもよい。

本発明によると、新たな文書から構成情報に基づいてキー要素を取得可能な装置を提供することができる。このような構成情報（表題層、句層、語層等）には、有意義な情報が多く含まれており、本願の装置は、統一的モデルによる該文書からの異なる層のキー要素の取得が可能となり、異なる階層の各キー要素を同時にかつ自動的に取得することが可能となる。

該装置は、情報の概括に用いることができ、１篇の文章を代表可能な要約句、キーワード等の非常に有用な情報を得ることができ、文書の要約生成、統計分析、自動タグ付け、自動分類、索引等に用いることができる。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

文書から１つまたは複数のキー要素を取得する装置であって、
前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応する抽出装置と、
前記標題層を除く１層における前記被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、
前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、
前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置と、
前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、
前記１層における構成要素の最終重みに基づき、前記１層における１つまたは複数のキー要素を取得するキー要素取得装置と、を含む、装置。
前記構成要素が、さらに、領域要素、段落要素、句要素、語要素、字要素のうちの少なくとも一つを有し、前記構成上の層が、さらに、領域層、段落層、句層、語層、字層のうち少なくとも一つを有する、請求項１に記載の装置。