JP4552401B2

JP4552401B2 - 文書処理装置および方法

Info

Publication number: JP4552401B2
Application number: JP2003295182A
Authority: JP
Inventors: 弥生柴田; 宏梅基
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-08-19
Filing date: 2003-08-19
Publication date: 2010-09-29
Anticipated expiration: 2023-08-19
Also published as: JP2005063298A

Description

本発明は、文書集合の内容を一語で表すラベルと、文書集合の概要を表すキーワードを抽出するための文書処理に関するものである。

近年、文書の電子化が進み、大量の文書が電子化されて公開されたり、あるいは共有されたりしている。このような大量の電子文書から、ユーザが必要とする文書を探し出すことは非常に困難である。そのため、ユーザの必要とする文書を大量文書から探し出すための様々な方法が考えられている。

その一つに、文書の内容によって文書を分類し、文書群としてグループ化することで、文書群を処理するという方法がある。文書を文書群に分類するには、人手で分類するほか、自動的に文書を分類する方法や、検索結果として文書群が得られる場合などがある。

このように人手や自動的に分類された文書群には、他の文書群と区別するために、文書群の重要な語句をキーワードとして抽出して出力表示したり、文書群の内容を要約して表示したり、文書群に名前やラベルをつけたりするなどが行われている。

しかし、キーワードを表示するだけでは、文書群の内容を一言で表現するのが困難であり、またラベルだけでは、全体の内容が具体的に何であるかを掴みにくい。

それを解消する手段として、文書群の名前を表すラベルと、文書群の内容を表す複数のキーワードを付与することが行われている。この場合、一般的に文書群中の文書から抽出した単語の出現頻度を算出して、キーワード候補の語句を出力し、その中で出現回数の最も多い単語をラベルとし、残りの単語の上位いくつかをキーワードとする方法が取られている。

例えば、株式会社ジャストシステムのＣｏｎｃｅｐｔＢａｓｅＣｌｕｓｔｅｒｉｎｇ（商標）では、キーワードの中でトップのものをラベルとして選択している。

しかし、ラベルとキーワードでは持っている役割が異なる。ラベルというのは文書群全体を表すもので、文書群に現れる重要概念に共通する概念であることが相応しく、キーワードの先頭のものがふさわしいとは限らない。一方、キーワードというのは文書群の内容をユーザにわかりやすく説明する役割があり、より具体的な語句が相応しい。

従って、ラベルとキーワードの抽出方法もそれぞれ変える必要がある。

なお、単語をクラスタリングし、各クラスタを、最も重要度の高い主キーワードとともに表示することが特許文献１に記載されているが、これは文書群のラベルを抽出するものではない。
特開２００１−３２５２７２

この発明は、以上の事情を考慮してなされたものであり、
提供することを目的としている。

本発明は、上述した従来技術の問題を解決するためになされたものであり、文書群に対して、文書の内容を１単語で表すラベルと、文書の内容をより詳しく説明するためのキーワードを、それぞれに適した、異なる方法を用いて抽出することを可能にした、文書処理装置を提供することを目的とするものである。

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。

すなわち、この発明の一側面によれば、上述の目的を達成するために、文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す１個以上のキーワードを抽出する文書処理装置に：文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と；前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と；前記語句の間の形態上の包含関係を解析する包含関係解析手段と；前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、他の語句に包含される語句に対し加点が行われるように調整してラベル抽出スコアを算出するラベル抽出スコア計算手段と；前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、他の語句を包含する語句に対し減点が行われるように調整してキーワード抽出スコアを算出するキーワード抽出スコア計算手段と；前記ラベル抽出スコアに従って前記語句の中からラベルを１つ選択するラベル選択手段と；前記キーワード抽出スコアに基づいてキーワードを選択するキーワード選択手段とを設けるようにしている。

この構成においては、語句の形態上の包含関係を基準にして包含される語句がラベルに選定される尤度を高くし、また包含する語句がキーワードに選定される尤度を高くし、もって、重要概念に共通する概念である語句がラベルに選ばれやすくし、具体的な意味合いの語句がキーワードに選ばれやすくすることができる。

前記包含関係解析手段は、例えば、文字列の包含関係や、単語列の包含関係を解析するものである。

また、前記キーワード選択手段は、包含される語句はキーワードとして選択しないようにしてもよい。

また、キーワード中のラベルに相当する部分を他の部分と区別して表示するようにしてもよい。

また、この文書処理装置に、文書群を分類する手段を付加するようにしてもよい。

また、本発明の他の側面によれば、文書集合の内容を一語で表すラベルを抽出する文書処理装置に：文書集合の各文書からラベルの候補となる語句を抽出する語句抽出手段と；前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と；前記語句の間の包含関係を解析する包含関係解析手段と；前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、調整してラベル抽出スコアを算出するラベル抽出スコア計算手段と；前記ラベル抽出スコアに基づいてラベルを選択するラベル選択手段とを設けるようにしている。

この構成においても、語句の包含関係に基づいて適切にラベルとなる語句を選定できる。

前記語句の間の包含関係は語句の形態上の包含関係や、意味上の包含関係である。語句の形態上の包含関係は、例えば文字列の包含関係や、単語列の包含関係である。意味上の包含関係は例えば辞書を用いて解析できる。

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。

この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。

本発明によれば、１ないし複数の文書からなる文書群から、適切なラベルやキーワードを抽出することができるという効果がある。このようなラベルやキーワードを付与することによって、文書群を正しく識別することが可能となる。

以下、この発明の実施例について説明する。

図１は、本発明の実施例１の文書処理装置を全体として示すブロック図である。図１において、文書処理装置は、語句抽出部１、語句重要度スコア計算部２、包含関係解析部３、ラベル抽出スコア計算部４、キーワード抽出スコア計算部５、ラベル選択部６、キーワード選択部７、表示出力部８等を含んで構成されている。具体的には、これら各部の機能を実現するコンピュータプログラムを所定のコンピュータあるいはコンピュータ群により実行する。もちろん、これら各部の一部または全部をハードウェアにより構成してもよい。

なお、本実施例においては、あらかじめ少なくともテキストを含む文書からなる文書集合が構成されているものとする。これらの文書群は、自動的に分類された結果や、もしくは検索された結果などによって取得されたものである。

語句抽出部１は、文書群中の各文書について、テキストの形態素解析を行い、各文から重要語句を抽出する。これらの語句は形態素解析によって抽出するのではなく、他の方法を使用して抽出しても構わない。

語句重要度スコア計算部２は、語句抽出部１で得られた語句に対し、語句の重要度を示す語句重要度スコアをそれぞれの語句ごとに計算する。語句重要度スコアの計算方法としては、従来から利用されているｔｆｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ／ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法を使うこともできるが、これに限定する必要はない。

例えば、ある文書群に含まれる要素単語の重みを、対象文書全体に対する文書群の相互情報量を応用した以下の式で表し、語句重要度スコアとすることもできる。

包含関係解析部３は、語句の包含関係を解析し、重要語句の包含関係を示すテーブルを作成する。

ラベル抽出スコア計算部４は、包含関係解析部３での語句の包含関係をうけ、包含関係にある語句のうち、包含される語句のラベル抽出スコアが、包含する語句のラベル抽出スコアよりも高くなるように、各語句の語句重要度スコアからラベル抽出スコアを新たに算出する。

キーワード抽出スコア計算部５は、包含関係解析部３での語句の包含関係をうけ、包含関係にある語句のうち、包含する語句をキーワードとして抽出するように、語句重要度スコアを調整し、キーワード抽出スコアを算出する。

ラベル選択部６は、ラベル抽出スコア計算部４で算出されたラベル抽出スコアのうち、最もスコアの高いものをラベルとして選択する。

キーワード選択部７は、語句重要度スコア計算部５で算出された語句重要度スコアのうち、スコアの高い上位いくつかをキーワードとして選択する。

表示出力部８は、ラベル選択部６で選択されたラベルと、キーワード選択部７で選択されたキーワードを表示出力する。

文書群内の各文書が入力されると、まず語句抽出部１が、文書中のテキストの語句抽出を行い、重要語句を抽出する。抽出する語句は、自立語だけ、もしくは名詞だけを抽出してもよい。これらの語句は形態素解析によって抽出するなどの方法があるが、他の方法を使用しても構わない。抽出したこれらの語句を重要語句とする。

次に語句重要度スコア計算部２で、抽出された各語句の語句重要度スコアが算出される。重要語句と語句重要度スコアの一例を図３に表す。図３では、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」「兵器」が語句として抽出され、各語に対し語句重要度スコアが、「０．４，０．３，０．２，０．２，０．１，０．１，０．１」というように与えられている。

次に包含関係解析部３で、重要語句の包含関係を解析する。この時、包含関係にある単語関係を保持しておくテーブルを作成する。図３の例を対象に包含関係解析部で作成したテーブルを図４に示す。

ラベル抽出スコア計算部４では、包含関係解析部３で作成したテーブルをもとに、包含関係にある語句のうち、包含される語句のラベル抽出スコアが包含する語句のラベル抽出スコアよりも高くなるように各単語の語句重要度スコアを調整して、ラベル抽出スコアを算出する。ここでは、包含する語句の語句重要度スコアと包含される語句の語句重要度スコアを加算することで、ラベル抽出スコアを算出する。

図２−Ａに、ラベル抽出スコアを算出するフロチャートを示す。

ラベル抽出スコア計算部４は、包含関係解析部３で作成したテーブルをもとに、語句のラベル抽出スコアを算出する。包含関係にある語句の場合、包含される語句の語句重要度スコアと、包含する語句の語句重要度スコアを加算し、包含される語句のラベル抽出スコアとする（Ｓ１３、Ｓ１４）。図２−Ａの各ステップＳ１０〜Ｓ１６は図から明らかであるので、詳細な説明は行わない。

図３の例を対象にラベル抽出スコアを算出すると、フセインとフセイン政権が包含関係にあるので、包含する語句であるフセイン政権の語句重要度スコア０．１と包含される語句のフセインの語句重要度スコア０．４に加算する。その結果、フセインのラベル抽出スコアが０．５になる。

同様に、兵器と大量破壊兵器、核兵器も包含関係にあるので、包含される語句の兵器の語句重要度スコアと、大量破壊兵器と核兵器の語句重要度スコアを加算する。その結果、兵器のラベル抽出スコアが０．６になる。

「査察」、「国連」などのようにその語が包含されない場合は、語句重要度スコアのスコアをラベル抽出スコアに与える。このようにして、ラベル抽出スコアを算出した結果が、図５である。

キーワード抽出スコア計算部５では、語句解析部で抽出した重要語句の、キーワード抽出スコアの算出を行う。

図２−Ｂにキーワード抽出スコアを算出するフロチャートを示す。

キーワード抽出スコア算出手段は、包含関係解析部３で作成したテーブルをもとに、語句のキーワード抽出スコアを算出する。包含関係にある語句の場合、包含される語句と包含する語句の語句重要度スコアのうち、高い方のスコアを包含する語句のキーワード抽出スコアとする（Ｓ２３、Ｓ２４）。図２−Ｂの各ステップＳ２０〜Ｓ２６も図から明らかであるので、詳細な説明は行わない。

キーワードとなる語句は、文書群の内容をできるだけ具体的に示すものが相応しいため、キーワード抽出スコア計算部５では、包含する語句と包含される語句のスコアのうち、高い方のスコアを包含する語句に付与し、キーワード抽出スコアを算出する。

図６は、図３の例を対象にキーワード抽出スコアを算出したものである。図６では、重要語句として、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」「兵器」があげられ、各語に対し語句重要度スコアが、「０．４，０．３，０．２，０．２，０．１，０．１、０．１」というように与えられている。

ここでは、「フセイン政権」が「フセイン」を包含する関係にある。この場合、より具体的な語をキーワードとして選択するために、「フセイン政権」のキーワード抽出スコアに「フセイン」と「フセイン政権」の語句重要度スコアの高い方（０．４）を付与する。「大量破壊兵器」と「兵器」、「核兵器」と「兵器」も包含関係にある。「大量破壊兵器」は「兵器」を包含する語句であり、「大量破壊兵器」と「兵器」の語句重要度スコアの高い方（０．３）を「大量破壊兵器」のキーワード抽出スコアに与える。「核兵器」と「兵器」も同様で、「核兵器」と「兵器」の語句重要度スコアの高い方（０．２）を「核兵器」のキーワード抽出スコアに与える。

ラベル選択部６では、ラベル抽出スコアが最も高い「兵器」をラベルとして選択する。

キーワード選択部７では、ラベルの「兵器」をキーワードとして選択しないため、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」をキーワードとして抽出する。

キーワードの抽出では、すべてをキーワードにしてもいいし、あらかじめ定めた個数あるいはあらかじめ定めたスコア以上のものをキーワードとして抽出してもよい。また、キーワード選択部７は、包含関係にある語句がある場合、包含する語句のみを選択してもよい。この例の場合「フセイン」は選択されなくなる。

語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図７に示す。

このようにして抽出されたラベルおよびキーワードは、表示出力部８により表示出力される。出力方法の１例を図８−Ａ、図８−Ｂ、図８−Ｃに示す。

以上、本発明の実施例１として一つの文書群に対してラベルおよびキーワードを付与する方法を説明した。

次に、本発明の実施例２として、文書群をクラスタリングしラベルとキーワードを付与する場合について説明する。

図９は実施例２の文書処理装置を全体として示すブロック図である。図９において、文書処理装置は、語句抽出部１、語句重要度スコア計算部２、包含関係解析部３、ラベル抽出スコア計算部４、キーワード抽出スコア計算部５、ラベル選択部６、キーワード選択部７、表示出力部８、ラベル・キーワード保持部９等を含んで構成されている。

本実施例では、文書群がクラスタリングされると、ラベル・キーワード保持部９によって、各クラスタに対して、ラベルとキーワード集合を保持する領域が確保される。

１番目のクラスタの各文書が入力されると、まず語句抽出部１において、文書中のテキストの語句抽出が行われ、重要語句が抽出される。

次に語句重要度スコア計算部２で、抽出された各語句の語句重要度スコアが算出される。重要語句と語句重要度スコアの一例を図１０に表す。図１０では、
「省エネルギー」「消費電力」「プリンタ」「消費」「高画質」「環境」「エネルギー」
が語句として抽出され、各語に対し語句重要度スコアが、０．４，０．４，０．３，０．２，０．１，０．１，０．１
というように与えられている。

ラベル抽出スコア計算部４では、包含関係解析部３で解析された語句の包含関係から、包含関係にある語句のうち、包含される語句のラベル抽出スコアが包含する語句のラベル抽出スコアよりも高くなるように調整する。ここでは、包含する語句の語句重要度スコアと包含される語句の重要度スコアを加算することで、包含される語句のラベル抽出スコアを算出する。図１０の例を対象に、包含関係解析部３で作成した、重要語句の包含関係を表すテーブルを図１１に表す。

図１０の例を対象にラベル抽出スコアを算出すると、まず、「省エネルギー」と「エネルギー」が包含関係にあるので、包含する語句である「省エネルギー」の語句重要度スコア０．４と包含される語句の「エネルギー」の語句重要度スコア０．１を加算する。その結果、「エネルギー」のラベル抽出スコアが０．５になる。

同様に、「消費電力」と「消費」も包含関係にあるので、包含する語句である「消費電力」の語句重要度スコア０．４と包含される語句の「消費」の語句重要度スコア０．２を加算する。その結果、「消費」のラベル抽出スコアが０．６になる。

このようにして、ラベル抽出スコアを算出した結果が、図１２である。

ラベル選択部６は、ラベル抽出スコアの最も高いものをラベルとして選択するので、図１２ではラベル抽出スコアの最も高い「消費」をラベルとして選択する。

次に、語句抽出部１で抽出された重要語句から、キーワード抽出を行う。キーワードとなる語句は、文書群の内容をできるだけ具体的に示すものが相応しいため、包含関係にある語句がある場合、語句重要度スコアに関係なく包含する語句を選択する。そのため、キーワード抽出スコア計算部５では、包含する語句と包含される語句のスコアのうち、高い方のスコアを包含する語句のキーワード抽出スコアとする。

図１３は、図１０の例を対象にキーワード抽出スコアを計算したものである。ここでは、「省エネルギー」が、「エネルギー」を包含する語句であるので、「省エネルギー」と「エネルギー」の語句重要度スコアの高い方（０．４）を「省エネルギー」のキーワード抽出スコアに付与する。「消費電力」は「消費」を包含する語句であるので、「消費電力」と「消費」の語句重要度スコアの高い方（０．４）を「消費電力」のキーワード抽出スコアに付与する。

キーワード選択部７は、ラベルとして選択した語句をキーワードとして選択しない。また、ここでは包含関係がある場合、包含する語句のみを選択するようにすると、
「省エネルギー」「消費電力」「プリンタ」「高画質」「環境」
をキーワードとして抽出する。

語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図１４に示す。

抽出されたラベル及びキーワードは、ラベル・キーワード保持部９によって、保存される。

次に、２番目のクラスタの各文書が入力されると、まず語句抽出部１において、文書中のテキストの語句抽出が行われ、キーワードの候補となる語句が抽出される。

次に語句重要度スコア計算部２で、抽出された各語句の語句重要度スコアが算出される。

重要語句と語句重要度スコアの一例を図１５に表す。図１５では、「業務プロセス」「活動」「ドキュメント情報」「変化」「テーマ」「知的活動」「視点」が語句として抽出され、各語に対し語句重要度スコアが、０．３，０．３，０．２，０．２，０．２，０．１，０．１というように与えられている。

図１５の例を対象に、包含関係解析部３で作成した重要語句の包含関係を表すテーブルを図１６に示す。図１５の例を対象にラベル抽出スコアを算出すると、まず「活動」と「知的活動」が包含関係にあるので、包含する語句である「知的活動」の語句重要度スコア０．１と包含される語句の「活動」の語句重要度スコア０．３を加算する。その結果、「活動」のラベル抽出スコアが０．４になる。

このようにして、ラベル抽出スコアを算出した結果が、図１７である。

ラベル選択部６は、ラベル抽出スコアの最も高いものをラベルとして選択するので、図１７ではラベル抽出スコアの最も高い「活動」をラベルとして選択する。

図１８は、図１５の例を対象にキーワード抽出スコアを計算したものである。ここでは、「知的活動」が「活動」を包含する語句である。この場合、「知的活動」と「活動」の語句重要度スコアの高い方（０．３）を「知的活動」に付与する。

キーワード選択部７は、ラベルとした語句をキーワードとしないため、「業務プロセス」「ドキュメント情報」「変化」「テーマ」「知的活動」「視点」をキーワードとして抽出する。

語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図１９に示す。

以下、他のクラスタについても同様の処理を行う。

このようにして抽出し、ラベル・キーワード保持部９によって保持されたラベルおよびキーワードは、表示出力部８により表示出力される。出力方法の１例を図２０−Ａ、図２０−Ｂ、図２０−Ｃに示す。

この場合、複数の文書群に同様のラベルが付与されてしまう可能性があり、文書群の内容が区別されにくくなってしまうことが考えられる。そこで、クラスタリングする場合、同じラベルが付与されないように調整する。この手法については特願２００２−０７６９１９を参照する。

このように、文書群の内容を表す代表的な１つの語句をラベルとして抽出し、また概要を補完する具体的な語句をキーワードとして抽出することで、文書群の内容をよりわかりやすく表示することを可能にした。

なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例ではラベルとともにキーワードを抽出するようにしたが、ラベルのみを抽出するようにしてもよい。逆に、キーワードのみを抽出するようにしてもよい。また上述の例では語句の形態上の包含関係を用いてラベルやキーワードに関してスコア付けを行ったが、意味上の包含関係を辞書等を用いて解析し、これに基づいて同様のスコア付けを行うようにしてもよい。ただし、意味上の包含関係は形態上の包含関係とは逆になるのでスコアの調整を逆に行う必要がある。

本発明の実施例１を示すブロック図である。本発明の実施例１におけるラベル抽出スコア算出のフロチャートである。本発明の実施例１におけるキーワード抽出スコア算出のフロチャートである。本発明の実施例１における重要語句と語句重要度スコアの一例である。本発明の実施例１における重要語句の包含関係を示すテーブルの一例である。本発明の実施例１におけるラベル抽出スコアの一例の説明図である。本発明の実施例１におけるキーワード抽出スコアの一例の説明図である。本発明の実施例１におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。本発明の実施例１における表示出力方法の一例の説明図である。本発明の実施例１における表示出力方法の一例の説明図である。本発明の実施例１における表示出力方法の一例の説明図である。本発明の実施例２を示すブロック図である。本発明の実施例２における重要語句と語句重要度スコアの一例である。本発明の実施例２における重要語句の包含関係を示すテーブルの一例である。本発明の実施例２におけるラベル抽出スコアの一例の説明図である。本発明の実施例２におけるキーワード抽出スコアの一例の説明図である。本発明の実施例２におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。本発明の実施例２における重要語句と語句重要度スコアの一例である。本発明の実施例２における重要語句の包含関係を示すテーブルの一例である。本発明の実施例２におけるラベル抽出スコアの一例の説明図である。本発明の実施例２におけるキーワード抽出スコアの一例の説明図である。本発明の実施例２におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。本発明の実施例２における表示出力方法の一例の説明図である。本発明の実施例２における表示出力方法の一例の説明図である。本発明の実施例２における表示出力方法の一例の説明図である。

符号の説明

１・・・語句抽出部
２・・・語句重要度スコア計算部
３・・・包含関係解析部
４・・・ラベル抽出スコア計算部
５・・・キーワード抽出スコア計算部
６・・・ラベル選択部
７・・・キーワード選択部
８・・・表示出力部
９・・・ラベル・キーワード保持部

Claims

文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す１個以上のキーワードを抽出する文書処理装置において、
文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段とを有し、
前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理装置。
前記包含関係解析手段は、文字列の包含関係を解析する請求項１に記載の文書処理装置。
前記包含関係解析手段は、単語列の包含関係を解析する請求項１に記載の文書処理装置。
前記キーワード選択手段は、包含される語句はキーワードとして選択しない請求項１、２または３に記載の文書処理装置。
さらに前記ラベルおよびキーワードを表示する表示手段を有し、前記表示手段は、キーワード中のラベルに相当する部分を他の部分と区別して表示する請求項１、２、３または４に記載の文書処理装置。
文書群を複数の文書集合に分類する文書群分類手段と、前記文書群分類手段によって分類されたそれぞれの文書群に対してそれぞれ前記ラベルおよび前記キーワードを抽出する請求項１〜５のいずれかに記載の文書処理装置とを備える文書分類装置であって、
前記語句重要度計算手段および前記ラベル抽出スコア計算手段は、他の文書集合のラベルおよびキーワードとして選択された語句のスコアが小さくなるようにスコアを計算することを特徴とする文書分類装置。
文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す１個以上のキーワードを抽出するために用いる文書処理用コンピュータプログラムにおいて、
コンピュータを、
文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段として機能させ、
前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理用コンピュータプログラム。