JP4552401B2 - 文書処理装置および方法 - Google Patents

文書処理装置および方法 Download PDF

Info

Publication number
JP4552401B2
JP4552401B2 JP2003295182A JP2003295182A JP4552401B2 JP 4552401 B2 JP4552401 B2 JP 4552401B2 JP 2003295182 A JP2003295182 A JP 2003295182A JP 2003295182 A JP2003295182 A JP 2003295182A JP 4552401 B2 JP4552401 B2 JP 4552401B2
Authority
JP
Japan
Prior art keywords
phrase
score
label
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003295182A
Other languages
English (en)
Other versions
JP2005063298A (ja
Inventor
弥生 柴田
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003295182A priority Critical patent/JP4552401B2/ja
Publication of JP2005063298A publication Critical patent/JP2005063298A/ja
Application granted granted Critical
Publication of JP4552401B2 publication Critical patent/JP4552401B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書集合の内容を一語で表すラベルと、文書集合の概要を表すキーワードを抽出するための文書処理に関するものである。
近年、文書の電子化が進み、大量の文書が電子化されて公開されたり、あるいは共有されたりしている。このような大量の電子文書から、ユーザが必要とする文書を探し出すことは非常に困難である。そのため、ユーザの必要とする文書を大量文書から探し出すための様々な方法が考えられている。
その一つに、文書の内容によって文書を分類し、文書群としてグループ化することで、文書群を処理するという方法がある。文書を文書群に分類するには、人手で分類するほか、自動的に文書を分類する方法や、検索結果として文書群が得られる場合などがある。
このように人手や自動的に分類された文書群には、他の文書群と区別するために、文書群の重要な語句をキーワードとして抽出して出力表示したり、文書群の内容を要約して表示したり、文書群に名前やラベルをつけたりするなどが行われている。
しかし、キーワードを表示するだけでは、文書群の内容を一言で表現するのが困難であり、またラベルだけでは、全体の内容が具体的に何であるかを掴みにくい。
それを解消する手段として、文書群の名前を表すラベルと、文書群の内容を表す複数のキーワードを付与することが行われている。この場合、一般的に文書群中の文書から抽出した単語の出現頻度を算出して、キーワード候補の語句を出力し、その中で出現回数の最も多い単語をラベルとし、残りの単語の上位いくつかをキーワードとする方法が取られている。
例えば、株式会社ジャストシステムのConceptBase Clustering(商標)では、キーワードの中でトップのものをラベルとして選択している。
しかし、ラベルとキーワードでは持っている役割が異なる。ラベルというのは文書群全体を表すもので、文書群に現れる重要概念に共通する概念であることが相応しく、キーワードの先頭のものがふさわしいとは限らない。一方、キーワードというのは文書群の内容をユーザにわかりやすく説明する役割があり、より具体的な語句が相応しい。
従って、ラベルとキーワードの抽出方法もそれぞれ変える必要がある。
なお、単語をクラスタリングし、各クラスタを、最も重要度の高い主キーワードとともに表示することが特許文献1に記載されているが、これは文書群のラベルを抽出するものではない。
特開2001−325272
この発明は、以上の事情を考慮してなされたものであり、
提供することを目的としている。
本発明は、上述した従来技術の問題を解決するためになされたものであり、文書群に対して、文書の内容を1単語で表すラベルと、文書の内容をより詳しく説明するためのキーワードを、それぞれに適した、異なる方法を用いて抽出することを可能にした、文書処理装置を提供することを目的とするものである。
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
すなわち、この発明の一側面によれば、上述の目的を達成するために、文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す1個以上のキーワードを抽出する文書処理装置に:文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と;前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と;前記語句の間の形態上の包含関係を解析する包含関係解析手段と;前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、他の語句に包含される語句に対し加点が行われるように調整してラベル抽出スコアを算出するラベル抽出スコア計算手段と;前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、他の語句を包含する語句に対し減点が行われるように調整してキーワード抽出スコアを算出するキーワード抽出スコア計算手段と;前記ラベル抽出スコアに従って前記語句の中からラベルを1つ選択するラベル選択手段と;前記キーワード抽出スコアに基づいてキーワードを選択するキーワード選択手段とを設けるようにしている。
この構成においては、語句の形態上の包含関係を基準にして包含される語句がラベルに選定される尤度を高くし、また包含する語句がキーワードに選定される尤度を高くし、もって、重要概念に共通する概念である語句がラベルに選ばれやすくし、具体的な意味合いの語句がキーワードに選ばれやすくすることができる。
前記包含関係解析手段は、例えば、文字列の包含関係や、単語列の包含関係を解析するものである。
また、前記キーワード選択手段は、包含される語句はキーワードとして選択しないようにしてもよい。
また、キーワード中のラベルに相当する部分を他の部分と区別して表示するようにしてもよい。
また、この文書処理装置に、文書群を分類する手段を付加するようにしてもよい。
また、本発明の他の側面によれば、文書集合の内容を一語で表すラベルを抽出する文書処理装置に:文書集合の各文書からラベルの候補となる語句を抽出する語句抽出手段と;前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と;前記語句の間の包含関係を解析する包含関係解析手段と;前記語句重要度スコアを、前記包含関係解析手段によって解析された包含関係に基づいて、調整してラベル抽出スコアを算出するラベル抽出スコア計算手段と;前記ラベル抽出スコアに基づいてラベルを選択するラベル選択手段とを設けるようにしている。
この構成においても、語句の包含関係に基づいて適切にラベルとなる語句を選定できる。
前記語句の間の包含関係は語句の形態上の包含関係や、意味上の包含関係である。語句の形態上の包含関係は、例えば文字列の包含関係や、単語列の包含関係である。意味上の包含関係は例えば辞書を用いて解析できる。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
本発明によれば、1ないし複数の文書からなる文書群から、適切なラベルやキーワードを抽出することができるという効果がある。このようなラベルやキーワードを付与することによって、文書群を正しく識別することが可能となる。
以下、この発明の実施例について説明する。
図1は、本発明の実施例1の文書処理装置を全体として示すブロック図である。図1において、文書処理装置は、語句抽出部1、語句重要度スコア計算部2、包含関係解析部3、ラベル抽出スコア計算部4、キーワード抽出スコア計算部5、ラベル選択部6、キーワード選択部7、表示出力部8等を含んで構成されている。具体的には、これら各部の機能を実現するコンピュータプログラムを所定のコンピュータあるいはコンピュータ群により実行する。もちろん、これら各部の一部または全部をハードウェアにより構成してもよい。
なお、本実施例においては、あらかじめ少なくともテキストを含む文書からなる文書集合が構成されているものとする。これらの文書群は、自動的に分類された結果や、もしくは検索された結果などによって取得されたものである。
語句抽出部1は、文書群中の各文書について、テキストの形態素解析を行い、各文から重要語句を抽出する。これらの語句は形態素解析によって抽出するのではなく、他の方法を使用して抽出しても構わない。
語句重要度スコア計算部2は、語句抽出部1で得られた語句に対し、語句の重要度を示す語句重要度スコアをそれぞれの語句ごとに計算する。語句重要度スコアの計算方法としては、従来から利用されているtfidf(Term Frequency/Inverse Document Frequency)法を使うこともできるが、これに限定する必要はない。
例えば、ある文書群に含まれる要素単語の重みを、対象文書全体に対する文書群の相互情報量を応用した以下の式で表し、語句重要度スコアとすることもできる。
Figure 0004552401
包含関係解析部3は、語句の包含関係を解析し、重要語句の包含関係を示すテーブルを作成する。
ラベル抽出スコア計算部4は、包含関係解析部3での語句の包含関係をうけ、包含関係にある語句のうち、包含される語句のラベル抽出スコアが、包含する語句のラベル抽出スコアよりも高くなるように、各語句の語句重要度スコアからラベル抽出スコアを新たに算出する。
キーワード抽出スコア計算部5は、包含関係解析部3での語句の包含関係をうけ、包含関係にある語句のうち、包含する語句をキーワードとして抽出するように、語句重要度スコアを調整し、キーワード抽出スコアを算出する。
ラベル選択部6は、ラベル抽出スコア計算部4で算出されたラベル抽出スコアのうち、最もスコアの高いものをラベルとして選択する。
キーワード選択部7は、語句重要度スコア計算部5で算出された語句重要度スコアのうち、スコアの高い上位いくつかをキーワードとして選択する。
表示出力部8は、ラベル選択部6で選択されたラベルと、キーワード選択部7で選択されたキーワードを表示出力する。
文書群内の各文書が入力されると、まず語句抽出部1が、文書中のテキストの語句抽出を行い、重要語句を抽出する。抽出する語句は、自立語だけ、もしくは名詞だけを抽出してもよい。これらの語句は形態素解析によって抽出するなどの方法があるが、他の方法を使用しても構わない。抽出したこれらの語句を重要語句とする。
次に語句重要度スコア計算部2で、抽出された各語句の語句重要度スコアが算出される。重要語句と語句重要度スコアの一例を図3に表す。図3では、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」「兵器」が語句として抽出され、各語に対し語句重要度スコアが、「0.4,0.3,0.2,0.2,0.1,0.1,0.1」というように与えられている。
次に包含関係解析部3で、重要語句の包含関係を解析する。この時、包含関係にある単語関係を保持しておくテーブルを作成する。図3の例を対象に包含関係解析部で作成したテーブルを図4に示す。
ラベル抽出スコア計算部4では、包含関係解析部3で作成したテーブルをもとに、包含関係にある語句のうち、包含される語句のラベル抽出スコアが包含する語句のラベル抽出スコアよりも高くなるように各単語の語句重要度スコアを調整して、ラベル抽出スコアを算出する。ここでは、包含する語句の語句重要度スコアと包含される語句の語句重要度スコアを加算することで、ラベル抽出スコアを算出する。
図2−Aに、ラベル抽出スコアを算出するフロチャートを示す。
ラベル抽出スコア計算部4は、包含関係解析部3で作成したテーブルをもとに、語句のラベル抽出スコアを算出する。包含関係にある語句の場合、包含される語句の語句重要度スコアと、包含する語句の語句重要度スコアを加算し、包含される語句のラベル抽出スコアとする(S13、S14)。図2−Aの各ステップS10〜S16は図から明らかであるので、詳細な説明は行わない。
図3の例を対象にラベル抽出スコアを算出すると、フセインとフセイン政権が包含関係にあるので、包含する語句であるフセイン政権の語句重要度スコア0.1と包含される語句のフセインの語句重要度スコア0.4に加算する。その結果、フセインのラベル抽出スコアが0.5になる。
同様に、兵器と大量破壊兵器、核兵器も包含関係にあるので、包含される語句の兵器の語句重要度スコアと、大量破壊兵器と核兵器の語句重要度スコアを加算する。その結果、兵器のラベル抽出スコアが0.6になる。
「査察」、「国連」などのようにその語が包含されない場合は、語句重要度スコアのスコアをラベル抽出スコアに与える。このようにして、ラベル抽出スコアを算出した結果が、図5である。
キーワード抽出スコア計算部5では、語句解析部で抽出した重要語句の、キーワード抽出スコアの算出を行う。
図2−Bにキーワード抽出スコアを算出するフロチャートを示す。
キーワード抽出スコア算出手段は、包含関係解析部3で作成したテーブルをもとに、語句のキーワード抽出スコアを算出する。包含関係にある語句の場合、包含される語句と包含する語句の語句重要度スコアのうち、高い方のスコアを包含する語句のキーワード抽出スコアとする(S23、S24)。図2−Bの各ステップS20〜S26も図から明らかであるので、詳細な説明は行わない。
キーワードとなる語句は、文書群の内容をできるだけ具体的に示すものが相応しいため、キーワード抽出スコア計算部5では、包含する語句と包含される語句のスコアのうち、高い方のスコアを包含する語句に付与し、キーワード抽出スコアを算出する。
図6は、図3の例を対象にキーワード抽出スコアを算出したものである。図6では、重要語句として、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」「兵器」があげられ、各語に対し語句重要度スコアが、「0.4,0.3,0.2,0.2,0.1,0.1、0.1」というように与えられている。
ここでは、「フセイン政権」が「フセイン」を包含する関係にある。この場合、より具体的な語をキーワードとして選択するために、「フセイン政権」のキーワード抽出スコアに「フセイン」と「フセイン政権」の語句重要度スコアの高い方(0.4)を付与する。「大量破壊兵器」と「兵器」、「核兵器」と「兵器」も包含関係にある。「大量破壊兵器」は「兵器」を包含する語句であり、「大量破壊兵器」と「兵器」の語句重要度スコアの高い方(0.3)を「大量破壊兵器」のキーワード抽出スコアに与える。「核兵器」と「兵器」も同様で、「核兵器」と「兵器」の語句重要度スコアの高い方(0.2)を「核兵器」のキーワード抽出スコアに与える。
ラベル選択部6では、ラベル抽出スコアが最も高い「兵器」をラベルとして選択する。
キーワード選択部7では、ラベルの「兵器」をキーワードとして選択しないため、「フセイン」「大量破壊兵器」「査察」「核兵器」「フセイン政権」「国連」をキーワードとして抽出する。
キーワードの抽出では、すべてをキーワードにしてもいいし、あらかじめ定めた個数あるいはあらかじめ定めたスコア以上のものをキーワードとして抽出してもよい。また、キーワード選択部7は、包含関係にある語句がある場合、包含する語句のみを選択してもよい。この例の場合「フセイン」は選択されなくなる。
語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図7に示す。
このようにして抽出されたラベルおよびキーワードは、表示出力部8により表示出力される。出力方法の1例を図8−A、図8−B、図8−Cに示す。
以上、本発明の実施例1として一つの文書群に対してラベルおよびキーワードを付与する方法を説明した。
次に、本発明の実施例2として、文書群をクラスタリングしラベルとキーワードを付与する場合について説明する。
図9は実施例2の文書処理装置を全体として示すブロック図である。図9において、文書処理装置は、語句抽出部1、語句重要度スコア計算部2、包含関係解析部3、ラベル抽出スコア計算部4、キーワード抽出スコア計算部5、ラベル選択部6、キーワード選択部7、表示出力部8、ラベル・キーワード保持部9等を含んで構成されている。
本実施例では、文書群がクラスタリングされると、ラベル・キーワード保持部9によって、各クラスタに対して、ラベルとキーワード集合を保持する領域が確保される。
1番目のクラスタの各文書が入力されると、まず語句抽出部1において、文書中のテキストの語句抽出が行われ、重要語句が抽出される。
次に語句重要度スコア計算部2で、抽出された各語句の語句重要度スコアが算出される。重要語句と語句重要度スコアの一例を図10に表す。図10では、
「省エネルギー」「消費電力」「プリンタ」「消費」「高画質」「環境」「エネルギー」
が語句として抽出され、各語に対し語句重要度スコアが、0.4,0.4,0.3,0.2,0.1,0.1,0.1
というように与えられている。
包含関係解析部3は、語句の包含関係を解析し、重要語句の包含関係を示すテーブルを作成する。
ラベル抽出スコア計算部4では、包含関係解析部3で解析された語句の包含関係から、包含関係にある語句のうち、包含される語句のラベル抽出スコアが包含する語句のラベル抽出スコアよりも高くなるように調整する。ここでは、包含する語句の語句重要度スコアと包含される語句の重要度スコアを加算することで、包含される語句のラベル抽出スコアを算出する。図10の例を対象に、包含関係解析部3で作成した、重要語句の包含関係を表すテーブルを図11に表す。
図10の例を対象にラベル抽出スコアを算出すると、まず、「省エネルギー」と「エネルギー」が包含関係にあるので、包含する語句である「省エネルギー」の語句重要度スコア0.4と包含される語句の「エネルギー」の語句重要度スコア0.1を加算する。その結果、「エネルギー」のラベル抽出スコアが0.5になる。
同様に、「消費電力」と「消費」も包含関係にあるので、包含する語句である「消費電力」の語句重要度スコア0.4と包含される語句の「消費」の語句重要度スコア0.2を加算する。その結果、「消費」のラベル抽出スコアが0.6になる。
このようにして、ラベル抽出スコアを算出した結果が、図12である。
ラベル選択部6は、ラベル抽出スコアの最も高いものをラベルとして選択するので、図12ではラベル抽出スコアの最も高い「消費」をラベルとして選択する。
次に、語句抽出部1で抽出された重要語句から、キーワード抽出を行う。キーワードとなる語句は、文書群の内容をできるだけ具体的に示すものが相応しいため、包含関係にある語句がある場合、語句重要度スコアに関係なく包含する語句を選択する。そのため、キーワード抽出スコア計算部5では、包含する語句と包含される語句のスコアのうち、高い方のスコアを包含する語句のキーワード抽出スコアとする。
図13は、図10の例を対象にキーワード抽出スコアを計算したものである。ここでは、「省エネルギー」が、「エネルギー」を包含する語句であるので、「省エネルギー」と「エネルギー」の語句重要度スコアの高い方(0.4)を「省エネルギー」のキーワード抽出スコアに付与する。「消費電力」は「消費」を包含する語句であるので、「消費電力」と「消費」の語句重要度スコアの高い方(0.4)を「消費電力」のキーワード抽出スコアに付与する。
キーワード選択部7は、ラベルとして選択した語句をキーワードとして選択しない。また、ここでは包含関係がある場合、包含する語句のみを選択するようにすると、
「省エネルギー」「消費電力」「プリンタ」「高画質」「環境」
をキーワードとして抽出する。
語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図14に示す。
抽出されたラベル及びキーワードは、ラベル・キーワード保持部9によって、保存される。
次に、2番目のクラスタの各文書が入力されると、まず語句抽出部1において、文書中のテキストの語句抽出が行われ、キーワードの候補となる語句が抽出される。
次に語句重要度スコア計算部2で、抽出された各語句の語句重要度スコアが算出される。
重要語句と語句重要度スコアの一例を図15に表す。図15では、「業務プロセス」「活動」「ドキュメント情報」「変化」「テーマ」「知的活動」「視点」が語句として抽出され、各語に対し語句重要度スコアが、0.3,0.3,0.2,0.2,0.2,0.1,0.1というように与えられている。
図15の例を対象に、包含関係解析部3で作成した重要語句の包含関係を表すテーブルを図16に示す。図15の例を対象にラベル抽出スコアを算出すると、まず「活動」と「知的活動」が包含関係にあるので、包含する語句である「知的活動」の語句重要度スコア0.1と包含される語句の「活動」の語句重要度スコア0.3を加算する。その結果、「活動」のラベル抽出スコアが0.4になる。
このようにして、ラベル抽出スコアを算出した結果が、図17である。
ラベル選択部6は、ラベル抽出スコアの最も高いものをラベルとして選択するので、図17ではラベル抽出スコアの最も高い「活動」をラベルとして選択する。
図18は、図15の例を対象にキーワード抽出スコアを計算したものである。ここでは、「知的活動」が「活動」を包含する語句である。この場合、「知的活動」と「活動」の語句重要度スコアの高い方(0.3)を「知的活動」に付与する。
キーワード選択部7は、ラベルとした語句をキーワードとしないため、「業務プロセス」「ドキュメント情報」「変化」「テーマ」「知的活動」「視点」をキーワードとして抽出する。
語句重要度スコア、ラベル抽出スコア、キーワード抽出スコアの変化を、図19に示す。
抽出されたラベル及びキーワードは、ラベル・キーワード保持部9によって、保存される。
以下、他のクラスタについても同様の処理を行う。
このようにして抽出し、ラベル・キーワード保持部9によって保持されたラベルおよびキーワードは、表示出力部8により表示出力される。出力方法の1例を図20−A、図20−B、図20−Cに示す。
この場合、複数の文書群に同様のラベルが付与されてしまう可能性があり、文書群の内容が区別されにくくなってしまうことが考えられる。そこで、クラスタリングする場合、同じラベルが付与されないように調整する。この手法については特願2002−076919を参照する。
このように、文書群の内容を表す代表的な1つの語句をラベルとして抽出し、また概要を補完する具体的な語句をキーワードとして抽出することで、文書群の内容をよりわかりやすく表示することを可能にした。
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例ではラベルとともにキーワードを抽出するようにしたが、ラベルのみを抽出するようにしてもよい。逆に、キーワードのみを抽出するようにしてもよい。また上述の例では語句の形態上の包含関係を用いてラベルやキーワードに関してスコア付けを行ったが、意味上の包含関係を辞書等を用いて解析し、これに基づいて同様のスコア付けを行うようにしてもよい。ただし、意味上の包含関係は形態上の包含関係とは逆になるのでスコアの調整を逆に行う必要がある。
本発明の実施例1を示すブロック図である。 本発明の実施例1におけるラベル抽出スコア算出のフロチャートである。 本発明の実施例1におけるキーワード抽出スコア算出のフロチャートである。 本発明の実施例1における重要語句と語句重要度スコアの一例である。 本発明の実施例1における重要語句の包含関係を示すテーブルの一例である。 本発明の実施例1におけるラベル抽出スコアの一例の説明図である。 本発明の実施例1におけるキーワード抽出スコアの一例の説明図である。 本発明の実施例1におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。 本発明の実施例1における表示出力方法の一例の説明図である。 本発明の実施例1における表示出力方法の一例の説明図である。 本発明の実施例1における表示出力方法の一例の説明図である。 本発明の実施例2を示すブロック図である。 本発明の実施例2における重要語句と語句重要度スコアの一例である。 本発明の実施例2における重要語句の包含関係を示すテーブルの一例である。 本発明の実施例2におけるラベル抽出スコアの一例の説明図である。 本発明の実施例2におけるキーワード抽出スコアの一例の説明図である。 本発明の実施例2におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。 本発明の実施例2における重要語句と語句重要度スコアの一例である。 本発明の実施例2における重要語句の包含関係を示すテーブルの一例である。 本発明の実施例2におけるラベル抽出スコアの一例の説明図である。 本発明の実施例2におけるキーワード抽出スコアの一例の説明図である。 本発明の実施例2におけるラベル抽出スコアとキーワード抽出スコアの一例の説明図である。 本発明の実施例2における表示出力方法の一例の説明図である。 本発明の実施例2における表示出力方法の一例の説明図である。 本発明の実施例2における表示出力方法の一例の説明図である。
符号の説明
1・・・語句抽出部
2・・・語句重要度スコア計算部
3・・・包含関係解析部
4・・・ラベル抽出スコア計算部
5・・・キーワード抽出スコア計算部
6・・・ラベル選択部
7・・・キーワード選択部
8・・・表示出力部
9・・・ラベル・キーワード保持部

Claims (7)

  1. 文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す1個以上のキーワードを抽出する文書処理装置において、
    文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
    前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
    前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
    前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
    前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
    前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
    前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段とを有し、
    前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
    前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理装置。
  2. 前記包含関係解析手段は、文字列の包含関係を解析する請求項1に記載の文書処理装置。
  3. 前記包含関係解析手段は、単語列の包含関係を解析する請求項1に記載の文書処理装置。
  4. 前記キーワード選択手段は、包含される語句はキーワードとして選択しない請求項1、2または3に記載の文書処理装置。
  5. さらに前記ラベルおよびキーワードを表示する表示手段を有し、前記表示手段は、キーワード中のラベルに相当する部分を他の部分と区別して表示する請求項1、2、3または4に記載の文書処理装置。
  6. 文書群を複数の文書集合に分類する文書群分類手段と、前記文書群分類手段によって分類されたそれぞれの文書群に対してそれぞれ前記ラベルおよび前記キーワードを抽出する請求項1〜5のいずれかに記載の文書処理装置とを備える文書分類装置であって、
    前記語句重要度計算手段および前記ラベル抽出スコア計算手段は、他の文書集合のラベルおよびキーワードとして選択された語句のスコアが小さくなるようにスコアを計算することを特徴とする文書分類装置。
  7. 文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す1個以上のキーワードを抽出するために用いる文書処理用コンピュータプログラムにおいて、
    コンピュータを、
    文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
    前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
    前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
    前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
    前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
    前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
    前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段として機能させ、
    前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
    前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理用コンピュータプログラム。
JP2003295182A 2003-08-19 2003-08-19 文書処理装置および方法 Expired - Fee Related JP4552401B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003295182A JP4552401B2 (ja) 2003-08-19 2003-08-19 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003295182A JP4552401B2 (ja) 2003-08-19 2003-08-19 文書処理装置および方法

Publications (2)

Publication Number Publication Date
JP2005063298A JP2005063298A (ja) 2005-03-10
JP4552401B2 true JP4552401B2 (ja) 2010-09-29

Family

ID=34371508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003295182A Expired - Fee Related JP4552401B2 (ja) 2003-08-19 2003-08-19 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP4552401B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114903A (ja) * 2005-10-18 2007-05-10 Just Syst Corp 文書処理装置、文書処理方法および文書処理プログラム
JP4737435B2 (ja) * 2006-09-28 2011-08-03 日本電気株式会社 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
JP5072651B2 (ja) * 2008-02-29 2012-11-14 三菱電機株式会社 重要語句抽出装置
JP5244877B2 (ja) * 2010-09-15 2013-07-24 株式会社東芝 コンテンツ処理装置
JP5085708B2 (ja) * 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム
JP6008693B2 (ja) 2012-10-30 2016-10-19 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
US20170132638A1 (en) * 2014-12-26 2017-05-11 Hitachi, Ltd. Relevant information acquisition method and apparatus, and storage medium
US10437837B2 (en) * 2015-10-09 2019-10-08 Fujitsu Limited Generating descriptive topic labels

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2002288217A (ja) * 2001-03-27 2002-10-04 Mitsubishi Electric Corp 情報提供サーバ、情報提供方法、情報を提供するためのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2002288217A (ja) * 2001-03-27 2002-10-04 Mitsubishi Electric Corp 情報提供サーバ、情報提供方法、情報を提供するためのプログラム

Also Published As

Publication number Publication date
JP2005063298A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
US6978275B2 (en) Method and system for mining a document containing dirty text
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
US20160155058A1 (en) Non-factoid question-answering system and method
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP5388038B2 (ja) 文書要約装置、文書処理装置、及びプログラム
US20160189057A1 (en) Computer implemented system and method for categorizing data
US20130036076A1 (en) Method for keyword extraction
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
Kumar et al. IIT-TUDA: System for sentiment analysis in Indian languages using lexical acquisition
US20110093257A1 (en) Information retrieval through indentification of prominent notions
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
US9773166B1 (en) Identifying longform articles
Pagael et al. Mathematical language processing project
Boag et al. Twitterhawk: A feature bucket based approach to sentiment analysis
Tamchyna et al. Czech Aspect-Based Sentiment Analysis: A New Dataset and Preliminary Results.
Singh et al. Sentiment analysis using lexicon based approach
Mihi et al. MSTD: Moroccan sentiment twitter dataset
JP4552401B2 (ja) 文書処理装置および方法
Barbieri et al. UPF-taln: SemEval 2015 tasks 10 and 11. Sentiment analysis of literal and figurative language in Twitter
Truica et al. Automatic language identification for romance languages using stop words and diacritics
Bashir et al. Automatic Hausa LanguageText Summarization Based on Feature Extraction using Naïve Bayes Model
Soleh et al. A non word error spell checker for Indonesian using morphologically analyzer and HMM
Pudota et al. A new domain independent keyphrase extraction system
Nehar et al. Rational kernels for Arabic root extraction and text classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4552401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140723

Year of fee payment: 4

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

LAPS Cancellation because of no payment of annual fees
R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350