JP5409321B2

JP5409321B2 - 情報評価装置、情報評価方法、及び情報評価プログラム

Info

Publication number: JP5409321B2
Application number: JP2009284998A
Authority: JP
Inventors: 高志末永; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2009-12-16
Filing date: 2009-12-16
Publication date: 2014-02-05
Anticipated expiration: 2029-12-16
Also published as: JP2011128760A

Description

本発明は、情報評価装置、情報評価方法、及び情報評価プログラムに関する。

近年、情報処理装置を用いたテキストマイニング技術が利用されている。このような技術では、ネットワーク上の大量文書を自動収集するために、カテゴリ（例えば、新聞記事における「スポーツ」、「経済」や、医療文書における「栄養障害」、「内分泌・代謝疾患」等の疾患分野）毎にそのカテゴリを特徴付ける単語（特徴単語という）の集合を、辞書として予め用意する必要がある。
ここで、カテゴリ毎の特徴単語の集合を用意するとき、人の事前知識によってある程度の単語候補を準備することができる。しかし、文書に記述される単語の表記方法が標準化されていることは稀であり、文書には多種多様の単語が用いられるため、人の知識だけでは、テキストマイニングに十分な単語を用意することができないという問題があった。
このような問題に対して、事前に文書を収集し、収集した文書に含まれる単語からカテゴリ毎に特徴単語を抽出しておくことが考えられる。この場合、抽出の対象となる文書やそれに記述された単語が膨大となることが多く、抽出作業に工数がかかってしまうという問題があった。そこで、特徴単語の抽出作業を効率的に支援する技術が望まれている。

この支援技術として、特許文献１には、文書データに含まれる単語の出現頻度を計算し、計算結果をもとに、計算した単語の出現頻度に応じて、共通のカテゴリに属する文書データにおける各単語の重要度を示す評価値を、ある基準に基づいて計算し、重要度を示す評価値が大きい単語を特徴単語として抽出する技術について記載されている。
このような技術において、評価値の計算に用いる基準には、統計的尺度を基にした単語の重要度の評価結果が用いられることが知られている。例えば、非特許文献１、２には、注目カテゴリとその他のカテゴリとの間で出現頻度の偏りが大きな単語は評価値を大きな値とし、反対に、いずれのカテゴリでも同程度の出現頻度である単語は評価値を小さな値とする、といった相互情報量や情報利得等の等統計量を用いることが記載されている。

特開２００７−２４１６３６号公報

田中他、「コーパスによる難解語・重要語の抽出−医療用語を例に−」、社会言語科学会、２００８年、社会言語科学会第２１回大会ＳＥＢＡＳＴＩＡＮＩ、「Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｉｎａｕｔｏｍａｔｅｄｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ」、ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ、３４、１−４７、２００２

しかしながら、上記の従来技術のような１個の単語の偏りを基準とした技術では、単語の出現頻度が低くなるに従って、重要度を示す評価値に対する信頼性が低下するという欠点があった。
例えば、「カドミウム」や「アナフィラキシー」といった、ある疾病のカテゴリに関連する具体的な単語の出現頻度と、「適当」といった一般的な単語の出現頻度と、があるカテゴリにおいて同程度に低いとき（例えば、数個）、一般的な単語の方がそのカテゴリへの偏りが大きいと判定され、その評価値が具体的な単語についての評価値より大きくなる場合がある。一方、カテゴリを特徴付ける単語は、通常、具体的なものであるから、この評価値に対する信頼性は損なわれているといえる。
このように、従来技術では、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができない、という欠点があった。

本発明は上記の点に鑑みてなされたものであり、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができる情報評価装置、情報評価方法、及び情報評価プログラムを提供する。

本発明は上記の課題を解決するためになされたものであり、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、を備えることを特徴とする情報評価装置である。

また、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、前記選択カテゴリ共起頻度情報と、前記単語の組が全文書で共起する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、を備えることを特徴とする情報評価装置である。

また、本発明は、上記の情報評価装置において、前記単語の組は、２個の単語からなる単語対であることを特徴とする。

また、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置における情報評価方法おいて、単語処理部が、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する過程と、評価値算出部が、前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する過程と、を有することを特徴とする情報評価方法である。

また、本発明は、複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価するコンピュータを、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理手段、前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出手段、として機能させることを特徴とする情報評価プログラムである。

本発明によれば、情報評価装置は、カテゴリにおける単語の重要度について、信頼性の高い評価値を算出することができる。

本発明の実施形態に係る単語抽出装置の構成を示す概略ブロック図である。本実施形態に係る文書別単語リストの一例を示す概略図である。本実施形態に係る形態素解析部及び単語処理部が行う動作の一例を示す概略図である。本実施形態に係る全文書単語リストの一例を示す概略図である。本実施形態に係る文書カテゴリリストの一例を示す概略図である。本実施形態に係る単語処理部が行う動作の一例を示す概略図である。本実施形態に係るカテゴリ別単語対リストの一例を示す概略図である。本実施形態に係るカテゴリ別単語リストの一例を示す概略図である。本実施形態に係る交互作用算出部及び結果表示部が行う動作の一例を示す概略図である。本実施形態に係る単語評価値リストの一例を示す概略図である。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。
＜単語抽出装置１の構成について＞
図１は、本発明の実施形態に係る単語抽出装置１の構成を示す概略ブロック図である。
単語抽出装置１（情報評価装置）は、入力処理部１０１、形態素解析部１０２、単語処理部１０３、交互作用算出部１０４、結果表示部１０５、文書記憶部１１１、文書カテゴリリスト記憶部１１２、文書別単語リスト記憶部１１３、全文書単語リスト記憶部１１４、カテゴリ別単語対リスト記憶部１１５、カテゴリ別単語リスト記憶部１１６、及び、単語評価値リスト記憶部１１７を含んで構成される。

入力処理部１０１は、指定カテゴリ情報を入力される。ここで、カテゴリとは、文書を記載された内容で分類する情報であり、例えば、新聞記事における「スポーツ」や「経済」、又は、医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。また、指定カテゴリ情報とは、単語抽出装置１の利用者が複数のカテゴリ情報の中から選択したカテゴリ（選択カテゴリ；指定カテゴリｃという）を示す情報である。入力処理部１０１は、入力された指定カテゴリ情報を形態素解析部１０２に出力する。

文書記憶部１１１は、複数の文書データを予め記憶する。ここで、文書データ各々には、識別情報（文書ＩＤという）が付与されている。また、文書データ各々は、記載欄や節（例えば、診断書の「病院」、「症状」、「診断」、及び「治療法」）の記載を１つの文書データとして抽出したものである。ただし、本発明はこれに限らず、書籍や、診断書、申請書、論文、又は明細書の記載を、１つの文書データとしてもよいし、ＨＴＭＬファイルやテキストファイルとして保存される１ファイル等を１つの文書データとしてもよい。また、この文書データは、利用者が入力処理部１０１から入力したものでもよいし、単語抽出装置１が通信ネットワークを介して他の装置からダウンロードしたものでもよい。

文書カテゴリリスト記憶部１１２は、文書ＩＤとカテゴリ情報とを対応付けた文書カテゴリリストを予め記憶する。なお、単語抽出装置１は、文書データを文書記憶部１１１に記憶するときに、その文書データの文書ＩＤと、その文書ＩＤの文書データの文書が属するカテゴリ情報とからなる情報（文書カテゴリ情報）を文書カテゴリリストに追加して記憶する。単語抽出装置１は、この文書カテゴリ情報を利用者の入力に基づいて生成してもよいし、文書データ内の予め定められたフォーマット（例えばＨＴＭＬやＸＭＬのタグ）で記載された変数の内容を抽出して生成してもよい。

形態素解析部１０２は、入力処理部１０１から指定カテゴリ情報が入力されると、文書記憶部１１１が記憶する文書データを全て読み出す。形態素解析部１０２は、読み出した文書データ各々の文書に対して形態素解析を行うことにより、文書を形態素に分割してその品詞を判別する。形態素解析部１０２は、分割した形態素のうち助詞等の予め定められた品詞の形態素を削除する（削除後の形態素を単語という）。形態素解析部１０２は、文書ＩＤとその文書ＩＤの文書から抽出した単語とからなる情報（文書別単語情報）を、文書別単語リスト記憶部１１３の文書別単語リスト（図２）に記憶する。
また、形態素解析部１０２は、形態素解析を行った文書の数（全文書数Ｎという）を算出する。形態素解析部１０２は、入力された指定カテゴリ情報及び全文書数Ｎを、単語処理部１０３に出力する。

単語処理部１０３は、文書別単語リスト記憶部１１３が記憶する文書別単語リストに基づいて、全文書に現れる単語毎に、全文書のうちその単語が現れる文書の数（全文書での出現文書数という。文書の数は単語の出現頻度を示す）を算出し、全文書単語リスト記憶部１１４の全文書単語リスト（図４）に記憶する。
また、単語処理部１０３は、形態素解析部１０２から入力された指定カテゴリ情報、及び文書別単語リスト記憶部１１３が記憶する文書別単語リストに基づいて、単語のペア（単語対）毎に、指定カテゴリｃに属する文書のうちその単語対が共起する文書の数（指定カテゴリｃでの共起文書数という。選択カテゴリ共起頻度情報）を算出し、カテゴリ別単語対リスト記憶部１１５のカテゴリ別単語対リスト（図７）に記憶する。ここで、単語対が共起するとは、１つの文書データの文書に単語対の単語の両方が現れることをいう。

また、単語処理部１０３は、全文書単語リスト記憶部１１４が記憶する全文書単語リスト、及び、入力された指定カテゴリ情報に基づいて、指定カテゴリｃに属する文書に現れる単語毎に全文書での出現文書数を抽出し、カテゴリ別単語リスト記憶部１１６のカテゴリ別単語リスト（図８）に記憶する。
また、単語処理部１０３は、文書カテゴリリスト記憶部１１２が記憶する文書カテゴリリストに基づいて、形態素解析部１０２から入力された指定カテゴリ情報が示す指定カテゴリｃの文書の数（指定カテゴリ文書数Ｎ_ｃという）を算出する。単語処理部１０３は、入力された指定カテゴリ情報、全文書数Ｎ、及び、算出した指定カテゴリ文書数Ｎ_ｃを、交互作用算出部１０４に出力する。

交互作用算出部１０４（評価値算出部）は、単語処理部１０３から入力された指定カテゴリ情報、全文書数Ｎ、指定カテゴリ文書数Ｎ_ｃ、カテゴリ別単語対リスト記憶部１１５が記憶するカテゴリ別単語対リスト、及びカテゴリ別単語リスト記憶部１１６が記憶するカテゴリ別単語リストに基づいて、指定カテゴリｃに属する文書に現れる単語について評価値を算出する（評価値算出処理という）。この評価値は、単語が指定カテゴリｃを特徴付ける度合い、つまり、指定カテゴリｃにおける単語の重要度を示す。なお、評価値算出処理の詳細については、後述する。
交互作用算出部１０４は、指定カテゴリｃに属する文書に現れる単語と算出した評価値とを、単語評価値リストとして単語評価値リスト記憶部１１７に記憶する。また、交互作用算出部１０４は、入力された指定カテゴリ情報を、結果表示部１０５に出力する。

結果表示部１０５は、単語評価値リスト記憶部１１７が記憶する単語評価値リストに基づいて、交互作用算出部１０４から入力された指定カテゴリ情報が示す指定カテゴリｃに属する文書に現れる単語を、評価値が高い順序に並び替えて表示する。

＜評価値算出処理について＞
以下、交互作用算出部１０４が行う評価値算出処理の詳細について説明をする。
ます、交互作用算出部１０４は、次式（１）を用いて交互作用値ＤＩ（ｗ１，ｗ２，ｃ）を算出する。ここで、単語ｗ１、ｗ２は、指定カテゴリｃの文書データのうち、文書ＩＤが同一の文書データの文書に現れる単語のペア（単語対）である。

ここで、Ｎ_{ｗ１，ｗ２，ｃ}は、単語対ｗ１、ｗ２の指定カテゴリｃでの共起文書数である。また、Ｐ（ｘ）は、全文書に対して単語ｘが現れる文書が存在する確率である。つまり、Ｐ（ｘ）は、単語ｘの全文書での出現文書数をＮ_ｘとし、全文書数Ｎを用いて、Ｐ（ｘ）＝Ｎ_ｘ／Ｎで表わされる。

次に、交互作用算出部１０４は、次式（２）で表わすように式（１）を合算することで、指定カテゴリｃに属する文書に現れる単語ｗについて評価値ＤＷＰＩ（ｗ，ｃ）を算出する。

ただし、Ｗｐａｉｒ（ｗ，ｃ）は、指定カテゴリｃにおいて単語ｗと共起する単語の集合を表わす。
すなわち、交互作用算出部１０４は、指定カテゴリｃに属する文書で共起する単語対（ｗ１、ｗ２）について指定カテゴリｃに属する文書で共起する頻度を示すＮ_{ｗ１，ｗ２，ｃ}と、単語の組（ｗ１、ｗ２）について全文書での出現頻度を示すＮ_ｗ１Ｎ_ｗ２（全文書単語組出現頻度情報）と、に基づいて、指定カテゴリｃに属する文書に現れる単語ｗについて指定カテゴリｃでの重要度を示す評価値ＤＷＰＩ（ｗ，ｃ）を算出する。

ここで、この式（２）の第１項は、単語ｗが多くの種類のｗｐと共起される場合に、評価値ＤＷＰＩ（ｗ，ｃ）の値が高くなることを示す。この第１項は、単語ｗの重要度が高い場合、単語ｗに関する事項は、多くの種類の単語ｗｐを用いて詳述されるため、単語ｗが多くのｗｐと共起されるという考えに基づくものである。
また、式（２）の第２項は、単語ｗが指定カテゴリｃ以外のカテゴリに属する文書にも頻繁に現れる場合に、評価値ＤＷＰＩ（ｗ，ｃ）の値が低くなることを示す。この第２項は、単語ｗが「適当」のような一般的な単語である場合、重要度が低い単語であるという考えに基づくものである。また、逆に、単語ｗが「カドミウム」のような具体的な単語である場合、重要度の高い単語であるという考えに基づくものである。
このように、式（２）では、多くの種類のｗｐと共起される単語ｗに高い評価値を割り当てつつ、単語ｗが一般的な単語である場合には低い評価値を、単語ｗが具体的な単語である場合にはそのまま高い評価値を割り当てることができる。
なお、評価値算出処理に用いる各変数Ｎ_ｗ、Ｎ_ｗｐ、Ｎ_{ｗ１，ｗ２，ｃ}の算出処理については、単語抽出装置１の動作と併せて後述する。

＜単語抽出装置１の動作について＞
以下、単語抽出装置１が記憶する情報、及び単語抽出装置１が行う動作について説明をする。
図２は、本実施形態に係る文書別単語リストの一例を示す概略図である。図示するように文書別単語リストは、文書ＩＤ及び単語の各項目の列を有している。文書別単語リストには、単語毎に文書別単語情報が格納される。
例えば、図２の１行目の文書別単語情報は、文書ＩＤが「００００１」の文書データの文書に、単語「糖尿」が現れていることを示す。また、例えば、図２は、文書ＩＤが「００００２」の文書データの文書に、単語「落屑」、「ろう」、「適当」が現れていることを示す。

図３は、本実施形態に係る形態素解析部１０２及び単語処理部１０３が行う動作の一例を示す概略図である。
（ステップＳ１０１）形態素解析部１０２は、文書記憶部１１１が記憶する文書データを全て読み出す。その後、ステップＳ１０２へ進む。
（ステップＳ１０２）形態素解析部１０２は、ステップＳ１０１で読み出した文書データの１つに対して形態素解析を行うことによって、文書データ内の文書を単語に分割する。形態素解析部１０２は、分割した単語を、重複を排除するためにマージ（合併）して抽出する。形態素解析部１０２は、文書データの文書ＩＤと抽出した単語とからなる情報（文書別単語情報）を、文書別単語リスト記憶部１１３の文書別単語リストに追加して記憶する。その後、ステップＳ１０３へ進む。
（ステップＳ１０３）形態素解析部１０２は、ステップＳ１０１で読み出した文書データ全てにステップＳ１０２の処理を行ったか否かを判定する。文書データ全てにステップＳ１０２の処理を行ったと判定した場合（ＹＥＳ）、ステップＳ１０４へ進む。一方、文書データ全てにステップＳ１０２の処理を行っていないと判定した場合（ＮＯ）、ステップＳ１０２へ戻る。

（ステップＳ１０４）形態素解析部１０２は、全文書数Ｎを算出する。その後、ステップＳ１０５へ進む。
（ステップＳ１０５）単語処理部１０３は、文書別単語リスト記憶部１１３が記憶する文書別単語リストを読み出し、単語毎に文書ＩＤを計数することで全文書での出現文書数を算出する。単語処理部１０３は、単語とその単語の全文書での出現文書数とからなる情報（全文書単語出現文書数情報）を、全文書単語リスト記憶部１１４の全文書単語リスト（図４）に追加して記憶する。その後、ステップＳ１０６へ進む。
（ステップＳ１０６）単語処理部１０３は、ステップＳ１０５で読み出した文書別単語リストの単語全てについて、ステップＳ１０５の処理を行ったか否かを判定する。文書別単語リストの単語全てにステップＳ１０５の処理を行ったと判定した場合（ＹＥＳ）、動作を終了する。一方、文書別単語リストの単語全てにステップＳ１０５の処理を行っていないと判定した場合（ＮＯ）、ステップＳ１０５へ戻る。

図４は、本実施形態に係る全文書単語リストの一例を示す概略図である。図示するように全文書単語リストは、単語及び出現文書数の各項目の列を有している。ここで、出現文書数は、全文書での出現文書数を示す。全文書単語リストには、単語毎に全文書単語出現文書数情報が格納される。
例えば、図３の１行目の全文書単語出現文書数情報は、単語「適当」について、全文書データでの出現文書数が「５４」個であることを示す。また、この図の６行目の全文書単語出現文書数情報は、単語「アナフィラキシー」について、全文書データ内での出現文書数が「３７」個であることを示す。このように、「適当」といった一般的に用いられる単語は、「アナフィラキシー」といった具体的な単語と比較して、全文書データでの出現文書数が多い傾向にある。

図５は、本実施形態に係る文書カテゴリリストの一例を示す概略図である。図示するように文書カテゴリリストは、文書ＩＤ及びカテゴリの各項目の列を有している。文書カテゴリリストには、文書ＩＤ毎に文書カテゴリ情報が格納される。
例えば、図５の１行目の文書カテゴリ情報は、文書ＩＤが「００００１」の文書データが、カテゴリ「栄養障害」に分類されていることを示す。

図６は、本実施形態に係る単語処理部１０３が行う動作の一例を示す概略図である。
（ステップＳ２０１）単語処理部１０３は、形態素解析部１０２から指定カテゴリ情報を入力される。その後、ステップＳ２０２へ進む。
（ステップＳ２０２）単語処理部１０３は、文書カテゴリリスト記憶部１１２が記憶する文書カテゴリリストから、カテゴリがステップＳ２０１で入力された指定カテゴリ情報が示すカテゴリと一致する文書カテゴリリストの文書ＩＤを読み出す。単語処理部１０３は、文書ＩＤが読み出した文書ＩＤと一致する文書別単語情報を、文書別単語リスト記憶部１１３が記憶する文書別単語リストから選択する。その後、ステップＳ２０３へ進む。
（ステップＳ２０３）単語処理部１０３は、ステップＳ２０２で選択した指定カテゴリｃの文書別単語情報から文書ＩＤが同じ文書別単語情報を選択し、選択した文書別単語情報の単語について、全ての２つの組合せ（単語対）のリストを生成する（図７の単語１、単語２を参照）。その後、ステップＳ２０４へ進む。

（ステップＳ２０４）単語処理部１０３は、ステップＳ２０２で選択した指定カテゴリｃの文書別単語情報を読み出し、ステップＳ２０３で生成したリストの１つの単語対の単語の両方と対応付けられている文書ＩＤを計数することで指定カテゴリｃでの共起文書数を算出する。単語処理部１０３は、単語対の単語と算出した指定カテゴリｃでの共起文書数とからなる情報を、カテゴリ別単語対リスト記憶部１１５のカテゴリ別単語対リスト（図７）に追加して記憶する。その後、ステップＳ２０５へ進む。
（ステップＳ２０５）単語処理部１０３は、ステップＳ２０３で生成したリストの単語対全てにステップＳ２０４の処理を行ったか否かを判定する。リストの単語対全てにステップＳ２０４の処理を行ったと判定した場合（ＹＥＳ）、ステップＳ２０６へ進む。一方、リストの単語対全てにステップＳ２０４の処理を行っていないと判定した場合（ＮＯ）、ステップＳ２０４へ戻る。

（ステップＳ２０６）単語処理部１０３は、ステップＳ２０２で抽出した指定カテゴリｃの文書別単語情報の単語をマージして、指定カテゴリｃの単語リストを生成する。その後、ステップＳ２０７へ進む。
（ステップＳ２０７）単語処理部１０３は、全文書単語リスト記憶部１１４が記憶する全文書単語リストを参照する。単語処理部１０３は、ステップＳ２０６で生成した単語リストの単語について、その単語と単語の項目の値が一致する全文書単語出現文書数情報を、参照した全文書単語リストから抽出する。単語処理部１０３は、抽出した全文書単語出現文書数情報を、カテゴリ別単語リスト記憶部１１６のカテゴリ別単語リスト（図８）に追加して記憶する。その後、ステップＳ２０８へ進む。

（ステップＳ２０８）単語処理部１０３は、ステップＳ２０６で生成したリストの単語全てにステップＳ２０７の処理を行ったか否かを判定する。リストの単語全てにステップＳ２０７の処理を行ったと判定した場合（ＹＥＳ）、ステップＳ２０９へ進む。一方、リストの単語全てにステップＳ２０７の処理を行っていないと判定した場合（ＮＯ）、ステップＳ２０７へ戻る。
（ステップＳ２０９）単語処理部１０３は、文書カテゴリリスト記憶部１１２が記憶する文書カテゴリリストから、カテゴリがステップＳ２０１で入力された指定カテゴリ情報と一致する文書カテゴリリストの数、つまり、指定カテゴリ文書数Ｎ_ｃを算出する。その後、動作を終了する。

図７は、本実施形態に係るカテゴリ別単語対リストの一例を示す概略図である。図示するようにカテゴリ別単語対リストは、単語１、単語２、及び共起文書数の各項目の列を有している。ここで、単語１及び単語２は、指定カテゴリｃで同じ文書ＩＤの文書データ内の単語の組合せ、つまり共起する単語対である。また、出現文書数は、単語１及び単語２の単語対について、指定カテゴリｃでの共起文書数を示す。
例えば、図７の１行目の情報は、単語１「適当」と単語２「混濁」とが指定カテゴリｃで共起されることを示す。また、この情報は、「適当」及び「混濁」の単語対について、指定カテゴリｃでの共起文書数が「１」であることを示す。

図８は、本実施形態に係るカテゴリ別単語リストの一例を示す概略図である。図示するようにカテゴリ別単語リストは、単語及び出現文書数の各項目の列を有している。ここで、単語は指定カテゴリｃの文書データ内の単語であり、出現文書数は全文書での出現文書数を示す。カテゴリ別単語リストには、カテゴリが指定カテゴリｃである全文書単語出現文書数情報が記憶される。
例えば、図８の１行目の情報は、単語「適当」について、全文書データでの出現文書数が「５４」個であることを示す。また、この図は、指定カテゴリｃが図５の「栄養障害」である場合の図であり、指定カテゴリ「栄養障害」には、「適当」、「光線」、「糖尿」、「混濁」、「アナフィラキシー」、「弾性」、「落屑」、「エナメル」、「カドミウム」、「シリコン」、「ろう」が含まれていることを示す。
なお、図示はしていないが、単語の出現文書数が低い場合、図８に示した各単語の指定カテゴリｃでの出現文書数は、例えば、一般的な単語である「適当」が２個、その他の具体的な単語である「アナフィラキシー」等が１個といったように、低い値となる場合がある。この場合、図８の例では、指定カテゴリｃでの出現文書数と全文書の出現文書数との比は、「適当」が２：５４（＝１：２７）、「アナフィラキシー」が１：３７となる。つまり、「適当」が現れる文書は１／２７の確率で指定カテゴリｃに属する文書であり、「アナフィラキシー」が現れる文書は１／３７の確率で指定カテゴリｃに属する文書であるから、「適当」の方が指定カテゴリｃに偏っている。すなわち、従来技術のような１個の単語の偏りを基準とした技術では、一般的な単語についての評価値の方が、具体的な単語についての評価値より大きくなる場合がある。

図９は、本実施形態に係る交互作用算出部１０４及び結果表示部１０５が行う動作の一例を示す概略図である。
（ステップＳ３０１）交互作用算出部１０４は、単語処理部１０３から指定カテゴリ情報、全文書数Ｎ及び指定カテゴリ文書数Ｎ_ｃを入力される。その後、ステップＳ３０２へ進む。
（ステップＳ３０２）交互作用算出部１０４は、カテゴリ別単語リスト記憶部１１６が記憶するカテゴリ別単語リスト、及び、カテゴリ別単語対リスト記憶部１１５が記憶するカテゴリ別単語対リストを読み出す。その後、ステップＳ３０３へ進む。

（ステップＳ３０３）交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語対リストの単語対（単語１の値をｗ１、単語２の値をｗ２とする）について、式（１）を用いて交互作用値ＤＩ（ｗ１，ｗ２，ｃ）を算出する。
具体的には、交互作用算出部１０４は、単語ｗ１、ｗ２のカテゴリ別単語対情報の共起文書数の値を式（１）のＮ_{ｗ１，ｗ２，ｃ}に代入する。また、交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語リストから、単語ｗ１、ｗ２の全文書での出現文書数の値を読み出し、式（１）のＮ_ｗ１及びＮ_ｗ２に代入する。また、交互作用算出部１０４は、ステップＳ３０１で入力された全文書数Ｎ及び指定カテゴリ文書数Ｎ_ｃを式（１）に代入する。その後、ステップＳ３０４に進む。

（ステップＳ３０４）交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語対リストの単語対全てにステップＳ３０３の処理を行ったか否かを判定する。カテゴリ別単語対リストの単語対全てにステップＳ３０３の処理を行ったと判定した場合（ＹＥＳ）、ステップＳ３０５へ進む。一方、カテゴリ別単語対リストの単語対全てにステップＳ３０３の処理を行っていないと判定した場合（ＮＯ）、ステップＳ３０３へ戻る。

（ステップＳ３０５）交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語リストの１つの単語（単語ｗとする）について、式（２）を用いて評価値ＤＷＰＩ（ｗ，ｃ）を算出する。
具体的には、交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語対リストの単語１又は単語２が、単語ｗと一致するカテゴリ別単語対情報を選択する。交互作用算出部１０４は、選択したカテゴリ別単語対情報の単語１又は単語２のうち、単語ｗではないものを単語ｗｐとし、その集合をＷｐａｉｒ（ｗ，ｃ）とする。
交互作用算出部１０４は、Ｗｐａｉｒ（ｗ，ｃ）の全てのｗｐについて、ステップＳ３０３で算出した交互作用値ＤＩ（ｗ，ｗｐ，ｃ）を合算する。交互作用算出部１０４は、単語ｗと、合算後の値（評価値ＤＷＰＩ（ｗ，ｃ））とを、単語評価値リスト記憶部１１７の単語評価値リストに追加して記憶する。その後、ステップＳ３０６に進む。

（ステップＳ３０６）交互作用算出部１０４は、ステップＳ３０２で読み出したカテゴリ別単語リストの単語全てにステップＳ３０５の処理を行ったか否かを判定する。カテゴリ別単語リストの単語全てにステップＳ３０５の処理を行ったと判定した場合（ＹＥＳ）、ステップＳ３０７へ進む。一方、カテゴリ別単語リストの単語全てにステップＳ３０５の処理を行っていないと判定した場合（ＮＯ）、ステップＳ３０５へ戻る。
（ステップＳ３０７）結果表示部１０５は、単語評価値リスト記憶部１１７が記憶する単語評価値リストを読み出し、単語ｗを評価値が高い順序に並び替えて出力する。

図１０は、本実施形態に係る単語評価値リストの一例を示す概略図である。図示するように単語評価値リストは、単語及び評価値の各項目の列を有している。ここで、単語は指定カテゴリｃの文書データの文書に現れる単語である。また、評価値は、式（２）を用いて算出した評価値ＤＷＰＩ（ｗ，ｃ）である。単語評価値リストには、単語毎に単語評価値情報が格納される。
例えば、図１０の２行目の単語評価値リストは、単語「アナフィラキシー」の評価値が「１２０．４１９８３２４１５３７」であることを示す。また、図１０の１１行目の単語評価値リストは、単語「適当」の評価値が「２８．５１９８３１２９３６７６」であることを示す。
つまり、図１０は、指定カテゴリｃにおいて多くの単語と共起され、かつ、具体的な単語である「糖尿」、「アナフィラキシー」、「落屑」の評価値が高いことを示す。一方、図１０は、一般的な単語である「適当」の評価値が低いことを示す。

このように、本実施形態によれば、単語抽出装置１では、単語処理部１０３が指定カテゴリｃに属する文書で共起する単語対ｗ１、ｗ２について、指定カテゴリｃに属する文書で共起する頻度を示すＮ_{ｗ１，ｗ２，ｃ}を算出し、交互作用算出部１０４がＮ_{ｗ１，ｗ２，ｃ}と単語対について全文書での出現頻度を示すＮ_ｗ１Ｎ_ｗ２と、に基づいて、指定カテゴリｃに属する文書に現れる単語について、指定カテゴリｃでの重要度を示す評価値を算出する評価値ＤＷＰＩ（ｗ，ｃ）を算出する。
本実施形態では、単語対について文書で共起する頻度を示すＮ_{ｗ１，ｗ２，ｃ}に基づいて評価値を算出するので、単語抽出装置１は、指定カテゴリｃで多くの種類の単語を用いて詳述される単語を、指定カテゴリｃでの重要度の高い単語として評価値を算出することができる。さらに、単語抽出装置１は、単語対について全文書での出現頻度を示すＮ_ｗ１Ｎ_ｗ２に基づいて評価値を算出する。これにより、単語抽出装置１は、全文書での出現頻度が低い具体的な単語を指定カテゴリｃでの重要度の高い単語として、全文書での出現頻度が高い一般的な単語を指定カテゴリｃでの重要度が低い単語として、評価値を算出することができる。
このように、本実施形態では、多くの種類の単語を用いて詳述される具体的な単語ｗを、指定カテゴリｃでの重要度が高い単語として評価することができ、信頼性の高い評価値を算出することができる。

特に、本実施形態では、文書内で共起する単語対の出現頻度に基づいて評価値を算出するので、単語抽出装置１は、単語の出現文書数が低い場合でも、指定カテゴリｃで多くの種類の単語を用いて詳述される具体的な単語を重要度の高い単語として評価値を算出することができる。また、文書では、重要な単語を最初に１回だけ記載され、その後、この単語について多くの種類の単語を用いて詳述されることがあり、この場合、重要な単語の出現頻度は低くなってしまう。しかし、本実施形態によれば、文書内で共起する単語対に基づいて評価値を算出するので、このような場合でも、多くの種類の単語を用いて詳述される具体的な単語を重要度の高い単語として評価値を算出することができる。
以上のように、本実施形態に係る単語抽出装置１は、単語の出現文書数が低い場合でも、１個の単語についての出現頻度の偏りに基づいて評価をする場合と比較して、信頼性の高い評価値を算出することができる。

なお、上記実施形態において、交互作用算出部１０４は、交互作用値ＤＩ（ｗ１、ｗ２、ｃ）を式（１）に代えて、次式（３）を用いて算出してもよい。

また、上記実施形態において、交互作用算出部１０４が、２個の単語の組である単語対を用いて評価値を算出する場合について説明をした。しかし、本発明はこれに限らず、交互作用算出部１０４は、３個以上の単語の組を用いて評価値を算出してもよい。例えば、Ｍ個の単語の組（ｗ１、ｗ２、・・・、ｗＭ）を用いる場合、交互作用算出部１０４は、次式（４）を用いて交互作用値ＤＩ（ｗ１，ｗ２，・・・，ｗＭ，ｃ）を算出する。

ここで、Ｎ_{ｗ１，ｗ２，・・・、ｗＭ，ｃ}は、指定カテゴリｃの文書データのうち、文書に単語ｗ１、ｗ２、・・・、ｗＭのすべてが現れる（単語ｗ１、ｗ２、・・・、ｗＭが共起する）文書データの数である。交互作用算出部１０４は、算出した交互作用値を、指定カテゴリｃにおいて単語ｗと共起する単語の組（Ｍ−１個）の組合せの集合について合算する。
ただし、本実施形態のように、単語の組が２個の単語からなる単語対である場合、３個以上の単語の組とする場合と比較して、単語処理部１０３が算出するＮ_{ｗ１，ｗ２，・・・、ｗＭ，ｃ}の個数、及び、交互作用算出部１０４が合算する交互作用値ＤＩ（ｗ１，ｗ２，・・・，ｗＭ，ｃ）の組合せの数、を少なくすることができ、演算処理を少なくすることができる。

また、上記実施形態において、交互作用算出部１０４が、単語の組の全文書での出現文書数（例えば、式（１）、式（４）の第２項）として、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を用いる場合について説明をした。しかし、本発明はこれに限らず、交互作用算出部１０４は、全文書のうち単語の組の単語が共起する文書数を算出して、算出した文書数を交互作用値ＤＩの第２項に代えて用いてもよい。
ただし、本実施形態のように、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を交互作用値ＤＩの第２項に用いる方が好適である。例えば、複数の単語が単語の組として文書に現れること自体に偏りがあることがある。本実施形態によれば、交互作用値ＤＩの第２項に、単語の組の単語各々についての全文書での出現文書数を乗じた期待値を用いるので、全文書のうち単語の組の単語が共起する文書数を用いる場合と比較して、偶然、組として出現するものを差し引くことができる。

また、上記実施形態において、結果表示部１０５が指定カテゴリｃの単語を、評価値が高い順序に並び替えて表示しているが、本発明はこれに限らず、結果表示部１０５は、単語と評価値を記憶装置に出力してもよい。また、結果表示部１０５は、評価値が予め定めた閾値より大きい単語のみを出力してもよい。これにより、具体的な単語のみを抽出することができる。また、逆に、結果表示部１０５は、評価値が予め定めた閾値以下の単語のみを出力してもよい。これにより、一般的な単語のみを抽出することができる。これらの場合、例えば、評価値の閾値を０としてもよい。

なお、上述した実施形態における単語抽出装置１の一部、例えば、入力処理部１０１、形態素解析部１０２、単語処理部１０３、交互作用算出部１０４、及び結果表示部１０５をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、単語抽出装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１・・・単語抽出装置（情報評価装置）、１０１・・・入力処理部、１０２・・・形態素解析部、１０３・・・単語処理部、１０４・・・交互作用算出部（評価値算出部）、１０５・・・結果表示部（出力部）、１１１・・・文書記憶部、１１２・・・文書カテゴリリスト記憶部、１１３・・・文書別単語リスト記憶部、１１４・・・全文書単語リスト記憶部、１１５・・・カテゴリ別単語対リスト記憶部、１１６・・・カテゴリ別単語リスト記憶部、１１７・・・単語評価値リスト記憶部

Claims

複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、
選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、
前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、
を備えることを特徴とする情報評価装置。
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置において、
選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理部と、
前記選択カテゴリ共起頻度情報と、前記単語の組が全文書で共起する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出部と、
を備えることを特徴とする情報評価装置。
前記単語の組は、２個の単語からなる単語対であることを特徴とする請求項１又は２に記載の情報評価装置。
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価する情報評価装置における情報評価方法おいて、
単語処理部が、選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する過程と、
評価値算出部が、前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する過程と、
を有することを特徴とする情報評価方法。
複数の文書情報を用いて、前記文書情報の文書に現れる単語の重要度を評価するコンピュータを、
選択カテゴリに属する文書で共起する単語の組について、前記選択カテゴリに属する文書で共起する頻度を示す選択カテゴリ共起頻度情報を算出する単語処理手段、
前記選択カテゴリ共起頻度情報と、前記単語の組の単語各々が全文書で出現する頻度を示す全文書単語組出現頻度情報と、に基づいて、前記選択カテゴリに属する文書に現れる単語について、前記選択カテゴリでの重要度を示す評価値を算出する評価値算出手段、
として機能させることを特徴とする情報評価プログラム。