JP2014215996A

JP2014215996A - 重要性判定システム、重要性判定方法及びコンピュータプログラム

Info

Publication number: JP2014215996A
Application number: JP2013095985A
Authority: JP
Inventors: 済央野本; Narichika Nomoto; 茂木　一男; Kazuo Mogi; 一男茂木
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2013-04-30
Filing date: 2013-04-30
Publication date: 2014-11-17
Anticipated expiration: 2033-04-30
Also published as: JP5642229B2

Abstract

【課題】複数の文書に共通して出現する単語の重要性をより精度良く判定すること。
【解決手段】文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得し、単語毎に、一の文書における単語出現頻度が他の文書における単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて文書における単語の重要性を判定する。
【選択図】図１

Description

本発明は、テキストを含む文書における単語の重要性を判定する技術に関する。

従来から、テキスト文書における重要語を判定する方法として、ＴＦ−ＩＤＦアルゴリズムがある（非特許文献１参照）。ＴＦ−ＩＤＦアルゴリズムでは、単語ｗの出現頻度ＴＦ（Term Frequency）を、単語ｗを含む文書頻度ＤＦ（Document Frequency）で除算することによって指標ＴＦ−ＩＤＦが算出される。そして、ＴＦ−ＩＤＦの値が高いほど重要な単語であると判定される。すなわち、ＴＦ−ＩＤＦアルゴリズムでは、特定の文書内でのみ出現頻度ＴＦが高く、他の文書では出現しない単語ほど、その文書を特徴付ける重要な単語であるとして指標ＴＦ−ＩＤＦが高く算出される。

具体的には、指標ＴＦ−ＩＤＦの値は、例えば以下のような式を用いて算出されることが多い。なお、以下の説明において、“ａ＿ｂ”は、文字“ａ”に対して下付文字の“ｂ”が付加されていることを示す。また、“ａ＿（ｂ，ｃ）”は、文字“ａ”に対して下付文字の“ｂ，ｃ”が付加されていることを示す。

ｎ＿（ｉ，ｊ）は、文書ｊにおける単語ｉの出現回数である。｜Ｄ｜は文書の総数（総文書数）を示す。Ｄ＿ｉは、単語ｉを含む文書の数を表す。ｔｆｉｄｆ＿（ｉ，ｊ）は、文書ｊにおける単語ｉの重要度を表すスコア（以下、「重要度スコア」という。）を表す。ｔｆｉｄｆ＿（ｉ，ｊ）の値が所定の閾値を超える場合、単語ｉは文書ｊにおける重要語であると判定される。

Gerard Salton, Christopher Buckley, "TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL" Information Processing & Management Vol.24, No.5, pp.513-523, 1988.

しかしながら、従来の技術では、複数の文書に共通して出現する重要語については、適切に判定することができないという問題があった。
例えば、全ての文書に出現する単語については、ｉｄｆ＿ｉの値が０となってしまう。そのため、ｉｄｆ＿ｉを乗じることによって得られるｔｆｉｄｆ＿（ｉ，ｊ）の値も全て０となってしまい、重要度を適切に判定することができなかった。

なお、ｉｄｆ＿ｉの値を算出する際にｌｏｇ演算を行わないことによって、算出される値が０になってしまうことを防止することが可能である。ただし、このような処理を行うと、算出されるｔｆｉｄｆ＿（ｉ，ｊ）の値に対するｔｆ＿（ｉ，ｊ）の影響が大きくなってしまう。そのため、どの文書にも出現するような頻出単語であれば、どの文書においてもｔｆ＿（ｉ，ｊ）の値が閾値を超えてしまい、重要度を適切に判定することができなかった。

上記事情に鑑み、本発明は、複数の文書に共通して出現する単語の重要性をより精度良く判定できる技術の提供を目的としている。

本発明の一態様は、文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得部と、単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定部と、を備える重要性判定システムである。

本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に高い値である場合には、前記単語を、相対的に高い前記単語出現頻度が取得された文書における重要語であると判定する。

本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に低い値である場合には、前記単語を、相対的に低い前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する。

本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する。

本発明の一態様は、上記の重要性判定システムであって、文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する。

本発明の一態様は、文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得ステップと、単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定ステップと、を有する重要性判定方法である。

本発明の一態様は、上記の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラムである。

本発明により、複数の文書に共通して出現する単語の重要性をより精度良く判定することが可能となる。

第一実施形態における重要性判定システム１０の機能構成を示す概略ブロック図である。有意水準の概略を示す図である。重要性判定システム１０の処理の具体例を示すフローチャートである。重要性判定システム１０の効果を示すための具体例を示す図である。第一実施形態の変形例としての重要性判定システム１０ａを示す概略ブロック図である。第二実施形態における重要性判定システム２０の機能構成を示す概略ブロック図である。重要性判定システム２０の処理の具体例を示すフローチャートである。第三実施形態における重要性判定システム３０の機能構成を示す概略ブロック図である。重要性判定システム３０の処理の具体例を示すフローチャートである。

［第一実施形態］
図１は、第一実施形態における重要性判定システム１０の機能構成を示す概略ブロック図である。重要性判定システム１０は、１台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム１０が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部１０１、単語抽出部１０２、単語出現頻度取得部１０３及び重要性判定部１０４を備える装置として機能する。なお、重要性判定システム１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。また、重要性判定システム１０は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、半導体記憶装置（例えばＳＳＤ：Solid State Drive）等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。重要性判定プログラムは、電気通信回線を介して提供されても良い。

文書情報記憶部１０１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。文書情報記憶部１０１は、文書情報を記憶する。文書情報は、文書の識別情報毎に、その文書に含まれるテキストを表す。文書識別情報は、文書毎に予め付与された識別情報である。文書情報は、文書の著者名、題名、出版日時、公開日時などの情報を含んでも良い。

単語抽出部１０２は、文書情報記憶部１０１に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する。単語抽出部１０２は、例えば形態素解析を行うことによって個々の単語を抽出する。言い換えれば、単語抽出部１０２は、例えば文書毎に形態素解析を行うことによって各文書を単語単位に分かち書きする。単語抽出部１０２は、形態素解析の結果として各単語の品詞を出力しても良い。

単語出現頻度取得部１０３は、単語抽出部１０２による抽出結果に基づいて、文書毎に各単語が出現した頻度を表す単語出現頻度を取得する。単語出現頻度取得部１０３は、例えば文書毎に各単語が出現した回数を集計し、集計結果そのものを各単語の単語出現頻度として取得しても良い。単語出現頻度取得部１０３は、例えば文書毎に、各単語が出現した回数をその文書に出現した総単語数で除算し、演算結果を各単語の単語出現頻度として取得しても良い。後者のように算出された単語出現頻度は、文書毎に出現する総単語数が異なる場合に、重要性判定システム１０の判定結果の精度を高めることを可能とする。

重要性判定部１０４は、単語出現頻度取得部１０３によって取得された各単語の単語出現頻度に基づいて、各文書における各単語の重要性を判定する。

以下、重要性判定部１０４が行う処理の具体例について説明する。重要性判定部１０４は、例えば、単語ｉについて、ある文書ｊにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って高い値である場合に、単語ｉを文書ｊにおける重要語として判定する。単語出現頻度が他の単語出現頻度よりも有意差を持って高いか否かを判定するための具体的な例として、重要性判定部１０４は、外れ値か否かを判定するための技術を用いても良い。外れ値か否かを判定するための技術の具体例として、スミルノフ・グラブス検定や、トンプソン検定がある。以下に、スミルノフ・グラブス検定において用いられる式を例として示す。

式（４）において、Ｔ＿ｘは検定統計量を示し、ｎは標本数を示し、ｔは所要の有意水準をαとした場合のｔ分布の分意点（自由度ｎ−２のｔ分布のα／ｎ×１００パーセンタイル）を示す。有意水準は、例えば１％や５％等の値であり、重要性判定システム１０の設計者や利用者によって適宜決定される。

図２は、有意水準の概略を示す図である。図２において、曲線によって示されるグラフはｔ分布を示す。左右両端付近に位置し斜線で示される領域における横軸の値の範囲は、有意差をもった値の範囲を示す。例えば有意水準（α）が５％の両側検定とすると、ｔ分布の曲線と横軸とで囲まれた部分の総面積を１００として、左右それぞれ面積（図の斜線の箇所）が２．５となるように縦軸と平行な直線を引き、この直線と横軸との交点をそれぞれｘ１及びｘ２とする。図２のグラフの右側であればｘ２よりも大きい場合に、５％両側検定で平均値に対して有意差があって値が大きいとみなされる。また、図２のグラフの左側であればｘ１よりも小さい場合に、５％両側検定で平均値に対して有意差があって値が小さいとみなされる。本実施形態では、横軸に単語出現頻度をとり、縦軸に度数をとったグラフにおいて、単語出現頻度の値が高い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って高いと判定される。逆に、単語出現頻度の値が低い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って低いと判定される。

重要性判定部１０４は、単語ｉ毎に、各文書ｊにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する。そして、重要性判定部１０４は、外れ値の判定結果に基づいて重要語を判定する。重要性判定部１０４は、例えば、外れ値として判定された単語出現頻度に関する単語ｉ及び文書ｊの組み合わせ全てについて、単語ｉを文書ｊの重要語として判定する。

図３は、重要性判定システム１０の処理の具体例を示すフローチャートである。図３に示されるフローチャートは、重要性判定部１０４が外れ値に基づいて重要語を判定する構成の処理を示す。以下、図３に基づいて重要性判定システム１０の処理の具体例について説明する。

まず、単語抽出部１０２は、文書情報記憶部１０１に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する（ステップＳ１０１）。次に、単語出現頻度取得部１０３は、単語抽出部１０２による抽出結果に基づいて、文書毎に各単語の単語出現頻度を取得する（ステップＳ１０２）。次に、重要性判定部１０４は、単語ｉ毎に、各文書ｊにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する（ステップＳ１０３）。そして、重要性判定部１０４は、外れ値として判定された単語出現頻度の単語ｉ及び文書ｊに基づき、単語ｉを文書ｊの重要語であると判定する（ステップＳ１０４）。

このように構成された重要性判定システム１０では、単語毎に、各文書における出現頻度のうち他の文書における出現頻度と異なる度合いに基づいて重要語が判定される。すなわち、単語ｉについて、ある文書ｊにおける単語出現頻度が他の文書における単語出現頻度と有意差を持って高い値である場合に、単語ｉが文書ｊにおける重要語として判定される。そのため、複数の文書に共通して出現する単語についても、その重要性をより精度良く判定することが可能となる。

図４は、重要性判定システム１０の効果を示すための具体例を示す図である。図４は、文書１〜５における、各単語（電話、通信、インターネット、顧客、契約、銀行）の単語出現頻度を表す。従来の技術では、単語『通信』は全ての文書１〜５に高い頻度で出現するため、精度良く重要語であるか否か判定することが困難であった。一方、重要性判定システム１０によれば、各単語について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、全ての文書に高い頻度で出現する単語についても、精度良く重要語か否か判定することが可能となる。例えば、単語『通信』については、文書２における重要語として判定することが可能となる。

また、重要性判定システム１０によれば、全ての文書に高い頻度で出現する単語であっても、単語出現頻度に大きな差が生じていない単語については、重要語でないと判定することが可能となる。例えば、単語『通信』と同様に全体的に出現頻度が高い単語『電話』については、文書毎の単語出現頻度の差が小さいため、どの文書においても重要語でないと判定することが可能となる。

また、重要性判定システム１０では、以下のような課題を解決することも可能となる。従来の技術では、単語出現頻度が小さい単語については、重要語であるか否か精度良く判定することが困難であった。例えば、図４における単語『銀行』は、全ての文書において単語出現頻度が小さい。そのため、たとえ文書１における単語出現頻度が他の文書における単語出現頻度と異なって高かったとしても、単語『銀行』を文書１の重要語として判定することは従来は困難であった。これに対し、重要性判定システム１０では、このような問題を解決し、単語出現頻度が低い単語についても精度良く重要語か否か判定することが可能となる。例えば、重要性判定システム１０によれば、単語『銀行』について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、単語出現頻度が低い単語『銀行』についても、文書１の重要語として判定することが可能となる。

＜変形例＞
重要性判定部１０４は、必ずしも全ての外れ値に基づいて重要語を判定しなくとも良い。例えば、重要性判定部１０４は、予め定められた回数以内の再起処理によって外れ値として判定された単語ｉ及び文書ｊの組み合わせについて、単語ｉを文書ｊの重要語として判定しても良い。重要性判定部１０４は、予め定められた個数の外れ値が得られるまで再起処理を実行し、外れ値として判定された単語ｉ及び文書ｊの組み合わせについて、単語ｉを文書ｊの重要語として判定しても良い。

また、重要性判定部１０４は、式（４）に基づいて算出された検定統計量のうち大きい値から所定数を外れ値として判定しても良い。そして、重要性判定部１０４は、このように行われた判定結果に基づいて重要語を判定しても良い。

重要性判定部１０４は、単語ｉについて、ある文書ｊにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って低い値である場合に、単語ｉを文書ｊ以外の各文書における重要語として判定しても良い。このように構成されることにより、特定の文書のみに出現しにくい単語を、他の文書における重要語として判定することが可能となる。このように判定された重要語を用いることによって、例えばこの重要語に関連するトピックについての文書であるか否かを明確に分類することが可能となる。

重要性判定部１０４は、上述した処理における条件を満たした単語のうち、所定の品詞（例えば名詞）の単語のみを重要語として判定しても良い。このように、重要語として判定される単語の品詞を限定することにより、その後の処理に適した単語のみを重要語として出力することが可能となる。

重要性判定部１０４は、各文書の重要語を判定するのではなく、各文書における各単語の重要性を表す値を判定しても良い。例えば、重要性判定部１０４は、単語ｉ毎に、ある文書ｊにおける単語出現頻度が他の文書における単語出現頻度と異なる程度を示す統計値を算出し、算出された値を文書ｊにおける単語ｉの重要性を表す値として判定しても良い。この場合、重要性判定部１０４は、判定結果として、文書毎に各単語の重要性を表す値を出力する。このように構成されることにより、重要語であるか否かの２値を出力値とするのではなく、各文書における各単語の重要性の度合いを多段階の値として表現することが可能となる。

図１に示される例では、重要性判定システム１０は文書情報記憶部１０１を備える装置として実装されているが、文書情報記憶部１０１は重要性判定システム１０の外部に設けられても良い。図５は、第一実施形態の変形例としての重要性判定システム１０ａを示す概略ブロック図である。この場合、重要性判定システム１０ａと文書情報記憶部１０１とは、ネットワークを介して通信可能に接続されている。重要性判定システム１０ａが備える単語抽出部１０２ａ、単語出現頻度取得部１０３ａ及び重要性判定部１０４ａは、それぞれ重要性判定システム１０における同名の機能部と同様に機能する。単語抽出部１０２ａは、ネットワークを介して文書情報記憶部１０１から文書情報を受信する。このように構成されることにより、重要性判定システム１０ａは、任意の文書情報記憶部１０１に蓄積された文書情報について重要語の判定や重要性の度合いの判定が可能となる。

［第二実施形態］
図６は、第二実施形態における重要性判定システム２０の機能構成を示す概略ブロック図である。重要性判定システム２０は、１台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム２０が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部２０１、単語抽出部２０２、単語出現頻度取得部２０３、重要性判定部２０４、変換辞書記憶部２１１及び単語変換部２１２を備える装置として機能する。なお、重要性判定システム２０の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されても良い。また、重要性判定システム２０は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。

文書情報記憶部２０１、単語抽出部２０２、単語出現頻度取得部２０３及び重要性判定部２０４は、第一実施形態における同名の各機能部と同様に機能する。
変換辞書記憶部２１１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。変換辞書記憶部２１１は、代表語毎に、代表語と同様の意味を有する１又は複数の単語（以下、「類義語」という。）を対応付けて記憶する。例えば、代表語『経済』に対し、『エコノミー』、『けいざい』、『けーざい』などの単語が類義語として対応付けて記憶される。

単語変換部２１２は、変換辞書記憶部２１１に記憶されている代表語及び類義語に基づいて、単語抽出部２０２によって抽出された単語のうち、類義語を代表語に変換する。例えば、単語抽出部２０２によって抽出された単語に『エコノミー』、『けいざい』、『けーざい』のいずれか１つ又は複数が含まれている場合、これらを全て代表語『経済』に変換する。

図７は、重要性判定システム２０の処理の具体例を示すフローチャートである。以下、図７に基づいて重要性判定システム２０の処理の具体例について説明する。
まず、単語抽出部２０２は、文書情報記憶部２０１に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する（ステップＳ２０１）。次に、単語変換部２１２は、単語抽出部２０２によって抽出された単語のうち、類義語を代表語に変換する（ステップＳ２１１）。次に、単語出現頻度取得部２０３は、単語変換部２１２による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する（ステップＳ２０２）。次に、重要性判定部２０４は、単語ｉ毎に、各文書ｊにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する（ステップＳ２０３）。そして、重要性判定部２０４は、外れ値として判定された単語出現頻度の単語ｉ及び文書ｊに基づき、単語ｉを文書ｊの重要語であると判定する（ステップＳ２０４）。

このように構成された重要性判定システム２０は、第一実施形態における重要性判定システム１０と同様の効果を奏することが可能である。
また、重要性判定システム２０では、単語抽出部２０２によって抽出された単語のうち、類義語に相当する単語は、その類義語に対応付けて変換辞書記憶部２１１に記憶されている代表語に変換される。そのため、表記揺れが生じている文書についても、精度良く重要語を判定することが可能となる。
第二実施形態における重要性判定システム２０は、第一実施形態における重要性判定システム１０と同様に変形して構成されても良い。

［第三実施形態］
図８は、第三実施形態における重要性判定システム３０の機能構成を示す概略ブロック図である。重要性判定システム３０は、ネットワークを介してＷｅｂサーバ４０と通信することが可能である。Ｗｅｂサーバ４０は、テキストを閲覧可能に提供するサーバである。Ｗｅｂサーバ４０は、例えばブログに登録されている文書を提供するサーバであっても良いし、ニュース記事を閲覧可能に提供するサーバであっても良いし、辞書を提供するサーバであっても良いし、検索履歴を提供するサーバであっても良い。

重要性判定システム３０は、１台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム３０が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部３０１、単語抽出部３０２、単語出現頻度取得部３０３、重要性判定部３０４、クラスタリング部３２１及び単語変換部３１２を備える装置として機能する。なお、重要性判定システム３０の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されても良い。また、重要性判定システム３０は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。

文書情報記憶部３０１、単語抽出部３０２、単語出現頻度取得部３０３及び重要性判定部３０４は、第一実施形態における同名の各機能部と同様に機能する。
クラスタリング部３２１は、サーバ４０から得られる各単語の使用例に基づいて、単語抽出部３０２によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う。クラスタリングの手法としては、例えばK-means法が適用されても良い。クラスタリング部３２１によるクラスタリングの結果、例えば『経済』、『エコノミー』、『けいざい』、『けーざい』などの単語が一つのクラスタに分類される。クラスタリング部３２１は、各クラスタの単語のうち、出現頻度が最も高い単語を代表語として定義し、代表語以外の単語を類義語として定義する。
単語変換部３１２は、クラスタリング部３２１によって定義された代表語及び類義語に基づいて、単語抽出部３０２によって抽出された単語のうち、類義語を代表語に変換する。

図９は、重要性判定システム３０の処理の具体例を示すフローチャートである。以下、図９に基づいて重要性判定システム３０の処理の具体例について説明する。
まず、単語抽出部３０２は、文書情報記憶部３０１に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する（ステップＳ３０１）。次に、クラスタリング部３２１は、単語抽出部３０２によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う（ステップＳ３２１）。

次に、単語変換部３１２は、単語抽出部３０２によって抽出された単語のうち、類義語を代表語に変換する（ステップＳ３１１）。次に、単語出現頻度取得部３０３は、単語変換部３１２による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する（ステップＳ３０２）。次に、重要性判定部３０４は、単語ｉ毎に、各文書ｊにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する（ステップＳ３０３）。そして、重要性判定部３０４は、外れ値として判定された単語出現頻度の単語ｉ及び文書ｊに基づき、単語ｉを文書ｊの重要語であると判定する（ステップＳ３０４）。

このように構成された重要性判定システム３０は、第一実施形態における重要性判定システム１０及び第二実施形態における重要性判定システム２０と同様の効果を奏することが可能である。

また、重要性判定システム３０では、クラスタリング部３２１によって代表語及び類義語が定義されるため、第二実施形態と異なり変換辞書記憶部２１１を予め用意する必要が無い。そのため、変換辞書記憶部２１１を用意するために要するコストや時間を省く事が可能となる。

第三実施形態における重要性判定システム３０は、第一実施形態における重要性判定システム１０と同様に変形して構成されても良い。
クラスタリング部３２１は、各クラスタの単語のうち中心に位置する単語を代表語として定義し、代表語以外の単語を類義語として定義しても良い。

［適用例］
以上のように構成された第一実施形態〜第三実施形態によって判定された重要語は、以下のように利用されても良い。

例えば、テキストマイニングツールで単語のランキングを出力する際に、各単語の重要度を考慮することなく集計対象とすると、ランキング上位は話題に関係無くありふれた単語によって占められてしまう。このような問題に対し、第一実施形態〜第三実施形態によって判定された重要語のみに基づいてランキングを生成することによって、より正確に話題を分析することが可能となる。

例えば、文書の要約作成や文書クラスタリングを行う場合に、文書に含まれる全ての単語を処理の対象とするのではなく、第一実施形態〜第三実施形態によって判定された重要語のみを用いることによって、特徴をより的確に表した要約を作成することや、文書クラスタリングを行うことが可能となる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、文書に含まれる単語の重要性に基づいて処理を行う技術に適用可能である。

１０，１０ａ，２０，３０…重要性判定システム，１０１…文書情報記憶部，１０２，１０２ａ，２０２，３０２…単語抽出部，１０３，１０３ａ，２０３，３０３…単語出現頻度取得部，１０４，１０４ａ，２０４，３０４…重要性判定部，２１１…変換辞書記憶部，２１２，３１２…単語変換部，３２１…クラスタリング部，４０…Ｗｅｂサーバ

本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定部と、を備える重要性判定システムである。
本発明の一態様は、上記の重要性判定システムであって、文書毎に、前記単語出現頻度を取得する単語出現頻度取得部をさらに備える。

本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が高いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書における重要語であると判定する。

本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が低いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する。

本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定ステップと、を有する重要性判定方法である。

Claims

文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得部と、
単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定部と、
を備える重要性判定システム。
前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に高い値である場合には、前記単語を、相対的に高い前記単語出現頻度が取得された文書における重要語であると判定する、請求項１に記載の重要性判定システム。
前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に低い値である場合には、前記単語を、相対的に低い前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する、請求項１又は２に記載の重要性判定システム。
前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する、請求項２又は請求項３に記載の重要性判定システム。
文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、
前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する、請求項１〜４のいずれか１項に記載の重要性判定システム。
文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得ステップと、
単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定ステップと、
を有する重要性判定方法。
請求項１〜５のいずれか１項に記載の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラム。