JP2014215996A - 重要性判定システム、重要性判定方法及びコンピュータプログラム - Google Patents

重要性判定システム、重要性判定方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2014215996A
JP2014215996A JP2013095985A JP2013095985A JP2014215996A JP 2014215996 A JP2014215996 A JP 2014215996A JP 2013095985 A JP2013095985 A JP 2013095985A JP 2013095985 A JP2013095985 A JP 2013095985A JP 2014215996 A JP2014215996 A JP 2014215996A
Authority
JP
Japan
Prior art keywords
word
document
appearance frequency
importance determination
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013095985A
Other languages
English (en)
Other versions
JP5642229B2 (ja
Inventor
済央 野本
Narichika Nomoto
済央 野本
茂木 一男
Kazuo Mogi
一男 茂木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2013095985A priority Critical patent/JP5642229B2/ja
Publication of JP2014215996A publication Critical patent/JP2014215996A/ja
Application granted granted Critical
Publication of JP5642229B2 publication Critical patent/JP5642229B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の文書に共通して出現する単語の重要性をより精度良く判定すること。
【解決手段】文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得し、単語毎に、一の文書における単語出現頻度が他の文書における単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて文書における単語の重要性を判定する。
【選択図】図1

Description

本発明は、テキストを含む文書における単語の重要性を判定する技術に関する。
従来から、テキスト文書における重要語を判定する方法として、TF−IDFアルゴリズムがある(非特許文献1参照)。TF−IDFアルゴリズムでは、単語wの出現頻度TF(Term Frequency)を、単語wを含む文書頻度DF(Document Frequency)で除算することによって指標TF−IDFが算出される。そして、TF−IDFの値が高いほど重要な単語であると判定される。すなわち、TF−IDFアルゴリズムでは、特定の文書内でのみ出現頻度TFが高く、他の文書では出現しない単語ほど、その文書を特徴付ける重要な単語であるとして指標TF−IDFが高く算出される。
具体的には、指標TF−IDFの値は、例えば以下のような式を用いて算出されることが多い。なお、以下の説明において、“a_b”は、文字“a”に対して下付文字の“b”が付加されていることを示す。また、“a_(b,c)”は、文字“a”に対して下付文字の“b,c”が付加されていることを示す。
n_(i,j)は、文書jにおける単語iの出現回数である。|D|は文書の総数(総文書数)を示す。D_iは、単語iを含む文書の数を表す。tfidf_(i,j)は、文書jにおける単語iの重要度を表すスコア(以下、「重要度スコア」という。)を表す。tfidf_(i,j)の値が所定の閾値を超える場合、単語iは文書jにおける重要語であると判定される。
Figure 2014215996
Figure 2014215996
Figure 2014215996
Gerard Salton, Christopher Buckley, "TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL" Information Processing & Management Vol.24, No.5, pp.513-523, 1988.
しかしながら、従来の技術では、複数の文書に共通して出現する重要語については、適切に判定することができないという問題があった。
例えば、全ての文書に出現する単語については、idf_iの値が0となってしまう。そのため、idf_iを乗じることによって得られるtfidf_(i,j)の値も全て0となってしまい、重要度を適切に判定することができなかった。
なお、idf_iの値を算出する際にlog演算を行わないことによって、算出される値が0になってしまうことを防止することが可能である。ただし、このような処理を行うと、算出されるtfidf_(i,j)の値に対するtf_(i,j)の影響が大きくなってしまう。そのため、どの文書にも出現するような頻出単語であれば、どの文書においてもtf_(i,j)の値が閾値を超えてしまい、重要度を適切に判定することができなかった。
上記事情に鑑み、本発明は、複数の文書に共通して出現する単語の重要性をより精度良く判定できる技術の提供を目的としている。
本発明の一態様は、文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得部と、単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定部と、を備える重要性判定システムである。
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に高い値である場合には、前記単語を、相対的に高い前記単語出現頻度が取得された文書における重要語であると判定する。
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に低い値である場合には、前記単語を、相対的に低い前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する。
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する。
本発明の一態様は、上記の重要性判定システムであって、文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する。
本発明の一態様は、文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得ステップと、単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定ステップと、を有する重要性判定方法である。
本発明の一態様は、上記の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラムである。
本発明により、複数の文書に共通して出現する単語の重要性をより精度良く判定することが可能となる。
第一実施形態における重要性判定システム10の機能構成を示す概略ブロック図である。 有意水準の概略を示す図である。 重要性判定システム10の処理の具体例を示すフローチャートである。 重要性判定システム10の効果を示すための具体例を示す図である。 第一実施形態の変形例としての重要性判定システム10aを示す概略ブロック図である。 第二実施形態における重要性判定システム20の機能構成を示す概略ブロック図である。 重要性判定システム20の処理の具体例を示すフローチャートである。 第三実施形態における重要性判定システム30の機能構成を示す概略ブロック図である。 重要性判定システム30の処理の具体例を示すフローチャートである。
[第一実施形態]
図1は、第一実施形態における重要性判定システム10の機能構成を示す概略ブロック図である。重要性判定システム10は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム10が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部101、単語抽出部102、単語出現頻度取得部103及び重要性判定部104を備える装置として機能する。なお、重要性判定システム10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。また、重要性判定システム10は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。重要性判定プログラムは、電気通信回線を介して提供されても良い。
文書情報記憶部101は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。文書情報記憶部101は、文書情報を記憶する。文書情報は、文書の識別情報毎に、その文書に含まれるテキストを表す。文書識別情報は、文書毎に予め付与された識別情報である。文書情報は、文書の著者名、題名、出版日時、公開日時などの情報を含んでも良い。
単語抽出部102は、文書情報記憶部101に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する。単語抽出部102は、例えば形態素解析を行うことによって個々の単語を抽出する。言い換えれば、単語抽出部102は、例えば文書毎に形態素解析を行うことによって各文書を単語単位に分かち書きする。単語抽出部102は、形態素解析の結果として各単語の品詞を出力しても良い。
単語出現頻度取得部103は、単語抽出部102による抽出結果に基づいて、文書毎に各単語が出現した頻度を表す単語出現頻度を取得する。単語出現頻度取得部103は、例えば文書毎に各単語が出現した回数を集計し、集計結果そのものを各単語の単語出現頻度として取得しても良い。単語出現頻度取得部103は、例えば文書毎に、各単語が出現した回数をその文書に出現した総単語数で除算し、演算結果を各単語の単語出現頻度として取得しても良い。後者のように算出された単語出現頻度は、文書毎に出現する総単語数が異なる場合に、重要性判定システム10の判定結果の精度を高めることを可能とする。
重要性判定部104は、単語出現頻度取得部103によって取得された各単語の単語出現頻度に基づいて、各文書における各単語の重要性を判定する。
以下、重要性判定部104が行う処理の具体例について説明する。重要性判定部104は、例えば、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って高い値である場合に、単語iを文書jにおける重要語として判定する。単語出現頻度が他の単語出現頻度よりも有意差を持って高いか否かを判定するための具体的な例として、重要性判定部104は、外れ値か否かを判定するための技術を用いても良い。外れ値か否かを判定するための技術の具体例として、スミルノフ・グラブス検定や、トンプソン検定がある。以下に、スミルノフ・グラブス検定において用いられる式を例として示す。
式(4)において、T_xは検定統計量を示し、nは標本数を示し、tは所要の有意水準をαとした場合のt分布の分意点(自由度n−2のt分布のα/n×100パーセンタイル)を示す。有意水準は、例えば1%や5%等の値であり、重要性判定システム10の設計者や利用者によって適宜決定される。
Figure 2014215996
図2は、有意水準の概略を示す図である。図2において、曲線によって示されるグラフはt分布を示す。左右両端付近に位置し斜線で示される領域における横軸の値の範囲は、有意差をもった値の範囲を示す。例えば有意水準(α)が5%の両側検定とすると、t分布の曲線と横軸とで囲まれた部分の総面積を100として、左右それぞれ面積(図の斜線の箇所)が2.5となるように縦軸と平行な直線を引き、この直線と横軸との交点をそれぞれx1及びx2とする。図2のグラフの右側であればx2よりも大きい場合に、5%両側検定で平均値に対して有意差があって値が大きいとみなされる。また、図2のグラフの左側であればx1よりも小さい場合に、5%両側検定で平均値に対して有意差があって値が小さいとみなされる。本実施形態では、横軸に単語出現頻度をとり、縦軸に度数をとったグラフにおいて、単語出現頻度の値が高い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って高いと判定される。逆に、単語出現頻度の値が低い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って低いと判定される。
重要性判定部104は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する。そして、重要性判定部104は、外れ値の判定結果に基づいて重要語を判定する。重要性判定部104は、例えば、外れ値として判定された単語出現頻度に関する単語i及び文書jの組み合わせ全てについて、単語iを文書jの重要語として判定する。
図3は、重要性判定システム10の処理の具体例を示すフローチャートである。図3に示されるフローチャートは、重要性判定部104が外れ値に基づいて重要語を判定する構成の処理を示す。以下、図3に基づいて重要性判定システム10の処理の具体例について説明する。
まず、単語抽出部102は、文書情報記憶部101に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS101)。次に、単語出現頻度取得部103は、単語抽出部102による抽出結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS102)。次に、重要性判定部104は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS103)。そして、重要性判定部104は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS104)。
このように構成された重要性判定システム10では、単語毎に、各文書における出現頻度のうち他の文書における出現頻度と異なる度合いに基づいて重要語が判定される。すなわち、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度と有意差を持って高い値である場合に、単語iが文書jにおける重要語として判定される。そのため、複数の文書に共通して出現する単語についても、その重要性をより精度良く判定することが可能となる。
図4は、重要性判定システム10の効果を示すための具体例を示す図である。図4は、文書1〜5における、各単語(電話、通信、インターネット、顧客、契約、銀行)の単語出現頻度を表す。従来の技術では、単語『通信』は全ての文書1〜5に高い頻度で出現するため、精度良く重要語であるか否か判定することが困難であった。一方、重要性判定システム10によれば、各単語について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、全ての文書に高い頻度で出現する単語についても、精度良く重要語か否か判定することが可能となる。例えば、単語『通信』については、文書2における重要語として判定することが可能となる。
また、重要性判定システム10によれば、全ての文書に高い頻度で出現する単語であっても、単語出現頻度に大きな差が生じていない単語については、重要語でないと判定することが可能となる。例えば、単語『通信』と同様に全体的に出現頻度が高い単語『電話』については、文書毎の単語出現頻度の差が小さいため、どの文書においても重要語でないと判定することが可能となる。
また、重要性判定システム10では、以下のような課題を解決することも可能となる。従来の技術では、単語出現頻度が小さい単語については、重要語であるか否か精度良く判定することが困難であった。例えば、図4における単語『銀行』は、全ての文書において単語出現頻度が小さい。そのため、たとえ文書1における単語出現頻度が他の文書における単語出現頻度と異なって高かったとしても、単語『銀行』を文書1の重要語として判定することは従来は困難であった。これに対し、重要性判定システム10では、このような問題を解決し、単語出現頻度が低い単語についても精度良く重要語か否か判定することが可能となる。例えば、重要性判定システム10によれば、単語『銀行』について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、単語出現頻度が低い単語『銀行』についても、文書1の重要語として判定することが可能となる。
<変形例>
重要性判定部104は、必ずしも全ての外れ値に基づいて重要語を判定しなくとも良い。例えば、重要性判定部104は、予め定められた回数以内の再起処理によって外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。重要性判定部104は、予め定められた個数の外れ値が得られるまで再起処理を実行し、外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。
また、重要性判定部104は、式(4)に基づいて算出された検定統計量のうち大きい値から所定数を外れ値として判定しても良い。そして、重要性判定部104は、このように行われた判定結果に基づいて重要語を判定しても良い。
重要性判定部104は、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って低い値である場合に、単語iを文書j以外の各文書における重要語として判定しても良い。このように構成されることにより、特定の文書のみに出現しにくい単語を、他の文書における重要語として判定することが可能となる。このように判定された重要語を用いることによって、例えばこの重要語に関連するトピックについての文書であるか否かを明確に分類することが可能となる。
重要性判定部104は、上述した処理における条件を満たした単語のうち、所定の品詞(例えば名詞)の単語のみを重要語として判定しても良い。このように、重要語として判定される単語の品詞を限定することにより、その後の処理に適した単語のみを重要語として出力することが可能となる。
重要性判定部104は、各文書の重要語を判定するのではなく、各文書における各単語の重要性を表す値を判定しても良い。例えば、重要性判定部104は、単語i毎に、ある文書jにおける単語出現頻度が他の文書における単語出現頻度と異なる程度を示す統計値を算出し、算出された値を文書jにおける単語iの重要性を表す値として判定しても良い。この場合、重要性判定部104は、判定結果として、文書毎に各単語の重要性を表す値を出力する。このように構成されることにより、重要語であるか否かの2値を出力値とするのではなく、各文書における各単語の重要性の度合いを多段階の値として表現することが可能となる。
図1に示される例では、重要性判定システム10は文書情報記憶部101を備える装置として実装されているが、文書情報記憶部101は重要性判定システム10の外部に設けられても良い。図5は、第一実施形態の変形例としての重要性判定システム10aを示す概略ブロック図である。この場合、重要性判定システム10aと文書情報記憶部101とは、ネットワークを介して通信可能に接続されている。重要性判定システム10aが備える単語抽出部102a、単語出現頻度取得部103a及び重要性判定部104aは、それぞれ重要性判定システム10における同名の機能部と同様に機能する。単語抽出部102aは、ネットワークを介して文書情報記憶部101から文書情報を受信する。このように構成されることにより、重要性判定システム10aは、任意の文書情報記憶部101に蓄積された文書情報について重要語の判定や重要性の度合いの判定が可能となる。
[第二実施形態]
図6は、第二実施形態における重要性判定システム20の機能構成を示す概略ブロック図である。重要性判定システム20は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム20が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPUやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部201、単語抽出部202、単語出現頻度取得部203、重要性判定部204、変換辞書記憶部211及び単語変換部212を備える装置として機能する。なお、重要性判定システム20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。また、重要性判定システム20は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。
文書情報記憶部201、単語抽出部202、単語出現頻度取得部203及び重要性判定部204は、第一実施形態における同名の各機能部と同様に機能する。
変換辞書記憶部211は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。変換辞書記憶部211は、代表語毎に、代表語と同様の意味を有する1又は複数の単語(以下、「類義語」という。)を対応付けて記憶する。例えば、代表語『経済』に対し、『エコノミー』、『けいざい』、『けーざい』などの単語が類義語として対応付けて記憶される。
単語変換部212は、変換辞書記憶部211に記憶されている代表語及び類義語に基づいて、単語抽出部202によって抽出された単語のうち、類義語を代表語に変換する。例えば、単語抽出部202によって抽出された単語に『エコノミー』、『けいざい』、『けーざい』のいずれか1つ又は複数が含まれている場合、これらを全て代表語『経済』に変換する。
図7は、重要性判定システム20の処理の具体例を示すフローチャートである。以下、図7に基づいて重要性判定システム20の処理の具体例について説明する。
まず、単語抽出部202は、文書情報記憶部201に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS201)。次に、単語変換部212は、単語抽出部202によって抽出された単語のうち、類義語を代表語に変換する(ステップS211)。次に、単語出現頻度取得部203は、単語変換部212による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS202)。次に、重要性判定部204は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS203)。そして、重要性判定部204は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS204)。
このように構成された重要性判定システム20は、第一実施形態における重要性判定システム10と同様の効果を奏することが可能である。
また、重要性判定システム20では、単語抽出部202によって抽出された単語のうち、類義語に相当する単語は、その類義語に対応付けて変換辞書記憶部211に記憶されている代表語に変換される。そのため、表記揺れが生じている文書についても、精度良く重要語を判定することが可能となる。
第二実施形態における重要性判定システム20は、第一実施形態における重要性判定システム10と同様に変形して構成されても良い。
[第三実施形態]
図8は、第三実施形態における重要性判定システム30の機能構成を示す概略ブロック図である。重要性判定システム30は、ネットワークを介してWebサーバ40と通信することが可能である。Webサーバ40は、テキストを閲覧可能に提供するサーバである。Webサーバ40は、例えばブログに登録されている文書を提供するサーバであっても良いし、ニュース記事を閲覧可能に提供するサーバであっても良いし、辞書を提供するサーバであっても良いし、検索履歴を提供するサーバであっても良い。
重要性判定システム30は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム30が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPUやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部301、単語抽出部302、単語出現頻度取得部303、重要性判定部304、クラスタリング部321及び単語変換部312を備える装置として機能する。なお、重要性判定システム30の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。また、重要性判定システム30は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。
文書情報記憶部301、単語抽出部302、単語出現頻度取得部303及び重要性判定部304は、第一実施形態における同名の各機能部と同様に機能する。
クラスタリング部321は、サーバ40から得られる各単語の使用例に基づいて、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う。クラスタリングの手法としては、例えばK-means法が適用されても良い。クラスタリング部321によるクラスタリングの結果、例えば『経済』、『エコノミー』、『けいざい』、『けーざい』などの単語が一つのクラスタに分類される。クラスタリング部321は、各クラスタの単語のうち、出現頻度が最も高い単語を代表語として定義し、代表語以外の単語を類義語として定義する。
単語変換部312は、クラスタリング部321によって定義された代表語及び類義語に基づいて、単語抽出部302によって抽出された単語のうち、類義語を代表語に変換する。
図9は、重要性判定システム30の処理の具体例を示すフローチャートである。以下、図9に基づいて重要性判定システム30の処理の具体例について説明する。
まず、単語抽出部302は、文書情報記憶部301に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS301)。次に、クラスタリング部321は、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う(ステップS321)。
次に、単語変換部312は、単語抽出部302によって抽出された単語のうち、類義語を代表語に変換する(ステップS311)。次に、単語出現頻度取得部303は、単語変換部312による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS302)。次に、重要性判定部304は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS303)。そして、重要性判定部304は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS304)。
このように構成された重要性判定システム30は、第一実施形態における重要性判定システム10及び第二実施形態における重要性判定システム20と同様の効果を奏することが可能である。
また、重要性判定システム30では、クラスタリング部321によって代表語及び類義語が定義されるため、第二実施形態と異なり変換辞書記憶部211を予め用意する必要が無い。そのため、変換辞書記憶部211を用意するために要するコストや時間を省く事が可能となる。
第三実施形態における重要性判定システム30は、第一実施形態における重要性判定システム10と同様に変形して構成されても良い。
クラスタリング部321は、各クラスタの単語のうち中心に位置する単語を代表語として定義し、代表語以外の単語を類義語として定義しても良い。
[適用例]
以上のように構成された第一実施形態〜第三実施形態によって判定された重要語は、以下のように利用されても良い。
例えば、テキストマイニングツールで単語のランキングを出力する際に、各単語の重要度を考慮することなく集計対象とすると、ランキング上位は話題に関係無くありふれた単語によって占められてしまう。このような問題に対し、第一実施形態〜第三実施形態によって判定された重要語のみに基づいてランキングを生成することによって、より正確に話題を分析することが可能となる。
例えば、文書の要約作成や文書クラスタリングを行う場合に、文書に含まれる全ての単語を処理の対象とするのではなく、第一実施形態〜第三実施形態によって判定された重要語のみを用いることによって、特徴をより的確に表した要約を作成することや、文書クラスタリングを行うことが可能となる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、文書に含まれる単語の重要性に基づいて処理を行う技術に適用可能である。
10,10a,20,30…重要性判定システム, 101…文書情報記憶部, 102,102a,202,302…単語抽出部, 103,103a,203,303…単語出現頻度取得部, 104,104a,204,304…重要性判定部, 211…変換辞書記憶部, 212,312…単語変換部, 321…クラスタリング部, 40…Webサーバ
本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定部と、を備える重要性判定システムである。
本発明の一態様は、上記の重要性判定システムであって、文書毎に、前記単語出現頻度を取得する単語出現頻度取得部をさらに備える。
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が高いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書における重要語であると判定する。
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が低いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する。
本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定ステップと、を有する重要性判定方法である。

Claims (7)

  1. 文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得部と、
    単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定部と、
    を備える重要性判定システム。
  2. 前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に高い値である場合には、前記単語を、相対的に高い前記単語出現頻度が取得された文書における重要語であると判定する、請求項1に記載の重要性判定システム。
  3. 前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が相対的に低い値である場合には、前記単語を、相対的に低い前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する、請求項1又は2に記載の重要性判定システム。
  4. 前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する、請求項2又は請求項3に記載の重要性判定システム。
  5. 文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、
    前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する、請求項1〜4のいずれか1項に記載の重要性判定システム。
  6. 文書毎に、当該文書に出現する各単語の出現頻度を表す単語出現頻度を取得する単語出現頻度取得ステップと、
    単語毎に、一の文書における前記単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記文書における前記単語の重要性を判定する重要性判定ステップと、
    を有する重要性判定方法。
  7. 請求項1〜5のいずれか1項に記載の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラム。
JP2013095985A 2013-04-30 2013-04-30 重要性判定システム、重要性判定方法及びコンピュータプログラム Active JP5642229B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013095985A JP5642229B2 (ja) 2013-04-30 2013-04-30 重要性判定システム、重要性判定方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013095985A JP5642229B2 (ja) 2013-04-30 2013-04-30 重要性判定システム、重要性判定方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2014215996A true JP2014215996A (ja) 2014-11-17
JP5642229B2 JP5642229B2 (ja) 2014-12-17

Family

ID=51941648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013095985A Active JP5642229B2 (ja) 2013-04-30 2013-04-30 重要性判定システム、重要性判定方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5642229B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314969A (ja) * 1995-05-22 1996-11-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JP2004303198A (ja) * 2003-03-18 2004-10-28 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラム
JP2007201639A (ja) * 2006-01-24 2007-08-09 Canon Inc 画像処理装置及びその制御方法、画像処理システム、プログラム、記録媒体
JP2007334388A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2012118918A (ja) * 2010-12-03 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法、情報検索プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314969A (ja) * 1995-05-22 1996-11-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JP2004303198A (ja) * 2003-03-18 2004-10-28 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラム
JP2007201639A (ja) * 2006-01-24 2007-08-09 Canon Inc 画像処理装置及びその制御方法、画像処理システム、プログラム、記録媒体
JP2007334388A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2012118918A (ja) * 2010-12-03 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法、情報検索プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Also Published As

Publication number Publication date
JP5642229B2 (ja) 2014-12-17

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN108170692B (zh) 一种热点事件信息处理方法和装置
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
Gupta et al. Multi-document summarization using sentence clustering
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
US9754023B2 (en) Stochastic document clustering using rare features
CN107885717B (zh) 一种关键词提取方法及装置
JPWO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
Kansal et al. Rule based urdu stemmer
JP2019204246A (ja) 学習データ作成方法及び学習データ作成装置
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2006301959A (ja) 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP5642229B2 (ja) 重要性判定システム、重要性判定方法及びコンピュータプログラム
Lim et al. ClaimFinder: A Framework for Identifying Claims in Microblogs.
CN107590163B (zh) 文本特征选择的方法、装置和系统
Siddiqi et al. Keyword and keyphrase extraction from single Hindi document using statistical approach
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141028

R150 Certificate of patent or registration of utility model

Ref document number: 5642229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250