JP5642229B2 - Importance determination system, importance determination method, and computer program - Google Patents
Importance determination system, importance determination method, and computer program Download PDFInfo
- Publication number
- JP5642229B2 JP5642229B2 JP2013095985A JP2013095985A JP5642229B2 JP 5642229 B2 JP5642229 B2 JP 5642229B2 JP 2013095985 A JP2013095985 A JP 2013095985A JP 2013095985 A JP2013095985 A JP 2013095985A JP 5642229 B2 JP5642229 B2 JP 5642229B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- importance determination
- importance
- determination system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、テキストを含む文書における単語の重要性を判定する技術に関する。 The present invention relates to a technique for determining the importance of a word in a document including text.
従来から、テキスト文書における重要語を判定する方法として、TF−IDFアルゴリズムがある(非特許文献1参照)。TF−IDFアルゴリズムでは、単語wの出現頻度TF(Term Frequency)を、単語wを含む文書頻度DF(Document Frequency)で除算することによって指標TF−IDFが算出される。そして、TF−IDFの値が高いほど重要な単語であると判定される。すなわち、TF−IDFアルゴリズムでは、特定の文書内でのみ出現頻度TFが高く、他の文書では出現しない単語ほど、その文書を特徴付ける重要な単語であるとして指標TF−IDFが高く算出される。 Conventionally, there is a TF-IDF algorithm as a method for determining an important word in a text document (see Non-Patent Document 1). In the TF-IDF algorithm, the index TF-IDF is calculated by dividing the appearance frequency TF (Term Frequency) of the word w by the document frequency DF (Document Frequency) including the word w. Then, the higher the value of TF-IDF, the more important the word is determined. In other words, in the TF-IDF algorithm, the index TF-IDF is calculated to be higher as a word having a higher appearance frequency TF only in a specific document and not appearing in another document as an important word characterizing the document.
具体的には、指標TF−IDFの値は、例えば以下のような式を用いて算出されることが多い。なお、以下の説明において、“a_b”は、文字“a”に対して下付文字の“b”が付加されていることを示す。また、“a_(b,c)”は、文字“a”に対して下付文字の“b,c”が付加されていることを示す。 Specifically, the value of the index TF-IDF is often calculated using, for example, the following equation. In the following description, “a_b” indicates that the subscript “b” is added to the character “a”. “A_ (b, c)” indicates that the subscript “b, c” is added to the character “a”.
n_(i,j)は、文書jにおける単語iの出現回数である。|D|は文書の総数(総文書数)を示す。D_iは、単語iを含む文書の数を表す。tfidf_(i,j)は、文書jにおける単語iの重要度を表すスコア(以下、「重要度スコア」という。)を表す。tfidf_(i,j)の値が所定の閾値を超える場合、単語iは文書jにおける重要語であると判定される。 n_ (i, j) is the number of appearances of the word i in the document j. | D | indicates the total number of documents (total number of documents). D_i represents the number of documents including the word i. tfidf_ (i, j) represents a score representing the importance of the word i in the document j (hereinafter referred to as “importance score”). When the value of tfidf_ (i, j) exceeds a predetermined threshold, it is determined that the word i is an important word in the document j.
しかしながら、従来の技術では、複数の文書に共通して出現する重要語については、適切に判定することができないという問題があった。
例えば、全ての文書に出現する単語については、idf_iの値が0となってしまう。そのため、idf_iを乗じることによって得られるtfidf_(i,j)の値も全て0となってしまい、重要度を適切に判定することができなかった。
However, the conventional technique has a problem that important words that appear in common in a plurality of documents cannot be determined appropriately.
For example, the value of idf_i is 0 for words that appear in all documents. Therefore, the values of tfidf_ (i, j) obtained by multiplying idf_i are all 0, and the importance cannot be determined appropriately.
なお、idf_iの値を算出する際にlog演算を行わないことによって、算出される値が0になってしまうことを防止することが可能である。ただし、このような処理を行うと、算出されるtfidf_(i,j)の値に対するtf_(i,j)の影響が大きくなってしまう。そのため、どの文書にも出現するような頻出単語であれば、どの文書においてもtf_(i,j)の値が閾値を超えてしまい、重要度を適切に判定することができなかった。 Note that it is possible to prevent the calculated value from becoming 0 by not performing the log operation when calculating the value of idf_i. However, if such processing is performed, the influence of tf_ (i, j) on the calculated value of tfidf_ (i, j) increases. Therefore, if it is a frequent word that appears in any document, the value of tf_ (i, j) exceeds the threshold value in any document, and the importance cannot be determined appropriately.
上記事情に鑑み、本発明は、複数の文書に共通して出現する単語の重要性をより精度良く判定できる技術の提供を目的としている。 In view of the above circumstances, an object of the present invention is to provide a technique capable of determining the importance of a word appearing in common in a plurality of documents with higher accuracy.
本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定部と、を備える重要性判定システムである。
本発明の一態様は、上記の重要性判定システムであって、文書毎に、前記単語出現頻度を取得する単語出現頻度取得部をさらに備える。
One aspect of the present invention, for each single word, term frequency indicating the frequency of occurrence of each word is determined whether different or not have significant difference and said word occurrence frequency in the other documents in one document, the determination An importance determination system comprising: an importance determination unit that determines the importance of the word in the one document based on a result.
One aspect of the present invention is the importance determination system described above, further including a word appearance frequency acquisition unit that acquires the word appearance frequency for each document.
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が高いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書における重要語であると判定する。 One aspect of the present invention is the importance determination system described above, wherein the importance determination unit is determined to have a significant difference in the set of word appearance frequencies of each document acquired for a certain word. and when said word occurrence frequency is satisfied a predetermined condition indicating a high that is, it determines that the word is a key word in the previous SL document term frequency is acquired.
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、ある単語について取得された各文書の前記単語出現頻度の集合において、有意差を持って異なると判定された前記単語出現頻度が低いことを示す所定の条件が満たされる場合には、前記単語を、前記単語出現頻度が取得された文書以外の各文書における重要語であると判定する。 One aspect of the present invention is the importance determination system described above, wherein the importance determination unit is determined to have a significant difference in the set of word appearance frequencies of each document acquired for a certain word. and when said word occurrence frequency is satisfied a predetermined condition indicating that low, it is determined that the word is a key word in each document other than before SL document term frequency is acquired.
本発明の一態様は、上記の重要性判定システムであって、前記重要性判定部は、所定の品詞の単語のみを重要語であると判定する。 One aspect of the present invention is the importance determination system described above, wherein the importance determination unit determines that only words having a predetermined part of speech are important words.
本発明の一態様は、上記の重要性判定システムであって、文書毎に、当該文書に出現する各単語のうち、同一又は類似の意味を有する単語を、一つの単語に変換する単語変換部をさらに備え、前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する。 One aspect of the present invention is the importance determination system described above, wherein a word conversion unit that converts, for each document, a word having the same or similar meaning among words appearing in the document into one word. The word appearance frequency acquisition unit acquires a word appearance frequency for each word after being converted by the word conversion unit.
本発明の一態様は、単語毎に、一の文書における各単語の出現頻度を表す単語出現頻度が他の文書における前記単語出現頻度と有意差を持って異なるか否か判定し、当該判定結果に基づいて前記一の文書における前記単語の重要性を判定する重要性判定ステップと、を有する重要性判定方法である。 One aspect of the present invention, for each single word, term frequency indicating the frequency of occurrence of each word is determined whether different or not have significant difference and said word occurrence frequency in the other documents in one document, the determination An importance determination step of determining importance of the word in the one document based on a result.
本発明の一態様は、上記の重要性判定システムとしてコンピュータを機能させるためのコンピュータプログラムである。 One aspect of the present invention is a computer program for causing a computer to function as the importance determination system.
本発明により、複数の文書に共通して出現する単語の重要性をより精度良く判定することが可能となる。 According to the present invention, it is possible to determine the importance of words appearing in common in a plurality of documents with higher accuracy.
[第一実施形態]
図1は、第一実施形態における重要性判定システム10の機能構成を示す概略ブロック図である。重要性判定システム10は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム10が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部101、単語抽出部102、単語出現頻度取得部103及び重要性判定部104を備える装置として機能する。なお、重要性判定システム10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。また、重要性判定システム10は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。重要性判定プログラムは、電気通信回線を介して提供されても良い。
[First embodiment]
FIG. 1 is a schematic block diagram showing a functional configuration of an
文書情報記憶部101は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。文書情報記憶部101は、文書情報を記憶する。文書情報は、文書の識別情報毎に、その文書に含まれるテキストを表す。文書識別情報は、文書毎に予め付与された識別情報である。文書情報は、文書の著者名、題名、出版日時、公開日時などの情報を含んでも良い。
The document
単語抽出部102は、文書情報記憶部101に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する。単語抽出部102は、例えば形態素解析を行うことによって個々の単語を抽出する。言い換えれば、単語抽出部102は、例えば文書毎に形態素解析を行うことによって各文書を単語単位に分かち書きする。単語抽出部102は、形態素解析の結果として各単語の品詞を出力しても良い。
For each document stored in the document
単語出現頻度取得部103は、単語抽出部102による抽出結果に基づいて、文書毎に各単語が出現した頻度を表す単語出現頻度を取得する。単語出現頻度取得部103は、例えば文書毎に各単語が出現した回数を集計し、集計結果そのものを各単語の単語出現頻度として取得しても良い。単語出現頻度取得部103は、例えば文書毎に、各単語が出現した回数をその文書に出現した総単語数で除算し、演算結果を各単語の単語出現頻度として取得しても良い。後者のように算出された単語出現頻度は、文書毎に出現する総単語数が異なる場合に、重要性判定システム10の判定結果の精度を高めることを可能とする。
The word appearance
重要性判定部104は、単語出現頻度取得部103によって取得された各単語の単語出現頻度に基づいて、各文書における各単語の重要性を判定する。
The
以下、重要性判定部104が行う処理の具体例について説明する。重要性判定部104は、例えば、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って高い値である場合に、単語iを文書jにおける重要語として判定する。単語出現頻度が他の単語出現頻度よりも有意差を持って高いか否かを判定するための具体的な例として、重要性判定部104は、外れ値か否かを判定するための技術を用いても良い。外れ値か否かを判定するための技術の具体例として、スミルノフ・グラブス検定や、トンプソン検定がある。以下に、スミルノフ・グラブス検定において用いられる式を例として示す。
Hereinafter, a specific example of processing performed by the
式(4)において、T_xは検定統計量を示し、nは標本数を示し、tは所要の有意水準をαとした場合のt分布の分意点(自由度n−2のt分布のα/n×100パーセンタイル)を示す。有意水準は、例えば1%や5%等の値であり、重要性判定システム10の設計者や利用者によって適宜決定される。
図2は、有意水準の概略を示す図である。図2において、曲線によって示されるグラフはt分布を示す。左右両端付近に位置し斜線で示される領域における横軸の値の範囲は、有意差をもった値の範囲を示す。例えば有意水準(α)が5%の両側検定とすると、t分布の曲線と横軸とで囲まれた部分の総面積を100として、左右それぞれ面積(図の斜線の箇所)が2.5となるように縦軸と平行な直線を引き、この直線と横軸との交点をそれぞれx1及びx2とする。図2のグラフの右側であればx2よりも大きい場合に、5%両側検定で平均値に対して有意差があって値が大きいとみなされる。また、図2のグラフの左側であればx1よりも小さい場合に、5%両側検定で平均値に対して有意差があって値が小さいとみなされる。本実施形態では、横軸に単語出現頻度をとり、縦軸に度数をとったグラフにおいて、単語出現頻度の値が高い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って高いと判定される。逆に、単語出現頻度の値が低い方の有意差の範囲に含まれた値が、他の単語出現頻度よりも有意差を持って低いと判定される。 FIG. 2 is a diagram showing an outline of the significance level. In FIG. 2, the graph indicated by the curve shows the t distribution. The range of the value on the horizontal axis in the region located near the left and right ends and indicated by diagonal lines indicates a range of values having a significant difference. For example, if the significance level (α) is a two-sided test with 5%, the total area of the portion surrounded by the t-distribution curve and the horizontal axis is 100, and the left and right areas (shaded areas in the figure) are 2.5. A straight line parallel to the vertical axis is drawn so that the intersections of the straight line and the horizontal axis are x1 and x2, respectively. On the right side of the graph of FIG. 2, when it is larger than x2, it is regarded that the value is large because there is a significant difference with respect to the average value by the 5% two-sided test. On the left side of the graph of FIG. 2, when it is smaller than x1, it is considered that the value is small because there is a significant difference with respect to the average value by the 5% two-sided test. In the present embodiment, in the graph in which the horizontal axis indicates the word appearance frequency and the vertical axis indicates the frequency, the value included in the significant difference range with the higher word appearance frequency value is higher than the other word appearance frequencies. Is determined to be high with a significant difference. On the contrary, it is determined that the value included in the significant difference range having the lower word appearance frequency value is significantly lower than the other word appearance frequencies.
重要性判定部104は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する。そして、重要性判定部104は、外れ値の判定結果に基づいて重要語を判定する。重要性判定部104は、例えば、外れ値として判定された単語出現頻度に関する単語i及び文書jの組み合わせ全てについて、単語iを文書jの重要語として判定する。
The
図3は、重要性判定システム10の処理の具体例を示すフローチャートである。図3に示されるフローチャートは、重要性判定部104が外れ値に基づいて重要語を判定する構成の処理を示す。以下、図3に基づいて重要性判定システム10の処理の具体例について説明する。
FIG. 3 is a flowchart illustrating a specific example of processing of the
まず、単語抽出部102は、文書情報記憶部101に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS101)。次に、単語出現頻度取得部103は、単語抽出部102による抽出結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS102)。次に、重要性判定部104は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS103)。そして、重要性判定部104は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS104)。
First, for each document stored in the document
このように構成された重要性判定システム10では、単語毎に、各文書における出現頻度のうち他の文書における出現頻度と異なる度合いに基づいて重要語が判定される。すなわち、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度と有意差を持って高い値である場合に、単語iが文書jにおける重要語として判定される。そのため、複数の文書に共通して出現する単語についても、その重要性をより精度良く判定することが可能となる。
In the
図4は、重要性判定システム10の効果を示すための具体例を示す図である。図4は、文書1〜5における、各単語(電話、通信、インターネット、顧客、契約、銀行)の単語出現頻度を表す。従来の技術では、単語『通信』は全ての文書1〜5に高い頻度で出現するため、精度良く重要語であるか否か判定することが困難であった。一方、重要性判定システム10によれば、各単語について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、全ての文書に高い頻度で出現する単語についても、精度良く重要語か否か判定することが可能となる。例えば、単語『通信』については、文書2における重要語として判定することが可能となる。
FIG. 4 is a diagram illustrating a specific example for illustrating the effect of the
また、重要性判定システム10によれば、全ての文書に高い頻度で出現する単語であっても、単語出現頻度に大きな差が生じていない単語については、重要語でないと判定することが可能となる。例えば、単語『通信』と同様に全体的に出現頻度が高い単語『電話』については、文書毎の単語出現頻度の差が小さいため、どの文書においても重要語でないと判定することが可能となる。
Further, according to the
また、重要性判定システム10では、以下のような課題を解決することも可能となる。従来の技術では、単語出現頻度が小さい単語については、重要語であるか否か精度良く判定することが困難であった。例えば、図4における単語『銀行』は、全ての文書において単語出現頻度が小さい。そのため、たとえ文書1における単語出現頻度が他の文書における単語出現頻度と異なって高かったとしても、単語『銀行』を文書1の重要語として判定することは従来は困難であった。これに対し、重要性判定システム10では、このような問題を解決し、単語出現頻度が低い単語についても精度良く重要語か否か判定することが可能となる。例えば、重要性判定システム10によれば、単語『銀行』について文書毎に単語出現頻度が比較され、有意差を持って高いと判定された場合には重要語と判定される。そのため、単語出現頻度が低い単語『銀行』についても、文書1の重要語として判定することが可能となる。
The
<変形例>
重要性判定部104は、必ずしも全ての外れ値に基づいて重要語を判定しなくとも良い。例えば、重要性判定部104は、予め定められた回数以内の再起処理によって外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。重要性判定部104は、予め定められた個数の外れ値が得られるまで再起処理を実行し、外れ値として判定された単語i及び文書jの組み合わせについて、単語iを文書jの重要語として判定しても良い。
<Modification>
The
また、重要性判定部104は、式(4)に基づいて算出された検定統計量のうち大きい値から所定数を外れ値として判定しても良い。そして、重要性判定部104は、このように行われた判定結果に基づいて重要語を判定しても良い。
Further, the
重要性判定部104は、単語iについて、ある文書jにおける単語出現頻度が他の文書における単語出現頻度よりも有意差を持って低い値である場合に、単語iを文書j以外の各文書における重要語として判定しても良い。このように構成されることにより、特定の文書のみに出現しにくい単語を、他の文書における重要語として判定することが可能となる。このように判定された重要語を用いることによって、例えばこの重要語に関連するトピックについての文書であるか否かを明確に分類することが可能となる。
The
重要性判定部104は、上述した処理における条件を満たした単語のうち、所定の品詞(例えば名詞)の単語のみを重要語として判定しても良い。このように、重要語として判定される単語の品詞を限定することにより、その後の処理に適した単語のみを重要語として出力することが可能となる。
The
重要性判定部104は、各文書の重要語を判定するのではなく、各文書における各単語の重要性を表す値を判定しても良い。例えば、重要性判定部104は、単語i毎に、ある文書jにおける単語出現頻度が他の文書における単語出現頻度と異なる程度を示す統計値を算出し、算出された値を文書jにおける単語iの重要性を表す値として判定しても良い。この場合、重要性判定部104は、判定結果として、文書毎に各単語の重要性を表す値を出力する。このように構成されることにより、重要語であるか否かの2値を出力値とするのではなく、各文書における各単語の重要性の度合いを多段階の値として表現することが可能となる。
The
図1に示される例では、重要性判定システム10は文書情報記憶部101を備える装置として実装されているが、文書情報記憶部101は重要性判定システム10の外部に設けられても良い。図5は、第一実施形態の変形例としての重要性判定システム10aを示す概略ブロック図である。この場合、重要性判定システム10aと文書情報記憶部101とは、ネットワークを介して通信可能に接続されている。重要性判定システム10aが備える単語抽出部102a、単語出現頻度取得部103a及び重要性判定部104aは、それぞれ重要性判定システム10における同名の機能部と同様に機能する。単語抽出部102aは、ネットワークを介して文書情報記憶部101から文書情報を受信する。このように構成されることにより、重要性判定システム10aは、任意の文書情報記憶部101に蓄積された文書情報について重要語の判定や重要性の度合いの判定が可能となる。
In the example illustrated in FIG. 1, the
[第二実施形態]
図6は、第二実施形態における重要性判定システム20の機能構成を示す概略ブロック図である。重要性判定システム20は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム20が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPUやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部201、単語抽出部202、単語出現頻度取得部203、重要性判定部204、変換辞書記憶部211及び単語変換部212を備える装置として機能する。なお、重要性判定システム20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。また、重要性判定システム20は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。
[Second Embodiment]
FIG. 6 is a schematic block diagram showing a functional configuration of the
文書情報記憶部201、単語抽出部202、単語出現頻度取得部203及び重要性判定部204は、第一実施形態における同名の各機能部と同様に機能する。
変換辞書記憶部211は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。変換辞書記憶部211は、代表語毎に、代表語と同様の意味を有する1又は複数の単語(以下、「類義語」という。)を対応付けて記憶する。例えば、代表語『経済』に対し、『エコノミー』、『けいざい』、『けーざい』などの単語が類義語として対応付けて記憶される。
The document
The conversion
単語変換部212は、変換辞書記憶部211に記憶されている代表語及び類義語に基づいて、単語抽出部202によって抽出された単語のうち、類義語を代表語に変換する。例えば、単語抽出部202によって抽出された単語に『エコノミー』、『けいざい』、『けーざい』のいずれか1つ又は複数が含まれている場合、これらを全て代表語『経済』に変換する。
The
図7は、重要性判定システム20の処理の具体例を示すフローチャートである。以下、図7に基づいて重要性判定システム20の処理の具体例について説明する。
まず、単語抽出部202は、文書情報記憶部201に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS201)。次に、単語変換部212は、単語抽出部202によって抽出された単語のうち、類義語を代表語に変換する(ステップS211)。次に、単語出現頻度取得部203は、単語変換部212による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS202)。次に、重要性判定部204は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS203)。そして、重要性判定部204は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS204)。
FIG. 7 is a flowchart illustrating a specific example of processing of the
First, for each document stored in the document
このように構成された重要性判定システム20は、第一実施形態における重要性判定システム10と同様の効果を奏することが可能である。
また、重要性判定システム20では、単語抽出部202によって抽出された単語のうち、類義語に相当する単語は、その類義語に対応付けて変換辞書記憶部211に記憶されている代表語に変換される。そのため、表記揺れが生じている文書についても、精度良く重要語を判定することが可能となる。
第二実施形態における重要性判定システム20は、第一実施形態における重要性判定システム10と同様に変形して構成されても良い。
The
Further, in the
The
[第三実施形態]
図8は、第三実施形態における重要性判定システム30の機能構成を示す概略ブロック図である。重要性判定システム30は、ネットワークを介してWebサーバ40と通信することが可能である。Webサーバ40は、テキストを閲覧可能に提供するサーバである。Webサーバ40は、例えばブログに登録されている文書を提供するサーバであっても良いし、ニュース記事を閲覧可能に提供するサーバであっても良いし、辞書を提供するサーバであっても良いし、検索履歴を提供するサーバであっても良い。
[Third embodiment]
FIG. 8 is a schematic block diagram showing a functional configuration of the
重要性判定システム30は、1台又は複数台の情報処理装置によって構成される。例えば、重要性判定システム30が一台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPUやメモリや補助記憶装置などを備え、重要性判定プログラムを実行する。重要性判定プログラムの実行によって、情報処理装置は、文書情報記憶部301、単語抽出部302、単語出現頻度取得部303、重要性判定部304、クラスタリング部321及び単語変換部312を備える装置として機能する。なお、重要性判定システム30の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。また、重要性判定システム30は、専用のハードウェアによって実現されても良い。重要性判定プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。重要性判定プログラムは、電気通信回線を介して提供されても良い。
The
文書情報記憶部301、単語抽出部302、単語出現頻度取得部303及び重要性判定部304は、第一実施形態における同名の各機能部と同様に機能する。
クラスタリング部321は、サーバ40から得られる各単語の使用例に基づいて、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う。クラスタリングの手法としては、例えばK-means法が適用されても良い。クラスタリング部321によるクラスタリングの結果、例えば『経済』、『エコノミー』、『けいざい』、『けーざい』などの単語が一つのクラスタに分類される。クラスタリング部321は、各クラスタの単語のうち、出現頻度が最も高い単語を代表語として定義し、代表語以外の単語を類義語として定義する。
単語変換部312は、クラスタリング部321によって定義された代表語及び類義語に基づいて、単語抽出部302によって抽出された単語のうち、類義語を代表語に変換する。
The document information storage unit 301, the
Based on the usage example of each word obtained from the
Based on the representative words and synonyms defined by the
図9は、重要性判定システム30の処理の具体例を示すフローチャートである。以下、図9に基づいて重要性判定システム30の処理の具体例について説明する。
まず、単語抽出部302は、文書情報記憶部301に記憶されている文書毎に、その文書に含まれているテキストから個々の単語を抽出する(ステップS301)。次に、クラスタリング部321は、単語抽出部302によって抽出された単語について、同様の意味を有する単語毎に一つのクラスタに分類されるようにクラスタリングを行う(ステップS321)。
FIG. 9 is a flowchart illustrating a specific example of processing of the
First, for each document stored in the document information storage unit 301, the
次に、単語変換部312は、単語抽出部302によって抽出された単語のうち、類義語を代表語に変換する(ステップS311)。次に、単語出現頻度取得部303は、単語変換部312による変換結果に基づいて、文書毎に各単語の単語出現頻度を取得する(ステップS302)。次に、重要性判定部304は、単語i毎に、各文書jにおける単語出現頻度の集合から外れ値となる単語出現頻度を判定する(ステップS303)。そして、重要性判定部304は、外れ値として判定された単語出現頻度の単語i及び文書jに基づき、単語iを文書jの重要語であると判定する(ステップS304)。
Next, the
このように構成された重要性判定システム30は、第一実施形態における重要性判定システム10及び第二実施形態における重要性判定システム20と同様の効果を奏することが可能である。
The
また、重要性判定システム30では、クラスタリング部321によって代表語及び類義語が定義されるため、第二実施形態と異なり変換辞書記憶部211を予め用意する必要が無い。そのため、変換辞書記憶部211を用意するために要するコストや時間を省く事が可能となる。
Further, in the
第三実施形態における重要性判定システム30は、第一実施形態における重要性判定システム10と同様に変形して構成されても良い。
クラスタリング部321は、各クラスタの単語のうち中心に位置する単語を代表語として定義し、代表語以外の単語を類義語として定義しても良い。
The
The
[適用例]
以上のように構成された第一実施形態〜第三実施形態によって判定された重要語は、以下のように利用されても良い。
[Application example]
The important words determined by the first to third embodiments configured as described above may be used as follows.
例えば、テキストマイニングツールで単語のランキングを出力する際に、各単語の重要度を考慮することなく集計対象とすると、ランキング上位は話題に関係無くありふれた単語によって占められてしまう。このような問題に対し、第一実施形態〜第三実施形態によって判定された重要語のみに基づいてランキングを生成することによって、より正確に話題を分析することが可能となる。 For example, when a word ranking is output by a text mining tool, if ranking is performed without considering the importance of each word, the top ranking is occupied by common words regardless of the topic. With respect to such a problem, it is possible to analyze the topic more accurately by generating a ranking based only on the important words determined by the first embodiment to the third embodiment.
例えば、文書の要約作成や文書クラスタリングを行う場合に、文書に含まれる全ての単語を処理の対象とするのではなく、第一実施形態〜第三実施形態によって判定された重要語のみを用いることによって、特徴をより的確に表した要約を作成することや、文書クラスタリングを行うことが可能となる。 For example, when document summarization or document clustering is performed, not all words included in a document are processed, but only important words determined by the first to third embodiments are used. This makes it possible to create a summary that more accurately represents the features and to perform document clustering.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
本発明は、文書に含まれる単語の重要性に基づいて処理を行う技術に適用可能である。 The present invention is applicable to a technique that performs processing based on the importance of words included in a document.
10,10a,20,30…重要性判定システム, 101…文書情報記憶部, 102,102a,202,302…単語抽出部, 103,103a,203,303…単語出現頻度取得部, 104,104a,204,304…重要性判定部, 211…変換辞書記憶部, 212,312…単語変換部, 321…クラスタリング部, 40…Webサーバ 10, 10a, 20, 30 ... importance determination system, 101 ... document information storage unit, 102, 102a, 202, 302 ... word extraction unit, 103, 103a, 203, 303 ... word appearance frequency acquisition unit, 104, 104a, 204, 304 ... Importance determination unit, 211 ... Conversion dictionary storage unit, 212, 312 ... Word conversion unit, 321 ... Clustering unit, 40 ... Web server
Claims (8)
前記単語出現頻度取得部は、前記単語変換部によって変換された後の各単語について単語出現頻度を取得する、請求項1〜5のいずれか1項に記載の重要性判定システム。 For each document, a word conversion unit that converts a word having the same or similar meaning among the words appearing in the document into a single word,
The term frequency acquisition unit acquires the term frequency of each word converted by the word conversion section, importance determination system according to any one of claims 1-5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013095985A JP5642229B2 (en) | 2013-04-30 | 2013-04-30 | Importance determination system, importance determination method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013095985A JP5642229B2 (en) | 2013-04-30 | 2013-04-30 | Importance determination system, importance determination method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014215996A JP2014215996A (en) | 2014-11-17 |
JP5642229B2 true JP5642229B2 (en) | 2014-12-17 |
Family
ID=51941648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013095985A Active JP5642229B2 (en) | 2013-04-30 | 2013-04-30 | Importance determination system, importance determination method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5642229B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115883912B (en) * | 2023-03-08 | 2023-05-16 | 山东水浒文化传媒有限公司 | Interaction method and system for internet communication demonstration |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314969A (en) * | 1995-05-22 | 1996-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for retrieving information |
JP4585768B2 (en) * | 2003-03-18 | 2010-11-24 | 株式会社リコー | Document processing apparatus, document processing method, and document processing program |
JP2007201639A (en) * | 2006-01-24 | 2007-08-09 | Canon Inc | Image processing apparatus and control method thereof, image processing system, program, and recording medium |
JP4795856B2 (en) * | 2006-06-12 | 2011-10-19 | 日本電信電話株式会社 | Clustering method and apparatus, program, and computer-readable recording medium |
JP5491372B2 (en) * | 2010-12-03 | 2014-05-14 | 日本電信電話株式会社 | Information search system, information search method, information search program |
-
2013
- 2013-04-30 JP JP2013095985A patent/JP5642229B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014215996A (en) | 2014-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
CN108170692B (en) | Hotspot event information processing method and device | |
KR101479040B1 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
Vogel et al. | Robust language identification in short, noisy texts: Improvements to liga | |
Gupta et al. | Multi-document summarization using sentence clustering | |
JP2020126493A (en) | Paginal translation processing method and paginal translation processing program | |
CN107885717B (en) | Keyword extraction method and device | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
Kansal et al. | Rule based urdu stemmer | |
KR101710010B1 (en) | Document summarization method considering relative characteristics in a document set and document summarization system using thereof | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
CN110738048B (en) | Keyword extraction method and device and terminal equipment | |
JP2006301959A (en) | Document processing device, document processing method, document processing program, and computer-readable recording medium | |
JP5642229B2 (en) | Importance determination system, importance determination method, and computer program | |
CN107590163B (en) | The methods, devices and systems of text feature selection | |
Siddiqi et al. | Keyword and keyphrase extraction from single Hindi document using statistical approach | |
Lim et al. | ClaimFinder: A Framework for Identifying Claims in Microblogs. | |
CN112926297B (en) | Method, apparatus, device and storage medium for processing information | |
JP6536580B2 (en) | Sentence set extraction system, method and program | |
CN115391551A (en) | Event detection method and device | |
JP5145288B2 (en) | Synonym dictionary construction apparatus and method, computer program | |
KR102052823B1 (en) | Topic model automation method and apparatus using latent dirichlet allocation | |
WO2015159702A1 (en) | Partial-information extraction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5642229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |