JP2010157102A - 単語抽出装置、単語抽出方法およびプログラム - Google Patents
単語抽出装置、単語抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2010157102A JP2010157102A JP2008335080A JP2008335080A JP2010157102A JP 2010157102 A JP2010157102 A JP 2010157102A JP 2008335080 A JP2008335080 A JP 2008335080A JP 2008335080 A JP2008335080 A JP 2008335080A JP 2010157102 A JP2010157102 A JP 2010157102A
- Authority
- JP
- Japan
- Prior art keywords
- word
- importance
- words
- extraction
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた各単語の重要度を算出し、重要度判断基準ごとに重要度に応じて単語が順位付けられた重要順位情報を、文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部4と、重要順位情報に基づいて、所定の抽出基準によりカテゴリごとに予め指定された個数の前記単語を抽出する単語抽出部5とを備えることを特徴とする。
【選択図】図1
Description
具体的に説明すると、「スポーツ」のカテゴリにおいて、「野球」という単語は、「スポーツ」に関連する単語である可能性が高く、「スポーツ」のカテゴリに属すると判断するために重要な単語、つまり、「カテゴリを関連づける単語」と言える。
一方、「円高」という単語は、「スポーツ」のカテゴリに関連しない単語である可能性が高く、「円高」という単語を含む文書データを、「スポーツ」のカテゴリに属さない単語であると判断するために重要な単語、つまり、「カテゴリと関連づけない単語」と言える。
しかし、「交代」という単語は、「スポーツ」のカテゴリでは「選手交代」として、「ビジネス」のカテゴリでは「世代交代」として、それぞれ異なるカテゴリにおいて共に使用される可能性の高く、文書データの「カテゴリを判断するために適さない単語」と言える。
例えば、カテゴリ情報を含む複数の文書データに基づき、文書データ内に出現する単語の出現頻度を計算し、計算された単語の出現頻度に応じて、共通するカテゴリに属する文書データにおける各単語の重要度の値をひとつの基準に基づき計算する。そして、この単語の重要度の値が大きい単語を、文書データのカテゴリを判断するために適する単語として、カテゴリごとに抽出するものがある(特許文献1参照)。
上述の基準に基づき計算する場合、「χ二乗値」、「相互情報量」あるいは「オッズ比」などの基準に基づき、単語の重要度を算出する方法がある(非特許文献1参照)。
例えば、上述で説明した「スポーツ」のカテゴリにおいて、「相互情報量」の基準に従って重要度を算出する場合、「野球」のようなカテゴリを関連づける単語を検出することはできるが、「円高」のようなカテゴリと関連づけない単語を検出することは困難であった。またこれとは逆に、「オッズ比」の基準に従って重要度を算出した場合、「円高」のようなカテゴリと関連づけない単語を検出することはできるが、「野球」のようなカテゴリを関連づける単語を検出することは困難であった。
また、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、それぞれの基準はそれぞれ固有の観点を有するため、一意に適切な基準でこれら複数の観点を達成することは困難であるという問題があった。
入力部1は、複数のカテゴリA、B、Cごとに分類された複数の文書データA1、B1、C1が入力される。ここで、カテゴリとは、複数の文書データA1〜C1のそれぞれに付与されている区分範囲であって、文書データの内容(属性)に応じ、例えばユーザによって予め決定されている。本実施の形態においては、カテゴリA〜Cの3つの例について説明するが、複数であればこれ以外の個数であってもよい。
この出現頻度情報A3〜C3として、単語出現頻度算出部3は、例えば、図2に示すような出現頻度数F1、F2、F3、F4を算出する。なお、出現頻度数F1は、任意のカテゴリcの文書データ内に出現した任意の単語tの個数、出現頻度数F2は、当該カテゴリc以外の文書データ内に出現した当該単語tの個数、出現頻度数F3は、当該カテゴリcの文書データ内に出現した当該単語t以外の個数、出現頻度数F4は、当該カテゴリc以外の文書データ内に出現した当該単語tの個数を表す。また、tは、任意の単語、cは、任意のカテゴリ、tバー( ̄)は、t以外の全ての単語、cバー( ̄)は、c以外の全てのカテゴリを意味している。さらに、文書データA1〜C1に含まれる全ての単語の個数は、出現頻度数F1〜F4の全てを加算した全単語数F5で表される。
すなわち、重要順位情報生成部4は、式1に示されるχ二乗値の演算式に従い、χ二乗値における重要度I1を単語ごとに算出し、この重要度I1に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。同様にして、重要順位情報生成部4は、式2に示される相互情報量の演算式に従い、相互情報量における重要度I2を単語ごとに算出し、この重要度I2に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。また、重要順位情報生成部4は、式3に示されるオッズ比の演算式に従い、オッズ比における重要度I3を単語ごとに算出し、この重要度I3に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。
また、図3に示す通り、重要順位情報生成部4は、異なる観点に応じた重要度判断基準に基づき重要度順位表を作成するため、同じカテゴリであっても、基準S1と基準S2の単語順位は異なる。
また、相互情報量は、式2に示したP(t)が大きく、かつ、P(t,c)が小さい値が上位に選ばれる傾向にある。すなわち、相互情報量は、出現頻度の高い単語で、かつ、カテゴリと関連しない単語が上位に順位付けされる傾向がある。言い換えると、相互情報量は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語tが発生したとき、その文書データがカテゴリcに属さない可能性が高い単語を上位に順位付ける傾向が高く、つまり「適合性」が高い傾向にある。
さらに、オッズ比は、式3に示したP(t)には関係なく、ある単語tのときにカテゴリcである確率が高い単語が選ばれる傾向にある。すなわち、オッズ比は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語tが発生したとき、その文書データがカテゴリcに属する可能性が高い単語を上位に順位付ける傾向が高く、つまり「抽出性」が高い傾向にある。
「P(t)=全カテゴリに出現する単語tの個数(F1+F2)/全単語数F5」
と表される。
同様にして、x=(t,c)で表されるP(t、c)=F1/F5、x=cで表されるP(c)=(F1+F3)/F5であって、t以外(tバー)、c以外(cバー)の場合も同様である。
重要順位情報生成部4は、このようにして生成された重要度順位情報A4〜C4を、後述する所定の抽出基準に基づき、単語抽出部5に出力する。
出力部6は、単語抽出部5によって生成された単語リストA5〜C5を、単語抽出装置100の外部装置に出力する。
記憶部7は、単語抽出部5によって生成された単語リストA5〜C5を記憶する。
図4は、単語抽出部5において、(1)分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図4に示す通り、例えば、重要順位情報生成部4が、カテゴリCの出現頻度情報C4に基づき、基準S1、基準S2、基準S3のそれぞれに従って重要度を算出し、それぞれの基準S1〜3による重要度順位表C4−3、C4−4、C4−5を生成する。基準S1による重要度順位表C4−3には、1位に単語Crが、600位に単語Csが、800位に単語Ctが順位付けられている。また、基準S2による重要度順位表C4−4には、10位に単語Crが、400位に単語Ctが、600位に単語Csが順位付けられ、基準S3による重要度順位表C4−5には、400位に単語Ctが、500位に単語Csが、800位に単語Crが順位付けられている。
また、単語抽出部5は、カテゴリA、Bにおいても同様に、各カテゴリA、Bの各単語の重要度の順位に基づき分散値あるいは標準偏差値を算出し、算出された分散値あるいは標準偏差値が大きい順に順位付けられた分散値順位表を生成し、カテゴリA、Bごとに予め指定された個数(例えば、カテゴリAはk=5個、カテゴリBはk=7個)の単語を分散値順位表の上位から順に抽出し、カテゴリA、Bの単語リストA5−3、B5−3を生成する。
このように、分散値抽出設定に基づき生成される単語リストA5−3、B5−3、C5−3では、全ての重要度判断基準において支持された単語ではないが、複数の重要度判断基準にわたって支持された単語が、分散値順位表において上位に順位付けされ、抽出される。
図5は、単語抽出部5において、上位抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図5に示す通り、例えば、重要順位情報生成部4によって、基準S1、基準S2、基準S3のそれぞれに従って算出された重要度に基づき、基準S1〜3による重要度順位表C4−6、C4−7、C4−8が生成される。基準S1による重要度順位表C4−6には、1位に単語Cyが、2位に単語Czが、3位に単語Cxが、4位に単語Coが順位付けられている。また、基準S2による重要度順位表C4−7には、1位に単語Cyが、2位に単語Cpが、3位に単語Cqが、4位に単語Crが順位付けられ、基準S3による重要度順位表C4−8には、1位に単語Cmが、2位に単語Cjが、3位に単語Cfが、4位に単語Csが順位付けられている。
このように、上位抽出設定に基づき生成される単語リストA5−6、B5−6、C5−6としては、それぞれの基準S1〜3において支持された単語、すなわち、それぞれの基準S1〜3に基づくいずれかの観点に適した単語が選択される。
図6は、単語抽出部5において、分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図6に示す通り、例えば、重要順位情報生成部4が、カテゴリCの出現頻度情報C3に基づき、基準S1、基準S2、基準S3のそれぞれに従って重要度を算出し、それぞれの基準S1〜3による重要度順位表C4−9、C4−10、C4−11を生成する。基準S1による重要度順位表C4−9には、1位に単語Cyが、2位に単語Czが、3位に単語Cxが順位付けられている。また、基準S2による重要度順位表C4−10には、1位に単語Cyが、10位に単語Czが、40位に単語Cxが順位付けられ、基準S3による重要度順位表C4−11には、10位に単語Cyが、15位に単語Czが、50位に単語Cxが順位付けられている。
また、単語抽出部5は、カテゴリA、Bにおいても同様に、各カテゴリA、Bの各単語の重要度の順位に基づき平均値を算出し、算出された平均値が小さい順に順位付けられた平均値順位表を生成し、カテゴリA、Bごとに予め指定された個数(例えば、カテゴリAはk=5、カテゴリBはk=7個)の単語を平均値順位表の上位から順に抽出し、カテゴリA、Bの単語リストA5−9、B5−9を生成する。
このように、平均値抽出設定に基づき生成される単語リストA5−9、B5−9、C5−9では、全ての基準において平均的に支持された単語が、平均値順位表において上位に順位付けされ、抽出される。
図7は、図1に示した単語抽出装置100の単語抽出方法の一例について説明するためのフローチャートである。
図7に示すとおり、単語抽出装置100は、入力部1を介して、複数のカテゴリA〜Cごとに分類された複数の文書データA1〜C1が入力される(ステップST11)。形態素解析部2は、この文書データA1〜C1に対して形態素解析を実行し、単語単位に分割された複数の単語からなる分割単語群A2〜C2を作成し、単語出現頻度算出部3に出力する(ステップST12)。単語出現頻度算出部3は、分割単語群A2〜C2に基づき、カテゴリA〜Cごとに単語の出現回数をカウントする。そして、単語出現頻度算出部3は、この出現回数に基づき、各カテゴリA〜Cの出現頻度情報A3〜C3を生成し、重要順位情報生成部4に出力する(ステップST13)。
重要順位情報生成部4および単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST15における単語リストA5〜C5の生成を繰り返し(ステップST16−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST16−YES)。生成された単語リストA5〜C5は、出力部6を介して単語抽出装置100の外部に出力され、あるいは、記憶部7に記憶される。
図8に示す通り、単語抽出部5の抽出基準として、分散値抽出設定が設定された場合(ステップST21)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)がユーザによって設定される(ステップST22)。本実施の形態においては、図4で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
すなわち、図4の例を用いて説明すると、単語抽出部5は、複数の基準S1〜3のそれぞれに対応する重要度順位表C4−3〜C4−5に基づき、各単語(Cr,Ct,Cs・・・)の重要度の順位の分散値(210430,53333,3333・・・)を算出し、カテゴリCの分散値順位表C400を生成する。そして、単語抽出部5は、ステップST22において設定されているカテゴリCにおいて予め指定された個数(k個=9)の単語を、分散値順位表C400の上位から順に抽出し、単語リストC5−3を生成する(ステップST25)。
図9に示す通り、単語抽出部5の抽出基準として、上位抽出設定が設定されている場合(ステップST31)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)が設定される(ステップST32)。本実施の形態においては、図5で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
すなわち、単語抽出部5は、カテゴリCの単語を抽出する場合、重要度順位表C4−6、C4−7、C4−8のそれぞれ上位から順に、全体としてk個の単語を抽出し(ステップST33)、この抽出したk=9個の単語の中に同じ単語が含まれているか否かを検出する(ステップST34)。
図5に示した例において、単語抽出部5は、重要度順位表C4−6、C4−7、C4−8の上位3位までの単語を抽出し、同じ単語が含まれているか否かを検出する。図5に示す通り、重要度順位表C4−6の1位と、重要度順位表C4−7の1位が、同じ単語Cyであるため(ステップST34−YES)、単語抽出部5は、重要度順位表C4−6、C4−7のそれぞれから抽出された単語Cyを1つの単語として抽出し、重要度順位表C4−6、C4−7、C4−8の上位3位から8個の単語を抽出する(ステップST35)。
単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST32に戻って、ステップST32〜ST36の工程を繰り返し(ステップST38−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST38−YES)。
なお、本実施の形態において、ステップST33で重要度順位表C4−6、C4−7、C4−8の上位から単語を抽出する場合、9個目の単語として、基準S1による重要度順位表C4−6の4位の単語Coを抽出する例を説明したが、本発明はこれに限られず、他の基準S2あるいは基準S3による重要度順位表C4−7、C4−8の4位の単語を抽出する構成であってもよい。
図10に示す通り、単語抽出部5の抽出基準として、平均値抽出設定が設定された場合(ステップST41)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)が設定される(ステップST42)。本実施の形態においては、図6で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
すなわち、図6の例を用いて説明すると、単語抽出部5は、複数の基準S1〜3のそれぞれに対応する重要度順位表C4−9〜C4−11に基づき、各単語(Cy,Cz,Cx・・・)の重要度の順位の平均値(4.0,9.0,31.0・・・)を算出し、カテゴリCの平均値順位表C401を生成する。そして、単語抽出部5は、ステップST42において設定されているカテゴリCにおいて予め指定された個数(k個=9)の単語を、平均値順位表C401の上位から順に抽出し、単語リストC5−9を生成する(ステップST45)。
すなわち、オッズ比では、該当カテゴリに属する可能性の高い単語に優先順位を付与するため、オッズ比は、抽出性の観点において重要な重要度判断基準である。しかし、オッズ比で選ばれた単語は、相互情報量のように適合性の観点を有していないため、他のカテゴリにおいても頻出する単語を排除する観点を備えず、オッズ比で抽出された単語においては適合性が低下する傾向にある。
つまり、ある文書データがあるカテゴリに属するか否かの判断において、オッズ比に従って抽出された単語が利用された場合、該当カテゴリに加えて適切でないカテゴリにも属すると判断される可能性が高くなる。
また、これら各重要度判断基準に従って算出される重要度は、相関係数はゼロに近い値となる傾向があるため、重要度同士はほとんど関係しない場合が多い。よって、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、一意に適切な基準でこれら複数の観点を達成することは困難である。
これに対し、本実施の形態に係る単語抽出装置100によると、複数の重要度判断基準を利用することができるため、カテゴリごとに適した重要度判断基準を選択する必要がなく、複数の重要度判断基準を利用することができるため、試行錯誤が必要なく、作業効率を改善することができる。
なお、この評価実験は、入力部1から入力される文書データとして、英文の新聞記事データ(reuters 21578)であって、文書数が8612、単語の種類が11822、カテゴリ数が8、全単語数が472619である文書データについて行った。
まず、図11、図12を用いて、本実施の形態に係る単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤抽出率と誤排除率について、χ二乗値、相互情報量、オッズ比の1つ重要度判断基準に従って抽出した場合とを比較しながら説明する。
図11は、単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤抽出率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤抽出率との比較を表すグラフである。
T1〜T3に示す通り、それぞれひとつの重要度判断基準に従って単語を抽出した場合、抽出する単語が増加するに伴い、誤抽出率は低下する傾向にあるが、全体として誤抽出率は高く、約50%以上である。なお、重要度判断基準に従って単語を抽出する方法としては、重要順位情報生成部4と同様に、それぞれの重要度判断基準によって算出される重要度に従って順位付けされた重要度順位表を作成し、この重要度順位表の上位から順に指定された個数の単語を抽出する方法を利用する。
このように、単語抽出装置100によって単語を抽出することによって、複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、ひとつの基準に従って抽出された単語に比べて、よりカテゴリに適した単語を抽出でき、カテゴリに属さない文書を誤って抽出してしまう誤抽出率を低減することができる。
図12は、単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤排除率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤排除率との比較を表すグラフである。
図12に示す通り、H1はχ二乗値、H2は相互情報量、H3はオッズ比に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表し、H4は、本実施の形態に係る単語抽出装置100によって抽出された単語に基づいて行われた文書分類の誤排除率を表す。なお誤排除率とは、カテゴリに属する文書を誤って排除してしまった文書の割合である。
一方、H4に示される通り、単語抽出装置100によって、χ二乗値、相互情報量およびオッズ比の全ての基準に従って作成される重要度順位表から、分散値抽出設定に基づき指定された個数(k個)が抽出された場合、誤排除率は全体的に低く、約5%未満である。よって、H3に示すオッズ比の誤排除率は低いものの、H4に示す単語抽出装置100による誤排除率の方が全体的にさらに低く、誤排除率もほぼ一定値を維持し安定している。
図13に示す通り、T5は上位抽出設定、T6は平均値抽出設定、T7は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤抽出率をそれぞれ表す。
T7に示される通り、分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、全体として誤抽出率は低く、特に、抽出する単語の個数kが2000個以上の場合においては、誤抽出率は約40%以下を維持して安定している。
また、T5、T6に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤抽出率が高くなることがあるが、抽出する単語が増加するに従って誤抽出率は低くなり、T7とほぼ同等の誤抽出率となる。
図14は、(1)〜(3)の抽出基準に従って単語抽出装置100により抽出される単語に基づいて行われた文書分類の誤排除率の比較を表すグラフである。
図14に示す通り、H5は上位抽出設定、H6は平均値抽出設定、H7は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表す。
H7に示される通り、分散値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、誤排除率は全体的に低く、約5%未満であり、ほぼ一定値を維持し安定している。
また、H5、H6に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤排除率が高くなることがあるが、抽出する単語が増加するに従って誤排除率は低くなり、H7とほぼ同等の誤排除率となる。
これは、複数の重要度判断基準において算出される単語の重要度の相関係数が低い場合が多く、(1)分散値抽出設定によると、複数の重要度判断基準によって支持された単語が抽出されるためである。従って、単語の重要度の相関係数が高い場合は、(2)上位抽出設定や、(3)平均値抽出設定においても、カテゴリに応じた単語を抽出することができる。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に記憶したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
2 形態素解析部
3 単語出現頻度算出部
4 重要順位情報生成部
5 単語抽出部
6 出力部
100 単語抽出装置
Claims (7)
- 任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を、前記文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出する単語抽出部と
を備えることを特徴とする単語抽出装置。 - 前記単語抽出部は、
前記重要順位情報に基づき算出される、前記複数の重要度判断基準にわたる前記各単語の前記重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づき、前記予め指定された個数の単語を抽出する分散値抽出設定、
前記重要順位情報の上位から順に、前記予め指定された個数の単語を抽出する上位抽出設定、あるいは
前記重要順位情報に基づき算出される、前記複数の重要度判断基準における前記各単語の前記重要度の順位の平均値に基づき、前記予め指定された個数の単語を抽出する平均値抽出設定
のうちいずれか1つの前記抽出基準に従って、前記カテゴリから前記予め指定された個数の単語を抽出することを特徴とする請求項1に記載の単語抽出装置。 - 前記単語抽出部は、分散値抽出設定において、
前記分散値あるいは標準偏差値の大きい順に前記単語が順位付けされた分散値順位情報を前記カテゴリごとに生成し、前記分散値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項2に記載の単語抽出装置。 - 前記単語抽出部は、上位抽出設定において、
前記複数の重要順位情報の上位から順に、前記カテゴリごとに予め指定された個数であって、互いに異なる前記単語を前記カテゴリごとに抽出することを特徴とする請求項2に記載の単語抽出装置。 - 前記単語抽出部は、平均値抽出設定において、
前記平均値の小さい順に前記単語が順位付けされた平均値順位情報を前記カテゴリごとに生成し、前記平均値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項2に記載の単語抽出装置。 - 任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出する単語抽出装置における単語抽出方法において、
前記単語抽出装置の重要順位情報生成部が、
前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成し、
前記単語抽出装置の単語抽出部が、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出することを特徴とする単語抽出方法。 - 任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出するコンピュータに、
前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成させる重要順位情報生成手段と、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出させる単語抽出手段とを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008335080A JP4994358B2 (ja) | 2008-12-26 | 2008-12-26 | 単語抽出装置、単語抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008335080A JP4994358B2 (ja) | 2008-12-26 | 2008-12-26 | 単語抽出装置、単語抽出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010157102A true JP2010157102A (ja) | 2010-07-15 |
JP4994358B2 JP4994358B2 (ja) | 2012-08-08 |
Family
ID=42574996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008335080A Expired - Fee Related JP4994358B2 (ja) | 2008-12-26 | 2008-12-26 | 単語抽出装置、単語抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4994358B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
KR101505546B1 (ko) | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
JP2016099750A (ja) * | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029882A (ja) * | 1998-07-08 | 2000-01-28 | Dainippon Screen Mfg Co Ltd | 要約文作成装置 |
JP2002055689A (ja) * | 2000-08-11 | 2002-02-20 | Taito Corp | 順位生成機能を有するアミューズメント装置、順位生成装置 |
JP2007079948A (ja) * | 2005-09-14 | 2007-03-29 | Nec Corp | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
-
2008
- 2008-12-26 JP JP2008335080A patent/JP4994358B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029882A (ja) * | 1998-07-08 | 2000-01-28 | Dainippon Screen Mfg Co Ltd | 要約文作成装置 |
JP2002055689A (ja) * | 2000-08-11 | 2002-02-20 | Taito Corp | 順位生成機能を有するアミューズメント装置、順位生成装置 |
JP2007079948A (ja) * | 2005-09-14 | 2007-03-29 | Nec Corp | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
US8812504B2 (en) | 2010-09-28 | 2014-08-19 | Kabushiki Kaisha Toshiba | Keyword presentation apparatus and method |
KR101505546B1 (ko) | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
JP2016099750A (ja) * | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4994358B2 (ja) | 2012-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
US8099418B2 (en) | Information search support method and information search support device | |
KR102046096B1 (ko) | 자원 효율적인 문서 검색 | |
US7945668B1 (en) | System and method for content-aware co-clustering algorithm based on hourglass model | |
Yan | Research dynamics, impact, and dissemination: A topic‐level analysis | |
JP5621773B2 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
US20100313258A1 (en) | Identifying synonyms of entities using a document collection | |
US20200125674A1 (en) | Reducing storage required for an indexing structure through index merging | |
US20090094021A1 (en) | Determining A Document Specificity | |
US10146775B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
CN103279513A (zh) | 产生内容标签的方法、提供多媒体内容信息的方法及装置 | |
JP5494126B2 (ja) | 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム | |
EP2045732A2 (en) | Determining the depths of words and documents | |
JP2015500525A (ja) | 情報検索のための方法および装置 | |
JP2011165131A (ja) | 情報処理装置および方法、並びにプログラム | |
KR20120049551A (ko) | 사용자 선호도와 컨텐츠 내용을 고려한 컨텐츠 추천 방법 | |
JP4994358B2 (ja) | 単語抽出装置、単語抽出方法およびプログラム | |
US9552415B2 (en) | Category classification processing device and method | |
JP2013174988A (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
US9400789B2 (en) | Associating resources with entities | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP2010238041A (ja) | 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法 | |
JP7341090B2 (ja) | 文献検索システム及び方法 | |
JP6015417B2 (ja) | クラスタ処理方法、クラスタ処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120508 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150518 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4994358 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |