JP2005258678A - 単語抽出方法、装置、およびプログラム - Google Patents

単語抽出方法、装置、およびプログラム Download PDF

Info

Publication number
JP2005258678A
JP2005258678A JP2004067681A JP2004067681A JP2005258678A JP 2005258678 A JP2005258678 A JP 2005258678A JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 2005258678 A JP2005258678 A JP 2005258678A
Authority
JP
Japan
Prior art keywords
word
topic
document set
words
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004067681A
Other languages
English (en)
Other versions
JP4298550B2 (ja
Inventor
Takayuki Adachi
貴行 足立
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004067681A priority Critical patent/JP4298550B2/ja
Publication of JP2005258678A publication Critical patent/JP2005258678A/ja
Application granted granted Critical
Publication of JP4298550B2 publication Critical patent/JP4298550B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 従来よりも高精度で最新の語に対処可能な単語抽出を行ない、利用者にとって有用な話題語を得、複数の話題度計算手段から利用者が指定した方法で話題度を計算する。
【解決手段】 クローラー11は指定された周期で、インターネット2から前回の収集以降に更新された文書を収集し、加工して文書DB16へ出力する。対象文書集合データ作成部12は、前記周期とは独立に指定された期間中に更新日時が含まれる収集文書をまとめて、話題語抽出の対象文書集合を作成し、統計量を計算して対象文書集合DB17へ出力する。単語抽出部13は対象文書集合から単語を抽出する。話題度計算部14は前回と今回の対象文書集合に関する統計量を基に、指定された方法で単語の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題語リストと話題語の関連情報を表示する。
【選択図】 図1

Description

本発明は、対象となる文書集合から単語を抽出する方法および装置に関するものである。
現在、インターネット上には様々な分野・種類の電子的な文書が大量に生まれ続けている。しかしながら、利用者は、最近作成された文書の全てを見ることは量的に不可能であり、分野や情報元などで限定したとしても困難なことが多い。そこで、例えば、最近作成された文書の集合から過去よりも話題性の高い語を順にリストアップし、さらにその話題語からその語を含む文書への簡便なアクセス方法があるならば、利用者は、その時々で有用な情報を含んでいる文書を効率よく見ることができる。また、最近の話題語とその意味を知りたい場面においても、上記のような仕組みがあれば、話題語とその利用例を探す手間が削減される。
文書集合から単語を抽出する従来技術としては、対象文書集合中の任意の文字列から単語候補を求め、対象文書集合とそれとは別の文書集合から単語候補の文字列統計量を計算し、その値が閾値以上となった単語候補を単語として抽出するものがある(非特許文献1参照)。
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第9回年次大会発表論文集、pp.274−277、2003年3月.
この技術は、対象文書集合中の任意の部分文字列から、あらかじめ単語候補に絞り込み、それぞれ独立に単語らしさを調べている。しかし、粗い絞り込みのため単語候補の中には、正しい単語が除去されるかわりに、その単語を部分的に含む誤った文字列が残っている場合がある。
そこで、単語候補を形態素解析することが考えられるが、形態素解析用の辞書にない単語が単語候補に含まれる場合、形態素解析結果が誤るために正しい単語が抽出できない。
また、この技術では、単語の話題度を最近の文書集合の出現確率と過去の文書集合の出現確率との差としており、最新度の高い単語ほど高い話題度となる。しかし、最新度が高くても重要でない単語が抽出される可能性がある。
また、最新の話題語といっても、ある文書に偏って出現する特徴的なものが欲しい場合もあれば、偏りにかかわらず最新の話題語が欲しい場合もある。しかし、利用者の目的に合わせて、適宜、話題度計算方法を変更することができない。
また、得られるものは話題度順に並べた単語リストであり、利用者がその語の意味の理解に役立つ情報を提示する手段や、その語を含む文書への簡便なアクセスする手段は有していない。
本発明の目的は、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができ、また、利用者にとって有用な話題語を得ることができる単語抽出方法、装置、およびプログラムを提供することにある。
本発明の単語抽出方法は、
逐次更新される文書集合から指定した期間における話題語を抽出する、単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を前記周期とは独立に作成する対象文書集合作成ステップと、
単語抽出手段が対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出ステップと、
話題度計算手段が抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題語リスト作成手段が話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップを
有する。
また、本発明の単語抽出装置は、
逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手段と、
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手段を
有する。
1)文書集合から文字列統計量と文字列長と文字種に基づく単語分割を行うことで、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができる。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明の一実施の形態である単語抽出装置の構成を表すブロック図である。図1において1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。
単語抽出装置1はクローラー11と対象文書集合データ作成部12と単語抽出部13と話題度計算部14と表示部15と文書DB16と対象文書集合DB17と話題語DB18とを有している。
クローラー11は、インターネット2から前回収集以降に更新された文書を指定された周期で収集し、HTML(Hyper Text Markup Language)といったタグ付きの収集文書をプレインテキストへ加工して文書DB16へ出力する。対象文書集合データ作成部12は文書DB16から上記の指定された周期とは独立に指定された期間内に更新された加工済み文書を文書DB16から入力し、複数の加工済み文書をまとめて話題語抽出の対象文書集合を作成し、対象文書集合から統計量を計算して、対象文書集合と統計量データを対象文書集合DB17へ出力する。なお、対象文書集合に対応付けてURL(Uniform Resource Locator)やタイトルも格納される。単語抽出部13は対象文書集合DB17の対象文書集合を入力し、単語分割し、対象文書集合DB17へ単語を出力する。話題度計算部14は単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列の統計量を基に指定した方法で最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対して、対象文書集合中の文脈や、その話題語を含む元のURL(Uniform Resource Locator)や、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
図2は、単語抽出部13の構成を表すブロック図である。図2において、1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。
単語抽出部13は単語候補抽出部13Aと単語分割部13Bと単語選択部13Cを有する。単語候補抽出部13Aは対象文書集合DB17から対象文書集合を読み込み、対象文書集合に複数回出現する文字列で、入れ子となるものや、ある文字種で分断されるものを除いて(非特許文献1の単語候補抽出と同様な方法)単語候補を抽出し、対象文書集合DB17へ格納する。単語分割部13Bは対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。単語選別部13Cは対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題語DB18へ出力する。
次に、本実施形態の動作を図3のフローチャートにより説明する。
まず、クローラー11によって、指定された周期で、インターネット2からその周期の差分(前回収集以降)に更新された文書を収集する(ステップ101)。クローラーとはインターネット2上のページを巡回し、文書を収集する手段である。例えば、毎日(指定周期)、前日に更新された文書(前回収集以降に更新された文書)を収集する場合、今日が2004年1月1日であったならば、クローラー11によって、更新日時が昨日2003年12月31日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。また、今日が2004年1月2日となったならば、同様にクローラー11によって更新日時が昨日2004年1月1日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。収集周期の指定は、あらかじめ初期設定しておく。例えば、「毎日」と設定すれば毎日収集し、「2日」とすれば2日に1回収集する。さらに、収集されたページには、文書の内容とは関係ないタグや不要な文字列が含まれているので、それらを除去し、整形した文書を作成し、収集文書と関連付けて文書DB16へ格納、管理される。
次に、対象文書集合データ作成部12は、文書DB16から上記の指定された周期とは独立に指定した期間内に更新された整形済み文書を読み出し、まとめたものを話題語抽出の対象文書集合として作成し、指定日時と期間で対象文書集合を管理して対象文書集合DB17へ格納する(ステップ102)。例えば、日時を「昨日」、期間を「1日分」と指定すると、更新日時がその日時と一致する整形済み文書を読み出し、各文書をまとめたファイル(例えば、各文書を1行とし、それらを連結したもの)を対象文書集合として作成し、指定日時と期間で管理して対象文書集合DB17へ格納する。日時と期間は、あらかじめ初期設定しておく。例えば、日時を「昨日」、期間を「1日分」と設定し、今日が2004年1月1日であれば、更新日時が2003年12月31日の整形済み文書が該当することになる。
なお、日時や期間だけでなくサイト名や分野を指定し、より限定した対象文書集合を作成することもできる。サイト名は完全なURLでなく、URLの一部で定めてもよい(例えば、「http://www.sample.com/sports」のような場合のドメイン名+部分文字列)。また、分野はURL中に含まれる文字列(例えば、「sports」)や、文書内に現れる文字列や、予め学習しておいた分野推定手段によって文書の分野を推定した結果で定める。さらに、対象文書集合から文字列統計量を計算し、用いた対象文字集合と関連付けて対象文書集合DB17へ格納・管理される。文字列統計量を計算する際には、例えば、非特許文献1でも利用されている接尾辞配列(suffix array(参考文献1参照))を作成することで、文書中の任意の文字列の出現頻度やその文字列が出現する文書数を計算することができる。suffix arrayは、文章中の任意の文字から文章末までの全ての文字列(文書へのポインタ)の配列を文字列でソートしたものである。同じ文字列が複数箇所で出現した場合、ソートした配列では隣接しているので、その数をカウントすれば出現頻度が求まる。また、事前に文書の先頭位置を求めておくことで、部分文字列のポインタからどの文書に出現したかが分かるので各文字列が出現する文書数を計算できる。suffix arrayの作成の際に用いたデータは統計量データとして対象文書集合DB17へ格納する。なお、suffix arrayを作成する方法でなくても同様の計算が可能であれば、それを用いても構わない。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
次に、単語抽出部13は、対象文書集合DB17の対象文書集合を読み出し、対象文書集合を単語分割して、単語を抽出する(ステップ103)。単語抽出方法は、形態素解析を行い、品詞パターンが合致したものを抽出する方法が考えられるが、最新の話題語の中には未知語を含む可能性がある。一般的な形態素解析では辞書を用いるため、未知語への対処ができない。
そこで、以下では文字列統計量による単語分割の説明を図2に基づいて行う。まず、単語候補抽出部13Aは、対象文書集合DB17から対象文書集合を読み込み、非特許文献1の単語候補抽出と同様な方法で単語候補を抽出し、対象文書集合DB17へ格納される。この例では、対象文書集合を1文ごとに分けて、1文を単語分割することも可能であるが、処理を早く行うために非特許文献1の方法で単語候補を抽出する。例えば、対象文書集合に複数回「…タテガミオオカミの…」と出ており、単語候補抽出の結果、「タテガミオオカミの」が単語候補の1つであるとする。なお、「タテガミオ」のような文字列は、「タテガミオオカミ」の入れ子であったり、「タテガミオ」の末尾文字と直後の文字が同種の文字種(カタカナ)で分断されるものは単語候補とはならない。次に、単語分割部13Bは、対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。例えば、単語候補のうちの1つである「タテガミオオカミの」が入力されると、“タ”、“タテ”、…“タテガミオオカミの”、といったように、先頭から順に入力された文字列に含まれる全ての部分文字列について単語スコアが計算される。
単語スコアは、入力文字列をうまく単語に分割することが可能であればどの統計量を用いてもかまわない。また、あらかじめ複数の方法を準備し、初期設定で使用する方法を用いてもかまわない。例えば、統計量として出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり特徴的なキーワードを抽出するのによく利用されるtf*idfが考えられるが、ここでは、文字列sの単語スコアS(s)=ridf(s)×(length(s)−1)によって計算する。ridf(s)は文字列sの残差IDF(ridf)と呼ばれるもので、内容に関する単語は大きな値をとりやすい統計量である(参考文献2)。また、length(s)は文字列sの長さである。なお、出現頻度が少ないときは統計量が正確な値を取らないので、例えば、出現頻度(tf)が10以下の場合、ridf(s)=0としている。
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
文字列sの残差IDFを計算するには、ある文書集合に対し、文字列sの出現頻度や文字列sを含む文書数(文書頻度)や文書集合における総文書数をあらかじめ計算しておくか、実行時に読み込んで計算して求める。例えば、参考文献1を用いて、ある文書集合中の文字列の出現頻度と文書頻度を求めることができる。ただし、参考文献1では、出現頻度2以上の任意の文字列に限定されている。そこで、文字列が参考文献1の方法では見つからず、かつ、文書集合に出現している場合、出現頻度1(=文書頻度1)となることがわかる。また、文書集合中の総文書数は事前に1度調べればよい。以上から、対象文書集合の文字列統計量と事前準備した別文書集合の文字列統計量を用いて、ある文字列に対する各文書集合の文字列統計量(出現頻度や文書頻度)を足し合わせて求めることができる。対象文書集合のみでなく、別文書集合の統計量も用いるのは、対象文書集合で出現頻度が少ない場合の統計量を補うことで誤りが減らせるためである。また、別文書は事前に統計量を計算しておくことで、実行時には対象文書集合のみ計算すればよく、対象文書集合と別文書集合をまとめた全体に対して実行時に統計量を計算するよりも処理時間が短縮できる。
図4の左側は、対象文書集合と別文書集合の統計量を既に足し合わせた結果の一部であり、足し合わせた総文書数D=100000の文書から各文字列の出現頻度と文書頻度を求めたものとする。例えば、単語候補「タテガミオオカミの」における「タ」の場合は、出現頻度tf=80000、文書頻度df=30000が求まるので、ridf(タ)=0.74となる。これらから、単語スコアS(タ)=ridf(タ)×(length(タ)−1)=0となる。同様に、入力文字列の全ての部分文字列の単語スコアS(s)が求まる(図4の右側)。
次に、単語スコアの補正について説明する。ある文字種を持つ文字列では単語スコアが適切でなく、誤った分割が行われやすくなるので、計算された単語スコアを補正する。補正は単語とはなりにくい文字列の単語スコアを0にし、単語となりやすい文字列で単語スコアが低いものに、より高い値を与えるようにする。例えば、カタカナ、英字、アラビア数字、漢数字が同じ文字種で連続する場合、最長となるもの以外は単語スコアを0にし、仮に最長のもので単語スコアが0の場合は0より大きいかものすごく小さな値を与える。また、記号類は2文字以上のものは単語スコアを0にする。また、ひらがなを含む文字列の場合で長さが1文字で文書頻度が閾値以上である場合は、単語スコアをw(s)とする(w(s)はsの関数)。また、ひらがなを含む文字列の場合で長さが2文字以上でridf(s)が閾値以下の場合は単語スコアを0にする。例えば、図3のように、“タテ”の場合は、単語スコアがS(タテ)=0.48であるが、単語候補「タテガミオオカミの」においては、「タテガミオオカミ」のカタカナの部分文字列であるので、S(タテ)=0となる(図4の右側)。また、「タテガミオオカミ」の単語スコアは0であるが、補正によりものすごく小さな値(例えば、0.0001)となる。次に、動的計画法(DP(非特許文献3参照))によって、各文字列の単語スコアから単語スコアの総和の最大とする単語並びを求める。例えば、単語候補「タテガミオオカミの」は、「タテガミオオカミ(0.0001)/の(0.05)」のような並びとなる(単語の後の数字は単語スコアである。)。なお、単語スコアの補正が行われなかったとすれば、「タテ(0.48)/ガミ(0.53)/オオカミ(3.99)/の(0.05)」となり、正しい単語分割は得られない。
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
次に、図2の単語選別部13Cは、対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題後DB18へ出力する。例えば、単語スコアがある閾値以上もしくはカタカナで文字列長が2以上のものに限定したならば、「タテガミオオカミ」はカタカナであるので出力され、対象文書集合DB17へ格納される。
次に、話題度計算部14は、単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列統計量を基に最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する(ステップ104)。
最近の話題度とは、前回と今回の対象文書集合において単語の重要度を表す統計量を求め、今回の方が前回に比べて重要度が急激に上昇したものであると考えられ、例えば、前回と今回の重要度の割合で求めることができる。なお、割合でなく差であったり、割合と差の両方を考慮したものなど、最近の話題度が求められるものであれば、ここで述べる以外の方法で話題度を求めても構わない。
統計量を複数準備しておくことで利用者に合った話題度を選択できる。統計量としては、出現頻度(tf)やtf*idfなどが考えられる。tfは多く出現するほど重要であるという意味になる。また、tf*idfは出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり、出現頻度に比べてtf*idfの方が文書に偏って出現する単語が高い値となる。これは、単に出現頻度が多いとまんべんなく出現する語が高くなりやすいので、偏りも考慮することでより内容に特化した単語を高い値となることを意味する。対象文書集合中の文書数をDとするとtf*idfは、tf*idf=tf*(log(D/df)+1)で計算される。なお、統計量はこれらに限定されず他の方法で計算しても構わない。例えば、tf*idfによる単語「タテガミオオカミ」の話題度を、今回をある1日、前回をその前日1日として計算する場合、前日に対象文書集合に100個の文書があり、そのうち2つの文書に「タテガミオオカミ」が2回出ていて、当日には対象文書集合中に120個の文書があり、そのうち3つの文書に「タテガミオオカミ」が6回出ていたならば、話題度は(当日のtf*idf)/(前日のtf*idf)=6*(log(120/3)+1)/2*(log(100/2)+1)=15.6/5.4=2.89となる。そして、話題度の高い順に話題語リストを作成し、話題語DB18へ格納する。
最後に、表示部15は、話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対し、対象文書集合中の文脈や、その話題語を含む元のURLや、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
例えば、図5の(a)にあるように、利用者が年月日、件数、分野、サイト、話題度の計算手法を選択すると、選択した条件での最新の話題語リストが出力される。なお、「赤ちゃん」という話題語が話題語リストにあり、「赤ちゃん」と同じ文書に現れる話題語で最上位のものが「タテガミオオカミ」である場合は、同じ情報を含む文書に包含されていると考えて、「赤ちゃん」を話題語リストから除外することで、リストの上位から複数回同じ情報を見る手間を省くことができる。
また、例えば、4位の「タテガミオオカミ」をクリックすると、図5の(b)にあるように、指定した日時である2004年1月1日の「タテガミオオカミ」の対象文書集合中の出現数(tf)やその語を含む文書数(df)、話題度、同じ文書に包含されている話題語や、ある期間の話題語に関する統計量(この例では話題度)の推移グラフや、その話題語を含む元のURL、話題語が出現する文書のタイトル、対象文書集合中の話題語の前後の文脈が表示される。原文書が見たい場合は、URLをクリックすると実際の文書を表示する。これにより、ある日時の話題語リストを見るだけでは話題語かどうか判断がつきにくい場合に、統計量の推移グラフや出現頻度などによって、判断の参考になる情報を見ることができる。この例では、推移グラフが話題度だけだが、複数の統計量を表示させたり、複数の統計量から選択手段により見たいグラフを選択してもよい。また、見たい期間の幅や時期も選択手段により変更させてもよい。
また、話題語の意味が分からない新語の場合に、話題語の文脈や元文書を見ることにより、理解を助けることができる。なお、図5は表示の一例であって、情報の表示させるデータや順序や構成などは、適宜変更したものでも構わない。
なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
本発明の一実施形態である単語抽出装置の構成を示すブロック図である。 図1中の単語抽出部の構成を示すブロック図である。 図1の単語抽出装置の処理の概要を表すフローチャートである。 文書集合から計算された任意の文字列の単語スコアと、入力された文字列に基づいて補正された単語スコアの一例を示す図である。 話題語リストと関連情報の表示例である。
符号の説明
1 単語抽出装置
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ

Claims (12)

  1. 逐次更新される文書集合から指定した期間における話題語を抽出する、単語抽出装置において行なわれる単語抽出方法であって、
    文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
    対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
    単語抽出手段が対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出ステップと、
    話題度計算手段が抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
    話題語リスト作成手段が話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップを
    有する単語抽出方法。
  2. 前記対象文書集合作成ステップにおいて、特定の指定条件に合致する文書をまとめて単語抽出の対象となる文書集合を作成する、請求項1記載の単語抽出方法。
  3. 前記単語抽出ステップにおいて、対象文書集合をある単位に分割し、その単位における任意の文字列の単語スコアを計算し、その単位における単語スコアの総和が最大となる文字列の並びを単語列とする単語分割を行い、単語スコアが閾値以上の単語を抽出する、請求項1記載の単語抽出方法。
  4. 前記単語スコアは、統計量によって計算され、その統計量として、tf*idfを用いるものまたは残差IDFを用いるものであり、さらに文字種や文字列長も考慮して統計量が計算される、請求項3記載の単語抽出方法。
  5. 前記統計量は、対象文書集合の文字列統計量に加えて、事前準備した別の文書集合の文字列統計量を用いて計算される、請求項4記載の単語抽出方法。
  6. 前記話題度計算ステップにおいて、単語の重要度を求めるための文書集合中の統計量として、単語の出現頻度、単語を含む文書数を用いて総文書数を計算する、請求項1記載の単語抽出方法。
  7. 前記話題度計算ステップは、複数の話題度計算手段から、指定した手段で単語の話題度を計算するステップを有する、請求項1記載の単語抽出方法。
  8. 前記話題語リスト作成するステップにおいて、話題語リストと各単語の関連情報として、対象文書集合における話題語の出現頻度、話題語を含む文書数といった統計量、前記話題度計算ステップで計算された話題度、対象文書集合における話題語の統計量に関する時間推移のグラフ、話題語を含む文書へのハイパーリンク、話題語が出現する文書のタイトル、話題語が出現する文書における話題語の前後の文脈、ある話題語が出現する文書に含まれている別の話題語のいずれかを表示する、請求項1記載の単語抽出方法。
  9. 前記表示ステップにおいて、話題語リストのある話題語が出現した文書集合と別の話題語が出現した文書が包含関係にあるときは、これらをまとめて表示させ、あるいはより低い方の話題語を話題語リストから除外して表示させる、請求項8記載の単語抽出方法。
  10. 前記統計量において、文書集合中の文字列や単語の出現頻度やそれを含む文書数を計算する際に、接尾辞配列を用いる、請求項4、5、6、8のいずれかに記載の単語抽出方法。
  11. 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
    文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
    収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
    対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手段と、
    抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
    話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手段を
    有する単語抽出装置。
  12. 逐次更新される文書集合から指定した期間における話題語を抽出する処理をコンピュータで実行するための単語抽出プログラムであって、
    文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手順と、
    収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手順と、
    対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手順と、
    抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手順と、
    話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手順を
    有する単語抽出プログラム。
JP2004067681A 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム Expired - Lifetime JP4298550B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2005258678A true JP2005258678A (ja) 2005-09-22
JP4298550B2 JP4298550B2 (ja) 2009-07-22

Family

ID=35084346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067681A Expired - Lifetime JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4298550B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211287A (ja) * 2008-03-03 2009-09-17 Fuji Xerox Co Ltd 文字処理装置
WO2012124608A1 (ja) * 2011-03-11 2012-09-20 株式会社 東芝 話題抽出装置及びプログラム
JP2012243129A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム
JP2012243033A (ja) * 2011-05-18 2012-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム
KR101358084B1 (ko) 2009-06-29 2014-02-11 마사아키 토쿠야마 정보처리장치 및 워크플로우 처리방법
US9806981B2 (en) 2002-03-28 2017-10-31 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10491506B2 (en) 2002-03-28 2019-11-26 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
US10193787B2 (en) 2002-03-28 2019-01-29 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
US9806981B2 (en) 2002-03-28 2017-10-31 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
JP2009211287A (ja) * 2008-03-03 2009-09-17 Fuji Xerox Co Ltd 文字処理装置
KR101358084B1 (ko) 2009-06-29 2014-02-11 마사아키 토쿠야마 정보처리장치 및 워크플로우 처리방법
WO2012124608A1 (ja) * 2011-03-11 2012-09-20 株式会社 東芝 話題抽出装置及びプログラム
JP2012190340A (ja) * 2011-03-11 2012-10-04 Toshiba Corp 話題抽出装置及びプログラム
CN103282903A (zh) * 2011-03-11 2013-09-04 株式会社东芝 话题提取装置和程序
US9449051B2 (en) 2011-03-11 2016-09-20 Kabushiki Kaisha Toshiba Topic extraction apparatus and program
US9529847B2 (en) 2011-05-18 2016-12-27 Sony Corporation Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
US8983997B2 (en) 2011-05-18 2015-03-17 Sony Corporation Information processing apparatus, information processing method, and program
JP2012243033A (ja) * 2011-05-18 2012-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2012243129A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP4298550B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US8204891B2 (en) Method and subsystem for searching media content within a content-search-service system
US9760570B2 (en) Finding and disambiguating references to entities on web pages
US7469251B2 (en) Extraction of information from documents
US20110029513A1 (en) Method for Determining Document Relevance
US20110119262A1 (en) Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
US20090319449A1 (en) Providing context for web articles
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US9529847B2 (en) Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
US9015172B2 (en) Method and subsystem for searching media content within a content-search service system
US20070061322A1 (en) Apparatus, method, and program product for searching expressions
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
US20120330986A1 (en) Information processing apparatus, information processing method, and program
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4298550B2 (ja) 単語抽出方法、装置、およびプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009015796A (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP3937741B2 (ja) 文書の標準化
Aslam et al. Web-AM: An efficient boilerplate removal algorithm for Web articles
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP2009265770A (ja) 重要文提示システム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050628

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050628

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Ref document number: 4298550

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term