JP2006072840A - 予測型話題性評価方法及び装置及びプログラム - Google Patents

予測型話題性評価方法及び装置及びプログラム Download PDF

Info

Publication number
JP2006072840A
JP2006072840A JP2004257511A JP2004257511A JP2006072840A JP 2006072840 A JP2006072840 A JP 2006072840A JP 2004257511 A JP2004257511 A JP 2004257511A JP 2004257511 A JP2004257511 A JP 2004257511A JP 2006072840 A JP2006072840 A JP 2006072840A
Authority
JP
Japan
Prior art keywords
topic
phrase
word
time
detection sensitivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004257511A
Other languages
English (en)
Other versions
JP4424125B2 (ja
Inventor
Yoshihide Sato
吉秀 佐藤
Harumi Kawashima
晴美 川島
Tsutomu Sasaki
努 佐々木
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004257511A priority Critical patent/JP4424125B2/ja
Publication of JP2006072840A publication Critical patent/JP2006072840A/ja
Application granted granted Critical
Publication of JP4424125B2 publication Critical patent/JP4424125B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 時刻情報を持った語句を解析し、何ら文法的な知識を必要とせずに話題を表す語や速報性の高い重要な語を抽出するための評価を行なう。
【解決手段】 本発明は、外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として算出し、語句及び語句の基準話題度から、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出し、語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して記録装置に出力する。
【選択図】 図1

Description

本発明は、予測型話題性評価方法及び装置及びプログラムに係り、ニュース記事やインターネット上の掲示板での発言、検索エンジンに要求された検索キーワード(検索クエリ)など、新しい情報や最近の話題を反映しやすいデータを次々と収集し、収集データ中の語句から最近の話題となっている語句を自動的に抽出するために、各語句の話題性の強度を評価する技術に関するものであり、特に、季節や曜日などの周期性を持った話題を、充分に盛り上がる前の段階で予測的に検出するための予測型話題性評価方法及び装置及びプログラムに関する。
新聞やテレビなどのメディアから入手できる情報は日々増加しているが、インターネットの普及による影響は特に著しく、ともすれば氾濫した情報にすぐに埋もれてしまう。こういった状況において、日々更新・追加される情報には世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。従って、新しい文書やニュース記事、掲示板での発言などを数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。
複数の文書情報から話題を表す語を抽出する技術には、文脈的な規則や言語的な知識を用いる方法がある。これは、話題が転換する際に用いられる表現を学習させた辞書を使用し、さらに転換後の話題と転換前の話題との関係を考慮して話題候補の検出を行う方法である(例えば、特許文献1参照)。
特開平6−139276号公報
しかしながら、上記従来の方法は、ドメインの知識を必要としない方法である一方、話題検出を行う前に話題転換時に使用される表現を集めた辞書を作る必要がある。
また、対象言語が変われば辞書の再構築が必要となるという問題がある。
本発明は、上記の点に鑑みなされたもので、時刻情報を持った語句を解析し、何ら文法的な知識を必要とせずに話題を表す語や速報性の高い重要な語を抽出するための予測型話題性評価方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価方法において、
外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として該語句と共に記憶手段に記録する基準話題度算出ステップと(ステップ1)、
記憶手段に記録された語句及び該語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出ステップ(ステップ2,3)と、
語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して記録装置に出力する予測話題度算出ステップ(ステップ4)と、を行なう。
また、本発明(請求項2)は、基準話題度算出ステップ(ステップ1)において、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定するステップを行う。
また、本発明(請求項3)は、話題検出感度算出ステップ(ステップ2,3)において、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも1を下回る場合に強制的に“1”に変換した値を話題検出感度とするステップを行なう。
また、本発明(請求項4)は、予測話題度算出ステップ(ステップ4)において、
各語句の基準話題度と話題検出感度の積を該語句の予測話題度として算出し、出力するステップを行なう。
図2は、本発明の原理構成図である。
本発明(請求項5)は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置であって、
外部の情報源から取得した多数の語句を語句データ蓄積手段211に格納する語句収集手段210と、
語句データ蓄積手段211に格納されている語句データについて、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として語句と共に基準話題度記憶手段214に記録する基準話題度算出手段212と、
基準話題度記憶手段214に記録された語句及び語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出手段216と、
語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して予測話題度記録手段22に出力する予測話題度算出手段215と、を有する。
また、本発明(請求項6)は、基準話題度算出手段212において、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定する手段を含む。
また、本発明(請求項7)は、話題検出感度算出手段216において、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも1を下回る場合に強制的に“1”に変換した値を話題検出感度とする手段を含む。
また、本発明(請求項8)は、予測話題度算出手段215において、
各語句の基準話題度と話題検出感度の積を該語句の予測話題度として算出し、出力する手段を含む。
本発明(請求項9)は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価プログラムであって、
上記の請求項1乃至3記載の話題性評価方法を実現するための処理をコンピュータに実行させるプログラムである。
上記のように、本発明によれば、現在の話題になっている事柄を表す語句を検出するにあたり、各語句の過去の盛り上がりの大小を現時刻での話題検出を行う際の感度として用い、過去の時点において盛り上がりの大きかった語句は、現時点での出現頻度の増加に対して特に敏感に反応させることで、季節や曜日などによって話題性が盛衰を繰り返すような周期性を持つ話題を効果的に検出することができる。
さらに、各語句が話題として盛り上がる周期よりわずかに短い期間だけ遡った過去の時点を起点として検出の感度を決定するため、話題が充分に盛り上がる直前の段階における予測的な盛り上がり検出を行うことができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における予測型話題性評価装置の構成を示す。
予測型話題性評価装置21は、話題性のある語句、即ち、現在盛り上がっている事柄を象徴する語句を検出するために使用する装置であり、時刻情報付きの多数の文書データや語句データを入力とし、各語句の出現頻度が時々刻々と変動する様子を統計的に解析し、各語句の持つ話題性の大小を数値化して出力する装置である。
特に、季節や曜日などの影響を受け、周期的な盛り上がりの盛衰を繰り返す語句については過去の盛り上がりの度合から今後の盛り上がりを予測し、早い段階での話題検出を行う装置である。
予測型話題性評価装置21には、出力結果を記録する予測話題度記録装置22が接続される。
予測型話題性評価装置21は、語句収集部210、語句データ蓄積部211、基準話題度算出部212、語句データ取得部213、基準話題度記録部214、予測話題度算出部215、話題検出感度算出部216から構成される。
語句収集部210は、時刻情報付の文書データを多数取得し、文書中の語句を抽出して語句データ蓄積部211に時刻情報と共に記録する。収集した文書から話題性のある語句を抽出することから、収集対象としてはニュース記事やインターネット上での掲示板への書き込みなど、人々が興味や関心を抱く内容を含む文書を対象とする。時刻情報には、各文書が作成された日時、文書が更新された日時、または、掲示板上への書き込みが行なわれた日時、のいずれかを使用することが望ましい。
語句収集部210は、各入力文書データに対して形態素解析処理を行い、文書を個々の品詞や句読点などの形態素に分解する。この解析結果から名詞のみを取得し、語句データ蓄積部211に格納する。このとき、必要に応じて文中で連続して出現する名詞を連結して『衆議院解散』のような複合名詞とし、それを1語句として扱うようにしてもよい。これは、『衆議院』『解散』のように比較的一般性が高い語句であっても、『衆議院解散』のように連結することによってある時期の話題を象徴する語句になり得るためである。
なお、一般的に話題を表す語句としては、『歩く』『指示する』などの動詞や『青い』『高い』などの形容詞などに比べて名詞が適しているため、以後の説明では名詞、及び文中にて連続する名詞を連結した複合名詞を総称して「語句」と呼び、以後の処理の対象とする。従って、語句データ蓄積部211に入力するデータも、語句収集部210が収集した語句(名詞または複合名詞)のみであるものとして説明する。
但し、本発明の予測型話題性評価方法は、語句とその頻度情報のみを統計的に扱って話題の判定処理を行う方法であり、語句の文法的形式には一切無関係である。従って、入力させる語句は名詞のみに限定されるものではなく、名詞以外の品詞を入力させてもよいし、『法案が通過』のように名詞とサ行変格活用動詞『通過する』の語幹『通過』が助詞“が”で結ばれた文字列や『○×大臣の辞任問題』のように助詞の“の”で結ばれた文字列であってもよい。
語句データ蓄積部211に蓄積するデータは、文書データから切り出した語句ではなく、例えば、インターネット上で公開されている検索エンジンに対して入力された検索キーワードのように、語での収集が可能なデータであってもよい。検索キーワードは、検索エンジンの多数の利用者の興味を直接的に表す情報源であり、文書と同様、現在の流行を把握するための情報源としての利用価値が大きい。語句収集部210は、検索要求があった時刻を検索キーワードの時刻情報として付与し、語句データ蓄積部211に蓄積する。
上記の検索エンジンは、不特定多数が利用するシステムであり、検索キーワードに必ず語句(名詞または複合名詞)が用いられることは期待できず、例えば『エンジンがかからない』などの文で入力される場合や『おいしい』など名詞以外の品詞が入力される場合、あるいは、誤入力、誤変換など、様々な表記が想定される。しかし、これらの文字列は、例えば、芸能人の名前や大事件に関する語句、人気テレビドラマのタイトルなど、世間一般で話題になるような語句に比べれば入力される頻度は少ない。この見地から、本発明で実施する語句の出現頻度を考慮した話題性の評価方法では、低頻度の語句の評価値は低くなるため、高い評価値を持つ語句のみを話題語として抽出する利用形態においてはこれら低頻度の語句を問題にする必要はない。
本発明の予測型話題性評価装置21は、各語句の出現頻度が時間と共にどう推移するかを調べることで話題性の大小を判別するため、データ収集を継続的に実施し、語句データ蓄積部211に現在までのあらゆる時刻情報を持つ語句が蓄積された状態を保っておく。
基準話題度算出部212は、現在時刻を起点とする過去のある期間を定め、この期間内の時刻情報を持つ語句を、後述する語句データ取得部213を介して取得する。語句データ取得部213を介して取得した各語句の出現頻度の変化を、時間を追って追跡し、各出現時刻に応じて決定する重みを乗じながら出現頻度の総和を語句別に求め、この値を基準話題度として基準話題度記録部214に記録する。
基準話題度は、現在時刻における各語句の盛り上がりの度合を数値化したものであり、値が大きいほど現在時刻での盛り上がりが大きい。
基準話題度算出部212が行なう基準話題度の算出について、より詳細に説明する。基準話題度の算出には、既存のインパクト曲線を用いる話題性評価技術を用いるものとする。
上記の既存の話題性評価技術は、本発明の予測型話題性評価装置と同様、時刻情報付の膨大な語句データ群を統計的に扱い、外部から指定する時刻における話題を象徴する語句に大きな評価値(話題度)を与えて出力するものである。
図4は、上記の既存技術において話題性のフィルタとして使用するインパクト曲線の例である。当該既存技術においては、過去に入手した情報の記憶が時間とともに薄れる様子を、短期的な忘却(S(t))と長期的な忘却(L(t))の2種類のモデルで表す。図4中のS(t)及びL(t)の各曲線は、最近(現在に近い時刻)に入手した情報ほど現在でも大きな記憶量を保ち、過去(現在から遠い時刻)に入手した情報は現在では記憶の量が少なくなってきている様子を表している。
ある語句が現在どの程度の話題性(インパクトの大きさ)を持っているかが、長期的に記憶される該語句の情報量と、直前の短期間に該語句を入手した場合に得られる情報量との対比で表されるという仮定に基づき、これらの量の差分(S(t)−L(t))を時刻tでの出現に対する重みとして用いる。
図5は、上記のインパクト曲線の詳細な図である。インパクト曲線は、正値をとる正区間と負値をとる負区間からなる。上記の既存技術では、ある語句の話題性を、全期間にわたって出現頻度を調べた時の出現量総和によって表すが、この時に図5の形状を持つフィルタを語句の出現時刻によって決まる重みとして用いる。つまり、ある1語句に注目したとき、過去(負区間)の出現量には負の重みを、現在に近い期間(正区間)での出現量には正の重みを乗じながら総出現量(話題度)を算出することにより、定常的に出現する語句は正負が打ち消されて話題度が小さくなり、出現量が最近になって増えたような語句の話題度が大きくなるという性質の評価を行なうことができる。
話題性の大小を判断する際に、1文書の中での出現頻度は重要ではない場合が多く、例えば、スポーツの試合結果を扱った新聞記事などでは、話題語となり得る選手名やチーム名などは1回しか出現しない場合も多い。従って、上記の既存技術では、注目する語句が1度でも出現する文書の数(出現文書数)を該語句の出現量として用いている。
インパクト曲線の形状を持つフィルタを利用する場合、インパクト曲線の正区間と負区間の長さによって基準話題度が変わるが、長期的な話題を抽出対象とする場合は長く、速報性が重視される短期的な話題を抽出対象とする場合は短くなるよう、利用場面に応じて設定すればよい。以後、図5のインパクト曲線の形状を持つ話題性評価のフィルタをインパクトフィルタと呼ぶものとする。
基準話題度算出部212は、インパクトフィルタを用いて次の手順で各語句の基準話題度を算出する。図5の形状を持つインパクトフィルタでは、現在時刻からみて充分に遠い過去では重みが0に近いため、語句の出現量(出現文書数)が基準話題度に及ぼす影響は極めて小さい。従って基準話題度算出部212は、現在時刻からある期間だけ遡った過去までの期間を処理対象期間として扱えばよく、全期間を処理対象とする必要はない。そこで、基本話題度算出部212は、現在時刻から過去への適当な期間を話題性評価計算の対象期間として決定する。基準話題度算出の対象となる語句は、語句データ蓄積部211に記録された語句の中で、この対象期間中の時刻情報を有する語句である。
基準話題度算出部212は、対象となる語句データの取得を語句データ取得部213に要求する。続いて、語句データ取得部213を通じて取得した語句それぞれについて基準話題度を算出し、該語句と対にして基準話題度記録部214に記録する。この結果、基準話題度記録部214には、話題性評価計算の対象期間に含まれる語句各々についての基準話題度が記録されることになる。
語句データ取得部213は、基準話題度算出部212または、後で述べる話題検出感度算出部216から要求される時刻範囲内の時刻情報を持つ語句データを語句データ蓄積部211より取得し、それぞれ基準話題度算出部212または話題検出感度算出部216に返す。
予測話題度算出部215が行なう処理は、基準話題度記録部214に記録された語句とその基準話題度を取得し、後述する話題検出感度算出部216から受け取る各語句毎の話題検出感度を基準話題度に乗じて予測話題度を算出し、出力する処理である。
まず、予測話題度算出部215は、基準話題度記録部214に記録された語句のうち、基準話題度が正値のものだけを取得する。ここで取得した語句が本発明の最終的な出力である予測話題度算出の対象となる語句である。正値以外の語句を取得しないのは処理時間削減のためである。本発明が対象とする語句は話題性を持った語句であり、インパクトフィルタを適用して算出した基準話題度が正以外の値(0または負値)をとる語句は、話題性を持った語句とは呼べないことによる。
次に、予測話題度算出部215は、話題検出感度算出部216に対し、基準話題度記録部214より取得した語句それぞれの話題検出感度の算出を要求する。
その結果得られる話題検出感度と基準話題度とを乗じた値を、本発明の予測型話題性評価装置21の出力である予測話題度として、語句と対にして予測話題度記録装置22に出力する。
話題検出感度算出部216は、予測話題度算出部215からの要求を受けた語句について、話題検出感度起点時刻を決定する。話題検出感度起点時刻は現在よりも過去のある時刻であり、各語句の出現頻度の周期的な変化に基づいて決定する。話題検出感度算出部216は、話題検出感度起点時刻における語句の盛り上がりの度合を算出し、それを元に話題検出感度を決定して予測話題度算出部215に返す。
次に、上記の話題検出感度起点時刻の決定方法について説明する。
ある語句が周期性を持って話題の盛衰を繰り返す性質を持つ語句ならば、過去のある時点において盛り上がっていた場合、1周期後の時刻にも話題として再び盛り上がる可能性が高い。例えば、2003年4月に『ゴールデンウィーク』の計画に関する話題が盛り上がっていたとすると、2004年4月にも同じく『ゴールデンウィーク』の計画に関する話題が盛り上がる可能性が高い。
話題検出感度算出部216は、予測話題度算出部215から要求のあった語句について、出現頻度の時間変化を調べ、各語句の周期を決定する。
まず、過去の充分長い期間中の語句の出現状況を、語句データ取得部213を通じて取得する。続いて過去の出現頻度の時間変化から、出現頻度が増加する大きなピークとピークの時間間隔を調べ、これを該語句の1周期とみなす。上記の『ゴールデンウィーク』の例では、2002年4月と2003年4月に出現頻度が増加するため、1周期が1年間であると決定する。
周期は、基準話題度の算出と同様の方法で、各時刻における話題度を算出し、話題度が一定値を越える時刻と時刻の差によって決定してもよい。
いずれかの方法で決定した周期に基づき、話題検出感度起点時刻を決定するが、これは「現在より、1周期より僅かに短い期間だけ遡った過去」として求める。例えば、1周期の90%だけ遡った過去を話題検出感度起点時刻とする場合、周期が1年であると判断された『ゴールデンウィーク』では1年×0.9≒11ヶ月となるため、現在時刻より11ヶ月前が話題検出感度起点時刻となる。
1周期よりもわずかに短い期間を話題検出感度起点時刻の決定に用いるのは、盛り上がりかけている話題を先取りし、これから更に盛り上がる可能性があることを予測して話題検出を行うためである。2003年4月に盛り上がっている『ゴールデンウィーク』について、11ヶ月後の2004年3月はこれから話題として盛り上がろうとする時期である。このため、「ゴールデンウィーク」のように1年周期を持つ話題を先取りして予測的に検出するためには、1周期よりもわずかに短い期間だけ過去の時点(例えば、11ヶ月前)を起点とする話題度を、話題検出感度決定に用いる必要がある。
以下は、周期が1年間であると判断された『ゴールデンウィーク』に関しての話題検出感度算出処理について説明する。但し、季節や曜日などの周期的な性質を持たないために話題検出感度算出部216が周期の算出に失敗した語句については、「周期なし」とみなす。「周期なし」の語句については以下の処理を行わず、話題検出感度算出部216は、話題検出感度として「1」を予測話題算出部215に返す。
まず、話題検出感度算出部216は、『ゴールデンウィーク』の「11ヶ月前」の話題度を算出する。これは基準話題度算出部212が基準話題度を算出したのと同様にインパクトフィルタを11ヶ月前の時刻に適用して行なう。この結果、求まる話題度に一定値を加えた値を話題検出感度とするが、一定値を加えた値がなおも1に満たない場合には、強制的に1を話題検出感度とする。
個々までの処理で決定した話題検出感度を、予測話題度算出部215に返す。
話題検出感度の算出には、必ずしも基準話題度算出時に使用したのと同じインパクトフィルタを使用する必要はなく、他の曲線で表されるフィルタを用いてもよい。
以上の処理をまとめると、本発明の予測型話題性評価装置が行なう一連の処理は、語句収集部210が時刻情報付の語句データを多数収集し、基準話題度算出部212が現在時刻を起点とする各語句の話題度(基準話題度)を算出し、話題検出感度算出部216が各語句の周期を決定し、1周期よりもわずかに短い時間だけ過去に遡った時刻(話題検出感度起点時刻)を起点とする話題度を元に話題検出感度を決定し、予測話題度算出部215が基準話題度と話題検出感度を乗ずることで予測話題度を算出、出力する処理である。
以下、図面と具体例を用いて実施例を説明する。
前述の図3に示す予測型話題性評価装置21が行なう処理の流れをフローチャートを用いて説明する。
図6は、本発明の一実施例の語句収集部が行なう処理の流れを示す図であり、語句収集部210が、外部の情報源から取得した情報を解析し、語句と時刻情報を語句データ蓄積部211に格納するまでの処理を示している。
語句収集部210は、インターネット上で公開されているニュース記事や掲示板に書き込まれた文章など、作成時刻や書き込み時刻が特定でき、かつ、新しい情報や人々の興味や関心を表す内容を含む可能性の大きい文書を収集する(ステップ601)。続いて文書に対して形態素解析処理を行い、形態素毎の分割を行う(ステップ602)。さらに、元の文書中で連続していた名詞を結合して複合名詞を作成し(ステップ603)、ステップ602で名詞と判断された文字列及びステップ603で作成された複合名詞(総称して「語句」と呼ぶ)を、元の文書の持つ時刻情報と共に語句データ蓄積部211に記録する(ステップ604)。
なお、検索エンジンに要求された検索キーワードを収集する場合には、ステップ604の処理のみを行う。このときに共に記録する時刻情報は、検索要求があった時刻情報を用いる。
図6に示した処理により、語句データ蓄積部211には、図7に示すように時刻情報が付随した語句の集合が記録された状態となる。
最新の話題に追随して検出を行うために、新しい時刻情報を持つ語句が次々と語句データ蓄積部211に記録されるよう、語句の収集は継続的に行うものとする。
図8は、本発明の一実施例の基準話題度を記録するまでの処理の流れを示す図であり、語句データ蓄積部211に記録された語句の基準話題度を算出するまでの処理の流れを示している。図9は、本発明の一実施例の基準話題度を記録してからの処理の流れを示す図であり、正の基準話題度を持つ語句の各々について話題検出感度を決定し、基準話題度を乗じて各々の予測話題度を算出・出力するまでを示す。
基準話題度算出部212は、処理が開始されると現在時刻を取得し(ステップ801)、現在話題になっている、もしくはなろうとしている事柄を象徴する語句に高い評価値(予測話題度)を与える処理を行う。
続いて、現在時刻を起点として図5のインパクトフィルタを適用する場合に対象とすべき期間を決定する(ステップ802)。本実施例では、数時間〜1日単位で盛衰を繰り返す小さな話題ではなく、数日〜1週間以上ある程度大きな話題を検出の対象とするものとして、図5における正区間が10日間であるような曲線を用いる。また、負区間には理論上無限であるが、時間を遡るにつれて値が0に限りなく近付くことを考慮し、負期間を30日間に限定した処理を行なう。
更なる高速化のため、インパクト曲線は図10のように直線で近似したものを使用してもよい。モデル化した図10のインパクト曲線でも、正区間を10日間、負区間を30日間にしている。
話題としての盛り上がりの度合を検出するためのインパクト曲線は、図5のような曲線でも、図10のようにモデル化したものでも、あるいは更に他の形状を持つ曲線であってもよく、過去の出現量と最近の出現量との対比を求める曲線であれば使用可能である。いずれの曲線をインパクトフィルタとして用いる場合でもフィルタ適用の起点となる時刻から(正区間+負区間)だけ過去までの間の期間において、重みが時刻から一意に決定できるものであればよい。以下では、図10のインパクト曲線を用いて説明する。
図10のインパクト曲線の場合、現在時刻が「2004年1月12日16時45分」であるとすると、ステップ802の処理では、「2004年1月2日16時45分」から「2004年1月12日16時45分(現在時刻)」までの10日間が処理の対象期間として決定される。正区間には出現せず、負区間にしか出現しない語句は、図10のインパクトフィルタを適用して算出した基準話題度が負値になることは自明である。予測話題度算出部215が基準話題度記録部214から語句を取得する際、負値の基準話題度を持つ語句は除外されるため、基準話題度の算出は、正区間の10日間に出現する語句に限定して行なえばよい。
基準話題度算出部212は、語句データ取得部213に上記処理対象期間中の時刻情報を持つ語句データを要求する(ステップ803)。
語句データ取得部213は、語句データ蓄積部211にアクセスし、語句の検出を行う。「2003年12月3日16時45分」から「2004年1月12日16時45分」までの対象期間中の時刻情報を持ち、かつ、未取得の語句があれば(ステップ804、Yes)、該語句と時刻情報を取得して基準話題度算出部212に返す(ステップ805)。図7において、『国公立入試』202は、「2004年1月8日16時45分」の時刻情報201を持ち、この時刻は対象期間に含まれるため取得される。
語句『国公立入試』と時刻情報「2004年1月8日16時45分」を語句データ取得部213から受け取った基準話題度算出部212は、時刻情報「2004年1月12日16時45分」と『国公立入試』の時刻情報「2004年1月8日16時45分」との差分「4日間」から重みを決定する。図10のインパクト曲線では、基準時刻を原点に重ねると『国公立入試』のもつ時刻情報「2004年1月8日16時45分」は時刻−4日となり、重みは0.6と決まる(ステップ806)。
基準話題度算出部212は、この重み0.6を『国公立入試』の基準話題度の暫定値として、基準話題度算出部212内に持つ図示しないバッファに記録しておく。このバッファの値は、『国公立入試』の基準話題度算出が終了し、基準話題度記録部214に書き出されるまで保持される。語句データ蓄積部211から対象期間中の全ての語句の取得が終わるまでステップ805〜ステップ807の処理が繰り返される(ステップ804、Yes)。その間『国公立入試』が再度現れた場合には、付随する時刻情報から決まる重みを、既にバッファに保持されている『国公立入試』の基準話題度の暫定値0.6に加算する。
対象期間中である「2004年1月2日16時45分」から「2004年1月12日16時45分(現在時刻)」までの時刻情報を持つ全ての語句の取得、重み決定、基準話題度の暫定値への加算が終了した時点(ステップ804、No)で、基準話題度算出部212内のバッファに保持されている語句の基準話題度の暫定値が、基準時刻における盛り上がりオの程度を表す基準話題度であり、これら全てを語句と共に基準話題度記録部214に出力する(ステップ808)。図11は、基準話題度記録部214に記録された語句データの例を示している。対象期間中に出現した語句『国公立入試』の基準話題度“12.8”が記録されており、他の語句についても同様に語句と基準話題度が対で記録されている。
基準話題度算出部212は、基準話題度の出力が終わると、予測話題度算出部215に現在時刻「2004年1月12日16時45分」の送出を行なう(ステップ809)。当該ステップ809の処理が、以後の処理開始のトリガを兼ねる。
予測話題度算出部215は、基準話題度算出部212から送出される現在時刻「2004年1月12日16時45分」を受け取る(ステップ901)と、基準話題度記録部214に記録された語句のうち、正の基準話題度を持つ語句データの取得を開始する(ステップ902)。取得は1語句ずつ行い、基準話題度記録部214に正の基準話題度を持つ未取得の語句がある限り(ステップ902、Yes)、次に述べるステップ903〜ステップ911の処理を繰り返す。
予測話題度算出部215が、基準話題度記録部214より未取得の1語句『国公立入試』とその基準話題度“12.8”を取得する(ステップ903)。続いて、『国公立入試』の話題検出感度の算出を話題検出感度算出部216に要求する(ステップ904)。
話題検出感度算出部216は、受け取った語句『国公立入試』の周期を検出する(ステップ905)。周期の検出は過去の充分な期間における『国公立入試』の出現状況を調べることで行なう。『国公立入試』の出現状況を、語句データ取得部213を介して語句データ蓄積部211から取得し、出現頻度のピークとピークの間隔を調べる。以下では、『国公立入試』の周期が1年であったとして説明を行なう。
続いて、周期「1年」よりわずかに短い期間を現在から遡り、話題検出感度起点時刻を決定する(ステップ906)。例えば、周期「1年」に一定値「0.9」を乗じて得られる期間「(およそ)11ヶ月」を現在時刻「2004年1月12日16時45分」から遡り、「2003年2月12日16時45分」を語句検出感度起点時刻とする。
さらに、ステップ906で求めた話題検出感度起点時刻「2004年2月12日16時45分」から過去に遡って感度検出のための処理対象期間を決定する。話題検出感度の算出にモデル化した図10のインパクトフィルタを用いればよく、対象期間は同様に正区間を10日間だけ過去に遡った期間「2003年2月2日16時45分」とする(ステップ907)。
この期間中の『国公立入試』の出現状況に対してインパクトフィルタを適用し、現在より11ヶ月前の「2003年2月12日16時45分」における話題度を算出する(ステップ908)。
当該ステップ908の処理は、図8に示した基準話題度の算出手順と同様である。即ち、話題検出感度起点時刻「2003年2月12日16時45分」と取得した時刻情報との差分から重みを決定し、『国公立入試』の話題検出感度の暫定値として加算する。全ての対象期間中の『国公立入試』の出現を調べ、検出感度算出の起点時刻「2003年2月12日16時45分」における盛り上がりの度合(話題度)を算出する。
図10のように正区間の面積と負区間の面積が等しい(全期間に渡る積分値が0である)インパクトフィルタを用いた場合、例えば、1日に1回だけ必ず出現するような定常的な語句の話題度は、正区間での出現と負区間での出現が相殺され、「0」になる。過去の出現量から決定する話題検出感度は、以後の処理で、基準時刻における話題性評価時に増幅率として用いられるものであり、基準となる値は「1」(すなわち増幅率1が基準)である。つまり、過去に盛り上がりの大きかった語句は増幅率を1より大きくして敏感な話題検出を行い、過去の盛り上がりが小さい語句は過去の盛り上がりに依存しない(増幅率1の)話題検出を行う。このため、話題検出感度算出部216は、例えば、1日に1回だけ必ず出現するような定常的な語句の話題検出感度が基準値になるよう、ステップ908で算出した話題度に一定値「1」を加える。これにより、過去の盛り上がりが全くない(話題度が0の)語句の話題検出感度を「1」にし、過去での話題度が0より大きい語句の話題検出感度が1を越えるようにする。
一方、負区間における出現が多く正区間での出現が少ない語句は話題度が負値となり、1を加えても、なお、1には満たない。本発明の予測型話題性評価方法では、例え、過去の話題度が小さい語句であっても、現在多く出現していれば話題であるとみなすために話題検出感度は1以上の値をとることが必要になる。そこで、話題度に1を加えてもなお、1に満たない場合には、話題検出感度を強制的に「1」にする。また、正区間における出現がなかった語句も話題度が0以下の値になることが自明であり、話題度に1を加えても高々1にしかならないため、強制的に「1」を与える。
『国公立入試』の「2003年2月12日16時45分」を起点として求めた話題度が「2.0」であったとすると、これに1を加えた値「3.0」が1を下回らないため、この値「3.0」がそのまま『国公立入試』の話題検出感度となる。
言い換えれば、検出感度算出の起点時刻での話題度から話題検出感度への変換は、図12のグラフに従うことになる。「2003年2月12日16時45分」を起点にして求めた話題度が仮に負値であったとしても、グラフに基づいて話題度から話題検出感度への変化を行なえば、「1」という話題検出感度が得られる。
以上で算出された『国公立入試』の話題検出感度「3.0」を予測話題度算出部215に返す(ステップ909)。
最後に予測話題算出部215は、語句『国公立入試』の基準話題度「12.8」に話題検出感度「3.0」を乗じ(ステップ910)、その計算結果「38.4」を、現在時刻「2004年1月12日16時45分」における『国公立入試』の予測話題度として予測話題度記録装置22に出力する(ステップ911)。
図13は、出力結果の例である。大きな話題を伴うニュース、季節に深く関係のある事柄などは1年の周期を以って再び話題に上ることが多く、この例では、『国公立入試』『アメリカ』などが大きな予測話題度を持っている。また、周期性を持たず、過去での出現から決まる話題検出感度が大きくない語句であっても、基準時刻における盛り上がりの度合が大きければ、大きな予測話題度を記録する。
話題検出感度は少なくとも「1」以上の値をとり、現在時刻における話題度(基準話題度)の算出を行なった結果に対する増幅率として働く。そのため、今後一層盛り上がりそうな語句に対する検出感度が高まり、予測的な話題の検出を行うことが可能となっている。
なお、本発明は、語句収集部210、基準話題度算出部212、語句データ取得部213、予測話題度算出部215、話題検出感度算出部216の処理を図6、図8、図9に示す処理に基づいてプログラムとして構築し、予測型話題性評価装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを予測型話題性評価装置として利用されるコンピュータに接続されるハードディスク装置やフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納することも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、新しい情報や最近の話題を反映しやすいデータを次々と収集し、収集データ中の語句から最近の話題となっている語句を自動的に抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における予測型話題性評価装置の構成図である。 話題性の強度を評価するインパクト曲線の例である。 話題性の強度を評価するインパクト曲線の詳細図である。 本発明の一実施例の語句収集部が行なう処理の流れを示す図である。 本発明の一実施例の語句データ蓄積部に保存された語句データの例である。 本発明の一実施例の基準話題度を記録するまでの処理の流れを示す図である。 本発明の一実施例の基準話題度を記録してからの処理の流れを示す図である。 本発明の一実施例で用いるモデル化インパクト曲線の例である。 本発明の一実施例の基準話題度記録部に保存された語句データの例である。 本発明の一実施例の過去の話題度から話題検出感度への変換方法の例である。 本発明の一実施例の予測話題度記録装置に記録された出力結果の例である。
符号の説明
21 予測側話題性評価装置
22 予測話題度記憶装置
201 時刻
202 語句
210 語句収集手段、語句収集部
211 語句データ蓄積手段、語句データ蓄積部
212 基準話題度算出手段、基準話題度算出部
213 語句データ取得部
214 基準話題度記憶手段、基準話題度記憶部
215 予測話題度算出手段、予測話題度算出部
216 話題検出感度算出手段、話題検出感度算出部

Claims (9)

  1. 時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価方法において、
    外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として該語句と共に記憶手段に記録する基準話題度算出ステップと、
    前記記憶手段に記録された前記語句及び前記語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出ステップと、
    前記語句の基準話題度と前記話題検出感度から、該語句の予測話題度を算出して記録装置に出力する予測話題度算出ステップと、
    を行なうことを特徴とする予測型話題性評価方法。
  2. 前記基準話題度算出ステップにおいて、
    現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定するステップを行う請求項1記載の予測型話題性評価方法。
  3. 前記話題検出感度算出ステップにおいて、
    語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも1を下回る場合に強制的に“1”に変換した値を話題検出感度とするステップを行なう請求項1記載の予測型話題性評価方法。
  4. 前記予測話題度算出ステップにおいて、
    各語句の前記基準話題度と前記話題検出感度の積を該語句の予測話題度として算出し、出力するステップを行なう請求項1記載の予測型話題性評価方法。
  5. 時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置であって、
    外部の情報源から取得した多数の語句を語句データ蓄積手段に格納する語句収集手段と、
    前記語句データ蓄積手段に格納されている前記語句データについて、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として語句と共に基準話題度記憶手段に記録する基準話題度算出手段と、
    前記基準話題度記憶手段に記録された前記語句及び前記語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出手段と、
    前記語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して予測話題度記録手段に出力する予測話題度算出手段と、
    を有することを特徴とする予測型話題性評価装置。
  6. 前記基準話題度算出手段は、
    現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定する手段を含む請求項5記載の予測型話題性評価装置。
  7. 前記話題検出感度算出手段は、
    語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも1を下回る場合に強制的に“1”に変換した値を話題検出感度とする手段を含む請求項5記載の予測型話題性評価装置。
  8. 前記予測話題度算出手段は、
    各語句の前記基準話題度と前記話題検出感度の積を該語句の予測話題度として算出し、出力する手段を含む請求項5記載の予測型話題性評価装置。
  9. 時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価プログラムであって、
    前記請求項1乃至3記載の話題性評価方法を実現するための処理をコンピュータに実行させることを特徴とする話題性評価プログラム。
JP2004257511A 2004-09-03 2004-09-03 予測型話題性評価装置及びプログラム Expired - Fee Related JP4424125B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004257511A JP4424125B2 (ja) 2004-09-03 2004-09-03 予測型話題性評価装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004257511A JP4424125B2 (ja) 2004-09-03 2004-09-03 予測型話題性評価装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006072840A true JP2006072840A (ja) 2006-03-16
JP4424125B2 JP4424125B2 (ja) 2010-03-03

Family

ID=36153381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004257511A Expired - Fee Related JP4424125B2 (ja) 2004-09-03 2004-09-03 予測型話題性評価装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4424125B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244264A (ja) * 2009-04-03 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> データ解析装置、データ解析プログラムおよびその記録媒体
JP5223018B1 (ja) * 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2013225244A (ja) * 2012-04-23 2013-10-31 Ntt Docomo Inc 話題抽出装置及び話題抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244264A (ja) * 2009-04-03 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> データ解析装置、データ解析プログラムおよびその記録媒体
JP2013225244A (ja) * 2012-04-23 2013-10-31 Ntt Docomo Inc 話題抽出装置及び話題抽出方法
JP5223018B1 (ja) * 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US9208503B2 (en) 2012-05-30 2015-12-08 Rakuten, Inc. Information processing apparatus, information processing method, information processing program, and recording medium

Also Published As

Publication number Publication date
JP4424125B2 (ja) 2010-03-03

Similar Documents

Publication Publication Date Title
US8554542B2 (en) Textual entailment method for linking text of an abstract to text in the main body of a document
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
CN111026965B (zh) 基于知识图谱的热点话题追溯方法及装置
Martin Morato et al. Diversity and bias in audio captioning datasets
CN107180087B (zh) 一种搜索方法及装置
Rios FuzzE: Fuzzy fairness evaluation of offensive language classifiers on African-American English
Tang A 61 million word corpus of Brazilian Portuguese film subtitles as a resource for linguistic research
JP2007219929A (ja) 感性評価システム及び方法
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2006331245A (ja) 情報検索装置、情報検索方法およびプログラム
Kessler et al. Extraction of terminology in the field of construction
Juan An effective similarity measurement for FAQ question answering system
JP4424125B2 (ja) 予測型話題性評価装置及びプログラム
CN112348279B (zh) 资讯传播趋势的预测方法、装置、电子设备和存储介质
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Wongchaisuwat Automatic keyword extraction using textrank
Alhamed et al. Using Large Language Models (LLMs) to Extract Evidence from Pre-Annotated Social Media Data
Salah et al. Generating domain-specific sentiment lexicons for opinion mining
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4206961B2 (ja) 話題抽出方法及び装置及びプログラム
JP5128328B2 (ja) 曖昧性評価装置およびプログラム
Xu et al. Exploiting paper contents and citation links to identify and characterise specialisations
JP4192760B2 (ja) カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees