JP2006072840A

JP2006072840A - 予測型話題性評価方法及び装置及びプログラム

Info

Publication number: JP2006072840A
Application number: JP2004257511A
Authority: JP
Inventors: Yoshihide Sato; 吉秀佐藤; Harumi Kawashima; 晴美川島; Tsutomu Sasaki; 努佐々木; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-09-03
Filing date: 2004-09-03
Publication date: 2006-03-16
Anticipated expiration: 2024-09-03
Also published as: JP4424125B2

Abstract

【課題】時刻情報を持った語句を解析し、何ら文法的な知識を必要とせずに話題を表す語や速報性の高い重要な語を抽出するための評価を行なう。
【解決手段】本発明は、外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として算出し、語句及び語句の基準話題度から、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出し、語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して記録装置に出力する。
【選択図】図１

Description

本発明は、予測型話題性評価方法及び装置及びプログラムに係り、ニュース記事やインターネット上の掲示板での発言、検索エンジンに要求された検索キーワード(検索クエリ)など、新しい情報や最近の話題を反映しやすいデータを次々と収集し、収集データ中の語句から最近の話題となっている語句を自動的に抽出するために、各語句の話題性の強度を評価する技術に関するものであり、特に、季節や曜日などの周期性を持った話題を、充分に盛り上がる前の段階で予測的に検出するための予測型話題性評価方法及び装置及びプログラムに関する。

新聞やテレビなどのメディアから入手できる情報は日々増加しているが、インターネットの普及による影響は特に著しく、ともすれば氾濫した情報にすぐに埋もれてしまう。こういった状況において、日々更新・追加される情報には世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。従って、新しい文書やニュース記事、掲示板での発言などを数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。

複数の文書情報から話題を表す語を抽出する技術には、文脈的な規則や言語的な知識を用いる方法がある。これは、話題が転換する際に用いられる表現を学習させた辞書を使用し、さらに転換後の話題と転換前の話題との関係を考慮して話題候補の検出を行う方法である（例えば、特許文献１参照）。
特開平６−１３９２７６号公報

しかしながら、上記従来の方法は、ドメインの知識を必要としない方法である一方、話題検出を行う前に話題転換時に使用される表現を集めた辞書を作る必要がある。

また、対象言語が変われば辞書の再構築が必要となるという問題がある。

本発明は、上記の点に鑑みなされたもので、時刻情報を持った語句を解析し、何ら文法的な知識を必要とせずに話題を表す語や速報性の高い重要な語を抽出するための予測型話題性評価方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価方法において、
外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として該語句と共に記憶手段に記録する基準話題度算出ステップと(ステップ１)、
記憶手段に記録された語句及び該語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出ステップ(ステップ２，３)と、
語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して記録装置に出力する予測話題度算出ステップ(ステップ４)と、を行なう。

また、本発明(請求項２)は、基準話題度算出ステップ（ステップ１）において、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定するステップを行う。

また、本発明(請求項３)は、話題検出感度算出ステップ(ステップ２，３)において、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも１を下回る場合に強制的に“１”に変換した値を話題検出感度とするステップを行なう。

また、本発明(請求項４)は、予測話題度算出ステップ(ステップ４)において、
各語句の基準話題度と話題検出感度の積を該語句の予測話題度として算出し、出力するステップを行なう。

図２は、本発明の原理構成図である。

本発明（請求項５）は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置であって、
外部の情報源から取得した多数の語句を語句データ蓄積手段２１１に格納する語句収集手段２１０と、
語句データ蓄積手段２１１に格納されている語句データについて、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として語句と共に基準話題度記憶手段２１４に記録する基準話題度算出手段２１２と、
基準話題度記憶手段２１４に記録された語句及び語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出手段２１６と、
語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して予測話題度記録手段２２に出力する予測話題度算出手段２１５と、を有する。

また、本発明(請求項６)は、基準話題度算出手段２１２において、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定する手段を含む。

また、本発明(請求項７)は、話題検出感度算出手段２１６において、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも１を下回る場合に強制的に“１”に変換した値を話題検出感度とする手段を含む。

また、本発明(請求項８)は、予測話題度算出手段２１５において、
各語句の基準話題度と話題検出感度の積を該語句の予測話題度として算出し、出力する手段を含む。

本発明(請求項９)は、時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価プログラムであって、
上記の請求項１乃至３記載の話題性評価方法を実現するための処理をコンピュータに実行させるプログラムである。

上記のように、本発明によれば、現在の話題になっている事柄を表す語句を検出するにあたり、各語句の過去の盛り上がりの大小を現時刻での話題検出を行う際の感度として用い、過去の時点において盛り上がりの大きかった語句は、現時点での出現頻度の増加に対して特に敏感に反応させることで、季節や曜日などによって話題性が盛衰を繰り返すような周期性を持つ話題を効果的に検出することができる。

さらに、各語句が話題として盛り上がる周期よりわずかに短い期間だけ遡った過去の時点を起点として検出の感度を決定するため、話題が充分に盛り上がる直前の段階における予測的な盛り上がり検出を行うことができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における予測型話題性評価装置の構成を示す。

予測型話題性評価装置２１は、話題性のある語句、即ち、現在盛り上がっている事柄を象徴する語句を検出するために使用する装置であり、時刻情報付きの多数の文書データや語句データを入力とし、各語句の出現頻度が時々刻々と変動する様子を統計的に解析し、各語句の持つ話題性の大小を数値化して出力する装置である。

特に、季節や曜日などの影響を受け、周期的な盛り上がりの盛衰を繰り返す語句については過去の盛り上がりの度合から今後の盛り上がりを予測し、早い段階での話題検出を行う装置である。

予測型話題性評価装置２１には、出力結果を記録する予測話題度記録装置２２が接続される。

予測型話題性評価装置２１は、語句収集部２１０、語句データ蓄積部２１１、基準話題度算出部２１２、語句データ取得部２１３、基準話題度記録部２１４、予測話題度算出部２１５、話題検出感度算出部２１６から構成される。

語句収集部２１０は、時刻情報付の文書データを多数取得し、文書中の語句を抽出して語句データ蓄積部２１１に時刻情報と共に記録する。収集した文書から話題性のある語句を抽出することから、収集対象としてはニュース記事やインターネット上での掲示板への書き込みなど、人々が興味や関心を抱く内容を含む文書を対象とする。時刻情報には、各文書が作成された日時、文書が更新された日時、または、掲示板上への書き込みが行なわれた日時、のいずれかを使用することが望ましい。

語句収集部２１０は、各入力文書データに対して形態素解析処理を行い、文書を個々の品詞や句読点などの形態素に分解する。この解析結果から名詞のみを取得し、語句データ蓄積部２１１に格納する。このとき、必要に応じて文中で連続して出現する名詞を連結して『衆議院解散』のような複合名詞とし、それを１語句として扱うようにしてもよい。これは、『衆議院』『解散』のように比較的一般性が高い語句であっても、『衆議院解散』のように連結することによってある時期の話題を象徴する語句になり得るためである。

なお、一般的に話題を表す語句としては、『歩く』『指示する』などの動詞や『青い』『高い』などの形容詞などに比べて名詞が適しているため、以後の説明では名詞、及び文中にて連続する名詞を連結した複合名詞を総称して「語句」と呼び、以後の処理の対象とする。従って、語句データ蓄積部２１１に入力するデータも、語句収集部２１０が収集した語句(名詞または複合名詞)のみであるものとして説明する。

但し、本発明の予測型話題性評価方法は、語句とその頻度情報のみを統計的に扱って話題の判定処理を行う方法であり、語句の文法的形式には一切無関係である。従って、入力させる語句は名詞のみに限定されるものではなく、名詞以外の品詞を入力させてもよいし、『法案が通過』のように名詞とサ行変格活用動詞『通過する』の語幹『通過』が助詞“が”で結ばれた文字列や『○×大臣の辞任問題』のように助詞の“の”で結ばれた文字列であってもよい。

語句データ蓄積部２１１に蓄積するデータは、文書データから切り出した語句ではなく、例えば、インターネット上で公開されている検索エンジンに対して入力された検索キーワードのように、語での収集が可能なデータであってもよい。検索キーワードは、検索エンジンの多数の利用者の興味を直接的に表す情報源であり、文書と同様、現在の流行を把握するための情報源としての利用価値が大きい。語句収集部２１０は、検索要求があった時刻を検索キーワードの時刻情報として付与し、語句データ蓄積部２１１に蓄積する。

上記の検索エンジンは、不特定多数が利用するシステムであり、検索キーワードに必ず語句(名詞または複合名詞)が用いられることは期待できず、例えば『エンジンがかからない』などの文で入力される場合や『おいしい』など名詞以外の品詞が入力される場合、あるいは、誤入力、誤変換など、様々な表記が想定される。しかし、これらの文字列は、例えば、芸能人の名前や大事件に関する語句、人気テレビドラマのタイトルなど、世間一般で話題になるような語句に比べれば入力される頻度は少ない。この見地から、本発明で実施する語句の出現頻度を考慮した話題性の評価方法では、低頻度の語句の評価値は低くなるため、高い評価値を持つ語句のみを話題語として抽出する利用形態においてはこれら低頻度の語句を問題にする必要はない。

本発明の予測型話題性評価装置２１は、各語句の出現頻度が時間と共にどう推移するかを調べることで話題性の大小を判別するため、データ収集を継続的に実施し、語句データ蓄積部２１１に現在までのあらゆる時刻情報を持つ語句が蓄積された状態を保っておく。

基準話題度算出部２１２は、現在時刻を起点とする過去のある期間を定め、この期間内の時刻情報を持つ語句を、後述する語句データ取得部２１３を介して取得する。語句データ取得部２１３を介して取得した各語句の出現頻度の変化を、時間を追って追跡し、各出現時刻に応じて決定する重みを乗じながら出現頻度の総和を語句別に求め、この値を基準話題度として基準話題度記録部２１４に記録する。

基準話題度は、現在時刻における各語句の盛り上がりの度合を数値化したものであり、値が大きいほど現在時刻での盛り上がりが大きい。

基準話題度算出部２１２が行なう基準話題度の算出について、より詳細に説明する。基準話題度の算出には、既存のインパクト曲線を用いる話題性評価技術を用いるものとする。

上記の既存の話題性評価技術は、本発明の予測型話題性評価装置と同様、時刻情報付の膨大な語句データ群を統計的に扱い、外部から指定する時刻における話題を象徴する語句に大きな評価値(話題度)を与えて出力するものである。

図４は、上記の既存技術において話題性のフィルタとして使用するインパクト曲線の例である。当該既存技術においては、過去に入手した情報の記憶が時間とともに薄れる様子を、短期的な忘却（Ｓ（ｔ））と長期的な忘却（Ｌ（ｔ））の２種類のモデルで表す。図４中のＳ（ｔ）及びＬ（ｔ）の各曲線は、最近(現在に近い時刻)に入手した情報ほど現在でも大きな記憶量を保ち、過去(現在から遠い時刻)に入手した情報は現在では記憶の量が少なくなってきている様子を表している。

ある語句が現在どの程度の話題性(インパクトの大きさ)を持っているかが、長期的に記憶される該語句の情報量と、直前の短期間に該語句を入手した場合に得られる情報量との対比で表されるという仮定に基づき、これらの量の差分（Ｓ（ｔ）−Ｌ（ｔ））を時刻ｔでの出現に対する重みとして用いる。

図５は、上記のインパクト曲線の詳細な図である。インパクト曲線は、正値をとる正区間と負値をとる負区間からなる。上記の既存技術では、ある語句の話題性を、全期間にわたって出現頻度を調べた時の出現量総和によって表すが、この時に図５の形状を持つフィルタを語句の出現時刻によって決まる重みとして用いる。つまり、ある１語句に注目したとき、過去(負区間)の出現量には負の重みを、現在に近い期間（正区間）での出現量には正の重みを乗じながら総出現量(話題度)を算出することにより、定常的に出現する語句は正負が打ち消されて話題度が小さくなり、出現量が最近になって増えたような語句の話題度が大きくなるという性質の評価を行なうことができる。

話題性の大小を判断する際に、１文書の中での出現頻度は重要ではない場合が多く、例えば、スポーツの試合結果を扱った新聞記事などでは、話題語となり得る選手名やチーム名などは１回しか出現しない場合も多い。従って、上記の既存技術では、注目する語句が１度でも出現する文書の数(出現文書数)を該語句の出現量として用いている。

インパクト曲線の形状を持つフィルタを利用する場合、インパクト曲線の正区間と負区間の長さによって基準話題度が変わるが、長期的な話題を抽出対象とする場合は長く、速報性が重視される短期的な話題を抽出対象とする場合は短くなるよう、利用場面に応じて設定すればよい。以後、図５のインパクト曲線の形状を持つ話題性評価のフィルタをインパクトフィルタと呼ぶものとする。

基準話題度算出部２１２は、インパクトフィルタを用いて次の手順で各語句の基準話題度を算出する。図５の形状を持つインパクトフィルタでは、現在時刻からみて充分に遠い過去では重みが０に近いため、語句の出現量(出現文書数)が基準話題度に及ぼす影響は極めて小さい。従って基準話題度算出部２１２は、現在時刻からある期間だけ遡った過去までの期間を処理対象期間として扱えばよく、全期間を処理対象とする必要はない。そこで、基本話題度算出部２１２は、現在時刻から過去への適当な期間を話題性評価計算の対象期間として決定する。基準話題度算出の対象となる語句は、語句データ蓄積部２１１に記録された語句の中で、この対象期間中の時刻情報を有する語句である。

基準話題度算出部２１２は、対象となる語句データの取得を語句データ取得部２１３に要求する。続いて、語句データ取得部２１３を通じて取得した語句それぞれについて基準話題度を算出し、該語句と対にして基準話題度記録部２１４に記録する。この結果、基準話題度記録部２１４には、話題性評価計算の対象期間に含まれる語句各々についての基準話題度が記録されることになる。

語句データ取得部２１３は、基準話題度算出部２１２または、後で述べる話題検出感度算出部２１６から要求される時刻範囲内の時刻情報を持つ語句データを語句データ蓄積部２１１より取得し、それぞれ基準話題度算出部２１２または話題検出感度算出部２１６に返す。

予測話題度算出部２１５が行なう処理は、基準話題度記録部２１４に記録された語句とその基準話題度を取得し、後述する話題検出感度算出部２１６から受け取る各語句毎の話題検出感度を基準話題度に乗じて予測話題度を算出し、出力する処理である。

まず、予測話題度算出部２１５は、基準話題度記録部２１４に記録された語句のうち、基準話題度が正値のものだけを取得する。ここで取得した語句が本発明の最終的な出力である予測話題度算出の対象となる語句である。正値以外の語句を取得しないのは処理時間削減のためである。本発明が対象とする語句は話題性を持った語句であり、インパクトフィルタを適用して算出した基準話題度が正以外の値（０または負値）をとる語句は、話題性を持った語句とは呼べないことによる。

次に、予測話題度算出部２１５は、話題検出感度算出部２１６に対し、基準話題度記録部２１４より取得した語句それぞれの話題検出感度の算出を要求する。

その結果得られる話題検出感度と基準話題度とを乗じた値を、本発明の予測型話題性評価装置２１の出力である予測話題度として、語句と対にして予測話題度記録装置２２に出力する。

話題検出感度算出部２１６は、予測話題度算出部２１５からの要求を受けた語句について、話題検出感度起点時刻を決定する。話題検出感度起点時刻は現在よりも過去のある時刻であり、各語句の出現頻度の周期的な変化に基づいて決定する。話題検出感度算出部２１６は、話題検出感度起点時刻における語句の盛り上がりの度合を算出し、それを元に話題検出感度を決定して予測話題度算出部２１５に返す。

次に、上記の話題検出感度起点時刻の決定方法について説明する。

ある語句が周期性を持って話題の盛衰を繰り返す性質を持つ語句ならば、過去のある時点において盛り上がっていた場合、１周期後の時刻にも話題として再び盛り上がる可能性が高い。例えば、２００３年４月に『ゴールデンウィーク』の計画に関する話題が盛り上がっていたとすると、２００４年４月にも同じく『ゴールデンウィーク』の計画に関する話題が盛り上がる可能性が高い。

話題検出感度算出部２１６は、予測話題度算出部２１５から要求のあった語句について、出現頻度の時間変化を調べ、各語句の周期を決定する。

まず、過去の充分長い期間中の語句の出現状況を、語句データ取得部２１３を通じて取得する。続いて過去の出現頻度の時間変化から、出現頻度が増加する大きなピークとピークの時間間隔を調べ、これを該語句の１周期とみなす。上記の『ゴールデンウィーク』の例では、２００２年４月と２００３年４月に出現頻度が増加するため、１周期が１年間であると決定する。

周期は、基準話題度の算出と同様の方法で、各時刻における話題度を算出し、話題度が一定値を越える時刻と時刻の差によって決定してもよい。

いずれかの方法で決定した周期に基づき、話題検出感度起点時刻を決定するが、これは「現在より、１周期より僅かに短い期間だけ遡った過去」として求める。例えば、１周期の９０％だけ遡った過去を話題検出感度起点時刻とする場合、周期が１年であると判断された『ゴールデンウィーク』では１年×０．９≒１１ヶ月となるため、現在時刻より１１ヶ月前が話題検出感度起点時刻となる。

１周期よりもわずかに短い期間を話題検出感度起点時刻の決定に用いるのは、盛り上がりかけている話題を先取りし、これから更に盛り上がる可能性があることを予測して話題検出を行うためである。２００３年４月に盛り上がっている『ゴールデンウィーク』について、１１ヶ月後の２００４年３月はこれから話題として盛り上がろうとする時期である。このため、「ゴールデンウィーク」のように１年周期を持つ話題を先取りして予測的に検出するためには、１周期よりもわずかに短い期間だけ過去の時点(例えば、１１ヶ月前)を起点とする話題度を、話題検出感度決定に用いる必要がある。

以下は、周期が１年間であると判断された『ゴールデンウィーク』に関しての話題検出感度算出処理について説明する。但し、季節や曜日などの周期的な性質を持たないために話題検出感度算出部２１６が周期の算出に失敗した語句については、「周期なし」とみなす。「周期なし」の語句については以下の処理を行わず、話題検出感度算出部２１６は、話題検出感度として「１」を予測話題算出部２１５に返す。

まず、話題検出感度算出部２１６は、『ゴールデンウィーク』の「１１ヶ月前」の話題度を算出する。これは基準話題度算出部２１２が基準話題度を算出したのと同様にインパクトフィルタを１１ヶ月前の時刻に適用して行なう。この結果、求まる話題度に一定値を加えた値を話題検出感度とするが、一定値を加えた値がなおも１に満たない場合には、強制的に１を話題検出感度とする。

個々までの処理で決定した話題検出感度を、予測話題度算出部２１５に返す。

話題検出感度の算出には、必ずしも基準話題度算出時に使用したのと同じインパクトフィルタを使用する必要はなく、他の曲線で表されるフィルタを用いてもよい。

以上の処理をまとめると、本発明の予測型話題性評価装置が行なう一連の処理は、語句収集部２１０が時刻情報付の語句データを多数収集し、基準話題度算出部２１２が現在時刻を起点とする各語句の話題度(基準話題度)を算出し、話題検出感度算出部２１６が各語句の周期を決定し、１周期よりもわずかに短い時間だけ過去に遡った時刻(話題検出感度起点時刻)を起点とする話題度を元に話題検出感度を決定し、予測話題度算出部２１５が基準話題度と話題検出感度を乗ずることで予測話題度を算出、出力する処理である。

以下、図面と具体例を用いて実施例を説明する。

前述の図３に示す予測型話題性評価装置２１が行なう処理の流れをフローチャートを用いて説明する。

図６は、本発明の一実施例の語句収集部が行なう処理の流れを示す図であり、語句収集部２１０が、外部の情報源から取得した情報を解析し、語句と時刻情報を語句データ蓄積部２１１に格納するまでの処理を示している。

語句収集部２１０は、インターネット上で公開されているニュース記事や掲示板に書き込まれた文章など、作成時刻や書き込み時刻が特定でき、かつ、新しい情報や人々の興味や関心を表す内容を含む可能性の大きい文書を収集する(ステップ６０１)。続いて文書に対して形態素解析処理を行い、形態素毎の分割を行う(ステップ６０２)。さらに、元の文書中で連続していた名詞を結合して複合名詞を作成し(ステップ６０３)、ステップ６０２で名詞と判断された文字列及びステップ６０３で作成された複合名詞(総称して「語句」と呼ぶ)を、元の文書の持つ時刻情報と共に語句データ蓄積部２１１に記録する（ステップ６０４）。

なお、検索エンジンに要求された検索キーワードを収集する場合には、ステップ６０４の処理のみを行う。このときに共に記録する時刻情報は、検索要求があった時刻情報を用いる。

図６に示した処理により、語句データ蓄積部２１１には、図７に示すように時刻情報が付随した語句の集合が記録された状態となる。

最新の話題に追随して検出を行うために、新しい時刻情報を持つ語句が次々と語句データ蓄積部２１１に記録されるよう、語句の収集は継続的に行うものとする。

図８は、本発明の一実施例の基準話題度を記録するまでの処理の流れを示す図であり、語句データ蓄積部２１１に記録された語句の基準話題度を算出するまでの処理の流れを示している。図９は、本発明の一実施例の基準話題度を記録してからの処理の流れを示す図であり、正の基準話題度を持つ語句の各々について話題検出感度を決定し、基準話題度を乗じて各々の予測話題度を算出・出力するまでを示す。

基準話題度算出部２１２は、処理が開始されると現在時刻を取得し(ステップ８０１)、現在話題になっている、もしくはなろうとしている事柄を象徴する語句に高い評価値（予測話題度）を与える処理を行う。

続いて、現在時刻を起点として図５のインパクトフィルタを適用する場合に対象とすべき期間を決定する(ステップ８０２)。本実施例では、数時間〜1日単位で盛衰を繰り返す小さな話題ではなく、数日〜1週間以上ある程度大きな話題を検出の対象とするものとして、図５における正区間が１０日間であるような曲線を用いる。また、負区間には理論上無限であるが、時間を遡るにつれて値が０に限りなく近付くことを考慮し、負期間を３０日間に限定した処理を行なう。

更なる高速化のため、インパクト曲線は図１０のように直線で近似したものを使用してもよい。モデル化した図１０のインパクト曲線でも、正区間を１０日間、負区間を３０日間にしている。

話題としての盛り上がりの度合を検出するためのインパクト曲線は、図５のような曲線でも、図１０のようにモデル化したものでも、あるいは更に他の形状を持つ曲線であってもよく、過去の出現量と最近の出現量との対比を求める曲線であれば使用可能である。いずれの曲線をインパクトフィルタとして用いる場合でもフィルタ適用の起点となる時刻から(正区間＋負区間)だけ過去までの間の期間において、重みが時刻から一意に決定できるものであればよい。以下では、図１０のインパクト曲線を用いて説明する。

図１０のインパクト曲線の場合、現在時刻が「２００４年1月１２日１６時４５分」であるとすると、ステップ８０２の処理では、「２００４年１月２日１６時４５分」から「２００４年1月１２日１６時４５分(現在時刻)」までの１０日間が処理の対象期間として決定される。正区間には出現せず、負区間にしか出現しない語句は、図１０のインパクトフィルタを適用して算出した基準話題度が負値になることは自明である。予測話題度算出部２１５が基準話題度記録部２１４から語句を取得する際、負値の基準話題度を持つ語句は除外されるため、基準話題度の算出は、正区間の１０日間に出現する語句に限定して行なえばよい。

基準話題度算出部２１２は、語句データ取得部２１３に上記処理対象期間中の時刻情報を持つ語句データを要求する(ステップ８０３)。

語句データ取得部２１３は、語句データ蓄積部２１１にアクセスし、語句の検出を行う。「２００３年１２月３日１６時４５分」から「２００４年１月１２日１６時４５分」までの対象期間中の時刻情報を持ち、かつ、未取得の語句があれば（ステップ８０４、Yes）、該語句と時刻情報を取得して基準話題度算出部２１２に返す(ステップ８０５)。図７において、『国公立入試』２０２は、「２００４年１月８日１６時４５分」の時刻情報２０１を持ち、この時刻は対象期間に含まれるため取得される。

語句『国公立入試』と時刻情報「２００４年１月８日１６時４５分」を語句データ取得部２１３から受け取った基準話題度算出部２１２は、時刻情報「２００４年１月１２日１６時４５分」と『国公立入試』の時刻情報「２００４年１月８日１６時４５分」との差分「４日間」から重みを決定する。図１０のインパクト曲線では、基準時刻を原点に重ねると『国公立入試』のもつ時刻情報「２００４年１月８日１６時４５分」は時刻−４日となり、重みは０．６と決まる(ステップ８０６)。

基準話題度算出部２１２は、この重み０．６を『国公立入試』の基準話題度の暫定値として、基準話題度算出部２１２内に持つ図示しないバッファに記録しておく。このバッファの値は、『国公立入試』の基準話題度算出が終了し、基準話題度記録部２１４に書き出されるまで保持される。語句データ蓄積部２１１から対象期間中の全ての語句の取得が終わるまでステップ８０５〜ステップ８０７の処理が繰り返される（ステップ８０４、Yes）。その間『国公立入試』が再度現れた場合には、付随する時刻情報から決まる重みを、既にバッファに保持されている『国公立入試』の基準話題度の暫定値０．６に加算する。

対象期間中である「２００４年１月２日１６時４５分」から「２００４年１月１２日１６時４５分(現在時刻)」までの時刻情報を持つ全ての語句の取得、重み決定、基準話題度の暫定値への加算が終了した時点(ステップ８０４、No)で、基準話題度算出部２１２内のバッファに保持されている語句の基準話題度の暫定値が、基準時刻における盛り上がりオの程度を表す基準話題度であり、これら全てを語句と共に基準話題度記録部２１４に出力する(ステップ８０８)。図１１は、基準話題度記録部２１４に記録された語句データの例を示している。対象期間中に出現した語句『国公立入試』の基準話題度“１２．８”が記録されており、他の語句についても同様に語句と基準話題度が対で記録されている。

基準話題度算出部２１２は、基準話題度の出力が終わると、予測話題度算出部２１５に現在時刻「２００４年１月１２日１６時４５分」の送出を行なう(ステップ８０９)。当該ステップ８０９の処理が、以後の処理開始のトリガを兼ねる。

予測話題度算出部２１５は、基準話題度算出部２１２から送出される現在時刻「２００４年１月１２日１６時４５分」を受け取る(ステップ９０１)と、基準話題度記録部２１４に記録された語句のうち、正の基準話題度を持つ語句データの取得を開始する（ステップ９０２）。取得は１語句ずつ行い、基準話題度記録部２１４に正の基準話題度を持つ未取得の語句がある限り(ステップ９０２、Yes)、次に述べるステップ９０３〜ステップ９１１の処理を繰り返す。

予測話題度算出部２１５が、基準話題度記録部２１４より未取得の１語句『国公立入試』とその基準話題度“１２．８”を取得する(ステップ９０３)。続いて、『国公立入試』の話題検出感度の算出を話題検出感度算出部２１６に要求する(ステップ９０４)。

話題検出感度算出部２１６は、受け取った語句『国公立入試』の周期を検出する(ステップ９０５)。周期の検出は過去の充分な期間における『国公立入試』の出現状況を調べることで行なう。『国公立入試』の出現状況を、語句データ取得部２１３を介して語句データ蓄積部２１１から取得し、出現頻度のピークとピークの間隔を調べる。以下では、『国公立入試』の周期が１年であったとして説明を行なう。

続いて、周期「１年」よりわずかに短い期間を現在から遡り、話題検出感度起点時刻を決定する（ステップ９０６）。例えば、周期「１年」に一定値「０．９」を乗じて得られる期間「（およそ）１１ヶ月」を現在時刻「２００４年１月１２日１６時４５分」から遡り、「２００３年２月１２日１６時４５分」を語句検出感度起点時刻とする。

さらに、ステップ９０６で求めた話題検出感度起点時刻「２００４年２月１２日１６時４５分」から過去に遡って感度検出のための処理対象期間を決定する。話題検出感度の算出にモデル化した図１０のインパクトフィルタを用いればよく、対象期間は同様に正区間を１０日間だけ過去に遡った期間「２００３年２月２日１６時４５分」とする(ステップ９０７)。

この期間中の『国公立入試』の出現状況に対してインパクトフィルタを適用し、現在より１１ヶ月前の「２００３年２月１２日１６時４５分」における話題度を算出する（ステップ９０８）。

当該ステップ９０８の処理は、図８に示した基準話題度の算出手順と同様である。即ち、話題検出感度起点時刻「２００３年２月１２日１６時４５分」と取得した時刻情報との差分から重みを決定し、『国公立入試』の話題検出感度の暫定値として加算する。全ての対象期間中の『国公立入試』の出現を調べ、検出感度算出の起点時刻「２００３年２月１２日１６時４５分」における盛り上がりの度合(話題度)を算出する。

図１０のように正区間の面積と負区間の面積が等しい(全期間に渡る積分値が０である)インパクトフィルタを用いた場合、例えば、１日に１回だけ必ず出現するような定常的な語句の話題度は、正区間での出現と負区間での出現が相殺され、「０」になる。過去の出現量から決定する話題検出感度は、以後の処理で、基準時刻における話題性評価時に増幅率として用いられるものであり、基準となる値は「１」（すなわち増幅率１が基準）である。つまり、過去に盛り上がりの大きかった語句は増幅率を１より大きくして敏感な話題検出を行い、過去の盛り上がりが小さい語句は過去の盛り上がりに依存しない（増幅率１の）話題検出を行う。このため、話題検出感度算出部２１６は、例えば、１日に１回だけ必ず出現するような定常的な語句の話題検出感度が基準値になるよう、ステップ９０８で算出した話題度に一定値「１」を加える。これにより、過去の盛り上がりが全くない(話題度が０の)語句の話題検出感度を「１」にし、過去での話題度が０より大きい語句の話題検出感度が１を越えるようにする。

一方、負区間における出現が多く正区間での出現が少ない語句は話題度が負値となり、１を加えても、なお、１には満たない。本発明の予測型話題性評価方法では、例え、過去の話題度が小さい語句であっても、現在多く出現していれば話題であるとみなすために話題検出感度は１以上の値をとることが必要になる。そこで、話題度に１を加えてもなお、１に満たない場合には、話題検出感度を強制的に「１」にする。また、正区間における出現がなかった語句も話題度が０以下の値になることが自明であり、話題度に１を加えても高々１にしかならないため、強制的に「１」を与える。

『国公立入試』の「２００３年２月１２日１６時４５分」を起点として求めた話題度が「２．０」であったとすると、これに１を加えた値「３．０」が１を下回らないため、この値「３．０」がそのまま『国公立入試』の話題検出感度となる。

言い換えれば、検出感度算出の起点時刻での話題度から話題検出感度への変換は、図１２のグラフに従うことになる。「２００３年２月１２日１６時４５分」を起点にして求めた話題度が仮に負値であったとしても、グラフに基づいて話題度から話題検出感度への変化を行なえば、「１」という話題検出感度が得られる。

以上で算出された『国公立入試』の話題検出感度「３．０」を予測話題度算出部２１５に返す（ステップ９０９）。

最後に予測話題算出部２１５は、語句『国公立入試』の基準話題度「１２．８」に話題検出感度「３．０」を乗じ(ステップ９１０)、その計算結果「３８．４」を、現在時刻「２００４年１月１２日１６時４５分」における『国公立入試』の予測話題度として予測話題度記録装置２２に出力する(ステップ９１１)。

図１３は、出力結果の例である。大きな話題を伴うニュース、季節に深く関係のある事柄などは１年の周期を以って再び話題に上ることが多く、この例では、『国公立入試』『アメリカ』などが大きな予測話題度を持っている。また、周期性を持たず、過去での出現から決まる話題検出感度が大きくない語句であっても、基準時刻における盛り上がりの度合が大きければ、大きな予測話題度を記録する。

話題検出感度は少なくとも「１」以上の値をとり、現在時刻における話題度(基準話題度)の算出を行なった結果に対する増幅率として働く。そのため、今後一層盛り上がりそうな語句に対する検出感度が高まり、予測的な話題の検出を行うことが可能となっている。

なお、本発明は、語句収集部２１０、基準話題度算出部２１２、語句データ取得部２１３、予測話題度算出部２１５、話題検出感度算出部２１６の処理を図６、図８、図９に示す処理に基づいてプログラムとして構築し、予測型話題性評価装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを予測型話題性評価装置として利用されるコンピュータに接続されるハードディスク装置やフレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納することも可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、新しい情報や最近の話題を反映しやすいデータを次々と収集し、収集データ中の語句から最近の話題となっている語句を自動的に抽出する技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における予測型話題性評価装置の構成図である。話題性の強度を評価するインパクト曲線の例である。話題性の強度を評価するインパクト曲線の詳細図である。本発明の一実施例の語句収集部が行なう処理の流れを示す図である。本発明の一実施例の語句データ蓄積部に保存された語句データの例である。本発明の一実施例の基準話題度を記録するまでの処理の流れを示す図である。本発明の一実施例の基準話題度を記録してからの処理の流れを示す図である。本発明の一実施例で用いるモデル化インパクト曲線の例である。本発明の一実施例の基準話題度記録部に保存された語句データの例である。本発明の一実施例の過去の話題度から話題検出感度への変換方法の例である。本発明の一実施例の予測話題度記録装置に記録された出力結果の例である。

符号の説明

２１予測側話題性評価装置
２２予測話題度記憶装置
２０１時刻
２０２語句
２１０語句収集手段、語句収集部
２１１語句データ蓄積手段、語句データ蓄積部
２１２基準話題度算出手段、基準話題度算出部
２１３語句データ取得部
２１４基準話題度記憶手段、基準話題度記憶部
２１５予測話題度算出手段、予測話題度算出部
２１６話題検出感度算出手段、話題検出感度算出部

Claims

時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価方法において、
外部の情報源から取得した多数の語句について、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として該語句と共に記憶手段に記録する基準話題度算出ステップと、
前記記憶手段に記録された前記語句及び前記語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出ステップと、
前記語句の基準話題度と前記話題検出感度から、該語句の予測話題度を算出して記録装置に出力する予測話題度算出ステップと、
を行なうことを特徴とする予測型話題性評価方法。
前記基準話題度算出ステップにおいて、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定するステップを行う請求項１記載の予測型話題性評価方法。
前記話題検出感度算出ステップにおいて、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも１を下回る場合に強制的に“１”に変換した値を話題検出感度とするステップを行なう請求項１記載の予測型話題性評価方法。
前記予測話題度算出ステップにおいて、
各語句の前記基準話題度と前記話題検出感度の積を該語句の予測話題度として算出し、出力するステップを行なう請求項１記載の予測型話題性評価方法。
時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置であって、
外部の情報源から取得した多数の語句を語句データ蓄積手段に格納する語句収集手段と、
前記語句データ蓄積手段に格納されている前記語句データについて、現在時刻における話題性の強度を算出した評価値を、該語句の基準話題度として語句と共に基準話題度記憶手段に記録する基準話題度算出手段と、
前記基準話題度記憶手段に記録された前記語句及び前記語句の基準話題度を取得し、該語句の過去の出現状況から話題周期性を検出し、該話題周期より短い期間だけ現在時刻より遡った時刻における該語句の話題の強度に基づいて、話題検出感度を算出する話題検出感度算出手段と、
前記語句の基準話題度と話題検出感度から、該語句の予測話題度を算出して予測話題度記録手段に出力する予測話題度算出手段と、
を有することを特徴とする予測型話題性評価装置。
前記基準話題度算出手段は、
現在時刻を起点とする過去一定期間の語句の出現頻度と、さらにそれより過去の一定期間の該語句の出現頻度との対比から現在時刻における該語句の話題性の強度を決定する手段を含む請求項５記載の予測型話題性評価装置。
前記話題検出感度算出手段は、
語句の周期より短い時間だけ現在時刻より過去に遡った時刻を起点とし、該起点時刻から過去一定期間の語句の出現頻度と、更にそれより過去一定期間の該語句の出現頻度との対比から該起点における該語句の話題性の強度を算出し、該強度に一定値を加え、なおも１を下回る場合に強制的に“１”に変換した値を話題検出感度とする手段を含む請求項５記載の予測型話題性評価装置。
前記予測話題度算出手段は、
各語句の前記基準話題度と前記話題検出感度の積を該語句の予測話題度として算出し、出力する手段を含む請求項５記載の予測型話題性評価装置。
時刻情報付の多数の語句データについて、時間の経過と共に変動する各語句の出現頻度を統計的に解析し、各語句が最近話題になっている事柄をどの程度表す語句であるかを表す評価値を各々の語句について算出して、記憶手段に出力する話題性評価装置における話題性評価プログラムであって、
前記請求項１乃至３記載の話題性評価方法を実現するための処理をコンピュータに実行させることを特徴とする話題性評価プログラム。