JP4501569B2

JP4501569B2 - 話題度算出装置及びプログラム

Info

Publication number: JP4501569B2
Application number: JP2004207592A
Authority: JP
Inventors: 裕一郎関口; 晴美川島; 吉秀佐藤; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-07-14
Filing date: 2004-07-14
Publication date: 2010-07-14
Anticipated expiration: 2024-07-14
Also published as: JP2006031272A

Description

本発明は、話題度算出装置及びプログラムに係り、特に、分野別に分類されたニュース記事などの新しい情報を含む文書を次々と入手し得る状況において、使用者が入力した分野と関連性の近い分野における最近の話題となっている語句を自動的に抽出するための話題度を求めるための話題度算出装置及びプログラムに関する。

インターネットを始めとした情報メディアの発達により、メディアから入手できる情報は数量の面でも内容の面でも日々拡大している。このような状況の中、最近になって更新、追加された情報は現在の流行や関心事といった人々の話題となる情報を含んでいる可能性が高い。従って、作成時刻の新しい文書を数多く集めて解析することにより、最近のトレンドやタイムリーな出来事を把握することができる。

一方、大量の文書を解析して得られた情報は、幅広い分野における情報を含んでいるため、使用者がある分野においてのみ注目されている話題語を、その他膨大な関心のない分野の話題の中から見つけ出すことは難しくなっている。

複数の文書情報の中から、検索語と関連のある語句を時間的な出現頻度を考慮して抽出する技術は複数提案されている。

従来の第1の技術として、検索語と関連性の強い語句を、検索時間範囲内での出現頻度を考慮して抽出する技術がある。これは、ユーザから検索語と検索時間範囲との入力を受け付け、その検索語に基づいてＷｅｂ文書を検索して得られた文書群を蓄積し、当該文書群に出現する全ての単語について該検索語と同時に出現する確率に基づいて評価値を付け、各単語について時間範囲内での評価値と範囲外での評価値との差を単語の話題度とし、その値が高いものから注目話題度として抽出するものである（例えば、非特許文献1参照）。

また、従来の第２の技術として、検索語句もしくは文書を入力として受け付け、該検索語句もしくは、文書の所属する検索分野を算出し、予め時間的な変化に注目して解析された文書群から、検索分野と関連性の高い文書を複数集め、それぞれの文書の特徴となる話題語を抽出するものである（例えば、特許文献1参照）。
砂山渡、谷内田正彦（大阪大学）"時間情報を考慮したＷｅｂからの注目キーワードの抽出による創造活動支援" 特開２０００−２４２６５２「情報潮流検索方法、装置、及び情報潮流検索プログラムを記録した記録媒体」

しかしながら、上記従来の第1の技術では、使用者が入力した語句と同じ文書内に現れる語句を関連性の高い語句として蓄積文書データから抽出する。その為、あらゆる文章で用いられる語句も関連性の高い語句として含まれる。このような一般的に用いられる語句は特定の分野における話題に相応しくなく、使用者の関心のある分野においてのみ注目されている語句の抽出には適していない。

また、従来の第２の技術では、使用者が入力した語句と類似した分野の文書を取得し、その文書の特徴となる話題語を抽出するため、上記の従来の第1の技術と同様に、一般的に用いられる語句の重要度を下げる処理は行なわれていない。使用者の関心のある分野においてのみ注目されている語句の抽出には適していない。

本発明は、上記の点に鑑みなされたもので、次々と入力される文書データから、入力された検索語句と関連する分野でのみ頻繁に出現する語句を、検索語句に関連する話題語として高い評価をつけるための話題度を算出する話題度算出装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出方法において、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定ステップ（ステップ１）と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集ステップ（ステップ２）と、
形態素解析し得られた語句それぞれについて、該語句のカテゴリ分類情報が示す適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出ステップ（ステップ３）と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較し、検索カテゴリ情報と関連性を持つ語句データを語句データベースから抽出する検索分野語句抽出ステップ（ステップ５）と、
検索分野語句抽出ステップで抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出ステップ（ステップ７）と、
話題度算出ステップ（ステップ７）で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計ステップ（ステップ８）と、を行う。

また、本発明は、検索分野語句抽出ステップ（ステップ５）の前に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定ステップ（ステップ４）を更に行う。

また、本発明は、話題度算出ステップ（ステップ７）の前に、
外部から時刻情報の入力を受け付け、該時刻から一定時間遡った時刻までを集計時刻の範囲とし、該時刻範囲における時間重み付けを行う関数を設定する時間重み関数決定ステップ（ステップ６）を更に行う。

図２は、本発明の原理構成図である。

本発明（請求項１）は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出装置であって、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段１１０と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段１２０と、
形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベース１９０に蓄積する語句特徴度算出手段１３０と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを語句データベース１９０から抽出する検索分野語句抽出手段１５０と、
検索分野語句抽出手段１５０で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段１７０と、
話題度算出手段１７０で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段１８０と、を有する。

また、本発明（請求項２）は、検索分野語句抽出手段の前段に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段１４０を更に有する。

本発明（請求項３）は、請求項１または２に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラムである。

上記のように、本発明より得られた話題度を用いることにより、ニュース記事や日記など時事性の高い文書を解析して得られた話題を表す語句から、利用者の入力により指定されたカテゴリ及び時刻について、指定カテゴリに関連する語句で、指定時刻において頻繁に使われるようになった語句を自動的に抽出することが可能となる。特に、抽出する語句が指定のカテゴリにおいてのみ出現しているのか、あらゆるカテゴリにおいて出現しているのかを評価し、指定のカテゴリにおいてのみ頻繁に用いられる語句を抽出するため、関心のないカテゴリの話題やあらゆるカテゴリで扱われる話題に目を通すことなく、関心を持っているカテゴリでの最近の注目点や話題を知ることが可能となる。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図３は、本発明の第1の実施の形態における話題算出装置の構成を示す。

同図に示す話題度算出装置１００は、入力となる文書データを蓄積している文書データベース１０と、本装置１００の出力となる語句とその話題度を記録する話題出力記録装置２０、キーボード等の検索語句や時刻を入力する手段（図示せず）に接続されている。

話題度算出装置１００は、文書カテゴリ決定部１１０、文書内語句収集部１２０、語句特徴度算出部１３０、検索文書決定部１４０、検索分野語句抽出部１５０、時間重み関数決定部１６０、話題度算出部１７０、話題度集計部１８０、及び語句データベース１９０から構成される。

文書データベース１０には、作成時刻情報が付加された文書情報が蓄積されている。例えば、Ｗｅｂ上に公開されている文書に“2004 4/25 13:55”といったような作成時刻を付加し、次々と入力して記録することにより当該データベースを構築することができる。また、インターネット上のニュースサイトや、日記サイトなど、新しい情報を含む文書が逐次更新される情報源から文書を入力するのが望ましい。この場合には、サイト内の文書の作成時刻だけでなく、更新情報を監視し、更新された時刻を文書作成時刻と見做し、新しく作成された文書と同様に収集してもよい。

文書カテゴリ決定部１１０は、文書データベース１０に蓄積されている文書を1文書ずつ読み出し、一般的な多重カテゴリ抽出技術（例えば、「多重トピックテキストの確立モデル・パラメトリック混合モデル」上田、斉藤（ＮＴＴ））による解析を行い、
『グルメ60％政治10％スポーツ10％芸能20％』
といったカテゴリ分類情報を算出し、得られたカテゴリ分類情報を文書に付与し、すでに文書に付与されている文書作成時刻と共に文書内語句収集部１２０の解析済文書データバッファに記録する。ここでいう、多重カテゴリ抽出技術は、入力された文書データについて、予め設定された複数のカテゴリ一つ一つに対して、それぞれのカテゴリに何％の適合度を示すかを返すものであり、全てのカテゴリの適合度を合計すると１００％になるようになっている。

例えば、設計時にグルメ・政治・スポーツ・芸能といったカテゴリ分類を設定していた場合の解析済文書データバッファへの出力データ例を図４に示す。図４に示すように、解析済文書データバッファには、文書名、作成時刻、カテゴリ分類情報が格納される。

文書内語句収集部１２０は、解析済文書データバッファに蓄積されている文書を1文書ずつ読み出し、形態素解析により品詞毎に分割する。例えば、「おいしいチョコドーナツ」という文書を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで選出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞を総称して『語句』と呼ぶ。このようにして得られた語句それぞれについて、解析前に該語句が含まれていた文書の時刻とカテゴリの情報を付加し、
『ドーナツ 2004 4/25 13:55 グルメ60％政治10％スポーツ10％芸能20％』
といった形式の語句データとし、語句特徴度算出部１３０の語句データバッファに蓄積する。語句データバッファへの出力データを図５に示す。図５に示すように、語句データバッファには、語句、作成時刻、カテゴリが蓄積される。

語句特徴算出部１３０は、一定の処理時間毎に、文書内語句収集部１２０の語句データバッファに蓄積されている語句データから同一の語句を持つ語句データ群を抽出し話題度を算出する。求められた話題度情報は、各語句データに付加され、語句情報と作成時刻と共に、語句データベース１９０に蓄積される。語句データベース１９０のデータ例を図６に示す。

語句特徴度算出部１３０の動作を具体的に説明する。

図７は、本発明の第1の実施の形態における語句特徴度算出部の処理のフローチャートである。

語句特徴度算出部１３０は、処理が開始されると、文書内語句収集部１２０の語句データバッファに蓄積されたデータから、ある同一の語句ｗを持つ語句データ群のカテゴリ情報を抽出する（ステップ３０１）。

次に、得られた語句データ群のカテゴリ情報を平均し、ｗのカテゴリの平均値を算出する（ステップ３０２）。つまり、
『ドーナツ 2004 4/25 13:55 グルメ60％政治10％スポーツ10％芸能20％』
『ドーナツ 2004 4/25 13:58 グルメ80％政治0％スポーツ10％芸能10％』
といったように、同じ語句だが時刻情報もしくはカテゴリ情報が異なる語句データが複数ある場合に、それらを一まとめにし、
『ドーナツグルメ70％政治5％スポーツ10％芸能15％』
といった語句毎にカテゴリ情報の平均化した値を抽出する。

得られた語句ｗのｎ個のカテゴリ情報の平均値Ｃ_{1_ave}（ｗ）〜C_{n_ave}(w)を用いて、各語句ｗの特徴度Feat(ｗ)を、

の式で求める（ステップ３０３）。『ドーナツグルメ70％政治5％スポーツ10％芸能15％』の場合においては、
特徴度（ドーナツ）＝（70−25）²＋（5−25）²＋（10−25）²＋（15−25）²＝2750
となる。

このようにして得られた語句ｗの特徴度を、先に抽出したｗを含む各語句データに付与し、語句データベース１９０に蓄積する（ステップ３０４）。

文書内語句収集部１２０の語句データバッファに語句データが残っている場合には、ステップ３０１に戻る（ステップ３０５）。

語句データバッファに語句データが残っていない場合には、予め定められた時間待機してから、ステップ３０１に戻る（ステップ３０７）。

検索分野決定部１４０は、外部から検索語句ｓを受け付け、文書データベース１０から該検索語句を含む文書を作成時刻が新しい順に一定数m個取得し、検索文書群ｄ_１〜ｄ_mとする。この取得する文書の数ｍは外部から入力として受け付けてもよいし、予めシステムの定数として設定しておいてもよい。

得られた検索文書群の各文書について、文書カテゴリ決定部１１０と同様に、多重カテゴリ抽出技術による解析を行い、得られたカテゴリ情報を検索文書群全てについて平均化して検索カテゴリ情報Ｃ_１（ｓ）〜Ｃ_ｎ（ｓ）とし、検索分野語句抽出部１５０に出力する。例えば、検索語句に「ドーナツ」と入力した際の検索カテゴリ情報は、
『グルメ67％政治7％スポーツ11％芸能15％』
という形になる。

検索分野語句抽出部１５０は、検索分野決定部１４０から受け取る検索カテゴリ情報を取得し、当該検索カテゴリ情報と類似するカテゴリ情報を持つ語句データを、語句データベース１９０を検索することにより抽出し、抽出した語句データを話題度算出部１７０の分野語句データバッファ（図示せず）に蓄積する。

以下に、検索分野語句抽出部１５０の具体的な処理を説明する。

図８は、本発明の第1の実施の形態における検索分野語句抽出部の処理のフローチャートである。

検索分野語句抽出部１５０は、まず、検索分野決定部１４０から検索カテゴリ情報を受け取る（ステップ５０１）。また、予め設定されているカテゴリ距離比較の閾値を取得する（ステップ５０２）。

次に、語句データベース１９０に未取得データがあるかを確認し（ステップ５０３）、未取得データがあった場合には、語句データを語句データベース１９０から１つ読み込む（ステップ５０４）。

ステップ５０１で取得した検索カテゴリ情報Ｃ_１（ｓ）〜Ｃ_ｎ（ｓ）をベクトルの各要素としたカテゴリベクトル値（Ｃ_１（ｓ），Ｃ_２（ｓ），…，Ｃ_ｎ（ｓ））とし扱い、ステップ５０４で取得した語句データのカテゴリ情報も同様にカテゴリベクトル値（Ｃ_１（ｗ），Ｃ_２（ｗ），…，Ｃ_ｎ（ｗ））として扱い、

の式で検索カテゴリ情報のベクトル値と語句データのベクトル値との距離を算出する（ステップ５０５）。

ステップ５０５で得られた距離の値がステップ５０２で取得した閾値よりも小さいかを比較する（ステップ５０６）。小さかった場合は、語句情報と作成時刻情報と特徴度情報とによる検索分野に関連する語句データとして、話題度算出部１７０の分野語句データバッファ（図示せず）に記録する（ステップ５０７）。

ステップ５０４からステップ５０７の処理を、語句データベース１９０から未取得データがなくなるまで繰り返し、語句データベース１９０の全てのデータに対する処理を終了する。

時間重み関数決定部１６０は、外部の入力手段（図示せず）から入力された検索語句を受け付けた時刻を時刻入力の値ｔ_ｉｎとして扱い、予め設定されている時刻幅ｔ_ｗを用い、ｔ_ｉｎ−ｔ_ｗからｔ_ｉｎまでの期間を集計に用いる時刻範囲として内部のメモリに設定する。
ｔ＝−ｔ_ｗからｔ＝０の範囲において、図９に示すようなｔ＝０に近い最近のデータほど重みが大きくなる基本時間重み関数ｔ_{w_base}（ｔ）を、ｔ＝−ｔ_ｗの点がｔ_ｉｎ−ｔ_ｗに、ｔ＝０の点がｔ_ｉｎに対応するよう線形変換して得られた時間重み関数Ｔ_ｗ（ｔ）を話題度算出部１７０に出力する。線形変換して得られた時間重み関数Ｔ_ｗ（ｔ）の例を図１０に示す。

話題度算出部１７０は、分野語句データバッファに含まれる語句データのそれぞれについて、時間重み関数決定部１６０で得られた時間重み関数Ｔ_ｗ（ｔ）に語句データの持つ作成時刻データｔ_ｗｏｒｄを代入することにより算出される語句データの時間重みＴ_ｗ（word）と、語句データの特徴度とを掛け合わせて得られる値を語句データの話題度とし、話題度を付与した語句データを話題度集計部１８０の話題語句データバッファに出力する。当該話題語句データバッファのデータの例を図１１に示す。

話題度集計部１８０は、話題語句データバッファに記録されている全語句について、同一の語句毎に話題度を集計し、集計の結果得られた値を各語句の話題度として、話題出力記録装置２０に記録する。話題出力記録装置２０に記録されたデータの例を図１２に示す。

［第２の実施の形態］
本実施の形態では、前述の第１の実施の形態における検索分野決定部１４０における外部入力を、検索語句ではなく、検索文書として実施する例を説明する。

その場合、検索分野決定部１４０は、外部から検索文書ｄを受け付け、受け付けた文書ｄについて、文書カテゴリ決定部１１０と同様に、多重カテゴリ抽出技術による解析を行い、得られたカテゴリ情報を検索カテゴリ情報Ｃ_１（ｄ）〜Ｃ_ｎ（ｄ）とし、検索分野語句抽出部１５０へ出力する。他の処理について第１の実施の形態と同様である。

［第３の実施の形態］
本実施の形態では、前述の第１の実施の形態における検索分野決定部１４０を省略し、検索カテゴリ情報を外部から検索分野語句抽出部１５０に入力する例を説明する。

図１３は、本発明の第３の実施の形態における話題度算出装置の構成を示す。同図のように、本実施の形態の話題度算出装置２００では、検索分野語句抽出部１５０は、外部の入力手段から検索カテゴリ情報を直接受け取り、前述の第１の実施の形態と同様の処理を行う。

［第４の実施の形態］
本実施の形態では、前述の第１の実施の形態の時間重み関数決定部１６０の処理に代えて、時間重み関数決定部において、集計時刻ｔ_ｉｎと集計時刻の幅ｔ_{w_in}とを外部の入力装置から直接取得する例を説明する。

その場合の基本時間重み関数Ｔ_{w_base}（t）のｔ＝０の点をｔ＝ｔ_inへ、ｔ＝−ｔ_ｗの点をｔ＝ｔ_ｉｎ−ｔ_{w_in}へと移す線形変換を行うことにより、時間重み関数Ｔ_ｗ（ｔ）を算出する。このようにして求めた時間重み関数Ｔ_ｗ（ｔ）の例を図１４に示す。

なお、本発明は、上記の一連の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段に実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを話題度算出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールすることも可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

最近の話題となっている語句を抽出する話題抽出技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における話題度算出装置の構成図である。本発明の第１の実施の形態における解析済文書データバッファに蓄積されたデータの例である。本発明の第１の実施の形態における語句データバッファに蓄積されたデータの例である。本発明の第１の実施の形態における語句データベースに蓄積されたデータの例である。本発明の第１の実施の形態における語句特徴度算出部の処理のフローチャートである。本発明の第１の実施の形態における検索分野語句抽出部の処理のフローチャートである。本発明の第１の実施の形態における正規化されている時間重み関数の例である。本発明の第１の実施の形態における時間重み関数の例である。本発明の第１の実施の形態における話題語句データバッファに蓄積されたデータの例である。本発明の第１の実施の形態における話題出力記録装置に蓄積されたデータの例である。本発明の第３の実施の形態における話題度算出装置の構成図である。本発明の第４の実施の形態における時間重み関数の例である。

符号の説明

１０文書データベース
２０話題出力記録装置
１００話題度算出装置
１１０文書カテゴリ決定手段、文書カテゴリ決定部
１２０文書内語句収集手段、文書内語句収集部
１３０語句特徴度算出手段、語句特徴度算出部
１４０検索分野決定手段、検索分野決定部
１５０検索分野語句抽出手段、検索分野語句抽出部
１６０時間重み関数決定手段、時間重み関数決定部
１７０話題度算出手段、話題度算出部
１８０話題度集計手段、話題度集計部
１９０語句データベース

Claims

多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出装置であって、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段と、
前記文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段と、
前記形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、前記語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出手段と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを前記語句データベースから抽出する検索分野語句抽出手段と、
前記検索分野語句抽出手段で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段と、
前記話題度算出手段で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段と、
を有することを特徴とする話題度算出装置。
前記検索分野語句抽出手段の前に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段を更に有する
請求項1記載の話題度算出装置。
請求項１または２に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラム。