JP2006134183A

JP2006134183A - 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Info

Publication number: JP2006134183A
Application number: JP2004324241A
Authority: JP
Inventors: Yoshiyo Ikeda; 佳代池田; Shinji Abe; 伸治安部; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-08
Filing date: 2004-11-08
Publication date: 2006-05-25
Anticipated expiration: 2024-11-08
Also published as: JP4466334B2

Abstract

【課題】事前学習することなく、あるキーワードを基に、次々と取得されるような文書データもしくは大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をする
【解決手段】本発明は、話題語の候補を選択し、話題語の候補を集約し、話題語候補に対して、文書との適合度を求め、話題性のための時刻による重み付けを行って集計したものをその話題語候補のスコアとし、スコアが一定値以上、かつ、文書数が一定数以上であれば、残った話題語を文書の情報と共に提示する。
【選択図】図１

Description

本発明は、情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、日々新しく発信される大量のＷｅｂ情報から、ユーザの興味のある検索キーワードによって入手した情報から、その時々の話題語を抽出し、分類するための情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。

近年では、日々刻々と情報が更新され、ユーザに提供されるようになってきた。特にインターネット上における情報の更新速度と増加量は著しい。このような中で、世の中の関心事に沿った話題に合わせて、ユーザが欲しい情報を入手することは、困難である。

しかし、日々更新される情報の中には、世の中の関心事や新たな出来事、事件の経緯、流行等、ユーザが関心を示す多くの話題を含んでいる可能性が高い。そこで、これらの情報を分析することによって、ユーザの関心を示す話題などを抽出することができる。

また、多くの情報の中から所望のコンテンツを得ようとした場合、検索しただけではなかなか欲しい情報を得られない場合がある。そこで、入手した情報を自動分類する技術も多く提案されている。

話題の抽出においては、複数の文書情報から抽出する技術が複数提案されている。例えば、複数の話者の発信源内容を文書化したデータから会話の主題を表す語を抽出する技術がある。これは、会話内容の文書化データから形態素解析によって主題に名詞を切り出し、会話の流れの中でのそれらの出現頻度や出現間隔に基づいて、語の重み（話題を表す可能性）を決定する技術である。この技術においては、１発言中での利用頻度が高い語や、しばらく利用されなかった後に利用された語を、重要度が高いとして評価を行う（以下、第１の従来技術と記す）（例えば、特許文献１参照）。

また、次々と送られてくる掛け合いのようなメッセージ情報から、その情報の勢いを算出し、その勢いの強い語句を話題語として抽出する技術である（以下、第２の従来技術と記す）（例えば、非特許文献１参照）。

また、情報の分類においては、事前に決まった分類カテゴリに対して、どのような情報が当てはまるかを事前に学習し、未知の情報が入力されたときに、その情報がどの分類に当てはまるかを分析する技術が複数提案されている（以下、第３の従来技術と記す）（例えば、非特許文献２参照）。

また、文書内の語の出現頻度によって語句ベクトルを算出し、文書間の類似性に応じて文書をクラスタリングする技術がある。また、その語句ベクトルの類似性に応じてクラスタを命名する技術がある（以下、第４の従来技術と記す）（例えば、特許文献２参照）。

この他にも検索エンジンにおいて、キーワードを入力した結果を自動分類するような技術もある。これは、オントロジーを分類の際に利用したり、もともと情報の分類カテゴリが付いている場合もある。
特許第２９３１５５３号公報特許第３３８５２９７号公報石井恵他、「名詞句と単語の勢いを用いた話題抽出手法の提案」情報処理学会研究報告−vol.2004-no.23, 2004-NL-160, pp.79-84 上田修功他、「多重トピックテキストの確率モデル・パラメトリック混合モデル」電子情報通信学会論文誌（D-II）,Vol.J87-DII, No.3, March 2004, pp.872-883

上記第１の従来技術では、１発言中のある語の頻度と全体的に話されている話題とが結びつかない場合も多い。また、比較的よく用いられる語が特に集中的に高頻度で利用された場合も話題を表しているといえるが、そのような語の抽出にも適さない。

また、第２の従来技術では、掛け合いのようなメッセージ情報から情報の勢いを算出するため、全く異なる観点で話されているような多数の文書を対象に話題語を抽出することには適していない。

また、第３の従来技術では、事前に分類するカテゴリを決めておく必要があり、話題が次々と変化していくような情報には適していない。

また、第４の従来技術では、多くの人が取り上げている話題語という観点でのクラスタリングではなく、文書の中でまず語句ベクトルを算出する方法をとっている。話題語としては、同一文書の中にその語句がどの程度出現しているかではなく、多数の文書で取り扱われている語句という観点で分類することが望ましい。よって、こういった方法では話題語の抽出には適していない。特に、Ｂｌｏｇやニュース、日記等のＷｅｂページでは、１ページ内に様々なトピックが記述されていることが多く、文書内の語句の出現頻度を用いたクラスタリングでは、話題を抽出することが困難になる。

また、検索エンジンにて検索した結果を自動分類するような従来技術では、事前にオントロジーのようなものや辞書が必要であったり、カテゴリを分類しておく必要がある。こういった場合、情報が刻々と更新され、新しい流行や話題などを抽出するようなことには適していない。

本発明での話題語というのは、多くの文書で取り上げられているような語句であり、時間的変化（多くの文書に短期的に集中して出現しているような語句、長期的に多くの文書で取り上げられているような語句など）が挙げられる。また、その中でも魅力的な話題語としては、インパクトの強いものであり、内容がすぐにイメージできるようなものであることが望ましい。

本発明は、上記の点に鑑みなされたもので、事前学習することなく、リアルタイムに、あるキーワードに基づいて、次々と取得されるような文書データもしくは大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をすることが可能な情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理説明図である。

本発明（請求項１）は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類方法において、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文（文章）もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、（ステップ１）と、
文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップ（ステップ２）と、
話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、話題語データベースから読み出された話題語候補を集約する話題語集約ステップ（ステップ３）と、
話題語データベースの話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップ（ステップ５）と、
話題語データベースの話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップ（ステップ６）と、を行う。

また、本発明（請求項２）は、上記の請求項１の情報分類方法において、データ収集ステップでは、検索結果から取得した本文の中では、キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする。

また、本発明（請求項３）は、上記請求項１の情報分類方法において、話題語スコア算出ステップでは、話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
文書話題語スコアを、該当する話題語候補の文字列を含む１文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する。

また、本発明（請求項４）は、上記請求項１の情報分類方法において、話題語集約ステップでは、話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているＮＧワードリストに存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する。

また、本発明（請求項５）は、上記の請求項１の情報分類方法において、話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間Ｔ（正の整数）の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査ステップ（ステップ４）を更に行う。

また、本発明（請求項６）は、上記の請求項１の情報分類方法において、話題語集約ステップでは、ＮＧワードリスト記憶手段に格納されたＮＧワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する。

上記の請求項１の方法におけるステップ１では、キーワードを基にユーザの欲する情報源から話題語抽出に必要な文書データ（更新日付、検索結果出力順位、本文もしくは本文の一部（サマリーやキーワードの前後の文章等）等）を検索結果から取得し、本文もしくはその一部を取得できない場合は、検索結果から文書の公開場所も文書データの一部として取得し、文書の公開場所を基にデータが補足収集される。本文全体が得られるような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。文書の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。

上記ステップ２の話題語候補抽出ステップでは、ステップ１で取得した文書データを基に（形態素解析を行い）、話題語ルールに基づき（表記の揺れを調整した後）話題語候補の抽出を行う。話題語ルールは、話題語ルール記憶手段などに格納されており、話題語として適する語句が抽出できるよう、一定の条件（品詞の組み合わせ等）が格納されている。なお、表記の揺れの調整については、実施の形態の欄で詳述する。

ステップ３の話題語集約ステップでは、話題語候補をある一定の条件である話題語集約ルール記憶手段などに格納されている話題語集約ルールに基づいて、同一の意味にとれるような語句同士を集約していく。話題語集約ルールについては、実施の形態の欄で詳述する。

ステップ４の時刻経過検査ステップ（請求項５）では、ステップ３で集約した話題語候補に対して、その話題語の時間的鮮度を検査する。ある一定の期間Ｔ（正の整数）の間、話題語として抽出されて続けているような語句、もしくは、ＮＧワードリストに登録されているような語句を話題語候補から外す（また、ＮＧワードリストに存在せず、新たに話題語候補から外された語句があれば、それをＮＧワードリストへ追加する）。当該ステップ４は、特に同じ条件で定期的に検索を繰り返し実行するような場合に利用されるステップであり、一度きりの実行の場合は、飛ばしてもよい。

ステップ５の話題語スコア算出ステップは、話題語スコアを算出し、ステップ１で取得した文書データを話題語毎に出力する。話題語候補に付属する文書データの更新日付が検索出力順位を用いて、話題語スコアを算出する。このとき、更新日時が新しく、検索出力順位が上位の文書データから抽出されている話題語は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。

ステップ６の文書分類ステップは、話題語スコアが高い順に文書データと共に話題語を分類し、出力することができる。

図２は、本発明の原理構成図である。

本発明（請求項７）は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルール２２を格納した話題語ルール記憶手段６２０と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルール２３を格納した話題語集約ルール記憶手段６３０と、
話題語としてふさわしくない語句が格納されているＮＧワードリスト２４を格納したＮＧワードリスト記憶手段６４０と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文（文章）もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベース２０に格納するデータ収集手段３００と、
文書データベース２０から文書データを読み出して、該文書データから、話題語ルール記憶手段６２０に格納されている話題語ルール２２を参照して、話題語候補を抽出し、話題語データベース２１に格納する話題語候補抽出手段３１０と、
話題語集約ルール記憶手段６３０に格納された話題語集約ルール２３に格納された条件に基づいて、話題語データベース２１から読み出された話題語候補を集約する話題語集約手段３２０と、
話題語データベース２１の話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段３４０と、
話題語データベース２１の話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類手段３５０と、を有する。

また、本発明（請求項８）は、上記請求項７の情報分類装置において、
データ収集手段３００は、
検索結果から取得した本文の中では、キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む。

また、本発明（請求項９）は、上記の請求項７の情報分類装置において、
話題語スコア算出手段３４０は、
話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
文書話題語スコアを、該当する話題語候補の文字列を含む１文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、を含む。

また、本発明（請求項１０）は、上記の請求項７の情報分類装置において、
話題語集約手段３２０は、
話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているＮＧワードリスト２４に存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する手段を含む。

また、本発明（請求項１１）は、上記の請求項７の情報分類装置において、話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間Ｔ（正の整数）の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段３３０を更に有する。

また、本発明（請求項１２）は、上記の請求項７の情報分類装置において、話題語集約手段３２０は、ＮＧワードリスト記憶手段６４０に格納されたＮＧワードリスト２４の条件に基づいて、話題語データベース２１から読み出された前記話題語候補を集約・選別する手段を含む
上記のデータ収集手段３００では、外部入力、もしくは、事前に設定されたキーワードを基に、検索エンジンから対象文書データを収集する。そして、文書データベース２０へ格納する。本文全体が得られないような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。

話題語候補抽出手段３１０は、データ収集手段３００で取得した文書情報を文書データベース２０から取得し、それを話題語ルール２２に基づき話題語候補の抽出を行う。話題語ルール２２は、話題語ルール記憶部６２０に格納されており、話題語として適する語句が抽出できるよう、一定の条件（品詞の組み合わせ等）が格納されている。なお、表記の揺れの調整については、実施の形態の欄で詳述する。抽出された話題語候補を話題語データベース２１に格納する。この際、話題語データベース２１には、関連する文書情報も格納される。

話題語集約手段３２０は、話題語データベース２１の話題語候補を、ある一定の条件である話題語集約ルール記憶部６３０に格納されている話題語集約ルール２３に基づいて、同一の意味にとれるような語句同士を集約していく。ある一定の期間Ｔ（正の整数）の間、話題語として抽出され続けているような語句を話題語候補から外す。話題語集約ルール２３は、品詞による組み合わせ等で示されている。当該ルールの詳細については実施の形態の欄で詳述する。

時刻経過検査手段３３０では、話題語集約手段３２０で抽出した話題語候補を話題語ＤＢ２１より取得し、その語句の時間的鮮度を検査する。また、ＮＧワードリスト記憶手段６４０に格納されているＮＧワードリスト２４に登録されているような語句を話題語候補から外す。また、ＮＧワードリスト２４に存在せず、新たに話題語候補から外された語句があれば、それをＮＧワードリストへ追加する。残った話題語候補は、話題語データベース２１へ再度格納される。この際、話題語データベース２１には集約された話題語候補の情報とそれらに関連する文書情報も関連付けて格納される。

この手段は、特に、同じ条件で定期的に検索を繰り返し実行するような場合に利用される手段であり、一度きりの実行の場合は飛ばしてもよい。

話題語スコア算出手段３４０は、話題語データベース２１から、話題語候補に付属する文書データの更新日付や検索出力順位を用いて、話題語スコアを算出する。このとき、更新日付が新しく、検索出力順位が上位の文書データから抽出されている話題語候補は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。

文書分類手段３５０は、話題語スコアが高い順に文書データと共に、話題語を出力する。また、話題語スコアを話題語データベース２１に格納することも可能である。

本発明（請求項１３）は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムであって、請求項１乃至６記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムである。

本発明（請求項１４）は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムを格納した記憶媒体であって、請求項１乃至６記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。

これにより、リアルタイムにあるキーワードに基づいて、次々と取得される文書データもしくは、大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をすることが可能な、話題語による検索結果の分類方法を提供することができる。

上記のように、本発明によれば、主に検索結果で得られる本文のサマリーや検索キーワードの周囲の文書等から話題語を抽出するため、その話題語がキーワードに深く関連している可能性が高くなる。よって、より深くキーワードに関連した話題語を抽出することができる。

また、検索された文書によっては、あらゆる事柄について、網羅的に記述されているものもあるため、通常の分類装置では、分類不可能、または、特色を持たない文書と判断されてしまう場合がある。本発明では、検索結果により検索キーワードの付近の文書または、キーワードに関わる文書のサマリーを取得することで、そのキーワード周辺、つまり欲しい情報の話題について分類することが可能となる。

また、事前学習することなく、リアルタイムにあるキーワードを元に取得した、次々と更新され取得される文書データもしくは大量の文書データを解析し、そこから話題となっている語句を抽出することも可能となる。

また、文書の更新日付などにより話題語の鮮度を考慮した話題語スコア付けを行うことで、単なる検索結果の分類と異なり、その結果から見られる話題、つまり流行やユーザの関心事などを基に分類することになるため、ユーザに分かりやすく、また、その時流を反映した分類となる。

以上のように、「キーワードに関わる周辺の文書から話題語を抽出する」「話題語は抽出した文書の新しさと検索結果の出力順位が高い語句ほど話題語スコアが高くなる」を実行することで、従来の技術よりも話題というユーザにとって分かりやすく、その時々の流行などにより自在に変化する分類を行うことができるようになる。

以下、図面と共に本発明の実施の形態を説明する。

最初に本発明の概要を説明する。

図３は、本発明の概要を説明するための図である。

本発明は、リアルタイムに、あるキーワードに基づいて、次々と取得される文書データ、もしくは、大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をするものである。

ステップ１０では、キーワードを基に、ユーザの欲する情報源から話題語抽出に必要な文書データ（更新日付、検索結果出力順位、本文、もしくは、本文の一部（サマリーやキーワードの前後の文章等）等）を検索結果から取得し、本文もしくはその一部を取得できない場合は、検索結果からＵＲＬ（ＵＲＩ）等の文書の公開場所の文書データの一部として取得し、ＵＲＬ（ＵＲＩ）等の文書の公開場所を基にデータが補足収集される。本文全体が得られるような場合、もしくは、長文が得られるような場合は、その文書中でも検索キーワードの前後の文書を取得し、本文とする。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う処理を行う。

ステップ２０では、ステップ１０で取得した文書データを基に形態素解析を行い、話題語ルールに基づき表記の揺れを調整した後、話題語ルールを用いて話題語候補の抽出を行う。話題語ルールは、話題語ルール記憶部などの記憶手段に格納されており、話題語として適する語句が抽出できるよう、一定の条件（品詞の組み合わせ等）が格納されている。ここで表記の揺れの調整とは、文書の書き手によって表記の方法が様々であるから、同一語ととれる候補が取得された場合、一つにまとめてしまうことを指す。例えば「犬」と「イヌ」、「沈殿」と「沈澱」、「インタフェース」と「インターフェース」、「大日本帝国」と「大日本帝國」、「打合せ」・「打ち合せ」・「打合せ」・「打ち合わせ」など。表記の揺れに関するルールについても、話題語ルールの中に格納されている。また、話題語候補がキーワードと同じ、もしくは、包含されてしまうような場合は、話題語として適さないため話題語候補から外す。例えば、キーワードが「甲子園球場」の時、話題語候補として「甲子園球場」、「甲子園」、「球場」が取得された場合、これら３つの語句が文字列として、キーワードに全て包含されているため候補から外すことができる。

ステップ３０では、話題語候補をある一定の条件：話題語集約ルール記憶部などの記憶手段に格納されている話題語集約ルールに基づいて、同一の意味にとれるような語句同士を集約していく。話題語集約ルールは、品詞による組み合わせ等で示されており、例えば、次のような場合に適用できる。「プログラミング言語」「プログラミングの言語」や、キーワードが「犬」の場合、「犬のトリーミング」「トリーミング」は、両者が同じ意味を持つ言葉と判断することができるため、どちらか一方に集約することができる。

ステップ４０では、ステップ３０で集約した話題語候補に対して、その話題語の時間的鮮度を検査する。ある一定の期間Ｔ（正の整数）の間、話題語として抽出され続けているような語句を話題語候補から外す。ＮＧワードリストとして記憶手段に登録されているような語句を話題語候補から外す。また、ＮＧワードリストに存在せず、新たに話題語候補から外された語句があれば、それをＮＧワードリストへ追加する当該ステップ４０は必須ではない。

なお、ステップ４０は、特に同じ条件で定期的に検索を繰り返し実行するような場合に利用される処理であり、本発明の第２の実施の形態で説明する。一度きりの実行の場合は当該ステップの処理を飛ばしてもよい（第１の実施の形態）。

ステップ５０では、話題語スコアを算出し、ステップ１０で取得した文書データを話題語毎に出力する。話題語候補に付属する文書データの更新日付や検索出力順位を用いて、話題語スコアを算出する。このとき、更新日付が新しく、検索出力順位が上位の文書データから抽出されている話題語は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。話題語スコアが高い順に文書データと共に話題語を出力する。

［第１の実施の形態］
本発明の第１の実施の形態では、あるキーワードを基に取得したＷｅｂページ等からの文書から話題語を抽出し、その話題語毎にその文書をクラスタリングすることを目的とする。この文書は、話題語を抽出するという目的から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なＷｅｂページの新着ページを基にするとその時々で盛り上がっている話題が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページにわたって説明している文書であればその歴史の主な話題を抽出することもできる。処理の詳細は以下に説明する。

図４は、本発明の第１の実施の形態における話題語による情報分類装置の構成を示す。

同図に示す話題語による情報分類装置は、コンピュータ１０とこのコンピュータ１０にネットワーク４０を介して接続される文書データベース（文書ＤＢ）２０と、話題語データベース（話題語ＤＢ）２１，話題語ルールを格納する話題語ルール記憶部６２０、話題語集約ルール２３を格納する話題語集約ルール記憶部６３０で構成される。

コンピュータ１０は、ＲＡＭ，ＲＯＭ、磁気ディスク等からなるメモリ、ＣＰＵ、ディスプレイによる表示部１１、及びマウスやキーボードなどからなる指示入力部１２から構成されており、ＣＰＵが実行するソフトウェアプログラムによって実現されるデータ収集処理部５００、話題語候補抽出処理部５１０、話題語集約処理部５２０、話題語スコア算出処理部５４０、及び文書分類処理部５５０とを備えている。

文書ＤＢ２０には、話題語抽出対象となるコンテンツのＵＲＬ（ＵＲＩ）、タイトル、本文内容（概要など）を表すテキスト文章、更新日時、検索結果の出力順位などのメタ情報が格納される。

話題語ＤＢ２１には、コンテンツから抽出された話題語候補とその話題語候補に関連するコンテンツの数とそのコンテンツの情報、話題語選定処理により選定された話題語とその話題語に関連するコンテンツの数とそのコンテンツの情報、また、話題語候補となったが、話題語選定処理中に集約された話題語候補が格納される。

話題語ルール２２は、話題語ルール記憶部６２０に格納され、話題語を抽出するための条件（品詞の組み合わせ等）が記述されている。このルールは、追加変更などが自在に行うことができる。

話題語集約ルール２３は、話題語集約ルール記憶部６３０に格納され、同一の意味にとれるような話題語同士を集約するための条件（品詞の組み合わせ等）が記述されている。このルール２３は、追加変更などを自在に行うことができる。

データ収集処理部５００、話題語候補抽出処理部５１０、話題語集約処理部５２０や話題語スコア算出処理部５４０は、このように構成される話題語抽出システムの基であり、以降に説明する処理を実行することで本発明を実現するように動作する。

以下のその処理を説明する。

（１）データ収集処理部５００：
図５は、本発明の第１の実施の形態におけるデータ収集処理のフローチャートである。

ステップ５０１）まず、データ収集処理部５００は、外部入力や事前の設定値より、話題語抽出対象先や話題語を抽出したい関連キーワード等のパラメータを取得する。このパラメータの内容は、必要に応じて様々なものを用いることができる。例えば、
（a）抽出情報対象先：既存のＤＢや、インターネット上のＷｅｂページ全般、Weblog、ニュース記事等；
（b）関連キーワード：ユーザの得たい情報に関連するキーワードや特に関心のある話題等；
である。（a）は、（ｂ）のキーワードを基に検索を行うので、検索できるデータ（ＤＢもしくは検索エンジンを利用できるようなデータ）である必要がある。（a）でＤＢを利用しない場合、検索エンジンは一般に公開されている検索サイトを利用してもよいし、あるいは事前に検索サーバを構築し、設定しておくことで実現できる。

ステップ５０２）次に取得した抽出情報対象先へ関連キーワードを検索クエリとして送る。この際、検索先が検索エンジンの場合、ＵＲＬ（ＵＲＩ）アドレス内に検索キーワードを付けて検索エンジンへ送るだけで検索結果が得られるサイトも存在する。例えば、gooblog検索の場合、
「http://blog.goo.ne.jp/search/serch.php?status=select&tg=all&ts=goo&st=time&dc=10&dp=all&ts=all&MT=検索キーワード&da=all」
のようなアドレスを送るだけで「検索キー」を検索キーワードとした検索結果（検索結果出力順位、ページのタイトル、更新日付、検索キーワードを含む前後の文章等）が返ってくる。但し、この検索キーワードは、ＵＲＬエンコード（エスケープ）する必要がある。例えば、「サッカー」は「%A5%B5%A5%C3%A5%AB%A1%BC」となる。

既存のＤＢからデータを取得する場合は、本文全体から得られる場合もある。また、検索エンジンによっては、コンテンツの概要を検索結果として返す場合もある。いずれの場合もコンテンツを説明している本文とみなし、以下で扱うこととする。

本文が得られるような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。例えば、キーワードを真ん中に前後２５６文字を取得することや、キーワードを含む文書に加えて前後の１文章を取得することなどでもよい。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。

ステップ５０３）上記のステップで取得したコンテンツ情報を文書ＤＢ２０へ格納する。

（２）話題語候補抽出処理部２０：
図６は、本発明の第１の実施の形態における話題語候補抽出処理のフローチャートである。

ステップ６０１）まず、話題語候補抽出処理部２０は、文書ＤＢ２０より対象文書情報を取り出す。

ステップ６０２）次に、その文書を形態素解析する。また、その後、それぞれの語句の表記の揺れを調整する。形態素解析を行う対象は、データ収集処理部５００で取得した文書の本文やタイトルである。また、ここで表記の揺れの調整とは、文書の書き手によって表記の方法が様々であることから、同一語と取れる候補が取得された場合、一つにまとめてしまうことをさす。例えば、「犬」と「イヌ」、「沈殿」と「沈澱」、「インタフェース」「インターフェース」、「大日本帝国」と「大日本帝國」、「打合せ」・「打合わせ」・「打合わせ」・「打ち合わせ」など。

ステップ６０３）形態素解析結果から、話題語候補を抽出する。話題語は、扱う文章や分野、また、ユーザの好みによっても適する語句が異なる場合がある。本実施の形態では、次のような理由から３種類を話題語とし、名詞句を抽出することにし、そのルールは、話題語ルール２２に記述されていることとする。

まず、多くの人がその内容について取り上げているもので、時間的な変化（短期的に集中することや長期で話されていること）があるものが、話題語として適していると言える。そして、その中でもユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が、利用価値が高い。

インパクトの強い言葉としては、固有名詞や新しい言葉が上げられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。

一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また名詞同士を格助詞の「の」ではさんだ言葉等があげられる。また、その言葉を一見してイメージできるものとして長すぎる言葉は、ユーザが読み上げなくてはならなくなるため適さない。よって、一定の長さ以下であることが望ましいと言える。

以上のことから、話題語として扱われる中でも固有名詞、名詞の連続、名詞+各助詞「の」+名詞を一定の長さ以下で記述された名詞句を本実施の形態では採用することとする。以下に、その正規表現を示す。「？」は、直前の語の「０」かまたは１回の出現を意味し、「│」は、その記号の前後の語のｏｒをとることであり、「｛Ａ，Ｂ｝」は、直前の語のＡ回以上、Ｂ回以下の繰り返しを意味する。但し、Ａ，Ｂは正の整数である。また、ａ：格助詞「の」、ｎ：名詞、Ｎ：固有名詞、ｐ：名詞接頭時、ｓ：名詞接尾辞を表す。

１．（ｐ？（ｎ│Ｎ)ｓ？)｛２，４｝
２．（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝ａ（ｐ？（ｎ│Ｎ）｛１，３｝
３．Ｎ
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを話題候補として取得する。これに従うと、例えば、「テロ組織の犯行声明」、「シフォンケーキ」「アメリカ大統領選挙」等が取得できる。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。

以上のような内容が、話題語ルール２２に記述されている。

ステップ６０４）キーワードの中に全て含まれてしまうような話題語の候補、つまり、「キーワード」⊇「話題語の候補」となる話は、話題語候補から外す。例えば、キーワードが「甲子園球場」のとき、話題語候補として「甲子園球場」、「甲子園」、「球場」が取得された場合、これら３つの語句が文字列として、キーワードに全て包含されているため候補から外すことができる。

ステップ６０５）上記で抽出された話題語候補を話題語ＤＢ２１に格納する。この際、話題語候補には話題語を抽出した基の文書情報も関連付けられて格納される。また、各々の文書から抽出した話題語候補が別の文書と同一になった場合は、１つの話題語候補として取り扱う。よって、話題語ＤＢ２１の中には、一度に取得した文書全体の中で重複した話題語は存在しないことになる。

以上の処理を、話題語抽出対象文書数分繰り返し、それぞれの文書に対する話題語の候補を抽出する。

（３）話題語集約処理部５２０：
図７は、本発明の第１の実施の形態における話題語選定処理のフローチャートである。

ステップ７０１）話題語集約処理部５２０は、話題語ＤＢ２１から話題語候補を取得する。

ステップ７０２）話題語候補の中で次のような２種類の話題語が存在した場合は、１つに集約する。「ＤａＥ」と「ＤＥ」。ここで、ＤとＥは、（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝であり、ａは格助詞の「の」である。ＤとＥの正規表現については、前述の（２）の話題語候補抽出処理部の説明の通りである。このとき、どちらの話題語候補に集約するかは、規定されないが、本実施の形態では、ＤａＥへ集約することとする。話題語候補と文書の関係は、集約された話題語候補へと引き継がれる。例えば、「プログラミング言語」「プログラミングの言語」が話題語候補としてあがった場合は、「プログラミングの言語」に集約することができる。そして、「プログラミング言語」を含む文書データは、「プログラミングの言語」へと引き継がれる（つまり、「プログラミングの言語」を含む文書データとして扱われる）。

ステップ７０３）また、取得した話題語候補がキーワードを一部に含むような語句であれば、次の処理を行う。話題語候補の中で、
１．［１］ＫＤ
［２］ＫａＤ
［３］Ｄ
としたとき、［１］と［２］の候補が共存した場合、［２］に集約する。

［１］［３］、［２］［３］、［１］［２］［３］のいずれかの候補が共存した場合、［３］に集約する。

２．［１］ＤＫ
［２］ＤａＫ
［３］Ｄ
としたとき、［１］［２］の候補が共存した場合、［２］に集約する。

但し、
ａ：格助詞の「の」
Ｋ：キーワード
Ｄ：（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝
であるとする。

例えば、キーワードが「犬」の場合、「犬のトリーミング」「トリーミング」が話題語候補としてあがった場合は「犬のトリーミング」に集約することができる。但し、話題語候補と文書の関係は、集約された話題語候補へと引き継がれる。

ステップ７０４）集約された話題語候補は、集約した側の話題語候補の付属情報として関連付け、話題語ＤＢ２１へ格納する。この際、関係する文書情報も共に格納する。

以上を全ての話題語候補について処理する。この処理により、話題語候補の集約が終了する。

（４）話題語スコア算出処理部５４０：
図８は、本発明の第１の実施の形態における話題語スコア算出処理及び、文書分類処理のフローチャートであり、ステップ８０１〜ステップ８０４が、話題語スコア算出処理部５４０で行われる処理であり、ステップ８０５〜ステップ８０８が、後述する文書分類処理部５５０で行われる処理である。

ステップ８０１）話題語スコア算出処理部５４０は、話題語ＤＢ２１において、ある話題語候補もしくは、その付属情報の話題語候補のいずれかの文字列を含む文書情報を文書ＤＢ２０から取得する。

ステップ８０２）文書が検索結果から取得したものであり、かつ文書の更新日付情報がある場合は、文書の更新日付情報と検索結果出力順位情報を基にその文書に対する文書話題語スコアを算出する。例えば、次のような日付スコアと検索結果スコアを加算して文書話題語スコアを算出する方法がある。日付スコアは、例えば、文書を取得した時刻から２４時間以内であれば、「１」、それ以降であれば、「１」を経過した日数で割った値を日付スコアにする方法などでもよい。そして、検索結果出力順位情報、または、検索エンジンなどで用いられているようなスコアリング方法でもよい。

検索結果スコアは、例えば、「１」を出力順位で割った値にする方法などでもよい。

ステップ８０３）文書が検索結果から取得したものであり、文書の日付情報がない場合には当該ステップ８０２の処理を飛ばし、検索結果出力順位情報を基に、文書に対する文書話題語スコアを計算する。例えば、「１」を出力順位で割った値にする方法でもよい。

ステップ８０４）話題語候補もしくは、その付属情報である、集約された話題語候補のいずれかの文字列を含む文書全ての文書話題語スコアを合計し、その値を話題語スコアとする。図９に、本発明の第１の実施の形態における文書例と出力例を示す。図９に従うと、『文書Ａ』には、話題語候補として「アジアカップ」「日本」があり、『文書Ｂ』には「ワールドカップ予選」「日本」「韓国」があり、『文書Ｃ』には、話題語候補として「アジアカップ」があった場合、それぞれの文書話題語スコアが図９の（ａ）に示すようになっていた場合、話題語スコアは、図９の（ｂ）に示すようになる。そして、話題語スコアを話題語候補の付属情報として、話題語ＤＢ２１へ格納する。

（５）文書分類処理部５５０：
図８のフローチャートを用いて文書分類処理部５５０の動作を説明する。

ステップ８０５）文書分類処理部５５０は、文書が検索結果から取得したものである場合は、前述のステップ８０１〜ステップ８０４の処理の全ての話題語候補に対して実施する。そして、話題語スコアが高い順に話題語候補を並び替える。

ステップ８０６）話題語スコアが定数Ｙよりも低く、かつ、その話題語候補もしくは、それに集約された話題語候補（付属情報）の文字列を含む文書の数が定数Ｍよりも少ない話題語候補は、候補から外し、残りを話題語に設定する。このとき、ＹとＭは正の整数である。

ステップ８０７）話題語もしくは、それに集約された話題語候補（付属情報）の文字列を１つも含まない文章がある場合は、「該当なし」として、話題語ＤＢ２１に格納する。

ステップ８０８）文書ＤＢ２０と話題語ＤＢ２１から、話題語とそれに関連する文書を話題語スコアが高い順、もしくは、文書数が多い順にリスト形式で出力する。その出力例を図９（ｃ）に示す。

この情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、２次元や３次元等、様々に適用することができる。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

［第２の実施の形態］
本発明の第２の実施の形態では、ＲＳＳフォーマットで提供されているニュースやWebBlogポータルから最新のＲＳＳを取得し、そこから得られた情報から話題語を抽出し、その話題語毎に、コンテンツをクラスタリングすることを目的とする。ＲＳＳフォーマットで提供される情報は、随時更新されていることから、この情報を定期的に更新し、随時新着情報を取得し、新着の話題語とそのコンテンツをユーザに提供することができる。

あるＵＲＩに検索キーワードを送信するとＲＳＳフォーマットで検索結果を返すようなサイトも存在する。よって、このサイトへ定期的にアクセスすることで調べたいキーワードに関連する情報を入手することも可能である。中には、あるキーワードを登録しておくと常にそのキーワードに関連する情報をＲＳＳフォーマットで提供するようはサイトも存在する。このため、新着の中でも気になるキーワードで情報を追いかけていくこともできる。例えば、「サッカー」の中でもどんなことが話題になっているかを把握することができる。また、キーワードを基に取得できないような情報であっても、本発明と検索エンジンをセットで利用することにより、随時更新される情報をＲＳＳフォーマットで取得し、コンテンツの情報をキーワードで検索し、興味のある情報だけを入力元にすることも可能である。

処理の詳細については、以下で説明する。

図１０は、本発明の第２の実施の形態における話題語による情報分類装置の構成図である。

同図に示す話題語による情報分類装置は、コンピュータ１０とこのコンピュータ１０にネットワーク４０を介して接続される文書データベース（文書ＤＢ）２０と話題語データベース（話題語ＤＢ）２１、話題語ルール２２を格納する話題語ルール記憶部６２０、話題語集約ルール２３を格納する話題語集約ルール記憶部６３０、ＮＧワードリスト２４を格納するＮＧワードリスト記憶部６４０で構成されている。

コンピュータ１０は、ＲＡＭ，ＲＯＭ、磁気ディスク等からなるメモリ、ＣＰＵ、ディスプレイによる表示部１１、及びマウスやキーボードなどからなる指示入力部１２から構成されており、ＣＰＵが実行するソフトウェアプログラムによって実現されるデータ収集処理部５００と話題語候補抽出処理部５１０と話題語集約処理部５２０と時刻経過検査結果処理部５３０と話題語スコア算出処理部５４０と文書分類処理部５５０とを備えている。

文書ＤＢ２０には、話題語抽出対象となるコンテンツのＵＲＬ（ＵＲＩ）、タイトル、本文内容（概要など）を表すテキスト文章、更新日時などのメタ情報が格納されている。

話題語ＤＢ２１には、コンテンツから抽出された話題語候補とその話題語候補に関連するコンテンツの数とそのコンテンツの情報、話題語選定処理により選定された話題語とその話題語に関連するコンテンツの数、また、コンテンツ情報を取得した時間情報とそのコンテンツの情報、また、話題語候補となったが、話題語選定処理中に集約された話題語候補が格納される。

話題語ルール２２は、話題語ルール記憶部６２０に格納され、話題語を抽出するための条件が記述されている。このルールは追加変更などが自在に行える。

話題語集約ルール２３は、話題語集約ルール記憶部６３０に格納され、同一の意味にとれるような話題語同士を集約するための条件が記述されている。このルールは、追加変更などが自在に行える。

ＮＧワードリスト２４は、話題語としてふさわしくない語句を集めたリストである。このＮＧワードリスト２４は、簡略化して用意せずに処理することも可能である。

データ収集処理部５００、話題語候補抽出処理部５１０、時刻経過検査処理部５３０、話題語集約処理部５２０や、話題語スコア算出処理部５４０は、このように構成される話題語抽出システムにおいて、以降に説明する処理を実行することで本発明を実現するように動作する。

以下のその処理を説明する。

（１）データ収集処理部５００：
図１１に本発明の第２の実施の形態におけるデータ収集処理のフローチャートを示す。

ステップ１００１）データ収集処理部５００は、まず、指定されたキーワードを基に、事前に登録されたＲＳＳ提供サイトのＵＲＩから、ＲＳＳフォーマットで記述されたコンテンツ群を取得する。例えば、gooblog検索の場合、
http://blog.goo.ne.jp/search/search.php?status&tg=all&st=time&dc=50&dp=all&bu=&ts=all&MT=「検索キー」&da=all&rss=1&fr=1
のようなアドレスを送るだけで、「検索キー」を検索キーワードとした検索結果５０件分がＲＳＳフォーマットで返ってくる。但し、この検索キーは、ＵＲＬエンコード（エスケープ）する必要がある。「サッカー」は、「％Ａ５％Ｂ５％Ａ５％Ｃ３％Ａ５％ＡＢ％Ａ１％ＢＣ」となる
これは、複数のサイト（ＵＲＩ）を事前に登録しておくことも可能である。複数のサイト（ＵＲＩ）が登録してある場合は、データ収集処理部５００のフローを登録数分繰り返すことで実現できる。

図１２に本発明の第２の実施の形態におけるＲＳＳ記述例を示す。

ステップ１００２）取得した情報は、<item>と</item>タグで挟まれた情報を１コンテンツとみなす。そして、その中にある<title>：タイトル、<link>：リンク情報、<description>：本文（コンテンツの概要等）を取得する。

ステップ１００３） “description”は、記述されている場合とされていない場合がある。また、“description”を分析に扱うには、あまりにも少ない文字列であるような場合もある。例えば、１文にも満たない文字列であった場合、話題語を抽出するには不向きといえる。このように、本文が取得できなかった場合は、リンク情報を基に直接コンテンツの本文を取得する。このとき、本文の取得の仕方は様々ある。例えば、htmlファイルであれば、<p>タグで囲まれた最も長い文章が記述されている部分を本文とみなし取得することもできる。長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。例えば、キーワードを真ん中に前後に２５６文字を取得することや、キーワードを含む文書に加えて前後の１文章を取得することなどでもよい。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。いずれの場合もコンテンツを説明している本文とみなし、以下で扱うこととする。

ステップ１００４）上記のステップで得たコンテンツ情報、つまりタイトルとリンク情報と本文、そして、ＲＳＳの取得時刻をコンテンツの１セットとし、文書ＤＢ２０へ格納する。ＲＳＳ内には、複数のコンテンツ情報が記述されていることが多い。このため、コンテンツの数分情報を取得し、文書ＤＢ２０へ格納することとする。

（２）話題語候補抽出処理部５１０：
図１３に本発明の第２の実施の形態における話題語候補抽出処理のフローチャートを示す。

ステップ１１０１）話題語候補抽出処理部５１０は、まず、文書ＤＢ２０より最新のＲＳＳより取得したコンテンツの本文とタイトルを取り出す。これをコンテンツの文書とする。本文のみを文書としてもよい。

ステップ１１０２）次に、その文書を形態素解析する。

ステップ１１０３）形態素解析結果から話題語候補を抽出する。話題語は、扱う文章や分野、またユーザの好みによっても適する語句が異なる場合がある。本実施の形態では、次のような理由から３種類を話題語とし、名詞句を抽出することにし、そのルールは、話題語ルール２２に記述されていることとする。

まず、多くの人がその内容について取り上げているもので、時間的な変化（短期的に集中することや長期で話されていること）があるものが、話題語として適しているといえる。そして、その中でもユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が利用価値が高い。

インパクトが強い言葉としては、固有名詞や新しい言葉があげられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。

一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また、名詞同士の格助詞の「の」で挟んだ言葉等があげられる。また、その言葉を一見してイメージできるものとして、長すぎる言葉は、ユーザが読み上げなくてはならなくなるために適さない。よって、一定の長さ以下であることが望ましい。

以上のことから、話題語として扱われる中でも固有名詞、名詞の連続、名詞+格助詞「の」+名詞を、一定の長さ以下で記述された名詞句を本実施の形態では採用することとする。以下にその正規表現を示す。「？」は、直前の語の０かまたは、１回の出現を意味し、「│」は、その記号の前後の語のｏｒをとることであり、「｛Ａ，Ｂ｝」は、直前の語のＡ回以上Ｂ回以下の繰り返しを意味する。但し、Ａ，Ｂは正の整数である。また、ａ：格助詞「の」、ｎ：名詞、Ｎ：固有名詞、ｐ：名詞接頭辞、ｓ：名詞接尾辞を表す。

１．（ｐ？（ｎ│Ｎ）ｓ？）｛２，４｝
２．（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝ａ（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝
３．Ｎ
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長のマッチングを話題語候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。

ステップ１１０４）キーワードの中に全て含まれてしまうような話題語の候補、つまり、「キーワード」⊇「話題語の候補」となる語は、話題語候補から外す。

ステップ１１０５）上記で抽出された話題語候補を話題語ＤＢ２１に格納する。この際、話題語候補には、話題語を抽出した基の文書情報も関連付けられて格納される。また、各々の文書から抽出した話題語候補が別の文書と同一になった場合は、１つの話題語候補として取り扱う。よって、話題語ＤＢ２１の中には、一度に取得した文書全体の中で重複した話題語は存在しないことになる。

（３）話題語集約処理部５２０：
図１４は、本発明の第２の実施の形態に置ける話題語集約処理のフローチャートである。

同図に示すフローチャートにおいて、ステップ１２０１〜ステップ１２０３、ステップ１２０５のステップは、前述の第１の実施の形態における図７のステップ７０１〜７０４の動作の同様である。

本実施の形態では、話題語集約処理部５２０において、ＮＧワードリスト２４がある場合には、そのリストと照合し、該当する話題語候補を、候補から削除する（ステップ１２０４）。

（４）時刻経過検査処理部５３０：
図１５に本発明の第２の実施の形態における時刻経過検査処理のフローチャートを示す。

ステップ１３０１）時刻経過検査処理部５３０は、話題語ＤＢ２１の中で、最新のコンテンツ情報を取得した時刻ＴＮから定数Ｔ（時刻を表す正の値）時間さかのぼった時刻ＴＰまでの全ての話題語とそのコンテンツ情報を取得した時刻とを取得する。

ステップ１３０２）時刻ＴＰからＴＮまでの話題語（その話題語の補助情報である話題語候補も含む）とＴＮで取得した話題語候補を照合し、時刻が変化しても絶え間なく抽出され続けている話題語、もしくは、話題語候補がある場合、その語句をＴＮの話題語候補から削除する。また、ＮＧワードリスト２４がある場合は、リストにその話題語や付属情報である話題語候補を追加する。

この処理により、本文とは関係ない情報を誤認識して、いつも同じ文書を抽出しているような場合等、話題語としてふさわしくない語が抽出されてしまう危険性を防ぐことができる。

（５）話題語スコア算出処理部５４０・文書分類処理部５５０：
この処理は、第１の実施の形態における話題スコア算出処理部５４０及び文書分類処理部５５０と同じ処理を行うため、これらの処理部の説明は省略する。

最終的に得られる情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、２次元や３次元等様々に適用することができる。また、文書を繰り返し一定時間毎に取得する場合は、話題語を時系列で保存していることから、話題語の推移を見ることができる。この推移は、ＲＳＳを取得した時刻毎に話題語ＤＢ２１から話題語を取得し、出力することで可能となる。

なお、上記の第１の実施の形態及び第２の実施の形態の情報分類装置の各構成要素の動作をプログラムとして構築し、情報分類装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを、情報分類装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ニュースやBlog等の日々更新されていく情報から最新の話題となっている語を自動抽出し、その情報を分類する技術に適用可能である。

本発明の原理説明図である。本発明の原理構成図である。本発明の概要を説明するための図である。本発明の第１の実施の形態における話題語による情報分類装置の構成図である。本発明の第１の実施の形態におけるデータ収集処理のフローチャートである。本発明の第１の実施の形態における話題語候補抽出処理のフローチャートである。本発明の第１の実施の形態における話題語集約処理のフローチャートである。本発明の第１の実施の形態における話題語スコア算出処理及び文書分類処理のフローチャートである。本発明の第１の実施の形態における文書例と出力例である。本発明の第２の実施の形態における話題語による情報分類装置の構成図である。本発明の第２の実施の形態におけるデータ収集処理のフローチャートである。本発明の第２の実施の形態におけるＲＳＳ記述例である。本発明の第２の実施の形態における話題語候補抽出処理のフローチャートである。本発明の第２の実施の形態における話題語集約処理のフローチャートである。本発明の第２の実施の形態における時刻経過検査処理のフローチャートである。

符号の説明

１０コンピュータ
１１表示部
１２指示入力部
２０文書ＤＢ
２１話題語ＤＢ
２２話題語ルール
２３話題語集約ルール
２４ＮＧワードリスト
４０ネットワーク
３００データ収集手段
３１０話題語候補抽出手段
３２０話題語集約手段
３３０時刻経過検査手段
３４０話題語スコア算出手段
３５０文書分類手段
５００データ収集処理部
５１０話題語候補抽出処理部
５２０話題語集約処理部
５３０時刻経過検査処理部
５４０話題語スコア算出処理部
５５０文書分類処理部
６２０話題語ルール記憶手段、話題語ルール記憶部
６３０話題語集約ルール記憶手段、話題語集約ルール
６４０ＮＧワードリスト記憶手段、ＮＧワードリスト記憶部

Claims

あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類方法において、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文（文章）もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、
前記文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップと、
話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約ステップと、
前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップと、
前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップと、
を行うことを特徴とする情報分類方法。
前記データ収集ステップにおいて、
前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする請求項１記載の情報分類方法。
前記話題語スコア算出ステップにおいて、
前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
前記文書話題語スコアを、該当する話題語候補の文字列を含む１文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する、
請求項１記載の情報分類方法。
前記話題語集約ステップにおいて、
前記話題語として、
前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
前記検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されている前記ＮＧワードリストに存在しない語句、
前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
を抽出する請求項１記載の情報分類方法。
前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間Ｔ（正の整数）の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査ステップを更に行う
請求項１記載の情報分類方法。
前記話題語集約ステップにおいて、
ＮＧワードリスト記憶手段に格納されたＮＧワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する請求項１記載の情報分類方法。
あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルールを格納した話題語ルール記憶手段と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルールを格納した話題語集約ルール記憶手段と、
話題語としてふさわしくない語句が格納されているＮＧワードリストを格納したＮＧワードリスト記憶手段と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文（文章）もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集手段と、
前記文書データベースから文書データを読み出して、該文書データから、前記話題語ルール記憶手段に格納されている前記話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出手段と、
前記話題語集約ルール記憶手段に格納された前記話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約手段と、
前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段と、
前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、話題語スコアが高い順に文書データを話題語毎に分類する文書分類手段と、
を有することを特徴とする情報分類装置。
前記データ収集手段は、
前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む請求項７記載の情報分類装置。
前記話題語スコア算出手段は、
前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
前記文書話題語スコアを、該当する話題語候補の文字列を含む１文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、
を含む請求項７記載の情報分類装置。
前記話題語集約手段は、
前記話題語として、
前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
前記検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されている前記ＮＧワードリストに存在しない語句、
前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
を抽出する手段を含む請求項７記載の情報分類装置。
前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間Ｔ（正の整数）の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段を更に有する請求項７記載の情報分類装置。
前記話題語集約手段は、
前記ＮＧワードリスト記憶手段に格納された前記ＮＧワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する手段を含む請求項７記載の情報分類装置。
あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムであって、
前記請求項１乃至６記載の情報分類方法を実現するための処理をコンピュータに実行させることを特徴とする情報分類プログラム。
あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムを格納した記憶媒体であって、
前記請求項１乃至６記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする情報分類プログラムを格納した記憶媒体。