JP2006134183A - 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents

情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2006134183A
JP2006134183A JP2004324241A JP2004324241A JP2006134183A JP 2006134183 A JP2006134183 A JP 2006134183A JP 2004324241 A JP2004324241 A JP 2004324241A JP 2004324241 A JP2004324241 A JP 2004324241A JP 2006134183 A JP2006134183 A JP 2006134183A
Authority
JP
Japan
Prior art keywords
topic word
topic
word
document
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004324241A
Other languages
English (en)
Other versions
JP2006134183A5 (ja
JP4466334B2 (ja
Inventor
Yoshiyo Ikeda
佳代 池田
Shinji Abe
伸治 安部
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004324241A priority Critical patent/JP4466334B2/ja
Publication of JP2006134183A publication Critical patent/JP2006134183A/ja
Publication of JP2006134183A5 publication Critical patent/JP2006134183A5/ja
Application granted granted Critical
Publication of JP4466334B2 publication Critical patent/JP4466334B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 事前学習することなく、あるキーワードを基に、次々と取得されるような文書データもしくは大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をする
【解決手段】 本発明は、話題語の候補を選択し、話題語の候補を集約し、話題語候補に対して、文書との適合度を求め、話題性のための時刻による重み付けを行って集計したものをその話題語候補のスコアとし、スコアが一定値以上、かつ、文書数が一定数以上であれば、残った話題語を文書の情報と共に提示する。
【選択図】 図1

Description

本発明は、情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、日々新しく発信される大量のWeb情報から、ユーザの興味のある検索キーワードによって入手した情報から、その時々の話題語を抽出し、分類するための情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。
近年では、日々刻々と情報が更新され、ユーザに提供されるようになってきた。特にインターネット上における情報の更新速度と増加量は著しい。このような中で、世の中の関心事に沿った話題に合わせて、ユーザが欲しい情報を入手することは、困難である。
しかし、日々更新される情報の中には、世の中の関心事や新たな出来事、事件の経緯、流行等、ユーザが関心を示す多くの話題を含んでいる可能性が高い。そこで、これらの情報を分析することによって、ユーザの関心を示す話題などを抽出することができる。
また、多くの情報の中から所望のコンテンツを得ようとした場合、検索しただけではなかなか欲しい情報を得られない場合がある。そこで、入手した情報を自動分類する技術も多く提案されている。
話題の抽出においては、複数の文書情報から抽出する技術が複数提案されている。例えば、複数の話者の発信源内容を文書化したデータから会話の主題を表す語を抽出する技術がある。これは、会話内容の文書化データから形態素解析によって主題に名詞を切り出し、会話の流れの中でのそれらの出現頻度や出現間隔に基づいて、語の重み(話題を表す可能性)を決定する技術である。この技術においては、1発言中での利用頻度が高い語や、しばらく利用されなかった後に利用された語を、重要度が高いとして評価を行う(以下、第1の従来技術と記す)(例えば、特許文献1参照)。
また、次々と送られてくる掛け合いのようなメッセージ情報から、その情報の勢いを算出し、その勢いの強い語句を話題語として抽出する技術である(以下、第2の従来技術と記す)(例えば、非特許文献1参照)。
また、情報の分類においては、事前に決まった分類カテゴリに対して、どのような情報が当てはまるかを事前に学習し、未知の情報が入力されたときに、その情報がどの分類に当てはまるかを分析する技術が複数提案されている(以下、第3の従来技術と記す)(例えば、非特許文献2参照)。
また、文書内の語の出現頻度によって語句ベクトルを算出し、文書間の類似性に応じて文書をクラスタリングする技術がある。また、その語句ベクトルの類似性に応じてクラスタを命名する技術がある(以下、第4の従来技術と記す)(例えば、特許文献2参照)。
この他にも検索エンジンにおいて、キーワードを入力した結果を自動分類するような技術もある。これは、オントロジーを分類の際に利用したり、もともと情報の分類カテゴリが付いている場合もある。
特許第2931553号公報 特許第3385297号公報 石井恵他、「名詞句と単語の勢いを用いた話題抽出手法の提案」情報処理学会研究報告−vol.2004-no.23, 2004-NL-160, pp.79-84 上田修功他、「多重トピックテキストの確率モデル・パラメトリック混合モデル」電子情報通信学会論文誌(D-II),Vol.J87-DII, No.3, March 2004, pp.872-883
上記第1の従来技術では、1発言中のある語の頻度と全体的に話されている話題とが結びつかない場合も多い。また、比較的よく用いられる語が特に集中的に高頻度で利用された場合も話題を表しているといえるが、そのような語の抽出にも適さない。
また、第2の従来技術では、掛け合いのようなメッセージ情報から情報の勢いを算出するため、全く異なる観点で話されているような多数の文書を対象に話題語を抽出することには適していない。
また、第3の従来技術では、事前に分類するカテゴリを決めておく必要があり、話題が次々と変化していくような情報には適していない。
また、第4の従来技術では、多くの人が取り上げている話題語という観点でのクラスタリングではなく、文書の中でまず語句ベクトルを算出する方法をとっている。話題語としては、同一文書の中にその語句がどの程度出現しているかではなく、多数の文書で取り扱われている語句という観点で分類することが望ましい。よって、こういった方法では話題語の抽出には適していない。特に、Blogやニュース、日記等のWebページでは、1ページ内に様々なトピックが記述されていることが多く、文書内の語句の出現頻度を用いたクラスタリングでは、話題を抽出することが困難になる。
また、検索エンジンにて検索した結果を自動分類するような従来技術では、事前にオントロジーのようなものや辞書が必要であったり、カテゴリを分類しておく必要がある。こういった場合、情報が刻々と更新され、新しい流行や話題などを抽出するようなことには適していない。
本発明での話題語というのは、多くの文書で取り上げられているような語句であり、時間的変化(多くの文書に短期的に集中して出現しているような語句、長期的に多くの文書で取り上げられているような語句など)が挙げられる。また、その中でも魅力的な話題語としては、インパクトの強いものであり、内容がすぐにイメージできるようなものであることが望ましい。
本発明は、上記の点に鑑みなされたもので、事前学習することなく、リアルタイムに、あるキーワードに基づいて、次々と取得されるような文書データもしくは大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をすることが可能な情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項1)は、 あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類方法において、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、(ステップ1)と、
文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップ(ステップ2)と、
話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、話題語データベースから読み出された話題語候補を集約する話題語集約ステップ(ステップ3)と、
話題語データベースの話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップ(ステップ5)と、
話題語データベースの話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップ(ステップ6)と、を行う。
また、本発明(請求項2)は、上記の請求項1の情報分類方法において、データ収集ステップでは、検索結果から取得した本文の中では、キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする。
また、本発明(請求項3)は、上記請求項1の情報分類方法において、話題語スコア算出ステップでは、話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する。
また、本発明(請求項4)は、上記請求項1の情報分類方法において、話題語集約ステップでは、話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリストに存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する。
また、本発明(請求項5)は、上記の請求項1の情報分類方法において、話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査ステップ(ステップ4)を更に行う。
また、本発明(請求項6)は、上記の請求項1の情報分類方法において、話題語集約ステップでは、NGワードリスト記憶手段に格納されたNGワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する。
上記の請求項1の方法におけるステップ1では、キーワードを基にユーザの欲する情報源から話題語抽出に必要な文書データ(更新日付、検索結果出力順位、本文もしくは本文の一部(サマリーやキーワードの前後の文章等)等)を検索結果から取得し、本文もしくはその一部を取得できない場合は、検索結果から文書の公開場所も文書データの一部として取得し、文書の公開場所を基にデータが補足収集される。本文全体が得られるような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。文書の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。
上記ステップ2の話題語候補抽出ステップでは、ステップ1で取得した文書データを基に(形態素解析を行い)、話題語ルールに基づき(表記の揺れを調整した後)話題語候補の抽出を行う。話題語ルールは、話題語ルール記憶手段などに格納されており、話題語として適する語句が抽出できるよう、一定の条件(品詞の組み合わせ等)が格納されている。なお、表記の揺れの調整については、実施の形態の欄で詳述する。
ステップ3の話題語集約ステップでは、話題語候補をある一定の条件である話題語集約ルール記憶手段などに格納されている話題語集約ルールに基づいて、同一の意味にとれるような語句同士を集約していく。話題語集約ルールについては、実施の形態の欄で詳述する。
ステップ4の時刻経過検査ステップ(請求項5)では、ステップ3で集約した話題語候補に対して、その話題語の時間的鮮度を検査する。ある一定の期間T(正の整数)の間、話題語として抽出されて続けているような語句、もしくは、NGワードリストに登録されているような語句を話題語候補から外す(また、NGワードリストに存在せず、新たに話題語候補から外された語句があれば、それをNGワードリストへ追加する)。当該ステップ4は、特に同じ条件で定期的に検索を繰り返し実行するような場合に利用されるステップであり、一度きりの実行の場合は、飛ばしてもよい。
ステップ5の話題語スコア算出ステップは、話題語スコアを算出し、ステップ1で取得した文書データを話題語毎に出力する。話題語候補に付属する文書データの更新日付が検索出力順位を用いて、話題語スコアを算出する。このとき、更新日時が新しく、検索出力順位が上位の文書データから抽出されている話題語は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。
ステップ6の文書分類ステップは、話題語スコアが高い順に文書データと共に話題語を分類し、出力することができる。
図2は、本発明の原理構成図である。
本発明(請求項7)は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルール22を格納した話題語ルール記憶手段620と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルール23を格納した話題語集約ルール記憶手段630と、
話題語としてふさわしくない語句が格納されているNGワードリスト24を格納したNGワードリスト記憶手段640と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベース20に格納するデータ収集手段300と、
文書データベース20から文書データを読み出して、該文書データから、話題語ルール記憶手段620に格納されている話題語ルール22を参照して、話題語候補を抽出し、話題語データベース21に格納する話題語候補抽出手段310と、
話題語集約ルール記憶手段630に格納された話題語集約ルール23に格納された条件に基づいて、話題語データベース21から読み出された話題語候補を集約する話題語集約手段320と、
話題語データベース21の話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段340と、
話題語データベース21の話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類手段350と、を有する。
また、本発明(請求項8)は、上記請求項7の情報分類装置において、
データ収集手段300は、
検索結果から取得した本文の中では、キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む。
また、本発明(請求項9)は、上記の請求項7の情報分類装置において、
話題語スコア算出手段340は、
話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、を含む。
また、本発明(請求項10)は、上記の請求項7の情報分類装置において、
話題語集約手段320は、
話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリスト24に存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する手段を含む。
また、本発明(請求項11)は、上記の請求項7の情報分類装置において、話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段330を更に有する。
また、本発明(請求項12)は、上記の請求項7の情報分類装置において、話題語集約手段320は、NGワードリスト記憶手段640に格納されたNGワードリスト24の条件に基づいて、話題語データベース21から読み出された前記話題語候補を集約・選別する手段を含む
上記のデータ収集手段300では、外部入力、もしくは、事前に設定されたキーワードを基に、検索エンジンから対象文書データを収集する。そして、文書データベース20へ格納する。本文全体が得られないような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。
話題語候補抽出手段310は、データ収集手段300で取得した文書情報を文書データベース20から取得し、それを話題語ルール22に基づき話題語候補の抽出を行う。話題語ルール22は、話題語ルール記憶部620に格納されており、話題語として適する語句が抽出できるよう、一定の条件(品詞の組み合わせ等)が格納されている。なお、表記の揺れの調整については、実施の形態の欄で詳述する。抽出された話題語候補を話題語データベース21に格納する。この際、話題語データベース21には、関連する文書情報も格納される。
話題語集約手段320は、話題語データベース21の話題語候補を、ある一定の条件である話題語集約ルール記憶部630に格納されている話題語集約ルール23に基づいて、同一の意味にとれるような語句同士を集約していく。ある一定の期間T(正の整数)の間、話題語として抽出され続けているような語句を話題語候補から外す。話題語集約ルール23は、品詞による組み合わせ等で示されている。当該ルールの詳細については実施の形態の欄で詳述する。
時刻経過検査手段330では、話題語集約手段320で抽出した話題語候補を話題語DB21より取得し、その語句の時間的鮮度を検査する。また、NGワードリスト記憶手段640に格納されているNGワードリスト24に登録されているような語句を話題語候補から外す。また、NGワードリスト24に存在せず、新たに話題語候補から外された語句があれば、それをNGワードリストへ追加する。残った話題語候補は、話題語データベース21へ再度格納される。この際、話題語データベース21には集約された話題語候補の情報とそれらに関連する文書情報も関連付けて格納される。
この手段は、特に、同じ条件で定期的に検索を繰り返し実行するような場合に利用される手段であり、一度きりの実行の場合は飛ばしてもよい。
話題語スコア算出手段340は、話題語データベース21から、話題語候補に付属する文書データの更新日付や検索出力順位を用いて、話題語スコアを算出する。このとき、更新日付が新しく、検索出力順位が上位の文書データから抽出されている話題語候補は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。
文書分類手段350は、話題語スコアが高い順に文書データと共に、話題語を出力する。また、話題語スコアを話題語データベース21に格納することも可能である。
本発明(請求項13)は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムであって、請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムである。
本発明(請求項14)は、あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムを格納した記憶媒体であって、請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
これにより、リアルタイムにあるキーワードに基づいて、次々と取得される文書データもしくは、大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をすることが可能な、話題語による検索結果の分類方法を提供することができる。
上記のように、本発明によれば、主に検索結果で得られる本文のサマリーや検索キーワードの周囲の文書等から話題語を抽出するため、その話題語がキーワードに深く関連している可能性が高くなる。よって、より深くキーワードに関連した話題語を抽出することができる。
また、検索された文書によっては、あらゆる事柄について、網羅的に記述されているものもあるため、通常の分類装置では、分類不可能、または、特色を持たない文書と判断されてしまう場合がある。本発明では、検索結果により検索キーワードの付近の文書または、キーワードに関わる文書のサマリーを取得することで、そのキーワード周辺、つまり欲しい情報の話題について分類することが可能となる。
また、事前学習することなく、リアルタイムにあるキーワードを元に取得した、次々と更新され取得される文書データもしくは大量の文書データを解析し、そこから話題となっている語句を抽出することも可能となる。
また、文書の更新日付などにより話題語の鮮度を考慮した話題語スコア付けを行うことで、単なる検索結果の分類と異なり、その結果から見られる話題、つまり流行やユーザの関心事などを基に分類することになるため、ユーザに分かりやすく、また、その時流を反映した分類となる。
以上のように、「キーワードに関わる周辺の文書から話題語を抽出する」「話題語は抽出した文書の新しさと検索結果の出力順位が高い語句ほど話題語スコアが高くなる」を実行することで、従来の技術よりも話題というユーザにとって分かりやすく、その時々の流行などにより自在に変化する分類を行うことができるようになる。
以下、図面と共に本発明の実施の形態を説明する。
最初に本発明の概要を説明する。
図3は、本発明の概要を説明するための図である。
本発明は、リアルタイムに、あるキーワードに基づいて、次々と取得される文書データ、もしくは、大量の文書データを解析し、そこからキーワードとの関連性と時間的な新しさという観点で、話題となっている語句を抽出し、その話題語によって文書データを分類することで、よりそのキーワードに関わる特色のある分類をするものである。
ステップ10では、キーワードを基に、ユーザの欲する情報源から話題語抽出に必要な文書データ(更新日付、検索結果出力順位、本文、もしくは、本文の一部(サマリーやキーワードの前後の文章等)等)を検索結果から取得し、本文もしくはその一部を取得できない場合は、検索結果からURL(URI)等の文書の公開場所の文書データの一部として取得し、URL(URI)等の文書の公開場所を基にデータが補足収集される。本文全体が得られるような場合、もしくは、長文が得られるような場合は、その文書中でも検索キーワードの前後の文書を取得し、本文とする。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う処理を行う。
ステップ20では、ステップ10で取得した文書データを基に形態素解析を行い、話題語ルールに基づき表記の揺れを調整した後、話題語ルールを用いて話題語候補の抽出を行う。話題語ルールは、話題語ルール記憶部などの記憶手段に格納されており、話題語として適する語句が抽出できるよう、一定の条件(品詞の組み合わせ等)が格納されている。ここで表記の揺れの調整とは、文書の書き手によって表記の方法が様々であるから、同一語ととれる候補が取得された場合、一つにまとめてしまうことを指す。例えば「犬」と「イヌ」、「沈殿」と「沈澱」、「インタフェース」と「インターフェース」、「大日本帝国」と「大日本帝國」、「打合せ」・「打ち合せ」・「打合せ」・「打ち合わせ」など。表記の揺れに関するルールについても、話題語ルールの中に格納されている。また、話題語候補がキーワードと同じ、もしくは、包含されてしまうような場合は、話題語として適さないため話題語候補から外す。例えば、キーワードが「甲子園球場」の時、話題語候補として「甲子園球場」、「甲子園」、「球場」が取得された場合、これら3つの語句が文字列として、キーワードに全て包含されているため候補から外すことができる。
ステップ30では、話題語候補をある一定の条件:話題語集約ルール記憶部などの記憶手段に格納されている話題語集約ルールに基づいて、同一の意味にとれるような語句同士を集約していく。話題語集約ルールは、品詞による組み合わせ等で示されており、例えば、次のような場合に適用できる。「プログラミング言語」「プログラミングの言語」や、キーワードが「犬」の場合、「犬のトリーミング」「トリーミング」は、両者が同じ意味を持つ言葉と判断することができるため、どちらか一方に集約することができる。
ステップ40では、ステップ30で集約した話題語候補に対して、その話題語の時間的鮮度を検査する。ある一定の期間T(正の整数)の間、話題語として抽出され続けているような語句を話題語候補から外す。NGワードリストとして記憶手段に登録されているような語句を話題語候補から外す。また、NGワードリストに存在せず、新たに話題語候補から外された語句があれば、それをNGワードリストへ追加する当該ステップ40は必須ではない。
なお、ステップ40は、特に同じ条件で定期的に検索を繰り返し実行するような場合に利用される処理であり、本発明の第2の実施の形態で説明する。一度きりの実行の場合は当該ステップの処理を飛ばしてもよい(第1の実施の形態)。
ステップ50では、話題語スコアを算出し、ステップ10で取得した文書データを話題語毎に出力する。話題語候補に付属する文書データの更新日付や検索出力順位を用いて、話題語スコアを算出する。このとき、更新日付が新しく、検索出力順位が上位の文書データから抽出されている話題語は、その文書データに対する文書話題語スコアが高くなる。そして、一つの話題語スコアは、各文書話題語スコアを合計することで決定する。話題語スコアが高い順に文書データと共に話題語を出力する。
[第1の実施の形態]
本発明の第1の実施の形態では、あるキーワードを基に取得したWebページ等からの文書から話題語を抽出し、その話題語毎にその文書をクラスタリングすることを目的とする。この文書は、話題語を抽出するという目的から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なWebページの新着ページを基にするとその時々で盛り上がっている話題が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページにわたって説明している文書であればその歴史の主な話題を抽出することもできる。処理の詳細は以下に説明する。
図4は、本発明の第1の実施の形態における話題語による情報分類装置の構成を示す。
同図に示す話題語による情報分類装置は、コンピュータ10とこのコンピュータ10にネットワーク40を介して接続される文書データベース(文書DB)20と、話題語データベース(話題語DB)21,話題語ルールを格納する話題語ルール記憶部620、話題語集約ルール23を格納する話題語集約ルール記憶部630で構成される。
コンピュータ10は、RAM,ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボードなどからなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現されるデータ収集処理部500、話題語候補抽出処理部510、話題語集約処理部520、話題語スコア算出処理部540、及び文書分類処理部550とを備えている。
文書DB20には、話題語抽出対象となるコンテンツのURL(URI)、タイトル、本文内容(概要など)を表すテキスト文章、更新日時、検索結果の出力順位などのメタ情報が格納される。
話題語DB21には、コンテンツから抽出された話題語候補とその話題語候補に関連するコンテンツの数とそのコンテンツの情報、話題語選定処理により選定された話題語とその話題語に関連するコンテンツの数とそのコンテンツの情報、また、話題語候補となったが、話題語選定処理中に集約された話題語候補が格納される。
話題語ルール22は、話題語ルール記憶部620に格納され、話題語を抽出するための条件(品詞の組み合わせ等)が記述されている。このルールは、追加変更などが自在に行うことができる。
話題語集約ルール23は、話題語集約ルール記憶部630に格納され、同一の意味にとれるような話題語同士を集約するための条件(品詞の組み合わせ等)が記述されている。このルール23は、追加変更などを自在に行うことができる。
データ収集処理部500、話題語候補抽出処理部510、話題語集約処理部520や話題語スコア算出処理部540は、このように構成される話題語抽出システムの基であり、以降に説明する処理を実行することで本発明を実現するように動作する。
以下のその処理を説明する。
(1) データ収集処理部500:
図5は、本発明の第1の実施の形態におけるデータ収集処理のフローチャートである。
ステップ501) まず、データ収集処理部500は、外部入力や事前の設定値より、話題語抽出対象先や話題語を抽出したい関連キーワード等のパラメータを取得する。このパラメータの内容は、必要に応じて様々なものを用いることができる。例えば、
(a)抽出情報対象先:既存のDBや、インターネット上のWebページ全般、Weblog、ニュース記事等;
(b)関連キーワード:ユーザの得たい情報に関連するキーワードや特に関心のある話題等;
である。(a)は、(b)のキーワードを基に検索を行うので、検索できるデータ(DBもしくは検索エンジンを利用できるようなデータ)である必要がある。(a)でDBを利用しない場合、検索エンジンは一般に公開されている検索サイトを利用してもよいし、あるいは事前に検索サーバを構築し、設定しておくことで実現できる。
ステップ502) 次に取得した抽出情報対象先へ関連キーワードを検索クエリとして送る。この際、検索先が検索エンジンの場合、URL(URI)アドレス内に検索キーワードを付けて検索エンジンへ送るだけで検索結果が得られるサイトも存在する。例えば、gooblog検索の場合、
「http://blog.goo.ne.jp/search/serch.php?status=select&tg=all&ts=goo&st=time&dc=10&dp=all&ts=all&MT=検索キーワード&da=all」
のようなアドレスを送るだけで「検索キー」を検索キーワードとした検索結果(検索結果出力順位、ページのタイトル、更新日付、検索キーワードを含む前後の文章等)が返ってくる。但し、この検索キーワードは、URLエンコード(エスケープ)する必要がある。例えば、「サッカー」は「%A5%B5%A5%C3%A5%AB%A1%BC」となる。
既存のDBからデータを取得する場合は、本文全体から得られる場合もある。また、検索エンジンによっては、コンテンツの概要を検索結果として返す場合もある。いずれの場合もコンテンツを説明している本文とみなし、以下で扱うこととする。
本文が得られるような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。例えば、キーワードを真ん中に前後256文字を取得することや、キーワードを含む文書に加えて前後の1文章を取得することなどでもよい。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。
ステップ503) 上記のステップで取得したコンテンツ情報を文書DB20へ格納する。
(2)話題語候補抽出処理部20:
図6は、本発明の第1の実施の形態における話題語候補抽出処理のフローチャートである。
ステップ601) まず、話題語候補抽出処理部20は、文書DB20より対象文書情報を取り出す。
ステップ602) 次に、その文書を形態素解析する。また、その後、それぞれの語句の表記の揺れを調整する。形態素解析を行う対象は、データ収集処理部500で取得した文書の本文やタイトルである。また、ここで表記の揺れの調整とは、文書の書き手によって表記の方法が様々であることから、同一語と取れる候補が取得された場合、一つにまとめてしまうことをさす。例えば、「犬」と「イヌ」、「沈殿」と「沈澱」、「インタフェース」「インターフェース」、「大日本帝国」と「大日本帝國」、「打合せ」・「打合わせ」・「打合わせ」・「打ち合わせ」など。
ステップ603) 形態素解析結果から、話題語候補を抽出する。話題語は、扱う文章や分野、また、ユーザの好みによっても適する語句が異なる場合がある。本実施の形態では、次のような理由から3種類を話題語とし、名詞句を抽出することにし、そのルールは、話題語ルール22に記述されていることとする。
まず、多くの人がその内容について取り上げているもので、時間的な変化(短期的に集中することや長期で話されていること)があるものが、話題語として適していると言える。そして、その中でもユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が、利用価値が高い。
インパクトの強い言葉としては、固有名詞や新しい言葉が上げられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。
一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また名詞同士を格助詞の「の」ではさんだ言葉等があげられる。また、その言葉を一見してイメージできるものとして長すぎる言葉は、ユーザが読み上げなくてはならなくなるため適さない。よって、一定の長さ以下であることが望ましいと言える。
以上のことから、話題語として扱われる中でも固有名詞、名詞の連続、名詞+各助詞「の」+名詞を一定の長さ以下で記述された名詞句を本実施の形態では採用することとする。以下に、その正規表現を示す。「?」は、直前の語の「0」かまたは1回の出現を意味し、「│」は、その記号の前後の語のorをとることであり、「{A,B}」は、直前の語のA回以上、B回以下の繰り返しを意味する。但し、A,Bは正の整数である。また、a:格助詞「の」、n:名詞、N:固有名詞、p:名詞接頭時、s:名詞接尾辞を表す。
1.(p?(n│N)s?){2,4}
2.(p?(n│N)s?){1,3}a(p?(n│N){1,3}
3.N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを話題候補として取得する。これに従うと、例えば、「テロ組織の犯行声明」、「シフォンケーキ」「アメリカ大統領選挙」等が取得できる。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
以上のような内容が、話題語ルール22に記述されている。
ステップ604) キーワードの中に全て含まれてしまうような話題語の候補、つまり、「キーワード」⊇「話題語の候補」となる話は、話題語候補から外す。例えば、キーワードが「甲子園球場」のとき、話題語候補として「甲子園球場」、「甲子園」、「球場」が取得された場合、これら3つの語句が文字列として、キーワードに全て包含されているため候補から外すことができる。
ステップ605) 上記で抽出された話題語候補を話題語DB21に格納する。この際、話題語候補には話題語を抽出した基の文書情報も関連付けられて格納される。また、各々の文書から抽出した話題語候補が別の文書と同一になった場合は、1つの話題語候補として取り扱う。よって、話題語DB21の中には、一度に取得した文書全体の中で重複した話題語は存在しないことになる。
以上の処理を、話題語抽出対象文書数分繰り返し、それぞれの文書に対する話題語の候補を抽出する。
(3)話題語集約処理部520:
図7は、本発明の第1の実施の形態における話題語選定処理のフローチャートである。
ステップ701) 話題語集約処理部520は、話題語DB21から話題語候補を取得する。
ステップ702)話題語候補の中で次のような2種類の話題語が存在した場合は、1つに集約する。「DaE」と「DE」。ここで、DとEは、(p?(n│N)s?){1,3}であり、aは格助詞の「の」である。DとEの正規表現については、前述の(2)の話題語候補抽出処理部の説明の通りである。このとき、どちらの話題語候補に集約するかは、規定されないが、本実施の形態では、DaEへ集約することとする。話題語候補と文書の関係は、集約された話題語候補へと引き継がれる。例えば、「プログラミング言語」「プログラミングの言語」が話題語候補としてあがった場合は、「プログラミングの言語」に集約することができる。そして、「プログラミング言語」を含む文書データは、「プログラミングの言語」へと引き継がれる(つまり、「プログラミングの言語」を含む文書データとして扱われる)。
ステップ703) また、取得した話題語候補がキーワードを一部に含むような語句であれば、次の処理を行う。話題語候補の中で、
1.[1] KD
[2] KaD
[3] D
としたとき、[1]と[2]の候補が共存した場合、[2]に集約する。
[1][3]、[2][3]、[1][2][3]のいずれかの候補が共存した場合、[3]に集約する。
2.[1] DK
[2] DaK
[3] D
としたとき、[1][2]の候補が共存した場合、[2]に集約する。
[1][3]、[2][3]、[1][2][3]のいずれかの候補が共存した場合、[3]に集約する。
但し、
a:格助詞の「の」
K:キーワード
D:(p?(n│N)s?){1,3}
であるとする。
例えば、キーワードが「犬」の場合、「犬のトリーミング」「トリーミング」が話題語候補としてあがった場合は「犬のトリーミング」に集約することができる。但し、話題語候補と文書の関係は、集約された話題語候補へと引き継がれる。
ステップ704) 集約された話題語候補は、集約した側の話題語候補の付属情報として関連付け、話題語DB21へ格納する。この際、関係する文書情報も共に格納する。
以上を全ての話題語候補について処理する。この処理により、話題語候補の集約が終了する。
(4)話題語スコア算出処理部540:
図8は、本発明の第1の実施の形態における話題語スコア算出処理及び、文書分類処理のフローチャートであり、ステップ801〜ステップ804が、話題語スコア算出処理部540で行われる処理であり、ステップ805〜ステップ808が、後述する文書分類処理部550で行われる処理である。
ステップ801) 話題語スコア算出処理部540は、話題語DB21において、ある話題語候補もしくは、その付属情報の話題語候補のいずれかの文字列を含む文書情報を文書DB20から取得する。
ステップ802) 文書が検索結果から取得したものであり、かつ文書の更新日付情報がある場合は、文書の更新日付情報と検索結果出力順位情報を基にその文書に対する文書話題語スコアを算出する。例えば、次のような日付スコアと検索結果スコアを加算して文書話題語スコアを算出する方法がある。日付スコアは、例えば、文書を取得した時刻から24時間以内であれば、「1」、それ以降であれば、「1」を経過した日数で割った値を日付スコアにする方法などでもよい。そして、検索結果出力順位情報、または、検索エンジンなどで用いられているようなスコアリング方法でもよい。
検索結果スコアは、例えば、「1」を出力順位で割った値にする方法などでもよい。
ステップ803) 文書が検索結果から取得したものであり、文書の日付情報がない場合には当該ステップ802の処理を飛ばし、検索結果出力順位情報を基に、文書に対する文書話題語スコアを計算する。例えば、「1」を出力順位で割った値にする方法でもよい。
ステップ804) 話題語候補もしくは、その付属情報である、集約された話題語候補のいずれかの文字列を含む文書全ての文書話題語スコアを合計し、その値を話題語スコアとする。図9に、本発明の第1の実施の形態における文書例と出力例を示す。図9に従うと、『文書A』には、話題語候補として「アジアカップ」「日本」があり、『文書B』には「ワールドカップ予選」「日本」「韓国」があり、『文書C』には、話題語候補として「アジアカップ」があった場合、それぞれの文書話題語スコアが図9の(a)に示すようになっていた場合、話題語スコアは、図9の(b)に示すようになる。そして、話題語スコアを話題語候補の付属情報として、話題語DB21へ格納する。
(5) 文書分類処理部550:
図8のフローチャートを用いて文書分類処理部550の動作を説明する。
ステップ805) 文書分類処理部550は、文書が検索結果から取得したものである場合は、前述のステップ801〜ステップ804の処理の全ての話題語候補に対して実施する。そして、話題語スコアが高い順に話題語候補を並び替える。
ステップ806) 話題語スコアが定数Yよりも低く、かつ、その話題語候補もしくは、それに集約された話題語候補(付属情報)の文字列を含む文書の数が定数Mよりも少ない話題語候補は、候補から外し、残りを話題語に設定する。このとき、YとMは正の整数である。
ステップ807) 話題語もしくは、それに集約された話題語候補(付属情報)の文字列を1つも含まない文章がある場合は、「該当なし」として、話題語DB21に格納する。
ステップ808) 文書DB20と話題語DB21から、話題語とそれに関連する文書を話題語スコアが高い順、もしくは、文書数が多い順にリスト形式で出力する。その出力例を図9(c)に示す。
この情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、2次元や3次元等、様々に適用することができる。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
[第2の実施の形態]
本発明の第2の実施の形態では、RSSフォーマットで提供されているニュースやWebBlogポータルから最新のRSSを取得し、そこから得られた情報から話題語を抽出し、その話題語毎に、コンテンツをクラスタリングすることを目的とする。RSSフォーマットで提供される情報は、随時更新されていることから、この情報を定期的に更新し、随時新着情報を取得し、新着の話題語とそのコンテンツをユーザに提供することができる。
あるURIに検索キーワードを送信するとRSSフォーマットで検索結果を返すようなサイトも存在する。よって、このサイトへ定期的にアクセスすることで調べたいキーワードに関連する情報を入手することも可能である。中には、あるキーワードを登録しておくと常にそのキーワードに関連する情報をRSSフォーマットで提供するようはサイトも存在する。このため、新着の中でも気になるキーワードで情報を追いかけていくこともできる。例えば、「サッカー」の中でもどんなことが話題になっているかを把握することができる。また、キーワードを基に取得できないような情報であっても、本発明と検索エンジンをセットで利用することにより、随時更新される情報をRSSフォーマットで取得し、コンテンツの情報をキーワードで検索し、興味のある情報だけを入力元にすることも可能である。
処理の詳細については、以下で説明する。
図10は、本発明の第2の実施の形態における話題語による情報分類装置の構成図である。
同図に示す話題語による情報分類装置は、コンピュータ10とこのコンピュータ10にネットワーク40を介して接続される文書データベース(文書DB)20と話題語データベース(話題語DB)21、話題語ルール22を格納する話題語ルール記憶部620、話題語集約ルール23を格納する話題語集約ルール記憶部630、NGワードリスト24を格納するNGワードリスト記憶部640で構成されている。
コンピュータ10は、RAM,ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボードなどからなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現されるデータ収集処理部500と話題語候補抽出処理部510と話題語集約処理部520と時刻経過検査結果処理部530と話題語スコア算出処理部540と文書分類処理部550とを備えている。
文書DB20には、話題語抽出対象となるコンテンツのURL(URI)、タイトル、本文内容(概要など)を表すテキスト文章、更新日時などのメタ情報が格納されている。
話題語DB21には、コンテンツから抽出された話題語候補とその話題語候補に関連するコンテンツの数とそのコンテンツの情報、話題語選定処理により選定された話題語とその話題語に関連するコンテンツの数、また、コンテンツ情報を取得した時間情報とそのコンテンツの情報、また、話題語候補となったが、話題語選定処理中に集約された話題語候補が格納される。
話題語ルール22は、話題語ルール記憶部620に格納され、話題語を抽出するための条件が記述されている。このルールは追加変更などが自在に行える。
話題語集約ルール23は、話題語集約ルール記憶部630に格納され、同一の意味にとれるような話題語同士を集約するための条件が記述されている。このルールは、追加変更などが自在に行える。
NGワードリスト24は、話題語としてふさわしくない語句を集めたリストである。このNGワードリスト24は、簡略化して用意せずに処理することも可能である。
データ収集処理部500、話題語候補抽出処理部510、時刻経過検査処理部530、話題語集約処理部520や、話題語スコア算出処理部540は、このように構成される話題語抽出システムにおいて、以降に説明する処理を実行することで本発明を実現するように動作する。
以下のその処理を説明する。
(1) データ収集処理部500:
図11に本発明の第2の実施の形態におけるデータ収集処理のフローチャートを示す。
ステップ1001) データ収集処理部500は、まず、指定されたキーワードを基に、事前に登録されたRSS提供サイトのURIから、RSSフォーマットで記述されたコンテンツ群を取得する。例えば、gooblog検索の場合、
http://blog.goo.ne.jp/search/search.php?status&tg=all&st=time&dc=50&dp=all&bu=&ts=all&MT=「検索キー」&da=all&rss=1&fr=1
のようなアドレスを送るだけで、「検索キー」を検索キーワードとした検索結果50件分がRSSフォーマットで返ってくる。但し、この検索キーは、URLエンコード(エスケープ)する必要がある。「サッカー」は、「%A5%B5%A5%C3%A5%AB%A1%BC」となる
これは、複数のサイト(URI)を事前に登録しておくことも可能である。複数のサイト(URI)が登録してある場合は、データ収集処理部500のフローを登録数分繰り返すことで実現できる。
図12に本発明の第2の実施の形態におけるRSS記述例を示す。
ステップ1002) 取得した情報は、<item>と</item>タグで挟まれた情報を1コンテンツとみなす。そして、その中にある<title>:タイトル、<link>:リンク情報、<description>:本文(コンテンツの概要等)を取得する。
ステップ1003) “description”は、記述されている場合とされていない場合がある。また、“description”を分析に扱うには、あまりにも少ない文字列であるような場合もある。例えば、1文にも満たない文字列であった場合、話題語を抽出するには不向きといえる。このように、本文が取得できなかった場合は、リンク情報を基に直接コンテンツの本文を取得する。このとき、本文の取得の仕方は様々ある。例えば、htmlファイルであれば、<p>タグで囲まれた最も長い文章が記述されている部分を本文とみなし取得することもできる。長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。例えば、キーワードを真ん中に前後に256文字を取得することや、キーワードを含む文書に加えて前後の1文章を取得することなどでもよい。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。いずれの場合もコンテンツを説明している本文とみなし、以下で扱うこととする。
ステップ1004) 上記のステップで得たコンテンツ情報、つまりタイトルとリンク情報と本文、そして、RSSの取得時刻をコンテンツの1セットとし、文書DB20へ格納する。RSS内には、複数のコンテンツ情報が記述されていることが多い。このため、コンテンツの数分情報を取得し、文書DB20へ格納することとする。
(2) 話題語候補抽出処理部510:
図13に本発明の第2の実施の形態における話題語候補抽出処理のフローチャートを示す。
ステップ1101) 話題語候補抽出処理部510は、まず、文書DB20より最新のRSSより取得したコンテンツの本文とタイトルを取り出す。これをコンテンツの文書とする。本文のみを文書としてもよい。
ステップ1102) 次に、その文書を形態素解析する。
ステップ1103) 形態素解析結果から話題語候補を抽出する。話題語は、扱う文章や分野、またユーザの好みによっても適する語句が異なる場合がある。本実施の形態では、次のような理由から3種類を話題語とし、名詞句を抽出することにし、そのルールは、話題語ルール22に記述されていることとする。
まず、多くの人がその内容について取り上げているもので、時間的な変化(短期的に集中することや長期で話されていること)があるものが、話題語として適しているといえる。そして、その中でもユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が利用価値が高い。
インパクトが強い言葉としては、固有名詞や新しい言葉があげられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。
一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また、名詞同士の格助詞の「の」で挟んだ言葉等があげられる。また、その言葉を一見してイメージできるものとして、長すぎる言葉は、ユーザが読み上げなくてはならなくなるために適さない。よって、一定の長さ以下であることが望ましい。
以上のことから、話題語として扱われる中でも固有名詞、名詞の連続、名詞+格助詞「の」+名詞を、一定の長さ以下で記述された名詞句を本実施の形態では採用することとする。以下にその正規表現を示す。「?」は、直前の語の0かまたは、1回の出現を意味し、「│」は、その記号の前後の語のorをとることであり、「{A,B}」は、直前の語のA回以上B回以下の繰り返しを意味する。但し、A,Bは正の整数である。また、a:格助詞「の」、n:名詞、N:固有名詞、p:名詞接頭辞、s:名詞接尾辞を表す。
1. (p?(n│N)s?){2,4}
2. (p?(n│N)s?){1,3}a(p?(n│N)s?){1,3}
3. N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長のマッチングを話題語候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
以上のような内容が、話題語ルール22に記述されている。
ステップ1104) キーワードの中に全て含まれてしまうような話題語の候補、つまり、「キーワード」⊇「話題語の候補」となる語は、話題語候補から外す。
ステップ1105) 上記で抽出された話題語候補を話題語DB21に格納する。この際、話題語候補には、話題語を抽出した基の文書情報も関連付けられて格納される。また、各々の文書から抽出した話題語候補が別の文書と同一になった場合は、1つの話題語候補として取り扱う。よって、話題語DB21の中には、一度に取得した文書全体の中で重複した話題語は存在しないことになる。
以上の処理を、話題語抽出対象文書数分繰り返し、それぞれの文書に対する話題語の候補を抽出する。
(3) 話題語集約処理部520:
図14は、本発明の第2の実施の形態に置ける話題語集約処理のフローチャートである。
同図に示すフローチャートにおいて、ステップ1201〜ステップ1203、ステップ1205のステップは、前述の第1の実施の形態における図7のステップ701〜704の動作の同様である。
本実施の形態では、話題語集約処理部520において、NGワードリスト24がある場合には、そのリストと照合し、該当する話題語候補を、候補から削除する(ステップ1204)。
(4) 時刻経過検査処理部530:
図15に本発明の第2の実施の形態における時刻経過検査処理のフローチャートを示す。
ステップ1301) 時刻経過検査処理部530は、話題語DB21の中で、最新のコンテンツ情報を取得した時刻TNから定数T(時刻を表す正の値)時間さかのぼった時刻TPまでの全ての話題語とそのコンテンツ情報を取得した時刻とを取得する。
ステップ1302) 時刻TPからTNまでの話題語(その話題語の補助情報である話題語候補も含む)とTNで取得した話題語候補を照合し、時刻が変化しても絶え間なく抽出され続けている話題語、もしくは、話題語候補がある場合、その語句をTNの話題語候補から削除する。また、NGワードリスト24がある場合は、リストにその話題語や付属情報である話題語候補を追加する。
この処理により、本文とは関係ない情報を誤認識して、いつも同じ文書を抽出しているような場合等、話題語としてふさわしくない語が抽出されてしまう危険性を防ぐことができる。
(5) 話題語スコア算出処理部540・文書分類処理部550:
この処理は、第1の実施の形態における話題スコア算出処理部540及び文書分類処理部550と同じ処理を行うため、これらの処理部の説明は省略する。
最終的に得られる情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、2次元や3次元等様々に適用することができる。また、文書を繰り返し一定時間毎に取得する場合は、話題語を時系列で保存していることから、話題語の推移を見ることができる。この推移は、RSSを取得した時刻毎に話題語DB21から話題語を取得し、出力することで可能となる。
なお、上記の第1の実施の形態及び第2の実施の形態の情報分類装置の各構成要素の動作をプログラムとして構築し、情報分類装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを、情報分類装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ニュースやBlog等の日々更新されていく情報から最新の話題となっている語を自動抽出し、その情報を分類する技術に適用可能である。
本発明の原理説明図である。 本発明の原理構成図である。 本発明の概要を説明するための図である。 本発明の第1の実施の形態における話題語による情報分類装置の構成図である。 本発明の第1の実施の形態におけるデータ収集処理のフローチャートである。 本発明の第1の実施の形態における話題語候補抽出処理のフローチャートである。 本発明の第1の実施の形態における話題語集約処理のフローチャートである。 本発明の第1の実施の形態における話題語スコア算出処理及び文書分類処理のフローチャートである。 本発明の第1の実施の形態における文書例と出力例である。 本発明の第2の実施の形態における話題語による情報分類装置の構成図である。 本発明の第2の実施の形態におけるデータ収集処理のフローチャートである。 本発明の第2の実施の形態におけるRSS記述例である。 本発明の第2の実施の形態における話題語候補抽出処理のフローチャートである。 本発明の第2の実施の形態における話題語集約処理のフローチャートである。 本発明の第2の実施の形態における時刻経過検査処理のフローチャートである。
符号の説明
10 コンピュータ
11 表示部
12 指示入力部
20 文書DB
21 話題語DB
22 話題語ルール
23 話題語集約ルール
24 NGワードリスト
40 ネットワーク
300 データ収集手段
310 話題語候補抽出手段
320 話題語集約手段
330 時刻経過検査手段
340 話題語スコア算出手段
350 文書分類手段
500 データ収集処理部
510 話題語候補抽出処理部
520 話題語集約処理部
530 時刻経過検査処理部
540 話題語スコア算出処理部
550 文書分類処理部
620 話題語ルール記憶手段、話題語ルール記憶部
630 話題語集約ルール記憶手段、話題語集約ルール
640 NGワードリスト記憶手段、NGワードリスト記憶部

Claims (14)

  1. あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類方法において、
    指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、
    前記文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップと、
    話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約ステップと、
    前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップと、
    前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップと、
    を行うことを特徴とする情報分類方法。
  2. 前記データ収集ステップにおいて、
    前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする請求項1記載の情報分類方法。
  3. 前記話題語スコア算出ステップにおいて、
    前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
    前記文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する、
    請求項1記載の情報分類方法。
  4. 前記話題語集約ステップにおいて、
    前記話題語として、
    前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
    前記検索キーワードに包含されない語句、
    話題語としてふさわしくない語句が格納されている前記NGワードリストに存在しない語句、
    前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
    を抽出する請求項1記載の情報分類方法。
  5. 前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査ステップを更に行う
    請求項1記載の情報分類方法。
  6. 前記話題語集約ステップにおいて、
    NGワードリスト記憶手段に格納されたNGワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する請求項1記載の情報分類方法。
  7. あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
    話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルールを格納した話題語ルール記憶手段と、
    品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルールを格納した話題語集約ルール記憶手段と、
    話題語としてふさわしくない語句が格納されているNGワードリストを格納したNGワードリスト記憶手段と、
    指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集手段と、
    前記文書データベースから文書データを読み出して、該文書データから、前記話題語ルール記憶手段に格納されている前記話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出手段と、
    前記話題語集約ルール記憶手段に格納された前記話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約手段と、
    前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段と、
    前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、話題語スコアが高い順に文書データを話題語毎に分類する文書分類手段と、
    を有することを特徴とする情報分類装置。
  8. 前記データ収集手段は、
    前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む請求項7記載の情報分類装置。
  9. 前記話題語スコア算出手段は、
    前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
    前記文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、
    を含む請求項7記載の情報分類装置。
  10. 前記話題語集約手段は、
    前記話題語として、
    前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
    前記検索キーワードに包含されない語句、
    話題語としてふさわしくない語句が格納されている前記NGワードリストに存在しない語句、
    前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
    を抽出する手段を含む請求項7記載の情報分類装置。
  11. 前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段を更に有する請求項7記載の情報分類装置。
  12. 前記話題語集約手段は、
    前記NGワードリスト記憶手段に格納された前記NGワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する手段を含む請求項7記載の情報分類装置。
  13. あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムであって、
    前記請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させることを特徴とする情報分類プログラム。
  14. あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムを格納した記憶媒体であって、
    前記請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする情報分類プログラムを格納した記憶媒体。
JP2004324241A 2004-11-08 2004-11-08 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Expired - Fee Related JP4466334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004324241A JP4466334B2 (ja) 2004-11-08 2004-11-08 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004324241A JP4466334B2 (ja) 2004-11-08 2004-11-08 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Publications (3)

Publication Number Publication Date
JP2006134183A true JP2006134183A (ja) 2006-05-25
JP2006134183A5 JP2006134183A5 (ja) 2007-04-05
JP4466334B2 JP4466334B2 (ja) 2010-05-26

Family

ID=36727663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004324241A Expired - Fee Related JP4466334B2 (ja) 2004-11-08 2004-11-08 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP4466334B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法
JP2008234317A (ja) * 2007-03-20 2008-10-02 Dainippon Printing Co Ltd テーマキーワードの関連キーワードを表示する方法、および、ウェブサーバ
JP2010191710A (ja) * 2009-02-18 2010-09-02 Yahoo Japan Corp ジャンル判定辞書作成装置、ジャンル判定装置及び方法
JP2011008420A (ja) * 2009-06-24 2011-01-13 Yahoo Japan Corp カテゴリを対応付けする装置、方法、およびプログラム
JP2011215950A (ja) * 2010-03-31 2011-10-27 Toshiba Corp キーワード提示装置、方法及びプログラム
JP2012033167A (ja) * 2010-07-29 2012-02-16 Nhn Corp 文書順位決定システムおよび方法
JP2012243129A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム
US8612202B2 (en) 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information
JP2015511733A (ja) * 2012-05-24 2015-04-20 三菱電機株式会社 テキストを分類する方法
JP2015141323A (ja) * 2014-01-29 2015-08-03 トヨタ自動車株式会社 情報収集方法、対話システム及び情報収集装置
CN108961071A (zh) * 2018-06-01 2018-12-07 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN112052397A (zh) * 2020-09-29 2020-12-08 北京百度网讯科技有限公司 用户特征生成方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854B (zh) * 2017-07-27 2021-06-04 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法
JP2008234317A (ja) * 2007-03-20 2008-10-02 Dainippon Printing Co Ltd テーマキーワードの関連キーワードを表示する方法、および、ウェブサーバ
US8612202B2 (en) 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information
JP2010191710A (ja) * 2009-02-18 2010-09-02 Yahoo Japan Corp ジャンル判定辞書作成装置、ジャンル判定装置及び方法
JP2011008420A (ja) * 2009-06-24 2011-01-13 Yahoo Japan Corp カテゴリを対応付けする装置、方法、およびプログラム
JP2011215950A (ja) * 2010-03-31 2011-10-27 Toshiba Corp キーワード提示装置、方法及びプログラム
US8782049B2 (en) 2010-03-31 2014-07-15 Kabushiki Kaisha Toshiba Keyword presenting device
JP2012033167A (ja) * 2010-07-29 2012-02-16 Nhn Corp 文書順位決定システムおよび方法
JP2012243129A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム
JP2015511733A (ja) * 2012-05-24 2015-04-20 三菱電機株式会社 テキストを分類する方法
JP2015141323A (ja) * 2014-01-29 2015-08-03 トヨタ自動車株式会社 情報収集方法、対話システム及び情報収集装置
CN108961071A (zh) * 2018-06-01 2018-12-07 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN108961071B (zh) * 2018-06-01 2023-07-21 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN112052397A (zh) * 2020-09-29 2020-12-08 北京百度网讯科技有限公司 用户特征生成方法、装置、电子设备及存储介质
CN112052397B (zh) * 2020-09-29 2024-05-03 北京百度网讯科技有限公司 用户特征生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4466334B2 (ja) 2010-05-26

Similar Documents

Publication Publication Date Title
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN105824959B (zh) 舆情监控方法及系统
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
Fukuhara et al. Understanding Sentiment of People from News Articles: Temporal Sentiment Analysis of Social Events.
JP5359399B2 (ja) テキスト分析装置および方法、並びにプログラム
JPWO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CA2774278A1 (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
KR20120108095A (ko) 소셜 데이터 분석 시스템
KR20090087269A (ko) 컨텍스트 기반 정보 처리 방법 및 장치, 그리고 컴퓨터기록 매체
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
JP2014085862A (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Darmawiguna et al. The development of integrated Bali tourism information portal using web scrapping and clustering methods
JP2011070291A (ja) トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
JP5661719B2 (ja) 質問応答装置、方法、及びプログラム
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees