JP2004185135A

JP2004185135A - 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体

Info

Publication number: JP2004185135A
Application number: JP2002348779A
Authority: JP
Inventors: Yasuhiro Takayama; 泰博高山; Takeyuki Aikawa; 勇之相川; Yamahiko Ito; 山彦伊藤; Katsushi Suzuki; 克志鈴木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-11-29
Filing date: 2002-11-29
Publication date: 2004-07-02

Abstract

【課題】従来の話題変化抽出は，新規な話題や話題間の関連性、話題の構成に重要な基本語が得られない。また、新規な話題や話題間の関連性を得る別例は、各単語と他の単語との関係からなる話題を抽出できない。
【解決手段】時間情報を有する文書集合から、単語毎のベクトル情報を持つ概念辞書を生成する工程と、文書集合の各文書の索引を生成する工程と、文書集合から単語間の関係を含む話題候補を生成する工程と、文書集合から所定時間毎の区間ベクトルを生成する工程と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い所定個数の話題を話題候補から選択する工程と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する工程と、前記話題変化抽出工程で抽出した話題の変化を表示する工程とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、コンピュータを用いて電子化された文書に含まれる文書内容から、話題を自動的に抽出し、更にその話題の時間毎の変化を抽出することによって、文書において重要な話題の流れを概観することを可能にする話題変化抽出処理に関するものである。
【０００２】
【従来の技術】
時間情報を有する文書を所定の時間間隔で分類し、分類カテゴリ別に時系列に並べ、時間的な分類カテゴリの件数の変遷を抽出し、視覚化する方法と装置を提供する従来技術に、従来技術１（特開平１０−１５４１５０号「情報潮流提示方法およびその装置」）がある。
【０００３】
図９は、特開平１０−１５４１５０号における従来の情報潮流提示方法の構成を示したものである。
【０００４】
図９において、既知分類カテゴリ計算部１００１、新分類カテゴリ計算部１００２、時間分類カテゴリ計算部１００３により、文書集合からあらかじめ設定された既知分類カテゴリ、自動的に求めた新分類カテゴリ、時間毎の分類カテゴリを夫々独立に計算する。
【０００５】
次に、分類カテゴリ整列部１００４において既知分類カテゴリ１と新分類カテゴリを時間毎の分類カテゴリに基づいて時間毎に整列させて表示部１００５に表示させることにより、時間的な話題の変遷を提示する方法を提供する。
【０００６】
また、新規な話題の発見や話題間の関連性を得たいという要求を解決するために、時間的変化を把握するための方法が、従来技術２（特開２００２−４１５４３号「情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体」）に開示されている。従来技術２は、新しい文書追加の多い文書データベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出とその時間変化の追跡により、現在の文書データベース内容のその時における時間的変化の把握を容易にした情報潮流検出・提示方法およびその装置ならびに記憶媒体を提供することを目的としている。
【０００７】
従来技術２の構成を図１０に示す。従来技術２は、図１０に示すように、文書解析装置２００３において電子文書データベース２００１の文書を単語リスト２００２を参照して解析し、更新前の文書毎の単語の頻度表２００４と更新後の文書毎の単語の頻度表２００５を得る。その解析結果を独立話題分析装置２００６において独立して話題を分析し、更新前の話題毎の単語の重要度表２００７と更新後の話題毎の単語の重要度表２００７を得る。
【０００８】
従来技術２では、次に、話題新規性計測および自動判定手段２００９で独立した話題から話題の新規性を自動抽出して、話題関連性ＤＢ２０１０に蓄積し、話題関連性表示データ作成手段２０１１で話題関連性ＤＢ２０１０から話題関連性を表示するデータを作成して、ディスプレイ２０１２に表示する。
【０００９】
上記従来技術１および従来技術２では、文書を単なる単語の集合とみなしており、話題を統計的に重要であると判定した単語の集合で表すことを想定している。このため、文書全体を通して出現頻度が高い基本語は、統計的な処理のみでは、重要であると判定できないため、話題を構成する要素からは漏れてしまう。
【００１０】
【特許文献１】
特開平１０−１５４１５０号公報
【特許文献２】
特開２００２−４１５４３号公報
【非特許文献１】
高山他著「単語の連想関係に基づく情報検索システムＩｎｆｏＭＡＰ」、
情報学基礎研究会資料１９９９−３、第５３巻、第１号、情報処理学会
【００１１】
【発明が解決しようとする課題】
【００１２】
この発明は、上記のような問題点を解決するためになされたもので、文書集合から他の単語との関係にある単語の対または組みを「話題」として抽出することで、従来技術では抽出できない基本語を含む単語の組を話題として抽出可能であり、時間毎に重要な話題を選択してその重要度の変化を抽出することができる話題変化抽出方法および話題変化抽出装置を提供する。
【００１３】
【課題を解決するための手段】
この発明に係る話題変化抽出方法は、時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成ステップと、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成ステップと、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成ステップと、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成ステップと、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択ステップと、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出ステップと、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示ステップとを備える。
【００１４】
【発明の実施の形態】
実施の形態１．
図１は、この発明の第一の実施の形態における話題変化抽出装置の構成例を示したものである。図１に示した話題変化抽出化装置は、時間情報を有する文書集合１から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書１１を生成する概念辞書生成部２と、全文検索索引および文書ベクトル索引を持つ文書索引を生成する文書索引生成部３と、全文検索、あるいは文書ベクトルを用いた類似検索により、話題抽出を行なう文書集合１を選択する文書集合選択部４と、選択された文書集合１から単語と単語の関係を含む話題候補を生成する話題候補生成部５と、指定した刻みの時間軸の区間ごとにその区間に属する文書の文書ベクトルから区間ベクトルを生成する区間ベクトル生成部６と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に相関の高い指定個数の話題を話題候補から選択する話題選択部７と、話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結する話題変化抽出部８と、前記話題変化抽出部８で抽出した話題の変化を表示する話題変化表示部９と、表示された話題変化からもとの文書情報を参照する文書参照部１０とから構成される。
【００１５】
この発明の第一の実施の形態における動作を図１において説明する。まず、概念辞書生成部２において、時間情報を有する文書集合１から、単語毎の特徴をあらわすベクトル情報を持つ辞書ベクトルを生成し、概念辞書１１に蓄積する。
【００１６】
次に、文書索引生成部３において概念辞書１１を参照して全文検索索引および文書ベクトルからなる文書索引を生成する。
【００１７】
次に、文書集合選択部４において、全文検索、あるいは概念検索（文書ベクトルを用いた類似検索）により、話題抽出を行なう文書集合１を選択する。
【００１８】
次に、話題候補生成部５において、選択された文書集合１から話題候補を生成する。話題候補生成部５の詳細な処理の流れを図２において説明する。
【００１９】
図２において、ステップＳ２０１で、選択された文書集合１から文書中における単語の出現頻度に関する統計情報（ＴＦ−ＩＤＦ値、χ^２値等）により特徴キーワードを生成する。この際に用いる統計情報は、表全体における単語の出現傾向の特徴を表すものであれば、いずれの手法であってもこの発明の本質を損なうものではない。
【００２０】
次に、ステップＳ２０２で、特徴キーワードの上位ｘ１個と共起関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補１と呼ぶ。
【００２１】
次に、ステップＳ２０３で、特徴キーワードの上位ｘ２個と係り受け関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補２と呼ぶ。
【００２２】
次に、ステップＳ２０４で、特徴キーワードの上位ｘ３個から、その特徴キーワードと相関の高いキーワード組の集合を抽出する。このキーワード組を話題候補３と呼ぶ。ここで、相関はベクトル同士の角度（余弦値）により計算するものとする。
【００２３】
ここで、ｘ１、ｘ２、ｘ３の値は任意に指定可能な整数であるとする。
【００２４】
図１において、話題候補生成部５の処理の次に、区間ベクトル生成部６において、選択された文書集合１のうち、指定した刻みの時間軸の区間ごとに、その区間に属する文書の文書ベクトルのベクトル和から区間ベクトルを生成する。なお、話題候補生成部５と区間ベクトル生成部６の処理は独立であるので、順序はどちらが先でも良い。
【００２５】
話題候補および区間ベクトルが求まると、次に、話題選択部７において、上記話題候補１、話題候補２、話題候補３を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い指定個数の話題を話題候補から選択する。ここで、話題重要度は、ベクトル同士の角度（余弦値）により計算するものとする。
【００２６】
次に、話題変化抽出部８において、話題選択部７で求めた話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結することによって、話題の変化を抽出する。
【００２７】
話題変化表示部９では、話題変化抽出部８で抽出した、話題の変化をディスプレイ等の表示装置に表示する。
【００２８】
また、文書参照部１０では、話題変化表示部９に表示された話題を指定して、かかる話題に該当する文書を文書集合１から検索して利用者に提示する。
【００２９】
図３は、文書集合１が携帯電話の評判に関するアンケートデータの場合に、その文書集合からこの発明の方式に基いて抽出した話題変化を表示した例を示している。図３において、キーワード「和音」が話題候補生成部５において、図２のステップＳ２０１で求めた特徴キーワードである。また、「和音−少ない」、「和音−多過ぎ」という固まりが抽出された話題である。この例は、話題を文書の集合あるいは独立した単語の集合として捉えている従来技術では抽出できなかった「少ない」、「多過ぎ」といった基本語を含む話題とその変化が、この発明によって抽出可能であることを示している。
【００３０】
なお、簡単のため上記の例では話題を２つのキーワード対であるとして説明しているが、複数のキーワードの組を話題として抽出しても良い。
【００３１】
また、図３では、話題が分化した場合の例を示しているが、この発明の方法では、話題候補生成部５における話題の抽出と、話題選択部７における話題の選択を独立に行なうため、新規話題の検出も可能である。
【００３２】
図４は、この発明における概念辞書生成部２の処理の流れを示したものであり、また、図５は、概念辞書生成のデータの流れを示したものである。
図４及び図５を用いて概念辞書生成部２の処理を説明する。
【００３３】
図４において、まず、ステップＳ４０１で、文書集合１に含まれるテキストを形態素解析することによって、テキスト中の文字列を単語毎に分割する。なお、形態素解析に関しては、広く公知の技術であるので、ここでは、詳細な説明を省略する。このとき図５に示す学習対象の文書集合５０１は、必ずしも文書集合１そのものでなくて、文書集合１と同一分野における他の文書集合を用いても良い。
【００３４】
次に、ステップＳ４０２において、文書集合５０１の各文書における単語と単語が同時に出現した回数である共起頻度を計算して共起頻度表５０２を求める。
【００３５】
次に、ステップＳ４０３において、共起頻度表５０２を特異値分解する。特異値分解は、行列Ａ（ここでは、共起頻度表５０２）を３つの行列（ＵΣＶ）の積に分解する公知の線形代数手法である。たとえば、文献３（「単語の連想関係に基づく情報検索システムＩｎｆｏＭＡＰ、高山他、情報学基礎５３−１、１９９９−３」）に特異値分解を用いて作成する概念辞書を用いた文書検索方法に関する記述がある。なお、特異値分解の代りに、固有値分解を用いても良い。
【００３６】
次に、ステップＳ４０４において、ステップＳ４０３で特異値分解して得た行列Ｕ５０３から、行列Σ５０４に含まれる特異値の大きいほうから指定したのｋ個（ｋは元の行列Ａの列の数より小さいものとする）の列を概念辞書５０６として出力する。概念辞書５０６は共起頻度表５０２よりも次元縮退されており、各行を高次の相関関係を含む単語ベクトルとみなすことができる。
【００３７】
図６は、この発明における文書索引生成部３における文書ベクトル索引生成の構成を示したものである。また、図７は、文書ベクトル索引の処理の流れを示したものである。
【００３８】
図６において、文書集合１に対して、ベクトル生成手段６０１は、概念辞書１１を参照して、文書ベクトル索引６０２を生成する。なお、ベクトル生成手段６０１と文書ベクトル索引６０２で文書索引生成部３を構成する。このときのベクトル生成手段６０１の処理の流れを図７において説明する。
【００３９】
図７において、まずステップＳ７０１で、文書集合１の各文書を形態素解析して、文書中のテキストを単語毎に分割する。
【００４０】
次に、ステップＳ７０２で各文書毎に出現するそれぞれの単語毎の頻度を計算する。
【００４１】
次に、ステップＳ７０３で概念辞書５０６から各単語に対する概念ベクトルを取り出す。
【００４２】
次に、ステップＳ７０４で各文書に出現する単語の概念ベクトルにステップＳ７０２で計算した頻度を係数として乗算したベクトルを加算したものを、かかる文書の文書ベクトル索引６０２として出力する。
【００４３】
図８は、この発明における文書集合選択部４および文書参照部１０における文書ベクトルを用いた検索の処理を示したものである。図８において、検索入力８０１がテキストで与えられると、ベクトル生成手段６０１が概念辞書１１を参照して文書ベクトルを生成する。
【００４４】
次に、類似度検索手段８０２は、検索入力に対する文書ベクトルとに格納されている文書集合１のそれぞれの文書に該当する文書ベクトルとのベクトル同士の余弦値を計算し、類似度とする。
【００４５】
次に、検索結果出力手段８０３では、検索結果８０４として類似度の順に並べて文書集合１を表示する。
【００４６】
上記実施の形態１に記載の処理動作はＣＰＵを有するコンピュータをプログラムで実行することにより実現される。また、実行する際にはコンピュータ内のハードディスク装置等の補助記憶装置にプログラムを格納しておき、メインメモリにロードして実行する。
なお、そのようなプログラムは、ＣＤ−ＲＯＭ等の可搬型記録媒体にプログラムを格納して売買したり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。
【００４７】
この発明の実施の形態１は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【００４８】
また、実施の形態１は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、抽出された話題変化からもとの文書を参照する際に、全文検索と文書ベクトル索引とを組み合わせて、文書を参照できるという効果がある。
【００４９】
また、実施の形態１は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、話題変化抽出の対象とする文書を選択する際に、全文検索と文書ベクトル索引とを組み合わせて、文書集合からその部分文書集合を選択できるという効果がある。
【００５０】
また、実施の形態１は上記のように構成されているので、文書中の文あるいは段落内で共起する単語の組からなる話題とその変化を抽出可能であるという効果がある。
【００５１】
また、実施の形態１は上記のように構成されているので、係り受け関係からなる単語の組からなる話題とその変化を抽出可能であるという効果がある。
【００５２】
また、実施の形態１は上記のように構成されているので、相関の高い単語の組からなる話題とその変化を抽出可能であるという効果がある。
【００５３】
【発明の効果】
この発明は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１における話題変化抽出装置の構成図。
【図２】話題候補生成部における処理の流れ図。
【図３】実施の形態１に基いて抽出した話題変化表示例の説明図。
【図４】実施の形態１における概念辞書生成部の処理の流れ図。
【図５】概念辞書生成のデータの流れを示す説明図。
【図６】文書ベクトル索引生成のための関係を示す構成図。
【図７】文書索引生成部における文書ベクトル索引生成処理の流れ図。
【図８】文書集合選択部４および文書参照部における文書ベクトルを用いた検索処理を示す構成図。
【図９】従来の技術１における情報潮流提示装置の構成図。
【図１０】従来技術２における情報潮流検出・提示装置の構成図。
【符号の説明】
１：文書集合、２：概念辞書生成部、３：文書索引生成部、４：文書集合選択部、５：話題候補生成部、６：区間ベクトル生成部、７：話題選択部、８：話題変化抽出部、９：話題変化表示部、１０：文書参照部、１１：概念辞書、６０１：ベクトル生成手段、６０２：文書ベクトル索引、８０２：類似度検索手段、８０３：検索結果出力手段。

Claims

時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成ステップと、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成ステップと、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成ステップと、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成ステップと、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択ステップと、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出ステップと、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示ステップとを備えることを特徴とする話題変化抽出方法。
文書索引生成ステップが作成した各文書の索引から話題抽出を行なう文書集合を選択する文書集合選択ステップを備えることを特徴とする請求項１記載の話題変化抽出方法。
話題変化表示ステップにより表示された話題変化からもとの文書情報を参照する文書参照ステップを備えることを特徴とする請求項１又は２記載の話題変化抽出方法。
上記文書索引生成ステップにおいて、文書索引として全文検索索引と文書ベクトル索引を生成することを特徴とする請求項１乃至３の何れか一に記載の話題変化抽出方法。
上記文書集合選択部において、全文検索あるいは文書ベクトルを用いた類似検索を行なうことを特徴とする請求項４記載の話題変化抽出方法。
上記話題候補生成ステップにおいて、単語間の関係として、文書集合中の文あるいは段落内で共起する単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項１乃至５の何れか一に記載の話題変化抽出方法。
上記話題候補生成ステップにおいて、単語間の関係として、文書集合中の係り受け関係からなる単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項１乃至６の何れか一に記載の話題変化抽出方法。
上記話題候補生成ステップにおいて、単語間の関係として、相関の高い単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項１乃至８の何れか一に記載の話題変化抽出方法。
時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手段と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手段と、文書集合から単語間の関係を含む話題候補を生成する話題候補生成手段と、時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手段と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手段と、話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手段と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手段とを備えることを特徴とする話題変化抽出装置。
コンピュータに時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手順と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手順と、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成手順と、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手順と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手順と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手順と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手順とを実行させる為のプログラム。
コンピュータに時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手順と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手順と、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成手順と、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手順と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手順と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手順と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手順とを実行させる為のコンピュータ読取可能なプログラムを記録又は伝送することを特徴とする情報記録伝送媒体。