JP2004185135A - 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 - Google Patents
話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 Download PDFInfo
- Publication number
- JP2004185135A JP2004185135A JP2002348779A JP2002348779A JP2004185135A JP 2004185135 A JP2004185135 A JP 2004185135A JP 2002348779 A JP2002348779 A JP 2002348779A JP 2002348779 A JP2002348779 A JP 2002348779A JP 2004185135 A JP2004185135 A JP 2004185135A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- document
- generating
- vector
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来の話題変化抽出は,新規な話題や話題間の関連性、話題の構成に重要な基本語が得られない。 また、新規な話題や話題間の関連性を得る別例は、各単語と他の単語との関係からなる話題を抽出できない。
【解決手段】時間情報を有する文書集合から、単語毎のベクトル情報を持つ概念辞書を生成する工程と、文書集合の各文書の索引を生成する工程と、文書集合から単語間の関係を含む話題候補を生成する工程と、文書集合から所定時間毎の区間ベクトルを生成する工程と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い所定個数の話題を話題候補から選択する工程と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する工程と、前記話題変化抽出工程で抽出した話題の変化を表示する工程とを備える。
【選択図】 図1
【解決手段】時間情報を有する文書集合から、単語毎のベクトル情報を持つ概念辞書を生成する工程と、文書集合の各文書の索引を生成する工程と、文書集合から単語間の関係を含む話題候補を生成する工程と、文書集合から所定時間毎の区間ベクトルを生成する工程と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い所定個数の話題を話題候補から選択する工程と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する工程と、前記話題変化抽出工程で抽出した話題の変化を表示する工程とを備える。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、コンピュータを用いて電子化された文書に含まれる文書内容から、話題を自動的に抽出し、更にその話題の時間毎の変化を抽出することによって、文書において重要な話題の流れを概観することを可能にする話題変化抽出処理に関するものである。
【0002】
【従来の技術】
時間情報を有する文書を所定の時間間隔で分類し、分類カテゴリ別に時系列に並べ、時間的な分類カテゴリの件数の変遷を抽出し、視覚化する方法と装置を提供する従来技術に、従来技術1(特開平10−154150号「情報潮流提示方法およびその装置」)がある。
【0003】
図9は、特開平10−154150号における従来の情報潮流提示方法の構成を示したものである。
【0004】
図9において、既知分類カテゴリ計算部1001、新分類カテゴリ計算部1002、時間分類カテゴリ計算部1003により、文書集合からあらかじめ設定された既知分類カテゴリ、自動的に求めた新分類カテゴリ、時間毎の分類カテゴリを夫々独立に計算する。
【0005】
次に、分類カテゴリ整列部1004において既知分類カテゴリ1と新分類カテゴリを時間毎の分類カテゴリに基づいて時間毎に整列させて表示部1005に表示させることにより、時間的な話題の変遷を提示する方法を提供する。
【0006】
また、新規な話題の発見や話題間の関連性を得たいという要求を解決するために、時間的変化を把握するための方法が、従来技術2(特開2002−41543号「情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体」)に開示されている。従来技術2は、新しい文書追加の多い文書データベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出とその時間変化の追跡により、現在の文書データベース内容のその時における時間的変化の把握を容易にした情報潮流検出・提示方法およびその装置ならびに記憶媒体を提供することを目的としている。
【0007】
従来技術2の構成を図10に示す。従来技術2は、図10に示すように、文書解析装置2003において電子文書データベース2001の文書を単語リスト2002を参照して解析し、更新前の文書毎の単語の頻度表2004と更新後の文書毎の単語の頻度表2005を得る。その解析結果を独立話題分析装置2006において独立して話題を分析し、更新前の話題毎の単語の重要度表2007と更新後の話題毎の単語の重要度表2007を得る。
【0008】
従来技術2では、次に、話題新規性計測および自動判定手段2009で独立した話題から話題の新規性を自動抽出して、話題関連性DB2010に蓄積し、話題関連性表示データ作成手段2011で話題関連性DB2010から話題関連性を表示するデータを作成して、ディスプレイ2012に表示する。
【0009】
上記従来技術1および従来技術2では、文書を単なる単語の集合とみなしており、話題を統計的に重要であると判定した単語の集合で表すことを想定している。このため、文書全体を通して出現頻度が高い基本語は、統計的な処理のみでは、重要であると判定できないため、話題を構成する要素からは漏れてしまう。
【0010】
【特許文献1】
特開平10−154150号公報
【特許文献2】
特開2002−41543号公報
【非特許文献1】
高山他著「単語の連想関係に基づく情報検索システムInfoMAP」、
情報学基礎研究会資料1999−3、第53巻、第1号、情報処理学会
【0011】
【発明が解決しようとする課題】
【0012】
この発明は、上記のような問題点を解決するためになされたもので、文書集合から他の単語との関係にある単語の対または組みを「話題」として抽出することで、従来技術では抽出できない基本語を含む単語の組を話題として抽出可能であり、時間毎に重要な話題を選択してその重要度の変化を抽出することができる話題変化抽出方法および話題変化抽出装置を提供する。
【0013】
【課題を解決するための手段】
この発明に係る話題変化抽出方法は、時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成ステップと、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成ステップと、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成ステップと、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成ステップと、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択ステップと、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出ステップと、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示ステップとを備える。
【0014】
【発明の実施の形態】
実施の形態1.
図1は、この発明の第一の実施の形態における話題変化抽出装置の構成例を示したものである。図1に示した話題変化抽出化装置は、時間情報を有する文書集合1から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書11を生成する概念辞書生成部2と、全文検索索引および文書ベクトル索引を持つ文書索引を生成する文書索引生成部3と、全文検索、あるいは文書ベクトルを用いた類似検索により、話題抽出を行なう文書集合1を選択する文書集合選択部4と、選択された文書集合1から単語と単語の関係を含む話題候補を生成する話題候補生成部5と、指定した刻みの時間軸の区間ごとにその区間に属する文書の文書ベクトルから区間ベクトルを生成する区間ベクトル生成部6と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に相関の高い指定個数の話題を話題候補から選択する話題選択部7と、話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結する話題変化抽出部8と、前記話題変化抽出部8で抽出した話題の変化を表示する話題変化表示部9と、表示された話題変化からもとの文書情報を参照する文書参照部10とから構成される。
【0015】
この発明の第一の実施の形態における動作を図1において説明する。まず、概念辞書生成部2において、時間情報を有する文書集合1から、単語毎の特徴をあらわすベクトル情報を持つ辞書ベクトルを生成し、概念辞書11に蓄積する。
【0016】
次に、文書索引生成部3において概念辞書11を参照して全文検索索引および文書ベクトルからなる文書索引を生成する。
【0017】
次に、文書集合選択部4において、全文検索、あるいは概念検索(文書ベクトルを用いた類似検索)により、話題抽出を行なう文書集合1を選択する。
【0018】
次に、話題候補生成部5において、選択された文書集合1から話題候補を生成する。話題候補生成部5の詳細な処理の流れを図2において説明する。
【0019】
図2において、ステップS201で、選択された文書集合1から文書中における単語の出現頻度に関する統計情報(TF−IDF値、χ2値等)により特徴キーワードを生成する。この際に用いる統計情報は、表全体における単語の出現傾向の特徴を表すものであれば、いずれの手法であってもこの発明の本質を損なうものではない。
【0020】
次に、ステップS202で、特徴キーワードの上位x1個と共起関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補1と呼ぶ。
【0021】
次に、ステップS203で、特徴キーワードの上位x2個と係り受け関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補2と呼ぶ。
【0022】
次に、ステップS204で、特徴キーワードの上位x3個から、その特徴キーワードと相関の高いキーワード組の集合を抽出する。このキーワード組を話題候補3と呼ぶ。ここで、相関はベクトル同士の角度(余弦値)により計算するものとする。
【0023】
ここで、x1、x2、x3の値は任意に指定可能な整数であるとする。
【0024】
図1において、話題候補生成部5の処理の次に、区間ベクトル生成部6において、選択された文書集合1のうち、指定した刻みの時間軸の区間ごとに、その区間に属する文書の文書ベクトルのベクトル和から区間ベクトルを生成する。なお、話題候補生成部5と区間ベクトル生成部6の処理は独立であるので、順序はどちらが先でも良い。
【0025】
話題候補および区間ベクトルが求まると、次に、話題選択部7において、上記話題候補1、話題候補2、話題候補3を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い指定個数の話題を話題候補から選択する。ここで、話題重要度は、ベクトル同士の角度(余弦値)により計算するものとする。
【0026】
次に、話題変化抽出部8において、話題選択部7で求めた話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結することによって、話題の変化を抽出する。
【0027】
話題変化表示部9では、話題変化抽出部8で抽出した、話題の変化をディスプレイ等の表示装置に表示する。
【0028】
また、文書参照部10では、話題変化表示部9に表示された話題を指定して、かかる話題に該当する文書を文書集合1から検索して利用者に提示する。
【0029】
図3は、 文書集合1が携帯電話の評判に関するアンケートデータの場合に、その文書集合からこの発明の方式に基いて抽出した話題変化を表示した例を示している。図3において、キーワード「和音」が話題候補生成部5において、図2のステップS201で求めた特徴キーワードである。また、「和音−少ない」、「和音−多過ぎ」という固まりが抽出された話題である。この例は、話題を文書の集合あるいは独立した単語の集合として捉えている従来技術では抽出できなかった「少ない」、「多過ぎ」といった基本語を含む話題とその変化が、この発明によって抽出可能であることを示している。
【0030】
なお、簡単のため上記の例では話題を2つのキーワード対であるとして説明しているが、複数のキーワードの組を話題として抽出しても良い。
【0031】
また、図3では、話題が分化した場合の例を示しているが、この発明の方法では、話題候補生成部5における話題の抽出と、話題選択部7における話題の選択を独立に行なうため、新規話題の検出も可能である。
【0032】
図4は、この発明における概念辞書生成部2の処理の流れを示したものであり、また、図5は、概念辞書生成のデータの流れを示したものである。
図4及び図5を用いて概念辞書生成部2の処理を説明する。
【0033】
図4において、まず、ステップS401で、文書集合1に含まれるテキストを形態素解析することによって、テキスト中の文字列を単語毎に分割する。なお、形態素解析に関しては、広く公知の技術であるので、ここでは、詳細な説明を省略する。このとき図5に示す学習対象の文書集合501は、必ずしも文書集合1そのものでなくて、文書集合1と同一分野における他の文書集合を用いても良い。
【0034】
次に、ステップS402において、文書集合501の各文書における単語と単語が同時に出現した回数である共起頻度を計算して共起頻度表502を求める。
【0035】
次に、ステップS403において、共起頻度表502を特異値分解する。特異値分解は、行列A(ここでは、共起頻度表502)を3つの行列(UΣV)の積に分解する公知の線形代数手法である。たとえば、文献3(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53−1、1999−3」)に特異値分解を用いて作成する概念辞書を用いた文書検索方法に関する記述がある。なお、特異値分解の代りに、固有値分解を用いても良い。
【0036】
次に、ステップS404において、ステップS403で特異値分解して得た行列U503から、行列Σ504に含まれる特異値の大きいほうから指定したのk個(kは元の行列Aの列の数より小さいものとする)の列を概念辞書506として出力する。概念辞書506は共起頻度表502よりも次元縮退されており、各行を高次の相関関係を含む単語ベクトルとみなすことができる。
【0037】
図6は、この発明における文書索引生成部3における文書ベクトル索引生成の構成を示したものである。また、図7は、文書ベクトル索引の処理の流れを示したものである。
【0038】
図6において、文書集合1に対して、ベクトル生成手段601は、概念辞書11を参照して、文書ベクトル索引602を生成する。なお、ベクトル生成手段601と文書ベクトル索引602で文書索引生成部3を構成する。このときのベクトル生成手段601の処理の流れを図7において説明する。
【0039】
図7において、まずステップS701で、文書集合1の各文書を形態素解析して、文書中のテキストを単語毎に分割する。
【0040】
次に、ステップS702で各文書毎に出現するそれぞれの単語毎の頻度を計算する。
【0041】
次に、ステップS703で概念辞書506から各単語に対する概念ベクトルを取り出す。
【0042】
次に、ステップS704で各文書に出現する単語の概念ベクトルにステップS702で計算した頻度を係数として乗算したベクトルを加算したものを、かかる文書の文書ベクトル索引602として出力する。
【0043】
図8は、この発明における文書集合選択部4および文書参照部10における文書ベクトルを用いた検索の処理を示したものである。図8において、検索入力801がテキストで与えられると、ベクトル生成手段601が概念辞書11を参照して文書ベクトルを生成する。
【0044】
次に、類似度検索手段802は、検索入力に対する文書ベクトルとに格納されている文書集合1のそれぞれの文書に該当する文書ベクトルとのベクトル同士の余弦値を計算し、類似度とする。
【0045】
次に、検索結果出力手段803では、検索結果804として類似度の順に並べて文書集合1を表示する。
【0046】
上記実施の形態1に記載の処理動作はCPUを有するコンピュータをプログラムで実行することにより実現される。また、実行する際にはコンピュータ内のハードディスク装置等の補助記憶装置にプログラムを格納しておき、メインメモリにロードして実行する。
なお、そのようなプログラムは、CD−ROM等の可搬型記録媒体にプログラムを格納して売買したり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。
【0047】
この発明の実施の形態1は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【0048】
また、実施の形態1は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、抽出された話題変化からもとの文書を参照する際に、全文検索と文書ベクトル索引とを組み合わせて、文書を参照できるという効果がある。
【0049】
また、実施の形態1は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、話題変化抽出の対象とする文書を選択する際に、全文検索と文書ベクトル索引とを組み合わせて、文書集合からその部分文書集合を選択できるという効果がある。
【0050】
また、実施の形態1は上記のように構成されているので、文書中の文あるいは段落内で共起する単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0051】
また、実施の形態1は上記のように構成されているので、係り受け関係からなる単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0052】
また、実施の形態1は上記のように構成されているので、相関の高い単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0053】
【発明の効果】
この発明は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1における話題変化抽出装置の構成図。
【図2】話題候補生成部における処理の流れ図。
【図3】実施の形態1に基いて抽出した話題変化表示例の説明図。
【図4】実施の形態1における概念辞書生成部の処理の流れ図。
【図5】概念辞書生成のデータの流れを示す説明図。
【図6】文書ベクトル索引生成のための関係を示す構成図。
【図7】文書索引生成部における文書ベクトル索引生成処理の流れ図。
【図8】文書集合選択部4および文書参照部における文書ベクトルを用いた検索処理を示す構成図。
【図9】従来の技術1における情報潮流提示装置の構成図。
【図10】従来技術2における情報潮流検出・提示装置の構成図。
【符号の説明】
1:文書集合、2:概念辞書生成部、3:文書索引生成部、4:文書集合選択部、5:話題候補生成部、6:区間ベクトル生成部、7:話題選択部、8:話題変化抽出部、9:話題変化表示部、10:文書参照部、11:概念辞書、601:ベクトル生成手段、602:文書ベクトル索引、802:類似度検索手段、803:検索結果出力手段。
【発明の属する技術分野】
この発明は、コンピュータを用いて電子化された文書に含まれる文書内容から、話題を自動的に抽出し、更にその話題の時間毎の変化を抽出することによって、文書において重要な話題の流れを概観することを可能にする話題変化抽出処理に関するものである。
【0002】
【従来の技術】
時間情報を有する文書を所定の時間間隔で分類し、分類カテゴリ別に時系列に並べ、時間的な分類カテゴリの件数の変遷を抽出し、視覚化する方法と装置を提供する従来技術に、従来技術1(特開平10−154150号「情報潮流提示方法およびその装置」)がある。
【0003】
図9は、特開平10−154150号における従来の情報潮流提示方法の構成を示したものである。
【0004】
図9において、既知分類カテゴリ計算部1001、新分類カテゴリ計算部1002、時間分類カテゴリ計算部1003により、文書集合からあらかじめ設定された既知分類カテゴリ、自動的に求めた新分類カテゴリ、時間毎の分類カテゴリを夫々独立に計算する。
【0005】
次に、分類カテゴリ整列部1004において既知分類カテゴリ1と新分類カテゴリを時間毎の分類カテゴリに基づいて時間毎に整列させて表示部1005に表示させることにより、時間的な話題の変遷を提示する方法を提供する。
【0006】
また、新規な話題の発見や話題間の関連性を得たいという要求を解決するために、時間的変化を把握するための方法が、従来技術2(特開2002−41543号「情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体」)に開示されている。従来技術2は、新しい文書追加の多い文書データベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出とその時間変化の追跡により、現在の文書データベース内容のその時における時間的変化の把握を容易にした情報潮流検出・提示方法およびその装置ならびに記憶媒体を提供することを目的としている。
【0007】
従来技術2の構成を図10に示す。従来技術2は、図10に示すように、文書解析装置2003において電子文書データベース2001の文書を単語リスト2002を参照して解析し、更新前の文書毎の単語の頻度表2004と更新後の文書毎の単語の頻度表2005を得る。その解析結果を独立話題分析装置2006において独立して話題を分析し、更新前の話題毎の単語の重要度表2007と更新後の話題毎の単語の重要度表2007を得る。
【0008】
従来技術2では、次に、話題新規性計測および自動判定手段2009で独立した話題から話題の新規性を自動抽出して、話題関連性DB2010に蓄積し、話題関連性表示データ作成手段2011で話題関連性DB2010から話題関連性を表示するデータを作成して、ディスプレイ2012に表示する。
【0009】
上記従来技術1および従来技術2では、文書を単なる単語の集合とみなしており、話題を統計的に重要であると判定した単語の集合で表すことを想定している。このため、文書全体を通して出現頻度が高い基本語は、統計的な処理のみでは、重要であると判定できないため、話題を構成する要素からは漏れてしまう。
【0010】
【特許文献1】
特開平10−154150号公報
【特許文献2】
特開2002−41543号公報
【非特許文献1】
高山他著「単語の連想関係に基づく情報検索システムInfoMAP」、
情報学基礎研究会資料1999−3、第53巻、第1号、情報処理学会
【0011】
【発明が解決しようとする課題】
【0012】
この発明は、上記のような問題点を解決するためになされたもので、文書集合から他の単語との関係にある単語の対または組みを「話題」として抽出することで、従来技術では抽出できない基本語を含む単語の組を話題として抽出可能であり、時間毎に重要な話題を選択してその重要度の変化を抽出することができる話題変化抽出方法および話題変化抽出装置を提供する。
【0013】
【課題を解決するための手段】
この発明に係る話題変化抽出方法は、時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成ステップと、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成ステップと、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成ステップと、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成ステップと、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択ステップと、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出ステップと、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示ステップとを備える。
【0014】
【発明の実施の形態】
実施の形態1.
図1は、この発明の第一の実施の形態における話題変化抽出装置の構成例を示したものである。図1に示した話題変化抽出化装置は、時間情報を有する文書集合1から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書11を生成する概念辞書生成部2と、全文検索索引および文書ベクトル索引を持つ文書索引を生成する文書索引生成部3と、全文検索、あるいは文書ベクトルを用いた類似検索により、話題抽出を行なう文書集合1を選択する文書集合選択部4と、選択された文書集合1から単語と単語の関係を含む話題候補を生成する話題候補生成部5と、指定した刻みの時間軸の区間ごとにその区間に属する文書の文書ベクトルから区間ベクトルを生成する区間ベクトル生成部6と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に相関の高い指定個数の話題を話題候補から選択する話題選択部7と、話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結する話題変化抽出部8と、前記話題変化抽出部8で抽出した話題の変化を表示する話題変化表示部9と、表示された話題変化からもとの文書情報を参照する文書参照部10とから構成される。
【0015】
この発明の第一の実施の形態における動作を図1において説明する。まず、概念辞書生成部2において、時間情報を有する文書集合1から、単語毎の特徴をあらわすベクトル情報を持つ辞書ベクトルを生成し、概念辞書11に蓄積する。
【0016】
次に、文書索引生成部3において概念辞書11を参照して全文検索索引および文書ベクトルからなる文書索引を生成する。
【0017】
次に、文書集合選択部4において、全文検索、あるいは概念検索(文書ベクトルを用いた類似検索)により、話題抽出を行なう文書集合1を選択する。
【0018】
次に、話題候補生成部5において、選択された文書集合1から話題候補を生成する。話題候補生成部5の詳細な処理の流れを図2において説明する。
【0019】
図2において、ステップS201で、選択された文書集合1から文書中における単語の出現頻度に関する統計情報(TF−IDF値、χ2値等)により特徴キーワードを生成する。この際に用いる統計情報は、表全体における単語の出現傾向の特徴を表すものであれば、いずれの手法であってもこの発明の本質を損なうものではない。
【0020】
次に、ステップS202で、特徴キーワードの上位x1個と共起関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補1と呼ぶ。
【0021】
次に、ステップS203で、特徴キーワードの上位x2個と係り受け関係にある単語と特徴キーワードとのキーワード組の集合を抽出する。このキーワード組を話題候補2と呼ぶ。
【0022】
次に、ステップS204で、特徴キーワードの上位x3個から、その特徴キーワードと相関の高いキーワード組の集合を抽出する。このキーワード組を話題候補3と呼ぶ。ここで、相関はベクトル同士の角度(余弦値)により計算するものとする。
【0023】
ここで、x1、x2、x3の値は任意に指定可能な整数であるとする。
【0024】
図1において、話題候補生成部5の処理の次に、区間ベクトル生成部6において、選択された文書集合1のうち、指定した刻みの時間軸の区間ごとに、その区間に属する文書の文書ベクトルのベクトル和から区間ベクトルを生成する。なお、話題候補生成部5と区間ベクトル生成部6の処理は独立であるので、順序はどちらが先でも良い。
【0025】
話題候補および区間ベクトルが求まると、次に、話題選択部7において、上記話題候補1、話題候補2、話題候補3を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題重要度の高い指定個数の話題を話題候補から選択する。ここで、話題重要度は、ベクトル同士の角度(余弦値)により計算するものとする。
【0026】
次に、話題変化抽出部8において、話題選択部7で求めた話題を時間軸順に並べ、特徴キーワードを共有する話題同士を連結することによって、話題の変化を抽出する。
【0027】
話題変化表示部9では、話題変化抽出部8で抽出した、話題の変化をディスプレイ等の表示装置に表示する。
【0028】
また、文書参照部10では、話題変化表示部9に表示された話題を指定して、かかる話題に該当する文書を文書集合1から検索して利用者に提示する。
【0029】
図3は、 文書集合1が携帯電話の評判に関するアンケートデータの場合に、その文書集合からこの発明の方式に基いて抽出した話題変化を表示した例を示している。図3において、キーワード「和音」が話題候補生成部5において、図2のステップS201で求めた特徴キーワードである。また、「和音−少ない」、「和音−多過ぎ」という固まりが抽出された話題である。この例は、話題を文書の集合あるいは独立した単語の集合として捉えている従来技術では抽出できなかった「少ない」、「多過ぎ」といった基本語を含む話題とその変化が、この発明によって抽出可能であることを示している。
【0030】
なお、簡単のため上記の例では話題を2つのキーワード対であるとして説明しているが、複数のキーワードの組を話題として抽出しても良い。
【0031】
また、図3では、話題が分化した場合の例を示しているが、この発明の方法では、話題候補生成部5における話題の抽出と、話題選択部7における話題の選択を独立に行なうため、新規話題の検出も可能である。
【0032】
図4は、この発明における概念辞書生成部2の処理の流れを示したものであり、また、図5は、概念辞書生成のデータの流れを示したものである。
図4及び図5を用いて概念辞書生成部2の処理を説明する。
【0033】
図4において、まず、ステップS401で、文書集合1に含まれるテキストを形態素解析することによって、テキスト中の文字列を単語毎に分割する。なお、形態素解析に関しては、広く公知の技術であるので、ここでは、詳細な説明を省略する。このとき図5に示す学習対象の文書集合501は、必ずしも文書集合1そのものでなくて、文書集合1と同一分野における他の文書集合を用いても良い。
【0034】
次に、ステップS402において、文書集合501の各文書における単語と単語が同時に出現した回数である共起頻度を計算して共起頻度表502を求める。
【0035】
次に、ステップS403において、共起頻度表502を特異値分解する。特異値分解は、行列A(ここでは、共起頻度表502)を3つの行列(UΣV)の積に分解する公知の線形代数手法である。たとえば、文献3(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53−1、1999−3」)に特異値分解を用いて作成する概念辞書を用いた文書検索方法に関する記述がある。なお、特異値分解の代りに、固有値分解を用いても良い。
【0036】
次に、ステップS404において、ステップS403で特異値分解して得た行列U503から、行列Σ504に含まれる特異値の大きいほうから指定したのk個(kは元の行列Aの列の数より小さいものとする)の列を概念辞書506として出力する。概念辞書506は共起頻度表502よりも次元縮退されており、各行を高次の相関関係を含む単語ベクトルとみなすことができる。
【0037】
図6は、この発明における文書索引生成部3における文書ベクトル索引生成の構成を示したものである。また、図7は、文書ベクトル索引の処理の流れを示したものである。
【0038】
図6において、文書集合1に対して、ベクトル生成手段601は、概念辞書11を参照して、文書ベクトル索引602を生成する。なお、ベクトル生成手段601と文書ベクトル索引602で文書索引生成部3を構成する。このときのベクトル生成手段601の処理の流れを図7において説明する。
【0039】
図7において、まずステップS701で、文書集合1の各文書を形態素解析して、文書中のテキストを単語毎に分割する。
【0040】
次に、ステップS702で各文書毎に出現するそれぞれの単語毎の頻度を計算する。
【0041】
次に、ステップS703で概念辞書506から各単語に対する概念ベクトルを取り出す。
【0042】
次に、ステップS704で各文書に出現する単語の概念ベクトルにステップS702で計算した頻度を係数として乗算したベクトルを加算したものを、かかる文書の文書ベクトル索引602として出力する。
【0043】
図8は、この発明における文書集合選択部4および文書参照部10における文書ベクトルを用いた検索の処理を示したものである。図8において、検索入力801がテキストで与えられると、ベクトル生成手段601が概念辞書11を参照して文書ベクトルを生成する。
【0044】
次に、類似度検索手段802は、検索入力に対する文書ベクトルとに格納されている文書集合1のそれぞれの文書に該当する文書ベクトルとのベクトル同士の余弦値を計算し、類似度とする。
【0045】
次に、検索結果出力手段803では、検索結果804として類似度の順に並べて文書集合1を表示する。
【0046】
上記実施の形態1に記載の処理動作はCPUを有するコンピュータをプログラムで実行することにより実現される。また、実行する際にはコンピュータ内のハードディスク装置等の補助記憶装置にプログラムを格納しておき、メインメモリにロードして実行する。
なお、そのようなプログラムは、CD−ROM等の可搬型記録媒体にプログラムを格納して売買したり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。
【0047】
この発明の実施の形態1は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【0048】
また、実施の形態1は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、抽出された話題変化からもとの文書を参照する際に、全文検索と文書ベクトル索引とを組み合わせて、文書を参照できるという効果がある。
【0049】
また、実施の形態1は上記のように構成されているので、文書索引として全文検索索引と文書ベクトル索引を有しているため、話題変化抽出の対象とする文書を選択する際に、全文検索と文書ベクトル索引とを組み合わせて、文書集合からその部分文書集合を選択できるという効果がある。
【0050】
また、実施の形態1は上記のように構成されているので、文書中の文あるいは段落内で共起する単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0051】
また、実施の形態1は上記のように構成されているので、係り受け関係からなる単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0052】
また、実施の形態1は上記のように構成されているので、相関の高い単語の組からなる話題とその変化を抽出可能であるという効果がある。
【0053】
【発明の効果】
この発明は上記のように構成されているので、基本語を含む話題とその変化が抽出可能であるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1における話題変化抽出装置の構成図。
【図2】話題候補生成部における処理の流れ図。
【図3】実施の形態1に基いて抽出した話題変化表示例の説明図。
【図4】実施の形態1における概念辞書生成部の処理の流れ図。
【図5】概念辞書生成のデータの流れを示す説明図。
【図6】文書ベクトル索引生成のための関係を示す構成図。
【図7】文書索引生成部における文書ベクトル索引生成処理の流れ図。
【図8】文書集合選択部4および文書参照部における文書ベクトルを用いた検索処理を示す構成図。
【図9】従来の技術1における情報潮流提示装置の構成図。
【図10】従来技術2における情報潮流検出・提示装置の構成図。
【符号の説明】
1:文書集合、2:概念辞書生成部、3:文書索引生成部、4:文書集合選択部、5:話題候補生成部、6:区間ベクトル生成部、7:話題選択部、8:話題変化抽出部、9:話題変化表示部、10:文書参照部、11:概念辞書、601:ベクトル生成手段、602:文書ベクトル索引、802:類似度検索手段、803:検索結果出力手段。
Claims (11)
- 時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成ステップと、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成ステップと、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成ステップと、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成ステップと、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択ステップと、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出ステップと、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示ステップとを備えることを特徴とする話題変化抽出方法。
- 文書索引生成ステップが作成した各文書の索引から話題抽出を行なう文書集合を選択する文書集合選択ステップを備えることを特徴とする請求項1記載の話題変化抽出方法。
- 話題変化表示ステップにより表示された話題変化からもとの文書情報を参照する文書参照ステップを備えることを特徴とする請求項1又は2記載の話題変化抽出方法。
- 上記文書索引生成ステップにおいて、文書索引として全文検索索引と文書ベクトル索引を生成することを特徴とする請求項1乃至3の何れか一に記載の話題変化抽出方法。
- 上記文書集合選択部において、全文検索あるいは文書ベクトルを用いた類似検索を行なうことを特徴とする請求項4記載の話題変化抽出方法。
- 上記話題候補生成ステップにおいて、単語間の関係として、文書集合中の文あるいは段落内で共起する単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項1乃至5の何れか一に記載の話題変化抽出方法。
- 上記話題候補生成ステップにおいて、単語間の関係として、文書集合中の係り受け関係からなる単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項1乃至6の何れか一に記載の話題変化抽出方法。
- 上記話題候補生成ステップにおいて、単語間の関係として、相関の高い単語の組からなる話題候補を生成するステップを含むことを特徴とする請求項1乃至8の何れか一に記載の話題変化抽出方法。
- 時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手段と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手段と、文書集合から単語間の関係を含む話題候補を生成する話題候補生成手段と、時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手段と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手段と、話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手段と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手段とを備えることを特徴とする話題変化抽出装置。
- コンピュータに時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手順と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手順と、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成手順と、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手順と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し、区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手順と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手順と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手順とを実行させる為のプログラム。
- コンピュータに時間情報を有する文書集合から、単語毎の特徴をあらわすベクトル情報を持つ概念辞書を生成する概念辞書生成手順と、文書集合の各文書の索引を概念辞書を参照して生成する文書索引生成手順と、上記文書集合から単語間の関係を含む話題候補を生成する話題候補生成手順と、同じく上記文書集合から時間軸に対して指定した刻みの区間ごとの区間ベクトルを生成する区間ベクトル生成手順と、話題候補を構成する各キーワードベクトルと区間ベクトルとの話題重要度を計算し区間毎に話題候補から所定個数の話題を所定基準の話題重要度により選択する話題選択手順と、選択された話題を時間軸順に並べ特徴キーワードを共有する話題同士を連結する話題変化抽出手順と、前記話題変化抽出ステップで抽出した話題の変化を表示する話題変化表示手順とを実行させる為のコンピュータ読取可能なプログラムを記録又は伝送することを特徴とする情報記録伝送媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002348779A JP2004185135A (ja) | 2002-11-29 | 2002-11-29 | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002348779A JP2004185135A (ja) | 2002-11-29 | 2002-11-29 | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004185135A true JP2004185135A (ja) | 2004-07-02 |
Family
ID=32751600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002348779A Pending JP2004185135A (ja) | 2002-11-29 | 2002-11-29 | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004185135A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008097194A1 (en) * | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
JP2015125650A (ja) * | 2013-12-26 | 2015-07-06 | 日本放送協会 | トピック抽出装置、及びプログラム |
JP2018060493A (ja) * | 2016-10-03 | 2018-04-12 | ジャパンモード株式会社 | 問題解決支援システム、問題解決支援方法、及び問題解決支援プログラム |
JP2019521399A (ja) * | 2016-06-08 | 2019-07-25 | ロヴィ ガイズ, インコーポレイテッド | 会話におけるコンテキスト切替を決定するためのシステムおよび方法 |
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
CN110765762A (zh) * | 2019-09-29 | 2020-02-07 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 一种大数据背景下在线评论文本最佳主题提取系统和方法 |
-
2002
- 2002-11-29 JP JP2002348779A patent/JP2004185135A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008097194A1 (en) * | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
JP2015125650A (ja) * | 2013-12-26 | 2015-07-06 | 日本放送協会 | トピック抽出装置、及びプログラム |
JP2019521399A (ja) * | 2016-06-08 | 2019-07-25 | ロヴィ ガイズ, インコーポレイテッド | 会話におけるコンテキスト切替を決定するためのシステムおよび方法 |
JP7007917B2 (ja) | 2016-06-08 | 2022-01-25 | ロヴィ ガイズ, インコーポレイテッド | 会話におけるコンテキスト切替を決定するためのシステムおよび方法 |
JP2018060493A (ja) * | 2016-10-03 | 2018-04-12 | ジャパンモード株式会社 | 問題解決支援システム、問題解決支援方法、及び問題解決支援プログラム |
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
JP7221526B2 (ja) | 2018-05-09 | 2023-02-14 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
CN110765762A (zh) * | 2019-09-29 | 2020-02-07 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 一种大数据背景下在线评论文本最佳主题提取系统和方法 |
CN110765762B (zh) * | 2019-09-29 | 2023-04-18 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 一种大数据背景下在线评论文本最佳主题提取系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shams et al. | A non-parametric LDA-based induction method for sentiment analysis | |
US20070214124A1 (en) | Information processing device and method, and program | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
Ahlgren | Research on sentiment analysis: the first decade | |
Kauer et al. | Using information retrieval for sentiment polarity prediction | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
Rani et al. | A weighted word embedding based approach for extractive text summarization | |
Tabak et al. | Comparison of emotion lexicons | |
He et al. | Multi-document summarization via group sparse learning | |
Ullah et al. | A framework for extractive text summarization using semantic graph based approach | |
de Melo et al. | OpinionLink: Leveraging user opinions for product catalog enrichment | |
CN110008396B (zh) | 对象信息推送方法、装置、设备及计算机可读存储介质 | |
CN109672706B (zh) | 一种信息推荐方法、装置、服务器及存储介质 | |
JP2004185135A (ja) | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
CN104376034B (zh) | 信息处理设备,信息处理方法和程序 | |
CN110688559A (zh) | 一种检索方法及装置 | |
Albahr et al. | Semkeyphrase: An unsupervised approach to keyphrase extraction from mooc video lectures | |
Hosseinabadi et al. | ISSE: a new iterative sentence scoring and extraction scheme for automatic text summarization | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
Das et al. | An improvement of Bengali factoid question answering system using unsupervised statistical methods | |
JP2004246491A (ja) | テキストマイニング装置及びテキストマイニングプログラム | |
Jayawickrama et al. | Seeking sinhala sentiment: Predicting facebook reactions of sinhala posts | |
JP2005092443A (ja) | クラスター分析装置およびクラスター分析方法 | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040709 |