JP2004206391A - 文書情報分析装置 - Google Patents
文書情報分析装置 Download PDFInfo
- Publication number
- JP2004206391A JP2004206391A JP2002374540A JP2002374540A JP2004206391A JP 2004206391 A JP2004206391 A JP 2004206391A JP 2002374540 A JP2002374540 A JP 2002374540A JP 2002374540 A JP2002374540 A JP 2002374540A JP 2004206391 A JP2004206391 A JP 2004206391A
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature
- word
- keyword
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】主キーワードを含む文書を収集し、これらの文書に出現する各語の重要性を示す第1の特徴量を算出する第1の特徴量算出手段と、複数の文書を収集し、この文書に出現する各語の重要性を示す第2の特徴量を算出する第2の特徴量算出手段と、第1の特徴量を第2の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度に基づいて関連キーワードを求める関連キーワード出力手段とを備えた。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、利用者が指定したキーワードに関係した特徴キーワードを抽出する文書情報分析装置に関する。
【0002】
【従来の技術】
インターネット上のWeb文書や電子メール、あるいは蓄積されたテキストデータなどの電子化文書は非常な勢いで増加している。中には企業や個人にとって重要となる文書も含まれている場合があるものの、重要な文書の出現をあらかじめ知ることはできず、また、大量の文書を常時人手で監視して、重要な文書を収集・調査することは困難である。よって、重要な文書の出現傾向をマクロに分析し、必要に応じて重点的に調査するといった対応が求められる。そのためには、大量の文書の中から重要な文書の出現傾向をマクロに把握する必要がある。
【0003】
重要文書の出現傾向をマクロに把握する技術の一つとして、文書の重要度を表すスコアの変化を時系列で分析するトレンド分析技術がある。トレンド分析技術では、利用者の指定したキーワードを含む文書のセットにおいて、各文書のスコアの時系列変化を分析して提示することで、重要な文書の急増を検出することができる。
【0004】
しかし、トレンド分析技術では利用者がトレンド分析の対象とする文書を指定するためのキーワードを全て入力しなければならないという課題があった。特にトレンド分析の対象とする文書をもれなく指定するためには、新規に登場したキーワードの追加や必要でなくなったキーワードの削除を常に行う必要があるが、利用者にとってキーワードの追加・削除は大きな負担であった。
【0005】
この問題を解決する従来技術として、利用者が収集した文書セットに特徴的なキーワードを、あらかじめパタンやヒューリスティックスを用意することなく抽出する方法が開示されている(例えば特許文献1)。
【0006】
【特許文献1】
特開2000−67054公報(第4頁−9頁、第2図)
【0007】
【発明が解決しようとする課題】
従来技術における検索方法では、利用者が必要としている情報を含む文書を取得するために、その利用者が必要としている情報を少数のキーワードによって表し、このキーワードに基づいて検索を実行している。ところが、このような検索方法では、それらの少数のキーワードが利用者が必要としている情報を必ずしも的確に表現しているとは限らない。その結果、それらの少数のキーワードに基づいて得た検索結果が、利用者が必要としている情報と乖離してしまうという課題があった。
【0008】
本発明は、上記のような問題点を解決するためになされたもので、利用者が所望する内容を表すキーワードと相関の高いキーワードを優先的に抽出し、利用者の情報分析行為を支援する文書情報分析装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る文書情報分析装置は、主キーワードを入力する入力手段と、
上記主キーワードを含む文書を収集する第1の文書収集手段と、
上記第1の文書収集手段が収集した文書からなる第1の文書集合を記憶する第1の文書記憶手段と、
上記第1の文書集合の各文書について、この文書に出現する各語の重要性を示す第1の特徴量を上記各語ごとに算出する第1の特徴量算出手段と、
複数の文書を収集する第2の文書収集手段と、
上記第2の文書収集手段が収集した文書からなる第2の文書集合を記憶する第2の文書記憶手段と、
上記第2の文書集合の各文書について、この文書に出現する各語の重要性を示す第2の特徴量を上記各語ごとに算出する第2の特徴量算出手段と、
上記第1の文書集合の文書と、上記第2の文書集合の文書との双方に出現する語について、第1の特徴量を第2の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度が所定の条件を満たす語を上記主キーワードの関連キーワードとして出力する関連キーワード出力手段とを備えるものである。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
実施の形態1.
実施の形態1による文書情報分析装置は、主キーワードを入力として、この主キーワードに対する関連キーワードと相関度を求めるものである。ここで、関連キーワードとは、主キーワードと文書における内容的な関連度の高い語をいい、ある文書の概念上、主キーワードと同時に使用される(共起する)可能性の高い語を指す。
【0011】
利用者がある内容の文書の検索をしようとする場合には、検索時にその利用者が必要とする内容(概念)を表現して検索システムに与える必要がある。そのためには、その概念を適切に表現するものと利用者が考えている語を検索キーワードとして指定することになる。このような語は通常一個又は二個の語、あるいは極めて少数の語に限られるが、そのような少数の語によって利用者が必要としている概念を表現できるとは限らない。その結果、たとえば利用者が指定した検索キーワードが限定的な範囲の意味しか持たない語である場合(たとえば特定製品の一つの型番など)には、検索される文書の数が少なく、十分な情報が得られない場合がある。一方、利用者が指定した検索キーワードが多くの文書に用いられる可能性のある語(たとえばメーカ名など)である場合には、利用者が閲覧しきれないほどの文書がヒットしてしまい、またその中にはしばしば本来その利用者が必要としている内容の文書以外の文書も含まれてしまう場合も生じる。
【0012】
このような場合に、主キーワードと関連キーワードを組み合わせて用いることにより、より適切な検索結果が得られることが期待できる。たとえば主キーワードが限定的な範囲の意味しか持たない場合には、関連キーワードでの検索も合わせて行い、その論理和を検索結果として取得するようにすれば、主キーワードのみの検索結果よりも豊富な情報が得られる。一方、主キーワードが多義的であるために、不必要な情報も検索結果に含んでしまうような場合には、主キーワードと関連キーワードの論理積により与えられる検索条件による検索を行うことによって、さらに検索結果を絞り込み、適切な量と内容の情報のみを取得することができる。
【0013】
上述のとおり、本文書情報分析装置が出力する関連キーワードとは、主キーワードに概念上関連性の高い語をいうが、文書における主キーワードとの共起頻度のみに基づいて関連キーワードを抽出しようとすると、主キーワードとそれほど概念的関連性のない一般的な用語も抽出されるおそれがある。例えば、主キーワードが出現する文書において出現頻度が高い語が、一般的な文書においても出現頻度が高い場合には、その語が主キーワードと概念的な関連性が高いとはいえない。そこで、主キーワードが用いられている文書における語の特徴量を求める一方で、主キーワードが出現するとは限らない一般的な文書における語の特徴量をも合わせて求め、前者の特徴量を後者の特徴量によって調整することによって、主キーワードと概念的関連性の低い語を関連キーワードとして抽出してしまうことを回避できる。本発明は、このような知見に基づきなされたものである。
【0014】
図1は、本発明の実施の形態1による文書情報分析装置の構成を示す構成図である。図において、主キーワード入力手段1は、利用者が必要とする情報を表現する語として、利用者自身が適切であると判断する語(主キーワード)を入力するための手段であって、キーボードやスタイラスペン、マウスなどのポインティングデバイスによる入力の他、マイクを通じて入力された音声を音声認識により文字列に変換する方法で文字列の入力を行うものである。
【0015】
第1の文書収集手段2は、主キーワード入力手段1によって指定されたキーワードを含む一以上の文書ファイルを収集する手段であり、インターネットや電子図書館など、大量の文書の母集合から主キーワードを含む文書を検索して収集するものであって、例えばインターネットの検索エンジンのようなものが該当する。一般的に、インターネットの検索エンジンでは、検索キーワードを入力するユーザインターフェースを有しているので、主キーワード入力手段1に相当する機能も兼ね備えている。なお、ここで文書ファイルとは、個々に独立したファイルである場合のみならず、たとえば一つの大きな文書ファイルが複数の文書を含んでいるような場合も含まれる。
【0016】
第1の文書記憶手段3は、第1の文書収集手段2が収集した文書を構成要素とする文書集合(以下、第1の文書集合と呼ぶ)を記憶する記憶装置であって、ハードディスク装置や磁気テープ装置のような不揮発性の記憶装置はもちろん、RAM(Random Access Memory)のような揮発性の記憶装置でもよく、またネットワークを介して入出力可能な他のコンピュータ上の記憶装置であってもよい。第1の特徴量算出手段4は、第1の文書集合の各文書に出現する語のそれぞれについて特徴量(以下、第1の特徴量という)を算出する手段であって、その実体は、図示せぬCPU(Central Processing Unit:中央演算装置)によって実行されるコンピュータプログラムである。
【0017】
第2の文書収集手段5は、文書を収集する手段であるが、第1の文書集合とは異なり、特に検索条件を定めずに文書を収集する手段である。第2の文書収集手段5の収集対象となる文書の情報源はインターネットや電子図書館などのように、特に条件を定めずに無作為に収集した文書の集合であることが望ましいが、これは必須の構成要件ではなく、たとえば特にテーマを定めずに利用者が書き込みを行うインターネット掲示板のようなものを通じて文書を収集してもよい。また第2の文書集合と、第1の文書集合との間には特別な包含関係は必要とせず、それぞれ異なる母集合から収集してもよいし、同一の母集合で双方を収集してもよい。
【0018】
第2の文書記憶手段6は、第2の文書収集手段5が収集した文書を構成要素とする文書集合(以下、第2の文書集合と呼ぶ)を記憶する記憶装置であって、第1の文書記憶手段2と同様に各種不揮発性記憶装置および揮発性記憶装置などにより構成される。第2の特徴量算出手段7は、第2の文書集合の各文書に出現する語のそれぞれについて特徴量(以下、第2の特徴量という)を算出する手段であって、その実体は、図示せぬCPU(Central ProcessingUnit:中央演算装置)によって実行されるコンピュータプログラムである。
【0019】
関連キーワード出力手段8は、第1の文書集合に基づいて算出された第1の特徴量と、第2の文書集合に基づいて算出された第2の特徴量から、第1の文書集合が含む各語の主キーワードに対する相関度を算出し、この相関度が所定の条件を満たす場合に、その語を主キーワードに対する関連キーワードとして出力する手段である。
【0020】
次に、実施の形態1による文書情報分析装置における処理について説明する。図2は本文書情報分析装置の処理を示すフローチャートである。まずステップS101において、第2の文書収集手段2は、インターネットやイントラネットなどのネットワークや、データベースおよびファイルシステム等の文書を格納可能な媒体から、これらの媒体が格納する文書の全てまたは無作為に選択した一部の文書を収集する。次にステップS201において、第2の文書記憶手段6は、第2の文書収集手段2が収集した文書を第2の文書集合として記憶する。次に、ステップS301において、第2の特徴量算出手段は、第2の文書集合に出現する語を全て抽出し、さらにこれら全ての語についてその特徴量を算出する。文書中に出現する語の抽出には、たとえば形態素解析などの公知の技術を用いて行うことができるが、その他にも、例えば語を網羅的に収録した電子辞書と照合しながら語を抽出してもよい。またここでいう特徴量とは、一の文書における語の重要度を現す数値であり、たとえば、ある文書における語の出現頻度を用いる。図3は、ステップS301の結果得られる特徴量の一例を示す図である。図は、例えば文書における各語の出現回数(出現度数)を文書の総語数によって除算した値を、小数点第一位の精度で表示したものである。またこのような出現頻度を算出する方法以外にも、次のような特徴量算出方法が考えられる。
【0021】
(1)例えば語が出現する文書の各部位に応じたスコアを予め定めておき、さらに各文書を走査して出現する語のスコアを文書の部位に基づいて加算していく方法である。たとえば文書のタイトルに語が出現する場合と、大見出しに出現する場合、中見出しに出現する場合、段落の中の文中に出現する場合では、語の重要度が異なると考えられる。そこで、文書のタイトルに出現した語に対してはより大きなスコアを与え、段落の中の文に出現する語には小さなスコアを与えるようにする。そして各語について出現位置ごとにスコアを加算していき、その合計を特徴量とする。またこれらのスコアを前述した出現頻度に重み付けを行うために用いてもよい。
【0022】
(2)語とそのスコアを予め記憶する対象語辞書をさらに備えて、ステップS301における特徴量算出処理時にこの対象語辞書を参照して各語のスコアを取得し、このスコアに基づいて語の特徴量を算出する方法である。この方法によれば、注目すべき語にはより大きなスコアを与えることができる。たとえば人名や社名、製品名、型番などを対象語辞書に登録し、これらに大きなスコアを付しておくことで、第2の文書集合中の文書にこれらの語が出現した場合に大きな特徴量が得られるように調整することも可能となる。具体的な特徴量の算出方法としては、対象語辞書中のスコアのみを語ごとに加算して行く方法や、前述した出現頻度に対し、対象語辞書のスコアを用いて重み付けをする方法などが考えられる。
【0023】
(3)第2の文書集合中の文書がHTML文書などの書式情報付き文書である場合に、この書式情報を利用してスコアを算出する方法である。たとえばある語に対して、その語がボールド文字で表示されるような書式が設定されている場合、文書におけるその語の重要度はボールド文字で表示されていない語に比べて高いと考えられる。このような場合に、ボールド文字表示という書式情報を利用して、このような書式情報のない語よりも大きな特徴量が得られるようにすることができる。これ以外にも、フォントのサイズ情報を利用して重要度を調整する方法や、テーブル化された文字列であれば、テーブルの左端に近い位置に表示される語、テーブルの上端に近い位置に表示される語の特徴量が大きくなるような調整を行うことも考えられる。
【0024】
続いてステップS401において、主キーワード入力手段1は、利用者から指定されたキーワードの入力を行う。ここでの具体的な入力手段としては前述したとおり、キーボードやポインティングデバイスによる入力方法、音声認識による入力方法などを用いる。また主キーワード入力手段1は、複数のキーワードを入力してもよい。たとえば入力用のテキストボックス(入力フィールド)を複数設けてもよいし、複数のキーワードをブランク(空白文字)で区切って入力するようにしてもよい。さらに「三菱電機の携帯電話」のように助詞や接続詞で接続されている語を複数のキーワードに分割してもよい。次に、ステップS501において、第1の文書を収集する。ここでは、主キーワード入力手段1を通じて入力された主キーワードを含む文書を、インターネットやイントラネットなどのネットワークや、データベース、および、ファイルシステム等の文書を格納可能な媒体から収集する。そのための収集手段としては、たとえば全文検索エンジンに主キーワードを検索キーワードを指定して、その検索結果となる文書を収集する。上記の例では、最初に主キーワード入力手段1によって主キーワードを入力し、次にこの主キーワードに基づいて、第1の文書を収集する構成としているが、この他に、第1の文書収集手段によって予め所定のテーマに基づいて文書を収集しておき、これらの各文書に共通して含まれる語の中から主キーワード入力手段1によって主キーワードを選択するような構成をとってもよい。さらにステップS601において、第1の文書記憶手段2は第1の文書収集手段が収集した文書を構成要素とする第1の文書集合を記憶する。
【0025】
次にステップS701において、第1の特徴量算出手段4は、第1の文書記憶手段2が記憶する第1の文書集合の各文書に出現する語と第1の特徴量を、文書ごとに算出する。文書中に出現する語の抽出方法については、ステップS301で説明した語の抽出方法と同様であるので、説明を省略する。ここで、第1の文書は、もともと主キーワードを検索キーワードとして収集した文書であり、第1の文書集合は第1の文書を構成要素とする集合であるので、第1の文書集合の各文書には、主キーワードが少なくとも1回以上出現する。したがってステップS701では、主キーワードも抽出される語に含めるようにする。
【0026】
ステップS701ではさらに、抽出した各語について第1の特徴量を算出する。ここで算出する第1の特徴量とは、ステップ301で第2の特徴量算出手段7で求める特徴量と同じく、その語の各文書における重要度を現す数値であるので、ここでは説明を省略する。ただし、第2の特徴量の算出方法は必ずしもステップ301で算出する第1の特徴量の算出方法と同じである必要はない。例えばステップS301では、出現頻度を第2の特徴量として用いたが、第1の特徴量として語ごとのスコアを加算していく方法を採用してもよい。
【0027】
次にステップS801において、関連キーワード出力手段8は、第1の特徴量算出手段4の出力する語の第1の特徴量と第2の特徴量算出手段7が算出する語の第2の特徴量に基づいて、語の相関度を算出し、関連キーワードの抽出を行う。そのためには、まず(1)第1の特徴量と第2の特徴量から合成特徴量を算出し(以下、処理1という)、その後(2)この合成特徴量から関連キーワードを抽出して(以下、処理2という)、(3)関連キーワードの相関度を算出する(以下、処理3という)。そこで次に、これらの処理について説明する。
【0028】
まず、上記処理1の「第1の特徴量と第2の特徴量から合成特徴量を算出する処理」について説明する。図4は、処理1における合成特徴量算出処理を示すフローチャートである。図のステップS8011において、第1の文書集合の語数を変数Mに代入する。ここで、第1の文書集合の語数とは、各文書を構成する語の総数ではなく、第1の文書集合の文書に出現する語の種類の数を指すものである。したがって同じ語が何度も出現する文書の場合、その文書を構成する語の数よりもMは小さい値になる。さらに、S8011において、第1の文書集合に収集された文書の個数を変数Nに代入する。次にステップS8012において、変数iに1を代入する。このiは第1の文書集合の文書に出現する語の種類に対するカウンタである。ステップS8013において、カウンタiがMを超えているかどうかを調べる。その結果超えていない場合にはステップS8014に進む(S8013:YES)。超えている場合は第1の文書集合のすべての語について処理を終えたので、処理を終了する。
【0029】
ステップS8014において、第1の文書集合に出現する語を語の種類ごとに順次配列W[i]に格納する。またそれと同時に、語W[i]の第2の特徴量をP2[i]に格納する。次にステップS8015において、変数jに1を代入する。このjは第1の文書集合に収集された文書に対するカウンタである。ステップS8016において、カウンタjがNを超えているかどうかを調べる。その結果超えていない場合には、ステップS8017に進む(S8016:YES)。超えている場合には、ステップS8020に進むが(S8016:NO)、この場合については後述する。
【0030】
ステップS8017において、語W[i]の第1の文書集合のj番目の文書についての第1の特徴量をP1[i,j]に格納する。ステップS8018では、語W[i]の第1の文書集合のj番目の文書についての合成特徴量Ps[i,j]を算出する。ここでは、第1の特徴量P1[i,j]を第2の特徴量P2[i]で割ったものをPs[i,j]に代入する。このような演算を行う理由は、次のとおりである。すなわち、第1の特徴量P1[i,j]とは、第1の文書集合のj番目の文書において、語W[i]が主キーワードとの概念的な関連性を有していると考えられる程度を示す指標であり、一方で第2の特徴量P2[i]とは、語W[i]が主キーワードとは無関係に使用される頻度の高さを示す指標である。合成特徴量Ps[i,j]は、これらの特徴量を総合的に考慮して決定される値とすることが望ましい。そこで、第1の特徴量P1[i,j]に比例し、第2の特徴量P2[i]に反比例するような値を合成特徴量Ps[i,j]として採用する。なお、合成特徴量Ps[i,j]を求めるための演算は、第1の特徴量P1[i,j]が大きければ大きい値をとり、また第2の特徴量P2[i]が小さければ小さい値をとるような演算であればよいので、P1[i,j]/P2[i]という演算に限られるものではない。たとえば、第1の特徴量P1[i,j]に何らかの値を乗じて、そこから第2の特徴量P2[i]を減算した結果を合成特徴量Ps[i,j]としてもよい。
【0031】
次に、ステップS8019でカウンタjに1を加えて、ステップS8013に戻る。この結果ステップS8016でカウンタjがNを超えた場合(ステップS8016:NO)は、ステップS8020に進む。ステップS8020では、カウンタiに1を加えて、ステップS8013に戻る。これらにより第1の文書集合中の全ての語W[i](i=1,2,…,M)について処理することで、(1)の処理は終了する。
【0032】
続いて、前述の処理2である「(2)合成特徴量から関連キーワードを抽出する処理」および処理3である「(3)関連キーワードの相関度を算出する処理」について説明する。図5は、処理2及び処理3のフローチャートである。図のステップS8021において、変数iに1を代入する。この変数iは以下の処理においてカウンタとして用いられる。ステップS8022において、カウンタiとMを比較し、M以下である場合にはステップS8023に進む(S8022:YES)。ここで、Mとは上記(1)と同じく第1の文書集合の語数を代入した変数であって、上記(1)のステップS8011ですでに設定しているものを用いればよい。なお、カウンタiがMを超える場合(ステップ8022:NO)については後述する。
【0033】
次に、ステップS8023の処理を実行する。ここで、上記処理1によって求められた、合成特徴量Ps[i,j]をj番目の成分とするベクトルを、語W[i]の合成特徴量ベクトルと呼ぶこととし、Ps[i]で表すこととする。ステップS8023においては、この合成特徴量ベクトルPs[i]の正規化を行い、その結果をRS[i]に代入する。「合成特徴量ベクトルPs[i]の正規化」とは、次式によって表されるものであり、合成特徴量ベクトルPs[i]の各成分をその総和によって除算したものである。
【0034】
【数1】
上式において、Nは処理1における場合と同じく第1の文書集合に収集された文書の個数である。この結果、正規化後の合成特徴量ベクトルの成分の和は1となる。
【0035】
上記のように正規化を行う理由は次の通りである。すなわち、処理1において、第1の特徴量を第2の特徴量で割った値を合成特徴量とした。第1の特徴量や第2の特徴量は、それぞれの文書において重要と考えられる語を、出現頻度や出現に基づくスコアを積算することで得た値である。ここで出現頻度や出現に基づくスコア、例えば第2の特徴量を算出するための母集団である第2の文書集合で収集された文書の数が大量にあり、第1の特徴量を算出するための母集団である第1の文書集合で収集された文書の数が少数である場合、第2の特徴量が第1の特徴量に比べて大きい値となることが予想される。すなわち、第1の文書集合及び第2の文書集合それぞれの文書の収集の仕方によって、得られる合成特徴量の大きさが変動することになってしまう。そこで、それぞれの文書間及び集合間でのこのような影響を排除するために、合成特徴量ベクトルの成分の和が1となるような正規化を行う。
【0036】
ステップS8024において、カウンタiに1を加え、ステップS8022に戻る。ステップS8022においてカウンタiがM以下である場合(S8022:YES)には、上記のステップS8023及びステップS8024を繰り返し実行する。またステップS8022においてカウンタiがMを超える場合(S8022:NO)は、ステップS8025に進む。
【0037】
ステップS8025において、正規化された第1の文書集合の各語W[i]の合成特徴量ベクトルRS[i](i=1,2,…,M)のうち、主キーワードの合成特徴量ベクトルをMsに代入する。なお、前述したとおり、第1の文書集合は、主キーワードを含む文書を収集したものであるから、その中に含まれる語には主キーワードが含まれている。
【0038】
続いてステップS8026において、カウンタiを再び1に初期化する。ステップS8027において、iがMを超えるかどうかを調べ、M以下である場合(S8027:YES)には、ステップS8028に進む。ステップS8028では、W[i]が主キーワードでない場合に、合成特徴量ベクトルRS[i]と主キーワードの合成特徴量ベクトルMsとの内積を計算する。この計算結果(スカラー量)をI[i]に代入する。ステップS8029においてI[i]を所定の値と比較し、I[i]が所定の値を超える場合(S8029:YES)には、ステップS8030に進む。ステップS8030において、I[i]が所定の値を超えるので、W[i]とI[i]をそれぞれ関連キーワードとその相関度として算出する。算出先はコンピュータのディスプレイ装置や記憶装置などである。なおここで、上記ステップS8029においてI[i]が所定の値を超える場合に、W[i]を関連キーワードとして抽出することとしたが、I[i]が所定の値以上である場合に、W[i]を関連キーワードとして抽出する構成としてもよい。
【0039】
次にステップS8031において、カウンタiに1を加えてステップS8027に戻る。ステップS8027において、カウンタiがMを超えた場合(S8027:NO)は、処理を終了する。
【0040】
なお、上記の説明においては、主キーワードが1個の場合を想定したが、主キーワードが複数ある場合は主キーワードの合成特徴量ベクトルMsが複数のベクトルになる。この場合は、それぞれの主キーワードの合成特徴量ベクトルと各語の正規化後の合成特徴量ベクトルとの内積を算出し、さらにそれぞれの内積による値を加算あるいは乗算した値を用いる。加算と乗算のいずれを用いるかについては、検索用途による。例えば、複数の主キーワードの検索結果の論理和をとる場合には、上記の内積値の和を求めればよいし、また複数の主キーワードの検索結果の論理積をとる場合には、上記の内積値の積を求める。
【0041】
上述のとおり、実施の形態1による文書情報分析装置によれば、主キーワードと概念上関連性の高い語を精度よく抽出することができるという効果を有する。
【0042】
なお、実施の形態1による文書情報分析装置では、まず第2の特徴量を算出した後に第1の特徴量を算出し、最後に関連キーワード出力手段8が第1の特徴量と第2の特徴量に基づいて関連キーワードの抽出と相関度の算出を行った。しかしこの他にも、先に第1の特徴量を算出してから、第2の特徴量を算出し、関連キーワードの抽出と相関度の算出を行うようにしてもよいし、また並列プロセッサや複数のコンピュータを協働させることによって第1の特徴量の算出と第2の特徴量の算出を並行して実行するようにしても構わない。また第2の特徴量の算出処理は主キーワードには依存しないので、最初に一度だけ第2の特徴量を算出しておき、以後主キーワード入力手段1から第1の特徴量算出手段4までの処理のみを繰り返すような構成にしてもよい。
【0043】
また、実施の形態1による文書情報分析装置では、一以上の主キーワードに基づいて、関連キーワードを抽出することとしたが、このほかに主キーワードから抽出した関連キーワードを主キーワードとして、再びこれらの主キーワードに基づく関連キーワードを抽出するようにしてもよい。このような処理を多段階で行うことにより、主キーワードにより表される概念にまつわる文書の検索を効率的に行うことができる。
【0044】
なお、実施の形態1による文書情報分析装置と同様の機能をコンピュータに実行させるプログラムとして構成してもよい。この場合、このプログラムは主キーワード入力手段1と同様の利用者インターフェースを有し、第1の文書収集手段2と同じく主キーワードを含む文書を収集し、第1の文書記憶手段3を構成する記憶装置にこれらの文書を記憶させる処理と、この記憶装置が記憶する文書から第1の特徴量を算出する処理と、第2の文書収集手段と同じく文書を収集し、記憶装置にこれらの文書を記憶させる処理と、この記憶装置が記憶する文書から第2の特徴量を算出する処理と、第1の特徴量と第2の特徴量から関連キーワードを抽出し、さらに相関度を算出する処理から構成される。
【0045】
実施の形態2.
次に、本発明の別の実施の形態について説明する。本発明の実施の形態2による文書情報分析装置は、主キーワードと関連キーワードの相関度の時間変化を分析するための手段を提供するものであり、これによって利用者は文書のトレンド変化を把握することができる。
【0046】
図6は、本発明の実施の形態2による文書情報分析装置の構成を示す構成図である。図において、スコアリング手段9は、前記第1の文書集合中の各文書(以下、対象文書と呼ぶ)に対して、文書の重要度をスコアとして与える手段である。対象文書作成日時取得手段10は、対象文書の作成日時を取得する。トレンド分析手段11は、第1の文書記憶手段が記憶している対象文書の集合と、スコアリング手段9により対象文書に与えられたスコアと、対象文書作成日時取得手段10により取得された対象文書の作成日時を用い、対象文書のスコアの時間変化を求めて利用者に提示する手段であり、具体的には、図示せぬCRT(Cathod Ray Tube)装置、液晶スクリーン装置などの表示装置や、プリンタ装置に出力を行う手段である。時系列特徴記憶手段12は、前記トレンド分析手段11により算出された対象文書のスコアの時間変化を記憶する手段であって、具体的にはハードディスク装置やフラッシュメモリ装置などの不揮発性記憶装置あるいはRAM(Random Access Memory)などによって構成されるものであって、データ容量が大きくなる場合には、データアクセスの効率性を確保するために、関係データベースなどの公知の技術を用いて構成してもよい。なお、図6において実施の形態1と同じ符号を付した構成要素については、実施の形態1と同様であるので説明を省略する。
【0047】
次に、実施の形態2による文書情報分析装置の処理について説明する。図7は本文書情報分析装置の処理を示すフローチャートである。図のステップS101からステップS701においては、実施の形態1と同様に第2の文書を収集し、それらに基づく第2の特徴量を算出するとともに、主キーワードの入力を受けて第1の文書を収集し、第1の特徴量を算出する。これらの処理については、実施の形態1と同様であるので、ここでは説明を省略する。
【0048】
次にステップS801において、実施の形態1と同じく主キーワードに関連する関連キーワードの抽出と、各関連キーワードの相関度の算出を行う。ここで、実施の形態1では相関度を算出するために、主キーワードと各関連キーワードとの間で、それぞれの第1の文書集合に含まれる文書ごとの特徴量を成分とする特徴量ベクトルの内積を求める方法によって相関度を算出した。これに対して実施の形態2では、主キーワードと各関連キーワードとの間で、それぞれの第1の文書集合に含まれる文書ごとの特徴量同士の積を算出し、文書ごとにその積を保持することとする。
【0049】
図8は、実施の形態2における相関度の算出方法の例を説明する図である。図において、主キーワードを「携帯電話」とし、また第1の文書集合に文書D1、D2、D3、D4が含まれるものとする。さらに、これらの文書における関連キーワード「メール」の合成特徴量をそれぞれ3.0、1.0、1.0、4.0であるものとし、主キーワード「携帯電話」の合成特徴量を0.36、0,09、0.36、0.18とする。そうすると、実施の形態2における相関度は、文書毎にこれらの合成特徴量の積をとって、文書D1については1.08(=3.0×0.36)、文書D2については0.09(=1.0×0.09)、文書D3については0.36(=1.0×0.36)、文書D4については0.72(=4.0×0.18)となる。
【0050】
続いてステップS901において、スコアリング手段9は第1の文書記憶手段3が記憶する文書の集合における文書に対して文書の重要度をスコアとして与える。ここで、文書の重要度とは、利用者がその文書を注目すべき尺度を文書毎に表した数値である。このような文書の重要度としては、たとえば、特開2001−325275「インターネット上で運用されている複数の検索エンジンを使ってWEBページの検索レポートを作成する方法と装置」で開示されている技術を用いて、文書中でのクレーム表現の出現量を示すクレーム出現率や、その文書が他の文書により参照されている割合を示す被参照度などを算出することができるが、このようなクレーム出現率や被参照度を文書の重要度として用いると効果的である。この他、実施の形態1による文書情報分析装置によって抽出できる主キーワードと関連キーワードが文書内に出現する頻度や、同じく実施の形態1で算出する特徴量を文書毎に分析して、それぞれの文書の重要度を決定してもよい。
【0051】
次に、ステップS1001において対象文書作成日時取得手段10は、第1の文書集合の文書を入力として受け取り、各文書の作成日時を取得する。文書作成日時の取得方法としては、対象文書がオペレーティングシステムにおけるファイルシステムやネットワークファイルシステムで管理される文書を取得したものであれば、それらのシステムが管理するファイルのタイムスタンプを取得すればよい。また、WWW(World Wide Web)で公開される文書であれば、Webサーバより送信されるhttpヘッダ中に含まれる文書の更新日時情報を取得してもよい。対象文書作成日時取得手段10は、対象文書の文書作成日時を、対象文書に対応付けて作成日時情報として出力する。
【0052】
続いて、トレンド分析ステップS1101においてトレンド分析手段11は、対象文書作成日時取得手段10により取得された作成日時情報について、関連キーワード出力手段8が出力した各文書ごとの関連キーワードと相関度との組と、スコアリング手段9により各対象文書に与えられたスコア情報とを関連づけ、その結果を出力する。図9は、ステップS1101により作成される時系列情報の一例を示す図である。時系列特徴は、各対象文書について文書作成日時、文書スコア、文書名やキーワードの特徴量などの文書特徴情報を記述したものとなっている。さらに、ステップS1201において、時系列特徴記憶手段12はトレンド分析手段11により作成された時系列特徴を格納する。なお時系列特徴記憶手段12は、特徴キーワードを指定することで、指定された特徴キーワードを文書特徴情報中に含むすべての対象文書の時系列特徴を取得できるものとする。
【0053】
次に、ステップS1301において、トレンド分析手段11は対話ステップを実行する。このステップでは、ステップS1201までに分析した各キーワードの時系列変化を利用者に表示する。利用者に表示する方法としては、図9に示した表の形式によって、各キーワードの特徴量を画面またはプリンタなどの出力手段に出力する方法や、文書スコア及び一以上のキーワードについての時系列変化をグラフ化して表示する方法がある。ここでは、後者の時系列変化をグラフ化して表示する方法について説明する。図10は、ステップS1301における処理をより詳細化したフローチャートである。図のステップS1302において、トレンド分析手段11はメニューを表示する。ここで表示するメニューの例としては図11に示すようなものであり、一般的なグラフィカル利用者インターフェース(以下GUIという)システムのサポートするメニューシステムによって実現される。図において、ポップアップメニュー21は、ステップS1301の対話ステップで選択しうるメニューの一覧を表示するものであり、またマウスポインタ22は現在利用者が選択しようとしている位置を表示するものである。さらに「表示」という文字列の後ろに表示される「(D)」、「キーワード毎の時系列変化表示」という文字列の後ろに表示される「(K)」、「文書スコアの時系列変化表示」という文字列の後ろに表示される「(D)」、「終了」という文字列の後ろに表示される「(X)」という文字列は、それぞれキーボードとメニュー選択の対応関係(ショートカットキーまたはアクセラレータ)を示している。この他にもメニューの表示方法としては、それぞれのメニューをアイコンとして表示する方法や、キャラクタのみを表示しうる表示デバイスの場合は、メニュー文字列を列挙し、選択しようとしているメニューをハイライト(強調)表示するようなインターフェースを採用するなどの方法がある。またメニューのような方法ではなく、同じくGUIシステムがサポートするボタンインターフェースを採用してもよい。
【0054】
また図11のようなポップアップメニューによるメニューの表示ではなく、たとえば図12に示すような個別のウィンドウ(ダイアログボックス)を用いて、表示する内容を選択させてもよい。図12において、キーワード23は後述するキーワード選択のためのテキストボックス(テキスト入力フィールド)であり、またキーワード毎の時系列変化表示ボタン24は、キーワード毎の時系列変化表示を選択する際に押下するボタンである。また文書スコアの時系列変化表示ボタン25は、文書スコアの時系列変化表示を選択する際に押下するボタンである。終了ボタン26は、終了を選択する際に押下するボタンである。この他メニュー表示方法としては、メニューとキーボード、マウスなどのポインティングデバイスなどの入力装置を対応づけて操作できるようにしてあるものであれば、どのようなものであってもよい。
【0055】
次にステップS1303において、S1302で表示したメニューの選択を読み込む。図11のようなグラフィカル利用者インターフェースの場合、それぞれのメニューアイテムに対して、ID(識別子)が割り振られていることが一般的であり、メニューが選択されるとGUIシステムによって、メッセージが送信されることが多い。本文書情報分析装置においては、このGUIシステムから送信されるメッセージを読み込むことによってメニューの選択を取得するが、このようなメッセージパッシングによるメニュー選択識別ではなく、所定のライブラリルーチンを呼び出してメニュー識別子を取得するようなGUIシステムである場合には、このライブラリルーチンを呼び出してメニュー識別子を取得してもよい。メニュー選択によって取得したメニュー識別子によって、以降の処理は異なる。利用者がキーワード毎の時系列変化表示メニューを選択した場合には、ステップS1304に進み、また文書スコアの時系列変化表示を選択した場合には、ステップ1307に進む。さらに終了メニューを選択した場合にはステップS1301の処理全体を終了する。そこでステップS1304およびステップS1307以降の処理について説明する。
【0056】
まずステップS1304では、メニュー選択後にキーワード入力を行う。ここでのキーワードとは、関連キーワード出力手段8が抽出した関連キーワードであって、キーボードを通じて入力する。次にステップS1305において、入力されたキーワードについて、時系列特徴記憶手段12が記憶する時系列毎の相関度を取得し、ステップS1306において相関度と時間を座標軸としてグラフ表示を行う。これによって、関連キーワード個別の時間毎の主キーワードとの相関度の変化を視覚的に確認することができる。ステップS1306におけるグラフ表示が終了すると、再びS1302に戻りメニューを表示する。
【0057】
またステップS1307では、時系列特徴記憶手段12が記憶する時系列毎の文書スコアを取得する。次にステップS1308において、各時系列ごとの文書スコア(これをプロットと呼ぶ)に各関連キーワードの相関度を付随データ(プロパティと呼ぶ)として対応させる。
【0058】
さらに、ステップS1309では、時系列特徴の時間変化検出を行う。トレンド分析手段11は時系列特徴記憶手段12に格納されている時系列特徴を文書ごとに先頭から走査し、各文書のスコアと文書作成日時の組を取得し、これを文書作成日時の昇順となるようリストを作成する。次に、リストの先頭から順に走査し、現在操作中の文書とその次の文書について、スコアの差分を文書作成日時の差分で割った値を求める。この値が所定の範囲を超えている場合は、リスト中の現在操作中の文書の位置にフラグを立てる。この処理をリスト中のすべての文書について行う。最後に、リスト中のフラグのつけられた文書の文書作成日時のみを集めたリストを新たに生成する。なお、所定の範囲とは、あらかじめ利用者が指定した数値の範囲のことである。
【0059】
次に、ステップS1310において、トレンド分析手段11はステップS1309において生成された文書作成日時のリストと同一の文書作成日時の文書プロパティを提示する。トレンド分析手段11は時系列特徴記憶手段12に格納されている時系列特徴を文書ごとに先頭から走査し、文書作成日時が、ステップS1309において生成された文書作成日時のリストに含まれているか検査する。含まれていない場合は次の文書の検査に進む。含まれている場合は、その文書のプロパティを取得する。この処理をステップS1309において生成された文書作成日時のリストと同一の文書作成日時のすべての文書に対して行う。
【0060】
続いて、ステップS1311において、文書スコアと時間をそれぞれ座標軸としてグラフ表示を行う。このグラフ表示の例を図13に示す。図において、各時系列は折れ線グラフ上の黒点として表されている。さらにこの黒点をマウスでクリックすると、ステップS1308で対応づけられたプロパティを表示するようにしてもよい。また、図において1点鎖線で囲まれた範囲は、ステップS1309によって検出された、スコアの変化量が所定の範囲を超えている部分であり、「スコア変化範囲 関連キーワード」で示された部分は、スコア変化量が所定の範囲を超えている部分の文書の関連キーワードを表示している。ステップS1311におけるグラフ表示が終了すると、再びS1302に戻りメニューを表示する。
【0061】
上記より明らかなように、スコアリング手段9と対象文書作成日時取得手段10とトレンド分析手段11とを設け、対象文書の重要度をあらわすスコアと対象文書の作成日時を取得することとしたので、対象文書のスコアの時間変化の情報を取得することができる。
【0062】
また、対象文書に含まれている関連キーワードを提示することで、対象文書中での話題について把握することができる。
【0063】
さらに、対象文書のスコアの時間変化を分析し、スコアの変化量が所定の範囲を超えていることを対象文書の作成日時ごとに検知することで、スコアの値が注目したい値の範囲にある対象文書を把握することができる。
【0064】
また、対象文書のスコアの変化量が所定の範囲を超えていることが検出された作成日時範囲に含まれる対象文書の抽出特徴キーワードを提示することで、スコアの値が注目したい値の範囲にある対象文書中での話題について把握することができる。
【0065】
【発明の効果】
本発明による文書情報分析装置は、主キーワードを含む文書を収集して得た第1の文書集合から抽出した語ごとの第1の特徴量を、主キーワードを含む文書とは異なる文書も含む文書を収集して得た第2の文書集合に基づいて算出した第2の特徴量によって低減することにより相関度を算出し、関連キーワードを抽出することとしたので、一般的用語として頻出する語を排除しながら主キーワードを補完する関連キーワードを精度よく求めることができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1による文書情報分析装置の構成図である。
【図2】本発明の実施の形態1による文書情報分析装置のフローチャートである。
【図3】本発明の実施の形態1による文書情報分析装置で算出される特徴量の例を示す一覧表である。
【図4】本発明の実施の形態1による文書情報分析装置における合成特徴量算出処理のフローチャートである。
【図5】本発明の実施の形態1による文書情報分析装置における相関度算出処理のフローチャートである。
【図6】本発明の実施の形態2による文書情報分析装置の構成図である。
【図7】本発明の実施の形態2による文書情報分析装置のフローチャートである。
【図8】本発明の実施の形態2による文書情報分析装置における相関度算出方法を示す説明図である。
【図9】本発明の実施の形態2による文書情報分析装置による時系列特徴の例を示す一覧表である。
【図10】本発明の実施の形態2による文書情報分析装置における対話処理のフローチャートである。
【図11】本発明の実施の形態2による文書情報分析装置における対話処理におけるメニューの一例の構成図である。
【図12】本発明の実施の形態2による文書情報分析装置における対話処理におけるメニューの別の例の構成図である。
【図13】本発明の実施の形態2による文書情報分析装置によって表示される時系列変化グラフである。
【符号の説明】
1:主キーワード入力手段
2:第1の文書収集手段
3:第1の文書記憶手段
4:第1の特徴量算出手段
5:第2の文書収集手段
6:第2の文書記憶手段
7:第2の特徴量算出手段
8:関連キーワード出力手段
9:スコアリング手段
10:対象文書作成日時取得手段
11:トレンド分析手段
12:時系列特徴記憶手段
Claims (15)
- 主キーワードを入力する入力手段と、
上記主キーワードを含む文書を収集する第1の文書収集手段と、
上記第1の文書収集手段が収集した文書からなる第1の文書集合を記憶する第1の文書記憶手段と、
上記第1の文書集合の各文書について、この文書に出現する各語の重要性を示す第1の特徴量を上記各語ごとに算出する第1の特徴量算出手段と、
上記第1の文書収集手段が収集した文書とは異なる文書を含む複数の文書を収集する第2の文書収集手段と、
上記第2の文書収集手段が収集した文書からなる第2の文書集合を記憶する第2の文書記憶手段と、
上記第2の文書集合の各文書について、この文書に出現する各語の重要性を示す第2の特徴量を上記各語ごとに算出する第2の特徴量算出手段と、
上記第1の文書集合の文書と、上記第2の文書集合の文書との双方に出現する語について、第1の特徴量を第2の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度が所定の条件を満たす語を上記主キーワードの関連キーワードとして出力する関連キーワード出力手段とを備えることを特徴とする文書情報分析装置。 - 前記第1の特徴量算出手段は、前記第1の文書集合の文書について、この文書における前記各語出現頻度を前記第1の特徴量として算出することを特徴とする請求項1に記載された文書情報分析装置。
- 前記第1の特徴量算出手段は、前記第1の文書集合の文書にについて、この文書における前記各語が使われている文書の部位によって特定される所定のスコアに基づいて、第1の特徴量を算出することを特徴とする請求項1に記載された文書情報分析装置。
- 所定の対象語についてのスコアを記憶する第1の対象語辞書をさらに備え、
前記第1の特徴量算出手段は、前記第1の文書集合の文書について、この文書における前記各語が上記第1の対象語辞書の記憶するいずれかの対象語である場合に、上記第1の対象語辞書が記憶する上記対象語のスコアを積算することにより、前記第1の特徴量を算出することを特徴とする請求項1に記載された文書情報分析装置。 - 前記第1の特徴量算出手段は、前記第1の文書集合の各文書について、この文書に出現する各語の書式情報を取得し、この書式情報により特定される所定のスコアを積算することによって、前記第1の特徴量を算出することを特徴とする請求項1に記載された文書情報分析装置。
- 前記第2の特徴量算出手段は、前記第2の文書集合の文書について、この文書における前記各語出現頻度を前記第2の特徴量として算出することを特徴とする請求項1乃至請求項5のいずれか一に記載された文書情報分析装置。
- 前記第2の特徴量算出手段は、前記第2の文書集合の文書にについて、この文書における前記各語が使われている文書の部位によって特定される所定のスコアに基づいて、第2の特徴量を算出することを特徴とする請求項1乃至請求項5のいずれか一に記載された文書情報分析装置。
- 所定の対象語についてのスコアを記憶する第2の対象語辞書をさらに備え、
前記第2の特徴量算出手段は、前記第2の文書集合の文書について、この文書における前記各語が上記第2の対象語辞書の記憶するいずれかの対象語である場合に、上記第2の対象語辞書が記憶する上記対象語のスコアを積算することにより、前記第2の特徴量を算出することを特徴とする請求項1乃至請求項5のいずれか一に記載された文書情報分析装置。 - 前記第2の特徴量算出手段は、前記第2の文書集合の各文書について、この文書に出現する各語の書式情報を取得し、この書式情報により特定される所定のスコアを積算することによって、前記第2の特徴量を算出することを特徴とする請求項1乃至請求項5のいずれか一に記載された文書情報分析装置。
- 前記関連キーワード出力手段は、前記第1の特徴量と前記第2の特徴量とを正規化した後に、正規化後の第1の特徴量を正規化後の第2の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出することを特徴とする請求項1乃至請求項9のいずれか一に記載された文書情報分析装置。
- 前記関連キーワード出力手段は、前記関連キーワードとともに前記相関度を出力することを特徴とする請求項1乃至請求項9のいずれか一に記載された文書情報分析装置。
- 前記第1の文書集合の文書についてその文書の重要度を算出する文書スコアリング手段と、
前記第1の文書集合の文書の作成日時を取得して出力する文書作成日時取得手段と、
上記文書の作成日時に基づいて、上記文書の重要度と、前記関連キーワード出力手段が出力する関連キーワードの相関度とのそれぞれの時間変化を算出して出力するトレンド分析手段とをさらに備えることを特徴とする請求項11に記載された文書情報分析装置。 - 前記文書スコアリング手段は、前記文書について前記第1の文書集合における他の文書からの参照度数に基づいて重要度を算出することを特徴とする請求項12に記載された文書情報分析装置。
- 前記文書スコアリング手段は、前記文書におけるクレーム表現の個数に基づいて重要度を算出することを特徴とする請求項12に記載された文書情報分析装置。
- 前記トレンド分析手段が出力する前記文書の重要度と、前記関連キーワードの相関度とのそれぞれの時間変化を記憶する時系列特徴記憶手段と、
上記時系列特徴記憶手段が記憶する前記文書の重要度と、前記関連キーワードの相関度とのそれぞれの時間変化を表示する表示手段を備えたことを特徴とする請求項12乃至請求項14のいずれか一に記載された文書情報分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002374540A JP2004206391A (ja) | 2002-12-25 | 2002-12-25 | 文書情報分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002374540A JP2004206391A (ja) | 2002-12-25 | 2002-12-25 | 文書情報分析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004206391A true JP2004206391A (ja) | 2004-07-22 |
Family
ID=32812538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002374540A Abandoned JP2004206391A (ja) | 2002-12-25 | 2002-12-25 | 文書情報分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004206391A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006059352A (ja) * | 2004-08-13 | 2006-03-02 | Microsoft Corp | ドキュメントを要約する方法およびシステム |
JP2006099754A (ja) * | 2004-09-01 | 2006-04-13 | National Institute Of Advanced Industrial & Technology | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
WO2010035455A1 (ja) * | 2008-09-24 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
WO2010067566A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 時系列データ分析装置、時系列データ分析方法、及びコンピュータ読み取り可能な記録媒体 |
JP2010134780A (ja) * | 2008-12-05 | 2010-06-17 | Casio Computer Co Ltd | 情報処理装置およびその制御プログラム |
CN101833549A (zh) * | 2009-03-11 | 2010-09-15 | 索尼公司 | 文本分析设备、方法和程序 |
JP2013069175A (ja) * | 2011-09-22 | 2013-04-18 | Nec Corp | キーワード抽出システム、キーワード抽出方法及びプログラム |
JP2016153972A (ja) * | 2015-02-20 | 2016-08-25 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
-
2002
- 2002-12-25 JP JP2002374540A patent/JP2004206391A/ja not_active Abandoned
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006059352A (ja) * | 2004-08-13 | 2006-03-02 | Microsoft Corp | ドキュメントを要約する方法およびシステム |
JP4613346B2 (ja) * | 2004-09-01 | 2011-01-19 | 独立行政法人産業技術総合研究所 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
JP2006099754A (ja) * | 2004-09-01 | 2006-04-13 | National Institute Of Advanced Industrial & Technology | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JPWO2010035455A1 (ja) * | 2008-09-24 | 2012-02-16 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
WO2010035455A1 (ja) * | 2008-09-24 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP5387578B2 (ja) * | 2008-09-24 | 2014-01-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2010134780A (ja) * | 2008-12-05 | 2010-06-17 | Casio Computer Co Ltd | 情報処理装置およびその制御プログラム |
WO2010067566A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 時系列データ分析装置、時系列データ分析方法、及びコンピュータ読み取り可能な記録媒体 |
CN101833549A (zh) * | 2009-03-11 | 2010-09-15 | 索尼公司 | 文本分析设备、方法和程序 |
JP2010211594A (ja) * | 2009-03-11 | 2010-09-24 | Sony Corp | テキスト分析装置および方法、並びにプログラム |
JP2013069175A (ja) * | 2011-09-22 | 2013-04-18 | Nec Corp | キーワード抽出システム、キーワード抽出方法及びプログラム |
JP2016153972A (ja) * | 2015-02-20 | 2016-08-25 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7194471B1 (en) | Document classification system and method for classifying a document according to contents of the document | |
US7783644B1 (en) | Query-independent entity importance in books | |
WO2009154153A1 (ja) | 文書検索システム | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
CA2895511A1 (en) | Systems and methods for patent-related document analysis and searching | |
JP2011513810A (ja) | 用語識別方法および装置 | |
JP2004206391A (ja) | 文書情報分析装置 | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
JP5827206B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP3829506B2 (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP3583631B2 (ja) | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
US7630979B2 (en) | Information retrieval terminal | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP4497337B2 (ja) | 概念検索装置およびコンピュータプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040709 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20090130 |