JP5527548B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents

情報分析装置、情報分析方法、及びプログラム Download PDF

Info

Publication number
JP5527548B2
JP5527548B2 JP2010532807A JP2010532807A JP5527548B2 JP 5527548 B2 JP5527548 B2 JP 5527548B2 JP 2010532807 A JP2010532807 A JP 2010532807A JP 2010532807 A JP2010532807 A JP 2010532807A JP 5527548 B2 JP5527548 B2 JP 5527548B2
Authority
JP
Japan
Prior art keywords
information
unit
training
sentence
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010532807A
Other languages
English (en)
Other versions
JPWO2010041420A1 (ja
Inventor
正明 土田
弘紀 水口
俊之 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010532807A priority Critical patent/JP5527548B2/ja
Publication of JPWO2010041420A1 publication Critical patent/JPWO2010041420A1/ja
Application granted granted Critical
Publication of JP5527548B2 publication Critical patent/JP5527548B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報分析装置、情報分析方法、及びプログラムに関する。
近年、大量の情報がテキスト化されるようになっている。このような大量のテキスト情報の活用には、活用目的に合わせた情報の抽出や検索が有効である。例えば、活用目的が、商品購買の意思決定やマーケティングの支援ならば、大量のテキスト情報の中から、商品やサービスに関する意見や要望の抽出や検索ができると良い。
テキスト情報の活用目的に合わせた情報の抽出や検索には、目的情報の記述文判定が重要となる。なぜならば、目的の情報が書かれていない文から、情報を抽出したり、検索のためのインデックスを作成したりしても、その結果はノイズとなるためである。従来の目的情報の記述文判定法としては、目的の情報を含むか否かでテキスト情報を分類する方法が考えられる。具体的には、任意のテキストデータの分類方法、例えば、特許文献1に記載の分類方法を用いることができる。
特許文献1に開示の分類方法は、テキスト情報から任意の固定長の部分文字列を抽出し、更に、部分文字列の特徴量から特徴ベクトルを生成し、この特徴ベクトルを用いて、テキスト情報が目的のカテゴリーに分類されるか否かを判定する。特許文献1に開示の分類方法は、文の単位で、目的情報であるか否かを分類する方法である。また、「文」とは、テキスト情報中の文字列を固定長や文末記号によって区切り、それによって生成したテキストとする。
また、一文単位ではなく、同じ話題について書かれた複数文から構成されるトピックの単位(以下「トピック単位」とする。)で、目的情報であるか否かを分類する方法も考えられる。ここで、「トピック単位」は、テキスト中で話題が変わる箇所で区切ることによって生成される、複数文からなるテキストである、とする。
トピック単位で分類する方法としては、例えば、特許文献2に開示の分類方法が挙げられる。特許文献2に開示の分類方法は、各文について、内容語の重要度を表すトピックベクトルを作成して、隣接する2文のトピックベクトルの類似度を求め、類似度の変化に基づいてトピックの境界位置を検出する。そして、検出された境界位置に基づいて、分類が行われる。
特開2008−84064号公報 特開2007−241902号公報
しかしながら、文単位での分類が実施される特許文献1に開示の分類方法では、目的の情報の出現傾向を考慮できていないため、分類精度が低下するという問題がある。その理由は、以下の通りである。
目的情報の出現傾向とは、「目的の情報はまとまって書かれやすい」といった傾向を意味している。目的の情報がまとまって書かれやすければ、1つの目的情報を見つけたら、周辺文にも目的の情報が含まれる、と考えられる。この場合は、周辺文に存在する目的の情報を使用することで、個々の文を分類するよりも高精度な分類が可能になると考えられるが、特許文献1では、周辺文に存在する目的の情報を有効に利用できておらず、分類精度の向上は困難である。
一方、特許文献2に開示の方法では、分類対象となるテキスト集合を、同じ話題についてのテキストの集合で構成された単位、即ち、話題が連続している複数文の単位(トピック単位)で分割できる。このため、特許文献2に開示の方法と特許文献1に開示の方法と組み合わせることで、話題の連続性を考慮した目的情報か否かの判定ができる。よって、特許文献2に開示の方法を用いることで、特許文献1における問題は解消可能と考えられる。
しかし、トピック単位の分割が実施される特許文献2に開示の方法では、トピック単位が必ずしも目的情報の記述範囲とは一致しないため、原理的に一文単位の判定ができないという問題がある。その理由は、以下の通りである。
トピック単位での分割は、目的とする情報か否かとは異なる視点で行われている。言い換えるとトピック単位への分割においては、隣接する部分テキスト内で使用されている語の類似などから同一話題の範囲が特定されるので、必ずしもユーザの目的の情報であるか否かが考慮されて範囲が特定されるわけではない。よって、あるトピック単位に目的情報が記述されていると分類されたとしても、実際にその中の文全てが目的情報であるとは限らない。例えば、目的情報が「意見が書かれている文」である場合、あるニュースについてのトピック単位の中には意見でない文が含まれる。このように、トピック単位には、目的情報でない文も含まれ、そして目的情報でない文かどうかについての判定が行われることはない。
本発明の目的は、上記問題を解消し、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位での目的情報か否かの判定を行い得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明における情報分析装置は、テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする。
また、上記目的を達成するため、本発明における情報分析方法は、テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムであって、
前記コンピュータに、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、ことを特徴とする。
以上のように、本発明における情報分析装置、情報分析方法、及びプログラムによれば、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位で、目的情報か否かを判定できる。
図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。 図2は、分析対象となるテキスト情報の一例を示す図である。 図3は、図2に示すテキスト情報に設定された分析単位の例を示す図である。 図4は、本発明の実施の形態1における情報分析方法を示すフロー図である。 図5は、予め分析単位が設定された状態で図1に示す入力テキスト記憶部に記憶されているテキスト情報の一例を示す図である。 図6は、図1に示す密度推定モデル記憶部に記憶されている密度推定モデルで用いられる、単語リストの一例を示す図である。 図7は、密度の推定を説明するための図である。 図8は、密度が推定された分析単位の一例を示す図である。 図9は、文毎に算出された評価値の一例を示す図である。 図10は、目的情報記述文であるかどうかの判定結果の一例を示す図である。 図11は、表示結果の一例を示す図である。 図12は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。 図13は、訓練用のテキスト情報の一例を示す図である。 図14は、本発明の実施の形態2における情報分析方法を示すフロー図である。 図15は、訓練単位が設定された訓練用のテキスト情報と訓練データとの一例を示す図である。 図16は、密度推定モデル学習部が出力するデータの一例を示す図である。 図17は、判定モデル学習部92が生成するデータの一例を示す図である。 図18は、本実施の形態1及び2におけるプログラムを実行可能なコンピュータを示すブロック図である。
(実施の形態1)
以下、本発明の実施の形態1における情報分析装置、及び情報分析方法について、図1〜図11を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1〜図3を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2は、分析対象となるテキスト情報の一例を示す図である。図3は、図2に示すテキスト情報に設定された分析単位の例を示す図である。
図1に示す情報分析装置5は、テキスト情報に対して、それが目的情報に該当するか否かの分析を行う情報分析装置である。テキスト情報としては、図2に示すものが挙げられる。また、この場合の目的情報としては、「テニス選手Aに関する情報」が挙げられる。
図1に示すように、情報分析装置5は、密度推定部51と、判定部52とを備えている。密度推定部51は、テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている目的情報の度合いを示す密度を推定する。例えば、密度推定部51は、図3に示された分析単位毎に、密度を推定する。また、判定部52は、分析単位毎に推定された密度から、各分析単位に含まれる各文が目的情報に該当する度合いを示す評価値を求め、求めた評価値に基づいて、各文が目的情報であるか否かを判定する。なお、以降において、目的情報に該当する文は「目的情報記述文」とする。
このように、情報分析装置5においては、テキスト情報中の複数の文で構成される分析単位毎に、目的情報の密度が推定される。そして、分析単位の密度は、目的情報がまとまって書かれている分析単位では高く、逆に、目的情報が少ない分析単位では低くなる。つまり、分析単位毎の密度は、周辺の文の情報が考慮された値となっており、情報分析装置5は、目的情報の出現傾向を考慮することができる。
更に、情報分析装置5においては、各文を含む分析単位毎の密度から、各文の最終的な目的情報らしさが評価され(評価値が算出され)、それから、各文が目的情報記述文であるかどうかが判定される。言い換えれば、仮に密度が高い分析単位が存在しても、その中の全ての文が目的情報記述文であると判定されるわけではない。情報分析装置5は、複数の分析単位の結果から、総合的に、各文について1文単位で判定を行うことができる。
また、図1に示すように、本実施の形態1では、情報分析装置5は、更に、入力部1と、分析単位生成部50と、記憶装置4とを備え、そして、表示装置6及び入力装置10に接続されている。入力装置10は、入力部1に情報を入力するための装置であり、具体的には、キーボードや、マウス等である。また、入力装置10は、情報分析装置5にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。
表示装置6は、情報分析装置5による分析結果を利用者に示すための装置である。表示装置6は、判定部52の指示に応じて、目的情報記述文のみを表示したり、目的情報記述文を強調表示したりして、目的情報記述文の判定結果を表示する。具体的には、表示装置6としては、液晶ディスプレイ等の表示装置や、プリンタ等を用いることができる。また、表示装置6は、情報分析装置5にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。
入力部1は、入力装置10からの情報、例えば、分析対象となるテキスト情報や、利用者が設定した情報等の入力を受け付ける。また、入力部1は、入力装置10から、分析対象となるテキスト情報が入力されると、これを記憶装置4に入力し、記憶させる。更に、入力部1は、テキスト情報の入力があったことを、分析単位生成部50に通知する。
記憶装置4は、入力されたテキスト情報を記憶する入力テキスト記憶部40と、密度推定モデルを記憶する密度推定モデル記憶部41と、判定モデルを記憶する判定モデル記憶部42とを有している。本実施の形態1では、記憶装置4は、情報分析装置5の内部に備えられ、その一部を構成しているが、情報分析装置5とは別の装置であって、ネットワークを介して情報分析装置5に接続されていても良い。
入力テキスト記憶部40は、上述したように入力装置10から入力部1を介して入力されたテキスト情報を記憶する。このテキスト情報は、例えば、図2に示すテキストデータであり、1つ以上の記事を有し、各記事は1つ以上の文から構成されていれば良い。密度推定モデル記憶部41は、入力装置10から入力部1を介して入力された密度推定モデルを記憶している。本実施の形態1では、密度推定部51は、密度推定モデルを利用して、テキスト情報内における目的情報の密度を推定する。また、密度推定モデルとしては、例えば、入力された分析単位に含まれる目的情報の頻度や確度が高いと推定される程、高いスコアを出力する性質を持った関数が用いられる。なお、「分析単位」の説明は、分析単位生成部50の説明と共に後述する。また、密度推定モデルの具体例は、密度推定部51の説明を行う際に開示する。
判定モデル記憶部42は、入力装置10から入力部1を介して入力された判定モデルを記憶している。本実施の形態1では、判定部52は、判定モデルを利用して、テキスト情報と推定された密度とから、最終的に各文が目的情報記述文であるかどうかを判定する。また、判定モデルとしては、例えば、各文の目的情報らしさ(各文が目的情報に該当する度合いを示す評価値)に基づいて評価が可能な関数が用いられる。なお、各文の目的情報らしさは、各分析単位とその密度の推定結果とから求められる。また、判定モデルの具体例は、判定部52の説明を行う際に開示する。
分析単位生成部50は、テキスト情報(図2参照)から、複数の分析単位(図3参照)を生成する。本実施の形態1では、分析単位生成部50は、先ず、入力テキスト記憶部40からテキスト情報を抽出し、更に、テキスト情報に含まれる記事毎に、複数文で構成される分析単位を複数生成し、生成した複数の分析単位を密度推定部51に入力する。各文は、いずれかの分析単位に含まれることとなる。
また、本実施の形態1では、分析単位生成部50は、予め設定された条件(設定条件)に従って分析単位を生成している。具体的には、例えば、分析単位生成部50は、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、即ち、文の重複を許して、複数個の分析単位を生成しても良い。このように、文の重複を許すようにして分析単位を生成した場合は、各文が属する分析単位が複数できるため、判定部52は、各文についての判定材料として、複数の密度や、密度の推移を使用できるため、判定部52における判定精度の向上が図られる。
また、分析単位生成部50は、テキスト情報中の連続する複数の文の中から、予め設定された数(W個)の連続する文を抽出し、抽出された連続する文を含む分析単位を複数個生成しても良い。このように、各分析単位を構成する文の数が一定に固定されると、密度推定部51によって文の数を考慮した調整を行う必要が無くなるため、各分析単位を構成する文の数が一定数に固定されていない場合と比較して、密度推定モデルの構築は、相対的に容易なものとなる。
分析単位生成部50は、テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、各分析単位中のいずれかの文が、他の分析単位中のいずれかの文と一致するようにして、抽出された連続する文を含む分析単位を複数個生成しても良い。つまり、分析単位生成部50は、文の重複を許し、そして、連続する複数の文を抽出して、複数の分析単位を生成しても良い。この場合は、上述した二つの効果が同時に得られることとなる。
更に、図2に示すように、テキスト情報中の複数の文それぞれに、これらが連続する順に、番号が付されている場合は、分析単位生成部50は、予め定められた文の数(W個)より小さい数だけ番号をずらしながら、含まれる文の数が同数となる分析単位を生成しても良い。つまり、図3に示すように、分析単位生成部50は、予め設定された数の文を番号が連続するように抽出し、そして、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の分析単位を生成しても良い。なお、この場合も、分析単位生成部50は、文の重複を許し、そして、連続する複数の文を抽出している。
具体的には、図3の例では、各分析単位に含まれる文の数が同数となるようにするため、先頭の文(文ID=1)が、記事の始めに(W−1)個追加され、そして、末尾の文(文ID=11)が記事の後ろに(W−1)個追加されている。また、図3の例では、分析単位生成部50は、以下の設定条件に従って、複数の分析単位を生成している。
例えば、テキスト情報が、1番からN番までのN個の連続する文を含み、複数個の分析単位それぞれがW個の文を含む場合について、設定条件を説明する。この場合、分析単位生成部50は、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成する。その際、分析単位生成部50は、1番の分析単位を、W個の1番の文によって生成し、2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成する。
また、分析単位生成部50は、W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成する。更に、分析単位生成部50は、(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、(N+W−1)番目の分析単位を、W個のN番の文によって生成する。なお、上述の設定条件において、N=11、W=3に設定したときが、図3の例に相当する。
密度推定部51は、本実施の形態1では、密度推定モデル記憶部41から、密度推定モデルを読み出し、密度推定モデルに従って、分析単位生成部50が生成した分析単位毎に、密度を推定する。また、密度推定部51は、各分析単位に密度情報を付加して、これを判定部52に出力する。また、本実施の形態1における密度推定モデルの具体例としては、目的情報の関連語のリスト(以下、「関連語リスト」とする)に基づいて、各分析単位に含まれている関連語の頻度を出力する関数が挙げられる。
他の密度推定モデルとしては、関連語毎に重要度が設定された関連語リストに基づいて、分析単位内に出現する関連語の重要度を積算し、得られた積算値を出力する関数も挙げられる。また、他の密度推定モデルとして、関連語がベクトルで表された関連語リストに基づいて、関連語リストのベクトルと、分析単位内の単語出現ベクトルとの「類似度」を出力する関数も挙げられる。なお、関連語リストは、人によって予め作成されたものであっても良いし、機械処理によって予め自動的に生成されたものでも良い。
なお、代表的な類似度の例としては、コサイン類似度が挙げられる。また、ベクトルや、関連語に対して、重みを付与する場合は、例えば、代表的な単語重み付け方法であるTFIDF法を用いることができる。TFIDFとは、TF(Term Frequency:記事内に現れる単語の出現頻度)と、IDF(Inverse Document Frequency:全記事数と単語を含む記事数の商の対数)とを掛け合わせて得られるものである。TFIDF法によれば、ある記事に現れ易いが、少ない数の文書にしか現れない単語に高い値を付与することができる。
判定部52は、本実施の形態1では、判定モデル記憶部42から判定モデルを読み出し、密度推定部51によって推定された密度情報が付加された分析単位を受け取る。そして、判定部52は、判定モデルに従って、各文が所属する各分析単位の密度から各文の目的情報らしさを評価し、評価の結果を用いて各文が目的情報であるか否かを判定する。その後、判定部52は、判定結果が付加された文を表示装置6に表示させるための表示データを生成し、それを表示装置6に出力する。
本実施の形態1では、判定モデルとしては、各文を含む(各文が所属する)分析単位の密度を用いて、各文の評価値を算出し、評価値が予め定められた閾値を超える(又は閾値以上となる)文を目的情報記述文と判定する関数が、挙げられる。具体的には、例えば、判定モデルとしては、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和を求め、求めた値(各文の評価値となる)が閾値を超える場合に、目的情報記述文と判定する関数が挙げられる。また、記述判定モデルとしては、密度の和の代わりに、密度の平均、又は密度の標準偏差を求めるものも挙げられる。
その他、判定モデルとしては、密度の和、密度の平均及び密度の標準偏差のうち二つ以上を用いるものも挙げられる。例えば、各文が所属する各分析単位の密度の平均値と、密度の標準偏差とを算出し、平均値から標準偏差の定数倍(予め決められたパラメタ)を引いて得られた値、又は平均値と標準偏差の定数倍とを足して得られた値を用いるものが挙げられる。このような判定モデルでは、引いて得られた値又は足して得られた値が、予め定められた閾値を越える(又は閾値以上となる)場合に、目的情報であると判定される。
また、平均値と標準偏差の定数倍とを足して得られた値を用いる、判定モデルを利用すれば、密度の推定値のばらつきを考慮することが可能となる。この判定モデルは、密度の推定値にばらつきが多い場合に有効である。また、出来るだけ判定結果にミスが含まれないようにする場合は、平均値から標準偏差の定数倍を引いて得られた値を用いる、判定モデルを利用するのが良い。逆に、ミスが多少含まれていても良いが、出来るだけ多数の文について目的情報記述文かどうかを判定したい場合は、標準偏差の定数倍を足した値を用いる、判定モデルを利用するのが良い。
更に、本実施の形態1では、基本的に、判定部52は、上述した判定モデルに従って判定を行うが、判定モデルに従った判定に加え、別の判定基準を加えた判定を行うことができる。例えば、判定部52は、ある判定対象の文を含むある分析単位の密度が他の分析単位の密度に比べて著しく低い場合に、その文を目的情報としない判定も行うことができる。このような判定は、ある文が分析単位から抜けた場合や、他の文が分析単位に追加され場合に、著しく密度が低下するということは、密度が低下した状態にある分析単位に含まれている文が、目的情報である可能性は低い、という考え方に基づいている。
また、その他に、判定部52は、分析単位中の各文の単語又は文節から得られる情報、及びテキスト情報と各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として用いて、判定を行うこともできる。この場合も、判定部52は、記述判定モデルに従い、各分析単位の密度の推定値を用いた判定も実行する。
具体的には、各分析単位の密度の推定値と、各文の単語や文節から得られる情報とを用いる場合としては、「判定部52は、密度が高い分析単位に含まれる文であっても、特定の単語を含む文に対しては目的情報として判定しない」例が挙げられる。また、各分析単位の密度の推定値と、テキスト情報と各文との比較によって取得される情報とを用いる場合としては、「判定部52は、密度が低い分析単位に含まれるが、密度の高い分析単位に含まれる文と同一又は類似の単語を含む文を、目的情報として判定する」例が挙げられる。
なお、本実施の形態1は、情報分析装置5が、分析単位生成部50を備えていない態様であっても良い。例えば、入力装置10から入力されたテキスト情報に、最初から、何らかの方法で、複数文を一単位とする分析単位が生成されている場合は、情報分析装置5は、分析単位生成部50を備えていなくても良い。
次に、本発明の実施の形態1における情報分析方法について図4〜図11を用いて説明する。図4は、本発明の実施の形態1における情報分析方法を示すフロー図である。但し、本実施の形態1における情報分析方法は、図1に示した本実施の形態1における情報分析装置5を動作させることによって実施される。このため、以下の説明は、適宜図1〜図3を参酌しながら、情報分析装置5の動作説明と共に行う。
なお、本実施の形態1において、目的情報は、上述したように「テニス選手Aに関する情報」に設定されている。また、密度推定モデルの具体例は、密度推定部51による処理(図4に示すステップS3)と共に説明する。判定モデルの具体例は、判定部52による処理(図4に示すステップS4)と共に説明する。
また、以降の説明は、分析単位生成部50が、図3に示したように、予め設定された数の文を番号が連続するように抽出し、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の分析単位を生成する例について行う。この例は、密度推定部51及び判定部52との組み合わせにおいて最も効果的である。
つまり、この例でも、文の重複を許して分析単位が構成され、各文が属する分析単位が複数生成されるため、先にも述べたように、判定部52は、複数の密度を用いたり、密度の推移を判定材料として使用したりできるようになる。また、各分析単位の文の数が一定数に固定されるため、密度推定部51で、文の数を考慮した調整が必要なくなるので、一定数に固定しない場合と比較して、密度推定モデルの構築が相対的に容易になる。
図4に示すように、先ず、入力装置10からテキスト情報が入力されると、入力部1はテキスト情報を受け付け、この目的情報の抽出対象となるテキスト情報を、入力テキスト記憶部40に記憶させる(ステップS1)。この場合、入力テキスト記憶部40は、図2に示すテキスト情報を記憶する。
ステップS1において、テキスト情報は、図2に示すように、記事の識別子である「記事ID」、各記事の先頭から末尾までの文に出現順に1から付与された番号である「文ID」、文のテキストが格納される「文」の3つを、1レコードとして記憶される。例えば、図2から、記事IDが1の記事(記事ID=1)の先頭文は「テニス全米オープンでX日、テニス選手Aが完勝発進」とわかる。
次に、分析単位生成部50が、入力テキスト記憶部40からテキスト情報を読み込み、各記事の先頭の文から1文ずつずらしながら一定個数(パラメータW)の文からなる分析単位を生成する(ステップS2)。また、分析単位生成部50は、生成した分析単位を密度推定部51に出力する。ステップS2について図3を参照して具体的に説明する。
図3は、図3の記事IDが1の記事を対象に、W=3として分析単位を生成した例である。先ず、記事の先頭と末尾の文が、他の文と同様にW個の分析単位に含まれるようにするため、先頭の文を記事の始めに(W−1)個追加し、末尾の文を記事の後ろに(W−1)個追加する。
その上で、記事の先頭の文から1文ずらしてW個の文からなる分析単位を生成すると、図3に示す状態となる。図3を参照すると、例えば4番目の分析単位である分析単位4は、文IDが2、3、4の3文から構成されていることが分かる。図3の例では、分析単位は、1文ずらしで生成されているため、1つの文はW個の分析単位に所属する。具体的には、W=3に設定されているため、例えば、文ID=2の文は、分析単位2、3、4の3つの分析単位に所属している。
なお、本実施の形態1においては、既に述べたとおり、分析単位生成部50は、必須の構成要素ではないことに注意する。よって、入力部1によって入力テキスト記憶部40に記憶されるテキスト情報が、何らかの方法で、複数文によって構成された分析単位の集合で構成されているに場合(図5参照)は、分析単位生成部50による処理(ステップS2)を行う必要はない。
図5は、予め分析単位が設定された状態で図1に示す入力テキスト記憶部に記憶されているテキスト情報の一例を示す図である。図5に示すテキスト情報は、上記説明と同様の方法によって予め処理された状態で、入力装置10から入力され、そして、入力部1によって、入力テキスト記憶部40に記憶されている。図5に示すように、テキスト情報は、分析単位のIDを示す「分析単位ID」、各分析単位に所属する各文が現れる記事の識別子を表す「記事ID」、その記事内の先頭からの文の出現位置を表す「文ID」、文のテキスト表す「文」を有している。図5を参照すると、例えば、分析単位IDが4の分析単位は、記事IDが1の場合における、文ID2、3、4の3文から構成されていることが分かる。
次に、密度推定部51が、密度推定モデル記憶部41から密度推定モデルを読み出し、分析単位生成部50によって生成された各分析単位内の目的情報の密度を、読み出した密度推定モデルに従って推定する(ステップS3)。また、密度推定部51は、各分析単位と、その密度の推定結果とを、判定部52に出力する。
本実施の形態1において、ステップS3で用いられる密度推定モデルとしては、予め作成された単語リストに含まれる語が出現している文の数を出力する関数が用いられている。図6は、図1に示す密度推定モデル記憶部に記憶されている密度推定モデルで用いられる、単語リストの一例を示す図である。図6に示すように、単語リストには、複数の語が記録されている。具体的には、図6に示す単語リストは、目的情報が「テニス選手Aに関する情報」であるため、テニスの試合に関する語から構成されている。
ここで、図3に示した記事ID=1の記事を対象として、ステップS3における処理を、図7を用いて具体的に説明する。図7は、密度の推定を説明するための図である。図7に示されたテーブルは、図3の記事ID=1の記事の各文と図6に示す単語リストとの対比結果を示している。図7に示すテーブルにおいて、図6の単語リスト内の語が出現した文には「1」が付加され、出現していない文には「0」が付加されている。例えば、記事ID=1、文ID=1の文には、「テニス」、「全米」、及び「[テニス選手A]」といった単語リスト内の単語が出現しているため、この文において「単語の出現」の欄は「1」となる。
なお、図7において「正解」の欄は、説明のために付加された情報である。「Y」は目的情報記述文に該当することを表し、「N」は目的情報記述文に該当しないことを表している。図7の「正解」は、システムが保持する情報ではなく、システムによって判定されるべき情報であることに注意する。
図8は、密度が推定された分析単位の一例を示す図である。図8に示すように、密度推定部51は、図3に示された各分析単位の密度を推定する。先に述べたように、密度推定モデルは、図6に示した単語リスト内の単語が出現している文の数を出力する関数である。よって、例えば、図8に示すように、分析単位3は、文1及び文3それぞれが単語リストの単語を含むので「2」となる。また、分析単位4は、文3のみが単語リストの単語を含むので「1」となる。このようにして、密度推定部51は、各分析単位の目的情報の密度を推定し、各分析単位と、その密度の推定結果とを、判定部52に出力する。
次に、判定部52が、判定モデル記憶部42から判定モデルを読み出し、密度推定部51によって推定された目的情報の密度に基づいて、各文の評価値を計算し、その評価値を用いて目的情報か否かを判定する(ステップS4)。また、判定部52は、各文とその判定結果とを表示させるため、表示データを作成し、これを表示装置6に出力する。
図4に示す例において、判定モデルとしては、各文が所属する分析単位の密度の推定値の和を各文の評価値として算出し、計算した評価値が閾値として設定された3以上である場合に目的情報と判定する関数が用いられるとする。図9は、文毎に算出された評価値の一例を示す図である。例えば、分析単位の密度推定結果の例である図8を参照すると、記事ID=1、文ID=3は、「分析単位3、4、5」に含まれる。よって、図9に示すように、文ID3の文の評価値は、それぞれの密度推定結果である2、1、2の和である5(=2+1+2)となる。
同様にして各文の評価値を計算すると、図9に示す結果となる。最終的に、図9の例では、評価値が閾値である3以上となる文ID1〜文ID7、文ID10、及び文ID11が、目的情報記述文と判定される。
図10は、目的情報記述文であるかどうかの判定結果の一例を示す図である。図10に示されたテーブルの「判定結果」の欄において、図9に示された結果から目的情報記述文であると判定された文は「Y」とされ、目的情報記述文でないと判定された文は「N」とされている。また、図10に示されたテーブルの「単語出現による判定」の欄は、各文に図6に示した単語リスト内の単語が含まれているかどうかの判定結果を示している。この判定結果と、図10に示されたテーブルの「正解」の欄における判定結果とを比べると、周辺の情報を考慮する本実施の形態1における方法によれば、各文を独立に判定する方法に比べて、より多くの目的情報記述文を見つけ出せることが分かる。
その後、表示装置6は、判定部52からの表示データを受け取ると、目的情報記述文の判定結果を表示画面に表示する(ステップS5)。また、表示装置6による表示が終了すると、情報分析装置5における処理も終了する。
図11は、表示結果の一例を示す図である。図11の例では、目的情報記述文であると判定された文の記事ID、文ID、文の内容、及び評価値が、表示画面に表示されている。例えば、記事ID=1、文ID=3の文である「全豪、そして全仏のタイトルも取った」は、評価値が5であって、目的情報記述文と判定されたことが分かる。
このように、本実施の形態1における情報分析装置5及び情報分析方法によれば、目的情報の連続出現傾向を考慮しつつ、文単位での判定、即ち、各文が目的情報記述文であるかどうかの判定を行うことができる。また、本実施の形態1では、情報分析装置5は、分析単位生成部50を備えているため、入力装置10側で、予め分析単位を生成しておく必要がない。
(実施の形態2)
次に、本発明の実施の形態2における情報分析装置、及び情報分析方法について、図12〜図16を参照しながら説明する。最初に、本実施の形態2における情報分析装置の構成について図12及び図13を用いて説明する。図12は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。図13は、訓練用のテキスト情報の一例を示す図である。
図12に示すように、本実施の形態2における情報分析装置9は、実施の形態1における情報分析装置5の構成に加え、訓練テキスト入力部7と、訓練データ生成部90と、密度推定モデル学習部91と、判定モデル学習部92とを更に備えている。これ以外については、情報分析装置9は、実施の形態1における情報分析装置5と同様に構成されている。また、記憶装置8は、実施の形態1における記憶装置4の構成に加え、訓練テキスト記憶部80を更に備えている。記憶装置8も、これ以外については、記憶装置4と同様に構成されている。
本実施の形態2では、入力装置10からは、分析対象となるテキスト情報(図2参照)に加えて、密度推定モデル及び判定モデルの学習に使用される訓練用のテキスト情報が出力される。そして、訓練テキスト入力部7は、訓練用のテキスト情報の入力を受け付け、この訓練用のテキスト情報を、訓練テキスト記憶部80に記憶させる。図13に示すように、訓練用のテキスト情報は、記事ID、文ID、文(内容)、及び目的情報であるかどうかを示す情報を有している。目的情報であるかどうかを示す情報としては、各文が目的情報であるか否かを表す記号、又は、各文の目的情報らしさを表す値が用いられる。
訓練データ生成部90は、訓練テキスト記憶部80から訓練用のテキスト情報(図13参照)を読み出し、密度推定モデル及び判定モデルの学習に使用される訓練データを生成し、これを密度推定モデル学習部91及び判定モデル学習部92に入力する。
本実施の形態2では、訓練データ生成部90は、訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成する。また、訓練データ生成部90は、訓練単位毎に、各訓練単位内の各文が目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている目的情報の量を示す目的情報密度を設定する。
更に、訓練データ生成部90は、各訓練単位の中の各文の語又は文節から取得される情報から、訓練単位毎に特徴量を求め、訓練単位毎の目的情報密度及び特徴量を、訓練データ(後述する図15参照)として生成する。また、このとき、訓練データ生成部90は、上記の情報に代えて、又は上記の情報と共に、訓練用のテキスト情報と各訓練単位中の各文とを比較することによって取得される情報から、特徴量を求めることもできる。
このように、本実施の形態2では、訓練データは、各訓練単位を学習アルゴリズムによって可読な形式に変換して得られた特徴表現(特徴量)と、各訓練単位の目的情報密度との組の集合によって構成される。特徴表現の典型例としては、ベクトル形式の特徴表現や、属性形式の特徴表現、属性値の表形式の特徴表現等が挙げられる。
また、訓練用のテキスト情報において、目的情報として、各文が目的情報か否かを表す記号が与えられている場合は、各訓練単位の目的情報密度としては、目的情報の文の数を用いることができる。更に、目的情報として、各文の目的情報らしさを表す値が与えられている場合は、各訓練単位の目的情報密度としては、訓練単位内の各文の目的情報らしさの値の和を用いることができる。
本実施の形態2において、訓練データ生成部90による訓練単位の生成は、分析単位生成部50による分析単位の生成と同様に行われる。よって、訓練データ生成部90は、訓練単位の生成時に、重複を許して、複数文からなる訓練単位を生成しても良い。また、訓練データ生成部90は、訓練単位の生成時に、訓練用のテキスト情報中の連続する複数の文の中から、予め設定された一定数(W個)の連続する文を抽出し、抽出された連続する文を含む訓練単位を生成しても良い。また、訓練データ生成部90は、訓練単位の生成時に、文の重複を許し、更に、予め定められた一定数の連続する文を抽出して、訓練単位を生成しても良い。
このように、重複を許すように訓練単位を構成すると、各文が属する訓練単位が複数できるため、判定モデル学習部92が判定モデルを学習する際に使用できる情報を増加させる効果が得られる。また、各訓練単位に含まれる文の数を一定に固定して、訓練単位を生成すると、密度推定モデル学習部91が密度推定モデルを学習する際に使用される、後述の特徴量が安定する。この場合、学習される密度推定モデルによる推定の結果も、安定することとなる。
更に、訓練データ生成部90は、訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合は、予め定められた文の数(W個)より小さい数だけ番号をずらしながら、含まれる文の数が同数となる訓練単位を生成しても良い。つまり、訓練データ生成部90は、予め設定された数の文を番号が連続するように抽出し、そして、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の訓練単位を生成しても良い。
具体的には、この場合は、各訓練単位に含まれる文の数が同数となるようにするため、先頭の文(文ID=1)が、記事の始めに(W−1)個追加され、そして、末尾の文(文ID=11)が記事の後ろに(W−1)個追加される。また、上記の場合においては、訓練データ生成部90は、分析単位生成部50と同様に、訓練単位の順位に応じて、訓練単位を生成することができる。つまり、訓練データ生成部90は、訓練単位の順位が1番のとき、2番から(W−1)番までのとき、W番からN番までのとき、(N+1)番から(N+W−2)番までのとき、(N+W−1)番目のときで、訓練単位の生成条件を変えることができる。
密度推定モデル学習部91は、訓練データ生成部90が生成した訓練データを受け取り、この訓練データを用いて、密度推定部51による密度の推定に利用される密度推定モデルを学習する。また、密度推定モデル学習部91は、学習された密度推定モデルを密度推定モデル記憶部41に記憶させる。更に、本実施の形態2においては、密度推定モデル学習部91は、学習した密度推定モデルを用いて、各訓練データについて、その訓練単位に含まれている目的情報の度合いを示す密度を推定する。そして、密度推定モデル学習部91は、各訓練単位と推定した密度(推定密度)との組を、判定モデル学習部92に出力する。
具体的には、密度推定モデル学習部91の構築は、任意の分類関数の学習アルゴリズム、又は回帰関数の学習アルゴリズムを用いることによって行うことができる。例えば、密度推定部51によって推定される密度が、少数の離散値で表される場合は、密度推定モデル学習部91の構築は、回帰関数の学習アルゴリズムを用いても、分類関数の学習アルゴリズムを用いても行うことができる。また、密度推定部51によって推定される密度が、連続値で表される場合は、密度推定モデル学習部91の構築は、回帰関数の学習アルゴリズムを用いて行うことができる。
また、密度推定モデル学習部91は、訓練データ生成部90が生成した訓練データを2分割し、一方の訓練データを密度推定モデルの学習に用い、そして、この密度推定モデルを利用して、他方の訓練データに含まれる訓練単位の密度を推定しても良い。この場合、密度推定モデル学習部91は、各訓練単位と他方の訓練単位の密度の推定値とを、判定モデル学習部92に出力する。更に、密度推定モデル学習部91は、訓練データも判定モデル学習部92に出力する。
ここで、訓練データを2分割する場合に得られる効果について説明する。密度推定モデル学習部91は、それが備える学習アルゴリズムによっては、学習に用いた訓練データの密度を全て正確に推定できる。このため、密度推定モデルの学習に用いられる訓練データと後述する判定モデルの学習に用いられる訓練データとが同一であると、判定モデル学習92に渡される訓練データの推定密度も全て正確になる。
よって、上記の場合は、判定モデル学習部92は、全ての密度が正しく推定されているという前提で、判定モデルを学習する。しかしながら、実際には密度推定モデルが、分析時に分析単位に対して正確に密度を推定できるとは限らない。そのため、判定モデルが有効に働かない可能性がある。
そこで、訓練データを2分割することで、密度推定モデルにとって未知のデータを作り、未知のデータから判定モデル学習部92のための訓練データを生成することが考えられる。こうすることで、判定モデル学習部92においては、訓練データへの過適応(オーバーフィッティング)が抑制されるので、判定部52は、より精度良く目的情報記述文かどうかを判定できるようになる。
判定モデル学習部92は、密度推定モデル学習部91が推定した密度と、訓練データとから、特徴データを生成し、更に、この特徴データを用いて、判定部52による判定に利用可能な判定モデルを学習する。また、本実施の形態2において、判定モデルは、各文を含む各分析単位の密度の推定値(推定密度)が入力されると、各文が目的情報であるか否かを判定する関数であるのが良い。判定モデル学習部92は、学習した判定モデルを判定モデル記憶部42に記憶させる。
また、本実施の形態2では、判定モデル学習部92は、複数の訓練単位に含まれている文については、当該文を含む複数の訓練単位の推定された密度の和、平均、及び分散の少なくとも一つを求める。そして、判定モデル学習部92は、求めた値と、各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、特徴データ(後述する図16参照)を生成できる。
判定モデル学習部92が生成した特徴データは、各文が目的情報であるか否かを示す情報と共に、判定モデル生成用のデータとして利用できる。また、特徴データは、ベクトル形式、属性、属性値テーブル等によって表現されていても良く、本実施の形態2では、特徴ベクトルとして生成されている。
また、本実施の形態2では、分析単位生成部50が分析単位を生成する際の設定条件は、訓練データ生成部90が訓練単位を生成する際の設定条件と同一となるのが好ましい。更に、本実施の形態2は、密度推定モデル及び判定モデルのどちらか一方のみが学習される態様であっても良い。この場合、他方は、実施の形態1と同様に、別途作成され、入力装置10によって外部から記憶部装置8に記憶される。なお、以降の説明では、密度推定モデルと判定モデルの両方が学習される態様について説明する。
次に、本発明の実施の形態2における情報分析方法について図14〜図16を用いて説明する。図14は、本発明の実施の形態2における情報分析方法を示すフロー図である。但し、本実施の形態2における情報分析方法は、図12に示した本実施の形態2における情報分析装置9を動作させることによって実施される。このため、以下の説明は、適宜図12及び図13を参酌しながら、情報分析装置9の動作説明と共に行う。
なお、本実施の形態2においても、目的情報は、実施の形態1と同様に、「テニス選手Aに関する情報」に設定されているとする。また、以降の説明は、訓練データ生成部90が、実施の形態1における分析単位生成部50と同様に、予め設定された数の文を番号が連続するように抽出し、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の訓練単位を生成する例について行う(図3参照)。
また、先にも述べたが、重複を許して分析単位を構成すると、判定モデル学習部92が判定モデルを学習する際に使用できる情報を増加させる効果が得られる。また、各訓練単位に含まれる文の数を一定に固定して、訓練単位を生成すると、密度推定モデル学習部91が密度推定モデルを学習する際に使用される特徴量が安定する。この場合、学習される密度推定モデルによる推定の結果も安定することとなる。
図14に示すように、先ず、入力装置10から訓練用のテキスト情報が入力されると、訓練テキスト入力部7は、密度推定モデルと判定モデルとの学習に用いられる訓練用のテキスト情報(図13参照)を受け付け、これを、訓練テキスト記憶部80に記憶させる(ステップS11)。なお、図13に示す訓練用のテキスト情報は、記事の識別子である「記事ID」、各記事の先頭から末尾までの文に出現順に付与された「文ID」、各文が目的情報であるか否かをY又はNで示す「目的情報」、文のテキストが格納される「文」の4つを1レコードとして記憶されている。
次に、訓練データ生成部90が、訓練テキスト記憶部80から訓練用のテキスト情報を読み出し、密度推定モデル及び判定モデルの学習に使用される訓練データを生成し、これを密度推定モデル学習部91及び判定モデル学習部92に入力する(ステップS12)。
具体的には、訓練データ生成部90は、各記事の先頭の文から1文ずつずらしながら一定個数(パラメータW)の文からなる訓練単位を複数個生成する。そして、訓練データ生成部90は、各訓練単位のテキストを学習アルゴリズムによって可読な形式に変換し、訓練単位毎に特徴量(特徴表現)を取得する。また、訓練データ生成部90は、各文が目的情報であるかどうかを示す記号、又は各文の目的情報らしさを表す値を参照して、訓練単位毎に、目的情報の密度を設定する。その後、訓練データ生成部90は、取得された特徴量(特徴表現)と設定された目的情報密度との組を訓練データとし、これを密度推定モデル学習部91に入力する。
図15は、訓練単位が設定された訓練用のテキスト情報と訓練データとの一例を示す図である。図15において、左側には訓練用のテキスト情報が示され、右側には訓練データが示されている。また、図15に示すように、本実施の形態2においては、目的情報密度として「各訓練単位の中の目的情報文の数」が用いられている。更に、訓練単位毎の特徴量、即ち、テキストの学習アルゴリズム用のデータとして「テキスト内に含まれる名詞の出現頻度からなる特徴ベクトル」が用いられている。
例えば、図15の上から3番目の訓練単位は、図13を参照すると、それに含まれる文ID1と文ID3とが目的情報に該当する。よって、この訓練単位の目的情報密度は2と決定される。また、この訓練単位における、テキスト内の名詞とその出現頻度で表される特徴ベクトルは(テニス=1,テニス選手A=1,全米=1,オープン=1,プレッシャー=1,全豪=1,タイトル=1)となる。同様にして、全ての訓練用のテキスト情報から訓練データが作成される。
次に、密度推定モデル学習部91が、訓練データ生成部90から受け取った訓練データを用いて、任意の学習アルゴリズムで、訓練データの特徴ベクトルを入力として目的情報密度を出力する関数を学習する(ステップS13)。また、密度推定モデル学習部91は、学習した関数を密度推定モデルとして、密度推定モデル記憶部41に記憶させる。更に、密度推定モデル学習部91は、密度推定モデルを用いて、各訓練データの密度を推定し、そして、密度を推定した訓練データと推定密度とを、判定モデル学習部92に入力する。
なお、ステップS13における学習の方法としては、任意の分類関数、又は回帰関数を学習する方法が使用可能である。本実施の形態2においては、目的情報密度が高い訓練データに含まれやすい名詞には高い重みがつき、逆に目的情報の密度が低い訓練データに含まれやすい名詞には低い重みがつくように、学習が行われる。
次に、判定モデル学習部92が、密度推定モデル学習部91から入力された各訓練データと推定密度とを用いて、各文の特徴ベクトルを生成し、特徴ベクトルを入力として各文が目的情報であるか否かを判定する関数を学習する(ステップS14)。また、判定モデル学習部92は、学習した関数を判定モデルとして、判定モデル記憶部42に記憶させる。
ここで、図16及び図17を用いて、ステップS14について具体的に説明する。図16は、密度推定モデル学習部が出力するデータの一例を示す図である。図16に示すように、密度推定モデル学習部91が訓練単位毎に推定した密度(推定密度)が、判定モデル学習部92に出力されている。
また、図17は、判定モデル学習部92が生成するデータの一例を示す図である。図17に示された、判定モデル学習部92が生成したデータは、判定モデルを生成するためのデータ(判定モデル生成用データ)となる。図17に示すように、判定モデル生成用データは、密度推定モデルによって推定された各文を含む訓練単位の推定密度(図16参照右側)、それら推定密度の平均と分散、及び各文に含まれる単語(図17の例では名詞のみ)を、特徴量として含んでいる。判定モデル学習部92は、これらの特徴量から、各文が実際に目的情報か否かを判定するための特徴ベクトルを生成している。
図17の例では、「推定密度1」は、記事先頭から見て、各文を含む1番目の訓練単位の密度を密度推定モデルによって推定した値を表している。同様に、「推定密度2」は、2番目の訓練単位の推定密度を表し、「推定密度3」は、3番目の訓練単位の推定密度を表している。よって、文ID=1の場合、「推定密度1」が「3.2」、「推定密度2」が「2.2」、「推定密度3」が「1.8」となる。
図17に示すように、例えば、文ID=1に対する判定モデル生成用データでは、文IDが1の文は、1番目〜3番目の訓練単位に含まれるため、「推定密度1」、「推定密度2」、及び「推定密度3」が特徴ベクトルに含まれる。また、判定モデル生成用データは、これら3つの推定密度の平均を表す「推定密度の平均」、及び各文内の名詞とその頻度も特徴ベクトルとして含んでいる。また、図17に示すように、文IDが1の文は、目的情報であるため、判定モデル生成用データには、文IDが1の文が正解であることを示す「Y」が付加されている。
ステップS14においては、判定モデル学習部92は、図17に示す判定モデル生成用データを用いて、任意の学習アルゴリズムで特徴ベクトルを入力とした「目的情報か?」の「Y」又は「N」を判定する関数を学習する。このように、本実施の形態2では、判定モデル学習部92は、各訓練単位の推定された密度と文の内容との両方を考慮して、各文が目的情報であるか否かを判定する関数を学習する。
その後、ステップS15〜ステップS19が実行される。ステップS15〜ステップS19それぞれは、実施の形態1において図4に示したステップS1〜ステップS5のそれぞれと同一のステップである。本実施の形態2においては、ステップS15〜ステップS19についての説明は省略する。ステップS19の終了後、情報分析装置9における処理は終了する。
このように、本実施の形態2によれば、密度推定モデル学習部91と判定モデル学習部92とにより、密度推定モデルと判定モデルとを人手によって作成する必要がなくなるため、密度推定モデル及び判定モデルの構築が低コストで実現できる。また、大量の訓練テキストを用意すれば、密度推定モデルと判定モデルとが強化されるため、専門家によって各種モデルを作成せずとも、高精度な目的情報記述文の判定が可能となる。つまり、目的情報であるか否かを判定するための密度推定モデルと記述判定モデルとを作成するには、専門知識や経験が必要となる。一方、本実施の形態2では、各文が目的情報であるか否かの情報を作成するだけで良く、それには専門知識や経験はそれほど必要ないため、本実施の形態2によれば、低コストで高精度な目的情報記述文の判定装置を実現できる。
以上、本発明の実施の形態1及び2における情報分析装置及び情報分析方法について説明したが、本発明はコンピュータソフトウェアとしても実現可能である。ここで、本実施の形態1におけるプログラムと、本実施の形態2におけるプログラムとについて説明する。図18は、本実施の形態1及び2におけるプログラムを実行可能なコンピュータを示すブロック図である。
図18に示すコンピュータは、本発明による情報分析装置をインプリメントした情報処理システムとして機能する。図18に示すように、コンピュータ(情報処理システム)は、プロセッサ3000と、プログラムメモリ3001と、記憶媒体3002と、外部機器に接続されるインターフェイス3003と、表示データを出力するためのビデオカード3004とを備えている。記憶媒体3002としては、RAMといった各種メモリや、ハードディスク等の磁気記憶媒体を用いることができる。
プログラムメモリ3001には、実施の形態1及び2の情報分析装置で行われる処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ3000が動作する。つまり、プログラムメモリ3001に、例えば、図4に示すステップS1〜S5を実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態1における情報分析装置5が実現される。この場合、プロセッサ3000は、分析単位生成部50、密度推定部51及び判定部52として機能し、記憶媒体3002は、記憶装置4として機能する。
また、プログラムメモリ3001に、図14に示すステップS11〜S19を実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態2における情報分析装置9が実現される。この場合、プロセッサ3000は、訓練データ生成部90、密度推定モデル学習部91、判定モデル学習部92、分析単位生成部50、密度推定部51及び判定部52として機能し、記憶媒体3002は、記憶装置8として機能する。
更に、プログラムメモリ3001に格納される本実施の形態1及び2におけるプログラムは、図18に示すようにコンピュータ読み取り可能な記録媒体3005に記録された状態で提供されても良いし、ネットワーク(図示せず)を介して提供されても良い。コンピュータ読み取り可能な記録媒体としては、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等が挙げられる。なお、図18中に示したコンピュータ読み取り可能な記録媒体3005は、光ディスクである。
以上、実施の形態1及び2を参照して本願発明を説明したが、本願発明は上記実施の形態1及び2に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年10月10日出願された日本出願特願2008−263950を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明における情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。
(1)テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする情報分析装置。
(2)前記テキスト情報から複数の前記分析単位を生成する分析単位生成部を、更に備え、
前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、上記(1)に記載の情報分析装置。
(3)前記分析単位生成部が、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記(2)に記載の情報分析装置。
(4)前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記(2)に記載の情報分析装置。
(5)前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記(2)に記載の情報分析装置。
(6)前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(2)に記載の情報分析装置。
(7)前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記分析単位生成部が、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(6)に記載の情報分析装置。
(8)前記密度推定部が、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として、前記判定部に出力し、
前記判定部が、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(1)に記載の情報分析装置。
(9)前記密度推定部が、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記(1)に記載の情報分析装置。
(10)前記判定部が、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(1)に記載の情報分析装置。
(11)訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(1)に記載の情報分析装置。
(12)訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(2)に記載の情報分析装置。
(13)訓練データ生成部が、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
(14)訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
(15)訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
(16)前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
(17)判定モデル学習部を、更に備え、
前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、上記(12)に記載の情報分析装置。
(18)前記密度推定モデル学習部が、更に、学習した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記(17)に記載の情報分析装置。
(19)前記判定モデル学習部が、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(17)に記載の情報分析装置。
(20)前記分析単位生成部が、訓練データ生成部が前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記(12)に記載の情報分析装置。
(21)テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする情報分析方法。
(22)(c)前記テキスト情報から複数の前記分析単位を生成するステップを更に備え、
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、上記(21)に記載の情報分析方法。
(23)前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記(22)に記載の情報分析方法。
(24)前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記(22)に記載の情報分析方法。
(25)前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記(22)に記載の情報分析方法。
(26)前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(22)に記載の情報分析方法。
(27)前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(26)に記載の情報分析方法。
(28)前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(21)に記載の情報分析方法。
(29)前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記(21)に記載の情報分析方法。
(30)前記(b)のステップにおいて、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(21)に記載の情報分析方法。
(31)(d)文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(21)に記載の情報分析方法。
(32)(d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(22)に記載の情報分析方法。
(33)前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
(34)前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
(35)前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
(36)前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
(37)(f)前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記(32)に記載の情報分析方法。
(38)前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記(37)に記載の情報分析方法。
(39)前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(37)に記載の情報分析方法。
(40)前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記(32)に記載の情報分析方法。
(41)コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
(42)(c)前記テキスト情報から複数の前記分析単位を生成するステップを、更に前記コンピュータに実行させ、
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
(43)前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
(44)前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
(45)前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
(46)前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
(47)前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(46)に記載のコンピュータ読み取り可能な記録媒体。
(48)前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
(49)前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
(50)前記(b)のステップにおいて、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
(51)(d)文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
(52)(d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
(53)前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(54)前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(55)前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(56)前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(57)(f)前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(58)前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記(57)に記載のコンピュータ読み取り可能な記録媒体。
(59)前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(57)に記載のコンピュータ読み取り可能な記録媒体。
(60)前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
以上のように、本発明によれば、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位での目的情報か否かの判定を行うことができる。よって、本発明は、テキストから特定の情報を抽出する情報抽出装置や、特定の情報のみに絞って検索する特化型検索装置のデータ収集部として利用可能である。
1 入力部
4 記憶装置
5 情報分析装置(実施の形態1)
6 表示装置
7 訓練テキスト入力部
8 記憶装置
9 情報分析装置(実施の形態2)
10 入力装置
40 入力テキスト記憶部
41 密度推定モデル記憶部
42 判定モデル記憶部
50 分析単位生成部
51 密度推定部
52 判定部
80 訓練テキスト記憶部
90 訓練データ生成部
91 密度推定モデル学習部
92 判定モデル学習部
3000 プロセッサ
3001 プログラムメモリ
3002 記憶媒体
3003 インターフェイス
3004 ビデオカード
3005 コンピュータ読み取り可能な記録媒体

Claims (63)

  1. テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
    前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定する密度推定部と、
    複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
    を備えることを特徴とする情報分析装置。
  2. 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
    前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
    前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
    のうちのいずれかを含む、請求項1に記載の情報分析装置。
  3. 前記テキスト情報から複数の前記分析単位を生成する分析単位生成部を、更に備え、
    前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、請求項1または2に記載の情報分析装置。
  4. 前記分析単位生成部が、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項に記載の情報分析装置。
  5. 前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項に記載の情報分析装置。
  6. 前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項に記載の情報分析装置。
  7. 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項に記載の情報分析装置。
  8. 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
    前記分析単位生成部が、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
    1番の分析単位を、W個の1番の文によって生成し、
    2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
    W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
    (N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
    (N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項に記載の情報分析装置。
  9. 前記密度推定部が、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として、前記判定部に出力し、
    前記判定部が、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項1からのいずれかに記載の情報分析装置。
  10. 前記密度推定部が、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項1からのいずれかに記載の情報分析装置。
  11. 前記判定部が、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項1から10のいずれかに記載の情報分析装置。
  12. 訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
    前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
    前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
    前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
    前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項1に記載の情報分析装置。
  13. 訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
    前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
    前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
    前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
    前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
    前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項からのいずれかに記載の情報分析装置。
  14. 訓練データ生成部が、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項1に記載の情報分析装置。
  15. 訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項1に記載の情報分析装置。
  16. 訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項1に記載の情報分析装置。
  17. 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項1に記載の情報分析装置。
  18. 判定モデル学習部を、更に備え、
    前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
    前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
    前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、請求項1に記載の情報分析装置。
  19. 前記密度推定モデル学習部が、更に、学習した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項1に記載の情報分析装置。
  20. 前記判定モデル学習部が、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
    そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項1または1に記載の情報分析装置。
  21. 前記分析単位生成部が、訓練データ生成部が前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項1から20のいずれかに記載の情報分析装置。
  22. テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
    (a)コンピュータによって、前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
    (b)前記コンピュータによって、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
    を備えることを特徴とする情報分析方法。
  23. 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
    前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
    前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
    のうちのいずれかを含む、請求項22に記載の情報分析方法。
  24. (c)前記コンピュータによって、前記テキスト情報から複数の前記分析単位を生成するステップを更に備え、
    前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、請求項22または23に記載の情報分析方法。
  25. 前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項2に記載の情報分析方法。
  26. 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項2に記載の情報分析方法。
  27. 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項2に記載の情報分析方法。
  28. 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項2に記載の情報分析方法。
  29. 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
    前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
    1番の分析単位を、W個の1番の文によって生成し、
    2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
    W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
    (N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
    (N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項2に記載の情報分析方法。
  30. 前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
    前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項2から2のいずれかに記載の情報分析方法。
  31. 前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項2から2のいずれかに記載の情報分析方法。
  32. 前記(b)のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項2から31のいずれかに記載の情報分析方法。
  33. (d)前記コンピュータによって、文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
    前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
    (e)前記コンピュータによって、前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
    前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項2に記載の情報分析方法。
  34. (d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
    前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
    (e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
    前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項2から2のいずれかに記載の情報分析方法。
  35. 前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項3に記載の情報分析方法。
  36. 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項3に記載の情報分析方法。
  37. 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項3に記載の情報分析方法。
  38. 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項3に記載の情報分析方法。
  39. (f)前記コンピュータによって、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
    (g)前記コンピュータによって、前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
    前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項3に記載の情報分析方法。
  40. 前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項3に記載の情報分析方法。
  41. 前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
    そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項3または40に記載の情報分析方法。
  42. 前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項3から41のいずれかに記載の情報分析方法。
  43. コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムであって、
    前記コンピュータに、
    (a)前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
    (b)複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、プログラム。
  44. 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
    前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
    前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
    のうちのいずれかを含む、請求項43に記載のプログラム。
  45. (c)前記テキスト情報から複数の前記分析単位を生成するステップを、更に前記コンピュータに実行させ、
    前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、請求項43または44に記載のプログラム。
  46. 前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項4に記載のプログラム。
  47. 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項4に記載のプログラム。
  48. 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項4に記載のプログラム。
  49. 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項4に記載のプログラム。
  50. 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
    前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
    1番の分析単位を、W個の1番の文によって生成し、
    2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
    W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
    (N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
    (N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項4に記載のプログラム。
  51. 前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
    前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項4から50のいずれかに記載のプログラム。
  52. 前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項4から50のいずれかに記載のプログラム。
  53. 前記(b)のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項4から52のいずれかに記載のプログラム。
  54. (d)文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
    前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
    (e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
    前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項4に記載のプログラム。
  55. (d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
    前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
    更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
    そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
    (e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
    前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項4から4のいずれかに記載のプログラム。
  56. 前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項5に記載のプログラム。
  57. 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項5に記載のプログラム。
  58. 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項5に記載のプログラム。
  59. 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
    前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
    更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項5に記載のプログラム。
  60. (f)前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
    (g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
    前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項52に記載のプログラム。
  61. 前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項60に記載のプログラム。
  62. 前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
    そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項60または61に記載のプログラム。
  63. 前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項5から62のいずれかに記載のプログラム。
JP2010532807A 2008-10-10 2009-10-06 情報分析装置、情報分析方法、及びプログラム Active JP5527548B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010532807A JP5527548B2 (ja) 2008-10-10 2009-10-06 情報分析装置、情報分析方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008263950 2008-10-10
JP2008263950 2008-10-10
JP2010532807A JP5527548B2 (ja) 2008-10-10 2009-10-06 情報分析装置、情報分析方法、及びプログラム
PCT/JP2009/005175 WO2010041420A1 (ja) 2008-10-10 2009-10-06 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2010041420A1 JPWO2010041420A1 (ja) 2012-03-01
JP5527548B2 true JP5527548B2 (ja) 2014-06-18

Family

ID=42100382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010532807A Active JP5527548B2 (ja) 2008-10-10 2009-10-06 情報分析装置、情報分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US8510249B2 (ja)
JP (1) JP5527548B2 (ja)
WO (1) WO2010041420A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200127553A (ko) * 2019-05-03 2020-11-11 주식회사 자이냅스 뉴스 기사의 감성 정보 레이블링 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5751253B2 (ja) * 2010-05-24 2015-07-22 日本電気株式会社 情報抽出システム、方法及びプログラム
CN105786777B (zh) * 2016-02-22 2018-09-28 中国移动通信集团广东有限公司 基于文本解析器的存储容量集中处理方法
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
KR20180077689A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 자연어 생성 장치 및 방법
JP7122835B2 (ja) * 2018-02-14 2022-08-22 株式会社Nttドコモ 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
JP2020198546A (ja) * 2019-06-03 2020-12-10 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134066A (ja) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd 文章集約装置
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2002297635A (ja) * 2001-03-30 2002-10-11 Seiko Epson Corp 要約文作成システム及びその方法
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP2008084203A (ja) * 2006-09-28 2008-04-10 Nec Corp ラベル付与システム、ラベル付与方法およびラベル付与プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7017114B2 (en) * 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
JP3682529B2 (ja) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP4382526B2 (ja) * 2003-07-01 2009-12-16 株式会社山武 文章分類装置および方法
JP2007241902A (ja) 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134066A (ja) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd 文章集約装置
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2002297635A (ja) * 2001-03-30 2002-10-11 Seiko Epson Corp 要約文作成システム及びその方法
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP2008084203A (ja) * 2006-09-28 2008-04-10 Nec Corp ラベル付与システム、ラベル付与方法およびラベル付与プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200127553A (ko) * 2019-05-03 2020-11-11 주식회사 자이냅스 뉴스 기사의 감성 정보 레이블링 방법
KR102361596B1 (ko) 2019-05-03 2022-02-11 주식회사 자이냅스 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 방법

Also Published As

Publication number Publication date
WO2010041420A1 (ja) 2010-04-15
US20110167027A1 (en) 2011-07-07
US8510249B2 (en) 2013-08-13
JPWO2010041420A1 (ja) 2012-03-01

Similar Documents

Publication Publication Date Title
JP5527548B2 (ja) 情報分析装置、情報分析方法、及びプログラム
US8650140B2 (en) Information processing apparatus and method, and program thereof
JP5344715B2 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20160155067A1 (en) Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents
US8027977B2 (en) Recommending content using discriminatively trained document similarity
Luyckx Scalability issues in authorship attribution
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
Qiang et al. Learning to generate posters of scientific papers by probabilistic graphical models
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP5941078B2 (ja) 情報処理装置、プログラム及び方法
JP4106470B2 (ja) 解データ編集処理装置および処理方法
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
JP4187213B2 (ja) 自動要約処理装置および自動要約処理方法
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP5254888B2 (ja) 言語資源情報生成装置、方法、プログラム、および記録媒体
JP4712221B2 (ja) 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP6852520B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5527548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150