JP5527548B2

JP5527548B2 - 情報分析装置、情報分析方法、及びプログラム

Info

Publication number: JP5527548B2
Application number: JP2010532807A
Authority: JP
Inventors: 正明土田; 弘紀水口; 俊之神谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-10-10
Filing date: 2009-10-06
Publication date: 2014-06-18
Anticipated expiration: 2029-10-06
Also published as: WO2010041420A1; US20110167027A1; US8510249B2; JPWO2010041420A1

Description

本発明は、情報分析装置、情報分析方法、及びプログラムに関する。

近年、大量の情報がテキスト化されるようになっている。このような大量のテキスト情報の活用には、活用目的に合わせた情報の抽出や検索が有効である。例えば、活用目的が、商品購買の意思決定やマーケティングの支援ならば、大量のテキスト情報の中から、商品やサービスに関する意見や要望の抽出や検索ができると良い。

テキスト情報の活用目的に合わせた情報の抽出や検索には、目的情報の記述文判定が重要となる。なぜならば、目的の情報が書かれていない文から、情報を抽出したり、検索のためのインデックスを作成したりしても、その結果はノイズとなるためである。従来の目的情報の記述文判定法としては、目的の情報を含むか否かでテキスト情報を分類する方法が考えられる。具体的には、任意のテキストデータの分類方法、例えば、特許文献１に記載の分類方法を用いることができる。

特許文献１に開示の分類方法は、テキスト情報から任意の固定長の部分文字列を抽出し、更に、部分文字列の特徴量から特徴ベクトルを生成し、この特徴ベクトルを用いて、テキスト情報が目的のカテゴリーに分類されるか否かを判定する。特許文献１に開示の分類方法は、文の単位で、目的情報であるか否かを分類する方法である。また、「文」とは、テキスト情報中の文字列を固定長や文末記号によって区切り、それによって生成したテキストとする。

また、一文単位ではなく、同じ話題について書かれた複数文から構成されるトピックの単位（以下「トピック単位」とする。）で、目的情報であるか否かを分類する方法も考えられる。ここで、「トピック単位」は、テキスト中で話題が変わる箇所で区切ることによって生成される、複数文からなるテキストである、とする。

トピック単位で分類する方法としては、例えば、特許文献２に開示の分類方法が挙げられる。特許文献２に開示の分類方法は、各文について、内容語の重要度を表すトピックベクトルを作成して、隣接する２文のトピックベクトルの類似度を求め、類似度の変化に基づいてトピックの境界位置を検出する。そして、検出された境界位置に基づいて、分類が行われる。

特開２００８−８４０６４号公報特開２００７−２４１９０２号公報

しかしながら、文単位での分類が実施される特許文献１に開示の分類方法では、目的の情報の出現傾向を考慮できていないため、分類精度が低下するという問題がある。その理由は、以下の通りである。

目的情報の出現傾向とは、「目的の情報はまとまって書かれやすい」といった傾向を意味している。目的の情報がまとまって書かれやすければ、１つの目的情報を見つけたら、周辺文にも目的の情報が含まれる、と考えられる。この場合は、周辺文に存在する目的の情報を使用することで、個々の文を分類するよりも高精度な分類が可能になると考えられるが、特許文献１では、周辺文に存在する目的の情報を有効に利用できておらず、分類精度の向上は困難である。

一方、特許文献２に開示の方法では、分類対象となるテキスト集合を、同じ話題についてのテキストの集合で構成された単位、即ち、話題が連続している複数文の単位（トピック単位）で分割できる。このため、特許文献２に開示の方法と特許文献１に開示の方法と組み合わせることで、話題の連続性を考慮した目的情報か否かの判定ができる。よって、特許文献２に開示の方法を用いることで、特許文献１における問題は解消可能と考えられる。

しかし、トピック単位の分割が実施される特許文献２に開示の方法では、トピック単位が必ずしも目的情報の記述範囲とは一致しないため、原理的に一文単位の判定ができないという問題がある。その理由は、以下の通りである。

トピック単位での分割は、目的とする情報か否かとは異なる視点で行われている。言い換えるとトピック単位への分割においては、隣接する部分テキスト内で使用されている語の類似などから同一話題の範囲が特定されるので、必ずしもユーザの目的の情報であるか否かが考慮されて範囲が特定されるわけではない。よって、あるトピック単位に目的情報が記述されていると分類されたとしても、実際にその中の文全てが目的情報であるとは限らない。例えば、目的情報が「意見が書かれている文」である場合、あるニュースについてのトピック単位の中には意見でない文が含まれる。このように、トピック単位には、目的情報でない文も含まれ、そして目的情報でない文かどうかについての判定が行われることはない。

本発明の目的は、上記問題を解消し、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位での目的情報か否かの判定を行い得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明における情報分析装置は、テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明における情報分析方法は、テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
（ａ）前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｂ）前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする。

更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムであって、
前記コンピュータに、
（ａ）前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｂ）前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、ことを特徴とする。

以上のように、本発明における情報分析装置、情報分析方法、及びプログラムによれば、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位で、目的情報か否かを判定できる。

図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２は、分析対象となるテキスト情報の一例を示す図である。図３は、図２に示すテキスト情報に設定された分析単位の例を示す図である。図４は、本発明の実施の形態１における情報分析方法を示すフロー図である。図５は、予め分析単位が設定された状態で図１に示す入力テキスト記憶部に記憶されているテキスト情報の一例を示す図である。図６は、図１に示す密度推定モデル記憶部に記憶されている密度推定モデルで用いられる、単語リストの一例を示す図である。図７は、密度の推定を説明するための図である。図８は、密度が推定された分析単位の一例を示す図である。図９は、文毎に算出された評価値の一例を示す図である。図１０は、目的情報記述文であるかどうかの判定結果の一例を示す図である。図１１は、表示結果の一例を示す図である。図１２は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。図１３は、訓練用のテキスト情報の一例を示す図である。図１４は、本発明の実施の形態２における情報分析方法を示すフロー図である。図１５は、訓練単位が設定された訓練用のテキスト情報と訓練データとの一例を示す図である。図１６は、密度推定モデル学習部が出力するデータの一例を示す図である。図１７は、判定モデル学習部９２が生成するデータの一例を示す図である。図１８は、本実施の形態１及び２におけるプログラムを実行可能なコンピュータを示すブロック図である。

（実施の形態１）
以下、本発明の実施の形態１における情報分析装置、及び情報分析方法について、図１〜図１１を参照しながら説明する。最初に、本実施の形態１における情報分析装置の構成について図１〜図３を用いて説明する。図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２は、分析対象となるテキスト情報の一例を示す図である。図３は、図２に示すテキスト情報に設定された分析単位の例を示す図である。

図１に示す情報分析装置５は、テキスト情報に対して、それが目的情報に該当するか否かの分析を行う情報分析装置である。テキスト情報としては、図２に示すものが挙げられる。また、この場合の目的情報としては、「テニス選手Ａに関する情報」が挙げられる。

図１に示すように、情報分析装置５は、密度推定部５１と、判定部５２とを備えている。密度推定部５１は、テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている目的情報の度合いを示す密度を推定する。例えば、密度推定部５１は、図３に示された分析単位毎に、密度を推定する。また、判定部５２は、分析単位毎に推定された密度から、各分析単位に含まれる各文が目的情報に該当する度合いを示す評価値を求め、求めた評価値に基づいて、各文が目的情報であるか否かを判定する。なお、以降において、目的情報に該当する文は「目的情報記述文」とする。

このように、情報分析装置５においては、テキスト情報中の複数の文で構成される分析単位毎に、目的情報の密度が推定される。そして、分析単位の密度は、目的情報がまとまって書かれている分析単位では高く、逆に、目的情報が少ない分析単位では低くなる。つまり、分析単位毎の密度は、周辺の文の情報が考慮された値となっており、情報分析装置５は、目的情報の出現傾向を考慮することができる。

更に、情報分析装置５においては、各文を含む分析単位毎の密度から、各文の最終的な目的情報らしさが評価され（評価値が算出され）、それから、各文が目的情報記述文であるかどうかが判定される。言い換えれば、仮に密度が高い分析単位が存在しても、その中の全ての文が目的情報記述文であると判定されるわけではない。情報分析装置５は、複数の分析単位の結果から、総合的に、各文について１文単位で判定を行うことができる。

また、図１に示すように、本実施の形態１では、情報分析装置５は、更に、入力部１と、分析単位生成部５０と、記憶装置４とを備え、そして、表示装置６及び入力装置１０に接続されている。入力装置１０は、入力部１に情報を入力するための装置であり、具体的には、キーボードや、マウス等である。また、入力装置１０は、情報分析装置５にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。

表示装置６は、情報分析装置５による分析結果を利用者に示すための装置である。表示装置６は、判定部５２の指示に応じて、目的情報記述文のみを表示したり、目的情報記述文を強調表示したりして、目的情報記述文の判定結果を表示する。具体的には、表示装置６としては、液晶ディスプレイ等の表示装置や、プリンタ等を用いることができる。また、表示装置６は、情報分析装置５にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。

入力部１は、入力装置１０からの情報、例えば、分析対象となるテキスト情報や、利用者が設定した情報等の入力を受け付ける。また、入力部１は、入力装置１０から、分析対象となるテキスト情報が入力されると、これを記憶装置４に入力し、記憶させる。更に、入力部１は、テキスト情報の入力があったことを、分析単位生成部５０に通知する。

記憶装置４は、入力されたテキスト情報を記憶する入力テキスト記憶部４０と、密度推定モデルを記憶する密度推定モデル記憶部４１と、判定モデルを記憶する判定モデル記憶部４２とを有している。本実施の形態１では、記憶装置４は、情報分析装置５の内部に備えられ、その一部を構成しているが、情報分析装置５とは別の装置であって、ネットワークを介して情報分析装置５に接続されていても良い。

入力テキスト記憶部４０は、上述したように入力装置１０から入力部１を介して入力されたテキスト情報を記憶する。このテキスト情報は、例えば、図２に示すテキストデータであり、１つ以上の記事を有し、各記事は１つ以上の文から構成されていれば良い。密度推定モデル記憶部４１は、入力装置１０から入力部１を介して入力された密度推定モデルを記憶している。本実施の形態１では、密度推定部５１は、密度推定モデルを利用して、テキスト情報内における目的情報の密度を推定する。また、密度推定モデルとしては、例えば、入力された分析単位に含まれる目的情報の頻度や確度が高いと推定される程、高いスコアを出力する性質を持った関数が用いられる。なお、「分析単位」の説明は、分析単位生成部５０の説明と共に後述する。また、密度推定モデルの具体例は、密度推定部５１の説明を行う際に開示する。

判定モデル記憶部４２は、入力装置１０から入力部１を介して入力された判定モデルを記憶している。本実施の形態１では、判定部５２は、判定モデルを利用して、テキスト情報と推定された密度とから、最終的に各文が目的情報記述文であるかどうかを判定する。また、判定モデルとしては、例えば、各文の目的情報らしさ（各文が目的情報に該当する度合いを示す評価値）に基づいて評価が可能な関数が用いられる。なお、各文の目的情報らしさは、各分析単位とその密度の推定結果とから求められる。また、判定モデルの具体例は、判定部５２の説明を行う際に開示する。

分析単位生成部５０は、テキスト情報（図２参照）から、複数の分析単位（図３参照）を生成する。本実施の形態１では、分析単位生成部５０は、先ず、入力テキスト記憶部４０からテキスト情報を抽出し、更に、テキスト情報に含まれる記事毎に、複数文で構成される分析単位を複数生成し、生成した複数の分析単位を密度推定部５１に入力する。各文は、いずれかの分析単位に含まれることとなる。

また、本実施の形態１では、分析単位生成部５０は、予め設定された条件（設定条件）に従って分析単位を生成している。具体的には、例えば、分析単位生成部５０は、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、即ち、文の重複を許して、複数個の分析単位を生成しても良い。このように、文の重複を許すようにして分析単位を生成した場合は、各文が属する分析単位が複数できるため、判定部５２は、各文についての判定材料として、複数の密度や、密度の推移を使用できるため、判定部５２における判定精度の向上が図られる。

また、分析単位生成部５０は、テキスト情報中の連続する複数の文の中から、予め設定された数（Ｗ個）の連続する文を抽出し、抽出された連続する文を含む分析単位を複数個生成しても良い。このように、各分析単位を構成する文の数が一定に固定されると、密度推定部５１によって文の数を考慮した調整を行う必要が無くなるため、各分析単位を構成する文の数が一定数に固定されていない場合と比較して、密度推定モデルの構築は、相対的に容易なものとなる。

分析単位生成部５０は、テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、各分析単位中のいずれかの文が、他の分析単位中のいずれかの文と一致するようにして、抽出された連続する文を含む分析単位を複数個生成しても良い。つまり、分析単位生成部５０は、文の重複を許し、そして、連続する複数の文を抽出して、複数の分析単位を生成しても良い。この場合は、上述した二つの効果が同時に得られることとなる。

更に、図２に示すように、テキスト情報中の複数の文それぞれに、これらが連続する順に、番号が付されている場合は、分析単位生成部５０は、予め定められた文の数（Ｗ個）より小さい数だけ番号をずらしながら、含まれる文の数が同数となる分析単位を生成しても良い。つまり、図３に示すように、分析単位生成部５０は、予め設定された数の文を番号が連続するように抽出し、そして、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の分析単位を生成しても良い。なお、この場合も、分析単位生成部５０は、文の重複を許し、そして、連続する複数の文を抽出している。

具体的には、図３の例では、各分析単位に含まれる文の数が同数となるようにするため、先頭の文（文ＩＤ＝１）が、記事の始めに（Ｗ−１）個追加され、そして、末尾の文（文ＩＤ＝１１）が記事の後ろに（Ｗ−１）個追加されている。また、図３の例では、分析単位生成部５０は、以下の設定条件に従って、複数の分析単位を生成している。

例えば、テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、複数個の分析単位それぞれがＷ個の文を含む場合について、設定条件を説明する。この場合、分析単位生成部５０は、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成する。その際、分析単位生成部５０は、１番の分析単位を、Ｗ個の１番の文によって生成し、２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成する。

また、分析単位生成部５０は、Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成する。更に、分析単位生成部５０は、（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する。なお、上述の設定条件において、Ｎ＝１１、Ｗ＝３に設定したときが、図３の例に相当する。

密度推定部５１は、本実施の形態１では、密度推定モデル記憶部４１から、密度推定モデルを読み出し、密度推定モデルに従って、分析単位生成部５０が生成した分析単位毎に、密度を推定する。また、密度推定部５１は、各分析単位に密度情報を付加して、これを判定部５２に出力する。また、本実施の形態１における密度推定モデルの具体例としては、目的情報の関連語のリスト（以下、「関連語リスト」とする）に基づいて、各分析単位に含まれている関連語の頻度を出力する関数が挙げられる。

他の密度推定モデルとしては、関連語毎に重要度が設定された関連語リストに基づいて、分析単位内に出現する関連語の重要度を積算し、得られた積算値を出力する関数も挙げられる。また、他の密度推定モデルとして、関連語がベクトルで表された関連語リストに基づいて、関連語リストのベクトルと、分析単位内の単語出現ベクトルとの「類似度」を出力する関数も挙げられる。なお、関連語リストは、人によって予め作成されたものであっても良いし、機械処理によって予め自動的に生成されたものでも良い。

なお、代表的な類似度の例としては、コサイン類似度が挙げられる。また、ベクトルや、関連語に対して、重みを付与する場合は、例えば、代表的な単語重み付け方法であるＴＦＩＤＦ法を用いることができる。ＴＦＩＤＦとは、ＴＦ（Term Frequency：記事内に現れる単語の出現頻度）と、ＩＤＦ（Inverse Document Frequency：全記事数と単語を含む記事数の商の対数）とを掛け合わせて得られるものである。ＴＦＩＤＦ法によれば、ある記事に現れ易いが、少ない数の文書にしか現れない単語に高い値を付与することができる。

判定部５２は、本実施の形態１では、判定モデル記憶部４２から判定モデルを読み出し、密度推定部５１によって推定された密度情報が付加された分析単位を受け取る。そして、判定部５２は、判定モデルに従って、各文が所属する各分析単位の密度から各文の目的情報らしさを評価し、評価の結果を用いて各文が目的情報であるか否かを判定する。その後、判定部５２は、判定結果が付加された文を表示装置６に表示させるための表示データを生成し、それを表示装置６に出力する。

本実施の形態１では、判定モデルとしては、各文を含む（各文が所属する）分析単位の密度を用いて、各文の評価値を算出し、評価値が予め定められた閾値を超える（又は閾値以上となる）文を目的情報記述文と判定する関数が、挙げられる。具体的には、例えば、判定モデルとしては、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和を求め、求めた値（各文の評価値となる）が閾値を超える場合に、目的情報記述文と判定する関数が挙げられる。また、記述判定モデルとしては、密度の和の代わりに、密度の平均、又は密度の標準偏差を求めるものも挙げられる。

その他、判定モデルとしては、密度の和、密度の平均及び密度の標準偏差のうち二つ以上を用いるものも挙げられる。例えば、各文が所属する各分析単位の密度の平均値と、密度の標準偏差とを算出し、平均値から標準偏差の定数倍（予め決められたパラメタ）を引いて得られた値、又は平均値と標準偏差の定数倍とを足して得られた値を用いるものが挙げられる。このような判定モデルでは、引いて得られた値又は足して得られた値が、予め定められた閾値を越える（又は閾値以上となる）場合に、目的情報であると判定される。

また、平均値と標準偏差の定数倍とを足して得られた値を用いる、判定モデルを利用すれば、密度の推定値のばらつきを考慮することが可能となる。この判定モデルは、密度の推定値にばらつきが多い場合に有効である。また、出来るだけ判定結果にミスが含まれないようにする場合は、平均値から標準偏差の定数倍を引いて得られた値を用いる、判定モデルを利用するのが良い。逆に、ミスが多少含まれていても良いが、出来るだけ多数の文について目的情報記述文かどうかを判定したい場合は、標準偏差の定数倍を足した値を用いる、判定モデルを利用するのが良い。

更に、本実施の形態１では、基本的に、判定部５２は、上述した判定モデルに従って判定を行うが、判定モデルに従った判定に加え、別の判定基準を加えた判定を行うことができる。例えば、判定部５２は、ある判定対象の文を含むある分析単位の密度が他の分析単位の密度に比べて著しく低い場合に、その文を目的情報としない判定も行うことができる。このような判定は、ある文が分析単位から抜けた場合や、他の文が分析単位に追加され場合に、著しく密度が低下するということは、密度が低下した状態にある分析単位に含まれている文が、目的情報である可能性は低い、という考え方に基づいている。

また、その他に、判定部５２は、分析単位中の各文の単語又は文節から得られる情報、及びテキスト情報と各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として用いて、判定を行うこともできる。この場合も、判定部５２は、記述判定モデルに従い、各分析単位の密度の推定値を用いた判定も実行する。

具体的には、各分析単位の密度の推定値と、各文の単語や文節から得られる情報とを用いる場合としては、「判定部５２は、密度が高い分析単位に含まれる文であっても、特定の単語を含む文に対しては目的情報として判定しない」例が挙げられる。また、各分析単位の密度の推定値と、テキスト情報と各文との比較によって取得される情報とを用いる場合としては、「判定部５２は、密度が低い分析単位に含まれるが、密度の高い分析単位に含まれる文と同一又は類似の単語を含む文を、目的情報として判定する」例が挙げられる。

なお、本実施の形態１は、情報分析装置５が、分析単位生成部５０を備えていない態様であっても良い。例えば、入力装置１０から入力されたテキスト情報に、最初から、何らかの方法で、複数文を一単位とする分析単位が生成されている場合は、情報分析装置５は、分析単位生成部５０を備えていなくても良い。

次に、本発明の実施の形態１における情報分析方法について図４〜図１１を用いて説明する。図４は、本発明の実施の形態１における情報分析方法を示すフロー図である。但し、本実施の形態１における情報分析方法は、図１に示した本実施の形態１における情報分析装置５を動作させることによって実施される。このため、以下の説明は、適宜図１〜図３を参酌しながら、情報分析装置５の動作説明と共に行う。

なお、本実施の形態１において、目的情報は、上述したように「テニス選手Ａに関する情報」に設定されている。また、密度推定モデルの具体例は、密度推定部５１による処理（図４に示すステップＳ３）と共に説明する。判定モデルの具体例は、判定部５２による処理（図４に示すステップＳ４）と共に説明する。

また、以降の説明は、分析単位生成部５０が、図３に示したように、予め設定された数の文を番号が連続するように抽出し、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の分析単位を生成する例について行う。この例は、密度推定部５１及び判定部５２との組み合わせにおいて最も効果的である。

つまり、この例でも、文の重複を許して分析単位が構成され、各文が属する分析単位が複数生成されるため、先にも述べたように、判定部５２は、複数の密度を用いたり、密度の推移を判定材料として使用したりできるようになる。また、各分析単位の文の数が一定数に固定されるため、密度推定部５１で、文の数を考慮した調整が必要なくなるので、一定数に固定しない場合と比較して、密度推定モデルの構築が相対的に容易になる。

図４に示すように、先ず、入力装置１０からテキスト情報が入力されると、入力部１はテキスト情報を受け付け、この目的情報の抽出対象となるテキスト情報を、入力テキスト記憶部４０に記憶させる（ステップＳ１）。この場合、入力テキスト記憶部４０は、図２に示すテキスト情報を記憶する。

ステップＳ１において、テキスト情報は、図２に示すように、記事の識別子である「記事ＩＤ」、各記事の先頭から末尾までの文に出現順に１から付与された番号である「文ＩＤ」、文のテキストが格納される「文」の３つを、１レコードとして記憶される。例えば、図２から、記事ＩＤが１の記事（記事ＩＤ＝１）の先頭文は「テニス全米オープンでＸ日、テニス選手Ａが完勝発進」とわかる。

次に、分析単位生成部５０が、入力テキスト記憶部４０からテキスト情報を読み込み、各記事の先頭の文から１文ずつずらしながら一定個数（パラメータＷ）の文からなる分析単位を生成する（ステップＳ２）。また、分析単位生成部５０は、生成した分析単位を密度推定部５１に出力する。ステップＳ２について図３を参照して具体的に説明する。

図３は、図３の記事ＩＤが１の記事を対象に、Ｗ＝３として分析単位を生成した例である。先ず、記事の先頭と末尾の文が、他の文と同様にＷ個の分析単位に含まれるようにするため、先頭の文を記事の始めに（Ｗ−１）個追加し、末尾の文を記事の後ろに（Ｗ−１）個追加する。

その上で、記事の先頭の文から１文ずらしてＷ個の文からなる分析単位を生成すると、図３に示す状態となる。図３を参照すると、例えば４番目の分析単位である分析単位４は、文ＩＤが２、３、４の３文から構成されていることが分かる。図３の例では、分析単位は、１文ずらしで生成されているため、１つの文はＷ個の分析単位に所属する。具体的には、Ｗ＝３に設定されているため、例えば、文ＩＤ＝２の文は、分析単位２、３、４の３つの分析単位に所属している。

なお、本実施の形態１においては、既に述べたとおり、分析単位生成部５０は、必須の構成要素ではないことに注意する。よって、入力部１によって入力テキスト記憶部４０に記憶されるテキスト情報が、何らかの方法で、複数文によって構成された分析単位の集合で構成されているに場合（図５参照）は、分析単位生成部５０による処理（ステップＳ２）を行う必要はない。

図５は、予め分析単位が設定された状態で図１に示す入力テキスト記憶部に記憶されているテキスト情報の一例を示す図である。図５に示すテキスト情報は、上記説明と同様の方法によって予め処理された状態で、入力装置１０から入力され、そして、入力部１によって、入力テキスト記憶部４０に記憶されている。図５に示すように、テキスト情報は、分析単位のＩＤを示す「分析単位ＩＤ」、各分析単位に所属する各文が現れる記事の識別子を表す「記事ＩＤ」、その記事内の先頭からの文の出現位置を表す「文ＩＤ」、文のテキスト表す「文」を有している。図５を参照すると、例えば、分析単位ＩＤが４の分析単位は、記事ＩＤが１の場合における、文ＩＤ２、３、４の３文から構成されていることが分かる。

次に、密度推定部５１が、密度推定モデル記憶部４１から密度推定モデルを読み出し、分析単位生成部５０によって生成された各分析単位内の目的情報の密度を、読み出した密度推定モデルに従って推定する（ステップＳ３）。また、密度推定部５１は、各分析単位と、その密度の推定結果とを、判定部５２に出力する。

本実施の形態１において、ステップＳ３で用いられる密度推定モデルとしては、予め作成された単語リストに含まれる語が出現している文の数を出力する関数が用いられている。図６は、図１に示す密度推定モデル記憶部に記憶されている密度推定モデルで用いられる、単語リストの一例を示す図である。図６に示すように、単語リストには、複数の語が記録されている。具体的には、図６に示す単語リストは、目的情報が「テニス選手Ａに関する情報」であるため、テニスの試合に関する語から構成されている。

ここで、図３に示した記事ＩＤ＝１の記事を対象として、ステップＳ３における処理を、図７を用いて具体的に説明する。図７は、密度の推定を説明するための図である。図７に示されたテーブルは、図３の記事ＩＤ＝１の記事の各文と図６に示す単語リストとの対比結果を示している。図７に示すテーブルにおいて、図６の単語リスト内の語が出現した文には「１」が付加され、出現していない文には「０」が付加されている。例えば、記事ＩＤ＝１、文ＩＤ＝１の文には、「テニス」、「全米」、及び「［テニス選手Ａ］」といった単語リスト内の単語が出現しているため、この文において「単語の出現」の欄は「１」となる。

なお、図７において「正解」の欄は、説明のために付加された情報である。「Ｙ」は目的情報記述文に該当することを表し、「Ｎ」は目的情報記述文に該当しないことを表している。図７の「正解」は、システムが保持する情報ではなく、システムによって判定されるべき情報であることに注意する。

図８は、密度が推定された分析単位の一例を示す図である。図８に示すように、密度推定部５１は、図３に示された各分析単位の密度を推定する。先に述べたように、密度推定モデルは、図６に示した単語リスト内の単語が出現している文の数を出力する関数である。よって、例えば、図８に示すように、分析単位３は、文１及び文３それぞれが単語リストの単語を含むので「２」となる。また、分析単位４は、文３のみが単語リストの単語を含むので「１」となる。このようにして、密度推定部５１は、各分析単位の目的情報の密度を推定し、各分析単位と、その密度の推定結果とを、判定部５２に出力する。

次に、判定部５２が、判定モデル記憶部４２から判定モデルを読み出し、密度推定部５１によって推定された目的情報の密度に基づいて、各文の評価値を計算し、その評価値を用いて目的情報か否かを判定する（ステップＳ４）。また、判定部５２は、各文とその判定結果とを表示させるため、表示データを作成し、これを表示装置６に出力する。

図４に示す例において、判定モデルとしては、各文が所属する分析単位の密度の推定値の和を各文の評価値として算出し、計算した評価値が閾値として設定された３以上である場合に目的情報と判定する関数が用いられるとする。図９は、文毎に算出された評価値の一例を示す図である。例えば、分析単位の密度推定結果の例である図８を参照すると、記事ＩＤ＝１、文ＩＤ＝３は、「分析単位３、４、５」に含まれる。よって、図９に示すように、文ＩＤ３の文の評価値は、それぞれの密度推定結果である２、１、２の和である５（＝２＋１＋２）となる。

同様にして各文の評価値を計算すると、図９に示す結果となる。最終的に、図９の例では、評価値が閾値である３以上となる文ＩＤ１〜文ＩＤ７、文ＩＤ１０、及び文ＩＤ１１が、目的情報記述文と判定される。

図１０は、目的情報記述文であるかどうかの判定結果の一例を示す図である。図１０に示されたテーブルの「判定結果」の欄において、図９に示された結果から目的情報記述文であると判定された文は「Ｙ」とされ、目的情報記述文でないと判定された文は「Ｎ」とされている。また、図１０に示されたテーブルの「単語出現による判定」の欄は、各文に図６に示した単語リスト内の単語が含まれているかどうかの判定結果を示している。この判定結果と、図１０に示されたテーブルの「正解」の欄における判定結果とを比べると、周辺の情報を考慮する本実施の形態１における方法によれば、各文を独立に判定する方法に比べて、より多くの目的情報記述文を見つけ出せることが分かる。

その後、表示装置６は、判定部５２からの表示データを受け取ると、目的情報記述文の判定結果を表示画面に表示する（ステップＳ５）。また、表示装置６による表示が終了すると、情報分析装置５における処理も終了する。

図１１は、表示結果の一例を示す図である。図１１の例では、目的情報記述文であると判定された文の記事ＩＤ、文ＩＤ、文の内容、及び評価値が、表示画面に表示されている。例えば、記事ＩＤ＝１、文ＩＤ＝３の文である「全豪、そして全仏のタイトルも取った」は、評価値が５であって、目的情報記述文と判定されたことが分かる。

このように、本実施の形態１における情報分析装置５及び情報分析方法によれば、目的情報の連続出現傾向を考慮しつつ、文単位での判定、即ち、各文が目的情報記述文であるかどうかの判定を行うことができる。また、本実施の形態１では、情報分析装置５は、分析単位生成部５０を備えているため、入力装置１０側で、予め分析単位を生成しておく必要がない。

（実施の形態２）
次に、本発明の実施の形態２における情報分析装置、及び情報分析方法について、図１２〜図１６を参照しながら説明する。最初に、本実施の形態２における情報分析装置の構成について図１２及び図１３を用いて説明する。図１２は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。図１３は、訓練用のテキスト情報の一例を示す図である。

図１２に示すように、本実施の形態２における情報分析装置９は、実施の形態１における情報分析装置５の構成に加え、訓練テキスト入力部７と、訓練データ生成部９０と、密度推定モデル学習部９１と、判定モデル学習部９２とを更に備えている。これ以外については、情報分析装置９は、実施の形態１における情報分析装置５と同様に構成されている。また、記憶装置８は、実施の形態１における記憶装置４の構成に加え、訓練テキスト記憶部８０を更に備えている。記憶装置８も、これ以外については、記憶装置４と同様に構成されている。

本実施の形態２では、入力装置１０からは、分析対象となるテキスト情報（図２参照）に加えて、密度推定モデル及び判定モデルの学習に使用される訓練用のテキスト情報が出力される。そして、訓練テキスト入力部７は、訓練用のテキスト情報の入力を受け付け、この訓練用のテキスト情報を、訓練テキスト記憶部８０に記憶させる。図１３に示すように、訓練用のテキスト情報は、記事ＩＤ、文ＩＤ、文（内容）、及び目的情報であるかどうかを示す情報を有している。目的情報であるかどうかを示す情報としては、各文が目的情報であるか否かを表す記号、又は、各文の目的情報らしさを表す値が用いられる。

訓練データ生成部９０は、訓練テキスト記憶部８０から訓練用のテキスト情報（図１３参照）を読み出し、密度推定モデル及び判定モデルの学習に使用される訓練データを生成し、これを密度推定モデル学習部９１及び判定モデル学習部９２に入力する。

本実施の形態２では、訓練データ生成部９０は、訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成する。また、訓練データ生成部９０は、訓練単位毎に、各訓練単位内の各文が目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている目的情報の量を示す目的情報密度を設定する。

更に、訓練データ生成部９０は、各訓練単位の中の各文の語又は文節から取得される情報から、訓練単位毎に特徴量を求め、訓練単位毎の目的情報密度及び特徴量を、訓練データ（後述する図１５参照）として生成する。また、このとき、訓練データ生成部９０は、上記の情報に代えて、又は上記の情報と共に、訓練用のテキスト情報と各訓練単位中の各文とを比較することによって取得される情報から、特徴量を求めることもできる。

このように、本実施の形態２では、訓練データは、各訓練単位を学習アルゴリズムによって可読な形式に変換して得られた特徴表現（特徴量）と、各訓練単位の目的情報密度との組の集合によって構成される。特徴表現の典型例としては、ベクトル形式の特徴表現や、属性形式の特徴表現、属性値の表形式の特徴表現等が挙げられる。

また、訓練用のテキスト情報において、目的情報として、各文が目的情報か否かを表す記号が与えられている場合は、各訓練単位の目的情報密度としては、目的情報の文の数を用いることができる。更に、目的情報として、各文の目的情報らしさを表す値が与えられている場合は、各訓練単位の目的情報密度としては、訓練単位内の各文の目的情報らしさの値の和を用いることができる。

本実施の形態２において、訓練データ生成部９０による訓練単位の生成は、分析単位生成部５０による分析単位の生成と同様に行われる。よって、訓練データ生成部９０は、訓練単位の生成時に、重複を許して、複数文からなる訓練単位を生成しても良い。また、訓練データ生成部９０は、訓練単位の生成時に、訓練用のテキスト情報中の連続する複数の文の中から、予め設定された一定数（Ｗ個)の連続する文を抽出し、抽出された連続する文を含む訓練単位を生成しても良い。また、訓練データ生成部９０は、訓練単位の生成時に、文の重複を許し、更に、予め定められた一定数の連続する文を抽出して、訓練単位を生成しても良い。

このように、重複を許すように訓練単位を構成すると、各文が属する訓練単位が複数できるため、判定モデル学習部９２が判定モデルを学習する際に使用できる情報を増加させる効果が得られる。また、各訓練単位に含まれる文の数を一定に固定して、訓練単位を生成すると、密度推定モデル学習部９１が密度推定モデルを学習する際に使用される、後述の特徴量が安定する。この場合、学習される密度推定モデルによる推定の結果も、安定することとなる。

更に、訓練データ生成部９０は、訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合は、予め定められた文の数（Ｗ個）より小さい数だけ番号をずらしながら、含まれる文の数が同数となる訓練単位を生成しても良い。つまり、訓練データ生成部９０は、予め設定された数の文を番号が連続するように抽出し、そして、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の訓練単位を生成しても良い。

具体的には、この場合は、各訓練単位に含まれる文の数が同数となるようにするため、先頭の文（文ＩＤ＝１）が、記事の始めに（Ｗ−１）個追加され、そして、末尾の文（文ＩＤ＝１１）が記事の後ろに（Ｗ−１）個追加される。また、上記の場合においては、訓練データ生成部９０は、分析単位生成部５０と同様に、訓練単位の順位に応じて、訓練単位を生成することができる。つまり、訓練データ生成部９０は、訓練単位の順位が１番のとき、２番から（Ｗ−１）番までのとき、Ｗ番からＮ番までのとき、（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までのとき、（Ｎ＋Ｗ−１）番目のときで、訓練単位の生成条件を変えることができる。

密度推定モデル学習部９１は、訓練データ生成部９０が生成した訓練データを受け取り、この訓練データを用いて、密度推定部５１による密度の推定に利用される密度推定モデルを学習する。また、密度推定モデル学習部９１は、学習された密度推定モデルを密度推定モデル記憶部４１に記憶させる。更に、本実施の形態２においては、密度推定モデル学習部９１は、学習した密度推定モデルを用いて、各訓練データについて、その訓練単位に含まれている目的情報の度合いを示す密度を推定する。そして、密度推定モデル学習部９１は、各訓練単位と推定した密度（推定密度）との組を、判定モデル学習部９２に出力する。

具体的には、密度推定モデル学習部９１の構築は、任意の分類関数の学習アルゴリズム、又は回帰関数の学習アルゴリズムを用いることによって行うことができる。例えば、密度推定部５１によって推定される密度が、少数の離散値で表される場合は、密度推定モデル学習部９１の構築は、回帰関数の学習アルゴリズムを用いても、分類関数の学習アルゴリズムを用いても行うことができる。また、密度推定部５１によって推定される密度が、連続値で表される場合は、密度推定モデル学習部９１の構築は、回帰関数の学習アルゴリズムを用いて行うことができる。

また、密度推定モデル学習部９１は、訓練データ生成部９０が生成した訓練データを２分割し、一方の訓練データを密度推定モデルの学習に用い、そして、この密度推定モデルを利用して、他方の訓練データに含まれる訓練単位の密度を推定しても良い。この場合、密度推定モデル学習部９１は、各訓練単位と他方の訓練単位の密度の推定値とを、判定モデル学習部９２に出力する。更に、密度推定モデル学習部９１は、訓練データも判定モデル学習部９２に出力する。

ここで、訓練データを２分割する場合に得られる効果について説明する。密度推定モデル学習部９１は、それが備える学習アルゴリズムによっては、学習に用いた訓練データの密度を全て正確に推定できる。このため、密度推定モデルの学習に用いられる訓練データと後述する判定モデルの学習に用いられる訓練データとが同一であると、判定モデル学習部９２に渡される訓練データの推定密度も全て正確になる。

よって、上記の場合は、判定モデル学習部９２は、全ての密度が正しく推定されているという前提で、判定モデルを学習する。しかしながら、実際には密度推定モデルが、分析時に分析単位に対して正確に密度を推定できるとは限らない。そのため、判定モデルが有効に働かない可能性がある。

そこで、訓練データを２分割することで、密度推定モデルにとって未知のデータを作り、未知のデータから判定モデル学習部９２のための訓練データを生成することが考えられる。こうすることで、判定モデル学習部９２においては、訓練データへの過適応（オーバーフィッティング）が抑制されるので、判定部５２は、より精度良く目的情報記述文かどうかを判定できるようになる。

判定モデル学習部９２は、密度推定モデル学習部９１が推定した密度と、訓練データとから、特徴データを生成し、更に、この特徴データを用いて、判定部５２による判定に利用可能な判定モデルを学習する。また、本実施の形態２において、判定モデルは、各文を含む各分析単位の密度の推定値（推定密度）が入力されると、各文が目的情報であるか否かを判定する関数であるのが良い。判定モデル学習部９２は、学習した判定モデルを判定モデル記憶部４２に記憶させる。

また、本実施の形態２では、判定モデル学習部９２は、複数の訓練単位に含まれている文については、当該文を含む複数の訓練単位の推定された密度の和、平均、及び分散の少なくとも一つを求める。そして、判定モデル学習部９２は、求めた値と、各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、特徴データ（後述する図１６参照）を生成できる。

判定モデル学習部９２が生成した特徴データは、各文が目的情報であるか否かを示す情報と共に、判定モデル生成用のデータとして利用できる。また、特徴データは、ベクトル形式、属性、属性値テーブル等によって表現されていても良く、本実施の形態２では、特徴ベクトルとして生成されている。

また、本実施の形態２では、分析単位生成部５０が分析単位を生成する際の設定条件は、訓練データ生成部９０が訓練単位を生成する際の設定条件と同一となるのが好ましい。更に、本実施の形態２は、密度推定モデル及び判定モデルのどちらか一方のみが学習される態様であっても良い。この場合、他方は、実施の形態１と同様に、別途作成され、入力装置１０によって外部から記憶部装置８に記憶される。なお、以降の説明では、密度推定モデルと判定モデルの両方が学習される態様について説明する。

次に、本発明の実施の形態２における情報分析方法について図１４〜図１６を用いて説明する。図１４は、本発明の実施の形態２における情報分析方法を示すフロー図である。但し、本実施の形態２における情報分析方法は、図１２に示した本実施の形態２における情報分析装置９を動作させることによって実施される。このため、以下の説明は、適宜図１２及び図１３を参酌しながら、情報分析装置９の動作説明と共に行う。

なお、本実施の形態２においても、目的情報は、実施の形態１と同様に、「テニス選手Ａに関する情報」に設定されているとする。また、以降の説明は、訓練データ生成部９０が、実施の形態１における分析単位生成部５０と同様に、予め設定された数の文を番号が連続するように抽出し、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、複数個の訓練単位を生成する例について行う（図３参照）。

また、先にも述べたが、重複を許して分析単位を構成すると、判定モデル学習部９２が判定モデルを学習する際に使用できる情報を増加させる効果が得られる。また、各訓練単位に含まれる文の数を一定に固定して、訓練単位を生成すると、密度推定モデル学習部９１が密度推定モデルを学習する際に使用される特徴量が安定する。この場合、学習される密度推定モデルによる推定の結果も安定することとなる。

図１４に示すように、先ず、入力装置１０から訓練用のテキスト情報が入力されると、訓練テキスト入力部７は、密度推定モデルと判定モデルとの学習に用いられる訓練用のテキスト情報（図１３参照）を受け付け、これを、訓練テキスト記憶部８０に記憶させる（ステップＳ１１）。なお、図１３に示す訓練用のテキスト情報は、記事の識別子である「記事ＩＤ」、各記事の先頭から末尾までの文に出現順に付与された「文ＩＤ」、各文が目的情報であるか否かをＹ又はＮで示す「目的情報」、文のテキストが格納される「文」の４つを１レコードとして記憶されている。

次に、訓練データ生成部９０が、訓練テキスト記憶部８０から訓練用のテキスト情報を読み出し、密度推定モデル及び判定モデルの学習に使用される訓練データを生成し、これを密度推定モデル学習部９１及び判定モデル学習部９２に入力する（ステップＳ１２）。

具体的には、訓練データ生成部９０は、各記事の先頭の文から１文ずつずらしながら一定個数（パラメータＷ）の文からなる訓練単位を複数個生成する。そして、訓練データ生成部９０は、各訓練単位のテキストを学習アルゴリズムによって可読な形式に変換し、訓練単位毎に特徴量（特徴表現）を取得する。また、訓練データ生成部９０は、各文が目的情報であるかどうかを示す記号、又は各文の目的情報らしさを表す値を参照して、訓練単位毎に、目的情報の密度を設定する。その後、訓練データ生成部９０は、取得された特徴量（特徴表現）と設定された目的情報密度との組を訓練データとし、これを密度推定モデル学習部９１に入力する。

図１５は、訓練単位が設定された訓練用のテキスト情報と訓練データとの一例を示す図である。図１５において、左側には訓練用のテキスト情報が示され、右側には訓練データが示されている。また、図１５に示すように、本実施の形態２においては、目的情報密度として「各訓練単位の中の目的情報文の数」が用いられている。更に、訓練単位毎の特徴量、即ち、テキストの学習アルゴリズム用のデータとして「テキスト内に含まれる名詞の出現頻度からなる特徴ベクトル」が用いられている。

例えば、図１５の上から３番目の訓練単位は、図１３を参照すると、それに含まれる文ＩＤ１と文ＩＤ３とが目的情報に該当する。よって、この訓練単位の目的情報密度は２と決定される。また、この訓練単位における、テキスト内の名詞とその出現頻度で表される特徴ベクトルは（テニス＝１，テニス選手Ａ＝１，全米＝１，オープン＝１，プレッシャー＝１，全豪＝１，タイトル＝１）となる。同様にして、全ての訓練用のテキスト情報から訓練データが作成される。

次に、密度推定モデル学習部９１が、訓練データ生成部９０から受け取った訓練データを用いて、任意の学習アルゴリズムで、訓練データの特徴ベクトルを入力として目的情報密度を出力する関数を学習する（ステップＳ１３）。また、密度推定モデル学習部９１は、学習した関数を密度推定モデルとして、密度推定モデル記憶部４１に記憶させる。更に、密度推定モデル学習部９１は、密度推定モデルを用いて、各訓練データの密度を推定し、そして、密度を推定した訓練データと推定密度とを、判定モデル学習部９２に入力する。

なお、ステップＳ１３における学習の方法としては、任意の分類関数、又は回帰関数を学習する方法が使用可能である。本実施の形態２においては、目的情報密度が高い訓練データに含まれやすい名詞には高い重みがつき、逆に目的情報の密度が低い訓練データに含まれやすい名詞には低い重みがつくように、学習が行われる。

次に、判定モデル学習部９２が、密度推定モデル学習部９１から入力された各訓練データと推定密度とを用いて、各文の特徴ベクトルを生成し、特徴ベクトルを入力として各文が目的情報であるか否かを判定する関数を学習する（ステップＳ１４）。また、判定モデル学習部９２は、学習した関数を判定モデルとして、判定モデル記憶部４２に記憶させる。

ここで、図１６及び図１７を用いて、ステップＳ１４について具体的に説明する。図１６は、密度推定モデル学習部が出力するデータの一例を示す図である。図１６に示すように、密度推定モデル学習部９１が訓練単位毎に推定した密度（推定密度）が、判定モデル学習部９２に出力されている。

また、図１７は、判定モデル学習部９２が生成するデータの一例を示す図である。図１７に示された、判定モデル学習部９２が生成したデータは、判定モデルを生成するためのデータ（判定モデル生成用データ）となる。図１７に示すように、判定モデル生成用データは、密度推定モデルによって推定された各文を含む訓練単位の推定密度（図１６参照右側）、それら推定密度の平均と分散、及び各文に含まれる単語（図１７の例では名詞のみ）を、特徴量として含んでいる。判定モデル学習部９２は、これらの特徴量から、各文が実際に目的情報か否かを判定するための特徴ベクトルを生成している。

図１７の例では、「推定密度１」は、記事先頭から見て、各文を含む１番目の訓練単位の密度を密度推定モデルによって推定した値を表している。同様に、「推定密度２」は、２番目の訓練単位の推定密度を表し、「推定密度３」は、３番目の訓練単位の推定密度を表している。よって、文ＩＤ＝１の場合、「推定密度１」が「３．２」、「推定密度２」が「２．２」、「推定密度３」が「１．８」となる。

図１７に示すように、例えば、文ＩＤ＝１に対する判定モデル生成用データでは、文ＩＤが１の文は、１番目〜３番目の訓練単位に含まれるため、「推定密度１」、「推定密度２」、及び「推定密度３」が特徴ベクトルに含まれる。また、判定モデル生成用データは、これら３つの推定密度の平均を表す「推定密度の平均」、及び各文内の名詞とその頻度も特徴ベクトルとして含んでいる。また、図１７に示すように、文ＩＤが１の文は、目的情報であるため、判定モデル生成用データには、文ＩＤが１の文が正解であることを示す「Ｙ」が付加されている。

ステップＳ１４においては、判定モデル学習部９２は、図１７に示す判定モデル生成用データを用いて、任意の学習アルゴリズムで特徴ベクトルを入力とした「目的情報か？」の「Ｙ」又は「Ｎ」を判定する関数を学習する。このように、本実施の形態２では、判定モデル学習部９２は、各訓練単位の推定された密度と文の内容との両方を考慮して、各文が目的情報であるか否かを判定する関数を学習する。

その後、ステップＳ１５〜ステップＳ１９が実行される。ステップＳ１５〜ステップＳ１９それぞれは、実施の形態１において図４に示したステップＳ１〜ステップＳ５のそれぞれと同一のステップである。本実施の形態２においては、ステップＳ１５〜ステップＳ１９についての説明は省略する。ステップＳ１９の終了後、情報分析装置９における処理は終了する。

このように、本実施の形態２によれば、密度推定モデル学習部９１と判定モデル学習部９２とにより、密度推定モデルと判定モデルとを人手によって作成する必要がなくなるため、密度推定モデル及び判定モデルの構築が低コストで実現できる。また、大量の訓練テキストを用意すれば、密度推定モデルと判定モデルとが強化されるため、専門家によって各種モデルを作成せずとも、高精度な目的情報記述文の判定が可能となる。つまり、目的情報であるか否かを判定するための密度推定モデルと記述判定モデルとを作成するには、専門知識や経験が必要となる。一方、本実施の形態２では、各文が目的情報であるか否かの情報を作成するだけで良く、それには専門知識や経験はそれほど必要ないため、本実施の形態２によれば、低コストで高精度な目的情報記述文の判定装置を実現できる。

以上、本発明の実施の形態１及び２における情報分析装置及び情報分析方法について説明したが、本発明はコンピュータソフトウェアとしても実現可能である。ここで、本実施の形態１におけるプログラムと、本実施の形態２におけるプログラムとについて説明する。図１８は、本実施の形態１及び２におけるプログラムを実行可能なコンピュータを示すブロック図である。

図１８に示すコンピュータは、本発明による情報分析装置をインプリメントした情報処理システムとして機能する。図１８に示すように、コンピュータ（情報処理システム）は、プロセッサ３０００と、プログラムメモリ３００１と、記憶媒体３００２と、外部機器に接続されるインターフェイス３００３と、表示データを出力するためのビデオカード３００４とを備えている。記憶媒体３００２としては、ＲＡＭといった各種メモリや、ハードディスク等の磁気記憶媒体を用いることができる。

プログラムメモリ３００１には、実施の形態１及び２の情報分析装置で行われる処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ３０００が動作する。つまり、プログラムメモリ３００１に、例えば、図４に示すステップＳ１〜Ｓ５を実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態１における情報分析装置５が実現される。この場合、プロセッサ３０００は、分析単位生成部５０、密度推定部５１及び判定部５２として機能し、記憶媒体３００２は、記憶装置４として機能する。

また、プログラムメモリ３００１に、図１４に示すステップＳ１１〜Ｓ１９を実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態２における情報分析装置９が実現される。この場合、プロセッサ３０００は、訓練データ生成部９０、密度推定モデル学習部９１、判定モデル学習部９２、分析単位生成部５０、密度推定部５１及び判定部５２として機能し、記憶媒体３００２は、記憶装置８として機能する。

更に、プログラムメモリ３００１に格納される本実施の形態１及び２におけるプログラムは、図１８に示すようにコンピュータ読み取り可能な記録媒体３００５に記録された状態で提供されても良いし、ネットワーク（図示せず）を介して提供されても良い。コンピュータ読み取り可能な記録媒体としては、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等が挙げられる。なお、図１８中に示したコンピュータ読み取り可能な記録媒体３００５は、光ディスクである。

以上、実施の形態１及び２を参照して本願発明を説明したが、本願発明は上記実施の形態１及び２に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年１０月１０日出願された日本出願特願２００８−２６３９５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本願発明における情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。

（１）テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする情報分析装置。

（２）前記テキスト情報から複数の前記分析単位を生成する分析単位生成部を、更に備え、
前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、上記（１）に記載の情報分析装置。

（３）前記分析単位生成部が、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記（２）に記載の情報分析装置。

（４）前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記（２）に記載の情報分析装置。

（５）前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記（２）に記載の情報分析装置。

（６）前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記（２）に記載の情報分析装置。

（７）前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記分析単位生成部が、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、上記（６）に記載の情報分析装置。

（８）前記密度推定部が、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として、前記判定部に出力し、
前記判定部が、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、上記（１）に記載の情報分析装置。

（９）前記密度推定部が、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記（１）に記載の情報分析装置。

（１０）前記判定部が、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記（１）に記載の情報分析装置。

（１１）訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（１）に記載の情報分析装置。

（１２）訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（２）に記載の情報分析装置。

（１３）訓練データ生成部が、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（１２）に記載の情報分析装置。

（１４）訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（１２）に記載の情報分析装置。

（１５）訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（１２）に記載の情報分析装置。

（１６）前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（１２）に記載の情報分析装置。

（１７）判定モデル学習部を、更に備え、
前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、上記（１２）に記載の情報分析装置。

（１８）前記密度推定モデル学習部が、更に、学習した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記（１７）に記載の情報分析装置。

（１９）前記判定モデル学習部が、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、上記（１７）に記載の情報分析装置。

（２０）前記分析単位生成部が、訓練データ生成部が前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記（１２）に記載の情報分析装置。

（２１）テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
（ａ）前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｂ）前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする情報分析方法。

（２２）（ｃ）前記テキスト情報から複数の前記分析単位を生成するステップを更に備え、
前記（ｂ）のステップにおいて、前記（ｃ）のステップで生成された分析単位毎に、前記密度を推定する、上記（２１）に記載の情報分析方法。

（２３）前記（ｃ）のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記（２２）に記載の情報分析方法。

（２４）前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記（２２）に記載の情報分析方法。

（２５）前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記（２２）に記載の情報分析方法。

（２６）前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｃ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記（２２）に記載の情報分析方法。

（２７）前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記（ｃ）のステップにおいて、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、上記（２６）に記載の情報分析方法。

（２８）前記（ａ）のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として求め、
前記（ｂ）のステップにおいて、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、上記（２１）に記載の情報分析方法。

（２９）前記（ａ）のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記（２１）に記載の情報分析方法。

（３０）前記（ｂ）のステップにおいて、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記（２１）に記載の情報分析方法。

（３１）（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（２１）に記載の情報分析方法。

（３２）（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（２２）に記載の情報分析方法。

（３３）前記（ｄ）のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（３２）に記載の情報分析方法。

（３４）前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（３２）に記載の情報分析方法。

（３５）前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（３２）に記載の情報分析方法。

（３６）前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｄ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（３２）に記載の情報分析方法。

（３７）（ｆ）前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｇ）前記（ｆ）のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記（ｂ）のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
前記（ｂ）のステップにおいて、前記（ｇ）のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記（３２）に記載の情報分析方法。

（３８）前記（ｆ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記（３７）に記載の情報分析方法。

（３９）前記（ｇ）のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、上記（３７）に記載の情報分析方法。

（４０）前記（ｃ）のステップにおいて、前記（ｄ）のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記（３２）に記載の情報分析方法。

（４１）コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｂ）前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。

（４２）（ｃ）前記テキスト情報から複数の前記分析単位を生成するステップを、更に前記コンピュータに実行させ、
前記（ｂ）のステップにおいて、前記（ｃ）のステップで生成された分析単位毎に、前記密度を推定する、上記（４１）に記載のコンピュータ読み取り可能な記録媒体。

（４３）前記（ｃ）のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、上記（４２）に記載のコンピュータ読み取り可能な記録媒体。

（４４）前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、上記（４２）に記載のコンピュータ読み取り可能な記録媒体。

（４５）前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、上記（４２）に記載のコンピュータ読み取り可能な記録媒体。

（４６）前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｃ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記（４２）に記載のコンピュータ読み取り可能な記録媒体。

（４７）前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記（ｃ）のステップにおいて、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、上記（４６）に記載のコンピュータ読み取り可能な記録媒体。

（４８）前記（ａ）のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として求め、
前記（ｂ）のステップにおいて、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、上記（４１）に記載のコンピュータ読み取り可能な記録媒体。

（４９）前記（ａ）のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、上記（４１）に記載のコンピュータ読み取り可能な記録媒体。

（５０）前記（ｂ）のステップにおいて、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各文の前記評価値を算出し、
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記（４１）に記載のコンピュータ読み取り可能な記録媒体。

（５１）（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（４１）に記載のコンピュータ読み取り可能な記録媒体。

（５２）（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記（４２）に記載のコンピュータ読み取り可能な記録媒体。

（５３）前記（ｄ）のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

（５４）前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

（５５）前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

（５６）前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｄ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

（５７）（ｆ）前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｇ）前記（ｆ）のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記（ｂ）のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
前記（ｂ）のステップにおいて、前記（ｇ）のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

（５８）前記（ｆ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、上記（５７）に記載のコンピュータ読み取り可能な記録媒体。

（５９）前記（ｇ）のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、上記（５７）に記載のコンピュータ読み取り可能な記録媒体。

（６０）前記（ｃ）のステップにおいて、前記（ｄ）のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、上記（５２）に記載のコンピュータ読み取り可能な記録媒体。

以上のように、本発明によれば、目的情報の出現傾向を考慮しつつ、複数文単位ではなく、単文単位での目的情報か否かの判定を行うことができる。よって、本発明は、テキストから特定の情報を抽出する情報抽出装置や、特定の情報のみに絞って検索する特化型検索装置のデータ収集部として利用可能である。

１入力部
４記憶装置
５情報分析装置（実施の形態１）
６表示装置
７訓練テキスト入力部
８記憶装置
９情報分析装置（実施の形態２）
１０入力装置
４０入力テキスト記憶部
４１密度推定モデル記憶部
４２判定モデル記憶部
５０分析単位生成部
５１密度推定部
５２判定部
８０訓練テキスト記憶部
９０訓練データ生成部
９１密度推定モデル学習部
９２判定モデル学習部
３０００プロセッサ
３００１プログラムメモリ
３００２記憶媒体
３００３インターフェイス
３００４ビデオカード
３００５コンピュータ読み取り可能な記録媒体

Claims

テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定する密度推定部と、
複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする情報分析装置。
前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項１に記載の情報分析装置。
前記テキスト情報から複数の前記分析単位を生成する分析単位生成部を、更に備え、
前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、請求項１または２に記載の情報分析装置。
前記分析単位生成部が、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項３に記載の情報分析装置。
前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項３に記載の情報分析装置。
前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項３に記載の情報分析装置。
前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項３に記載の情報分析装置。
前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記分析単位生成部が、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、請求項７に記載の情報分析装置。
前記密度推定部が、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として、前記判定部に出力し、
前記判定部が、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、請求項１から８のいずれかに記載の情報分析装置。
前記密度推定部が、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項１から８のいずれかに記載の情報分析装置。
前記判定部が、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項１から１０のいずれかに記載の情報分析装置。
訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項１に記載の情報分析装置。
訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項３から７のいずれかに記載の情報分析装置。
訓練データ生成部が、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項１３に記載の情報分析装置。
訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項１３に記載の情報分析装置。
訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項１３に記載の情報分析装置。
前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項１３に記載の情報分析装置。
判定モデル学習部を、更に備え、
前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、請求項１３に記載の情報分析装置。
前記密度推定モデル学習部が、更に、学習した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項１８に記載の情報分析装置。
前記判定モデル学習部が、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、請求項１８または１９に記載の情報分析装置。
前記分析単位生成部が、訓練データ生成部が前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項１３から２０のいずれかに記載の情報分析装置。
テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
（ａ）コンピュータによって、前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
（ｂ）前記コンピュータによって、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする情報分析方法。
前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項２２に記載の情報分析方法。
（ｃ）前記コンピュータによって、前記テキスト情報から複数の前記分析単位を生成するステップを更に備え、
前記（ｂ）のステップにおいて、前記（ｃ）のステップで生成された分析単位毎に、前記密度を推定する、請求項２２または２３に記載の情報分析方法。
前記（ｃ）のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項２４に記載の情報分析方法。
前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項２４に記載の情報分析方法。
前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項２４に記載の情報分析方法。
前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｃ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項２４に記載の情報分析方法。
前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記（ｃ）のステップにおいて、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、請求項２８に記載の情報分析方法。
前記（ａ）のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として求め、
前記（ｂ）のステップにおいて、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、請求項２２から２９のいずれかに記載の情報分析方法。
前記（ａ）のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項２２から２９のいずれかに記載の情報分析方法。
前記（ｂ）のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項２２から３１のいずれかに記載の情報分析方法。
（ｄ）前記コンピュータによって、文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記コンピュータによって、前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項２２に記載の情報分析方法。
（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項２４から２８のいずれかに記載の情報分析方法。
前記（ｄ）のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項３４に記載の情報分析方法。
前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項３４に記載の情報分析方法。
前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項３４に記載の情報分析方法。
前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｄ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項３４に記載の情報分析方法。
（ｆ）前記コンピュータによって、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｇ）前記コンピュータによって、前記（ｆ）のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記（ｂ）のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
前記（ｂ）のステップにおいて、前記（ｇ）のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項３４に記載の情報分析方法。
前記（ｆ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項３９に記載の情報分析方法。
前記（ｇ）のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、請求項３９または４０に記載の情報分析方法。
前記（ｃ）のステップにおいて、前記（ｄ）のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項３４から４１のいずれかに記載の情報分析方法。
コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムであって、
前記コンピュータに、
（ａ）前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
（ｂ）複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか１種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、プログラム。
前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項４３に記載のプログラム。
（ｃ）前記テキスト情報から複数の前記分析単位を生成するステップを、更に前記コンピュータに実行させ、
前記（ｂ）のステップにおいて、前記（ｃ）のステップで生成された分析単位毎に、前記密度を推定する、請求項４３または４４に記載のプログラム。
前記（ｃ）のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項４５に記載のプログラム。
前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項４５に記載のプログラム。
前記（ｃ）のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項４５に記載のプログラム。
前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｃ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項４５に記載のプログラム。
前記テキスト情報が、１番からＮ番までのＮ個の連続する文を含み、前記複数個の分析単位それぞれがＷ個の文を含む場合に、
前記（ｃ）のステップにおいて、１番から（Ｎ＋Ｗ−１）番までの番号が付された（Ｎ＋Ｗ−１）個の分析単位を生成し、その際、
１番の分析単位を、Ｗ個の１番の文によって生成し、
２番から（Ｗ−１）番までの分析単位それぞれを、１番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
Ｗ番からＮ番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するＷ個の文を抽出することによって、生成し、
（Ｎ＋１）番から（Ｎ＋Ｗ−２）番までの分析単位それぞれを、番号がＮより小さい文と、Ｎ番の文とによって生成し、
（Ｎ＋Ｗ−１）番目の分析単位を、Ｗ個のＮ番の文によって生成する、請求項４９に記載のプログラム。
前記（ａ）のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、各分析単位の特徴量として求め、
前記（ｂ）のステップにおいて、前記評価値と、前記１種類以上の情報とを用いて、判定を行う、請求項４３から５０のいずれかに記載のプログラム。
前記（ａ）のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、１種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項４３から５０のいずれかに記載のプログラム。
前記（ｂ）のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項４３から５２のいずれかに記載のプログラム。
（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項４３に記載のプログラム。
（ｄ）文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
（ｅ）前記（ｄ）のステップで生成された訓練データを用いて、前記（ａ）のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記（ａ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項４５から４９のいずれかに記載のプログラム。
前記（ｄ）のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項５５に記載のプログラム。
前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項５５に記載のプログラム。
前記（ｄ）のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項５５に記載のプログラム。
前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記（ｄ）のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、１種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項５５に記載のプログラム。
（ｆ）前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
（ｇ）前記（ｆ）のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記（ｂ）のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
前記（ｂ）のステップにおいて、前記（ｇ）のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項５２に記載のプログラム。
前記（ｆ）のステップにおいて、前記（ｅ）のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項６０に記載のプログラム。
前記（ｇ）のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち１種類以上の情報とを用いて、前記特徴データを生成する、請求項６０または６１に記載のプログラム。
前記（ｃ）のステップにおいて、前記（ｄ）のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項５５から６２のいずれかに記載のプログラム。