JPWO2009113289A1

JPWO2009113289A1 - 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Info

Publication number: JPWO2009113289A1
Application number: JP2010502718A
Authority: JP
Inventors: 剛巨河合; 安藤　真一; 真一安藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-12
Filing date: 2009-03-09
Publication date: 2011-07-21
Anticipated expiration: 2029-03-09
Also published as: JP5447368B2; US20110106849A1; WO2009113289A1

Abstract

【課題】抽出したい情報の事例と同種の新規事例を精度良く生成できるようにする。【解決手段】本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算手段と、前記類似度計算手段が計算した類似度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。

Description

本発明は、新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムに関し、特に入力された事例に基づいて当該事例と同種の新たな事例を生成することができる新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムに関する。

抽出したい情報の事例の入力に基づいて、当該事例を抽出するための情報抽出規則を作成し、作成した情報抽出規則を抽出対象の文書に適用して当該事例と同種の情報を抽出結果として抽出する情報抽出装置がある。この種の情報抽出装置においては、一般に、適切な事例を多く入力できれば、作成する情報抽出規則の質を高めることができ、情報抽出装置が情報を抽出する抽出精度を向上させることができる。そこで、情報抽出装置によって得られた抽出結果を新たな事例として用いることを繰り返し、情報抽出規則の質を高めていくブートストラップ手法が提案されている。

しかし、この種のブートストラップ手法を用いる場合、情報抽出装置による抽出結果に誤りが含まれる場合には、この誤った抽出結果に基づいて情報抽出規則を作成すると却って情報抽出規則の精度が低下するという問題がある。

上記のような問題を解決するために、個々の抽出結果に対してその抽出結果が真に抽出したい情報であるという確からしさを表す確信度等のスコアを計算しておき、スコアの低い抽出結果を取り除くことによって、情報抽出規則の精度低下を防止する技術が各種提案されている。例えば、このような情報抽出規則の精度低下を防止する技術に関する情報抽出装置の一例が、特許文献１に記載されている。この特許文献１に記載された情報抽出装置では、抽出結果の精度を高めるために、情報抽出規則の精度に関する評価尺度を考慮して各抽出結果に対して抽出したい情報の確からしさを示すスコアを算出している。そして、スコアの低い抽出結果を取り除くようにすることによって、抽出結果の精度低下を防止している。

また、事例抽出に関連するスコアリングを行う関連技術として、例えば、特許文献２には、検索処理で検索された事例に対して、入力した語句の含み度合いに応じてスコアリングを行い、スコアの高い順に事例の並べ替えを行う事例ベース推論方法が記載されている。

特開２００５−３２２１２０号公報特開２０００−１３７６１５号公報

しかしながら、網羅性の高い情報抽出規則を作成することを目的とすると、情報抽出装置が抽出した抽出結果を新たな事例として用いるだけでは、不十分であるという問題がある。すなわち、情報抽出装置が抽出する抽出結果は、あらかじめ与えられた事例に基づいて作成された情報抽出規則によって抽出された情報にすぎない。そのため、新たな事例として用いても抽出できる情報が偏るために情報抽出規則の網羅性を高めるには限界がある。

また、情報抽出規則の網羅性を高めることを目的として、情報抽出規則によって抽出されない情報を新規事例として用いるようにすることも可能である。しかし、特許文献１や特許文献２に記載されたような関連技術では、この種の新規事例に対して、情報の確からしさを示すスコアを計算することができない。そのため、新規事例に誤りが混入する可能性があるという問題がある。

そこで、本発明は、抽出したい情報の事例に基づいて、抽出したい情報の事例と同種の新規事例を精度良く生成することができる新規事例を精度良く生成することができる新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムを提供することを目的とする。

本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。

本発明による新規事例生成方法は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、事例文脈と新規事例文脈との間の類似度を計算し、計算した類似度に基づいて、生成した新規事例を絞込み出力することを特徴とする。

本発明による新規事例生成用プログラムは、コンピュータに、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算処理と、計算した類似度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるためのものである。

本発明によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。

本発明による新規事例生成装置の構成の一例を示すブロック図である。新規事例生成装置が入力した事例と同種の新規事例を生成する処理の一例を示すフローチャートである。第２の実施形態における新規事例生成装置の構成例を示すブロック図である。第２の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。第３の実施形態における新規事例生成装置の構成例を示すブロック図である。第３の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。文書データの一例を示す説明図である。事例と事例文脈とのデータの一例を示す説明図である。新規事例と新規事例文脈とのデータの一例を示す説明図である。新規事例の絞り込み結果の出力の一例を示す説明図である。新規事例生成装置の最小の構成例を示す構成図である。

符号の説明

１１，１１Ａデータ入力部
１２新規事例生成部
１３類似度計算部
１４，１４Ａ新規事例絞込部
１５抽出規則適用部
１６抽出規則生成部

実施形態１．
以下、本発明の第１の実施形態について図面を参照して説明する。図１は、本発明による新規事例生成装置の構成の一例を示すブロック図である。図１に示すように、新規事例生成装置は、データ入力部１１、新規事例生成部１２、類似度計算部１３、及び新規事例絞込部１４を含む。

本実施形態では、データ入力部１１は、抽出したい情報である事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力する。新規事例生成部１２は、入力した事例に基づく条件に従って文書データから新たな事例の候補となる情報を新規事例として抽出し、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈を生成する。類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算する。新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて新規事例を絞り込み出力する。あるいは、類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算し、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、新規事例絞込部１４は、類似度計算部１３が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込み出力する。

なお、本実施形態において、新規事例生成装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

図１に示す各処理部は、それぞれ概略以下のように動作する。

データ入力部１１は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。データ入力部１１は、抽出したい情報である事例を含む周辺のテキストデータである事例文脈を入力として受け付ける機能を備える。

例えば、データ入力部１１は、ユーザの操作に従って、抽出したい事例（例えば、著名な政治家名や著名な事件名）を、キーボードやマウス等の入力装置から入力する。すると、データ入力部１１は、入力した事例を含む事例文脈を、予め文書データベースに蓄積しておいた文書データから抽出し入力する。

新規事例生成部１２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。新規事例生成部１２は、データ入力部１１が入力した事例に基づく条件に従って、文書データから新たな事例の候補となる情報を新規事例として抽出する機能を備える。また、新規事例生成部１２は、抽出した新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈を生成する機能を備える。

なお、新規事例生成部１２は、例えば、事例に該当する文字列と同一の文字列を有し、かつ当該事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する。また、新規事例生成部１２は、例えば、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ当該形態素列の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成してもよい。さらに、新規事例生成部１２は、例えば、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成してもよい。

類似度計算部１３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。類似度計算部１３は、データ入力部１１が入力した事例文脈と、新規事例生成部１２が生成した新規事例文脈との間のトピックの類似度を計算する機能を備える。あるいは、類似度計算部１３は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する機能を備えてもよい。

新規事例絞込部１４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて、新規事例生成部１２が生成した新規事例を絞り込む機能を備える。あるいは、新規事例絞込部１４は、類似度計算部１３が計算した類似度およびパターン異なり度に基づいて、新規事例生成部１２が生成した新規事例を絞り込む機能を備える。また、新規事例絞込部１４は、絞り込んだ新規事例を出力する機能を備える。この場合、例えば、新規事例絞込部１４は、絞り込んだ新規事例を、ディスプレイ装置等の表示装置に表示させる。

なお、本実施形態において、新規事例生成装置の記憶装置（図示せず）は、入力した事例と同種の新規事例を生成するための各種プログラムを記憶している。例えば、新規事例生成装置の記憶装置は、コンピュータに、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度や、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する類似度計算処理と、計算した類似度やパターン異なり度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるための新規事例生成用プログラムを記憶している。

次に、動作について説明する。図２は、新規事例生成装置が入力した事例と同種の新規事例を生成する処理の一例を示すフローチャートである。まず、データ入力部１１は、抽出したい情報である事例を含む周辺のテキストデータである事例文脈を入力として受け付ける（図２に示すステップＡ１）。例えば、データ入力部１１は、ユーザによって事例の入力操作が行われると、抽出対象の事例を入力し、ステップＡ１以降の新規事例生成処理を開始する。

次に、新規事例生成部１２は、データ入力部１１が入力した事例に基づいて、事例文脈を抽出するための条件を設定する。また、新規事例生成部１２は、設定した条件に従って、文書データ（例えば、予め文書データベースに蓄積する文書データ）から新たな事例の候補となる情報を新規事例として抽出する。そして、新規事例生成部１２は、抽出した新規事例の周辺のテキストデータと事例文脈を比較して事例文脈とは異なる場合に当該新規事例を採用し、さらに当該新規事例の周辺のテキストデータから新規事例文脈を生成する（ステップＡ２）。ここで生成した新規事例は、事例文脈とは異なる文脈を新規事例文脈として有するため、当該新規事例と新規事例文脈を情報抽出規則の生成に用いることで、入力の事例からは得られない新たな情報抽出規則を生成することができる。また、新規事例の周辺のテキストデータと事例文脈が同一の場合には、新規事例として採用しても情報抽出規則の網羅性を高めることはできないため、新規事例としては採用せずに破棄する。

次に、類似度計算部１３は、データ入力部１１が入力した事例文脈と、新規事例生成部１２が生成した新規事例文脈との間の類似度を計算する（ステップＡ３）。あるいは、類似度計算部１３は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。

次に、新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて新規事例を絞り込む。あるいは、新規事例絞込部１４は、類似度計算部１３が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込む。そして、新規事例絞込部１４は、絞り込んだ新規事例を出力する（ステップＡ４）。例えば、新規事例絞込部１４は、絞り込んだ新規事例を新規事例文脈とともに表示装置に表示させる。

なお、ステップＡ４において、新規事例絞込部１４は、絞込方法として、例えば、類似度が高い順に新規事例文脈を並べて、上位から所定数の新規事例文脈を絞り込み結果として抽出してもよい。また、新規事例絞込部１４は、例えば、類似度が所定値を上回る新規事例文脈に含まれる新規事例を、絞り込み結果として抽出してもよい。あるいは、新規事例絞込部１４は、絞込方法として、例えば、類似度が高く、かつパターン異なり度が高い順に新規事例分脈を並べて、上位から所定数の新規事例文脈を絞り込み結果として抽出してもよい。

以上のように、本実施形態によれば、新規事例生成装置は、抽出したい情報の事例に基づいて、新たな事例の候補となる新規事例を生成し、事例文脈とは異なる新規事例文脈を生成する。また、新規事例生成装置は、事例文脈と生成した新規事例文脈との間の類似度を計算する。あるいは、新規事例生成装置は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似度または、類似度およびパターン異なり度に基づいて新規事例を絞り込む。そのように構成されているので、抽出したい情報の事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。また、情報抽出規則の網羅性を高めることができる新規事例を精度良く出力することができる。従って、抽出したい情報の事例に基づいて、情報抽出規則の網羅性を高めることができる新規事例を精度良く生成することができる。

つまり、本実施形態では、事例文脈と新規事例文脈との間の類似度を計算することによって、事例文脈と新規事例文脈との間の文脈が似通っているか否かをを計算している。そして、文脈が似ている場合にはその新規事例を含む新規事例文脈の類似度が高いので、類似度の高い新規事例文脈に含まれる新規事例に絞り込むことで、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。あるいは、本実施形態では、事例文脈と新規事例文脈との間の類似度を計算し、さらに事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算することによって、事例文脈と新規事例文脈との間の文脈が似通っているか否かをを計算し、かつ、新規事例が事例とは異なる出現傾向を有するかどうかを計算している。そして、文脈が似ていて出現傾向が異なる場合には、その新規事例を含む新規事例文脈の類似度が高く、パターン異なり度が高いので、類似度およびパターン異なり度が高い新規事例文脈に含まれる新規事例に絞り込むことで、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。

例えば、入力事例として「ブッシュ大統領訪日」とうい事例を入力した場合を考える。この場合、新規事例生成装置は、新規事例の候補として「ブッシュ夫人」や「ブッシュドノエル」等の事例を生成する。次いで、新規事例生成装置は、それら「ブッシュ夫人」や「ブッシュドノエル」が含まれる新規事例文脈と、「ブッシュ大統領訪日」が含まれる事例文脈との間の類似度を求める。そして、新規事例生成装置は、類似度の高さから新規事例を「ブッシュ夫人」に絞り込んで抽出し出力する。

上記に示したように、本実施形態によれば、単に事例同士を比較するのではなく、事例が含まれる前後の文脈を比較して新規事例を絞り込んで抽出するので、入力事例に関連した新規事例を精度良く生成して出力することができる。例えば、上記に示す事例では、「ブッシュ大統領訪日」や「ブッシュ夫人」が含まれる前後の文脈には政治に関連する単語が多く含まれていると考えられるのに対し、「ブッシュドノエル」が含まれる前後の文脈ではケーキやクリスマスに関連する単語が含まれ政治に関連する単語は皆無であるものと考えられる。従って、文脈間の類似度を比較することにより、関連性の低い「ブッシュドノエル」を新規事例から除くことができ、入力事例に関連した新規事例を精度良く生成して出力することができる。

実施形態２．
次に、本発明の第２の実施形態について図面を参照して説明する。図３は、第２の実施形態における新規事例生成装置の構成例を示すブロック図である。図３に示すように、新規事例生成装置は、データ入力部１１Ａ、抽出規則適用部１５、新規事例生成部１２、類似度計算部１３、及び新規事例絞込部１４を含む。

図３に示すように、本実施形態では、新規事例生成装置が、図１に示した構成要素に加えて抽出規則適用部１５を含む点で、第１の実施形態と異なる。また、本実施形態では、データ入力部１１Ａの機能が、第１の実施形態で示したデータ入力部１１の機能と異なる。

データ入力部１１Ａは、情報抽出規則を入力する。抽出規則適用部１５は、情報抽出規則を文書データに適用して得られる抽出結果から、事例と事例を含む周辺のテキストデータである事例文脈とを得る。新規事例生成部１２は、取得した事例に基づく条件に従って文書データから新たな事例の候補となる情報を新規事例として抽出し、当該新規事例の周辺のテキストデータであって、前記事例文脈とは異なる新規事例文脈を生成する。類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算する。新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて新規事例を絞り込み出力する。あるいは、類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算し、さらに事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。新規事例絞込部１４は、類似度計算部１３が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込み出力する。

図３に示す各処理部は、それぞれ概略以下のように動作する。

データ入力部１１Ａは、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。データ入力部１１Ａは、抽出対象の事例を抽出するための規則である情報抽出規則を入力として受け付ける機能を備える。

抽出規則適用部１５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。抽出規則適用部１５は、データ入力部１１が入力した情報抽出規則を文書データに適用して事例を抽出する機能を備える。また、抽出規則適用部１５は、抽出結果（事例）に基づいて、事例を含む周辺のテキストデータである事例文脈を取得する機能を備える。

例えば、抽出規則適用部１５は、予め文書データベースに蓄積する文書データから情報抽出規則に合致する事例を抽出する。そして、抽出した事例を含む事例文脈を文書データベースに蓄積する文書データから抽出する。

新規事例生成部１２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。新規事例生成部１２は、抽出規則適用部１５が生成した事例に基づく条件に従って、文書データから新たな事例の候補となる情報を新規事例として抽出する機能を備える。また、新規事例生成部１２は、抽出した新規事例を含む周辺のテキストデータであって、前記事例文脈とは異なる新規事例文脈を生成する機能を備える。

類似度計算部１３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。類似度計算部１３は、抽出規則適用部１５が抽出した事例文脈と、新規事例生成部１２が生成した新規事例文脈との間のトピックの類似度を計算する機能を備える。あるいは、類似度計算部１３は、前記類似度を計算する機能を備え、さらに、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する機能を備える。

次に、動作について説明する。図４は、第２の実施形態における新規事例生成装置が入力した情報抽出規則による抽出結果と同種の新規事例を生成する処理例を示すフローチャートである。まず、データ入力部１１Ａは、抽出したい情報を抽出するための情報抽出規則を入力として受け付ける（図４に示すステップＢ１）。例えば、データ入力部１１Ａは、ユーザによって情報抽出規則の入力操作が行われると、情報抽出規則を入力し、ステップＢ１以降の新規事例生成処理を開始する。

次に、抽出規則適用部１５は、データ入力部１１Ａが入力された情報抽出規則を文書データに対して適用し、抽出対象の事例を抽出する。また、抽出規則適用部１５は、得られた抽出結果を事例として、その事例を含む周辺のテキストデータである事例文脈を抽出する（ステップＢ２）。

次に、新規事例生成部１２は、抽出規則適用部１５が抽出した抽出結果を事例とし、当該事例に基づいて、事例文脈を抽出するための条件を設定する。また、新規事例生成部１２は、設定した条件に従って、文書データ（例えば、予め文書データベースに蓄積しておいた文書データ）から新たな事例の候補となる情報を新規事例として抽出する。そして、新規事例生成部１２は、抽出した新規事例の周辺のテキストデータと事例文脈を比較して事例文脈とは異なる場合に当該新規事例を採用し、さらに当該新規事例の周辺のテキストデータから新規事例文脈とする（ステップＢ３）。

次に、類似度計算部１３は、抽出規則適用部１５が抽出した事例文脈と、新規事例生成部１２が生成した新規事例文脈との間の類似度を計算する（ステップＢ４）。あるいは、類似度計算部１３は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。

なお、抽出規則適用部１５は、抽出した事例文脈を事例記憶部（例えば、ＲＡＭに形成されたバッファ）に記憶させてもよい。また、新規事例生成部１２は、生成した新規事例文脈を新規事例記憶部（例えば、ＲＡＭに形成されたバッファ）に記憶させてもよい。そして、ステップＢ４において、類似度計算部１３は、事例記憶部が記憶する事例文脈と、新規事例記憶部が記憶する新規事例文脈と、文書記憶部（例えば、ＲＡＭに形成されたバッファ）が予め記憶する文書データとを参照して、類似度やパターン異なり度を計算してもよい。

次に、新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて新規事例を絞り込む。あるいは、新規事例絞込部１４は、類似度計算部１３が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込む。そして、新規事例絞込部１４は、絞り込んだ新規事例を抽出結果として出力する（ステップＢ５）。例えば、新規事例絞込部１４は、絞り込んだ新規事例を表示装置に表示させる。

以上のように、本実施形態によれば、新規事例生成装置は、情報抽出規則を文書に適用し抽出した情報から事例文脈を抽出する。また、新規事例生成装置は、事例に基づいて前記事例文脈とは異なる新規事例文脈を生成し、事例文脈と新規事例文脈との間のトピックの類似度や、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似度の高い文脈を有する新規事例に絞り込む。あるいは、類似度およびパターン異なり度が高い分脈を有する新規事例に絞り込む。そのように構成されているので、入力の情報抽出規則に従って抽出される情報と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。また、本実施の形態によれば、入力の情報抽出規則では抽出できないが、当該情報抽出規則で抽出を意図した情報が新規事例として獲得可能となる。

実施形態３．
次に、本発明の第３の実施形態について図面を参照して説明する。図５は、第３の実施形態における新規事例生成装置の構成例を示すブロック図である。図５に示すように、本実施形態では、新規事例生成装置が、図３に示した構成要素に加えて抽出規則生成部１６を含む点で、第２の実施形態と異なる。また、本実施形態では、新規事例絞込部１４Ａの機能が、第２の実施形態で示した新規事例絞込部１４の機能と異なる。

新規事例絞込部１４Ａは、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。新規事例絞込部１４Ａは、類似度計算部１３が計算した類似度あるいは、類似度およびパターン異なり度に基づいて、新規事例生成部１２が生成した新規事例を絞り込む機能を備える。また、新規事例絞込部１４Ａは、絞り込んだ新規事例を出力する機能を備える。この場合、例えば、新規事例絞込部１４Ａは、絞り込んだ新規事例を、ディスプレイ装置等の表示装置に表示させる。

また、新規事例絞込部１４Ａは、新規事例の絞り込み結果を抽出規則生成部１６に渡す（出力する）機能を備える。

抽出規則生成部１６は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。抽出規則生成部１６は、新規事例絞込部１４Ａによって絞り込まれた新規事例を抽出するための情報抽出規則を生成する機能を備える。また、抽出規則生成部１６は、生成した情報抽出規則を出力する機能を備える。この場合、例えば、抽出規則生成部１６は、生成した情報抽出規則を、ディスプレイ装置等の表示装置に表示させる。また、抽出規則生成部１６は、生成した情報抽出規則をデータ入力部１１に渡す（出力する）ようにし、次の情報抽出規則の入力として用いられるようにしてもよい。

なお、データ入力部１１Ａ、抽出規則適用部１５、新規事例生成部１２、及び類似度計算部１３の機能は、第２の実施形態で示したそれらの機能と同様である。

次に、動作について説明する。図６は、第３の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。なお、図６におけるステップＣ１〜Ｃ４で示されるデータ入力部１１Ａ、抽出規則適用部１５、新規事例生成部１２、及び類似度計算部１３が行う動作は、図４におけるステップＢ１〜Ｂ４で示されるデータ入力部１１Ａ、抽出規則適用部１５、新規事例生成部１２、及び類似度計算部１３が行う動作と同様であるので、説明を省略する。

第２の実施形態では、新規事例絞込部１４が、ステップＢ５において、類似度計算部１３が計算した類似度あるいは類似度およびパターン異なり度に基づいて、新規事例の絞り込み結果を出力する場合を示した。これに対して、本実施形態では、新規事例絞込部１４Ａは、新規事例の絞り込み結果を出力するだけでなく、抽出規則生成部１６に渡す（図６に示すステップＣ５）。なお、この場合、新規事例絞込部１４Ａは、抽出規則生成部１６が実行する情報抽出規則の生成の精度を高めるために、絞り込んだ新規事例だけでなく、絞り込みによって排除された新規事例や、絞り込みの判定に用いた類似度等の情報も合わせて渡す（出力する）ようにしてもよい。例えば、抽出規則生成部で、絞り込みによって排除された新規事例を負例として用いることや、類似度あるいは類似度およびパターン異なり度の高い文脈を有する新規事例を優先して多く抽出するように用いることにより、情報抽出規則の精度を高めることができる。

次に、抽出規則生成部１６は、新規事例絞込部１４Ａによる抽出結果（絞り込んだ新規事例）を抽出するための情報抽出規則を生成する。そして、抽出規則生成部１６は、生成した情報抽出規則を出力する（ステップＣ６）。例えば、抽出規則生成部１６は、生成した情報抽出規則を表示装置に表示させる。

ここで、ステップＣ６で情報抽出規則を出力して処理を終了してもよいが、新規事例生成装置は、情報抽出規則の質を高めるために、さらに、ブートストラップ手法により以下のステップの処理を行う。

抽出規則生成部１６は、終了条件を満たすかを判定する（ステップＣ７）。終了条件を満たす場合には、そのまま終了とする。終了条件を満たさない場合は、抽出規則生成部１６は、生成した情報抽出規則をデータ入力部１１Ａに渡す（出力する）。そして、データ入力部１１Ａは、抽出規則生成部１６からの情報抽出規則を、次の入力として用いる。

ステップＣ７における終了条件の判定の仕方としては、例えば、抽出規則生成部１６は、情報抽出規則が生成されたか否かを判定し、生成されない場合を終了とし、生成されている間には処理を継続するようにしてもよい。また、終了条件の判定の仕方として、例えば、抽出規則生成部１６は、ステップＣ１〜Ｃ７の処理を繰返すサイクル数を予め設定しておき、設定したサイクル数に達した場合に終了とするようにしてもよい。また、例えば、抽出規則生成部１６は、予め生成する情報抽出規則数を設定しておき、生成した情報抽出規則数を累計し、設定した情報抽出規則数に達した場合に終了とするようにしてもよい。ただし、終了条件の判定方法は、本実施形態に示した方法に限定されず、抽出規則生成部１６は、他の方法を用いて終了条件を判定してもよい。

以上のように、本実施形態によれば、新規事例生成装置は、新規事例絞込部１４Ａの抽出結果を用いて抽出規則生成部１６が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。

なお、第１から第３の実施形態で示したデータ入力部、抽出規則適用部、新規事例生成部、類似度計算部、新規事例絞込部、抽出規則生成部は、それぞれ別々のユニットとして実現されていてもよい。

次に、本発明の第１の実施例について図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第１の実施形態に示した新規事例生成装置に対応するものである。

本実施例では、新規事例生成装置は、コンピュータによって実現される。具体的には、コンピュータは、パーソナルコンピュータやワークステーション等のデータ処理装置である。また、コンピュータは、キーボード等の入力装置と接続され入力装置の操作信号をＣＰＵに出力するための入力インタフェース部、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ディスプレイ装置等の出力装置と接続するための出力インタフェース部、ハードディスク装置（ＨＤ：Hard Disk ）及びＣＰＵ（Central Processing Unit ）等の既知の構成部を備えている。

ＲＯＭは、新規事例生成装置の各部の基本制御を司るプログラムを格納している。なお、当該プログラムは、外部記憶装置に格納されていてもよい。また、ＲＡＭは、ＣＰＵのワークエリアとして用いられ、ＣＰＵにより実行されるプログラムや、各種データを一時的に格納する。

ＲＯＭ内のプログラムは、ＲＡＭに読み込まれ、ＣＰＵは、ＲＡＭに読み込んだプログラムの制御に従って動作する。そのように動作することにより、ＣＰＵは、データ入力部１１、新規事例生成部１２、類似度計算部１３、新規事例絞込部１４等の各処理部として機能する。また、ＣＰＵは、ＲＡＭ内に文書データを格納する文書記憶部、事例文脈を格納する事例記憶部、及び新規事例文脈を格納する新規事例記憶部をバッファとして生成する。

ＨＤは、オペレーティングシステム等のコンピュータを制御するための各種ソフトウエアを格納している。また、文書データを事前にＨＤに格納しておき、動作時に適宜ＲＡＭ内に必要な文書をＨＤから読み込む構成としてもよい。

図７は、文書データの一例を示す説明図である。図７に示す文書データは、外部記憶装置等から読み込まれ文書記憶部に格納される。図７に示すように、文書記憶部は、文書データを識別するための識別子である文書ＩＤと、文書の実体であるテキストデータとを対応付けた形式で格納している。本実施例では、例えば、図７に示すように、文書記憶部は、文書ＩＤ「ＤＯＣ１」に対応付けて、文書内容が「○○党の○△×議員が△△と発言した。」という文を含む複数の文からなる文書テキストデータを格納しているとする。

なお、文書テキストデータは、ＨＴＭＬファイルや電子メール、ワードプロセッサ文書等の電子ファイルであってもよい。この場合、ＣＰＵは、これらの電子ファイルから予めテキストデータのみを抽出して格納しておくか、テキストデータとその他の情報とを識別可能な形式で保存しておけばよい。

また、文書記憶部は、文書内容として文単位に分けた形式の情報を格納してもよい。また、文書記憶部は、テキストデータに加えて、当該テキストデータを形態素解析や構文解析等の言語解析処理により解析処理を行った後の解析結果を、テキストデータと対応付けて格納しておいてもよい。

プログラムの実行を開始すると、ＣＰＵは、データ入力部１１として機能し、図８に示す情報を入力として受け付ける。なお、図８は、事例と事例文脈とのデータの一例を示しており、ＣＰＵは、図８に示す情報を入力して事例記憶部に格納させる。

図８に示すように、ＣＰＵは、事例を識別するための識別子である事例ＩＤと、当該事例を含む事例文脈の実体である事例文脈テキストデータと、当該事例文脈テキストデータ中における事例の該当箇所を示す位置情報と、事例の種別とを対応付けた形式で事例記憶部に格納させる。さらに、図８に示すように、ＣＰＵは、事例に該当するテキストデータ中の箇所である事例内容も対応付けて事例記憶部に格納させてもよい。

位置情報は、事例として抽出したい情報の該当箇所を示し、事例文脈テキストデータ中におけるオフセット情報によって示す形式等で表すことができる。例えば、抽出したい情報の長さが分かっていれば、位置情報は、事例文脈テキストデータ中におけるオフセット情報のみでよい。また、位置情報は、事例文脈テキストデータ中における先端及び終端それぞれのオフセット情報からなる形式で示してもよい。又、例えば、位置情報は、事例文脈テキストデータ中において抽出したい情報の先頭のオフセット情報と長さ情報とを明示する形式で示してもよい。さらに、位置情報を用いる代わりに、事例文脈テキストデータ中に事例を示すタグを付与して、事例箇所を識別できるように格納してもよい。なお、事例記憶部に格納させる位置情報の形式は、本実施例で示した格納形式に限定されない。

本実施例では、例えば、図８に示すように、ＣＰＵは、事例に対応付けて事例文脈を格納させるとする。図８に示す例では、事例ＩＤ「ＥＸ１」に対応する事例文脈において、位置情報「４、３」に基づいて、事例文脈テキストデータ中において、文脈先頭を０として４文字目から始まり、かつ長さ３文字で指定される箇所に事例内容が位置していることが分かる。なお、位置情報中の長さ情報は、事例内容から判明するものであれば無くてもよい。

図８に示す例では、事例ＩＤがＩＤ「ＥＸ１」である事例は、事例内容が「○△×」である文字列を有し、その事例の種別が「政治家名」として指定されていることが分かる。なお、本実施例では、図８に示す事例文脈テキストデータを事例記憶部が直接格納する場合を示しているが、事例文脈テキストデータに代えて、文書記憶部の中の文書や、当該文書中の段落等の一部分のテキストデータを指定する情報を格納してもよい。

続いて、ＣＰＵは、新規事例生成部１２として機能し、図８に示す各事例に基づく条件を設定する。また、ＣＰＵは、設定した条件に従って、文書記憶部に格納された図７に示す複数の文書から新たな事例の候補となる情報を新規事例として抽出する。そして、ＣＰＵは、抽出した新規事例を含む周辺のテキストデータを用いて新規事例文脈を生成し、生成した新規事例文脈を新規事例記憶部に格納させる。

なお、ＣＰＵは、新規事例文脈の生成に用いるテキストデータとして、事例文脈とは異なるテキストデータを用いて新規事例文脈を生成する。例えば、ＣＰＵは、新規事例の該当箇所周辺の文字列や形態素が異なることや、新規事例の該当箇所を含む文が異なること等により判断できる。

図９は、新規事例と新規事例文脈とのデータの一例を示す説明図である。図９に示すように、ＣＰＵは、新規事例を識別するための識別子である新規事例ＩＤと、当該新規事例を含む新規事例文脈の実体である新規事例文脈テキストデータと、当該新規事例文脈テキストデータ中の新規事例の該当箇所を示す位置情報と、新規事例の種別とを対応付けた形式で新規事例記憶部に格納させる。さらに、図９に示すように、ＣＰＵは、新規事例に該当するテキストデータ中の箇所である新規事例内容も対応付けて新規事例記憶部に格納させてもよい。なお、新規事例の種別は、事例の種別と同じものとすればよい。

ＣＰＵは、事例に基づく条件として、例えば、事例内容と同一の文字列を有する情報を用いればよい。具体的には、図８に示す事例ＩＤが「ＥＸ１」に対応する事例を基にして生成した場合、ＣＰＵは、当該事例ＩＤに対応する事例内容である「○△×」の文字列を含む箇所を抽出して新規事例とする。そして、ＣＰＵは、当該新規事例を含む周辺のテキストデータを新規事例文脈とする。なお、ＣＰＵは、当該新規事例を含む文書全体を新規事例文脈としてもよい。

また、ＣＰＵは、事例に基づく条件として、事例内容の形態素列の情報を用いてもよい。例えば、ＣＰＵは、事例文脈テキストデータの形態素解析結果から事例内容に該当する形態素列を取り出す。次いで、ＣＰＵは、当該形態素列の各形態素の素性のうち、原型や品詞、シソーラス情報等の素性値の所定の組合せパターンと同じ組合せパターンの素性値を有する形態素列を有することを条件として、文書データの中から該当する箇所を新規事例として抽出する。例えば、「ブッシュ大統領」という文字列を有する事例から、「ブッシュ」と「大統領」という２つの形態素が得られたとき、１つ目の形態素の品詞の素性値が「名詞」であり、それに後続する２つ目の形態素のシソーラス情報の素性値が「役職」であるという形態素列のパターンが得られる。このようなパターンを用いて、新規事例を抽出することが可能である。そして、ＣＰＵは、抽出した新規事例を含む文書を新規事例文脈として生成すればよい。

また、ＣＰＵは、新規事例文脈の生成方法として、新規事例の該当箇所の周辺のテキストデータを所定の方法で抽出することにより、新規事例文脈を生成する方法を用いてもよい。例えば、ＣＰＵは、新規事例の該当箇所から前後に所定数の文字数や、形態素数、文数、段落数等で特定されるテキストデータを新規事例文脈とすればよい。また、例えば、ＣＰＵは、新規事例の該当箇所から所定数の文字数や、形態素数、文数、段落数等によりウィンドウ幅を決定し、新規事例の該当箇所を含む当該ウィンドウ幅内のテキストデータを新規事例文脈とすればよい。

また、事例文脈のデータにおいて事例文脈テキストデータを直接格納するのではなく、事例文脈テキストデータに代えて、文書データ中の文書ＩＤを指定する情報を格納する方法で事例文脈を受け付けるようにしてもよい。この場合、新規事例文脈の生成時に同じ箇所を用いても意味がないので、ＣＰＵは、事例文脈で指定する文書ＩＤの位置情報で示される箇所とは異なる箇所から新規事例文脈の抽出を行う。

次に、ＣＰＵは類似度計算部１３として機能し、事例記憶部が記憶する事例文脈と、新規事例記憶部が記憶する新規事例文脈とを参照して、事例文脈と新規事例文脈との間の類似度を計算する。あるいは、ＣＰＵは、類似度計算部１３として機能し、前記類似度の他に、事例文脈中の部分データと新規事例文脈中の部分データのパターン異なり度を計算する。

なお、文脈間の類似度の計算方法には様々な方法が存在する。ＣＰＵは、例えば、文脈ベクトル間のコサイン類似度等を計算することによって、事例文脈と新規事例文脈との間の類似度を算出すればよい。すなわち、ＣＰＵは、事例文脈や新規事例文脈のテキストデータから文脈を表現する文脈ベクトルを生成する。そして、ＣＰＵは、計算対象の文脈ベクトル間のなす角度のコサイン値を計算して、求めたコサイン値を文脈間の類似度とすればよい。

また、ＣＰＵは、文脈ベクトルの生成方法として、例えば、各文脈中のテキストを形態素解析により形態素に分割して自立語等の単語や当該形態素の素性値を抽出しベクトル要素とし、そのベクトル要素に出現頻度やｔｆ・ｉｄｆ値等により重み付けすることによって、文脈ベクトルを生成する方法を用いてもよい。さらに、ＣＰＵ各文脈中のテキストを構文解析して係り受け関係にある文節の組合せを抽出しベクトル要素として加えてもよい。また、ＣＰＵは、例えば、各文脈中のテキストから文字Ｎ−ｇｒａｍを抽出しベクトル要素とし、その出現頻度等を重み付けすることによって、文脈ベクトルを生成する方法を用いてもよい。

なお、類似度の計算方法は、例えば、特許第３６９０２１６号公報に記載されているように、精度向上のため文脈ベクトル間の類似度の計算方法を工夫した方法を用いて類似度計算してもよく、本実施例で示した類似度の計算方法に限定されない。

また、本実施例では、類似度の計算に際しては、同じ種別を有する事例及び新規事例に限定し、それぞれの文脈の間で計算を行うのが望ましい。その理由は、異なる種別の事例と新規事例とを含む文脈間には関連性が低いためである。

また、ＣＰＵは、類似度の計算に際して、計算の対象とする文脈群を、ある事例文脈と、当該事例を基に生成された全ての新規事例文脈とから構成される文脈群として、類似度を計算してもよい。その理由は、同一の事例から生成された新規事例に限定するため、不要な文脈を除いて計算でき、精度向上を図ることができるためである。

例えば、ＣＰＵは、上記のようにして限定した文書群においてベクトル空間を構成し、文脈ベクトルを形成すればよい。そのようにすることによって、例えば、重みに用いるｉｄｆ値が不適切に高く設定されることを抑制でき、文脈間のコサイン類似度の精度向上が期待できる。また、例えば、ＣＰＵは、類似度の計算に際して、ある同一の事例を基にして生成された新規事例それぞれの文脈ベクトルには高い重みを与えて、類似度を計算するようにしてもよい。

また、ＣＰＵは、類似度の計算に際して、同種の種別の複数の事例がある場合に、それらの各事例文脈と、それら各事例から生成された全ての新規事例文脈とから構成される文脈群に限定して類似度を計算してもよい。例えば、ＣＰＵは、このようにして限定した文脈群においてベクトル空間を構成し、文脈ベクトルを形成すればよい。その理由は、同種の事例文脈を基にして生成された新規事例文脈は、類似のコンテキストを有する可能性が高いため、ベクトル要素の計数が適切に行えるためである。そのようにすることによって、例えば、重みに用いるｉｄｆ値を適切に設定でき、計算する類似度の精度向上が期待できる。

また、例えば、ＣＰＵは、類似度の計算に際して、同種の種別の複数の事例がある場合に、それらの各事例文脈と、それら各事例から生成された全ての新規事例文脈とから構成される文脈群に限定し、当該文脈群中において、ある新規事例文脈と全ての事例文脈との間でそれぞれ類似度を計算してもよい。この場合、ＣＰＵは、それらの類似度の最大値をある新規事例文脈の類似度する方法を用いてもよい。また、例えば、ＣＰＵは、ある新規事例文脈に関して、それらの類似度を掛け合わせた値（乗算値）を、当該新規事例文脈の類似度としてもよい。

なお、事例文脈中の部分データと新規事例文脈中の部分データとの間のパターン異なり度の計算方法には様々な方法が存在する。ＣＰＵは、例えば、事例文脈中の部分データと新規事例文脈中の部分データとの間の編集距離を用いることができる。

例えば、事例文脈中の部分データを事例文脈中における事例を含む周辺の局所的な文字列とし、新規事例文脈中の部分データを新規事例中における新規事例を含む周辺の局所的な文字列とした時、それぞの文字列の間の編集距離を用いることができる。局所的な文字列とは、各文脈の長さに比して短い所定の長さである文字列のことである。例えば、事例文脈や新規事例文脈が複数文からなる文から構成されていた場合、各文脈中の各事例に該当する文字列の前後５文字以内とすればよい。あるいは、各事例を含む文において、各事例に該当する文字列の前後５文字以内とするなど、同一文中などの制限を加えてもよい。

また、例えば、事例文脈中の部分データを事例文脈中における事例を含む周辺の局所的な形態素列とし、新規事例文脈中の部分データを新規事例文脈中における新規事例を含む周辺の局所的な形態素列とした時、それぞれの形態素列の間の編集距離を用いることができる。形態素列の間の編集距離は、文字列の間の編集距離と同様に、各形態素に対して、挿入、削除、置換、といった操作を行って同じ形態素列に変更するために要する操作の回数を数えて求めることができる。また、局所的な形態素列とは、各文脈の長さに比して短い所定の長さである形態素列のことである。例えば、事例文脈や新規事例文脈が複数文からなる文から構成されていた場合、各文脈中の各事例に該当する形態素列の前後３形態素以内の形態素列とすればよい。あるいは、各事例を含む文において、各事例に該当する形態素列の前後３形態素以内とするなど、同一文中などの制限を加えてもよい。さらに形態素の各素性を編集の単位に加えてもよい。

また、例えば、事例文脈中の部分データを、事例文脈の構文解析結果における事例を含む部分木とし、新規事例文脈中の部分データを新規事例文脈の構文解析結果における新規事例を含む部分木とした時、それぞれの部分木の間の編集距離を用いることができる。部分木の間の編集距離は、部分木中の各ノードに対して、挿入、削除、置換、といった操作を行って同じ部分木の構造に変更するために要する操作の回数を数えて求めることができる。

最後に、ＣＰＵは、新規事例絞込部１４として機能し、計算した類似度に基づいて、新規事例を絞り込む。例えば、新規事例文脈毎に類似度が計算されているので、ＣＰＵは、類似度が高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。また、ＣＰＵは、所定の類似度を上回る新規事例文脈に対応する新規事例を絞り込み、新規事例の絞込結果として出力すればよい。

あるいは、ＣＰＵは、新規事例絞込部１４として機能し、計算した類似度およびパターン異なり度に基づいて、新規事例を絞り込む。例えば、新規事例文脈毎に類似度およびパターン異なり度が計算されているので、ＣＰＵは、類似度およびパターン異なり度が高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。または、計算した類似度にパターン異なり度を掛け合わせた値の高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。

なお、ＣＰＵは、出力する絞込結果の形式として、例えば、図１０で示す形式を用いて出力（例えば、表示装置に表示）すればよい。図１０に示す例では、図９に示す新規事例及び新規事例文脈と同様の形式で出力する場合が示されており、絞り込まれた新規事例文脈を抽出結果としている。

また、ＣＰＵは、新規事例の抽出結果に、計算した類似度を付加して出力してもよい。例えば、図１０に示す例では、図９に示す新規事例内容及び新規事例文脈テキストデータに加えて、絞り込んだ新規事例に対応して計算した類似度も追加して出力する場合が示されている。さらに、図１０に加えて、パターン異なり度も追加して出力してもよい。また、例えば、絞り込み処理で排除した新規事例を含む全ての新規事例を出力し、図９に示す新規事例及び新規事例文脈の形式と同様の出力形式に加えて、新規事例毎に採用か否かを示すフラグを付与して出力する出力形式を用いてもよい。

以上のように、本実施例によれば、新規事例生成装置は、入力事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と生成した新規事例文脈との間の類似度を計算する。そして、そのようにすることにより、類似性に基づいて新規事例を絞り込む。そのように構成されているので、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。あるいは、本実施例によれば、新規事例生成装置は、入力事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と生成した新規事例文脈との間の類似度を計算する。さらに、新規事例生成装置は、事例文脈中の部分データと新規事例文脈中の部分データとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似性およびパターン異なり度に基づいて新規事例を絞り込む。そのように構成されているので、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。

次に、本発明の第２の実施例を図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第２の実施形態に示した新規事例生成装置に対応するものである。

本実施例では、新規事例生成装置の構成は、第１の実施例で示した構成と同様である。本実施例では、新規事例生成装置としてコンピュータをプログラムの制御に従って動作させることにより、ＣＰＵが抽出規則適用部１５としても機能する点で、第１の実施例と異なる。

まず、ＣＰＵは、データ入力部１１Ａとして機能し、特定の情報を抽出するための情報抽出規則を入力として受け付ける。情報抽出規則は、抽出したい情報を含む辞書や、文字列や形態素列、構文部分木等の素性を複数組合せた公知のパターンマッチング規則等で構成すればよい。ＣＰＵは、これらの情報を予め情報抽出規則として用意しておき、入力する。

次に、ＣＰＵは、抽出規則適用部１５として機能し、データ入力部１１Ａが入力した情報抽出規則を文書記憶部に格納されている文書に適用し情報を抽出する。また、ＣＰＵは、抽出した情報を事例とし、当該情報（事例）を含む文書を事例文脈として抽出して、事例記憶部に格納させる。なお、ＣＰＵは、格納する事例文脈の形式として、図８で示した事例の格納形式と同様の形式で抽出した事例文脈を格納させる。

なお、情報抽出規則は、本実施例で示したものに限られない。例えば、情報抽出規則の他の例として、情報抽出規則を、事前に抽出したい情報を公知の種々の機械学習手法により学習した結果得られる抽出モデルデータとして準備してもよい。この場合、ＣＰＵによって実現される抽出規則適用部１５は、その抽出モデルデータを情報抽出規則として用いて、抽出対象の文書に適用することにより抽出結果を抽出するようにしてもよい。

なお、ＣＰＵが新規事例生成部１２、類似度計算部１３、及び新規事例絞込部１４として機能する動作は、第１の実施例で示したそれらの動作と同様である。

以上のように、本実施例によれば、新規事例生成装置は、情報抽出規則を文書に適用し抽出した情報から事例文脈を抽出する。また、新規事例生成装置は、事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と新規事例文脈との間のトピックの類似度を計算する。そして、そのようにすることにより、類似度の高い新規事例に絞り込む。そのように構成されているので、入力の情報抽出規則に従って抽出される情報と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。

次に、本発明の第３の実施例を図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第３の実施形態に示した新規事例生成装置に対応するものである。

本実施例では、新規事例生成装置の構成は、第２の実施例で示した構成と同様である。本実施例では、新規事例生成装置としてコンピュータをプログラムの制御に従って動作させることにより、ＣＰＵが抽出規則生成部１６としても機能する点で、第２の実施例と異なる。

まず、ＣＰＵは、新規事例絞込部１４Ａとして機能する際に、ＲＡＭ等をバッファとして用いて、絞り込んだ新規事例を絞込結果として保存させる。次いで、ＣＰＵは、抽出規則生成部１６として機能する際に、絞り込み結果をバッファから読み込んで受け取る。なお、ＣＰＵは、新規事例の絞り込み結果を外部記憶装置に一旦出力してから読み込む方法を用いてもよい。

続いて、ＣＰＵは、抽出規則生成部１６として機能し、新規事例絞込部１４が絞り込んだ結果である抽出結果を用いて、新たな情報抽出規則を生成する。この場合、ＣＰＵは、情報抽出規則の生成方法として、例えば、パターンマッチング規則であれば、絞込結果の新規事例文脈のデータから対応するテキスト及び新規事例及び種別等を得る方法を用いることによって、公知の方法で情報抽出規則を生成できる。

また、ＣＰＵは、生成する情報抽出規則の精度を高めるために、新規事例絞込部１４は、新規事例の絞り込み時に採用しなかった（絞り込みで排除した）新規事例も抽出規則生成部１６に出力するようにしてもよい。そして、抽出規則生成部１６は、採用しなかった新規事例を、情報抽出規則生成の際の負例として用いて、情報抽出規則を生成することも可能である。

以上のように、本実施例によれば、新規事例生成装置は、新規事例絞込部１４Ａの抽出結果を用いて抽出規則生成部１６が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。

次に、本発明による新規事例生成装置の最小構成について説明する。図１１は、新規事例生成装置の最小の構成例を示す構成図である。図１１に示すように、新規事例生成装置は、最小の構成要素として、新規事例生成部１２、類似度計算部１３、及び新規事例絞込部１４を含む。なお、図１１に示す新規事例生成装置は、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例を新規事例として生成する。

図１１に示す最小構成の新規事例生成装置において、新規事例生成部１２は、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する機能を備える。また、類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算する機能を備える。また、新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて、新規事例生成部１２が生成した新規事例を絞込み出力する機能を備える。

図１１に示す最小構成の新規事例生成装置によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。

なお、本実施形態では、以下の（１）〜（２２）に示すような新規事例生成装置の特徴的構成が示されている。

（１）新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段（例えば、新規事例生成部１２によって実現される）と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段（例えば、類似度計算部１３によって実現される）と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段（例えば、新規事例絞込部１４によって実現される）とを備えたことを特徴とする。

（２）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。

（３）新規事例生成装置において、新規事例生成手段は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。

（４）新規事例生成装置において、新規事例生成手段は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。

（５）新規事例生成装置において、新規事例生成手段は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。

（６）新規事例生成装置において、類似度計算手段は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。

（７）新規事例生成装置において、類似度計算手段は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。

（８）新規事例生成装置において、類似度計算手段は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。

（９）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段（例えば、抽出規則生成部１６によって実現される）をさらに備えるように構成されていてもよい。

（１０）新規事例生成装置において、抽出規則適用手段は、情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。

（１１）新規事例生成装置において、類似度計算手段は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算手段が計算した類似度およびパターン異なり度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段（例えば、新規事例絞込部１４によって実現される）を備えるように構成されていてもよい。

（１２）新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成部（例えば、新規事例生成部１２によって実現される）と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算部（例えば、類似度計算部１３によって実現される）と、類似度計算部が計算した類似度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部（例えば、新規事例絞込部１４によって実現される）とを備えたことを特徴とする。

（１３）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。

（１４）新規事例生成装置において、新規事例生成部は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。

（１５）新規事例生成装置において、新規事例生成部は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。

（１６）新規事例生成装置において、新規事例生成部は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。

（１７）新規事例生成装置において、類似度計算部は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。

（１８）新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。

（１９）新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。

（２０）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、新規事例絞込部が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成部（例えば、抽出規則生成部１６によって実現される）をさらに備えるように構成されていてもよい。

（２１）新規事例生成装置において、抽出規則適用部は、情報抽出規則生成部が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。

（２２）新規事例生成装置において、類似度計算部は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算部が計算した類似度およびパターン異なり度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部（例えば、新規事例絞込部１４によって実現される）を備えるように構成されていてもよい。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年３月１２日に出願された日本特許出願２００８−６２６１０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

産業上の利用の可能性

本発明は、入力された事例に基づいて当該事例と同種の新たな事例を生成する情報抽出規則生成装置の用途に適用できる。また、本発明は、情報抽出規則生成装置をコンピュータを用いて実現するためのプログラムの用途に適用できる。また、本発明は、キーワード検索を行う情報検索装置や、自然言語による質問に合致する回答を検索する質問回答検索等を行う質問回答検索装置の用途に適用できる。この場合、本発明による新規事例生成方法を用いることで、キーワードや質問を拡張したクエリ拡張等の応用に用いることができる。また、本発明は、情報検索装置をコンピュータに実現させるためのプログラムや、質問回答検索装置をコンピュータに実現させるためのプログラムの用途にも適用可能である。

【０００３】
課題を解決するための手段
［００１０］
本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。
［００１１］
本発明による新規事例生成方法は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、事例文脈と新規事例文脈との間の類似度を計算し、計算した類似度に基づいて、生成した新規事例を絞込み出力することを特徴とする。
［００１２］
本発明による新規事例生成用プログラムは、コンピュータに、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算処理と、計算した類似度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるためのものである。
発明の効果
［００１３］
本発明によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
図面の簡単な説明

【００２８】
［０１１４］
続いて、ＣＰＵは、抽出規則生成部１６として機能し、新規事例絞込部１４が絞り込んだ結果である抽出結果を用いて、新たな情報抽出規則を生成する。この場合、ＣＰＵは、情報抽出規則の生成方法として、例えば、パターンマッチング規則であれば、絞込結果の新規事例文脈のデータから対応するテキスト及び新規事例及び種別等を得る方法を用いることによって、公知の方法で情報抽出規則を生成できる。
［０１１５］
また、ＣＰＵは、生成する情報抽出規則の精度を高めるために、新規事例絞込部１４は、新規事例の絞り込み時に採用しなかった（絞り込みで排除した）新規事例も抽出規則生成部１６に出力するようにしてもよい。そして、抽出規則生成部１６は、採用しなかった新規事例を、情報抽出規則生成の際の負例として用いて、情報抽出規則を生成することも可能である。
［０１１６］
以上のように、本実施例によれば、新規事例生成装置は、新規事例絞込部１４Ａの抽出結果を用いて抽出規則生成部１６が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。
［０１１７］
次に、本発明による新規事例生成装置の最小構成について説明する。図１１は、新規事例生成装置の最小の構成例を示す構成図である。図１１に示すように、新規事例生成装置は、最小の構成要素として、新規事例生成部１２、類似度計算部１３、及び新規事例絞込部１４を含む。なお、図１１に示す新規事例生成装置は、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例を新規事例として生成する。
［０１１８］
図１１に示す最小構成の新規事例生成装置において、新規事例生成部１２は、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生

【００２９】
成する機能を備える。また、類似度計算部１３は、事例文脈と新規事例文脈との間の類似度を計算する機能を備える。また、新規事例絞込部１４は、類似度計算部１３が計算した類似度に基づいて、新規事例生成部１２が生成した新規事例を絞込み出力する機能を備える。
［０１１９］
図１１に示す最小構成の新規事例生成装置によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
［０１２０］
なお、本実施形態では、以下の（１）〜（２２）に示すような新規事例生成装置の特徴的構成が示されている。
［０１２１］
（１）新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段（例えば、新規事例生成部１２によって実現される）と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段（例えば、類似度計算部１３によって実現される）と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段（例えば、新規事例絞込部１４によって実現される）とを備えたことを特徴とする。
［０１２２］
（２）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
［０１２３］
（３）新規事例生成装置において、新規事例生成手段は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデ

【００３１】
て実現される）を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段（例えば、抽出規則生成部１６によって実現される）をさらに備えるように構成されていてもよい。
［０１３０］
（１０）新規事例生成装置において、抽出規則適用手段は、情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
［０１３１］
（１１）新規事例生成装置において、類似度計算手段は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算手段が計算した類似度およびパターン異なり度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段（例えば、新規事例絞込部１４によって実現される）を備えるように構成されていてもよい。
［０１３２］
（１２）新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成部（例えば、新規事例生成部１２によって実現される）と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算部（例えば、類似度計算部１３によって実現される）と、類似度計算部が計算した類似度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部（例えば、新規事例絞込部１４によって実現される）とを備えたことを特徴とする。

【００３２】
［０１３３］
（１３）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
［０１３４］
（１４）新規事例生成装置において、新規事例生成部は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
［０１３５］
（１５）新規事例生成装置において、新規事例生成部は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
［０１３６］
（１６）新規事例生成装置において、新規事例生成部は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。
［０１３７］
（１７）新規事例生成装置において、類似度計算部は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。
［０１３８］
（１８）新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事

【００３３】
例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
［０１３９］
（１９）新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
［０１４０］
（２０）新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部（例えば、抽出規則適用部１５によって実現される）を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込部が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成部（例えば、抽出規則生成部１６によって実現される）をさらに備えるように構成されていてもよい。
［０１４１］
（２１）新規事例生成装置において、抽出規則適用部は、情報抽出規則生成部が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
［０１４２］
（２２）新規事例生成装置において、類似度計算部は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算部が計算した類似度およびパターン異なり度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部（例えば、新規事例絞込部１４によって実現される）を備えるように構成されていてもよい。

Claims

抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、
前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算手段と、
前記類似度計算手段が計算した類似度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段とを
備えたことを特徴とする新規事例生成装置。
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
請求項１記載の新規事例生成装置。
前記新規事例生成手段は、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項１又は請求項２記載の新規事例生成装置。
前記新規事例生成手段は、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項１又は請求項２記載の新規事例生成装置。
前記新規事例生成手段は、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項１から請求項４のうちのいずれか１項に記載の新規事例生成装置。
前記類似度計算手段は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項１から請求項５のうちのいずれか１項に記載の新規事例生成装置。
前記類似度計算手段は、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項６記載の新規事例生成装置。
前記類似度計算手段は、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項６記載の新規事例生成装置。
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段をさらに備えた
請求項１記載の新規事例生成装置。
前記抽出規則適用手段は、前記情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項９記載の新規事例生成装置。
前記類似度計算手段は、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
前記類似度計算手段が計算した類似度およびパターン異なり度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段を備えた
請求項１記載の新規事例生成装置。
抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記事例文脈と前記新規事例文脈との間の類似度を計算し、
前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する
ことを特徴とする新規事例生成方法。
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
請求項１２記載の新規事例生成方法。
前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項１２又は請求項１３記載の新規事例生成方法。
前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項１２又は請求項１３記載の新規事例生成方法。
前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項１２から請求項１５のうちのいずれか１項に記載の新規事例生成方法。
事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項１２から請求項１６のうちのいずれか１項に記載の新規事例生成方法。
前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項１７記載の新規事例生成方法。
前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項１７記載の新規事例生成方法。
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する
請求項１２記載の新規事例生成方法。
前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項２０記載の新規事例生成方法。
前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する
請求項１２記載の新規事例生成方法。
コンピュータに、
抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、
前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算処理と、
前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する新規事例絞込処理とを
実行させるための新規事例生成用プログラム。
コンピュータに、
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させる
請求項２３記載の新規事例生成用プログラム。
コンピュータに、
前記新規事例生成処理で、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
請求項２３又は請求項２４記載の新規事例生成用プログラム。
コンピュータに、
前記新規事例生成処理で、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
請求項２３又は請求項２４記載の新規事例生成用プログラム。
コンピュータに、
前記新規事例生成処理で、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する処理を実行させる
請求項２３から請求項２６のうちのいずれか１項に記載の新規事例生成用プログラム。
コンピュータに、
前記類似度計算処理で、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する処理を実行させる
請求項２３から請求項２７のうちのいずれか１項に記載の新規事例生成用プログラム。
コンピュータに、
前記類似度計算処理で、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
請求項２８記載の新規事例生成用プログラム。
コンピュータに、
前記類似度計算処理で、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
請求項２８記載の新規事例生成用プログラム。
コンピュータに、
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させ、
前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成処理をさらに実行させる
請求項２３記載の新規事例生成用プログラム。
コンピュータに、
前記抽出規則適用処理で、前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する処理を実行させる
請求項３１記載の新規事例生成用プログラム。
コンピュータに、
前記新規事例生成処理で、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する処理を実行させ、
前記新規事例絞込処理で、
前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する処理を実行させる
請求項２３記載の新規事例生成用プログラム。