JPWO2009113289A1 - 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム - Google Patents

新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム Download PDF

Info

Publication number
JPWO2009113289A1
JPWO2009113289A1 JP2010502718A JP2010502718A JPWO2009113289A1 JP WO2009113289 A1 JPWO2009113289 A1 JP WO2009113289A1 JP 2010502718 A JP2010502718 A JP 2010502718A JP 2010502718 A JP2010502718 A JP 2010502718A JP WO2009113289 A1 JPWO2009113289 A1 JP WO2009113289A1
Authority
JP
Japan
Prior art keywords
case
new
context
new case
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010502718A
Other languages
English (en)
Other versions
JP5447368B2 (ja
Inventor
剛巨 河合
剛巨 河合
安藤 真一
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010502718A priority Critical patent/JP5447368B2/ja
Publication of JPWO2009113289A1 publication Critical patent/JPWO2009113289A1/ja
Application granted granted Critical
Publication of JP5447368B2 publication Critical patent/JP5447368B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Abstract

【課題】抽出したい情報の事例と同種の新規事例を精度良く生成できるようにする。【解決手段】本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算手段と、前記類似度計算手段が計算した類似度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。

Description

本発明は、新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムに関し、特に入力された事例に基づいて当該事例と同種の新たな事例を生成することができる 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムに関する。
抽出したい情報の事例の入力に基づいて、当該事例を抽出するための情報抽出規則を作成し、作成した情報抽出規則を抽出対象の文書に適用して当該事例と同種の情報を抽出結果として抽出する情報抽出装置がある。この種の情報抽出装置においては、一般に、適切な事例を多く入力できれば、作成する情報抽出規則の質を高めることができ、情報抽出装置が情報を抽出する抽出精度を向上させることができる。そこで、情報抽出装置によって得られた抽出結果を新たな事例として用いることを繰り返し、情報抽出規則の質を高めていくブートストラップ手法が提案されている。
しかし、この種のブートストラップ手法を用いる場合、情報抽出装置による抽出結果に誤りが含まれる場合には、この誤った抽出結果に基づいて情報抽出規則を作成すると却って情報抽出規則の精度が低下するという問題がある。
上記のような問題を解決するために、個々の抽出結果に対してその抽出結果が真に抽出したい情報であるという確からしさを表す確信度等のスコアを計算しておき、スコアの低い抽出結果を取り除くことによって、情報抽出規則の精度低下を防止する技術が各種提案されている。例えば、このような情報抽出規則の精度低下を防止する技術に関する情報抽出装置の一例が、特許文献1に記載されている。この特許文献1に記載された情報抽出装置では、抽出結果の精度を高めるために、情報抽出規則の精度に関する評価尺度を考慮して各抽出結果に対して抽出したい情報の確からしさを示すスコアを算出している。そして、スコアの低い抽出結果を取り除くようにすることによって、抽出結果の精度低下を防止している。
また、事例抽出に関連するスコアリングを行う関連技術として、例えば、特許文献2には、検索処理で検索された事例に対して、入力した語句の含み度合いに応じてスコアリングを行い、スコアの高い順に事例の並べ替えを行う事例ベース推論方法が記載されている。
特開2005−322120号公報 特開2000−137615号公報
しかしながら、網羅性の高い情報抽出規則を作成することを目的とすると、情報抽出装置が抽出した抽出結果を新たな事例として用いるだけでは、不十分であるという問題がある。すなわち、情報抽出装置が抽出する抽出結果は、あらかじめ与えられた事例に基づいて作成された情報抽出規則によって抽出された情報にすぎない。そのため、新たな事例として用いても抽出できる情報が偏るために情報抽出規則の網羅性を高めるには限界がある。
また、情報抽出規則の網羅性を高めることを目的として、情報抽出規則によって抽出されない情報を新規事例として用いるようにすることも可能である。しかし、特許文献1や特許文献2に記載されたような関連技術では、この種の新規事例に対して、情報の確からしさを示すスコアを計算することができない。そのため、新規事例に誤りが混入する可能性があるという問題がある。
そこで、本発明は、抽出したい情報の事例に基づいて、抽出したい情報の事例と同種の新規事例を精度良く生成することができる新規事例を精度良く生成することができる新規事例生成装置、新規事例生成方法及び新規事例生成用プログラムを提供することを目的とする。
本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。
本発明による新規事例生成方法は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、事例文脈と新規事例文脈との間の類似度を計算し、計算した類似度に基づいて、生成した新規事例を絞込み出力することを特徴とする。
本発明による新規事例生成用プログラムは、コンピュータに、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算処理と、計算した類似度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるためのものである。
本発明によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
本発明による新規事例生成装置の構成の一例を示すブロック図である。 新規事例生成装置が入力した事例と同種の新規事例を生成する処理の一例を示すフローチャートである。 第2の実施形態における新規事例生成装置の構成例を示すブロック図である。 第2の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。 第3の実施形態における新規事例生成装置の構成例を示すブロック図である。 第3の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。 文書データの一例を示す説明図である。 事例と事例文脈とのデータの一例を示す説明図である。 新規事例と新規事例文脈とのデータの一例を示す説明図である。 新規事例の絞り込み結果の出力の一例を示す説明図である。 新規事例生成装置の最小の構成例を示す構成図である。
符号の説明
11,11A データ入力部
12 新規事例生成部
13 類似度計算部
14,14A 新規事例絞込部
15 抽出規則適用部
16 抽出規則生成部
実施形態1.
以下、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による新規事例生成装置の構成の一例を示すブロック図である。図1に示すように、新規事例生成装置は、データ入力部11、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。
本実施形態では、データ入力部11は、抽出したい情報である事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力する。新規事例生成部12は、入力した事例に基づく条件に従って文書データから新たな事例の候補となる情報を新規事例として抽出し、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈を生成する。類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算する。新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて新規事例を絞り込み出力する。あるいは、類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算し、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込み出力する。
なお、本実施形態において、新規事例生成装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
図1に示す各処理部は、それぞれ概略以下のように動作する。
データ入力部11は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。データ入力部11は、抽出したい情報である事例を含む周辺のテキストデータである事例文脈を入力として受け付ける機能を備える。
例えば、データ入力部11は、ユーザの操作に従って、抽出したい事例(例えば、著名な政治家名や著名な事件名)を、キーボードやマウス等の入力装置から入力する。すると、データ入力部11は、入力した事例を含む事例文脈を、予め文書データベースに蓄積しておいた文書データから抽出し入力する。
新規事例生成部12は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。新規事例生成部12は、データ入力部11が入力した事例に基づく条件に従って、文書データから新たな事例の候補となる情報を新規事例として抽出する機能を備える。また、新規事例生成部12は、抽出した新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈を生成する機能を備える。
なお、新規事例生成部12は、例えば、事例に該当する文字列と同一の文字列を有し、かつ当該事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する。また、新規事例生成部12は、例えば、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ当該形態素列の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成してもよい。さらに、新規事例生成部12は、例えば、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成してもよい。
類似度計算部13は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似度計算部13は、データ入力部11が入力した事例文脈と、新規事例生成部12が生成した新規事例文脈との間のトピックの類似度を計算する機能を備える。あるいは、類似度計算部13は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する機能を備えてもよい。
新規事例絞込部14は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて、新規事例生成部12が生成した新規事例を絞り込む機能を備える。あるいは、新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて、新規事例生成部12が生成した新規事例を絞り込む機能を備える。また、新規事例絞込部14は、絞り込んだ新規事例を出力する機能を備える。この場合、例えば、新規事例絞込部14は、絞り込んだ新規事例を、ディスプレイ装置等の表示装置に表示させる。
なお、本実施形態において、新規事例生成装置の記憶装置(図示せず)は、入力した事例と同種の新規事例を生成するための各種プログラムを記憶している。例えば、新規事例生成装置の記憶装置は、コンピュータに、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度や、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する類似度計算処理と、計算した類似度やパターン異なり度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるための新規事例生成用プログラムを記憶している。
次に、動作について説明する。図2は、新規事例生成装置が入力した事例と同種の新規事例を生成する処理の一例を示すフローチャートである。まず、データ入力部11は、抽出したい情報である事例を含む周辺のテキストデータである事例文脈を入力として受け付ける(図2に示すステップA1)。例えば、データ入力部11は、ユーザによって事例の入力操作が行われると、抽出対象の事例を入力し、ステップA1以降の新規事例生成処理を開始する。
次に、新規事例生成部12は、データ入力部11が入力した事例に基づいて、事例文脈を抽出するための条件を設定する。また、新規事例生成部12は、設定した条件に従って、文書データ(例えば、予め文書データベースに蓄積する文書データ)から新たな事例の候補となる情報を新規事例として抽出する。そして、新規事例生成部12は、抽出した新規事例の周辺のテキストデータと事例文脈を比較して事例文脈とは異なる場合に当該新規事例を採用し、さらに当該新規事例の周辺のテキストデータから新規事例文脈を生成する(ステップA2)。ここで生成した新規事例は、事例文脈とは異なる文脈を新規事例文脈として有するため、当該新規事例と新規事例文脈を情報抽出規則の生成に用いることで、入力の事例からは得られない新たな情報抽出規則を生成することができる。また、新規事例の周辺のテキストデータと事例文脈が同一の場合には、新規事例として採用しても情報抽出規則の網羅性を高めることはできないため、新規事例としては採用せずに破棄する。
次に、類似度計算部13は、データ入力部11が入力した事例文脈と、新規事例生成部12が生成した新規事例文脈との間の類似度を計算する(ステップA3)。あるいは、類似度計算部13は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。
次に、新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて新規事例を絞り込む。あるいは、新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込む。そして、新規事例絞込部14は、絞り込んだ新規事例を出力する(ステップA4)。例えば、新規事例絞込部14は、絞り込んだ新規事例を新規事例文脈とともに表示装置に表示させる。
なお、ステップA4において、新規事例絞込部14は、絞込方法として、例えば、類似度が高い順に新規事例文脈を並べて、上位から所定数の新規事例文脈を絞り込み結果として抽出してもよい。また、新規事例絞込部14は、例えば、類似度が所定値を上回る新規事例文脈に含まれる新規事例を、絞り込み結果として抽出してもよい。あるいは、新規事例絞込部14は、絞込方法として、例えば、類似度が高く、かつパターン異なり度が高い順に新規事例分脈を並べて、上位から所定数の新規事例文脈を絞り込み結果として抽出してもよい。
以上のように、本実施形態によれば、新規事例生成装置は、抽出したい情報の事例に基づいて、新たな事例の候補となる新規事例を生成し、事例文脈とは異なる新規事例文脈を生成する。また、新規事例生成装置は、事例文脈と生成した新規事例文脈との間の類似度を計算する。あるいは、新規事例生成装置は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似度または、類似度およびパターン異なり度に基づいて新規事例を絞り込む。そのように構成されているので、抽出したい情報の事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。また、情報抽出規則の網羅性を高めることができる新規事例を精度良く出力することができる。従って、抽出したい情報の事例に基づいて、情報抽出規則の網羅性を高めることができる新規事例を精度良く生成することができる。
つまり、本実施形態では、事例文脈と新規事例文脈との間の類似度を計算することによって、事例文脈と新規事例文脈との間の文脈が似通っているか否かをを計算している。そして、文脈が似ている場合にはその新規事例を含む新規事例文脈の類似度が高いので、類似度の高い新規事例文脈に含まれる新規事例に絞り込むことで、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。あるいは、本実施形態では、事例文脈と新規事例文脈との間の類似度を計算し、さらに事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算することによって、事例文脈と新規事例文脈との間の文脈が似通っているか否かをを計算し、かつ、新規事例が事例とは異なる出現傾向を有するかどうかを計算している。そして、文脈が似ていて出現傾向が異なる場合には、その新規事例を含む新規事例文脈の類似度が高く、パターン異なり度が高いので、類似度およびパターン異なり度が高い新規事例文脈に含まれる新規事例に絞り込むことで、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。
例えば、入力事例として「ブッシュ大統領訪日」とうい事例を入力した場合を考える。この場合、新規事例生成装置は、新規事例の候補として「ブッシュ夫人」や「ブッシュドノエル」等の事例を生成する。次いで、新規事例生成装置は、それら「ブッシュ夫人」や「ブッシュドノエル」が含まれる新規事例文脈と、「ブッシュ大統領訪日」が含まれる事例文脈との間の類似度を求める。そして、新規事例生成装置は、類似度の高さから新規事例を「ブッシュ夫人」に絞り込んで抽出し出力する。
上記に示したように、本実施形態によれば、単に事例同士を比較するのではなく、事例が含まれる前後の文脈を比較して新規事例を絞り込んで抽出するので、入力事例に関連した新規事例を精度良く生成して出力することができる。例えば、上記に示す事例では、「ブッシュ大統領訪日」や「ブッシュ夫人」が含まれる前後の文脈には政治に関連する単語が多く含まれていると考えられるのに対し、「ブッシュドノエル」が含まれる前後の文脈ではケーキやクリスマスに関連する単語が含まれ政治に関連する単語は皆無であるものと考えられる。従って、文脈間の類似度を比較することにより、関連性の低い「ブッシュドノエル」を新規事例から除くことができ、入力事例に関連した新規事例を精度良く生成して出力することができる。
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図3は、第2の実施形態における新規事例生成装置の構成例を示すブロック図である。図3に示すように、新規事例生成装置は、データ入力部11A、抽出規則適用部15、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。
図3に示すように、本実施形態では、新規事例生成装置が、図1に示した構成要素に加えて抽出規則適用部15を含む点で、第1の実施形態と異なる。また、本実施形態では、データ入力部11Aの機能が、第1の実施形態で示したデータ入力部11の機能と異なる。
データ入力部11Aは、情報抽出規則を入力する。抽出規則適用部15は、情報抽出規則を文書データに適用して得られる抽出結果から、事例と事例を含む周辺のテキストデータである事例文脈とを得る。新規事例生成部12は、取得した事例に基づく条件に従って文書データから新たな事例の候補となる情報を新規事例として抽出し、当該新規事例の周辺のテキストデータであって、前記事例文脈とは異なる新規事例文脈を生成する。類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算する。新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて新規事例を絞り込み出力する。あるいは、類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算し、さらに事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込み出力する。
図3に示す各処理部は、それぞれ概略以下のように動作する。
データ入力部11Aは、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。データ入力部11Aは、抽出対象の事例を抽出するための規則である情報抽出規則を入力として受け付ける機能を備える。
抽出規則適用部15は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。抽出規則適用部15は、データ入力部11が入力した情報抽出規則を文書データに適用して事例を抽出する機能を備える。また、抽出規則適用部15は、抽出結果(事例)に基づいて、事例を含む周辺のテキストデータである事例文脈を取得する機能を備える。
例えば、抽出規則適用部15は、予め文書データベースに蓄積する文書データから情報抽出規則に合致する事例を抽出する。そして、抽出した事例を含む事例文脈を文書データベースに蓄積する文書データから抽出する。
新規事例生成部12は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。新規事例生成部12は、抽出規則適用部15が生成した事例に基づく条件に従って、文書データから新たな事例の候補となる情報を新規事例として抽出する機能を備える。また、新規事例生成部12は、抽出した新規事例を含む周辺のテキストデータであって、前記事例文脈とは異なる新規事例文脈を生成する機能を備える。
類似度計算部13は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似度計算部13は、抽出規則適用部15が抽出した事例文脈と、新規事例生成部12が生成した新規事例文脈との間のトピックの類似度を計算する機能を備える。あるいは、類似度計算部13は、前記類似度を計算する機能を備え、さらに、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する機能を備える。
新規事例絞込部14は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて、新規事例生成部12が生成した新規事例を絞り込む機能を備える。あるいは、新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて、新規事例生成部12が生成した新規事例を絞り込む機能を備える。また、新規事例絞込部14は、絞り込んだ新規事例を出力する機能を備える。この場合、例えば、新規事例絞込部14は、絞り込んだ新規事例を、ディスプレイ装置等の表示装置に表示させる。
次に、動作について説明する。図4は、第2の実施形態における新規事例生成装置が入力した情報抽出規則による抽出結果と同種の新規事例を生成する処理例を示すフローチャートである。まず、データ入力部11Aは、抽出したい情報を抽出するための情報抽出規則を入力として受け付ける(図4に示すステップB1)。例えば、データ入力部11Aは、ユーザによって情報抽出規則の入力操作が行われると、情報抽出規則を入力し、ステップB1以降の新規事例生成処理を開始する。
次に、抽出規則適用部15は、データ入力部11Aが入力された情報抽出規則を文書データに対して適用し、抽出対象の事例を抽出する。また、抽出規則適用部15は、得られた抽出結果を事例として、その事例を含む周辺のテキストデータである事例文脈を抽出する(ステップB2)。
次に、新規事例生成部12は、抽出規則適用部15が抽出した抽出結果を事例とし、当該事例に基づいて、事例文脈を抽出するための条件を設定する。また、新規事例生成部12は、設定した条件に従って、文書データ(例えば、予め文書データベースに蓄積しておいた文書データ)から新たな事例の候補となる情報を新規事例として抽出する。そして、新規事例生成部12は、抽出した新規事例の周辺のテキストデータと事例文脈を比較して事例文脈とは異なる場合に当該新規事例を採用し、さらに当該新規事例の周辺のテキストデータから新規事例文脈とする(ステップB3)。
次に、類似度計算部13は、抽出規則適用部15が抽出した事例文脈と、新規事例生成部12が生成した新規事例文脈との間の類似度を計算する(ステップB4)。あるいは、類似度計算部13は、前記類似度の他に、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。
なお、抽出規則適用部15は、抽出した事例文脈を事例記憶部(例えば、RAMに形成されたバッファ)に記憶させてもよい。また、新規事例生成部12は、生成した新規事例文脈を新規事例記憶部(例えば、RAMに形成されたバッファ)に記憶させてもよい。そして、ステップB4において、類似度計算部13は、事例記憶部が記憶する事例文脈と、新規事例記憶部が記憶する新規事例文脈と、文書記憶部(例えば、RAMに形成されたバッファ)が予め記憶する文書データとを参照して、類似度やパターン異なり度を計算してもよい。
次に、新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて新規事例を絞り込む。あるいは、新規事例絞込部14は、類似度計算部13が計算した類似度およびパターン異なり度に基づいて新規事例を絞り込む。そして、新規事例絞込部14は、絞り込んだ新規事例を抽出結果として出力する(ステップB5)。例えば、新規事例絞込部14は、絞り込んだ新規事例を表示装置に表示させる。
以上のように、本実施形態によれば、新規事例生成装置は、情報抽出規則を文書に適用し抽出した情報から事例文脈を抽出する。また、新規事例生成装置は、事例に基づいて前記事例文脈とは異なる新規事例文脈を生成し、事例文脈と新規事例文脈との間のトピックの類似度や、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似度の高い文脈を有する新規事例に絞り込む。あるいは、類似度およびパターン異なり度が高い分脈を有する新規事例に絞り込む。そのように構成されているので、入力の情報抽出規則に従って抽出される情報と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。また、本実施の形態によれば、入力の情報抽出規則では抽出できないが、当該情報抽出規則で抽出を意図した情報が新規事例として獲得可能となる。
実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。図5は、第3の実施形態における新規事例生成装置の構成例を示すブロック図である。図5に示すように、本実施形態では、新規事例生成装置が、図3に示した構成要素に加えて抽出規則生成部16を含む点で、第2の実施形態と異なる。また、本実施形態では、新規事例絞込部14Aの機能が、第2の実施形態で示した新規事例絞込部14の機能と異なる。
新規事例絞込部14Aは、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。新規事例絞込部14Aは、類似度計算部13が計算した類似度あるいは、類似度およびパターン異なり度に基づいて、新規事例生成部12が生成した新規事例を絞り込む機能を備える。また、新規事例絞込部14Aは、絞り込んだ新規事例を出力する機能を備える。この場合、例えば、新規事例絞込部14Aは、絞り込んだ新規事例を、ディスプレイ装置等の表示装置に表示させる。
また、新規事例絞込部14Aは、新規事例の絞り込み結果を抽出規則生成部16に渡す(出力する)機能を備える。
抽出規則生成部16は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。抽出規則生成部16は、新規事例絞込部14Aによって絞り込まれた新規事例を抽出するための情報抽出規則を生成する機能を備える。また、抽出規則生成部16は、生成した情報抽出規則を出力する機能を備える。この場合、例えば、抽出規則生成部16は、生成した情報抽出規則を、ディスプレイ装置等の表示装置に表示させる。また、抽出規則生成部16は、生成した情報抽出規則をデータ入力部11に渡す(出力する)ようにし、次の情報抽出規則の入力として用いられるようにしてもよい。
なお、データ入力部11A、抽出規則適用部15、新規事例生成部12、及び類似度計算部13の機能は、第2の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図6は、第3の実施形態における新規事例生成装置が入力した事例と同種の新規事例を生成する処理例を示すフローチャートである。なお、図6におけるステップC1〜C4で示されるデータ入力部11A、抽出規則適用部15、新規事例生成部12、及び類似度計算部13が行う動作は、図4におけるステップB1〜B4で示されるデータ入力部11A、抽出規則適用部15、新規事例生成部12、及び類似度計算部13が行う動作と同様であるので、説明を省略する。
第2の実施形態では、新規事例絞込部14が、ステップB5において、類似度計算部13が計算した類似度あるいは類似度およびパターン異なり度に基づいて、新規事例の絞り込み結果を出力する場合を示した。これに対して、本実施形態では、新規事例絞込部14Aは、新規事例の絞り込み結果を出力するだけでなく、抽出規則生成部16に渡す(図6に示すステップC5)。なお、この場合、新規事例絞込部14Aは、抽出規則生成部16が実行する情報抽出規則の生成の精度を高めるために、絞り込んだ新規事例だけでなく、絞り込みによって排除された新規事例や、絞り込みの判定に用いた類似度等の情報も合わせて渡す(出力する)ようにしてもよい。例えば、抽出規則生成部で、絞り込みによって排除された新規事例を負例として用いることや、類似度あるいは類似度およびパターン異なり度の高い文脈を有する新規事例を優先して多く抽出するように用いることにより、情報抽出規則の精度を高めることができる。
次に、抽出規則生成部16は、新規事例絞込部14Aによる抽出結果(絞り込んだ新規事例)を抽出するための情報抽出規則を生成する。そして、抽出規則生成部16は、生成した情報抽出規則を出力する(ステップC6)。例えば、抽出規則生成部16は、生成した情報抽出規則を表示装置に表示させる。
ここで、ステップC6で情報抽出規則を出力して処理を終了してもよいが、新規事例生成装置は、情報抽出規則の質を高めるために、さらに、ブートストラップ手法により以下のステップの処理を行う。
抽出規則生成部16は、終了条件を満たすかを判定する(ステップC7)。終了条件を満たす場合には、そのまま終了とする。終了条件を満たさない場合は、抽出規則生成部16は、生成した情報抽出規則をデータ入力部11Aに渡す(出力する)。そして、データ入力部11Aは、抽出規則生成部16からの情報抽出規則を、次の入力として用いる。
ステップC7における終了条件の判定の仕方としては、例えば、抽出規則生成部16は、情報抽出規則が生成されたか否かを判定し、生成されない場合を終了とし、生成されている間には処理を継続するようにしてもよい。また、終了条件の判定の仕方として、例えば、抽出規則生成部16は、ステップC1〜C7の処理を繰返すサイクル数を予め設定しておき、設定したサイクル数に達した場合に終了とするようにしてもよい。また、例えば、抽出規則生成部16は、予め生成する情報抽出規則数を設定しておき、生成した情報抽出規則数を累計し、設定した情報抽出規則数に達した場合に終了とするようにしてもよい。ただし、終了条件の判定方法は、本実施形態に示した方法に限定されず、抽出規則生成部16は、他の方法を用いて終了条件を判定してもよい。
以上のように、本実施形態によれば、新規事例生成装置は、新規事例絞込部14Aの抽出結果を用いて抽出規則生成部16が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。
なお、第1から第3の実施形態で示したデータ入力部、抽出規則適用部、新規事例生成部、類似度計算部、新規事例絞込部、抽出規則生成部は、それぞれ別々のユニットとして実現されていてもよい。
次に、本発明の第1の実施例について図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第1の実施形態に示した新規事例生成装置に対応するものである。
本実施例では、新規事例生成装置は、コンピュータによって実現される。具体的には、コンピュータは、パーソナルコンピュータやワークステーション等のデータ処理装置である。また、コンピュータは、キーボード等の入力装置と接続され入力装置の操作信号をCPUに出力するための入力インタフェース部、ROM(Read Only Memory)、RAM(Random Access Memory)、ディスプレイ装置等の出力装置と接続するための出力インタフェース部、ハードディスク装置(HD:Hard Disk )及びCPU(Central Processing Unit )等の既知の構成部を備えている。
ROMは、新規事例生成装置の各部の基本制御を司るプログラムを格納している。なお、当該プログラムは、外部記憶装置に格納されていてもよい。また、RAMは、CPUのワークエリアとして用いられ、CPUにより実行されるプログラムや、各種データを一時的に格納する。
ROM内のプログラムは、RAMに読み込まれ、CPUは、RAMに読み込んだプログラムの制御に従って動作する。そのように動作することにより、CPUは、データ入力部11、新規事例生成部12、類似度計算部13、新規事例絞込部14等の各処理部として機能する。また、CPUは、RAM内に文書データを格納する文書記憶部、事例文脈を格納する事例記憶部、及び新規事例文脈を格納する新規事例記憶部をバッファとして生成する。
HDは、オペレーティングシステム等のコンピュータを制御するための各種ソフトウエアを格納している。また、文書データを事前にHDに格納しておき、動作時に適宜RAM内に必要な文書をHDから読み込む構成としてもよい。
図7は、文書データの一例を示す説明図である。図7に示す文書データは、外部記憶装置等から読み込まれ文書記憶部に格納される。図7に示すように、文書記憶部は、文書データを識別するための識別子である文書IDと、文書の実体であるテキストデータとを対応付けた形式で格納している。本実施例では、例えば、図7に示すように、文書記憶部は、文書ID「DOC1」に対応付けて、文書内容が「○○党の○△×議員が△△と発言した。」という文を含む複数の文からなる文書テキストデータを格納しているとする。
なお、文書テキストデータは、HTMLファイルや電子メール、ワードプロセッサ文書等の電子ファイルであってもよい。この場合、CPUは、これらの電子ファイルから予めテキストデータのみを抽出して格納しておくか、テキストデータとその他の情報とを識別可能な形式で保存しておけばよい。
また、文書記憶部は、文書内容として文単位に分けた形式の情報を格納してもよい。また、文書記憶部は、テキストデータに加えて、当該テキストデータを形態素解析や構文解析等の言語解析処理により解析処理を行った後の解析結果を、テキストデータと対応付けて格納しておいてもよい。
プログラムの実行を開始すると、CPUは、データ入力部11として機能し、図8に示す情報を入力として受け付ける。なお、図8は、事例と事例文脈とのデータの一例を示しており、CPUは、図8に示す情報を入力して事例記憶部に格納させる。
図8に示すように、CPUは、事例を識別するための識別子である事例IDと、当該事例を含む事例文脈の実体である事例文脈テキストデータと、当該事例文脈テキストデータ中における事例の該当箇所を示す位置情報と、事例の種別とを対応付けた形式で事例記憶部に格納させる。さらに、図8に示すように、CPUは、事例に該当するテキストデータ中の箇所である事例内容も対応付けて事例記憶部に格納させてもよい。
位置情報は、事例として抽出したい情報の該当箇所を示し、事例文脈テキストデータ中におけるオフセット情報によって示す形式等で表すことができる。例えば、抽出したい情報の長さが分かっていれば、位置情報は、事例文脈テキストデータ中におけるオフセット情報のみでよい。また、位置情報は、事例文脈テキストデータ中における先端及び終端それぞれのオフセット情報からなる形式で示してもよい。又、例えば、位置情報は、事例文脈テキストデータ中において抽出したい情報の先頭のオフセット情報と長さ情報とを明示する形式で示してもよい。さらに、位置情報を用いる代わりに、事例文脈テキストデータ中に事例を示すタグを付与して、事例箇所を識別できるように格納してもよい。なお、事例記憶部に格納させる位置情報の形式は、本実施例で示した格納形式に限定されない。
本実施例では、例えば、図8に示すように、CPUは、事例に対応付けて事例文脈を格納させるとする。図8に示す例では、事例ID「EX1」に対応する事例文脈において、位置情報「4、3」に基づいて、事例文脈テキストデータ中において、文脈先頭を0として4文字目から始まり、かつ長さ3文字で指定される箇所に事例内容が位置していることが分かる。なお、位置情報中の長さ情報は、事例内容から判明するものであれば無くてもよい。
図8に示す例では、事例IDがID「EX1」である事例は、事例内容が「○△×」である文字列を有し、その事例の種別が「政治家名」として指定されていることが分かる。なお、本実施例では、図8に示す事例文脈テキストデータを事例記憶部が直接格納する場合を示しているが、事例文脈テキストデータに代えて、文書記憶部の中の文書や、当該文書中の段落等の一部分のテキストデータを指定する情報を格納してもよい。
続いて、CPUは、新規事例生成部12として機能し、図8に示す各事例に基づく条件を設定する。また、CPUは、設定した条件に従って、文書記憶部に格納された図7に示す複数の文書から新たな事例の候補となる情報を新規事例として抽出する。そして、CPUは、抽出した新規事例を含む周辺のテキストデータを用いて新規事例文脈を生成し、生成した新規事例文脈を新規事例記憶部に格納させる。
なお、CPUは、新規事例文脈の生成に用いるテキストデータとして、事例文脈とは異なるテキストデータを用いて新規事例文脈を生成する。例えば、CPUは、新規事例の該当箇所周辺の文字列や形態素が異なることや、新規事例の該当箇所を含む文が異なること等により判断できる。
図9は、新規事例と新規事例文脈とのデータの一例を示す説明図である。図9に示すように、CPUは、新規事例を識別するための識別子である新規事例IDと、当該新規事例を含む新規事例文脈の実体である新規事例文脈テキストデータと、当該新規事例文脈テキストデータ中の新規事例の該当箇所を示す位置情報と、新規事例の種別とを対応付けた形式で新規事例記憶部に格納させる。さらに、図9に示すように、CPUは、新規事例に該当するテキストデータ中の箇所である新規事例内容も対応付けて新規事例記憶部に格納させてもよい。なお、新規事例の種別は、事例の種別と同じものとすればよい。
CPUは、事例に基づく条件として、例えば、事例内容と同一の文字列を有する情報を用いればよい。具体的には、図8に示す事例IDが「EX1」に対応する事例を基にして生成した場合、CPUは、当該事例IDに対応する事例内容である「○△×」の文字列を含む箇所を抽出して新規事例とする。そして、CPUは、当該新規事例を含む周辺のテキストデータを新規事例文脈とする。なお、CPUは、当該新規事例を含む文書全体を新規事例文脈としてもよい。
また、CPUは、事例に基づく条件として、事例内容の形態素列の情報を用いてもよい。例えば、CPUは、事例文脈テキストデータの形態素解析結果から事例内容に該当する形態素列を取り出す。次いで、CPUは、当該形態素列の各形態素の素性のうち、原型や品詞、シソーラス情報等の素性値の所定の組合せパターンと同じ組合せパターンの素性値を有する形態素列を有することを条件として、文書データの中から該当する箇所を新規事例として抽出する。例えば、「ブッシュ大統領」という文字列を有する事例から、「ブッシュ」と「大統領」という2つの形態素が得られたとき、1つ目の形態素の品詞の素性値が「名詞」であり、それに後続する2つ目の形態素のシソーラス情報の素性値が「役職」であるという形態素列のパターンが得られる。このようなパターンを用いて、新規事例を抽出することが可能である。そして、CPUは、抽出した新規事例を含む文書を新規事例文脈として生成すればよい。
また、CPUは、新規事例文脈の生成方法として、新規事例の該当箇所の周辺のテキストデータを所定の方法で抽出することにより、新規事例文脈を生成する方法を用いてもよい。例えば、CPUは、新規事例の該当箇所から前後に所定数の文字数や、形態素数、文数、段落数等で特定されるテキストデータを新規事例文脈とすればよい。また、例えば、CPUは、新規事例の該当箇所から所定数の文字数や、形態素数、文数、段落数等によりウィンドウ幅を決定し、新規事例の該当箇所を含む当該ウィンドウ幅内のテキストデータを新規事例文脈とすればよい。
また、事例文脈のデータにおいて事例文脈テキストデータを直接格納するのではなく、事例文脈テキストデータに代えて、文書データ中の文書IDを指定する情報を格納する方法で事例文脈を受け付けるようにしてもよい。この場合、新規事例文脈の生成時に同じ箇所を用いても意味がないので、CPUは、事例文脈で指定する文書IDの位置情報で示される箇所とは異なる箇所から新規事例文脈の抽出を行う。
次に、CPUは類似度計算部13として機能し、事例記憶部が記憶する事例文脈と、新規事例記憶部が記憶する新規事例文脈とを参照して、事例文脈と新規事例文脈との間の類似度を計算する。あるいは、CPUは、類似度計算部13として機能し、前記類似度の他に、事例文脈中の部分データと新規事例文脈中の部分データのパターン異なり度を計算する。
なお、文脈間の類似度の計算方法には様々な方法が存在する。CPUは、例えば、文脈ベクトル間のコサイン類似度等を計算することによって、事例文脈と新規事例文脈との間の類似度を算出すればよい。すなわち、CPUは、事例文脈や新規事例文脈のテキストデータから文脈を表現する文脈ベクトルを生成する。そして、CPUは、計算対象の文脈ベクトル間のなす角度のコサイン値を計算して、求めたコサイン値を文脈間の類似度とすればよい。
また、CPUは、文脈ベクトルの生成方法として、例えば、各文脈中のテキストを形態素解析により形態素に分割して自立語等の単語や当該形態素の素性値を抽出しベクトル要素とし、そのベクトル要素に出現頻度やtf・idf値等により重み付けすることによって、文脈ベクトルを生成する方法を用いてもよい。さらに、CPU各文脈中のテキストを構文解析して係り受け関係にある文節の組合せを抽出しベクトル要素として加えてもよい。また、CPUは、例えば、各文脈中のテキストから文字N−gramを抽出しベクトル要素とし、その出現頻度等を重み付けすることによって、文脈ベクトルを生成する方法を用いてもよい。
なお、類似度の計算方法は、例えば、特許第3690216号公報に記載されているように、精度向上のため文脈ベクトル間の類似度の計算方法を工夫した方法を用いて類似度計算してもよく、本実施例で示した類似度の計算方法に限定されない。
また、本実施例では、類似度の計算に際しては、同じ種別を有する事例及び新規事例に限定し、それぞれの文脈の間で計算を行うのが望ましい。その理由は、異なる種別の事例と新規事例とを含む文脈間には関連性が低いためである。
また、CPUは、類似度の計算に際して、計算の対象とする文脈群を、ある事例文脈と、当該事例を基に生成された全ての新規事例文脈とから構成される文脈群として、類似度を計算してもよい。その理由は、同一の事例から生成された新規事例に限定するため、不要な文脈を除いて計算でき、精度向上を図ることができるためである。
例えば、CPUは、上記のようにして限定した文書群においてベクトル空間を構成し、文脈ベクトルを形成すればよい。そのようにすることによって、例えば、重みに用いるidf値が不適切に高く設定されることを抑制でき、文脈間のコサイン類似度の精度向上が期待できる。また、例えば、CPUは、類似度の計算に際して、ある同一の事例を基にして生成された新規事例それぞれの文脈ベクトルには高い重みを与えて、類似度を計算するようにしてもよい。
また、CPUは、類似度の計算に際して、同種の種別の複数の事例がある場合に、それらの各事例文脈と、それら各事例から生成された全ての新規事例文脈とから構成される文脈群に限定して類似度を計算してもよい。例えば、CPUは、このようにして限定した文脈群においてベクトル空間を構成し、文脈ベクトルを形成すればよい。その理由は、同種の事例文脈を基にして生成された新規事例文脈は、類似のコンテキストを有する可能性が高いため、ベクトル要素の計数が適切に行えるためである。そのようにすることによって、例えば、重みに用いるidf値を適切に設定でき、計算する類似度の精度向上が期待できる。
また、例えば、CPUは、類似度の計算に際して、同種の種別の複数の事例がある場合に、それらの各事例文脈と、それら各事例から生成された全ての新規事例文脈とから構成される文脈群に限定し、当該文脈群中において、ある新規事例文脈と全ての事例文脈との間でそれぞれ類似度を計算してもよい。この場合、CPUは、それらの類似度の最大値をある新規事例文脈の類似度する方法を用いてもよい。また、例えば、CPUは、ある新規事例文脈に関して、それらの類似度を掛け合わせた値(乗算値)を、当該新規事例文脈の類似度としてもよい。
なお、事例文脈中の部分データと新規事例文脈中の部分データとの間のパターン異なり度の計算方法には様々な方法が存在する。CPUは、例えば、事例文脈中の部分データと新規事例文脈中の部分データとの間の編集距離を用いることができる。
例えば、事例文脈中の部分データを事例文脈中における事例を含む周辺の局所的な文字列とし、新規事例文脈中の部分データを新規事例中における新規事例を含む周辺の局所的な文字列とした時、それぞの文字列の間の編集距離を用いることができる。局所的な文字列とは、各文脈の長さに比して短い所定の長さである文字列のことである。例えば、事例文脈や新規事例文脈が複数文からなる文から構成されていた場合、各文脈中の各事例に該当する文字列の前後5文字以内とすればよい。あるいは、各事例を含む文において、各事例に該当する文字列の前後5文字以内とするなど、同一文中などの制限を加えてもよい。
また、例えば、事例文脈中の部分データを事例文脈中における事例を含む周辺の局所的な形態素列とし、新規事例文脈中の部分データを新規事例文脈中における新規事例を含む周辺の局所的な形態素列とした時、それぞれの形態素列の間の編集距離を用いることができる。形態素列の間の編集距離は、文字列の間の編集距離と同様に、各形態素に対して、挿入、削除、置換、といった操作を行って同じ形態素列に変更するために要する操作の回数を数えて求めることができる。また、局所的な形態素列とは、各文脈の長さに比して短い所定の長さである形態素列のことである。例えば、事例文脈や新規事例文脈が複数文からなる文から構成されていた場合、各文脈中の各事例に該当する形態素列の前後3形態素以内の形態素列とすればよい。あるいは、各事例を含む文において、各事例に該当する形態素列の前後3形態素以内とするなど、同一文中などの制限を加えてもよい。さらに形態素の各素性を編集の単位に加えてもよい。
また、例えば、事例文脈中の部分データを、事例文脈の構文解析結果における事例を含む部分木とし、新規事例文脈中の部分データを新規事例文脈の構文解析結果における新規事例を含む部分木とした時、それぞれの部分木の間の編集距離を用いることができる。部分木の間の編集距離は、部分木中の各ノードに対して、挿入、削除、置換、といった操作を行って同じ部分木の構造に変更するために要する操作の回数を数えて求めることができる。
最後に、CPUは、新規事例絞込部14として機能し、計算した類似度に基づいて、新規事例を絞り込む。例えば、新規事例文脈毎に類似度が計算されているので、CPUは、類似度が高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。また、CPUは、所定の類似度を上回る新規事例文脈に対応する新規事例を絞り込み、新規事例の絞込結果として出力すればよい。
あるいは、CPUは、新規事例絞込部14として機能し、計算した類似度およびパターン異なり度に基づいて、新規事例を絞り込む。例えば、新規事例文脈毎に類似度およびパターン異なり度が計算されているので、CPUは、類似度およびパターン異なり度が高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。または、計算した類似度にパターン異なり度を掛け合わせた値の高い順に新規事例文脈を並べて、上位から所定数の新規事例を絞り込んでもよい。
なお、CPUは、出力する絞込結果の形式として、例えば、図10で示す形式を用いて出力(例えば、表示装置に表示)すればよい。図10に示す例では、図9に示す新規事例及び新規事例文脈と同様の形式で出力する場合が示されており、絞り込まれた新規事例文脈を抽出結果としている。
また、CPUは、新規事例の抽出結果に、計算した類似度を付加して出力してもよい。例えば、図10に示す例では、図9に示す新規事例内容及び新規事例文脈テキストデータに加えて、絞り込んだ新規事例に対応して計算した類似度も追加して出力する場合が示されている。さらに、図10に加えて、パターン異なり度も追加して出力してもよい。また、例えば、絞り込み処理で排除した新規事例を含む全ての新規事例を出力し、図9に示す新規事例及び新規事例文脈の形式と同様の出力形式に加えて、新規事例毎に採用か否かを示すフラグを付与して出力する出力形式を用いてもよい。
以上のように、本実施例によれば、新規事例生成装置は、入力事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と生成した新規事例文脈との間の類似度を計算する。そして、そのようにすることにより、類似性に基づいて新規事例を絞り込む。そのように構成されているので、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。あるいは、本実施例によれば、新規事例生成装置は、入力事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と生成した新規事例文脈との間の類似度を計算する。さらに、新規事例生成装置は、事例文脈中の部分データと新規事例文脈中の部分データとの間のパターン異なり度を計算する。そして、そのようにすることにより、類似性およびパターン異なり度に基づいて新規事例を絞り込む。そのように構成されているので、事例と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。
次に、本発明の第2の実施例を図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第2の実施形態に示した新規事例生成装置に対応するものである。
本実施例では、新規事例生成装置の構成は、第1の実施例で示した構成と同様である。本実施例では、新規事例生成装置としてコンピュータをプログラムの制御に従って動作させることにより、CPUが抽出規則適用部15としても機能する点で、第1の実施例と異なる。
まず、CPUは、データ入力部11Aとして機能し、特定の情報を抽出するための情報抽出規則を入力として受け付ける。情報抽出規則は、抽出したい情報を含む辞書や、文字列や形態素列、構文部分木等の素性を複数組合せた公知のパターンマッチング規則等で構成すればよい。CPUは、これらの情報を予め情報抽出規則として用意しておき、入力する。
次に、CPUは、抽出規則適用部15として機能し、データ入力部11Aが入力した情報抽出規則を文書記憶部に格納されている文書に適用し情報を抽出する。また、CPUは、抽出した情報を事例とし、当該情報(事例)を含む文書を事例文脈として抽出して、事例記憶部に格納させる。なお、CPUは、格納する事例文脈の形式として、図8で示した事例の格納形式と同様の形式で抽出した事例文脈を格納させる。
なお、情報抽出規則は、本実施例で示したものに限られない。例えば、情報抽出規則の他の例として、情報抽出規則を、事前に抽出したい情報を公知の種々の機械学習手法により学習した結果得られる抽出モデルデータとして準備してもよい。この場合、CPUによって実現される抽出規則適用部15は、その抽出モデルデータを情報抽出規則として用いて、抽出対象の文書に適用することにより抽出結果を抽出するようにしてもよい。
なお、CPUが新規事例生成部12、類似度計算部13、及び新規事例絞込部14として機能する動作は、第1の実施例で示したそれらの動作と同様である。
以上のように、本実施例によれば、新規事例生成装置は、情報抽出規則を文書に適用し抽出した情報から事例文脈を抽出する。また、新規事例生成装置は、事例に基づいて事例文脈とは異なる新規事例文脈を生成し、事例文脈と新規事例文脈との間のトピックの類似度を計算する。そして、そのようにすることにより、類似度の高い新規事例に絞り込む。そのように構成されているので、入力の情報抽出規則に従って抽出される情報と同種で、かつ、事例文脈とは異なる文脈を有する新規事例を精度良く生成することができる。
次に、本発明の第3の実施例を図面を参照して説明する。なお、本実施例に示す新規事例生成装置は、本発明の第3の実施形態に示した新規事例生成装置に対応するものである。
本実施例では、新規事例生成装置の構成は、第2の実施例で示した構成と同様である。本実施例では、新規事例生成装置としてコンピュータをプログラムの制御に従って動作させることにより、CPUが抽出規則生成部16としても機能する点で、第2の実施例と異なる。
まず、CPUは、新規事例絞込部14Aとして機能する際に、RAM等をバッファとして用いて、絞り込んだ新規事例を絞込結果として保存させる。次いで、CPUは、抽出規則生成部16として機能する際に、絞り込み結果をバッファから読み込んで受け取る。なお、CPUは、新規事例の絞り込み結果を外部記憶装置に一旦出力してから読み込む方法を用いてもよい。
続いて、CPUは、抽出規則生成部16として機能し、新規事例絞込部14が絞り込んだ結果である抽出結果を用いて、新たな情報抽出規則を生成する。この場合、CPUは、情報抽出規則の生成方法として、例えば、パターンマッチング規則であれば、絞込結果の新規事例文脈のデータから対応するテキスト及び新規事例及び種別等を得る方法を用いることによって、公知の方法で情報抽出規則を生成できる。
また、CPUは、生成する情報抽出規則の精度を高めるために、新規事例絞込部14は、新規事例の絞り込み時に採用しなかった(絞り込みで排除した)新規事例も抽出規則生成部16に出力するようにしてもよい。そして、抽出規則生成部16は、採用しなかった新規事例を、情報抽出規則生成の際の負例として用いて、情報抽出規則を生成することも可能である。
以上のように、本実施例によれば、新規事例生成装置は、新規事例絞込部14Aの抽出結果を用いて抽出規則生成部16が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。
次に、本発明による新規事例生成装置の最小構成について説明する。図11は、新規事例生成装置の最小の構成例を示す構成図である。図11に示すように、新規事例生成装置は、最小の構成要素として、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。なお、図11に示す新規事例生成装置は、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例を新規事例として生成する。
図11に示す最小構成の新規事例生成装置において、新規事例生成部12は、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する機能を備える。また、類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算する機能を備える。また、新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて、新規事例生成部12が生成した新規事例を絞込み出力する機能を備える。
図11に示す最小構成の新規事例生成装置によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
なお、本実施形態では、以下の(1)〜(22)に示すような新規事例生成装置の特徴的構成が示されている。
(1)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段(例えば、類似度計算部13によって実現される)と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
(2)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
(3)新規事例生成装置において、新規事例生成手段は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
(4)新規事例生成装置において、新規事例生成手段は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
(5)新規事例生成装置において、新規事例生成手段は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。
(6)新規事例生成装置において、類似度計算手段は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。
(7)新規事例生成装置において、類似度計算手段は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
(8)新規事例生成装置において、類似度計算手段は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
(9)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
(10)新規事例生成装置において、抽出規則適用手段は、情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
(11)新規事例生成装置において、類似度計算手段は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算手段が計算した類似度およびパターン異なり度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。
(12)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成部(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算部(例えば、類似度計算部13によって実現される)と、類似度計算部が計算した類似度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
(13)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
(14)新規事例生成装置において、新規事例生成部は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
(15)新規事例生成装置において、新規事例生成部は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
(16)新規事例生成装置において、新規事例生成部は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。
(17)新規事例生成装置において、類似度計算部は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。
(18)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
(19)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
(20)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、新規事例絞込部が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成部(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
(21)新規事例生成装置において、抽出規則適用部は、情報抽出規則生成部が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
(22)新規事例生成装置において、類似度計算部は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算部が計算した類似度およびパターン異なり度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年3月12日に出願された日本特許出願2008−62610を基礎とする優先権を主張し、その開示の全てをここに取り込む。
産業上の利用の可能性
本発明は、入力された事例に基づいて当該事例と同種の新たな事例を生成する情報抽出規則生成装置の用途に適用できる。また、本発明は、情報抽出規則生成装置をコンピュータを用いて実現するためのプログラムの用途に適用できる。また、本発明は、キーワード検索を行う情報検索装置や、自然言語による質問に合致する回答を検索する質問回答検索等を行う質問回答検索装置の用途に適用できる。この場合、本発明による新規事例生成方法を用いることで、キーワードや質問を拡張したクエリ拡張等の応用に用いることができる。また、本発明は、情報検索装置をコンピュータに実現させるためのプログラムや、質問回答検索装置をコンピュータに実現させるためのプログラムの用途にも適用可能である。
【0003】
課題を解決するための手段
[0010]
本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。
[0011]
本発明による新規事例生成方法は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、事例文脈と新規事例文脈との間の類似度を計算し、計算した類似度に基づいて、生成した新規事例を絞込み出力することを特徴とする。
[0012]
本発明による新規事例生成用プログラムは、コンピュータに、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算処理と、計算した類似度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるためのものである。
発明の効果
[0013]
本発明によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
図面の簡単な説明
【0028】
[0114]
続いて、CPUは、抽出規則生成部16として機能し、新規事例絞込部14が絞り込んだ結果である抽出結果を用いて、新たな情報抽出規則を生成する。この場合、CPUは、情報抽出規則の生成方法として、例えば、パターンマッチング規則であれば、絞込結果の新規事例文脈のデータから対応するテキスト及び新規事例及び種別等を得る方法を用いることによって、公知の方法で情報抽出規則を生成できる。
[0115]
また、CPUは、生成する情報抽出規則の精度を高めるために、新規事例絞込部14は、新規事例の絞り込み時に採用しなかった(絞り込みで排除した)新規事例も抽出規則生成部16に出力するようにしてもよい。そして、抽出規則生成部16は、採用しなかった新規事例を、情報抽出規則生成の際の負例として用いて、情報抽出規則を生成することも可能である。
[0116]
以上のように、本実施例によれば、新規事例生成装置は、新規事例絞込部14Aの抽出結果を用いて抽出規則生成部16が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。
[0117]
次に、本発明による新規事例生成装置の最小構成について説明する。図11は、新規事例生成装置の最小の構成例を示す構成図である。図11に示すように、新規事例生成装置は、最小の構成要素として、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。なお、図11に示す新規事例生成装置は、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例を新規事例として生成する。
[0118]
図11に示す最小構成の新規事例生成装置において、新規事例生成部12は、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生
【0029】
成する機能を備える。また、類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算する機能を備える。また、新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて、新規事例生成部12が生成した新規事例を絞込み出力する機能を備える。
[0119]
図11に示す最小構成の新規事例生成装置によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
[0120]
なお、本実施形態では、以下の(1)〜(22)に示すような新規事例生成装置の特徴的構成が示されている。
[0121]
(1)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段(例えば、類似度計算部13によって実現される)と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
[0122]
(2)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
[0123]
(3)新規事例生成装置において、新規事例生成手段は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデ
【0031】
て実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
[0130]
(10)新規事例生成装置において、抽出規則適用手段は、情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
[0131]
(11)新規事例生成装置において、類似度計算手段は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算手段が計算した類似度およびパターン異なり度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。
[0132]
(12)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成部(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算部(例えば、類似度計算部13によって実現される)と、類似度計算部が計算した類似度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
【0032】
[0133]
(13)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
[0134]
(14)新規事例生成装置において、新規事例生成部は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
[0135]
(15)新規事例生成装置において、新規事例生成部は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
[0136]
(16)新規事例生成装置において、新規事例生成部は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。
[0137]
(17)新規事例生成装置において、類似度計算部は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。
[0138]
(18)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事
【0033】
例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
[0139]
(19)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
[0140]
(20)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込部が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成部(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
[0141]
(21)新規事例生成装置において、抽出規則適用部は、情報抽出規則生成部が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
[0142]
(22)新規事例生成装置において、類似度計算部は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算部が計算した類似度およびパターン異なり度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。

Claims (33)

  1. 抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、
    前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算手段と、
    前記類似度計算手段が計算した類似度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段とを
    備えたことを特徴とする新規事例生成装置。
  2. 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
    前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
    請求項1記載の新規事例生成装置。
  3. 前記新規事例生成手段は、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項1又は請求項2記載の新規事例生成装置。
  4. 前記新規事例生成手段は、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項1又は請求項2記載の新規事例生成装置。
  5. 前記新規事例生成手段は、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項1から請求項4のうちのいずれか1項に記載の新規事例生成装置。
  6. 前記類似度計算手段は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項1から請求項5のうちのいずれか1項に記載の新規事例生成装置。
  7. 前記類似度計算手段は、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項6記載の新規事例生成装置。
  8. 前記類似度計算手段は、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項6記載の新規事例生成装置。
  9. 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
    前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
    前記新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段をさらに備えた
    請求項1記載の新規事例生成装置。
  10. 前記抽出規則適用手段は、前記情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項9記載の新規事例生成装置。
  11. 前記類似度計算手段は、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
    前記類似度計算手段が計算した類似度およびパターン異なり度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段を備えた
    請求項1記載の新規事例生成装置。
  12. 抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
    前記事例文脈と前記新規事例文脈との間の類似度を計算し、
    前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する
    ことを特徴とする新規事例生成方法。
  13. 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
    前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
    請求項12記載の新規事例生成方法。
  14. 前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項12又は請求項13記載の新規事例生成方法。
  15. 前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項12又は請求項13記載の新規事例生成方法。
  16. 前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項12から請求項15のうちのいずれか1項に記載の新規事例生成方法。
  17. 事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項12から請求項16のうちのいずれか1項に記載の新規事例生成方法。
  18. 前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項17記載の新規事例生成方法。
  19. 前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項17記載の新規事例生成方法。
  20. 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
    前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
    前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する
    請求項12記載の新規事例生成方法。
  21. 前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項20記載の新規事例生成方法。
  22. 前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
    前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する
    請求項12記載の新規事例生成方法。
  23. コンピュータに、
    抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、
    前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算処理と、
    前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する新規事例絞込処理とを
    実行させるための新規事例生成用プログラム。
  24. コンピュータに、
    特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
    前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させる
    請求項23記載の新規事例生成用プログラム。
  25. コンピュータに、
    前記新規事例生成処理で、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
    請求項23又は請求項24記載の新規事例生成用プログラム。
  26. コンピュータに、
    前記新規事例生成処理で、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
    請求項23又は請求項24記載の新規事例生成用プログラム。
  27. コンピュータに、
    前記新規事例生成処理で、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する処理を実行させる
    請求項23から請求項26のうちのいずれか1項に記載の新規事例生成用プログラム。
  28. コンピュータに、
    前記類似度計算処理で、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する処理を実行させる
    請求項23から請求項27のうちのいずれか1項に記載の新規事例生成用プログラム。
  29. コンピュータに、
    前記類似度計算処理で、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
    請求項28記載の新規事例生成用プログラム。
  30. コンピュータに、
    前記類似度計算処理で、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
    請求項28記載の新規事例生成用プログラム。
  31. コンピュータに、
    特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
    前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させ、
    前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成処理をさらに実行させる
    請求項23記載の新規事例生成用プログラム。
  32. コンピュータに、
    前記抽出規則適用処理で、前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する処理を実行させる
    請求項31記載の新規事例生成用プログラム。
  33. コンピュータに、
    前記新規事例生成処理で、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する処理を実行させ、
    前記新規事例絞込処理で、
    前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する処理を実行させる
    請求項23記載の新規事例生成用プログラム。
JP2010502718A 2008-03-12 2009-03-09 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム Active JP5447368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010502718A JP5447368B2 (ja) 2008-03-12 2009-03-09 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008062610 2008-03-12
JP2008062610 2008-03-12
PCT/JP2009/001046 WO2009113289A1 (ja) 2008-03-12 2009-03-09 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2010502718A JP5447368B2 (ja) 2008-03-12 2009-03-09 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009113289A1 true JPWO2009113289A1 (ja) 2011-07-21
JP5447368B2 JP5447368B2 (ja) 2014-03-19

Family

ID=41064963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502718A Active JP5447368B2 (ja) 2008-03-12 2009-03-09 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Country Status (3)

Country Link
US (1) US20110106849A1 (ja)
JP (1) JP5447368B2 (ja)
WO (1) WO2009113289A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5761033B2 (ja) 2010-02-12 2015-08-12 日本電気株式会社 文書分析装置、文書分析方法、およびプログラム
JP2014199475A (ja) * 2013-03-29 2014-10-23 株式会社エヌ・ティ・ティ・データ 言語表現抽出装置、言語表現抽出方法およびプログラム
JP6433468B2 (ja) * 2016-09-28 2018-12-05 本田技研工業株式会社 プログラム作成支援方法
WO2023175954A1 (ja) * 2022-03-18 2023-09-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133380A1 (en) * 1998-02-19 2002-09-19 Masataka Okayama Portable information terminal surrounding formulation of an optimum plan
JP2001034630A (ja) * 1999-07-22 2001-02-09 Fujitsu Ltd 文書ベース検索システム、およびその方法
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
WO2002063493A1 (en) * 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
JP2003271669A (ja) * 2002-03-15 2003-09-26 Fujitsu Ltd 話題抽出装置
JP4162223B2 (ja) * 2003-05-30 2008-10-08 日本電信電話株式会社 自然文検索装置、その方法及びプログラム
US20050278623A1 (en) * 2004-05-17 2005-12-15 Dehlinger Peter J Code, system, and method for generating documents
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
TW200807263A (en) * 2006-07-19 2008-02-01 Benq Corp Document editing systems and methods
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
US7937389B2 (en) * 2007-11-01 2011-05-03 Ut-Battelle, Llc Dynamic reduction of dimensions of a document vector in a document search and retrieval system
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム

Also Published As

Publication number Publication date
JP5447368B2 (ja) 2014-03-19
US20110106849A1 (en) 2011-05-05
WO2009113289A1 (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4656868B2 (ja) 構造化文書作成装置
JP2011118689A (ja) 検索方法及びシステム
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7131130B2 (ja) 分類方法、装置、及びプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2010122823A (ja) テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP3939264B2 (ja) 形態素解析装置
JP2000339342A (ja) 文書検索方法および文書検索装置
JP2007102723A (ja) 文書検索装置、文書検索方法および文書検索プログラム
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Singh et al. Intelligent Bilingual Data Extraction and Rebuilding Using Data Mining for Big Data
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20100913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5447368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150