JPWO2009113289A1 - 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム - Google Patents
新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム Download PDFInfo
- Publication number
- JPWO2009113289A1 JPWO2009113289A1 JP2010502718A JP2010502718A JPWO2009113289A1 JP WO2009113289 A1 JPWO2009113289 A1 JP WO2009113289A1 JP 2010502718 A JP2010502718 A JP 2010502718A JP 2010502718 A JP2010502718 A JP 2010502718A JP WO2009113289 A1 JPWO2009113289 A1 JP WO2009113289A1
- Authority
- JP
- Japan
- Prior art keywords
- case
- new
- context
- new case
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Abstract
Description
12 新規事例生成部
13 類似度計算部
14,14A 新規事例絞込部
15 抽出規則適用部
16 抽出規則生成部
以下、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による新規事例生成装置の構成の一例を示すブロック図である。図1に示すように、新規事例生成装置は、データ入力部11、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。
次に、本発明の第2の実施形態について図面を参照して説明する。図3は、第2の実施形態における新規事例生成装置の構成例を示すブロック図である。図3に示すように、新規事例生成装置は、データ入力部11A、抽出規則適用部15、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。
次に、本発明の第3の実施形態について図面を参照して説明する。図5は、第3の実施形態における新規事例生成装置の構成例を示すブロック図である。図5に示すように、本実施形態では、新規事例生成装置が、図3に示した構成要素に加えて抽出規則生成部16を含む点で、第2の実施形態と異なる。また、本実施形態では、新規事例絞込部14Aの機能が、第2の実施形態で示した新規事例絞込部14の機能と異なる。
課題を解決するための手段
[0010]
本発明による新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段とを備えたことを特徴とする。
[0011]
本発明による新規事例生成方法は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、事例文脈と新規事例文脈との間の類似度を計算し、計算した類似度に基づいて、生成した新規事例を絞込み出力することを特徴とする。
[0012]
本発明による新規事例生成用プログラムは、コンピュータに、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算処理と、計算した類似度に基づいて、生成した新規事例を絞込み出力する新規事例絞込処理とを実行させるためのものである。
発明の効果
[0013]
本発明によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
図面の簡単な説明
[0114]
続いて、CPUは、抽出規則生成部16として機能し、新規事例絞込部14が絞り込んだ結果である抽出結果を用いて、新たな情報抽出規則を生成する。この場合、CPUは、情報抽出規則の生成方法として、例えば、パターンマッチング規則であれば、絞込結果の新規事例文脈のデータから対応するテキスト及び新規事例及び種別等を得る方法を用いることによって、公知の方法で情報抽出規則を生成できる。
[0115]
また、CPUは、生成する情報抽出規則の精度を高めるために、新規事例絞込部14は、新規事例の絞り込み時に採用しなかった(絞り込みで排除した)新規事例も抽出規則生成部16に出力するようにしてもよい。そして、抽出規則生成部16は、採用しなかった新規事例を、情報抽出規則生成の際の負例として用いて、情報抽出規則を生成することも可能である。
[0116]
以上のように、本実施例によれば、新規事例生成装置は、新規事例絞込部14Aの抽出結果を用いて抽出規則生成部16が新たな情報抽出規則を生成する。そのよう構成されているので、最初に入力した情報抽出規則によって抽出される情報と同種の新たな情報を抽出できるだけでなく、最初に入力した情報抽出規則によって抽出される情報と同種の情報を抽出するための新たな情報抽出規則も獲得できる。
[0117]
次に、本発明による新規事例生成装置の最小構成について説明する。図11は、新規事例生成装置の最小の構成例を示す構成図である。図11に示すように、新規事例生成装置は、最小の構成要素として、新規事例生成部12、類似度計算部13、及び新規事例絞込部14を含む。なお、図11に示す新規事例生成装置は、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例を新規事例として生成する。
[0118]
図11に示す最小構成の新規事例生成装置において、新規事例生成部12は、事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生
成する機能を備える。また、類似度計算部13は、事例文脈と新規事例文脈との間の類似度を計算する機能を備える。また、新規事例絞込部14は、類似度計算部13が計算した類似度に基づいて、新規事例生成部12が生成した新規事例を絞込み出力する機能を備える。
[0119]
図11に示す最小構成の新規事例生成装置によれば、抽出したい情報の事例と同種の新規事例を精度良く生成することができる。
[0120]
なお、本実施形態では、以下の(1)〜(22)に示すような新規事例生成装置の特徴的構成が示されている。
[0121]
(1)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成手段(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算手段(例えば、類似度計算部13によって実現される)と、類似度計算手段が計算した類似度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
[0122]
(2)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
[0123]
(3)新規事例生成装置において、新規事例生成手段は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデ
て実現される)を備え、新規事例生成手段は、抽出規則適用手段が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
[0130]
(10)新規事例生成装置において、抽出規則適用手段は、情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
[0131]
(11)新規事例生成装置において、類似度計算手段は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算手段が計算した類似度およびパターン異なり度に基づいて、新規事例生成手段が生成した新規事例を絞込み出力する新規事例絞込手段(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。
[0132]
(12)新規事例生成装置は、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した事例及び事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成する新規事例生成部(例えば、新規事例生成部12によって実現される)と、事例文脈と新規事例文脈との間の類似度を計算する類似度計算部(例えば、類似度計算部13によって実現される)と、類似度計算部が計算した類似度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)とを備えたことを特徴とする。
[0133]
(13)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成するように構成されていてもよい。
[0134]
(14)新規事例生成装置において、新規事例生成部は、事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
[0135]
(15)新規事例生成装置において、新規事例生成部は、事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成するように構成されていてもよい。
[0136]
(16)新規事例生成装置において、新規事例生成部は、新規事例文脈として、新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成するように構成されていてもよい。
[0137]
(17)新規事例生成装置において、類似度計算部は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、事例文脈と新規事例文脈との間の類似度を計算するように構成されていてもよい。
[0138]
(18)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事
例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
[0139]
(19)新規事例生成装置において、類似度計算部は、ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、事例文脈に対応する事例文脈ベクトルと、新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算するように構成されていてもよい。
[0140]
(20)新規事例生成装置は、特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用部(例えば、抽出規則適用部15によって実現される)を備え、新規事例生成部は、抽出規則適用部が抽出した抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なるテキストデータである新規事例文脈とを、文書データを用いて生成し、新規事例絞込部が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成部(例えば、抽出規則生成部16によって実現される)をさらに備えるように構成されていてもよい。
[0141]
(21)新規事例生成装置において、抽出規則適用部は、情報抽出規則生成部が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した情報抽出規則を用いて文書データから所定の抽出結果を抽出するように構成されていてもよい。
[0142]
(22)新規事例生成装置において、類似度計算部は、事例文脈中の一部分であるデータと新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、類似度計算部が計算した類似度およびパターン異なり度に基づいて、新規事例生成部が生成した新規事例を絞込み出力する新規事例絞込部(例えば、新規事例絞込部14によって実現される)を備えるように構成されていてもよい。
Claims (33)
- 抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成手段と、
前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算手段と、
前記類似度計算手段が計算した類似度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段とを
備えたことを特徴とする新規事例生成装置。 - 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
請求項1記載の新規事例生成装置。 - 前記新規事例生成手段は、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項1又は請求項2記載の新規事例生成装置。
- 前記新規事例生成手段は、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項1又は請求項2記載の新規事例生成装置。
- 前記新規事例生成手段は、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項1から請求項4のうちのいずれか1項に記載の新規事例生成装置。
- 前記類似度計算手段は、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項1から請求項5のうちのいずれか1項に記載の新規事例生成装置。
- 前記類似度計算手段は、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項6記載の新規事例生成装置。
- 前記類似度計算手段は、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項6記載の新規事例生成装置。
- 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用手段を備え、
前記新規事例生成手段は、前記抽出規則適用手段が抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記新規事例絞込手段が出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成手段をさらに備えた
請求項1記載の新規事例生成装置。 - 前記抽出規則適用手段は、前記情報抽出規則生成手段が生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項9記載の新規事例生成装置。
- 前記類似度計算手段は、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
前記類似度計算手段が計算した類似度およびパターン異なり度に基づいて、前記新規事例生成手段が生成した前記新規事例を絞込み出力する新規事例絞込手段を備えた
請求項1記載の新規事例生成装置。 - 抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記事例文脈と前記新規事例文脈との間の類似度を計算し、
前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する
ことを特徴とする新規事例生成方法。 - 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する
請求項12記載の新規事例生成方法。 - 前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項12又は請求項13記載の新規事例生成方法。
- 前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する請求項12又は請求項13記載の新規事例生成方法。
- 前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する請求項12から請求項15のうちのいずれか1項に記載の新規事例生成方法。
- 事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する請求項12から請求項16のうちのいずれか1項に記載の新規事例生成方法。
- 前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項17記載の新規事例生成方法。
- 前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する請求項17記載の新規事例生成方法。
- 特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出し、
前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成し、
前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する
請求項12記載の新規事例生成方法。 - 前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する請求項20記載の新規事例生成方法。
- 前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算し、
前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する
請求項12記載の新規事例生成方法。 - コンピュータに、
抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、入力した前記事例及び前記事例文脈に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する新規事例生成処理と、
前記事例文脈と前記新規事例文脈との間の類似度を計算する類似度計算処理と、
前記計算した類似度に基づいて、前記生成した前記新規事例を絞込み出力する新規事例絞込処理とを
実行させるための新規事例生成用プログラム。 - コンピュータに、
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例に基づいて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させる
請求項23記載の新規事例生成用プログラム。 - コンピュータに、
前記新規事例生成処理で、前記事例に該当する文字列と同一の文字列を有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
請求項23又は請求項24記載の新規事例生成用プログラム。 - コンピュータに、
前記新規事例生成処理で、前記事例に該当する形態素列の所定のパターンと同一の形態素列パターンを有し、かつ前記事例の事例文脈とは異なるテキストデータを新規事例文脈とする新規事例を、文書データを用いて生成する処理を実行させる
請求項23又は請求項24記載の新規事例生成用プログラム。 - コンピュータに、
前記新規事例生成処理で、前記新規事例文脈として、前記新規事例の周辺に存在する所定数の文字列数、形態素数、文数、又は段落数のうちの少なくともいずれかを含むテキストデータを生成する処理を実行させる
請求項23から請求項26のうちのいずれか1項に記載の新規事例生成用プログラム。 - コンピュータに、
前記類似度計算処理で、事例文脈及び新規事例文脈に基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算することによって、前記事例文脈と前記新規事例文脈との間の類似度を計算する処理を実行させる
請求項23から請求項27のうちのいずれか1項に記載の新規事例生成用プログラム。 - コンピュータに、
前記類似度計算処理で、前記ベクトル空間として、ある事例の事例文脈と、当該事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
請求項28記載の新規事例生成用プログラム。 - コンピュータに、
前記類似度計算処理で、前記ベクトル空間として、ある事例種別の事例の事例文脈の集合と、いずれかの事例に基づいて生成した全ての新規事例文脈の集合とに基づいて生成したベクトル空間において、前記事例文脈に対応する事例文脈ベクトルと、前記新規事例文脈に対応する新規事例文脈ベクトルとの間の類似度を計算する処理を実行させる
請求項28記載の新規事例生成用プログラム。 - コンピュータに、
特定の情報を抽出するための情報抽出規則を入力として受け付けて、入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する抽出規則適用処理を実行させ、
前記新規事例生成処理で、前記抽出した前記抽出結果で構成される、抽出したい情報の事例と、当該事例を含む周辺のテキストデータである事例文脈とを入力として受け付けて、当該事例と同種の新たな事例である新規事例と、当該新規事例を含む周辺のテキストデータであって前記事例文脈とは異なる新規事例文脈とを、文書データを用いて生成する処理を実行させ、
前記新規事例の絞り込み結果として出力した新規事例に基づいて、新たな情報抽出規則を生成する情報抽出規則生成処理をさらに実行させる
請求項23記載の新規事例生成用プログラム。 - コンピュータに、
前記抽出規則適用処理で、前記生成した情報抽出規則を新たな入力として受け付けて、新たに入力した前記情報抽出規則を用いて文書データから所定の抽出結果を抽出する処理を実行させる
請求項31記載の新規事例生成用プログラム。 - コンピュータに、
前記新規事例生成処理で、前記事例文脈中の一部分であるデータと前記新規事例文脈中の一部分であるデータとの間のパターン異なり度を計算する処理を実行させ、
前記新規事例絞込処理で、
前記計算した類似度およびパターン異なり度に基づいて、前記生成した前記新規事例を絞込み出力する処理を実行させる
請求項23記載の新規事例生成用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010502718A JP5447368B2 (ja) | 2008-03-12 | 2009-03-09 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008062610 | 2008-03-12 | ||
JP2008062610 | 2008-03-12 | ||
PCT/JP2009/001046 WO2009113289A1 (ja) | 2008-03-12 | 2009-03-09 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
JP2010502718A JP5447368B2 (ja) | 2008-03-12 | 2009-03-09 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009113289A1 true JPWO2009113289A1 (ja) | 2011-07-21 |
JP5447368B2 JP5447368B2 (ja) | 2014-03-19 |
Family
ID=41064963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010502718A Active JP5447368B2 (ja) | 2008-03-12 | 2009-03-09 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110106849A1 (ja) |
JP (1) | JP5447368B2 (ja) |
WO (1) | WO2009113289A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5761033B2 (ja) | 2010-02-12 | 2015-08-12 | 日本電気株式会社 | 文書分析装置、文書分析方法、およびプログラム |
JP2014199475A (ja) * | 2013-03-29 | 2014-10-23 | 株式会社エヌ・ティ・ティ・データ | 言語表現抽出装置、言語表現抽出方法およびプログラム |
JP6433468B2 (ja) * | 2016-09-28 | 2018-12-05 | 本田技研工業株式会社 | プログラム作成支援方法 |
WO2023175954A1 (ja) * | 2022-03-18 | 2023-09-21 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133380A1 (en) * | 1998-02-19 | 2002-09-19 | Masataka Okayama | Portable information terminal surrounding formulation of an optimum plan |
JP2001034630A (ja) * | 1999-07-22 | 2001-02-09 | Fujitsu Ltd | 文書ベース検索システム、およびその方法 |
JP2002132812A (ja) * | 2000-10-19 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 |
WO2002063493A1 (en) * | 2001-02-08 | 2002-08-15 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
JP2003271669A (ja) * | 2002-03-15 | 2003-09-26 | Fujitsu Ltd | 話題抽出装置 |
JP4162223B2 (ja) * | 2003-05-30 | 2008-10-08 | 日本電信電話株式会社 | 自然文検索装置、その方法及びプログラム |
US20050278623A1 (en) * | 2004-05-17 | 2005-12-15 | Dehlinger Peter J | Code, system, and method for generating documents |
WO2006085661A1 (ja) * | 2005-02-08 | 2006-08-17 | Nec Corporation | 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム |
TW200807263A (en) * | 2006-07-19 | 2008-02-01 | Benq Corp | Document editing systems and methods |
JP4997966B2 (ja) * | 2006-12-28 | 2012-08-15 | 富士通株式会社 | 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 |
US7937389B2 (en) * | 2007-11-01 | 2011-05-03 | Ut-Battelle, Llc | Dynamic reduction of dimensions of a document vector in a document search and retrieval system |
JP2009169536A (ja) * | 2008-01-11 | 2009-07-30 | Ricoh Co Ltd | 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム |
-
2009
- 2009-03-09 US US12/922,396 patent/US20110106849A1/en not_active Abandoned
- 2009-03-09 JP JP2010502718A patent/JP5447368B2/ja active Active
- 2009-03-09 WO PCT/JP2009/001046 patent/WO2009113289A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5447368B2 (ja) | 2014-03-19 |
US20110106849A1 (en) | 2011-05-05 |
WO2009113289A1 (ja) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4656868B2 (ja) | 構造化文書作成装置 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4856573B2 (ja) | 要約文生成装置及び要約文生成プログラム | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP7131130B2 (ja) | 分類方法、装置、及びプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2010122823A (ja) | テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP2000339342A (ja) | 文書検索方法および文書検索装置 | |
JP2007102723A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
Singh et al. | Intelligent Bilingual Data Extraction and Rebuilding Using Data Mining for Big Data | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20100913 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5447368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |