JP2002222083A - 事例蓄積装置および方法 - Google Patents

事例蓄積装置および方法

Info

Publication number
JP2002222083A
JP2002222083A JP2001019565A JP2001019565A JP2002222083A JP 2002222083 A JP2002222083 A JP 2002222083A JP 2001019565 A JP2001019565 A JP 2001019565A JP 2001019565 A JP2001019565 A JP 2001019565A JP 2002222083 A JP2002222083 A JP 2002222083A
Authority
JP
Japan
Prior art keywords
inference
case
information
user
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001019565A
Other languages
English (en)
Inventor
Koji Tsukamoto
浩司 塚本
Original Assignee
Fujitsu Ltd
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, 富士通株式会社 filed Critical Fujitsu Ltd
Priority to JP2001019565A priority Critical patent/JP2002222083A/ja
Publication of JP2002222083A publication Critical patent/JP2002222083A/ja
Application status is Pending legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers

Abstract

(57)【要約】 【課題】 少数の正解事例しかない場合でも、それらを
もとに効率良く十分な量の正解事例を蓄積していくこと
が課題である。 【解決手段】 事例データベース26は、各事例に関す
る情報を蓄積し、学習器24は、正解事例の集合から、
カテゴリを判定するための推論規則を生成して、未知事
例のカテゴリを推論する。問い合わせ生成部22は、未
知事例の推論結果が正しいか否かの判定を仰ぐための問
い合わせを生成し、ユーザインタフェース21は、その
問い合わせを画面に表示する。ユーザが判定結果を入力
すると、中央コントローラ23は、判定された未知事例
を、新たな正解事例として事例データベース26に記録
する。

Description

【発明の詳細な説明】

【0001】

【発明の属する技術分野】本発明は、正解事例から統計
的な情報を抽出し、未知事例について何らかの推論を行
う学習器が学習対象として用いる事例を、準備するため
の技術に関する。ここで、正解事例とは、推論すべき特
徴が既にわかっている事例に対応し、未知事例とは、そ
の特徴がわかっていない事例に対応する。

【0002】特に、分野分けされたテキスト、タグを付
けられたテキスト、光学的文字認識(Optical Characte
r Recognition ,OCR)におけるイメージファイルと
文字との対応づけ、画像が表しているものの名称等のよ
うに、推論結果が正解であるか否かが人間にとっては明
白であるが、機械にとっては明白ではないような場合
に、正解事例を準備する事例蓄積装置およびその方法に
関する。

【0003】

【従来の技術】統計的な方法を使って正解事例から学習
を行い、未知事例に対して何らかの推論を行う方法は、
以下に示すように、今までにいろいろと提案されてい
る。 (1)文書の自動分類を行うために、分野を決められた
正解文書群を用意し、そこから単語の出現頻度等の統計
的な推定方法(学習)を用いて、分類の統計的基準(推
論規則)を作成し、その基準を用いて未知の文書の分野
を推定する方法。分類の統計的基準は、必ずしも人間に
可読なものばかりではなく、ニューラルネットワークの
重みや主成分分析におけるキーワードの組合せ等でも良
い。 (2)文書のフィルタリングを行うため、ユーザが必要
な文書と必要でない文書を分けるプロセスを利用し、そ
の時判別の手がかりとなったと考えられる単語の情報等
を利用することにより、分類の統計的基準を生成してゆ
き、その基準を用いて新たな文書のフィルタリングを行
う方法。 (3)テキストのタグづけを自動的に行うため、タグづ
けされた正解テキストを用意し、タグの周辺の単語の情
報等を用いてタグづけの基準を生成し、その基準を用い
てタグのついていない文書のタグづけを行う方法。 (4)精度の良いOCRを実現するために、イメージフ
ァイルと正解の文字との対応づけを用意し、そこから線
素の情報等を用いて認識の基準を生成し、その基準を用
いて未知のイメージファイルがどの文字に対応している
かを判定する方法。 (5)画像が表しているものの名称や色等の何らかの特
徴を判定するため、イメージファイルと正解の判定結果
の対を用意し、そこから画素の情報を用いて判定の基準
を生成し、その基準を用いて未知の画像がどの判定結果
に属するかを判定する方法。

【0004】これらの方法は、正解事例があるカテゴリ
に属するものとみなし、事例の特徴と正解のカテゴリと
の対応関係を抽出し、この対応関係を用いて未知の事例
のカテゴリを推論する枠組と考えることができる。この
ような枠組において、推論の精度を向上させるために、
現在まで様々な技術が提案されている。

【0005】例えば、文書の自動分類に限っていえば、
特開平5−54037、特開平5−233706、特開
平5−324726、特開平6−131225、特開平
6−348755、特開平7−36897、特開平7−
36767、特開平7−49875、特開平7−781
86、特開平7−114572、特開平7−19200
2、特開平8−153121等が挙げられる。

【0006】

【発明が解決しようとする課題】しかしながら、上述し
た従来の推論方法には、次のような問題がある。これら
の推論方法はいずれも、正解事例が十分存在し、そこか
らカテゴライズのための有意な情報を抽出できる場合を
想定している。しかし、例えば文書分類において、We
bや社内の文書を分類することを考えた場合、カテゴリ
は数百〜数千になる場合もあり、これらに対して十分精
度の高い推論規則を作るための十分な量(少なくとも各
カテゴリについて100程度)の正解事例を用意するの
は、かなりの労力を要する。

【0007】また、推論の手がかりになりそうな情報を
提示したり、ユーザに尋ねたりする枠組としては、特開
平9−22414、特開平9−153049等の装置が
ある。しかし、これらはともに、学習器とユーザが協力
して効率的に正解事例をつくる枠組ではなく、これらの
装置では、簡単な操作で正解事例をためていくことはで
きない。

【0008】また、タグつきコーパス(タグつきテキス
トを集めたデータベース)においても、精度の高いタグ
づけルールを作るための十分な量の文例を準備するのは
困難である。同様に、OCRにおける日本語の文字の判
定においては、文字の種類が数千種類におよぶため、そ
れぞれの文字に対して、判定のための規則を構成できる
ような十分な量の正解を準備するのは難しい。

【0009】通常、十分な量の正解事例がない場合に
は、なるべく正解率が高くなるような良い推論アルゴリ
ズムや、良い特徴を探すことが多い。しかしながら、十
分な量の正解事例がない場合、どのような方法を用いて
も精度の高い推論を行うことができないことが多く、こ
の場合、人手で正解事例を徐々にためていかざるを得な
い。したがって、この正解事例をためていくプロセスを
いかに効率良く行うかが重要となる。

【0010】本発明の課題は、精度の高い推論規則を生
成するために、少数の正解事例しかない場合でも、それ
らをもとに効率良く十分な量の正解事例を蓄積していく
事例蓄積装置およびその方法を提供することである。

【0011】

【課題を解決するための手段】図1は、本発明の事例蓄
積装置の原理図である。図1の事例蓄積装置は、格納手
段11、学習手段12、問い合わせ手段13、および制
御手段14を備える。

【0012】格納手段11は、正解事例の集合に関する
情報を格納する。学習手段12は、格納手段11に格納
された情報を参照しながら推論規則を生成し、その推論
規則に従って、推論対象の事例の既知の特徴から目的の
特徴を推論する。

【0013】問い合わせ手段13は、学習手段12の推
論結果が正しいか否かをユーザに問い合わせ、そのユー
ザから回答を受け取る。制御手段14は、その回答に基
づいて推論対象の事例の目的の特徴を決定し、決定され
た目的の特徴を含む推論対象の事例の情報を、正解事例
の集合に関する情報に追加する。

【0014】格納手段11は、例えば、各正解事例の既
知の特徴と目的の特徴の対応関係を保持している。事
例、既知の特徴、および目的の特徴の組み合わせとして
は、例えば、以下のようなものが考えられる。 (1)文書、文書の特徴、文書のカテゴリ (2)タグづけされたテキストデータ、テキストデータ
の特徴、タグのカテゴリ (3)画像、画像特徴(画像から抽出された特徴量)、
画像が表す文字 (4)画像、画像特徴、画像が表すものの名前 学習手段12は、格納手段11に格納された既知の特徴
と目的の特徴の対応関係に基づき、既知の特徴から目的
の特徴を推論するための推論規則を生成する。そして、
その推論規則を既知の特徴を有する他の事例に適用し
て、その事例の目的の特徴を推論し、推論結果を出力す
る。このとき、推論対象の他の事例としては、未知事例
や誤っている可能性のある正解事例が用いられる。

【0015】問い合わせ手段13は、学習手段12が出
力した推論結果を受け取り、それが正しいか否かの判定
をユーザに要請する。そして、ユーザが入力した判定結
果を回答として受け取る。推論結果が正しくない場合、
ユーザは、判定結果とともに、正しい目的の特徴を回答
として入力することができる。

【0016】ユーザが推論結果は正しいと判定した場
合、制御手段14は、推論に用いた既知の特徴と推論さ
れた目的の特徴の対応関係を、正解事例の情報として格
納手段11に格納する。また、ユーザが推論結果は正し
くないと判定し、推論された目的の特徴を修正した場
合、制御手段14は、推論に用いた既知の特徴と修正さ
れた目的の特徴の対応関係を、正解事例の情報として格
納手段11に格納する。

【0017】このような事例蓄積装置によれば、ユーザ
は、提示された推論結果に対して、正しいか否かの判定
結果を入力する単純な操作を繰り返すだけで、正解事例
を効率良く蓄積することができる。さらに、新たに蓄積
された正解事例を用いて推論規則を再生成することで、
推論規則の精度を徐々に高めることができる。

【0018】例えば、図1の格納手段11は、後述する
図2の事例データベース26に対応し、図1の学習手段
12は図2の学習器24に対応し、図1の問い合わせ手
段13は図2のユーザインタフェース21および問い合
わせ生成部22に対応し、図1の制御手段14は図2の
中央コントローラ23に対応する。

【0019】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本実施形態の事例蓄
積装置は、正解事例からカテゴリ(目的の特徴)を推論
するための推論規則を生成する装置(学習器)と、それ
ぞれの事例に関する情報を蓄積するデータベースと、ユ
ーザの判定を仰ぐインタフェースを備え、未知事例の推
論結果をユーザに提示し、ユーザの判定結果を記録する
ことにより、正解事例を準備する。

【0020】事例蓄積装置は、それぞれのカテゴリに少
数の正解事例をあらかじめ用意しておき、それらを用い
て推論規則を学習し、未知事例に対して推論規則を適用
した結果をユーザに提示し、ユーザは正誤判定あるいは
修正を行う。このような処理を繰り返す。ユーザは、提
示された推論結果に対して、例えば、単純に○(正)ま
たは×(誤)をつけていけば良いだけであり、さらに、
正解事例がたまるごとにほとんどが○に属するようにな
る。したがって、簡単な操作で効率良く正解事例を蓄積
することができる。

【0021】推論規則のアルゴリズムとしては、例え
ば、決定木、決定リスト、ニューラルネットワーク、ナ
イーブベイズ(naive Bayes )、ベイジアンネットワー
ク、遺伝的アルゴリズム、事例ベース推論、最小自乗
法、回帰分析、ブースティング(boosting)、バギング
(bagging )、サポートベクトルマシン等が用いられ
る。

【0022】図2は、このような事例蓄積装置の構成図
である。図2の事例蓄積装置は、ユーザインタフェース
21、問い合わせ生成部22、中央コントローラ23、
学習器24、アクセスインタフェース25、および事例
データベース26を備える。

【0023】中央コントローラ23は、問い合わせ生成
部22、学習器24、およびアクセスインタフェース2
5を制御する。学習器24は、中央コントローラ23の
指示に基づいて、正解事例から、カテゴリを判定するた
めの推論規則を生成し、未知事例のカテゴリを推論す
る。事例データベース26は、それぞれの事例に関する
情報を蓄積し、アクセスインタフェース25は、中央コ
ントローラ23の指示に基づいて、事例データベース2
6に格納された情報にアクセスする。

【0024】問い合わせ生成部22は、中央コントロー
ラ23の指示に基づいて、未知事例の推論結果が正しい
か否かの判定を仰ぐための問い合わせを生成し、ユーザ
インタフェース21は、その問い合わせを画面に表示す
る。そして、ユーザインタフェース21は、ユーザが入
力した判定結果を回答として中央コントローラ23に伝
え、アクセスインタフェース25は、この判定結果を事
例データベース26に記録する。ユーザが推論された未
知事例のカテゴリを承認した場合、その事例は新たな正
解事例として記録される。

【0025】図3は、図2の事例蓄積装置による蓄積処
理のフローチャートである。まず、ユーザは、正解事例
の集合と未知事例の集合を準備して(ステップS1)、
それらの事例の特徴とカテゴリの対応関係を、事例デー
タベース(DB)26に格納する(ステップS2)。

【0026】次に、学習器24は、事例データベース2
6に格納された正解事例を用いて推論規則を生成し(ス
テップS3)、中央コントローラ23は、終了条件が満
たされたか否かを判定する(ステップS4)。この終了
条件としては、例えば、以下のようなものが用いられ
る。 (1)必要な正解率の値をあらかじめ設定しておく。そ
して、事例蓄積装置が、生成された推論規則を未知事例
に適用した結果をユーザに提示し、修正させたときに、
推論結果がどれくらいの割合で正解していたかを記録し
ておき、その値があらかじめ設定された正解率を上回っ
ていれば、処理を終了する。 (2)必要な正解率の値をあらかじめ設定し、学習に用
いない正解事例を別に作成しておく。そして、生成され
た推論規則をその正解事例に適用した結果の正解率が、
あらかじめ設定された正解率を上回っていれば、処理を
終了する。

【0027】終了条件が満たされていなければ、次に、
中央コントローラ23は、事例データベース26から適
当数の未処理の未知事例を取り出して、学習器24に与
え、学習器24は、与えられた未知事例に、生成された
推論規則を適用して、カテゴリを推論する(ステップS
5)。このとき、推論されたカテゴリが事例データベー
ス26に記録される。

【0028】次に、問い合わせ生成部22は、未知事例
の推論結果を1つずつユーザインタフェース21の画面
に表示し、ユーザに正誤判定を要請する(ステップS
6)。ユーザが○×の判定結果を入力すると(ステップ
S7)、中央コントローラ23は、入力された判定結果
を事例データベース26に反映する(ステップS8)。
そして、事例蓄積装置は、ステップS3以降の処理を繰
り返し、ステップS4において終了条件が満たされる
と、処理を終了する。

【0029】この処理において、事例データベース26
は、例えば、図4のような事例データテーブルの形式で
事例データを格納する。図4において、各行のデータが
1つの事例データに対応し、各事例データは、事例の識
別情報(ID)、フラグ、事例が属するカテゴリ、およ
び事例の内容を含んでいる。このうち、フラグは、正解
事例であるか否かを表し、内容は、実際に事例に含まれ
ている情報(既知の特徴)を表す。

【0030】フラグが“○”となっている事例は、あら
かじめ用意された正解事例、または、既にカテゴリの推
論が行われ、推論結果がユーザにより判定された未知事
例に対応する。言い換えれば、このフラグは、ユーザへ
の問い合わせが不要であることを表す。また、フラグが
“×”となっている事例は、まだ推論が行われていない
未処理の未知事例に対応し、このフラグは、ユーザへの
問い合わせが必要であることを表す。

【0031】ステップS7において、推論されたカテゴ
リの判定結果が正であれば、その未知事例はそのまま正
解事例となる。そこで、対応するフラグが“×”から
“○”に書き換えられる。また、判定結果が誤であれ
ば、ユーザによりカテゴリが修正される。この場合、対
応するフラグが“×”から“○”に書き換えられ、推論
されたカテゴリがユーザにより指定されたカテゴリに書
き換えられる。こうして、ユーザに提示された未知事例
が正解事例にとして蓄積されていき、処理の終了時に
は、最初に用意された未知事例のほとんどが正解事例に
変換される。

【0032】ところで、未知事例すべてではなく、機械
にとって学習を行うのが困難な事例だけを、統計的な方
法を使うことにより自動的に選択して、ユーザの判定を
求めることも考えられる。例えば、学習器が推論結果の
確信度を出力する場合、事例蓄積装置は、未知事例に対
して推論規則を適用した結果、確信度が低いもののみを
ユーザに提示して、ユーザの判定を仰ぐ。そして、判定
結果を合わせて再び推論規則の生成を行う。

【0033】未知事例に低い確信度で正しいカテゴリが
割り当てられた場合、その事例を正解事例に加えて推論
規則を生成することにより、少数の正解事例と少ない労
力の判定とから、正解率の高い推論規則が生成される。
一般に、確信度の低い事例を学習すると、学習器が生成
する推論規則の精度は上がる傾向にある。

【0034】ここで、確信度に関しては、学習すること
の難しいサンプルの確信度は低くなりがちであるという
事実を利用している。例えば、以下の文献に例示されて
いるように、多くの学習器は確信度を返すことができ
る。 (1)Quinlan,“C4.5:Programs for Machine Learnin
g, ”Morgan Kaufmann(1993) の決定木 (2)Rumelhart, McClelland “Parallel distributed
processing: exploration in the microstructure of
cognition,”MIT Press(1986) のニューラルネットワー
ク (3)Freund, Schapire“Experiments with a New Boo
sting Algorithm,” Machine Learning: Proceedings o
f the Thirteenth International Conference(1996) の
Boosting Algorithm この確信度の値を利用することにより、すべての未知事
例の推論結果を人間が判定するのではなく、機械にとっ
て簡単な事例(確信度が高いもの)については機械が判
定し、機械に判断が困難な事例(確信度が低いもの)だ
けを人間が判定することが可能になる。したがって、少
ない労力で効率良く正解事例を蓄積することができる。

【0035】図5は、このような事例蓄積装置の構成図
である。図5の事例蓄積装置は、図2の構成に事例選択
部27を付加した構成を有し、図6に示すような処理を
行う。図6のフローチャートにおいて、ステップS11
〜S15およびステップS17〜S18の処理は、図3
のステップS1〜S5およびステップS7〜S8の処理
と同様である。

【0036】ステップS15において、推論されたカテ
ゴリと確信度が事例データベース26に記録されると、
事例選択部27は、中央コントローラ23の指示に基づ
き、学習器24から出力された各事例の確信度をチェッ
クする(ステップS16)。そして、所定値より小さな
確信度を有する事例を選択して、それらの推論結果を問
い合わせ生成部22に与える。問い合わせ生成部22
は、受け取った未知事例の推論結果を1つずつユーザイ
ンタフェース21の画面に表示し、ユーザに正誤判定を
要請する。

【0037】この場合、事例データベース26は、例え
ば、図7のような事例データテーブルの形式で事例デー
タを格納する。図7の事例データテーブルは、図4の情
報に確信度の項目を付加した形式を有し、フラグが
“×”となっている事例は、カテゴリの推論は終了して
いるが、推論結果がユーザにより判定されていない未知
事例に対応する。

【0038】また、最初にある程度の量の正解事例が用
意されたとしても、その中に無視できない誤りが含まれ
ている場合もある。この場合、事例蓄積装置は、誤りを
含んだ正解事例の集合から学習器を用いて推論規則を生
成する。そして、その規則をそれらの正解事例に適用し
た結果を判定し、確信度の低いものをユーザに提示して
判定を仰ぐ。

【0039】これにより、正解事例の集合に含まれる誤
りを少なくしていき、精度の高い推論規則をつくること
ができる。一般に、確信度の低い推論結果は誤りである
可能性が高いので、すべての推論結果をチェックする場
合に比べて、少ない労力で誤りの少ない正解事例を得る
ことができる。

【0040】図8は、このような処理のフローチャート
である。図8のフローチャートにおいて、ステップS2
2〜S24およびステップS27〜S28の処理は、図
3のステップS2〜S4およびステップS7〜S8の処
理と同様である。

【0041】ステップS21において、ユーザは、誤り
を含む正解事例の集合を準備し、事例蓄積装置に入力す
る。ステップS4において終了条件が満たされていなけ
れば、次に、中央コントローラ23は、事例データベー
ス26から適当数の未処理の正解事例を取り出して、学
習器24に与え、学習器24は、与えられた正解事例に
推論規則を適用して、カテゴリを推論する(ステップS
25)。このとき、推論されたカテゴリと確信度が事例
データベース26に記録される。

【0042】次に、事例選択部27は、学習器24から
出力された各事例の確信度をチェックし、所定値より小
さな確信度を有する事例を選択して、それらの推論結果
を問い合わせ生成部22に与える(ステップS26)。
そして、問い合わせ生成部22は、受け取った事例の推
論結果を1つずつユーザインタフェース21の画面に表
示し、ユーザに正誤判定を要請する。

【0043】図9は、事例データベース26に格納され
た事例データテーブルの例を示している。図9のフラグ
は、ユーザにより判定されたか否かを表し、フラグが
“○”となっている事例は、既にカテゴリの推論が行わ
れ、推論結果がユーザにより判定された事例に対応す
る。言い換えれば、このフラグは、ユーザへの問い合わ
せが不要であることを表す。また、フラグが“×”とな
っている事例は、まだユーザにより判定されていない事
例に対応し、このフラグは、ユーザへの問い合わせが必
要であることを表す。

【0044】ステップS27において、推論されたカテ
ゴリの判定結果が正であれば、対応するフラグが“×”
から“○”に書き換えられる。また、判定結果が誤であ
れば、対応するフラグが“×”から“○”に書き換えら
れ、推論されたカテゴリがユーザにより指定されたカテ
ゴリに書き換えられる。これにより、誤った正解事例の
カテゴリが修正される。

【0045】以上説明した事例蓄積装置には、ユーザイ
ンタフェースが1つしか設けられていないが、通信ネッ
トワークを介して事例蓄積装置に複数のユーザインタフ
ェースを接続し、複数のユーザが事例蓄積装置を利用で
きるようにすることも考えられる。このようなシステム
によれば、推論結果の判定作業を複数のユーザが分担し
て行うことができ、より効率良く正解事例が蓄積され
る。

【0046】図10は、図2の事例蓄積装置に複数のユ
ーザインタフェースを接続した事例蓄積システムを示し
ている。図10において、ルータ28は、通信ネットワ
ーク上に設けられ、各ユーザインタフェース21と中央
コントローラ23または問い合わせ生成部22の間の通
信を中継する。

【0047】図11は、図10の事例蓄積システムによ
る蓄積処理のフローチャートである。図11のフローチ
ャートにおいて、ステップS31〜S35の処理は、図
3のステップS1〜S5の処理と同様である。

【0048】ステップS35において、推論されたカテ
ゴリが事例データベース26に記録されると、問い合わ
せ生成部22は、複数の未知事例の推論結果を、ルータ
28を介して複数のユーザインタフェース21に振り分
けて送信し、各ユーザに正誤判定を要請する(ステップ
S36)。各ユーザが○×の判定結果を入力し、ルータ
28を介して中央コントローラ23に送信すると(ステ
ップS37)、中央コントローラ23は、受け取った判
定結果をまとめて事例データベース26に反映する(ス
テップS38)。

【0049】また、図12は、図5の事例蓄積装置に複
数のユーザインタフェースを接続した事例蓄積システム
を示しており、このシステムは、図13に示すような処
理を行う。図13のフローチャートにおいて、ステップ
S41〜S45の処理は、図6のステップS11〜S1
5の処理と同様である。

【0050】ステップS45において、推論されたカテ
ゴリと確信度が事例データベース26に記録されると、
事例選択部27は、学習器24から出力された各事例の
確信度をチェックし、所定値より小さな確信度を有する
事例を選択して、それらの推論結果を問い合わせ生成部
22に与える(ステップS46)。その後、事例蓄積シ
ステムは、ステップS47〜S49において、図11の
ステップS36〜S38と同様の処理を行う。

【0051】次に、図14から図23までを参照しなが
ら、上述した事例蓄積装置および事例蓄積システムの応
用例について説明する。図2および図5の事例蓄積装
置、図2および図5の事例蓄積装置と、図10および図
12の事例蓄積システムは、文書分類、テキストのタグ
づけ、OCR、画像認識等の任意の処理に応用すること
が可能である。

【0052】図14は、図2の事例蓄積装置を用いて文
書分類を行う構成を示している。図14の事例蓄積装置
は、図2の構成にデータ変換部31を付加した構成を有
する。例えば、Web上の文書の分類規則を作るための
正解事例を準備するために、分類先のカテゴリが100
0種類あり、1つの文書サンプルが複数のカテゴリに属
しても良いという条件が与えられた場合を想定する。こ
の場合、「情報」というカテゴリを対象とした処理の手
順は、以下のようになる。

【0053】1.ユーザは、適当に5000文書を用意
し、その中から「情報」に属する文書をすべてピックア
ップする。例えば、10文書がピックアップされた場
合、残りの4990文書を「情報」以外のカテゴリに属
する文書とする。これらの5000文書は、あらかじめ
用意された正解事例の集合に対応し、カテゴリ付き文書
32として格納される。また、ユーザは、どちらのカテ
ゴリに属するかをチェックしていない文書を10000
文書用意する。これらの10000文書は、未知事例の
集合に対応し、カテゴリなし文書33として格納され
る。

【0054】2.データ変換部31は、図15に示すよ
うに、カテゴリ付き文書32の情報を事例データテーブ
ル34の形式に変換する。ここでは、「情報」以外のカ
テゴリはまとめて、「not情報」として記録されてお
り、各文書の内容として、「コントローラ」や「データ
ベース」のような、文書中に現れる特定の単語の出現回
数が記録されている。また、この例では、確信度は必ず
しも必要ではなく、省略することもできる。カテゴリな
し文書33の情報も同様に変換されて、事例データテー
ブル34に記録され、事例データテーブル34は事例デ
ータベース26に格納される。

【0055】3.学習器24は、どちらに属するかわか
っている文書(最初は5000文書)を用いて、「情
報」に属する文書か否かを判定するための推論規則を生
成する。

【0056】4.中央コントローラ23は、学習器24
がチェックしていない10000文書のうち、任意に1
000文書を選び、学習器24は、得られた推論規則を
用いてこれらの1000文書が「情報」に属するか否か
を判定する。

【0057】5.問い合わせ生成部22は、1000文
書の判定結果を、図16のような画面に順次表示するこ
とで、ユーザに提示する。ユーザは、その結果が正しい
か否かを判定し、Yesボタン35またはNoボタン3
6をクリックすることで、判定結果を入力する。問い合
わせ生成部22は、学習器24が「情報」に属すると判
定した文書を、まとめてユーザに提示することもでき
る。

【0058】6.例えば、ユーザが、提示された文書の
うち、2文書のカテゴリを「情報」と判定し、残りの9
98文書のカテゴリを「not情報」と判定したとす
る。この場合、「情報」に属する文書は、最初の10文
書に新たな2文書を加えて、12文書となり、「not
情報」に属する文書は、最初の4990文書に新たな9
98文書を加えて、5988文書となる。そして、これ
らの6000文書を正解事例として用いて、「3.」以
降の処理が繰り返される。

【0059】この処理において自動的にできない部分
は、最初の若干のデータ(少数の「情報」に関する文書
とそうでない文書)の準備を除けば、ユーザによる判定
だけである。しかし、この判定は非常に簡単な作業であ
り、これを繰り返すだけで正しいカテゴリのついた文書
群を蓄積することができる。

【0060】図17は、図5の事例蓄積装置を用いてテ
キストのタグづけを行う構成を示している。図17の事
例蓄積装置は、図5の構成にデータ変換部41を付加し
た構成を有する。

【0061】例えば、文書中の時間表現、地名、人名、
会社名等を自動的にタグづけするシステムを作る場合、
どのようなテキストデータを抜き出すべきかを決定する
規則が必要であるが、この規則を人間が作成するのでは
コストが高く、正解テキストデータから学習を行うのが
良いと考えられる。

【0062】しかし、正解テキストデータの作成もコス
トがかかるため、これを低コストで行うために、時間表
現等のタグのついた少数のタグ付きデータ42と、タグ
のついていない多数のタグなしデータ43を用意し、事
例蓄積装置に入力する。タグ付きデータ42は、あらか
じめ用意された正解事例に対応し、タグなしデータ43
は、未知事例に対応する。

【0063】事例蓄積装置は、まず、タグ付きデータ4
2を読み込み、データ変換部41は、図18に示すよう
に、タグ付きデータ42を事例データテーブル44の形
式に変換する。

【0064】ここでは、文書中の特定のテキストデータ
(文字列)が1つの事例に対応し、「時間表現」、「地
名」、「人名」、「会社名」、および「else」がカ
テゴリに対応する。このうち、「else」は、時間表
現、地名、人名、および会社名以外のカテゴリを表す。
「時間表現」、「地名」、「人名」、または「会社名」
に属するテキストデータはタグづけされたデータとみな
され、「else」に属するテキストデータはタグづけ
されないデータとみなされる。

【0065】また、各テキストデータの内容として、そ
の文字列の品詞や前後の文字列の品詞が記録されてい
る。これらの品詞は、文書中における区間の特徴を表し
ている。タグなしデータ43も同様に変換されて、事例
データテーブル44に記録され、事例データテーブル4
4は事例データベース26に格納される。

【0066】次に、学習器24は、カテゴリが確定して
いるテキストデータを用いて推論規則を生成し、その推
論規則を用いて、タグなしデータ43に対応するテキス
トデータにどのようなタグがつくかを推論する。

【0067】事例選択部27は、タグの推論が行われた
テキストデータのうち、確信度の低いものを選び、問い
合わせ生成部22は、推論されたタグを、図19のよう
な画面に順次表示することで、ユーザに提示する。ユー
ザは、提示されたタグが正しいか否かを判定し、Yes
ボタン45またはNoボタン46をクリックすること
で、判定結果を入力する。また、提示されたタグが正し
くなければ、どのようなタグがつくべきかを指定する。
事例蓄積装置は、この判定結果を正解事例として事例デ
ータテーブル44に反映し、同様の処理を繰り返す。

【0068】図20は、図12の事例蓄積システムを用
いてOCR処理を行う構成を示している。図20の事例
蓄積システムは、図12の構成にデータ変換部51を付
加した構成を有する。例えば、文字の画像情報から文字
を同定するために、文字の画像と文字コードの対応づけ
がなされたデータを準備する場合を想定する。

【0069】この場合、ユーザは、文字コードに対応づ
けられた画像データ(文字のわかっている画像データ)
52と、文字コードに対応づけられていない画像データ
(文字のわかっていない画像データ)53を用意し、事
例蓄積装置に入力する。画像データ52は、あらかじめ
用意された正解事例に対応し、画像データ53は、未知
事例に対応する。

【0070】事例蓄積システムは、まず、画像データ5
2を読み込み、データ変換部51は、図21に示すよう
に、画像データ52を事例データテーブル54の形式に
変換する。ここでは、文字の画像データが1つの事例に
対応し、正解文字を表す文字コードがカテゴリに対応す
る。また、各画像データの内容として、画像データを複
数の領域に分割したときの、各領域から抽出される線素
の情報が記録されている。画像データ53も同様に変換
されて、事例データテーブル54に記録され、事例デー
タテーブル54は事例データベース26に格納される。

【0071】次に、学習器24は、カテゴリが確定して
いる画像データを用いて推論規則を生成し、その推論規
則を用いて、画像データ53がどのような文字に対応す
るかを推論する。

【0072】事例選択部27は、文字の推論が行われた
画像データのうち、確信度の低いものを選び、問い合わ
せ生成部22は、推論された文字をユーザに提示する画
面情報を生成し、ルータ28を介して複数のユーザに振
り分ける。このとき、各ユーザインタフェース21に
は、図22のような画面が表示される。ユーザは、提示
された文字が正しいか否かを判定し、Yesボタン55
またはその他ボタン56をクリックすることで、判定結
果を入力する。

【0073】ユーザがその他ボタン56をクリックする
と、問い合わせ生成部22により文字種の選択メニュー
57が表示され、ユーザがアルファベットを選択する
と、アルファベットの選択メニュー58が表示される。
そして、ユーザは、選択メニュー58に含まれる文字を
クリックすることで、正解文字を指定する。

【0074】中央コントローラ23は、ルータ28を介
して、複数のユーザの判定結果を収集し、正解事例とし
て事例データテーブル54に反映した後、同様の処理を
繰り返す。

【0075】図23は、図12の事例蓄積システムを用
いて画像認識を行う構成を示している。図23の事例蓄
積システムは、図12の構成にデータ変換部61を付加
した構成を有する。

【0076】例えば、Web上のオンラインショッピン
グ等のサイトにおいては、多数の商品の写真が掲載され
ており、それぞれに「バッグ」等の名前がつけられてい
るが、これらの名前は、必ずしも統一されておらず、誤
りを含んでいる場合もある。また、名前の数が限られて
いる場合もある。このような場合、商品の画像に正しい
名前を割り付ける処理の手順は、以下のようになる。

【0077】1.ユーザは、名前つき画像データ62を
準備する。この画像データ62は、一部誤りを含む正解
事例の集合に対応する。 2.データ変換部61は、各画像データから色やエッジ
等の画像特徴を取り出し、画像特徴と名前の対応関係を
記録した事例データテーブルを生成して、事例データベ
ース26に保存する。

【0078】3.学習器24は、事例データベース26
に保存されたすべての事例を用いて、画像特徴から商品
の名前を推論する推論規則を生成する。 4.事例選択部27は、名前の推論が行われた画像デー
タのうち、確信度の低いものを選び、問い合わせ生成部
22は、推論された名前をユーザに提示する画面情報を
生成し、ルータ28を介して複数のユーザに振り分け
る。

【0079】5.ユーザは、提示された名前が正しいか
否かを判定し、判定結果を入力する。このとき、提示さ
れた名前が正しくなければ、正しい名前を指定する。 6.中央コントローラ23は、ルータ28を介して、複
数のユーザの判定結果を収集し、正解事例として事例デ
ータベース26に反映した後、同様の処理を繰り返す。

【0080】ところで、図2および図5の事例蓄積装置
と、図10および図12の事例蓄積システムは、例え
ば、図24に示すような情報処理装置(コンピュータ)
を用いて構成される。図24の情報処理装置は、CPU
(中央処理装置)71、メモリ72、入力装置73、出
力装置74、外部記憶装置75、媒体駆動装置76、ネ
ットワーク接続装置77、および画像入力装置78を備
え、それらはバス79により互いに接続されている。

【0081】メモリ72は、例えば、ROM、RAM等
を含み、処理に用いられるプログラムとデータを格納す
る。CPU71は、メモリ72を利用してプログラムを
実行することにより、必要な処理を行う。

【0082】例えば、図2の問い合わせ生成部22、中
央コントローラ23、学習器24、図5の事例選択部2
7、図14のデータ変換部31、図17のデータ変換部
41、図20のデータ変換部51、および図23のデー
タ変換部61は、プログラムにより記述されたソフトウ
ェアコンポーネントとしてメモリ72に格納される。

【0083】入力装置73は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置74
は、例えば、ディスプレイ装置、スピーカ、プリンタ等
であり、ユーザへの問い合わせや処理結果を出力する。
入力装置73および出力装置74は、図2のユーザイン
タフェース21に対応する。

【0084】外部記憶装置75は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク装置、テープ
装置等である。情報処理装置は、この外部記憶装置75
に、上述のプログラムとデータを保存しておき、必要に
応じて、それらをメモリ72にロードして使用する。ま
た、外部記憶装置75は、図2の事例データベース26
としても用いられる。

【0085】媒体駆動装置76は、可搬記録媒体80を
駆動し、その記録内容にアクセスする。可搬記録媒体8
0としては、メモリカード、フロッピー(登録商標)デ
ィスク、CD−ROM(Compact Disk Read Only Memor
y )、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。ユーザは、
この可搬記録媒体80に上述のプログラムとデータを格
納しておき、必要に応じて、それらをメモリ72にロー
ドして使用する。

【0086】ネットワーク接続装置77は、LAN(Lo
cal Area Network)等の任意の通信ネットワークに接続
され、通信に伴うデータ変換を行う。また、情報処理装
置は、上述のプログラムとデータをネットワーク接続装
置77を介して、サーバ等の他の装置から受け取り、必
要に応じて、それらをメモリ72にロードして使用す
る。

【0087】画像入力装置78は、例えば、スキャナで
あり、文書や写真を含む任意の画像を、情報処理装置が
処理可能なデータに変換する。図25は、図24の情報
処理装置にプログラムとデータを供給することのできる
コンピュータ読み取り可能な記録媒体を示している。可
搬記録媒体80やサーバ81のデータベース82に保存
されたプログラムとデータは、メモリ72にロードされ
る。このとき、サーバ81は、プログラムとデータを搬
送する搬送信号を生成し、ネットワーク上の任意の伝送
媒体を介して、情報処理装置に送信する。そして、CP
U71は、そのデータを用いてそのプログラムを実行
し、必要な処理を行う。

【0088】(付記1) 正解事例の集合に関する情報
を格納する格納手段と、前記格納手段に格納された情報
を参照しながら推論規則を生成し、該推論規則に従っ
て、推論対象の事例の既知の特徴から目的の特徴を推論
する学習手段と、前記学習手段の推論結果が正しいか否
かをユーザに問い合わせ、該ユーザから回答を受け取る
問い合わせ手段と、前記回答に基づいて前記推論対象の
事例の目的の特徴を決定し、決定された目的の特徴を含
む該推論対象の事例の情報を、前記正解事例の集合に関
する情報に追加する制御手段とを備えることを特徴とす
る事例蓄積装置。 (付記2) 前記学習手段は、前記推論対象の事例の情
報が追加された前記正解事例の集合に関する情報に基づ
いて、新たな推論規則を生成し、該新たな推論規則に従
って、他の事例の目的の特徴を推論することを特徴とす
る付記1記載の事例蓄積装置。 (付記3) 複数の推論対象の事例に関する推論結果の
中から、前記ユーザに問い合わせるべき事例の推論結果
を選択する選択手段をさらに備えることを特徴とする付
記1記載の事例蓄積装置。 (付記4) 前記問い合わせ手段は、複数の推論対象の
事例に関する推論結果が正しいか否かを、通信ネットワ
ークを介して複数のユーザに問い合わせることを特徴と
する付記1記載の事例蓄積装置。 (付記5) 複数の事例の各々について、既知の特徴、
目的の特徴、およびユーザへの問い合わせが必要である
か否かを表すフラグ情報を格納するための格納手段と、
前記格納手段に格納された情報を参照しながら、問い合
わせが不要であることを表すフラグ情報を有する事例の
集合から推論規則を生成し、問い合わせが必要であるこ
とを表すフラグ情報を有する事例を推論対象として、該
推論規則に従って該推論対象の事例の既知の特徴から目
的の特徴を推論する学習手段と、前記学習手段の推論結
果が正しいか否かを前記ユーザに問い合わせ、該ユーザ
から回答を受け取る問い合わせ手段と、前記回答に基づ
いて前記推論対象の事例の目的の特徴を決定し、該推論
対象の事例のフラグ情報を、問い合わせが不要であるこ
とを表すフラグ情報に変更する制御手段とを備えること
を特徴とする事例蓄積装置。 (付記6) カテゴリを有する文書の集合に関する情報
を格納する格納手段と、前記格納手段に格納された情報
を参照しながら推論規則を生成し、該推論規則に従っ
て、推論対象の文書の特徴からカテゴリを推論する学習
手段と、前記学習手段の推論結果が正しいか否かをユー
ザに問い合わせ、該ユーザから回答を受け取る問い合わ
せ手段と、前記回答に基づいて前記推論対象の文書のカ
テゴリを決定し、決定されたカテゴリを含む該推論対象
の文書の情報を、前記文書の集合に関する情報に追加す
る制御手段とを備えることを特徴とする事例蓄積装置。 (付記7) タグづけされたテキストデータの集合に関
する情報を格納する格納手段と、前記格納手段に格納さ
れた情報を参照しながら推論規則を生成し、該推論規則
に従って、推論対象のテキストデータの特徴からタグの
カテゴリを推論する学習手段と、前記学習手段の推論結
果が正しいか否かをユーザに問い合わせ、該ユーザから
回答を受け取る問い合わせ手段と、前記回答に基づいて
前記推論対象のテキストデータに対するタグのカテゴリ
を決定し、決定されたカテゴリを含む該推論対象のテキ
ストデータの情報を、前記テキストデータの集合に関す
る情報に追加する制御手段とを備えることを特徴とする
事例蓄積装置。 (付記8) 画像の集合に関する情報を格納する格納手
段と、前記格納手段に格納された情報を参照しながら推
論規則を生成し、該推論規則に従って、推論対象の画像
の既知の特徴から目的の特徴を推論する学習手段と、前
記学習手段の推論結果が正しいか否かをユーザに問い合
わせ、該ユーザから回答を受け取る問い合わせ手段と、
前記回答に基づいて前記推論対象の画像の目的の特徴を
決定し、決定された目的の特徴を含む該推論対象の画像
の情報を、前記画像の集合に関する情報に追加する制御
手段とを備えることを特徴とする事例蓄積装置。 (付記9) コンピュータのためのプログラムを記録し
た記録媒体であって、該プログラムは、正解事例の集合
に関する情報を参照しながら推論規則を生成し、前記推
論規則に従って、推論対象の事例の既知の特徴から目的
の特徴を推論し、推論結果が正しいか否かをユーザに問
い合わせ、前記ユーザから回答を受け取り、前記回答に
基づいて前記推論対象の事例の目的の特徴を決定し、決
定された目的の特徴を含む該推論対象の事例の情報を、
前記正解事例の集合に関する情報に追加する処理を前記
コンピュータに実行させることを特徴とするコンピュー
タ読み取り可能な記録媒体。 (付記10) 正解事例の集合に関する情報を参照しな
がら推論規則を生成し、前記推論規則に従って、推論対
象の事例の既知の特徴から目的の特徴を推論し、推論結
果が正しいか否かをユーザに問い合わせ、前記ユーザか
ら回答を受け取り、前記回答に基づいて前記推論対象の
事例の目的の特徴を決定し、決定された目的の特徴を含
む該推論対象の事例の情報を、前記正解事例の集合に関
する情報に追加する処理をコンピュータに実行させるた
めのプログラム。 (付記11) コンピュータにプログラムを搬送する搬
送信号であって、該プログラムは、正解事例の集合に関
する情報を参照しながら推論規則を生成し、前記推論規
則に従って、推論対象の事例の既知の特徴から目的の特
徴を推論し、推論結果が正しいか否かをユーザに問い合
わせ、前記ユーザから回答を受け取り、前記回答に基づ
いて前記推論対象の事例の目的の特徴を決定し、決定さ
れた目的の特徴を含む該推論対象の事例の情報を、前記
正解事例の集合に関する情報に追加する処理を前記コン
ピュータに実行させることを特徴とする搬送信号。 (付記12) 正解事例の集合に関する情報をコンピュ
ータに登録し、前記コンピュータが、以下のa)、
b)、c)、d)、e)、およびf)の処理を行うこと
を特徴とする事例蓄積方法。

【0089】a)登録された情報を参照しながら推論規
則を生成する処理 b)前記推論規則に従って、推論対象の事例の既知の特
徴から目的の特徴を推論する処理 c)推論結果が正しいか否かをユーザに問い合わせる処
理 d)前記ユーザから回答を受け取る処理 e)前記回答に基づいて前記推論対象の事例の目的の特
徴を決定する処理 f)決定された目的の特徴を含む該推論対象の事例の情
報を、前記正解事例の集合に関する情報に追加する処理

【0090】

【発明の効果】本発明によれば、少数の正解事例と多数
の正解のわからない事例を準備する、あるいは誤りを含
む正解事例を準備するという比較的楽な作業だけで、そ
れらの事例の統計的性質を用いることにより、簡単な操
作で効率的に正解事例を蓄えていくことができる。

【図面の簡単な説明】

【図1】本発明の事例蓄積装置の原理図である。

【図2】第1の事例蓄積装置の構成図である。

【図3】第1の蓄積処理のフローチャートである。

【図4】第1の事例データテーブルを示す図である。

【図5】第2の事例蓄積装置の構成図である。

【図6】第2の蓄積処理のフローチャートである。

【図7】第2の事例データテーブルを示す図である。

【図8】第3の蓄積処理のフローチャートである。

【図9】第3の事例データテーブルを示す図である。

【図10】第1の事例蓄積システムの構成図である。

【図11】第4の蓄積処理のフローチャートである。

【図12】第2の事例蓄積システムの構成図である。

【図13】第5の蓄積処理のフローチャートである。

【図14】第3の事例蓄積装置の構成図である。

【図15】第1のデータ変換を示す図である。

【図16】第1の表示画面を示す図である。

【図17】第4の事例蓄積装置の構成図である。

【図18】第2のデータ変換を示す図である。

【図19】第2の表示画面を示す図である。

【図20】第3の事例蓄積システムの構成図である。

【図21】第3のデータ変換を示す図である。

【図22】第3の表示画面を示す図である。

【図23】第4の事例蓄積システムの構成図である。

【図24】情報処理装置の構成図である。

【図25】記録媒体を示す図である。

【符号の説明】

21 ユーザインタフェース 22 問い合わせ生成部 23 中央コントローラ 24 学習器 25 アクセスインタフェース 26 事例データベース 27 事例選択部 28 ルータ 31、41、51、61 データ変換部 32 カテゴリ付き文書 33 カテゴリなし文書 34、44、54 事例データテーブル 35、45、55 Yesボタン 36、46 Noボタン 42 タグ付きデータ 43 タグなしデータ 52 文字のわかっている画像データ 53 文字のわかっていない画像データ 56 その他ボタン 57、58 選択メニュー 62 名前つき画像データ 71 CPU 72 メモリ 73 入力装置 74 出力装置 75 外部記憶装置 76 媒体駆動装置 77 ネットワーク接続装置 78 画像入力装置 79 バス 80 可搬記録媒体 81 サーバ 82 データベース

フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06N 3/08 G06N 3/08 Z

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 正解事例の集合に関する情報を格納する
    格納手段と、 前記格納手段に格納された情報を参照しながら推論規則
    を生成し、該推論規則に従って、推論対象の事例の既知
    の特徴から目的の特徴を推論する学習手段と、 前記学習手段の推論結果が正しいか否かをユーザに問い
    合わせ、該ユーザから回答を受け取る問い合わせ手段
    と、 前記回答に基づいて前記推論対象の事例の目的の特徴を
    決定し、決定された目的の特徴を含む該推論対象の事例
    の情報を、前記正解事例の集合に関する情報に追加する
    制御手段とを備えることを特徴とする事例蓄積装置。
  2. 【請求項2】 複数の推論対象の事例に関する推論結果
    の中から、前記ユーザに問い合わせるべき事例の推論結
    果を選択する選択手段をさらに備えることを特徴とする
    請求項1記載の事例蓄積装置。
  3. 【請求項3】 前記問い合わせ手段は、複数の推論対象
    の事例に関する推論結果が正しいか否かを、通信ネット
    ワークを介して複数のユーザに問い合わせることを特徴
    とする請求項1記載の事例蓄積装置。
  4. 【請求項4】 複数の事例の各々について、既知の特
    徴、目的の特徴、およびユーザへの問い合わせが必要で
    あるか否かを表すフラグ情報を格納するための格納手段
    と、 前記格納手段に格納された情報を参照しながら、問い合
    わせが不要であることを表すフラグ情報を有する事例の
    集合から推論規則を生成し、問い合わせが必要であるこ
    とを表すフラグ情報を有する事例を推論対象として、該
    推論規則に従って該推論対象の事例の既知の特徴から目
    的の特徴を推論する学習手段と、 前記学習手段の推論結果が正しいか否かを前記ユーザに
    問い合わせ、該ユーザから回答を受け取る問い合わせ手
    段と、 前記回答に基づいて前記推論対象の事例の目的の特徴を
    決定し、該推論対象の事例のフラグ情報を、問い合わせ
    が不要であることを表すフラグ情報に変更する制御手段
    とを備えることを特徴とする事例蓄積装置。
  5. 【請求項5】 カテゴリを有する文書の集合に関する情
    報を格納する格納手段と、 前記格納手段に格納された情報を参照しながら推論規則
    を生成し、該推論規則に従って、推論対象の文書の特徴
    からカテゴリを推論する学習手段と、 前記学習手段の推論結果が正しいか否かをユーザに問い
    合わせ、該ユーザから回答を受け取る問い合わせ手段
    と、 前記回答に基づいて前記推論対象の文書のカテゴリを決
    定し、決定されたカテゴリを含む該推論対象の文書の情
    報を、前記文書の集合に関する情報に追加する制御手段
    とを備えることを特徴とする事例蓄積装置。
  6. 【請求項6】 タグづけされたテキストデータの集合に
    関する情報を格納する格納手段と、 前記格納手段に格納された情報を参照しながら推論規則
    を生成し、該推論規則に従って、推論対象のテキストデ
    ータの特徴からタグのカテゴリを推論する学習手段と、 前記学習手段の推論結果が正しいか否かをユーザに問い
    合わせ、該ユーザから回答を受け取る問い合わせ手段
    と、 前記回答に基づいて前記推論対象のテキストデータに対
    するタグのカテゴリを決定し、決定されたカテゴリを含
    む該推論対象のテキストデータの情報を、前記テキスト
    データの集合に関する情報に追加する制御手段とを備え
    ることを特徴とする事例蓄積装置。
  7. 【請求項7】 画像の集合に関する情報を格納する格納
    手段と、 前記格納手段に格納された情報を参照しながら推論規則
    を生成し、該推論規則に従って、推論対象の画像の既知
    の特徴から目的の特徴を推論する学習手段と、 前記学習手段の推論結果が正しいか否かをユーザに問い
    合わせ、該ユーザから回答を受け取る問い合わせ手段
    と、 前記回答に基づいて前記推論対象の画像の目的の特徴を
    決定し、決定された目的の特徴を含む該推論対象の画像
    の情報を、前記画像の集合に関する情報に追加する制御
    手段とを備えることを特徴とする事例蓄積装置。
  8. 【請求項8】 コンピュータのためのプログラムを記録
    した記録媒体であって、該プログラムは、 正解事例の集合に関する情報を参照しながら推論規則を
    生成し、 前記推論規則に従って、推論対象の事例の既知の特徴か
    ら目的の特徴を推論し、 推論結果が正しいか否かをユーザに問い合わせ、 前記ユーザから回答を受け取り、 前記回答に基づいて前記推論対象の事例の目的の特徴を
    決定し、 決定された目的の特徴を含む該推論対象の事例の情報
    を、前記正解事例の集合に関する情報に追加する処理を
    前記コンピュータに実行させることを特徴とするコンピ
    ュータ読み取り可能な記録媒体。
  9. 【請求項9】 正解事例の集合に関する情報を参照しな
    がら推論規則を生成し、 前記推論規則に従って、推論対象の事例の既知の特徴か
    ら目的の特徴を推論し、 推論結果が正しいか否かをユーザに問い合わせ、 前記ユーザから回答を受け取り、 前記回答に基づいて前記推論対象の事例の目的の特徴を
    決定し、 決定された目的の特徴を含む該推論対象の事例の情報
    を、前記正解事例の集合に関する情報に追加する処理を
    コンピュータに実行させるためのプログラム。
  10. 【請求項10】 正解事例の集合に関する情報をコンピ
    ュータに登録し、 前記コンピュータが、以下のa)、b)、c)、d)、
    e)、およびf)の処理を行うことを特徴とする事例蓄
    積方法。 a)登録された情報を参照しながら推論規則を生成する
    処理 b)前記推論規則に従って、推論対象の事例の既知の特
    徴から目的の特徴を推論する処理 c)推論結果が正しいか否かをユーザに問い合わせる処
    理 d)前記ユーザから回答を受け取る処理 e)前記回答に基づいて前記推論対象の事例の目的の特
    徴を決定する処理 f)決定された目的の特徴を含む該推論対象の事例の情
    報を、前記正解事例の集合に関する情報に追加する処理
JP2001019565A 2001-01-29 2001-01-29 事例蓄積装置および方法 Pending JP2002222083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001019565A JP2002222083A (ja) 2001-01-29 2001-01-29 事例蓄積装置および方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001019565A JP2002222083A (ja) 2001-01-29 2001-01-29 事例蓄積装置および方法
US09/960,298 US6549752B2 (en) 2001-01-29 2001-09-24 Apparatus and method accumulating cases to be learned

Publications (1)

Publication Number Publication Date
JP2002222083A true JP2002222083A (ja) 2002-08-09

Family

ID=18885422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001019565A Pending JP2002222083A (ja) 2001-01-29 2001-01-29 事例蓄積装置および方法

Country Status (2)

Country Link
US (1) US6549752B2 (ja)
JP (1) JP2002222083A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084096A1 (ja) * 2003-03-19 2004-09-30 Fujitsu Limited 事例分類装置および方法
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP2006338214A (ja) * 2005-06-01 2006-12-14 Sony Corp 画像処理装置、携帯型画像処理装置、印刷装置、インデックス画像示方法及びプログラム
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
WO2008072459A1 (ja) * 2006-12-11 2008-06-19 Nec Corporation 能動学習システム、能動学習方法、及び能動学習用プログラム
WO2008139622A1 (ja) * 2007-05-15 2008-11-20 Fujitsu Limited 事例生成プログラム、事例生成装置、事例生成方法
JP2009098810A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP2010250678A (ja) * 2009-04-17 2010-11-04 Hitachi Software Eng Co Ltd 納品物作成支援システム及び支援方法
JP2012103223A (ja) * 2010-11-15 2012-05-31 Nec Corp 移動端末の位置情報判別方法および装置
JP2016192007A (ja) * 2015-03-31 2016-11-10 日本電気株式会社 機械学習装置、機械学習方法、および機械学習プログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係
WO2017217038A1 (ja) * 2016-06-14 2017-12-21 ソニー株式会社 情報処理装置および記憶媒体

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7672853B2 (en) * 2002-03-29 2010-03-02 Siebel Systems, Inc. User interface for processing requests for approval
US7529680B2 (en) * 2002-03-29 2009-05-05 Siebel Systems, Inc. Screening electronic service requests
AU2005282730B2 (en) * 2004-09-01 2009-05-07 Siemens Industry, Inc. Method for an autonomous loading shovel
JP2007310860A (ja) * 2005-10-31 2007-11-29 Sony Corp 学習装置及び方法
US7720774B2 (en) * 2005-10-31 2010-05-18 Sony Corporation Learning method and apparatus utilizing genetic algorithms
US8930331B2 (en) 2007-02-21 2015-01-06 Palantir Technologies Providing unique views of data based on changes or rules
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
US8984390B2 (en) 2008-09-15 2015-03-17 Palantir Technologies, Inc. One-click sharing for screenshots and related documents
WO2012005953A1 (en) * 2010-06-28 2012-01-12 The Regents Of The University Of California Adaptive set discrimination procedure
CA2720892A1 (en) * 2010-11-12 2012-05-12 The Regents Of The University Of California Enhancing cognition in the presence of distraction and/or interruption
US8799240B2 (en) 2011-06-23 2014-08-05 Palantir Technologies, Inc. System and method for investigating large amounts of data
US8504542B2 (en) 2011-09-02 2013-08-06 Palantir Technologies, Inc. Multi-row transactions
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
JP6205757B2 (ja) * 2013-03-07 2017-10-04 オムロン株式会社 制御システム、制御装置、画像処理装置、および、制御方法
US9092482B2 (en) 2013-03-14 2015-07-28 Palantir Technologies, Inc. Fair scheduling for mixed-query loads
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
US9672257B2 (en) 2015-06-05 2017-06-06 Palantir Technologies Inc. Time-series data storage and processing database system
US9384203B1 (en) * 2015-06-09 2016-07-05 Palantir Technologies Inc. Systems and methods for indexing and aggregating data records
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
US10007674B2 (en) 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
US9753935B1 (en) 2016-08-02 2017-09-05 Palantir Technologies Inc. Time-series data storage and processing database system
US10133588B1 (en) 2016-10-20 2018-11-20 Palantir Technologies Inc. Transforming instructions for collaborative updates
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
US10223099B2 (en) 2016-12-21 2019-03-05 Palantir Technologies Inc. Systems and methods for peer-to-peer build sharing
US10417224B2 (en) 2017-08-14 2019-09-17 Palantir Technologies Inc. Time series database processing system
US10216695B1 (en) 2017-09-21 2019-02-26 Palantir Technologies Inc. Database system for time series data storage, processing, and analysis

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
EP0218218A3 (en) * 1985-10-07 1989-11-08 Sharp Kabushiki Kaisha An inputting system and an editing system in an inquiry-and-answer system
US4763277A (en) * 1986-01-17 1988-08-09 International Business Machines Corporation Method for obtaining information in an expert system
JPS6474629A (en) * 1987-09-16 1989-03-20 Toshiba Corp Inference device
JP3218637B2 (ja) 1990-07-26 2001-10-15 大正製薬株式会社 安定なリポソーム水懸濁液
JPH05233706A (ja) 1992-02-25 1993-09-10 Hitachi Ltd 文書分類保管システム
JPH05324726A (ja) 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JP3515586B2 (ja) 1992-10-16 2004-04-05 株式会社ジャストシステム 文書処理方法及び装置
JPH06348755A (ja) 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH078186A (ja) 1993-06-23 1995-01-13 Morikawa Kenkoudou Kk 脂質を除去したプロポリスの加工食品
JPH0736767A (ja) 1993-07-15 1995-02-07 Matsushita Electric Ind Co Ltd 電子ファイル装置
JPH0736897A (ja) 1993-07-22 1995-02-07 Sharp Corp 文書分類装置
JPH0749875A (ja) 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
JP2978044B2 (ja) 1993-10-18 1999-11-15 シャープ株式会社 文書分類装置
JP3068397B2 (ja) 1993-12-27 2000-07-24 日本電気株式会社 文書管理装置
JP3669016B2 (ja) 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JP3603392B2 (ja) 1995-07-06 2004-12-22 株式会社日立製作所 文書分類支援方法および装置
JPH09153049A (ja) 1995-11-29 1997-06-10 Hitachi Ltd 文書分類支援方法及び装置
WO1997044741A1 (en) * 1996-05-23 1997-11-27 The United States Of America, Represented By The Secretary, Department Of Health And Human Services, The National Institutes Of Health System and method for combining multiple learning agents to produce a prediction method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084096A1 (ja) * 2003-03-19 2004-09-30 Fujitsu Limited 事例分類装置および方法
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP2006338214A (ja) * 2005-06-01 2006-12-14 Sony Corp 画像処理装置、携帯型画像処理装置、印刷装置、インデックス画像示方法及びプログラム
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
WO2008072459A1 (ja) * 2006-12-11 2008-06-19 Nec Corporation 能動学習システム、能動学習方法、及び能動学習用プログラム
JP5187635B2 (ja) * 2006-12-11 2013-04-24 日本電気株式会社 能動学習システム、能動学習方法、及び能動学習用プログラム
JP5051223B2 (ja) * 2007-05-15 2012-10-17 富士通株式会社 事例生成プログラム、事例生成装置、事例生成方法
WO2008139622A1 (ja) * 2007-05-15 2008-11-20 Fujitsu Limited 事例生成プログラム、事例生成装置、事例生成方法
JP2009098810A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP2010250678A (ja) * 2009-04-17 2010-11-04 Hitachi Software Eng Co Ltd 納品物作成支援システム及び支援方法
JP2012103223A (ja) * 2010-11-15 2012-05-31 Nec Corp 移動端末の位置情報判別方法および装置
US8890748B2 (en) 2010-11-15 2014-11-18 Nec Corporation Method and device for discriminating among locations of a mobile terminal
JP2016192007A (ja) * 2015-03-31 2016-11-10 日本電気株式会社 機械学習装置、機械学習方法、および機械学習プログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係
WO2017217038A1 (ja) * 2016-06-14 2017-12-21 ソニー株式会社 情報処理装置および記憶媒体

Also Published As

Publication number Publication date
US6549752B2 (en) 2003-04-15
US20020102526A1 (en) 2002-08-01

Similar Documents

Publication Publication Date Title
Cohen et al. A comparison of string metrics for matching names and records
Bernstein et al. Toward intelligent assistance for a data mining process: An ontology-based approach for cost-sensitive classification
Robertson et al. The TREC 2001 filtering track report
US6859802B1 (en) Image retrieval based on relevance feedback
US7650339B2 (en) Techniques for facilitating information acquisition and storage
KR100820662B1 (ko) 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치
US5671333A (en) Training apparatus and method
EP0196064B1 (en) System for information storage and retrieval
Hofmann The cluster-abstraction model: Unsupervised learning of topic hierarchies from text data
US6070149A (en) Virtual sales personnel
US5960422A (en) System and method for optimized source selection in an information retrieval system
US7809664B2 (en) Automated learning from a question and answering network of humans
US10275714B2 (en) Image tagging based upon cross domain context
EP0692765B1 (en) Text preparing system using knowledge base and method therefor
KR100207883B1 (ko) 적응적 분류자 장치
US8671093B2 (en) Click model for search rankings
US20100135584A1 (en) Image-Based Face Search
US7512580B2 (en) Confidence indicators for automated suggestions
Smyth Case-based recommendation
US5444823A (en) Intelligent search engine for associated on-line documentation having questionless case-based knowledge base
US5758324A (en) Resume storage and retrieval system
US7519542B1 (en) System and method for modeling and applying a people network representation
US7107254B1 (en) Probablistic models and methods for combining multiple content classifiers
US20140207717A1 (en) Data classification using machine learning techniques
US20030172349A1 (en) Apparatus and method for evaluating web pages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090630