JP3449129B2 - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JP3449129B2
JP3449129B2 JP25580696A JP25580696A JP3449129B2 JP 3449129 B2 JP3449129 B2 JP 3449129B2 JP 25580696 A JP25580696 A JP 25580696A JP 25580696 A JP25580696 A JP 25580696A JP 3449129 B2 JP3449129 B2 JP 3449129B2
Authority
JP
Japan
Prior art keywords
data
similarity
evaluation
similar
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25580696A
Other languages
English (en)
Other versions
JPH10105559A (ja
Inventor
嘉則 佐藤
章 前田
牧  秀行
政文 岡田
勝美 大森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP25580696A priority Critical patent/JP3449129B2/ja
Publication of JPH10105559A publication Critical patent/JPH10105559A/ja
Application granted granted Critical
Publication of JP3449129B2 publication Critical patent/JP3449129B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベース装置
などの情報記憶装置内に格納された数値または記号で表
現されたデータの集まりから、任意の類似データを検
索、加工して、利用者に提供する方法に係り、自然現
象、人口統計等の社会的現象、株価変動等の経済的現
象、工業プラント等の化学的、物理的現象等の一般のデ
ータ管理、予測に関する。
【0002】
【従来の技術】近年の計算機技術の発達、LAN、WAN等ネ
ットワークインフラストラクチャの整備に従い、これま
で以上に大量、多種のデータを蓄積、利用する動きが活
発化しており、単にデータを蓄積して定型的な業務に利
用するだけでなく、分析業務などの非定型な業務にデー
タベースを利用するケースが現れてきた。
【0003】従来はDBMS(Database Management Syste
m)に備わった検索機能を利用して、データの集計、加
工を行ってきた。現在はDBMSはRDB(Relational Databas
e)を用いたものが最も普及しており、RDBではSQLと呼ば
れる言語をベースに機能が提供される。SQLでは複数の
表形式のデータに対する演算操作として各種集計機能を
提供する。文献としては「データベースシステム概論、
C. J. Date著、藤原譲訳、丸善株式会社」に詳しい。以
下このRDBに記載のものを従来技術1と呼ぶ。
【0004】また集計したデータの分析目的の一つとし
ては、物理的、社会的現象等の予測がある。予測手法と
しては重回帰分析、自己回帰分析等の他、大量に蓄積さ
れたデータを元に類似データを探し出し予測結果を計算
出力するものとしてMBR(Memory Based Reasoning:記憶
に基づく推論)と呼ばれる手法がある。MBRに関しては
「Craig Stanfill, DavidWaltz, TOWARD MEMORY-BASED
REASOING, Communications of the ACM, Dec 1986, V
ol.29. Number 29, pp.1213-1228」に概要が述べられて
いる。以下このMBRに関するものをを従来技術2と呼
ぶ。
【0005】従来技術2は既知のデータから未知のデー
タに類似したデータを探し出し、これらを直接用いて予
測する。古典的な予測手法、あるいはニューラルネット
ワークと比較して予測モデルの運用が容易であり、また
表形式のデータを直接予測に使うことが可能であるた
め、RDBとの親和性が高く、現状のデータベース環境で
蓄積したデータを利用しやすいという利点がある。従来
技術2を気象予測に応用した例として「毛利隆夫、田中
秀彦、記憶に基づく推論による天気予報、人工知能学会
誌、1995, Vol.19, No.5, pp.798-805」がある。
【0006】
【発明が解決しようとする課題】従来技術1は複数の表
を操作する機能、表中のデータの単純な加工、検索の機
能しか提供しない。検索キーがはっきりした定型的な作
業、例えば月別の支店毎の売り上げや、地域別の製品毎
の売り上げを集計するといった作業は、予めデータベー
ス管理者や分析の専門家によってプログラムを用意して
おくことが可能になる。しかし既に分かっているデータ
との類似データが欲しいが、検索キーがはっきりしない
場合、利用者が手作業で検索キーを絞り込みながら検索
を繰り返す必要があり、効率的な検索を行うためには、
検索キーの絞り込み方法などに経験が要求される。
【0007】従来技術2は類似データを自動的に探し出
す機能と、類似データを用いて未知のデータを予測する
機能を提供するが、高精度な予測のためには非常に多く
のデータが必要となる。しかし現実問題では常に予測対
象の基本的な構造は時間と共に変化していることがあ
り、そのため古くなってしまったデータを使用できない
といった問題が生じる。
【0008】
【課題を解決するための手段】本願第1の発明として、
複数のフィールドからなる1個以上のレコードデータを
入力する手段と、前記入力されたデータを蓄積する手段
と、1個以上の類似度判定フィールドを指定する手段
と、類似度を計算するためのデータ間距離定義を指定す
る手段と、前記類似度判定フィールドに関して、前記指
定された距離定義に従い前記入力データと類似するデー
タを蓄積データから検索する手段と、前記検索された類
似データを出力する手段と、類似度評価フィールドを指
定する手段と、前記類似度評価フィールドに関して評価
する手段と、前記評価結果を蓄積する手段と、前記蓄積
された評価結果を用いて上記出力手段を制御する手段
と、上記蓄積された類似度評価結果を検索された類似デ
ータと共に表示する手段を有することを特徴とする。
【0009】この構成のため、見つかったデータの類似
度を評価して結果を蓄積しておくことで、データがどの
程度信頼できるかを判定できる。そのため利用するたび
に検索精度が向上する効果を得られる。また蓄積した類
似度を共有することにより検索に対する利用者の経験が
不要になる。
【0010】また、本願第2の発明としては、複数のフ
ィールドからなる1個以上のレコードデータを入力する
手段と、前記入力されたデータを蓄積する手段と、1個
以上の類似度判定フィールドを指定する手段と、類似度
を計算するためのデータ間距離定義を指定する手段と、
前記類似度判定フィールドに関して、前記指定された距
離定義に従い前記入力データと類似するデータを蓄積デ
ータから検索する手段と、前記検索された類似データを
出力する手段と、類似度評価フィールドを指定する手段
と、前記類似度評価フィールドに関して評価する手段
と、前記評価結果を蓄積する手段と、前記蓄積された評
価結果を用いて上記出力手段と、入力されるレコードデ
ータの類似度評価フィールドの値が欠損している場合、
上記検索された類似データと、上記蓄積された類似度評
価結果を用いて欠損フィールド値を推論する手段を有す
ることを特徴とする。
【0011】この本願第2の発明では、従来技術2と同
様に類似データを用いて未知のデータを予測する場合、
常に得られるデータの類似度を用いて予測結果を補正す
ることが可能であり、大量のデータを得るために古いデ
ータを使わざるを得ない場合でも、高精度な予測が可能
である。
【0012】
【発明の実施の形態】以下、図面を用いて本発明の第一
の実施形態を説明する。図1は、事例を用いた情報処理
装置100の構成とデータの流れを示している。また、
図2はネットワークを介して接続されたサーバ装置、ク
ライアント装置により構成される事例を用いた情報処理
装置200を表している。201〜203はクライアン
ト処理装置、204はサーバ処理装置である。サーバ処
理装置は2台以上でもかまわないが、ここでは説明の便
宜上1台とした。
【0013】図3は、事例を用いた情報処理装置200
の詳細を示している。307はクライアント処理装置を
構成する部分であり、308はサーバ処理装置を構成す
る部分である。各クライアント処理装置に含まれる部分
は同一であるため、説明の便宜上ここでは一つの装置の
詳細を示した。
【0014】ここで、データ入力装置102、類似度判
定フィールド入力装置103、類似度評価フィールド入
力装置104、類似データ検索装置105、類似度判定
装置106、類似度評価装置107、実行結果出力装置
108、検索データ出力装置109、類似度出力装置1
10は、図1における各装置と同様である。301は接
続識別子入力装置、302クライアント側送信装置、3
03はサーバ側受信装置、305はサーバ側送信装置、
306はクライアント側受信装置である。
【0015】装置100と装置300は類似データを検
索する原理については同じであるため、以降装置300
に従って説明を行う。
【0016】図4に、装置308が格納しているデータ
の例を示す。データ401は飲料品製造向上におけるデ
ータの例であり、各行は製造を行った日、曜日、予想最
低気温、予想最高気温、最低湿度、最高湿度、予想気
圧、前日製造実績、当日の製造実績を表している。
【0017】図5に、装置300に装置307に与える
データの例を示す。データ501は類似例検索の対象と
なる入力データであり、データ502は類似判定フィー
ルドを指定するデータ、データ503は類似度評価フィ
ールドを指定するデータである。類似度判定フィールド
は類似データを見つける際に使用されるフィールドであ
り、類似度評価フィールドは見つかった類似データの良
さを評価する際に使われる。すなわち、データ400
は、利用者は供給量実績がほぼ同量で、かつその他の項
目が似ているデータを探したい場合の指定である。
【0018】図6に、装置308が格納している距離定
義、距離定義管理データの例を示す。データ601は装
置309に格納されている距離定義管理テーブル、デー
タ602は装置111に格納されている各種の距離定義
を表している。データ601はどの利用者がどの距離定
義を使用するかの対応関係が記述されている。データ6
02はデータ間の距離を測る際の、各項目が持つ重要度
を示したものである。重要度は、(0,1)の数値で表さ
れ、数値が大きいほど重要度が大きいことを意味し、重
要度が0の場合にはその項目は類似例検索の際に全く考
慮されないことを意味する。
【0019】図7のデータ700は、装置112に格納
されている類似度評価結果を示している。装置113に
格納されている各データのそれぞれのフィールド値が、
過去の検索に対してどのような類似性を持っていたかを
示しており、フィールド値が小さいほど類似度が高いこ
とを意味する。例えばフィールド値702はレコードデ
ータ701を製造実績に関して評価された類似度を表し
ており、レコードデータ703と比較すると、過去の検
索において類似性が高かったことを示している。
【0020】図8に示したデータ800は、装置108
が出力する。あるいは装置108が、表示するデータを
表している。フィールド値801は検索された類似デー
タそのもの、フィールド値802は類似度判定フィール
ドから計算された類似度、フィールド値803は類似度
評価フィールドから計算した類似度評価フィールドであ
り、過去の類似度判定がうまくいっていたかどうかを示
す度合いを意味している。すなわち、入力したデータに
関する類似度をフィールド値802が表し、類似度の信
頼度がフィールド値803に表されている。
【0021】以下図3に従って、本実施形態の概要を説
明する。まず装置308の管理者は予め記憶部113に
データを蓄積しておく。ここで管理者とはデータベース
管理者でも良いし、利用者自信でも良い。検索の際に
は、装置102、装置103、装置104に対してそれ
ぞれ入力データ501、類似度判定フィールド指定デー
タ502、類似度評価フィールド指定データ503が与
えられる。装置301に対しては利用者の識別子、クラ
イアント装置の自体の識別子、アプリケーションが持つ
識別子等が与えられる。ここでは説明の便宜上利用者の
識別子が与えられるものとする。
【0022】装置302は、データ501、502、5
03、利用者識別子を装置303に送信する。装置30
3は、受け取ったデータのうち、利用者識別子を装置3
04に与え、実際に使用する距離定義を決定する。次に
データ501、データ502、データ503、距離定義
を元に、装置105が類似データを検索する。
【0023】実際の検索は、装置106が行う。類似デ
ータの検索では、着目しているデータ中の類似度判定フ
ィールド値と入力データの類似度判定フィールド値がど
の程度異なっているかを元に計算される。また、各フィ
ールドの重要度は距離定義によって与えられる。検索結
果は、装置107により評価され、評価結果を元に記憶
部113に格納されているデータ700が更新される。
【0024】装置105の検索結果、データ801、デ
ータ802及びデータ803は、装置305により装置
306に送られる。ただし、データ803は更新される
前の過去の評価値である。装置306は、受信したデー
タを装置108に与え、装置108は内部に持つ装置1
09によりデータ801を、装置110によりデータ8
02、803を出力する。
【0025】このように、類似度評価装置117、類似
度評価値記憶部112を設け、過去の検索結果を蓄積す
ることにより、使用する度に検索精度が向上していく点
に特徴がある。
【0026】さらに、装置301、304、309によ
り利用者毎の距離定義を管理することにより、複数の利
用者の距離定義を共有することが可能となる。このた
め、検索精度が向上した結果も同様に共有することがで
きる点に本実施形態の特徴がある。
【0027】次に、データ500を入力した場合の処理
の詳細を図面を用いて説明する。図9は、本実施形態の
処理の流れを示したものである。処理901でデータ5
01が入力され、処理902でデータ502、データ5
03が入力される。ただし、処理901、処理902は
クライアント処理装置307によって行われる。装置3
07が受け取ったデータとクライアント処理装置が保持
している識別子を、処理907がサーバ処理装置308
に送信する。
【0028】処理903、904、905は、装置30
8によって行われる。処理903では、データ601を
参照して、どの距離定義を使用するかを決定する。それ
を受け処理904は、実際に検索処理を実行する。処理
904の詳細を図10に示す。
【0029】まず、処理1001で類似データを格納し
ておく一時領域をクリアする。一時領域の大きさは見つ
たい類似データ数の多さによる。最大類似データ数は利
用者が与えても良いし、サーバ処理装置の管理者が決め
ておいても良い。ここでは説明の便宜上サーバ処理装置
の管理者が予め最大類似データ数を予め決めておくもの
とする。
【0030】処理1002で、装置113に格納されて
いるデータ401から1レコード(1行)を参照する。
処理1003で、入力データと処理1002で参照した
データの類似度を判定する。例えば、入力データ、被検
索データの類似度判定フィールド値をそれぞれX、Y、
類似度判定フィールドの重要度をWとすると、ある1個
の類似度判定フィールドの距離dはd=w・(X−Y)
で与えられる。また、データ全体の距離は各フィールド
の距離の総和Dであり、使用するフィールドはデータ5
02で与えた類似度判定フィールドの指定による。また
データ同士の類似度判定値W=1/(D・D + 1)とする。
すなわち、類似度判定値を示す数値は大きいほど比較し
ているデータ同士が似ていることを意味し、全く同じデ
ータ同士では類似度判定値は1となる。
【0031】次に処理1004で、類似データ格納領域
にある検索済みの類似データと、現在参照している類似
データの類似度を比較する。現在参照中の類似データの
類似度が、検索済みの類似データ中、最も似ていないデ
ータの類似度よりも低い場合、すなわち入力データに対
してより近い場合は、処理1005において参照中の類
似データを格納領域に格納し、比較した過去の類似デー
タは消去する。
【0032】処理1006により、データ401中のデ
ータ全てが比較されるまで処理を繰り返す。
【0033】処1007では、データ503で指定さ
れている類似度指定フィールドを使い、見つかった類似
データの類似度(類似度判定値)を評価する。このとき
評価して類似性が低いと判断されたデータは、(1)類
似データとして採用しないか、(2)類似度評価値をク
ライアント装置307に送信して装置307で出力処理
を制御するか、(3)装置308で全ての類似データと
評価値を同時に表示して利用者が採用、不採用の判定を
下す等の方法があり得る。ここでは説明の便宜上、全て
の類似データと評価値を出力するものとする。
【0034】例えば、データ503に従って類似度を評
価する場合、入力データの製造実績値をZ、類似度デー
タiの製造実績値をZi、類似度をWi、Eiをデータの評
価値とする。まず、以下の(数1)が成り立つと仮定す
る。
【0035】Z=Σi(Zi・Wi)/Σi Wi +
Σi Wi・Ei…(数1) ただしiは類似データの識別番号である。第1項は類似
データの重み付け平均、第2項は補正項を意味する。処
理1007ではデータ700を参照して検索された類似
データの過去の評価値Eiを算出する。例えば、類似度
評価フィールドが製造実績であり、見つかった番号2の
データが類似データとして検索された場合、処理100
7とデータ700により類似度評価10×Wiが算出され
る。類似データと、類似度判定値、類似度評価値は処理
908によりクライアント処理装置307に送信され
る。
【0036】処理1008は、データを送信する前に、
現在の検索結果を元に類似度評価値Eiを更新する。実
際の検索結果では(数1)の左辺と右辺は常に一致する
わけではない。そこで、最近n回の類似度判定値をWij
(j=0,1,..,n。iはj回目の検索で見つかった類似データ
の識別番号)を保持しておいて左辺と右辺の違いを小さ
くするために、以下の(数2)とし、(数1)の左辺と
右辺の二乗誤差εを小さくするようEiの更新を行う。
【0037】 ε={Σj(Z-Σi(Zi・Wij)/ΣI Wij-Σi Wij・Ei)∧2}/2…(数2) ただし、a∧bはaのb乗を表す。このとき(数2)よ
り、以下の(数3)に従えば、εの極小解を得られる。
【0038】δε/δEi=(Z − Zi・Wij−
Wij・Ei)・Wi…(数3) ただし、本実施形態を初めて使用する場合は、Eiの初
期値は微少な乱数値で設定されている。
【0039】ここで、補正項を修正する際に、判定フィ
ールド値に関して似ているものは、評価値を大きく修正
し、判定フィールド値に関して似ていないものは小さく
修正することが可能になるため、あるデータが別々の入
力データの類似データとして参照された場合も正しく
(数1)を補正できる。
【0040】また、補正項のWi・Eiは、類似データi
の評価値を意味しており、Wi・Eiが小さいほど類似度
評価フィールドに関してデータ間の類似性が高く、Wi
・Eiが大きいほど類似性が低くなる。
【0041】処理908で、装置307が送信した類似
データと、類似度判定値、類似度評価値は装置308に
渡される。ここで処理906、908は装置308にお
ける処理である。処理906はデータ800に示される
情報を出力する。
【0042】このように、本実施形態では、過去の検索
の結果を用いることにより、検索を重ねる度に類似度検
索の精度が向上する。
【0043】次に、本発明の第2の実施形態を説明す
る。装置1100は、未知のフィールド値を含む入力デ
ータを受け取った場合に、類似データを検索すると同時
に未知フィールド値を予測する。図11は、事例を用い
た情報処理装置1100の構成とデータの流れを示して
いる。ここで、1105はクライアント処理装置、11
06はサーバ処理装置、1103は予測結果出力装置、
1104は類似度評価フィールド予測装置を表してい
る。1101は、図3における装置101、102、1
03、104と同様である。また、302、303、3
05、306は、図3におけるものと同様である。11
03は、図3における装置304、309、105、1
06、107、111、112、113と同様である。
【0044】図12は、装置1101に与えられる欠損
値を含む入力データの例であり、製造実績値が欠けてい
る。この他入力データとしてデータ502、503が、
1101に与えられる。これら各データは、同時に与え
られてもよい。データ502は、データの類似度を判定
するフィールドの指定であり、データ503はデータの
欠損値を含むフィールドである。
【0045】図13は、装置1100の出力結果の例で
あり、製造実績の欠損値は3700と予測されている。
また、図14のデータ1400は真値が得られたとき
に、装置1100の予測動作を評価するために入力する
データであり、装置1101に与えられる。第2の実施
の形態においては、装置1103を用いることにより、
使用する度に予測精度が向上する。
【0046】以下、図15の処理1500に従って装置
1100の処理を説明する。処理1501では、装置1
101により装置1100はデータ1200を得る。次
に、処理1502ではデータ502、503を得る。処
理1503では、データ1200、502、503を装
置1106に送信する。処理1504、1505、15
06は、処理903、904と同様であり、データ12
00の類似データ、類似度判定値、類似度評価値を得
る。ただし類似度評価フィールドが未知であるため、装
置112に格納されているデータ700は更新されな
い。処理1507は(数1)を用いて類似データから欠
損フィールド値を予測する。処理1508では、予測し
た値を装置1105に送信し、処理1508は送信され
た予測値、類似データ、類似度判定値、類似度評価値を
受け取る。処理1509は、データ1300を利用者に
出力する。データ1301は類似データ、1302は入
力データの欠損値を予測した値を表している。
【0047】次に、予測の真値が後から得られた場合の
処理1600を図16を用いて説明する。装置1100
は、処理1601、1602によりデータ1400、5
02、503を受け取る。502、503で指定するフ
ィールドは予測時に用いたものと同様である。処理16
03、1604、1605、1606は処理1503、
1504、1505、1506と同様であり、データ1
400の類似データ、類似度判定装置、類似度評価値を
得る。ただし、処理1500異なり欠損値フィールドは
存在しないため、類似度評価フィールドの指定に従っ
て、処理1606、1607により装置112に格納さ
れているデータ700は更新される。ただし処理160
6、1607は処理1007、1008と同様の処理で
ある。
【0048】このように処理1600により、次回から
同様の類似データを用いて予測をする際に、真値により
近い予測値が得られると共に、距離定義、類似データ評
価値をサーバ処理装置により複数の利用者が共有するこ
とで、予測精度が向上した結果も同様に共有することが
できる。
【0049】
【発明の効果】以上、本発明ではデータ類似度評価装
置、評価値蓄積装置を設けることで、使う度に検索精度
が向上し、かつ精度向上を複数の利用者で共有できると
いう利点がある。また類似度評価フィールド予測装置を
設けることで、類似データを用いて欠損した類似度評価
フィールドを予測することができる。後から真値が得ら
れる場合は予測精度を向上させ、精度向上の結果を複数
の利用者で共有することができる。
【図面の簡単な説明】
【図1】事例を用いた情報処理装置の全体図。
【図2】本発明を用いるクライアント/サーバ処理装置
のハードウェア構成図。
【図3】クライアント/サーバ処理装置を用いた実施の
形態の全体図。
【図4】入力データの1例を示す図。
【図5】距離定義を格納する形式を示す図。
【図6】距離定義管理テーブルを示す図。
【図7】類似度判定結果を蓄積する形式の1例を示す
図。
【図8】類似例検索の出力データ(実行結果)の1例を
示す図。
【図9】装置300での処理を示すフローチャート。
【図10】装置105での処理を示すフローチャート。
【図11】本発明の実施形態の全体図。
【図12】装置1100にあたえる入力データの1例を
示す図。
【図13】装置1100の出力データの1例を示す図。
【図14】真値の入力データの1例を示す図。
【図15】本発明における予測の仕方を示すフローチャ
ート。
【図16】本発明における類似データの検索の仕方を示
すフローチャート。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 牧 秀行 神奈川県川崎市麻生区王禅寺1099番地 株式会社日立製作所 システム開発研究 所内 (72)発明者 岡田 政文 茨城県日立市大みか町五丁目2番1号 株式会社日立製作所 大みか工場内 (72)発明者 大森 勝美 茨城県日立市大みか町五丁目2番1号 株式会社日立製作所 大みか工場内 (56)参考文献 特開 平6−95880(JP,A) 特開 平8−221113(JP,A) 特開 平10−74188(JP,A) 特開 平9−34719(JP,A) 特開 平9−34721(JP,A) 特開 平8−77010(JP,A) 特開 平9−179874(JP,A) 特開 平5−38051(JP,A) 特開 平4−372046(JP,A) 特開 平5−88714(JP,A) 特開 平6−139224(JP,A) 特開 平6−266403(JP,A) 佐藤健,岡本青史,距離情報による類 似度関数の重み学習,人工知能学会誌, 1996年 3月 1日,第11巻,第2号, 第238〜245頁 前田章,データベースからの知識発見 技術,システム/制御/情報,システム 制御情報学会,1995年 4月15日,第39 巻,第3号,第27〜32頁 前田章 ほか,プラントの高効率化・ 高品質化を目指した知的エンジニアリン グ環境,日立評論,1996年10月 1日, 第78巻,第10号,第45〜50頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】蓄積されたデータから所望のデータを検索
    する情報処理装置において、 複数のフィールドからなる1個以上のレコードデータ
    入力を受ける入力手段と、 1個以上の類似度判定フィールドに対する指定を受ける
    判定フィールド指定手段と、 類似度を計算するためのデータ間距離定義に対する指定
    を受ける距離定義指定手段と、前記レコードデータの類似度判定フィールドと前記蓄積
    されたデータの類似度判定フィールドがどの程度異なっ
    ているかを基に、前記指定された距離定義に従い、前記
    レコード データと類似する類似データを前記蓄積された
    データから検索する検索手段と、 類似度評価フィールドに対する指定を受ける評価フィー
    ルド指定手段と、前記類似データに対応する真値データを受け取り、 前記
    類似度評価フィールドに関して、前記真値データと前記
    類似データの重み付け平均の差分から前記レコードデー
    タと前記類似データの類似度を評価するための評価値を
    算出する評価手段と、前記評価手段の評価値を蓄積する蓄積手段 を備えること
    を特徴とする情報処理装置。
  2. 【請求項2】請求項1に記載の情報処理装置において、 前記評価値を前記類似データと共に表示する手段を備え
    ることを特徴とする情報処理装置。
  3. 【請求項3】請求項1に記載の情報処理装置において、 前記評価手段は、前記真値データをZ、前記類似データ
    をZi、前記類似度をWi、前記評価値をEiとした場
    合に、Z=Σi(Zi・Wi)/ΣiWi+ΣiWi・
    Eiを用いて前記評価値を算出することを特徴とする情
    報処理装置。
  4. 【請求項4】蓄積されたデータから所望のデータを検索
    する手順を情報処理装置に実行させるためのプログラム
    を格納した記憶媒体であって、 複数のフィールドからなる1個以上のレコードデータの
    入力を受ける手順と、 1個以上の類似度判定フィールドに対する指定を受ける
    手順と、 類似度を計算するためのデータ間距離定義に対する指定
    を受ける手順と、 前記レコードデータの類似度判定フィールドと前記蓄積
    されたデータの類似度判定フィールドがどの程度異なっ
    ているかを基に、前記指定された距離定義に従い、前記
    レコードデータと類似する類似データを前記蓄積された
    データから検索する手順と、 類似度評価フィールドに対する指定を受ける手順と、 前記類似データに対応する真値データを受け取り、前記
    類似度評価フィールドに関して、前記真値データと前記
    類似データの重み付け平均の差分から前記レコードデー
    タと前記類似データの類似度を評価するための評価値を
    算出する手順と、 前記評価手段の評価結果を蓄積する手順を前記情報処理
    装置に実行させるためのプログラムを格納したことを特
    徴とする記憶媒体。
  5. 【請求項5】請求項4に記載の記憶媒体において、 前記評価値を前記類似データと共に表示させる手順を前
    記情報処理装置に実行させるためのプログラムを格納し
    たことを特徴とする記憶媒体。
  6. 【請求項6】請求項4に記載の記憶媒体において、 前記評価値を算出する手順は、前記真値データをZ、前
    記類似データをZi、前記類似度をWi、前記評価値を
    Eiとした場合に、Z=Σi(Zi・Wi)/ΣiWi
    +ΣiWi・Eiを用いて前記評価値を算出するプログ
    ラムを格納したことを特徴とする記憶媒体。
JP25580696A 1996-09-27 1996-09-27 情報処理装置 Expired - Fee Related JP3449129B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25580696A JP3449129B2 (ja) 1996-09-27 1996-09-27 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25580696A JP3449129B2 (ja) 1996-09-27 1996-09-27 情報処理装置

Publications (2)

Publication Number Publication Date
JPH10105559A JPH10105559A (ja) 1998-04-24
JP3449129B2 true JP3449129B2 (ja) 2003-09-22

Family

ID=17283895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25580696A Expired - Fee Related JP3449129B2 (ja) 1996-09-27 1996-09-27 情報処理装置

Country Status (1)

Country Link
JP (1) JP3449129B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3668642B2 (ja) * 1999-06-30 2005-07-06 キヤノンシステムソリューションズ株式会社 データ予測方法、データ予測装置及び記録媒体
JP2006215674A (ja) * 2005-02-02 2006-08-17 Hitachi Plant Technologies Ltd 生産予測方法およびそのシステム
JP4821284B2 (ja) * 2005-11-18 2011-11-24 Jfeスチール株式会社 操業結果予測方法及びそのシステム
JP2009301447A (ja) * 2008-06-17 2009-12-24 Nec Corp 情報処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佐藤健,岡本青史,距離情報による類似度関数の重み学習,人工知能学会誌,1996年 3月 1日,第11巻,第2号,第238〜245頁
前田章 ほか,プラントの高効率化・高品質化を目指した知的エンジニアリング環境,日立評論,1996年10月 1日,第78巻,第10号,第45〜50頁
前田章,データベースからの知識発見技術,システム/制御/情報,システム制御情報学会,1995年 4月15日,第39巻,第3号,第27〜32頁

Also Published As

Publication number Publication date
JPH10105559A (ja) 1998-04-24

Similar Documents

Publication Publication Date Title
US6078918A (en) Online predictive memory
US8160977B2 (en) Collaborative predictive model building
US5893090A (en) Method and apparatus for performing an aggregate query in a database system
WO2002054288A1 (en) Automated adaptive classification system for bayesian knowledge networks
JP2003121581A5 (ja)
JP2007287139A (ja) 消費者に製品を推奨するためのコンピュータ実施方法及びシステム
CN113139141B (zh) 用户标签扩展标注方法、装置、设备及存储介质
CN111090686B (zh) 数据处理方法、装置、服务器和存储介质
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
JP3845553B2 (ja) データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
CN113971527A (zh) 基于机器学习的数据风险评估方法及装置
CN113342976A (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN113361954A (zh) 归因分析方法、装置、设备及存储介质
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
US20210239479A1 (en) Predicted Destination by User Behavior Learning
US6871165B2 (en) Method and apparatus for classifying time series data using wavelet based approach
JP3449129B2 (ja) 情報処理装置
Valavala et al. Automatic database index tuning using machine learning
JP4059970B2 (ja) 情報源推薦装置
Guo et al. K-loop free assignment in conference review systems
Poornima et al. Prediction of Water Consumption Using Machine Learning Algorithm
Salmam et al. Prediction in OLAP data cubes
CN114638316A (zh) 一种数据聚类方法、装置和设备

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees