JP3185167B2 - Data processing system - Google Patents

Data processing system

Info

Publication number
JP3185167B2
JP3185167B2 JP32735293A JP32735293A JP3185167B2 JP 3185167 B2 JP3185167 B2 JP 3185167B2 JP 32735293 A JP32735293 A JP 32735293A JP 32735293 A JP32735293 A JP 32735293A JP 3185167 B2 JP3185167 B2 JP 3185167B2
Authority
JP
Japan
Prior art keywords
data
attribute
classification
processing device
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32735293A
Other languages
Japanese (ja)
Other versions
JPH07182368A (en
Inventor
章 前田
仁史 芦田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP32735293A priority Critical patent/JP3185167B2/en
Publication of JPH07182368A publication Critical patent/JPH07182368A/en
Priority to US08/893,422 priority patent/US5802509A/en
Application granted granted Critical
Publication of JP3185167B2 publication Critical patent/JP3185167B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、物理的に複数のデータ
ベースに分割して格納された数値または記号で表現され
た情報の集まりを加工し、利用者にとって有用な表現に
変換して出力するデータ加工システムに関し、特に、高
速な処理を実現し、かつ利用者にデータが物理的に分割
されて格納されていることを意識させずに処理を実行す
ることができるデータ加工システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention processes a group of information represented by numerical values or symbols stored physically divided into a plurality of databases, converts the processed information into a useful expression for a user, and outputs the converted information. More particularly, the present invention relates to a data processing system that realizes high-speed processing and can execute processing without making a user aware that data is physically divided and stored.

【0002】[0002]

【従来の技術】最近の情報処理技術にはめざましいもの
があり、電子計算機内に蓄積されるデータ量や処理すべ
きデータ量は年々増大しており、特にネットワーク化が
進むにつれて、オンラインシステムを中心にこの傾向は
ますます顕著になってきている。現在では、そのデータ
量はギガバイト(=10の9乗)、レコード数にして1
00万件を超えるものも珍しくない。一般に、電子計算
機内に蓄積されたデータそのものは単なる数値や記号の
集合に過ぎず、そのままでは利用することができない。
そこで、データの有効活用を図るために、このデータの
集合を有用な情報に変換して利用者に提供するための技
術がいろいろ提案されている。その中の代表的な技術と
して、 (1)回帰分析や重相関分析といった統計的な手法(以
下、従来技術1という) (2)ニューロモデルやファジィモデルを用いて、デー
タ間の相互関係を学習させる方法(以下、従来技術2と
いう) (3)ルールインダクションなど、知識獲得手法を用い
る方法(以下、従来技術3という) などが従来から公知である。
2. Description of the Related Art Recently, there has been a remarkable information processing technology, and the amount of data stored in a computer and the amount of data to be processed are increasing year by year. This trend is becoming more pronounced. At present, the data amount is gigabyte (= 10 9), and the number of records is 1
It is not unusual to have more than one million. Generally, data itself stored in a computer is merely a set of numerical values and symbols, and cannot be used as it is.
Therefore, in order to effectively utilize the data, various techniques have been proposed for converting the set of data into useful information and providing the information to the user. Typical techniques are: (1) Statistical methods such as regression analysis and multiple correlation analysis (hereinafter referred to as Conventional Technique 1) (2) Learning the interrelationship between data using a neuro model or fuzzy model (Hereinafter referred to as Prior Art 2) (3) A method using a knowledge acquisition method such as rule induction (hereinafter referred to as Prior Art 3) is conventionally known.

【0003】上記従来技術1に関しては、広く一般的に
知られている周知の手法であり、ここで詳しく述べるこ
とはしない。上記従来技術2に関して、ニューロモデル
の学習に関しては多くの文献に記載されているが、これ
は基本的には多入力多出力の非線形関係を学習によりモ
デル化するものである。また、非線形関係の学習という
意味では、入出力関係をファジィモデルで表現し、ニュ
ーロと同様なアルゴリズムを用いて学習によりメンバシ
ップ関数の形状を調節する方法が知られている。ニュー
ロまたはファジィいずれの方法にしても、入出力関係を
あるパラメータを含むモデルで表現しておき、そのパラ
メータを学習により決めることによりモデルを構築する
ものである。
[0003] The prior art 1 is a well-known technique that is widely and generally known, and will not be described in detail here. Regarding the above prior art 2, learning of a neuro model is described in many documents, but basically, a nonlinear relationship between multiple inputs and multiple outputs is modeled by learning. In the sense of learning a non-linear relationship, a method is known in which an input / output relationship is expressed by a fuzzy model and the shape of a membership function is adjusted by learning using an algorithm similar to that of a neuro. In either the neuro or fuzzy method, the input / output relationship is represented by a model including a certain parameter, and the parameter is determined by learning to construct a model.

【0004】上記従来技術3に関しては、例えば、Spr
inger-Verlag の 「Machine Learning」,463〜482
ページに記載された“Learning Efficient Classifi
cation Procedures and Their Application to Che
ss End Games”というJ.Ross Quinlan の論文があ
る。この論文には、データから分類のための決定木を自
動的に作成するID3というアルゴリズムが述べられて
いる。また、ルールインダクション手法として、日立ク
リエイティブワークステーション2050マニュアル、
「ES/TOOL/W−RI解説/操作」の第23頁〜
第53頁にデータ間に存在する関係をルールの形で表現
する手法が詳細に説明されている。
[0004] Regarding the above prior art 3, for example, Spr
"Machine Learning" by inger-Verlag, 463-482
"Learning Efficient Classifi
cation Procedures and Their Application to Che
ss End Games ”by J. Ross Quinlan. This paper describes an algorithm called ID3, which automatically creates a decision tree for classification from data. Creative Workstation 2050 Manual,
Page 23 of "ES / TOOL / W-RI Explanation / Operation"
On page 53, a method for expressing the relationship existing between data in the form of rules is described in detail.

【0005】次に、ID3による決定木作成例を説明し
ておく。まず、全体の事例の集合Cは、 C={short,blond,blue,:+,short,dark,blue:−,tall,dark,brown:−, tall,blond,brown:−,tall,dark,blue:−,shot,blond,brown:−, tall,red,blue:+, tall,blond,blue:+} で与えられているものとする。各事例は身長(値はshor
t,tall)、髪の色(値はblond,dark,red)、目の色(blue,b
rown)という3つの属性を持ち、さらに+と−という2
つのクラスの何れかに属している。ID3は、どの属性
をどういう順番で判定すれば、事例を+または−という
クラスに分類できるかという問題を、決定木を生成する
ことにより解決しようとする。決定木の生成は、どの属
性から判定すれば最も判定後の情報量が最小になるか
(すなわち、どの属性による判定が最も多くの情報量を
持つか)という基準で属性を選んでいく。図18に、
の事例の場合に得られる決定木の例を示す。この決定木
の意味するところは次のようなものである。まず、 (a)事例を髪の色で分類せよ。 (a1)髪の色がdarkならば−である。 (a2)髪の色がredならば+である。 (a3)髪の色がblondならば、次に目の色で分類せ
よ。 (a31)目の色がblueならば+である。 (a32)目の色がbrownならば−である。 これまで、いろいろなID3の変形アルゴリズムが提案
されているが、基本的にはある基準にしたがって判定の
順序を決定するものである。
Next, a description will be given of an example of creating a decision tree based on ID3. First, a set C of all cases is C = {short, blond, blue,: +, short, dark, blue: −, tall, dark, brown: −, tall, blond, brown: −, tall, dark, Blue: −, shot, blond, brown: −, tall, red, blue: +, tall, blond, blue: +} Each case is height (value is short
t, tall), hair color (value is blond, dark, red), eye color (blue, b
rown) and two attributes + and-
Belong to one of two classes. ID3 attempts to solve the problem of determining which attributes can be classified into a + or-class by determining which attributes and in what order by generating a decision tree. In generating a decision tree, attributes are selected based on which attribute determines which information amount after determination is the smallest (that is, which attribute has the largest amount of information). FIG. 18 shows an example of a decision tree obtained in the above case. The meaning of this decision tree is as follows. First, (a) classify cases by hair color. (A1) If the hair color is dark, it is-. (A2) + if the hair color is red. (A3) If the hair color is blond, then classify it by eye color. (A31) + if the eye color is blue. (A32) If the color of the eye is brown, then-. Until now, various ID3 deformation algorithms have been proposed, but basically determine the order of determination according to a certain criterion.

【0006】上記従来技術3は、上記従来技術1および
2と異なり、データを加工した結果がルールインダクシ
ョンの場合にはルールとして、またID3の場合には決
定木として、陽に表現された形で得られることから、蓄
積されたデータに含まれている関係を利用者が発見する
のに特に有効である。これらの技術は大量データの有効
利用技術として用いられることが多くなっている。
The prior art 3 differs from the prior arts 1 and 2 in that the result of processing the data is a rule when the result is a rule induction, and a decision tree when the result is ID3. Because it is obtained, it is particularly effective for the user to discover the relationship included in the accumulated data. These techniques are often used as techniques for effectively utilizing large amounts of data.

【0007】上記のようなデータの利用技術と並行し
て、大量のデータを高速に検索することを主目的とした
並列データベース技術の開発が進んでいる。このような
並列データベース技術は、例えば、「日経エレクトロニ
クス1993年7月19日号」の第91頁〜第106頁
に記載された“並列マシン向けDBMS技術−90年代
半ばの実用化めざす”という論文に解説されている(以
下、従来技術4という)。また、利用者のインタフェー
スとして表計算ソフトを用いてデータベースの検索を行
うソフトウェア技術が、例えば、「日経コンピュータ1
993年7月12日号」の第65頁〜第75頁に記載さ
れた“サーバのRDBを直結−基幹データを表計算ソフ
トへ”と題する論文に解説されている(以下、従来技術
5という)。この論文に記載されているものでは、サー
バ処理装置と、利用者が直接使用するクライアント処理
装置をネットワークで接続し、クライアント処理装置で
は表計算ソフトが提供するインタフェースを用い、デー
タベースの検索要求が発生した場合にはSQL(Struc
tured Query Language)などで記述された検索命令を
サーバ処理装置に送り、サーバ処理装置がその要求にし
たがって検索を実行し、検索結果をクライアント処理装
置に転送している。クライアント処理装置はサーバ処理
装置から転送された検索結果を表計算の形に整形して利
用者に対して表示する。このような仕組みにより、少な
くとも検索や簡単な統計量の算出(平均値や分散など)
に関しては、利用者は全く分散データベースを意識せず
に、全てデータが手元(クライアント処理装置)にある
かのように作業することができる。
[0007] In parallel with the above-mentioned data utilization technology, development of parallel database technology mainly aimed at retrieving a large amount of data at high speed is progressing. Such a parallel database technology is described in, for example, a paper entitled "DBMS technology for parallel machines-aiming for practical use in the mid-90s" described on pages 91 to 106 of "Nikkei Electronics July 19, 1993". (Hereinafter referred to as prior art 4). Also, a software technology for searching a database using spreadsheet software as a user interface is described in, for example, “Nikkei Computer 1”.
This is described in a paper entitled "Connecting the RDB of a Server Directly-To Basic Data to Spreadsheet Software" described on pages 65 to 75 of the July 12, 993 issue (hereinafter referred to as Prior Art 5). ). In this paper, a server processing device and a client processing device directly used by a user are connected via a network, and the client processing device generates a database search request using an interface provided by spreadsheet software. SQL (Struc
A search command described in “tured query language” or the like is sent to the server processing device, the server processing device executes a search according to the request, and transfers the search result to the client processing device. The client processing device formats the search result transferred from the server processing device into a spreadsheet form and displays it to the user. With such a mechanism, at least search and simple calculation of statistics (average value, variance, etc.)
With regard to, the user can work as if all data is at hand (client processing device) without being aware of the distributed database at all.

【0008】[0008]

【発明が解決しようとする課題】上記従来技術1および
2は、電子計算機内に蓄積されたデータを回帰分析、統
計処理または学習処理によって加工する技術であるが、
加工した結果を利用者がどのように利用するかなど、そ
の利用方法については特に考慮されていなかった。それ
に対して、従来技術3のルールインダクションやID3
アルゴリズムなどの知識獲得手法を用いる方法では、加
工された結果は利用者にとって有用なものになりうる
が、この技術は主にどのようなデータ加工手段を用いれ
ば有用な情報を得ることができるかという点に関するも
のであり、従来技術4で扱っているような並列データベ
ースの上でどのように実行するかという点については、
これまで検討されることがなかった。
The prior arts 1 and 2 are techniques for processing data stored in an electronic computer by regression analysis, statistical processing, or learning processing.
No particular consideration was given to how to use the processed result, such as how the user would use it. On the other hand, the rule induction and ID3 of the prior art 3
In a method that uses an algorithm or other knowledge acquisition method, the processed result can be useful to the user, but this technology mainly uses what kind of data processing means to obtain useful information. And how to execute it on a parallel database as dealt with in prior art 4
It has never been considered before.

【0009】一方、従来技術4の並列データベース技術
は、いわゆるオンラインシステムにおけるトランザクシ
ョン処理と、オフライン処理におけるデータ検索処理
を、いかに並列ハードウェアを用いて高速に実行するか
に主眼がおかれたものであり、上記従来技術1〜3のよ
うに大量のデータを高度に加工するような処理を、ハー
ドウェアの並列性を生かして高速に実行するような手段
についてはこれまで知られていない。したがって、従来
技術3の知識獲得手法を従来技術4の並列データベース
に適用することによる生じる効果は、単に、データの検
索の高速化という並列データベース本来の効果に限られ
ていた。このように、従来は、ハードウェアが本来持っ
ている並列能力を生かした方法については知られておら
ず、したがって、従来技術3の知識獲得手法を十分高速
に実行することができないという問題点があった。本発
明の第1の目的は、上記の問題点を解決し、並列・分散
データベース上で高速に実行可能なデータ加工方法およ
び装置を提供することにある。
On the other hand, the parallel database technology of the prior art 4 focuses on how to execute transaction processing in a so-called online system and data retrieval processing in an offline processing at high speed using parallel hardware. There is no known means for executing a process for processing a large amount of data at a high speed by utilizing hardware parallelism as in the above-described prior arts 1 to 3 at a high speed. Therefore, the effect obtained by applying the knowledge acquisition method of the prior art 3 to the parallel database of the prior art 4 is simply limited to the original effect of the parallel database, that is, speeding up data retrieval. As described above, conventionally, there is no known method that makes use of the inherent parallel capability of hardware, and therefore, there is a problem that the knowledge acquisition method of the related art 3 cannot be executed sufficiently fast. there were. A first object of the present invention is to solve the above-mentioned problems and to provide a data processing method and apparatus which can be executed at high speed on a parallel / distributed database.

【0010】また、一般に、新規なデータを抽出収集し
て蓄積するのには多大な手間、時間、およびコストがか
かるため、既存のデータ資産をいかに有効に利用するか
が重要な技術的課題となっている。例えば、同一の会社
の中でも、異なる部門毎にそれぞれ別個の情報をまった
く別のデータベースとして構築していることがある。こ
の場合、データベースは物理的にも遠く離れ、まったく
別種のハードウェア上に、まったく別種のソフトウェア
を用いて構築されていることさえある。上記の従来技術
3においては、データは処理を実行する処理装置上に存
在すると仮定していた。すなわち、従来技術3を適用す
るためには、分散したハードウェア上にある関連データ
を切り出して、1つの処理装置上に集めてくる処理が必
要になる。現在では、処理装置はネットワークで接続さ
れていることが多いが、それでも関係するデータを集め
たデータベースをデータ加工を試みる毎に定義して構成
するというのは、そのために時間を要し、また、ネット
ワークの負荷としても、また人的作業の点からも、非常
にコストがかかるという問題点があった。上記従来技術
3を利用する側から見た場合、利用者は様々な目的を達
成するためにデータ加工を行うのであって、そのための
データの準備に多くの時間、コストをかけるというのは
非効率的であり、さらに、これらの技術の有効性を十分
に生かしきれていないという問題点があった。
[0010] In general, extracting, collecting, and accumulating new data requires a great deal of labor, time, and cost. Therefore, it is important to effectively use existing data assets. Has become. For example, even in the same company, different information may be constructed as completely different databases for different departments. In this case, the database is physically far away, and may even be built on completely different hardware, using completely different software. In the above-described related art 3, it is assumed that data exists on a processing device that executes processing. That is, in order to apply the related art 3, it is necessary to perform a process of extracting related data on distributed hardware and collecting the related data on one processing device. At present, processing devices are often connected via a network, but it is still time-consuming to define and configure a database that collects related data each time data processing is attempted, There is a problem in that it is very costly both in terms of network load and human work. From the viewpoint of the user using the above-mentioned conventional technology 3, the user processes data in order to achieve various purposes, and it is inefficient to spend much time and cost to prepare data for that purpose. In addition, there has been a problem that the effectiveness of these technologies has not been fully utilized.

【0011】上記問題点を、データベース検索の場合に
解決しようとする技術が上記従来技術5である。しかし
ながら、この従来技術5の対象とするのは、あくまでも
通常の表計算で用いるような処理だけであり、上記従来
技術3で対象としているような高度なデータ加工処理に
対しては対策がなされていなかった。例えば、ルールイ
ンダクションによるルール抽出処理を実行しようとする
と、クライアント処理装置上の処理でデータを参照する
たびにサーバ処理装置へのデータ要求が発生するため、
ネットワークの負荷は非常に重くなり、ほとんど実用的
な処理速度にはならないという問題点がある。特に、デ
ータベースが遠く離れた場所にある場合、例えば、ある
データベースが東京に、また別のデータベースが大阪に
存在するような場合には、この問題点はより顕著になっ
て現れる。本発明の第2の目的は、上記の問題点を解決
し、利用者にとっては物理的なデータの存在場所を意識
することなく、ネットワークで接続されたサーバ処理装
置上のデータを用いて、ルールインダクションなどの手
法を用いてデータ間の関係を利用者にとって有用な形に
加工することができ、またこれらの処理をネットワーク
に接続された処理装置の処理能力を有効に活用すること
により、高速に実行する方式および装置を提供すること
にある。
The above-mentioned prior art 5 is a technique for solving the above problem in the case of a database search. However, the object of the prior art 5 is only processing that is used in ordinary spreadsheets, and measures are taken against the advanced data processing that is the object of the prior art 3. Did not. For example, when trying to execute rule extraction processing by rule induction, a data request to the server processing apparatus is generated every time data is referenced in processing on the client processing apparatus.
There is a problem that the load on the network becomes very heavy, and the processing speed is hardly practical. In particular, when the database is located far away, for example, when one database is located in Tokyo and another database is located in Osaka, this problem becomes more prominent. A second object of the present invention is to solve the above-mentioned problem, and to use a rule on a server processing device connected via a network without using a user to be aware of the location of physical data. By using techniques such as induction, the relationships between data can be processed in a form that is useful to users, and these processes can be performed at high speed by effectively utilizing the processing capabilities of processing devices connected to the network. An object of the present invention is to provide a method and a device for performing the method.

【0012】[0012]

【課題を解決するための手段】本発明は、上記目的を達
成するために、クライアント処理装置複数のサーバ処
理装置とを接続したデータ加工システムにおいて、クラ
イアント処理装置は、前記複数のサーバ処理装置に分類
処理要求を送出する手段を有し、前記要求を受けた複数
のサーバ処理装置は、分類処理をそれぞれ並列に実行す
る手段、および処理結果を前記クライアント処理装置に
伝達する手段を有し、クライアント処理装置は、さら
に、受付けた前記処理結果を合成する手段、および合成
した結果を用いて所定の処理を実行する手段を有してい
る。また、クライアント処理装置は、データベースに格
納されたテーブル形式のデータに含まれるデータ項目の
値を分類するための分類規則を指定する分類規則指定手
段と、前記指定された分類規則をサーバ処理装置に伝達
する第1の伝達手段とを有し、サーバ処理装置は、前記
伝達された分類規則に基づいてそれぞれのデータベース
に格納されているデータを分類する分類実行手段と、分
類された結果をクライアント処理装置に伝達する第2の
伝達手段とを有し、クライアント処理装置は、さらに、
前記伝達された分類結果を合成する手段と、前記合成さ
れた分類結果に基づいてデータ項目間の関係を分析する
分析手段と、分析された結果を出力する出力手段とを有
している。
The present invention SUMMARY OF], in order to achieve the above object, in a data processing system connecting a client processor and a plurality of server processing apparatuses, Kura
Client processing devices are classified into the plurality of server processing devices.
A means for sending a processing request;
Server processing devices execute the classification processes in parallel.
Means and a processing result to the client processing device.
Means for communicating, the client processing device further comprising
Means for synthesizing the received processing result, and synthesizing
Means for executing predetermined processing using the results obtained.
You. The client processing device is stored in the database.
Of data items included in stored table format data
Classification rule specification method that specifies a classification rule for classifying values
And transmitting the specified classification rule to the server processing device.
And a first transmission unit that performs
Each database based on the transmitted classification rules
Classification executing means for classifying the data stored in the
Second step of transmitting the classified result to the client processing device
Transmission means, and the client processing device further comprises:
Means for synthesizing the transmitted classification results;
Analyze relationships between data items based on classified results
Analysis means, and output means for outputting the analyzed result.
are doing.

【0013】[0013]

【作用】本発明は、上記各手段、特に、テーブル形式の
データに含まれるデータ項目の値を分類するための分類
規則を指定する分類規則指定手段と、分類規則指定手段
により指定された分類規則を上記サーバ処理装置に伝達
する第1の伝達手段と、サーバ処理装置において上記伝
達された分類規則にしたがってそれぞれのデータベース
に格納されているデータに対して分類処理を実行する分
類実行手段と、分類実行手段によって分類された結果を
クライアント処理装置に伝達する第2の伝達手段と、ク
ライアント処理装置に伝達された分類結果を合成して処
理対象であるテーブル形式のデータに対する分類結果を
生成する手段と、生成された分類結果を用いてデータ項
目間の関係を分析する分析手段とを有することによっ
て、時間のかかる処理を並列に実行することができ、か
つ利用者には並列処理を全く意識させることなく、また
大量のデータ自身を転送することがなく、目的の処理を
実行することができる。また、ルールインダクションに
適用した場合、ルールインダクションの処理自身はクラ
イアント処理装置上で実行されるが、クライアント処理
装置上には各データベース上で分類された結果だけを保
持していればいいので、ネットワークの負荷を増大させ
ることなく、目的の処理を実行することができる。さら
に、利用者は使用しようとするデータが物理的にどのデ
ータベース上に存在するかということは全く意識するこ
となく処理を実行し、かつ適切な処理結果を得ることが
できる。
According to the present invention, there is provided a classification rule designating means for designating a classification rule for classifying a value of a data item included in table format data, and a classification rule designated by the classification rule designating means. Transmission means for transmitting to the server processing device, classification execution means for performing classification processing on data stored in each database in the server processing device according to the transmitted classification rules, Second transmission means for transmitting the result classified by the execution means to the client processing device; means for synthesizing the classification result transmitted to the client processing device to generate a classification result for the tabular data to be processed; And analysis means for analyzing the relationship between data items using the generated classification results, so that time-consuming processing is possible. The can be performed in parallel, and without completely transparent parallel processing to the user, also without having to transfer large amounts of data itself, it is possible to perform the process of interest. Also, when applied to rule induction, the rule induction processing itself is executed on the client processing device. However, since it is sufficient for the client processing device to hold only the results classified on each database, network The target processing can be executed without increasing the load on the server. Further, the user can execute the process without any awareness of the database on which the data to be used physically exists, and obtain an appropriate process result.

【0014】[0014]

【実施例】まず、本発明の実施例の概略を説明する。図
1は本発明を実施するための全体構成である。図1にお
いて、101は本発明のデータベース加工装置を利用す
る利用者、102はクライアント処理装置、103〜1
06はサーバ処理装置、107〜110はそれぞれサー
バ処理装置103〜106に接続されているデータベー
ス、111はクライアント処理装置とサーバ処理装置を
接続するバスである。複数のデータベース107〜11
0は互いに独立なDBMS(Date Base Management
System)で管理されている場合であっても、全くネッ
トワーク上で統一した管理を行う並列DBMSで管理さ
れている場合であってもよい。ここでは前者の場合を例
にとって説明する。また、説明の便宜上、データは図2
に示したように複数の属性からなる複数のレコード(行
に対応)によって記述されており、それら複数のレコー
ドは複数のデータベースに分割されて格納されているも
のとする(図2では、それぞれK個の属性を有するM個
のレコードが3個のデータベースに分割されて格納され
ることを示している)。
DESCRIPTION OF THE PREFERRED EMBODIMENTS First, an embodiment of the present invention will be outlined. FIG. 1 shows an overall configuration for implementing the present invention. In FIG. 1, 101 is a user who uses the database processing apparatus of the present invention, 102 is a client processing apparatus, and 103 to 1
06 is a server processing device, 107 to 110 are databases connected to the server processing devices 103 to 106, respectively, and 111 is a bus connecting the client processing device and the server processing device. Multiple databases 107 to 11
0 is an independent DBMS (Date Base Management)
System) or may be managed by a parallel DBMS that performs unified management on a network at all. Here, the former case will be described as an example. For convenience of explanation, data is shown in FIG.
Is described by a plurality of records (corresponding to rows) having a plurality of attributes as shown in FIG. 2, and the plurality of records are divided and stored in a plurality of databases (in FIG. M records having attributes are divided and stored in three databases.)

【0015】例えば、クライアント処理装置102で
は、複数のデータベース107〜110に分散されて格
納されているデータに対して、仮想的に一つのまとめ上
げられた表のイメージで表示することができる(従来技
術5)。このとき、利用者は、その表イメージのデータ
に対して、例えば、ルールインダクションによる分類ル
ールの抽出を行うものとする。複数のデータベース上に
蓄積されているデータは一般に膨大なものであるから、
クライアント処理装置に全てのデータを転送することは
処理時間とコストの点から一般には行うことができな
い。
For example, in the client processing device 102, data distributed and stored in a plurality of databases 107 to 110 can be virtually displayed as one combined table image (conventionally. Technology 5). At this time, it is assumed that the user extracts a classification rule from the table image data by, for example, rule induction. Since the data stored in multiple databases is generally huge,
Transferring all data to the client processing device is generally not possible due to processing time and cost.

【0016】そこで、本発明では、クライアント処理装
置上で動作するルールインダクション処理が、ある属性
または属性値による分類結果を求める処理要求を複数の
サーバ処理装置に送信する。処理要求の形式は、例え
ば、一般によく知られているSQL(Structured Que
ry Language)文の形式でもよい。複数のサーバ処理装
置は、クライアント処理装置から要求された処理をそれ
ぞれ並列に実行し、処理結果をクライアント処理装置に
伝達する。ルールインダクション処理の場合、この処理
結果は、クライアント処理装置によって指定された属性
または属性値によって各データベース中のレコードを分
類した結果を、例えば、レコード番号と分類結果の対応
表の形で表現されている。クライアント処理装置は、複
数のサーバ処理装置から伝達された処理結果をまとめ上
げることにより、以後のルールインダクションに必要な
情報、すなわちそれぞれの属性または属性値による全レ
コードの分類表をクライアント処理装置上に作成するこ
とができる。したがって、データベースに蓄積された情
報自身をクライアント処理装置に転送することなしに、
分類結果だけをクライアント処理装置上にもつことによ
って、ネットワークの負荷を軽減し、高速に処理をする
ことが可能になる。
Therefore, in the present invention, the rule induction processing operating on the client processing device transmits a processing request for a classification result based on a certain attribute or attribute value to a plurality of server processing devices. The format of the processing request is, for example, generally known SQL (Structured Que).
ry Language) statement. The plurality of server processing devices execute the processing requested from the client processing device in parallel, and transmit the processing result to the client processing device. In the case of rule induction processing, the processing result is obtained by classifying the records in each database according to the attribute or attribute value specified by the client processing device, for example, in the form of a correspondence table of record numbers and classification results. I have. The client processing device summarizes the processing results transmitted from the plurality of server processing devices, and stores information necessary for subsequent rule induction, that is, a classification table of all records according to each attribute or attribute value on the client processing device. Can be created. Therefore, without transferring the information itself stored in the database to the client processing device,
By having only the classification results on the client processing device, the load on the network can be reduced and processing can be performed at high speed.

【0017】また、このような処理を行わずに、クライ
アント処理装置が直接ルールインダクションを実行した
場合には、ルールインダクション処理の進行に従って複
数のサーバ処理装置への検索要求が逐次伝達されること
になり、やはりネットワークの負荷が非常に大きくな
り、結果としてルールインダクション処理に要する時間
が多大なものになってしまう。本発明で設けた手段によ
り、このようなオーバヘッドを低減できるので、高速な
処理を実現することができる。
When the client processing device directly executes the rule induction without performing such processing, the search request is sequentially transmitted to a plurality of server processing devices as the rule induction process proceeds. As a result, the load on the network also becomes extremely large, and as a result, the time required for the rule induction processing is increased. With the means provided in the present invention, such overhead can be reduced, so that high-speed processing can be realized.

【0018】以下、本発明の実施例の詳細な動作を説明
する。実施例の説明にあたって、まず、ルールインダク
ションの動作原理について説明しておく。詳細について
は、例えば、上述した文献、日立クリエイティブワーク
ステーション2050マニュアル、「ES/TOOL/
W−RI解説/操作」第23頁〜第53頁に解説されて
いる。図3はルールインダクションの入力となる事例テ
ーブルの例である。ルールインダクションの入力となる
事例テーブル200において、各行がそれぞれ一つの事
例に対応している。この例では、クレジットの申し込み
がそれぞれ一件の事例に対応する。それぞれの事例は1
つまたは複数の属性をもっている。図3の例では、「銀
行の信用」201、「預金残高」202、「現在の負
債」203、「クレジット査定」204という4つの属
性がある。それぞれの属性は、あらかじめ定められた形
式の属性値をもつ。図3の例では、「銀行の信用」20
1という属性は「有」と「無」という2つの属性値のい
ずれかの値をもつ。このような属性を「記号属性」と呼
ぶ。それに対して「預金残高」202と「現在の負債」
203という属性は数値で表される属性、すなわち、数
値属性をもっている。一般の事例テーブルでは、記号属
性と数値属性が混在する。また、図3の例において、事
例の中にはその属性の一部が不明なものも存在する(参
照符号205参照)。これを「欠損値」と呼ぶ。
Hereinafter, the detailed operation of the embodiment of the present invention will be described. In describing the embodiment, first, the operating principle of rule induction will be described. For details, see, for example, the above-mentioned documents, Hitachi Creative Workstation 2050 Manual, “ES / TOOL /
W-RI Explanation / Operation ", pp. 23-53. FIG. 3 is an example of a case table for inputting rule induction. In the case table 200 that is an input of the rule induction, each row corresponds to one case. In this example, each credit application corresponds to one case. Each case is 1
Have one or more attributes. In the example of FIG. 3, there are four attributes of “bank credit” 201, “deposit balance” 202, “current debt” 203, and “credit assessment” 204. Each attribute has an attribute value in a predetermined format. In the example of FIG. 3, “bank credit” 20
The attribute 1 has one of two attribute values, “present” and “absent”. Such an attribute is called a “symbol attribute”. "Deposit balance" 202 and "current debt"
The attribute 203 has an attribute represented by a numerical value, that is, a numerical attribute. In a general case table, a symbol attribute and a numerical attribute are mixed. In addition, in the example of FIG. 3, some of the attributes of some of the cases are unknown (see reference numeral 205). This is called a “missing value”.

【0019】ルールインダクションの実行にあたって
は、まずどの属性を結論属性とするかを指定する。図3
の例では、「クレジット査定」を自動的に判別するシス
テムを作ることを目的として、「クレジット査定」とい
う属性が結論属性として指定されるものとする。一般の
ルールインダクション処理では結論属性は記号属性でな
ければならない。さらに、各事例における結論属性の属
性値を説明するために入力として扱われる説明属性を指
定する。図3の例では、結論属性以外の属性をすべて説
明属性として扱うものとする。もちろん、事例テーブル
中の一部分だけを説明属性として指定することもでき
る。
In executing the rule induction, first, it is specified which attribute is to be a conclusion attribute. FIG.
In the example, it is assumed that an attribute "credit assessment" is designated as a conclusion attribute for the purpose of creating a system for automatically determining "credit assessment". In general rule induction processing, the conclusion attribute must be a symbol attribute. Furthermore, an explanation attribute is designated which is treated as an input to explain the attribute value of the conclusion attribute in each case. In the example of FIG. 3, all attributes other than the conclusion attribute are treated as explanatory attributes. Of course, only a part of the case table can be designated as the description attribute.

【0020】図3のような事例テーブルにおいて、事例
の数(行の数)が大きくなるにつれて、数値属性をその
まま扱うことが困難になってくる。そこで、数値属性を
記号属性に置き換える「ラベル付与処理」をルールイン
ダクション処理に先立って行うことがある。ラベル付与
処理とは、数値属性をもつ属性に対して、例えば、適当
な区間分割を行って、各区間にラベルと呼ばれる記号を
割り当てることによって数値を記号に置き換える処理の
ことを指す。図4はこのようなラベル付与処理を行って
すべての属性を記号属性に置き換えた事例テーブルの例
である。これは、「預金残高」208が1000万円以
上を「大」、1000万未満で正のものを「中」、預金
残高マイナスのものを「小」とした例である。「現在の
負債」に関しては、8000万円以上を「大」、800
0万円未満かつ4000万円以上のものを「中」、40
00万円未満のものを「小」としてラベル付与した場合
である。
In the case table as shown in FIG. 3, as the number of cases (the number of rows) increases, it becomes more difficult to handle numerical attributes as they are. Therefore, a “label assignment process” for replacing a numerical attribute with a symbol attribute may be performed prior to the rule induction process. The label assigning process refers to a process of, for example, performing appropriate section division on an attribute having a numeric attribute and assigning a symbol called a label to each section to replace a numerical value with a symbol. FIG. 4 shows an example of a case table in which all attributes are replaced with symbol attributes by performing such labeling processing. This is an example in which the “deposit balance” 208 is “large” for 10 million yen or more, “medium” for a positive one less than 10 million yen, and “small” for a negative deposit balance. Regarding “current debt”, 800 million yen or more is “large”, 800
"Middle" for items less than ¥ 100,000 and more than ¥ 40 million, 40
This is a case where a label of less than one million yen is labeled as “small”.

【0021】このように、実数または整数の値を持つデ
ータ項目に対してはそれぞれ上限値および下限値を指定
することによっていくつかのグループに分類することが
できる。また、上限値および下限値を指定する際に、各
グループが同じ数、ほぼ同じ数になるように分割するよ
うにしてもよい。ラベル付与処理によって、数値属性の
細かな差を無視し、大きく分類した記号属性値にしたが
って属性間の関係を解析することができる。特に事例数
が大きな事例テーブルに対しては、処理時間の点でも出
力される分類ルールの有用性という点でも有効である。
また、文字列としての値を持つデータ項目に対しては、
予めいくつかの文字列を決めておき、そのいずれかの文
字列に変換することによって適当な数のグループに分類
することができる。
As described above, data items having real or integer values can be classified into several groups by designating upper and lower limits, respectively. When specifying the upper limit value and the lower limit value, the groups may be divided so that each group has the same number or almost the same number. By the labeling process, it is possible to disregard the small difference between the numerical attributes and analyze the relation between the attributes according to the symbol attribute values which are largely classified. In particular, for a case table with a large number of cases, it is effective in terms of the processing time and the usefulness of the classification rules output.
Also, for data items that have a value as a string,
Some character strings are determined in advance, and the character strings can be classified into an appropriate number of groups by converting to any one of the character strings.

【0022】次に、ルールインダクション処理では、結
論属性として指定された属性の属性値を、できるだけう
まく説明するような説明属性値の組を見つけ、それをル
ールとして抽出する処理を行う。この処理にはさまざま
なオプションがあり、それらのオプションを適当に設定
することにより、利用者にとってより有用なルールを抽
出することができる。ここではこれらのオプションにつ
いては説明しない。詳細は上記文献、日立クリエイティ
ブワークステーション2050マニュアル、「ES/T
OOL/W−RI解説/操作」の第23頁〜第53頁に
記載されている。
Next, in the rule induction process, a process of finding a set of explanatory attribute values that best describes the attribute value of the attribute specified as the conclusion attribute, and extracting it as a rule is performed. There are various options in this processing, and by setting those options appropriately, rules more useful to the user can be extracted. These options are not described here. For details, refer to the above document, Hitachi Creative Workstation 2050 Manual, "ES / T
OOL / W-RI Explanation / Operation ", page 23 to page 53.

【0023】図5(a)、(b)は、ルールインダクシ
ョン処理によって抽出されたルールの一例である。ルー
ルインダクションの内部処理についてはさまざまな方式
が提案されているが、基本的には、1つまたは複数の属
性が特定の属性値(または属性値の組)をもつ事例の数
をベースにして、結論属性を最もよく分類する属性値の
組を見つける処理からなる。したがって、ルールインダ
クション処理を実行するに当たっては、各事例の各属性
がどの記号属性値をもつかという対応表があれば十分で
あることが分かる。すなわち、ルールインダクションの
初期処理において、このような対応表を準備しておけ
ば、それ以後の処理は全てこの対応表だけに基づいて実
行することができる。
FIGS. 5A and 5B are examples of rules extracted by the rule induction process. Various methods have been proposed for the internal processing of rule induction, but basically, based on the number of cases where one or more attributes have a specific attribute value (or set of attribute values), Conclusion Consists of a process for finding a set of attribute values that best classifies attributes. Therefore, in executing the rule induction process, it is sufficient that there is a correspondence table indicating which symbol attribute value each attribute of each case has. That is, in the initial processing of the rule induction, if such a correspondence table is prepared, all subsequent processing can be executed based on only this correspondence table.

【0024】図6にこのような対応表211の例を示
す。図6の対応表の各行は、図3の事例テーブルと同様
にそれぞれが一つの事例に対応する。図6の各列は、そ
れぞれ属性「銀行の信用」213、「預金残高」21
4、「現在の負債」215、「クレジット査定」216
に対応している。対応表211の各成分は、対応する事
例の対応する属性値がどの値をもつかを表すラベルコー
ドを示している。図6では簡単のため、事例を区別する
ためにユニークな事例番号(レコード番号)212を付
与してある。また、対応表211の各成分の値がどの記
号属性値に対応するかは、図7に示したような別の対応
表で管理することができる。図7において、(a)は銀
行の信用の各成分(無/有)と記号属性値(0/1)の
対応表、(b)は預金残高の各成分(小/中/大/不
明)と記号属性値(0/1/2/3)の対応表、(c)
は現在の負債の各成分(小/中/大)と記号属性値(0
/1/2)の対応表、(d)はクレジット査定の各成分
(不可/可)と記号属性値(0/1)の対応表である。
FIG. 6 shows an example of such a correspondence table 211. Each row of the correspondence table of FIG. 6 corresponds to one case, similarly to the case table of FIG. Each column in FIG. 6 includes attributes “bank credit” 213 and “deposit balance” 21
4. “Current debt” 215, “Credit assessment” 216
It corresponds to. Each component of the correspondence table 211 indicates a label code indicating which value the corresponding attribute value of the corresponding case has. In FIG. 6, for the sake of simplicity, a unique case number (record number) 212 is assigned to distinguish cases. Further, which symbol attribute value corresponds to the value of each component in the correspondence table 211 can be managed by another correspondence table as shown in FIG. In FIG. 7, (a) shows a correspondence table between bank credit components (no / existence) and symbol attribute values (0/1), and (b) shows deposit balance components (small / medium / large / unknown). And correspondence table of symbol attribute values (0/1/2/3), (c)
Is the component (small / medium / large) of the current debt and the symbol attribute value (0
(D) is a correspondence table of each component (impossible / acceptable) of the credit assessment and the symbol attribute value (0/1).

【0025】ここで重要なのは、各属性に対する属性値
が何種類の値をとるかに応じて、ラベルコードのとる値
は一般に数ビットで表現できることである。図3の事例
テーブル自身は、例えば、「クレジット査定」の属性に
対して、“不可”という文字を表すために4バイト(全
角漢字2つ分)のデータ量を割り当てる必要がある。そ
れに対して、図6の対応表のラベルコードは“1”と
“0”を識別できるだけでよいから、基本的には1ビッ
トでよい。したがって、ルールインダクションを非常に
大量の事例に対して実行する場合、図3または図4の事
例テーブルから図6の対応表にあらかじめ変換しておく
ことにより、効率のよい処理が可能になる。以上、ルー
ルインダクション処理の概要について説明した。ID3
などの分類の決定木を作成するアルゴリズムも、上記の
対応表の参照だけで実行できることはいうまでもない。
What is important here is that the value taken by the label code can be generally expressed by several bits, depending on how many kinds of values the attribute value for each attribute takes. In the case table itself shown in FIG. 3, for example, it is necessary to allocate a data amount of 4 bytes (two full-width kanji characters) to represent the character “impossible” for the attribute of “credit assessment”. On the other hand, the label code in the correspondence table in FIG. 6 only needs to be able to discriminate between “1” and “0”, and thus basically needs to be 1 bit. Therefore, when the rule induction is executed for a very large number of cases, efficient processing can be performed by converting the case table of FIG. 3 or 4 into the correspondence table of FIG. 6 in advance. The outline of the rule induction processing has been described above. ID3
It goes without saying that an algorithm for creating a decision tree for classification such as that described above can be executed only by referring to the above correspondence table.

【0026】さて以上の処理は、本発明の手段を用いる
ことによって、図1に示したような環境で実行すること
ができる。すなわち、図1の構成では、ルールインダク
ション処理を実行するクライアント処理装置と、データ
の存在するサーバ処理装置が物理的に異なる処理装置で
あることと、またデータ自身も複数のサーバ処理装置に
分散して格納されているから、上記の処理をそのまま単
純に実行することはできない。全ての関係するデータを
クライアント処理装置上に転送し、クライアント処理装
置上で処理を集中的に行うことができれば話は簡単であ
るが、特に大量のデータを扱う場合や、データベース自
身が物理的に遠く離れた場所にあってデータ転送に大き
なコストがかかる場合には実際的ではない。
The above processing can be executed in an environment as shown in FIG. 1 by using the means of the present invention. That is, in the configuration of FIG. 1, the client processing device that executes the rule induction processing and the server processing device where the data exists are physically different processing devices, and the data itself is distributed to a plurality of server processing devices. Therefore, the above processing cannot be simply executed as it is. If all relevant data can be transferred to the client processing unit and the processing can be centralized on the client processing unit, it is easy to talk about, but especially when dealing with a large amount of data, the database itself is physically This is not practical if the data transfer is far away and the data transfer is expensive.

【0027】以下、本発明の第1実施例を詳細に説明す
る。第1実施例は、図1および図2の構成においてルー
ルインダクション処理を高速かつ効率的に実行するもの
である。図8に事例テーブル220の構成例を示す。こ
の例では、事例を区別する「事例番号」221、各事例
の属性値として、「氏名」222、「氏名コード」22
3、「銀行の信用」224、「預金残高」225、「年
収」226、「現在の負債」227、「年齢」228、
「性別」229、「住所」230、「配偶者の有無」2
31、「扶養家族人数」232、「職業」233、「最
終学歴」234、「住居の種類」235、「クレジット
カード保有枚数」236、「利用実績」237、「クレ
ジット査定」238からなっている。
Hereinafter, the first embodiment of the present invention will be described in detail. In the first embodiment, the rule induction process is executed at high speed and efficiently in the configurations shown in FIGS. FIG. 8 shows a configuration example of the case table 220. In this example, “case number” 221 for distinguishing between cases, and “name” 222 and “name code” 22 as attribute values of each case
3, “bank credit” 224, “deposit balance” 225, “annual income” 226, “current debt” 227, “age” 228,
"Gender" 229, "Address" 230, "Spouse status" 2
31, “Dependents” 232, “Occupation” 233, “Final education” 234, “Housing type” 235, “Credit card holdings” 236, “Usage record” 237, “Credit assessment” 238 .

【0028】図9に、図8に示した事例テーブル220
を複数のデータベースへの分割して格納する方法を示
す。本実施例では、図9のように事例番号1〜1000
はデータベース1に、事例番号1001〜2500はデ
ータベース2に、事例番号2501〜4500はデータ
ベース3に、というように事例テーブルを行(レコー
ド)で分割して格納するものとする。各サーバ処理装置
は、ローカルにどの範囲のレコードをもっているかを管
理しており、クライアント処理装置からの検索処理要求
を受けると、ローカルなデータの範囲でだけ検索を実行
して結果をクライアント処理装置に伝達する機構を設け
ている。この方法は、並列DBMSでは「shared nothi
ng」方式と呼ばれているものである。もちろん、並列D
BMSのように全体を統一的に管理するDBMSが存在
せず、単に独立したローカルなDBMSでそれぞれのデ
ータベースが管理されている場合でも、以下の処理は同
様である。
FIG. 9 shows the case table 220 shown in FIG.
Is stored in a plurality of databases. In this embodiment, case numbers 1 to 1000 as shown in FIG.
Is stored in the database 1, the case numbers 1001 to 2500 are stored in the database 2, the case numbers 2501 to 4500 are stored in the database 3, and so on. Each server processing device locally manages which range of records it has, and upon receiving a search processing request from the client processing device, executes a search only within the local data range and sends the result to the client processing device. A transmission mechanism is provided. This method uses "shared nothi
This is called the "ng" method. Of course, parallel D
The following processing is the same even when there is no DBMS that integrally manages the whole like BMS, and each database is managed simply by an independent local DBMS.

【0029】全体処理の流れを図10に示す。まず、ス
テップ250において、クライアント処理装置(図1参
照)は、図8に示された形式で事例テーブルの一部を表
示装置に表示する。利用者は表示装置上で、結論属性と
説明属性を指定する(ステップ251)。ここで、一般
的に考えて明らかに結論属性と関係がない属性は省いて
おく。この例では、「氏名」222、「氏名コード」2
23、「住所」230などの属性は結論属性「クレジッ
ト査定」と関係がないと考えられるから予め省いてお
く。ここではそれ以外の全ての属性を説明属性として指
定した場合を考える。
FIG. 10 shows the flow of the entire process. First, in step 250, the client processing device (see FIG. 1) displays a part of the case table on the display device in the format shown in FIG. The user specifies a conclusion attribute and a description attribute on the display device (step 251). Here, attributes that are generally not considered to be clearly related to the conclusion attribute are omitted. In this example, “name” 222, “name code” 2
23. Attributes such as “address” 230 are considered to be unrelated to the conclusion attribute “credit assessment” and are omitted in advance. Here, it is assumed that all other attributes are specified as explanatory attributes.

【0030】次のステップ252において、クライアン
ト処理装置は、説明属性および結論属性に対して、ラベ
ル付与処理に必要な情報である「ラベルコード対応表」
を作成する。図11にこのラベルコード対応表261の
例を示す。ラベルコード対応表261において、参照符
号262は、「残高」という属性に対して定義された
「小」というラベルは属性値が0未満の値に対応し、
「中」というラベル値は属性値が0以上1000未満に
対応し、「大」というラベル値は属性値が1000以上
に対応していることを意味している。ラベルコード対応
表261中で値が指定されていない部分は制約が指定さ
れていないものと考える。また、欠損値に対応する「不
明」というラベル値に対しても、特別のラベルコード値
を割り当てるものとする。例えば、ラベルコード対応表
261中に参照符号263で示したように、残高不明に
対してラベルコード“3”を対応させている。また、参
照符号264、265に示したように、記号属性に関し
ても、属性値とラベルコードの対応関係を指定する。
In the next step 252, the client processing device sets a “label code correspondence table”, which is information necessary for labeling processing, for the explanation attribute and the conclusion attribute.
Create FIG. 11 shows an example of the label code correspondence table 261. In the label code correspondence table 261, reference numeral 262 indicates that a label “small” defined for an attribute “balance” corresponds to a value whose attribute value is less than 0,
A label value of “medium” corresponds to an attribute value of 0 or more and less than 1000, and a label value of “large” corresponds to an attribute value of 1000 or more. It is considered that a part in which no value is specified in the label code correspondence table 261 has no restriction specified. Also, a special label code value is assigned to a label value of “unknown” corresponding to a missing value. For example, as indicated by reference numeral 263 in the label code correspondence table 261, the label code “3” is associated with the unknown balance. In addition, as shown by reference numerals 264 and 265, the correspondence between the attribute value and the label code is specified for the symbol attribute.

【0031】次に利用者によってルールインダクション
処理の開始が指示される(ステップ253)と、ステッ
プ254において、クライアント処理装置は、複数のサ
ーバ処理装置に対し、図11で示した情報からなる検索
要求を送信する。
Next, when the user instructs to start the rule induction process (step 253), in step 254, the client processing device requests the plurality of server processing devices for a search request including the information shown in FIG. Send

【0032】ステップ255において、各サーバ処理装
置(図1参照)は図11の検索要求を受信すると、それ
ぞれのサーバ処理装置において検索処理を開始する。ま
ずそれぞれの事例データを、図11のラベルコード対応
表に基づいて、各事例を図6と同様の事例−属性値対応
表に変換する(ステップ256)。図12にその一例を
示す。この検索処理では、図11のラベルコード対応表
に現れる全ての属性に対して、その属性が記号属性であ
れば属性値を指定されたラベルコードに置き換え、数値
属性であればラベルコード対応表に指定された数値範囲
で分類してラベルコードに置き換える処理を行う。各サ
ーバ処理装置は、ローカルに管理している事例テーブル
を図12の事例−属性値対応表に変換した後、ステップ
257において、その結果を検索結果としてクライアン
ト処理装置に送信する。
At step 255, when each server processing device (see FIG. 1) receives the search request of FIG. 11, each server processing device starts a search process. First, each case data is converted into a case-attribute value correspondence table similar to that of FIG. 6 based on the label code correspondence table of FIG. 11 (step 256). FIG. 12 shows an example. In this search processing, for all the attributes appearing in the label code correspondence table of FIG. 11, if the attributes are symbolic attributes, the attribute values are replaced with the designated label codes. Performs a process of classifying in the specified numerical range and replacing it with a label code. After converting the locally managed case table into the case-attribute value correspondence table in FIG. 12, each server processing device transmits the result to the client processing device as a search result in step 257.

【0033】クライアント処理装置は、複数のサーバ処
理装置から処理結果を受信し(ステップ258)、それ
を合成して、事例テーブル全体の事例−属性値対応表を
クライアント処理装置上に作成する(ステップ25
9)。この処理は、図9に示した事例テーブルの分割と
全く逆に、それぞれのサーバ処理装置からの検索結果を
行方向に結合すればよい。この事例−属性値対応表が作
成された後は、ルールインダクション処理はこの表だけ
を参照してルールを抽出する(ステップ260)。以上
の説明は、ルールインダクションに限らず、前述したI
D3のような属性に基づいて分類の決定木を自動生成す
る処理にも全く同様に適用することができる。
The client processing device receives the processing results from the plurality of server processing devices (step 258), combines them, and creates a case-attribute value correspondence table of the entire case table on the client processing device (step 258). 25
9). In this process, the search results from the respective server processing devices may be combined in the row direction, which is completely opposite to the case table division shown in FIG. After the case-attribute value correspondence table is created, the rule induction process extracts rules by referencing only this table (step 260). The above description is not limited to the rule induction,
The same applies to the process of automatically generating a classification decision tree based on attributes such as D3.

【0034】以上、本発明の第1の実施例によれば、ク
ライアント処理装置におけるルールインダクション処理
の実行に当たって、あらかじめ複数のサーバ処理装置で
実行されるDBMSの機能を拡張しておき、クライアン
ト処理装置で必要な検索結果をクライアント処理装置か
らの要求に従って並列に実行させることが可能になる。
複数のサーバ処理装置への検索要求とその結果の取得
は、ルールインダクション処理本体の実行に先立って一
度だけ実行すればよく、ネットワーク上で流れるデータ
量を大幅に削減し、ネットワーク負荷を減少させること
が可能になる。また、検索処理自身も並列に実行される
ため、全体の処理時間を短縮できるという効果もある。
さらに利用者から見れば、あくまでクライアント処理装
置上の表イメージのデータに対して直接処理を実行し、
結果を得るという作業が可能になるため、事例テーブル
が複数のデータベースに分割して格納されていることは
全く意識することがなく、より自然に作業を進めること
ができるという効果もある。
As described above, according to the first embodiment of the present invention, when executing the rule induction process in the client processing device, the functions of the DBMS executed by the plurality of server processing devices are expanded in advance, and , It becomes possible to execute necessary search results in parallel according to a request from the client processing device.
A search request to a plurality of server processing devices and the acquisition of the result need only be executed once prior to execution of the rule induction processing main body, and the amount of data flowing on the network is significantly reduced, and the network load is reduced. Becomes possible. Further, since the search processing itself is also executed in parallel, there is an effect that the entire processing time can be reduced.
Furthermore, from the user's point of view, the processing is performed directly on the table image data on the client processing device,
Since the work of obtaining the result is made possible, there is an effect that the work can be performed more naturally without being conscious of the fact that the case table is divided and stored in a plurality of databases.

【0035】本発明の第1の実施例では、図2に示すよ
うに、事例テーブルを行単位に分割して複数のデータベ
ースに格納することを前提としていた。すなわち、複数
のデータベースは、あらかじめ組となって一つの事例テ
ーブルを格納するために使用されていたということがで
きる。ところが実際には、複数の部署が全く独立にデー
タベースを構築し、それらのデータベースを統合して利
用する場合がある。その場合には、事例テーブルの分割
は、行単位ではなく、列単位に分割されていると考える
ことができる。
In the first embodiment of the present invention, as shown in FIG. 2, it is assumed that the case table is divided into rows and stored in a plurality of databases. That is, it can be said that a plurality of databases have been used in advance as a set to store one case table. However, in practice, there are cases where a plurality of departments construct databases independently of each other and use those databases in an integrated manner. In that case, the case table can be considered to be divided not by rows but by columns.

【0036】本発明の第2の実施例は、列単位で分割さ
れた複数のデータベース上のデータを用いてルールイン
ダクションなどの処理を行うものである。図13に、本
実施例におけるデータベースの構成を示す。データベー
スの内容は第1の実施例で説明した図8の構成と同様で
あるが、家族情報と金融関連情報が別個のデータベース
に格納されている。図13(a)は家族情報に関するデ
ータベース300であり、「氏名」301、「氏名コー
ド」302、「年齢」303、「性別」304、「住
所」305、「配偶者の有無」306、「扶養家族人
数」307、「職業」308、「年収」309、「最終
学歴」310、「住居の種類」311という属性からな
っている。また、図13(b)は金融関連情報データベ
ース320であり、「氏名」321、「氏名コード」3
22、「銀行の信用」323、「預金残高」324、
「年収」325、「職業」326、「クレジットカード
保有枚数」327、「利用実績」328、「クレジット
査定」329という属性からなっている。
In the second embodiment of the present invention, processing such as rule induction is performed using data in a plurality of databases divided in units of columns. FIG. 13 shows the configuration of the database in this embodiment. The content of the database is the same as the configuration of FIG. 8 described in the first embodiment, but the family information and the financial related information are stored in separate databases. FIG. 13A shows a database 300 relating to family information, which includes “name” 301, “name code” 302, “age” 303, “sex” 304, “address” 305, “presence or absence of spouse” 306, and “dependency”. The number of family members 307, the occupation 308, the annual income 309, the final educational background 310, and the type of dwelling 311. FIG. 13B shows a finance-related information database 320 having a “name” 321 and a “name code” 3.
22, "bank credit" 323, "deposit balance" 324,
The attributes are “annual income” 325, “occupation” 326, “credit card holdings” 327, “use record” 328, and “credit assessment” 329.

【0037】これらのデータベースは、当初は全く異な
る目的のために構成されたものであってもよく、またハ
ードウェア的にも全く異なる装置上に存在していてもよ
い。さらには、物理的に遠くはなれた場所に存在してい
てもかまわない。ただし、これらのデータベースはネッ
トワークに接続されていて、利用者が直接使用するクラ
イアント処理装置からオンラインで利用できなければな
らない。ここで、2つのデータベースに「氏名」、「氏
名コード」、「職業」、「年収」という属性が共通して
存在する。このうち「氏名コード」をレコードを特定す
るためのキー属性と考える。2つのデータベースの整合
性を管理していない場合は、「職業」や「年収」という
属性の値は、2つのデータベースで異なることもありう
る。そこで、利用者は図8のテーブルの形でデータを扱
う際に、各項目が物理的にどのデータベースのどういう
項目に関係づけられているかを指定しなければならな
い。
These databases may be initially configured for completely different purposes, or may reside on completely different devices in terms of hardware. Further, it may exist in a place physically far away. However, these databases must be connected to a network and available online from a client processing device directly used by a user. Here, the attributes “name”, “name code”, “occupation”, and “annual income” commonly exist in the two databases. Among these, "name code" is considered as a key attribute for specifying a record. If the consistency of the two databases is not managed, the values of the attributes “occupation” and “annual income” may differ between the two databases. Therefore, when handling data in the form of the table in FIG. 8, the user must specify which database and what item each item is physically associated with.

【0038】図14にこの関係を定義する属性関係づけ
テーブル330の例を示す。図14のテーブル330
は、属性、データベース種別、項目名から構成され、説
明属性・結論属性・キー属性などの各属性がそれぞれど
のデータベース中の(データベース種別)どの属性(項
目名)に対応しているかを表している。例えば、図14
のテーブル330の例では、「銀行の信用」、「残高」
という属性は、金融関係データベースの項目名「信
用」、「預金残高」に対応させ、「氏名」、「年収」と
いう属性は家族情報データベースの項目名「氏名」、
「年収」に対応したものであることを示している。キー
属性はレコードを特定するものであるから、当然使用す
る全てのデータベースに属性として含まれている必要が
ある。このテーブルはあらかじめ利用者がデータ加工の
目的を考えあわせて、どのデータベースのどの属性を用
いるかを設計して定義するものとする。
FIG. 14 shows an example of the attribute relation table 330 that defines this relation. Table 330 in FIG.
Is composed of an attribute, a database type, and an item name, and indicates which attribute (item type) in which database (database type) corresponds to each attribute such as a description attribute, a conclusion attribute, and a key attribute. . For example, FIG.
In the example of the table 330, “bank credit”, “balance”
Attribute corresponds to the item names "credit" and "deposit balance" in the financial database, and the attributes "name" and "annual income" correspond to the item names "name" and "
It indicates that it corresponds to "annual income". Since the key attribute specifies a record, it must be included as an attribute in all databases used as a matter of course. In this table, it is assumed that the user designs and defines which database and which attribute to use in advance, considering the purpose of data processing.

【0039】この後のルールインダクション処理のフロ
ーチャートを図15に示す。まず、ステップ340にお
いて、クライアント処理装置(図1参照)は、図8に示
された形式で事例テーブルの一部を表示装置に表示す
る。利用者は表示装置上で、結論属性と説明属性を指定
する(ステップ341)。ここで、一般的に考えて明ら
かに結論属性と関係がない属性は省いておく。この例で
は、「氏名」、「氏名コード」、「住所」などの属性は
結論属性「クレジット査定」と関係がないと考えられる
から予め省いておく。ここではそれ以外の全ての属性を
説明属性として指定した場合を考える。
FIG. 15 shows a flowchart of the subsequent rule induction processing. First, in step 340, the client processing device (see FIG. 1) displays a part of the case table on the display device in the format shown in FIG. The user specifies a conclusion attribute and a description attribute on the display device (step 341). Here, attributes that are generally not considered to be clearly related to the conclusion attribute are omitted. In this example, attributes such as “name”, “name code”, and “address” are not related to the conclusion attribute “credit assessment” and are omitted in advance. Here, it is assumed that all other attributes are specified as explanatory attributes.

【0040】次のステップ342において、クライアン
ト処理装置は、説明属性および結論属性に対して、ラベ
ル付与処理に必要な情報である「ラベルコード対応表」
を作成する。図16にこのラベルコード対応表の例を示
す。図16(a)は家族情報データベースに対するラベ
ルコード対応表360、図16(b)は金融関連情報デ
ータベースに対するラベルコード対応表370である。
対応表の意味するところは図11で説明したものと大体
同じであるが、キー属性を指定する項目が含まれている
ことが異なっている。それ以外では、ここまでの処理は
第1実施例で説明したものと同様である。ここで、ルー
ルインダクションに用いる属性がそれぞれどのデータベ
ースの属性であるかは、図14の属性関係づけテーブル
を参照して決定することができる。
In the next step 342, the client processing device sets a “label code correspondence table”, which is information necessary for labeling processing, for the explanation attribute and the conclusion attribute.
Create FIG. 16 shows an example of this label code correspondence table. FIG. 16A is a label code correspondence table 360 for the family information database, and FIG. 16B is a label code correspondence table 370 for the financial information database.
The meaning of the correspondence table is almost the same as that described with reference to FIG. 11, but differs in that an item for specifying a key attribute is included. Otherwise, the processing up to this point is the same as that described in the first embodiment. Here, the attribute of each database used for the rule induction can be determined with reference to the attribute association table of FIG.

【0041】次に利用者によってルールインダクション
処理の開始が指示される(ステップ343)と、クライ
アント処理装置は、2つのサーバ処理装置に対し、それ
ぞれ図16(a)、(b)に示したラベルコード対応表
360、370からなる検索要求を送信する。
Next, when the user instructs the start of the rule induction process (step 343), the client processing device sends the two server processing devices the labels shown in FIGS. 16A and 16B, respectively. A search request including the code correspondence tables 360 and 370 is transmitted.

【0042】ステップ345において、各サーバ処理装
置(図1参照)は図16の検索要求を受信すると、それ
ぞれのサーバ処理装置において検索処理を開始する。ま
ずそれぞれの事例データを、図16(a)、(b)のラ
ベルコード対応表に基づいて、各事例を図6と同様の事
例−属性値対応表に変換する(ステップ346)。図1
7にその一例を示す。この検索処理では、図16(a)
および(b)のラベルコード対応表360および370
に現れる全ての属性に対して、その属性が記号属性であ
れば属性値を指定されたラベルコードに置き換え、数値
属性であればラベルコード対応表に指定された数値範囲
で分類してラベルコードに置き換える処理を行う。ここ
で、第1の実施例における図12との違いは、複数のデ
ータベースには事例テーブルが列方向に分割されて格納
されているため、図17の事例−属性値対応表にはレコ
ードに固有な識別情報として指定されたキー属性である
「氏名コード」の情報が付加されていることである。各
サーバ処理装置は、ローカルに管理している事例テーブ
ルを図17の事例−属性値対応表に変換した後、ステッ
プ347において、その結果を検索結果としてクライア
ント処理装置に送信する。
In step 345, when each server processing device (see FIG. 1) receives the search request shown in FIG. 16, each server processing device starts a search process. First, each case data is converted into a case-attribute value correspondence table similar to that of FIG. 6 based on the label code correspondence tables of FIGS. 16A and 16B (step 346). FIG.
7 shows an example. In this search processing, FIG.
And (b) label code correspondence tables 360 and 370
If the attribute is a symbolic attribute, replace the attribute value with the specified label code.If the attribute is a numeric attribute, classify it in the numerical range specified in the label code correspondence table and assign it to the label code. Perform the replacement process. Here, the difference from FIG. 12 in the first embodiment is that the case table is divided in the column direction and stored in a plurality of databases. That is, information of “name code” which is a key attribute designated as unique identification information is added. Each server processing device converts the locally managed case table into the case-attribute value correspondence table of FIG. 17, and then transmits the result as a search result to the client processing device in step 347.

【0043】クライアント処理装置は、複数のサーバ処
理装置から処理結果を受信し(ステップ348)、レコ
ード識別情報である「氏名コード」情報をキーとして合
成して、事例テーブル全体の事例−属性値対応表をクラ
イアント処理装置上に作成する(ステップ349)。
The client processing device receives the processing results from the plurality of server processing devices (step 348), synthesizes the “name code” information, which is record identification information, as a key, and sets the case-attribute value correspondence of the entire case table. A table is created on the client processing device (step 349).

【0044】ここで重要なのは、2つのデータベースの
整合性は管理されていない場合があるので、どちらか一
方の事例テーブルにしか存在しないレコードがありうる
ことである。このような場合、合成された事例−属性値
対応表の中で対応しない部分は欠損値を表す特別な値を
埋めこむことにすれば、キー属性を基に事例テーブル全
体に対する事例−属性値対応表を合成することができ
る。事例−属性値対応表が作成された後は、ルールイン
ダクション処理はこの表だけを参照してルールを抽出す
る(ステップ350)ことは、第1実施例と全く同様で
ある。
What is important here is that since the consistency of the two databases may not be managed, there may be a record that exists only in one of the case tables. In such a case, if an uncorresponding part in the synthesized case-attribute value correspondence table is filled with a special value representing a missing value, the case-attribute value correspondence for the entire case table based on the key attribute can be obtained. Tables can be combined. After the case-attribute value correspondence table is created, the rule induction process refers to only this table to extract rules (step 350), just as in the first embodiment.

【0045】以上の説明は、ルールインダクションに限
らず、ID3のような属性に基づいて分類の決定木を自
動生成する処理にも全く同様に適用することができる。
以上述べた本発明の第2実施例によれば、クライアント
処理装置におけるルールインダクション処理の実行に当
たって、あらかじめ複数のサーバ処理装置で実行される
DBMS(データベース管理システム)の機能を拡張し
ておき、クライアント処理装置で必要な検索結果をクラ
イアント処理装置からの要求に従って並列に実行させる
ことが可能になる。複数のサーバ処理装置への検索要求
とその結果の取得は、ルールインダクション処理本体の
実行に先立って一度だけ実行すればよく、ネットワーク
上で流れるデータ量を大幅に削減し、ネットワーク負荷
を減少させることが可能になる。また、検索処理自身も
並列に実行されるため、全体の処理時間を短縮できると
いう効果もある。さらに利用者から見れば、あくまでク
ライアント処理装置上の表イメージのデータに対して直
接処理を実行し、結果を得るという作業が可能になるた
め、事例テーブルが複数のデータベースに分割して格納
されていることは全く意識することがなく、より自然に
作業を進めることができるという効果もある。
The above description can be applied not only to the rule induction but also to the process of automatically generating a classification decision tree based on attributes such as ID3.
According to the above-described second embodiment of the present invention, when executing the rule induction process in the client processing device, the function of the DBMS (database management system) executed by the plurality of server processing devices is expanded in advance, and the client It becomes possible for the processing device to execute necessary search results in parallel according to a request from the client processing device. A search request to a plurality of server processing devices and the acquisition of the result need only be executed once prior to execution of the rule induction processing main body, and the amount of data flowing on the network is significantly reduced, and the network load is reduced. Becomes possible. Further, since the search processing itself is also executed in parallel, there is an effect that the entire processing time can be reduced. Further, from the user's point of view, since it is possible to execute the processing directly on the data of the table image on the client processing device and obtain the result, the case table is divided and stored in a plurality of databases. There is also the effect that work can proceed more naturally without being conscious of the fact.

【0046】以上の効果は第1実施例と同様であるが、
さらに第2実施例特有の効果としては、整合性の保証さ
れていない複数の独立したデータベース上に分割して格
納されている情報を、あたかも1つの仮想的なデータベ
ースとして取り扱うことができるという効果もある。デ
ータ加工処理をこのように実現することにより、従来の
統計解析処理や、学習によるニューロモデルまたはファ
ジィモデルの構築などと全く同様のインタフェースを用
いてルールインダクションなどの処理を行うことができ
る。このように統一されたインタフェースでさまざまな
種類のデータ加工処理を自由に実行し、結果を分析する
ことができるので、利用者の作業効率が向上するという
効果もある。
The above effects are the same as those of the first embodiment.
Further, as an effect peculiar to the second embodiment, information divided and stored on a plurality of independent databases whose consistency is not guaranteed can be handled as if it were one virtual database. is there. By realizing the data processing in this manner, it is possible to perform processing such as rule induction using an interface that is exactly the same as the conventional statistical analysis processing and the construction of a neuro model or a fuzzy model by learning. Since various types of data processing can be freely executed and the results can be analyzed with the unified interface as described above, there is also an effect that the work efficiency of the user is improved.

【0047】[0047]

【発明の効果】以上、本発明によれば複数のデータベー
スに分割して格納されているデータに対してルールイン
ダクションなどのデータ加工処理を適用する際に、複数
のデータベースが備えているデータ処理能力を並列に活
用することができるので、高速な処理が可能になるとい
う効果がある。また、データ加工に用いるデータそのも
のを所定の装置(クライアント処理装置)上に集める必
要もなく、また複数のデータベースに対する検索処理は
それぞれ1回で十分なため、ネットワークの負荷を大幅
に軽くすることができるという効果がある。さらに、利
用者にとっては全てテーブル形式で仮想的に定義された
データを対象に処理を進めることができ、実際のデータ
が物理的に分割して複数のデータベースに格納されてい
ることを意識する必要がないので、データ加工処理を容
易に進めることができるという効果もある。
As described above, according to the present invention, when data processing such as rule induction is applied to data divided and stored in a plurality of databases, the data processing capability of the plurality of databases is provided. Can be used in parallel, so that high-speed processing can be performed. Further, it is not necessary to collect data itself used for data processing on a predetermined device (client processing device), and a single search process is required for a plurality of databases, so that the load on the network can be significantly reduced. There is an effect that can be. In addition, the user can proceed with the processing for virtually defined data in a table format, and need to be aware that the actual data is physically divided and stored in multiple databases. Since there is no data processing, there is also an effect that the data processing can be easily performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の対象とする複数データベース利用デー
タ加工処理システムの全体構成図である。
FIG. 1 is an overall configuration diagram of a data processing system using a plurality of databases to which the present invention is applied.

【図2】複数のデータベースへのデータ分割格納方式を
説明するための図である。
FIG. 2 is a diagram for explaining a method of dividing and storing data in a plurality of databases.

【図3】事例テーブルの例を示す図である。FIG. 3 is a diagram illustrating an example of a case table.

【図4】ラベル付与処理により記号属性に変換された事
例テーブルの例を示す図である。
FIG. 4 is a diagram illustrating an example of a case table converted into a symbol attribute by labeling processing.

【図5】ルールインダクションにより抽出されたルール
の例を示す図である。
FIG. 5 is a diagram illustrating an example of a rule extracted by rule induction.

【図6】事例−属性値対応表の例を示す図である。FIG. 6 is a diagram showing an example of a case-attribute value correspondence table.

【図7】表成分値−属性値対応表を示す図である。FIG. 7 is a diagram showing a table component value-attribute value correspondence table.

【図8】クレジット査定における事例テーブルの構成図
である。
FIG. 8 is a configuration diagram of a case table in credit assessment.

【図9】事例テーブルの分割格納方式を示す図である。FIG. 9 is a diagram showing a case table division storage method.

【図10】本発明の第1実施例の処理フローチャートで
ある。
FIG. 10 is a processing flowchart of the first embodiment of the present invention.

【図11】ラベルコード対応表の例を示す図である。FIG. 11 is a diagram showing an example of a label code correspondence table.

【図12】サーバ処理装置における事例−属性値対応表
の例を示す図である。
FIG. 12 is a diagram illustrating an example of a case-attribute value correspondence table in the server processing device.

【図13】列分割による事例テーブルの分割格納方式を
示す図である。
FIG. 13 is a diagram showing a division storage method of a case table by column division.

【図14】属性関連づけテーブルの例を示す図である。FIG. 14 is a diagram illustrating an example of an attribute association table.

【図15】本発明の第2実施例の処理フローチャートで
ある。
FIG. 15 is a processing flowchart of a second embodiment of the present invention.

【図16】ラベルコード対応表の例を示す図である。FIG. 16 is a diagram illustrating an example of a label code correspondence table.

【図17】サーバ処理装置における事例−属性値対応表
の例を示す図である。
FIG. 17 is a diagram illustrating an example of a case-attribute value correspondence table in the server processing device.

【図18】ID3によって生成された分類木の例を示す
図である。
FIG. 18 is a diagram illustrating an example of a classification tree generated by ID3.

【符号の説明】[Explanation of symbols]

101 利用者 102 クライアント処理装置 103〜106 サーバ処理装置 107〜110 データベース 101 user 102 client processing device 103-106 server processing device 107-110 database

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭64−82146(JP,A) 特開 平3−156571(JP,A) 特開 平5−2610(JP,A) 特開 平5−101108(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 9/44 G06F 12/00 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-64-82146 (JP, A) JP-A-3-156571 (JP, A) JP-A-5-2610 (JP, A) JP-A-5-210 101108 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/30 G06F 9/44 G06F 12/00 JICST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 クライアント処理装置と、前記クライア
ント処理装置に接続され、それぞれがデータベースに接
続された複数のサーバ処理装置からなるデータ加工シス
テムにおいて、 前記クライアント処理装置は、前記データベースに格納
されたテーブル形式のデータに含まれるデータ項目の値
を分類するための分類規則を指定する分類規則指定手段
と、指定された前記分類規則を前記サーバ処理装置に伝
達する第1の伝達手段とを有し、 前記サーバ処理装置は、伝達された前記分類規則に基づ
いてそれぞれのデータベースに格納されているデータを
分類する分類実行手段と、該分類実行手段により分類さ
れた結果を前記クライアント処理装置に伝達する第2の
伝達手段とを有し、 前記クライアント処理装置は、さらに、伝達された前記
分類結果を合成する手段と、該合成手段により合成され
た分類結果に基づいてルールインダクションを実行する
手段と、該ルールインダクション実行手段により抽出さ
れた結果を出力する出力手段とを有することを特徴とす
るデータ加工システム。
1. A data processing system comprising a client processing device and a plurality of server processing devices connected to the client processing device and each connected to a database, wherein the client processing device includes a table stored in the database. a classification rule specifying means for specifying the classification rules for classifying the value of the data items included in the form of data and a first transmission means for transmitting the specified the classification rule to the server processing unit, the said server processor transmits a classification executing means for classifying the data stored in each database based on the transmitted said classification rules, the result of the classification by the classification execution means to the client processing unit and a second transfer means, wherein the client apparatus further transmitted the <br/> And means for combining the class results, executes the rule induction based on the classification results are combined by the combining means
And a means for outputting a result extracted by the rule induction executing means .
【請求項2】 クライアント処理装置と、前記クライア
ント処理装置に接続され、それぞれがデータベースに接
続された複数のサーバ処理装置からなるデータ加工シス
テムにおいて、 前記クライアント処理装置は、データベースに格納され
ている事例テーブルと、数値属性を記号属性に置き換え
るためのラベルコード対応表と、前記事例テーブルを前
記ラベルコード対応表に基づいて分類する分類処理要求
を前記複数のサーバ処理装置に対して伝達する第1の伝
達手段とを有し、 前記複数のサーバ処理装置は、前記分類処理要求を受け
ると、前記事例テーブルに記載されている属性値を前記
ラベルコード対応表に基づいて分類することにより、事
例−属性値対応表を生成する手段と、該事例−属性値対
応表を前記クライアント処理装置に伝達する第2の伝達
手段とを有し、 前記クライアント処理装置は、さらに、受信した事例−
属性値対応表の結果を合成する手段と、合成された結果
に基づいてルールインダクション処理を実行す る手段
と、該ルールインダクション実行手段により抽出された
結果を出力する出力手段とを有する ことを特徴とするデ
ータ加工システム。
2. The client processing device, wherein the client
Connected to the central processing unit, each connected to the database.
A data processing system consisting of multiple connected server processors
In Temu, the client processing unit is stored in the database
Case table and replace numeric attributes with symbolic attributes
Label code correspondence table and the case table
Classification processing request to classify based on the label code correspondence table
Is transmitted to the plurality of server processing devices.
Means for receiving the classification processing request.
Then, the attribute values described in the case table are
By classifying based on the label code correspondence table,
Means for generating an example-attribute value correspondence table;
Second transmission for transmitting a response table to the client processing device
Means, and the client processing device further comprises:
Means for synthesizing the result of the attribute value correspondence table, and the synthesized result
Means to run the rule induction process on the basis of the
Extracted by the rule induction executing means.
An output unit for outputting a result .
【請求項3】 前記分類規則は、数値の値をもつデータ
項目に対して上限値および下限値を指定し、文字列を値
にもつデータ項目に対して文字列の変換を指定すること
を特徴とする請求項1または2記載のデータ加工システ
ム。
3. The classification rule specifies an upper limit value and a lower limit value for a data item having a numeric value, and specifies character string conversion for a data item having a character string as a value. The data processing system according to claim 1 or 2, wherein
【請求項4】 前記分析手段は、データ項目間の関係
を、少なくとも一つのルールとして出力することを特徴
とする請求項1記載のデータ加工システム。
Wherein said analyzing means, the data processing system of claim 1, wherein the outputting the relationships between data items, as at least one rule.
JP32735293A 1993-09-21 1993-12-24 Data processing system Expired - Fee Related JP3185167B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP32735293A JP3185167B2 (en) 1993-12-24 1993-12-24 Data processing system
US08/893,422 US5802509A (en) 1993-09-21 1997-07-11 Rule generation system and method of generating rule

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32735293A JP3185167B2 (en) 1993-12-24 1993-12-24 Data processing system

Publications (2)

Publication Number Publication Date
JPH07182368A JPH07182368A (en) 1995-07-21
JP3185167B2 true JP3185167B2 (en) 2001-07-09

Family

ID=18198190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32735293A Expired - Fee Related JP3185167B2 (en) 1993-09-21 1993-12-24 Data processing system

Country Status (1)

Country Link
JP (1) JP3185167B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3759644B2 (en) * 1995-10-17 2006-03-29 株式会社野村総合研究所 Information collection and analysis system
TW331612B (en) * 1996-03-05 1998-05-11 Soft Future Design Kk Data processing apparatus and register address translation method.
CA2379817C (en) * 1999-07-20 2007-12-11 Inmentia, Inc Method and system for organizing data
US6424969B1 (en) 1999-07-20 2002-07-23 Inmentia, Inc. System and method for organizing data
KR20010088742A (en) * 2001-08-28 2001-09-28 문의선 Parallel Information Delievery Method Based on Peer-to-Peer Enabled Distributed Computing Technology
JP4494892B2 (en) * 2004-07-14 2010-06-30 三菱電機株式会社 Data processing apparatus and program
JP4536445B2 (en) * 2004-07-26 2010-09-01 三菱電機株式会社 Data classification device
JP5253668B1 (en) * 2012-11-14 2013-07-31 有限会社アイ・アール・ディー Database construction device, database construction method, and program
WO2015029158A1 (en) * 2013-08-28 2015-03-05 株式会社日立製作所 Data conversion device, data conversion method, and data conversion program
JP6087855B2 (en) * 2014-03-03 2017-03-01 ヤフー株式会社 Data processing apparatus, data processing method, and data processing program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0760406B2 (en) * 1987-09-24 1995-06-28 三菱電機株式会社 Data processing device
JPH07104871B2 (en) * 1989-08-31 1995-11-13 三菱電機株式会社 Join processing method in relational database
JPH052610A (en) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp Intensive arithmetic processing system in relational data base
JPH05101108A (en) * 1991-10-08 1993-04-23 Oki Electric Ind Co Ltd Control method for customer data

Also Published As

Publication number Publication date
JPH07182368A (en) 1995-07-21

Similar Documents

Publication Publication Date Title
US8972443B2 (en) Distributed platform for network analysis
US10984344B2 (en) Document classifying device
US20210158176A1 (en) Machine learning based database search and knowledge mining
CN111708774B (en) Industry analytic system based on big data
Grobelnik et al. Automated knowledge discovery in advanced knowledge management
CN111611266A (en) Knowledge-driven joint big data query and analysis platform
JP3185167B2 (en) Data processing system
US20220129635A1 (en) Semantic model instantiation method, system and apparatus
CN111611448A (en) Knowledge-driven joint big data query and analysis platform
CN110765101A (en) Label generation method and device, computer readable storage medium and server
US20120124110A1 (en) Database, management server, and management program
CN114238655A (en) Enterprise association relation identification method, device, equipment and medium
CN113919336A (en) Article generation method and device based on deep learning and related equipment
CN110544035A (en) internal control detection method, system and computer readable storage medium
CN111737607B (en) Data processing method, device, electronic equipment and storage medium
DE112021001743T5 (en) VECTOR EMBEDDING MODELS FOR RELATIONAL TABLES WITH NULL OR EQUIVALENT VALUES
CN117033431A (en) Work order processing method, device, electronic equipment and medium
CN111339303B (en) Text intention induction method and device based on clustering and automatic abstracting
CN112818215A (en) Product data processing method, device, equipment and storage medium
CN112052365A (en) Cross-border scene portrait construction method and device
KR20020061443A (en) Method and system for data gathering, processing and presentation using computer network
CN110737749A (en) Entrepreneurship plan evaluation method, entrepreneurship plan evaluation device, computer equipment and storage medium
CN110109994A (en) Auto metal halide lamp air control model comprising structuring and unstructured data
WO2018003115A1 (en) Analysis assist device, analysis assist method, and analysis assist program
WO2018100700A1 (en) Data conversion device and data conversion method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees