JP2001290647A - 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体 - Google Patents

表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体

Info

Publication number
JP2001290647A
JP2001290647A JP2001022595A JP2001022595A JP2001290647A JP 2001290647 A JP2001290647 A JP 2001290647A JP 2001022595 A JP2001022595 A JP 2001022595A JP 2001022595 A JP2001022595 A JP 2001022595A JP 2001290647 A JP2001290647 A JP 2001290647A
Authority
JP
Japan
Prior art keywords
field
condition
grouping
processing
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001022595A
Other languages
English (en)
Inventor
Ken Wakasa
建 若狹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001022595A priority Critical patent/JP2001290647A/ja
Publication of JP2001290647A publication Critical patent/JP2001290647A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は、条件フィールドと結果フィールドと
で構成される表形式データベースを加工する表形式デー
タベース加工装置に関し、推論の予測精度の向上を実現
する表形式データベースを構築できるようにすることを
目的とする。 【解決手段】各条件フィールド毎に、結果フィールドに
及ぼす影響度を算出する算出手段と、算出手段の算出す
る影響度のリストを提示する提示手段と、提示手段の提
示するリストに応答して、条件フィールドの合成指示が
発行される場合に、その合成指示で指定される複数の条
件フィールドを1つの条件フィールドとして合成する合
成手段とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、条件フィールドと
結果フィールドとで構成される表形式データベースを加
工する表形式データベース加工装置と、その装置の実現
に用いられる表形式データベース加工処理用プログラム
と、その表形式データベース加工処理用プログラムを記
録した記録媒体とに関し、特に、表形式データベースを
使って行われる推論の予測精度の向上を実現する表形式
データベースを構築できるようにする表形式データベー
ス加工装置と、その装置の実現に用いられる表形式デー
タベース加工処理用プログラムと、その表形式データベ
ース加工処理用プログラムを記録した記録媒体とに関す
る。
【0002】コンピュータシステムの発達や、記憶装置
の高密度化・低価格化により、データウェアハウスなど
に見られるようにデータを蓄積し利用する手段が一般化
し、データマイニングなどに見られるように大規模デー
タの分析が一般的に行われるようになってきた。分析対
象データとしては、例えば、小売業における顧客属性と
購入商品との関係や、金融機関における顧客属性とリス
ク属性との関係や、製造業における工程属性と歩留りと
の関係などが挙げられる。
【0003】大規模データを用いた分析手法の1つとし
て、「記憶に基づく推論(Memory-Based Reasoning、以
下MBRと称する) 」がある。この手法では、1つ以上
の条件フィールドと1つ以上の結果フィールドとで構成
される表形式データベースを使い、結果フィールドが不
明である未知データについて、その条件フィールドが既
知データの条件フィールドに近いものを検索し、それら
の近傍事例に基づいて結果フィールドのデータを高精度
に予測するものである。
【0004】このMBRを用いた予測の有効性をより高
めていくためには、更なる予測精度の向上が求められて
いる。
【0005】
【従来の技術】MBRの予測精度を向上させるには、分
析アルゴリズムを改良していく他に、MBRで用いる表
形式データベースを加工していく必要がある。
【0006】すなわち、条件フィールド(連続値をデー
タ値とする数値フィールドと、離散的なカテゴリ値をデ
ータ値とするカテゴリ値フィールドとがある)を合成し
たり、条件フィールドのデータ値のグループ分けを変更
することで、表形式データベースを加工していく必要が
ある。
【0007】従来では、このような表形式データベース
の加工は、熟練者の経験やユーザの試行錯誤に委ねられ
ていた。
【0008】
【発明が解決しようとする課題】しかしながら、このよ
うな従来技術に従っていると、熟練者以外のユーザ(分
析に慣れていないユーザや、データの理解が十分でない
ユーザ)が表形式データベースを加工することが困難で
あることで、表形式データベースを加工できる者が限ら
れるという問題点や、ユーザの試行錯誤に頼ることで、
ユーザに多大な負荷を強いるという問題点がある。
【0009】本発明はかかる事情に鑑みてなされたもの
であって、表形式データベースを使って行われる推論の
予測精度の向上を実現する表形式データベースを構築で
きるようにする新たな表形式データベース加工技術の提
供を目的とする。
【0010】
【課題を解決するための手段】この目的を達成するため
に、本発明の表形式データベース加工装置では、各条件
フィールド毎に、結果フィールドに及ぼす影響度を算出
する算出手段と、算出手段の算出する影響度のリストを
提示する提示手段と、提示手段の提示するリストに応答
して、条件フィールドの合成指示が発行される場合に、
その合成指示で指定される複数の条件フィールドを1つ
の条件フィールドとして合成する合成手段とを備えるよ
うに構成する。
【0011】ここで、この本発明の表形式データベース
加工装置の持つ機能は具体的にはプログラムで実現され
るものであり、このプログラムは、計算機が読み取り可
能な半導体メモリなどの適当な記録媒体に格納すること
ができる。
【0012】このように構成される本発明の表形式デー
タベース加工装置では、算出手段は、各条件フィールド
毎に、結果フィールドに及ぼす影響度を算出し、これを
受けて、提示手段は、算出された影響度のリストをディ
スプレイ画面に表示することなどにより、ユーザに提示
する。
【0013】ユーザは、この提示される影響度を参照す
ることで条件フィールドの合成指示を発行するので、合
成手段は、ユーザから条件フィールドの合成指示が発行
されると、その合成指示で指定される複数の条件フィー
ルドを1つの条件フィールドとして合成する。
【0014】このようにして、本発明の表形式データベ
ース加工装置では、記憶に基づく推論に用いられる表形
式データベースの条件フィールドの合成を行う際に参考
となる支援情報を作成して、それをユーザに提示してい
くように処理することから、分析に慣れていないユーザ
や、データの理解が十分でないユーザでも、効果的に条
件フィールドの合成を行うことができるようになるとと
もに、そのときにおける試行錯誤の回数も大幅に減らす
ことができるようになることで、ユーザの負荷を大きく
低減できるようになる。
【0015】これにより、本発明によれば、記憶に基づ
く推論の予測精度を大きく向上できるようになる。
【0016】また、この目的を達成するために、本発明
の表形式データベース加工装置では、処理対象となる条
件フィールドの持つ属性値を複数にグループ分けし、そ
れらの各グループ分け毎に、結果フィールドに対するグ
ループ分けの評価指標値を算出することで、最適なグル
ープ分けを特定する特定手段と、特定手段の特定する最
適なグループ分けの情報を提示する提示手段と、提示手
段の提示する情報に応答して、処理対象となる条件フィ
ールドの持つ属性値のグループ分け指示が発行される場
合に、その指示で指定されるグループ分けに従って、処
理対象となる条件フィールドの持つ属性値を変換する変
換手段とを備えるように構成する。
【0017】ここで、この本発明の表形式データベース
加工装置の持つ機能は具体的にはプログラムで実現され
るものであり、このプログラムは、計算機が読み取り可
能な半導体メモリなどの適当な記録媒体に格納すること
ができる。
【0018】このように構成される本発明の表形式デー
タベース加工装置では、特定手段は、処理対象となる条
件フィールドの持つ属性値を複数にグループ分けして、
それらの各グループ分け毎に、結果フィールドに対する
グループ分けの評価指標値を算出することで、最適なグ
ループ分けを特定し、これを受けて、提示手段は、特定
された最適なグループ分けの情報をディスプレイ画面に
表示することなどにより、ユーザに提示する。
【0019】ユーザは、この提示される最適なグループ
分けの情報を参照することで、処理対象となる条件フィ
ールドの持つ属性値のグループ分け指示を発行するの
で、変換手段は、そのグループ分け指示で指定されるグ
ループ分けに従って、処理対象となる条件フィールドの
持つ属性値を変換する。
【0020】このようにして、本発明の表形式データベ
ース加工装置では、記憶に基づく推論に用いられる表形
式データベースの条件フィールドの属性値のグループ分
けを変更する際に参考となる支援情報を作成して、それ
をユーザに提示していくように処理することから、分析
に慣れていないユーザや、データの理解が十分でないユ
ーザでも、効果的に条件フィールドの属性値のグループ
分けを変更できるようになるとともに、そのときにおけ
る試行錯誤の回数も大幅に減らすことができるようにな
ることで、ユーザの負荷を大きく低減できるようにな
る。
【0021】これにより、本発明によれば、記憶に基づ
く推論の予測精度を大きく向上できるようになる。
【0022】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。
【0023】図1に、本発明を具備する表形式データベ
ース加工装置1の一実施例を図示する。
【0024】この図に示すように、本発明の表形式デー
タベース加工装置1は、端末2と、未加工のデータで構
成されて、条件フィールド及び結果フィールドのデータ
値が既知である第1の既知表形式データベース10-1
と、第1の既知表形式データベース10-1と同一フィー
ルド構造を有し、未加工のデータで構成されて、結果フ
ィールドのデータ値が未知である第1の未知表形式デー
タベース11-1と、フィールド合成プログラム12と、
フィールド合成プログラム12により加工された第1の
既知表形式データベース10-1のデータを格納する第2
の既知表形式データベース10-2と、フィールド合成プ
ログラム12により加工された第1の未知表形式データ
ベース11-1のデータを格納する第2の未知表形式デー
タベース11-2と、データ値変換プログラム13と、デ
ータ値変換プログラム13により加工された第2の既知
表形式データベース10-2のデータを格納する第3の既
知表形式データベース10-3と、データ値変換プログラ
ム13により加工された第2の未知表形式データベース
11-2のデータを格納する第3の未知表形式データベー
ス11-3とを備える。
【0025】ここで、フィールド合成プログラム12や
データ値変換プログラム13は、フロッピィディスクや
回線などを介してインストールされて、計算機が読み取
り可能な半導体メモリなどの適当な記録媒体に格納する
ことができる。
【0026】フィールド合成プログラム12は、条件フ
ィールド毎に算出される結果フィールドに及ぼす影響度
を算出して、その算出した図2に示すような影響度のリ
ストを端末2のディスプレイ画面に表示するとともに、
その表示に応答して入力されるユーザからの指示に従っ
て、図3に示すように、複数の条件フィールドのデータ
値を組み合わせることで、新たな1つの条件フィールド
にまとめる処理を行う。
【0027】例えば、n種類のデータ値を持つ条件フィ
ールドAと、m種類のデータ値を持つ条件フィールドB
とを合成すると、n×m種類のデータ値を持つ新たな条
件フィールドABができる。これにより、1つ1つの条
件フィールドを単純に見る場合には埋もれてしまった情
報を抽出でき、より精度の高い分析が可能となり、MB
Rの予測精度が向上する。
【0028】一方、データ値変換プログラム13は、各
条件フィールド毎にデータ値を複数にグループ分けして
みて、それらの各グループ分け毎に、結果フィールドに
対する評価指標値を算出し、それに従って最も結果をよ
く説明できるグループ分けを特定して、その特定した図
4に示すような最適なグループ分けを端末2のディスプ
レイ画面に表示するとともに、その表示に応答して入力
されるユーザからの指示に従って、図5に示すように、
条件フィールドのデータ値をグループ分け(変換)する
処理を行う。
【0029】すなわち、データ値変換プログラム13
は、グループ間で結果フィールドのデータ値の分布が互
いに最も異なったものとなるようにと、各条件フィール
ド毎にデータ値をグループ分けする。
【0030】MBRによる予測では、未知データに類似
したものを既知データの中から探索する際、全てのデー
タ値を均一に扱う。この場合、結果フィールドへの影響
が類似しているにもかかわらずデータ値としては異なる
値を取るものが存在すると、一般に結果フィールドの予
測に悪影響を及ぼす。そこで、データ値変換プログラム
13は、結果フィールドに対する影響が類似しているデ
ータ値をまとめて取り扱うことにより、予測精度を向上
させるように処理する。
【0031】図6及び図7に、フィールド合成プログラ
ム12の実行する処理フローの一実施例、図8に、デー
タ値変換プログラム13の実行する処理フローの一実施
例を図示する。
【0032】次に、これらの処理フローに従って、本発
明の表形式データベース加工装置1の処理について詳細
に説明する。
【0033】最初に、フィールド合成プログラム12の
実行する処理について説明する。
【0034】フィールド合成プログラム12は、起動さ
れると、図6及び図7の処理フローに示すように、先ず
最初に、ステップ1で、未加工のデータで構成されて、
条件フィールド及び結果フィールドのデータ値が既知で
ある既知表形式データベースの中から処理対象となるも
のを選択する。例えば、第1の既知表形式データベース
10-1を処理対象として選択するのである。
【0035】続いて、ステップ2で、未加工のデータで
構成されて、結果フィールドのデータ値が未知である未
知表形式データベースの中から処理対象となるものを選
択する。例えば、第1の未知表形式データベース11-1
を処理対象として選択するのである。
【0036】続いて、ステップ3で、ステップ1で選択
した既知表形式データベースの持つ数値フィールド(連
続値をデータ値とする条件フィールド)の中に離散化処
理が未処理のものが残されているのか否かを判断して、
離散化処理が未処理のものが残されている場合には、ス
テップ4に進んで、離散化処理が未処理の数値フィール
ドを1つ選択する。
【0037】続いて、ステップ5で、その選択した数値
フィールドに対して、端末2を介してユーザから離散化
条件設定要求があるのか否かを判断して、ユーザから離
散化条件設定要求があることを判断するときには、ステ
ップ6に進んで、その選択した数値フィールドに対し
て、ユーザの指定する離散化条件を設定してから、ステ
ップ3に戻る。
【0038】例えば、ユーザから、年齢の数値フィール
ドに対して、「0歳〜19歳、20歳〜35歳、36歳
〜45歳、46歳〜60歳、61歳〜」というような離
散化条件の設定要求がある場合には、それに従って、離
散化条件を設定するのである。
【0039】一方、ステップ5で、ユーザから離散化条
件設定要求がないことを判断するときには、ステップ7
に進んで、その選択した数値フィールドに対して、シス
テムの設定する離散化条件(等間隔分割などの離散化条
件)を設定してから、ステップ3に戻る。
【0040】例えば、システムの設定する離散化条件に
従って、年齢の数値フィールドに対して、「0歳〜9
歳、10歳〜19歳、20歳〜29歳、30歳〜39
歳、40歳〜49歳、50歳〜59歳、60歳〜」とい
うような離散化条件を設定するのである。
【0041】このようにして、ステップ3〜ステップ7
の処理を繰り返していくことで、ステップ3で、ステッ
プ1で選択した既知表形式データベースの持つ全ての数
値フィールドに対して離散化条件を設定したことを判断
するときには、ステップ8に進んで、設定された離散化
条件に従って、ステップ1で選択した既知表形式データ
ベースの持つ各数値フィールドのデータ値をカテゴリ値
に変換する。
【0042】続いて、ステップ9で、ステップ3〜ステ
ップ7の処理の対象とならなかったカデゴリ値フィール
ドも含めて、各条件フィールド毎に結果フィールドに与
える影響度を算出して、それを条件フィールドの合成処
理に参考となる支援情報として、端末2のディスプレイ
画面に表示する。
【0043】この影響度としては、例えば、相互情報量
に基づいた計算手法であるMIC(Mutual Information
Content)などの手法(岩波講座 情報科学「4.情報
と符号の理論」pp.35-59参照)を用いる。
【0044】MICによると、結果フィールドに与える
影響度wi は、 wi =[Σv Σc p(v,c)log(p(v,c)/p(v)p(c))]/[-Σc p
(c)logp(c)] p(v,c):結合確率、c:クラス値 v:条件フィールドのデータ値、i:条件フィールド番
号 により求められることになる。
【0045】例えば、図9(a)に示す条件フィールド
の影響度は“0.217 ”と算出され、図9(b)に示す条
件フィールドの影響度は“0.040 ”と算出されることに
なる。
【0046】このようにして、ステップ9の処理に従っ
て、図2に示したような各条件フィールドの示す結果フ
ィールドに対しての影響度のリストがユーザに提示され
ることになり、これを受けて、ユーザは、表示されるリ
ストを参考にしつつ、自分の知見を生かしながら、どの
条件フィールドとどの条件フィールドとをまとめて1つ
の条件フィールドとするのかを入力してくる。
【0047】これから、続いて、ステップ10で、ユー
ザからの入力に応答して、条件フィールドの合成条件を
設定する。
【0048】続いて、ステップ11(図7の処理フロ
ー)で、ステップ1,2で選択した表形式データベースを
処理対象として、それらの表形式データベースの欠損値
を含むフィールドの中に未処理のものが残されているの
か否かを判断して、未処理のものが残されている場合に
は、ステップ12に進んで、欠損値を含む未処理のフィ
ールドを1つ選択する。
【0049】続いて、ステップ13で、その選択した欠
損値を含むフィールドに対して、端末2を介してユーザ
から無視要求があるのか否かを判断して、ユーザから無
視要求があることを判断するときには、ステップ14に
進んで、その選択したフィールド(欠損値を含むフィー
ルド)の値として欠損値を持つレコードを無視すること
を設定してから、ステップ11に戻る。
【0050】一方、ステップ13で、ユーザから無視要
求がないことを判断するときには、ステップ15に進ん
で、その選択したフィールド(欠損値を含むフィール
ド)の持つ欠損値を1つの値として設定してから、ステ
ップ11に戻る。
【0051】そして、ステップ11で、欠損値を含む全
てのフィールドに対しての欠損値の扱いの設定が終了し
たことを判断すると、ステップ16に進んで、これまで
に設定した情報に従って、ステップ1,2で選択した表形
式データベースの持つ条件フィールドの合成処理を実行
して、処理を終了する。
【0052】このようにして、フィールド合成プログラ
ム12は、図10に示すように、数値フィールドを離散
化しつつ、ユーザの指示に応答して条件フィールドを合
成していくように処理するのである。
【0053】そして、このとき、図11〜図13に示す
ように、ユーザからの指示に応答して、欠損値を持つレ
コードを無視したり、欠損値を1つの値として取扱いつ
つ、条件フィールドを合成していくように処理するので
ある。
【0054】この条件フィールドの合成にあたって、フ
ィールド合成プログラム12は、各条件フィールド毎に
結果フィールドに与える影響度を算出して、それを条件
フィールドの合成処理に参考となる支援情報としてユー
ザに提示するように処理することから、客観的かつ高精
度の合成処理を実現できるようになる。
【0055】すなわち、影響度の高い条件フィールドを
合成すれば、結果フィールドに対して強い影響を及ぼす
条件をきめ細かく分類できるようになるとともに、ユー
ザがデータの性質を把握しているときには、その知見に
基づいて合成する条件フィールドが決定されることで、
客観的かつ高精度の合成処理を実現できるようになる。
【0056】次に、データ値変換プログラム13の実行
する処理について説明する。
【0057】データ値変換プログラム13は、起動され
ると、図8の処理フローに示すように、先ず最初に、ス
テップ1で、フィールド合成プログラム12によりフィ
ールド合成処理の施された既知表形式データベースの中
から処理対象となるものを選択する。例えば、第2の既
知表形式データベース10-2を処理対象として選択する
のである。
【0058】続いて、ステップ2で、フィールド合成プ
ログラム12によりフィールド合成処理の施された未知
表形式データベースの中から処理対象となるものを選択
する。例えば、第2の未知表形式データベース11-2を
処理対象として選択するのである。
【0059】続いて、ステップ3で、ステップ1で選択
した既知表形式データベースの持つ条件フィールドの中
に未処理のものが残されているのか否かを判断して、未
処理のものが残されている場合には、ステップ4に進ん
で、未処理の条件フィールドを1つ選択する。
【0060】続いて、ステップ5で、その選択した条件
フィールドが欠損値を含むのか否かを判断して、欠損値
を含むことを判断するときには、ステップ6に進んで、
その欠損値に対して、端末2を介してユーザから無視要
求があるのか否かを判断して、ユーザから無視要求があ
ることを判断するときには、ステップ7に進んで、その
欠損値を無視するように設定し、無視要求がないことを
判断するときには、ステップ8に進んで、その欠損値を
1つの値として扱うように設定する。そして、ステップ
5で、欠損値を含まないことを判断するときには、この
ステップ6〜ステップ8の処理を省略する。
【0061】続いて、ステップ9で、選択した条件フィ
ールドのデータ値(フィールド合成プログラム12の処
理により連続値はカテゴリ値に変換されている)の最適
なグループ分けを特定して、それを条件フィールドのデ
ータ値変換処理に参考となる支援情報として、端末2の
ディスプレイ画面に表示する。
【0062】この最適なグループ分けの特定は、例え
ば、全てのグループ分けを想定して、それらの各グルー
プ分け毎に、図14に示すように、カイ2乗値“χ2 ” χ2 =Σij(Xij−Eij)2/Eijij:観測度数、 Eij:期待度数 を算出し、それを自由度を考慮しつつ評価することで行
う。
【0063】ここで、全てのグループ分けを想定すると
処理時間がかかり過ぎる場合には、処理時間の許す範囲
でのグループ分けを想定する。
【0064】この算出式から分かるように、カイ2乗値
“χ2 ”は、「Xij−Eij=0」のときに“0”とな
る。すなわち、グループ分けにより分けられた各グルー
プの観測度数Xijが期待度数Eijと一致するときには、
例えば、全体の7割の人が購入し、3割の人が購入しな
かったときに、「10代の人の7割が購入し、3割が購
入しない。20代の人の7割が購入し、3割が購入しな
い。30代の人の7割が購入し、3割が購入しない。・
・・・・」といったように、全く傾向がないことを示し
ている。
【0065】これに対して、グループ分けにより分けら
れたグループ間の結果フィールドの値の分布が最も異な
るとき、このカイ2乗値“χ2 ”は最大となる。すなわ
ち、傾向がでることで、結果を良く説明できることにな
る程、カイ2乗値“χ2 ”は大きな値を示すことにな
る。
【0066】ただし、単純に、カイ2乗値“χ2 ”を比
較することはできない。それは、各グループ分けの自由
度 自由度=(条件フィールドのデータ値数−1)×(結果
フィールドのデータ値数−1) が異なるからであり、カイ2乗分布は、図15に示すよ
うに、この自由度により大きく変化するからである。
【0067】そこで、図16に示すように、自由度に合
わせたカイ2乗分布を使い、算出されたカイ2乗値“χ
2 ”以上の値を取る生起確率αをグループ分けの評価指
標値として求めて、そのようにして算出される生起確率
αの中から、最も小さな生起確率αを実現するグループ
分けを最適なグループ分けとして特定するようにする。
【0068】この評価指標値に従って、ステップ9で
は、選択した条件フィールドのデータ値に対して、色々
なグループ分けを想定して、それらの各グループ分け毎
に、この評価指標値を算出し、最も小さな評価指標値を
示すグループ分けを特定することで、選択した条件フィ
ールドのデータ値の最適なグループ分けを特定して、そ
れを条件フィールドのデータ値変換処理に参考となる支
援情報として、端末2のディスプレイ画面に表示する処
理を行う。
【0069】例えば、「東京、大阪、京都、仙台、盛
岡、長崎、札幌、・・・・」という住所の条件フィール
ドのデータ値のグループ分けとして、「東京、大阪・京
都、仙台・盛岡・長崎、札幌、・・・・」というグルー
プ分けが最適であるということを示す支援情報を生成し
て、それを端末2のディスプレイ画面に表示するのであ
る。
【0070】この表示を受けて、ユーザは、表示される
最適なグループ分けの情報を参考にしつつ、自分の知見
を生かしながら、選択した条件フィールドのデータ値を
どのようにグループ分けするのかを入力してくる。
【0071】これから、続くステップ10で、ユーザか
らの入力に応答して、選択した条件フィールドのデータ
値のグループ分けを設定し、次の条件フィールドのデー
タ値のグループ分けの設定処理に進むべく、ステップ3
に戻る。
【0072】そして、ステップ3〜ステップ10の処理
を繰り返していくことで、ステップ3で、全ての条件フ
ィールドに対してのグループ分けの設定が終了したこと
を判断すると、ステップ11に進んで、設定したグルー
プ分けの情報に従って、ステップ1,2で選択した表形式
データベースの持つ条件フィールドのデータ値の変換処
理を実行して、処理を終了する。
【0073】このようにして、データ値変換プログラム
13は、図17に示すように、ユーザの指示に応答して
条件フィールドのデータ値を変換していくように処理す
るのである。
【0074】そして、このとき、図18(a)に示すよ
うに、ユーザからの指示に応答して、欠損値を持つレコ
ードを無視したり、図18(b)に示すように、欠損値
を1つの値として取扱いつつ、条件フィールドのデータ
値を変換していくように処理するのである。
【0075】この条件フィールドのデータ値の変換にあ
たって、データ値変換プログラム13は、各条件フィー
ルド毎に、最適なデータ値のグループ分けを特定して、
それをデータ値変換処理に参考となる支援情報としてユ
ーザに提示するように処理することから、客観的かつ高
精度の合成処理を実現できるようになる。
【0076】すなわち、統計的に結果フィールドをよく
分類するグループ分けの支援情報が得られるので、ユー
ザは、それを参照しつつ自分の得ている知見を加味する
ことで、客観的かつ高精度のデータ値変換処理を実現で
きるようになる。
【0077】なお、上述した図6の処理フローのステッ
プ7では、システムの定義に従って、数値フィールド
(データ値が連続値を取る条件フィールド)を離散化す
ることについて説明したが、このときのシステムの行う
離散化方法として、数値フィールドのデータ値に対し
て、色々なグループ分けを想定して、それらの各グルー
プ分け毎に、図16で説明した評価指標値を算出し、最
も小さな評価指標値を示すグループ分けを特定して、そ
れに従って数値フィールドを離散化するという方法を用
いることも可能である。
【0078】
【発明の効果】以上説明したように、本発明では、記憶
に基づく推論に用いられる表形式データベースの条件フ
ィールドの合成を行う際に参考となる支援情報を作成し
て、それをユーザに提示していくように処理することか
ら、分析に慣れていないユーザや、データの理解が十分
でないユーザでも、条件フィールドの合成を行うことが
できるようになるとともに、そのときにおける試行錯誤
の回数も大幅に減らすことができるようになることで、
ユーザの負荷を大きく低減できるようになる。
【0079】そして、本発明では、記憶に基づく推論に
用いられる表形式データベースの条件フィールドの属性
値のグループ分けを変更する際に参考となる支援情報を
作成して、それをユーザに提示していくように処理する
ことから、分析に慣れていないユーザや、データの理解
が十分でないユーザでも、条件フィールドの属性値のグ
ループ分けを変更できるようになるとともに、そのとき
における試行錯誤の回数も大幅に減らすことができるよ
うになることで、ユーザの負荷を大きく低減できるよう
になる。
【0080】これにより、本発明によれば、記憶に基づ
く推論の予測精度を大きく向上できるようになる。
【図面の簡単な説明】
【図1】本発明の一実施例である。
【図2】フィルード合成プログラムの処理説明図であ
る。
【図3】フィルード合成プログラムの説明図である。
【図4】データ値変換プログラムの処理説明図である。
【図5】データ値変換プログラムの説明図である。
【図6】フィルード合成プログラムの処理フローであ
る。
【図7】フィルード合成プログラムの処理フローであ
る。
【図8】データ値変換プログラムの処理フローである。
【図9】MICの算出処理の説明図である。
【図10】フィルード合成プログラムの説明図である。
【図11】フィルード合成プログラムの説明図である。
【図12】フィルード合成プログラムの説明図である。
【図13】フィルード合成プログラムの説明図である。
【図14】カイ2乗値の算出処理の説明図である。
【図15】カイ2乗値分布の説明図である。
【図16】評価指標値の一実施例である。
【図17】データ値変換プログラムの処理説明図であ
る。
【図18】データ値変換プログラムの処理説明図であ
る。
【符号の説明】
1 表形式データベース加工装置 2 端末 10-1 第1の既知表形式データベース 10-2 第2の既知表形式データベース 10-3 第3の既知表形式データベース 11-1 第1の未知表形式データベース 11-2 第2の未知表形式データベース 11-3 第3の未知表形式データベース 12 フィールド合成プログラム 13 データ値変換プログラム

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 条件フィールドと結果フィールドとで構
    成される表形式データベースを加工する表形式データベ
    ース加工装置であって、 各条件フィールド毎に、結果フィールドに及ぼす影響度
    を算出する算出手段と、 上記算出手段の算出する影響度のリストを提示する提示
    手段と、 上記提示手段の提示するリストに応答して、条件フィー
    ルドの合成指示が発行される場合に、その合成指示で指
    定される複数の条件フィールドを1つの条件フィールド
    として合成する合成手段とを備えることを特徴とする表
    形式データベース加工装置。
  2. 【請求項2】 条件フィールドと結果フィールドとで構
    成される表形式データベースを加工する表形式データベ
    ース加工装置であって、 処理対象となる条件フィールドの持つ属性値を複数にグ
    ループ分けし、それらの各グループ分け毎に、結果フィ
    ールドに対するグループ分けの評価指標値を算出するこ
    とで、最適なグループ分けを特定する特定手段と、 上記特定手段の特定する最適なグループ分けの情報を提
    示する提示手段と、 上記提示手段の提示する情報に応答して、処理対象とな
    る条件フィールドの持つ属性値のグループ分け指示が発
    行される場合に、その指示で指定されるグループ分けに
    従って、該条件フィールドの持つ属性値を変換する変換
    手段とを備えることを、 特徴とする表形式データベース加工装置。
  3. 【請求項3】 条件フィールドと結果フィールドとで構
    成される表形式データベースを加工する表形式データベ
    ース加工装置の実現に用いられるプログラムが記録され
    るプログラム記録媒体であって、 各条件フィールド毎に、結果フィールドに及ぼす影響度
    を算出する算出処理と、 上記算出処理で算出する影響度のリストを提示する提示
    処理と、 上記提示処理で提示するリストに応答して、条件フィー
    ルドの合成指示が発行される場合に、その合成指示で指
    定される複数の条件フィールドを1つの条件フィールド
    として合成する合成処理とをコンピュータに実行させる
    プログラムが記録されることを、 特徴とするプログラム記録媒体。
  4. 【請求項4】 条件フィールドと結果フィールドとで構
    成される表形式データベースを加工する処理を行う表形
    式データベース加工処理用プログラムであって、 処理対象となる条件フィールドの持つ属性値を複数にグ
    ループ分けし、それらの各グループ分け毎に、結果フィ
    ールドに対するグループ分けの評価指標値を算出するこ
    とで、最適なグループ分けを特定する特定処理と、 上記特定処理で特定する最適なグループ分けの情報を提
    示する提示処理と、 上記提示処理で提示する情報に応答して、処理対象とな
    る条件フィールドの持つ属性値のグループ分け指示が発
    行される場合に、その指示で指定されるグループ分けに
    従って、該条件フィールドの持つ属性値を変換する変換
    処理とをコンピュータに実行させるための表形式データ
    ベース加工処理用プログラム。
  5. 【請求項5】 条件フィールドと結果フィールドとで構
    成される表形式データベースを加工する処理を行う表形
    式データベース加工処理用プログラムが記録される記録
    媒体であって、 処理対象となる条件フィールドの持つ属性値を複数にグ
    ループ分けし、それらの各グループ分け毎に、結果フィ
    ールドに対するグループ分けの評価指標値を算出するこ
    とで、最適なグループ分けを特定する特定処理と、 上記特定処理で特定する最適なグループ分けの情報を提
    示する提示処理と、 上記提示処理で提示する情報に応答して、処理対象とな
    る条件フィールドの持つ属性値のグループ分け指示が発
    行される場合に、その指示で指定されるグループ分けに
    従って、該条件フィールドの持つ属性値を変換する変換
    処理とをコンピュータに実行させるためのプログラムが
    記録される表形式データベース加工処理用プログラムの
    記録媒体。
JP2001022595A 2000-02-04 2001-01-31 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体 Withdrawn JP2001290647A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001022595A JP2001290647A (ja) 2000-02-04 2001-01-31 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-27137 2000-02-04
JP2000027137 2000-02-04
JP2001022595A JP2001290647A (ja) 2000-02-04 2001-01-31 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2001290647A true JP2001290647A (ja) 2001-10-19

Family

ID=26584845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001022595A Withdrawn JP2001290647A (ja) 2000-02-04 2001-01-31 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2001290647A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107299A (ja) * 2004-10-08 2006-04-20 Hitachi Ltd 医療情報システム及び医療情報表示方法
CN111259201A (zh) * 2018-12-03 2020-06-09 北京嘀嘀无限科技发展有限公司 一种数据维护方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107299A (ja) * 2004-10-08 2006-04-20 Hitachi Ltd 医療情報システム及び医療情報表示方法
JP4645143B2 (ja) * 2004-10-08 2011-03-09 株式会社日立製作所 医療情報システム及び医療情報表示方法
CN111259201A (zh) * 2018-12-03 2020-06-09 北京嘀嘀无限科技发展有限公司 一种数据维护方法和系统
CN111259201B (zh) * 2018-12-03 2023-08-18 北京嘀嘀无限科技发展有限公司 一种数据维护方法和系统

Similar Documents

Publication Publication Date Title
US11995112B2 (en) System and method for information recommendation
US11868411B1 (en) Techniques for compiling and presenting query results
CN107507028B (zh) 用户偏好确定方法、装置、设备及存储介质
JP5784239B2 (ja) データ分析方法、データ分析装置及びその処理プログラムを格納した記憶媒体
US11042591B2 (en) Analytical search engine
Miao et al. Context‐based dynamic pricing with online clustering
US20190228451A1 (en) Method, system, and computer-readable medium for product and vendor selection
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
US20030217029A1 (en) System and method for processing a large data set using a prediction model having a feature selection capability
WO2020087828A1 (zh) 预售风险评估方法、系统、计算机装置及可读存储介质
JP2020201819A (ja) ビジネスマッチング支援装置、及びビジネスマッチング支援方法
JP2001290647A (ja) 表形式データベース加工装置、表形式データベース加工処理用プログラム及びそのプログラムの記録媒体
US8856126B2 (en) Simplifying grouping of data items stored in a database
CN114429384A (zh) 基于电商平台的产品智能推荐方法及系统
JP6229988B1 (ja) 情報処理装置、情報処理方法及び情報処理用プログラム
KR20220083332A (ko) 그룹웨어에 특화된 누적특성 데이터 기반 질의 보정 기술이 적용된 챗봇 시스템 및 이에 의한 검색 방법
JP7456486B2 (ja) アイテム分類支援システム、方法およびプログラム
Rupesh et al. E-Business Churn Prediction Model Using Machine Learning
US20240202798A1 (en) Solving sparse data problems in a recommendation system with freezing start
US20230047062A1 (en) System and method for determining market share of an organization
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム
JP2001134577A (ja) データ分析装置、方法、およびそのコンピュータプログラムを記憶した記憶媒体
JP3002017B2 (ja) データ処理装置
CN114417153A (zh) 一种对象推荐方法、装置、电子设备及存储介质
CN115525832A (zh) 业务对象的推荐方法、装置、线上业务系统、计算机设备

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080401