JPH07110817A - 欠損値推定方式 - Google Patents

欠損値推定方式

Info

Publication number
JPH07110817A
JPH07110817A JP5253940A JP25394093A JPH07110817A JP H07110817 A JPH07110817 A JP H07110817A JP 5253940 A JP5253940 A JP 5253940A JP 25394093 A JP25394093 A JP 25394093A JP H07110817 A JPH07110817 A JP H07110817A
Authority
JP
Japan
Prior art keywords
estimated
missing value
unit
estimating
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5253940A
Other languages
English (en)
Inventor
Mutsumi Kumamoto
睦 熊本
Toshiyuki Iida
敏幸 飯田
Shigeo Shimada
茂夫 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5253940A priority Critical patent/JPH07110817A/ja
Publication of JPH07110817A publication Critical patent/JPH07110817A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 各項目における単位を利用して、推定したい
項目と同種の単位を有する量を他の項目から選出して推
定項目と関係が深い量を絞り込み、統計解析における計
算量を小さくし、欠損値の推定を短時間で効率的に可能
にする欠損値推定方式を提供する。 【構成】 検索制御部210は利用者/利用プログラム
200が検索要求したデータ中に欠損値があるか否を調
べ、欠損値がある場合には、この欠損値の項目および欠
損値を推定する時に利用可能な項目をデータベース23
0から得て、DB欠損値推定部240に供給する。DB
欠損値推定部240は同種の単位についてまとめ、これ
らを代表する記号である単位代表記号との対応関係を記
憶する知識ベースを用いて、欠損値である推定量の単位
と同種の単位になる量を推定利用可能量から選出し、こ
れらの量と推定量との間の量的関係を推定し、該量的関
係を用いて欠損値の推定値を計算する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一部に欠損がある数値
データを利用するシステム、特に一部の数値データが欠
損しているデータベースを利用するシステムにおいて欠
損値を推定する欠損値推定方式に関する。
【0002】
【従来の技術】データベースを構築する場合、まずデー
タの収集を行なうわけであるが、様々な理由で、データ
の一部が得られない場合がある。例えば、データが非公
開であることで集められなかったり、データそのものを
集め忘れることもある。このような場合、そのデータは
欠損値として処理される。なお、本発明では、数値デー
タはデータベースとして格納されている場合を扱うが、
各データの単位が分かるものであれば、特にデータベー
スである必要はない。ここでは、各項目に単位を付加す
ることが可能なデータベースを考える。この場合、数値
データに対応する項目名が量を表す。
【0003】図2はデータベースの例である。同図のデ
ータベースでは、欠損値を特別な記号NAで表現してい
る。同図のデータベースは、自動車のデータベースであ
り、ジュノとペスタの最高出力、フローラの車高と最大
トルクが欠損している。
【0004】従来、このような欠損値がある場合、欠損
値のある項目と他の項目との関係を統計解析を用いて分
析し欠損値を推定するか、あるいは、欠損部分のデータ
は利用しないですませるかのいずれかであった。
【0005】
【発明が解決しようとする課題】しかしながら、統計解
析を用いる場合、項目数が非常に多くなると、すべての
項目との関係を推定することは、計算時間が非常に大き
くなるので不可能である。特に、取り扱う関係式の範囲
を項目の一次式だけでなく、項目間の積や商にまで広げ
ると組合せは膨大になる。そこで、関係を推定するため
に有用と考えられる項目を絞り込む必要がある。これ
を、人手で行なうことも考えられるが、最近では、多数
のデータベースを取り扱うことも普通となってきてお
り、その作業は大変であり、欠損部分のデータは利用せ
ずに終ることも多い。
【0006】本発明は、上記に鑑みてなされたもので、
その目的とするところは、各項目における単位を利用し
て、推定したい項目と同種の単位を有する量を他の項目
から選出して推定項目と関係が深い量を絞り込み、統計
解析における計算量を小さくし、欠損値の推定を短時間
で効率的に可能にする欠損値推定方式を提供することに
ある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の欠損値推定方式は、一部に欠損がある数字
データを利用するシステムにおいて欠損値を推定する欠
損値推定方式であって、同種の単位についてまとめ、こ
れらを代表する記号である単位代表記号との対応関係を
記憶する知識ベースと、該知識ベースを用いて、データ
中に推定したい欠損値である推定量の単位と同種の単位
になる量を推定利用可能量から構成する同種単位量構成
手段と、前記推定量と前記同種単位量構成手段で構成さ
れた量との間の量的関係をこれらの量に関する数値デー
タから推定する量的関係推定手段と、該量的関係推定手
段で推定された量的関係を用いて前記欠損値の推定値を
計算する推定値計算手段とを有することを要旨とする。
【0008】
【作用】本発明の欠損値推定方式では、同種の単位につ
いてまとめ、これらを代表する記号である単位代表記号
との対応関係を記憶する知識ベースを用いて、欠損値で
ある推定量の単位と同種の単位になる量を推定利用可能
量から構成し、これらの量と推定量との間の量的関係を
推定し、該量的関係を用いて欠損値の推定値を計算す
る。
【0009】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0010】図1は、本発明の一実施例に係わる欠損値
推定方式を実施するシステムの構成を示すブロック図で
ある。図1において、利用者/利用プログラム200
は、データベース230(以下、DB230と称する)
に関するデータ処理を行なう利用者あるいは利用プログ
ラムである。データベース管理システム220(以下、
DBMS220と称する)は、一般に利用されているデ
ータベース管理システムであり、これを用いてDB23
0のスキーマにある項目名を読んだり、DB230の内
容を検索する。検索制御部210は、利用者/利用プロ
グラム200のDB230に対する検索要求を受けて、
その要求が、DB230の欠損データの部分に関係する
場合に、DBMS220を利用してDB230の欠損値
がある項目とその単位、欠損値を推定するために利用可
能な項目とその単位、および、それらの項目の数値デー
タを読み込み、本発明に関わるDB欠損値推定部240
に渡す。DB欠損値推定部240は、渡された情報をも
とに、欠損値を推定し、推定値を検索制御部210に渡
す。検索制御部210は、欠損部分を推定値で埋めたD
Bに対して、検索を行ない、結果を利用者/利用プログ
ラム200に返す。
【0011】また、検索要求がDB230の欠損データ
の部分に関係しない場合には、検索制御部210は、D
BMS220を利用して検索を行ない、検索結果を利用
者/利用プログラム200に返す。
【0012】図3は、本発明における知識ベースの一実
施例である。同図において、$は代表記号を意味してい
る。
【0013】同図において、$寸法は、「m」、「m
m」、「cm」、「km」の代表記号であり、寸法に関
する単位の代表記号である。同様に、$重量、$価格、
$出力は、それぞれ、重量、価格、出力に関する単位の
代表記号である。
【0014】図4は本発明の一実施例のDB欠損値推定
部240の動作を示すフローチャートである。DB欠損
値推定部240は、まず、DB230の推定項目とその
単位、欠損値を推定するために利用可能な項目(以下、
推定利用可能項目と称する)とそれらの単位を検索制御
部210から得る(ステップ501)。そして、各項目
の単位を知識ベースを使って、単位代表記号の式に変換
する(ステップ502)。続いて、推定項目の代表単位
記号式と同じ式を構成するように、推定利用可能項目を
使った式(以下、推定利用項目式と称する)を作る(ス
テップ503)。次に、推定項目と推定利用項目式の含
まれる項目に関する数値データを検索制御部210を通
じてDBMS220に要求し、DB230から取り出す
(ステップ504)。数値データを統計解析を用いて分
析することで、推定項目を推定利用項目から計算するた
めの推定式を求める(ステップ505)。最後に、推定
式を用いて推定項目の推定値を計算し、検索制御部21
0に返す(ステップ506)。
【0015】次に、図1のシステムにおいて、DB23
0が図2に示す自動車データベースで、DB欠損値推定
部240が図3に示す知識ベースを使っている場合のD
B欠損値推定部240の動作を図4のフローチャートを
使いながら説明する。
【0016】まず、利用者/利用プログラム200は、
検索制御部210に対して、DB230に関する検索要
求を出す。例えば、「最大トルクが20kg・mより大
きい自動車の車名を検索せよ」という要求を出したとす
る。検索制御部210は、最大トルクに欠損値があるか
どうかを調べる。この場合、フローラの最大トルクは欠
損値であるので、検索制御部210は推定項目名を「最
大トルク」に設定する。さらに、DB230を調べて、
推定項目以外の数値データ項目の中から、推定項目を推
定する時に利用可能な項目を得て、これらをDB欠損値
推定部240に送る。フローラの「最大トルク」の値を
推定する場合、車名がフローラであるデータを見ると、
「車高」も欠損値であることが分かるので、この項目は
利用可能でない。従って、「車長」、「車幅」、「車
重」、「最高出力」、「価格」が推定利用可能項目とな
る。
【0017】以降のDB欠損値推定部240の動作を図
5のフローチャートを使って説明する。DB欠損値推定
部240は、検索制御部210から、推定項目「最大ト
ルク」とその単位「kg・m」、推定利用可能項目とそ
れらの単位「車長」「mm」、「車幅」「mm」、「車
重」「kg」、「最高出力」「馬力」、「価格」「万
円」を得る(ステップ501)。そして、各項目の単位
を図4の知識ベースを使って単位代表記号式で表現する
と、「kg・m」は「$寸法×$重量」となり、「m
m」、「kg」、「馬力」、「万円」は、それぞれ、
「$寸法」、「$重量」、「$出力」、「$価格」とな
る(ステップ502)。
【0018】次に、推定項目の代表単位記号式と同じ式
を構成するような推定利用項目の式を作る。代表単位記
号式が「$寸法×$重量」になるのは、「車長×重
量」、「車幅×重量」である(ステップ503)。続い
て、推定項目「最大トルク」と推定利用項目式「車長・
重量」、「車幅・重量」に含まれる項目「車長」、「車
幅」、「重量」の数値データを検索制御部210に要求
すると、検索制御部210は該当する数値データを返す
(ステップ504)。本実施例では、統計解析として
は、重回帰分析(参考文献:応用統計ハンドブック、養
賢堂、応用統計ハンドブック編集委員会編)を使うもの
とする。重回帰分析は、数値データから関係式を一次式
として推測する分析手法である。本実施例の場合、車名
がパレス、ジュノ、ペスタ、メディスの数値データに対
して、重回帰分析を行ない、推測式を求めると、
【数1】『最大トルク=−18.3−0.000004
13×車長×重量+0.0000292×車幅×重量』 となる(ステップ505)。この推定式を使うことによ
りフローラの最大トルクの推測値は、
【数2】−18.3−0.00000413×4675
×1530+0.0000292×1725×1530
=29.26 となり、29.26が検索制御部210に返る(ステッ
プ506)。
【0019】検索制御部210は、フローラの最大トル
クが29.26であると考えて、初めの検索要求「最大
トルクが20kg・mより大きい自動車の車名を検索せ
よ」を実行し、「パレス、フローラ、メディス」を利用
者/利用プログラム200に返す。
【0020】
【発明の効果】以上説明したように、本発明によれば、
同種の単位についてまとめ、これらを代表する記号であ
る単位代表記号との対応関係を記憶する知識ベースを用
いて、欠損値である推定量の単位と同種の単位になる量
を推定利用可能量から構成し、これらの量と推定量との
間の量的関係を推定し、該量的関係を用いて欠損値の推
定値を計算するので、統計解析の対象とする項目の候補
を絞ることができ、統計解析の処理時間を短縮し、欠損
値を効率的かつ迅速に推定することができる。この結
果、従来のデータベース処理では得ることができなかっ
た情報を得ることができ、これらの情報を活用すること
ができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる欠損値推定方式を実
施するシステムの構成を示すブロック図である。
【図2】リレーショナルデータベースの一例を示す図で
ある。
【図3】知識ベースの一例を示す図である。
【図4】図1に示すシステムに使用されているDB欠損
値推定部の作用を示すフローチャートである。
【符号の説明】
200 利用者/利用プログラム 210 検索制御部 220 データベース管理システム(DBMS) 230 データベース(DB) 240 DB欠損値推定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 一部に欠損がある数字データを利用する
    システムにおいて欠損値を推定する欠損値推定方式であ
    って、 同種の単位についてまとめ、これらを代表する記号であ
    る単位代表記号との対応関係を記憶する知識ベースと、 該知識ベースを用いて、データ中に推定したい欠損値で
    ある推定量の単位と同種の単位になる量を推定利用可能
    量から構成する同種単位量構成手段と、 前記推定量と前記同種単位量構成手段で構成された量と
    の間の量的関係をこれらの量に関する数値データから推
    定する量的関係推定手段と、 該量的関係推定手段で推定された量的関係を用いて前記
    欠損値の推定値を計算する推定値計算手段とを有するこ
    とを特徴とする欠損値推定方式。
JP5253940A 1993-10-12 1993-10-12 欠損値推定方式 Pending JPH07110817A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5253940A JPH07110817A (ja) 1993-10-12 1993-10-12 欠損値推定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5253940A JPH07110817A (ja) 1993-10-12 1993-10-12 欠損値推定方式

Publications (1)

Publication Number Publication Date
JPH07110817A true JPH07110817A (ja) 1995-04-25

Family

ID=17258118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5253940A Pending JPH07110817A (ja) 1993-10-12 1993-10-12 欠損値推定方式

Country Status (1)

Country Link
JP (1) JPH07110817A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794227A (zh) * 2018-08-02 2020-02-14 阿里巴巴集团控股有限公司 故障检测方法、系统、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794227A (zh) * 2018-08-02 2020-02-14 阿里巴巴集团控股有限公司 故障检测方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
EP0875838B1 (en) Cardinality-based join ordering
Sapia On Modeling and Predicting Query Behavior in OLAP Systems.
US9747337B2 (en) Group-by size result estimation
Dobson et al. Structural models for the analysis of traveler attitude-behavior relationships
US5201047A (en) Attribute-based classification and retrieval system
AU735010B3 (en) Business intelligence system
US6108647A (en) Method, apparatus and programmed medium for approximating the data cube and obtaining approximate answers to queries in relational databases
US6052689A (en) Computer method, apparatus and programmed medium for more efficient database management using histograms with a bounded error selectivity estimation
US20100198779A1 (en) Data processing system and method for supply chain management
US20090006148A1 (en) Apparatus and method for materializing related business intelligence data entities
US20030212960A1 (en) Computer-implemented system and method for report generation
US20050021504A1 (en) Methods, systems, and computer program products for querying a database for employee data and organizing the obtained data
US20030135485A1 (en) Method and system for rowcount estimation with multi-column statistics and histograms
US7529762B2 (en) Workflow data warehousing
US20050065939A1 (en) Method and system for optimizing snow flake queries
CN111160658A (zh) 一种协同制造资源优配方法、系统和平台
US20050108204A1 (en) System and method for managing OLAP summary tables
Berry et al. Product Structure Analysis for the Master Scheduling ofAssemble‐to‐order Products
JPH07110817A (ja) 欠損値推定方式
US7127457B1 (en) Method and system for executing database queries
JPH0785082A (ja) 欠損値推定方式
Vendemia et al. Evaluation of lead time in production/inventory systems with non-stationary stochastic demand
Morik et al. The miningmart approach
Reddy Real Time Data Warehousing: A Review
Jeusfeld et al. Key performance indicators in data warehouses