JPH0785082A - 欠損値推定方式 - Google Patents

欠損値推定方式

Info

Publication number
JPH0785082A
JPH0785082A JP5226027A JP22602793A JPH0785082A JP H0785082 A JPH0785082 A JP H0785082A JP 5226027 A JP5226027 A JP 5226027A JP 22602793 A JP22602793 A JP 22602793A JP H0785082 A JPH0785082 A JP H0785082A
Authority
JP
Japan
Prior art keywords
estimated
word
item
missing value
estimating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5226027A
Other languages
English (en)
Inventor
Mutsumi Kumamoto
睦 熊本
Shigeo Shimada
茂夫 島田
Toshiyuki Iida
敏幸 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5226027A priority Critical patent/JPH0785082A/ja
Publication of JPH0785082A publication Critical patent/JPH0785082A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 与えられたデータベースに対して推定したい
項目と関係の深い項目を絞り込むことで、統計解析にお
ける計算量を小さくし、データベースの欠損値の推定を
短時間で効率的に可能にする欠損値推定方式を提供す
る。 【構成】 DB欠損値推定部240においてデータベー
ス230の数値データに対応する項目名を量語と見な
し、各項目名を形態素に分割したときの末尾語から、そ
の項目がどういう量であるかを判断し、推定項目と同種
の量に属する項目を推定利用項目として選択し、それら
の項目間の関係を推定し、その関係を用いて欠損値を計
算する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一部に欠損がある数値
データを利用するシステム、特に一部の数値データが欠
損しているデータベースを利用するシステムにおいて欠
損値を推定する欠損値推定方式に関する。
【0002】
【従来の技術】データベースを構築する場合、まずデー
タの収集を行うわけであるが、様々な利用でデータの一
部が得られない場合がある。例えば、データが非公開で
あることで集められなかったり、データそのものが集め
忘れることもある。このような場合、従来は、そのデー
タは欠損値として処理される。なお、本発明では、数値
データがどのような形式で表現されているかは、本質的
ではないので、以降では、リレーショナルデータベース
として表現されている場合を考える。この場合、数値デ
ータに対応する項目名が量を表す。
【0003】図2は、リレーショナルデータベースの例
を示している。リレーショナルデータベースの場合、例
えば同図に示すような表現形式になっており、欠損値を
特別な記号NAで表現している。同図のデータベース
は、自動車のデータベースであり、ジュノの最大トル
ク、フローラの車高、マニュアル車価格、メディスのマ
ニュアル車価格が欠損している。
【0004】従来、このような欠損値がある場合、欠損
値のある項目と他の項目との関係を統計解析を用いて分
析し欠損値を推定するか、または欠損部分のデータは利
用しないですませるかのいずれかであった。
【0005】
【発明が解決しようとする課題】しかしながら、統計解
析を用いる場合、項目数が非常に多くなると、すべての
項目との関係を推定することは、計算時間が非常に大き
くなるので不可能である。そこで、関係を推定するため
に有用と考えられる項目を絞り込む必要がある。これを
人手で行うことも考えられるが、最近では、多数のデー
タベースを取り扱うことも普通となってきており、その
作業は大変であるので、欠損部分のデータは利用せずに
終ることも多い。
【0006】本発明は、上記に鑑みてなされたもので、
その目的とするところは、与えられたデータベースに対
して推定したい項目と関係の深い項目を絞り込むこと
で、統計解析における計算量を小さくし、データベース
の欠損値の推定を短時間で効率的に可能にする欠損値推
定方式を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の欠損値推定方式は、量に関する単語である
量語の末尾に来る量末尾語を同種の量についてまとめ、
これらを代表する記号である量末尾語代表記号との対応
関係を記憶する知識ベースと、データ中に推定したい欠
損値がある推定量を表現する語、推定に利用可能な量を
表現する推定利用可能量語を形態素に分割し、各量語の
量末尾語を抽出する量末尾語抽出手段と、前記知識ベー
スを用いて、推定量と関係が深い量を表現する語を推定
利用可能量語の中から選択する関係量語選択手段と、推
定量と選択された量である推定利用量との間の量的関係
をそれらの量に関する数値データから推定する量的関係
推定手段と、前記量的関係を用いて欠損値の推定値を計
算する推定値計算手段とを有することを要旨とする。
【0008】
【作用】本発明の欠損値推定方式では、データベースの
数値データに対応する項目名を量語と見なし、各項目名
を形態素に分割したときの末尾語から、その項目がどう
いう量であるかを判断し、推定項目と同種の量に属する
項目を推定利用項目として選択し、それらの項目間の関
係を量的関係推定手段で推定し、その関係を用いて欠損
値を計算する。
【0009】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0010】図1は、本発明の一実施例に係わる欠損値
推定方式を実施するシステムの構成を示すブロック図で
ある。図1において、利用者/利用プログラム200
は、データベース230(以下、DB230と略称す
る)に関するデータ処理を行う利用者あるいは利用プロ
グラムである。データベース管理システム220(以
下、DBMS220と略称する)は、一般に利用されて
いるデータベース管理システムであり、これを用いてD
B230のスキーマにある項目名を読んだり、DB23
0の内容を検索する。
【0011】検索制御部210は、利用者/利用プログ
ラム200のDB230に対する検索要求を受けて、そ
の要求がDB230の欠損データの部分に関係する場合
に、DBMS220を利用してDB230の項目名、欠
損値がある項目名、項目の数値データを読み込み、DB
欠損値推定部240に渡す。DB欠損値推定部240
は、渡された情報をもとに、欠損値を推定し、推定値を
検索制御部210に渡す。検索制御部210は、欠損部
分を推定値で埋めたDBに対して、検索を行い、結果を
利用者/利用プログラム200に返す。
【0012】また、検索要求がDB230の欠損データ
の部分に関係しない場合には、検索制御部210は、D
BMS220を利用して検索を行い、検索結果を利用者
/利用プログラム200に返す。
【0013】図3は、本発明における知識ベースの一実
施例である。同図において、$は語の代表記号を意味し
ており、語と区別するために用いられる。
【0014】同図において、$寸法は、量末尾語である
「長さ」、「長」、「幅」、「高さ」、「高」の代表記
号であり、寸法に関する量語の末尾に来る語を代表して
いる。同様に、$重量、$価格、$出力、$トルク、$
燃費は、それぞれ、重量、価格、出力、トルク、燃費に
関する量末尾語の代表記号である。
【0015】図4は図1に示す実施例のDB欠損値推定
部240の動作を示すフローチャートである。DB欠損
値推定部240は、まず、DB230の推定項目名、欠
損値を推定するために利用可能な項目名の集合(以下、
推定利用可能項目名集合)を検索制御部210から得る
(ステップ501)。そして、推定項目名、推定利用可
能項目名集合の項目名を形態素解析(参考文献:人工知
能ハンドブック、オーム社、人工知能学会編)を用いて
分割し、各項目名の末尾語を抽出し(ステップ50
2)、各項目名に対して、項目名の末尾語と、知識ベー
ス中の量末尾語が一致する量末尾語代表記号を決定する
(ステップ503)。
【0016】次に、推定利用可能項目名集合から、量末
尾語代表記号が推定項目名に対する量末尾語代表記号と
一致する項目名を取り出し、それを推定利用項目とする
(ステップ504)。そして、推定項目と推定利用項目
に関する数値データを検索制御部210を通じてDBM
S220に要求し、DB230から取り出す(ステップ
505)。続いて、数値データを統計解析を用いて分析
することで、推定項目を推定利用項目から計算するため
の推定式を求める(ステップ506)。最後に、推定式
を用いて推定項目の推定値を計算し、検索制御部210
に返す(ステップ507)。
【0017】次に、図1のシステムにおいて、DB23
0が図2に示す自動車データベースで、DB欠損値推定
部240が図3に示す知識ベースを使っている場合のD
B欠損値推定部240の動作を図4のフローチャートを
使いながら説明する。
【0018】まず、利用者/利用プログラム200は、
検索制御部210に対して、DB230に関する検索要
求を出す。例えば、「車高が1350より大きい自動車
の車名を検索せよ」という要求を出したとする。検索制
御部210は、車高に欠損値があるかどうかを調べる。
この場合、フローラの車高は欠損値であるので、検索制
御部210は推定項目名を「車高」に設定する。さら
に、DB230を調べて、推定項目以外の数値データ項
目の中から、推定項目を推定する時に利用可能な項目を
得て、これらをDB欠損値推定部240に送る。フロー
ラの「車高」の値を推定する場合、車名がフローラであ
るデータを見ると、「マニュアル車価格」が欠損値であ
ることが分かるので、この項目は利用可能でない。従っ
て、推定利用可能項目集合は「車長、車幅、車重、最高
出力、最大トルク、オートマチック車価格」となる。
【0019】以降のDB欠損値推定部240の動作を図
4のフローチャートを使って説明する。DB欠損値推定
部240は、検索制御部210から、推定項目名「車
高」、推定利用項目名集合「車長、車幅、車重、最高出
力、最大トルク、オートマチック車価格」を得る(ステ
ップ501)。そして、推定項目名、推定利用可能項目
名集合の項目名を形態素解析を用いて分割し、各項目名
の末尾語を抽出すると、「車高」からは「高」が抽出さ
れ、「車長」、「車幅」、「車重」、「最高出力」、
「最大トルク」、「オートマチック車価格」からは、そ
れぞれ、「長」、「幅」、「重」、「出力」、「トル
ク」、「価格」が抽出される(ステップ502)。
【0020】次に、抽出された項目名の末尾語と一致す
る量末尾語代表記号を図3の知識ベースから決定する
と、「車高」は$寸法となり、「車長」、「車幅」、
「車重」、「最高出力」、「最大トルク」、「オートマ
チック車価格」は、それぞれ、$寸法、$寸法、$重
量、$出力、$トルク、$価格となる(ステップ50
3)ので、推定項目「車高」に関する量末尾語代表記号
$寸法と同じ量末尾語代表記号を持つ項目は、「車
長」、「車幅」となる(ステップ504)。
【0021】続いて、推定項目「車高」と推定利用項目
「車長」、「車幅」の数値データを検索制御部210に
要求すると、検索制御部210は該当する数値データを
返す(ステップ505)。本実施例では、統計解析とし
ては、重回帰分析(参考文献:応用統計ハンドブック、
養賢堂、応用統計ハンドブック編集委員会編)を使うも
のとする。重回帰分析は、数値データから項目間の関係
式を一次式として推測する分析手法である。本実施例の
場合、車名がパレス、ジュノ、ベスタ、メディスである
「車高」の数値データと「車長、車幅」の数値データに
対して、重回帰分析を行うと、推測式として、
【数1】 『車高=84+0.03×車長+0.67×車幅』 が求められる(ステップ506)。この推定式を使うこ
とによりフローラの車高の推測値は、
【数2】 84+0.03×4675+0.67×1725=1380 となり、1380が検索制御部210に返る(ステップ
507)。
【0022】図1に戻って説明を続ける。検索制御部2
10は、フローラの車高が1380であると考えて、初
めの検索要求「車高が1350より大きい自動車の車名
を検索せよ」を実行し、「パレス、フローラ、メディ
ス」を利用者/利用プログラム200に返す。
【0023】
【発明の効果】以上説明したように、本発明によれば、
データベースの数値データに対応する項目名を量語と見
なし、各項目名を形態素に分割したときの末尾語から、
その項目がどういう量であるかを判断し、推定項目と同
種の量に属する項目を推定利用項目として選択し、それ
らの項目間の関係を量的関係推定手段で推定し、その関
係を用いて欠損値を計算するので、統計解析の対象とす
る項目の候補をいくつかに絞ることができ、統計解析の
処理時間を短縮し、データベースにおける欠損値を効率
的に推定することができる。この結果、従来のデータベ
ース処理では得ることができなかった情報を得ることが
でき、これらの情報を活用する道が開ける。また、本発
明では、量語全体を使用せずに、量語の末尾に来る語の
みからどういう量であるかを判断しているので、種々の
データベースに対応することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる欠損値推定方式を実
施するシステムの構成を示すブロック図である。
【図2】リレーショナルデータベースの一例を示す図で
ある。
【図3】知識ベースの一例を示す図である。
【図4】図1の欠損値推定方式に使用されているDB欠
損値推定部の作用を示すフローチャートである。
【符号の説明】
200 利用者/利用プログラム 210 検索制御部 220 データベース管理システム 230 データベース 240 DB欠損値推定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 量に関する単語である量語の末尾に来る
    量末尾語を同種の量についてまとめ、これらを代表する
    記号である量末尾語代表記号との対応関係を記憶する知
    識ベースと、 データ中に推定したい欠損値がある推定量を表現する
    語、推定に利用可能な量を表現する推定利用可能量語を
    形態素に分割し、各量語の量末尾語を抽出する量末尾語
    抽出手段と、 前記知識ベースを用いて、推定量と関係が深い量を表現
    する語を推定利用可能量語の中から選択する関係量語選
    択手段と、 推定量と選択された量である推定利用量との間の量的関
    係をそれらの量に関する数値データから推定する量的関
    係推定手段と、 前記量的関係を用いて欠損値の推定値を計算する推定値
    計算手段とを有することを特徴とする欠損値推定方式。
JP5226027A 1993-09-10 1993-09-10 欠損値推定方式 Pending JPH0785082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5226027A JPH0785082A (ja) 1993-09-10 1993-09-10 欠損値推定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5226027A JPH0785082A (ja) 1993-09-10 1993-09-10 欠損値推定方式

Publications (1)

Publication Number Publication Date
JPH0785082A true JPH0785082A (ja) 1995-03-31

Family

ID=16838639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5226027A Pending JPH0785082A (ja) 1993-09-10 1993-09-10 欠損値推定方式

Country Status (1)

Country Link
JP (1) JPH0785082A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063432A (ja) * 2012-09-24 2014-04-10 Nippon Telegr & Teleph Corp <Ntt> 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
JP2014164383A (ja) * 2013-02-22 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> センサデータ統合装置、センサデータ統合方法及びプログラム
JP2018005394A (ja) * 2016-06-29 2018-01-11 株式会社日立製作所 情報提供装置、方法およびシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063432A (ja) * 2012-09-24 2014-04-10 Nippon Telegr & Teleph Corp <Ntt> 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
JP2014164383A (ja) * 2013-02-22 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> センサデータ統合装置、センサデータ統合方法及びプログラム
JP2018005394A (ja) * 2016-06-29 2018-01-11 株式会社日立製作所 情報提供装置、方法およびシステム

Similar Documents

Publication Publication Date Title
EP0875838B1 (en) Cardinality-based join ordering
CA2146171C (en) Method for estimating cardinalities for query processing in a relational database management system
US8447743B2 (en) Techniques for processing database queries including user-defined functions
US5870747A (en) Generalized key indexes
US7343366B2 (en) Group-By result size estimation
US5021992A (en) Method of translating data from knowledge base to data base
US6480835B1 (en) Method and system for searching on integrated metadata
AU735010B3 (en) Business intelligence system
US7743052B2 (en) Method and apparatus for projecting the effect of maintaining an auxiliary database structure for use in executing database queries
CA2522309A1 (en) Retaining hierarchical information in mapping between xml documents and relational data
US20080288444A1 (en) Evaluating Multi-Table Join Selectivity in a Computer Database
US20060074875A1 (en) Method and apparatus for predicting relative selectivity of database query conditions using respective cardinalities associated with different subsets of database records
CN108197187A (zh) 查询语句的优化方法、装置、存储介质和计算机设备
JPH11212988A (ja) 多次元データベース階層型分類軸自動生成システム、分類項目解析方法及びこのプログラムを記録した記録媒体
US6304871B1 (en) Method and system for characterizing applications for use with databases having structured query language interfaces
JPH0785082A (ja) 欠損値推定方式
Dyreson Temporal coalescing with now granularity, and incomplete information
CN106528849B (zh) 面向完整历史记录的图查询开销方法
CN114153874A (zh) 基数估计方法、装置、电子设备及存储介质
JPH07110817A (ja) 欠損値推定方式
CN115455010B (zh) 一种基于milvus数据库的数据处理方法、电子设备及存储介质
Bettini et al. An architecture for supporting interoperability among temporal databases
Meng et al. Performance analysis of three text-join algorithms
KR100209162B1 (ko) 템플리트를 이용한 윈도우용 가입자 관리 시스템에서의 레코드 조회 방법 및 장치
CN117390208A (zh) 一种工装检索的方法、装置、存储介质及电子设备