JP3651550B2 - 属性圧縮装置および方法 - Google Patents

属性圧縮装置および方法 Download PDF

Info

Publication number
JP3651550B2
JP3651550B2 JP04014998A JP4014998A JP3651550B2 JP 3651550 B2 JP3651550 B2 JP 3651550B2 JP 04014998 A JP04014998 A JP 04014998A JP 4014998 A JP4014998 A JP 4014998A JP 3651550 B2 JP3651550 B2 JP 3651550B2
Authority
JP
Japan
Prior art keywords
attribute
rdb
type
compression
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04014998A
Other languages
English (en)
Other versions
JPH11238073A (ja
Inventor
高日子 山崎
將 白石
秀俊 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP04014998A priority Critical patent/JP3651550B2/ja
Publication of JPH11238073A publication Critical patent/JPH11238073A/ja
Application granted granted Critical
Publication of JP3651550B2 publication Critical patent/JP3651550B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、一般RDB(Relational Data Base)から2値RDBへの変換の際にその属性値を圧縮する装置および方法に関するものである。
【0002】
【従来の技術】
属性値の集合からなる数値データを区切って圧縮する装置としては、例えば、特開平7-93159がある。この装置においては、属性値に順序がある場合の属性値の圧縮の方法として、
▲1▼それぞれの区間に含まれるデータ数が等しくなるようにする、
▲2▼属性ごとに、属性値の平均値と分散の値とを求め、その平均値と分散の値に基づいて区間の分割を行なう、
▲3▼ユーザにより入力された位置で区間の分割を行なう、
▲4▼各属性の定義域を等分割して区間とすることが提案されている。
【0003】
【発明が解決しようとする課題】
しかし、一般のRDB中の属性は、属性値の型は必ずしも一定の順序があるものとは限らず、従来の技術ではそのような一定の順序がない場合には対応できないという問題点があった。
【0004】
さらに、属性値が数値の場合は、一般には順序の意味付けをもっているのが普通であるが、ID番号(Identification Number)のような例外があり、そのような場合に、圧縮を行なうことは意味がないばかりか、有害になってしまうという問題点もあった。
【0005】
また、一般のRDB属性値の中には、数値で示されているものと文字で示されているものが混在していたり、レコードによってはそこが空欄になっていたりする場合には、従来の技術では、対応できないという問題点があった。
【0006】
本発明は上記のような問題点を解決するためになされたもので、各属性の属性値の種類数、分布、各属性値のとりうる型等を調べた上で圧縮の必要の可否も含めて適切な圧縮を行なうことにより、2値RDBの属性の数を減らし、相関関係発見を高速にすることを目的とする。
【0007】
【課題を解決するための手段】
第1の発明の属性圧縮装置は、RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮装置において:一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納するデータ読出し手段と、一般RDBから読み出したレコード数をカウントするレコード数カウンタと、データ読出し手段で読み出されたデータが数値型か否かを判定し、数値型の場合には属性値の出現度数を数値型属性値カウンタに格納し、非数値型の場合には属性値の出現度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納する数値型判定手段と、前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいて属性値のデータの型を判定し、判定結果を型決定テーブルに格納する型判定手段と、型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成する圧縮手段と、前記圧縮済RDBに基づいて、2値で表現される2値RDBを生成する2値RDB変換手段とを備えるように構成される。
【0008】
第2の発明の属性圧縮装置は、非数値型属性値カウンタの値が0であって、属性値総数カウンタの値が順序数値型閾値よりも大きい場合は、前記型反転手段で入力されたデータ型は全順序型と判断され、入力されたデータ型が全順序型と判断された場合、前記圧縮手段で全てのデータに対して属性値変換を行うように構成される。
【0009】
第3の発明の属性圧縮装置は、数値型属性値種類数カウンタの値が順序数値型閾値よりも大きく、非数値型属性値カウンタの値が順序非数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータは擬似全順序型と判断され、入力されたデータ型が擬似全順序型と判断された場合、前記圧縮手段で前記圧縮手段で数値型データに対しては属性値変換を行い、非数値型データに対しては属性値変換を行わないように構成される。
【0010】
第4の発明の属性圧縮装置は、属性値総数カウンタに格納された属性値種類の総数が、順序数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータ型はクラスタ型と判断され、入力されたデータ型がクラスタ型と判断された場合、前記圧縮手段で一般RDBの属性のすべてを2値RDBの属性にそのまま用いるように構成される。
【0011】
第5の発明の属性圧縮装置は、属性値種類の総数が、レコード数カウンタのカウント数と閾値テーブル中の擬似識別子型閾値との積よりも大きい場合は、前記型反転手段で入力されたデータ型は擬似識別子型と判断され、入力されたデータ型が擬似識別子型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないように構成される。
【0012】
第6の発明の属性圧縮装置は、属性値総数カウンタの格納された属性値種類の総数が、0または1の場合は、前記型反転手段で入力されたデータ型は無値型と判断され、入力されたデータ型が無値型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないように構成される。
【0013】
第7の発明の属性圧縮装置は、属性型が上記の全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型のいずれにも該当しない場合は、前記型反転手段で入力されたデータ型は文字列型と判断され、入力されたデータ型が文字列型と判断された場合、前記圧縮手段で一般RDBのすべてを2値RDBにそのまま用いるように構成される。
【0014】
第8の発明の属性圧縮装置は、属性値カウントアップテーブル中にある文字列型属性値の頻度カウンタの値が、対応する属性の属性値の頻度カウンタの総和と少数割合閾値との積よりも小さい場合は、一般RDBの属性値を同一の属性値に圧縮するように構成される。
【0015】
第9の発明の属性圧縮装置は、さらに、日付フィールド圧縮手段および日付圧縮RDBを備え、日付を表す複数の属性の指定を受けて、その複数の属性をまとめて一つの全順序型の属性とみなして圧縮を行うように構成される。
【0016】
第10の発明の属性圧縮装置は、さらに、サンプリング手段およびサンプルRDBを備え、一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、そのサンプルRDBを用いて全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型、文字型の分類を行い、2値RDB30を生成するように構成される。
【0017】
第11の発明の属性圧縮装置は、さらに、統計計算手段および統計圧縮RDBを備え、統計計算手段は、一般RDBとサンプルRDBの属性の平均の差、または一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きい場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管するように構成される。
【0018】
第12の発明の属性圧縮装置は、さらに、相関RDB生成手段および相関関係RDBを備え、作成された2値RDB中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成するように構成される。
【0019】
第13の発明の属性圧縮装置は、さらに、不要属性値除去手段および不要属性値除去RDBを備え、圧縮後の属性値の範囲が、不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成される。
【0020】
第14の発明の属性圧縮装置は、さらに、多数判定手段および多数割合閾値テーブルを備え、その多数判定手段は、ある属性の圧縮済属性値の圧縮テーブルカウンタの値と、この属性における圧縮テーブルカウンタの総和との比から多数割合を求め、閾値テーブルに予め格納された多数割合閾値と、前記求められた多数割合とを比較して、同じ属性が多数を示す属性値かどうかを判断し、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成される。
【0021】
第15の発明の属性圧縮方法は、RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮方法において:データ読出し手段は、一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納し、一般RDBから読み出したレコード数をカウントするレコード数カウンタと、数値型判定手段は、上記で読み出されたデータが数値型か否かを判定し、数値型の場合には度数を数値型属性値カウンタに格納し、非数値型の場合には度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納し、型判定手段は、前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいてデータの型を判定し、判定結果を型決定テーブルに格納し、圧縮手段は、型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成し、2値で表現される2値RDB変換手段は、圧縮済RDBに基づいて、2値RDBを生成するように構成される。
【0022】
第16の発明の属性圧縮方法は、サンプリング手段によって、前記一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、以降前記一般RDBの代わりにサンプルRDBを用いるように構成される。
【0023】
第17の発明の属性圧縮方法は、
統計計算手段は、前記サンプル手段によって得られた結果から、一般RDBとサンプルRDBの属性の平均の差、または一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きいと判断した場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管し、前記圧縮手段はこの統計圧縮RDBおよび型決定テーブルに基づいて圧縮テーブルを生成するように構成される。
【0024】
第18の発明の属性圧縮方法は、相関RDB生成手段は、読み出された一般RDB21中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成し、相関関係RDBに保管し、前記2値RDB変換手段はこの相関関係RDBを用いて圧縮済RDBから2値RDBを生成するように構成される。
【0025】
第19の発明の属性圧縮方法は、圧縮後の属性値の範囲が、前記不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成される。
【0026】
第20の発明の属性圧縮方法は、多数判定手段は、閾値テーブルに予め格納された多数割合閾値に基づいて、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成される。
【0027】
【発明の実施の形態】
実施の形態1.
図1は本発明の実施の形態1の属性圧縮装置の構成を示す図である。図1において、21は本属性圧縮装置に入力され、圧縮された後に相関発見装置に供給される入力データ(一般RDB)、8は一般RDB21を読み出すデータ読出し手段、10はデータ読出し装置8で読み出されたレコード数をカウントするレコード数カウンタ、12はデータ読出し装置8により読み出されたデータが数値型であるか否かを判断する数値型判定手段、14はデータの属性を判定する型判定手段、16は入力データを圧縮する圧縮手段、18は圧縮されたデータを2値RDBに変換する2値RDB変換手段、22は属性値カウントアップテーブル、23は一般RDBのそれぞれの属性型を決める型決定テーブル、24は閾値テーブル、25は型に応じた属性値の圧縮変換ルールが書かれた圧縮テーブル、26は圧縮テーブルカウンタ、27は圧縮テーブルを用いて圧縮変換された一般RDBを格納するための圧縮済RDB、30は圧縮済RDBを相関発見装置に供給するためにデコードされた2値RDB、32は数値型属性値カウンタ、33は非数値型属性値カウンタである。
【0028】
次に、実施の形態1の属性圧縮装置の動作について説明する。図2は、図1中の一般RDB21の一例を示す図である。図2においては、一般RDB21は属性として、たとえば、身長、体重、・・・血圧、・・・早起き度等を含むものとする。一般RDB21は、個人Aさん,Bさん,Cさん,Dさん,Eさん・・・等の各レコードを含む。たとえば、Aさんの場合は、身長が182.3cm、体重が90kg、・・・血圧が140、・・・早起き度は「早」等の属性値が入力されている。
【0029】
データ読出し手段8は、一般RDB21から各人毎のレコードを読み出す。各人のレコードが読み出されたときに、レコード数カウンタ10はレコード読出し回数をカウントアップする。たとえば、Aさんのレコードを読み出したときに、カウント数を1にし、Bさんのレコードを読み出したときに、カウント数を2にし、同様にして、たとえば、本例の場合は194人分のレコードが入力されていると仮定すると、一般RDB21の全レコードを読み出した後には、レコード数カウンタ10のカウント数は194となる。
【0030】
図3は、図1中の属性値カウントアップテーブル22、数値型属性値カウンタ32、非数値型属性値カウンタ33および以下に述べる属性値総数カウンタ34の一例を示す図である。データ読出し手段8は、一般RDB21のレコードの中からそれぞれの属性に対応する属性値を取り出し、それらの属性値を、図3に示すように属性値カウントアップテーブル22に書き込む。この属性値カウントアップテーブル22への書き込みは以下のように行われる。
【0031】
すなわち、属性値カウントアップテーブル22には、図3に示すように、各属性毎に、各属性の属性値を保管するフィールドとそれに対応してその属性値の出現頻度をカウントする頻度カウンタが用意されている。初期状態においては、属性値カウントアップテーブル22中の属性値フィールドおよび頻度カウンタには何も書かれていないので、データ読出し手段8は、一般RDB21から読み出した属性値を属性値フィールド中に追加し、それに対応する頻度カウンタを新設してその新設された頻度カウンタのカウント数を歩進する。たとえば、最初に読み出された属性値は身長の属性値182.3であるので、その属性値を第1フィールドに書き込み、それに対応する頻度カウンタの数を1に設定する。一方、同じ属性値を2度目に読み出すときのように、属性値が既にフィールド中に存在する場合は、読み出した属性値を属性値カウントアップテーブル22中には追加せず、属性値に対応する頻度カウント数のみを1つ歩進する。
【0032】
一方、かかる処理と同時に、数値型判定手段12は、読み出したデータの属性値が数値型であればその属性に対応する数値型属性値カウンタ32および数値型属性値種類数カウンタ35をそれぞれ1つカウントアップし、数値型でなければその属性に対応する非数値型属性値カウンタ33を1つカウントアップする。たとえば、属性「身長」、「体重」、「血圧」、「早起き度」、・・・・に対応して、それぞれ数値型属性値カウンタ32−1、32−2、32−3、32−41、・・・・および数値型属性値種類数カウンタ35−1、35−2、35−3、35−41、・・・が設けられ、また非数値型属性値カウンタ33−1、33−2、33−3、33−4、・・・・が設けられる。
【0033】
データ読出し装置8、レコード数カウンタ10および数値型判定手段12は、一般RDB21中の全ての属性について上記の読出しおよび書込み処理を行い、最後のレコードの読み出しおよび書込みが終了するまでこれらの処理を繰り返す。その結果、たとえば、身長および体重の属性の属性値は、この例では全て数値型であるので、身長および体重の属性にそれぞれ対応する数値型属性値カウンタ32(32−1,32−2)のカウント数は全レコード数に等しい194となり、非数値型属性値カウンタ33(32−1,32−2)のカウント数は0となる。また、たとえば、血圧の属性の属性値は、この例では、たとえば、図2に示すように、3番目に、数値でなく「測定不能」の表記があったと仮定すると、血圧の属性に対応する非数値型属性値カウンタ33(33−3)のカウント数は1となり、数値型属性値カウンタ32(32−3)のカウント数は全レコード数から非数値型属性値のカウント数1を引いた193となる。また、たとえば、早起き度の属性の属性値は、この例では、たとえば、「早」または「遅」の2つのみであり、しかもこれらはいずれも非数値型属性値であるので、早起き度の属性に対応する非数値型属性値カウンタ33(33−4)のカウント数は194なり、数値型属性値カウンタ32(32−4)のカウント数は0となる。
【0034】
次に、型判定手段14は、レコード数カウンタ10の値、数値型属性値カウンタ32の値、非数値型属性値カウンタ33の値、および閾値テーブル24に格納された順序数値型閾値、順序非数値型閾値、擬似識別子型閾値を入力して、それらの値に従って、各レコードの属性の型を、全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型、文字列型に判定・分類する。
【0035】
図4は図1中の型決定テーブル23の一例を示す図である。型判定手段14は、分類された全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型、文字列型に従って、型決定テーブル23中の対応ビットを1にする。図4において、たとえば、身長および体重の属性は、以下に説明するように全順序型であるので、全順序型のフィールドに1のフラッグが立てられ、血圧の属性は、擬似全順序型であるので、擬似全順序型のフィールドに1のフラッグが立てられ、早起き度の属性は、クラスタ型であるので、クラスタ型のフィールドに1のフラッグが立てられる。
【0036】
ここで、全順序型とは、非数値型属性値カウンタ33の値が0であって、数値型属性値カウンタ32の値が順序数値型閾値よりも大きい場合をいう。ここで、順序数値型閾値は属性値の種類数が一定値以上であるか否かを判断する指標であり、たとえば、順序数値型閾値は10のような数値が予め与えられ、閾値テーブル24に保管されている。この例の身長および体重の属性に関しては、属性値総数カウンタ34の値(=35)>順序数値型閾値(=10)であるので、身長および体重の属性は全順序型であると判断される。逆に、データ型が全順序型である判断される場合には、この性の取りうる属性値の種類はほぼ数値型のみであり、かつ、その数が多く、かつ圧縮による効果が期待できることを意味する。
【0037】
擬似全順序型とは、数値型属性値種類数カウンタ35の値が順序数値型閾値よりも大きく、非数値型属性値カウンタ33の値が順序非数値型閾値よりも小さい場合をいう。ここで、順序数値型閾値は上記の全順序型の場合と同じであり、順序非数値型閾値は、一般RDB21のデータ型に非数値型が含まれる度合いを判断する指標である。たとえば、順序非数値型閾値は、全種類数の一定割合、すなわち、この例では5のような数値が予め与えられ、閾値テーブル24に保管されている。従って、一般RDB21のデータ型が擬似全順序型である判断される場合には、データ型の属性値の種類はほぼ数値型であり、かつ、その数が多く、一方、予め定められた順序非数値型閾値よりも少ない非数値型のデータが含まれていることを示している。
【0038】
たとえば、血圧の属性に関しては、測定不能なる文字列型の属性値が含まれているので、数値型属性値種類数カウンタ35(35−3)の値は35、非数値型属性値カウンタ33(33−3)の値は1となる。よって、血圧の属性のデータは、数値型属性値種類数カウンタ(35−3)(=35)>順序数値型閾値(=10)であり、かつ、非数値型属性値カウンタ(33−3)(=1)<順序非数値型閾値(=5)の条件を満足しているので、擬似全順序型と判断される。この擬似全順序型の場合は、数値型データに対しては圧縮による効果が期待できる一方、非数値型データに対しては圧縮による効果が期待できないことを意味する。
【0039】
クラスタ型とは、属性値総数カウンタ34に格納された属性値種類の総数が、順序数値型閾値よりも小さい場合をいう。ここで、順序数値型閾値は一般RDB21のデータ型の属性値の種類が少ない程度を判断する指標である。たとえば、本願では10と設定される。属性値総数カウンタ34の値は、たとえば、属性が身長の場合は、その属性値として、182.3,180.0,164.3、・・・等属性値の種類は35あるものと仮定している。従って、属性値総数カウンタ34の値35>順序数値型閾値の値10であるので、属性が身長の場合はクラスタ型ではない。一方、属性が早起き度の場合は、属性値は「早」および「遅」の2つの属性値だけしかないので属性値総数カウンタ34の値は2である。従って、属性値総数カウンタ34の値2<順序数値型閾値の値10であるので、属性が早起き度の場合はクラスタ型である。このように、属性値の種類が少ない場合は、各属性値を共通化してまとめて圧縮する意義が小さい。従って、このクラスタ型の場合は、圧縮による効果が期待できないことを意味する。
【0040】
擬似識別子型とは、属性値種類の総数が、レコード数カウンタ10のカウント数と閾値テーブル24中の擬似識別子型閾値との積よりも大きい場合をいう。ここで、擬似識別子型閾値は、お互いに共通の属性値をほとんど有しない程度、すなわち、属性値がユニークな値を有する程度を判断する指標である。たとえば、会社の健康において、レントゲン写真を撮る場合に付与される各人の撮影番号等は、それぞれ番号が異なり、共通な番号が存在しない。このような場合には、データをまとめ、分布をとる意義が無いので、データ圧縮による効果が期待できない。このように、データ圧縮による効果が期待できないデータを有する一般RDB21に対して圧縮をしないようにするために擬似識別子型閾値が予め定められる。たとえば、レントゲン写真の場合は、受検者100人中番号の共通性は全くないので、擬似識別子型閾値=異なる番号の出現回数100/受験者数100=1となる。たとえば、他の例として、100のデータがあり、その中で90通りの異なる属性値の選択が存在する場合には、擬似識別子型閾値=90/100=0.9となる。
【0041】
無値型とは、属性値総数カウンタ34に格納された属性値種類の総数が、0または1の場合をいう。この場合は、この属性の属性値には情報量がないことを意味する。これは、たとえば、身長の属性の属性値中のデータが全くない場合、このとき属性値種類の総数=0、または身長の属性の属性値中のデータが全て「異常なし」の場合、このとき属性値種類の総数=1のような場合である。このように、属性値の種類の総数が0または1の場合は、各属性値を共通化してまとめて圧縮する意義が小さい。従って、この無値型の場合は、圧縮による効果が期待できないことを意味する。
【0042】
文字列型とは、以上の処理によって、属性型が上記の全順序型、擬似全順序型、擬似識別子型、クラスタ型、無値型のいずれにも該当しない場合をいう。この場合は、属性値の種類数は多いが順序がないことを意味する。順序がない以上圧縮をしないか、全レコード中比率の少ない属性値について「その他」として圧縮する。
【0043】
次に、圧縮手段16は、一般RDB21から1レコードずつ読み出し、図5に示す圧縮テーブル25中のカウンタ26をカウントアップする。図5は、圧縮テーブル25およびその圧縮テーブル25中に含まれるカウンタ26の一例を示す図である。圧縮テーブル25は、各属性毎に生成され、この実施の形態1の例では、たとえば、身長、体重、・・・血圧、・・・早起き度等についてそれぞれの圧縮テーブルが生成される。たとえば、身長テーブルにおいては、各属性値は、身長が160cm以下の「身長低」、身長が160cm〜180cmの「身長中」、身長が180cm以上の「身長高」の3段階に分類され、各分類に対応するカウンタ26にその頻度がカウントされる。たとえば、圧縮テーブル25においては、身長が160cm以下の「身長低」の人数は32名、身長が160cm〜180cmの「身長中」の人数は128人、身長が180cm以上の「身長高」の人数は34人のようにカウンタ26中に発生頻度が格納される。また、体重が50kg以下の「体重小」の人数は18名、体重が50kg〜80kgの「体重中」の人数は150人、体重が80kg以上の「体重大」の人数は26人のようにカウンタ26中に発生頻度が格納される。
【0044】
さらに、圧縮手段16は、一般RDB21と生成された圧縮テーブル25から、圧縮済RDB27を生成する。ここで、図6は、図1中の圧縮済RDBの一例を示す図である。図において、圧縮済RDB27は、各人毎のレコードで構成され、各レコードのフィールドの属性は、身長、体重、・・・、血圧、・・・、早起き度等で構成され、各属性値は、たとえば、身長の属性の場合は、「身長高」、「身長中」、「身長低」等の3進値のいずれかで表現され、たとえば、早起き度の属性の場合は、「早」、「遅」の2進値のいずれかで表示される。圧縮手段16は、以上の処理を一般RDB21中の最後のレコードを読み出すまで繰り返すことにより圧縮済RDB27を生成する。
【0045】
次に、2値RDB変換手段18は、圧縮済RDB27から2値RDB30を生成する。図7は、図1中の2値RDB30の一例を示す図である。2値RDB30のフィールドは、圧縮済RDB27で3段階に分類された圧縮済属性値を各フィールド名とし、レコード名には各対象者のレコードが配置される。たとえば、対象者Aは身長が「高」であるので、「身長高」のフィールド値が該当(または1)となり、「身長中」および「身長低」のフィールドは非該当(または、0)となる。また、対象者Aの体重は「大」であるので、「体重大」のフィールド値が該当(または、1)となり、「体重中」および「体重小」のフィールドは非該当(または、0)となる。また、対象者Aの血圧は「高」であるので、2値RDB30の「血圧高」のフィールド値が該当(または、1)となり、「血圧中」および「血圧低」のフィールド値は非該当(または、0)となる。また、対象者Aの早起き度は「早」であるので、早起き度「早」のフィールド値が該当(または、1)となり、早起き度「遅」のフィールド値は非該当(または、0)となる。このように、圧縮済属性値のそれぞれのフィールドにこの各レコードの属性値が含まれれば「該当、または1」そうでなければ、「非該当、または0」を書き込み、これを2値RDBとする。
【0046】
上述したように、実施の形態1の属性圧縮装置においては、一般RDB1のデータを各型に分類した後に、属性値を2値に圧縮することによって、自動相関発見装置に供給するデータ量を少なくすることができ、演算処理の高速化、データ量の減少を計ることができる。
【0047】
実施の形態2.
次に、型判定手段14で決定された各データ型に基づいて、圧縮手段16が一般RDB21を圧縮する圧縮形態について説明する。圧縮手段16は、図4の型決定テーブル23の内容を参照し、圧縮テーブル25を生成し、それに従って、2値RDB変換手段18が2値RDB30を生成する。各型における圧縮の方法はそれぞれ異なるので、各型毎に圧縮の方法について以下に説明する。
【0048】
まず、全順序型圧縮の具体例について、簡単に説明する。図4の型決定テーブル23中の全順序型の内容が「1」である場合には、すなわち、非数値型属性値カウンタ33の値が0であって、数値型属性値カウンタ32の値が閾値テーブル24中の順序数値型閾値よりも大きい場合には、圧縮による効果が期待できるので、前記の圧縮手段16は圧縮を行い、その後2値RDB変換手段18で2値RDBへの変換を行い2値RDB30を生成する。
【0049】
たとえば、一般RDB21のレコードの属性が身長の場合を例にとり、属性値を3段階に圧縮すると仮定すると、圧縮手段16は、図5の圧縮テーブル25に3分類された区間に従って、一般RDB21と圧縮テーブル25とから、図6の圧縮済RDB27に属性値を書き込んでいく。この圧縮済RDB27は、各人毎のレコードで構成され、各レコードのフィールドの属性は、身長、体重、・・・、血圧、・・・、早起き度等で構成され、各属性値は、たとえば、身長の属性の場合は、「身長高」、「身長中」、「身長低」等の3進値のいずれかで表現され、たとえば、早起き度の属性の場合は、「早」、「遅」の2進値のいずれかで表示される。また、上記の分類については、一般RDB21の属性値が160cm未満の場合に「身長低」、160以上180cm未満の場合に「身長中」、180cm以上の場合に「身長高」と所定段階に予め分類されているものである。圧縮手段16は、属性値の書き込みと同時に、属性値に応じて、「身長低」、「身長中」、「身長高」に対応する圧縮テーブル25中の圧縮テーブルカウンタ26のカウント数をそれぞれカウントアップする。
【0050】
次に、2値RDB変換手段18は、圧縮済RDB27から2値RDB30を生成する。2値RDB30のフィールドは、圧縮済RDB27で3段階に分類された圧縮済属性値を各フィールド名とし、レコード名には各対象者が配置される。たとえば、対象者Aは身長が「高」であるので、「身長高」のフィールド値が該当(または、1)となり、「身長中」および「身長低」のフィールドは非該当(または、0)となる。一方、対象者Aの体重は「大」であるので、「体重大」のフィールド値が該当(または、1)となり、「体重中」および「体重小」のフィールドは非該当(または、0)となる。また、対象者Aの血圧は「高」であるので、「血圧高」のフィールド値が該当(または、1)となり、「血圧中」および「血圧低」のフィールド値は非該当(または、0)となる。また、対象者Aの早起き度は「早」であるので、早起き度「早」のフィールド値が該当(または、1)となり、早起き度「遅」のフィールド値は非該当(または、0)となる。このように、圧縮済属性値のそれぞれのフィールドにこの各レコードの属性値が含まれれば「該当または1」そうでなければ、「非該当または0」を書き込み、これを2値RDBとする。
【0051】
実施の形態3.
次に、擬似全順序型圧縮の具体例について、簡単に説明する。たとえば、一般RDB21の属性として血圧の場合を例にとり、属性値を3段階に圧縮すると仮定する。圧縮テーブル25で分類された区間に従って、属性値が100未満の場合に「血圧低」、100以上130未満の場合に「血圧中」、130以上の場合に「血圧高」とし、一般RDB21の属性値を3段階に分類し、圧縮済RDB27に書き込んでいく。一方、圧縮手段16は、属性値に応じて、「身長低」、「身長中」、「身長高」に対応する圧縮テーブルカウンタ26をカウントアップする。
【0052】
次に、型判定手段14で決定されたデータ型が擬似全順序型である場合に、圧縮手段16が一般RDB21を圧縮する圧縮形態について説明する。圧縮手段16は、型決定テーブル23の内容を参照し、擬似全順序型の内容が「1」である場合には、すなわち、数値型属性値種類数カウンタの値が順序数値型閾値よりも大きく、非数値型属性値カウンタ33の値が順序非数値型閾値よりも小さい場合は、数値型データに対しては圧縮による効果が期待でき、非数値型データに対しては圧縮による効果が期待できない。従って、この場合には、前記の圧縮手段16は数値型データに対しては圧縮を行い、その後2値RDB変換手段18で2値RDBに変換を行い2値RDB30を生成する。一方、非数値型データに対しては圧縮を行わない。すなわち、非数値型の属性値については置き換えをせずに、そのまま圧縮済RDB27に書き込みを行う。同時に圧縮テーブル25の区間に対応する圧縮テーブルカウンタ26をカウントアップする。
【0053】
たとえば、属性として血圧の場合を例にとると、属性値を3段階に圧縮すると仮定すると、圧縮テーブル25に記述された区間に従って、一般RDB21の属性値を属性値が100未満の場合に「血圧低」、100以上130未満の場合に「血圧中」、130以上の場合に「血圧高」の3つで置き換え、属性値が「測定不能」の場合には、そのままの値、たとえば、図2の一般RDB21において、「測定不能」を、圧縮済RDB27に書き込む。このようにして、一般RDB21からの属性値を「血圧低」、「血圧中」、「血圧高」、「血圧測定不能」の4つに分類し、圧縮テーブル25に対応する圧縮テーブルカウンタ26をカウントアップする。
【0054】
実施の形態4.
次に、クラスタ型圧縮の具体例について、簡単に説明する。型判定手段14は、属性値総数カウンタ34に格納された属性値種類の総数が、順序数値型閾値よりも小さい場合には、データがクラスタ型と判断して、図4の型決定テーブル23中の擬似全順序型の内容を「1」にセットする。たとえば、順序数値型閾値を10と仮定すると、属性が早起き度の場合の属性値(属性値種類の総数)は2(「早」および「遅」)であり、この値2は、順序数値型閾値(=10)よりも小さいので、データ型はクラスタ型と判断される。この場合は、属性値の種類が少ないので、「早」および「遅」の2つの属性値を共通化してまとめて圧縮する意義が小さい。従って、圧縮手段16は、本来、「早」および「遅」の属性値を共通化することなく、「早」および「遅」の属性値を属性値をそのまま圧縮済RDB27に書き込む。2値RDB変換手段18は、圧縮済RDB27の値から2値RDB30を生成する。
【0055】
実施の形態5.
次に、擬似識別子型圧縮の具体例について、簡単に説明する。型判定手段14は、属性値種類総数テーブル34中の格納された属性値種類の総数が、レコード数カウンタ10のカウント数と閾値テーブル24中の擬似識別子型閾値との積よりも大きい場合は、擬似識別子型と判断して、図4の型決定テーブル23中の擬似識別子型の内容を「1」にセットする。たとえば、194のデータがあり、その中で174通りの異なる属性値の選択が存在する場合には、擬似識別子型閾値=174/194=約0.9となる。たとえば、属性値総数カウンタ34中の属性値種類総数が180通りある場合を例に取ると、レコード数カウンタ10のカウント数は194であるから、属性値種類総数(180)>レコード数カウンタ10のカウント数(194)×0.9=174であるから、この場合は擬似識別子型と判断される。たとえば、被験者の電話番号等はユニークであるので、ほとんどのデータは異なるものである。このような場合は、属性値の種類が多いので、圧縮する意義が小さい。従って、圧縮手段16は、属性値を圧縮済RDB27に書き込まない。従って、属性値は2値RDB30に書込まれない。
【0056】
実施の形態6.
次に、無値型圧縮の具体例について、簡単に説明する。型判定手段14は、属性値総数カウンタ34に格納された属性値種類の総数が、0または1の場合は、無値型と判断して、図4の型決定テーブル23中の無値型の内容を「1」にセットする。たとえば、たとえば、身長の属性の属性値中のデータが全くない場合、このとき属性値種類の総数=0、または身長の属性の属性値中のデータが全て「異常なし」の場合、このとき属性値種類の総数=1のような場合である。この場合は、属性の属性値には情報量がないので、圧縮する意義が小さい。従って、圧縮手段16は、属性値を圧縮済RDB27に書き込まない。従って、属性値は2値RDB30に書込まれない。
【0057】
実施の形態7.
次に、文字列型圧縮の具体例について、簡単に説明する。型判定手段14は、属性型が上記の全順序型、擬似全順序型、擬似識別子型、クラスタ型、無値型のいずれにも該当しない場合は、文字列型と判断して、図4の型決定テーブル23中の文字列型の内容を「1」にセットする。たとえば、30個の属性が全て文字列で構成されている場合は、属性値の種類数は多いが、擬似識別子型となるほど多くはなく、さらに、順序性がないので、圧縮をする意義が少ない。従って、圧縮手段16は、属性値をそのまま圧縮済RDB27に書き込む。2値RDB変換手段18は、圧縮済RDB27の値から2値RDB30を生成する。一方、この文字列型の場合には、全レコード中比率の少ない属性値について「その他」として圧縮する方法もある。その例について、次の実施の形態8で説明する。
【0058】
実施の形態8.
実施の形態8は、文字列型を他の方法によって処理する属性圧縮装置に関するものである。図8は、本発明の実施の形態8の属性圧縮装置における圧縮の一例を示す図である。図1に示す実施の形態1において、圧縮手段16が圧縮済RDB27へ書き込むステップにおいて、属性値カウントアップテーブル22中のある文字列型属性値の頻度カウンタの値が、属性値の頻度カウンタの総和と少数割合閾値との積よりも小さい場合、つまり、ある文字列型属性値の比率が対応する属性中で低い場合には、文字列型はクラスタ型よりも属性値種類が多いので圧縮の必要があると判断される。従って、この場合は、上記を満たす文字列型属性値を一つに統合して、圧縮済RDB27に書き込んでいく。
【0059】
図8において、たとえば、ある質問に対する回答選択肢が多数ある場合、その中で極端に回答が少なかった肢をまとめて、「その他」として圧縮済RDBに書き込むような場合である。図2の横軸はa,b,c,d,e,fはそれぞれある質問に対する回答選択肢であり、縦軸は、各回答選択肢に対する回答数を示す。図8中の横点線は、少数割合閾値を示す。図8において、回答選択肢が多いと仮定すると、その回答選択肢を減少させたい場合に、少数割合閾値よりも回答数が小さい選択肢の回答数をまとめて、「その他」という項目を新設し、回答数が小さい選択肢の回答数を、まとめることによって選択肢の数を減少させる記憶とができる。図2において、dの回答選択肢とfの回答選択肢の回答数が少数割合閾値より小さいので、これをまとめて、新たな選択肢「その他」を新設し、dの回答選択肢とfの回答選択肢の回答数を加算した値を総回答数とすることによって、データを圧縮することができる。
【0060】
実施の形態9.
次に、実施の形態9の属性圧縮装置について説明する。実施の形態9は、実施の形態1における一般RDB21において、日付をあらわす属性フィールドが含まれている場合、前処理として、これらの一般RDB21上の日付を表わす数値型フィールドの属性値を、日付フィールド圧縮手段17を用いて、圧縮型日付属性値に置き換える属性圧縮装置に関するものである。図10は、実施の形態9の、一般RDB上の日付を表わす数値型フィールドを圧縮型日付属性値に置き換える属性圧縮装置の一例を示す図である。図9において、日付フィールド圧縮手段17はデータ読出し装置8の前段に設けられ、一般RDB21から日付圧縮RDB31を生成する。図11は、一般RDB21上の日付を表わす数値型フィールドを圧縮型日付属性値に置き換える方法の一例を示す図である。たとえば、一般RDB21上で日付フィールドの属性値として、年、月、日を含む1997.12.18、1998.1.10、1995.10.12等で表示されていた場合、日付フィールド圧縮手段17は、971218、19980110、19951012のような数値型属性値に変換された日付圧縮RDB31を生成する。データ読出し装置8は、一般RDB21を用いる代わりに、新たに生成された日付圧縮RDB31からデータを読み出すものである。このように、実施の形態9においては、入力時点で一般RDB21自身を圧縮することによって、データ処理速度を早くすることが可能となる。
【0061】
実施の形態10.
次に実施の形態10の属性圧縮装置について説明する。実施の形態10においては、実施の形態1における一般RDB21において、サンプリングを行って必要な属性に関するデータのみを抽出してそれらの抽出されたデータについてのみ圧縮をすればよいことがある。このような場合には、前処理によって、一般RDB21上の所定のレコードのみを抽出によって取り除き、残ったレコードに関するデータのみについて圧縮を行う。
【0062】
図11は実施の形態10の処理を行う属性圧縮装置を示す図である。図11において、サンプリング手段11はデータ読出し装置8の前段に設けられ、一般RDB21からサンプルRDB36を生成する。図12はサンプリング前の一般RDB21とサンプリング後のサンプルRDB36間の変換例を示す図である。図12において、一般RDB21にはレコードA,B,C,D,E,・・・等が格納されているが、たとえば、レコードB,CおよびEのデータは不要であると前もって分かっている時には、サンプリング手段11が、レコードB,CおよびEをサンプリングによって除去することによって、サンプルRDB36のように、サンプリングによって除去されたレコードを除くレコードBおよびDが得られる。非数値型数カウンタ8は、このサンプルRDB36を基に属性値カウントアップテーブル22を作成することによって、少ないデータ数の処理で目的の圧縮を行うことができる。すなわち、実施の形態10の属性圧縮装置においては、非数値型数カウンタ8は、一般RDB21に代わってサンプルRDB36からの入力によって各属性の型を決定することができ、それによって処理を高速化することが可能となる。なお、各属性の型を決定した後の処理は図1に示す実施の形態1と同じであるので詳細な説明を省略する。
【0063】
実施の形態11.
次に、実施の形態11の属性圧縮装置について説明する。図13は、本発明の実施の形態11の属性圧縮装置を示す図である。図14は、各属性の全体平均およびサンプル平均との差である分離度示す図である。実施の形態11においては、サンプリング手段11を設けると共に統計計算手段13を設けたものである。サンプリング手段11の処理は、実施の形態10と同様に一般RDB21からサンプルRDB36を作成し保存すると共に、属性値カウントアップテーブル22から、図14に示すような各属性の全体平均、全体標準偏差および全体分散、全体上限値、全体下限値を計算する。次に、同様に、実施の形態10で得られたサンプルRDB36から、各属性のサンプル平均41、サンプル標準偏差およびサンプル分散、サンプル上限値、サンプル下限値を計算する。
【0064】
図14に示されるように、統計計算手段13は、上記の各属性の全体平均およびサンプル平均との差である分離度を求める。一般RDB21とサンプルRDB36の分離度が大きい場合には、サンプル上限値とサンプル下限値については、それに挟まれた区間内を、たとえば、サンプル平均を中心にサンプル分散によって区間を区切って圧縮する。そして、一般RDBの全体下限値とサンプル下限値および、一般RDBの全体上限値とサンプル上限値間は、サンプル区間内と別個の区間として圧縮する。
【0065】
以上の圧縮手法により、一般RDB21中の外れ値(一般RDB21を作成するときの入力誤りの可能性もあり)を区別した区間に割り振るか、あるいは、場合によっては、以下に述べる不要属性値除去RDB29中にこの区間を追加することによって、2値RDB30へのデコードを行なわないようにすることもできる。すなわち、サンプル下限値とサンプル上限値間を不要属値性として上記区間の属性値(外れ値)を2値RDB30に変換しないことによって、外れ値を除去できる。たとえば、「入社何年ですか」との問いに対し、答えは1〜40年であるのに対して、間違えて90年(入社年度)と答えた場合には、この90を不要属値として不要属性値除去RDB29に追加することによって除去できる。
【0066】
実施の形態12.
次に、実施の形態12の属性圧縮装置について説明する。図15は実施の形態12の属性圧縮装置の構成を示す図である。実施の形態12においては、実施の形態1から11の属性圧縮装置により作成された2値RDB30中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成することによってさらなる圧縮を行なうことができる。実施の形態12の属性圧縮装置は、図15に示すように、2値RDB変換手段18の前段に、相関RDB生成手段15を追加したものである。
【0067】
図16は相関RDB生成手段15を用いないで圧縮済RDB27から2値RDB30を生成するプロセスを示す図である。図17は、実施の形態12における相関RDB生成手段15を用いて、圧縮済RDB27から2値RDBを生成するプロセスを示す図である。なお、図16は図17との比較のために用いられるものである。たとえば、生成された圧縮済RDB27中の属性として、肥満度とローレル指数の属性があり、両属性値とも大、中、小の3段階に圧縮されていおり、相互の相関が大きいと判断される場合は、相関RDB生成手段15は、たとえば、「{肥満度、ローレル指数}→肥満」なる相関演算を行い、相関関係RDB38(図示されない)を生成する。次に、相関RDB生成手段15は、たとえば、肥満度の属性の属性値が大であり、同時に同じレコード中のローレル指数の属性の属性値が大である場合は、2値RDB30に「肥満大」、肥満度の属性の属性値と同じレコード中の対応するローレル指数の属性の属性値が中と中の組み合わせである場合は「肥満中」、肥満度の属性の属性値と同じレコード中の対応するローレル指数の属性の属性値が小と小の組み合わせである場合は「肥満小」と定義し肥満のフィールドを生成し、それらの属性値を「該当、または1」または「非該当、または0」にセットする。たとえば、図17の例においては、レコードAは「肥満小」のフィールドに1がセットされ、レコードBは「肥満中」のフィールドに1がセットされ、レコードCは「肥満大」のフィールドに1がセットされる。これらの条件に該当しない場合には、肥満のビットを立てない。
【0068】
一方、図16においては、実施の形態1の方法によって得られた2値RDB30を示している。図16と図17とを比べると、実施の形態12においては、「{肥満度、ローレル指数}→肥満」なる相関演算を行って2値RDB30を生成する。すなわち、肥満度とローレル指数の指数が一致した時のみ肥満のフィールドにビットが立つ。肥満のフィールドにビットが立つと、肥満度およびローレル指数のビット1を0にする。このために、2値RDB30の各属性値に含まれる「該当または1」の出現確率が小さくなる。さらに、図16の元2値RDBと図17の改良2値RDBを比較すると分かるように、生成される相関ルールの長さが短くなり、ユーザの視認性が向上する。実際には、0の値に対してはメモリ上での割り当てを行わないようにできるので、装置全体のフィールド数、すなわちメモリ量が減少し、従って、演算処理速度が速くなる。
【0069】
実施の形態13.
図18は実施の形態13の属性圧縮装置を示す図である。図18は、図1に示される属性圧縮装置に不要属性除去手段6および不要属性値除去RDB29を追加したものである。
上述の実施の形態においては、全ての圧縮された属性値に対して2値RDB30を生成したが、特定の属性値に対しては、2値RDBを生成しない方が都合のよいことがあり、その特定の属性値に関する2値RDBを生成しないようにする。この場合は、2値RDB変換手段18は、対象となる属性値に対しては2値RDBへの変換を行うことなく、その他の属性値に対してのみ2値RDBへの変換を行なう。たとえば、血圧が異常な人のデータだけが欲しい場合、血圧が正常な人のデータは不要であるので、血圧が正常な属性を2値RDB30に変換する必要はない。しかしながら、その人の肥満に関するデータは必要であるので、肥満の属性に関するデータは2値RDB30へ変換する。
【0070】
図19は、圧縮済RDB27から2値RDB変換手段18および不要属性値除去RDB29を介して2値RDB30を生成する過程を示す図である。圧縮手段16と2値RDB変換手段18との間に設けられた不要属性除去手段6は、予め設定された不要属性値除去RDB29に基づいて、所定のデータに対して2値RDB変換を行わないようにする。すなわち、不要属性除去手段6は、不要属性値除去RDB29に指定されている属性値、もしくは属性値区間に、圧縮済属性値が含まれている場合には、この圧縮済属性値は2値RDBに変換せずに、そのまま読み捨てるように動作する。
【0071】
たとえば、図19において、血圧が異常な場合(血圧高か血圧低)の属性と他の属性との相関関係を知りたい場合には、不要属性値除去RDB29中に血圧正常の属性値(血圧中)を指定しておけば、正常の属性が2値RDB30に変換されないので、その分圧縮が大きくなる。
【0072】
実施の形態14.
図20は、実施の形態14の属性圧縮装置を示す図である。図20は、図1に示される属性圧縮装置に多数判定手段28および多数割合閾値を追加したものである。
上記の実施の形態においては、全てのレコードに対して2値RDB30を生成したが、同じ属性が多数を占めるレコードに対しては、2値RDB30を生成しない方が都合のよいことがあり、その場合は2値RDB変換手段18で2値RDBが生成されないように、多数判定RDB28が前処理を行う。従って、2値RDB変換手段18は、対象となるレコードに対しては2値RDBへの変換を行なうことなく、その他のレコードに対してのみ2値RDBへの変換を行なう。
【0073】
図21は、多数判定手段28が、多数割合閾値を参照して、圧縮済RDB27から2値RDB30を生成する過程を示す図である。多数判定手段28は、ある属性の圧縮済属性値の圧縮テーブルカウンタ26の値と、この属性における圧縮テーブルカウンタ26の総和との比が、多数割合閾値よりも大きいレコードを多数判定手段28が検出して、2値RDB変換手段18はこのレコードに対しては2値RDB30に変換せずにそのまま読み捨てる。
【0074】
このように、ある調査項目につき、特異な結果を占めている場合の相関関係を知りたい場合に、その調査結果で多数を占める属性区間を削除することにより、圧縮を大きくすることができる。たとえば、図5に示すように、圧縮テーブルカウンタ26の値(体重「中」のレコード)は150あり、この属性における圧縮テーブルカウンタ26の総和(全レコード数)は194であるので、その比は150/194=約0.8>多数割合閾値(たとえば、0.7)となり、この条件を満足する。すなわち、この場合は、体重「中」のレコードは全体の大多数を占めているので、この多数を占める属性値を全て読み捨てることにより、体重が「大」または「小」に属するレコードに関する調査を効率よく行うことができる。
【0075】
【発明の効果】
第1の発明は、RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮装置において:一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納するデータ読出し手段と、一般RDBから読み出したレコード数をカウントするレコード数カウンタと、データ読出し手段で読み出されたデータが数値型か否かを判定し、数値型の場合には属性値の出現度数を数値型属性値カウンタに格納し、非数値型の場合には属性値の出現度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納する数値型判定手段と、前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいて属性値のデータの型を判定し、判定結果を型決定テーブルに格納する型判定手段と、型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成する圧縮手段と、前記圧縮済RDBに基づいて、2値で表現される2値RDBを生成する2値RDB変換手段とを備えるように構成されるので、一般RDBの属性の圧縮が自動化できる。
【0076】
第2の発明の属性圧縮装置は、非数値型属性値カウンタの値が0であって、属性値総数カウンタの値が順序数値型閾値よりも大きい場合は、前記型反転手段で入力されたデータ型は全順序型と判断され、入力されたデータ型が全順序型と判断された場合、前記圧縮手段で全てのデータに対して属性値変換を行うように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0077】
第3の発明の属性圧縮装置は、数値型属性値種類数カウンタの値が順序数値型閾値よりも大きく、非数値型属性値カウンタの値が順序非数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータは擬似全順序型と判断され、入力されたデータ型が擬似全順序型と判断された場合、前記圧縮手段で前記圧縮手段で数値型データに対しては属性値変換を行い、非数値型データに対しては属性値変換を行わないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0078】
第4の発明の属性圧縮装置は、属性値総数カウンタに格納された属性値種類の総数が、順序数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータ型はクラスタ型と判断され、入力されたデータ型がクラスタ型と判断された場合、前記圧縮手段で一般RDBの属性のすべてを2値RDBの属性にそのまま用いるように構成されるので、処理の高速化が可能となる。
【0079】
第5の発明の属性圧縮装置は、属性値種類の総数が、レコード数カウンタのカウント数と閾値テーブル中の擬似識別子型閾値との積よりも大きい場合は、前記型反転手段で入力されたデータ型は擬似識別子型と判断され、入力されたデータ型が擬似識別子型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないように構成されるので、無用の圧縮を避けることによって、相関関係発見装置の処理が高速化できる。
【0080】
第6の発明の属性圧縮装置は、属性値総数カウンタの格納された属性値種類の総数が、0または1の場合は、前記型反転手段で入力されたデータ型は無値型と判断され、入力されたデータ型が無値型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0081】
第7の発明の属性圧縮装置は、属性型が上記の全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型のいずれにも該当しない場合は、前記型反転手段で入力されたデータ型は文字列型と判断され、入力されたデータ型が文字列型と判断された場合、前記圧縮手段で一般RDBのすべてを2値RDBにそのまま用いるように構成されるので、2値RDBの属性の数を減少でき、処理の高速化が可能となる。
【0082】
第8の発明の属性圧縮装置は、属性値カウントアップテーブル中にある文字列型属性値の頻度カウンタの値が、対応する属性の属性値の頻度カウンタの総和と少数割合閾値との積よりも小さい場合は、一般RDBの属性値を同一の属性値に圧縮するように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0083】
第9の発明の属性圧縮装置は、さらに、日付フィールド圧縮手段および日付圧縮RDBを備え、日付を表す複数の属性の指定を受けて、その複数の属性中から数値だけをまとめてひとつの全順序型の属性とみなして圧縮を行うように構成されるので、圧縮できない文字列型の属性が圧縮でき、処理の高速化が可能となる。
【0084】
第10の発明の属性圧縮装置は、さらに、サンプリング手段およびサンプルRDBを備え、一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、そのサンプルRDBを用いて全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型、文字型の分類を行い、2値RDB30を生成するように構成されるので、処理レコード数が少なくなり、処理の高速化が可能となる。
【0085】
第11の発明の属性圧縮装置は、さらに、統計計算手段および統計圧縮RDBを備え、統計計算手段は、一般RDBとサンプルRDBの属性の平均の差、もしくは一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きい場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管するように構成されるので、外れ値を除去するか、または外れ値を別個の圧縮区間とすることによって適切な範囲決定が行える。
【0086】
第12の発明の属性圧縮装置は、さらに、相関RDB生成手段および相関関係RDBを備え、作成された2値RDB中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成するように構成されるので、相関処理装置によってルールの長さが短くなり見やすくなる。
【0087】
第13の発明の属性圧縮装置は、さらに、不要属性値除去手段および不要属性値除去RDBを備え、圧縮後の属性値の範囲が、不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0088】
第14の発明の属性圧縮装置は、さらに、多数判定手段および多数割合閾値テーブルを備え、その多数判定手段は、ある属性の圧縮済属性値の圧縮テーブルカウンタの値と、この属性における圧縮テーブルカウンタの総和との比から多数割合を求め、閾値テーブルに予め格納された多数割合閾値と、前記求められた多数割合とを比較して、同じ属性が多数を示す属性値かどうかを判断し、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0089】
第15の発明の属性圧縮方法は、RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮方法において:データ読出し手段は、一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納し、一般RDBから読み出したレコード数をカウントするレコード数カウンタと、数値型判定手段は、上記で読み出されたデータが数値型か否かを判定し、数値型の場合には度数を数値型属性値カウンタに格納し、非数値型の場合には度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納し、型判定手段は、前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいてデータの型を判定し、判定結果を型決定テーブルに格納し、圧縮手段は、型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成し、2値RDB変換手段は、圧縮済RDBに基づいて、2値で表現される2値RDBを生成するように構成されるので、一般RDBの属性の圧縮が自動化できる。
【0090】
第16の発明の属性圧縮方法は、サンプリング手段によって、前記一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、以降前記一般RDBの代わりにサンプルRDBを用いるように構成されるので、処理レコード数が少なくなるので、処理の高速化が可能となる。
【0091】
第17の発明の属性圧縮方法は、統計計算手段は、前記サンプル手段によって得られた結果から、一般RDBとサンプルRDBの属性の平均の差、もしくは一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きいと判断した場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管し、前記圧縮手段はこの統計圧縮RDBおよび型決定テーブルに基づいて圧縮テーブルを生成するように構成されるので、外れ値を除去することによって適切な範囲決定が行える。
【0092】
第18の発明の属性圧縮方法は、相関RDB生成手段は、読み出された一般RDB21中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成し、相関関係RDBに保管し、前記2値RDB変換手段はこの相関関係RDBを用いて圧縮済RDBから2値RDBを生成するように構成されるので、相関処理装置の出力である相関ルールの長さが短くなり見やすくなる。
【0093】
第19の発明の属性圧縮方法は、圧縮後の属性値の範囲が、前記不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【0094】
第20の発明の属性圧縮方法は、多数判定手段は、閾値テーブルに予め格納された多数割合閾値に基づいて、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないように構成されるので、一般RDBの属性の圧縮が自動化でき、さらに、2値RDBの属性の数を減少できるので、処理の高速化が可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1の属性圧縮装置の構成を示す図である。
【図2】 図1中の一般RDBの一例を示す図である。
【図3】 図1中の属性値カウントアップテーブル、数値型属性値カウンタ、非数値型属性値カウンタおよび属性値総数カウンタの一例を示す図である。
【図4】 図1中の型決定テーブルの一例を示す図である。
【図5】 図1中の圧縮テーブルおよびその中に含まれるカウンタの一例を示す図である。
【図6】 図1中の圧縮済RDBの一例を示す図である。
【図7】 図1中の2値RDBの一例を示す図である。
【図8】 本発明の実施の形態8の属性圧縮装置における圧縮の一例を示す図である。
【図9】 本発明の実施の形態9の属性圧縮装置を示す図である。
【図10】 本発明の実施の形態9において、一般RDB上の日付を表わす数値型フィールドを圧縮型日付属性値に置き換える一例を示す図である。
【図11】 本発明の実施の形態10の属性圧縮装置を示す図である。
【図12】 サンプリング前の一般RDBとサンプリング後のサンプルRDBの一例を示す図である。
【図13】 本発明の実施の形態11の属性圧縮装置を示す図である。
【図14】 本発明の実施の形態11における各属性の全体平均およびサンプル平均との差である分離度示す図である。
【図15】 本発明の実施の形態12の属性圧縮装置の構成を示す図である。
【図16】 相関RDB生成手段を用いないで圧縮済RDBから2値RDBを生成するプロセスを示す図である。
【図17】 本発明の実施の形態12における相関RDB生成手段15を用いて、圧縮済RDBから2値RDBを生成するプロセスを示す図である。
【図18】 本発明の実施の形態13の属性圧縮装置の構成を示す図である。
【図19】 本発明の実施の形態13の属性圧縮装置において、圧縮済RDBから2値RDBを生成する過程を示す図である。
【図20】 本発明の実施の形態14の属性圧縮装置の構成を示す図である。
【図21】 本発明の実施の形態14の属性圧縮装置において、圧縮済RDBから2値RDBを生成する過程を示す図である。
【符号の説明】
6 不要属性値除去手段
8 データ読出し手段
10 レコード数カウンタ
11 サンプリング手段
12 数値型判定手段
13 統計計算手段
14 型判定手段
15 相関RDB生成手段
16 圧縮手段
17 日付フィールド圧縮手段
18 2値RDB変換手段
21 一般RDB
22 属性値カウントアップテーブル
23 型決定テーブル
24 閾値テーブル
25 圧縮テーブル
26 圧縮テーブルカウンタ
27 圧縮済RDB
28 多数判定手段
29 不要属性値除去RDB
30 2値RDB
31 日付圧縮RDB
32 数値型属性値カウンタ
33 非数値型属性値カウンタ
34 属性値総数カウンタ
35 数値型属性値種類数カウンタ
36 サンプル圧縮RDB
37 統計圧縮RDB
38 相関関係RDB
39 多数割合閾値

Claims (20)

  1. RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮装置において:
    一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納するデータ読出し手段と、
    一般RDBから読み出したレコード数をカウントするレコード数カウンタと、データ読出し手段で読み出されたデータが数値型か否かを判定し、数値型の場合には属性値の出現度数を数値型属性値カウンタに格納し、非数値型の場合には属性値の出現度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納する数値型判定手段と、
    前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいて属性値のデータの型を判定し、判定結果を型決定テーブルに格納する型判定手段と、
    型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成する圧縮手段と、
    前記圧縮済RDBに基づいて、2値で表現される2値RDBを生成する2値RDB変換手段とを備えたことを特徴とする属性圧縮装置。
  2. 請求項1記載の属性圧縮装置において:
    非数値型属性値カウンタの値が0であって、属性値総数カウンタの値が順序数値型閾値よりも大きい場合は、前記型反転手段で入力されたデータ型は全順序型と判断され、
    入力されたデータ型が全順序型と判断された場合、前記圧縮手段で全てのデータに対して属性値変換を行うことを特徴とする属性圧縮装置。
  3. 請求項1記載の属性圧縮装置において:
    数値型属性値種類数カウンタの値が順序数値型閾値よりも大きく、非数値型属性値カウンタの値が順序非数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータは擬似全順序型と判断され、
    入力されたデータ型が擬似全順序型と判断された場合、前記圧縮手段で前記圧縮手段で数値型データに対しては属性値変換を行い、非数値型データに対しては属性値変換を行わないことを特徴とする属性圧縮装置。
  4. 請求項1記載の属性圧縮装置において:
    属性値総数カウンタに格納された属性値種類の総数が、順序数値型閾値よりも小さい場合は、前記型反転手段で入力されたデータ型はクラスタ型と判断され、
    入力されたデータ型がクラスタ型と判断された場合、前記圧縮手段で一般RDBの属性のすべてを2値RDBの属性にそのまま用いることを特徴とする属性圧縮装置。
  5. 請求項1記載の属性圧縮装置において:
    属性値種類の総数が、レコード数カウンタのカウント数と閾値テーブル中の擬似識別子型閾値との積よりも大きい場合は、前記型反転手段で入力されたデータ型は擬似識別子型と判断され、
    入力されたデータ型が擬似識別子型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないことを特徴とする属性圧縮装置。
  6. 請求項1記載の属性圧縮装置において:
    属性値総数カウンタの格納された属性値種類の総数が、0または1の場合は、前記型反転手段で入力されたデータ型は無値型と判断され、
    入力されたデータ型が無値型と判断された場合、前記圧縮手段で一般RDBを2値RDBに変換しないことを特徴とする属性圧縮装置。
  7. 請求項1−6記載の属性圧縮装置において:
    属性型が全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型のいずれにも該当しない場合は、前記型反転手段で入力されたデータ型は文字列型と判断され、
    入力されたデータ型が文字列型と判断された場合、前記圧縮手段で一般RDBのすべてを2値RDBにそのまま用いることを特徴とする属性圧縮装置。
  8. 請求項1−7記載の属性圧縮装置において:
    属性値カウントアップテーブル中にある文字列型属性値の頻度カウンタの値が、対応する属性の属性値の頻度カウンタの総和と少数割合閾値との積よりも小さい場合は、一般RDBの属性値を同一の属性値に圧縮することを特徴とする属性圧縮装置。
  9. 請求項1−7記載の属性圧縮装置において:
    さらに、日付フィールド圧縮手段および日付圧縮RDBを備え、日付を表す複数の属性の指定を受けて、その複数の属性中から数値だけをまとめて一つの全順序型の属性とみなして圧縮を行うことを特徴とする属性圧縮装置。
  10. 請求項1−7記載の属性圧縮装置において:
    さらに、サンプリング手段およびサンプルRDBを備え、一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、そのサンプルRDBを用いて全順序型、擬似全順序型、クラスタ型、擬似識別子型、無値型、文字型の分類を行い、2値RDBを生成することを特徴とする属性圧縮装置。
  11. 請求項10記載の属性圧縮装置において:
    さらに、統計計算手段および統計圧縮RDBを備え、
    その統計計算手段は、一般RDBとサンプルRDBの属性の平均の差、または一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きい場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管することを特徴とする属性圧縮装置。
  12. 請求項1−7記載の属性圧縮装置において:
    さらに、相関RDB生成手段および相関関係RDBを備え、
    作成された2値RDB中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成することを特徴とする属性圧縮装置。
  13. 請求項1−7記載の属性圧縮装置において:
    さらに、不要属性値除去手段および不要属性値除去RDBを備え、
    圧縮後の属性値の範囲が、不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないようにすることを特徴とする属性圧縮方法。
  14. 請求項1記載の属性圧縮装置において:
    さらに、多数判定手段および多数割合閾値テーブルを備え、
    その多数判定手段は、ある属性の圧縮済属性値の圧縮テーブルカウンタの値と、この属性における圧縮テーブルカウンタの総和との比から多数割合を求め、閾値テーブルに予め格納された多数割合閾値と、前記求められた多数割合とを比較して、同じ属性が多数を示す属性値かどうかを判断し、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないようにすることを特徴とする属性圧縮装置。
  15. RDB(Relational Data Base)中で相関のある属性値の組を自動的に抽出する相関自動発見装置に用いられ、一般RDBから2値RDBへの変換を行う属性圧縮方法において:
    データ読出し手段は、一般RDBの各属性を読み出し、読み出したデータを属性値カウントアップテーブルに格納し、
    一般RDBから読み出したレコード数をカウントするレコード数カウンタと、
    数値型判定手段は、上記で読み出されたデータが数値型か否かを判定し、数値型の場合には度数を数値型属性値カウンタに格納し、非数値型の場合には度数を非数値型属性値カウンタに格納し、さらに属性値の総数を属性値総数カウンタに格納し、
    型判定手段は、前記数値型属性値カウンタ、非数値型属性値カウンタ、およびユーザにより予め設定された種々の閾値が格納された閾値テーブルの各内容に基づいてデータの型を判定し、判定結果を型決定テーブルに格納し、
    圧縮手段は、型決定テーブルに格納された各型に基づいて圧縮の属性値変換方法を決定し、決定された属性値変換方法に基づいて一般RDBに格納されたデータより圧縮テーブルの属性値の範囲を決定し、前記属性値の範囲に属するデータの数をカウントすることにより圧縮テーブルを生成し、生成した前記圧縮テーブルに基づいて一般RDBより圧縮済RDBを生成し、
    2値RDB変換手段は、圧縮済RDBに基づいて、2値で表現される2値RDBを生成することを特徴とする属性圧縮方法。
  16. 請求項15記載の属性圧縮方法において:
    サンプリング手段によって、前記一般RDBから一定レコード数を抜き出したサンプルRDBを作成し、以降前記一般RDBの代わりにサンプルRDBを用いることを特徴とする属性圧縮方法。
  17. 請求項16記載の属性圧縮方法において:
    統計計算手段は、前記サンプル手段によって得られた結果から、一般RDBとサンプルRDBの属性の平均の差、もしくは一般RDBとサンプルRDBの属性の標準偏差の差が一定の幅より大きいと判断した場合には、サンプル上限値とサンプル下限値に挟まれたサンプル区間内はサンプルRDBのサンプル平均およびサンプル標準偏差に基づいて圧縮範囲を決定し、それサンプル区間以外の区間は、サンプル区間内と別個の区間として圧縮範囲を決定し、その結果を統計圧縮RDBに保管し、前記圧縮手段はこの統計圧縮RDBおよび型決定テーブルに基づいて圧縮テーブルを生成することを特徴とする属性圧縮方法。
  18. 請求項15記載の属性圧縮方法において:相関RDB生成手段は、読み出された一般RDB21中のある属性と他の属性との相関が強い場合、これらの属性の相関を用いて新たな属性を生成し、相関関係RDBに保管し、前記2値RDB変換手段はこの相関関係RDBを用いて圧縮済RDBから2値RDBを生成するすることを特徴とする属性圧縮方法。
  19. 請求項15記載の属性圧縮方法において:圧縮後の属性値の範囲が、前記不要属性値除去RDBに予め格納された不要範囲内に該当する場合には、不要属性値除去手段は、不要属性値除去RDBで特定された範囲の属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないようにすることを特徴とする属性圧縮方法。
  20. 請求項15記載の属性圧縮方法において:
    多数判定手段は、ある属性の圧縮済属性値の圧縮テーブルカウンタの値と、この属性における圧縮テーブルカウンタの総和との比から多数割合を求め、閾値テーブルに予め格納された多数割合閾値と、前記求められた多数割合とを比較して、同じ属性が多数を示す属性値かどうかを判断し、同じ属性が多数を占める属性値を除去し、その除去された属性値に関しては、2値RDB変換手段が2値RDB変換を行わないようにすることを特徴とする属性圧縮方法。
JP04014998A 1998-02-23 1998-02-23 属性圧縮装置および方法 Expired - Fee Related JP3651550B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04014998A JP3651550B2 (ja) 1998-02-23 1998-02-23 属性圧縮装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04014998A JP3651550B2 (ja) 1998-02-23 1998-02-23 属性圧縮装置および方法

Publications (2)

Publication Number Publication Date
JPH11238073A JPH11238073A (ja) 1999-08-31
JP3651550B2 true JP3651550B2 (ja) 2005-05-25

Family

ID=12572722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04014998A Expired - Fee Related JP3651550B2 (ja) 1998-02-23 1998-02-23 属性圧縮装置および方法

Country Status (1)

Country Link
JP (1) JP3651550B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579349B2 (ja) * 2000-12-21 2004-10-20 株式会社東芝 データ分析方法、データ分析装置および記録媒体
JP4997856B2 (ja) * 2006-07-19 2012-08-08 富士通株式会社 データベース分析プログラム、データベース分析装置、データベース分析方法
US7769729B2 (en) 2007-05-21 2010-08-03 Sap Ag Block compression of tables with repeated values
JP5640796B2 (ja) * 2010-06-04 2014-12-17 富士通株式会社 名寄せ支援処理装置、方法及びプログラム
JP6174802B2 (ja) * 2014-07-04 2017-08-02 株式会社日立製作所 情報処理装置および情報処理システム
JP6411232B2 (ja) * 2015-01-29 2018-10-24 株式会社東芝 サンプリング装置およびサンプリングプログラム
EP3413203A1 (en) * 2016-02-05 2018-12-12 NEC Solution Innovators, Ltd. Information processing device, information processing method, and computer-readable recording medium
JP7053995B2 (ja) 2018-04-16 2022-04-13 富士通株式会社 最適化装置及び最適化装置の制御方法
JP7026653B2 (ja) * 2019-02-28 2022-02-28 Kddi株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN111813781A (zh) * 2020-07-10 2020-10-23 金蝶软件(中国)有限公司 一种数据存储方法以及终端设备

Also Published As

Publication number Publication date
JPH11238073A (ja) 1999-08-31

Similar Documents

Publication Publication Date Title
Newcombe Record linking: the design of efficient systems for linking records into individual and family histories
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
JP3651550B2 (ja) 属性圧縮装置および方法
CN104216349B (zh) 利用制造设备的传感器数据的成品率分析系统及方法
CN107610761B (zh) 一种基于医保数据的临床路径分析方法
CN106384282A (zh) 构建决策模型的方法和装置
CN108346474A (zh) 基于单词的类内分布与类间分布的电子病历特征选择方法
CN103778179B (zh) 数据库分析装置和数据库分析方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111767277A (zh) 数据处理方法和装置
CN117081602B (zh) 基于区块链的资金结算数据优化处理方法
CN113779180A (zh) 一种地区drg分组模拟方法
JPH069054B2 (ja) 文書自動分類装置
CN110610766A (zh) 基于症状特征权重推导疾病概率的装置和存储介质
CN111242427A (zh) 一种儿童营养与生长发育关系的评估方法及系统
CN115691820A (zh) 病种多分型标准诊疗方案自动构建系统
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN114238639A (zh) 一种医学术语标准化框架的构建方法、装置、电子设备
JPH09212513A (ja) 書籍情報表示装置
CN117690600B (zh) 基于知识图谱的传染病预测方法、系统、终端及存储介质
WO2018139205A1 (ja) 情報処理装置、情報処理システム、プログラム及び情報処理方法
CN117116502B (zh) 基于人工智能和大数据构造手术画像知识图的方法和系统
CN117524464B (zh) 一种基于大数据的计算手术后目标血红蛋白的方法及系统
CN116166698B (zh) 一种基于通用医疗术语的快速构建队列方法及系统
CN116344011B (zh) 一种病历建档管理方法及系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080304

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090304

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100304

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100304

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110304

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees