JP2001297105A - データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体 - Google Patents

データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体

Info

Publication number
JP2001297105A
JP2001297105A JP2000112257A JP2000112257A JP2001297105A JP 2001297105 A JP2001297105 A JP 2001297105A JP 2000112257 A JP2000112257 A JP 2000112257A JP 2000112257 A JP2000112257 A JP 2000112257A JP 2001297105 A JP2001297105 A JP 2001297105A
Authority
JP
Japan
Prior art keywords
data
attribute
unique
record
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000112257A
Other languages
English (en)
Inventor
Hideo Shimazu
秀雄 島津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000112257A priority Critical patent/JP2001297105A/ja
Publication of JP2001297105A publication Critical patent/JP2001297105A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 データの分布状態に対応して適切に特異デー
タを検出するデータベースシステムを提供する. 【解決手段】 データベースの各属性におけるデータの
特異である範囲を各属性毎に上限を示す上限定数と下限
を示す下限定数と各属性毎の重付けを示す重付け定数と
各レコードが特異であるか否かを判定するための設定値
である特異判定設定値を記録,参照し、各属性毎におけ
るデータの平均値と標準偏差を算出すると共に、属性の
データの標準偏差に上限定数を乗じた値を平均値に加算
した値を超える範囲及び当該属性のデータの標準偏差に
下限定数を乗じた値を平均値から減算した値を下回る時
に個々のデータが特異であると、各レコードの特異性を
重付け定数の当該レコードにおいて特異性の判定された
属性に対応するものを全て加算した値が特異判定設定値
を超える場合に当該レコードを特異であると判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースに関
し、特に利用者に対し特徴のあるレコードの位置を自動
的に指し示すデータベースシステムとその特異レコード
検出方法、及び特異レコード検出プログラムを記録した
記録媒体に関する。
【0002】
【従来の技術】データベース等のデータやその検索結果
の表示においては、標準的な値を示すレコードよりも、
例外的な特異な値を示すレコードに対して利用者はより
注目をする。このため、検索結果等の利用者に表示する
データに、例外的な特異な値を示すレコードがある場合
には、これを自動的に検出して利用者に通知することが
できると便利である。
【0003】特許第2697651号公報や、特公平0
8−023869号公報に開示された従来技術では、デ
ータの類似性を自動的に判断する方法が提案されてい
る。これらの従来技術では、関係データベース(リレー
ショナルデータベース)のレコード間における類似性を
も判断することができ、それは、まずレコード内の各属
性毎のデータに対してその類似性を判断した後に、この
各属性毎の類似性の値に対し各属性毎に設定した重み付
けを行うことで、この各レコードの類似性を判断するこ
とができる。また、類似でないレコードは、例外的な特
異なレコードであるため、同様にして例外的なレコード
やデータを自動的に検出することができる。
【0004】ここで、各属性のデータは、例えば“グア
ム”“サイパン”等の単語データを主な対象とし、予め
個々のデータ間に対して類似性の度合いを示す値を設定
し、これを用いて各属性におけるデータ間の類似性や特
異性を判定している。
【0005】しかし、このように単語や文章等のデータ
を対象とするのではなく、数値データを判断対象とする
場合においては、その数値データの値の大小関係等を用
いて類似性や特異性を判断する方式も可能である。これ
により、個々のデータ間に類似性の値を設定する方式を
用いるよりも、より柔軟に類似性等を判断する設定をす
ることができる。
【0006】従来の、データベース中の例外データの発
見手法には、例えば、Parsaye(参考文献:In
telligent datA,Base tools
and applications,John Wi
lley&Sons,Inc.,1993)では、例外
データを発見するためのルールを事前に記述しておき、
検索結果が与えられると、このルールを適用して、それ
が例外的な値をとるか否かを判断させる。
【0007】これは、データの標準的な値よりも大きく
(明らかに)離れたデータを異常と判断する方式であ
り、主にデータ入力時のミスを発見するために使うこと
ができる。
【0008】例えば、今給与データベースがあり、レコ
ードに給料属性があったとき、その月給の金額の値が2
万円以下又は250万円以上の時はありえないものであ
って、給料属性の値が2万円以下または250万円以上
を示す場合にはこの給料属性の値は入力ミスであると判
断できる場合においては、 if(給料<20000)or(給料>250000
0) then “給料属性の値は特異データである”という
ルールが定義できる。
【0009】こうしたルールに基づいて特異データを検
出することにより、金額の桁数の入力ミス等を発見する
ことができるのである。
【0010】
【発明が解決しようとする課題】しかし、上述したよう
に従来の特異データの検出では、以下に述べるような問
題点があった。
【0011】従来の特異データの検出は、一定の標準的
な範囲を示すデータを対象とするものであり、更に特異
データとして検出できるデータは、この標準的な範囲か
ら大きく離れる値を示すものに限られていた。
【0012】しかし、あるデータが特異であることは、
他の全体のデータとの比較において判断されるものであ
り、データの値が離れる量の大小のみにより判断できる
ものではない。例えば、一定の値“100”を示すデー
タが多く連続して現れる場合においては、“102”を
示すデータは特異なデータである。
【0013】従来では、このように少しだけ離れた値に
対しても特異データとして検出するためには、事前にこ
のための詳細な設定を行う必要があり、また正常と判断
されるべきデータの多くが異常と判断されることにもな
るため困難であった。
【0014】また、一定の標準的な範囲を示すデータの
みではなく、変動を示すデータに対しても、その特異デ
ータを検出することが求められている。この変動を示す
データには、例えば、商品の価格、物価、株等の相場、
為替レート、気象データ、人口や交通量等の各種の統計
データ、等がある。
【0015】こうした変動するデータに対しては、デー
タの特異性をその前の(前後の)データの値と比較し
て、適切に現時点での特異性を判断することが求められ
るが、従来ではできなかった。
【0016】本発明の第1の目的は、上記従来技術の欠
点を解決し、データの分布状態に対応して適切に特異デ
ータを検出するデータベースシステムとその特異データ
検出方法、及び特異データ検出プログラムを記録した記
録媒体を提供することである。
【0017】本発明の第2の目的は、上記従来技術の欠
点を解決し、データを属性毎に記録したレコードによる
表形式のデータベースにおいて、各属性毎のデータの分
布状態に対応して、各レコードの特異性を判定するデー
タベースシステムとその特異データ検出方法、及び特異
データ検出プログラムを記録した記録媒体を提供するこ
とである。
【0018】
【課題を解決するための手段】上記目的を達成するため
本発明のデータベースシステムは、データベースに記録
されたデータから特異データを検出する特異データ検出
手段を備え、前記特異データ検出手段は、検出に用いる
設定を記憶する設定記憶手段と、データベースのデータ
の分布状態を解析するデータ解析手段と、前記設定記憶
手段が記憶する設定と前記データ解析手段による解析結
果を参照して、各データが特異であるか否かの判定を行
う判定手段を備え、特異データをデータの分布状態に対
応して検出することを特徴とする。
【0019】請求項2の本発明のデータベースシステム
は、前記データベースは、データを属性毎に記録したレ
コードによる表形式のデータベースとし、前記特異デー
タ検出手段は、各レコードの各属性のデータの特異性
を、各属性毎の当該データの分布状態に対応して判定
し、この判定結果に基づき各レコードの特異性を判定す
ることを特徴とする。
【0020】請求項3の本発明のデータベースシステム
は、前記データ解析手段は、各レコードの各属性のデー
タの分布状態を、各属性毎に解析し、前記判定手段は、
各属性毎に特異であると判定するデータの範囲を、当該
属性におけるデータの分布状態に対応して判定する特異
範囲判定手段と、特異範囲判定手段による判定結果に基
づき、各レコードの各属性の個々のデータが特異である
か否かを判定する特異要素検出手段と、各レコードの特
異性を、当該レコードにおける各属性のデータに対して
判定された特異性に基づき判定する特異レコード判定手
段を備えることを特徴とする。
【0021】請求項4の本発明のデータベースシステム
は、前記設定記憶手段は、各属性におけるデータの特異
であると判定する範囲の設定値である特異範囲設定値を
記録し参照する手段と、レコードの各属性のデータに対
して判定された特異性を、当該レコードにおける特異性
として重視する度合いを示す属性別重み付け設定値を記
録し参照する手段を備え、前記特異範囲判定手段は、前
記データ解析手段の解析結果と前記特異範囲設定値に基
づき、各属性毎の特異であると判定するデータの範囲を
判定し、前記特異レコード判定手段は、前記特異範囲判
定手段の判定結果と前記属性別重み付け設定値に基づ
き、各レコードの特異性を判定することを特徴とする。
【0022】請求項5の本発明のデータベースシステム
は、前記設定記憶手段は、前記属性別重み付け設定値を
各属性毎の重み付けを示す重み付け定数を用いて定める
手段と、各レコードが特異であるか否かを判定するため
の設定値である特異判定設定値を記録し参照する手段を
備え、前記特異レコード判定手段は、各レコードの特異
性を、前記重み付け定数の当該レコードにおいて特異性
の判定された属性に対応するものを全て加算した値が、
前記特異判定設定値を超える場合に当該レコードを特異
であると判定することを特徴とする。
【0023】請求項6の本発明のデータベースシステム
は、前記データ解析手段は、各属性毎におけるデータの
平均値と標準偏差を算出し、前記設定記憶手段は、前記
特異範囲設定値を、各属性毎に上限を示す上限定数及び
下限を示す下限定数を用いて定め、前記特異範囲判定手
段は、各属性の特異であると判定するデータの範囲を、
当該属性のデータの標準偏差に前記上限定数を乗じた値
を平均値に加算した値を超える範囲、及び当該属性のデ
ータの標準偏差に前記下限定数を乗じた値を平均値から
減算した値を下回る範囲として判定することを特徴とす
る。
【0024】請求項7の本発明のデータベースシステム
は、前記特異データ検出手段は、利用者からの前記属性
別重み付け設定値の値を変更する操作を受け付ける視点
指定手段を備えることを特徴とする。
【0025】請求項8の本発明のデータベースシステム
は、前記特異データ検出手段は、通信回線を介して、利
用者からの操作を受け付け前記利用者に検索結果を通知
することを特徴とする。
【0026】請求項9の本発明の特異データ検出方法
は、データベースに記録されたデータから特異データを
検出するための設定を記憶し参照する設定記憶ステップ
と、前記データベースのデータの分布状態を解析するデ
ータ解析ステップと、前記設定記憶ステップが記憶する
設定と前記データ解析ステップによる解析結果を参照し
て、各データが特異であるか否かの判定を行う判定ステ
ップを備え、特異データをデータの分布状態に対応して
検出することを特徴とする。
【0027】請求項10の本発明の特異データ検出方法
は、前記データベースは、データを属性毎に記録したレ
コードによる表形式のデータベースとし、各レコードの
各属性のデータの特異性を、各属性毎の当該データの分
布状態に対応して判定し、この判定結果に基づき各レコ
ードの特異性を判定することを特徴とする。
【0028】請求項11の本発明の特異データ検出方法
は、前記データ解析ステップは、各レコードの各属性の
データの分布状態を、各属性毎に解析し、前記判定ステ
ップは、各属性毎に特異であると判定するデータの範囲
を、当該属性におけるデータの分布状態に対応して判定
する特異範囲判定ステップと、特異範囲判定ステップに
よる判定結果に基づき、各レコードの各属性の個々のデ
ータが特異であるか否かを判定する特異要素検出ステッ
プと、各レコードの特異性を、当該レコードにおける各
属性のデータに対して判定された特異性に基づき判定す
る特異レコード判定ステップを備えることを特徴とす
る。
【0029】請求項12の本発明の特異データ検出方法
は、前記設定記憶ステップは、各属性におけるデータの
特異であると判定する範囲の設定値である特異範囲設定
値を記録し参照するステップと、レコードの各属性のデ
ータに対して判定された特異性を、当該レコードにおけ
る特異性として重視する度合いを示す属性別重み付け設
定値を記録し参照するステップを備え、前記特異範囲判
定ステップは、前記データ解析ステップの解析結果と前
記特異範囲設定値に基づき、各属性毎における特異であ
ると判定するデータの範囲を判定し、前記特異レコード
判定ステップは、前記特異範囲判定ステップの判定結果
と前記属性別重み付け設定値に基づき、各レコードの特
異性を判定することを特徴とする。
【0030】請求項13の本発明の特異データ検出方法
は、前記設定記憶ステップは、前記属性別重み付け設定
値を各属性毎の重み付けを示す重み付け定数を用いて定
めるステップと、各レコードが特異であるか否かを判定
するための設定値である特異判定設定値を記録し参照す
るステップを備え、前記特異レコード判定ステップは、
各レコードの特異性を、前記重み付け定数の当該レコー
ドにおいて特異性の判定された属性に対応するものを全
て加算した値が、前記特異判定設定値を超える場合に当
該レコードを特異であると判定することを特徴とする。
【0031】請求項14の本発明の特異データ検出方法
は、前記データ解析ステップは、各属性毎におけるデー
タの平均値と標準偏差を算出し、前記設定記憶ステップ
は、前記特異範囲設定値を、各属性毎に上限を示す上限
定数及び下限を示す下限定数を用いて定め、前記特異範
囲判定ステップは、各属性の特異であると判定するデー
タの範囲を、当該属性のデータの標準偏差に前記上限定
数を乗じた値を平均値に加算した値を超える範囲、及び
当該属性のデータの標準偏差に前記下限定数を乗じた値
を平均値から減算した値を下回る範囲として判定するこ
とを特徴とする。
【0032】請求項15の本発明の特異データ検出プロ
グラムを記録した記録媒体は、データベースに記録され
たデータから特異データを検出するための設定を記憶し
参照する設定記憶ステップと、前記データベースのデー
タの分布状態を解析するデータ解析ステップと、前記設
定記憶ステップが記憶する設定と前記データ解析ステッ
プによる解析結果を参照して、各データが特異であるか
否かの判定を行う判定ステップを備え、特異データをデ
ータの分布状態に対応して検出することを特徴とする。
【0033】請求項16の本発明の特異データ検出プロ
グラムを記録した記録媒体は、前記データベースは、デ
ータを属性毎に記録したレコードによる表形式のデータ
ベースとし、各レコードの各属性のデータの特異性を、
各属性毎の当該データの分布状態に対応して判定し、こ
の判定結果に基づき各レコードの特異性を判定すること
を特徴とする。
【0034】請求項17の本発明の特異データ検出プロ
グラムを記録した記録媒体は、前記データ解析ステップ
は、各レコードの各属性のデータの分布状態を、各属性
毎に解析し、前記判定ステップは、各属性毎に特異であ
ると判定するデータの範囲を、当該属性におけるデータ
の分布状態に対応して判定する特異範囲判定ステップ
と、特異範囲判定ステップによる判定結果に基づき、各
レコードの各属性の個々のデータが特異であるか否かを
判定する特異要素検出ステップと、各レコードの特異性
を、当該レコードにおける各属性のデータに対して判定
された特異性に基づき判定する特異レコード判定ステッ
プを備えることを特徴とする。
【0035】請求項18の本発明の特異データ検出プロ
グラムを記録した記録媒体は、前記設定記憶ステップ
は、各属性におけるデータの特異であると判定する範囲
の設定値である特異範囲設定値を記録し参照するステッ
プと、レコードの各属性のデータに対して判定された特
異性を、当該レコードにおける特異性として重視する度
合いを示す属性別重み付け設定値を記録し参照するステ
ップを備え、前記特異範囲判定ステップは、前記データ
解析ステップの解析結果と前記特異範囲設定値に基づ
き、各属性毎における特異であると判定するデータの範
囲を判定し、前記特異レコード判定ステップは、前記特
異範囲判定ステップの判定結果と前記属性別重み付け設
定値に基づき、各レコードの特異性を判定することを特
徴とする。
【0036】請求項19の本発明の特異データ検出プロ
グラムを記録した記録媒体は、前記設定記憶ステップ
は、前記属性別重み付け設定値を各属性毎の重み付けを
示す重み付け定数を用いて定めるステップと、各レコー
ドが特異であるか否かを判定するための設定値である特
異判定設定値を記録し参照するステップを備え、前記特
異レコード判定ステップは、各レコードの特異性を、前
記重み付け定数の当該レコードにおいて特異性の判定さ
れた属性に対応するものを全て加算した値が、前記特異
判定設定値を超える場合に当該レコードを特異であると
判定することを特徴とする。
【0037】請求項20の本発明の特異データ検出プロ
グラムを記録した記録媒体は、前記データ解析ステップ
は、各属性毎におけるデータの平均値と標準偏差を算出
し、前記設定記憶ステップは、前記特異範囲設定値を、
各属性毎に上限を示す上限定数及び下限を示す下限定数
を用いて定め、前記特異範囲判定ステップは、各属性の
特異であると判定するデータの範囲を、当該属性のデー
タの標準偏差に前記上限定数を乗じた値を平均値に加算
した値を超える範囲、及び当該属性のデータの標準偏差
に前記下限定数を乗じた値を平均値から減算した値を下
回る範囲として判定することを特徴とする。
【0038】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0039】図1は、本発明の第1の実施の形態による
データベースシステム1の構成を示すブロック図であ
る。
【0040】図1を参照すると、第1の実施の形態のデ
ータベースシステム1は、DBMS(DatA,Bas
e Management System:データベー
ス管理システム)100と、データの集まりであるデー
タベース200を備える。
【0041】DBMS100は、データベース200の
データから特異データを検出する特異データ検出部10
と、DBMS100の機能を制御する制御部20を備え
る。
【0042】特異データ検出部10は、特異データの検
出のための設定を記憶する設定記憶部11と、検出対象
のデータを解析するデータ解析部12と、データ解析部
12による解析結果と設定記憶部11に記憶された設定
に基づきデータが特異であるか否かの判定を行う判定部
13と、特異データの検出結果を出力する出力部14を
備える。
【0043】図2は、本実施の形態のデータベースの具
体例を示す図である。
【0044】ここでは、図2に示される販売する商品の
価格を販売日別に記録した単純な構成のデータベース2
00を例として用い、その各販売日の価格データから特
異データの検出を行う。また、本実施の形態ではデータ
ベース200のデータモデルは特に限定する必要はな
く、特異データの検出対象である価格等のデータが記録
されているものであればよい。
【0045】図2では、2つの商品A,Bの4月1日か
ら4月30日までの1ヶ月間(30日)の価格をそれぞ
れ示している。図3は、商品A,Bの販売日毎の価格の
変化を示す図である。
【0046】図2、3を参照すると、商品Aの価格は、
1ヶ月間を通してほぼ80円であるが、4/6から6/
9までの4日間はより高い価格を成し最高で90円に達
している。また、商品Bの価格は、月の初めは75円で
あるが中ごろから値上がりを始め、最高で95円に達し
た後、月末には再び元の75円に戻っている。
【0047】よって、図2、3のデータにおける特異な
値を示す要素は、商品Aでは、80円が標準的な値であ
り、より高値を示した4/6から6/9までの間が特異
な要素である。また、商品Bでは、75円〜80円位が
標準的な値であり、より高値を示した月の後半が特異な
要素として見ることができる。
【0048】従来では、このような商品A,Bのデータ
から特異なデータを検出するためには、各商品毎に、予
め特異なデータとみなす範囲のデータを設定(例えば、
何円以上(以下))することが必要であった。しかし、
この例のように、設定のない未知の任意のデータの集合
をも特異データの検出対象とし、その各要素のデータの
分布を基に特異データを検出することができるのであ
る。
【0049】本実施の形態のデータベースシステム1で
は、特異データ検出部10を用いることにより、以下に
説明する方法で、任意のデータベース200のデータか
ら、その各要素のデータの分布を基に特異データの自動
検出を行う。
【0050】図4は、本実施の形態の特異データの検出
の一例を示す図である。図4の例では、商品A,Bの価
格のデータ分布を正規分布に当てはめ、その各販売日に
おける価格の特異性を判定している。
【0051】正規分布は、誤差の分布等極めて多くの種
類の現象に該当する分布であり、その分布形状は、平均
値付近に多く集中し両端にいくと少なくなる富士山型で
あり、またその傾斜の度合いは標準偏差により示される
(参考文献:統計学の基礎:ISBN:4563008
680,1988,培風館,ミラー,J.C.翻訳:村
上正康)。
【0052】標準偏差においては、その分布形状は、母
集団の平均値と標準偏差の値により定まる。また、統計
学的に標準偏差においては、母集団の標本の95%は、
(平均値− 2*標準偏差値)の値と、(平均値+ 2
*標準偏差値)の値との間に入り、また、68%は、
(平均値− 標準偏差値)の値と、(平均値+ 標準偏
差値)の値との間に入る。
【0053】このようにして、任意に指定した母集団中
の割合(95%や68%等)に対応して、定数nが得ら
れ、 上限値:(平均値+ n*標準偏差値)から、 下限値:(平均値− n*標準偏差値)までの範囲に、
母集団の係る割合を収めることができる。
【0054】また、この定数nの算出方法や、母集団中
の割合とこの定数nとの対応を示す数表や、その数学的
根拠は、各種の出版されている確立論や統計学に関する
教科書・参考書において示されている。
【0055】図4を参照すると、商品A,Bそれぞれの
販売価格の平均値は、共に81円である。一方、ばらつ
きの度合いを示す標準偏差の値は、商品Aは約2.75
円であり商品Bは7.24円であり大きく異なっている
(尚これは、少数点3位以下を四捨五入した値であ
る)。
【0056】このため、母集団中の95%に入らない特
異な要素は、平均値81円を中心に(定数n=2)によ
り指定される範囲の外部の値を示す要素であり、商品A
においては75.50円から86.50円までの範囲の
外部であり、商品Bにおいては、66.52円から9
6.48円までの範囲の外部である。
【0057】よって、商品Aにおいては90円である4
/7と4/8の2日が特異な要素であり、商品Bにおい
ては全てこの95%の標準的な範囲内であり特異な要素
は無いと判定される。
【0058】ここでは、商品Bの価格は商品Aよりも大
きく変動を示しているのに反して、商品Aからは特異デ
ータが検出されても、商品Bに関しては検出されていな
い。これは、データの分布に基づいて特異な要素を適切
に判定するためであり、商品Aでは短い間に急激で突出
した変化を示しているのに対し、商品Bではより長い期
間にゆっくりと変化を示しているため、95%以内の標
準的な値を示す範囲もより広い範囲にわたるのである。
【0059】次に、本実施の形態の特異データ検出部1
0の各部の機能と、その特異データ検出処理を説明す
る。
【0060】図5は、本実施の形態の特異データ検出部
10による特異データ検出処理を説明するためのフロー
チャートであり、図6は、本実施の形態の特異データ検
出部10の一実施例の構成を示すブロック図である。
【0061】この図6の例においては、特異データ検出
部10は、検出対象のデータの平均値と標準偏差を求め
ることにより、正規分布(又、それに近い分布の)にお
ける特異データの検出を行う。通常の自然界や経済学的
な現象等のデータ分布は、正規分布かそれに近いものが
多いため、本実施例においては、こうした極めて多くの
データ分布を特異データの検出対象とすることができ
る。
【0062】図6を参照すると、本実施の形態の特異デ
ータ検出部10は、特異データの検出に関する設定を記
憶する設定記憶部11、データの分布を解析するデータ
解析部12、特異データの判定を行う判定部13、検出
結果を出力する出力部14を備える。
【0063】設定記憶部11は、特異範囲設定値11−
1を記録している。
【0064】ここで、特異範囲設定値11−1は、定数
nにより、検出対象の母集団における標準的な(特異で
はない)データの値の範囲を示す上限値と下限値を、 上限値:(平均値+ n*標準偏差値) 下限値:(平均値− n*標準偏差値) により表す。
【0065】この定数nの値は、データベースシステム
1の利用者や設計者が設定する。上述のように、特異値
として認定する範囲を全体の5%程度に設定する場合に
おいてはnの値を“2”に設定し、特異値として認定す
る範囲を全体集合の32%程度に設定する場合において
はnの値を“1”に設定する。
【0066】このように、特異範囲設定値11−1は、
定数nの値を用いて、特異データとして判定する範囲・
程度を定義するパラメータである。
【0067】データ解析部12は、特異データの検出対
象のデータの分布状態を解析する(ステップ501)。
このため、データ解析部12は、特異データの検出対象
のデータの平均値を算出する平均値算出部12−1と、
標準偏差を算出する標準偏差算出部12−2を備え、算
出したこれら平均値や標準偏差の値を判定部13に出力
する。
【0068】判定部13は、特異範囲判定部13−1と
特異要素検出部13−2を備える。特異範囲判定部13
−1は、例外的な値と判定するデータの範囲を判定し
(ステップ502)、特異要素検出部13−2は、この
範囲に基づき例外的な要素を判定する(ステップ50
2)。
【0069】特異範囲判定部13−1は、特異範囲設定
値11−1における定数nの設定と、データ解析部12
が算出した母集団の平均値と標準偏差の値に基づき、例
外的な値と判定するデータの範囲を、 上限値:(平均値+n*標準偏差値)から、 下限値:(平均値−n*標準偏差値)までの範囲の外
部、 として算出し、特異要素検出部13−2にこの範囲を設
定する。
【0070】特異要素検出部13−2は、特異範囲判定
部13−1が判定した例外的な値と判定するデータの範
囲を基に、母集団の各要素のデータがこの範囲内である
かどうかを調べることにより、例外的な要素を判定す
る。
【0071】例えば、図4の例に示されるように、特異
範囲判定部13−1は、データ解析部12が算出した平
均値(X)と標準偏差(s)と、特異範囲設定値11−
1の定数nの設定(“1”や“2”等)に基づき、(n
=1)の場合の上限値:X+sと下限値:X−sや、又
(n=2)の場合の上限値:X+2sと下限値:X−2
sを算出し、特異要素検出部13−2にこの範囲を設定
する。
【0072】そして、特異要素検出部13−2は、各商
品A、Bの各販売日の価格が、特異と判定する範囲であ
るかどうかを調べる。つまり、商品A、Bの各販売日に
おける価格が、この算出された上限値よりも高いかこの
下限値より安い場合に、その販売日の価格が特異なデー
タであると判定するのである。
【0073】出力部14は、この特異データの判定結果
を出力する(ステップ504)。例えば、このデータベ
ースシステム1にアクセスしてデータベース200のデ
ータを参照する外部のアプリケーション等からの、特異
データの検出命令等に対応して、特異なデータとして判
定した要素の一覧を送る方式等がある。
【0074】他にも、この出力部14による判定結果の
出力方式には、例えばインターネット等のウェブサイト
を構築するウェブサーバに対し本実施の形態のデータベ
ースシステム1を連携させ、データベース200のデー
タ(又、検索結果等)をHTML文による表形式のウェ
ブページ等により表示する形態があるが、こうした場合
において、出力部14がこのウェブページのHTML文
を書き換えて、特異データの表示位置に星印を表示した
り、データを表示する文字のサイズを大きくしたり、色
を変えたり、書体をボールドに変更する等の強調表示を
する方式も可能である。
【0075】次に、本発明の第2の実施の形態を説明す
る。
【0076】図7は、本発明の第2の実施の形態のデー
タベースの具体例を示す図である。
【0077】本実施の形態においては、データベース2
00のデータモデルとして、現在データベースシステム
において広く一般に使用されている関係モデルを対象と
する。
【0078】関係モデルのデータベースでは、図7の例
に示すように各属性(「年齢」、「年収」、等)のデー
タの値を記録した、レコードを用いてデータを記録す
る。この各データレコードでは、備える属性の種類は全
てのデータレコードに共通であり、かつその各属性にそ
れぞれの属性値を記録する。従って、図7に示すように
表構造(テーブル構造)となる。
【0079】図7のデータベース200の例では、その
最上行のレコードに(“鈴木一郎”、“25”(才)、
“400”(万円)、“5”(人))が記録され、他の
レコードも共通の属性の種類を備え、(「名前」、「年
齢」、「年収」、「友人数」)の各属性のデータを記録
している。
【0080】またこのため、データベース200は、C
言語の配列構造を使ってもよいし、マイクロソフトAc
cessやオラクル社のOracleような、市販のリ
レーショナルデータベースソフトの表をそのまま利用す
るのでもよい。
【0081】図8は、本実施の形態の特異データ検出処
理を説明するためのフローチャートである。
【0082】本実施の形態においては、関係データベー
スから特異なレコードを検出する。これは、まずレコー
ドの各属性のデータを、他のレコードの同じ属性のデー
タと比較して第1の実施の形態における方法で特異なデ
ータであるかを判定し、次に、各レコードの各属性のデ
ータにおける特異性の判定に基づき、その各レコードの
特異性を判定する。
【0083】図7のデータベース200においては、一
番左の列に示す「名前」の属性についてはこれをレコー
ドのIDとして使用する。特異データの検出のために、
データの分布状態を解析する属性の種類は、数値により
示される数値データを記録する属性が好ましく、「年
齢」、「年収」、「友人数」の各属性に示されるデータ
を解析対象とする。
【0084】図9は、本実施の形態の特異データの検出
の一例を示す図である。
【0085】図9を参照すると、図7の例のテーブルに
対し、その「年齢」、「年収」、「友人数」の各属性毎
のデータを、第1の実施の形態における方法により、平
均値(X)と標準偏差(s)を算出することでその分布
状態を解析し(ステップ801)、次に特異範囲設定値
11−1の定数nに基づき、各属性毎に例外と判定する
範囲を定める(ステップ802)。
【0086】そして、各属性毎に、この例外と判定する
範囲に基づき、各要素が例外であるかどうかを判定する
(ステップ803)。これは、各レコードにおける各属
性の要素の値が、例外と判定する範囲(つまり、X−n
*sからX+n*sまでの範囲の外部)にある場合に
は、その要素を例外と判定する。
【0087】図9の例では、(n=1)の場合の例外デ
ータの検出を行い、この検出結果を、例外と判定された
要素のデータを“1”と示し、例外ではないと判定され
た要素のデータを“0”と示すテーブルを用いて表して
いる。
【0088】次に、このステップ803による例外要素
の判定に基づき、例外レコードの判定を行う(ステップ
504)。本実施の形態による特異データ検出部10
は、この判定処理のために、新たに属性別重み付け設定
値11−2等を備える。
【0089】図10は、本実施の形態の特異データ検出
部10aの一実施例の構成を示すブロック図である。
【0090】図10を参照すると、本実施の形態の特異
データ検出部10aの、第1の実施の形態の特異データ
検出部10との違いは、設定記憶部11aに、新たに属
性別重み付け設定値11−2と特異判定設定値11−3
を記録し、判定部13aに特異レコード判定部13−3
を備える点である。
【0091】特異レコード判定部13−3は、以下のよ
うに、属性別重み付け設定値11−2と特異判定設定値
11−3を用いて、このステップ504における特異レ
コードの判定処理を行う。
【0092】属性別重み付け設定値11−2は、データ
レコードを構成する属性毎の、レコードの特異性判定に
重視する度合いを示す重み付けの値を設定する。図9の
例では、この重み付けの設定値として、「年齢」に
“0.6”、「年収」に“0.3”、「友人数」に
“0.1”の値が設定している。この重み付け値は、各
属性の重要性に応じて、データベースシステム1の利用
者や設計者によって設定する。
【0093】特異レコード判定部13−3は、図9に示
されるように、各レコードの特異性の度合いを示す例外
度の値を、その各属性の要素の特異性の判定結果
(“0”と“1”で示されるもの)に、それぞれの属性
の重付けの値を掛けた値の総和を、そのレコードの例外
度の値として算出する。この例外度の値がより高いレコ
ードが、より特異性の高いレコードである。
【0094】特異判定設定値11−3は、この各レコー
ドの例外度の値を基に、各レコードが特異レコードであ
るか否かを判定するための設定値である。
【0095】特異レコード判定部13−3は、この特異
判定設定値11−3の値以上の値の(又は、超える値
の)例外度の値を示すレコードを、特異レコードと判定
する。これにより、各レコードの特異性を数値のみでは
なく、特異レコードであるか否かの二者択一により示す
ことができる。
【0096】図9の例においては、例えば、特異判定設
定値11−3の値を“0.35”とした場合には、“富
士五郎”のレコードのみが特異レコードとして判定され
る。
【0097】そして、例外レコードの判定の後には、第
1の実施の形態と同様に出力部14がこの検出結果を出
力することにより(ステップ805)、特異データ検出
部10は、その特異データの検出処理を終了する。
【0098】次に、本発明の第3の実施の形態を説明す
る。
【0099】本実施の形態では、特異データ検出部10
において、設定記憶部11に記憶する、特異範囲設定値
11−1や、属性別重み付け設定値11−2や、特異判
定設定値11−3の設定値の値を操作し変更するための
設定操作部15を備える。
【0100】例えば、属性別重み付け設定値11−2を
例に挙げるならば、各利用者それぞれに各属性を特異性
判定に重要視する度合いは異なり、また同じ利用者によ
っても様々な重付けの設定に基づいた判定結果を参照し
たいという要求がある。そこで、設定操作部15が、属
性別重み付け設定値11−2の設定を利用者からの操作
に従い更新するのである。
【0101】図11は、本発明の第3の実施の形態の特
異データの検出の一例を示す図である。
【0102】図11の例では、属性別重み付け設定値1
1−2を、利用者からの操作により設定するものであ
る。第2の実施の形態においては、属性別重み付け設定
値11−2を各属性それぞれに“0.6”“0.3”
“0.1”と詳細に指定していた。本実施の形態におい
ても、設定操作部15に対し、利用者が各属性の重付け
をこのように詳細に指定して更新するものとしても良
い。しかし、この方式では、各属性全てに重み付けの値
を入力することが必要となり、操作に手間が掛かる。こ
のため、図11の実施例では、注目する一つの属性を
“視点”として指定し、この“視点”の属性の特異性の
みにより、レコードの特異性を判定する方式を採用して
いる。これにより、利用者は、注目し重要視する属性を
指定するのみの操作で、自由に指定したその属性に基づ
く特異性の判定結果を参照することができる。
【0103】図11の例では、第2の実施の形態におけ
る図9の重付けの代わりに“視点”を設定するものであ
り、この視点が“ON”である属性の重付を“1”と
し、“OFF”である属性の重付けを“0”として、第
2の実施の形態と同様に例外度を算出する。
【0104】図11の例では、年収の属性の視点が“O
N”であるため、この属性において特異性が判定された
レコードである“高橋三郎”のレコードの例外度の値が
“1”であり、他のレコードの例外度の値が“0”であ
る。また、このため特異レコード判定部13−3は、こ
の“高橋三郎”のレコードを、特異レコードとして判定
する。
【0105】なお、上記各実施の形態のデータベースシ
ステム1の特異データ検出方法は、特異データ検出部1
0の設定記憶部11、データ解析部12、判定部13、
出力部14、その他の機能をハードウェア的に実現する
ことは勿論として、各機能を備えるコンピュータプログ
ラムを、コンピュータ処理装置のメモリにロードされる
ことで実現することができる。このコンピュータプログ
ラムは、磁気ディスク、半導体メモリその他の記録媒体
90に格納される。そして、その記録媒体90からコン
ピュータ処理装置にロードされ、コンピュータ処理装置
の動作を制御することにより、上述した各機能を実現す
る。
【0106】以上好ましい実施の形態及び実施例をあげ
て本発明を説明したが、本発明は必ずしも上記実施の形
態及び実施例に限定されるものではなく、その技術的思
想の範囲内において様々に変形して実施することができ
る。
【0107】
【発明の効果】以上説明したように本発明のデータベー
スシステムによれば、以下のような効果が達成される。
【0108】本発明は、データベースの検索の応用であ
り、一般のデータベースシステムに適応することができ
る。
【0109】データベース検索において複数の検索結果
が提示された時に、特異データがある場合には、特異デ
ータである旨を参考情報として提示することができる。
利用者は、その情報を見ることで、通常見落とし易い例
外的なデータレコードの存在を知るという効果がある。
【0110】例えば、5月にハワイ旅行をしたいと思っ
てパッケージ旅行データベースを検索したところ、5月
1日から3日に出発するパッケージ旅行のみが他の日に
出発する同じ内容のパッケージ旅行に比べて50000
円以上高く、特異値として事前に定義した通常の値の範
囲外ということが判れば、それらが特異的なデータレコ
ードとして、例えば、星マークがつけられたとすると、
利用者は、それらの特異性を理解できる。
【0111】同様に、候補にあがった20のパッケージ
旅行のうち、子供料金が半額という特記事項のものが1
件だけあったら、それは別な意味での特異的なデータレ
コードである。それには別の種類の星マークが横に添付
されていると、利用者は、別の観点から特異的なレコー
ドであることを知ることができる。
【0112】このように、データベースを検索して、そ
の検索データレコード中に特異値を持つ属性があれば、
それを提示できるし、またデータレコード全体で特異的
なレコードが判れば、それは特異的なデータレコードと
して提示できる効果がある。
【0113】更に、視点を指定することにより、例え
ば、価格や性能等の多くの属性を備えるデータベースに
おいて、性能属性のみに特異的なデータレコードを見つ
けることができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態によるデータベー
スシステムの構成を示すブロック図である。
【図2】 本発明の第1の実施の形態のデータベースの
具体例を示す図である。
【図3】 図2の具体例における、販売日毎の価格の変
化を示す図である。
【図4】 本発明の第1の実施の形態の特異データの検
出の一例を示す図である。
【図5】 本発明の第1の実施の形態の特異データ検出
処理を説明するためのフローチャートである。
【図6】 本発明の第1の実施の形態の特異データ検出
部の一実施例の構成を示すブロック図である。
【図7】 本発明の第2の実施の形態のデータベースの
具体例を示す図である。
【図8】 本発明の第2の実施の形態の特異データ検出
処理を説明するためのフローチャートである。
【図9】 本発明の第2の実施の形態の特異データの検
出の一例を示す図である。
【図10】 本発明の第2の実施の形態の特異データ検
出部の一実施例の構成を示すブロック図である。
【図11】 本発明の第3の実施の形態の特異データの
検出の一例を示す図である。
【符号の説明】
1 データベースシステム 100 DBMS 10 特異データ検出部 11 設定記憶部 11−1 特異範囲設定値 11−2 属性別重み付け設定値 11−3 特異判定設定値 12 データ解析部 12−1 平均値算出部 12−2 標準偏差算出部 13 判定部 13−1 特異範囲判定部 13−2 特異要素検出部 13−3 特異レコード判定部 14 出力部 15 設定操作部 20 制御部 90 記録媒体 200 データベース

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 データベースシステムにおいて、 データベースに記録されたデータから特異データを検出
    する特異データ検出手段を備え、 前記特異データ検出手段は、 検出に用いる設定を記憶する設定記憶手段と、 データベースのデータの分布状態を解析するデータ解析
    手段と、 前記設定記憶手段が記憶する設定と前記データ解析手段
    による解析結果を参照して、各データが特異であるか否
    かの判定を行う判定手段を備え、 特異データをデータの分布状態に対応して検出すること
    を特徴とするデータベースシステム。
  2. 【請求項2】 前記データベースは、 データを属性毎に記録したレコードによる表形式のデー
    タベースとし、 前記特異データ検出手段は、 各レコードの各属性のデータの特異性を、各属性毎の当
    該データの分布状態に対応して判定し、この判定結果に
    基づき各レコードの特異性を判定することを特徴とする
    請求項1に記載のデータベースシステム。
  3. 【請求項3】 前記データ解析手段は、 各レコードの各属性のデータの分布状態を、各属性毎に
    解析し、 前記判定手段は、 各属性毎に特異であると判定するデータの範囲を、当該
    属性におけるデータの分布状態に対応して判定する特異
    範囲判定手段と、 特異範囲判定手段による判定結果に基づき、各レコード
    の各属性の個々のデータが特異であるか否かを判定する
    特異要素検出手段と、 各レコードの特異性を、当該レコードにおける各属性の
    データに対して判定された特異性に基づき判定する特異
    レコード判定手段を備えることを特徴とする請求項2に
    記載のデータベースシステム。
  4. 【請求項4】 前記設定記憶手段は、 各属性におけるデータの特異であると判定する範囲の設
    定値である特異範囲設定値を記録し参照する手段と、 レコードの各属性のデータに対して判定された特異性
    を、当該レコードにおける特異性として重視する度合い
    を示す属性別重み付け設定値を記録し参照する手段を備
    え、 前記特異範囲判定手段は、 前記データ解析手段の解析結果と前記特異範囲設定値に
    基づき、各属性毎の特異であると判定するデータの範囲
    を判定し、 前記特異レコード判定手段は、 前記特異範囲判定手段の判定結果と前記属性別重み付け
    設定値に基づき、各レコードの特異性を判定することを
    特徴とする請求項3に記載のデータベースシステム。
  5. 【請求項5】 前記設定記憶手段は、 前記属性別重み付け設定値を各属性毎の重み付けを示す
    重み付け定数を用いて定める手段と、 各レコードが特異であるか否かを判定するための設定値
    である特異判定設定値を記録し参照する手段を備え、 前記特異レコード判定手段は、 各レコードの特異性を、前記重み付け定数の当該レコー
    ドにおいて特異性の判定された属性に対応するものを全
    て加算した値が、前記特異判定設定値を超える場合に当
    該レコードを特異であると判定することを特徴とする請
    求項4に記載のデータベースシステム。
  6. 【請求項6】 前記データ解析手段は、 各属性毎におけるデータの平均値と標準偏差を算出し、 前記設定記憶手段は、 前記特異範囲設定値を、各属性毎に上限を示す上限定数
    及び下限を示す下限定数を用いて定め、 前記特異範囲判定手段は、 各属性の特異であると判定するデータの範囲を、当該属
    性のデータの標準偏差に前記上限定数を乗じた値を平均
    値に加算した値を超える範囲、及び当該属性のデータの
    標準偏差に前記下限定数を乗じた値を平均値から減算し
    た値を下回る範囲として判定することを特徴とする請求
    項4又は請求項5に記載のデータベースシステム。
  7. 【請求項7】 前記特異データ検出手段は、 利用者からの前記属性別重み付け設定値の値を変更する
    操作を受け付ける視点指定手段を備えることを特徴とす
    る請求項4から請求項6のいずれか一つに記載のデータ
    ベースシステム。
  8. 【請求項8】 前記特異データ検出手段は、 通信回線を介して、利用者からの操作を受け付け前記利
    用者に検索結果を通知することを特徴とする請求項1か
    ら請求項7のいずれか一つに記載のデータベースシステ
    ム。
  9. 【請求項9】 データベースに記録されたデータから特
    異データを検出するための設定を記憶し参照する設定記
    憶ステップと、 前記データベースのデータの分布状態を解析するデータ
    解析ステップと、 前記設定記憶ステップが記憶する設定と前記データ解析
    ステップによる解析結果を参照して、各データが特異で
    あるか否かの判定を行う判定ステップを備え、 特異データをデータの分布状態に対応して検出すること
    を特徴とする特異データ検出方法。
  10. 【請求項10】 前記データベースは、 データを属性毎に記録したレコードによる表形式のデー
    タベースとし、 各レコードの各属性のデータの特異性を、各属性毎の当
    該データの分布状態に対応して判定し、この判定結果に
    基づき各レコードの特異性を判定することを特徴とする
    請求項9に記載の特異データ検出方法。
  11. 【請求項11】 前記データ解析ステップは、 各レコードの各属性のデータの分布状態を、各属性毎に
    解析し、 前記判定ステップは、 各属性毎に特異であると判定するデータの範囲を、当該
    属性におけるデータの分布状態に対応して判定する特異
    範囲判定ステップと、 特異範囲判定ステップによる判定結果に基づき、各レコ
    ードの各属性の個々のデータが特異であるか否かを判定
    する特異要素検出ステップと、 各レコードの特異性を、当該レコードにおける各属性の
    データに対して判定された特異性に基づき判定する特異
    レコード判定ステップを備えることを特徴とする請求項
    10に記載の特異データ検出方法。
  12. 【請求項12】 前記設定記憶ステップは、 各属性におけるデータの特異であると判定する範囲の設
    定値である特異範囲設定値を記録し参照するステップ
    と、 レコードの各属性のデータに対して判定された特異性
    を、当該レコードにおける特異性として重視する度合い
    を示す属性別重み付け設定値を記録し参照するステップ
    を備え、 前記特異範囲判定ステップは、 前記データ解析ステップの解析結果と前記特異範囲設定
    値に基づき、各属性毎における特異であると判定するデ
    ータの範囲を判定し、 前記特異レコード判定ステップは、 前記特異範囲判定ステップの判定結果と前記属性別重み
    付け設定値に基づき、各レコードの特異性を判定するこ
    とを特徴とする請求項11に記載の特異データ検出方
    法。
  13. 【請求項13】 前記設定記憶ステップは、 前記属性別重み付け設定値を各属性毎の重み付けを示す
    重み付け定数を用いて定めるステップと、 各レコードが特異であるか否かを判定するための設定値
    である特異判定設定値を記録し参照するステップを備
    え、 前記特異レコード判定ステップは、 各レコードの特異性を、前記重み付け定数の当該レコー
    ドにおいて特異性の判定された属性に対応するものを全
    て加算した値が、前記特異判定設定値を超える場合に当
    該レコードを特異であると判定することを特徴とする請
    求項12に記載の特異データ検出方法。
  14. 【請求項14】 前記データ解析ステップは、 各属性毎におけるデータの平均値と標準偏差を算出し、 前記設定記憶ステップは、 前記特異範囲設定値を、各属性毎に上限を示す上限定数
    及び下限を示す下限定数を用いて定め、 前記特異範囲判定ステップは、 各属性の特異であると判定するデータの範囲を、当該属
    性のデータの標準偏差に前記上限定数を乗じた値を平均
    値に加算した値を超える範囲、及び当該属性のデータの
    標準偏差に前記下限定数を乗じた値を平均値から減算し
    た値を下回る範囲として判定することを特徴とする請求
    項12又は請求項13に記載の特異データ検出方法。
  15. 【請求項15】 データベースに記録されたデータから
    特異データを検出するための設定を記憶し参照する設定
    記憶ステップと、 前記データベースのデータの分布状態を解析するデータ
    解析ステップと、 前記設定記憶ステップが記憶する設定と前記データ解析
    ステップによる解析結果を参照して、各データが特異で
    あるか否かの判定を行う判定ステップを備え、 特異データをデータの分布状態に対応して検出すること
    を特徴とする特異データ検出プログラムを記録した記録
    媒体。
  16. 【請求項16】 前記データベースは、 データを属性毎に記録したレコードによる表形式のデー
    タベースとし、 各レコードの各属性のデータの特異性を、各属性毎の当
    該データの分布状態に対応して判定し、この判定結果に
    基づき各レコードの特異性を判定することを特徴とする
    請求項15に記載の特異データ検出プログラムを記録し
    た記録媒体。
  17. 【請求項17】 前記データ解析ステップは、 各レコードの各属性のデータの分布状態を、各属性毎に
    解析し、 前記判定ステップは、 各属性毎に特異であると判定するデータの範囲を、当該
    属性におけるデータの分布状態に対応して判定する特異
    範囲判定ステップと、 特異範囲判定ステップによる判定結果に基づき、各レコ
    ードの各属性の個々のデータが特異であるか否かを判定
    する特異要素検出ステップと、 各レコードの特異性を、当該レコードにおける各属性の
    データに対して判定された特異性に基づき判定する特異
    レコード判定ステップを備えることを特徴とする請求項
    16に記載の特異データ検出プログラムを記録した記録
    媒体。
  18. 【請求項18】 前記設定記憶ステップは、 各属性におけるデータの特異であると判定する範囲の設
    定値である特異範囲設定値を記録し参照するステップ
    と、 レコードの各属性のデータに対して判定された特異性
    を、当該レコードにおける特異性として重視する度合い
    を示す属性別重み付け設定値を記録し参照するステップ
    を備え、 前記特異範囲判定ステップは、 前記データ解析ステップの解析結果と前記特異範囲設定
    値に基づき、各属性毎における特異であると判定するデ
    ータの範囲を判定し、 前記特異レコード判定ステップは、 前記特異範囲判定ステップの判定結果と前記属性別重み
    付け設定値に基づき、各レコードの特異性を判定するこ
    とを特徴とする請求項17に記載の特異データ検出プロ
    グラムを記録した記録媒体。
  19. 【請求項19】 前記設定記憶ステップは、 前記属性別重み付け設定値を各属性毎の重み付けを示す
    重み付け定数を用いて定めるステップと、 各レコードが特異であるか否かを判定するための設定値
    である特異判定設定値を記録し参照するステップを備
    え、 前記特異レコード判定ステップは、 各レコードの特異性を、前記重み付け定数の当該レコー
    ドにおいて特異性の判定された属性に対応するものを全
    て加算した値が、前記特異判定設定値を超える場合に当
    該レコードを特異であると判定することを特徴とする請
    求項18に記載の特異データ検出プログラムを記録した
    記録媒体。
  20. 【請求項20】 前記データ解析ステップは、 各属性毎におけるデータの平均値と標準偏差を算出し、 前記設定記憶ステップは、 前記特異範囲設定値を、各属性毎に上限を示す上限定数
    及び下限を示す下限定数を用いて定め、 前記特異範囲判定ステップは、 各属性の特異であると判定するデータの範囲を、当該属
    性のデータの標準偏差に前記上限定数を乗じた値を平均
    値に加算した値を超える範囲、及び当該属性のデータの
    標準偏差に前記下限定数を乗じた値を平均値から減算し
    た値を下回る範囲として判定することを特徴とする請求
    項18又は請求項19に記載の特異データ検出プログラ
    ムを記録した記録媒体。
JP2000112257A 2000-04-13 2000-04-13 データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体 Pending JP2001297105A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000112257A JP2001297105A (ja) 2000-04-13 2000-04-13 データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000112257A JP2001297105A (ja) 2000-04-13 2000-04-13 データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001297105A true JP2001297105A (ja) 2001-10-26

Family

ID=18624458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000112257A Pending JP2001297105A (ja) 2000-04-13 2000-04-13 データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001297105A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020181514A (ja) * 2019-04-26 2020-11-05 富士通株式会社 部品情報監視プログラム及び部品情報監視装置
JP2022014415A (ja) * 2020-07-06 2022-01-19 クーパン コーポレイション 商品販売管理情報を提供する電子装置およびその方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020181514A (ja) * 2019-04-26 2020-11-05 富士通株式会社 部品情報監視プログラム及び部品情報監視装置
JP7275815B2 (ja) 2019-04-26 2023-05-18 富士通株式会社 部品情報監視プログラム及び部品情報監視装置
JP2022014415A (ja) * 2020-07-06 2022-01-19 クーパン コーポレイション 商品販売管理情報を提供する電子装置およびその方法
US11392972B2 (en) 2020-07-06 2022-07-19 Coupang Corp. Electronic device for providing product sale managing information and method thereof

Similar Documents

Publication Publication Date Title
US9195728B2 (en) Dynamically filtering aggregate reports based on values resulting from one or more previously applied filters
US20140164387A1 (en) Methods and apparatus for generating a data dictionary
US20170140464A1 (en) Method and apparatus for evaluating relevance of keyword to asset price
JP5223018B1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP5687401B1 (ja) 情報提供装置、情報提供方法、プログラム、及び記録媒体
US20100205052A1 (en) Self-uploaded indexing and data clustering method and apparatus
JP6848230B2 (ja) 処理装置、処理方法及びプログラム
TW201335780A (zh) 電子商務搜尋引擎的搜尋方法和電子商務搜尋引擎
WO2020221022A1 (zh) 业务对象推荐方法
JP5404662B2 (ja) 商品推薦装置及び方法及びプログラム
JP5794881B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6424194B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6682585B2 (ja) 情報処理装置及び情報処理方法
US20080147591A1 (en) System and method for facilitating interactive selection of clusters and presentation of related datasets
JP2001297105A (ja) データベースシステムとその特異データ検出方法、及び特異データ検出プログラムを記録した記録媒体
JP6617605B6 (ja) 需要量予測プログラム、需要量予測方法、及び情報処理装置
US20170330204A1 (en) Web server evaluation and improvement system
JP2018156334A (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP2021101391A (ja) 生成装置、生成方法、及び生成プログラム
JP6809148B2 (ja) プログラムおよび組み合わせ抽出システム
JP2021140646A (ja) ターゲットユーザ特徴抽出方法、ターゲットユーザ特徴抽出システム及びターゲットユーザ特徴抽出サーバ
JP4251550B2 (ja) 電子カタログ処理プログラム
KR102225159B1 (ko) 순위 변동 정량화 장치 및 방법
US11886485B1 (en) Computer-implemented visual query matching methods, and systems for implementing thereof
JP2005092721A (ja) マーケット情報分析装置、マーケット情報分析システム、マーケット情報分析方法及びプログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040520