JP6244274B2 - 相関ルール分析装置および相関ルール分析方法 - Google Patents
相関ルール分析装置および相関ルール分析方法 Download PDFInfo
- Publication number
- JP6244274B2 JP6244274B2 JP2014135511A JP2014135511A JP6244274B2 JP 6244274 B2 JP6244274 B2 JP 6244274B2 JP 2014135511 A JP2014135511 A JP 2014135511A JP 2014135511 A JP2014135511 A JP 2014135511A JP 6244274 B2 JP6244274 B2 JP 6244274B2
- Authority
- JP
- Japan
- Prior art keywords
- correlation rule
- rule
- aggregation
- correlation
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一般に、バスケット解析では、大量の相関ルールが出力されることが多い。このため、人間が確認する際の手間を削減するための工夫が必要になる。抽出された相関ルールを(1)集約することによって、相関ルールの総数を減らしたり、また、(2)機械的にスコアリングすることで、フィルタリング・ランキング(ソート)できるようにしたり、といった手段が用いられる。
本実施例では、相関ルール分析装置の例を説明する。
図1は、本実施例の相関ルール分析装置の構成図の例である。本相関ルール分析装置100は、CPU101、メモリ102、入力装置103、出力装置104、外部記憶装置105を有する。すなわち、いわゆるコンピュータで実現されるものである。外部記憶装置105は、分析対象テーブルデータ記憶部106、カラム値出現回数記憶部121、カラム特性判定規則記憶部107、カラム特性記憶部108、相関ルール集約規則記憶部109、相関ルール記憶部110、相関ルール集約結果記憶部111、集約後相関ルール評価規則記憶部112を保持しており、さらに処理プログラム113を保持する。処理プログラム113は、カラム値出現回数カウント処理部122、カラム特性判定部114、相関ルール集約規則判定部115、相関ルール抽出処理部116、相関ルール集約前処理部117、相関ルール集約処理部118、集約結果妥当性判定部119、集約結果視覚化処理部120を保持する。
入力装置103を介して外部から入力されたRDBテーブルのデータは、分析対象テーブルデータ記憶部106に書き込む。
カラム特性判定部114は、カラム値出現回数記憶部121から読み出したカラム値の出現回数を参照しながら、カラム特性判定規則記憶部107から読み出したカラム特性判定規則を用いてカラム特性情報を作成し、カラム特性記憶部108に書き込む。
相関ルール抽出処理部116は、分析対象テーブルデータ記憶部106から読み出したカラムのデータを参照しながら、各カラムの値の組の出現回数をカウントし、結果を相関ルール記憶部110に書き込む。
カラムの組の情報は、「原因側カラム」「結果側カラム」の組によって構成される。「原因側カラム」「結果側カラム」については、本実施例のステップ205の説明、および、それ以降のステップの説明において記載する。本実施例では、以下、特に説明のない限り、装置の利用者が「原因側カラム」として「更新年月日」301を、また、結果側カラム名として「承認年月日」302を選択した場合を想定して説明をおこなう。なお、本ステップを省略し、各カラムの組み合わせそれぞれを分析対象とするとういうことでも良い。
ステップ203では、カラム値出現回数カウント処理部122が、分析対象テーブルデータ記憶部106から読み出したカラムのデータを参照しながら、各カラムのデータの出現回数をカウントし、結果をカラム値出現回数記憶部121に書き込む。
ステップ204では、カラム特性判定部114が、カラム値出現回数記憶部121から読み出したカラム値の出現回数を参照しながら、カラム特性判定規則記憶部107から読み出したカラム特性判定規則を用いてカラム特性情報を作成し、カラム特性記憶部108に書き込む。
なお、前記割合の算出においては、出現実数によって算出しても良いし、出現種数によって算出しても良い。
カラム特性集約規則判定部115は、カラム間相関ルール情報700が保持する相関ルール1001のうち、ひとつを選択する。その後、選択された相関ルールの原因値704、結果値704を入力パラメータとして、前述の探し出された集約対象相関ルール判定ロジック805の関数を、順次実行していく。実行により真という結果が得られた場合、その集約名804を、選択中の相関ルールの集約規則707として登録する。実行により偽という結果が得られた場合、真が得られるまで、本処理を繰り返す。関数それぞれについて偽であった場合には、集約規則706は空欄のままでよい。カラム間相関ルール情報700が保持する各相関ルール1001について、同様の処理をおこなうことにより、ステップ206を完了する。
さらに相関ルール集約前処理部117は、相関ルール記憶部110から相関ルールを読み出し、カラム値出現回数記憶部121から読み出したカラム値出現回数、および、相関ルール集約規則記憶部109から読み出した相関ルール集約規則を参照して必要な数値を算出することで、情報を補完した後、再度、相関ルール記憶部110の相関ルールとして書き込む。
(当該相関ルールの件数/原因側件数) / (結果側件数/相関ルールの件数の合計)
算出した値は、各相関ルールのLift値710として、カラム間相関ルール情報700に書き込む。書き込んだ結果のカラム間相関ルール情報700によって相関ルール記憶部110の情報を更新することにより、本ステップを完了する。
ステップ208では、相関ルール集約処理部118が、相関ルール記憶部110から読み出した相関ルールの情報を、相関ルールの集約名の共通性に基づいて集約した後、集約後相関ルールとして相関ルール集約結果記憶部111に書き込む。
図17の事例の前後関係の場合、本手法において算出したLift値1608は、原因側カラム1601と結果側カラム1602とのデータ分布領域の間の重複が皆無の場合には1.0となる。Lift値を参照することにより、そもそもデータ領域に重複がなく、仕様上、「原因側カラム」1601の特定の出現値によって「結果側カラム」1602の値が影響を受けているとは考えにくいようなものを発見することができる。
101 CPU
102 メモリ
103 入力装置
104 出力装置
105 外部記憶装置
106 分析対象テーブルデータ記憶部
107 カラム特性判定規則記憶部
108 カラム特性記憶部
109 相関ルール集約規則記憶部
110 相関ルール記憶部
111 相関ルール集約結果記憶部
112 集約後相関ルール評価規則記憶部
113 処理プログラム
114 カラム特性判定部
116 相関ルール抽出処理部
115 相関ルール集約規則判定部
117 相関ルール集約前処理部
118 相関ルール集約処理部
119 集約結果妥当性判定部
120 集約結果視覚化処理部
121 カラム値出現回数記憶部
122 カラム値出現回数カウント処理部
Claims (9)
- データベースに格納されたデータから、当該データベースのDBカラムのデータ依存関係および制約条件の少なくとも一方を抽出する相関ルール分析装置であって、
分析対象であるデータが格納されたDBテーブルデータから、複数カラム間のデータの同時出現関係の情報を相関ルールとして抽出する相関ルール抽出手段と、
抽出された前記相関ルールを特定の共通性に基づいて集約する相関ルール集約手段と、
集約された前記相関ルールそれぞれにおける出現頻度および組み合わせから、データ依存関係や制約条件としての有用性指標を算出する集約結果妥当性判定手段とを有することを特徴とする相関ルール分析装置。 - 請求項1に記載の相関ルール分析装置であって、
前記特定の共通性には、前記相関ルールの条件部の値と結論部の値との間に成り立つ半順序関係の同一性を含むことを特徴とする相関ルール分析装置。 - 請求項2に記載の相関ルール分析装置であって、
前記データベースのデータの特徴を、当該データから判定するカラム特性判定処理手段と、
相関ルールの集約をするために適用する共通性の枠組みを、データベースのデータの特徴から決定する相関ルール集約規則判定手段とをさらに有することを特徴とする、相関ルール分析装置。 - 請求項2または3のいずれかに記載の相関ルール分析装置であって、
前記相関ルールを前記半順序関係の同一性に基づいて集約する場合に、集約前の相関ルールのLift値を、当該の半順序関係の内容を踏まえて算出する相関ルール集約前処理手段をさらに有することを特徴とする相関ルール分析装置。 - 請求項4に記載の相関ルール分析装置であって、
前記相関ルール集約前処理手段は、前記Lift値を算出する場合際に、結論部の値の出現回数をカウントしたソート済みテーブルを一時データとして利用することによりLift値算出を実行することを特徴とする相関ルール分析装置。 - 請求項1〜5のいずれか1項に記載の相関ルール分析装置であって、
前記相関ルール集約処理手段は、集約後の相関ルールのLift値を、集約前の相関ルールのLift値の調和平均として算出する
ことを特徴とする、相関ルール分析装置。 - 請求項2〜6のいずれか1項に記載の相関ルール分析装置であって、
前記半順序関係には、日付としての値の前後関係が含まれることを特徴とする、相関ルール分析装置。 - 請求項2〜7のいずれか1項に記載の相関ルール分析装置であって、
前記半順序関係には、数値の大小関係が含まれることを特徴とする、相関ルール分析装置。 - 請求項1〜8のいずれか1項に記載の相関ルール分析装置であって、
集約した相関ルールを出力する場合に、集約結果妥当性判定手段が判定した有用性の指標値によって、順序や範囲を決定する集約結果視覚化処理手段
をさらに有することを特徴とする相関ルール分析装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014135511A JP6244274B2 (ja) | 2014-07-01 | 2014-07-01 | 相関ルール分析装置および相関ルール分析方法 |
US14/614,006 US20160004968A1 (en) | 2014-07-01 | 2015-02-04 | Correlation rule analysis apparatus and correlation rule analysis method |
CN201510064731.7A CN105320720B (zh) | 2014-07-01 | 2015-02-06 | 相关规则分析装置以及相关规则分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014135511A JP6244274B2 (ja) | 2014-07-01 | 2014-07-01 | 相関ルール分析装置および相関ルール分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016014944A JP2016014944A (ja) | 2016-01-28 |
JP6244274B2 true JP6244274B2 (ja) | 2017-12-06 |
Family
ID=55017229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014135511A Active JP6244274B2 (ja) | 2014-07-01 | 2014-07-01 | 相関ルール分析装置および相関ルール分析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160004968A1 (ja) |
JP (1) | JP6244274B2 (ja) |
CN (1) | CN105320720B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078352A1 (en) * | 2014-09-11 | 2016-03-17 | Paul Pallath | Automated generation of insights for events of interest |
US10685011B2 (en) | 2017-02-02 | 2020-06-16 | International Business Machines Corporation | Judgement of data consistency in a database |
WO2018146716A1 (ja) * | 2017-02-07 | 2018-08-16 | 株式会社日立製作所 | データ管理方法及び計算機 |
JP2019086887A (ja) * | 2017-11-02 | 2019-06-06 | 株式会社エヌ・ティ・ティ・データ | 情報処理装置、情報処理方法及びコンピュータプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115842A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | データマイニング装置 |
JP2000353163A (ja) * | 1999-06-11 | 2000-12-19 | Just Syst Corp | データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体 |
US6651049B1 (en) * | 1999-10-22 | 2003-11-18 | International Business Machines Corporation | Interactive mining of most interesting rules |
US6651048B1 (en) * | 1999-10-22 | 2003-11-18 | International Business Machines Corporation | Interactive mining of most interesting rules with population constraints |
US8135711B2 (en) * | 2002-02-04 | 2012-03-13 | Cataphora, Inc. | Method and apparatus for sociological data analysis |
US8401986B1 (en) * | 2004-08-05 | 2013-03-19 | Versata Development Group, Inc. | System and method for efficiently generating association rules |
US8401987B2 (en) * | 2007-07-17 | 2013-03-19 | International Business Machines Corporation | Managing validation models and rules to apply to data sets |
US20120137367A1 (en) * | 2009-11-06 | 2012-05-31 | Cataphora, Inc. | Continuous anomaly detection based on behavior modeling and heterogeneous information analysis |
CN102402757A (zh) * | 2010-09-15 | 2012-04-04 | 阿里巴巴集团控股有限公司 | 信息提供方法及装置、综合关联度确定方法及装置 |
WO2013046435A1 (ja) * | 2011-09-30 | 2013-04-04 | 富士通株式会社 | 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法 |
US8755409B2 (en) * | 2011-10-14 | 2014-06-17 | Alcatel Lucent | Processing messages with incomplete primary identification information |
US9275333B2 (en) * | 2012-05-10 | 2016-03-01 | Eugene S. Santos | Augmented knowledge base and reasoning with uncertainties and/or incompleteness |
JP5933410B2 (ja) * | 2012-10-25 | 2016-06-08 | 株式会社日立製作所 | データベース分析装置及びデータベース分析方法 |
US20140180808A1 (en) * | 2012-12-22 | 2014-06-26 | Coupons.Com Incorporated | Generation and management of dynamic electronic offers |
US10061822B2 (en) * | 2013-07-26 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | System and method for discovering and exploring concepts and root causes of events |
-
2014
- 2014-07-01 JP JP2014135511A patent/JP6244274B2/ja active Active
-
2015
- 2015-02-04 US US14/614,006 patent/US20160004968A1/en not_active Abandoned
- 2015-02-06 CN CN201510064731.7A patent/CN105320720B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016014944A (ja) | 2016-01-28 |
CN105320720B (zh) | 2018-11-09 |
CN105320720A (zh) | 2016-02-10 |
US20160004968A1 (en) | 2016-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769147B2 (en) | Batch data query method and apparatus | |
JP6158623B2 (ja) | データベース分析装置及び方法 | |
US20210141801A1 (en) | String Parsed Categoric Encodings for Machine Learning | |
JP6784612B2 (ja) | 分析ソフトウェア管理システム及び分析ソフトウェア管理方法 | |
US20160004757A1 (en) | Data management method, data management device and storage medium | |
JP6244274B2 (ja) | 相関ルール分析装置および相関ルール分析方法 | |
JP2013517585A (ja) | データベース内の大容量コレクションオブジェクトテーブルにアクセスするための方法 | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
TW201730786A (zh) | 執行以時間序列資料與分析資料當中的至少一部分作為輸入資料之分析處理的分析系統及分析方法 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
JP5898584B2 (ja) | 六面体メッシュ生成装置 | |
JP2019219848A (ja) | ソースコード解析方法およびソースコード解析装置 | |
CN110827049A (zh) | 一种数据推送方法及装置 | |
CN112613176A (zh) | 慢sql语句预测方法及系统 | |
CN112612810A (zh) | 慢sql语句识别方法及系统 | |
JP7015320B2 (ja) | データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム | |
JP7022472B1 (ja) | データ管理システム、データ管理方法及びデータ管理プログラム | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
US20190278871A1 (en) | Data analysis system, data analysis method, and computer program product | |
JP4663526B2 (ja) | 帳票作成支援装置、帳票作成支援方法、および帳票作成支援プログラム | |
JP2010271989A (ja) | コンテンツ検索方法、コンテンツ検索システム、およびコンテンツ検索プログラム | |
JP2013012082A (ja) | テストデータ生成プログラム、テストデータ生成方法、テストデータ生成装置 | |
JP6978997B2 (ja) | 類似データの検索方法、情報検索装置及びプログラム | |
Zhang et al. | An empirical study of code clone clustering based on clone evolution | |
US11294961B2 (en) | Information search apparatus, search program, database update method, database update apparatus and database update program, for searching a specified search target item associated with specified relation item |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161220 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170110 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6244274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |