JP6647849B2 - データセットの解釈方法 - Google Patents

データセットの解釈方法 Download PDF

Info

Publication number
JP6647849B2
JP6647849B2 JP2015246186A JP2015246186A JP6647849B2 JP 6647849 B2 JP6647849 B2 JP 6647849B2 JP 2015246186 A JP2015246186 A JP 2015246186A JP 2015246186 A JP2015246186 A JP 2015246186A JP 6647849 B2 JP6647849 B2 JP 6647849B2
Authority
JP
Japan
Prior art keywords
rule
rules
data
cover
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015246186A
Other languages
English (en)
Other versions
JP2016115359A (ja
Inventor
プニート アガルワル、
プニート アガルワル、
ガウタム シロフ、
ガウタム シロフ、
サルミマラ サイキア、
サルミマラ サイキア、
アシュウィン スリニヴァサン、
アシュウィン スリニヴァサン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2016115359A publication Critical patent/JP2016115359A/ja
Application granted granted Critical
Publication of JP6647849B2 publication Critical patent/JP6647849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

(関連出願の相互参照)
本願は2014年12月17日に提出されたインド仮特許出願第4066/MUM/2014号の優先権を主張し、その全体が参照によって本願に組み込まれる。
本発明はデータ解釈に関し、排他的ではないが詳細には、データセットの解釈に関する。
近年、分析産業が成熟し、したがって分析産業内での競争が激化している。今日の急速な国際ビジネス環境の成長によって、要求にかなう分析解に対する需要が以前にも増して増えている。通常は、企業は膨大な量のデータを可能な限りセットの情報として記憶する。当該データはデータに意味を持たせるように分析され、それに基づいてデータは意思決定のために用いられることができる。例えば、企業はさまざまなデータ分析アプリケーションを採用し、記憶されたデータセット間の関係を特定し、および、特定された関係に基づいて行動する。
本発明の方法、システム、およびハードウェアの実施可能性を説明する前に、本発明の開示に明白に図示されていない複数の可能性がある実施形態が本発明にあるように、本発明は記載されている特定のシステム、および方法論に限定されるわけではないことを理解されたい。明細書に使用されている専門用語は特定の説明または実施形態のためだけに用いられているものであり、および、添付の特許請求の範囲によってのみ規定される本発明の範囲を制限するものではないことを理解されたい。
本願はデータセットの解釈のための方法およびシステムを提供する。
本願はデータセットの解釈のための方法を提供し、前記方法は以下のステップを実行するプロセッサを含み、当該ステップは、ルール生成モジュール(120)を使用してデータセットに関するルールセットを演算する工程であって、ルールセットの中の各ルールは1つ以上の先例に基づくあらかじめ定められた結末を含む工程、および、複数のルールを含むルールカバーを生成する工程であって、ルールカバーはルールセットのサブセットに対応する工程と、解釈モジュール(122)を使用して、複数のルールペア間の複数の距離を演算し、および、ルールカバーの複数のルールペア間で演算された複数の距離に基づいて距離マトリックスを生成し、および、複数のルールペア間で演算された複数の距離を記憶する工程と、距離マトリックスを使用してルールカバー内の重複するルールをクラスタリングする工程であって、重複するルールはデータのトランザクションの共通セットに対応する工程と、各クラスタから代表的ルールを選択する工程であって、代表的ルールは各クラスタに含まれるルールによってカバーされるトランザクションを示す工程と、各クラスタから選択されるルールセットの代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程であって、1つ以上の先例があらかじめ定められた結末とは異なる結果を提供する場合に、少なくとも1つの例外が決定される工程、および、ルールセットの代表的なルールおよび代表的ルールのそれぞれに対して決定される少なくとも1つの例外を使用してデータセットを解釈する工程を含む。
本願はデータセットの解釈のためのシステム(102)を提供し、当該システムはプロセッサ(110)と、データセットに関するルールセットを演算する工程であって、ルールセットの中の各ルールは1つ以上の先例に基づくあらかじめ定められた結末を含む工程と、複数のルールを含むルールカバーを生成する工程であって、ルールカバーはルールセットのサブセットに対応する工程のために適用されるルール生成モジュール(120)と、ルールカバーの複数のルールペア間の複数の距離を演算し、および、複数のルールペア間で演算された複数の距離に基づいて距離マトリックスを生成し、および、複数のルールペア間で演算された複数の距離を記憶する工程と、距離マトリックスを使用してルールカバー内の重複するルールをクラスタリングする工程であって、重複するルールはデータのトランザクションの共通セットに対応する工程と、各クラスタから代表的ルールを選択する工程であって、代表的ルールは各クラスタに含まれるルールによってカバーされるトランザクションを示す工程と、各クラスタから選択されるルールセットの代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程であって、1つ以上の先例があらかじめ定められた結末とは異なる結果を提供する場合に、少なくとも1つの例外が決定される工程と、代表的なルールおよび代表的ルールのそれぞれに対して決定される少なくとも1つの例外を使用してデータセットを解釈する工程のために適用される解釈モジュール(122)と、ルールセットおよびデータセットを記憶するために適用されるデータベース(108)を含む。
詳細な説明が添付の図面を参照して説明される。図面では、参照番号の最も左側の桁(単数または複数)は参照番号が最初にあらわれる図面を示す。同一の番号が類似する特徴およびコンポーネントに対して図面全体で使用される。本発明による実施形態によるシステムおよび/または方法のいくつかの実施形態が、ほんの一例として、添付の図面を参照して説明される。
本発明の実施形態によるデータ解釈システムを実行するネットワーク環境を示す。 本発明の別の実施形態による複数のアイテムセットを有するデータセットを解釈するための方法を示す。
本明細書に記載のいずれのブロックダイヤグラムも本発明の原理を具現化するシステムを説明する概念図であることは当業者であれば当然分かる。同様に、いずれのフローチャート、フローダイヤグラム、状態遷移ダイヤグラム、疑似コード等も、コンピュータ読み出し可能媒体で実質的にあらわされ得るさまざまなプロセスを示し、および、コンピュータまたはプロセッサが明確に示されているか否かに関わらず当該コンピュータまたはプロセッサによって実行されることが理解されるであろう。
本発明は、複数のアイテムセットを有するデータセットを解釈するためのシステムおよび方法に関する。データセットはデータの集合として理解することができる。実施例では、データセットは、マーケットバスケットデータまたは消費者データ等に対応してもよい。
通常は、企業は膨大な量のデータを情報セットとして記憶している。しかしながら、このデータはしばしば大きく、例えば、スーパーマーケットのトランザクション数は大きくなるので、コンピュータ技術を使用してデータを要約することは困難である。データを利用する分析のゴールは、データから学習される小さなルールセットを見つけ出すこと、および、ビジネスアナリストが重要なパターンを理解することを手助けすることである。しかしながら、当該技術はしばしば大量の冗長な結果を生み出し、それらを理解すること、および、与えられたデータを要約することが困難になる。
従来から、関連するルールをグルーピングし、および、その例外を探し出す処理には多くの方法がある。しかしながら、それらは別々に処理され、および、現存する技術のいずれもが両方を組み込むことをしていない。さらに、関心の対象を統計的に測定し、ルールを順番に並べることによって特定される上位のK個のルールは、カバー範囲が狭く、すなわち、切り取られたルールのほとんどはほんのわずかの入力データしかカバーしないので、入力データに関するはっきりとした像を提供しない。入力データの包括的な見解が得られないことによって、さまざまな問題が引き起こされる。
従来は、企業は、複数のデータソース位置に記憶された異なる顧客に対応する入手可能なデータを活用することはできなかったので、顧客およびさまざまな企業間の顧客関係の断片化された見解だけを得ることができる。現存する技術では、全てのデータを活用し、複数の全く異なるデータソースにまたがる顧客の統一された、および、包括的な見解を生成し、維持することはできない。いずれか1つを決定する前に、全ての可能性がある関係を分析するが適切であることがよくある。このように、現存する技術では企業に関連するさまざまなエンティティ間の関係を総合的にあらわす関連性データを分析できなかった。
したがって、本発明は、トランザクションデータベースまたは探索的データリポジトリ(EDR)等のデータベースに記憶された複数のアイテムセットを含むデータセットの解釈のためのシステムおよび方法を提供することである。EDRは1つ以上のアイテムセットを含む関連するデータを備えることができる。実施例では、EDRは、消費者行動、車両データ、およびセンサーデータ等のいずれかの分野に対応する関連データを含むことができる。さらに、EDRは外部ソースから生成または取得されてもよい。本発明はデータ解釈システムを含むことができる。データ解釈システムは、複数のアイテムセットに対して異なる解釈を提供してもよい。
一旦、EDRが取得または生成されると、データ解釈システムは、トランザクションデータベースの中で複数の頻発するアイテムセットを特定することができる。実施例では、頻発するアイテムセットは、既存の頻発パターンマイニング技術のいずれかを採用することによって特定してもよい。実施例では、複数の頻発するアイテムセットのそれぞれが、1つ以上の先例に基づくあらかじめ定められた結末に対するルールを形成する。さらに、頻発するアイテムセットのそれぞれに対して、データ解釈システムは、ルールに関連する可能性がある少なくとも1つのパラメータの値を推定できる。実施例では、少なくとも1つのパラメータは、ルールのサポート(support)、ルールの信頼度(cofidence)およびルールのリフト(lift)を含んでもよい。
実装形態では、ルールに関する少なくとも1つのパラメータ対応する値が一旦推定されると、データ解釈システムはアイテムセットに対応するルールのセットを演算できる。実装形態では、ルールのセットは関連するルールマイニング技術に基づいて演算できる。実施例では、関連するルールは、EDR等の情報リポジトリのアイテムセット間の関係を理解することを容易にするif/thenステートメントであるかのように理解することができる。本願の実装形態では、ルールのセットは少なくとも1つのパラメータの値に基づいて結末に対して生成される。実施例では、これらのルールだけが、あらかじめ定められたしきい値を超えるサポートおよび信頼度を有するルールのセットであるとみなされる。
ルールのセットが一旦生成されると、データ解釈システムは、ルールのセットからルールカバーを特定できる。実装形態では、データ解釈システムはルールをサポートの降順に配列することができる。その後、これらのルールはルールの適用範囲があらかじめ定められたしきい値を超えるものに対して選択される。その後、たった1つのルールのサブセットが選択され、それは最初のルールセットによってカバーされるのとほとんど同一量のデータをカバーする。これらのルールは結末に対するルールカバーを形成する。実装形態では、カバーの特定されたルールの多くがお互いに重なり合い、すなわち、これらは入力データの同一トランザクションの多くをカバーすることができる。実施例では、データ解釈システムは、選択されたルール間のオーバラップの程度を演算することができる。
オーバラップの程度に基づいて、ルールペア間の距離が演算され、および、距離マトリックスが演算され、および、データ解釈システムは、ルールをルールカバーにクラスタする。実装形態では、クラスタリングは、Density Based Spatial Clustering of Applications with Noise(DBSCAN)等のデータクラスタリングアプリケーションによって実行されることができる。実施例では、データ解釈システムはクラスタの重心間の距離等のいずれかの距離を測定し、クラスタ間の距離を決定できる。
一旦、上述のステップに基づいてトランザクションデータベースの全てのルールがクラスタ化されると、データ解釈システムは、クラスタを解釈するために各クラスタから1つのルールを選択することができる。実装形態では、データ解釈システムは、バッチモードまたはインタラクティブモード技術を採用することによって、各クラスタから1つのルールを選択することができる。例えば、バッチモードでは、最も高いサポートまたは最も高い信頼性を持つルール等のルールに関連するパラメータに基づいて、1つのルールが選択され、各クラスタからデータ解釈システムによって自動的に選択されることができる。インタラクティブモードでは、ユーザが対話形式で各クラスタから代替のルールを選択できるので、同一クラスタに複数の説明が提供される。
実装形態では、データ解釈システムは、各クラスタから選択されたルール毎に例外のセットを決定することができる。例えば、例外のセットは結末とは異なる結果に対する先例に対して演算することができる。例外は通常のパターンからのズレを示すので、戦略的計画を容易にする。
このように、本発明は、同一データセットに対して複数の説明を提供することを容易にすることである。さらに、本発明はそれぞれのルールに関連するさまざまな例外によって、ルールのさまざまなズレを理解するための分析を可能にする。さらに、あらかじめ定められたしきい値を超える適用範囲を持つルールに基づくので、本発明によって提供される説明は実際に包括的である。
データセットを解釈する上述のシステム(単数または複数)および方法(単数または複数)の実施形態は多くの異なるコンピューティングデバイス、環境、および/または構成でも実装可能であるが、以下の実施例システム(単数または複数)および方法(単数または複数)に基づいて実装方法が説明される。
図1は本発明の実施例によるデータセットを解釈するためのデータ解釈システム102を実装するネットワーク環境100を図示する。データ解釈システム102は、これらに限定されるわけではないが、デスクトップコンピュータ、ハンドヘルドデバイス、ラップトップ、あるいは他のポータブルコンピュータ、タブレットコンピュータ等として実装することができる。データ解釈システム102とは別のネットワーク環境100には、1つ以上のコンピューティングデバイス104ー1、104ー2、・・・、104ーNが含まれる。説明および明確性のために、コンピューティングデバイス104ー1、104ー2、・・・、104ーNは以降、集合的にコンピューティングデバイス104と称し、および、以降、個別的にコンピューティングデバイス104と称する。ネットワーク環境100では、データ解釈システム102はネットワーク106を介してコンピューティングデバイス104に接続される。
ネットワーク106は、無線ネットワーク、有線ネットワーク、またはそれらの組み合わせであってもよい。ネットワーク106は異なるタイプのネットワークであって、例えばイントラネット、テレコムネットワーク、エレクトリカルネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、Virtual Private Network(VPN)、インターネットワーク、グローバルエリアネットワーク(GAN)、インターネット等の1つとして実装することができる。ネットワーク106は専用ネットワークまたは共有ネットワークのいずれでもよく、それらはさまざまなプロトコルを使用する異なるタイプのネットワークの関係を示し、さまざまなプロトコルには、例えば、相互に通信するハイパートランスファープロトコル(HTTP)、トランスミッションコントロールプロトコル/インターネットプロトコル(TCP/IP)、無線アプリケーションプロトコル(WAP)等が含まれる。さらに、ネットワーク106は、ルータ、ブリッジ、サーバ、コンピューティングデバイス、および、記憶デバイスを含むさまざまなネットワークデバイスを含むことができる。
データ解釈システム102およびコンピューティングデバイス104はネットワーク106を介して接続されて図示されるが、データ解釈システム102およびコンピューティングデバイス104は特定の場所に、または、1つ以上の地理的位置にまたがって配置することができ、および、お互いに物理的または論理的に接続できることは当業者にとって当然のことである。
実装形態では、データ解釈システム102はデータベース108に結合できる。図示されないが、データベース108はネットワーク環境100のネットワーク106あるいは他の何れかのネットワークとも接続できることが理解されるであろう。実装形態では、データベース108はデータ解釈システム102が使用できる1つ以上のデータセットを含むことができる。実装形態では、データベース108はリレーショナルデータベースとして提供され、および、データを、リレーショナルテーブル、オブジェクトオリエンティッドリレーショナルテーブル、インデックステーブル等のさまざまなフォーマットで記憶できる。しかしながら、データベース108は、オペレーショナルデータベース、分析型データベース、階層型データベース、および、分散またはネットワークデータベース等の他のタイプのデータベースで提供され得ることが理解されるであろう。
データ解釈システム102は、さまざまな目的でコンピューティングデバイス104と結合することができる。例えば、データ解釈システム102はコンピューティングデバイス104と接続することができ、企業のEDR等の情報リポジトリにアクセスできる。データセットを解釈するためのデータ解釈システム102の実装および機能を以下に説明する。
1つの実装形態では、データ解釈システム102は1つ以上のプロセッサ(単数または複数)110、プロセッサ(単数または複数)110と結合するインターフェース(単数または複数)112およびメモリ114を含む。プロセッサ(単数または複数)110は単一の処理ユニットまたは複数の処理ユニットであり得て、それらの全てが複数の演算ユニットを含んでもよい。プロセッサ(単数または複数)110は、1つ以上のマイクロプロセッサ、マイクロコンピューター、マイクロコントローラ、デジタルシグナルプロセッサ、中央演算ユニット、状態マシン、論理回路、および/または、動作命令に基づいて信号を処理するいずれかのデバイスとして実装することができる。数ある能力の中で、プロセッサ(単数または複数)110はメモリ114に記憶されるコンピュータ読み出し可能命令およびデータをフェッチし実行するように構成される。
図に示されるさまざまなエレメントの機能は、「プロセッサ(単数または複数)」にラベル付けされたいずれかの機能ブロックを含むが、専用ハードウェアばかりではなく、適切なソフトウェアに対応するソフトウェアを実行可能なハードウェアの使用によって提供することができる。プロセッサが提供される場合には、当該機能は単一専用プロセッサ、単一共有プロセッサ、あるいは複数の個別プロセッサによって提供され、それらのいくつかが共有されてもよい。さらに、用語「プロセッサ」を明確に使用する場合、ソフトウェアを実行可能なハードウェアを除外する趣旨ではなく、これらに限定されるわけではないが、デジタルシグナルプロセッサ(DSP)ハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ソフトウェアを記憶する読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および、不揮発性記憶装置を黙示的に含む。他のハードウェア、従来のハードウェア、および/またはカスタムハードウェアが含まれてもよい。
インターフェース(単数または複数)112は、さまざまなソフトウェアおよびハードウェアインターフェース、例えば、キーボード、マウス、外部メモリ、およびプリンター等の周辺デバイス(単数または複数)のためのインターフェースを含んでもよい。インターフェース(単数または複数)112は広い範囲のネットワークおよびプロトコルタイプの複数の通信を容易にでき、それらには、例えば、ローカルエリアネットワーク(LAN)、ケーブル等の有線ネットワーク、および、無線LAN(WLAN)、携帯、または衛星等の無線ネットワークが含まれる。目的によっては、インターフェース(単数または複数)112は、データ解釈システム102を複数のコンピューティングデバイス104に接続するための1つ以上のポートを含んでもよい。以下に説明するさまざまな例示実装形態では、データ解釈システム102は、インターフェース112を介してコンピューティングデバイス104と通信する。
メモリ114は、従来技術として知られているいずれかのコンピュータ読み取り可能媒体を含むことができ、当該従来技術には、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)等の揮発性メモリ、および/または、読み出し専用メモリ(ROM)、消去プログラム可能ROM、フラッシュメモリ、ハードディスク、光ディスク、および、磁気テープ等の不揮発性メモリが含まれる。データ解釈システム102にはモジュール116およびデータ118も含まれる。
とりわけ、モジュール116は、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、これらは特定のタスクを実行し、あるいは、特定の抽象的なデータタイプを実装する。モジュール116には、ルール生成モジュール120、解釈モジュール122、および、他のモジュール(単数または複数)124が含まれる。他のモジュール(単数または複数)124はプログラムあるいはコード化された命令を含むことができ、それらはデータ解釈システム102のアプリケーションおよび機能を補充する。
他方で、とりわけ、データ118は1つ以上のモジュール116によって処理、受信、および、生成されたデータを記憶するためのレポジトリとして機能する。データ118は、例えば、ルールセットデータ126、解釈データ128、および、他のデータ130を含む。他のデータ130には、他のモジュール(単数または複数)124の1つ以上のモジュールの実行による結果として生成されるデータが含まれる。
実装形態では、ルール生成モジュール120は、データセットの中の複数の頻発するアイテムセットを特定できる。実施例では、各トランザクションは、データセットの1つ以上のアイテムを含むことができる。例えば、各調査回答はトランザクションとして理解されることができ、この中でアイテムは尋ねられた各質問に対する顧客の応答であり得る。同様に、複数のセンサーデータでは、各時間ステップはトランザクションとして理解され、ここで異なるセンサーのそれぞれの値はデータセットのアイテムを形成する。データセットは以下の式で表される。
Figure 0006647849
実施例では、Dのサブセットはアイテムセットと称することができる。さらに、頻発するアイテムセットは、データセットの中の他のアイテムセットよりも同時に頻発するアイテムであると理解することができる。実施例では、データセットはデータ解釈システム102に関連するデータベース108に記憶することができる。当該頻発するアイテムセットは、1つ以上の先例に基づくあらかじめ定められた結末のためのルールを形成することができる。結末は、アイテムセットが発生した成果であると理解することができる。{X、y}等の各頻発するアイテムセットは、y等のあらかじめ定められた関心対象の結末(COI)に対するルールrを形成する。この場合には、アイテムのサブセットであるXは先例であるとみなされ、すなわち、X――――>yである。実装形態では、データ解釈システム102はFPgrowthメカニズムを採用することができ、データセットの頻発するアイテムセットを決定する。
例えば、小売店に対応するデータセットを考えると、ここで頻発するアイテムセットは、顧客がパン、ミルクおよびバターを購入することであり得る。顧客のショッピング行動に基づいて、顧客がパンおよびミルクを買えば、彼または彼女はバターも買う等のルールに気づくことができる。したがって、パンおよびミルクは、この場合には結末がバターとなる先例として理解することができる。
実装形態では、ルール生成モジュール120はルールに対応する少なくとも1つのパラメータを推定できる。例えば、少なくとも1つのパラメータは、ルールS(r)のサポートを含むことができる。実施例では、ルールのサポートは、頻発するアイテムセットの全てのアイテムを含むトランザクションのパーセンテージを推定することによって決定することができる。さらに、少なくとも1つのパラメータには、ルールC(r)の信頼値を含むことができる。ルールの信頼値は、前記先例に基づいて前記結末が発生する確率を推定することによって特定することができる。言い換えれば、ルールの信頼値はC(r)=P(y/X)としてあらわされる。さらに、少なくとも1つのパラメータは、ルールの関心度の測定として理解できるルールのリフト(lift)を含むことができる。ルールのリフトはルールの信頼度と結末が発生する確率の割合として定義することができる。言い換えれば、ルールのリフトは、L(r)=P(y/X)/P(y)としてあらわすことができる。
さらに、ルール生成モジュール120は、少なくとも1つのパラメータに基づいて、データセットに対応する複数のルールセットを演算することができる。実装形態では、ルール生成モジュール120は関連するルールマイニング技術を適用し、複数のルールセットを演算できる。実施例では、複数のルールセットは、ルールのサポートおよびルールの信頼度に基づいて生成できる。例えば、複数のルールセット(R)は、τよりも大きいサポート、および、τよりも大きい信頼値を持つあらかじめ定められたCOIに対して生成される。実装形態では、複数のルールセットは頻発するアイテムセットに基づいて生成される。ルール生成モジュール120は、ルールセットに関する詳細をルールセットデータ126として記憶することができる。実施例では、τおよびτは、システム管理者が定義できるあらかじめ定められたしきい値であると理解することができる。したがって、共通の結末(y)のために生成され、および、あらかじめ定められたしきい値を超えるサポートおよび信頼度を有する全てのルールセット(R)は、以下の式で表される。
Figure 0006647849
実装形態では、解釈モジュール122は、ルールセットに基づいて、ルールカバーRcoを演算することができる。実施例では、ルールの適用範囲は、関心事yの結末を含むパーセンテージからルールが満足されるトランザクションのパーセンテージで示すことができる。実施例では、ルールの適用範囲は以下のようにあらわすことができる。
Figure 0006647849
したがって、ルールセット(R)に対して、共通の結末(y)を有するルールカバーは以下の式で定義される。
Figure 0006647849
実装形態では、RcoはRのサブセットとして理解することができ、Rでカバーされるのと、ほとんど同一セットのトランザクションをカバーする。
実施例では、ルールカバーを演算するために、解釈モジュール122は、ルールセットをサポートの降順に操作またはリストすることができる。さらに、解釈モジュール122は、あらかじめ定められた数のCOIを有するトランザクションがカバーされるまで、リストされたルールをルールカバーに追加することができる。代替実施例では、解釈モジュール122は、先頭からK個のルールを選択し、および、それらをルールカバーに含むことができる。一旦、ルールカバーが特定されると、解釈モジュール122は、2つのルール間のオーバラップの程度を決定することができる。例えば、多くのルールはデータの同一セットのトランザクションをカバーすることができるので、解釈モジュール122は、2つのルール間のオーバラップの程度Oijを以下の式で定量化できる。
Figure 0006647849
さらに、解釈モジュール122は、距離測定dijを使用して、オーバラップの程度に基づいて、ルールをクラスタリングすることができる。実装形態では、解釈モジュール122はノイズ(DBSCAN)技術を用いた密度ベースの空間クラスタリングアプリケーションを採用し、オーバラップの程度に基づいてルールをクラスタリングする。実施例では、ルール間の距離測定は以下の式によって定義できる。
Figure 0006647849
ここでkは小さな値の定数または0.01に等しい。
一旦、クラスタが定義されると、解釈モジュール122は各クラスタから1つの代表的ルールを選択し、クラスタを要約することができる。実施例では、当該1つのルールはクラスタ内の全アイテムセットの解釈を提供することであると理解できる。代表的ルールは、当該クラスタに存在する、当該ルールによってカバーされるトランザクションの全セットの解釈を提供する。実装形態では、解釈モジュール122はバッチモードを採用し、各クラスタのルールを選択することができる。実施例では、バッチモードは、あらかじめ定められたパラメータに基づいて、クラスタを要約するルールを自動的に選択する工程を含む。1つの実施例では、クラスタを解釈するために、クラスタで最も高いサポートを有するルールが自動的に選択されることができる。他の実施例では、バッチモードで、クラスタで最も高い信頼度を有するルールが自動的に選択されることができる。他の実装形態では、解釈モジュール122は、ユーザが対話形式でクラスタを要約するルール選択することを手助けすることができる。実施例では、トランザクションの同一セットについて複数の解釈を得るために、ユーザは、各クラスタから代替のルールを対話形式で選択することができる。解釈モジュール122は、クラスタに関する説明を解釈データ128として記憶することができる。
さらに、解釈モジュール122はルールセットのクラスタから選択される代表的ルールのそれぞれに対して少なくとも1つの例外を決定することができる。実施例では、例外を決定するために、結末が異なる場合には、解釈モジュール122は同一先例の成果を特定することができる。例えば、あらかじめ定められた結末がyである場合には、解釈モジュール122は結末が―yであるさまざまなトランザクションを決定できる。当該動作は、ルールセットの全てのルールに対して例外のセットを提供できる。実装形態では、信頼度しきい値τに基づいて、全てのルールに対する例外が決定される。例えば、ルールr:X―――>yに対して、信頼度しきい値は以下の式で決定できる。
Figure 0006647849
ここでΔcはルールrに対する信頼度ギャップである。
実施例では、ルールの信頼度が85%である場合、残りの15%の時間は、ルールが満たされないことを意味する。言い換えれば、結末が得られず、例外は15%に合致する。実装形態では、上述のステップは、マッシュルームデータセット、カーサーベイ(Car−urvey)データセット、およびセンサーデータセット等のさまざまなデータセットに適用される。本発明に説明される技術は、ルールおよび例外という用語で簡潔な結果を提供する。さらに、本発明は、入力データからトランザクションの同一セットに複数の解釈を提供するので、データセットに関する全体論的見解を提供できる。
したがって、本発明は、データセットに対する適用範囲ベースの説明を提供することを容易にする。本発明はルール間で発生するいずれかのオーバラップを考慮するので、トランザクションの同一セットに複数の解釈を提供する。さらに、本発明はルールの例外、すなわち、通常のパターンからのズレを決定する。データセットの当該分析によって、企業にとって適切な意思決定および戦略の決定が容易になる。
図2は、本発明の実施形態による複数のアイテムセットを含むデータセットを解釈するための方法200を図示する。当該方法200は、コンピュータ実行可能な命令として記載できる。通常は、コンピュータ実行可能な命令は、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、特定の機能を実行するあるいは特定の抽象的なデータタイプを実行する関数を含むことができる。方法200は、通信ネットワークによってリンクされる遠隔処理デバイスによって関数が実行される分散型コンピューティング環境でも実行することができる。分散型コンピューティング環境では、コンピュータ実行可能な命令はローカルおよび遠隔のメモリ記憶デバイスを含むコンピュータ記憶媒体の両方に位置することができる。
方法200に記載される順序は制限的なものであることを意図しておらず、および、記載された方法ブロックの番号はどのような順番でも組み合わせることができ、方法200または代替方法を実行できる。さらに、各ブロックは本発明の精神および思想から逸脱しない範囲で当該方法200から削除することができる。さらに、当該方法200は、いずれかの適切なハードウェア、ソフトウェア、ファームウェア、あるいはそれらの組み合わせに実装することができる。
図2を参照すると、ブロック202で、方法200はデータセットの複数の頻発するアイテムセットを特定する工程を含むことができる。複数の頻発するアイテムセットのそれぞれは、1つ以上の先例に基づくあらかじめ定められた結末に対するルールを形成する。実装形態では、ルール生成モジュール120はデータセットの複数の頻発するアイテムセットを特定することができる。実施例では、ルール生成モジュール120は、FPgrowth技術あるいはいずれかのよく使用されるアイテムセットマイニング技術を採用し、複数の頻発するアイテムセットを特定することができる。
ブロック204で、方法200は、ルールに対応する少なくとも1つのパラメータを推定する工程を含むことができる。実装形態では、ルール生成モジュール120は少なくとも1つのパラメータを推定できる。例えば、パラメータはルールの信頼度、ルールのサポート、およびルールのリフトを含むことができる。
さらに、ブロック206で、方法200はデータセットの複数のルールセットを演算することができる。実装形態では、ルール生成モジュール120は、少なくとも1つのパラメータに基づいて、複数のルールセットを演算することができる。実施例では、ルール生成モジュール120は関連するルールマイニング技術を採用して、複数のルールセットを演算することができる。
さらに、ブロック208で、方法200はルールカバーを生成する工程を含むことができる。ルールカバーは複数のルールから構成されることができる。
さらに、ブロック210で、方法200は、複数のルールペア間の複数の距離を演算する工程、および、複数のルールペア間で演算された複数の距離に基づいて距離マトリックスを生成する工程、および、複数のルールペア間で演算された複数の距離を記憶する工程を含むことができる。
さらに、ブロック212で、方法200はデータセットの中で重複するルールをクラスタリングすることができる。重複するルールは、データセットの共通トランザクションに対応するルールであると理解することができる。実装形態では、解釈モジュール122は重複するルールクラスタリングできる。そうするために、解釈モジュール122は距離測定を使用して重複するルールを特定することができる。一旦、重複するルールが特定されると、解釈モジュール122は、オーバラップの程度に基づいて重複するルールをクラスタリングし、および、各クラスタからルールを選択することができる。少なくとも1つのルールは、各クラスタに含まれるルールによってカバーされるトランザクションを解釈する。実装形態では、解釈モジュール122は各クラスタからルールを選択し、クラスタの中のルールによってカバーされるトランザクションの説明を解釈し、または、提供する。実施例では、解釈モジュール122は、バッチモードを使用して少なくとも1つのルールを選択することができる。バッチモードでは、ルールはあらかじめ定められたパラメータに基づいて自動的に選択される。他の実施例では、解釈モジュール122はユーザがルールを選択し、クラスタのための説明を取得することを手助けすることができる。ユーザは同一クラスタのための別のルールを選択し、同一クラスタに対する複数の説明を得ることができる。
さらに、ブロック214で、方法200は、ルールセットのクラスタから選択される代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程を含むことができる。当該例外はルールの結末とは異なる結果を提供することができる。実装形態では、解釈モジュール122は、ルールセットの各ルールに対して例外を決定することができる。実施例では、当該例外は通用のパターンからのズレとして理解することができる。
本発明のための方法およびシステムの実施形態は、特定の構成の特徴および/または方法の言語によって説明されたが、本発明は記載された特定の特徴または方法に限定されるものではないことが理解されるであろう。むしろ、特定の特徴および方法は本発明のための例示実施形態として記載されている。

Claims (8)

  1. 複数のアイテムを含むデータセットを解釈するための方法であって、
    ルール生成モジュールによって、前記データセットの複数の同時に頻発するアイテムセットを特定することであって、前記複数の同時に頻発する前記アイテムセットのそれぞれがルールセット内にルールを形成することにより、および前記ルールセット内の前記ルールに対応する少なくとも1つのパラメータの値を推定することにより、前記データセットに関する前記ルールセットを演算する工程であって、前記ルールセットは少なくとも1つのパラメータの前記値に基づいてあらかじめ定められた結末のために演算される工程と、
    前記ルール生成モジュールによって、複数のルールを含むルールカバーを生成する工程であって、前記ルールカバーは前記ルールセットのサブセットに対応し、前記ルールカバーは、前記ルールのサポートの降順に前記ルールセットの前記ルールをリストすることにより、および関心対象の結末を有するあらかじめ定められた数のトランザクションがカバーされるまで、リストされた前記ルールを前記ルールカバーに追加することにより生成される工程と
    解釈モジュールによって、前記ルールカバーにおける前記複数のルールのオーバラップの程度に基づいて、複数のルールペア間の複数の距離を演算し、および前記ルールカバーの複数の前記ルールペア間で演算された複数の距離に基づいて距離マトリックスを生成し、および、複数の前記ルールペア間で演算された複数の距離を記憶する工程と、
    前記解釈モジュールによって、前記距離マトリックスを使用して前記ルールカバー内の重複するルールをクラスタリングする工程であって、重複する前記ルールはデータセットのトランザクションの共通セットを含む前記ルールに対応する工程と、
    前記解釈モジュールによって、各クラスタから代表的ルールを選択する工程であって、前記代表的ルールは各クラスタに含まれる前記ルールによってカバーされるトランザクションを示す工程と、
    前記解釈モジュールによって、各クラスタから選択される前記ルールセットの前記代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程であって、1つ以上の例があらかじめ定められた結末とは異なる結果を提供する場合に、少なくとも1つの前記例外が決定される工程、および
    前記解釈モジュールによって、前記ルールセットの前記代表的ルールおよび前記代表的ルールのそれぞれに対して決定される少なくとも1つの前記例外を使用して前記データセットを解釈する工程を含み、上記各工程はプロセッサ(110)によって実行される方法。
  2. 前記複数のアイテムはトランザクションデータベースの複数の特有の分野に対応するものである請求項1に記載の方法。
  3. 前記ルールセットの演算は関連するルールマイニング技術に基づく請求項1に記載の方法。
  4. 少なくとも1つの前記パラメータは、前記ルールのサポート、前記ルールの信頼度、および前記ルールのリフトを含む請求項に記載の方法。
  5. 前記代表的ルールはバッチモード技術あるいはインタラクティブモード技術によって選択される請求項1に記載の方法。
  6. 少なくとも1つの前記例外はあらかじめ定められた信頼度しきい値に基づいて決定される請求項1に記載の方法。
  7. 前記データセットをデータベース(108)に記憶する工程をさらに含む請求項1に記載の方法。
  8. 複数のアイテムを含むデータセットを解釈するためのデータ解釈システム(102)であって、
    プロセッサ(110)と、
    ルール生成モジュール(120)であって、
    前記データセットの複数の同時に頻発するアイテムセットを特定する工程であって、前記複数の同時に頻発する前記アイテムセットのそれぞれがルールセット内にルールを形成することであって、前記ルールセットの中の各ルールは1つ以上の先例に基づくあらかじめ定められた結末を含むことにより、および前記ルールセット内の前記ルールに対応する少なくとも1つのパラメータの値を推定することにより、前記データセットに関する前記ルールセットを演算する工程であって、前記ルールセットは少なくとも1つのパラメータの前記値に基づいてあらかじめ定められた結末のために演算される工程と、
    複数のルールを含むルールカバーを生成する工程であって、前記ルールカバーは前記ルールセットのサブセットに対応し、前記ルールカバーは、前記ルールのサポートの降順に前記ルールセットの前記ルールをリストすることにより、および関心対象の結末を有するあらかじめ定められた数のトランザクションがカバーされるまで、リストされた前記ルールを前記ルールカバーに追加することにより生成される工に適用されるルール生成モジュール(120)と、
    解釈モジュール(122)であって、
    前記ルールカバーの複数のルールペア間の複数の距離を演算し、および、複数の前記ルールペア間で演算された複数の距離に基づいて距離マトリックスを生成し、および、複数の前記ルールペア間で演算された複数の距離を記憶する工程と、
    前記距離マトリックスを使用して前記ルールカバー内の重複するルールをクラスタリングする工程であって、前記重複するルールは前記データセットのトランザクションの共通セットを含む前記ルールに対応する工程と、
    各クラスタから代表的ルールを選択する工程であって、前記代表的ルールは各クラスタに含まれる前記ルールによってカバーされるトランザクションを示す工程と、
    各クラスタから選択される前記ルールセットの代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程であって、1つ以上の前記先例があらかじめ定められた結末とは異なる結果を提供する場合に、少なくとも1つの前記例外が決定される工程
    前記ルールセットの前記代表的なルールおよび前記代表的ルールのそれぞれに対して決定される少なくとも1つの前記例外を使用して解釈する工程に適用される解釈モジュール(122)と、
    前記データセットを記憶するために適用されるデータベース(108)
    を含むデータ解釈システム(102)。
JP2015246186A 2014-12-17 2015-12-17 データセットの解釈方法 Active JP6647849B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN4066/MUM/2014 2014-12-17
IN4066MU2014 2014-12-17

Publications (2)

Publication Number Publication Date
JP2016115359A JP2016115359A (ja) 2016-06-23
JP6647849B2 true JP6647849B2 (ja) 2020-02-14

Family

ID=55027296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015246186A Active JP6647849B2 (ja) 2014-12-17 2015-12-17 データセットの解釈方法

Country Status (7)

Country Link
US (1) US10579931B2 (ja)
EP (1) EP3035274A1 (ja)
JP (1) JP6647849B2 (ja)
AU (2) AU2015268759A1 (ja)
BR (1) BR102015031789B1 (ja)
CA (1) CA2915563C (ja)
MX (1) MX2015017587A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991141B (zh) * 2017-03-21 2020-12-11 北京邮电大学 一种基于深度剪枝策略的关联规则挖掘方法
US20190197428A1 (en) * 2017-12-27 2019-06-27 Cerner Innovation, Inc. Systems and methods for refactoring a knowledge model to increase domain knowledge and reconcile electronic records
US11451554B2 (en) * 2019-05-07 2022-09-20 Bank Of America Corporation Role discovery for identity and access management in a computing system
CN111598153B (zh) * 2020-05-13 2023-02-24 腾讯科技(深圳)有限公司 数据聚类的处理方法、装置、计算机设备和存储介质
CN113641726B (zh) * 2021-08-06 2024-01-30 国网北京市电力公司 基于生成对抗网络的无监督护层电流数据挖掘系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6651049B1 (en) 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules
US6651048B1 (en) * 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules with population constraints
US6415287B1 (en) * 2000-01-20 2002-07-02 International Business Machines Corporation Method and system for mining weighted association rule
US9785953B2 (en) * 2000-12-20 2017-10-10 International Business Machines Corporation System and method for generating demand groups
US7103222B2 (en) * 2002-11-01 2006-09-05 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in multi-dimensional time series using multi-resolution matching
US8401986B1 (en) * 2004-08-05 2013-03-19 Versata Development Group, Inc. System and method for efficiently generating association rules
WO2006090781A1 (ja) * 2005-02-24 2006-08-31 Nec Corporation フィルタリングルール分析方法及びシステム
US7672865B2 (en) * 2005-10-21 2010-03-02 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
US7711734B2 (en) * 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US7870149B2 (en) 2007-07-09 2011-01-11 International Business Machines Corproation Data mining method for finding deviations in data
US7979362B2 (en) * 2007-08-10 2011-07-12 Motorola Solutions, Inc. Interactive data mining system
US7840506B1 (en) * 2008-01-09 2010-11-23 The United States Of America As Represented By The Secretary Of The Navy System and method for geodesic data mining
US8688480B1 (en) * 2009-04-28 2014-04-01 Accretive Health, Inc. Automated accounts receivable management system with a self learning engine driven by current data
US9021409B2 (en) * 2011-07-11 2015-04-28 The Board Of Trustees Of The University Of Illinois Integration of data mining and static analysis for hardware design verification
US9489627B2 (en) 2012-11-19 2016-11-08 Bottomline Technologies (De), Inc. Hybrid clustering for data analytics
CA2907208C (en) * 2013-03-15 2023-10-24 Trans Union Llc System and method for developing business rules for decision engines

Also Published As

Publication number Publication date
AU2015268759A1 (en) 2016-07-07
CA2915563A1 (en) 2016-06-17
CA2915563C (en) 2023-09-26
AU2021203512B2 (en) 2022-05-26
BR102015031789A2 (ja) 2016-09-27
BR102015031789B1 (pt) 2023-04-11
EP3035274A1 (en) 2016-06-22
US20160180229A1 (en) 2016-06-23
AU2021203512A1 (en) 2021-07-01
JP2016115359A (ja) 2016-06-23
US10579931B2 (en) 2020-03-03
MX2015017587A (es) 2017-11-17

Similar Documents

Publication Publication Date Title
JP6647849B2 (ja) データセットの解釈方法
US10013303B2 (en) Detecting anomalies in an internet of things network
US11888602B2 (en) System and method for predictive platforms in identity management artificial intelligence systems using analysis of network identity graphs
US10628435B2 (en) Extracting seasonal, level, and spike components from a time series of metrics data
US10367888B2 (en) Cloud process for rapid data investigation and data integrity analysis
US11822603B2 (en) Modeling higher-level metrics from graph data derived from already-collected but not yet connected data
WO2021011089A1 (en) Graph embedding already-collected but not yet connected data
US20190155824A1 (en) Enabling advanced analytics with large data sets
US20070156479A1 (en) Multivariate statistical forecasting system, method and software
US20190317952A1 (en) Computer implemented systems for automatic hierarchy for large scale time series data sets
US11875408B2 (en) Techniques for accurate evaluation of a financial portfolio
KR20170060031A (ko) 머신 러닝을 이용한 비-기술적인 손실의 식별
US11231830B2 (en) Graphical user interface for searching on a network pattern
Dogan et al. Segmentation of indoor customer paths using intuitionistic fuzzy clustering: Process mining visualization
Prarthana et al. User behaviour anomaly detection in multidimensional data
JP6995909B2 (ja) 1以上のプロセスを監視しセンサデータを提供する複数のセンサを含むシステムのための方法
US11699000B2 (en) Experiment design variants evaluation table GUI
US11294917B2 (en) Data attribution using frequent pattern analysis
WO2009006028A2 (en) Explaining changes in measures thru data mining
JP2017054487A (ja) 分布クエリに対してビジネスデータを融合するための方法及びシステム
LU101632B1 (en) Computer performance defect detection based on energy consumption telemetry
WO2023275879A1 (en) Method and system for managing inventory
Mavroudopoulos et al. Detecting temporal anomalies in business processes using distance-based methods
US10496948B1 (en) Computer trend visualization using quadratic simplified closed form linear regression
WO2022222623A1 (en) Composite event estimation through temporal logic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200115

R150 Certificate of patent or registration of utility model

Ref document number: 6647849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250