JP2017521778A - データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン - Google Patents

データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン Download PDF

Info

Publication number
JP2017521778A
JP2017521778A JP2016575685A JP2016575685A JP2017521778A JP 2017521778 A JP2017521778 A JP 2017521778A JP 2016575685 A JP2016575685 A JP 2016575685A JP 2016575685 A JP2016575685 A JP 2016575685A JP 2017521778 A JP2017521778 A JP 2017521778A
Authority
JP
Japan
Prior art keywords
exception
data
technical
description
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016575685A
Other languages
English (en)
Other versions
JP6534402B2 (ja
Inventor
グラーセルト、ミケ
マイヤー、アルバート
シュッツ、セルゲイ
シュヴァルツ、トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2017521778A publication Critical patent/JP2017521778A/ja
Application granted granted Critical
Publication of JP6534402B2 publication Critical patent/JP6534402B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データ処理システム(100)においてデータ品質例外を処理する方法を提供する。【解決手段】データ処理システム(100)は1つまたは複数のデータ・ソース(121)にアクセスすることができ、データ処理システム(100)は、データ品質例外の技術的修復を提供するための複数の技術サポート・システム(123A〜N)にさらにアクセスすることができ、複数の技術サポート・システム(123A〜N)は、1つまたは複数の事前定義済みの技術タスクを有する。この方法は、データ品質例外を例外グループに割り当てること、および1つまたは複数の事前定義済み技術タスクのうちの少なくとも1つの技術タスクを使用して、例外グループにおける例外の技術的修復を提供する役割を担う複数の技術サポート・システムのうちの技術サポート・システムに各例外グループを関連付けることのために、事前定義済みグループ化規則(125)を提供することと、データ処理システム(100)の例外エンジン(101)によって、1つまたは複数のデータ・ソースのうちの少なくとも第1のデータ・ソース(121)から、第1のデータ・ソース(121)のデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信することと、第1の記述を使用して第1のデータ品質例外を少なくとも第1の例外グループに割り当てるため、および1つまたは複数の技術タスクのうちの第1の技術タスクを使用して第1の例外グループを複数の技術サポート・システムのうちの第1の技術サポート・システムに関連付けるためにグループ化規則を使用することと、例外エンジン(101)によって、第1の例外グループにおける例外の技術的修復を提供するために第1の記述の少なくとも一部を第1の技術サポート・システムにルーティングすることとを含む。【選択図】図1

Description

本発明は、コンピューティング・システムに関し、より詳細には、データ品質例外の処理方法に関する。
データ処理システムにおける多くのデータ処理は、データ処理システムが扱っているデータの良好な品質に依存する。例えば、データ値が期待された形式に従っている場合にのみ正常に実行され得るデータ処理がある。しかし、十分なデータ品質レベルを確立することは、データ統合プロジェクト時における重要な課題であり、多くのデータ処理プロジェクトが、この点に十分に対応することができないために目標を達成することができない場合がある。
本発明の各実施形態の目的は、データ品質例外を処理するための改良された方法と、例外エンジンと、コンピュータ・プログラム製品とを提供することである。この目的は、独立請求項の主題によって解決される。有利な実施形態は従属請求項に記載されている。
一態様では、本発明は、データ処理システムにおけるデータ品質例外の処理方法であって、データ処理システムは1つまたは複数のデータ・ソースにアクセスすることができ、データ処理システムは、さらに、データ品質例外の技術的修復を提供するために複数の技術サポート・システムにアクセスすることができ、複数の技術サポート・システムは、1つまたは複数の事前定義済み技術タスクを有する方法に関する。この方法は、データ品質例外を例外グループに割り当てるための事前定義済みグループ化規則を提供することと、1つまたは複数の事前定義済み技術タスクのうちの少なくとも1つの技術タスクを使用して各例外グループを、例外グループ内の例外の技術的修復を提供する役割を担う複数の技術サポート・システムのうちの技術サポート・システムに関連付けることと、データ処理システムの例外エンジンによって、1つまたは複数のデータ・ソースのうちの少なくとも第1のデータ・ソースから、第1のデータ・ソースのデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信することと、第1の記述を使用して第1のデータ品質例外を少なくとも第1の例外グループに割り当てるため、および1つまたは複数の技術タスクのうちの第1の技術タスクを使用して第1の例外グループを複数の技術サポート・システムのうちの第1の技術サポート・システムに関連付けるために、グループ化規則を使用(または適用)することと、第1の例外グループ内の例外の技術的修復を提供するために、例外エンジンによって第1の記述の少なくとも一部を第1の技術サポート・システムにルーティングすることとを含む。
別の態様では、本発明は、上記の方法の方法ステップを実行するためのコンピュータ実行可能命令を含むコンピュータ・プログラム製品に関する。
別の実施形態では、本発明は、データ処理システムにおけるデータ品質例外を処理するための例外エンジンであって、データ処理システムは1つまたは複数のデータ・ソースにアクセスすることができ、データ処理システムはさらに、データ品質例外の技術的修復を提供するために複数の技術サポート・システムにアクセスすることができ、複数の技術サポート・システムは、1つまたは複数の事前定義済み技術タスクを有する例外エンジンに関し、データ品質例外を例外グループに割り当てるため、および1つまたは複数の事前定義済み技術タスクのうちの少なくとも1つの技術タスクを使用して各例外グループを例外グループ内の例外の技術的修復を提供する役割を担う複数の技術サポート・システムのうちの技術サポート・システムに関連付けるために、事前定義済みグループ化規則が提供される。例外エンジンは、1つまたは複数のデータ・ソースのうちの少なくとも第1のデータ・ソースから、第1のデータ・ソースのデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信し、第1の記述を使用して第1のデータ品質例外を少なくとも第1の例外グループに割り当てるため、および1つまたは複数の技術タスクのうちの第1の技術タスクを使用して第1の例外グループを複数の技術サポート・システムのうちの第1の技術サポート・システムに関連付けるためにグループ化規則を使用し、第1の例外グループ内の例外の技術的修復を提供するために、第1の記述の少なくとも一部を第1の技術サポート・システムにルーティングするように構成される。
以下、本発明の好ましい実施形態について、図面を参照しながら例示のためにのみより詳細に説明する。
データ品質例外を処理するための例示のデータ処理システムを示す図である。 データ品質例外の処理方法を示すフローチャートである。 データ品質例外を処理するための他の例示のデータ処理システムを示す図である。 データ品質例外の根本を処理する方法を示すフローチャートである。
以下では、図面中で同様の番号が付されている要素は、類似の要素を示すかまたは同等の機能を実行する要素を示す。機能が同等な場合、前に述べた要素について必ずしも後述の図面で説明するとは限らない。
上述のデータ・ソースは、データの記憶、処理または送信あるいはこれらの組合せのためのコンピュータまたはストレージ・サーバを含み得る。
データ・セットは、データ項目、ファイル、テーブル、データのメタデータ、ソフトウェア・アプリケーション・ファイルなどのうちの少なくとも1つを含み得る。
本明細書で使用する「データ品質例外」という用語は、データ・セットの内容または形式あるいはその両方に関連し得るデータ品質エラーまたは問題(予期しない値または指定されていない値など)を包含する。データ品質例外は、例えば、データ・セット内の重複データ、データ・セット内のソフトウェア・アプリケーションのサポートされていない旧バージョン、データ・セット内の不正または無効な値、データ・セット内の欠損値などを示し得る。
技術タスクは、ある技術サポート・システムが技術的修復を提供し得るデータ品質例外を示す標識を含み得る。例えば、技術タスクは、その技術タスクを有する技術サポート・システムが、事前定義済みの場所にあるデータ・セット内で発生するデータ品質例外または事前定義済みの時間間隔で発生したデータ品質例外あるいはその両方の、技術的修復を提供し得ることを示してもよい。別の例では、技術タスクは、その技術タスクを有する技術サポート・システムが、ソフトウェア関連のデータ品質例外の技術的修復を提供し得ることを示してもよい。
第1の記述は、第1のデータ品質例外を記述する第1の例外属性値を含み得る。第1の例外属性は、時刻、バージョン番号、値の出現数などを含み得る。グループ化規則は、第1の例外属性値の少なくとも一部に関する事前定義済みの条件を含み得る。グループ化規則は、第1の技術タスクの属性値に関する条件をさらに含み得るため、利用可能な技術タスクを考慮に入れることができる。例えば、第1の技術タスクの属性値は、「技術サポート・システムによって扱われるデータの場所」を含んでよく、グループ化規則は、「場所==ヨーロッパ」など、その属性値に関する条件を含んでよい。例えば、技術サポート・システムが単一の技術タスクのみをサポートすることができる場合、例外エンジンは、その技術サポート・システムによって修正可能なデータ品質例外のみが例外グループにおいて選択/グループ化されるように、それに応じて例外グループを作成してもよい。
第1の記述のルーティングは、ルーティング情報を使用して行うことができる。ルーティング情報は、第1の技術サポート・システムの識別アドレスを含む。識別アドレスは、IPアドレス、ファイバ・チャネル・アドレス、またはURLを含み得る。
技術的修復は、データ・セット内の第1のデータ品質例外を修正するための命令を含み得る。技術的修復は、データ・ソースまたは技術サポート・システムあるいはその両方のユーザによって適用され得る。
本明細書で使用する例外グループとは、例外グループに割り当てられたデータ品質例外のそれぞれの記述の少なくとも一部を含むコンピュータ・ファイルまたはデータ・テーブルあるいはその両方を指す。
例外グループへのデータ品質例外の割当ては、例外グループが作成された後に行われる。例えば、データ品質例外が受信されるとただちに、そのデータ品質例外は、例えばそのデータ品質例外の記述の少なくとも一部を、例えばファイルまたはデータ・テーブルあるいはその両方である例外グループに挿入することによって、例外グループのうちの1つの例外グループに割り当てられる。
例えば、第1のデータ品質例外は、データ・セットの少なくとも一部に影響を及ぼし得る。例えば、データ・セットは、異なる場所に格納された複数のデータ項目を含んでよく、データ・セットの少なくとも一部は、所定の場所、例えばヨーロッパで格納されたデータ項目を含んでもよい。
開示の方法の特徴は、適切なデータ品質例外を適切な技術サポート・システムに割り当てることによって、データ品質例外を効率的に修正する自動的方法を提供するという利点を有し得る。これにより、その他の場合にはデータ品質例外を解消することができる適切な技術サポート・システムを探すために技術サポート・システムと例外エンジンとの間で反復を行うのに必要となるデータ処理システムにおける資源を、節約することができる。これは、大規模なデータ処理システム、例えば多くのデータ・ソースが存在し、検出されるデータ品質例外の量が比較的多いクラウド・システムの場合に特に有利である。
別の利点は、より有用なデータの提供、より多くのユーザへのサービス提供、または追加のサービスの提供、あるいはこれらの組合せによって、データ処理システムの能力を向上させることができることである。これにより、データ品質例外の非最適修正によってこれらの処理システムに生じる可能性がある低サービス品質(QoS)を克服することができる。これによって、持続的かつQoS保証されたサービスを維持することができる。
別の利点は、この方法を、例外プロバイダと技術サポート・システムとを含む既存のシステムにシームレスに統合可能であることである。この方法は、ソフトウェアまたはハードウェアあるいはその両方のわずかな負担で実装可能である。
別の利点は、例えばデータ品質例外を不適切な技術サポートに割り当てることを避けることによって、データ品質例外の修正または補正の処理を高速化することができることである。
別の利点は、データ・セットが技術サポート・システムに転送されず、例外記述のみが技術サポート・システムに送信されるため、データ・セットを保護することができることである。
一実施形態によると、第1の例外グループを第1の技術サポート・システムに関連付けることは、第1のデータ品質例外の影響を受け、第1の技術タスクに対応するデータ・セットの第1のデータ項目を示す標識を取得するために、データ・ソースに要求を送信することと、応答が第1のデータ項目を示す、要求に対する応答メッセージを受信することとを含む。例えば、応答は、第1のデータ項目の数が例えばゼロより大きいことを示してもよい。
「第1のデータ項目が第1の技術タスクに対応する」ことは、第1の技術サポート・システムが、第1のデータ項目に影響を及ぼす第1のデータ品質例外の技術的修復を提供することができることを意味する。例えば、第1の技術タスクが、第1の技術サポート・システムがヨーロッパにあるデータ・セットで発生するデータ品質例外の技術的修復を提供することができることを示している場合、第1のデータ項目は、それら第1のデータ項目がヨーロッパにあれば第1の技術サポート・システムに対応している。
この実施形態は、例外と技術サポート・システムとの間に正確な関連付けを与えるという利点を有し得る。
一実施形態によると、第1の例外グループを第1の技術サポート・システムに関連付けることは、第1の記述を使用して行われ、第1の記述は、第1のデータ品質例外によって影響を受け、第1の技術タスクに対応するデータ・セットの第1のデータ項目を示す標識(例えば第1のデータ項目の数)を含む。
一実施形態によると、第1の例外グループを第1の技術サポート・システムに関連付けることは、例外グループと1つまたは複数の技術タスクとの対応関係を記述するマップを提供することと、そのマップと第1の記述とを使用して、第1の例外グループと適合する第1の技術タスクを選択することとを含み、第1の技術サポート・システムは第1の技術タスクを有する。
マップは、複数の項目を有するデータベース・テーブルを含んでよく、項目のうちの1つの項目は、例外グループと、少なくとも1つの関連付けられた、または対応する技術タスクとを示す。マップは、事前定義済みのマップとすることができる。
第1の技術サポート・システムは、同じ第1の技術タスクを有する技術サポート・システムのうちで負荷が最小である技術サポート・システムを含み得る。別の例では、第1の技術サポート・システムは、第1の技術タスクを有する技術サポート・システムのリストからランダムに選択されてもよい。
また別の例では、第1の技術サポート・システムの選択は、技術サポート・システムの機能状態を示す履歴データを使用して行ってもよい。例えば、例外エンジンは、特定の技術タスクを有する特定の技術サポート・システムが、事前定義済みの場所で起こるかまたは発生し、例外グループの例外に類似しているデータ品質例外を、通常、修正するかまたはその技術的修復を提供すると判断してもよい。
この実施形態は、例外グループの適切な技術サポート・システムへの割当てをさらに最適化することができるため、有利である可能性がある。
一実施形態によると、この方法は、第1の記述を使用して第1のデータ品質例外を第2の例外グループに割り当てるため、および1つまたは複数の技術タスクのうちの第2の技術タスクを使用して第2の例外グループを複数の技術サポート・システムのうちの第2の技術サポート・システムに関連付けるために、グループ化規則を使用(または適用)することと、第1のデータ品質例外の影響を受け、第2の技術タスクに対応するデータ・セットのデータ項目を示す標識を取得するためにデータ・ソースに要求を送信することと、要求に応答してゼロ項目を示す応答を受信することと、第2の例外グループ内の例外の技術的修復を提供するために、例外エンジンによって第1の記述の少なくとも一部を第2の技術サポート・システムにルーティングすることを防止することとをさらに含む。例えば、第1のデータ品質例外が第2の例外グループから削除されてもよい。これにより、データ品質例外の転送を防止することができ、したがって通信量負荷を削減することができる。
一実施形態によると、この方法は、ルーティングを行う前に、データ処理システムの第2のデータ・ソースから第2のデータ・ソースのデータ・セット内の第2のデータ品質例外の第2の記述を受信することと、第2の記述を使用して第2のデータ品質例外を第1の例外グループに割り当てるためにグーピング規則を使用することとをさらに含み、ルーティングは、例外エンジンによって第1の記述の少なくとも一部および第2の記述を第1の技術サポート・システムにルーティングすることをさらに含む。第1のデータ品質例外が受信されて第1の例外グループに割り当てられる時、第1の例外グループはすでに第1の技術サポート・システムに関連付けられている。第1の例外グループは、少なくとも第1および第2のデータ品質例外を含む。ルーティングは、第1の技術サポート・システムが少なくとも第1および第2のデータ品質例外の技術的修復を提供し得るように行われる。
この実施形態は、その他の場合にはデータ品質例外の処理または送信あるいはその両方を個別に行うときに必要となる処理資源を節約することができるため、有利となり得る。データ通信量を削減することもできる。例えば、第1の技術サポート・システムに第1および第2のデータ品質例外を個別に転送するのではなく、これらのデータ品質例外が一度に転送される。
一実施形態によると、グループ化規則は、第1の記述の少なくとも一部と第1の技術タスクとに関する条件を含む。例えば、第1の記述は、第1のデータ品質例外を記述する第1の例外属性値(例えばデータ・セットの場所)を示すことができ、条件は、「第1の属性値が所定の範囲内の場合、第1のデータ品質例外を第1の例外グループに割り当ててよい」を含んでもよい。第1の技術タスクに関する条件は、例えば「第1の技術タスクは、第1の技術サポート・システムが、第1のデータ品質例外の影響を受けるヨーロッパにあるデータ・セットのために、技術的修復を提供することができることを示す」であってもよい。
一実施形態によると、この方法は、第1および第2の記述が、第1および第2のデータ品質例外をそれぞれ記述する第1および第2の例外属性値を示し、ルーティングを行う前に、処理システムの第2のデータ・ソースから第2のデータ・ソースのデータ・セット内の少なくとも第2のデータ品質例外の第2の記述を受信し、第2の記述を使用して第2のデータ品質例外を第1の例外グループに割り当てるためにグループ化規則を使用することと、第1および第2の例外属性値を評価し、それに基づいて第1および第2の例外属性に関連する依存関係例外属性を判断することと、依存関係例外属性に関連付けられた根本データ品質例外を判断することと、第1および第2の記述を使用して根本データ品質例外の記述を提供することとをさらに含み、ルーティングが、根本データ品質例外の技術的修復を提供するために、例外エンジンによって記述の少なくとも一部を第1の技術サポート・システムにルーティングすることを含み、それによって第1および第2のデータ品質例外の技術的修復を提供する。
根本データ品質例外のための技術的修復を提供することにより、第1の例外グループの例外が根本データ品質例外のために提供された技術的修復によって補正され得るという意味で、第1の例外グループの例外に技術的修復が提供される。
例えば、第1および第2のデータ品質例外がそれぞれ第1および第2のアプリケーションのサポートされていない旧バージョンに関連する場合、根本データ品質例外は、第1および第2のアプリケーションが実行されているデータ・ソースで使用されているオペレーティング・システムOSのバージョンである場合がある。この場合、OSのバージョンの補正または修正により、第1および第2のデータ品質例外が修復される可能性がある。
この実施形態は、技術サポート・システムに送信されるデータを制限することによって、データ処理システムにおける通信負荷をさらに削減するという利点を有し得る。
別の利点は、同じ原因を有する可能性があるいくつかのデータ品質例外の処理によって生じる可能性のあるデータ処理システムにおける処理負荷の低減であり得る。これにより、例えば技術サポート・システムにとって多数のデータ品質問題タスクが生じることを回避することができるため、技術サポート・システムの過負荷状態の回避を支援することができる。
別の利点は、同じ根本データ品質例外を有する将来のデータ品質例外が回避されることであり得る。
一実施形態では、この方法は、第1の例外グループ内の例外の数がデータ品質例外の所定最大数より多いと判断することをさらに含む。
一実施形態によると、この方法は、事前定義済みの形式の第1の記述を使用して第1のデータ品質例外の第1の例外グループへの割当てを行うために、事前定義済みの形式の第1の記述を提供するようにデータ・ソースを構成することをさらに含む。
例えば、事前定義済みの形式は、第1の記述の内容、または第1の記述の内容の符号化形式あるいはその両方を含んでもよく、例えば、「x−y.z」のように符号化されたバージョン番号にのみ、または小数4桁を有する「x.yyyy」のように符号化された浮動小数点数にのみ分類が作用または適用されてもよい。また、第1の記述は、第1のデータ品質例外によって影響を受けるデータ項目の数と、1つまたは複数の技術タスクのうちそれらデータ項目に関連付けられた技術タスクとを含んでもよい。例えば、第1の記述は、第1のデータ品質例外によって影響を受けるデータ・セットのN個のデータ項目と、例えば技術サポート・システムがそれらのN個のデータ項目が格納されている所定の場所における例外を解決する役割を担っているために、その技術サポート・システムがそれらN個のデータ項目の第1のデータ品質例外を解決することができることを示す、それらに対応する技術タスクとを示してもよい。第1の記述は、データ・セットのM個のデータ項目と、例えば技術サポート・システムがそのデータ形式に関連する例外を解決する役割を担っているために、その技術サポート・システムがそれらM個のデータ項目の第1のデータ品質例外を解決することができることを示す、それらデータ項目に対応する技術タスクとをさらに示してもよい(ここで、第1のデータ品質例外は、N個およびM個のデータ項目のデータ形式に関連していてもよい)。
一実施形態によると、第1の記述は、データ・セットを示す標識と、第1のデータ・ソースにおける第1のデータ品質例外の発生時刻と、第1のデータ品質例外の影響を受けるデータ・セットにおけるデータの量と、第1のデータ品質例外を検出(または特定)するために使用される例外検出アルゴリズムと、データ・セットのデータ・タイプと、第1のデータ品質例外の技術的記述と、データ・セットにおける最後の変更時刻を示す標識とのうちの少なくとも1つを含む。
一実施形態によると、この方法は、第1のデータ品質例外の影響を受けるデータ・セットのデータ項目の数を判断することと、データ項目の数が所定の最大項目数より大きいことを判断することと、第1の例外グループを少なくとも2つの例外サブグループに分割することと、第1の技術タスクを使用して、その少なくとも2つの例外サブグループを少なくとも第1の技術サポート・システムに関連付けることと、その2つの例外サブグループのそれぞれについて記述を生成することと、その少なくとも2つの例外サブグループに技術的修復を提供するために少なくとも第1の技術サポート・システムにそれらの記述をルーティングすることとをさらに含む。
例えば、それらの少なくとも2つの例外サブグループを並列に実行することができる(すなわち技術的修復が提供される)ように、少なくとも2つの例外サブグループを第1の技術サポート・システムと第2の技術サポート・システムとに関連付けることができる。
この実施形態は、技術サポート・システムの負荷を制御するという利点を有し得る。
一実施形態によると、この方法は、ルーティングを事前定義済みの時間間隔で定期的に繰り返すことをさらに含む。例えば、時間間隔中に、例外エンジンが、複数の例外グループに割り当てることが可能な複数のデータ品質例外を受信し得る。
一実施形態によると、第1のデータ・ソースと第1の技術サポート・システムのそれぞれは、データ処理システムのネットワークのエンドホスト・システムを含む。データ・ソースと技術サポート・システムは、データ処理システムに属していてもよく、または、データ処理システムが、例えばネットワークを介してソース・システムと技術サポート・システムへのアクセスを与えてもよい。
「エンドホスト」という用語は、データ処理システムのネットワークにおいて中間ノードとは一般に見なされないコンピュータを指す。例えば、エンドホストは、クライアント機、サーバ、または記憶装置あるいはこれらの組合せであってよい。
図1に、データ品質例外処理のためのデータ処理システム100の例示のアーキテクチャを示す。例えば、データ処理システム100はIBM DB2データベース・システムを含むIBM(R)のzEnterpriseシステムの一部であってもよい。
データ処理システム100は、例外エンジン101を提供する。例外エンジン101は、コンピュータ・システムであってよい。例外エンジン101の構成要素には、1つまたは複数のプロセッサまたは処理ユニット103と、ストレージ・システム111と、メモリ・システム105と、メモリ・システム105を含む様々なシステム構成要素をプロセッサ103に結合するバス107とが含まれるが、これらには限定されない。メモリ・システム105は、ランダム・アクセス・メモリ(RAM)またはキャッシュ・メモリあるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。
例外エンジン101は、典型的には、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・デバイス101がアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体と不揮発性媒体、取り外し可能媒体と取り外し不能媒体の両方を含む。
例外エンジン101は、キーボード、ポインティング・デバイス、ディスプレイなどの1つまたは複数の外部デバイス、ユーザが例外エンジン101と対話することができるようにする1つまたは複数のデバイス、または、例外エンジン101が1つまたは複数の他のコンピューティング・デバイスと通信することができるようにする任意のデバイス(例えばネットワーク・カード、モデムなど)、あるいはこれらの組合せと通信してもよい。このような通信は、I/Oインターフェース119を介して行うことができる。さらに、例外エンジン101は、ローカル・エリア・ネットワーク(LAN)、汎用ワイド・エリア・ネットワーク(WAN)、または公衆通信ネットワーク(例えばインターネット)、あるいはこれらの組合せなどの1つまたは複数のネットワークと、ネットワーク・アダプタ109を介して通信することができる。図のように、ネットワーク・アダプタ109は、バス107を介してコンピュータ・デバイス101の他の構成要素と通信する。
メモリ・システム105は、プロセッサ103上で実行可能な複数のアプリケーションを格納するように構成される。例えば、メモリ・システム105は、オペレーティング・システムとアプリケーション・プログラムとを含み得る。
例外エンジン101は、データ・ソース121に接続することができる。データ・ソース121への接続は、有線接続、または、インターネットなどの公衆通信ネットワーク、ワイド・エリア・ネットワーク(WAN)などのプライベート・ネットワーク、またはこれらの組合せであってもよいネットワーク113を介してもよい。
データ・ソース121は、データ・セットの格納またはデータ・セットの処理あるいはその両方のためのストレージ・システムを含み得る。データ・ソース121は、データ・ソース121に格納されているデータ・セットにおけるデータ品質例外を特定または検出し、データ品質例外を例外エンジンに自動的に報告するように構成することができる。
例外エンジン101は、技術サポート・システム123A〜Nに接続することができる。技術サポート・システム123A〜Nへの接続は、有線接続を介して、またはインターネットなどの公衆通信ネットワーク、ワイド・エリア・ネットワーク(WAN)などのプライベート・ネットワークまたはこれらの組合せであってもよいネットワーク115を介してもよい。
技術サポート・システム123A〜Nは、例外エンジン101からデータ品質例外を受信し、受信したデータ品質例外のために技術的修復を提供するように構成された処理デバイスを含み得る。技術サポート・システム123A〜Nは、1つまたは複数の技術タスクを有する。例えば、技術サポート・システム123Aは、事前定義済みの場所、例えばネバダ州にあるデータ・ソース121のデータ・セットに起こった、または発生したデータ品質例外のために技術的修復を提供する技術タスクを有してもよい。
メモリ・システム105は、データ品質例外を例外グループに割り当てるため、および例外グループ内の例外の技術的修復を提供する役割を担う複数の技術サポート・システム123A〜Nのうちの技術サポート・システムに、少なくとも1つの技術タスクを使用して各例外グループを関連付けるためのグループ化規則125を格納するように構成することができる。例えば、グループ化規則125は、1つまたは複数のブール条件を含むブール演算式を含んでもよい。
メモリ・システム105は、プロセッサ103上で実行されると本明細書に記載の方法の少なくとも一部を実行することができる命令を格納するように構成することができる。
データ処理システム100の動作について、図2および図3を参照しながら詳細に説明する。
図2は、データ処理システム100においてデータ品質例外を処理する方法を示すフローチャートである。
ステップ201で、例外エンジン101がデータ・ソース121からデータ・ソースのデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信し得る。例えば、第1の記述は、データ・ソース121内のデータ・セットの場所を示すIDなどの、データ・セットを示す標識と、データ・ソース121における第1のデータ品質例外の発生時刻と、第1のデータ品質例外の影響を受けるデータ・セット内のデータの量とのうちの少なくとも1つを含み得る。第1の記述は、第1のデータ品質例外を検出または特定するためにデータ・ソース121によって使用される例外検出アルゴリズムをさらに含み得る。例えば、第1のデータ品質例外がデータ・セット内の重複例外を示している場合、第1の記述はデータ・ソース121がデータ品質例外を特定するために使用した閾値と条件とを提供してもよい。閾値は、データ・セットにおいて許容される重複の最大数であってよく、条件は「>」演算子の使用であってもよい。
第1の記述は、第1のデータ品質例外を記述する例外属性値を示してもよい。例えば、データ・セット内に重複(無効値または欠損値)例外があることを示すために値1をとり得る、「重複」(「無効」または「欠損」あるいはその両方)などの属性である。
第1の記述は、コンピュータ・ファイルまたはデータ・テーブルあるいはその両方として受信することができる。
ステップ203で、例外エンジン101は、第1のデータ品質例外を第1の記述を使用して少なくとも第1の例外グループに割り当てるため、および1つまたは複数の技術タスクのうちの第1の技術タスクを使用して第1の例外グループを複数の技術サポート・システム123A〜Nのうちの第1の技術サポート・システムに関連付けるために、グループ化規則を使用(または、第1の記述の少なくとも一部、例えば「「重複」==1の場合」のような条件に関するグループ化規則を適用)してもよい。関連付けは、第1の例外グループの記述を、第1の例外グループ内の例外の技術的修復を提供するために技術サポート・システム123A〜Nのうちの1つにルーティングすることができるように、技術サポート・システム123A〜Nの1つまたは複数の技術タスクを考慮に入れて行うことができる。
例えば、技術サポート・システム123Aはデータ・セットにおけるソフトウェア関連例外の技術的修復を提供する技術タスクを有してもよく、一方、技術サポート・システム123Bおよび123Cはデータ・セットの内容に関連するデータ品質例外の技術的修復を提供する技術タスクを有してもよく、技術サポート・システム123Dないし123Gは、例えばヨーロッパで起こるデータ品質例外など、事前定義済みの場所で発生するデータ品質例外の技術的修復を提供する技術タスクを有してもよい。第1のデータ品質例外がドイツで格納されているデータ・セットのサイズに関連する場合、例えばデータ・セットのサイズが大きすぎる場合、その例外はソフトウェアにもデータ・セットの内容にも関連しないため、例外エンジン101はその第1のデータ品質例外を、場所依存データ品質例外カテゴリを含む例外グループに割り当ててもよい。この場合、技術サポート・システム123Dないし123Gのうちの選択された1つまたは複数が、第1の例外グループ、すなわち第1のデータ品質例外のための技術的修復を提供してもよい。技術サポート・システム123Dないし123Gのうちの技術サポート・システム123Dを、ランダムに選択してよく、または他の技術サポート・システム123Eないし123Gと比較して最も小さい負荷を有する技術サポート・システムであるものとして選択してもよい。
ステップ205で、例外エンジン101は、第1の例外グループ内の例外の技術的修復を提供するために、すなわち、少なくとも第1のデータ品質例外の技術的修復を提供するために、第1の記述の少なくとも一部を技術サポート・システム、例えば選択された123Dにルーティングすることができる。
例えば、選択された技術サポート・システム123Dが第1の技術タスクを有するか否かを判断するために、例外エンジン101は、第1のデータ品質例外の影響を受け、第1の技術タスクに対応するデータ・セット内の第1のデータ項目を示す標識を取得するための要求(例えば、データ・セットの場所に関するSQLのWHERE条件を含み得るSQLステートメント)をデータ・ソース121に送信してもよい。例えば、第1のデータ品質例外の影響を受けるデータ・セットを複数の場所、例えば複数の国にわたって分割して格納してよく、例えば第1の技術タスクは、第1のデータ品質例外の影響を受けてヨーロッパで格納されているデータ項目の技術的修復を提供する能力を第1の技術サポート・システムに与えるため、第1のデータ項目を第1の技術タスクに対応する所定の場所、例えばヨーロッパに配置または格納してもよい。言い換えると、第1の技術タスクは、第1の技術サポート・システムがヨーロッパで格納されているデータ上で発生する例外の技術的修復を提供することができることを示す。
この要求に応答して、例外エンジン101は第1のデータ項目を示す応答メッセージを受信することができ、その際、第1の技術サポート・システムは第1のデータ項目にアクセスすることができる。例えば、メッセージが第1のデータ項目の数が0より大きいことを示している場合、第1の技術サポート・システムは第1のデータ品質例外の技術的修復を提供してよく、したがってルーティングが行われてもよい。
別の例では、第1の例外グループの第1の技術サポート・システムへの関連付けは、第1の記述を使用して行われ、第1の記述は、第1のデータ品質例外の影響を受け、第1の技術タスクに対応するデータ・セットの第1のデータ項目の数を示す標識を含み得る。例えば、第1の記述は、データ・セットがヨーロッパで格納されているN個のデータ項目とアフリカで格納されているM個のデータ項目とを含むことを示してもよい。項目数に関するこの情報に基づいて、第1の例外グループと、例えばヨーロッパで格納されているデータの技術的修復を提供することができる第1の技術サポート・システムとの関連付けを行うことができる。
本方法の実装は、図4に示すようないくつかの構成要素の相互作用に基づいてもよい。図4は、図1のデータ処理システム100の詳細な構造を有するデータ処理システム400を示す。
データ処理システム400は、例外プロバイダとデータベース431とを含む(例えば121のような)データ・ソース421を含む。例えばInfoSphere(R)情報アナライザ411など、例外を生成または特定する多くのアプリケーションがあり、データ品質規則に従って妥当性が確認されないデータ・レコードは例外と見なされる。InfoSphere(R)MDMサーバ413では、無効なアドレス情報または重複項目が例外の例である。これらのアプリケーションのそれぞれは、特定された例外を要約する例外記述子(ED)をサービス・インターフェースまたは通知機構を介して提供する場合、例外プロバイダであり得る。ED(例えば第1の記述)は、例外のコンテキスト(例えばデータ・ソース、時刻など)を記述する属性を含むことができ、適切な固有キーのコピーを含むか、または単に識別子によってデータ・レコードを表してもよい。データ・レコードの代わりに、例外は他の仕組み、例えばデータ・マッピング、規則、ETLフローなども指し得る。
データ処理システム400は、例外マネージャ401(例えば101)を含む。例外マネージャ401は、例えば、技術サポート・システム423の技術タスクを示すことができるデータ・サポート改善タスク・リストによって表される、技術サポート・システム423の編成に適するように、データ・ソース421の例外プロバイダから受信した例外をグループ化する役割を担うことができる。例外マネージャ401は、これらの例外グループ(EG)を、さらに処理するために改善タスク・リストを含む対応するターゲット環境または技術サポート・システム423にルーティングする役割も担うことができる。必要なグループ化およびルーティングは、改善規則によって定義することができる。改善規則(Remediation Rule:RR)は、3つの部分からなってもよい。
ルーティングは、処理エンジンにおいて実行されるデータ処理によって行われる。例外マネージャ401は、例外グループの状態を観察し、完全に解消された例外グループと例外記述子とを示すイベントを発行する。これは、例えば補正されたデータを目的システムにアップロードするETLジョブを実行するなど、補正されたデータをさらに処理する必要がある場合に重要である。
例外マネージャ401は、任意により、根本原因アナライザ403部およびゲート・キーパ部405を含んでもよい。根本原因アナライザ403は、さらなる処理のために各技術サポート・システム423に大量の例外が分散されるのを防ぐために、例外の根本原因を検出することができる任意選択の構成要素である。根本原因が検出された場合、元の例外の代わりに根本原因のみが技術サポート・システム423に送信される。
ゲート・キーパ405は、EG内の例外の数が、様々な例外特性、例えばEG内の例外の数、単一のED内の例外の数、単一のデータ・ソース内の例外の数などに関する閾値を超えないことを検証することが可能な任意選択の構成要素である。これらの閾値の1つを超えた場合、ゲート・キーパ405は、EG処理を阻止し、適切な例外を生成することができる。
複数の技術サポート・システムが例外グループを処理するのに必要な編成構造を形成する。例えば、技術サポート・システム423が地理的領域別に編成される場合、各改善タスク・リストは、処理のために特定の領域の例外を表すEGを提供する。改善タスク・リストは、システム構成要素がアクセスすることができ、EG改善状況を改善データベース409に維持する。
改善タスク・リストのEGが処理される場合、技術サポート・システム423は例外を修正するために複数の改善ツール425を使用することができる。この修正は、様々な改善ツール、例えば、リレーショナル・データ・エディタ、InfoSphere(R) Fast Track、Reference Data Management Hub、マスタ・データ改善ツールなどを使用して、例外の種類に応じて例えばデータ・レコード、規則、データ・マッピング、スキーマ・マッピング、ETLジョブなどを補正することによって実現することができる。
データ処理システム400は、既存のEGおよびEG改善状況の報告の作成および格納を可能にし得る改善モニタ407をさらに含む。
データ処理システム400は、例外、ED、EG、改善規則および改善状況情報の生成、更新および取り出しを行うための永続的なモデルおよびインターフェースを提供することができる改善DB409をさらに含む。
改善規則(すなわち、上記で定義したグループ化規則)は、改善規則エディタにより編集し、改善データベース409に格納することができる。改善規則エディタは、少なくとも以下の改善規則部分の定義を可能にするグラフィカル・ユーザ・インターフェース(GUI)を含み得る。
EDグループ化条件:EGを定義する(例えば第1の記述の)ED属性値を指定する。EGは、例えば、特定のデータ・ソースの例外を表すEDのみを含む。例えば、指定されたデータ・ソースにおける、指定されたアプリケーションによって検出された例外のみが、これらの規則によって生成された例外グループ・インスタンスのメンバとなる。
EGルーティング情報:処理エンジン上で実行されるデータ処理定義、または処理エンジンにすでに導入されている改善処理427へのリンクである。処理が、EGをルーティングするために追加の属性、例えば領域名または例外の種類を必要とする場合、これらの属性もルーティング情報で定義される。
例外フィルタ条件:これは、データ・レコード・レベルのフィルタである。例えば、特定の地理的領域のデータ・レコードのみを選択するために、SQLのWHERE条件を指定することができる(すなわち、技術サポート・システムが技術的修復を提供し得るデータを含む場所に関連する第1の技術タスクに関する条件)。
さらに、EG内のデータ・レコードの数(またはその他の問題)を制限するために、改善規則において分割閾値を指定することができる。分割閾値は、EDが完全な問題情報、例えば、データ・レコード固有キーを直接含む場合にのみ適用される。EG内の例外の数が分割閾値を超える場合、同じ改善規則によって複数のEGが生成され、各EGは、分割閾値によって定義される制限された数の例外のみを有する。
ステップ501で例外プロバイダからEDを受信した後、例外マネージャ401は図4に示す残りのステップを実行することができる。まず、ステップ503で、異なる改善方策を必要とするより高次の問題により例外が生成されないようにするために、利用可能であれば自動根本原因分析が行われる。例えば、1つの不正なフィールド・マッピングの結果、多くの不正なデータ値が生じる可能性があるが、各データ値を補正するのではなく、そのマッピング問題を補正すべきである。根本原因アナライザ403は、受信したEDに基づいて、根本原因を検出し、ステップ505で適切なEDを返す。根本原因アナライザ403は、入力として提供されたのと全く同じEDの組を返すか、または新たに検出された根本原因を表すEDの新たな組を返す。例外マネージャ401は、根本原因アナライザ403によって返されたEDを使用して処理を続行する。次のステップ507で、例外マネージャ401は、例外グループを生成するために、EDに改善規則を適用する。規則で定義されているEDグループ化条件およびED属性を使用して、EGに含めるEDを選択する。フィルタ条件により例外プロバイダを呼び出すことによって、固有キーのないすべてのEDは空でないデータ・レコードの組を表すようにされる。ED参照に加えて、EGは改善規則および例外フィルタで定義またはリンクされているデータ処理が必要とするルーティング情報を含む。各改善規則についてEGが生成される。しかし、EDがデータ・レコードの固有キーを直接含む場合、グループ化条件における分割閾値を使用して、制限された数の固有キーを含む、同じ改善規則に基づく複数のEGを生成することができる。生成されたEGは、改善データベース409に格納される。ゲート・キーパ405部が起動される場合、次のステップ509でゲート・キーパ405が呼び出され、各EGで表される例外の数を下流の構成要素によって管理することができるようにする。ステップ511で、ゲート・キーパ405は許容EGを返すとともに、処理することができないEGのために新たな例外を生成する。このような例外を修正するための適切な改善規則およびデータ処理が存在する。最後のステップ513で、例外マネージャはターゲット環境または技術サポート・システム423にEGを送信する。ターゲット環境または技術サポート・システム423は、改善規則ルーティング情報で定義またはリンクされているデータ処理を開始し、各処理インスタンスにEGを渡す。
本明細書で使用する「コンピュータ可読記憶媒体」は、コンピューティング・デバイスのプロセッサによって実行可能な命令を格納することができる任意の有形記憶媒体を含む。コンピュータ可読記憶媒体は、コンピュータ可読非一時的記憶媒体とも呼ばれることがある。コンピュータ可読記憶媒体は、有形コンピュータ可読媒体とも呼ばれることがある。ある実施形態では、コンピュータ可読記憶媒体は、コンピューティングデバイス・のプロセッサによるアクセスが可能なデータを格納することが可能な場合もある。コンピュータ可読記憶媒体の例としては、フロッピー(R)・ディスク、磁気ハードディスク・ドライブ、ソリッド・ステート・ハードディスク、フラッシュ・メモリ、USBサム・ドライブ、ランダム・アクセス・メモリ(RAM),読取り専用メモリ(ROM)、光ディスク、磁気−光ディスク、およびプロセッサのレジスタ・ファイルがあるが、これらには限定されない。光ディスクの例としては、コンパクト・ディスク(CD)およびデジタル多用途ディスク(DVD)、例えばCD−ROM、CD−RW、CD−R、DVD−ROM、DVD−RW、またはDVD−Rディスクがある。コンピュータ可読記憶媒体という用語は、ネットワークまたは通信回線を介してコンピュータ・デバイスによってアクセス可能な様々な種類の記録媒体も指す。例えば、モデムを介して、インターネットを介してまたはローカル・エリア・ネットワークを介してデータを取り出すことができる。コンピュータ可読媒体上で具現化されているコンピュータ実行可能コードを、無線、有線、光ファイバ・ケーブル、RFなどを含むがこれらには限定されない任意の適切な媒体または、これらの任意の組合せを使用して送信することができる。
コンピュータ可読信号媒体は、例えば、ベースバンドの形態で、または搬送波の一部としてコンピュータ実行可能コードが具現化されている伝播データ信号を含み得る。そのような伝播信号は、電磁気、光またはこれらの任意の適切な組合せを含むがこれらには限定されない様々な形態のうちの任意の形態をとり得る。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置またはデバイスによる使用のための、またはそれらと接続している、プログラムを伝達、伝播、または搬送することができる、任意のコンピュータ可読媒体とすることができる。
「コンピュータ・メモリ」または「メモリ」は、コンピュータ可読記憶媒体の一例である。コンピュータ・メモリは、プロセッサが直接アクセス可能な任意のメモリである。「コンピュータ・ストレージ」または「ストレージ」は、コンピュータ可読記憶媒体の他の例である。コンピュータ・ストレージは、任意の不揮発性コンピュータ可読記憶媒体である。ある実施形態では、コンピュータ・ストレージは、コンピュータ・メモリでもあってよく、その逆もあり得る。
本明細書で使用する「プロセッサ」は、プログラムまたは機械可読命令またはコンピュータ実行可能コードを実行することができる電子構成要素を包含する。「プロセッサ(a processor)」を含むコンピューティング・デバイスと言う場合、複数のプロセッサまたは処理コアを含み得るものと解釈すべきである。プロセッサは、例えば、マルチコア・プロセッサであってもよい。プロセッサは、単一のコンピュータ・システム内のプロセッサの集合、または複数のコンピュータ・システムに分散されたプロセッサの集合も指し得る。コンピューティング・デバイスという用語は、それぞれが1つまたは複数のプロセッサを含むコンピューティング・デバイスの集合またはネットワークを指し得るものとも解釈すべきである。コンピュータ実行可能コードは、同じコンピューティング・デバイス内にあるか、または複数のコンピューティング・デバイスに均一に分散されていてもよい、複数のプロセッサによって実行されてもよい。
コンピュータ実行可能コードは、プロセッサに本発明の態様を実行させる機械可読命令またはプログラムを含み得る。本発明の各態様のための演算を行うコンピュータ実行可能コードは、Java(R)、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれ、機械実行可能命令にコンパイルされるものであってよい。ある例では、コンピュータ実行可能コードは、高水準言語の形態またはプリコンパイルされた形態とすることができ、機械実行可能命令をオン・ザ・フライで生成するインタプリタとともに使用することができる。
コンピュータ実行可能コードは、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、または一部がユーザのコンピュータ上で、または一部がユーザのコンピュータ上で一部がリモート・コンピュータ上で、または全体がリモート・コンピュータまたはサーバ上で実行されてよい。後者の場合、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む、任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または接続は外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)行ってもよい。
本発明の各態様について、本発明の各実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品を示すフローチャート図またはブロック図あるいはその両方を参照しながら説明している。フローチャート、図、またはブロック図あるいはこれらの組合せの各ブロックまたはブロックの一部は、適用可能な場合、コンピュータ実行可能コードの形態のコンピュータ・プログラム命令によって実装可能であることがわかるであろう。処理資源の量は、コンピュータ・システムに含まれる、CPU、メモリ、およびネットワーク帯域幅などの物理構成要素のそれぞれの使用度およびそれらのメモリ・コストを示し得る。また、互いに矛盾しない場合、異なるフローチャート、図またはブロック図あるいはこれらの組合せのブロックを組み合わせてもよいものと理解される。これらのコンピュータ・プログラム命令は、コンピュータまたはその他のプログラマブル・データ処理装置のプロセッサによって実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで規定されている機能/動作を実装する手段を生み出すように、汎用コンピュータ、専用コンピュータ、またはその他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。
これらのコンピュータ・プログラム命令は、コンピュータ可読媒体に記憶された命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで規定されている機能/動作を実装する命令を含む製造品を実現するように、コンピュータ可読媒体に記憶され、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイスに対して特定の方式で機能するように指示することができるものであってもよい。
コンピュータ・プログラム命令は、コンピュータ、またはその他のプログラマブル装置上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで規定されている機能/動作を実装するための処理を実現するように、コンピュータ実装処理を実現すべく、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイスにロードされ、コンピュータ、その他のプログラマブル装置、またはその他のデバイス上で一連の動作ステップを実行させるものであってもよい。
当業者ならわかるように、本発明の各態様は、装置、方法またはコンピュータ・プログラム製品として具現化可能である。したがって、本発明の各態様は、全体がハードウェア実施形態、全体がソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形をとることができ、これらはすべて本明細書で「回路」、「モジュール」または「システム」と一般的に呼ぶ場合がある。また、本発明の各態様は、コンピュータ実行可能コードが具現化されている1つまたは複数のコンピュータ可読媒体で具現化されたコンピュータ・プログラム製品の形をとり得る。
組み合わされた実施形態が相互に矛盾しない限り、上述の各実施形態のうちの1つまたは複数を組み合わせてもよいものと理解される。
100 データ処理システム
101 例外エンジン
103 プロセッサ
105 メモリ
107 バス
109 ネットワーク・アダプタ
111 ストレージ
113 接続
115 接続
119 I/Oインターフェース
121 データ・ソース
123A〜N 技術サポート・システム
125 グループ化規則
400 データ処理システム
401 例外マネージャ
403 根本原因アナライザ
405 ゲート・キーパ
407 改善モニタ
409 改善DB
411 情報アナライザ
413 MDMサーバ
421 データ・ソース
423 技術サポート・システム
425 改善ツール
427 改善処理
431 データベース

Claims (13)

  1. データ処理システム(100)においてデータ品質例外を処理する方法であって、前記データ処理システム(100)は1つまたは複数のデータ・ソース(121)にアクセスすることができ、前記データ処理システム(100)は、前記データ品質例外の技術的修復を提供するための複数の技術サポート・システム(123A〜N)にさらにアクセスすることができ、前記複数の技術サポート・システム(123A〜N)は、1つまたは複数の事前定義済みの技術タスクを有し、前記方法は、
    データ品質例外を例外グループに割り当てること、および前記1つまたは複数の事前定義済み技術タスクのうちの少なくとも1つの技術タスクを使用して、前記例外グループにおける例外の技術的修復を提供する役割を担う前記複数の技術サポート・システムのうちの1つの技術サポート・システムに各例外グループを関連付けることのために、事前定義済みグループ化規則(125)を提供することと、
    前記データ処理システム(100)の例外エンジン(101)によって、前記1つまたは複数のデータ・ソースのうちの少なくとも第1のデータ・ソース(121)から、前記第1のデータ・ソース(121)のデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信することと、
    前記第1の記述を使用して前記第1のデータ品質例外を少なくとも第1の例外グループに割り当てるため、および前記1つまたは複数の技術タスクのうちの第1の技術タスクを使用して前記第1の例外グループを前記複数の技術サポート・システムのうちの第1の技術サポート・システムに関連付けるために前記グループ化規則を使用することと、
    前記例外エンジン(101)によって、前記第1の例外グループにおける例外の技術的修復を提供するために前記第1の記述の少なくとも一部を前記第1の技術サポート・システムにルーティングすることと
    を含む、方法。
  2. 前記第1の例外グループを前記第1の技術サポート・システムに割り当てることは、
    前記第1のデータ品質例外の影響を受けるとともに前記第1の技術タスクに対応する前記データ・セットの第1のデータ項目を示す標識を取得するために、前記データ・ソースに要求を送信することと、
    応答が前記第1のデータ項目を示す前記要求に対する応答メッセージを受信することと
    を含む、請求項1に記載の方法。
  3. 前記第1の例外グループを前記第1の技術サポート・システムに関連付けることは、前記第1の記述を使用して行われ、前記第1の記述は、前記第1のデータ品質例外の影響を受けるとともに前記第1の技術タスクに対応する前記データ・セットの第1のデータ項目を示す標識を含む、請求項1または2に記載の方法。
  4. 前記第1のデータ品質例外を前記第1の記述を使用して第2の例外グループに割り当てるため、および前記1つまたは複数の技術タスクのうちの第2の技術タスクを使用して、前記第2の例外グループを前記複数の技術サポート・システムのうちの第2の技術サポート・システムに関連付けるために、前記グループ化規則を使用することと、
    前記第1のデータ品質例外の影響を受けるとともに前記第2の技術タスクに対応する前記データ・セットのデータ項目を示す標識を取得するために、前記データ・ソースに要求を送信することと、
    前記要求に応答して、ゼロ項目を示す応答を受信することと、
    前記第2の例外グループにおける例外の技術的修復を提供するために前記第2の技術サポート・システムに前記第1の記述の少なくとも一部が前記例外エンジンによってルーティングされるの防ぐことと
    をさらに含む、請求項2に記載の方法。
  5. ルーティングの前に、
    前記データ処理システムの第2のデータ・ソースから、前記第2のデータ・ソースのデータ・セットにおける第2のデータ品質例外の第2の記述を受信することと、
    前記第2の記述を使用して前記第2のデータ品質例外を前記第1の例外グループに割り当てるために前記グループ化規則を使用することと
    をさらに含み、ルーティングすることは、前記例外エンジンによって前記第1の記述の少なくとも一部および前記第2の記述を前記第1の技術サポート・システムにルーティングすることを含む、請求項1ないし4のいずれかに記載の方法。
  6. 前記グループ化規則は、前記第1の記述の少なくとも一部と前記第1の技術タスクとに関する条件を含む、請求項1ないし5のいずれかに記載の方法。
  7. 前記第1の記述は、
    前記データ・セットを示す標識と、
    前記第1のデータ・ソースにおける前記第1のデータ品質例外の発生時刻と、
    前記第1のデータ品質例外の影響を受ける前記データ・セット内のデータの量と、
    前記第1のデータ品質例外を検出するために使用される例外検出アルゴリズムと、
    前記データ・セットのデータ・タイプと、
    前記第1のデータ品質例外の技術的記述と、
    前記データ・セットにおける最後の変更時刻を示す標識と、
    のうちの少なくとも1つを含む、請求項1ないし6のいずれかに記載の方法。
  8. ルーティングの前に、
    前記処理システムの第2のデータ・ソースから前記第2のデータ・ソースのデータ・セットにおける少なくとも第2のデータ品質例外の第2の記述を受信することであって、前記第1および第2の記述が、前記第1および第2のデータ品質例外をそれぞれ記述する第1および第2の例外属性値を示す、前記受信することと、
    前記第2の記述を使用して前記第2のデータ品質例外を前記第1の例外グループに割り当てるために前記グループ化規則を使用することと、
    前記第1および第2の例外属性値を評価し、それに基づいて前記第1および第2の例外属性に関連する依存関係例外属性を判断することと、
    前記依存関係例外属性に関連付けられた根本データ品質例外を判断することと、
    前記第1および第2の記述を使用して前記根本データ品質例外の記述を提供することと
    をさらに含み、ルーティングが、前記根本データ品質例外の技術的修復を提供するために前記例外エンジンによって前記記述の少なくとも一部を前記第1の技術サポート・システムにルーティングすることを含み、それによって前記第1および第2のデータ品質例外の前記技術的修復を提供する、請求項1ないし7のいずれかに記載の方法。
  9. 前記第1のデータ品質例外の影響を受ける前記データ・セットの第1のデータ項目の数を判断することと、
    第1のデータ項目の数が所定の最大項目数より多いと判断することと、
    前記第1の例外グループを少なくとも2つの例外サブグループに分割し、前記第1の技術タスクを使用して前記少なくとも2つの例外サブグループを少なくとも前記第1の技術サポート・システムに関連付けることと、
    前記少なくとも2つの例外サブグループのそれぞれについて記述を生成することと、
    前記少なくとも2つの例外サブグループに技術的修復を提供するために、前記記述を少なくとも前記第1の技術サポート・システムにルーティングすることと
    をさらに含む、請求項1ないし8のいずれかに記載の方法。
  10. 前記ルーティングが事前定義済みの時間間隔で繰り返される、請求項1ないし9のいずれかに記載の方法。
  11. 前記第1のデータ・ソースと前記第1の技術サポート・システムのそれぞれが、前記データ処理システムのネットワークのエンドホスト・システムを含む、請求項1ないし10のいずれかに記載の方法。
  12. 請求項1ないし11のいずれか一項に記載の方法の前記方法ステップを実行するためのコンピュータ実行可能命令を含む、コンピュータ・プログラム製品。
  13. データ処理システムにおいてデータ品質例外を処理するための例外エンジンであって、前記データ処理システムは1つまたは複数のデータ・ソースにアクセスすることができ、前記データ処理システムは、前記データ品質例外の技術的修復を提供するための複数の技術サポート・システムにさらにアクセスすることができ、前記複数の技術サポート・システムは、1つまたは複数の事前定義済みの技術タスクを有し、データ品質例外を例外グループに割り当てることと、前記例外グループにおける例外の技術的修復を提供する役割を担う前記1つまたは複数の事前定義済み技術タスクのうちの少なくとも1つの技術タスクを使用して各例外グループを前記複数の技術サポート・システムのうちの技術サポート・システムに関連付けることとのために、事前定義済みグループ化規則が提供され、前記例外エンジンは、
    前記1つまたは複数のデータ・ソースのうちの少なくとも第1のデータ・ソース(121)から、前記第1のデータ・ソース(121)のデータ・セットにおける少なくとも第1のデータ品質例外の第1の記述を受信し、
    前記第1の記述を使用して前記第1のデータ品質例外を少なくとも第1の例外グループに割り当てること、および前記1つまたは複数の技術タスクのうちの第1の技術タスクを使用して前記第1の例外グループを前記複数の技術サポート・システムのうちの第1の技術サポート・システムに関連付けることのために前記グループ化規則を使用し、
    前記第1の例外グループにおける例外の技術的修復を提供するために前記第1の記述の少なくとも一部を前記第1の技術サポート・システムにルーティングする
    ように構成された、例外エンジン。
JP2016575685A 2014-07-08 2015-07-07 データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン Expired - Fee Related JP6534402B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1412121.4 2014-07-08
GB1412121.4A GB2528066A (en) 2014-07-08 2014-07-08 A method for processing data quality exceptions in a data processing system
PCT/IB2015/055128 WO2016005898A1 (en) 2014-07-08 2015-07-07 Method for processing data quality exceptions in data processing system

Publications (2)

Publication Number Publication Date
JP2017521778A true JP2017521778A (ja) 2017-08-03
JP6534402B2 JP6534402B2 (ja) 2019-06-26

Family

ID=51410790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016575685A Expired - Fee Related JP6534402B2 (ja) 2014-07-08 2015-07-07 データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン

Country Status (5)

Country Link
US (1) US9697066B2 (ja)
JP (1) JP6534402B2 (ja)
CN (1) CN106537350A (ja)
GB (1) GB2528066A (ja)
WO (1) WO2016005898A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2528066A (en) 2014-07-08 2016-01-13 Ibm A method for processing data quality exceptions in a data processing system
US20160019534A1 (en) * 2014-07-16 2016-01-21 Mastercard International Incorporated Systems and Methods for Monitoring Performance of Payment Networks Through Distributed Computing
CN107688504A (zh) * 2016-08-05 2018-02-13 中兴通讯股份有限公司 数据管理异常的补救方法及系统
US11106643B1 (en) * 2017-08-02 2021-08-31 Synchrony Bank System and method for integrating systems to implement data quality processing
CN109828883B (zh) * 2017-11-23 2023-03-17 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置
CN110109768B (zh) * 2019-03-29 2023-02-17 创新先进技术有限公司 一种数据质量巡检方法及装置
CN110597649B (zh) * 2019-09-06 2023-06-27 创新先进技术有限公司 一种数据处理方法、系统及装置
CN111459646B (zh) * 2020-05-09 2023-03-21 南京大学 基于管道模型与任务合并的大数据质量管理任务调度方法
CN113760945A (zh) * 2020-08-11 2021-12-07 北京沃东天骏信息技术有限公司 一种审核sql语句的方法及装置
CN112486767B (zh) * 2020-11-25 2022-10-18 中移(杭州)信息技术有限公司 云资源的智能监控方法、系统、服务器以及存储介质
US11789967B2 (en) 2021-05-07 2023-10-17 Bank Of America Corporation Recovering from data processing errors by data error detection and correction
US11734238B2 (en) 2021-05-07 2023-08-22 Bank Of America Corporation Correcting data errors for data processing fault recovery
CN114190916B (zh) * 2021-12-07 2023-05-23 河南省儿童医院郑州儿童医院 一种基于织物传感器的儿童呼吸监控方法及系统
CN116401090B (zh) * 2023-04-23 2024-01-30 中航信移动科技有限公司 一种基于数据更新的异常数据源确定方法
CN116383083B (zh) * 2023-04-23 2024-01-12 中航信移动科技有限公司 基于多接口连接的异常数据源确定方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344012A (ja) * 2005-06-09 2006-12-21 Toshiba Corp データ入力システム、データ入力プログラム
US20080021822A1 (en) * 2006-07-18 2008-01-24 Jpmorgan Chase Bank, N.A. Method and system for receivables management
US20130275170A1 (en) * 2012-04-13 2013-10-17 International Business Machines Corporation Information governance crowd sourcing

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116759B2 (en) 2003-06-30 2006-10-03 Bellsouth Intellectual Property Corporation Method, system and computer program product for facilitating the analysis of automatic line insulation testing data
US7849062B1 (en) 2005-03-18 2010-12-07 Beyondcore, Inc. Identifying and using critical fields in quality management
US7844641B1 (en) 2005-03-18 2010-11-30 Beyondcore Inc. Quality management in a data-processing environment
US20070179833A1 (en) 2006-01-31 2007-08-02 Infosys Technologies Ltd. Assisted business process exception management
US7251578B1 (en) 2006-03-10 2007-07-31 Yahoo! Inc. Method and system of measuring data quality
US8458148B2 (en) 2009-09-22 2013-06-04 Oracle International Corporation Data governance manager for master data management hubs
US20120159133A1 (en) 2010-12-17 2012-06-21 Microsoft Corporation Business exception management pattern for business processes
US8688625B1 (en) 2010-12-31 2014-04-01 United Services Automobile Association (Usaa) Extract, transform, and load application complexity management framework
US10013439B2 (en) 2011-06-27 2018-07-03 International Business Machines Corporation Automatic generation of instantiation rules to determine quality of data migration
US8666919B2 (en) 2011-07-29 2014-03-04 Accenture Global Services Limited Data quality management for profiling, linking, cleansing and migrating data
US9354968B2 (en) * 2011-09-30 2016-05-31 Johnson Controls Technology Company Systems and methods for data quality control and cleansing
US8577833B2 (en) 2012-01-04 2013-11-05 International Business Machines Corporation Automated data analysis and transformation
CN102629223B (zh) 2012-02-28 2015-04-01 北京搜狐新媒体信息技术有限公司 一种数据修复方法及装置
GB2502768A (en) * 2012-04-12 2013-12-11 Qatar Foundation Correcting database errors
US8751438B2 (en) 2012-04-13 2014-06-10 Verizon Patent And Licensing Inc. Data extraction, transformation, and loading
WO2013187816A1 (en) 2012-06-15 2013-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and a consistency checker for finding data inconsistencies in a data repository
US9195725B2 (en) * 2012-07-23 2015-11-24 International Business Machines Corporation Resolving database integration conflicts using data provenance
GB2505184A (en) * 2012-08-21 2014-02-26 Ibm Checking data quality of an application program by monitoring runtime behaviour
US9576036B2 (en) 2013-03-15 2017-02-21 International Business Machines Corporation Self-analyzing data processing job to determine data quality issues
CN103226499B (zh) 2013-04-22 2016-02-24 华为技术有限公司 一种恢复内部存储器中的异常数据的方法及装置
GB2528066A (en) 2014-07-08 2016-01-13 Ibm A method for processing data quality exceptions in a data processing system
GB201417129D0 (en) 2014-09-29 2014-11-12 Ibm A method of processing data errors for a data processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344012A (ja) * 2005-06-09 2006-12-21 Toshiba Corp データ入力システム、データ入力プログラム
US20080021822A1 (en) * 2006-07-18 2008-01-24 Jpmorgan Chase Bank, N.A. Method and system for receivables management
US20130275170A1 (en) * 2012-04-13 2013-10-17 International Business Machines Corporation Information governance crowd sourcing

Also Published As

Publication number Publication date
WO2016005898A1 (en) 2016-01-14
CN106537350A (zh) 2017-03-22
JP6534402B2 (ja) 2019-06-26
US20160011926A1 (en) 2016-01-14
GB201412121D0 (en) 2014-08-20
GB2528066A (en) 2016-01-13
US9697066B2 (en) 2017-07-04

Similar Documents

Publication Publication Date Title
JP6534402B2 (ja) データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン
US10108914B2 (en) Method and system for morphing object types in enterprise content management systems
US20190057101A1 (en) Efficient deletion of archive records after expiration of a tenant-defined retention period
JP2021515330A (ja) データオブジェクトストアのためのデータ保持ハンドリング
US10949395B2 (en) Cross objects de-duplication
US10303393B2 (en) Technology for governance of data retention and transfer
US20130117319A1 (en) Objects in a storage environment for connected applications
WO2013038489A1 (ja) 計算機システム、クライアント計算機の管理方法及び記憶媒体
US11431572B2 (en) Semantic detection and resolution of conflicts and redundancies in network function virtualization policies
JP5745932B2 (ja) グラフデータに写像の像であるオブジェクトに対する操作を反映する方法、プログラム、および、システム
US10509641B2 (en) Optimizing feature deployment based on usage pattern
US20220197950A1 (en) Eliminating many-to-many joins between database tables
US20230040635A1 (en) Graph-based impact analysis of misconfigured or compromised cloud resources
US20230281179A1 (en) Load Balancing For A Storage System
US9300522B2 (en) Information technology asset management
US11082284B1 (en) Applying configurations to applications in a multi-server environment
Henze et al. Complying with data handling requirements in cloud storage systems
CN106095511A (zh) 一种服务器升级方法和装置
CN110083509B (zh) 一种日志数据的规整方法及装置
US8015207B2 (en) Method and apparatus for unstructured data mining and distributed processing
US20160140191A1 (en) Method and apparatus for the storage and retrieval of time stamped blocks of data
JPWO2020152845A1 (ja) セキュリティ情報分析装置、システム、方法およびプログラム
US11561979B2 (en) Dynamically detecting and correcting errors in queries
US11823133B1 (en) Core decision engine for managing software development lifecycles
CN111488242B (zh) 将条带化备份加标签和路由到重复数据删除设备上的单个重复数据删除实例的方法和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190528

R150 Certificate of patent or registration of utility model

Ref document number: 6534402

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees