JP6720610B2

JP6720610B2 - 情報処理システム、情報処理方法、及び、プログラム

Info

Publication number: JP6720610B2
Application number: JP2016056635A
Authority: JP
Inventors: 貢三浦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2020-07-08
Anticipated expiration: 2036-03-22
Also published as: JP2017173952A

Description

本発明は、情報処理システム、情報処理方法、及び、プログラムに関し、特に、データの誤りを訂正するための情報処理システム、情報処理方法、及び、プログラムに関する。

機械翻訳では、辞書データとして、複数の属性（アトリビュート）の値から構成され、属性間で依存関係を有するようなデータセットが用いられる。また、個人のプロファイルを利用した様々なサービスにおいても、同様のデータセットが用いられる。

このようなデータセットを扱うシステムにおいて正しい処理を行うためには、正しいデータセットを用いること、すなわち、各属性の値が正しいことが求められる。このため、システムの利用者等は、システムを利用する際に、予め、データセットに含まれる属性の値の誤りを検出し、訂正しておく必要がある。

ここで、利用者等が、データセットに含まれる属性に関する知識を有していない場合、誤りを検出、訂正するための規則を生成することができなかった。また、利用者等が、データセットに含まれる属性に関する知識を有している場合でも、規則を生成することはできるが、規則同士が競合する、或いは、強化し合う場合に、規則の適用の正当性の検証、或いは、規則の適用を制御することは困難であった。このように、利用者等による、データセットに含まれる属性の値の誤り検出、訂正は難しいという問題があった。

関連技術として、特許文献１には、属性間の規則を評価する技術として、データマイニングにおいて抽出されたルールが偶発的ルールかどうかを、分析対象のデータベースを用いて判定するシステムが開示されている。

また、他の関連技術として、特許文献２には、非定型業務である案件の評価を行うためのルール集合を、訓練案件集合を用いて学習し、学習したルール集合を用いて評価案件集合を評価する方法が開示されている。

特開２０１４−１４９７９３号公報特開２００６−０５８９７４号公報

上述のように、複数の属性の値から構成されるデータセットを用いるシステムでは、データセットに含まれる属性の値の誤り検出、訂正は難しいという問題があった。特許文献１に記載された技術は、属性間のルールが偶発的ルールかどうかを検出するものであって、属性の値の誤りの検出や訂正方法を開示するものではない。また、特許文献２にも、属性の値の誤りを検出、訂正する方法は開示されていない。

本発明の目的は、上述の課題を解決し、データセットに含まれる属性の値の誤りを容易に検出、訂正できる、情報処理システム、情報処理方法、及び、プログラムを提供することである。

本発明の一態様における情報処理システムは、学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出する、データ抽出手段と、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成する、規則生成手段と、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出し、出力する、誤り検出部と、を備える。

本発明の一態様における情報処理方法は、学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する。

本発明の一態様におけるプログラムは、コンピュータに、学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、処理を実行させる。

本発明の効果は、データセットに含まれる属性の値の誤りを容易に検出、訂正できることである。

本発明の実施の形態の特徴的な構成を示すブロック図である。本発明の実施の形態における、データ訂正システム１００の構成を示すブロック図である。本発明の実施の形態における、コンピュータにより実現されたデータ訂正システム１００の構成を示すブロック図である。本発明の実施の形態における、学習処理を示すフローチャートである。本発明の実施の形態における、判定処理を示すフローチャートである。本発明の実施の形態における、データセットの例を示す図である。本発明の実施の形態における、条件データ、帰結データ、及び、規則の生成例を示す図である。本発明の実施の形態における、条件データ記憶部１３１に記憶された条件データの例を示す図である。本発明の実施の形態における、帰結データ記憶部１３２に記憶された帰結データの例を示す図である。本発明の実施の形態における、規則記憶部１５０に記憶された規則の例を示す図である。本発明の実施の形態における、関係度の算出例を示す図である。本発明の実施の形態における、総関係度の算出例を示す図である。本発明の実施の形態における、誤り検出・訂正結果の出力画面の例を示す図である。

はじめに、本発明の実施の形態におけるデータセット、及び、誤り検出、訂正のための規則について説明する。

図６は、本発明の実施の形態における、データセットの例を示す図である。図６を参照すると、データセットは、複数の属性の名前（属性名）、及び、当該複数の属性の各々の値（属性値）を含む。図６の例では、属性とその値として、「姓＝鈴木」、「名＝太郎」、「性別＝男性」、及び、「出身校＝ＡＢＣ学園」を含む。以下、属性とその値の組み合わせを属性・値ペア、或いは、単にペア（または要素）とも呼ぶ。なお、データセットは、図６に示すように、さらに、当該データセットの属性の一部の値を用いた見出しを含んでいてもよい。

規則は、後述するように、「条件データ」（または、条件節とも記載する）と「帰結データ」（または、帰結節とも記載する）から構成される、ＩＦ−ＴＨＥＮ型のルールである。「条件データ」は、１以上の属性・値ペアの組み合わせを示す。「帰結データ」は、１つの属性・値ペアを示す。この場合、規則は、例えば、「ＩＦ「名＝太郎」ＴＨＥＮ「性別＝男性」」のように記載される。また、規則は、「名＝太郎」→「性別＝男性」のように記載されてもよい。また、条件データに複数の属性・値ペアが含まれる場合、＆で結合して、「姓＝鈴木＆名＝太郎」のように記載されてもよい。

次に、本発明の実施の形態の構成を説明する。

図２は、本発明の実施の形態における、データ訂正システム１００の構成を示すブロック図である。図２を参照すると、本発明の実施の形態におけるデータ訂正システム１００は、データセット取得部１１０、データ抽出部１２０、データ記憶部１３０、規則生成部１４０、規則記憶部１５０、及び、誤り検出部１６０を含む。データ抽出部１２０（または、節抽出部とも記載する）は、条件データ抽出部１２１（または、条件節抽出部とも記載する）、及び、帰結データ抽出部１２２（または、帰結節抽出部とも記載する）を含む。データ記憶部１３０（または、節記憶部とも記載する）は、条件データ記憶部１３１（または、条件節記憶部とも記載する）、及び、帰結データ記憶部１３２（または、帰結節記憶部とも記載する）を含む。データ訂正システム１００は、本発明の情報処理システムの一実施形態である。

データセット取得部１１０は、利用者や運用者（以下、利用者等と記載する）、或いは、他の装置から、学習対象データセットや判定対象データセットを取得する。ここで、学習対象データセットは、誤り検出、訂正を行うための規則を生成するためのデータセットである。判定対象のデータは、誤り検出、訂正の対象のデータセットである。

条件データ抽出部１２１は、複数の学習対象データセットの各々、及び、判定対象データセットから、条件データを抽出する。ここで、条件データ抽出部１２１は、データセットから、属性・値ペアを全て抽出し、ペアのリストを生成する。そして、条件データ抽出部１２１は、生成したリストに含まれる１以上のペアから成る全組み合わせを、条件データとして定義（抽出）する。条件データに含まれるペアの数は、最小の場合は１、最大の場合はリストに含まれる全ペア数である。

図７は、本発明の実施の形態における、条件データ、帰結データ、及び、規則の生成例を示す図である。例えば、条件データ抽出部１２１は、図７のように、学習対象データセットから、属性・値ペアのリスト（「姓＝鈴木」、「名＝太郎」、「性別＝男性」、「出身校＝ＡＢＣ学園」）を生成する。そして、条件データ抽出部１２１は、条件データとして、属性・値ペアの組み合わせ「姓＝鈴木」、「名＝太郎」、…、「姓＝鈴木＆名＝太郎＆性別＝男性＆出身校＝ＡＢＣ学園」を抽出する。

条件データ抽出部１２１は、抽出した各条件データに、当該条件データを一意に識別可能な条件ＩＤ（Identifier）を付与する。異なるデータセットから生成された条件データであっても、属性・値ペアの組み合わせが同じであれば、同じ条件ＩＤが付与される。ここで、条件データ抽出部１２１は、条件ＩＤとして、属性・値ペアの文字列のハッシュ値を算出してもよい。この場合、条件データを一意に識別できれば、ＭＤ（Message Digest Algorithm）５、ＳＨＡ（Secure Hash Algorithm）−１、ＣＲＣ（Cyclic Redundancy Code）３２等、どのようなハッシュ方式を用いてもよい。

なお、条件データ抽出部１２１は、演算量を削減するために、条件データとして抽出するペアの組み合わせの数を所定数に制限する等のフィルタリングを行ってもよい。

条件データ抽出部１２１は、さらに、各条件データが出現した学習対象データセットの数（出現数）をカウントする。

条件データ記憶部１３１は、条件データ抽出部１２１により生成された条件データを記憶する。図８は、本発明の実施の形態における、条件データ記憶部１３１に記憶された条件データの例を示す図である。条件データ記憶部１３１は、図８に示すように、条件ＩＤ毎に、当該条件ＩＤの条件データの内容（属性・値ペアの組み合わせ）、及び、当該条件データの出現数を記憶する。

帰結データ抽出部１２２は、学習対象の複数のデータセットの各々から、帰結データを抽出する。ここで、帰結データ抽出部１２２は、条件データ抽出部１２１により生成された属性・値ペアのリストにおける各ペアを、帰結データとして定義（抽出）する。

例えば、帰結データ抽出部１２２は、図７のように、帰結データとして、属性・値ペア「姓＝鈴木」、「名＝太郎」、「性別＝男性」、「出身校＝ＡＢＣ学園」を抽出する。

帰結データ抽出部１２２は、条件データと同様に、抽出した各帰結データに、当該帰結データを一意に識別可能な帰結ＩＤを付与する。

帰結データ抽出部１２２は、さらに、各帰結データが出現した学習対象データセットの数（出現数）をカウントする。

帰結データ記憶部１３２は、帰結データ抽出部１２２により生成された帰結データを記憶する。図９は、本発明の実施の形態における、帰結データ記憶部１３２に記憶された帰結データの例を示す図である。帰結データ記憶部１３２は、図９に示すように、帰結ＩＤ毎に、当該帰結ＩＤの帰結データの内容（属性・値ペア）、及び、当該帰結データの出現数を記憶する。

規則生成部１４０は、誤り訂正のための規則を生成する。ここで、規則生成部１４０は、同じ学習対象データセットから抽出された条件データの各々と帰結データの各々とを関連付け、規則として定義（生成）する。

例えば、規則生成部１４０は、図７のように規則を生成する。

なお、規則生成部１４０は、条件データ内の属性・値ペアに帰結データの属性・値ペアが含まれる場合、演算量を削減するために、当該条件データと帰結データとを関連付けた規則の生成を省略してもよい。例えば、「姓＝鈴木」を含む条件データと帰結データ「姓＝鈴木」とを関連付けた規則の生成は省略されてもよい。

規則生成部１４０は、生成した各規則に、当該規則（条件データと帰結データとの組み合わせ）を一意に識別可能な規則ＩＤを付与する。

規則生成部１４０は、さらに、各規則が成立した（規則に係る条件データと帰結データが同時に出現した）学習対象データセットの数（出現数）をカウントする。

規則記憶部１５０は、規則生成部１４０により生成された規則を記憶する。図１０は、本発明の実施の形態における、規則記憶部１５０に記憶された規則の例を示す図である。規則記憶部１５０は、図１０に示すように、規則ＩＤ毎に、当該規則ＩＤの規則の内容（条件ＩＤと帰結ＩＤとの組み合わせ）、当該規則の出現数を記憶する。

規則生成部１４０は、さらに、生成した各規則について、条件データと帰結データとの関係の強さを表す関係度を算出する。ここで、規則生成部１４０は、規則に係る条件データの出現数、帰結データの出現数、及び、当該規則の出現数を用いて、以下のように関係度を算出する。

各条件データ、各帰結データが独立に出現すると仮定した場合、条件ＩＤがＣｉの条件データと帰結ＩＤがＡｊの帰結データが同時に出現する出現数の期待値Ｅ（Ｃｉ、Ａｊ）は、数１式のように算出される。ここで、Ｐ（Ｃｉ）、Ｐ（Ａｊ）は、それぞれ、条件データＣｉ、帰結データＡｊの出現確率である。Ｎ（Ｃｉ）、Ｎ（Ａｊ）は、それぞれ、条件データＣｉ、帰結データＡｊの出現数である。Ｔｃ、Ｔａは、それぞれ、条件データ、帰結データの出現数の総和である。αは、規則の出現数の総和であり、帰結データの出現数の総和Ｔａに等しい。

ここで、条件データＣｉと帰結データＡｊとが完全に独立であれば、条件データＣｉと帰結データＡｊとが同時に出現する出現数（ＣｉとＡｊとで定義される規則の出現数）の実測値（実体値）Ｎ（Ｃｉ、Ａｊ）は、ほぼ、期待値Ｅ（Ｃｉ、Ａｊ）に等しい。すなわち、Ｎ（Ｃｉ、Ａｊ）／Ｅ（Ｃｉ、Ａｊ）は１に近い値を示す。

一方、条件データＣｉと帰結データＡｊとの関係が強ければ、Ｎ（Ｃｉ、Ａｊ）／Ｅ（Ｃｉ、Ａｊ）は１からずれた値を示す。そこで、本発明の実施の形態では、条件データＡｉと帰結データＣｊとで定義される規則Ｒｉ，ｊの関係度Ｓｒ（Ｃｉ、Ａｊ）を数２式のように定義する。

図１１は、本発明の実施の形態における、関係度の算出例を示す図である。例えば、規則生成部１４０は、図７における各規則Ｒｉ，ｊについて、数１式、数２式を用いて、図１１のように、期待値Ｅ（Ｃｉ、Ａｊ）、関係度Ｓｒ（Ｃｉ、Ａｊ）を算出する。

規則記憶部１５０は、図１０に示すように、さらに、各規則の関係度を記憶する。

誤り検出部１６０は、規則生成部１４０により生成された規則を用いて、判定対象データセットに含まれる属性の値の誤りを検出、訂正する。

ここで、誤り検出部１６０は、判定対象データセットに含まれる各属性について、当該データセットから抽出された条件データと、当該属性の当該データセットにおける値に対応する帰結データと、の関係の強さを表す関係度（総関係度）を算出する。以下、総関係度を、属性の値の正当率とも記載する。また、誤り検出部１６０は、各属性について、当該属性の当該データセットにおける値以外の他の値についても、同様に、総関係度を算出する。そして、誤り検出部１６０は、判定対象データセットにおける値に対して算出された総関係度と、他の値に対して算出された総関係度とを比較し、当該データセットにおける値が誤りであるかどうかを判定する。

属性の値が帰結データＡｊに対応する場合、総関係度Ｓａ（Ａｊ）は、各条件データと帰結データＡｊの規則に対して算出された関係度Ｓｒ（Ｃｉ、Ａｊ）の総和である、数３式により算出される。

判定対象データセットにおける属性の値に対応する帰結データをＡｘ、他の値に対応する帰結データをＡｙとした場合、誤り検出部１６０は、例えば、総関係度の差分Ｓａ（Ａｙ）−Ｓａ（Ａｘ）を算出する。誤り検出部１６０は、算出した差分が所定の閾値Ｓｔｈを超えた場合、当該データセットにおける属性の値が誤りであると判定する。

誤り検出部１６０は、差分が所定の閾値Ｓｔｈを超えた他の値を、誤りと判定された値を訂正するための値（訂正値）に決定する。ここで、差分が所定の閾値Ｓｔｈを超えた他の値が複数存在する場合、誤り検出部１６０は、例えば、差分が最も大きい他の値を、訂正値に決定してもよい。

図１２は、本発明の実施の形態における、総関係度の算出例を示す図である。例えば、データセット取得部１１０が、図１２のような判定対象データセットを取得したと仮定する。この場合、誤り検出部１６０は、条件データ抽出部１２１から、条件データ「姓＝田中」、「名＝薫」、…、「姓＝田中＆名＝薫＆性別＝女性＆出身校＝ＡＢＣ学園」を取得する。誤り検出部１６０は、例えば、属性「性別」のデータセットにおける値「女性」（帰結データＡ７）について、数３式を用いて、図１２のように、総関係度Ｓａ（Ａ７）を算出する。同様に、誤り検出部１６０は、他の値「男性」（帰結データＡ３）について、図１２のように、総関係度Ｓａ（Ａ３）を算出する。誤り検出部１６０は、Ｓａ（Ａ３）−Ｓａ（Ａ７）＞Ｓｔｈであれば、「性別＝女性」が誤りであると判定する。誤り検出部１６０は、「性別＝男性」を訂正値に決定する。

誤り検出部１６０は、判定対象データセットにおいて、誤りと判定された属性の値を訂正値で訂正し（属性に規則を適用し）、訂正前後の判定対象データセットを示した誤り検出・訂正結果として、ユーザ等や他の装置へ出力する。ここで、誤り検出部１６０は、誤りと判定された属性の値、及び、訂正値を、一旦、誤り検出結果としてユーザ等へ提示し、ユーザ等から訂正の指示を受け付けた場合に、判定対象データセットを訂正してもよい。

図１３は、本発明の実施の形態における、誤り検出・訂正結果の出力画面の例を示す図である。例えば、誤り検出部１６０は、図１２の判定対象データセットに対して、図１３のような誤り検出・訂正結果の出力画面を、後述する入出力デバイス１０３を介して、利用者等や他の装置に出力する。

なお、誤り検出部１６０は、誤り検出に用いた規則を、誤り検出の根拠として、検出・訂正結果とともに出力してもよい。さらに、誤り検出部１６０は、誤り検出に用いた規則に対して算出されている関連度や、各属性の値に対して算出した総関連度を、検出・訂正結果とともに出力してもよい。

なお、データ訂正システム１００は、ＣＰＵ（Central Processing Unit）とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。

図３は、本発明の実施の形態における、コンピュータにより実現されたデータ訂正システム１００の構成を示すブロック図である。

この場合、データ訂正システム１００は、ＣＰＵ１０１、ハードディスクやメモリ等の記憶デバイス１０２（記憶媒体）、キーボード、ディスプレイ等の入出力デバイス１０３、及び、他の装置等と通信を行う通信デバイス１０４を含む。ＣＰＵ１０１は、データセット取得部１１０、データ抽出部１２０、規則生成部１４０、及び、誤り検出部１６０を実現するためのプログラムを実行する。記憶デバイス１０２は、データ記憶部１３０、及び、規則記憶部１５０の情報を記憶する。入出力デバイス１０３は、利用者等からの学習対象データセットや判定対象データセットの入力、及び、利用者等への誤り検出・訂正結果の出力を行う。また、通信デバイス１０４が、他の装置等から学習対象データセットや判定対象データセットを受信する、或いは、他の装置等へ誤り検出・訂正結果を送信してもよい。

また、図２におけるデータ訂正システム１００の各部は、電気回路（circuitry）により実現されていてもよい。ここで、電気回路（circuitry）とは、単一のデバイス（single device）、複数のデバイス（multiple devices）、チップセット（chipset）、または、クラウド（cloud）を概念的に含む。

また、図２におけるデータ訂正システム１００の各部は、１つの物理的な装置に配置されていてもよいし、２つ以上の物理的に分離した装置に配置され、これらの装置が有線または無線で接続されていてもよい。

次に、本発明の実施の形態におけるデータ訂正システム１００の動作を説明する。

はじめに、データ訂正システム１００の学習処理（学習モードにおける処理）を説明する。図４は、本発明の実施の形態における、学習処理を示すフローチャートである。

データセット取得部１１０は、学習対象データセットを取得する（ステップＳ１０１）。

条件データ抽出部１２１は、学習対象の複数のデータセットの各々から、条件データを抽出する（ステップＳ１０２）。条件データ抽出部１２１は、抽出された各条件データに条件ＩＤを付与し、出現数とともに、条件データ記憶部１３１に保存する。

帰結データ抽出部１２２は、学習対象の複数のデータセットの各々から、帰結データを抽出する（ステップＳ１０３）。帰結データ抽出部１２２は、生成された各帰結データに帰結ＩＤを付与し、出現数とともに、帰結データ記憶部１３２に保存する。

規則生成部１４０は、ステップＳ１０２、Ｓ１０３で抽出された条件データ、及び、帰結データを用いて、誤り訂正のための規則を生成する（ステップＳ１０４）。規則生成部１４０は、生成された各規則に規則ＩＤを付与し、出現数とともに、規則記憶部１５０に保存する。

規則生成部１４０は、ステップＳ１０４で生成された規則の各々について、条件データの出現数、帰結データの出現数、及び、当該規則の出現数を用いて、関係度を算出する（ステップＳ１０５）。規則生成部１４０は、算出した関係度を規則記憶部１５０に保存する。

次に、データ訂正システム１００の判定処理（判定モードにおける処理）を説明する。図５は、本発明の実施の形態における、判定処理を示すフローチャートである。

データセット取得部１１０は、判定対象データセットを取得する（ステップＳ２０１）。

条件データ抽出部１２１は、判定対象データセットから、条件データを抽出する（ステップＳ２０２）。

誤り検出部１６０は、規則記憶部１５０から、ステップＳ２０２で抽出された各条件データを含む規則の関係度を取得する（ステップＳ２０３）。

誤り検出部１６０は、判定対象データセットに含まれる属性から、判定対象の属性を１つ選択する（ステップＳ２０４）。

誤り検出部１６０は、ステップＳ２０３で取得した関係度を用いて、判定対象の属性について、判定対象データセットにおける値に対する総関係度（正当率）と、他の値に対する総関係度（正当率）を算出する（ステップＳ２０５）。

誤り検出部１６０は、判定対象データセットにおける値に対する総関係度と他の値に対する総関係度とを比較し、判定対象の属性のデータセットにおける値が誤りであるかどうかを判定する（ステップＳ２０６）。

ステップＳ２０６で誤りであった場合（ステップＳ２０６／Ｙ）、誤り検出部１６０は、判定対象の属性の訂正値を決定し、元の値を当該訂正値で訂正する（ステップＳ２０７）。

誤り検出部１６０は、判定対象データセットに含まれる全ての属性について、ステップＳ２０４からの処理を繰り返す（ステップＳ２０８）。

誤り検出部１６０は、誤り検出・訂正結果を出力する（ステップＳ２０９）。

以上により、本発明の実施の形態の動作が完了する。

次に、本発明の実施の形態の特徴的な構成を説明する。

図１は、本発明の実施の形態の特徴的な構成を示すブロック図である。図１を参照すると、データ訂正システム１００は、データ抽出部１２０、規則生成部１４０、及び、誤り検出部１６０を含む。データ抽出部１２０は、学習対象データセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、複数の属性の値の各々を帰結データとして抽出する。規則生成部１４０は、同一の学習対象データセットから抽出された条件データと帰結データとを関連付けた規則を生成する。誤り検出部１６０は、規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出する。

次に、本発明の実施の形態の効果を説明する。

本発明の実施の形態によれば、データセットに含まれる属性の値の誤りを容易に検出、訂正できる。その理由は、データ訂正システム１００が、以下のように誤りを検出するためである。ずなわち、データ訂正システム１００のデータ抽出部１２０が、学習対象データセットに含まれる属性の値の組み合わせを条件データ、属性の値の各々を帰結データとして抽出する。規則生成部１４０が、同一の学習対象データセットから抽出された条件データと帰結データとを関連付けた規則を生成する。そして、データ訂正システム１００は、規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出する。

これにより、利用者等が、データセットに含まれる属性に関する知識を有していない場合であっても、学習対象データセットから生成された規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出、訂正できる。

なお、属性の値の誤りを検出する方法として、ニューラルネットワークを用いる方法が考えられるが、ニューラルネットワークでは、ネットワークのどの要素が誤りの検出に利用されたかを判読することが難しいという問題があった。

本発明の実施の形態によれば、利用者等が、属性の値の誤りの検出、訂正の根拠である規則を、容易に把握できる。その理由は、規則生成部１４０が、誤りの検出、訂正に用いた規則を、検出・訂正結果とともに出力するためである。これにより、利用者等は、誤りの検出、訂正に用いられた規則（条件データと帰結データ）を確認できる。

また、属性の値の正当率の計算方法として、条件確率や、ベイズ推定等を用いる方法が考えられるが、これらの方法では、一般に、計算が複雑になるという問題があった。

本発明の実施の形態によれば、属性の値の正当率を容易に算出できる。その理由は、誤り検出部１６０が、正当率として、判定対象データセットから抽出された条件データと当該判定対象データセットに含まれる属性の値に対応する帰結データとの関係度を算出するためである。関係度は、条件データと帰結データとの関係の強さを表し、条件データと帰結データとが同じデータセットから抽出された（規則が成立する）回数の、実測値と期待値から算出される。期待値は、条件データ、及び、帰結データのそれぞれの出現数から容易に計算できる。これにより、誤り検出・訂正が高速化されることに加えて、複数の規則間の競合も簡単に解消できる。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細に対しては、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１００データ訂正システム
１０１ＣＰＵ
１０２記憶デバイス
１０３入出力デバイス
１０４通信デバイス
１１０データセット取得部
１２０データ抽出部
１２１条件データ抽出部
１２２帰結データ抽出部
１３０データ記憶部
１３１条件データ記憶部
１３２帰結データ記憶部
１４０規則生成部
１５０規則記憶部
１６０誤り検出部

Claims

学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出する、データ抽出手段と、
同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成する、規則生成手段と、
前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出し、出力する、誤り検出手段と、
を備え、
前記誤り検出手段は、前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
情報処理システム。
前記誤り検出手段は、前記規則に基づき算出された、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度、及び、当該条件データと当該属性の他の値に対応する前記帰結データとの関係度の間の差分が所定値を超える場合、当該属性の値の誤りとして検出する、
請求項１に記載の情報処理システム。
前記条件データと前記帰結データとの関係度は、前記規則により関連付けられた当該条件データと当該帰結データとが同一の前記学習対象のデータセットから抽出された数の実測値、及び、期待値に基づいて算出される、
請求項２に記載の情報処理システム。
前記誤り検出手段は、前記属性の値の誤りが検出された場合、当該属性の値を、前記他の値で訂正し、出力する、
請求項２または３に記載の情報処理システム。
コンピュータに具備されたデータ抽出手段が、学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、
前記コンピュータに具備された規則生成手段が、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、
前記コンピュータに具備された誤り検出手段が、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、情報処理方法であって、
前記誤り検出手段は、前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
情報処理方法。
コンピュータに、
学習対象のデータセットに含まれる複数の属性の値の内の１以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、
同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、
前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、
処理を実行させる、プログラムであって、
前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
処理を実行させる、プログラム。