JP6720610B2 - 情報処理システム、情報処理方法、及び、プログラム - Google Patents

情報処理システム、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP6720610B2
JP6720610B2 JP2016056635A JP2016056635A JP6720610B2 JP 6720610 B2 JP6720610 B2 JP 6720610B2 JP 2016056635 A JP2016056635 A JP 2016056635A JP 2016056635 A JP2016056635 A JP 2016056635A JP 6720610 B2 JP6720610 B2 JP 6720610B2
Authority
JP
Japan
Prior art keywords
data
value
attribute
rule
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016056635A
Other languages
English (en)
Other versions
JP2017173952A (ja
Inventor
貢 三浦
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2016056635A priority Critical patent/JP6720610B2/ja
Publication of JP2017173952A publication Critical patent/JP2017173952A/ja
Application granted granted Critical
Publication of JP6720610B2 publication Critical patent/JP6720610B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理システム、情報処理方法、及び、プログラムに関し、特に、データの誤りを訂正するための情報処理システム、情報処理方法、及び、プログラムに関する。
機械翻訳では、辞書データとして、複数の属性(アトリビュート)の値から構成され、属性間で依存関係を有するようなデータセットが用いられる。また、個人のプロファイルを利用した様々なサービスにおいても、同様のデータセットが用いられる。
このようなデータセットを扱うシステムにおいて正しい処理を行うためには、正しいデータセットを用いること、すなわち、各属性の値が正しいことが求められる。このため、システムの利用者等は、システムを利用する際に、予め、データセットに含まれる属性の値の誤りを検出し、訂正しておく必要がある。
ここで、利用者等が、データセットに含まれる属性に関する知識を有していない場合、誤りを検出、訂正するための規則を生成することができなかった。また、利用者等が、データセットに含まれる属性に関する知識を有している場合でも、規則を生成することはできるが、規則同士が競合する、或いは、強化し合う場合に、規則の適用の正当性の検証、或いは、規則の適用を制御することは困難であった。このように、利用者等による、データセットに含まれる属性の値の誤り検出、訂正は難しいという問題があった。
関連技術として、特許文献1には、属性間の規則を評価する技術として、データマイニングにおいて抽出されたルールが偶発的ルールかどうかを、分析対象のデータベースを用いて判定するシステムが開示されている。
また、他の関連技術として、特許文献2には、非定型業務である案件の評価を行うためのルール集合を、訓練案件集合を用いて学習し、学習したルール集合を用いて評価案件集合を評価する方法が開示されている。
特開2014−149793号公報 特開2006−058974号公報
上述のように、複数の属性の値から構成されるデータセットを用いるシステムでは、データセットに含まれる属性の値の誤り検出、訂正は難しいという問題があった。特許文献1に記載された技術は、属性間のルールが偶発的ルールかどうかを検出するものであって、属性の値の誤りの検出や訂正方法を開示するものではない。また、特許文献2にも、属性の値の誤りを検出、訂正する方法は開示されていない。
本発明の目的は、上述の課題を解決し、データセットに含まれる属性の値の誤りを容易に検出、訂正できる、情報処理システム、情報処理方法、及び、プログラムを提供することである。
本発明の一態様における情報処理システムは、学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出する、データ抽出手段と、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成する、規則生成手段と、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出し、出力する、誤り検出部と、を備える。
本発明の一態様における情報処理方法は、学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する。
本発明の一態様におけるプログラムは、コンピュータに、学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、処理を実行させる。
本発明の効果は、データセットに含まれる属性の値の誤りを容易に検出、訂正できることである。
本発明の実施の形態の特徴的な構成を示すブロック図である。 本発明の実施の形態における、データ訂正システム100の構成を示すブロック図である。 本発明の実施の形態における、コンピュータにより実現されたデータ訂正システム100の構成を示すブロック図である。 本発明の実施の形態における、学習処理を示すフローチャートである。 本発明の実施の形態における、判定処理を示すフローチャートである。 本発明の実施の形態における、データセットの例を示す図である。 本発明の実施の形態における、条件データ、帰結データ、及び、規則の生成例を示す図である。 本発明の実施の形態における、条件データ記憶部131に記憶された条件データの例を示す図である。 本発明の実施の形態における、帰結データ記憶部132に記憶された帰結データの例を示す図である。 本発明の実施の形態における、規則記憶部150に記憶された規則の例を示す図である。 本発明の実施の形態における、関係度の算出例を示す図である。 本発明の実施の形態における、総関係度の算出例を示す図である。 本発明の実施の形態における、誤り検出・訂正結果の出力画面の例を示す図である。
はじめに、本発明の実施の形態におけるデータセット、及び、誤り検出、訂正のための規則について説明する。
図6は、本発明の実施の形態における、データセットの例を示す図である。図6を参照すると、データセットは、複数の属性の名前(属性名)、及び、当該複数の属性の各々の値(属性値)を含む。図6の例では、属性とその値として、「姓=鈴木」、「名=太郎」、「性別=男性」、及び、「出身校=ABC学園」を含む。以下、属性とその値の組み合わせを属性・値ペア、或いは、単にペア(または要素)とも呼ぶ。なお、データセットは、図6に示すように、さらに、当該データセットの属性の一部の値を用いた見出しを含んでいてもよい。
規則は、後述するように、「条件データ」(または、条件節とも記載する)と「帰結データ」(または、帰結節とも記載する)から構成される、IF−THEN型のルールである。「条件データ」は、1以上の属性・値ペアの組み合わせを示す。「帰結データ」は、1つの属性・値ペアを示す。この場合、規則は、例えば、「IF「名=太郎」THEN「性別=男性」」のように記載される。また、規則は、「名=太郎」→「性別=男性」のように記載されてもよい。また、条件データに複数の属性・値ペアが含まれる場合、&で結合して、「姓=鈴木 & 名=太郎」のように記載されてもよい。
次に、本発明の実施の形態の構成を説明する。
図2は、本発明の実施の形態における、データ訂正システム100の構成を示すブロック図である。図2を参照すると、本発明の実施の形態におけるデータ訂正システム100は、データセット取得部110、データ抽出部120、データ記憶部130、規則生成部140、規則記憶部150、及び、誤り検出部160を含む。データ抽出部120(または、節抽出部とも記載する)は、条件データ抽出部121(または、条件節抽出部とも記載する)、及び、帰結データ抽出部122(または、帰結節抽出部とも記載する)を含む。データ記憶部130(または、節記憶部とも記載する)は、条件データ記憶部131(または、条件節記憶部とも記載する)、及び、帰結データ記憶部132(または、帰結節記憶部とも記載する)を含む。データ訂正システム100は、本発明の情報処理システムの一実施形態である。
データセット取得部110は、利用者や運用者(以下、利用者等と記載する)、或いは、他の装置から、学習対象データセットや判定対象データセットを取得する。ここで、学習対象データセットは、誤り検出、訂正を行うための規則を生成するためのデータセットである。判定対象のデータは、誤り検出、訂正の対象のデータセットである。
条件データ抽出部121は、複数の学習対象データセットの各々、及び、判定対象データセットから、条件データを抽出する。ここで、条件データ抽出部121は、データセットから、属性・値ペアを全て抽出し、ペアのリストを生成する。そして、条件データ抽出部121は、生成したリストに含まれる1以上のペアから成る全組み合わせを、条件データとして定義(抽出)する。条件データに含まれるペアの数は、最小の場合は1、最大の場合はリストに含まれる全ペア数である。
図7は、本発明の実施の形態における、条件データ、帰結データ、及び、規則の生成例を示す図である。例えば、条件データ抽出部121は、図7のように、学習対象データセットから、属性・値ペアのリスト(「姓=鈴木」、「名=太郎」、「性別=男性」、「出身校=ABC学園」)を生成する。そして、条件データ抽出部121は、条件データとして、属性・値ペアの組み合わせ「姓=鈴木」、「名=太郎」、…、「姓=鈴木 & 名=太郎 & 性別=男性 & 出身校=ABC学園」を抽出する。
条件データ抽出部121は、抽出した各条件データに、当該条件データを一意に識別可能な条件ID(Identifier)を付与する。異なるデータセットから生成された条件データであっても、属性・値ペアの組み合わせが同じであれば、同じ条件IDが付与される。ここで、条件データ抽出部121は、条件IDとして、属性・値ペアの文字列のハッシュ値を算出してもよい。この場合、条件データを一意に識別できれば、MD(Message Digest Algorithm)5、SHA(Secure Hash Algorithm)−1、CRC(Cyclic Redundancy Code)32等、どのようなハッシュ方式を用いてもよい。
なお、条件データ抽出部121は、演算量を削減するために、条件データとして抽出するペアの組み合わせの数を所定数に制限する等のフィルタリングを行ってもよい。
条件データ抽出部121は、さらに、各条件データが出現した学習対象データセットの数(出現数)をカウントする。
条件データ記憶部131は、条件データ抽出部121により生成された条件データを記憶する。図8は、本発明の実施の形態における、条件データ記憶部131に記憶された条件データの例を示す図である。条件データ記憶部131は、図8に示すように、条件ID毎に、当該条件IDの条件データの内容(属性・値ペアの組み合わせ)、及び、当該条件データの出現数を記憶する。
帰結データ抽出部122は、学習対象の複数のデータセットの各々から、帰結データを抽出する。ここで、帰結データ抽出部122は、条件データ抽出部121により生成された属性・値ペアのリストにおける各ペアを、帰結データとして定義(抽出)する。
例えば、帰結データ抽出部122は、図7のように、帰結データとして、属性・値ペア「姓=鈴木」、「名=太郎」、「性別=男性」、「出身校=ABC学園」を抽出する。
帰結データ抽出部122は、条件データと同様に、抽出した各帰結データに、当該帰結データを一意に識別可能な帰結IDを付与する。
帰結データ抽出部122は、さらに、各帰結データが出現した学習対象データセットの数(出現数)をカウントする。
帰結データ記憶部132は、帰結データ抽出部122により生成された帰結データを記憶する。図9は、本発明の実施の形態における、帰結データ記憶部132に記憶された帰結データの例を示す図である。帰結データ記憶部132は、図9に示すように、帰結ID毎に、当該帰結IDの帰結データの内容(属性・値ペア)、及び、当該帰結データの出現数を記憶する。
規則生成部140は、誤り訂正のための規則を生成する。ここで、規則生成部140は、同じ学習対象データセットから抽出された条件データの各々と帰結データの各々とを関連付け、規則として定義(生成)する。
例えば、規則生成部140は、図7のように規則を生成する。
なお、規則生成部140は、条件データ内の属性・値ペアに帰結データの属性・値ペアが含まれる場合、演算量を削減するために、当該条件データと帰結データとを関連付けた規則の生成を省略してもよい。例えば、「姓=鈴木」を含む条件データと帰結データ「姓=鈴木」とを関連付けた規則の生成は省略されてもよい。
規則生成部140は、生成した各規則に、当該規則(条件データと帰結データとの組み合わせ)を一意に識別可能な規則IDを付与する。
規則生成部140は、さらに、各規則が成立した(規則に係る条件データと帰結データが同時に出現した)学習対象データセットの数(出現数)をカウントする。
規則記憶部150は、規則生成部140により生成された規則を記憶する。図10は、本発明の実施の形態における、規則記憶部150に記憶された規則の例を示す図である。規則記憶部150は、図10に示すように、規則ID毎に、当該規則IDの規則の内容(条件IDと帰結IDとの組み合わせ)、当該規則の出現数を記憶する。
規則生成部140は、さらに、生成した各規則について、条件データと帰結データとの関係の強さを表す関係度を算出する。ここで、規則生成部140は、規則に係る条件データの出現数、帰結データの出現数、及び、当該規則の出現数を用いて、以下のように関係度を算出する。
各条件データ、各帰結データが独立に出現すると仮定した場合、条件IDがCiの条件データと帰結IDがAjの帰結データが同時に出現する出現数の期待値E(Ci、Aj)は、数1式のように算出される。ここで、P(Ci)、P(Aj)は、それぞれ、条件データCi、帰結データAjの出現確率である。N(Ci)、N(Aj)は、それぞれ、条件データCi、帰結データAjの出現数である。Tc、Taは、それぞれ、条件データ、帰結データの出現数の総和である。αは、規則の出現数の総和であり、帰結データの出現数の総和Taに等しい。
Figure 0006720610
ここで、条件データCiと帰結データAjとが完全に独立であれば、条件データCiと帰結データAjとが同時に出現する出現数(CiとAjとで定義される規則の出現数)の実測値(実体値)N(Ci、Aj)は、ほぼ、期待値E(Ci、Aj)に等しい。すなわち、N(Ci、Aj)/E(Ci、Aj)は1に近い値を示す。
一方、条件データCiと帰結データAjとの関係が強ければ、N(Ci、Aj)/E(Ci、Aj)は1からずれた値を示す。そこで、本発明の実施の形態では、条件データAiと帰結データCjとで定義される規則Ri,jの関係度Sr(Ci、Aj)を数2式のように定義する。
Figure 0006720610
図11は、本発明の実施の形態における、関係度の算出例を示す図である。例えば、規則生成部140は、図7における各規則Ri,jについて、数1式、数2式を用いて、図11のように、期待値E(Ci、Aj)、関係度Sr(Ci、Aj)を算出する。
規則記憶部150は、図10に示すように、さらに、各規則の関係度を記憶する。
誤り検出部160は、規則生成部140により生成された規則を用いて、判定対象データセットに含まれる属性の値の誤りを検出、訂正する。
ここで、誤り検出部160は、判定対象データセットに含まれる各属性について、当該データセットから抽出された条件データと、当該属性の当該データセットにおける値に対応する帰結データと、の関係の強さを表す関係度(総関係度)を算出する。以下、総関係度を、属性の値の正当率とも記載する。また、誤り検出部160は、各属性について、当該属性の当該データセットにおける値以外の他の値についても、同様に、総関係度を算出する。そして、誤り検出部160は、判定対象データセットにおける値に対して算出された総関係度と、他の値に対して算出された総関係度とを比較し、当該データセットにおける値が誤りであるかどうかを判定する。
属性の値が帰結データAjに対応する場合、総関係度Sa(Aj)は、各条件データと帰結データAjの規則に対して算出された関係度Sr(Ci、Aj)の総和である、数3式により算出される。
Figure 0006720610
判定対象データセットにおける属性の値に対応する帰結データをAx、他の値に対応する帰結データをAyとした場合、誤り検出部160は、例えば、総関係度の差分Sa(Ay)−Sa(Ax)を算出する。誤り検出部160は、算出した差分が所定の閾値Sthを超えた場合、当該データセットにおける属性の値が誤りであると判定する。
誤り検出部160は、差分が所定の閾値Sthを超えた他の値を、誤りと判定された値を訂正するための値(訂正値)に決定する。ここで、差分が所定の閾値Sthを超えた他の値が複数存在する場合、誤り検出部160は、例えば、差分が最も大きい他の値を、訂正値に決定してもよい。
図12は、本発明の実施の形態における、総関係度の算出例を示す図である。例えば、データセット取得部110が、図12のような判定対象データセットを取得したと仮定する。この場合、誤り検出部160は、条件データ抽出部121から、条件データ「姓=田中」、「名=薫」、…、「姓=田中&名=薫&性別=女性&出身校=ABC学園」を取得する。誤り検出部160は、例えば、属性「性別」のデータセットにおける値「女性」(帰結データA7)について、数3式を用いて、図12のように、総関係度Sa(A7)を算出する。同様に、誤り検出部160は、他の値「男性」(帰結データA3)について、図12のように、総関係度Sa(A3)を算出する。誤り検出部160は、Sa(A3)−Sa(A7)>Sthであれば、「性別=女性」が誤りであると判定する。誤り検出部160は、「性別=男性」を訂正値に決定する。
誤り検出部160は、判定対象データセットにおいて、誤りと判定された属性の値を訂正値で訂正し(属性に規則を適用し)、訂正前後の判定対象データセットを示した誤り検出・訂正結果として、ユーザ等や他の装置へ出力する。ここで、誤り検出部160は、誤りと判定された属性の値、及び、訂正値を、一旦、誤り検出結果としてユーザ等へ提示し、ユーザ等から訂正の指示を受け付けた場合に、判定対象データセットを訂正してもよい。
図13は、本発明の実施の形態における、誤り検出・訂正結果の出力画面の例を示す図である。例えば、誤り検出部160は、図12の判定対象データセットに対して、図13のような誤り検出・訂正結果の出力画面を、後述する入出力デバイス103を介して、利用者等や他の装置に出力する。
なお、誤り検出部160は、誤り検出に用いた規則を、誤り検出の根拠として、検出・訂正結果とともに出力してもよい。さらに、誤り検出部160は、誤り検出に用いた規則に対して算出されている関連度や、各属性の値に対して算出した総関連度を、検出・訂正結果とともに出力してもよい。
なお、データ訂正システム100は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。
図3は、本発明の実施の形態における、コンピュータにより実現されたデータ訂正システム100の構成を示すブロック図である。
この場合、データ訂正システム100は、CPU101、ハードディスクやメモリ等の記憶デバイス102(記憶媒体)、キーボード、ディスプレイ等の入出力デバイス103、及び、他の装置等と通信を行う通信デバイス104を含む。CPU101は、データセット取得部110、データ抽出部120、規則生成部140、及び、誤り検出部160を実現するためのプログラムを実行する。記憶デバイス102は、データ記憶部130、及び、規則記憶部150の情報を記憶する。入出力デバイス103は、利用者等からの学習対象データセットや判定対象データセットの入力、及び、利用者等への誤り検出・訂正結果の出力を行う。また、通信デバイス104が、他の装置等から学習対象データセットや判定対象データセットを受信する、或いは、他の装置等へ誤り検出・訂正結果を送信してもよい。
また、図2におけるデータ訂正システム100の各部は、電気回路(circuitry)により実現されていてもよい。ここで、電気回路(circuitry)とは、単一のデバイス(single device)、複数のデバイス(multiple devices)、チップセット(chipset)、または、クラウド(cloud)を概念的に含む。
また、図2におけるデータ訂正システム100の各部は、1つの物理的な装置に配置されていてもよいし、2つ以上の物理的に分離した装置に配置され、これらの装置が有線または無線で接続されていてもよい。
次に、本発明の実施の形態におけるデータ訂正システム100の動作を説明する。
はじめに、データ訂正システム100の学習処理(学習モードにおける処理)を説明する。図4は、本発明の実施の形態における、学習処理を示すフローチャートである。
データセット取得部110は、学習対象データセットを取得する(ステップS101)。
条件データ抽出部121は、学習対象の複数のデータセットの各々から、条件データを抽出する(ステップS102)。条件データ抽出部121は、抽出された各条件データに条件IDを付与し、出現数とともに、条件データ記憶部131に保存する。
帰結データ抽出部122は、学習対象の複数のデータセットの各々から、帰結データを抽出する(ステップS103)。帰結データ抽出部122は、生成された各帰結データに帰結IDを付与し、出現数とともに、帰結データ記憶部132に保存する。
規則生成部140は、ステップS102、S103で抽出された条件データ、及び、帰結データを用いて、誤り訂正のための規則を生成する(ステップS104)。規則生成部140は、生成された各規則に規則IDを付与し、出現数とともに、規則記憶部150に保存する。
規則生成部140は、ステップS104で生成された規則の各々について、条件データの出現数、帰結データの出現数、及び、当該規則の出現数を用いて、関係度を算出する(ステップS105)。規則生成部140は、算出した関係度を規則記憶部150に保存する。
次に、データ訂正システム100の判定処理(判定モードにおける処理)を説明する。図5は、本発明の実施の形態における、判定処理を示すフローチャートである。
データセット取得部110は、判定対象データセットを取得する(ステップS201)。
条件データ抽出部121は、判定対象データセットから、条件データを抽出する(ステップS202)。
誤り検出部160は、規則記憶部150から、ステップS202で抽出された各条件データを含む規則の関係度を取得する(ステップS203)。
誤り検出部160は、判定対象データセットに含まれる属性から、判定対象の属性を1つ選択する(ステップS204)。
誤り検出部160は、ステップS203で取得した関係度を用いて、判定対象の属性について、判定対象データセットにおける値に対する総関係度(正当率)と、他の値に対する総関係度(正当率)を算出する(ステップS205)。
誤り検出部160は、判定対象データセットにおける値に対する総関係度と他の値に対する総関係度とを比較し、判定対象の属性のデータセットにおける値が誤りであるかどうかを判定する(ステップS206)。
ステップS206で誤りであった場合(ステップS206/Y)、誤り検出部160は、判定対象の属性の訂正値を決定し、元の値を当該訂正値で訂正する(ステップS207)。
誤り検出部160は、判定対象データセットに含まれる全ての属性について、ステップS204からの処理を繰り返す(ステップS208)。
誤り検出部160は、誤り検出・訂正結果を出力する(ステップS209)。
以上により、本発明の実施の形態の動作が完了する。
次に、本発明の実施の形態の特徴的な構成を説明する。
図1は、本発明の実施の形態の特徴的な構成を示すブロック図である。図1を参照すると、データ訂正システム100は、データ抽出部120、規則生成部140、及び、誤り検出部160を含む。データ抽出部120は、学習対象データセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、複数の属性の値の各々を帰結データとして抽出する。規則生成部140は、同一の学習対象データセットから抽出された条件データと帰結データとを関連付けた規則を生成する。誤り検出部160は、規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出する。
次に、本発明の実施の形態の効果を説明する。
本発明の実施の形態によれば、データセットに含まれる属性の値の誤りを容易に検出、訂正できる。その理由は、データ訂正システム100が、以下のように誤りを検出するためである。ずなわち、データ訂正システム100のデータ抽出部120が、学習対象データセットに含まれる属性の値の組み合わせを条件データ、属性の値の各々を帰結データとして抽出する。規則生成部140が、同一の学習対象データセットから抽出された条件データと帰結データとを関連付けた規則を生成する。そして、データ訂正システム100は、規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出する。
これにより、利用者等が、データセットに含まれる属性に関する知識を有していない場合であっても、学習対象データセットから生成された規則に基づき、判定対象データセットに含まれる属性の値の誤りを検出、訂正できる。
なお、属性の値の誤りを検出する方法として、ニューラルネットワークを用いる方法が考えられるが、ニューラルネットワークでは、ネットワークのどの要素が誤りの検出に利用されたかを判読することが難しいという問題があった。
本発明の実施の形態によれば、利用者等が、属性の値の誤りの検出、訂正の根拠である規則を、容易に把握できる。その理由は、規則生成部140が、誤りの検出、訂正に用いた規則を、検出・訂正結果とともに出力するためである。これにより、利用者等は、誤りの検出、訂正に用いられた規則(条件データと帰結データ)を確認できる。
また、属性の値の正当率の計算方法として、条件確率や、ベイズ推定等を用いる方法が考えられるが、これらの方法では、一般に、計算が複雑になるという問題があった。
本発明の実施の形態によれば、属性の値の正当率を容易に算出できる。その理由は、誤り検出部160が、正当率として、判定対象データセットから抽出された条件データと当該判定対象データセットに含まれる属性の値に対応する帰結データとの関係度を算出するためである。関係度は、条件データと帰結データとの関係の強さを表し、条件データと帰結データとが同じデータセットから抽出された(規則が成立する)回数の、実測値と期待値から算出される。期待値は、条件データ、及び、帰結データのそれぞれの出現数から容易に計算できる。これにより、誤り検出・訂正が高速化されることに加えて、複数の規則間の競合も簡単に解消できる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細に対しては、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
100 データ訂正システム
101 CPU
102 記憶デバイス
103 入出力デバイス
104 通信デバイス
110 データセット取得部
120 データ抽出部
121 条件データ抽出部
122 帰結データ抽出部
130 データ記憶部
131 条件データ記憶部
132 帰結データ記憶部
140 規則生成部
150 規則記憶部
160 誤り検出部

Claims (6)

  1. 学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出する、データ抽出手段と、
    同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成する、規則生成手段と、
    前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出し、出力する、誤り検出手段と、
    を備え
    前記誤り検出手段は、前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
    情報処理システム。
  2. 前記誤り検出手段は、前記規則に基づき算出された、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度、及び、当該条件データと当該属性の他の値に対応する前記帰結データとの関係度の間の差分が所定値を超える場合、当該属性の値の誤りとして検出する、
    請求項に記載の情報処理システム。
  3. 前記条件データと前記帰結データとの関係度は、前記規則により関連付けられた当該条件データと当該帰結データとが同一の前記学習対象のデータセットから抽出された数の実測値、及び、期待値に基づいて算出される、
    請求項に記載の情報処理システム。
  4. 前記誤り検出手段は、前記属性の値の誤りが検出された場合、当該属性の値を、前記他の値で訂正し、出力する、
    請求項またはに記載の情報処理システム。
  5. コンピュータに具備されたデータ抽出手段が、学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、
    前記コンピュータに具備された規則生成手段が、同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、
    前記コンピュータに具備された誤り検出手段が、前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、情報処理方法であって、
    前記誤り検出手段は、前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
    情報処理方法。
  6. コンピュータに、
    学習対象のデータセットに含まれる複数の属性の値の内の1以上の属性の値の組み合わせを条件データとして抽出し、前記複数の属性の値の各々を帰結データとして抽出し、
    同一の前記学習対象のデータセットから抽出された前記条件データと前記帰結データとを関連付けた規則を生成し、
    前記規則に基づき、判定対象のデータセットに含まれる属性の値の誤りを検出する、
    処理を実行させる、プログラムであって、
    前記規則に基づき算出される、前記判定対象のデータセットから抽出された前記条件データと当該判定対象のデータセットに含まれる前記属性の値に対応する前記帰結データとの関係度を用いて、当該属性の値の誤りを検出する、
    処理を実行させる、プログラム。
JP2016056635A 2016-03-22 2016-03-22 情報処理システム、情報処理方法、及び、プログラム Active JP6720610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016056635A JP6720610B2 (ja) 2016-03-22 2016-03-22 情報処理システム、情報処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016056635A JP6720610B2 (ja) 2016-03-22 2016-03-22 情報処理システム、情報処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2017173952A JP2017173952A (ja) 2017-09-28
JP6720610B2 true JP6720610B2 (ja) 2020-07-08

Family

ID=59973020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016056635A Active JP6720610B2 (ja) 2016-03-22 2016-03-22 情報処理システム、情報処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6720610B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275878B (zh) * 2019-06-25 2021-08-17 北京达佳互联信息技术有限公司 业务数据检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2017173952A (ja) 2017-09-28

Similar Documents

Publication Publication Date Title
US20240028571A1 (en) Automatic entity resolution with rules detection and generation system
US20190147336A1 (en) Method and apparatus of open set recognition and a computer readable storage medium
US9141796B2 (en) System and method for detecting malware in file based on genetic map of file
US20190005392A1 (en) Method, device and equipment for fusing different instances describing same entity
US20200057939A1 (en) Abnormality detection device, abnormality detection method, and storage medium
CN110704634A (zh) 知识图谱链接错误的查修方法、装置及存储介质
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN107943873B (zh) 知识图谱建立方法、装置、计算机设备及存储介质
US9412003B2 (en) Discriminant function specifying device, discriminant function specifying method, and biometric identification device
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
JP2017111733A (ja) 学習装置、学習方法および学習プログラム
JP6720610B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
CN113792853B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备
JP6728830B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2015045984A (ja) 情報処理装置、文字認識方法、及びプログラム
JP2013182468A (ja) パラメータ値設定誤り検出システム、パラメータ値設定誤り検出方法およびパラメータ値設定誤り検出プログラム
JP6126516B2 (ja) 訪問poi推定装置
CN110717037A (zh) 对用户分类的方法和装置
CN113850395B (zh) 一种数据处理方法及系统
JP6935849B2 (ja) 学習方法、学習装置及び学習プログラム
US10521436B2 (en) Systems and methods for data and information source reliability estimation
US9317386B2 (en) Event processing method and apparatus performing the same
JP7456289B2 (ja) 判定プログラム、判定方法および情報処理装置
CN113470831B (zh) 一种基于数据简并的大数据转换方法与装置
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6720610

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150