JP5797583B2 - Data cleansing system and program - Google Patents

Data cleansing system and program Download PDF

Info

Publication number
JP5797583B2
JP5797583B2 JP2012039962A JP2012039962A JP5797583B2 JP 5797583 B2 JP5797583 B2 JP 5797583B2 JP 2012039962 A JP2012039962 A JP 2012039962A JP 2012039962 A JP2012039962 A JP 2012039962A JP 5797583 B2 JP5797583 B2 JP 5797583B2
Authority
JP
Japan
Prior art keywords
data
cleansing
analysis
processing
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012039962A
Other languages
Japanese (ja)
Other versions
JP2013175096A (en
Inventor
紀宏 津嶋
紀宏 津嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2012039962A priority Critical patent/JP5797583B2/en
Publication of JP2013175096A publication Critical patent/JP2013175096A/en
Application granted granted Critical
Publication of JP5797583B2 publication Critical patent/JP5797583B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、データ分析の情報処理技術に関する。特に、データ分析におけるデータクリーニング(データクレンジング等)の技術に関する。   The present invention relates to an information processing technique for data analysis. In particular, the present invention relates to a technique of data cleaning (data cleansing or the like) in data analysis.

データ分析において、正しい分析は正しいデータに基づくことに起因して、元データからデータ分析可能なデータセットにする操作・処理であるデータクリーニング(データクレンジング)操作・処理が重要である。   In data analysis, correct analysis is based on correct data, and therefore, data cleaning (data cleansing) operation / process, which is an operation / process for converting data from original data into a data set that can be analyzed, is important.

従来は、データクリーニング操作・処理において、あるデータセット(行)において1つの項目(フィールド、列)にでも不正があった場合は、そのデータセット(行)は破棄され、分析に利用されなかった。   Conventionally, in a data cleaning operation / processing, if an item (field, column) in a certain data set (row) is illegal, the data set (row) is discarded and not used for analysis. .

先行技術例として、特開2008−537266号公報(特許文献1)などがある。特許文献1(「適応性のあるデータクリーニング」)では、データクレンジング処理プロセスの最適化及び標準化を実現している旨が記載されている。   As a prior art example, there is JP 2008-537266 A (Patent Document 1). Patent Document 1 (“adaptive data cleaning”) describes that optimization and standardization of a data cleansing process is realized.

特開2008−537266号公報JP 2008-537266 A

従来は、データ分析に係わる元データを分析可能なデータセットにするためのデータクリーニング操作・処理における履歴を保存する仕組み(方式)は無かった。   Conventionally, there has been no mechanism (system) for storing a history in data cleaning operation / processing for making the original data related to data analysis into a data set that can be analyzed.

上記履歴を保存する仕組みが無かったことにも起因して、従来は、前述のように、データクリーニング操作・処理において、あるデータセット(行)において1つの項目(フィールド、列)にでも不正があった場合は、そのデータセット(行)は破棄(削除)されて、分析に利用(活用)されなかった。即ち、上記データセット(行)のうち、不正があった一部の項目(フィールド、列)以外の項目について、不正が無いとしても破棄されており、上記破棄データセットを除いた後のデータを対象に情報量が減った状態でデータ分析に利用していたことになる。不正のため破棄されていたデータ情報のうち不正ではないデータ情報について、データ分析に活用できていなかった。   Due to the lack of a mechanism for storing the history, as described above, in the conventional data cleaning operation / processing, even one item (field, column) is illegal in a certain data set (row). If so, the dataset (row) was discarded (deleted) and not used (utilized) for analysis. That is, items other than some of the invalid items (fields, columns) in the data set (row) are discarded even if there are no frauds, and the data after the discard data set is removed. It was used for data analysis with a reduced amount of information. Of the data information that was discarded due to fraud, data information that was not fraudulent could not be used for data analysis.

なお前記特許文献1は、データクレンジング処理プロセスの改善の方式であり、データ可用性を向上させる方式ではない。   Note that Patent Document 1 is a method for improving a data cleansing process, and is not a method for improving data availability.

以上を鑑み、本発明の主な目的は、データ分析に係わるデータクリーニング(データクレンジング)等の技術に関して、データクリーニング操作・処理の履歴を保存及び参照する仕組み等を設けることにより、対象データのうち従来は破棄されていた不正が無いデータ項目についてもデータ分析に利用(活用)できるようになる技術を提供することである。   In view of the above, the main object of the present invention is to provide a mechanism for storing and referring to the history of data cleaning operations / processing, etc., for data cleaning (data cleansing) related to data analysis. It is to provide a technique that can use (utilize) data items that have been discarded in the past without any fraud.

本発明のうち代表的な形態は、コンピュータの情報処理を用いて実現される、データ分析のためのデータクレンジング処理を含む処理を行うデータクレンジングシステム等であって、以下に示す構成を有することを特徴とする。   A typical embodiment of the present invention is a data cleansing system that performs processing including data cleansing processing for data analysis, which is realized by using information processing of a computer, and has the following configuration. Features.

本形態のシステムでは、データ分析のために、元データ(第1のデータ)から分析可能なデータ(第2のデータ)にするためのデータクレンジング(データクリーニング)操作・処理を行う第1の処理部(元データの中から潜在する不正がある項目(フィールド、列)を含むデータセット(行)を削除(取り除く)する処理を含む)と、前記第1の処理部のデータクレンジング操作・処理における履歴をテーブルに保存し参照可能とする処理を行う第2の処理部と、を有する。   In the system of this embodiment, for data analysis, a first process for performing a data cleansing (data cleaning) operation / process for converting the original data (first data) into analyzable data (second data). A part (including a process of deleting (removing) a data set (row) including an item (field, column) having a potential fraud from the original data), and a data cleansing operation / process of the first processing part And a second processing unit that performs processing for storing the history in a table and making it referable.

そして本形態のシステムは、前記第2の処理部により保存された履歴のデータ情報を参照して、元データから削除されたデータセット(行)の中で、不正がある項目と、それ以外の項目とを判断し、当該それ以外の項目に不正が無いことを確認(保証)する処理を行う第3の処理部と、当該不正が無いことが確認(保障)された項目を抽出する処理を行う第4の処理部と、を有する。上記不正が無いことが確認された項目(データ)がデータ分析(特に項目ごとの計算)に利用可能になる。   The system of the present embodiment refers to the history data information stored by the second processing unit, and in the data set (row) deleted from the original data, there are items that are illegal, A third processing unit that performs a process for determining (guaranteeing) that there is no fraud in the other items, and a process for extracting an item that has been confirmed (guaranteed) that there is no fraud And a fourth processing unit to be performed. Items (data) that have been confirmed to have no fraud can be used for data analysis (particularly, calculation for each item).

本発明のうち代表的な形態によれば、データ分析に係わるデータクリーニング(データクレンジング)等の技術に関して、データクリーニング操作・処理の履歴を保存及び参照する仕組み等を設けることにより、対象データのうち従来は破棄されていた不正が無いデータ項目についてもデータ分析に利用(活用)できるようになる。   According to a typical embodiment of the present invention, regarding a technique such as data cleaning related to data analysis (data cleansing), a mechanism for storing and referring to a history of data cleaning operation / processing, etc. is provided. Even data items that have been discarded in the past can be used (utilized) for data analysis.

従来は情報として見落とされていたデータ項目を分析に利用可能にすることにより、分析精度の向上などが可能になる。   By making data items that were conventionally overlooked as information available for analysis, analysis accuracy can be improved.

本発明の一実施の形態のシステム(処理履歴保存システムを含むデータクレンジングサーバを含んで成るデータクレンジングシステム)の全体構成を示す図である。1 is a diagram showing an overall configuration of a system according to an embodiment of the present invention (a data cleansing system including a data cleansing server including a processing history storage system). 本実施の形態のシステムの全体の処理フローチャートを示す。2 is a flowchart of the entire process of the system according to the present embodiment. クレンジング処理(S202)の詳細処理のフロー図を示す。The flowchart of the detailed process of a cleansing process (S202) is shown. 欠損値確認処理(S301)の詳細処理のフロー図を示す。The flowchart of the detailed process of a missing value confirmation process (S301) is shown. 不正文字処理(S302)の詳細処理のフロー図を示す。The flowchart of the detailed process of illegal character processing (S302) is shown. 異常値処理(S303)の詳細処理のフロー図を示す。The flowchart of the detailed process of an abnormal value process (S303) is shown. 値の単位揃え処理(S304)の詳細処理のフロー図を示す。The flowchart of the detailed process of a unit alignment process (S304) of a value is shown. 値の形式変換(全半角統一)処理(S305)の詳細処理のフロー図を示す。A flow diagram of detailed processing of value format conversion (unification of all half-width characters) processing (S305) is shown. 値の齟齬確認処理(S306)の詳細処理のフロー図を示す。The flowchart of the detailed process of the value check process (S306) is shown. 値の正規化(郵便番号)処理(S307)の詳細処理のフロー図を示す。The flowchart of the detailed process of the value normalization (zip code) process (S307) is shown. 値の正規化(住所)処理(S308)の詳細処理のフロー図を示す。The flowchart of the detailed process of the value normalization (address) process (S308) is shown. 値の正規化(なまえ)処理(S309)の詳細処理のフロー図を示す。The flowchart of the detailed process of the value normalization (name) process (S309) is shown. 値の正規化(電話番号)処理(S310)の詳細処理のフロー図を示す。A flow chart of detailed processing of value normalization (telephone number) processing (S310) is shown. 分析用データ総合判定処理(S203)の詳細処理のフロー図を示す。The flowchart of the detailed process of the data comprehensive determination process for analysis (S203) is shown. 分析用データロード処理(S204)の詳細処理のフロー図を示す。The flowchart of the detailed process of the data load process for analysis (S204) is shown. 分析用データテーブル処理(分析用データテーブルを利用した分析処理)(S205)を行う場合のシステム構成例を示す図である。It is a figure which shows the system configuration example in the case of performing the analysis data table process (analysis process using an analysis data table) (S205). クレンジング履歴活用分析実行処理(S206)の詳細処理例(分析データ抽出方法・分析処理の例)を示すフロー図である。It is a flowchart which shows the detailed process example (example of an analytical data extraction method / analysis process) of cleansing history utilization analysis execution processing (S206). クレンジング履歴活用分析実行処理(S206)を行う場合のシステム構成例を示す図である。It is a figure which shows the system configuration example in the case of performing a cleansing log | history utilization analysis analysis process (S206). 本実施の形態のシステム(データクレンジングシステム)の概要(機能)構成を示す図である。It is a figure which shows the outline | summary (function) structure of the system (data cleansing system) of this Embodiment. 元データ(元データテーブル)の定義の例を示す図である。It is a figure which shows the example of a definition of original data (original data table). 元データ(元データテーブル)の値の例を示す図である。It is a figure which shows the example of the value of original data (original data table). (a)クレンジングマスタテーブルの定義,(b)クレンジングマスタテーブルの値の例を示す図である。It is a figure which shows the example of a (a) definition of a cleansing master table, (b) the value of a cleansing master table. (a)分析データフィールド管理テーブルの定義,(b)分析データフィールド管理テーブルの値の例を示す図である。(A) Definition of analysis data field management table, (b) It is a figure which shows the example of the value of an analysis data field management table. クレンジングポリシマスタテーブルの定義を示す図である。It is a figure which shows the definition of a cleansing policy master table. クレンジングポリシマスタテーブルの値の例を示す図である。It is a figure which shows the example of the value of a cleansing policy master table. クレンジング結果テーブルの定義を示す図である。It is a figure which shows the definition of a cleansing result table. クレンジング結果テーブルの値の例を示す図である。It is a figure which shows the example of the value of a cleansing result table. (a)クレンジング結果詳細テーブルの定義,(b)クレンジング結果詳細テーブルの値の例を示す図である。It is a figure which shows the example of a definition of (a) cleansing result detailed table, and (b) cleansing result detailed table. 分析用データテーブルの定義を示す図である。It is a figure which shows the definition of the data table for analysis. 分析用データテーブルの値の例を示す図である。It is a figure which shows the example of the value of the data table for analysis. 対比表の定義を示す図である。It is a figure which shows the definition of a contrast table. 対比表の値の例を示す図である。It is a figure which shows the example of the value of a contrast table.

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。なお「クレンジング」と「クリーニング」等は同様の意味である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted. “Cleansing” and “cleaning” have the same meaning.

[概要等]
本実施の形態では、分析用データの高可用化のためのデータクレンジング処理における処理履歴保存システム等を提供する。図1で言えば、処理履歴保存システム116を備えるデータクレンジングサーバ103等(データクレンジングサーバ103を含んで成るデータクレンジングシステム)を提供する。対応して、図19に、本システム(履歴管理機能を含むデータクレンジングシステム1)の概要(機能)構成を示している。
[Summary]
In the present embodiment, a processing history storage system or the like in data cleansing processing for making analysis data highly available is provided. In FIG. 1, a data cleansing server 103 or the like (a data cleansing system including the data cleansing server 103) including the processing history storage system 116 is provided. Correspondingly, FIG. 19 shows an outline (function) configuration of the present system (data cleansing system 1 including a history management function).

従来は、データクレンジング操作・処理の履歴を保存・参照する仕組み(手段)は無かったため、対象データセット(行)のうち不正があった項目(フィールド、列)以外の項目(フィールド、列)について、上記履歴により不正が無いということを保障(確認)することはできなかった。また、その保証(確認)に基づき、当該不正があった項目以外の項目を、データ分析に利用することはできなかった。   Previously, there was no mechanism (means) for saving and referring to the history of data cleansing operations / processing, so items (fields, columns) other than the invalid items (fields, columns) in the target data set (rows) It was not possible to guarantee (confirm) that there was no fraud in the above history. Moreover, based on the guarantee (confirmation), items other than the item with the fraud could not be used for data analysis.

一方、本形態では、データクレンジング操作・処理の履歴(クレンジング履歴)を管理(保存及び参照等)する仕組み(手段)を有する。また、対象データ(データセット)のデータ項目(フィールド、列)の不正が無いことを保障(確認)する手段、及び、上記不正が無いことが保障(確認)されたデータ項目(フィールド、列)(従来は破棄されていたデータ)を分析に利用可能なデータ項目として抽出する手段などを有する。図19で言えば、クレンジング履歴管理部12、不正有無・利用可否判断部13、及び分析用データ抽出部14が対応する手段(機能)である。   On the other hand, this embodiment has a mechanism (means) for managing (saving and referring to) a history of data cleansing operation / processing (cleansing history). Also, means for ensuring (confirming) that there are no frauds in the data items (fields, columns) of the target data (data set), and data items (fields, columns) that are guaranteed (confirmed) that there are no frauds. Means for extracting (data conventionally discarded) as a data item usable for analysis. In FIG. 19, the cleansing history management unit 12, the fraud presence / absence / usability determination unit 13, and the analysis data extraction unit 14 correspond to means (functions).

本形態では、上記履歴を参照することにより、分析対象データ(クレンジング前データ21、クレンジング後データ22)のうち、分析に利用可能な項目(データ)と、分析に利用できない項目(データ)とを同定(分類等)し、分析に利用可能な項目(データ)を抽出して分析に利用可能とする方式である。即ち、従来では破棄されていた利用可能なデータ情報(データセット(行)のうち一部のフィールド(列)が不正であることから一緒に破棄されていた(不正ではない)他のフィールド(列))を、分析に利用可能にする方式である。   In the present embodiment, by referring to the history, items (data) that can be used for analysis and items (data) that cannot be used for analysis among the analysis target data (pre-cleansing data 21 and post-cleansing data 22). This is a method for identifying (classifying) and extracting items (data) that can be used for analysis and making them available for analysis. In other words, usable data information that has been discarded in the past (some fields (columns) in the data set (row) are invalid and other fields (columns) that are discarded together (not illegal) are discarded). )) Can be used for analysis.

図19で、データクレンジング部11は、設定(10,20)に基づき、クレンジング前データ21をデータクレンジング処理(不正があるデータセット(行)を削除する処理を含む)してクレンジング後データ22とする。クレンジング履歴管理部12は、データクレンジング部11によるデータクレンジング処理・操作の履歴の情報を保存し参照可能とする(クレンジング履歴23)。不正有無・利用可否判断部13は、対象データ(21,22)及びクレンジング履歴23を参照し、クレンジング処理で削除されたデータセット(行)における各項目(フィールド、列)における不正の有無を確認(保証)し、利用可否を判断する(判断データ24)。分析用データ抽出部14は、判断部(13)の判断(24)をもとに、対象データ(21,22)から利用可能なデータ項目(削除されたデータセット(行)における不正が無いことが確認(保証)された項目)を抽出し、分析用データ25とする。ユーザは分析用データ25を使用したデータ分析が可能となる。   In FIG. 19, the data cleansing unit 11 performs data cleansing processing (including processing for deleting a data set (row) with fraud) on the pre-cleansing data 21 based on the setting (10, 20) and the post-cleansing data 22. To do. The cleansing history management unit 12 stores and makes it possible to refer to data cleansing process / operation history information by the data cleansing unit 11 (cleansing history 23). The fraud presence / absence / usability judging unit 13 refers to the target data (21, 22) and the cleansing history 23 and confirms whether or not each item (field, column) in the data set (row) deleted by the cleansing process is fraudulent. (Guaranteed) and determine whether or not it can be used (determination data 24) Based on the determination (24) of the determination unit (13), the analysis data extraction unit 14 is free of data items (deleted data sets (rows)) that can be used from the target data (21, 22). Are identified (guaranteed), and are used as analysis data 25. The user can perform data analysis using the analysis data 25.

[システム構成]
図1に、本実施の形態のシステム(処理履歴保存システム116を含むデータクレンジングサーバ103を含んで成るデータクレンジングシステム)の全体構成を示している。本システム全体は、データ分析者(U)が操作する端末装置(分析者操作端末)101と、データクレンジングサーバ103とがネットワーク102で接続される構成である。データ分析者(U)は、端末装置101を用いてデータ分析を実行する。データ分析者(U)は、端末装置101からネットワーク102を経由してデータクレンジングサーバ103にアクセスし、分析に必要なデータ等にアクセスする。データクレンジングサーバ103は、サーバ装置及びそのソフトウェアプログラム処理などで構成され、本実施の形態で特有の処理履歴保存システム116(対応する本実施の形態のプログラム等)を含んで成る。なお103をデータクレンジングシステムと捉えてもよい。処理履歴保存システム116は、データクレンジング処理の履歴を保存するシステムであり、コンピュータ装置やソフトウェアプログラム処理などで実現される。
[System configuration]
FIG. 1 shows an overall configuration of a system according to the present embodiment (a data cleansing system including a data cleansing server 103 including a processing history storage system 116). The entire system has a configuration in which a terminal device (analyzer operation terminal) 101 operated by a data analyst (U) and a data cleansing server 103 are connected via a network 102. A data analyst (U) performs data analysis using the terminal device 101. A data analyst (U) accesses the data cleansing server 103 from the terminal device 101 via the network 102 and accesses data and the like necessary for analysis. The data cleansing server 103 includes a server device and software program processing thereof, and includes a processing history storage system 116 (a corresponding program of the present embodiment, etc.) unique to the present embodiment. Note that 103 may be regarded as a data cleansing system. The processing history storage system 116 is a system for storing a history of data cleansing processing, and is realized by a computer device, software program processing, or the like.

処理履歴保存システム116は、構成要素の処理部(対応する機能、装置/プログラム等)として、分析用データ作成ポリシ設定処理部104、クレンジング処理部105、分析用データ総合判定処理部106、分析用データロード処理部107、分析用データテーブル処理部108、クレンジング履歴活用分析実行処理部109等を有する構成である。また116で、これらの処理部では、データ情報(対応する記憶部)として、元データテーブル110、クレンジングマスタテーブル111、クレンジングポリシマスタテーブル112、クレンジング結果テーブル113、クレンジング結果詳細テーブル114、分析用データテーブル115、等を操作して処理を行う。   The processing history storage system 116 includes an analysis data creation policy setting processing unit 104, a cleansing processing unit 105, an analysis data comprehensive determination processing unit 106, and an analysis unit as processing units (corresponding functions, devices / programs, etc.) of components. This configuration includes a data load processing unit 107, an analysis data table processing unit 108, a cleansing history utilization analysis execution processing unit 109, and the like. In 116, these processing units include, as data information (corresponding storage units), an original data table 110, a cleansing master table 111, a cleansing policy master table 112, a cleansing result table 113, a cleansing result detail table 114, and analysis data. Processing is performed by operating the table 115 or the like.

なお上記116を構成する各部(機能)は、個別の装置やプログラムモジュールで構成され連携する構成でもよいし、適宜機能を分離・統合した構成でもよい。また上記各データ情報は、それぞれ、当該データ情報を記憶・管理する装置やテーブルやDBなど(記憶部)で構成されもよいし、当該データ情報を適宜分離・統合して管理してもよい。   Each unit (function) constituting the above-described 116 may be configured by an individual device or a program module and linked together, or may be configured by appropriately separating and integrating functions. Each of the data information may be configured by a device, a table, a DB, or the like (storage unit) that stores and manages the data information, or may be managed by appropriately separating and integrating the data information.

分析用データ作成ポリシ設定処理部104は、データクレンジング処理のポリシを設定(Uによる)する処理を行う。   The analysis data creation policy setting processing unit 104 performs processing for setting (by U) a policy for data cleansing processing.

クレンジング処理部105は、分析ポリシに従って元データをクレンジング処理する。   The cleansing processing unit 105 cleanses the original data according to the analysis policy.

分析用データ総合判定処理部106は、クレンジング処理の履歴から、データ列毎に利用可能と利用不可能とを判定する処理を行う。   The analysis data comprehensive determination processing unit 106 performs a process of determining whether or not each data string can be used from the cleansing process history.

分析用データロード処理部107は、分析に利用可能なデータ列だけを抽出する処理を行う。   The analysis data load processing unit 107 performs a process of extracting only a data string that can be used for analysis.

分析用データテーブル処理部108は、分析に利用可能なデータ列だけを用いた分析処理を行う。   The analysis data table processing unit 108 performs analysis processing using only a data string that can be used for analysis.

クレンジング履歴活用分析実行処理部109は、クレンジング処理の履歴を参照して、分析に利用不可能なデータ列から、分析に利用可能なフィールドを抽出して活用する分析処理を行う。   The cleansing history utilization analysis execution processing unit 109 refers to the history of the cleansing process and performs an analysis process that extracts and utilizes fields that can be used for analysis from a data string that cannot be used for analysis.

元データテーブル110は、クレンジング処理される前の分析する元データである。   The original data table 110 is original data to be analyzed before the cleansing process.

クレンジングマスタテーブル111は、クレンジング処理する処理一覧が定義される。   The cleansing master table 111 defines a process list for cleansing processing.

クレンジングポリシマスタテーブル112は、クレンジング処理におけるポリシ(クレンジングポリシ、分析ポリシ)が設定される。   In the cleansing policy master table 112, a policy (cleansing policy, analysis policy) in the cleansing process is set.

クレンジング結果テーブル113は、クレンジング結果データが格納されるテーブルであり、元データ(110)と同じテーブルスキーマを持ち、クレンジング処理されたフィールドに附番される。   The cleansing result table 113 is a table in which cleansing result data is stored, has the same table schema as the original data (110), and is added to the cleansed field.

クレンジング結果詳細テーブル114は、クレンジング結果テーブル113に附番されたフィールドに対するクレンジング処理履歴が全て保存される。   The cleansing result detail table 114 stores all the cleansing process history for the fields numbered in the cleansing result table 113.

分析用データテーブル115は、クレンジング処理の履歴から、分析に利用可能なデータ列(データ項目)だけが格納される。   The analysis data table 115 stores only data strings (data items) that can be used for analysis from the history of cleansing processing.

[システム処理]
図2に、図1のシステムの全体の処理フローを示す(S201等は処理ステップを表す)。各処理ステップの詳細は後述される。
[System processing]
FIG. 2 shows an overall processing flow of the system of FIG. 1 (S201 and the like represent processing steps). Details of each processing step will be described later.

(S201) 本システムは、S201でまず104による分析用データ作成ポリシ設定を行う。クレンジングポリシマスタテーブル112にポリシが設定される。   (S201) In S201, the system first performs analysis data creation policy setting in step S104. A policy is set in the cleansing policy master table 112.

(S202) その後、S202では、S201のポリシに従って、105によるクレンジング処理を行う(→図3)。   (S202) After that, in S202, cleansing processing by 105 is performed according to the policy of S201 (→ FIG. 3).

(S203) S202のクレンジング処理後、S203で、106による分析用データ総合判定処理を行う(→図14)。   (S203) After the cleansing process of S202, an analysis data comprehensive determination process 106 is performed in S203 (→ FIG. 14).

(S204) S203の判定に従って、S204で、107による分析用データロード処理を行う(→図15)。   (S204) According to the determination in S203, the analysis data load process in 107 is performed in S204 (→ FIG. 15).

(S205) S204の後、分析用データテーブルを利用して分析を行う場合は、S205で、108により、S204でロードされた分析用データの処理である分析用データテーブル処理を行う(→図16)。   (S205) When analysis is performed using the analysis data table after S204, analysis data table processing, which is processing of the analysis data loaded in S204, is performed in S205 (see FIG. 16). ).

(S206) または、クレンジング履歴を利用して分析を行う場合は、S206で、109により、「元データ」と「クレンジング履歴」を活用したクレンジング履歴活用分析処理を行う(→図17,図18)。これにより高可用なデータ活用が実現される。   (S206) Alternatively, when the analysis is performed using the cleansing history, the cleansing history utilization analysis process utilizing the “original data” and the “cleansing history” is performed in 109 in S206 (→ FIGS. 17 and 18). . This realizes highly available data utilization.

[S202]
図3に、図2のクレンジング処理(S202)の詳細処理内容例のフローを示す。本クレンジング処理(S202)は105により以下の処理ステップの順序で処理される。これらの各処理は、図22(a),(b)に示すクレンジングマスタテーブル111で示される。各処理ステップの詳細は後述される。
[S202]
FIG. 3 shows a flow of an example of detailed processing contents of the cleansing process (S202) of FIG. This cleansing process (S202) is processed by 105 in the order of the following processing steps. Each of these processes is shown in the cleansing master table 111 shown in FIGS. 22 (a) and 22 (b). Details of each processing step will be described later.

(S301)欠損値確認処理(→図4)
(S302)不正文字列処理(→図5)
(S303)異常値処理(→図6)
(S304)値の単位揃え処理(→図7)
(S305)値の形式変換(全半角統一)処理(→図8)
(S306)値の齟齬確認処理(→図9)
(S307)値の正規化(郵便番号)処理(→図10)
(S308)値の正規化(住所)処理(→図11)
(S309)値の正規化(なまえ)処理(→図12)
(S310)値の正規化(電話番号)処理(→図13)。
(S301) Missing value confirmation processing (→ FIG. 4)
(S302) Illegal character string processing (→ FIG. 5)
(S303) Abnormal value processing (→ Fig. 6)
(S304) Value alignment processing (→ Fig. 7)
(S305) Value format conversion (unification of all half-width characters) (→ Figure 8)
(S306) Value check processing (→ FIG. 9)
(S307) Value normalization (zip code) processing (→ Fig. 10)
(S308) Value normalization (address) processing (→ FIG. 11)
(S309) Value normalization processing (→ FIG. 12)
(S310) Value normalization (telephone number) processing (→ FIG. 13).

図22(a)に、クレンジングマスタテーブル111(クレンジング処理を定義する)の定義(テーブルスキーマ)を示す。(b)に、同テーブル(111)の値(例)を示す。CIDはクレンジングマスタIDである。CNameはクレンジング処理名称である。なお本テーブル(111)は一例であって実際のデータクレンジング処理では行が多様にある。以下に示すクレンジング処理(S301等)は、図22(a),(b)のテーブル(111)の定義,値に基づく。   FIG. 22A shows the definition (table schema) of the cleansing master table 111 (defining cleansing processing). (B) shows a value (example) of the table (111). CID is a cleansing master ID. CName is a cleansing process name. The table (111) is an example, and there are various rows in the actual data cleansing process. The cleansing process (S301 and the like) shown below is based on the definitions and values of the table (111) in FIGS. 22 (a) and 22 (b).

[S201]
図2の分析用データ作成ポリシ設定処理(S201)では、104によりクレンジングポリシマスタテーブル112にクレンジングポリシが設定(入力)される。
[S201]
In the analysis data creation policy setting process (S201) in FIG. 2, the cleansing policy is set (input) in the cleansing policy master table 112 by 104.

図24に、クレンジングポリシマスタテーブル112(クレンジングポリシを定義するテーブル)の定義(テーブルスキーマ)を示す。図25に、同テーブル(112)の値(例)を示す。図24,図25のテーブル(112)では、各フィールド(FID)に対してどのような処理を行ったかが全て管理され保存される。図24,図25のFID(フィールドID)は、図23(a)で定義される「分析データフィールド管理テーブル」、及び図23(b)に示される値を持つ。CPIDはクレンジングポリシマスタID、CIDは前述(図22(a))、FIDは下記(図23(a))、PDIDはクレンジング処理方法詳細ID、CPProはクレンジング処理方法詳細、CPFLAGはクレンジング処理方法決定フラグ、CPCRITICALはクレンジング処理結果利用可否フラグである。   FIG. 24 shows the definition (table schema) of the cleansing policy master table 112 (table for defining the cleansing policy). FIG. 25 shows values (examples) of the table (112). In the tables (112) of FIGS. 24 and 25, all processing performed on each field (FID) is managed and stored. 24 and 25 have the “analysis data field management table” defined in FIG. 23A and the values shown in FIG. 23B. CPID is the cleansing policy master ID, CID is the above (FIG. 22 (a)), FID is the following (FIG. 23 (a)), PDID is the cleansing processing method details ID, CPPro is the cleansing processing method details, CPFLAG is the cleansing processing method decision A flag CPCRITICAL is a cleansing process result availability flag.

図23(a)に、分析データフィールド管理テーブル(「元データ」のフィールドを管理するテーブル)の定義(テーブルスキーマ)を示す。図23(b)に、同テーブルの値の例(図20に従って例示)を示す。FIDは分析テーブルフィールドIDである。FNameは分析テーブルフィールド名称である。   FIG. 23A shows a definition (table schema) of an analysis data field management table (a table for managing a field of “original data”). FIG. 23B shows an example of values in the table (illustrated in accordance with FIG. 20). FID is an analysis table field ID. FName is an analysis table field name.

[S301]
図4に、クレンジング処理(S202)における欠損値確認処理(S301)の詳細処理内容について示す。この処理(S301)は、図22(a)の定義における図22(b)のCID=1に基づく。なお処理主体の記載は省略するが105などである。
[S301]
FIG. 4 shows the detailed processing contents of the missing value confirmation processing (S301) in the cleansing processing (S202). This process (S301) is based on CID = 1 in FIG. 22B in the definition of FIG. Although the description of the processing subject is omitted, it is 105 or the like.

(S401)まず元データテーブル(110)を読込み、対象となる列を読込む。   (S401) First, the original data table (110) is read, and the target column is read.

図20に、元データ(110)の定義(テーブルスキーマ)、図21に、同テーブル(110)の値の例を示す。なお図20は例であり、実際は異なる項目(フィールド、列)で構成される。図21の値の例では、5つのデータセット(5行)を示しているが、実際のデータ分析では多くのデータセット(行)に及ぶ。BIDは元テーブルIDである。   FIG. 20 shows the definition (table schema) of the original data (110), and FIG. 21 shows an example of the value of the table (110). FIG. 20 is an example, and actually includes different items (fields and columns). In the example of the values in FIG. 21, five data sets (5 rows) are shown, but the actual data analysis covers many data sets (rows). BID is the original table ID.

(S402)クレンジングポリシマスタテーブル112(図24,図25)において「欠損値処理」に一致する「FID」の行を読込み、クレンジングポリシを読み込む。   (S402) In the cleansing policy master table 112 (FIGS. 24 and 25), the “FID” line that matches “missing value processing” is read, and the cleansing policy is read.

(S403)再び読み込んだ元データテーブル110(行)における対象フィールド(列)を読込む。   (S403) The target field (column) in the read original data table 110 (row) is read again.

(S404)フィールドの値が「欠損値」ではないかを判断する。即ち本来値があるべきフィールドに値があるかを判定する。本来値があるべきフィールドに値がある場合(Y)は処理を終了する。本来値があるべきフィールドに値が無い場合(N)、以下、フィール処理ポリシに従って処理をする。   (S404) It is determined whether the field value is “missing value”. That is, it is determined whether the field that should originally have a value has a value. If the field that should originally have a value has a value (Y), the process ends. If there is no value in the field that should originally have a value (N), processing is performed according to the field processing policy.

(S405)フィールド処理ポリシが「平均値に置き換える」である場合(Y)、(S406)そのフィールドが属する列の平均値を計算してそのフィールドに挿入(置換)する。フィールド処理ポリシが「空白のままにする」である場合(N)、(S408)そのフィールドを空白のままにする。   (S405) If the field processing policy is “Replace with average value” (Y), (S406) The average value of the column to which the field belongs is calculated and inserted (replaced) in the field. If the field processing policy is “leave blank” (N) (S408), leave the field blank.

その他の処理ポリシの場合(S407−N)、(S409)手入力する旨のアラートをユーザ(U)に対し表示し、(S410)ユーザ(U)により手入力をする。   In the case of other processing policies (S407-N), (S409) an alert for manual input is displayed to the user (U), and (S410) manual input is made by the user (U).

以上の通り、欠損値の処理を終えたら、次に以下、クレンジング処理結果を保存する。(S411)クレンジング結果テーブル113の該当フィールドが空白の場合(Y)、(S412)クレンジング結果テーブル113に連番を振る。クレンジング結果テーブル113に既に値が入っている場合(S411−N)は、そのままの値を利用する。   As described above, after the missing value processing is completed, the cleansing processing result is stored. (S411) When the corresponding field of the cleansing result table 113 is blank (Y), (S412) a serial number is assigned to the cleansing result table 113. When the cleansing result table 113 already has a value (S411-N), the value is used as it is.

図26に、クレンジング結果テーブル113(クレンジングの結果を残すテーブル)の定義(テーブルスキーマ)の例を示す。図27に、同テーブル(113)の値の例を示す。本スキーマは元データ(110)に「最終判断」フィールド(分析用に使うか否かを示す)を追加したものになる。   FIG. 26 shows an example of the definition (table schema) of the cleansing result table 113 (table for leaving the cleansing result). FIG. 27 shows an example of values in the table (113). This schema is obtained by adding a “final decision” field (indicating whether or not to use for analysis) to the original data (110).

(S413)そしてクレンジング結果詳細テーブル114にクレンジング結果を挿入(記述)する。   (S413) Then, the cleansing result is inserted (described) in the cleansing result detail table 114.

図28(a)に、クレンジング結果詳細テーブル114(クレンジング結果履歴の詳細を残すテーブル)の定義(テーブルスキーマ)を示す。図28(b)に、同テーブル(114)の値の例を示す。本テーブル(114)では、図26,図27のクレンジング結果テーブル113で附番されたHID(クレンジング結果付与された番号)に対して、どのようなクレンジング処理をしたかが全て管理されて保存される。DIDはクレンジング結果詳細テーブルIDである。BIDは前述(図20)、HIDはクレンジング結果付与された番号である。CPIDは前述(図24)(クレンジング処理した方法を記録する)、CPCRITICALは前述(図24)である。   FIG. 28A shows the definition (table schema) of the cleansing result detail table 114 (the table that keeps the details of the cleansing result history). FIG. 28B shows an example of values in the table (114). In this table (114), all cleansing processes performed on the HIDs (numbers assigned with cleansing results) numbered in the cleansing result table 113 of FIGS. 26 and 27 are managed and stored. The DID is a cleansing result detail table ID. BID is the number given above (FIG. 20), and HID is the number assigned to the cleansing result. CPID is as described above (FIG. 24) (records the cleansing method), and CPCRITICAL is as described above (FIG. 24).

[S302]
次に、図5に、不正文字列処理(S302)について示す。この処理(S302)は、図22(a)の定義,図22(b)のCID=2の例示に基づく。
[S302]
Next, FIG. 5 shows the illegal character string processing (S302). This process (S302) is based on the definition of FIG. 22A and the example of CID = 2 in FIG.

(S501)はじめに「不正文字列」(一覧)を定義する。代表的な不正文字列は、「!“#$%&‘+;*:?¥|」である。   (S501) First, “illegal character strings” (list) are defined. A typical illegal character string is “!“ # $% &’+; * :? \ | ".

(S502)次にクレンジングポリシマスタテーブル112(図24,図25)において「不正文字列処理」に一致する「FID」の行を読込み、クレンジングポリシを読込む。   (S502) Next, in the cleansing policy master table 112 (FIGS. 24 and 25), the line “FID” that matches “illegal character string processing” is read, and the cleansing policy is read.

(S503)元データテーブル110(図20,図21)の対象フィールドを読込む。   (S503) The target field of the original data table 110 (FIGS. 20 and 21) is read.

(S504)フィールドの値が「不正文字列」に一致しないかどうかを判断する。即ち上記定義された不正文字列が該当フィールドに存在するかどうか、文字比較を行う。文字比較の結果、該当フィールドの不正文字列と一致する文字が無い場合(Y)は処理を終了する。該当フィールドに不正文字列と一致する文字がある場合(N)、以下、フィールド処理ポリシに従って処理をする。   (S504) It is determined whether or not the field value does not match the “illegal character string”. That is, character comparison is performed to determine whether or not the defined illegal character string exists in the corresponding field. As a result of the character comparison, if there is no character that matches the illegal character string in the corresponding field (Y), the process is terminated. If there is a character that matches the illegal character string in the corresponding field (N), processing is performed according to the field processing policy.

(S505)フィールド処理ポリシが「不正文字だけを取り除く」である場合(Y)、(S506)そのフィールドの不正文字だけを取り除く。フィールド処理ポリシが「空白にする」である場合(Y)、(S508)そのフィールドを空白にする。その他の処理ポリシの場合(S507−N)、(S509)手入力する旨のアラートを表示し、(S510)手入力をする。   (S505) If the field processing policy is “remove only illegal characters” (Y), (S506) remove only illegal characters in the field. When the field processing policy is “blank” (Y) (S508), the field is blanked. In the case of other processing policies (S507-N), (S509) an alert to the effect of manual input is displayed, and (S510) manual input is performed.

以上の通り、不正文字(列)処理を終えたら、次にS511〜S513で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the illegal character (string) processing is completed, the cleansing processing result is stored in S511 to S513 (similar to S411 to S413).

[S303]
次に、図6に、異常値処理(S303)について示す。この処理(S303)は図22(a)の定義,図22(b)のCID=3の例示に基づく。
[S303]
Next, FIG. 6 shows the abnormal value processing (S303). This process (S303) is based on the definition of FIG. 22A and the example of CID = 3 in FIG. 22B.

(S601)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「異常値処理」に一致する「FID」の行を読込む。   (S601) First, the “FID” line that matches the “abnormal value processing” is read in the cleansing policy master table 112 (FIGS. 24 and 25).

(S602)次にクレンジングポリシを読込む。   (S602) Next, the cleansing policy is read.

(S603)元データテーブル110(図20,図21)の対象列フィールドを読み込む。   (S603) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S604)S605の判断(異常値の判断)のために、所定の検定処理を行う。本実施の形態では、この異常値の検定方法として「スミルノフ・グラブス検定」を用いる。   (S604) A predetermined test process is performed for the determination of S605 (determination of an abnormal value). In the present embodiment, “Smirnov-Grubbs test” is used as a method for testing this abnormal value.

(S605)S604の検定に基づき、フィールドの値が「異常値」(外れ値)でないかを判断する。外れ値でない場合(Y)は処理を終了する。外れ値の場合(N)、以下、該当フィールドに対して処理ポリシに従って処理をする。   (S605) Based on the test of S604, it is determined whether the field value is “abnormal value” (outlier). If it is not an outlier (Y), the process ends. In the case of an outlier (N), the corresponding field is processed according to the processing policy.

(S606)フィールド処理ポリシが「平均値に置き換える」の場合(Y)、(S607)その列の平均値を計算して当該フィールドに平均値を挿入する。フィールド処理ポリシが「空白にする」の場合(Y)、(S609)そのフィールドを空白にする。その他の処理ポリシの場合(S608−N)、(S610)手入力する旨のアラートを表示し、(S611)手入力をする。   (S606) When the field processing policy is “replace with average value” (Y), (S607) the average value of the column is calculated and the average value is inserted into the field. If the field processing policy is “blank” (Y) (S609), the field is blanked. In the case of other processing policies (S608-N), (S610) an alert for manual input is displayed, and (S611) manual input is performed.

以上の通り、異常値処理を終えたら、次に以下S612〜S614で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the abnormal value processing is completed, the cleansing processing result is stored in S612 to S614 (similar to S411 to S413).

[S304]
次に、図7に、「値の単位揃え処理」(S304)について示す。この処理S304は、図22(a)の定義、図22(b)のCID=4の例示に基づく。
[S304]
Next, FIG. 7 shows “value unit alignment processing” (S304). This process S304 is based on the definition of FIG. 22A and the example of CID = 4 in FIG.

(S701)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の単位揃え処理」に一致する「FID」の行を読込む。   (S701) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value unit alignment processing” is read.

(S702)元データテーブル110(図20,図21)の対象列フィールドを読込む。   (S702) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S703)「利用可能な単位」を定義する。本実施の形態(具体例)では、「円」を単位として定義する。   (S703) Define “available units”. In the present embodiment (specific example), “circle” is defined as a unit.

(S704)「利用不可能な単位」を定義する。本実施の形態(具体例)では、「利用不可能な単位」として「万円」を定義する。   (S704) “Unusable unit” is defined. In the present embodiment (specific example), “10,000 yen” is defined as “unusable unit”.

(S705)そして上記「利用可能な単位」と「利用不可能な単位」の対比表を作成する。   (S705) Then, a comparison table of the above “available units” and “unusable units” is created.

図31に対比表の定義、図32に対比表の値の例を示す。SIDは対比表IDである。CIDは前述(図22(a))、UDFは利用可能なフォーマット、UUSFは利用不可能なフォーマットを示す。S304の処理例は、対比表のCID=4の行で表される。即ち「1万円」=「10,000円」という表になる。対比表(図31,図32)は、図7の処理(S304)、図8の処理(S305)、図10の処理(S307)、図13の処理(S310)における対比表として使用される。   FIG. 31 shows the definition of the comparison table, and FIG. 32 shows an example of the values of the comparison table. SID is a comparison table ID. CID indicates the aforementioned format (FIG. 22A), UDF indicates an available format, and UUSF indicates an unusable format. The processing example of S304 is represented by a row of CID = 4 in the comparison table. That is, the table becomes “10,000 yen” = “10,000 yen”. The comparison table (FIGS. 31 and 32) is used as a comparison table in the process of FIG. 7 (S304), the process of FIG. 8 (S305), the process of FIG. 10 (S307), and the process of FIG. 13 (S310).

(S706)フィールド値が「利用可能な単位」かを判断する。「利用可能な単位」である場合(Y)は処理を終了する。「利用可能な単位」ではない場合(N)、(S707)フィールド処理ポリシが「「利用不可能な単位」に変換」である場合(Y)は、(S708)対比表を利用して「利用可能な単位」に変換する。   (S706) It is determined whether the field value is “available unit”. If it is “available unit” (Y), the process is terminated. If it is not “available unit” (N), (S707) if the field processing policy is “convert to“ unusable unit ”” (Y), use (S708) comparison table to “use” Convert to possible units.

「利用可能な単位」及び「利用不可能な単位」のどちらでもない場合(S707−N)、フィールド処理ポリシに従って処理をする。(S709)フィールド処理ポリシが「空白にする」の場合(Y)、(S710)フィールドを空白にする。その他の処理ポリシの場合(S709−N)、(S711)手入力する旨のアラートを表示し、(S712)手入力をする。   If neither the “usable unit” nor the “unusable unit” is present (S707-N), the processing is performed according to the field processing policy. (S709) If the field processing policy is “blank” (Y), (S710) the field is blank. In the case of other processing policies (S709-N), (S711) an alert for manual input is displayed, and (S712) manual input is performed.

以上の通り、値の単位揃え処理を終えたら、次に以下S713〜S715で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the value unit alignment process is completed, the cleansing process result is stored in S713 to S715 (similar to S411 to S413).

[S305]
次に、図8に、「値の形式変換(全半角統一)処理」(S305)について示す。この処理(S305は、図22(a)の定義、図22(b)のCID=5の例示に基づく。
[S305]
Next, FIG. 8 shows “value format conversion (unification of all half-widths)” (S305). This processing (S305 is based on the definition of FIG. 22A and the example of CID = 5 in FIG. 22B.

(S801)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の形式変換(全半角統一)処理」に一致する「FID」の行を読込む。図24にクレンジングポリシマスタテーブルを、図25にその値の例をに示す。   (S801) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value format conversion (unification of all half-widths)” is read. FIG. 24 shows a cleansing policy master table, and FIG. 25 shows an example of the values.

(S802)元データテーブル110(図20,図21)における対象列フィールドを読込む。   (S802) The target column field in the original data table 110 (FIGS. 20 and 21) is read.

(S803)次に対象文字列を定義する。本実施の形態(具体例)では対象となる全半角文字列を「1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz」と定義する。   (S803) Next, a target character string is defined. In the present embodiment (specific example), a target full-width character string is defined as “12345567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghhijklmnopqrstuvwxyz1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrst.

(S804)次に利用可能な全角半角文字を定義する。本実施の形態(具体例)では「1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz」として定義する。   (S804) The next available full-width half-width character is defined. In this embodiment (specific example), it is defined as “12345567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghhijklmnopqrstuvwxyz”.

(S805)次に利用不可能な全角半角文字を定義する。本実施の形態(具体例)では利用不可能な全半角文字として「1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz」として定義する。   (S805) Next, unusable full-width half-width characters are defined. In the present embodiment (specific example), it is defined as “1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz” as a full-width character that cannot be used.

(S806)そして上記「利用可能な全半角」と「利用不可能な全半角」の対比表を作成する。本処理例の対比表(図31,図32)では、CID=5の行になる。即ち、「1(全角)」=「1(半角)」等といった表になる。   (S806) Then, the above-mentioned “available half-width” and “unusable full-width” comparison table is created. In the comparison table of this processing example (FIGS. 31 and 32), the row has CID = 5. That is, a table such as “1 (full-width)” = “1 (half-width)” is obtained.

(S807)フィールドの値が「対象全角半角文字」を含んでいるかを判断する。フィールドの値に「対象全半角文字」が含まれていない場合(N)は処理を終了する。   (S807) It is determined whether the value of the field includes “target full-width half-width character”. If the value of the field does not include “target full-width characters” (N), the process ends.

(S808)フィールドの値が「利用可能な全角半角文字」フォーマットに一致するかを判断する。「利用可能な全角半角文字」と一致する場合(Y)は処理を終了する。   (S808) It is determined whether or not the field value matches the “available full-width half-width character” format. If it matches with “available full-width half-width characters” (Y), the process is terminated.

「利用不可能な全角半角文字」の場合(S808−N)、(S809)フィールド処理ポリシが「対比表を利用して「利用可能な全角半角文字」に変換する」である場合(Y)、(S810)対比表に従って「利用可能な全角半角文字」に変換する。   In the case of “unavailable double-byte characters” (S808-N), (S809) when the field processing policy is “convert to“ available double-byte characters ”using the comparison table” (Y), (S810) Convert to “available full-width half-width characters” according to the comparison table.

(S811)フィールド処理ポリシが「空白にする」の場合(Y)、(S812)該当文字を空白にする。その他の処理ポリシの場合(S811−N)、(S812)手入力する旨のアラートを表示し、(S814)手入力をする。   (S811) If the field processing policy is “blank” (Y), (S812) the corresponding character is blanked. In the case of other processing policies (S811-N), (S812) an alert for manual input is displayed, and (S814) manual input is performed.

以上の通り、全半角文字処理(値の形式変換(全半角統一)処理)を終えたら、次に以下S815〜S817で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the full-width character processing (value format conversion (unification of all half-width) processing) is finished, the cleansing processing result is stored in S815 to S817 (similar to S411 to S413).

[S306]
次に、図9に、「値の齟齬確認処理」(S306)について示す。この処理(S306)は図22(a)の定義、図22(b)のCID=6の例示に基づく。
[S306]
Next, FIG. 9 shows the “value check process” (S306). This process (S306) is based on the definition of FIG. 22A and the example of CID = 6 in FIG. 22B.

(S901)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の齟齬確認処理」に一致する「FID」の行を読込む。   (S901) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line “FID” that matches the “value check process” is read.

(S902)元データテーブル110(図20,図21)における対象列フィールドを読込む。本実施の形態(具体例)では、値の齟齬として元データの「性別」と「職業」において「性別=男性」と「職業=主婦」に齟齬があると設定されている(BID=2)。   (S902) The target column field in the original data table 110 (FIGS. 20 and 21) is read. In the present embodiment (specific example), “gender = male” and “occupation = housewife” are set as “齟齬” in the original data “sex” and “occupation” (BID = 2). .

(S903)フィールド間に齟齬があるかを判断する。例えば「性別=男性」「職業=主婦」となり、フィールド間の値に齟齬がある。齟齬が無い場合(Y)は処理を終了する。   (S903) It is determined whether there is a flaw between the fields. For example, “gender = male” and “occupation = housewife”, and there is a discrepancy between the fields. If there is no defect (Y), the process is terminated.

(S904)フィールド処理ポリシが「何もしない」の場合(Y)、何も操作はしない(909へ移る)。   (S904) If the field processing policy is "do nothing" (Y), no operation is performed (proceeds to 909).

(S905)フィールド処理ポリシが「空白にする」の場合(Y)、(S906)フィールドを空白にする。その他の処理ポリシの場合(S905−N)、(S907)手入力する旨のアラートを表示し、(S908)手入力をする。   (S905) If the field processing policy is “blank” (Y), (S906) the field is blanked. In the case of other processing policies (S905-N), (S907) an alert to the effect of manual input is displayed, and (S908) manual input is performed.

以上の通り、値の齟齬確認処理を終えたら、次に以下S909〜S911で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the value check process is completed, the cleansing process result is stored in S909 to S911 (similar to S411 to S413).

[S307]
次に、図10に、「値の正規化(郵便番号)処理」(S307)について示す。この処理(S307)は、図22(a)の定義、図22(b)のCID=7の例示に基づく。
[S307]
Next, FIG. 10 shows “value normalization (zip code) processing” (S307). This process (S307) is based on the definition of FIG. 22A and the example of CID = 7 in FIG.

(S1001)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の正規化(郵便番号)処理」に一致する「FID」の行を読込む。   (S1001) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value normalization (zip code) processing” is read.

(S1002)元データテーブル110(図20,図21)の対象列フィールドを読込む。   (S1002) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S1003)利用可能な郵便番号(正規フォーマット)を定義する。本実施の形態(具体例)では利用可能な郵便番号として「1234567」を定義する。   (S1003) Define available postal codes (canonical format). In the present embodiment (specific example), “1234567” is defined as an available postal code.

(S1004)利用不可能な郵便番号(非正規フォーマット)を定義する。本実施の形態(具体例)では利用不可能な郵便番号として「123-4567」を定義する。   (S1004) Define an unusable postal code (non-canonical format). In this embodiment (specific example), “123-4567” is defined as an unusable postal code.

(S1005)そして上記「利用可能な郵便番号」と「利用不可能な郵便番号」の対比表を作成する。本処理例の対比表(図31,図32)では、CID=7の行が該当する。即ち、「123-4567」=「1234567」という表になる。   (S1005) Then, a comparison table of the above-mentioned “available postal codes” and “unusable postal codes” is created. In the comparison table of this processing example (FIGS. 31 and 32), the row with CID = 7 corresponds. That is, the table becomes “123-4567” = “1234567”.

(S1006)フィールドの値が利用可能な郵便番号(正規フォーマット)かを判断する。正規フォーマットに一致する場合(Y)は処理を終了する。   (S1006) It is determined whether the field value is an available postal code (regular format). If it matches the regular format (Y), the process ends.

(S1007)フィールドの値が利用不可能な郵便番号(非正規フォーマット)かを判断する。非正規フォーマットに一致する場合(Y)、以下、フィールド処理ポリシに従って処理をする(一致しない場合はS1010へ移る)。   (S1007) It is determined whether the field value is an unusable postal code (non-regular format). If it matches the non-regular format (Y), the process is performed according to the field processing policy (the process proceeds to S1010 if they do not match).

(S1008)フィールド処理ポリシが「対比表を利用して「利用可能な郵便番号」(正規フォーマット)に変換する」の場合(Y)、(S1009)対比表を使って郵便番号のフォーマットを正規になるように変換する。   (S1008) If the field processing policy is “Convert to“ available postal codes ”(regular format) using the comparison table” (Y), (S1009) Use the comparison table to normalize the postal code format Convert to

上記「利用可能な郵便番号」及び「利用不可能な郵便番号」のどちらでもない場合、以下、フィールド処理ポリシに従って処理をする。(S1010)フィールド処理ポリシが「空白にする」の場合(Y)、(S1011)フィールドを空白にする。その他の処理ポリシの場合(S1010−N)、(S1012)手入力する旨のアラートを表示し、(S1013)手入力をする。   If neither the “available zip code” nor the “unusable zip code” is used, processing is performed according to the field processing policy. (S1010) If the field processing policy is “blank” (Y), (S1011) the field is blank. In the case of other processing policies (S1010-N), (S1012) an alert to the effect of manual input is displayed, and (S1013) manual input is performed.

以上の通り、郵便番号の処理を終えたら、次に以下S1014〜S1016で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, when the postal code processing is completed, the cleansing processing result is stored in S1014 to S1016 (similar to S411 to S413).

[S308]
次に、図11に、「値の正規化(住所)処理」(S308)について示す。この処理(S308)は、図22(a)の定義、図22(b)のCID=8の例示に基づく。
[S308]
Next, FIG. 11 shows “value normalization (address) processing” (S308). This process (S308) is based on the definition in FIG. 22A and the example of CID = 8 in FIG.

(S1101)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の正規化(住所)処理」に一致する「FID」の行を読込む。   (S1101) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value normalization (address) processing” is read.

(S1102)元データテーブル110(図20,図21)の対象列フィールドを読込む。   (S1102) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S1103)利用可能な住所を定義する。「住所(都道府県)」で「利用可能な正規住所(都道府県)」一覧を定義する。本実施の形態(具体例)では、この住所(正規)として「北海道、青森県、・・・、沖縄県」(47都道府県)を定義する。   (S1103) Define available addresses. Define a list of “available regular addresses (prefectures)” in “address (prefecture)”. In this embodiment (specific example), “Hokkaido, Aomori Prefecture,..., Okinawa Prefecture” (47 prefectures) is defined as this address (regular).

(S1104)フィールドの値が上記利用可能な住所(正規)の文字列に一致するかを判断する。一致する場合(Y)は処理を終了する。一致しない場合(N)、即ち利用不可能な住所の場合、以下、フィールド処理ポリシに従って処理をする。   (S1104) It is determined whether the value of the field matches the character string of the usable address (regular). If they match (Y), the process ends. If they do not match (N), that is, if the address is not available, processing is performed according to the field processing policy.

(S1105)フィールド処理ポリシが「空白にする」の場合(Y)、(S1106)フィールドを空白にする。その他の処理ポリシの場合(N)、(S1107)手入力する旨のアラートを表示し、(S1108)手入力をする。   (S1105) When the field processing policy is “blank” (Y), (S1106) the field is blank. In the case of other processing policies (N), (S1107) an alert to the effect of manual input is displayed, and (S1108) manual input is performed.

以上の通り、住所の処理を終えたら、次に以下S1109〜S1111で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   As described above, after the address processing is completed, the cleansing processing result is stored in S1109 to S1111 (similar to S411 to S413).

[S309]
次に、図12に、「値の正規化(なまえ)処理」(S309)について示す。この処理(S309)は、図22(a)の定義、図22(b)のCID=9の例示に基づく。
[S309]
Next, FIG. 12 shows “value normalization (name) processing” (S309). This process (S309) is based on the definition of FIG. 22A and the example of CID = 9 in FIG.

(S1201)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の正規化(なまえ)処理」に一致する「FID」の行を読込む。   (S1201) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value normalization (name) processing” is read.

(S1202)元データテーブル110(図20,図21)の対象列フィールドを読込む。   (S1202) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S1203)利用可能な「なまえ」文字列を定義する。本実施の形態(具体例)では、利用可能な「なまえ」文字列として「あいうえおかき・・・」(全ひらがな)を定義する。   (S1203) Define a “name” character string that can be used. In the present embodiment (specific example), “aiueokaki ...” (all hiragana) is defined as a usable “name” character string.

(S1204)フィールドの値が上記利用可能な「なまえ」文字列で構成されているかを判断する。利用可能な「なまえ」文字列で構成されている場合(Y)は処理を終了する。利用可能な「なまえ」文字列以外の文字が入っていた場合(N)、以下S1205〜S1208で、フィールド処理ポリシに従って処理をする(前記S1105〜S1108と同様)。そして上記なまえの処理を終えたら、S1209〜S1211で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   (S1204) It is determined whether the value of the field is composed of the above-mentioned “name” character string that can be used. If it is composed of an available “name” character string (Y), the process ends. If there is a character other than the “name” character string that can be used (N), processing is performed in accordance with the field processing policy in S1205 to S1208 (similar to S1105 to S1108). When the above processing is completed, the cleansing processing result is stored in S1209 to S1211 (similar to S411 to S413).

[S310]
次に、図13に、「値の正規化(電話番号)処理」(S310)について示す。この処理(S310)は図22(a)の定義、図22(b)のCID=10の例示に基づく。
[S310]
Next, FIG. 13 shows “value normalization (telephone number) processing” (S310). This process (S310) is based on the definition of FIG. 22A and the example of CID = 10 in FIG.

(S1301)はじめにクレンジングポリシマスタテーブル112(図24,図25)において「値の正規化(電話番号)処理」に一致する「FID」の行を読込む。   (S1301) First, in the cleansing policy master table 112 (FIGS. 24 and 25), the line of “FID” that matches “value normalization (telephone number) processing” is read.

(S1302)元データテーブル110(図20,図21)の対象列フィールドを読込む。   (S1302) The target column field of the original data table 110 (FIGS. 20 and 21) is read.

(S1303)利用可能な電話番号(正規フォーマット)を定義する。本実施の形態(具体例)では利用可能な電話番号として「123456790」及び「12345678901」を定義する。   (S1303) Define available phone numbers (regular format). In this embodiment (specific example), “123456790” and “12345678901” are defined as available telephone numbers.

(S1304)利用不可能な電話番号(非正規フォーマット)を定義する。   (S1304) Define an unusable telephone number (non-regular format).

(S1305)そして上記「利用可能な電話番号」と「利用不可能な電話番号」の対比表を作成する。本処理例の対比表(図31,図32)では、CID=10の行が該当する。即ち、「123-4567」=「1234567」という表になる。即ち、「12-3456-7890」=「1234567890」……といった表になる。   (S1305) Then, a comparison table of the above-mentioned “available telephone numbers” and “unusable telephone numbers” is created. In the comparison table of this processing example (FIGS. 31 and 32), the row with CID = 10 corresponds. That is, the table becomes “123-4567” = “1234567”. That is, the table becomes “12-3456-7890” = “1234567890”.

(S1306)フィールドの値が利用可能な電話番号(正規フォーマット)かを判断する。正規フォーマットに一致する場合(Y)は処理を終了する。   (S1306) It is determined whether the field value is an available telephone number (regular format). If it matches the regular format (Y), the process ends.

(S1307)フィールドの値が利用不可能な電話番号(非正規フォーマット)かを判断する。非正規フォーマットに一致する場合(Y)、以下、フィールド処理ポリシに従って処理をする(一致しない場合はS1310へ移る)。   (S1307) It is determined whether the field value is an unusable telephone number (non-regular format). If it matches the non-regular format (Y), the process is performed according to the field processing policy (the process proceeds to S1310 if they do not match).

(S1308)フィールド処理ポリシが「対比表を利用して「利用可能な電話番号」(正規フォーマット)に変換する」の場合(Y)、(S1309)対比表を使って電話番号のフォーマットを正規になるように変換する。   (S1308) If the field processing policy is “Convert to“ Available phone numbers ”(regular format) using the comparison table” (Y), (S1309) Use the comparison table to normalize the phone number format. Convert to

上記「利用可能な電話番号」及び「利用不可能な電話番号」のどちらでもない場合、以下S1310〜1313で、フィールド処理ポリシに従って処理をする(前記S1010〜S1013と同様)。そして上記電話番号の処理を終えたら、S1314〜S1316で、クレンジング処理結果を保存する(前記S411〜S413と同様)。   If neither the “available phone number” nor the “unusable phone number” is described above, processing is performed in accordance with the field processing policy in S1310 to 1313 (similar to S1010 to S1013). When the processing of the telephone number is completed, the cleansing processing result is stored in S1314 to S1316 (similar to S411 to S413).

[S203]
次に、図14に、分析用データ総合判定処理(S203)のフローを示す。分析用データ総合判定処理(S203)では、クレンジング処理履歴であるクレンジング結果詳細テーブル114を参照して、分析に利用可能なデータセット(行)と利用不可能なデータセット(行)とに分ける。
[S203]
Next, FIG. 14 shows a flow of the analysis data comprehensive determination process (S203). In the analysis data comprehensive determination process (S203), the cleansing result detail table 114, which is the cleansing process history, is referred to and divided into a data set (row) usable for analysis and an unusable data set (row).

(S1401)はじめに初期化処理として、クレンジング結果テーブル113(図26,図27)の「最終判断」フィールド(列)に「Y」を初期値として入れる。   (S1401) First, as an initialization process, “Y” is entered as an initial value in the “final determination” field (column) of the cleansing result table 113 (FIGS. 26 and 27).

(S1402)次に、クレンジング結果テーブル113の各行において、列フィールドが空白ではなく附番してある場合(Y)、クレンジング結果詳細テーブル114(図28)から、その附番(HID)に対応する行を取り出す。   (S1402) Next, in each row of the cleansing result table 113, when the column field is numbered instead of blank (Y), it corresponds to the numbering (HID) from the cleansing result detail table 114 (FIG. 28). Retrieve a row.

(S1403)そして、上記取り出した行の中の「CPCRITICAL」フィールドに「N」がある場合(Y)、(S1404)該当するクレンジング結果テーブル113の「BID」行の「最終判断」フィールドに「N」を入れる。   (S1403) When “N” is present in the “CPCRITICAL” field in the extracted row (Y), (S1404) “N” is displayed in the “final judgment” field of the “BID” row of the corresponding cleansing result table 113. ".

[S204]
次に、図15に、分析用データロード処理(S204)のフローを示す。分析用データロード処理(S204)では、クレンジング処理履歴であるクレンジング結果詳細テーブル114を参照して、分析に利用可能なデータセット(行)を取り出す。
[S204]
Next, FIG. 15 shows a flow of analysis data loading processing (S204). In the analysis data load process (S204), a cleansing result detail table 114, which is a cleansing process history, is referred to and a data set (row) usable for analysis is extracted.

(S1501)はじめに元データ(元データテーブル110)(図20,図21)を読込む。   (S1501) First, the original data (original data table 110) (FIGS. 20 and 21) is read.

(S1502)次にクレンジング結果テーブル113(図26,図27)を読み込む。   (S1502) Next, the cleansing result table 113 (FIGS. 26 and 27) is read.

(S1503,S1504)クレンジング結果テーブル113の行において、「最終判定」フィールドが「Y」の行の行番号(BID)に対応する「元データ」の行だけを、分析用データテーブル(図29,図30)にコピーする。   (S1503, S1504) In the row of the cleansing result table 113, only the row of “original data” corresponding to the row number (BID) of the row whose “final determination” field is “Y” is stored in the analysis data table (FIG. 29, FIG. 29). Copy to FIG.

図29に、分析用データテーブル115の定義(テーブルスキーマ)を示す。図30に、同テーブル(115)の値の例を示す。BIDは前述(図26)である。本テーブル(115)は、クレンジング処理され分析に利用可能なデータセットを格納するテーブルであり、定義は元データ(図20)と同じである。本テーブル(115)には、データクリーニング処理でデータセット(行)に1つの項目(フィールド、列)でも不正があった場合は、そのデータセット(行)を格納しない。   FIG. 29 shows the definition (table schema) of the analysis data table 115. FIG. 30 shows an example of values in the table (115). BID is as described above (FIG. 26). This table (115) is a table that stores a data set that has been cleansed and can be used for analysis, and has the same definition as the original data (FIG. 20). This table (115) does not store the data set (row) if there is any illegal item (field, column) in the data set (row) in the data cleaning process.

[S205]
次に、図2の分析用データテーブル115を利用した分析処理(分析用データテーブル処理)(S205)の場合、108により、分析用データテーブル115を読込み(ロード)して、分析(分析処理)を実行する、という流れになる。
[S205]
Next, in the case of analysis processing (analysis data table processing) (S205) using the analysis data table 115 of FIG. 2, the analysis data table 115 is read (loaded) by 108 and analyzed (analysis processing). The flow is to execute.

図16に、上記分析処理(S205)に対応したシステム構成例を示す。なお図16の構成は図1のシステム構成に統合してもよい。分析者(U)は、分析用データテーブル1603のみを参照して分析をする。分析者(U)は、端末装置1601からネットワーク1602を経由して分析用データテーブル1603(115対応)(そのデータを記憶する装置など)に接続して、分析(分析処理)を実行する。   FIG. 16 shows a system configuration example corresponding to the analysis process (S205). The configuration shown in FIG. 16 may be integrated with the system configuration shown in FIG. The analyst (U) performs analysis with reference to only the analysis data table 1603. The analyst (U) connects to the analysis data table 1603 (corresponding to 115) (such as a device that stores the data) from the terminal device 1601 via the network 1602, and executes analysis (analysis processing).

[S206]
次に、図17に、図2の109により行うクレンジング履歴活用分析実行処理(S206)の詳細処理例である、元データ(110)、クレンジング結果(113)、及びクレンジング結果詳細(114)を用いた分析データ抽出方法・分析処理(分析手順)について、「平均年齢の計算」を例に示す。図17の手順によって、分析用データテーブル115にはロードされなかったが、元データ(110)で利用可能な「年齢」フィールドがある場合に、クレンジング結果(113)及びクレンジング結果詳細(114)を参照することで活用可能となることを示す。
[S206]
Next, FIG. 17 uses the original data (110), the cleansing result (113), and the cleansing result details (114), which are detailed processing examples of the cleansing history utilization analysis execution process (S206) performed by 109 of FIG. An example of “calculation of average age” is shown as an example of the analysis data extraction method and analysis process (analysis procedure). When there is an “age” field available in the original data (110) by the procedure of FIG. 17 but not loaded in the analysis data table 115, the cleansing result (113) and the cleansing result details (114) are displayed. Indicates that it can be used by reference.

(S1701,S1702,S1703)まず元データ(110)、クレンジング結果(113)、及びクレンジング結果詳細(114)の各データ(テーブル)をロード(読み込み)する。(S1704)クレンジング結果(113)の「年齢」列フィールドを読込み、(S1705)各行の「年齢」フィールドに附番(値が入っている)されているか空白かを確認する。「年齢」フィールドが「空白」の場合(N)は、該当する元データ(110)の「年齢」フィールドの値を計算に用いる。「年齢」フィールドに附番(値が入っている)されている場合(Y)は、(S1706)クレンジング結果(113)の「年齢」フィールドの値(番号)に該当する、クレンジング結果詳細(114)のHIDフィールドの番号(附番)に該当(一致)する行(フィールド)を探して取り出す。(S1707)上記取り出した行(フィールド)において「CPCRITICAL」フィールドを参照し、「CPCRITICAL」の値が「Y」のみの場合(Y)、(S1708)そのクレンジング結果詳細テーブル114のHIDに該当する元データ(110)のBID行の「年齢」フィールドの値(クレンジング結果テーブル113のセルの値)を分析に利用する。   (S1701, S1702, S1703) First, each data (table) of original data (110), cleansing result (113), and cleansing result details (114) is loaded (read). (S1704) The “age” column field of the cleansing result (113) is read, and (S1705) whether the “age” field of each row is numbered (enters a value) or blank. When the “age” field is “blank” (N), the value of the “age” field of the corresponding original data (110) is used for the calculation. When the “age” field is numbered (a value is entered) (Y), the cleansing result details (114) corresponding to the “age” field value (number) of the cleansing result (113) (S1706) ) HID field number (attachment number) corresponding to (matching) is searched for and extracted. (S1707) Refers to the “CPCRITICAL” field in the extracted row (field), and when the value of “CPCRITICAL” is only “Y” (Y), (S1708) The source corresponding to the HID in the cleansing result detail table 114 The value of the “age” field in the BID row of the data (110) (the cell value of the cleansing result table 113) is used for analysis.

(S1709)一方、上記取り出した行において「CPCRITICAL」に「N」がある場合(S1707−N)、そのクレンジング結果詳細テーブル114のHIDに該当する元データ(110)のBID行の「年齢」フィールドの値(クレンジング結果テーブル113のセルの値)を分析に利用しない。   (S1709) On the other hand, when “CPCRITICAL” is “N” in the extracted row (S1707-N), the “age” field of the BID row of the original data (110) corresponding to the HID of the cleansing result detail table 114 (The value of the cell in the cleansing result table 113) is not used for analysis.

(S1710)そして、元データ(110)の「年齢」フィールドで、分析に利用可能な値を用いて、「平均年齢」を計算する。   (S1710) Then, in the “age” field of the original data (110), “average age” is calculated using values available for analysis.

図18に、上記処理(S206)に対応したシステム構成例を示す。なお図18の構成は図1のシステム構成に統合してもよい。分析者(U)は、3つのテーブル(1803,1804,1805)を参照して分析をする。分析者(U)は、端末1801からネットワーク1802を経由して元データ1803(110対応)、クレンジング結果テーブル1804(113対応)、及びクレンジング結果詳細テーブル1805(114対応)に接続して、分析(分析処理)を実行する。   FIG. 18 shows a system configuration example corresponding to the above processing (S206). The configuration in FIG. 18 may be integrated into the system configuration in FIG. The analyst (U) performs analysis with reference to the three tables (1803, 1804, 1805). The analyst (U) connects to the original data 1803 (corresponding to 110), the cleansing result table 1804 (corresponding to 113), and the cleansing result detailed table 1805 (corresponding to 114) via the network 1802 from the terminal 1801 and analyzes ( (Analysis processing) is executed.

[効果等]
以上説明したように、本実施の形態によれば、従来のデータクリーニングでは破棄されていたデータセットのうち不正があった項目以外の項目についても、履歴の参照に基づき不正が無いことを保障(確認)して当該項目を抽出する。これにより、当該抽出データ項目を、データ分析の列の計算などで利用可能にする。従来は情報として見落とされていたデータ項目を利用可能にすることにより、分析精度の向上が可能になる。
[Effects]
As described above, according to the present embodiment, it is ensured that there is no fraud on the basis of the history reference even for items other than the fraudulent items in the data set discarded in the conventional data cleaning ( Check) to extract the item. Thereby, the extracted data item can be used for calculation of a column for data analysis. By making it possible to use data items that were conventionally overlooked as information, the analysis accuracy can be improved.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.

本発明は、データ分析システム・ソフトウェア等に利用可能である。特に、アンケート分析(消費者プロフィールの取得等)、商取引データ分析(消費者の購買動向や商品の売上推移の分析等)、顧客データ分析(顧客プロフィールの分析等)、店舗データ分析(店舗分析等)等に利用可能である。   The present invention is applicable to data analysis system software and the like. In particular, questionnaire analysis (acquisition of consumer profiles, etc.), business transaction data analysis (analysis of consumer purchasing trends and product sales trends, etc.), customer data analysis (customer profile analysis, etc.), store data analysis (store analysis, etc.) ) And the like.

1…データクレンジングシステム、10…設定部、11…データクレンジング部、12…クレンジング履歴管理部、13…不正有無・利用可否判断部、14…分析用データ抽出部、20…ポリシ&クレンジング処理一覧、21…クレンジング前データ、22…クレンジング後データ、23…クレンジング履歴、24…判断データ、25…分析用データ、101…端末装置、102…ネットワーク、103…データクレンジングサーバ、104…分析用データ作成ポリシ設定処理部、105…クレンジング処理部、106…分析用データ総合判定処理部、107…分析用データロード処理部、108…分析用データテーブル処理部、109…クレンジング履歴活用分析実行処理部、110…元データテーブル、111…クレンジングマスタテーブル、112…クレンジングポリシマスタテーブル、113…クレンジング結果テーブル、114…クレンジング結果詳細テーブル、115…分析用データテーブル、116…処理履歴保存システム。   DESCRIPTION OF SYMBOLS 1 ... Data cleansing system, 10 ... Setting part, 11 ... Data cleansing part, 12 ... Cleansing history management part, 13 ... Fraud presence / absence determination part, 14 ... Analytical data extraction part, 20 ... List of policy & cleansing process, 21 ... Data before cleansing, 22 ... Data after cleansing, 23 ... Cleansing history, 24 ... Judgment data, 25 ... Analysis data, 101 ... Terminal device, 102 ... Network, 103 ... Data cleansing server, 104 ... Analysis data creation policy Setting processing unit 105... Cleansing processing unit 106. Analyzing data comprehensive determination processing unit 107. Analyzing data load processing unit 108. Analyzing data table processing unit 109 109 Cleansing history utilization analysis execution processing unit 110. Original data table, 111 ... Cleansing master table Le, 112 ... cleansing policy master table, 113 ... cleansing result table, 114 ... cleansing result detail table, 115 ... analysis data table, 116 ... processing history storage system.

Claims (2)

ータ分析のためのデータクレンジング処理を含む処理を行うデータクレンジングサーバを備えるデータクレンジングシステムであって、
前記データクレンジングサーバは、
ユーザの操作に基づいて、前記データクレンジング処理の定義及びポリシを含む設定情報であって前記データクレンジング処理の結果に関する利用可否のフラグを含む設定情報を設定する設定部と、
前記設定情報に基づいて、前記データ分析のために、元データであるデータクレンジング前データである第1のデータにおける不正な項目を含む第1のデータセットを取り除く前記データクレンジング処理を行い、その結果として、データクレンジング後データである第2のデータを得る、データクレンジング部と、
前記第1のデータから取り除かれた前記第1のデータセットに関する情報を含む、前記データクレンジング部による前記データクレンジング処理の履歴をテーブルに保存して参照可能とする処理を行うクレンジング履歴管理部と、
前記履歴のテーブルを参照することで、前記第1のデータから取り除かれた前記第1のデータセットにおける、前記不正な項目であって前記データ分析に利用不可能な項目である第1の項目と、それ以外の項目であって不正ではない項目であって前記データ分析に利用可能な項目である第2の項目と、を判断する判断部と、
前記判断の結果に基づいて、前記第2のデータに対応する前記履歴から、前記データ分析に利用可能な項目である前記第2の項目を抽出する抽出部と、
前記ユーザの操作に基づいて、前記第2のデータと、前記履歴から抽出された前記第2の項目と、を利用した前記データ分析を行う分析部と、
を有すること、を特徴とするデータクレンジングシステム。
A data cleansing system comprising a data cleansing server that performs processing including data cleansing process for data analysis,
The data cleansing server
A setting unit configured to set setting information including a flag of availability regarding the result of the data cleansing process, which is setting information including the definition and policy of the data cleansing process, based on a user operation;
Based on the setting information for the data analysis, performs the data cleansing process for removing a first data set containing an invalid item those of the first data is a data cleansing before data which is the original data, as a result, a second data which is data after data cleansing, and data cleansing unit,
A cleansing history management unit that performs processing for storing and referencing the history of the data cleansing process by the data cleansing unit including information on the first data set removed from the first data ;
By referring to the history table, in the first data set removed from the first data, the first item that is the illegal item and cannot be used for the data analysis; A determination unit that determines a second item that is an item other than that and that is not fraudulent and that can be used for the data analysis;
An extraction unit that extracts the second item, which is an item usable for the data analysis, from the history corresponding to the second data based on the result of the determination;
Based on the user's operation, an analysis unit that performs the data analysis using the second data and the second item extracted from the history;
A data cleansing system characterized by comprising:
データ分析のためのデータクレンジング処理を含む処理を行うデータクレンジングサーバを備えるデータクレンジングシステムにおける前記データクレンジングサーバに前記処理を実行させるプログラムであって、
前記データクレンジングサーバに実行させる処理として、
ユーザの操作に基づいて、前記データクレンジング処理の定義及びポリシを含む設定情報であって前記データクレンジング処理の結果に関する利用可否のフラグを含む設定情報を設定する第1の処理と、
前記設定情報に基づいて、前記データ分析のために、元データであるデータクレンジング前データである第1のデータにおける不正な項目を含む第1のデータセットを取り除く前記データクレンジング処理を行い、その結果として、データクレンジング後データである第2のデータを得る、第2の処理と、
前記第1のデータから取り除かれた前記第1のデータセットに関する情報を含む、前記第2の処理による前記データクレンジング処理の履歴をテーブルに保存して参照可能とする第3の処理と、
前記履歴のテーブルを参照することで、前記第1のデータから取り除かれたデータセットにおける前記不正項目であって前記データ分析に利用不可能な項目である第1の項目と、それ以外の項目であって不正ではない項目であって前記データ分析に利用可能な項目である第2の項目と、を判断する第4の処理と、
前記判断の結果に基づいて前記第2のデータに対応する前記履歴から、前記データ分析のために利用可能な項目である前記第2の項目を抽出する第5の処理と、
前記ユーザの操作に基づいて、前記第2のデータと、前記履歴から抽出された前記第2の項目と、を利用した前記データ分析を行う第6の処理と、
を有すること、を特徴とするプログラム。
A program that causes the data cleansing server to execute the process in a data cleansing system including a data cleansing server that performs a process including a data cleansing process for data analysis,
As a process to be executed by the data cleansing server,
A first process for setting setting information including a flag of availability regarding the result of the data cleansing process, the setting information including the definition and policy of the data cleansing process based on a user operation;
Based on the setting information for the data analysis, performs the data cleansing process for removing a first data set containing an invalid item those of the first data is a data cleansing before data which is the original data, As a result, a second process of obtaining second data that is data after data cleansing;
A third process that enables reference first of said removed from the data including information about the first data set, and store a history of the data cleansing process by the second processing table,
Wherein by referring to the history table, in the data set that has been removed from said first data, said the first item is an item unavailable to the data analysis an invalid item, otherwise A fourth process for determining a second item that is an item that is not fraudulent and that can be used for the data analysis ;
A fifth process of extracting the second item, which is an item usable for the data analysis, from the history corresponding to the second data based on the result of the determination;
A sixth process for performing the data analysis using the second data and the second item extracted from the history based on an operation of the user;
The program characterized by having.
JP2012039962A 2012-02-27 2012-02-27 Data cleansing system and program Expired - Fee Related JP5797583B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012039962A JP5797583B2 (en) 2012-02-27 2012-02-27 Data cleansing system and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012039962A JP5797583B2 (en) 2012-02-27 2012-02-27 Data cleansing system and program

Publications (2)

Publication Number Publication Date
JP2013175096A JP2013175096A (en) 2013-09-05
JP5797583B2 true JP5797583B2 (en) 2015-10-21

Family

ID=49267935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012039962A Expired - Fee Related JP5797583B2 (en) 2012-02-27 2012-02-27 Data cleansing system and program

Country Status (1)

Country Link
JP (1) JP5797583B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7100991B2 (en) 2018-03-01 2022-07-14 株式会社日立システムズ Data conversion device and data conversion method
JP6780181B2 (en) * 2018-11-16 2020-11-04 益滿 大 Database and information processing system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309202A (en) * 1993-04-19 1994-11-04 Mitsubishi Electric Corp Document processor
US20060238919A1 (en) * 2005-04-20 2006-10-26 The Boeing Company Adaptive data cleaning

Also Published As

Publication number Publication date
JP2013175096A (en) 2013-09-05

Similar Documents

Publication Publication Date Title
US20210303590A1 (en) Systems and methods for searching for and translating real estate descriptions from diverse sources utilizing an operator-based product definition
US8793468B2 (en) Translation map simplification
CN103348598B (en) Generate data pattern information
US8185509B2 (en) Association of semantic objects with linguistic entity categories
US8606798B2 (en) Systems and methods for creating standardized street addresses from raw address data
US20090106308A1 (en) Complexity estimation of data objects
CN107909493B (en) Policy information processing method and device, computer equipment and storage medium
US20220180451A1 (en) Systems and methods for extracting information from a transaction description
US20160132496A1 (en) Data filtering
CN108885631B (en) Method and system for contract management in a data marketplace
US11899807B2 (en) Systems and methods for auto discovery of sensitive data in applications or databases using metadata via machine learning techniques
CN111666304A (en) Data processing apparatus, data processing method, storage medium, and electronic device
CN106296385A (en) A kind of book keeping operation section purpose arranges and recommends method
JP7034270B2 (en) Splitting multiple repayment methods
JP6121841B2 (en) Product purchase information creation support system
JP5797583B2 (en) Data cleansing system and program
US9063943B1 (en) Systems and methods for calculating a uniqueness rating for a vehicle
JP7211499B2 (en) Information processing system, information processing device, information processing method and program
US9721306B2 (en) Data linkage support system and data linkage support method
JP7231020B2 (en) Information processing device, information processing method and program
Garcia et al. Procedures for health data linkage: Applications in health surveillance
Lin et al. Analyzing Medical Transaction Data by using Association Rule Mining with Multiple Minimum Supports.
JP2012118612A (en) Marketing proposal support system
KR102626897B1 (en) System for market analysis using sales data, method for market anaylsis using sales data and computer program for the same
Abbas et al. Development of a structured framework to achieve quality data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150819

R150 Certificate of patent or registration of utility model

Ref document number: 5797583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees