JP2015079403A - テストデータの作成方法、システム及びプログラム - Google Patents

テストデータの作成方法、システム及びプログラム Download PDF

Info

Publication number
JP2015079403A
JP2015079403A JP2013216919A JP2013216919A JP2015079403A JP 2015079403 A JP2015079403 A JP 2015079403A JP 2013216919 A JP2013216919 A JP 2013216919A JP 2013216919 A JP2013216919 A JP 2013216919A JP 2015079403 A JP2015079403 A JP 2015079403A
Authority
JP
Japan
Prior art keywords
data
character
test data
conversion rule
division unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013216919A
Other languages
English (en)
Inventor
山下 洋介
Yosuke Yamashita
洋介 山下
理恵子 清水
Rieko Shimizu
理恵子 清水
陽 福士
Akira Fukushi
陽 福士
岡田 太
Futoshi Okada
太 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013216919A priority Critical patent/JP2015079403A/ja
Publication of JP2015079403A publication Critical patent/JP2015079403A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】文字で構成される秘匿したいデータから、匿名性を有し、かつ、文字の範囲、出現分布などの性質の変更を抑えつつ、元のデータに復元可能であるテストデータを作成するシステムを提供する。
【解決手段】データの各レコードを複数の分割単位に分割するとともに、当該分割単位の種類を特定し、同一の種類の分割単位内で、分割単位に含まれる文字または文字列を他のレコードの分割単位の文字または文字列に変換し、同じ表記の文字または文字列は同じ表記の文字または文字列に変換する変換ルールを作成する。変換ルールに基いてレコードの分割単位の文字を変換し、テストデータを作成する。
【選択図】図1

Description

本発明は、実際に使用・運用している環境で用いられているデータに対し、匿名化処理を実施し、情報漏洩を防止したテストデータを作成する技術に関する。
システム開発の最終フェーズで実施されるシステムテストは、顧客が使用・運用する環境と可能な限り同じ環境で行われる必要があり、開発したシステムが全体として顧客の要求仕様通りに動作するかを検証する作業であるため、使用するテストデータも可能な限り顧客が使用・運用するデータであることを要求される。
従来の匿名化処理を行う手段には、匿名化対象のデータを特定の文字へ文字列置換する手段や、同じカラムに登録されているデータをランダムに入れ替える手段(例えば、特許文献1)がある。
特開2001-209554号公報 特開2012-069019号公報
ここで「本番環境」とはシステム開発やソフトウェア開発において開発された情報システムやソフトウェアを稼動させる環境、または情報システムやソフトウェアが稼動している環境を指す。
「データ」とは、例えば、本番環境で用いられている情報の中で取引先の顧客を特定することが可能であり、外部への漏洩を防止する必要のある情報である。
「文字の範囲」とは、例えば、データで使用されている文字コード値を指し、データが存在する情報システムで扱っている文字コードがJIS第一水準・第二水準であれば、JIS第一水準・第二水準を範囲とする。
幅広く用いられている文字列置換による匿名化手段は、データの匿名化手段としては有効であるが、本番環境を意識したシステムテストで用いるテストデータとしては、実際に使用されている文字の範囲やデータに存在する住所における都道府県や市といった意味のある文字列(単語)のデータ内での出現分布とは異なるため、テストデータによる不良検知、あるいは性能測定に用いるテストデータとしては有効性が薄れてしまう。
また、特許文献1での匿名化手段は、名称が氏と名、住所が都道府県・市・区・郡・町村・字(あざ)・町域にそれぞれ別カラムとして登録されている際には有効な匿名化手段と成り得るが、名称と住所がそれぞれ1カラムとして登録されているケースでは、1カラムの情報だけで顧客特定に繋がる危険性がある。
さらに、郵便番号と住所には項目間で紐付く関係があり、システムの機能として郵便番号から住所を検索する等の対応関係を必要とするテストケースがある。この場合、単にデータの匿名化処理を行っただけでは、レコード内でのカラム間の関係性が無くなり、その関係を用いた検索機能等のテストを行うことができないテストデータとなる。
上記の課題を解決するために、本発明では、文字列から構成されるレコードを有するデータから、匿名化したテストデータを作成するテストデータ作成において、データの各レコードを複数の分割単位に分割するとともに、当該分割単位の種類を特定し、同一の種類の分割単位内で、分割単位に含まれる文字または文字列を他のレコードの分割単位の文字または文字列に変換し、同じ表記の文字または文字列は同じ表記の文字または文字列に変換する変換ルールを作成し、変換ルールに基いて前記レコードの分割単位の文字を変換し、テストデータを作成する。
本発明により、データに対し匿名化処理を行うことで、本番環境で扱われているデータの性質を大きく変えることなく、データから元の情報を特定することができない匿名化されたテストデータを作成することができる。
本発明の一実施例にかかるシステム構成図である。 本発明の一実施例にかかるデータ(200)のサンプルである。 本発明の一実施例にかかるカラム情報(300)のサンプルである。 本発明の一実施例にかかる数値変換ルール(400)のサンプルである。 本発明の一実施例にかかる除外リスト(500)のサンプルである。 本発明の一実施例にかかる対応マップ(120)のサンプルである。 本発明の一実施例にかかるテストデータ作成の概要を示すフローチャートである。 本発明の一実施例にかかるデータシャッフル部(1300)のフローチャートである。 本発明の一実施例にかかる住所変換ルール1(820)の例である。 本発明の一実施例にかかる住所変換ルール2(830)の例である。 本発明の一実施例にかかる名称変換ルール(840)の例である。 本発明の一実施例にかかるテストデータ作成部(1400)のフローチャートである。 本発明の一実施例にかかる郵便番号(210)の匿名化処理の例である。 本発明の一実施例にかかる住所(220)の匿名化処理の例である。 本発明の一実施例にかかる名称(230)の匿名化処理の例である。 本発明の一実施例にかかるテストデータ(600)のサンプルである。 本発明の一実施例にかかるテスト用対応マップ(700)のサンプルである。 本発明の一実施例にかかる復元データ作成の概要を示すフローチャートである。
以下、本発明の実施の一形態について図面に基づき説明する。
図1は本発明の実施の形態に係るデータシャッフルシステムの概略構成を表すブロック図である。
データシャッフルシステム10は本システム全体を示しており、テストデータ作成に係るプログラム100とデータ群110と入出力装置150から構成される。データシャッフルシステム10は、例えば、サーバやPCなどの情報処理装置により実現される。
プログラム100は、記憶装置(図示せず)からプロセッサ(図示せず)上に読み出されて機能を発揮する。プログラム100は、ユーザ認証を行うユーザ認証部1100と入力ファイルの読み込みを行う入力情報読込部1200と匿名化処理を行うための変換ルールを作成するデータシャッフル部1300と作成したテストデータから匿名化前のデータを復元するデータ復元部1500と変換ルールに基づき匿名化されたデータからテストデータを作成するテストデータ作成部1400から構成される。
データ群110は、記憶装置に格納されており、対応マップ120と復元用データ130とユーザ認証用データ140から構成される。
また、入力ファイル20及び出力ファイル30は、入出力装置150を介してシステム10外と入力や出力をされる。入力ファイル20はデータ200とカラム情報300と数値変換ルール400と除外リスト500から構成され、出力ファイル30はテストデータ600とテスト用対応マップ700から構成される。
図2は入力ファイル20であり匿名化対象の項目で構成されるデータ200のサンプルであり、データ200は郵便番号210と住所220と名称230を含む項目に分割されて構成される。住所220は、都道府県ブロック221、市ブロック222、区ブロック223、郡ブロック224、町村ブロック225、字(あざ)ブロック226、町域ブロック227から構成される。町域ブロック227とは、郵便番号から紐付けることのできない番地やアパート・マンション名等の情報を指す。住所220が各ブロックに分けられておらずひとまとめとされている場合もある。
図3は入力情報20でありデータ200が登録されているカラムのカラム長の情報を保持するカラム情報300のサンプルであり、データ200の項目名310と項目のカラム長320と除外リスト名330から構成される。カラム情報300は、データの項目名の定義と、その項目に適用される除外リスト500を示している。
図4は入力情報20でありデータ200における郵便番号の匿名化処理を行う際に用いる変換ルールの情報を保持する数値変換ルール400のサンプルであり、変換前の数値を表す変換前数値410と変換後の数値を表す変換後数値420から構成される。
図5は入力情報20でありデータ200における住所と名称の匿名化処理を行う際に処理対象外とする文字列をユーザが任意に設定する際の情報を保持する除外リスト500のサンプルであり、住所220の町域ブロック227の匿名化処理対象から除外する文字を設定するための住所用除外リスト510と名称230の匿名化処理対象から除外する文字を設定するための名称用除外リスト520から構成される。
図6はデータ群110として保持されている対応マップ120のサンプルである。対応マップ120は実際に使用されている郵便番号のデータ121と、実際に使用されている郵便番号と対応している住所のデータ122と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際の都道府県のデータである都道府県ブロック123と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際の市のデータである市ブロック124と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際の区のデータである区ブロック125と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際の郡のデータである郡ブロック126と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際のデータである町村ブロック127と、住所のデータ122を都道府県・市・区・郡・町村・字(あざ)に分割した際のデータである字(あざ)ブロック128とで構成される。対応マップ120は、入力情報読込部1200によってデータ200から作成される。 以降、上記形態における実施例の動作について、図面を用いて説明する。
図7は、データ200に対し匿名化処理を行いテストデータの作成をするテストデータ作成の概要を示すフローチャートである。ユーザ認証部1100でユーザ認証処理を行い、入力ファイル20を入力情報読込部1200で読み込み、データシャッフル部1300でデータ200を匿名化するための変換ルール800を作成し、前記変換ルール800に基づきテストデータ作成部1400でデータ200に対して匿名化処理によりテストデータ600を作成する。また、テストデータ作成部1400ではテストデータ600からデータ200への復元処理のための復元用データ130の蓄積を行う。
ユーザ認証は、ユーザ認証部1100が、ユーザからID(IDentification)とPW(Pass Word)の入力を受付け、ユーザ認証用データ140に含まれているIDとPWと比較し、認証可否を判断する。顧客のデータを扱う権限を持つユーザのみが操作できるようにするためである。認証できた場合には、次の工程に進む。
入力情報読込部1200は、入力ファイル20を読み込み、その中のデータ200から対応マップ120を作成し記憶する。データ200の住所220がブロックに分けられていない場合、下記のようにして対応マップを作成する。まず、各ブロックに特徴文字である、都道府県ブロックの「都」「道」「府」「県」、市ブロックの「市」、区ブロックの「区」、郡ブロックの「郡」、町村ブロックの「町」「村」を抽出する。その位置関係(必ず都道府県、市(郡)、区(町村)の順になる)、組合せ関係(一つのレコードには市・区と郡・町村との一方のみである)から特徴文字としての正当性を確認し、正当な場合には特徴文字の後ろを区切り位置としてブロックに分割する。また、特徴文字により、分割したブロックがどのブロックになるか判定する。字ブロック226と町域ブロックとの分割は、町域ブロックに算用数字や「−」が用いられていたり、漢数字であっても「丁目」の直前にある数字以降が町域であったりすることを利用して分割位置を決める。ここで、地名データを用いて正確性を向上させてもよい(例えば、市・区・郡・町村名から、省略された都道府県名を補填する、政令指定都市以外は「区」があっても特徴文字にせず字ブロックにする、など)。また、このような文字認識により分割を行う他に、日本全国の郵便番号と都道府県から字(あざ)まで各ブロックに分割済みの住所とを対応させて記憶した郵便番号データ(図示せず)を記憶しておき、住所220と郵便番号データを比較して住所をブロックに分割してもよい。このようにして、対応マップが作成される。
また、本実施例では、数値変換ルール400を入力ファイル20として読み込んでいるが、データシャッフルシステム10内(例えば入力情報読込部1200)が数値変換ルール400を作成してもよい。0〜9の数字をランダムに0〜9の数字に1対1の関係で変換するように、乱数を用いて変換規則がランダムになるように生成することができる。また、除外リストについては、予めデータ群として格納していてもよい。
データシャッフル部1300は、本データで扱われている文字の範囲内でランダムな対応関係を設定し、且つデータ200の項目間で依存関係にある項目の関係性を保持した匿名化を行うための変換ルールを作成する。すなわち、データシャッフル部1300は、データ200における郵便番号に対する変換ルールを作成する郵便番号データシャッフル処理と、データ200における住所に対する変換ルールを作成する住所データシャッフル処理と、名称に対する変換ルールを作成する名称データシャッフル処理とを行う。図8は、その詳細を示すフローチャートであり、変換ルール800を作成する対象のデータ200の項目ごとに分割して振り分けを行い(1301)、項目毎に変換ルール800の作成を行う。ここでは、データ200を郵便番号210、住所220、名称230に分割する。
郵便番号データシャッフル処理において、より詳細には、数値変換ルール400を郵便番号変換ルール810として設定する。郵便番号210に数値以外の区切り文字等が含まれている場合は削除し数値7桁のデータに整形する(1302)。入力ファイル20として読み込んだ数値変換ルール400を郵便番号変換ルール810として作成する(1303)。
また、住所データシャッフル処理において、対応マップ120からデータ200の住所に存在するデータを抽出し、対応マップ120から抽出したデータの各ブロック(123〜128)における各データを重複排除し、ソートした上で複製し、一方のデータには昇順のインデックスキーを付与して変換前データリスト1に登録し、もう一方のデータはリストのサイズを上限とする乱数を、重複を許さないインデックスキーとして付与し、同じインデックスキーのペアとする対応関係を住所に関する住所変換ルール1(820)とする。また、データ200の住所において、対応マップ200に存在しない文字列を除外リスト500に設定されている文字列を除き、1文字ずつに分割して重複をしないようにソートした上で複製し、一方のデータには昇順のインデックスキーを付与して変換前データリスト2に登録し、もう一方のデータはリストのサイズを上限とする乱数を、重複を許さないインデックスキーとして付与し、同じインデックスキーのペアとする対応関係を住所に関する住所変換ルール2(830)とする。
すなわち、町域以外のブロック221〜226と町域ブロック227で異なる変換ルールを作成する。まずは、町域以外のブロック221〜226と町域ブロック227のための住所変換ルール1(820)を作成し、次いで町域ブロック227のための住所変換ルール2(830)を作成する。
住所変換ルール1(820)の作成について、図8及び図9を用いて説明する。対応マップ120と住所除外リスト510を読み込み(1304)、ブロック毎に対応マップ120からデータ200の住所220に存在するデータを重複排除して抽出する(1305)。ブロック毎(123〜128)に抽出した文字を複製し、一方に昇順のインデックスキーを付与して変換前データリスト1に登録し、もう一方は抽出した文字列のレコード数を上限とする乱数を用いたランダムなインデックスキーを付与して変換後データリスト1に登録し(1306)、変換前データリスト1と変換後データリスト1の同じインデックスキー同士に並べ替えることで住所変換ルール1(820)を作成する(1307)。図9は住所変換ルール1(820)の実施例である。対応マップ120から、ブロックごとに重複を排除して抽出する。例えば、都道府県ブロックに「北海道」のレコードが複数存在しても、重複排除して一つのみ抽出する。抽出したデータに対し、変換前データ、変換後データの二つの項目を作成し、変換前データに昇順で順番にインデックスキー(番号)を付して変換前データリストに登録する。もう一方はインデックスキーを昇順で発生させるとともに乱数を用いたランダムな順番で変換後データに付して変換後データリストに登録する、そして同じインデックスキーを有する変換前項目と変換後項目を対応させる。これをブロックごとに行い、同ブロック内でランダムに変換される住所変換ルール1(820)を作成することができる。
さらに、住所変換ルール2(830)の作成について、図8及び図10を用いて説明する。町域ブロック227から住所用除外リスト510に設定されている文字列を除き、残った町域ブロック227の文字(図10の下線部)を重複排除しながら1文字ずつ抽出する(1308)。抽出した文字を変換前データ、変換後データの二つに複製し、一方に昇順のインデックスキーを付与して変換前データリスト2に登録し、もう一方は抽出した文字列のレコード数を上限とする乱数を用いてランダムなインデックスキーを付与して変換後データリスト2に登録し(1309)、変換前データリスト2と変換後データリスト2の同じインデックスキー同士に並べ替えることで住所変換ルール2(830)を作成する(1310)。図10は住所変換ルール2(830)の実施例である。なお、本実施例では、町名ブロック227内の数字は住所用除外リスト510に含まれているので変換は行わないが、数字変換ルール400を用いて郵便番号と同様に数字同士で変換を行うようにしてもよい。
また、名称データシャッフル処理において、より詳細には、前記住所変換ルール2を作成する方法と同様に、データ200の名称において、除外リスト500に設定されている文字列を除き、1文字ずつに分割して重複をしないようにソートした上で複製し、一方のデータには昇順のインデックスキーを付与して変換前データリストに登録し、もう一方のデータはリストのサイズを上限とする乱数を、重複を許さないインデックスキーとして付与し、同じインデックスキーのペアとする対応関係を住所に関する名称変換ルール840とする。町名ブロックから住所変換ルール2を作成するのと同様な手法で作成する。
すなわち、まず名称除外リスト520を読み込み(1311)、名称用除外リスト520に設定されている文字列を除いた名称230を重複排除しながら1文字ずつ抽出する(1312)。抽出した文字を複製し、一方に昇順のインデックスキーを付与して変換前データリストに登録し、もう一方は抽出した文字のレコード数を上限とする乱数を用いてランダムなインデックスキーを付与して変換後データリストに登録し(1313)、変換前データリストと変換後データリストの同じインデックスキー同士に並べ替えることで名称変換ルール(840)を作成する(1314)。図11は名称変換ルール(840)の実施例である。なお、本実施例では、会社形態を示す用語は名称用除外リスト520に含まれているため変換は行わないが、除外リスト520内の会社形態の用語のみでランダムに変換を行うルールを作成してテストデータ作成に適用してもよい。
図12は、変換ルールに基づきデータ200に匿名化処理を行い復元用データ130の蓄積を行うテストデータ作成部1400のフローチャートである。データ200と変換ルール800を読み込み(1401)、郵便番号210に対して、郵便番号変換ルール810に基づき匿名化処理を行う(1402)。すなわち、郵便番号の算用数字を一文字ずつ郵便番号変換ルール810の変換前データから変換後データに変換していく。図13は郵便番号210の匿名化処理の実施例である。
さらに、住所220に対し、住所変換ルール1(820)と住所変換ルール2(830)に基づき匿名化処理を行う(1403)。すなわち、町域ブロック以外はブロック単位で住所変換ルール1(820)の変換前データから変換後データに変換し、町域ブロックは一文字ずつ住所変換ルール2(830)の変換前データから変換後データに変換していく。図14は住所220の匿名化処理の実施例である。
さらに、名称230に対し、名称変換ルール840に基づき匿名化処理を行う(1404)。すなわち、名称を一文字ずつ名称変換ルール840の変換前データから変換後データに変換していく。図15は名称230の匿名化処理の実施例である。
匿名化処理を行った各項目からテストデータ600を作成する(1405)、図16はテストデータ600のサンプルである。カラム情報300の項目のカラム長320に基づき、各テストデータの項目に対してデータ長チェックを行い(1406)、テストデータ600が登録先のカラムに収まるように項目のカラム長320を超えた文字列は切り捨て、該当したテストデータ600はログに出力する。テストデータ600の郵便番号と住所変換ルール1の変換後データ1はデータ200を用いて各項目の対応関係を維持してテスト用対応マップ700を作成し、テストデータ600とテスト用対応マップ700を復元用データ130に蓄積し(1407)、テストデータ600とテスト用対応マップ700を出力ファイル30として出力する(1408)、図17はテスト用対応マップ700のサンプルである。
このようにして作成したテストデータを、テスト対象プログラムに処理させることにより、テストを行うことができる。テストの結果に問題が発生したり、開発環境のテスト結果と本番環境の運用結果に差異が生じた場合、テストに用いた匿名化済テストデータから匿名化前のテストデータ(本番環境のデータ)を復元することができる。
図18は、対応関係を用いてテストデータ600からデータ200への復元を行う復元データ作成の概要を示すフローチャートである。
まずユーザ認証部1100でユーザ認証用データ140を用いてユーザ認証を行う。
その後に、入力情報読込部1200は、テストデータ600を入力ファイルとして、復元用データ130から一致するファイル名を検索し、復元を行うテストデータ600の全体または復元対象のレコードを読み込む。復元のために入力するテストデータ600は、全レコードではなく、任意のレコードに絞り込まれたテストデータ600についても可能である。
そして、データ復元部1500で該当する変換ルール800を入力として、復元したいテストデータ600から匿名化前のデータ200への復元を行う。復元とは、データシャッフルシステムにおいて作成されたテストデータ600に対し、テストデータ600を作成する際に用いた変換ルールを再度用いて、テストデータ600を匿名化前のデータ200に戻す処理である。すなわち、復元対象レコードの各項目を、変換ルール800の変換後項目に対して検索を行い、ヒットした項目を変換前項目に変換(逆変換)することで復元を行う。そして、復元したテストデータ作成部1400でデータ200を作成し出力する。
以上、本発明の実施形態を説明した。本発明によると、顧客情報が含まれるデータに対し匿名化処理を行うことで、データから顧客を特定することができない匿名化されたテストデータを作成することができる。システムテストに関わる作業もしくは作業の一部を、セキュリティの施しにくい者に行わせた場合にも、テストデータから顧客特定に繋がるデータの流出を防止することが可能となる。
また、テストデータに出現する文字を重複排除し、その文字同士を1対1の関係で変換することにより、本番環境で扱われているデータ(匿名化前テストデータ)の文字の範囲と匿名化済データ内の文字列(単語)の文字の範囲が変わらない。また、文字同士を1対1の関係で変換することにより、匿名化前の同じであった複数の文字は、同じ文字に変換されるので、変換後も文字列(例えば、都道府県ブロックの都道府県名など)の出現分布は変換前と変わらない。これによって匿名化後のテストデータが、匿名化前のテストデータ(本番環境のデータ)の出現分布の性質を保っており、本番環境に近い状態で対象システムのテストをすることができる。
住所の町域には地域名に紐付くアパート名やマンション名が含まれることもあるが、この場合、1文字ずつランダムにシャッフルすることで従来に比べ、より匿名化されたテストデータを作成することが可能になる。また、都道府県などは1文字ずつシャッフルせず住所を構成する要素単位(ブロック単位)でのランダムなシャッフルを行うことにより、住所を構成する要素を変換せずにそのまま検索キーワードとする検索機能に耐え得るテストデータとすることができる。このため、テストにおいて入力を行う作業者が扱いやすいテストデータを作成することができる。
また、開発環境のテスト結果または本番環境での運用に問題が生じ、テストで用いた匿名化済テストデータと本番環境のデータを比較したい場合に、匿名化済テストデータから変換ルールを用いて復元できるため、比較を行うことができる。その場合でも、顧客情報が含まれる匿名化前のデータを開発環境に提供する必要性が無く、必要な場合に必要なデータのみを復元することができるため、情報漏洩を抑止することが可能である。また復元可能であることにより、郵便番号と住所の検索機能等で対応関係を必要とするテストケースにも耐え得るテストデータとすることが可能となる。
10 データシャッフルシステム
20 入力ファイル
30 出力ファイル
100 プログラム
110 データ群
120 対応マップ
130 復元用データ
140 ユーザ認証用データ
150 デフォルト値データ
160 入出力装置
200 データ
210 データの構成項目である郵便番号
220 データの構成項目である住所
221 住所の構成要素である都道府県ブロック
222 住所の構成要素である市ブロック
223 住所の構成要素である区ブロック
224 住所の構成要素である郡ブロック
225 住所の構成要素である町村ブロック
226 住所の構成要素である字(あざ)ブロック
227 住所の構成要素である町域ブロック
230 データの構成項目である名称
300 カラム情報
310 データを構成する項目名
320 データを構成する項目のカラム長
330 データを構成する項目に対する除外リスト名
400 数値変換ルール
500 除外リスト
510 住所用除外リスト
520 名称用除外リスト
600 テストデータ
700 テスト用対応マップ
800 変換ルール
810 郵便番号変換ルール
820 住所変換ルール1
830 住所変換ルール2
840 名称変換ルール
1100 ユーザ認証部
1200 入力情報取得部
1300 データシャッフル部
1400 テストデータ作成部
1500 データ復元部

Claims (10)

  1. 文字列から構成されるレコードを有するデータから、匿名化したテストデータを作成するテストデータの作成方法において、
    情報読込部が、前記データの各レコードを複数の分割単位に分割するとともに、当該分割単位の種類を特定するステップと、
    変換ルール作成部が、同一の種類の分割単位内で、前記分割単位に含まれる文字または文字列を他のレコードの分割単位の文字または文字列に変換し、同じ表記の文字または文字列は同じ表記の文字または文字列に変換する変換ルールを作成するステップと、
    テストデータ作成部が、前記変換ルールに基いて前記レコードの分割単位の文字を変換し、テストデータを作成するステップと、
    を含むテストデータの作成方法。
  2. 請求項1において、
    前記分割及び種類特定は、第1の分割単位と、それをさらに分割した第2の分割単位とについて行い、前記第1の分割単位の種類に応じて第2の分割単位への分割基準を変えるとともに、前記第2の分割単位ごとに前記変換を行うように前記変換ルールを作成することを特徴とするテストデータの作成方法。
  3. 請求項2において、
    前記変換ルールは、前記第1の分割単位ごとに作成されることを特徴とするテストデータの作成方法。
  4. 請求項1乃至3のいずれかにおいて、
    所定の文字または文字列リストに含まれる文字または文字列を、前記変換の対象から除外することを特徴とするテストデータの作成方法。
  5. 請求項4において、
    前記変換ルールとは異なる変換ルールで、前記除外された文字または文字列同士を変換することを特徴とするテストデータの作成方法。
  6. 請求項1乃至5のいずれかにおいて、
    前記変換ルールでは、数字は数字に変換することを特徴とするテストデータの作成方法。
  7. 請求項1乃至6のいずれかにおいて、
    前記レコードは、住所を含み、
    前記分割単位の項目として、郵便番号と紐付けることを可能とする都道府県名、市区町村名を少なくとも含むことを特徴とするテストデータの作成方法。
  8. 請求項1乃至7のいずれかに記載のテストデータ作成方法と、
    前記作成したテストデータを、テスト対象プログラムに処理させるステップと、
    前記処理に用いたテストデータを、前記変換ルールを用いて復元を行うステップと、
    を含むプログラムのテスト方法。
  9. 文字列から構成されるレコードを有するデータから、匿名化したテストデータを作成するテストデータの作成システムにおいて、
    前記データの各レコードを複数の分割単位に分割するとともに、当該分割単位の種類を特定する情報読込部と、
    同一の種類の分割単位内で、前記分割単位に含まれる文字または文字列を他のレコードの分割単位の文字または文字列に変換し、同じ表記の文字または文字列は同じ表記の文字または文字列に変換する変換ルールを作成する変換ルール作成部と、
    前記変換ルールに基いて前記レコードの分割単位の文字を変換し、テストデータを作成するテストデータ作成部と、
    を備えたテストデータの作成システム。
  10. 文字列から構成されるレコードを有するデータから、匿名化したテストデータを作成するテストデータの作成プログラムにおいて、
    コンピュータを、
    前記データの各レコードを複数の分割単位に分割するとともに、当該分割単位の種類を特定する情報読込機能と、
    同一の種類の分割単位内で、前記分割単位に含まれる文字または文字列を他のレコードの分割単位の文字または文字列に変換し、同じ表記の文字または文字列は同じ表記の文字または文字列に変換する変換ルールを作成する変換ルール作成機能と、
    前記変換ルールに基いて前記レコードの分割単位の文字を変換し、テストデータを作成するテストデータ作成機能と、
    として機能させるテストデータの作成プログラム。
JP2013216919A 2013-10-18 2013-10-18 テストデータの作成方法、システム及びプログラム Pending JP2015079403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216919A JP2015079403A (ja) 2013-10-18 2013-10-18 テストデータの作成方法、システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216919A JP2015079403A (ja) 2013-10-18 2013-10-18 テストデータの作成方法、システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2015079403A true JP2015079403A (ja) 2015-04-23

Family

ID=53010766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216919A Pending JP2015079403A (ja) 2013-10-18 2013-10-18 テストデータの作成方法、システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2015079403A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018168103A1 (ja) * 2017-03-17 2018-09-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及び記録媒体
CN112416770A (zh) * 2020-11-23 2021-02-26 平安普惠企业管理有限公司 测试数据的生成方法、装置、设备及存储介质
JP7215722B2 (ja) 2019-02-04 2023-01-31 Necソリューションイノベータ株式会社 並び替えデータ生成装置、並び替えデータ生産方法、プログラム及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018168103A1 (ja) * 2017-03-17 2018-09-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及び記録媒体
JP2018156427A (ja) * 2017-03-17 2018-10-04 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
US11620406B2 (en) 2017-03-17 2023-04-04 Ns Solutions Corporation Information processing device, information processing method, and recording medium
JP7215722B2 (ja) 2019-02-04 2023-01-31 Necソリューションイノベータ株式会社 並び替えデータ生成装置、並び替えデータ生産方法、プログラム及び記録媒体
CN112416770A (zh) * 2020-11-23 2021-02-26 平安普惠企业管理有限公司 测试数据的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
De Rassenfosse et al. Geocoding of worldwide patent data
US9298941B2 (en) Secure data copying
US7836508B2 (en) Data masking application
CN106169013A (zh) 用于使受保护信息匿名化和聚集的系统
US20080270370A1 (en) Desensitizing database information
US11947706B2 (en) Token-based data security systems and methods with embeddable markers in unstructured data
CN112560100A (zh) 数据脱敏方法及装置、计算机可读存储介质、电子设备
Taşkın et al. Standardization problem of author affiliations in citation indexes
JP2015079403A (ja) テストデータの作成方法、システム及びプログラム
Fu et al. Data correlation‐based analysis methods for automatic memory forensic
JP2007108356A (ja) 個人情報秘匿装置及びそのプログラム
JP2005285002A (ja) テストデータ生成装置
CN106156076A (zh) 数据处理的方法和系统
JP5761043B2 (ja) 名寄せ処理方法、装置及びプログラム
CN113434413A (zh) 基于数据差异的数据测试方法、装置、设备及存储介质
JP2015106216A (ja) 住民住所管理システム及び住民住所管理方法
JP2014174921A (ja) 情報処理システム、名寄せ判定方法及びプログラム
JP6361472B2 (ja) 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
JP2003223459A (ja) 住所情報の管理方法
JP2011170509A (ja) 機密度学習装置、機密度学習システム、機密度学習方法および機密度学習プログラム
JP6028656B2 (ja) データ抽出方法、装置及びプログラム
JP6076285B2 (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Paiva Geocoding COR*-Antwerpen Database
JP4612469B2 (ja) 漏洩源業務調査システム及び漏洩源業務調査方法
Finkel et al. Comment on the paper ‘Historical seismicity in the Middle East: new insights from Ottoman primary sources (sixteenth to mid-eighteenth centuries)’by Güçlü Tülüveli (JOSE, 2015, vol. 19, 1003–1008)