JP5212980B2 - テストデータ作成装置及び作成方法 - Google Patents

テストデータ作成装置及び作成方法 Download PDF

Info

Publication number
JP5212980B2
JP5212980B2 JP2008210122A JP2008210122A JP5212980B2 JP 5212980 B2 JP5212980 B2 JP 5212980B2 JP 2008210122 A JP2008210122 A JP 2008210122A JP 2008210122 A JP2008210122 A JP 2008210122A JP 5212980 B2 JP5212980 B2 JP 5212980B2
Authority
JP
Japan
Prior art keywords
data
item
feature
database
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008210122A
Other languages
English (en)
Other versions
JP2009064430A (ja
Inventor
勝康 佐藤
Original Assignee
株式会社システムエグゼ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社システムエグゼ filed Critical 株式会社システムエグゼ
Priority to JP2008210122A priority Critical patent/JP5212980B2/ja
Publication of JP2009064430A publication Critical patent/JP2009064430A/ja
Application granted granted Critical
Publication of JP5212980B2 publication Critical patent/JP5212980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Storage Device Security (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、データベースシステムの開発時に使用するテストデータを、既存の顧客データベースに記憶されているデータに基づいて作成するためのテストデータ作成方法及び作成方法に関するものである。
データベースシステムの開発時において、開発されたシステムのテストを行う場合には、開発されたシステムの問題点を洗い出すために、極力本番環境に近い状態でテストを行うことが要求される。そのため、従来では、テスト用のデータとして、本番環境用データの一部をそのまま使用することが行われていた。
しかし、本番環境用データの一部をそのままにテストに使用すると、個人情報等の情報資産の流失の危険性があった。それを改善する方法として、特許文献1や特許文献2に示すように、本番環境用データの一部を他の文字に変換することで、本番環境用データの内容を秘匿したテストデータを作成する方法が提案されている。
特開2004−326510号公報 特開2008−65687号公報 特開平07−36873号公報
しかし、特許文献1の発明は、本番環境用データの各データがどのようなデータ構造や属性を持っているか、あるいは本番環境用データのどの部分をテストデータに変換するか、などの作業を開発者が指定する必要があり、多数の異なる種類のデータを記録するデータベースにあっては、開発者に多大な負担が要求される問題があった。
一方、特許文献2の発明は、デーブル形式で記録されたデータから、持ち出し用の中間データを作成し、この中間データと予め用意された置き換え用マスタデータとを関連づけることで、テストデータを作成している。そのため、本番環境用データと完成されたテストデータとの属性やデータ構造の同一性を維持することができない問題があった。
また、特許文献3の発明は、姓名を集めた辞書データベースを用意し、本番環境用データ中の各データと、この辞書データベースに記録された姓名とを比較することで、本番環境用データが氏名に関するデータであることを判定する。その後、この本番環境用データを辞書データベースの姓名と置換することで、テストデータを生成している。
しかし、この特許文献3の発明は、本番環境用データがどのような内容であるか、すなわち「氏名」「姓のみ」「名のみ」のいずれかであるかを判定することができない欠点があった。また、本番環境用のデータベースが氏名、住所、振り仮名、郵便番号、電話番号、年月日、金額などの数値、その他の文字列など、種々の種類のデータを記録したものである場合には、どの項目にどのような種類のデータが記憶されているかを判別することが難しいという問題があった。例えば、郵便番号や電話番号については、全国すべての番号をデータベースに登録していないと判定できなかった。
本発明は、前記のような従来技術の問題点を解決するために提案されたもので、既存のデータベースに記録されている各種のデータを、そのデータ内容と共にそのパターンを分析することにより、各項目のデータの種類を特定し、特定したデータの種類に応じたデータ内容の変換を行うことで、既存のデータベースのデータ内容を秘匿して、既存のデータベースのデータ構造に近いテストデータを作成することを可能としたテストデータ作成装置及び作成方法を提供することを目的とする。
本発明のテストデータ作成装置は、次のような構成要件を有することを特徴とする。
(a) 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベース。
(b) 既知の種類のデータについてそのデータの有する特徴のパターンを正規表現により記述した形式で記憶すると共に、その特徴について予め定められたポイントを記憶する特徴記憶部。
(c) 前記データベースに記憶されているデータの中から、各項目別に複数のサンプルデータを抽出し、それぞれのサンプルデータが前記特徴記憶部に記憶されている正規表現により記述したパターンに適合するか否かを判定する特徴判定部。
(d) この特徴判定部によって前記各サンプルデータに前記各項目に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するポイント計数部。
(e) 前記ポイント計数部によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記特徴を有する既知の種類のデータであることを判定するデータ内容判定部。
(f) データベースに記憶されているデータ中の、前記データ内容判定部によってデータの特徴が判定された項目に属するデータについて、判定されたデータ内容に基づいてそのデータの一部または全部を秘匿用データに置換するデータ変換部。
また、前記のような構成を有するテストデータ作成装置において実行される各処理を構成要件とするテストデータ作成方法も、本発明の一態様である。
前記のような構成を有する本発明において、前記特徴記憶部が、既知の項目名に特有の特徴と、その特徴についてのポイントを記憶するものであり、前記特徴判定部が、データベースに記憶されているテーブル形式の項目名を抽出し、この項目名が前記特徴記憶部に記憶されている既知の項目名に関する特徴を有するか否かを分析するものであって、前記ポイント計数部が、前記サンプルデータのポイントと共に、前記特徴判定部によって前記項目名に既知の項目名に特有の特徴が検出された場合に、その項目名に対して、検出された特徴について予め定められたポイントを計数するものであることも、本発明の一態様である。
前記のような構成を有する本発明において、前記データベースが、テーブル形式で記憶されたデータの各項目ごとに、その項目に属するデータのデータ形式を項目の属性として記憶するものであり、前記データ構造判定部が、前記サンプルデータ及び/または項目名に基づくポイントと共に、この項目の属性と既知のデータのデータ構造との比較結果に基づいて、この項目に属するデータのデータ構造を判定するものであることも、本発明の一態様である。
前記のような構成を有する本発明において、前記データ変換部が、既知のデータの種類ごとに、データベース内に記憶されているデータの一部または全部を置換するための置換ルールと、この置換ルールが使用するダミーデータとを記憶した変換データ記憶部を参照してデータの変換を行うものであることも、本発明の一態様である。
本発明によれば、サンプルデータが特徴記憶部に記憶されている正規表現により記述したパターンに適合するか否かを判定することにより、データベースの各項目に属するデータが有するデータ構造のパターンを考慮しつつ、データの特徴を判定することが可能になる。その結果、文字列そのものを特徴記述とした場合に比較して、少ない特徴記述により種々データの特徴の判定を行うことが可能になり、本番環境用データの秘匿処理を少ないリソースでしかも正確に実現できる。
本発明の一実施形態を図面に従って具体的に説明する。図1は、本実施形態の構成を示すブロック図、図2はその動作を示すフローチャートである。
[実施形態の構成及び作用]
本実施形態のテストデータ作成装置は、キーボードなどの入力装置1、CPUなどの演算装置2、プログラムやデータを展開するメモリ3、本番環境用データのデータベース41や特徴記憶部42、完成されたテストデータの記憶部43、本番環境用データをテストデータに置換するための置換ルールと、この置換ルールが使用するダミーデータとを記憶した変換データ記憶部44などとして使用されるハードディスクなどの記憶装置4、ディスプレイやプリンタなどの出力装置5などのハードウェアを備えている。
そして、このハードウェア上にコンピュータプログラムを実行させることにより、本発明のテストデータ作成装置6を構成する特徴判定部10、ポイント計数部11、データ内容判定部12、データ変換部13、特徴修正部14及び重み付け変更部15が、コンピュータ上に実現されている。
前記本番環境用データのデータベース41には、複数種類のデータが、項目別に分類したテーブル形式で記憶されている。本実施形態では、データベースには、項目名、項目の属性、及び各項目ごとに分類された実データが記憶されている。これらは、一例として、次のようなものである。
(1)項目名(カラム名)
(a) 日付型
DATE
TIME
YEAR
(b) 文字列型
ADDRESS
JYUSHO
PREFECTURE
NAME
(c) 数値型
WEIGHT
LENGTH
AMOUNT
VOLUME
(2)項目の属性(データ型)
(a) 日付型
DATE
IMESTAMP
(b) 文字列型
VARCHAR
CHAR
(c) 数値型
INTEGER
BIGINT
FLOAT
REAL
DOUBLE
(3)実データの書式
(a) 日付
年、月、日、時、分、秒
年、月、日
yyyy/MM/dd hh:mm:ss
yyyy-MM-dd
(b) 文字列
都道府県名から番地等の詳細まで
都道府県
郵便番号
(c) 数値
123
456
123,456
前記特徴記憶部42には、前記データベース41に記憶されている本番環境用データについての前記(1)項目名、(2)項目の属性及び(3)実データとその書式に関する特徴記述が、そのポイントと共に記憶されている。この特徴記述は、各データの特徴のパターンを正規表現により記述したもので、例えば、次のようなものである。なお、この特徴記述の例は、必ずしも前記本番環境用のデータ例に対応するものではない。
(1)項目名(カラム名)
(a) 日付
.*[Dd][Aa][Tt][Ee].*
.*[Tt][Ii][Mm][Ee].*
(b) 文字列
.*[Aa][Dd][Dd][Rr][Ee][Ss][Ss]$
.*([Jj][Yy]|[Ji])[Uu][Ss]([Hh]|[Yy])[Oo]$
.*[Pp][Rr][Ee][Ff][Ee][Cc][Tt][Uu][Rr][Ee].*
(c) 数値
.*([Ww]|[Hh])[Ee][Ii][Gg][Hh][Tt]$
(2)項目の属性(データ型)
(a) 日付型
^[Dd][Aa][Tt][Ee]$
^[Tt][Ii][Mm][Ee][Ss][Tt][Aa][Mm][Pp]$
(b) 文字列型
^(VARCHAR|CHAR)$
(c) 数値型
^(TINYINT|SMALLINT|INTEGER|BIGINT|FLOAT|REAL|DOUBLE|NUMERIC|DECIMAL)$
(3)実データの書式
(a) 日付
^.*年.*月.*日.*時.*分.*秒$…年月日と時刻
.*年.*月.*日$…年月日
^((19|[2-9][0-9])[0-9]{2})/([1-9]|(0[1-9]|1[0-2]))/([1-9]|(0[1-9]|([12][0-9]|3[01])))$…西暦
(b) 文字
^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本).*…氏名
^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本)$…姓
^[0-90-9]{1,}[-−][0-90-9]{1,}[-−][0-90-9]{1,}$…電話番号
^[0-90-9]{3}[-−][0-90-9]{4}$…郵便番号
(c) 数値
^[0-9.,]{1,}$
ここで、各特徴記述に使用されている正規表現は次のような意味を有する。
(a) ピリオドは改行を除く任意の1文字を意味する。
(b) アスタリスクは、直前にある正規表現の0回以上の繰り返しを検索する。
(c) ブラケット(角括弧)で囲んだ文字のいずれかひとつとマッチすればマッチしたと判断する。
(d) 「|」は、パターンの論理和を示す。このパターンの論理和は、「この文字列かこの文字列」を探したいという場合に使用する。
(e) パーレン(小括弧、丸括弧)は、パターンをグループ化して評価する。優先順位が高くなるので、パーレンの中を評価した後に全体を評価する。
(d) ドル記号は行末を意味する。
(f) カレットは行頭を意味する。
(g) {n}・{n,}・{n,m}は、パターンの繰り返し回数を指定する。{n}はn回の繰り返し、{n,}はn回以上の繰り返し、{n,m}はn回以上、m回以下の繰り返し。
前記のような特徴記述は、本番環境用データのデータベースにおいて使用されることが予想される各種の項目名、その属性及び実データの書式に合わせて、多数のパターンを用意しておく。
前記特徴判定部10は、前記データベース41に記憶されている本番環境用データの項目名、項目の属性及び実データの中から任意に取り出したサンプルデータ(例えば、10から20個余りのデータ)を抽出し(図2のステップ1,4,7)、それぞれが前記特徴記憶部42に記憶されている正規表現により記述したパターンに適合するか否かを判定する(ステップ2,5,8)。
例えば、データベースに「氏名」のデータが記録されている場合、その項目名は、「NAMAE」や「SHIMEI」を含み、項目の属性は「VARCHAR」「CHAR」のいづれかと一致し、取り出したサンプルデータ中には、日本人に多数見られる「姓」と「名」とが存在するはずである。そこで、これら項目名、属性及びサンプルデータのそれぞれについて、特徴記憶部42に記憶されているどの特徴記述と一致するか否かを判定する。
具体的には、開発対象となるデータベースが、氏名を記憶する場合に、「氏名」として1項目に記憶するか、「姓」と「名」とに2つの項目に分けて記憶するかによって、作成するテストデータも異なってくる。
そこで、特徴記憶部42には、「氏名」と判定するための、^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本).*という正規表現の特徴記述と、「姓」のみと判定するための^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本)$という正規表現の特徴記述を用意しておき、本番環境用データから抽出したサンプルデータがいずれに該当するかを、特徴判定部10によって分析する。例えば、「氏名」であれば、「佐藤|鈴木|高橋|田中|渡辺|伊藤|山本」というような日本人の姓に多く見られる名字のいずれかを含み、しかもその後に「.*」の正規表現で示すような繰り返し文字(名前が続くと考えられる)が出現する。一方、サンプルデータが「姓」の場合には、正規表現の末尾が「$」になっており、その後に文字が続くことがない。
同様に、電話番号や郵便番号については、使用される数字、その桁数、ハイフォンの位置などのパターンを正規表現で記述しておくことで、サンプルデータがどのような特徴を有するかを判定する。
前記ポイント計数部11は、この特徴判定部10によって、前記項目名、その属性、その項目から抽出されたサンプルデータと前記特徴記述とが一致した場合(その項目に特有の特徴が検出された場合)に、その項目に対して、検出された特徴について予め定められたポイントを計数する(ステップ3,6,9)。
すなわち、ポイント計数部11は、
(a) 項目名とある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
(b) 属性とある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
(c) サンプルデータの1つとある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
というように、特徴記述と一致する度にその項目についてポイントを加算していく。
前記データ内容判定部12は、前記ポイント計数部11によって計数されたポイントが一定値に達した場合に(ステップ11のYes)、その項目名、属性、及びサンプルデータが属する項目のデータが、前記特徴を有する既知の種類のデータであるとを判定する。
前記データ変換部13は、データベース41に記憶されている本番環境用データ中の、前記データ内容判定部12によってデータの特徴が判定された項目に属するデータについて、判定されたデータ内容に基づいてそのデータの一部または全部を秘匿用データに置換するものである。すなわち、項目名、属性、及びサンプルデータに基づいて、その項目に属するデータの特徴が判定されると、データ変換部13は、変換用データ記憶部44に記憶されている変換ルールと、変換用ダミーデータとを参照して(ステップ12)、その項目に属する本番環境用データをテストデータに変換する(ステップ13)。
例えば、変換ルールとして、
(a) その項目のデータが、「氏名」や「住所」である時には、変換用データ記憶部44に用意されている多数の「氏名」や「住所」の中からランダムに抽出したダミーデータに変換する。
(b) 電話番号や数値の場合には、ランダムな数字やアスタリスクに置き換える。
(c) ダミーデータを用意することなく、本番環境用データ中の他の文字列と入れ替える。(d) 数値や年月日については、一定の範囲の数字にのみ置き換える。
(e) 文字列や数値中の一定の位置にある値のみをダミーデータで置換する。
(f) 作成するテストデータの数。
など、開発対象となるデータベースシステムの動作確認に適した内容のテストデータを作成することのできるルールを用意しておく。
前記データ変換部13によって変換されたテストデータは、テストデータ記憶部43に記憶され、その後、出力装置5から外部に出力されたり、開発対象であるデータベースシステムのデータとして利用される。この場合、図3に示すように、テスト環境への接続が可能な場合は、テスト環境用データベース45に対して、作成されたテストデータを直接に転送することが可能である。一方、テスト環境への接続が出来ない場合、XML,CSV,TSVのような任意の書式のファイルへ出力することができる。
図4は、このようにして得られたテストデータの一例を示す画面例で、その上段には、データベースを構成する各項目の、項目名、属性などが、中段には変換前の本番環境用データが、下段には変換後のテストデータが示されている。
[実施形態の効果]
以上のような構成を有する本実施形態によれば、項目名、項目の属性、項目に属する実データの内容などについての特徴を正規表現を使用して記述したため、項目名やデータ内容の特徴を単なる文字列や数値の一致だけではなく、パターンとして把握することが可能になる。その結果、同じ数字を利用した電話番号と郵便番号のようなデータでも、両者の記録パターンを分別することで、正確に区別することが可能になる。また、正規表現の使用により、多種多量の特徴を簡単に集約して記述できるので、特徴記述部42の記憶容量も少なくで済む利点がある。
本実施形態では、項目名、項目の属性、項目に属する実データ、及び正規表現で記述した特徴のいずれについても、前記の例に記載のように文字列によって表現しているため、その記述及び内容の把握が容易であり、特徴記述の修正、追加が容易に実施できる。特に、本実施形態では、特徴記憶部42における特徴(パターン)記述は外部ファイルに記述されており、プログラムの動作に影響を与えることなく容易に修正可能である。
また、変換用データ記憶部44に変換ルールとして、文字列のある範囲のみを置換するというようなルールを定めておいた場合には、開発するシステムとの整合性を十分に配慮したテストデータを作成することができる。例えば、本番環境用データが「X01−001」という番号の場合は、「X01−」が識別番号であり、これを変更した場合は、データとしての整合性が取れずに、「YB4−」などと異なる識別番号となり、結果が異なることになる。しかし、本実施形態では、前記のような変換ルールを使用することで、「X01−001」中の「X01−」は変換を行わず「001」の部分だけを「002」などと変換したテストデータを得ることができる。
[他の実施形態]
本発明は、前記の実施形態に限定されるものではなく、次のような他の実施形態も包含する。
(a) 前記実施形態は、項目名、項目の属性、項目に属する実データ(サンプルデータ)のすべてについて特徴の判定を行い、ポイントの計数を行っていたが、サンプルデータからだけでその項目に属するデータの内容を判定することも可能である。
(b) 特徴記憶部42に記憶した各種のデータの特徴は、正規表現による記述を追加・変更することで、自由に変えることができる。特に、テストデータ作成装置自体に、特徴修正部14を設けることで、特徴記憶部42内に記憶されている正規表現を一覧表のような形でディスプレイなどの出力装置5に表示させ、入力装置1から正規表現の修正、追加を行うように構成することもできる。
(c) 特徴記憶部42に、特徴記述と共に記憶する各特徴のポイントについては、自由に変更可能である。この場合、テストデータ作成装置自体に、重み付け変更部15を設けることで、前記特徴記述と同様に入力装置1から各特徴についてのポイントを変更できる。特に、項目名、項目の属性は、1つの項目に対して1つの特徴を有するためポイントは一定であるが、項目に属する実データのポイントはサンプルデータ数に応じて加算されるため、重み付け変更部15により「項目名、項目の属性」のポイントと「サンプルデータ」によるポイントとのバランスを取ることが望ましい。
図5は、本発明のデータ内容の判定処理の一実施例を示すものである。
図中、51は本番環境用データを記憶したデータベースの特にサンプルデータを示す。52は特徴判定部10、ポイント計数部11及びデータ内容判定部12の処理内容、53はその判断基準、54は特徴記述に対応付けた点数の定義、55は前記サンプルデータを定義54の点数に当て嵌めて数値化した表、56は各項目ごとに定義の点数を集積化した表、57は項目のデータ内容の判定結果を示す表である。
この図5から解るように、本発明の評価定義情報(前記実施形態で説明した特徴記述とその特徴に応じ定めた各タイプ毎のポイント定義をあわせた情報)を用いた判別方法とは、数字データ型、文字データ型、日付データ型毎に評価定義情報の区分を変えることで、タイプ別に決められた点数を付けていき、件数を集めるデータ母体数の傾向を判読することである。ここでいうデータ型は、データベースの呼ばれるデータの性格や数値の表現範囲などを規定する型を示している。この点数を集積していくほど母体数が増えていき、データベースのカラム毎に点数の配分が順位として明確になる。
この例によると、データベースから取り出したテーブルとカラム一覧情報データは、評価定義情報を通して分別処理をしている。基準は、前記実施形態の特徴記述に応じ、1.「特定文字の一致」、2.「特定形式の一致」、3.「文字数の把握」、4.「母体数の集積により判断」である。
図5の53に示すように、基準1では、「特定文字の一致」を点数により判別を行っている。テーブルやカラムに特定の文字が一致すれば、データ型の特定がよりできやすくなる。例えば、図5の51では、一列目では「田中」と「佐藤」等というテーブル内に記載されている。通常の一般社会では「田中」と「佐藤」は、苗字に用いられることが多い名前として世間的に認識されている。コンピュータ処理上では言葉としての認識判断はできないが、予め名前である可能性が高い特徴的な言葉として、定義情報格納部(図1の特徴記憶部42)内に正規表現を使用したXML形式で記載をしている。この定義情報の登録により、「田中」と「佐藤」が基準に一致した場合に、点数として1点を付けている。
図5の51の二列目については、「一郎」と「三子」いう二列目のデータであるが、「一郎」は通常の一般社会では人物名称に用いられる特徴的名前として、世間的に認識されている。しかし、「次郎」、「三郎」などという異なる名前には、全てが対応しなければならなくなる。また、「三子」は名前と地名等と推測し得る。
そこで、コンピュータ処理上では言葉としての認識判断はできないが、「郎」や「子」といった名前でよく使用される傾向にある言葉を、予め定義情報格納部(図1の特徴記憶部42)内に正規表現を使用したXML形式で記載をしている。これらは、上記一列目と同様に、「郎」や「子」が2の基準として一致した場合に、点数として2点が付けられる。
図5の53でいう基準2では、「特定形式の一致」を点数により判別を行っている。テーブルやカラムに、予めに決まった形式に一致するかどうかで、「日付」であるかなどが判別できる可能性が高いことが挙げられる。そこで、定義情報格納部に正規表現を使用したXML形式で記載されている日付データ型等のタイプ別に分けて、データベース等の表記方法の形式として用いられるYYYY/MM/DD等の型に一致等の有無を評価判断している。
例として、図5の51の三列目では、「2000/09/01」とテーブル内に記載されている。コンピュータ処理上では、前記実施形態の特徴記憶部42内で、コンピュータ上のデータベースの日付データ型を用いた場合は、YYYY/MM/DDと一致することで、評価判断をしている。また、基準1との併用により、「年、月、日」等の特定文字が記載されていることにより判断ができる。これらは、上記一列目と同様に、「2000/09/01」が基準として一致した場合に、点数として4点が付けられる。
図5の53でいう基準3では、「文字数の把握」点数により判別を行っている。テーブルやカラムに、予めに決まった文字数が一致するかどうかで、「郵便番号」や「電話番号」などを判別できる可能性が高くなる。そこで、定義情報格納部のXML形式で記載されている文字データ型等のタイプ別に分けて、正規表現により1から9といった連続した数字や文字があった場合に適用するように、定義している。
例として、図5の1番の四列目では、「123−7456」とテーブル内に記載されている。これは通常の一般社会では、「123−7456」は、郵便番号の7桁の規定された識別番号と認識されている。コンピュータ処理上では、定義情報格納部のXML形式で記載されている文字データ型を用いた場合は、「[0−9]{3}[−][0−9]{4}」正規表現で記載されている7桁の数字が入ることで評価判断を行っているために、点数として5点が付けられる。
そして、図5の53の基準4では「母体数の集積により判断」に記載のように、点数の合計により判断している。データの点数評価が進むことにより、図5の56で示している集積化イメージのようになる。点数として獲得したタイプ毎に合計され、点数の高いタイプに選定されて、適切な定義情報へと収束される。これにより、データの置換時に蓄積されたデータがより適切に変換されるようになる。
本発明の実施形態の機能ブロック図 図1の実施形態の処理フロー図 作成されたテストデータの出力形式を示す図 本番環境用データと作成されたテストデータの一例を示す表示画面 本発明の実施例における評価定義情報の処理を示す図
符号の説明
1…入力装置
2…演算装置
3…メモリ
4…記憶装置
41…本番環境用データのデータベース
42…特徴記憶部
43…テストデータの記憶部
44…変換データ記憶部
45…テスト環境用データベース
5…出力装置
6…テストデータ作成装置
10…特徴判定部
11…ポイント計数部
12…データ内容判定部
13…データ変換部
14…特徴修正部
15…重み付け変更部

Claims (7)

  1. 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベースと、
    既知の種類のデータについてそのデータの有する特徴のパターンを正規表現により記述した形式で記憶すると共に、その特徴について予め定められたポイントを記憶する特徴記憶部と、
    前記データベースに記憶されているデータの中から、各項目別に複数のサンプルデータを抽出し、それぞれのサンプルデータが前記特徴記憶部に記憶されている正規表現により記述したパターンに適合するか否かを判定する特徴判定部と、
    この特徴判定部によって前記各サンプルデータに前記各項目に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するポイント計数部と、
    前記ポイント計数部によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記特徴を有する既知の種類のデータであることを判定するデータ内容判定部と、
    データベースに記憶されているデータ中の、前記データ内容判定部によってデータの特徴が判定された項目に属するデータについて、判定されたデータ内容に基づいてそのデータの一部または全部を秘匿用データに置換するデータ変換部と、
    を有することを特徴とするテストデータ作成装置。
  2. 前記特徴記憶部が、既知の項目名に特有の特徴と、その特徴についてのポイントを記憶するものであり、
    前記特徴判定部が、データベースに記憶されているテーブル形式の項目名を抽出し、この項目名が前記特徴記憶部に記憶されている既知の項目名に関する特徴を有するか否かを分析するものであって、
    前記ポイント計数部が、前記サンプルデータのポイントと共に、前記特徴判定部によって前記項目名に既知の項目名に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するものであることを特徴とする請求項1に記載のテストデータ作成装置。
  3. 前記データベースが、テーブル形式で記憶されたデータの各項目ごとに、その項目に属するデータのデータ形式を項目の属性として記憶するものであり、
    前記データ内容判定部が、前記サンプルデータ及び/または項目に基づくポイントと共に、この項目の属性と既知のデータのデータ構造との比較結果に基づいて、この項目に属するデータのデータ構造を判定するものであることを特徴とする請求項1または請求項2に記載のテストデータ作成装置。
  4. 前記データ変換部が、既知のデータの種類ごとに、データベース内に記憶されているデータの一部または全部を置換するための置換ルールと、この置換ルールが使用するダミーデータとを記憶した変換データ記憶部を参照して、データの変換を行うものであることを特徴とする請求項1から請求項3のいずれかに記載のテストデータ作成装置。
  5. 前記特徴記憶部が、その内部に記憶されている正規表現によって表現された特徴のパターンを、その正規表現の記述を変更することにより修正するための特徴修正部を備えることを特徴とする請求項1から請求項4のいずれかに記載のテストデータ作成装置。
  6. 前記データ内容判定部が、前記ポイント計数部によって計数されたサンプルデータのポイントと、前記ポイント計数部によって計数された項目名及び/または項目の属性のポイントとについて、その重み付けを変更するための重み付け変更部を有することを特徴とする請求項2から請求項5のいずれかに記載のテストデータ作成装置。
  7. 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベースに記憶されているデータの中から複数のサンプルデータを抽出し、これらのサンプルデータが既知の種類のデータの有する特徴を有するか否かを、前記サンプルデータと既知のデータの特徴を正規表現で記述した特徴記述と比較することで判定する処理と、
    前記判定処理によって前記各サンプルデータに前記既知の種類のデータに特有の特徴が検出された場合に、そのサンプルデータが記憶されている項目に対して、検出された特徴について予め定められたポイントを計数する処理と、
    前記ポイント計数処理によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記既知の種類のデータであると判定する処理と、
    前記データベース中の前記判定処理によって既知の種類のデータであると判定された項目に属する複数のデータの一部もしくは全部をについて、判定された既知の種類のデータの特徴に従って、そのデータ内容の一部または全部を秘匿用データに変換する処理と、
    を有することを特徴とするテストデータ作成方法。
JP2008210122A 2007-08-16 2008-08-18 テストデータ作成装置及び作成方法 Active JP5212980B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008210122A JP5212980B2 (ja) 2007-08-16 2008-08-18 テストデータ作成装置及び作成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007235916 2007-08-16
JP2007235916 2007-08-16
JP2008210122A JP5212980B2 (ja) 2007-08-16 2008-08-18 テストデータ作成装置及び作成方法

Publications (2)

Publication Number Publication Date
JP2009064430A JP2009064430A (ja) 2009-03-26
JP5212980B2 true JP5212980B2 (ja) 2013-06-19

Family

ID=40558927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008210122A Active JP5212980B2 (ja) 2007-08-16 2008-08-18 テストデータ作成装置及び作成方法

Country Status (1)

Country Link
JP (1) JP5212980B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5928733B2 (ja) 2013-09-06 2016-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文字列からなるテストデータを自動的に生成する方法及び文字列からなるテストデータ中に埋め込まれたシグネチャーを識別する方法、並びに、それらのコンピュータ及びコンピュータ・プログラム
US11232018B1 (en) 2020-08-28 2022-01-25 Coupang Corp. Experiment platform engine

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3223645B2 (ja) * 1992-06-15 2001-10-29 富士ゼロックス株式会社 データべースアクセス方法および装置
JPH0736737A (ja) * 1993-06-29 1995-02-07 Hitachi Ltd テストデータ作成方法
JPH0773171A (ja) * 1994-07-29 1995-03-17 Casio Comput Co Ltd 文書処理装置
JP2001256076A (ja) * 2000-03-08 2001-09-21 Ricoh Co Ltd テストデータ生成装置、テストデータ生成方法及び記録媒体
JP2005285002A (ja) * 2004-03-30 2005-10-13 Hitachi Software Eng Co Ltd テストデータ生成装置
JP2006185342A (ja) * 2004-12-28 2006-07-13 Canon Software Inc 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
JP2006236220A (ja) * 2005-02-28 2006-09-07 Ntt Data Technology Corp テスト用データファイル作成装置、方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2009064430A (ja) 2009-03-26

Similar Documents

Publication Publication Date Title
CN107423279B (zh) 一种金融信贷短信的信息抽取和分析方法
AU2008304265B2 (en) Method and system for analysis of a system for matching data records
US8185509B2 (en) Association of semantic objects with linguistic entity categories
JP2017224184A (ja) 機械学習装置
US20080147601A1 (en) Method For Searching Data Elements on the Web Using a Conceptual Metadata and Contextual Metadata Search Engine
CN108351898A (zh) 用于结构化多字段文件布局的自动化解释
TWI645346B (zh) 商品碼分析系統及商品碼分析程式
JP6242540B1 (ja) データ変換システム及びデータ変換方法
JP5212980B2 (ja) テストデータ作成装置及び作成方法
KR101930034B1 (ko) 데이터의 도메인을 판별하는 장치 및 그 방법
JP2022032230A (ja) フィールドデータ監視装置、フィールドデータ監視方法、ならびにフィールドデータ表示装置
US6108677A (en) Data processing apparatus
CN108491189B (zh) 一种基于差异比较对设计类图进行评价的方法
JP4501459B2 (ja) クロス表作成のためのプログラム及び方法及び装置
US20030055838A1 (en) Data storing method and data storing structure
Gabor-Toth et al. Linking Deutsche Bundesbank Company Data
CN114327607A (zh) 一种bs代码自动生成方法
CN108469949B (zh) 一种基于差异比较对分析类图进行评价的方法
CN111930824A (zh) 一种基于推荐模型的数据综合态势展现方法
JP4096319B2 (ja) 電子帳票管理システムおよび管理方法ならびにそのためのプログラム
Campesato Data Literacy with Python
CN115422594A (zh) 一种利用矩阵替换实现数据脱敏的方法
JPH07244663A (ja) 文書情報要旨部分の抽出方法とその装置
JP2003114819A (ja) データ分析管理システム、及びプログラム
Campesato Pandas Basics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130219

R150 Certificate of patent or registration of utility model

Ref document number: 5212980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250