JP5212980B2 - テストデータ作成装置及び作成方法 - Google Patents
テストデータ作成装置及び作成方法 Download PDFInfo
- Publication number
- JP5212980B2 JP5212980B2 JP2008210122A JP2008210122A JP5212980B2 JP 5212980 B2 JP5212980 B2 JP 5212980B2 JP 2008210122 A JP2008210122 A JP 2008210122A JP 2008210122 A JP2008210122 A JP 2008210122A JP 5212980 B2 JP5212980 B2 JP 5212980B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- item
- feature
- database
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims description 51
- 238000000034 method Methods 0.000 title claims description 17
- 238000003860 storage Methods 0.000 claims description 32
- 230000014509 gene expression Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 description 29
- 238000013500 data storage Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Storage Device Security (AREA)
- Debugging And Monitoring (AREA)
Description
(a) 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベース。
(b) 既知の種類のデータについてそのデータの有する特徴のパターンを正規表現により記述した形式で記憶すると共に、その特徴について予め定められたポイントを記憶する特徴記憶部。
(c) 前記データベースに記憶されているデータの中から、各項目別に複数のサンプルデータを抽出し、それぞれのサンプルデータが前記特徴記憶部に記憶されている正規表現により記述したパターンに適合するか否かを判定する特徴判定部。
(d) この特徴判定部によって前記各サンプルデータに前記各項目に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するポイント計数部。
(e) 前記ポイント計数部によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記特徴を有する既知の種類のデータであることを判定するデータ内容判定部。
(f) データベースに記憶されているデータ中の、前記データ内容判定部によってデータの特徴が判定された項目に属するデータについて、判定されたデータ内容に基づいてそのデータの一部または全部を秘匿用データに置換するデータ変換部。
本実施形態のテストデータ作成装置は、キーボードなどの入力装置1、CPUなどの演算装置2、プログラムやデータを展開するメモリ3、本番環境用データのデータベース41や特徴記憶部42、完成されたテストデータの記憶部43、本番環境用データをテストデータに置換するための置換ルールと、この置換ルールが使用するダミーデータとを記憶した変換データ記憶部44などとして使用されるハードディスクなどの記憶装置4、ディスプレイやプリンタなどの出力装置5などのハードウェアを備えている。
(a) 日付型
DATE
TIME
YEAR
(b) 文字列型
ADDRESS
JYUSHO
PREFECTURE
NAME
(c) 数値型
WEIGHT
LENGTH
AMOUNT
VOLUME
(a) 日付型
DATE
IMESTAMP
(b) 文字列型
VARCHAR
CHAR
(c) 数値型
INTEGER
BIGINT
FLOAT
REAL
DOUBLE
(a) 日付
年、月、日、時、分、秒
年、月、日
yyyy/MM/dd hh:mm:ss
yyyy-MM-dd
(b) 文字列
都道府県名から番地等の詳細まで
都道府県
郵便番号
(c) 数値
123
456
123,456
(a) 日付
.*[Dd][Aa][Tt][Ee].*
.*[Tt][Ii][Mm][Ee].*
(b) 文字列
.*[Aa][Dd][Dd][Rr][Ee][Ss][Ss]$
.*([Jj][Yy]|[Ji])[Uu][Ss]([Hh]|[Yy])[Oo]$
.*[Pp][Rr][Ee][Ff][Ee][Cc][Tt][Uu][Rr][Ee].*
(c) 数値
.*([Ww]|[Hh])[Ee][Ii][Gg][Hh][Tt]$
(a) 日付型
^[Dd][Aa][Tt][Ee]$
^[Tt][Ii][Mm][Ee][Ss][Tt][Aa][Mm][Pp]$
(b) 文字列型
^(VARCHAR|CHAR)$
(c) 数値型
^(TINYINT|SMALLINT|INTEGER|BIGINT|FLOAT|REAL|DOUBLE|NUMERIC|DECIMAL)$
(a) 日付
^.*年.*月.*日.*時.*分.*秒$…年月日と時刻
.*年.*月.*日$…年月日
^((19|[2-9][0-9])[0-9]{2})/([1-9]|(0[1-9]|1[0-2]))/([1-9]|(0[1-9]|([12][0-9]|3[01])))$…西暦
(b) 文字
^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本).*…氏名
^(佐藤|鈴木|高橋|田中|渡辺|伊藤|山本)$…姓
^[0-90-9]{1,}[-−][0-90-9]{1,}[-−][0-90-9]{1,}$…電話番号
^[0-90-9]{3}[-−][0-90-9]{4}$…郵便番号
(c) 数値
^[0-9.,]{1,}$
(a) ピリオドは改行を除く任意の1文字を意味する。
(b) アスタリスクは、直前にある正規表現の0回以上の繰り返しを検索する。
(c) ブラケット(角括弧)で囲んだ文字のいずれかひとつとマッチすればマッチしたと判断する。
(d) 「|」は、パターンの論理和を示す。このパターンの論理和は、「この文字列かこの文字列」を探したいという場合に使用する。
(e) パーレン(小括弧、丸括弧)は、パターンをグループ化して評価する。優先順位が高くなるので、パーレンの中を評価した後に全体を評価する。
(d) ドル記号は行末を意味する。
(f) カレットは行頭を意味する。
(g) {n}・{n,}・{n,m}は、パターンの繰り返し回数を指定する。{n}はn回の繰り返し、{n,}はn回以上の繰り返し、{n,m}はn回以上、m回以下の繰り返し。
(a) 項目名とある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
(b) 属性とある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
(c) サンプルデータの1つとある特徴記述が一致すると、その特徴記述に対応して定められたポイントを計数する。
というように、特徴記述と一致する度にその項目についてポイントを加算していく。
(a) その項目のデータが、「氏名」や「住所」である時には、変換用データ記憶部44に用意されている多数の「氏名」や「住所」の中からランダムに抽出したダミーデータに変換する。
(b) 電話番号や数値の場合には、ランダムな数字やアスタリスクに置き換える。
(c) ダミーデータを用意することなく、本番環境用データ中の他の文字列と入れ替える。(d) 数値や年月日については、一定の範囲の数字にのみ置き換える。
(e) 文字列や数値中の一定の位置にある値のみをダミーデータで置換する。
(f) 作成するテストデータの数。
など、開発対象となるデータベースシステムの動作確認に適した内容のテストデータを作成することのできるルールを用意しておく。
以上のような構成を有する本実施形態によれば、項目名、項目の属性、項目に属する実データの内容などについての特徴を正規表現を使用して記述したため、項目名やデータ内容の特徴を単なる文字列や数値の一致だけではなく、パターンとして把握することが可能になる。その結果、同じ数字を利用した電話番号と郵便番号のようなデータでも、両者の記録パターンを分別することで、正確に区別することが可能になる。また、正規表現の使用により、多種多量の特徴を簡単に集約して記述できるので、特徴記述部42の記憶容量も少なくで済む利点がある。
本発明は、前記の実施形態に限定されるものではなく、次のような他の実施形態も包含する。
(a) 前記実施形態は、項目名、項目の属性、項目に属する実データ(サンプルデータ)のすべてについて特徴の判定を行い、ポイントの計数を行っていたが、サンプルデータからだけでその項目に属するデータの内容を判定することも可能である。
図中、51は本番環境用データを記憶したデータベースの特にサンプルデータを示す。52は特徴判定部10、ポイント計数部11及びデータ内容判定部12の処理内容、53はその判断基準、54は特徴記述に対応付けた点数の定義、55は前記サンプルデータを定義54の点数に当て嵌めて数値化した表、56は各項目ごとに定義の点数を集積化した表、57は項目のデータ内容の判定結果を示す表である。
2…演算装置
3…メモリ
4…記憶装置
41…本番環境用データのデータベース
42…特徴記憶部
43…テストデータの記憶部
44…変換データ記憶部
45…テスト環境用データベース
5…出力装置
6…テストデータ作成装置
10…特徴判定部
11…ポイント計数部
12…データ内容判定部
13…データ変換部
14…特徴修正部
15…重み付け変更部
Claims (7)
- 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベースと、
既知の種類のデータについてそのデータの有する特徴のパターンを正規表現により記述した形式で記憶すると共に、その特徴について予め定められたポイントを記憶する特徴記憶部と、
前記データベースに記憶されているデータの中から、各項目別に複数のサンプルデータを抽出し、それぞれのサンプルデータが前記特徴記憶部に記憶されている正規表現により記述したパターンに適合するか否かを判定する特徴判定部と、
この特徴判定部によって前記各サンプルデータに前記各項目に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するポイント計数部と、
前記ポイント計数部によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記特徴を有する既知の種類のデータであることを判定するデータ内容判定部と、
データベースに記憶されているデータ中の、前記データ内容判定部によってデータの特徴が判定された項目に属するデータについて、判定されたデータ内容に基づいてそのデータの一部または全部を秘匿用データに置換するデータ変換部と、
を有することを特徴とするテストデータ作成装置。 - 前記特徴記憶部が、既知の項目名に特有の特徴と、その特徴についてのポイントを記憶するものであり、
前記特徴判定部が、データベースに記憶されているテーブル形式の項目名を抽出し、この項目名が前記特徴記憶部に記憶されている既知の項目名に関する特徴を有するか否かを分析するものであって、
前記ポイント計数部が、前記サンプルデータのポイントと共に、前記特徴判定部によって前記項目名に既知の項目名に特有の特徴が検出された場合に、その項目に対して、検出された特徴について予め定められたポイントを計数するものであることを特徴とする請求項1に記載のテストデータ作成装置。 - 前記データベースが、テーブル形式で記憶されたデータの各項目ごとに、その項目に属するデータのデータ形式を項目の属性として記憶するものであり、
前記データ内容判定部が、前記サンプルデータ及び/または項目に基づくポイントと共に、この項目の属性と既知のデータのデータ構造との比較結果に基づいて、この項目に属するデータのデータ構造を判定するものであることを特徴とする請求項1または請求項2に記載のテストデータ作成装置。 - 前記データ変換部が、既知のデータの種類ごとに、データベース内に記憶されているデータの一部または全部を置換するための置換ルールと、この置換ルールが使用するダミーデータとを記憶した変換データ記憶部を参照して、データの変換を行うものであることを特徴とする請求項1から請求項3のいずれかに記載のテストデータ作成装置。
- 前記特徴記憶部が、その内部に記憶されている正規表現によって表現された特徴のパターンを、その正規表現の記述を変更することにより修正するための特徴修正部を備えることを特徴とする請求項1から請求項4のいずれかに記載のテストデータ作成装置。
- 前記データ内容判定部が、前記ポイント計数部によって計数されたサンプルデータのポイントと、前記ポイント計数部によって計数された項目名及び/または項目の属性のポイントとについて、その重み付けを変更するための重み付け変更部を有することを特徴とする請求項2から請求項5のいずれかに記載のテストデータ作成装置。
- 複数種類のデータを項目別に分類したテーブル形式で記憶するデータベースに記憶されているデータの中から複数のサンプルデータを抽出し、これらのサンプルデータが既知の種類のデータの有する特徴を有するか否かを、前記サンプルデータと既知のデータの特徴を正規表現で記述した特徴記述と比較することで判定する処理と、
前記判定処理によって前記各サンプルデータに前記既知の種類のデータに特有の特徴が検出された場合に、そのサンプルデータが記憶されている項目に対して、検出された特徴について予め定められたポイントを計数する処理と、
前記ポイント計数処理によって計数されたポイントが一定値に達した場合に、そのサンプルデータが属する項目のデータが、前記既知の種類のデータであると判定する処理と、
前記データベース中の前記判定処理によって既知の種類のデータであると判定された項目に属する複数のデータの一部もしくは全部をについて、判定された既知の種類のデータの特徴に従って、そのデータ内容の一部または全部を秘匿用データに変換する処理と、
を有することを特徴とするテストデータ作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008210122A JP5212980B2 (ja) | 2007-08-16 | 2008-08-18 | テストデータ作成装置及び作成方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007235916 | 2007-08-16 | ||
JP2007235916 | 2007-08-16 | ||
JP2008210122A JP5212980B2 (ja) | 2007-08-16 | 2008-08-18 | テストデータ作成装置及び作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009064430A JP2009064430A (ja) | 2009-03-26 |
JP5212980B2 true JP5212980B2 (ja) | 2013-06-19 |
Family
ID=40558927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008210122A Active JP5212980B2 (ja) | 2007-08-16 | 2008-08-18 | テストデータ作成装置及び作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5212980B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5928733B2 (ja) | 2013-09-06 | 2016-06-01 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文字列からなるテストデータを自動的に生成する方法及び文字列からなるテストデータ中に埋め込まれたシグネチャーを識別する方法、並びに、それらのコンピュータ及びコンピュータ・プログラム |
US11232018B1 (en) | 2020-08-28 | 2022-01-25 | Coupang Corp. | Experiment platform engine |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3223645B2 (ja) * | 1992-06-15 | 2001-10-29 | 富士ゼロックス株式会社 | データべースアクセス方法および装置 |
JPH0736737A (ja) * | 1993-06-29 | 1995-02-07 | Hitachi Ltd | テストデータ作成方法 |
JPH0773171A (ja) * | 1994-07-29 | 1995-03-17 | Casio Comput Co Ltd | 文書処理装置 |
JP2001256076A (ja) * | 2000-03-08 | 2001-09-21 | Ricoh Co Ltd | テストデータ生成装置、テストデータ生成方法及び記録媒体 |
JP2005285002A (ja) * | 2004-03-30 | 2005-10-13 | Hitachi Software Eng Co Ltd | テストデータ生成装置 |
JP2006185342A (ja) * | 2004-12-28 | 2006-07-13 | Canon Software Inc | 情報処理装置および文字列分類方法およびプログラムおよび記録媒体 |
JP2006236220A (ja) * | 2005-02-28 | 2006-09-07 | Ntt Data Technology Corp | テスト用データファイル作成装置、方法、プログラム及び記録媒体 |
-
2008
- 2008-08-18 JP JP2008210122A patent/JP5212980B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009064430A (ja) | 2009-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423279B (zh) | 一种金融信贷短信的信息抽取和分析方法 | |
AU2008304265B2 (en) | Method and system for analysis of a system for matching data records | |
US8185509B2 (en) | Association of semantic objects with linguistic entity categories | |
JP2017224184A (ja) | 機械学習装置 | |
US20080147601A1 (en) | Method For Searching Data Elements on the Web Using a Conceptual Metadata and Contextual Metadata Search Engine | |
CN108351898A (zh) | 用于结构化多字段文件布局的自动化解释 | |
TWI645346B (zh) | 商品碼分析系統及商品碼分析程式 | |
JP6242540B1 (ja) | データ変換システム及びデータ変換方法 | |
JP5212980B2 (ja) | テストデータ作成装置及び作成方法 | |
KR101930034B1 (ko) | 데이터의 도메인을 판별하는 장치 및 그 방법 | |
JP2022032230A (ja) | フィールドデータ監視装置、フィールドデータ監視方法、ならびにフィールドデータ表示装置 | |
US6108677A (en) | Data processing apparatus | |
CN108491189B (zh) | 一种基于差异比较对设计类图进行评价的方法 | |
JP4501459B2 (ja) | クロス表作成のためのプログラム及び方法及び装置 | |
US20030055838A1 (en) | Data storing method and data storing structure | |
Gabor-Toth et al. | Linking Deutsche Bundesbank Company Data | |
CN114327607A (zh) | 一种bs代码自动生成方法 | |
CN108469949B (zh) | 一种基于差异比较对分析类图进行评价的方法 | |
CN111930824A (zh) | 一种基于推荐模型的数据综合态势展现方法 | |
JP4096319B2 (ja) | 電子帳票管理システムおよび管理方法ならびにそのためのプログラム | |
Campesato | Data Literacy with Python | |
CN115422594A (zh) | 一种利用矩阵替换实现数据脱敏的方法 | |
JPH07244663A (ja) | 文書情報要旨部分の抽出方法とその装置 | |
JP2003114819A (ja) | データ分析管理システム、及びプログラム | |
Campesato | Pandas Basics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5212980 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |