JP2004326510A - テストデータ生成装置、テストデータ生成方法およびプログラム - Google Patents

テストデータ生成装置、テストデータ生成方法およびプログラム Download PDF

Info

Publication number
JP2004326510A
JP2004326510A JP2003121399A JP2003121399A JP2004326510A JP 2004326510 A JP2004326510 A JP 2004326510A JP 2003121399 A JP2003121399 A JP 2003121399A JP 2003121399 A JP2003121399 A JP 2003121399A JP 2004326510 A JP2004326510 A JP 2004326510A
Authority
JP
Japan
Prior art keywords
data
field
unit
frequency
fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003121399A
Other languages
English (en)
Inventor
Teruo Kosakata
輝雄 小坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daiwa Securities Group Inc
Original Assignee
Daiwa Securities Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daiwa Securities Group Inc filed Critical Daiwa Securities Group Inc
Priority to JP2003121399A priority Critical patent/JP2004326510A/ja
Publication of JP2004326510A publication Critical patent/JP2004326510A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】実際のデータの秘匿性を保ちつつ、実際のデータと同様の多様なテストデータを作成する。
【解決手段】既に利用されていたデータベースシステム10の実データを用いて、新たなデータベースシステム20の動作を検証するために用いるテストデータを生成するテストデータ生成装置100であって、実データの中の変更をすべき複数のフィールドを指定する指定部110と、指定部110で指定された複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出する高頻度データ抽出部120と、高頻度データ抽出部120により抽出された、複数のフィールドのそれぞれにおける高頻度データの組み合わせによって、複数のフィールドの実データを置き換えることによりテストデータを作成するデータ変更部130とを備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、テストデータ生成装置、テストデータ生成方法、およびプログラムに関する。特に本発明は、既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成することができるテストデータ生成装置、テストデータ生成方法、およびプログラムに関する。
【0002】
【従来の技術】
従来、システム開発者は、既に利用されていたデータベースシステムの実際のデータを用いて、新しいデータベースシステムの動作を検証していた(例えば、非特許文献1)。
【0003】
【非特許文献1】
「日本経済新聞」朝刊、日本経済新聞社、2002年4月23日、第5頁
【0004】
【発明が解決しようとする課題】
しかし、システム開発者とデータの管理者が異なる場合がある。この場合に、データの管理者は実際のデータの秘匿性を保ちつつ、システム開発者は実際のデータと同様のデータを用いて新しいデータベースシステムの試験稼動をすることが重要である。
【0005】
そこで本発明は、上記の課題を解決することのできるテストデータ生成装置を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【0006】
【課題を解決するための手段】
即ち、本発明の第1の形態によると、既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するテストデータ生成装置であって、実データの中の変更をすべき複数のフィールドを指定する指定部と、指定部で指定された複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出する高頻度データ抽出部と、高頻度データ抽出部により抽出された、複数のフィールドのそれぞれにおける高頻度データの組み合わせによって、複数のフィールドの実データを置き換えることによりテストデータを作成するデータ変更部とを備える。
【0007】
既に利用されていたデータベースシステムおよび新たなデータベースシステムは、複数のデータベースのデータをリレーションキーで対応付けたリレーショナルデータベースシステムであり、複数のデータベースの各々の実データに含まれる、各フィールドのデータ種別を格納するフォーマット格納部と、フォーマット格納部に格納されたデータ種別を参照することにより、複数のデータベースの、指定部により指定されたフィールドを変更するフィールド変更部とを更に備え、データ変更部は、フィールド変更部により変更されたフィールドの実データを置き換えることによりテストデータを作成してもよい。
【0008】
高頻度データ抽出部は、指定部で指定された複数のフィールドのそれぞれにおいて、実データにおける当該フィールド内でのデータの出現頻度を検出し、当該フィールドで出現頻度が高いほうにある複数の高頻度データを抽出してもよい。
【0009】
複数のデータベースに含まれる同一のデータ種別のリレーションキーを、同じ規則で変更するリレーションキー変更部を更に備えてもよい。
【0010】
データ変更部は、実データに含まれる各文字を、予め定められた同一の規則に基づいて変更してもよい。
【0011】
本発明の第2の形態によると、既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するテストデータ生成方法であって、実データの中の変更をすべき複数のフィールドを指定し、指定された複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出し、抽出された、複数のフィールドのそれぞれにおける高頻度データの組み合わせによって、複数のフィールドの実データを置き換えることによりテストデータを作成する。
【0012】
本発明の第3の形態によると、既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するコンピュータ用のプログラムであって、コンピュータを、実データの中の変更をすべき複数のフィールドを指定する指定手段、指定手段で指定された複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出する高頻度データ抽出手段、および、高頻度データ抽出手段により抽出された、複数のフィールドのそれぞれにおける高頻度データの組み合わせによって、複数のフィールドの実データを置き換えることによりテストデータを作成するデータ変更手段として機能させる。
【0013】
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた発明となりうる。
【0014】
【発明の実施の形態】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0015】
図1は、テストデータ生成システム200の機能構成を示す。テストデータ生成システム200は、既に利用されていた既データベースシステム10と、新しい新データシステム20と、既データベースシステム10に格納された実際のデータに基づいて新データシステム20のテストデータを作成するテストデータ生成装置100とを含む。
【0016】
既データシステム10は、実データとして顧客、住所および勤務先のデータをそれぞれ格納する顧客マスタデータベース12、住所マスタデータベース14および法人マスタデータベース16を備える。既データシステム10はさらに、テストデータの作成の対象となる実データを格納する対象データ格納部18を備える。既データシステム10は、データの管理者により管理される。
【0017】
テストデータ生成装置100は、指定部110と、高頻度データ抽出部120と、データ変更部130と、フォーマット格納部140と、フィールド変更部150と、リレーションキー変更部160とを備える。図1に示す実施形態において、テストデータ生成装置100はさらに、置換え用マスタデータ格納部17を備える。
【0018】
従来、システム開発者は、既に利用されていた既データベースシステム10のデータのみを用いて、新しい新データベースシステム20の動作を検証していた。しかし、システム開発者とデータの管理者が異なる場合がある。この場合に、データの管理者は実際のデータの秘匿性を保ちつつ、システム開発者は実際のデータと同様のデータを用いて新データベースシステム20の試験稼動をすることが重要である。さらに、新データベースシステム20は、既データベースシステム10に格納された実際のデータよりもさらに多様なデータおよび新たなデータを処理することが予想される。このため、システム開発者は、多様なテストデータを作成し、そのテストデータを用いて新データベースシステム20を試験稼動することが重要である。
【0019】
そこで、本実施形態に係るテストデータ生成装置100は、新データベースシステム20が処理すべき可能性のある多様なデータに対応したテストデータを、容易かつ迅速に作成するものである。
【0020】
テストデータ生成装置100は、既データベースシステム10の実データを用いて、新データベースシステム20の動作を検証するために用いるテストデータを生成する。また、既データベースシステム10および新データベースシステム20は、複数のデータベースのデータをリレーションキーで対応付けたリレーショナルデータベースシステムである。既データシステム10のデータベースは、それぞれ、実データを格納する。上述のように、既データシステム10は、実データを格納する複数のデータベースとして、顧客マスタデータベース12、住所マスタデータベース14、法人マスタデータベース16および対象データ格納部18を備える。
【0021】
指定部110は、実データの秘匿性を守るために、実データの中の変更をすべき複数のフィールドを指定する。本実施形態の指定部110は、既データベースシステム10から実データを取得する。指定部110は、例えば顧客の氏名、年令、顧客の口座がある部店、および口座番号のフィールドを含む顧客情報を、実データとして取得する。指定部110は、取得した実データに含まれるフィールドのうちで、秘匿性のあるデータを格納した複数のフィールドを、変更をすべきフィールドとして指定する。例えば、指定部110は、テストデータを使用する開発者からの入力に基づき、秘匿性のあるフィールドのうちのどのフィールドを変更するかを格納した変更パラメータファイルを作成する。この場合、指定部110は、この変更パラメータファイルを参照することにより、既データベースシステム10におけるフィールドのうち、実データを変更すべきフィールドを指定する。指定部110は、変更すべき複数のフィールドが指定された実データを、高頻度データ抽出部120およびデータ変更部130に出力する。なお、本実施形態において、指定部110により変更すべく指定されたフィールド、例えば部店および口座番号のフィールド、に格納されたデータを、実データのリレーションキーとする。
【0022】
高頻度データ抽出部120は、指定部110で指定された複数のフィールドのそれぞれにおいて、他のデータより高い頻度で出現する高頻度データを抽出する。本実施形態の高頻度データ抽出部120は、指定部110により指定された複数のフィールドのうち、数字情報のフィールド以外のフィールド、例えば電話番号および郵便番号以外のフィールドを選択する。高頻度データ抽出部120は、選択したフィールドに格納されたデータを、例えば、実データにおける当該フィールド内での出現の頻度を検出して出現頻度順に並べ替える。高頻度データ抽出部120は、選択したフィールドにおいて並べ替えたデータから、当該フィールドで出現の頻度が高い高頻度データを、所定個数分だけ抽出する。高頻度データ抽出部120は、所定個数として、例えば選択されたフィールドが顧客の姓または名の場合に一例として100個の高頻度データを、それぞれのフィールドにおいて抽出する。高頻度データ抽出部120は、抽出した所定個数分のデータを、フィールドに対応付けてデータ変更部130へ出力する。なお、当該フィールドで出現頻度が高い高頻度データを、所定個数分だけ抽出する場合に、当該フィールドで出現頻度が高いほうにあるデータたとえば当該フィールドでの平均出現頻度以上のデータを抽出してもよく、当該平均出現頻度以上のデータから複数もしくは数個以上のデータを抽出する構成としてもよい。
【0023】
フォーマット格納部140は、複数のデータベースに含まれる、各フィールドのデータ種別を格納する。本実施形態のフォーマット格納部140は、実データのフィールドを、実データの先頭から順に第1のフィールド、第2のフィールド、第3のフィールド、…とする。データ変更部130は、各フィールドに格納されたデータの属性であるデータ種別を、フィールドに対応付けて、データベースごとに格納する。
【0024】
フィールド変更部150は、フォーマット格納部140に格納されたデータ種別を参照することにより、複数のデータベースの、指定部110により指定されたフィールドを変更する。フィールド変更部150は、指定部110から取得した実データにおける、指定された複数のそれぞれのフィールドに対応付けて、フォーマット格納部140に格納されるそれぞれのデータ種別を読み出す。フィールド変更部150は、読み出したデータ種別のうちで、テストデータが含むべきデータ種別と一致するデータ種別を選び出す。フィールド変更部150は、選び出したデータ種別に対応付けられる実データのフィールドを、テストデータにおいてそのデータ種別に対応付けられたフィールドに変更する。フィールド変更部150は、フィールドを変更した実データを、置換え対象データとしてデータ変更部130に出力する。
【0025】
データ変更部130は、高頻度データ抽出部120により抽出された、複数のフィールドのそれぞれにおける高頻度データの組み合わせによって、複数のフィールドの実データを置き換えることによりテストデータを作成する。本実施形態では、データ変更部130は、指定部110から取得した実データにおいて、高頻度データ抽出部120により高頻度データが抽出されたフィールドに格納されたデータを、抽出された所定個数の高頻度データからランダムに選び出したデータに変更する。例えば、データ変更部130は、高頻度データ抽出部120から姓および名の高頻度データを取得し、これらの姓および名で、実データである顧客の姓または名を置き換える。実データの姓および名の中には稀な姓および名が含まれていることがあるが、実データの姓および名に基づいた高頻度データで置き換えることにより、顧客の秘匿性を保ちつつ、実データと同様の多様なテストデータを作成することができる。
【0026】
また、データ変更部130は、上記複数のフィールドと異なるフィールドにおいて、実データに含まれる各文字を、予め定められた同一の規則に基づいて変更する。例えば、データ変更部130は、実データの中で変更すべく指定された数字情報のフィールドに格納されたデータの文字である数字のそれぞれを、予め定められた同一の規則に基づいて変更する。本実施形態において、データ変更部130は、データに含まれた数字を、その数字について1対1に対応させた他の数字に入れ替えることにより、同一の規則に基づいてデータを変更する。例えば、データ変更部130は、データに含まれた数字「0」を「1」に入れ替え、同様に「1」を「2」に、「2」を「0」に入れ替える。例えば、指定部110から取得した実データに郵便番号のフィールドが含まれる場合、データ変更部130は、数字情報である郵便番号の各数字を入れ替え、さらに入替え後の郵便番号に基づいた県名および市区町村名を、置換え用マスタデータの住所として作成する。データ変更部130は、複数のフィールドにおける変更後のデータの組にそれぞれデータ識別番号を割り振り、置換え用マスタデータを作成する。
【0027】
データ変更部130は、フィールド変更部150から取得した置換え対象データにおける1つのデータと、置換え用マスタデータにおける1つのデータとを関連付ける。データ変更部130は、置換え用マスタデータに割り振られたデータ識別番号に対応付けて、その置換え用マスタデータに関連付けた置換え対象データのリレーションキーをリレーションキー変更部160に出力する。データ変更部130は、置換え対象データにおけるそれぞれのデータ種別のデータを、このデータと関連付けられた置換え用マスタデータにおいてそれと対応するデータ種別のデータに置き換えることにより、テストデータを作成する。データ変更部130は、作成したテストデータを新データベースシステム20に出力する。
【0028】
リレーションキー変更部160は、複数のデータベースに含まれる同一のデータ種別のリレーションキーを、同じ規則で変更する。本実施形態において、リレーションキー変更部160は、置換え用マスタデータのデータ識別番号およびこれに対応付けた置換え対象データのリレーションキーを、データ変更部130から取得し、これらを格納する変更マップファイルを生成する。リレーションキー変更部160は、置換え対象データのうちで、変更マップファイルに格納されたリレーションキーと一致するリレーションキーを有する置換え対象データを選び出す。データ変更部130は、選び出した置換え対象データを、リレーションキー変更部160によって関連付けられた置換え用マスタデータで置き換えることにより、同一の規則に基づいてリレーションキーを変更してテストデータを作成する。すなわち、リレーションキー変更部160は、同一のリレーションキーを含む複数の置換え対象データに対して、1つの置換え用マスタデータを関連付けて、テストデータを作成する。これにより、置換え対象データが変更されても、同じリレーションキーを含むデータは、同一の置換え用マスタデータに基づいて置き換えることができ、複数のテストデータ間の整合性を保つことができる。
【0029】
以上の構成により、テストデータ生成装置100は、既データベースシステム10の複数の実データ間で、それぞれの実データに含まれるフィールドのデータを置き換えることによりテストデータを作成する。よって、実データに秘匿性がある場合であっても、実データを置き換えたテストデータを作成するので、元の実データの秘匿性を保ちつつ、実データと同様のもしくはそれ以上の多様なテストデータを作成することができる。また、新データベースシステム20が処理すべき可能性のある多様なデータに対応したテストデータを、複数データ間の整合性を保ちつつ、容易かつ迅速に作成することができる。
【0030】
図2は、フォーマット格納部140のデータフォーマットの一例を示す。フォーマット格納部140は、複数のデータベースに含まれる、各フィールドのデータ種別を格納する。例えば、フォーマット格納部140は、データベースの1つであるDB_1の実データにおいて、第1のフィールドに対応付けてデータ種別「姓」、第2のフィールドに対応付けてデータ種別「名」、第3のフィールドに対応付けてデータ種別「年令」、第4のフィールドに対応付けてデータ種別「部店」、第5のフィールドに対応付けてデータ種別「口座番号」、第6のフィールドに対応付けて、そのフィールドに対応する実データのフィールドがない旨としてダミー記号「*」、および第7のフィールドに対応付けてダミー記号「*」を格納する。
【0031】
これにより、フォーマット格納部140は、データベースごとにフィールドの構成が異なる実データにおいて、各フィールドのデータ種別を効率的に管理することができる。
【0032】
図3は、テストデータ生成装置100の動作の一例を示すフローチャートである。図4は、図3に示すフローチャートにおいて、実データを置き換えることにより作成されるテストデータの例を示す説明図である。指定部110は、既データベースシステム10の実データのうち、テストデータとして使用する場合に秘匿性を守るべきデータを格納したフィールドを、変更すべきフィールドとして指定する(S100)。指定部110は、既データシステム10から実データを取得する(S102)。
【0033】
図4に示す対象データ格納部18が図2に示すDB_1である場合に、指定部110は、実データを変更すべきフィールドとして、第1、第2および第5フィールドを指定する。さらに図4に示す実施形態において、指定部110は、実データを変更するために用いる置換え用マスタデータを作成すべく、顧客マスタデータベース12、住所マスタデータベース14および法人マスタデータベース16から顧客の「姓」、「名」、「住所」および「勤務地」の実データD1をそれぞれ取得する。
【0034】
高頻度データ抽出部120は、指定部110により指定された複数のフィールドのうち、例えば電話番号または郵便番号など数字情報のフィールド以外のフィールドを選択する。高頻度データ抽出部120は、選択したフィールドに格納されたデータを、フィールド内での出現の頻度順に並べ替える。高頻度データ抽出部120は、選択したフィールドにおいて並べ替えたデータから、当該フィールドで出現の頻度が高い高頻度データを、所定個数分だけ抽出する(S104)。高頻度データ抽出部120は、抽出した所定個数分のデータを、フィールドに対応付けてデータ変更部130へ出力する。
【0035】
図4に示す例において、高頻度データ抽出部120は、指定部110から実データを取得し、そのなかから、数字情報のフィールド以外のフィールドとして、「姓」および「名」のフィールドを選択する。高頻度データ抽出部120は、選択したフィールド「姓」に格納されたデータを、フィールド内での出現の頻度の高い順に、「松下」、「本田」、「田中」、…のように並べ替える。同様に高頻度データ抽出部120は、選択したフィールド「名」に格納されたデータも、出現の頻度の高い順に並べ替える。高頻度データ抽出部120は、たとえば並べ替えたデータが1000個ある場合に、並べ替えたデータにおける出現の頻度の高い方から一例として100個分の高頻度データを、「姓」および「名」のフィールドそれぞれについて抽出してもよい。図4においては、説明の簡略化のため、「姓」の高頻度データとして「松下」および「本田」の2個、および「名」の高頻度データとして「茂」および「一郎」の2個のデータが抽出された例を示す。
【0036】
データ変更部130は、指定部110から取得した実データにおいて、高頻度データ抽出部120により高頻度データが抽出されたフィールドに格納されたデータを、抽出された所定個数の高頻度データから無作為に選び出したデータに変更する(S106)。また、データ変更部130は、指定部110から取得した実データにおいて、変更すべく指定された、数字情報のフィールドに格納されたデータに含まれる文字である数字をそれぞれ、予め定められた同一の規則に基づいて変更する(S108)。データ変更部130は、変更をすべく指定されたフィールドのデータを変更した実データのそれぞれにデータ識別番号を割り振り、置換え用マスタデータを作成する(S110)。
【0037】
図4に示す例において、データ変更部130は、「姓」の高頻度データである「松下」および「本田」と、「名」の高頻度データである「茂」および「一郎」とを無作為に組み合わせ、「姓:松下、名:一郎」および「姓:本田、名:茂」のデータD2を作成する。また、データ変更部130は、数字情報のフィールドである「口座番号」において数字「1」を「3」に、「2」を「4」に入れ替える等の規則により、「口座番号」に格納されたデータ「111111」を「333333」に変更する。さらに、データ変更部130は、「住所」における番地も予め定められた規則に基づいて変更する。数字を予め定められた規則に基づいて変更することにより、変更の前後でデータの長さが保たれ、データの取扱いが容易になる。データ変更部130は、これらの「姓」、「名」、「住所」、「口座番号」および「勤務先」を無作為に組み合わせ、データ識別番号「001」を割り振り、置換え用マスタデータD3として「姓:松下、名:一郎、住所:東京都新宿区神楽坂1丁目××、口座番号:333333、勤務先:○○製作所東京都千代田区」を作成する。置換え用マスタデータ格納部17は、データ変更部130により作成された置換え用マスタデータD3を格納する。
【0038】
フィールド変更部150は、指定部110から取得した実データにおける、指定された複数のそれぞれのフィールドに対応付けて、フォーマット格納部140に格納されるそれぞれのデータ種別を読み出す。フィールド変更部150は、保持するテストデータのデータ種別と一致する実データのデータ種別に対応付けられたフィールドを、テストデータにおけるそのデータ種別に対応付けられたフィールドに変更する(S112)。フィールド変更部150は、フィールドを変更した実データを、置換え対象データとしてデータ変更部130に出力する。
【0039】
例えば、フィールド変更部150は、対象データ格納部18(図2におけるDB_1)の実データにおいて、指定された第1のフィールドに対応付けてフォーマット格納部140に格納されるデータ種別「姓」を読み出す。同様にして、フィールド変更部150は、指定された第2、第4、および第5のフィールドに対応付けて、フォーマット格納部140にそれぞれ格納されるデータ種別「名」、「部店」、および「口座番号」を読み出す。フィールド変更部150は、テストデータのデータ種別として「姓」、「名」、「部店」、および「口座番号」を保持する。フィールド変更部150は、保持するテストデータのデータ種別と一致する実データのデータ種別「部店」に対応付けられたフィールドである第4のフィールドを、テストデータにおけるデータ種別「部店」に対応付けられたフィールドである第3のフィールドに変更する。同様にして、フィールド変更部150は、データ種別「姓」、「名」、および「口座番号」についても、実データのフィールドをテストデータのフィールドに変更して、対象データ格納部18に格納されたデータに基づいた置換え対象データD4として「姓:鈴木、名:太郎、部店:010、口座番号:111111」を作成する。
【0040】
データ変更部130は、フィールド変更部150から取得した置換え対象データにおける1つのデータと、作成した置換え用マスタデータにおける1つのデータとを関連付ける(S114)。データ変更部130は、置換え対象データにおけるそれぞれのデータ種別のデータを、このデータと関連付けられた置換え用マスタデータにおいてそれと対応するデータ種別のデータに置き換えることにより、テストデータを作成する。データ変更部130は、置換え用マスタデータに割り振られたデータ識別番号に対応付けて、その置換え用マスタデータに関連付けた置換え対象データのリレーションキーをリレーションキー変更部160に出力する。
【0041】
例えば、データ変更部130は、フィールド変更部150から取得した置換え対象データD4「姓:鈴木、名:太郎、部店:010、口座番号:111111」と、作成した置換え用マスタデータD3「データ識別番号:001、姓:松下、名:一郎、住所:東京都新宿区神楽坂1丁目××、口座番号:333333、勤務先:○○製作所東京都千代田区」とを関連付ける。データ変更部130は、置換え対象データD4のデータ種別「姓」のデータ「鈴木」を、関連付けた置換え用マスタデータD3のデータ種別「姓」のデータ「松下」に置き換える。同様にして、データ変更部130は、置換え対象置換え用テストデータD5として「姓:松下、名:一郎、部店:010、口座番号:333333」を作成する。データ変更部130は、置換え用マスタデータD3に割り振られたデータ識別番号「001」に対応付けて、その置換え用マスタデータD3に関連付けた置換え対象データD4のリレーションキー部店「010」および口座番号「111111」をリレーションキー変更部160に出力する。
【0042】
リレーションキー変更部160は、データ変更部130から取得した、置換え用マスタデータのデータ識別番号に対応付けた置換え対象データのリレーションキーを格納するデータベースを生成する。リレーションキー変更部160は、複数のデータベースからデータ変更部130により取得された置換え対象データのうちで、データ識別番号と対応付けられたリレーションキーと一致するリレーションキーを有する置換え対象データを選び出す。リレーションキー変更部160は、一致していたリレーションキーに対応づけて格納するデータ識別番号を割り振られた置換え用マスタデータと、選び出した置換え対象データとを関連付ける(S116)。データ変更部130は、リレーションキーが一致した置換え対象データを、リレーションキー変更部160によって関連付けられた置換え用マスタデータで置き換えることにより、同一の規則に基づいてリレーションキーを変更してテストデータを作成する(S118)。データ変更部130は、作成したテストデータを新データベースシステム20に出力する(S120)。以上で本フローチャートは終了する。
【0043】
例えば、リレーションキーが「口座番号」である場合に、リレーションキー変更部130は、置換え用マスタデータD3の「識別番号:001」およびこれに対応付けて置換え対象データD4のリレーションキーとして「口座番号:111111」を格納する。さらに、リレーションキー変更部130は、複数のデータベースに格納された置換え対象データD4のうちで、「口座番号:111111」を有する置換え対象データD4を選び出す。上述の例において、リレーションキー変更部160は、選び出した置換え対象データD4のすべての口座番号を、置換え用マスタデータD3の識別番号「001」における口座番号を参照することにより、同一の「口座番号:333333」に置き換えることによりテストデータD5を作成する。
【0044】
以上により、テストデータ生成装置100は、実データに秘匿性がある場合であっても、実データを置き換えたテストデータを作成するので、実データの秘匿性を保ちつつ、実データと同様のもしくはそれ以上の多様なテストデータを作成することができる。また、新データベースシステム20が処理すべき可能性のある多様なデータに対応したテストデータを、複数データ間の整合性を保ちつつ、容易かつ迅速に作成することができる。
【0045】
なお、テストデータ生成装置100をコンピュータにより構成し、このコンピュータを上記の指定部110、高頻度データ抽出部120、データ変更部130、フォーマット格納部140、フィールド変更部150、および、リレーション変更部160として動作させるプログラムをインストールし、コンピュータにこれらの各部110から160の機能を発揮させる構成としてもよい。
【0046】
以上、本発明を実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更または改良を加えることができる。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【図面の簡単な説明】
【図1】テストデータ生成システム200の機能構成を示すブロック図である。
【図2】フォーマット格納部140のデータフォーマットの一例である。
【図3】テストデータ生成装置100の動作の一例を示すフローチャートである。
【図4】実データを置き換えることにより作成されるテストデータの例を示す説明図である。
【符号の説明】
10 既データベースシステム
12 顧客マスタデータベース
14 住所マスタデータベース
16 法人マスタデータベース
17 置換えマスタデータ格納部
18 対象データ格納部
20 新データベースシステム
100 テストデータ生成装置
110 指定部
120 高頻度データ抽出部
130 データ変更部
140 フォーマット格納部
150 フィールド変更部
160 リレーションキー変更部
200 テストデータ生成システム

Claims (7)

  1. 既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するテストデータ生成装置であって、
    前記実データの中の変更をすべき複数のフィールドを指定する指定部と、
    前記指定部で指定された前記複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出する高頻度データ抽出部と、
    前記高頻度データ抽出部により抽出された、前記複数のフィールドのそれぞれにおける前記高頻度データの組み合わせによって、前記複数のフィールドの前記実データを置き換えることにより前記テストデータを作成するデータ変更部と
    を備えたテストデータ生成装置。
  2. 前記既に利用されていたデータベースシステムおよび前記新たなデータベースシステムは、複数のデータベースのデータをリレーションキーで対応付けたリレーショナルデータベースシステムであり、
    前記複数のデータベースの各々の前記実データに含まれる、各フィールドのデータ種別を格納するフォーマット格納部と、
    前記フォーマット格納部に格納された前記データ種別を参照することにより、前記複数のデータベースの、前記指定部により指定された前記フィールドを変更するフィールド変更部と
    を更に備え、
    前記データ変更部は、前記フィールド変更部により変更された前記フィールドの前記実データを置き換えることにより前記テストデータを作成する請求項1に記載のテストデータ生成装置。
  3. 前記複数のデータベースに含まれる同一の前記データ種別の前記リレーションキーを、同じ規則で変更するリレーションキー変更部を更に備えた請求項2に記載のテストデータ生成装置。
  4. 前記高頻度データ抽出部は、前記指定部で指定された前記複数のフィールドのそれぞれにおいて、前記実データにおける当該フィールド内でのデータの出現頻度を検出し、当該フィールドで出現頻度が高いほうにある複数の高頻度データを抽出する請求項1に記載のテストデータ生成装置。
  5. 前記データ変更部は、前記実データに含まれる各文字を、予め定められた同一の規則に基づいて変更する請求項1に記載のテストデータ生成装置。
  6. 既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するテストデータ生成方法であって、
    前記実データの中の変更をすべき複数のフィールドを指定し、
    指定された前記複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出し、
    抽出された、前記複数のフィールドのそれぞれにおける前記高頻度データの組み合わせによって、前記複数のフィールドの前記実データを置き換えることにより前記テストデータを作成する
    テストデータ生成方法。
  7. 既に利用されていたデータベースシステムの実データを用いて、新たなデータベースシステムの動作を検証するために用いるテストデータを生成するコンピュータ用のプログラムであって、前記コンピュータを
    前記実データの中の変更をすべき複数のフィールドを指定する指定手段、
    前記指定手段で指定された前記複数のフィールドのそれぞれにおいて、当該フィールドで他のデータより高い頻度で出現する高頻度データを抽出する高頻度データ抽出手段、および、
    前記高頻度データ抽出手段により抽出された、前記複数のフィールドのそれぞれにおける前記高頻度データの組み合わせによって、前記複数のフィールドの前記実データを置き換えることにより前記テストデータを作成するデータ変更手段として機能させるプログラム。
JP2003121399A 2003-04-25 2003-04-25 テストデータ生成装置、テストデータ生成方法およびプログラム Pending JP2004326510A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003121399A JP2004326510A (ja) 2003-04-25 2003-04-25 テストデータ生成装置、テストデータ生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003121399A JP2004326510A (ja) 2003-04-25 2003-04-25 テストデータ生成装置、テストデータ生成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2004326510A true JP2004326510A (ja) 2004-11-18

Family

ID=33499981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003121399A Pending JP2004326510A (ja) 2003-04-25 2003-04-25 テストデータ生成装置、テストデータ生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2004326510A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293830A (ja) * 2006-03-30 2007-11-08 Japan Research Institute Ltd テストデータ生成システム、そのプログラム、その記録媒体、及びテストデータ生成方法
JP2008065687A (ja) * 2006-09-08 2008-03-21 Fujitsu Ltd テストデータ作成装置
WO2008114452A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 模擬処理装置、模擬処理システム及びコンピュータプログラム
JP2010277481A (ja) * 2009-05-29 2010-12-09 Ntt Data Corp 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム
US9310722B2 (en) 2011-03-18 2016-04-12 Ricoh Company, Limited Image forming apparatus and image forming method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293830A (ja) * 2006-03-30 2007-11-08 Japan Research Institute Ltd テストデータ生成システム、そのプログラム、その記録媒体、及びテストデータ生成方法
JP2008065687A (ja) * 2006-09-08 2008-03-21 Fujitsu Ltd テストデータ作成装置
WO2008114452A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 模擬処理装置、模擬処理システム及びコンピュータプログラム
JP4998552B2 (ja) * 2007-03-20 2012-08-15 富士通株式会社 模擬処理装置、模擬処理システム及びコンピュータプログラム
JP2010277481A (ja) * 2009-05-29 2010-12-09 Ntt Data Corp 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム
US9310722B2 (en) 2011-03-18 2016-04-12 Ricoh Company, Limited Image forming apparatus and image forming method
US9563153B2 (en) 2011-03-18 2017-02-07 Ricoh Company, Ltd. Image forming apparatus and image forming method
US10088781B2 (en) 2011-03-18 2018-10-02 Ricoh Company, Ltd. Image forming apparatus and image forming method

Similar Documents

Publication Publication Date Title
AU2018237533B2 (en) Configurable annotations for privacy-sensitive user content
JP2718881B2 (ja) トークン識別システム
JP2023011632A (ja) 構造化ユーザーデータファイル内のユーザーコンテンツの難読化
JP4875958B2 (ja) 文書管理システム
CN101464894B (zh) 数据查询方法和系统
US20030182568A1 (en) Method and system for storing and retrieving data using hash-accessed multiple data stores
JPH02151961A (ja) フアイル処理方法
CN102541529A (zh) 一种查询页面生成装置和方法
US6622248B1 (en) File data retrieving device and recording medium containing computer program for controlling the same
US7152693B2 (en) Password security utility
US6928438B2 (en) Culturally correct ordering of keyed records
CN106777258B (zh) 一种医疗大数据存储中Hbase行键的编码及压缩方法
US8538013B2 (en) Rules-driven hash building
CN106250476B (zh) 一种更新和同步白名单的方法、装置和系统
US7664731B2 (en) Method and system for storing and retrieving data using hash-accessed multiple data stores
JP2004326510A (ja) テストデータ生成装置、テストデータ生成方法およびプログラム
JP2011034264A (ja) 個人情報マスキングシステム
CN109542899A (zh) 一种基于靶符号的数据自动录入方法及系统
JP2009239839A (ja) グループ暗号通信における鍵管理方法、及び、鍵管理プログラム
CN110737644A (zh) 客户信息整合的方法、装置及计算机可读存储介质
GB2366405A (en) Property storage for database structures
US20090049015A1 (en) Data management device and terminal device
CN107181715B (zh) 一种业务校验方法和装置
JP2011053874A (ja) アプリケーションサーバ、オブジェクト管理方法およびオブジェクト管理プログラム
CN114970464A (zh) 用于标识生成的方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204