JP3514193B2 - Surname data generation device - Google Patents

Surname data generation device

Info

Publication number
JP3514193B2
JP3514193B2 JP36381399A JP36381399A JP3514193B2 JP 3514193 B2 JP3514193 B2 JP 3514193B2 JP 36381399 A JP36381399 A JP 36381399A JP 36381399 A JP36381399 A JP 36381399A JP 3514193 B2 JP3514193 B2 JP 3514193B2
Authority
JP
Japan
Prior art keywords
character string
data
prohibition
surname
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36381399A
Other languages
Japanese (ja)
Other versions
JP2001175684A (en
Inventor
美知雄 鍵井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP36381399A priority Critical patent/JP3514193B2/en
Publication of JP2001175684A publication Critical patent/JP2001175684A/en
Application granted granted Critical
Publication of JP3514193B2 publication Critical patent/JP3514193B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、システム開発時に
データベースで用いる架空の姓データを発生する姓デー
タの生成装置に関する技術に属する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique relating to a surname data generation device for generating fictitious surname data used in a database during system development.

【0002】[0002]

【従来の技術】従来、データベースを有するシステムを
テストする場合、個人に関するテストデータを生成する
場合、数値データについては、統計データ等から作成
し、個人名については、辞書に入っている個人名の候補
を表示し、開発者が選択入力したり、選択された個人名
を変換して使用するなどが行われている。
2. Description of the Related Art Conventionally, when testing a system having a database, when generating test data for an individual, numerical data is created from statistical data and the like, and an individual name is stored in a dictionary. The candidates are displayed, and the developer selects and inputs them, or the selected personal name is converted and used.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来技
術には以下に掲げる問題点があった。少量の個人名の生
成は、開発者によるデータ入力で容易にできるが、多量
の個人名を生成する場合、特に生成された個人名におけ
る姓について、多量に生成された姓データは出現する回
数分布などが現実の頻出姓とかけ離れ、作成されたデー
タベースに現実性がなく、また、現実性を持たせた姓デ
ータについては、もとのデータを類推できてしまうとい
う問題点があった。
However, the prior art has the following problems. Generating a small number of personal names can be easily done by the data input by the developer, but when generating a large number of personal names, especially for surnames in the generated personal names, a large number of surname data occurrence distributions However, there is a problem that the created database is not realistic, and the created surname data is not realistic, and the surname data that is realistic can be inferred from the original data.

【0004】本発明は斯かる問題点を鑑みてなされたも
のであり、その目的とするところは、システムテストで
使用される個人名における姓データを、頻出度の高い姓
を利用して現実の分布に近似させることと、文字列の組
合せとから容易に生成し、この姓データを用いたテスト
結果を開示してもトラブルが生じない姓データの生成装
に関する技術を提供する点にある。
The present invention has been made in view of such problems, and an object of the present invention is to make the surname data of an individual name used in a system test practical by using surnames having a high frequency. and thereby approximates a distribution, and easily produced from a combination of character strings, generating instrumentation surname data that does not cause any trouble discloses the test results using the last name data
The point is to provide the technology for storage .

【0005】[0005]

【課題を解決するための手段】請求項1記載の本発明の
要旨は、システム開発でのテストデータなどに使用する
姓データの生成装置であって、乱数を発生させ、ランダ
ムな値を取得するための乱数発生手段と、入力手段を介
して、前記姓データを生成するため、一般の印刷物にて
頻出度の高い複数の頻出姓と、組合せのための複数の文
字列と、該文字列の組合せで生成した前記姓データを除
外するための所定の禁則を有する禁則テーブルとが登録
される記憶手段と、前記乱数発生手段による第2の乱数
の値を、小さくなるに従い分布の数が多くなるように近
似処理を施して補正し、現実の分布に近似させ、前記頻
出姓から、補正された値に対応する頻出姓を取得して姓
データを生成する頻出姓生成部と、前記乱数発生手段に
よる第3の乱数の値と第4の乱数の値に各々対応する前
記文字列の組合せにより前記姓データを生成し、前記姓
データを生成する毎に生成件数に1を加算する組合せ姓
生成部とを有し、生成された前記データを出力手段を介
して出力する姓生成手段と、前記頻出姓に基づく前記姓
データと前記文字列の組合せに基づく前記姓データとが
生成される所定の比率を定める設定値と前記乱数発生手
段が発生する第1の乱数とに基づき、前記頻出姓に基づ
く前記姓データの生成処理と前記文字列の組合せに基づ
く前記姓データの生成処理とを振分ける処理振分け手段
と、前記文字列の組合せにより前記姓データを生成する
とき、前記禁則テーブルが有する禁則を参照して禁則チ
ェックを行う禁則チェック手段とを備えることを特徴と
する姓データの生成装置に存する。請求項2記載の本発
明の要旨は、前記記憶手段は、人名辞書や印刷物などで
検索され、頻出度の高い前記頻出姓を頻出順にソートし
て登録される頻出姓テーブルと、組合せにより生成され
る前記姓データを構成する前記文字列である、前記姓デ
ータの上位に位置する1つの文字、又は、文字列の上位
文字列と、前記姓データの下位に位置する1つの文字、
又は、文字列の下位文字列とが登録される文字列テーブ
ルと、前記文字列を前記上位文字列として登録すると
き、所定の文字列を除外するための、文字の組合せであ
る第1の禁則と、前記文字列を前記下位文字列として登
録するとき、所定の文字列を除外するための、文字の組
合せである第2の禁則と、前記上位文字列と前記下位文
字列とを組合せて前記姓データを生成するとき、所定の
上位文字列と下位文字列との組合せによる前記姓データ
を除外し、前記上位文字列に付加された第1の属性と前
記下位文字列に付加された第2の属性との所定の組合せ
を除外するための第3の禁則とが登録される禁則テーブ
ルとを備えることを特徴とする請求項1記載の姓データ
の生成装置に存する。請求項3記載の本発明の要旨は、
前記禁則チェック手段は、前記文字列を前記上位文字列
として前記記憶手段に登録するとき、前記禁則テーブル
の前記第1の禁則を参照して、該当する文字の組合せと
なる前記文字列を登録から除外し、前記文字列を前記下
位文字列として前記記憶手段に登録するとき、前記禁則
テーブルの前記第2の禁則を参照して、該当する文字の
組合せとなる前記文字列を登録から除外し、前記組合せ
姓生成部で前記上位文字列と前記下位文字列とを組合せ
て前記姓データを生成するとき、前記禁則テーブルの前
記第3の禁則を参照して、該当する前記上位文字列と前
記下位文字列との組合せによる前記姓データの生成を除
外し、前記禁則テーブルの前記第3の禁則を参照して、
前記上位文字列に付加された第1の属性と前記下位文字
列に付加された第2の属性との組合せが該当する場合、
前記姓データの生成を除外することを特徴とする請求項
1又は2記載の姓データの生成装置に存する。
SUMMARY OF THE INVENTION The gist of the present invention according to claim 1 is a surname data generation device used for test data or the like in system development, in which a random number is generated to obtain a random value. In order to generate the surname data via a random number generating means and an input means, a plurality of frequent surnames having a high frequency in general printed matter, a plurality of character strings for combination, and a plurality of character strings A storage means in which a prohibition table having a predetermined prohibition for excluding the surname data generated by combination is registered, and the value of the second random number generated by the random number generating means decreases, the number of distributions increases. And a random number generation means for generating a family name data by acquiring a family name data corresponding to the corrected value from the frequent family name, and approximating it to an actual distribution. Of the third random number And a combination surname generation unit that generates the surname data by a combination of the character strings respectively corresponding to the values of the fourth random numbers, and adds 1 to the number of generations each time the surname data is generated. The surname generation means for outputting the data via the output means, and the set value and the random number for setting a predetermined ratio at which the surname data based on the combination of the surname data based on the frequent surname and the character string are generated. A processing distribution means for distributing the surname data generation processing based on the frequent surname and the surname data generation processing based on the character string combination based on the first random number generated by the generation means; and the character string. The surname data generation device is characterized by further comprising prohibition checking means for performing a prohibition check with reference to the prohibition included in the prohibition table when the surname data is generated by the combination. The gist of the present invention according to claim 2 is that the storage means is generated by a combination with a frequent family name table that is searched by a personal name dictionary, printed matter, or the like, and is registered by sorting the frequent family names with high frequency in order of frequency. One character located above the surname data, which is the character string forming the surname data, or an upper character string of the character string, and one character located below the surname data,
Alternatively, a character string table in which a lower character string of a character string is registered, and a first prohibition rule that is a combination of characters for excluding a predetermined character string when registering the character string as the upper character string And when registering the character string as the lower character string, a second prohibition that is a combination of characters for excluding a predetermined character string, and combining the upper character string and the lower character string, When the surname data is generated, the surname data that is a combination of a predetermined upper character string and a lower character string is excluded, and the first attribute added to the upper character string and the second attribute added to the lower character string. The surname data generating apparatus according to claim 1, further comprising: a prohibition table in which a third prohibition for excluding a predetermined combination with the attribute of. The gist of the present invention according to claim 3 is
When registering the character string as the higher-order character string in the storage means, the prohibition checking unit refers to the first prohibition in the prohibition table to register the character string that is a combination of corresponding characters. When excluding and registering the character string in the storage unit as the lower character string, refer to the second prohibition rule in the prohibition table to exclude the character string that is a combination of the corresponding characters from registration. When the surname data is generated by combining the higher-order character string and the lower-order character string in the combined surname generation unit, referring to the third prohibition rule in the prohibition table, the corresponding higher-order character string and the lower-order character string are referred to. Excluding the generation of the surname data by combination with a character string, referring to the third prohibition in the prohibition table,
When the combination of the first attribute added to the upper character string and the second attribute added to the lower character string is applicable,
Claims, characterized in that to exclude generation of the last name data
It exists in the surname data generation device described in 1 or 2 .

【0006】[0006]

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。図1に示すように、本実施
の形態に係る姓データの生成装置は、入力手段5と乱数
発生手段10と記憶手段20と姓生成手段30と処理振
分け手段40と禁則チェック手段50と出力手段60と
で概略構成される。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described in detail below with reference to the drawings. As shown in FIG. 1, the surname data generation device according to the present embodiment is provided with an input unit 5, a random number generation unit 10, a storage unit 20, a surname generation unit 30, a process distribution unit 40, a prohibition checking unit 50, and an output unit. And 60.

【0007】入力手段5は、必要とする姓データを生成
するため、予めテーブル等のデータを記憶手段20に登
録するために用いられる。乱数発生手段10は、乱数を
発生してランダムな値を取得する。ここでは、第1の乱
数と第2の乱数と第3の乱数と第4の乱数とを発生す
る。
The input means 5 is used for registering data such as a table in advance in the storage means 20 in order to generate necessary family name data. The random number generation means 10 generates a random number and acquires a random value. Here, the first random number, the second random number, the third random number, and the fourth random number are generated.

【0008】記憶手段20は、頻出姓テーブル22と文
字列テーブル23と禁則テーブル26とを有する。頻出
姓テーブル22には、人名辞書や印刷物などで検索され
る複数の姓が頻出順にソートして登録される。文字列テ
ーブル23には、複数の上位文字列24と複数の下位文
字列25とが登録される。上位文字列24は、組合せで
生成される姓データの上位を構成し、下位文字列25は
下位を構成する。上位文字列24には、第1の属性が付
加され、下位文字列25には、第2の属性が付加され
る。また、上位文字列24及び下位文字列25は、とも
に文字、又は、文字列を意味する。本実施の形態では、
この文字列は2文字として説明をする。
The storage means 20 has a frequent family name table 22, a character string table 23, and a prohibition table 26. In the frequent family name table 22, a plurality of family names searched by a personal name dictionary, printed matter, etc. are sorted and registered in the order of frequent occurrence. A plurality of upper character strings 24 and a plurality of lower character strings 25 are registered in the character string table 23. The high-order character string 24 constitutes the high-order of the family name data generated by the combination, and the low-order character string 25 constitutes the low-order. A first attribute is added to the upper character string 24, and a second attribute is added to the lower character string 25. Further, the upper character string 24 and the lower character string 25 both mean a character or a character string. In this embodiment,
This character string will be described as two characters.

【0009】禁則テーブル26は、第1の禁則27と第
2の禁則28と第3の禁則29とを有する。第1の禁則
27は、上位文字列24を登録するとき、所定の文字列
を除外するための、文字の組合せが登録される。第2の
禁則28は、下位文字列25を登録するとき、所定の文
字列を除外するための、文字の組合せが登録される。第
3の禁則29は、上位文字列24と下位文字列25とを
組合せて姓データを生成するとき、所定の文字列の組合
せによる姓データを除外するための、上位文字列24及
び下位文字列25の組合せと、第1の属性及び第2の属
性の組合せとが登録される。
The prohibition table 26 has a first prohibition 27, a second prohibition 28, and a third prohibition 29. In the first prohibition rule 27, a combination of characters for excluding a predetermined character string when registering the upper character string 24 is registered. In the second prohibition rule 28, when a lower character string 25 is registered, a combination of characters for excluding a predetermined character string is registered. The third prohibition rule 29 is that when the surname data is generated by combining the high-order character string 24 and the low-order character string 25, the high-order character string 24 and the low-order character string for excluding the surname data by a predetermined combination of character strings. 25 combinations and combinations of the first attribute and the second attribute are registered.

【0010】姓生成手段30は、頻出姓生成部32と組
合せ姓生成部36とを有し、生成された姓データを出力
手段60に送出する。
The surname generation means 30 has a frequent surname generation section 32 and a combination surname generation section 36, and sends the generated surname data to the output means 60.

【0011】頻出姓生成部32は、乱数発生手段10に
よる第2の乱数の値を、値が小さくなるに従い、値の分
布が多くなるように近似処理を施して補正し、現実の分
布に近似させ、登録された頻出姓テーブル22から、補
正により得られた値に対応する頻出姓を取得して姓デー
タを生成し、生成件数に1を加算する。
The frequent family name generation unit 32 corrects the value of the second random number generated by the random number generation means 10 by performing an approximation process so that the distribution of values increases as the value decreases, and approximates to the actual distribution. Then, the frequent family name corresponding to the value obtained by the correction is acquired from the registered frequent family name table 22, the family name data is generated, and 1 is added to the generated number.

【0012】組合せ姓生成部36は、乱数発生手段10
による第3の乱数の値に対応する上位文字列24と第4
の乱数の値に対応する下位文字列25との組合せにより
姓データを生成し、生成件数に1を加算する。
The combination family name generation unit 36 uses the random number generation means 10
4 and the upper character string 24 corresponding to the value of the third random number
The surname data is generated by combination with the lower character string 25 corresponding to the random number value of, and 1 is added to the number of generated cases.

【0013】処理振分け手段40は、予め設定された設
定値と乱数発生手段10による第1の乱数とを比較する
ことで、頻出姓生成部32での処理と組合せ姓生成部3
6での処理とを振分ける。
The processing distribution means 40 compares the preset value with the first random number generated by the random number generation means 10 to perform the processing in the frequent family name generation section 32 and the combined family name generation section 3
The process in 6 is distributed.

【0014】禁則チェック手段50は、上位文字列24
を登録するとき、第1の禁則27を参照して該当する文
字列を除外し、下位文字列25とを登録するとき、第2
の禁則28を参照して、該当する文字列を除外し、組合
せ姓生成部36で姓データを生成するとき、第3の禁則
29を参照して該当する上位文字列24と下位文字列2
5との組合せと、第1の属性と第2の属性の組合せとに
該当する組合せによる姓データを除外する。
The prohibition checking means 50 is used for the upper character string 24.
When registering, the corresponding character string is excluded by referring to the first prohibition rule 27, and when registering the lower character string 25,
When the combination surname generation unit 36 generates surname data by excluding the corresponding character string by referring to the prohibition 28 of No. 28, the corresponding upper character string 24 and the lower character string 2 are referred by referring to the third prohibition 29.
The surname data by the combination corresponding to the combination of 5 and the combination of the first attribute and the second attribute is excluded.

【0015】出力手段60は、姓生成手段30から送出
された姓データを出力する。
The output means 60 outputs the surname data sent from the surname generation means 30.

【0016】図2は、図1の処理の流れを示すフローチ
ャート図である。図2を参照して姓データの生成装置の
動作を説明する。
FIG. 2 is a flow chart showing the process flow of FIG. The operation of the surname data generation device will be described with reference to FIG.

【0017】まず、生成された姓の生成件数と所要件数
との比較を行い(図中に「所要件数生成されたか」で示
す)、生成件数が所要件数より小さい(図中「No」
の)場合、処理を続ける(ステップS101)。
First, the number of generated surnames is compared with the required number of places (indicated by "whether the required number of places has been generated" in the figure), and the generated number is smaller than the required number of numbers ("No" in the figure).
In the case of), the processing is continued (step S101).

【0018】生成する姓を一件毎に頻出姓に基づき生成
するのか、文字列の組合せにより生成するのかの処理を
振分けるため、乱数発生手段10により第1の乱数を発
生する(ステップS102)。この第1の乱数は、0か
ら1未満の値をとる。
The first random number is generated by the random number generation means 10 in order to distribute the processing to generate the family name on a case-by-case basis based on the frequent family name or the combination of character strings (step S102). . This first random number takes a value from 0 to less than 1.

【0019】発生した第1の乱数が、予め設定された設
定値より大きい/以上かどうか(図中「設定値より大き
いか」で示す)を比較する(ステップS103)。ここ
で、設定値は、頻出姓生成の処理と組合せ姓生成の処理
とで発生する比率が目的とする振分け比率となるように
設定する。
It is compared whether or not the generated first random number is larger / greater than or equal to a preset setting value (indicated by "is it greater than the setting value" in the figure) (step S103). Here, the set value is set so that the ratio generated in the frequent surname generation process and the combined surname generation process is the target distribution ratio.

【0020】発生した第1の乱数が設定値以下の/より
小さい(図中「No」の)場合、頻出姓生成の処理を行
い(ステップS104)、ステップS101に戻る。
When the generated first random number is equal to or smaller than the set value (less than "No" in the figure), the process of generating the frequent family name is performed (step S104), and the process returns to step S101.

【0021】ステップS104の処理を説明する。ま
ず、乱数の発生を行う(ステップS201)。この乱数
を第2の乱数とする。
The processing of step S104 will be described. First, a random number is generated (step S201). This random number is the second random number.

【0022】第2の乱数は均等分布であるため、第2の
乱数の値を補正して、値の分布を現実の分布に近似させ
る(ステップS202)。
Since the second random number has a uniform distribution, the value of the second random number is corrected to approximate the value distribution to the actual distribution (step S202).

【0023】頻出姓テーブル22から、補正により得ら
れた値に対応する頻出姓を取得(図中「表から姓を取
得」で示す)する(ステップS203)。
The frequent family name corresponding to the value obtained by the correction is acquired from the frequent family name table 22 (indicated by "acquire family name from table" in the figure) (step S203).

【0024】生成件数に1を加算し(ステップS20
4)、ステップS101の処理に戻る。
1 is added to the number of generated items (step S20
4) and returns to the process of step S101.

【0025】ステップS103において、第1の乱数が
設定値より大きい/以上の(図中「Yes」の)場合、
組合せ姓生成の処理を行う(ステップS105)。
In step S103, if the first random number is greater than / greater than the set value ("Yes" in the figure),
A combined surname generation process is performed (step S105).

【0026】以下、ステップS105の処理を説明す
る。まず、0から100未満の乱数を1組(2つ)発生
(図中「乱数の組を発生」で示す)する(ステップS2
11)。この1組の乱数を第3の乱数と第4の乱数とす
る。
The process of step S105 will be described below. First, one set (two sets) of random numbers from 0 to less than 100 is generated (indicated by "generate a set of random numbers" in the figure) (step S2).
11). This set of random numbers is referred to as a third random number and a fourth random number.

【0027】文字列テーブル23からステップS211
で得られた第3の乱数の値に対応する上位文字列24を
取得し、次に文字列テーブル23から第4の乱数の値に
対応する下位文字列25を取得(図中「表から文字列の
組を取得」で示す)する(ステップS212)。
From the character string table 23 to step S211
The upper-order character string 24 corresponding to the value of the third random number obtained in step 3 is acquired, and then the lower-order character string 25 corresponding to the value of the fourth random number is acquired from the character string table 23. The column set is acquired ") (step S212).

【0028】禁則テーブル26を参照して禁則チェック
を行い、生成した姓データが第3の禁則29に該当する
かどうか判断(図中「禁則チェック」で示す)する(ス
テップS213)。
A prohibition check is performed by referring to the prohibition table 26, and it is determined whether or not the generated surname data corresponds to the third prohibition 29 (indicated by "prohibition check" in the figure) (step S213).

【0029】第3の禁則29に該当しない(図中「N
o」の)場合、生成件数に1を加算(ステップS21
4)し、ステップS101の制御に戻る。
Does not correspond to the third prohibition rule 29 ("N in the figure
In case of “o”), 1 is added to the number of generated items (step S21).
4) and returns to the control of step S101.

【0030】ステップ213において、第3の禁則29
に該当する(図中「Yes」の)場合、生成した姓デー
タを除外して、ステップS211の処理に戻る。
In step 213, the third prohibition 29
If it corresponds to (Yes in the figure), the generated surname data is excluded, and the process returns to step S211.

【0031】ステップS101において、姓データの生
成件数が所要件数に達した(図中「Yes」の)場合、
処理を終了する。
In step S101, if the number of generated surname data has reached the required number (“Yes” in the figure),
The process ends.

【0032】(実施例)本実施の形態に係る姓データの
生成装置を用いた方法の実施例を具体的に説明する。予
め、一般の人名辞書や印刷物などで検索される姓を頻出
順にソートして頻出姓テーブル22に登録する。一例と
して、この登録件数は100件〜1000件程度とす
る。
(Example) An example of a method using the surname data generation device according to the present embodiment will be specifically described. In advance, family names searched by a general person name dictionary or printed matter are sorted in order of frequency and registered in the frequent family name table 22. As an example, the number of registrations is about 100 to 1000.

【0033】次に、データベースのテストで必要とする
姓データの所要件数と、この姓の全体の所要件数に対し
て頻出姓テーブル22に登録された頻出姓に基づき生成
される姓データをどのような比率で生成するかの設定値
を予め設定する。例えば、必要とする姓データの所要件
数を10000件とした場合、頻出順にソートされた上
位100件の頻出姓に基づき、2000件(全体の20
%に相当)の姓データを生成すると設定する。
Next, how is the required number of surname data required for the database test and the surname data generated based on the frequent surname registered in the frequent surname table 22 for the total required number of surnames? A preset value of whether or not to generate at a different ratio is set in advance. For example, if the required number of surname data is 10,000, then 2000 (based on the top 100 most frequent surnames sorted in order of frequency)
Set to generate surname data (equivalent to%).

【0034】次に、文字列の組合せによる姓データを生
成するため、文字列テーブル23に、複数の上位文字列
24と複数の下位文字列25とを登録する。上位文字列
24は、組合せで生成される姓データの上位を構成し、
下位文字列25は、下位を構成する。上位文字列24に
は、第1の属性を付加し、下位文字列25には、第2の
属性を付加する。また、上位文字列24及び下位文字列
25は、ともに1つの文字、又は、文字列を意味する。
Next, in order to generate surname data by combining character strings, a plurality of upper character strings 24 and a plurality of lower character strings 25 are registered in the character string table 23. The high-order character string 24 constitutes the high-order of the surname data generated by the combination,
The lower character string 25 constitutes the lower order. A first attribute is added to the upper character string 24, and a second attribute is added to the lower character string 25. The upper character string 24 and the lower character string 25 both mean one character or a character string.

【0035】禁則テーブル26は、第1の禁則27と第
2の禁則28と第3の禁則29とを有する。第1の禁則
27は、上位文字列24を登録するとき、所定の文字列
を除外するための、文字の組合せを登録する。第2の禁
則28は、下位文字列25を登録するとき、所定の文字
列を除外するための、文字の組合せを登録する。
The prohibition table 26 has a first prohibition rule 27, a second prohibition rule 28, and a third prohibition rule 29. The first prohibition rule 27 registers a combination of characters for excluding a predetermined character string when registering the upper character string 24. The second prohibition rule 28 registers a combination of characters for excluding a predetermined character string when registering the lower character string 25.

【0036】この登録の際、第1の禁則27を参照して
禁則チェックを行い、「佐々」の様に2文字の場合も登
録可能とするが、同じ文字の連続については上位文字列
24から除外する。登録された各々の文字又は文字列に
は、JISなどのように統一されたコードと、第1の属
性(生物/無生物・有形/無形・人造物/非人造物/数
詞/色/方向/時間/関係/地形/その他(下にブラン
クはこない等))とを付加する。
At the time of this registration, the prohibition check is performed with reference to the first prohibition rule 27, and even if there are two characters such as "Sasa", registration is possible. exclude. Each registered character or character string has a unified code such as JIS and the first attribute (biological / inanimate / tangible / intangible / artificial / non-artificial / numerical / color / direction / time / Relationship / Topography / Others (no blank below).

【0037】次に、第2の禁則28を参照して禁則チェ
ックを行い、「河原」の様に2文字の場合も登録可能と
するが、同じ文字の連続については下位文字列25から
除外する。登録された各々の文字には、JISなどのよ
うに統一されたコードと第2の属性(生物/無生物・有
形/無形・人造物/非人造物/数詞/色/方向/時間/
関係等)とを付加する。登録件数は一例として、上位文
字列24、下位文字列25ともに100〜500件程度
とする。
Next, a prohibition check is performed with reference to the second prohibition rule 28, and even if there are two characters such as "Kawara", registration is possible, but the same character sequence is excluded from the lower character string 25. . Each registered character has a unified code such as JIS and a second attribute (biological / inanimate / tangible / intangible / artificial / non-artificial / numerical / color / direction / time /
(Relationship etc.) and. As an example, the number of registered cases is about 100 to 500 for both the upper character string 24 and the lower character string 25.

【0038】第3の禁則は、上位文字列24と下位文字
列25とを組合せて姓データを生成するとき、所定の文
字列の組合せによる姓データを除外するための、上位文
字列24及び下位文字列25の組合せと、第1の属性及
び第2の属性の組合せとを登録する。
The third prohibition is that, when the surname data is generated by combining the upper character string 24 and the lower character string 25, the upper character string 24 and the lower character string for excluding the surname data by a predetermined combination of character strings. The combination of the character string 25 and the combination of the first attribute and the second attribute are registered.

【0039】次に、必要とする姓データである頻出姓と
組合せ姓の生成を開始する。生成された姓データの生成
件数と所要件数との比較を行い、処理の続行か処理の終
了かを判断する(ステップS101)。ここで、最初に
姓データが生成されるときは、まだ生成件数が0のた
め、生成件数<所要件数となるため姓データの生成を行
う。生成件数=所要件数となれば処理を終了する。
Next, the generation of frequent surnames and combined surnames, which are required surname data, is started. The generated number of generated surname data is compared with the required number of places to determine whether to continue the process or to end the process (step S101). Here, when the surname data is first generated, since the number of generations is still 0, the number of generations is smaller than the required number, so the surname data is generated. When the number of generated items = the number of required places, the processing is ended.

【0040】姓データ一件毎に、頻出姓生成の処理を行
うのか、組合せ姓生成の処理を行うのかを振分けるた
め、0から1未満の第1の乱数を発生する(ステップS
102)。
A first random number from 0 to less than 1 is generated in order to determine whether to process the frequent family name or the combined family name for each family name data (step S).
102).

【0041】発生した第1の乱数が設定値より大きい/
以上かどうかを比較する(ステップS103)。ここ
で、設定値は、頻出姓生成の処理と組合せ姓生成の処理
との比率が目的とする振分け比率となるように予め設定
してある。この例の場合、発生した第1の乱数が0.2
0より小さい場合、頻出姓生成の処理を行い、約200
0件が頻出姓に基づく姓データとなる。
The generated first random number is larger than the set value /
It is compared whether it is the above (step S103). Here, the set value is set in advance such that the ratio between the frequent family name generation process and the combined family name generation process is the target distribution ratio. In this example, the generated first random number is 0.2
If it is less than 0, the frequent surname generation process is performed and about 200
Zero cases are surname data based on frequent surnames.

【0042】発生した第1の乱数が設定値以下の/より
小さい場合、頻出姓生成の処理を行う(ステップS10
4)。
If the generated first random number is less than or equal to the set value / less than the set value, the process of generating a frequent family name is performed (step S10).
4).

【0043】以下、ステップS104の処理の詳細を説
明する。まず、乱数の発生を行う。一例として、1から
500未満の乱数を発生させる(ステップS201)。
The details of the processing in step S104 will be described below. First, a random number is generated. As an example, a random number of 1 to less than 500 is generated (step S201).

【0044】この乱数を第2の乱数とする。第2の乱数
は均等分布であるため、第2の乱数の値を下に凸の関数
(値が小さくなるに従い発生数が多くなる)に代入し小
さい値が多く分布するように補正して、現実の分布に近
似させる(ステップS202)。一例として、以下の関
数に代入することにより現実の分布に近似させる。発生
する第2の乱数の値Rを0から500未満とした場合、
関数を以下に示す。 (0.000017/125)R^3+(0.007/
25)R^2+(0.13/5)R この補正により得られる値は0〜99の値となる。
Let this random number be the second random number. Since the second random number has a uniform distribution, the value of the second random number is substituted into a function convex downward (the number of occurrences increases as the value decreases), and correction is performed so that small values are distributed, The distribution is approximated to the actual distribution (step S202). As an example, it is approximated to the actual distribution by substituting the following function. When the value R of the generated second random number is 0 to less than 500,
The functions are shown below. (0.000017 / 125) R ^ 3 + (0.007 /
25) R ^ 2 + (0.13 / 5) R The value obtained by this correction is a value of 0 to 99.

【0045】頻出姓テーブル22から、補正により得ら
れた値に対応する頻出姓から姓データを生成し(ステッ
プS203)、生成件数に1を加算し(ステップS20
4)、ステップS101の処理に戻る。
From the frequent family name table 22, the family name data is generated from the frequent family name corresponding to the value obtained by the correction (step S203), and 1 is added to the generated number (step S20).
4) and returns to the process of step S101.

【0046】ステップS103において、第1の乱数が
設定値より大きい/以上の場合、組合せ姓生成の処理を
行う(ステップS105)。
In step S103, if the first random number is greater than / greater than the set value, a combined family name generation process is performed (step S105).

【0047】以下、ステップS105の処理の詳細を説
明する。乱数発生手段10により、0から100未満の
乱数を1組(2つ)発生する(ステップS211)。こ
の1組の乱数を第3の乱数と第4の乱数とする。
The details of the processing in step S105 will be described below. The random number generator 10 generates one set (two) of random numbers from 0 to less than 100 (step S211). This set of random numbers is referred to as a third random number and a fourth random number.

【0048】文字列テーブル23からステップS211
で得られた第3の乱数の値に対応する上位文字列24を
取得し、次に文字列テーブル23から第4乱数の値に対
応する下位文字列25を取得する(ステップS21
2)。
From the character string table 23 to step S211
The upper character string 24 corresponding to the value of the third random number obtained in step S21 is acquired, and then the lower character string 25 corresponding to the value of the fourth random number is acquired from the character string table 23 (step S21).
2).

【0049】ここで、禁則テーブル26の第3の禁則を
参照して禁則チェックを行い、生成した姓データが第3
の禁則に該当するかどうか判断する(ステップS21
3)。この第3の禁則は、取得した1組(2つ)の文字
列が同一の文字列の場合や動物どうしが接続された場合
などを登録しておく。一例として、「河原河原」、「馬
鹿」などはこの第3の禁則に従い除外する。
Here, the prohibition check is performed by referring to the third prohibition in the prohibition table 26, and the generated surname data is the third.
It is determined whether or not the above prohibition applies (step S21)
3). In the third prohibition rule, the case where the acquired one set (two) of character strings is the same character string or the case where animals are connected to each other is registered. As an example, "Kawaragawara", "idiot", etc. are excluded according to the third prohibition.

【0050】登録された第3の禁則に該当しなければ、
姓データを採用し、生成件数に1を加算(ステップS2
14)し、ステップS101の処理に戻る。
If the registered third prohibition does not apply,
Adopt 1 family name data and add 1 to the number of generated data (step S2
14) and the process returns to step S101.

【0051】ステップ213において、第3の禁則29
に該当する場合、ステップS211の処理に戻る。
In step 213, the third prohibition 29
If the above condition applies, the process returns to step S211.

【0052】なお、本実施の形態においては、本発明は
それに限定されず、本発明を適用する上で好適な姓デー
タの生成装置に関する技術に適用することができる。
In the present embodiment, the present invention is not limited to this, and can be applied to a technique relating to a family name data generation device suitable for applying the present invention.

【0053】また、上記構成部材の数、位置、形状等は
上記実施の形態に限定されず、本発明を実施する上で好
適な数、位置、形状等にすることができる。また、禁則
テーブル26に登録される禁則を多く設定することでよ
り現実性のある姓データを生成することができる。
Further, the number, position, shape, etc. of the above-mentioned constituent members are not limited to those in the above-mentioned embodiment, and the number, position, shape, etc. suitable for carrying out the present invention can be adopted. Further, by setting a large number of prohibitions registered in the prohibition table 26, more realistic surname data can be generated.

【0054】[0054]

【発明の効果】本発明は以上のように構成されているの
で、以下に掲げる効果を奏する。システムテストで使用
する人に関する姓データを、公知のデータベースから頻
出度の高い頻出姓から抽出して、現実の姓の分布に近似
させることと、文字列を組合せることとで容易に生成で
き、また、現実の分布に近似した架空の姓データを利用
したテストデータを開示しても流用ではないため問題に
はならない。
Since the present invention is configured as described above, it has the following effects. Surname data for people used in the system test can be easily generated by extracting the surnames with high frequency from a known database, approximating the distribution of surnames in reality, and combining character strings, In addition, even if the test data that uses fictitious family name data that is close to the actual distribution is disclosed, it is not a diversion, so there is no problem.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態に係る姓データの生成装置
の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a family name data generation device according to an embodiment of the present invention.

【図2】図1の処理の流れを示すフローチャート図であ
る。
FIG. 2 is a flowchart showing the flow of processing of FIG.

【符号の説明】[Explanation of symbols]

5 入力手段 10 乱数発生手段 20 記憶手段 22 頻出姓テーブル 23 文字列テーブル 24 上位文字列 25 下位文字列 26 禁則テーブル 27 第1の禁則 28 第2の禁則 29 第3の禁則 30 姓生成手段 32 頻出姓生成部 36 組合せ姓生成部 40 処理振分け手段 50 禁則チェック手段 60 出力手段 5 Input means 10 Random number generator 20 storage means 22 Frequent family name table 23 string table 24 upper string 25 lower string 26 prohibition table 27 First Prohibition 28 Second Prohibition 29 Third Prohibition 30 Last name generation means 32 Frequent surname generator 36 Combination surname generator 40 Processing distribution means 50 Prohibition check method 60 Output means

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 170 G06F 9/06 540 G06F 11/28 340 G06F 17/21 590 JICSTファイル(JOIS)─────────────────────────────────────────────────── ─── Continuation of the front page (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/30 170 G06F 9/06 540 G06F 11/28 340 G06F 17/21 590 JISST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 システム開発でのテストデータなどに使
用する姓データの生成装置であって、 乱数を発生させ、ランダムな値を取得するための乱数発
生手段と、 入力手段を介して、前記姓データを生成するため、一般
の印刷物にて頻出度の高い複数の頻出姓と、組合せのた
めの複数の文字列と、該文字列の組合せで生成した前記
姓データを除外するための所定の禁則を有する禁則テー
ブルとが登録される記憶手段と、 前記乱数発生手段による第2の乱数の値を、小さくなる
に従い分布の数が多くなるように近似処理を施して補正
し、現実の分布に近似させ、前記頻出姓から、補正され
た値に対応する頻出姓を取得して姓データを生成する頻
出姓生成部と、前記乱数発生手段による第3の乱数の値
と第4の乱数の値に各々対応する前記文字列の組合せに
より前記姓データを生成し、前記姓データを生成する毎
に生成件数に1を加算する組合せ姓生成部とを有し、生
成された前記データを出力手段を介して出力する姓生成
手段と、 前記頻出姓に基づく前記姓データと前記文字列の組合せ
に基づく前記姓データとが生成される所定の比率を定め
る設定値と前記乱数発生手段が発生する第1の乱数とに
基づき、前記頻出姓に基づく前記姓データの生成処理と
前記文字列の組合せに基づく前記姓データの生成処理と
を振分ける処理振分け手段と、 前記文字列の組合せにより前記姓データを生成すると
き、前記禁則テーブルが有する禁則を参照して禁則チェ
ックを行う禁則チェック手段とを備えることを特徴とす
る姓データの生成装置。
1. A surname data generator used for test data in system development, wherein the surname is generated via a random number generating means for generating a random number and obtaining a random value, and an input means. In order to generate data, a plurality of frequent family names having a high frequency in general printed matter, a plurality of character strings for combination, and a predetermined prohibition rule for excluding the family name data generated by the combination of the character strings A storage unit in which a prohibition table having the following is registered, and the value of the second random number generated by the random number generation unit is corrected by performing an approximation process so that the number of distributions increases as the value decreases, and approximates to the actual distribution. Then, from the frequent family name, the frequent family name generating unit that acquires the frequent family name corresponding to the corrected value and generates the family name data, and the third random number value and the fourth random number value by the random number generating means. Of the corresponding string A surname generation unit that generates the surname data by combination and adds one to the number of generated surname data each time the surname data is generated; and a surname generation unit that outputs the generated data via an output unit. , Based on a first random number generated by the random number generating means and a set value that defines a predetermined ratio at which the family name data based on the frequent family name and the family name data based on a combination of the character strings are generated. When the surname data is generated by the combination of the character strings, the prohibition table is generated when the surname data is generated based on the surname data and the surname data is generated based on the combination of the character strings. A surname data generation device, comprising: a prohibition check means for performing a prohibition check with reference to the prohibition rule.
【請求項2】 前記記憶手段は、 人名辞書や印刷物などで検索され、頻出度の高い前記頻
出姓を頻出順にソートして登録される頻出姓テーブル
と、 組合せにより生成される前記姓データを構成する前記文
字列である、前記姓データの上位に位置する1つの文
字、又は、文字列の上位文字列と、前記姓データの下位
に位置する1つの文字、又は、文字列の下位文字列とが
登録される文字列テーブルと、 前記文字列を前記上位文字列として登録するとき、所定
の文字列を除外するための、文字の組合せである第1の
禁則と、前記文字列を前記下位文字列として登録すると
き、所定の文字列を除外するための、文字の組合せであ
る第2の禁則と、前記上位文字列と前記下位文字列とを
組合せて前記姓データを生成するとき、所定の上位文字
列と下位文字列との組合せによる前記姓データを除外
し、前記上位文字列に付加された第1の属性と前記下位
文字列に付加された第2の属性との所定の組合せを除外
するための第3の禁則とが登録される禁則テーブルとを
備えることを特徴とする請求項1記載の姓データの生成
装置。
2. The storage means comprises a frequent family name table which is searched by a personal name dictionary, printed matter, etc., and is registered by sorting the frequent family names having high frequency in order of frequent occurrence, and the family name data generated by a combination. One character located higher in the surname data, which is the character string, or a higher character string of the character string, and one character located lower in the surname data, or a lower character string of the character string. A character string table in which is registered, when the character string is registered as the upper character string, a first prohibition that is a combination of characters for excluding a predetermined character string, and the character string as the lower character When registering as a string, a second prohibition, which is a combination of characters for excluding a predetermined character string, and a combination of the upper character string and the lower character string to generate the family name data, a predetermined character Upper string and lower A third for excluding the surname data by a combination with a character string and excluding a predetermined combination of the first attribute added to the upper character string and the second attribute added to the lower character string 2. The surname data generation device according to claim 1, further comprising: a prohibition table in which the prohibition is registered.
【請求項3】 前記禁則チェック手段は、 前記文字列を前記上位文字列として前記記憶手段に登録
するとき、前記禁則テーブルの前記第1の禁則を参照し
て、該当する文字の組合せとなる前記文字列を登録から
除外し、 前記文字列を前記下位文字列として前記記憶手段に登録
するとき、前記禁則テーブルの前記第2の禁則を参照し
て、該当する文字の組合せとなる前記文字列を登録から
除外し、 前記組合せ姓生成部で前記上位文字列と前記下位文字列
とを組合せて前記姓データを生成するとき、前記禁則テ
ーブルの前記第3の禁則を参照して、該当する前記上位
文字列と前記下位文字列との組合せによる前記姓データ
の生成を除外し、 前記禁則テーブルの前記第3の禁則を参照して、前記上
位文字列に付加された第1の属性と前記下位文字列に付
加された第2の属性との組合せが該当する場合、前記姓
データの生成を除外することを特徴とする請求項1又は
記載の姓データの生成装置。
3. The prohibition checking unit refers to the first prohibition in the prohibition table when registering the character string as the higher-order character string in the storage unit, and forms a corresponding character combination. When a character string is excluded from registration and the character string is registered in the storage means as the lower character string, the character string that is a combination of corresponding characters is referred to by referring to the second prohibition of the prohibition table. When excluding from registration, when generating the surname data by combining the upper-order character string and the lower-order character string in the combination surname generation unit, refer to the third prohibition in the prohibition table and refer to the corresponding upper rank. Excluding generation of the surname data by a combination of a character string and the lower character string, referring to the third prohibition in the prohibition table, the first attribute and the lower character added to the upper character string If the combination of the second attribute added to falls, claim 1, characterized in that to exclude generation of the last name data or
2. A device for generating surname data described in 2 .
JP36381399A 1999-12-22 1999-12-22 Surname data generation device Expired - Fee Related JP3514193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36381399A JP3514193B2 (en) 1999-12-22 1999-12-22 Surname data generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36381399A JP3514193B2 (en) 1999-12-22 1999-12-22 Surname data generation device

Publications (2)

Publication Number Publication Date
JP2001175684A JP2001175684A (en) 2001-06-29
JP3514193B2 true JP3514193B2 (en) 2004-03-31

Family

ID=18480260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36381399A Expired - Fee Related JP3514193B2 (en) 1999-12-22 1999-12-22 Surname data generation device

Country Status (1)

Country Link
JP (1) JP3514193B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9310722B2 (en) 2011-03-18 2016-04-12 Ricoh Company, Limited Image forming apparatus and image forming method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4758381B2 (en) * 2006-03-30 2011-08-24 株式会社日本総合研究所 Test data generation system, program thereof, recording medium thereof, and test data generation method
JP4878527B2 (en) * 2006-09-08 2012-02-15 富士通株式会社 Test data creation device
WO2008114452A1 (en) * 2007-03-20 2008-09-25 Fujitsu Limited Simulator, simulation system, and computer program
JP5156692B2 (en) * 2009-05-29 2013-03-06 株式会社エヌ・ティ・ティ・データ Pseudo data generation device, pseudo data generation method, and computer program
JP6482338B2 (en) * 2015-03-19 2019-03-13 株式会社エヌ・ティ・ティ・データ Questionnaire answer test data generation system, questionnaire answer test data generation method and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9310722B2 (en) 2011-03-18 2016-04-12 Ricoh Company, Limited Image forming apparatus and image forming method
US9563153B2 (en) 2011-03-18 2017-02-07 Ricoh Company, Ltd. Image forming apparatus and image forming method
US10088781B2 (en) 2011-03-18 2018-10-02 Ricoh Company, Ltd. Image forming apparatus and image forming method

Also Published As

Publication number Publication date
JP2001175684A (en) 2001-06-29

Similar Documents

Publication Publication Date Title
WO2006020654A2 (en) System and method for generating production-quality data to support software testing
US8700377B2 (en) Accelerated analog and/or RF simulation
US20030196191A1 (en) Recursive use of model based test generation for middlevare validation
RU2004104017A (en) DECLARATIVE SEQUENTIAL PARAMETRIZATION OF REPORTS
JP3514193B2 (en) Surname data generation device
CN111443901A (en) Business expansion method and device based on Java reflection
CN111475402A (en) Program function testing method and related device
CN112579604A (en) Test system number making method, device, equipment and storage medium
US6678853B1 (en) Method and apparatus for generating random code
US11086747B2 (en) Benchmark software system and method
US7082589B2 (en) Method of generating a schematic driven layout for a hierarchical integrated circuit design
CN110188274B (en) Search error correction method and device
JP2888065B2 (en) Diagnostic device using decision tree-type diagnostic knowledge
KR102276290B1 (en) Apparatus for generating large scale test data
KR102375572B1 (en) Electronic terminal device which automatically creates the training sentences to be used for creating the machine translation model and the operating method thereof
JP6971929B2 (en) Inquiry statement output device and inquiry statement output method
JP3149555B2 (en) Purpose converter for system design
CN116266261A (en) Method and system for generating detection report based on reverse check and regeneration
US20080098350A1 (en) Method of generating c code on the basis of uml specifications
JP2850629B2 (en) Logic verification system
JP2000215217A (en) Device and method for logical synthesis
JPH08194522A (en) Simulation test device for process control computer
CN116823202A (en) Resume information processing method, resume information processing system, intelligent terminal and storage medium
CN116302213A (en) Flow template management method and electronic equipment
CN117315660A (en) Image processing method, device, computer equipment and storage medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040106

LAPS Cancellation because of no payment of annual fees