JP2007108356A - Personal information concealing device and program for same - Google Patents

Personal information concealing device and program for same Download PDF

Info

Publication number
JP2007108356A
JP2007108356A JP2005298193A JP2005298193A JP2007108356A JP 2007108356 A JP2007108356 A JP 2007108356A JP 2005298193 A JP2005298193 A JP 2005298193A JP 2005298193 A JP2005298193 A JP 2005298193A JP 2007108356 A JP2007108356 A JP 2007108356A
Authority
JP
Japan
Prior art keywords
reading
kanji
name
data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005298193A
Other languages
Japanese (ja)
Inventor
Tetsuya Ino
哲哉 伊野
Toyotoshi Morita
豊年 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005298193A priority Critical patent/JP2007108356A/en
Publication of JP2007108356A publication Critical patent/JP2007108356A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a personal information concealing device which not only divides personal information item by item but also processes a name such as a person's name by the unit of a character in a way where kanji (Chinese character) and reading of the kanji are consistent so as to enhance the secrecy of the personal information. <P>SOLUTION: A name constituting input data is divided into respective kanji. Reading of the respective divided kanji is divided on the basis of name reading. One or more of the respective divided kanji and one or more reading of the corresponding kanji are taken out, and the kanji and the reading taken out are combined to newly create a name and name reading. Since the name and the name reading are replaced by the created name and name reading, the kanji and the reading of the kanji of the input data are used and the output data wherein the personal information is concealed can be acquired while maintaining the data property of the input data. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、個人情報に秘匿処理を施す個人情報秘匿装置に関する。   The present invention relates to a personal information concealment device that performs concealment processing on personal information.

IT社会が急速に進展する中、公的機関において電子政府・電子自治体の構築がなされ、民間企業においても電子商取引、顧客サービスの高度化が進み、個人情報を電子的に使用する機会が増大している。このような中、個人情報の保護と利用の調和を図るため、平成17年4月に個人情報の保護に関する法律が施行された。   With the rapid progress of the IT society, e-government and e-government have been established in public institutions, and e-commerce and customer services have become more sophisticated in private companies, increasing the opportunity to use personal information electronically. ing. Under these circumstances, the Act on the Protection of Personal Information was enforced in April 2005 to harmonize the protection and use of personal information.

したがって、特定利用目的の達成を逸脱した範囲での個人情報の取り扱いは原則禁止され、第三者に個人データを提供する場合には原則として本人の同意が必要となっている。
こうした状況に対応すべく、個人情報を扱う装置として、特開2001−265771号公報に開示する個人情報管理装置がある。
Therefore, the handling of personal information within the scope that deviates from the achievement of the specific purpose of use is prohibited in principle, and in principle, the consent of the person is required when providing personal data to a third party.
In order to cope with such a situation, there is a personal information management apparatus disclosed in Japanese Patent Laid-Open No. 2001-265771 as an apparatus that handles personal information.

この背景技術となる個人情報管理装置は、個人情報提供者端末装置で提供する個人情報を通信手段を介して個人情報管理センタ装置に登録し、個人情報利用者端末装置が前記個人情報を通信手段を介して取得して利用する個人情報管理装置であって、前記個人情報管理センタ装置は、個人情報を単独では特定の個人との関連づけができずに意味をなさない部分個人情報に分割した部分個人情報を前記個人情報提供者端末装置から受信する手段と、前記受信した部分個人情報に識別子を生成する識別子生成手段と、該生成した部分個人情報識別子と前記部分個人情報とを対応させて保存する部分個人情報記憶手段と、前記部分個人情報識別子を個人情報提供者端末装置に送信する手段と、前記個人情報利用者端末装置から受信した部分個人情報識別子に対応する部分個人情報を前記部分個人情報記憶手段から検索する手段と、前記検索された部分個人情報を前記個人情報提供者端末装置に送信する手段とを備えた構成である。
このように個人情報管理装置によれば、個人情報が分割された部分個人情報を記録しており、万が一外部に漏洩することがあっても当初の個人情報に構成することが困難である。
特開2001−265771号公報
The personal information management device as the background art registers the personal information provided by the personal information provider terminal device in the personal information management center device through the communication means, and the personal information user terminal device communicates the personal information with the communication means. A personal information management device that is acquired and used via the personal information management center device, wherein the personal information is divided into partial personal information that cannot be associated with a specific individual alone and does not make sense Means for receiving personal information from the personal information provider terminal device; identifier generating means for generating an identifier for the received partial personal information; and storing the generated partial personal information identifier and the partial personal information in correspondence with each other Partial personal information storage means, means for transmitting the partial personal information identifier to a personal information provider terminal device, and partial personal information received from the personal information user terminal device It means for retrieving the partial personal information corresponding to Besshi from the partial personal information storage unit, a configuration in which a means for transmitting said retrieved partial personal information to the personal information provider terminal device.
As described above, according to the personal information management apparatus, partial personal information obtained by dividing the personal information is recorded, and even if it is leaked to the outside, it is difficult to compose the original personal information.
JP 2001-265771 A

前記背景技術の個人情報管理装置によれば、個人情報として記憶手段に記録されるのではなく、部分個人情報として記憶手段に記録され、個人情報提供者の同意によって部分個人情報を個人情報として組成して提供することができる。   According to the personal information management device of the background art, the personal information is not recorded in the storage means as personal information, but is recorded in the storage means as partial personal information, and the partial personal information is composed as personal information with the consent of the personal information provider. Can be provided.

しかしながら、個人情報の分割方法によっては部分個人情報自体が個人情報となり、個人情報管理装置の運用が非常に難しいという課題を有する。個人情報が複数の項目からなる場合、項目毎に分割して他項目との関連がない場合であっても、無数の情報内に氏名自体が含まれていることで、本人の同意なく情報が流出することになる。例えば、ある会社の社員データベースが漏洩した場合に、各項目自体の関連性が失われていたとしても、各個人が会社の従業員であるという情報は流出していることになる。また、同様に各項目自体の関連性が失われていたとしても、あるデータ項目について全ての者が同じ値を持っている情報に関しても情報が流出していることになる。   However, depending on the method of dividing personal information, the partial personal information itself becomes personal information, and there is a problem that the operation of the personal information management apparatus is very difficult. When personal information consists of multiple items, even if there is no relationship with other items divided by item, the name itself is included in countless information, so the information can be obtained without the consent of the person It will be leaked. For example, when an employee database of a certain company is leaked, even if the relevance of each item itself is lost, information that each individual is an employee of the company is leaked. Similarly, even if the relevance of each item itself is lost, information is leaked regarding information in which all persons have the same value for a certain data item.

本発明は、個人情報を項目毎に分割するだけでなく、漢字とその漢字の読みとの整合性の取れた形で氏名等の名称について文字単位に処理を施し個人情報の秘匿性を高める個人情報秘匿装置を提供することを目的とする。   The present invention not only divides the personal information into items, but also processes the names such as names in character units in a form that is consistent with the kanji and the reading of the kanji, and increases the confidentiality of the personal information. An object is to provide an information concealment device.

(1) 本発明に係る個人情報秘匿装置は、少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段とを備えるものである。   (1) The personal information concealment device according to the present invention includes, as input data, personal information including a name that is a character string consisting of at least a kanji character and a name reading that is a character string consisting of a reading for the name. The name is divided into character units, the name reading is divided so as to correspond to the divided character unit kanji, the kanji reading dividing means for associating the divided kanji with the corresponding reading, and the plurality of divided kanji and the corresponding readings. Name composition means for generating a name and a name reading by associating a kanji character string and a corresponding kanji character string with a combination of one or more randomly extracted kanji characters and their corresponding readings. Replace the name in the data with the name generated by the Kanji reading composition means, and the name reading in the input data by the Kanji reading composition means In which and a means for outputting be replaced by the name readings with related to the name form was.

(2) 本発明に係る個人情報秘匿装置は必要に応じて、文字単位の漢字と当該漢字に対する読みからなる辞書データを記録する辞書データ記憶手段をさらに備え、前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、前記漢字読み分割手段により名称読みが分割された場合に分割された漢字に対応する分割された名称読みが辞書データに未登録の場合に、辞書データに当該名称読みを漢字に関連付けて登録する手段を備えるものである。   (2) The personal information concealment device according to the present invention further comprises dictionary data storage means for recording dictionary data composed of kanji in character units and readings for the kanji characters, if necessary, wherein the kanji reading dividing means is separated. Based on the kanji for each character, the dictionary data is referenced to read the reading for the kanji, and when the name reading includes the read reading, the name reading is divided by the corresponding reading and the name is read by the kanji reading dividing means. In the case where the divided name reading corresponding to the divided kanji character is not registered in the dictionary data when the reading is divided, a means for registering the name reading in association with the kanji character in the dictionary data is provided.

(3) 本発明に係る個人情報秘匿装置は必要に応じて、文字単位の漢字、当該漢字に対する読み、参照回数からなる辞書データを記録する辞書データ記憶手段をさらに備え、
前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、前記辞書データが分割に係った漢字及び当該漢字に対する読みに対応する参照回数を更新する手段を備え、前記名前組成手段が生成した名前を構成する漢字毎の読みを当該各漢字に基づき前記辞書データを参照して最も参照回数の多い読みとし、名前読みをこれら読みで置き換える手段を備えるものである。
(3) The personal information concealment device according to the present invention further includes dictionary data storage means for recording dictionary data consisting of kanji in character units, reading with respect to the kanji, and the number of references, if necessary.
The kanji reading division means reads the reading for the kanji by referring to the dictionary data based on the separated kanji for each character, and if the name reading includes the reading, the name reading is divided by the corresponding reading. The dictionary data includes means for updating the kanji related to the division and the number of references corresponding to the reading for the kanji, and the reading for each kanji constituting the name generated by the name composition means is based on each kanji. The dictionary data is referred to as a reading having the highest number of references, and a name reading is replaced with these readings.

(4) 本発明に係る個人情報秘匿装置は必要に応じて、入力データを構成するデータ項目に対応するデータ項目のデータからなるマスタデータを記録するマスタデータ記憶手段と、入力データを構成する名前及び名前読み以外のデータ項目のデータをマスタデータの対応するデータ項目のデータをランダムに取り出して置き換える手段とを備えるものである。   (4) The personal information concealment device according to the present invention includes, as necessary, master data storage means for recording master data composed of data items corresponding to data items constituting the input data, and names constituting the input data. And means for taking out and replacing the data of the data items other than the name reading at random from the data of the corresponding data items of the master data.

(5) 本発明に係る個人情報秘匿プログラムは、コンピュータを、少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段として機能させるためのものである。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
(5) The personal information concealment program according to the present invention uses, as input data, personal information including a name that is a character string consisting of at least a kanji character and a name string consisting of a reading for the name. The input data name is divided into character units, the name reading is divided so as to correspond to the divided character unit kanji, kanji reading dividing means for associating the divided kanji with the corresponding reading, and a plurality of divided kanji characters and Name composition means for generating a name and a name reading by associating a kanji character string composed of kanji characters and a kanji character string consisting of the kanji characters and a kanji character string consisting of the kanji characters. And replace the name in the input data with the name generated by the Kanji reading composition means, Is replaced with a name reading associated with the name generated by the Kanji reading composition means and functions as a means for outputting.
These outlines of the invention do not enumerate the features essential to the present invention, and a sub-combination of these features can also be an invention.

ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形態の記載内容のみで解釈すべきではない。また、実施形態の全体を通して同じ要素には同じ符号を付けている。
実施形態では、主に装置について説明するが、所謂当業者であれば明らかな通り、本発明はコンピュータで使用可能なプログラム、システム、方法としても実施できる。また、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD−ROM、DVD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
Here, the present invention can be implemented in many different forms. Therefore, it should not be interpreted only by the description of the following embodiment. Also, the same reference numerals are given to the same elements throughout the embodiment.
In the embodiment, the apparatus will be mainly described. However, as is apparent to those skilled in the art, the present invention can also be implemented as a program, system, and method usable on a computer. In addition, the present invention can be implemented in hardware, software, or software and hardware embodiments. The program can be recorded on any computer-readable medium such as a hard disk, CD-ROM, DVD-ROM, optical storage device, or magnetic storage device. Furthermore, the program can be recorded on another computer via a network.

[1.発明の概要]
図1は本発明の実施形態に係る個人情報秘匿装置のデータフロー図である。
・漢字読み分割手段が、入力データ中のデータ項目「氏名」とデータ項目「読み」を適切に分割し、漢字1文字とその漢字の読みとを対応させる。読みを決定する場合に必要に応じて辞書データを参照する。
・漢字読み分割手段が、新たな漢字が対象となれば読みと共に辞書データに登録する。
・漢字読み分割手段が、漢字は既に登録済みであるが読みが登録されていない場合、その新たな読みを既に登録されている漢字に対応づけて登録する。
・漢字読み分割手段が、漢字及び読みが既に登録済みである場合、その漢字及び読みの参照回数を更新する。
・名称組成手段が、入力データ中のデータ項目「氏名」について、一の氏名の漢字1文字を他の一の氏名の漢字1文字に置き換えて新たな氏名を生成する。
・名称組成手段が、生成した氏名が入力データ中の氏名と同一でないか否かをチェックし、同一でない場合にだけこの氏名を採用する。
・名称組成手段が、新たに生成した氏名について2文字の場合、2文字目の漢字の読みを辞書データに登録している該当漢字の参照回数から決定する。
・レコード生成手段が、入力データのデータ項目について、一の入力データのデータ項目のデータをマスタデータの一の入力データのデータ項目のデータで置き換える。この置き換えを指定されたデータ項目について全ての入力データに実施する。
・レコード生成手段が、置き換えた入力データと全ての置き換え前の入力データとを比較し、同一でないか否かをチェックし、同値でない場合にだけこの入力データを採用する。
[1. Summary of the Invention]
FIG. 1 is a data flow diagram of a personal information concealment device according to an embodiment of the present invention.
The kanji reading dividing means appropriately divides the data item “name” and the data item “reading” in the input data, and associates one kanji character with the reading of the kanji. When determining reading, dictionary data is referred to as necessary.
-If the new kanji character is targeted, the kanji reading dividing means registers it in the dictionary data together with the reading.
-When the kanji reading has been registered but the reading has not been registered, the kanji reading dividing means registers the new reading in association with the already registered kanji.
-When the kanji and reading are already registered, the kanji reading dividing means updates the reference count of the kanji and reading.
The name composition means generates a new name by replacing one kanji character of one name with one kanji character of another name for the data item “name” in the input data.
The name composition means checks whether the generated name is not the same as the name in the input data, and adopts this name only when it is not the same.
When the name composition means has two characters for the newly generated name, the reading of the second character is determined from the reference number of the corresponding character registered in the dictionary data.
The record generation means replaces the data item of one input data with the data item of one input data of the master data for the data item of the input data. This replacement is performed on all input data for the designated data item.
The record generation means compares the replaced input data with all the input data before replacement, checks whether they are not identical, and adopts this input data only when they are not the same value.

入力データとは秘匿処理を施す対象となる個人情報である。
データ項目とは入力データを構成する属性である。
マスタデータとは予め装置に入力データのデータ項目のデータと置き換えるためのデータである。
利用者は設定ファイル(レイアウト定義情報)を用いて入力データのどのデータ項目をマスク対象とするかしないかを指定することができる。
Input data is personal information that is subject to concealment processing.
A data item is an attribute that constitutes input data.
The master data is data for replacing the data items of the input data in the apparatus in advance.
The user can specify which data item of the input data is to be masked using a setting file (layout definition information).

[2.ハードウェア構成図]
図2は本実施形態に係る個人情報秘匿装置のハードウェア構成図である。個人情報秘匿装置は、個人情報秘匿プログラムをコンピュータにインストールし、個人情報秘匿プログラムをメインメモリに読み出すことにより例えば構成される。この場合のコンピュータ10のハードウェアの構成は、一般のコンピュータの構成であり、CPU(Central Processing Unit)11、DRAM(Dynamic Random Access Memory)12等のメインメモリ、外部記憶装置であるHD(hard disk)13、表示装置であるディスプレイ14、入力装置であるキーボード15及びマウス16、ネットワークに接続するための拡張カードであるLANカード17、CD−ROMドライブ18等からなる。
[2. Hardware configuration diagram]
FIG. 2 is a hardware configuration diagram of the personal information concealment device according to the present embodiment. The personal information concealment device is configured, for example, by installing a personal information concealment program in a computer and reading the personal information concealment program into a main memory. The hardware configuration of the computer 10 in this case is a general computer configuration, a main memory such as a CPU (Central Processing Unit) 11 and a DRAM (Dynamic Random Access Memory) 12, and an HD (hard disk) that is an external storage device. ) 13, a display 14 as a display device, a keyboard 15 and a mouse 16 as input devices, a LAN card 17 as an expansion card for connection to a network, a CD-ROM drive 18 and the like.

[3.データ構成図]
図3は本実施形態に係る個人情報秘匿装置で使用するデータ説明図である。図3(a)は辞書データ、図3(b)は地域に関するマスタデータ、図3(c)は会社に関するマスタデータ、図3(d)は会社の組織に関するマスタデータ、図3(e)は入力データ、図3(f)は設定データである。ここで、示す各データの構成は一例であり、所謂当業者であれば適宜設計変更が可能である。
[3. Data structure diagram]
FIG. 3 is an explanatory diagram of data used in the personal information concealment device according to the present embodiment. 3 (a) is dictionary data, FIG. 3 (b) is regional master data, FIG. 3 (c) is master data about the company, FIG. 3 (d) is master data about the organization of the company, and FIG. Input data, FIG. 3 (f) is setting data. Here, the configuration of each data shown is an example, and a so-called person skilled in the art can appropriately change the design.

辞書データは、漢字、読み、参照回数の属性を有する。
マスタデータは、入力データのマスタ項目に応じて用意する必要がある。本実施形態では、地域に関するマスタデータ、会社に関するマスタデータ、会社の組織に関するマスタデータを用意して用いた。地域に関するマスタデータは、都道府県、都道府県(読み)、市区町村、市区町村(読み)、郵便番号、市外局番の属性を有する。会社に関するマスタデータは、会社名、会社名(読み)の属性を有する。会社の組織に関するマスタデータは、事業部名、事業部名(読み)の属性を有する。なお、姓に関するマスタデータは個人情報秘匿装置により生成される。
The dictionary data has attributes of kanji, reading, and reference count.
Master data must be prepared according to the master item of input data. In the present embodiment, master data related to the region, master data related to the company, and master data related to the organization of the company are prepared and used. The master data relating to the region has attributes of prefecture, prefecture (reading), city, town (town), postal code, and area code. The master data relating to the company has attributes of company name and company name (reading). The master data relating to the organization of the company has the attributes of division name and division name (reading). Note that the master data regarding the surname is generated by the personal information concealment device.

入力データは、対象とする個人情報により異なる。一例として、入力データは、姓、読み(姓(読み)に同じ)、都道府県、市区町村、郵便番号、カード番号、会社名、部署名、性別の属性を有する。   Input data varies depending on the target personal information. As an example, the input data has attributes of last name, reading (same as last name (reading)), prefecture, city, postal code, card number, company name, department name, and gender.

設定データは、データ項目名、マスク項目指定、指定フラグの属性を有する。データ項目名は、入力データのデータ項目と一致する。指定フラグは、値「Y」が入っている場合にはマスク処理の対象とすべきデータ項目であることを示し、値が入っていない場合にはマスク処理の対象ではないデータ項目であることを示す。マスク項目指定は、マスク処理の内容である。マスク項目指定にマスタデータのデータ項目名が入っていればかかるマスタデータのデータ項目でマスク処理を行う。マスク項目指定に「$」で始まる文字列が入っている場合には、かかる文字列で処理指定可能なマスク処理を行う。「$n」で該当文字に何も処理をしないことを意味し、「$d」で該当文字に10進数乱数でマスク処理することを意味する。   The setting data has attributes of data item name, mask item designation, and designation flag. The data item name matches the data item of the input data. When the value “Y” is entered, the designation flag indicates that the data item is to be masked. When the value is not entered, the specification flag indicates that the data item is not to be masked. Show. The mask item designation is the content of the mask process. If the data item name of the master data is included in the mask item specification, mask processing is performed on the data item of the master data. When a character string starting with “$” is included in the mask item specification, a mask process that can specify the process with the character string is performed. “$ N” means that no processing is performed on the corresponding character, and “$ d” means that the corresponding character is masked with a decimal random number.

[4.具体的データを用いた説明]
図4ないし図6は本実施形態に係る個人情報秘匿装置による具体的データを用いた説明図である。
図3(f)の設定ファイルで、データ項目名「姓」、「読み」の行はどちらも指定フラグが「Y」であり、且つ、マスクデータ中に姓、姓(読み)のデータ項目がないため、入力データ中姓、かなを漢字読み分割手段が処理する。
[4. Explanation using specific data]
4 to 6 are explanatory diagrams using specific data by the personal information concealment device according to the present embodiment.
In the setting file shown in FIG. 3F, the data item names “last name” and “reading” both have the designation flag “Y”, and the data items of the surname and surname (reading) are included in the mask data. Therefore, the Chinese character reading dividing means processes the last name and kana in the input data.

1レコード目の姓である「鈴池」と読みである「すずいけ」を対象として、「鈴」をキーとして辞書データを検索する(図4(a)参照)。辞書データに漢字「鈴」が登録されており、読み「すず」及び参照回数「1」並びに読み「りん」及び参照回数「1」を読み出す。入力データの読み「すずいけ」の1文字目及び2文字目が読み出した読みと一致するため、参照回数を1インクリメントして辞書データの該当レコードの参照回数を「2」に更新する。そして、入力データの漢字「鈴池」を「鈴」と「池」に分割し、読みも「すず」と「いけ」に分割する(図4(b)参照)。分割後、入力データの2文字目の「池」をキーとして辞書データを検索する。辞書データには漢字「池」が登録されていないため、漢字「池」、読み「いけ」及び参照回数「1」を登録する。   The dictionary data is searched for “Suzuike”, which is the last name of the first record, and “Suzuike”, which is the reading, using “Suzu” as a key (see FIG. 4A). The Chinese character “bell” is registered in the dictionary data, and the reading “tin” and the reference count “1”, the reading “Rin” and the reference count “1” are read out. Since the first character and the second character of the reading “Suzuike” of the input data match the readings read, the reference count is incremented by 1, and the reference count of the corresponding record of the dictionary data is updated to “2”. Then, the Chinese character “Suzuike” of the input data is divided into “bell” and “pond”, and the reading is also divided into “tin” and “ike” (see FIG. 4B). After the division, the dictionary data is searched using the “pond” of the second character of the input data as a key. Since the Chinese character “pond” is not registered in the dictionary data, the Chinese character “pond”, the reading “Ike” and the reference count “1” are registered.

2レコード目の姓である「山田」と読みである「やまだ」を対象として、「山」をキーとして辞書データを検索する(図4(a)参照)。辞書データに漢字「山」が登録されており、読み「やま」及び参照回数「1」並びに読み「さん」及び参照回数「1」を読み出す。入力データの読み「やまだ」の1文字目及び2文字目が読み出した読みと一致するため、参照回数1インクリメントして辞書データの該当レコードの参照回数を「2」に更新する。そして、入力データの漢字「山田」を「山」と「田」に分割し、読みも「やま」と「だ」に分割する(図4(b)参照)。分割後、入力データの2文字目の「田」をキーとして辞書データを検索する。辞書データには漢字「田」は登録されているが、読みが登録されていないため、漢字「田」に対して読み「だ」及び参照回数「1」を登録する。   The dictionary data is searched for “Yamada” as the last name of the second record and “Yamada” as the reading with “Yama” as a key (see FIG. 4A). The Chinese character “mountain” is registered in the dictionary data, and reading “yama” and reference count “1”, reading “san” and reference count “1” are read out. Since the first and second characters of the input data reading “Yamada” match the readings read, the reference count is incremented by 1 and the reference count of the corresponding record in the dictionary data is updated to “2”. Then, the Chinese character “Yamada” of the input data is divided into “yama” and “da”, and the reading is also divided into “yama” and “da” (see FIG. 4B). After the division, the dictionary data is searched using the “character” of the second character of the input data as a key. In the dictionary data, the Chinese character “da” is registered, but the reading is not registered, so the reading “da” and the reference count “1” are registered for the Chinese character “da”.

3レコード目の姓である「池中」と読みである「いけなか」を対象として、「池」をキーとして辞書データを検索する(図4(a)参照)。辞書データに漢字「池」が登録されており、読み「いけ」及び参照回数「2」を読み出す。入力データの読み「いけなか」の1文字目及び2文字目が読み出した読みと一致するため、参照回数を1インクリメントして辞書データの該当レコードの参照回数を「3」に更新する。そして、入力データの漢字「池中」を「池」と「中」に分割し、読みも「いけ」と「なか」に分割する(図4(b)参照)。分割後、入力データの2文字目の「中」をキーとして辞書データを探索する。辞書データには漢字「中」が登録されていないため、漢字「中」、読み「なか」及び参照回数「1」を登録する。   The dictionary data is searched for “ike” as a key for “Ikenaka” which is the last name of the third record and “Ikenaka” which is the reading (see FIG. 4A). The Chinese character “pond” is registered in the dictionary data, and the reading “Ike” and the reference count “2” are read out. Since the first character and the second character of the reading “Ikenaka” of the input data match the readings read, the reference count is incremented by 1, and the reference count of the corresponding record of the dictionary data is updated to “3”. Then, the Chinese character “Ikenaka” of the input data is divided into “Iken” and “Middle”, and the reading is also divided into “Ike” and “Naka” (see FIG. 4B). After the division, the dictionary data is searched by using “middle” of the second character of the input data as a key. Since the Chinese character “middle” is not registered in the dictionary data, the Chinese character “middle”, the reading “Naka”, and the reference count “1” are registered.

入力データの漢字と読みを適切に分割した後、入力データ中の2文字目の漢字のみを乱数を発生させて該当乱数に従って1文字目の漢字と組み合せる。図4(b)を3×2の配列Xだとすると、2文字目の漢字が入っているX[n][2](n=1、2、3)に対して、1ないし3の間で乱数を発生させ、発生させた乱数に基づき2文字目の漢字を入れ替える(図4(c)参照)。   After appropriately dividing the kanji and the reading of the input data, only the second kanji in the input data is generated with random numbers and combined with the first kanji according to the corresponding random numbers. If FIG. 4B is a 3 × 2 array X, a random number between 1 and 3 for X [n] [2] (n = 1, 2, 3) containing the second Kanji character. And the second Chinese character is replaced based on the generated random number (see FIG. 4C).

1文字目の漢字の読みはそのまま使用し、2文字目の漢字は当該漢字をキーとして最も参照回数の多い読みを用いる。X[1][2]は漢字「中」であり辞書データを参照すると、読み「なか」となる(図4(d)参照)。X[2][2]は漢字「池」であり辞書データを参照すると、読み「いけ」になる。X[3][2]は漢字「田」であり辞書データを参照すると、読み「た」になる。ここでは、漢字「田」のみが読み「だ」から読み「た」となった。
これらの処理により姓に関するマスタデータが生成される。
図5に示すように、各マスタデータをそれぞれのデータ項目数に合致した配列に格納する。そして、各マスタデータの配列の配列番号を乱数により決定する。
The first kanji reading is used as it is, and the second kanji is read with the highest number of references using the kanji as a key. X [1] [2] is the Chinese character “middle”, and when the dictionary data is referred to, it is read “Naka” (see FIG. 4D). X [2] [2] is the Chinese character “pond”, and when the dictionary data is referenced, it reads “Ike”. X [3] [2] is the Chinese character “Ta” and is read as “Ta” when the dictionary data is referenced. Here, only the Chinese character “da” is read from “da” and becomes “ta”.
By these processes, master data regarding the surname is generated.
As shown in FIG. 5, each master data is stored in an array that matches the number of data items. Then, the array element number of each master data array is determined by a random number.

入力データの1レコード目の姓のデータ項目「鈴池」は、姓に関するマスタデータの配列番号「0」に格納されている姓の要素「池田」に置き換えられる(図6(a)参照)。入力データの1レコード目の読みのデータ項目「すずいけ」は、姓に関するマスタデータの配列番号「0」に格納されている読みの要素「いけた」に置き換えられる(図6(b)参照)。入力データの1レコード目の都道府県「東京都」は、地域に関するマスタデータの配列番号「0」に格納されている都道府県の要素「徳島県」に置き換えられる(図6(c)参照)。入力データの1レコード目の市区町村「大田区蒲田」は、地域に関するマスタデータの配列番号「0」に格納されている市区町村の要素「徳島市南沖洲」に置き換えられる(図6(d)参照)。入力データの1レコード目の郵便番号「114−0959」は、地域に関するマスタデータの配列番号「0」に格納されている郵便番号の要素「770−0874」に置き換えられる(図6(e)参照)。入力データの1レコード目のカード番号「1246−3371」は、設定ファイルのカード番号のマスク項目「$d$d$d$d−$n$n$n$n」に従い、1番目から4番目までの数字は乱数により求まり、5番目から8番目までの数字は変わらず「5761−3371」となり、この数字に置き換えられる(図6(f)参照)。入力データの1レコード目の会社名「××観光」は、会社に関するマスタデータの配列番号「0」に格納されている会社名の要素「Dデパート」に置き換えられる(図6(g)参照)。入力データの1レコード目の部署名「管理部」は、会社の組織に関するマスタデータの配列番号「0」に格納されている部署名の要素「流通部」に置き換えられる(図6(h)参照)。入力データの1レコード目の性別「男性」は、設定ファイルの性別の指定フラグが「Y」でないので、置き換わらずそのままである(図6(i)参照)。
以下、入力データの2レコード目、3レコード目も同様に置き換えがなされる。最終的には、図6(j)の入力データが情報秘匿の処理により図6(k)の出力データとなる。
The data item “Suzuike” of the last name of the first record of the input data is replaced with the last name element “Ikeda” stored in the array number “0” of the master data relating to the last name (see FIG. 6A). The reading data item “Suzuike” in the first record of the input data is replaced with the reading element “Ikeita” stored in the array number “0” of the master data regarding the surname (see FIG. 6B). . The prefecture “Tokyo” in the first record of the input data is replaced with the element “Tokushima” of the prefecture stored in the array number “0” of the master data relating to the region (see FIG. 6C). The municipality “Ota-ku Iwata” in the first record of the input data is replaced with the element “Tokushima-shi Minamiokisu” stored in the array number “0” of the master data relating to the region (FIG. 6 ( d)). The zip code “114-0959” of the first record of the input data is replaced with the zip code element “770-0874” stored in the array number “0” of the master data relating to the region (see FIG. 6E). ). The card number “1246-3371” of the first record of the input data is the first to fourth according to the mask item “$ d $ d $ d $ d- $ n $ n $ n $ n” of the card number of the setting file. The numbers up to are obtained by random numbers, and the numbers from the fifth to the eighth are unchanged and become “5761-3371”, which are replaced with these numbers (see FIG. 6F). The company name “XX sightseeing” in the first record of the input data is replaced with the element “D department store” of the company name stored in the array number “0” of the master data relating to the company (see FIG. 6G). . The department name “management department” of the first record of the input data is replaced with the element “distribution department” of the department name stored in the array number “0” of the master data related to the organization of the company (see FIG. 6H). ). The gender “male” in the first record of the input data is not replaced because the gender designation flag in the setting file is not “Y” (see FIG. 6I).
Thereafter, the second record and the third record of the input data are similarly replaced. Eventually, the input data of FIG. 6J becomes the output data of FIG. 6K by the information concealment process.

[5.フローチャート]
本実施形態に係る個人情報秘匿装置の使用動作について図に基づき説明する。
図7は本実施形態に係る個人情報秘匿装置の漢字かな分割動作フローチャートである。ます、プロセッサ11が対象となる入力データの姓と読みを取得する(ステップ101)。プロセッサ11が入力データの姓の1文字目の漢字が辞書データ内に登録されているか否かを検索して判断する(ステップ111)。辞書データ内に登録されていると判断した場合には、入力データの読みが辞書データの読みと一致するか否かをプロセッサ11が判断する(ステップ121)。入力データの読みと辞書データの読みとが一致すると判断した場合には、辞書データ内の該当漢字及び読みの参照回数を更新する(ステップ122)。次に、プロセッサ11が入力データの姓に2文字目の漢字があるか否かを判断する(ステップ131)。2文字目の漢字がないと判断した場合には、終了する。2文字目の漢字があると判断した場合には、入力データの姓と読みを1文字目の漢字及び1文字目の読み並びに2文字目及び2文字目の読みとに分割する(ステップ132)。プロセッサが2文字目の漢字と2文字目の読みが辞書データに登録されているか否かを判断する(ステップ141)。漢字及び読みが登録されている場合には、プロセッサ11が辞書データの参照回数を更新し(ステップ142)、終了する。漢字のみ登録されている場合には漢字に関連付けて2文字目の読みを登録して参照回数を「1」にし、漢字すら登録されていない場合には、2文字目の漢字及び2文字目の読みを登録して参照回数を「1」にする(ステップ143)。
[5. flowchart]
The use operation of the personal information concealment device according to the present embodiment will be described with reference to the drawings.
FIG. 7 is a kana-kana dividing operation flowchart of the personal information concealment device according to the present embodiment. First, the processor 11 acquires the last name and reading of the target input data (step 101). The processor 11 searches and determines whether or not the first Chinese character of the last name of the input data is registered in the dictionary data (step 111). If it is determined that it is registered in the dictionary data, the processor 11 determines whether or not the reading of the input data matches the reading of the dictionary data (step 121). If it is determined that the reading of the input data matches the reading of the dictionary data, the corresponding kanji in the dictionary data and the number of times of reading are updated (step 122). Next, the processor 11 determines whether or not there is a second Chinese character in the last name of the input data (step 131). If it is determined that there is no second kanji, the process ends. If it is determined that there is a second character, the last name and the reading of the input data are divided into the first character, the first character, and the second and second characters (step 132). . The processor determines whether the second kanji and the second character reading are registered in the dictionary data (step 141). If kanji and reading are registered, the processor 11 updates the reference count of the dictionary data (step 142), and the process ends. If only kanji is registered, the second character reading is registered in association with the kanji and the reference count is set to “1”. If not even kanji is registered, the second kanji and the second character are registered. The reading is registered and the reference count is set to “1” (step 143).

前記ステップ111で辞書データ内に登録されていないと判断した場合、又は、前記ステップ121で読みと辞書データの読みとが一致しないと判断した場合、プロセッサ11が入力データの姓に2文字目の漢字があるか否かを判断する(ステップ151)。2文字目の漢字があると判断した場合には、プロセッサ11が入力データの姓の2文字目の漢字が辞書データ内にあるか否かを判断する(ステップ161)。2文字目の漢字が辞書データ内にないと判断した場合には、入力データの漢字と読みを強制的に2分割し(ステップ162)、終了する。強制的に2分割とは、例えば、1文字目の漢字と2文字目の漢字とを分割し、読みは1文字目の読みとそれ以降の読みとに分割し、1文字目の漢字と1文字目の読み、2文字目の漢字と1文字目以降の読みとを対応させる。この場合には、必ずしも漢字と読みとが正しいか否かを判断することができないので、辞書データへの登録はしないことが望ましい。前記ステップ161で2文字目の漢字が辞書データ内にあると判断した場合には、プロセッサ11が2文字目の漢字に対応する辞書データ内での読みと入力データの読みが一致するか否かを判断する(ステップ171)。読みが一致しないと判断した場合には、ステップ162に進む。前記ステップ171で読みが一致すると判断した場合には、プロセッサ11が2文字目の漢字及び2文字目の読みについて辞書データの参照回数を更新する(ステップ172)。プロセッサ11が、2文字目の漢字及び2文字目の読みに基づき入力データの姓及び読みを分割する(ステップ181)。次に、漢字のみが登録されている場合には漢字に関連付けて1文字目の読みを登録して参照回数を「1」にし、漢字すら登録されていない場合には、1文字目の漢字及び1文字目の読みを登録して参照回数を「1」にする(ステップ191)。   If it is determined in step 111 that it is not registered in the dictionary data, or if it is determined in step 121 that the reading does not match the reading of the dictionary data, the processor 11 adds the second character to the last name of the input data. It is determined whether or not there is a Chinese character (step 151). If it is determined that there is a second character, the processor 11 determines whether the second character of the last name of the input data is in the dictionary data (step 161). If it is determined that the second character is not in the dictionary data, the input data is forcibly divided into two (step 162), and the process ends. Forcibly dividing into two is, for example, dividing the first kanji and the second kanji, and dividing the reading into the first reading and the subsequent reading, and the first kanji and 1 The reading of the character is made to correspond to the reading of the second character and the reading of the first character. In this case, it is not always possible to determine whether kanji and reading are correct, so it is desirable not to register the dictionary data. If it is determined in step 161 that the second character is in the dictionary data, the processor 11 determines whether the reading in the dictionary data corresponding to the second character matches the reading in the input data. Is determined (step 171). If it is determined that the readings do not match, the process proceeds to step 162. If it is determined in step 171 that the readings match, the processor 11 updates the reference count of the dictionary data for the second kanji and the second character reading (step 172). The processor 11 divides the last name and reading of the input data based on the second kanji and the second reading (step 181). Next, when only the kanji is registered, the first character reading is registered in association with the kanji and the reference count is set to “1”. When even the kanji is not registered, the first kanji and The reading of the first character is registered and the reference count is set to “1” (step 191).

なお、図7中、「○」は辞書データに漢字が登録され読みも登録されている漢字を示し、「△」は辞書データに漢字が登録され読みは登録されていない漢字を示し、「×」は辞書データに漢字すら登録されていない漢字を示す。したがって、○○は2文字の漢字を意味し、どちらの漢字も辞書データに漢字及び読みが登録されていることを示します。図7中、各記号が処理対象となった場合に最終的に到達するフローチャートの位置を示している。
以上説示した図7の漢字かな分割動作を入力データの各姓、かなに対して実施する。
In FIG. 7, “◯” indicates a kanji in which kanji is registered in the dictionary data and the reading is also registered, “Δ” indicates a kanji in which kanji is registered in the dictionary data and the reading is not registered, and “×” "Indicates a kanji that is not even registered in the dictionary data. Therefore, XX means two kanji characters, and both kanji indicate that kanji and readings are registered in the dictionary data. FIG. 7 shows the position of the flowchart that is finally reached when each symbol is a processing target.
The kanji kana dividing operation shown in FIG. 7 described above is performed for each surname and kana of the input data.

図8は本実施形態に係る個人情報秘匿装置の組成動作フローチャートである。まず、プロセッサ11が入力データの全ての姓、読みに対して乱数を発生させて姓の1文字目の漢字と2文字目の漢字の組み合わせを変更する(ステップ201)。対象とする姓について1文字目の漢字に対して2文字目の漢字を入力データの全ての姓の2文字目の漢字から乱数を用いて決定する。この他、対象とする姓について2文字目の漢字に対して1文字目の漢字を入力データの全ての姓の1文字目の漢字から乱数を用いて決定してもよい。また、対象とする姓について1文字目の漢字を入力データの全ての姓の1文字目の漢字から乱数を用いて決定し、さらに、2文字目の漢字を入力データの全ての姓の2文字目の漢字から乱数を用いて決定してもよい。   FIG. 8 is a composition operation flowchart of the personal information concealment device according to the present embodiment. First, the processor 11 generates random numbers for all surnames and readings of the input data to change the combination of the first character and the second character of the surname (step 201). For the last name of interest, the second kanji for the first kanji is determined using random numbers from the second kanji for all surnames in the input data. In addition, with respect to the last name to be processed, the first kanji for the second kanji may be determined using random numbers from the first kanji for all surnames in the input data. Also, for the last name of interest, the first kanji is determined using random numbers from the first kanji of all surnames in the input data, and the second kanji is the two characters of all surnames in the input data. It may be determined using a random number from the kanji of the eye.

次に、プロセッサ11が組成した新たな漢字は入力データの姓と同一でないか否かを判断する(ステップ202)。同一であると判断した場合には、ステップ201に戻る。同一でないと判断した場合には、新たに組成した姓を構成する漢字の読みを対象漢字に基づき辞書データを検索し最も参照回数の多い読みで置き換える(ステップ203)。ここで、辞書データに漢字が登録されていない場合には、現在の読みを使用する。また、乱数を用いて決定した漢字についてのみ読みを置き換えてもよいし、全ての漢字について辞書データを用いて読みを置き換えてもよい。   Next, it is determined whether or not the new kanji composed by the processor 11 is not the same as the last name of the input data (step 202). If it is determined that they are the same, the process returns to step 201. If it is determined that they are not identical, the kanji readings constituting the newly formed surname are searched for dictionary data based on the target kanji and replaced with readings with the highest number of references (step 203). If no kanji is registered in the dictionary data, the current reading is used. Moreover, readings may be replaced only for kanji determined using random numbers, or readings may be replaced using dictionary data for all kanji.

以上説示した図8の組成動作を入力データの各姓、かなに対して実施する。ここで、入力データのデータ項目の姓は、複数の姓の1文字目の漢字のグループと、複数の姓の2文字目の漢字のグループとからなると捉えることもできる。前記した[4.具体的データを用いた説明]においては、ステップ201の処理で乱数を用いて既に決定された2文字目の漢字を除いた複数の姓の2文字目の漢字のグループから新たに乱数を用いて2文字目の漢字を決定している。このように決定された漢字を除いた漢字のグループから新たに乱数を用いて漢字を決定してもよいが、決定された漢字を除くことなく新たに乱数を用いて漢字を決定することもできる。   The composition operation of FIG. 8 described above is performed for each surname and kana of the input data. Here, the last name of the data item of the input data can also be regarded as being composed of a first kanji group of a plurality of surnames and a second kanji group of a plurality of last names. As described above [4. In the description using specific data], a new random number is used from a group of second kanji characters of a plurality of surnames excluding the second kanji character already determined using random numbers in the process of step 201. The second character is determined. A Chinese character may be newly determined using a random number from a group of Chinese characters excluding the determined Chinese character, but a new Chinese character can also be determined using a random number without removing the determined Chinese character. .

図9は本実施形態に係る個人情報秘匿装置のレコード生成動作フローチャートである。まず、プロセッサ11がマスタデータをメインメモリ12に読み出す(ステップ301)。プロセッサ11がマスタデータの配列を乱数により再配置する。具体的には、各マスタデータを格納した配列の配列番号(配列添字)を乱数により決定して配列を並び替えることにより再配置を行うことができる。プロセッサ11が置換候補カウンタiを初期化する(ステップ321)。例えば、i=1とする。ループに入り(ステップ331)、プロセッサ11が入力データから1レコードを処理対象とする(ステップ341)。さらにループに入り(ステップ351)、プロセッサ11が設定データを参照して対象データ項目がマスク対象であるか否かを判断する(ステップ361)。マスク対象であると判断した場合には、プロセッサ11が対象データ項目は文字データ指定か否かを判断する(ステップ371)。文字データ指定でないと判断した場合に、対象データ項目のデータを設定データにより関連付けがなされているマスタデータ内の対応データ項目のデータで置換する(ステップ371)。プロセッサ11が次のデータ項目がある場合にはかかるデータ項目を対象としてステップ351に戻る(ステップ352)。   FIG. 9 is a record generation operation flowchart of the personal information concealment device according to the present embodiment. First, the processor 11 reads master data into the main memory 12 (step 301). The processor 11 rearranges the master data array using random numbers. Specifically, rearrangement can be performed by determining the array element number (array subscript) of the array storing each master data by a random number and rearranging the array. The processor 11 initializes the replacement candidate counter i (step 321). For example, i = 1. A loop is entered (step 331), and the processor 11 processes one record from the input data (step 341). Further, a loop is entered (step 351), and the processor 11 refers to the setting data to determine whether or not the target data item is a mask target (step 361). If it is determined that it is a mask target, the processor 11 determines whether or not the target data item is character data designation (step 371). When it is determined that the character data is not designated, the data of the target data item is replaced with the data of the corresponding data item in the master data associated with the setting data (step 371). When the processor 11 has the next data item, the process returns to step 351 for the data item (step 352).

前記ステップ371で対象データ項目が文字データ指定であると判断した場合に、定義済み処理数値データ生成処理(ステップ500)に進む。この定義済み処理については後記する。この処理の後、プロセッサ11が対象データ項目のデータを生成データで置換し(ステップ391)、ステップ352に進む。   If it is determined in step 371 that the target data item is character data designation, the process proceeds to a predefined process numerical data generation process (step 500). This predefined process will be described later. After this processing, the processor 11 replaces the data of the target data item with the generated data (step 391), and proceeds to step 352.

次に、プロセッサ11が置換した入力データと入力データとが同一であるか否かを判断する(ステップ401)。同一であると判断した場合には、置換した入力データを対象外とすると共に、プロセッサ11が置換候補カウンタiをデクリメントとする(ステップ402)。ここで、置換した入力データと入力データとの比較は、完全一致の構成でもよいし、部分一致の構成であってもよい。例えば、キー候補のようなレコードを一意に識別するようなデータ項目で一致している場合には、ステップ402に進むことが望ましい。   Next, it is determined whether or not the input data replaced by the processor 11 is the same (step 401). If it is determined that they are the same, the replaced input data is excluded, and the processor 11 decrements the replacement candidate counter i (step 402). Here, the comparison between the replaced input data and the input data may be a completely matched configuration or a partially matched configuration. For example, when the data items such as key candidates uniquely identify the data items, it is desirable to proceed to step 402.

そして、プロセッサ11が現在まで置換した入力データ数が入力データ数分生成されたか否かを判断する(ステップ411)。生成されたと判断した場合には終了する。生成されていないと判断した場合には、置換候補カウンタiをインクリメントし、次の入力データのレコードがある場合にはかかるレコードを対象としてステップ331に戻る(ステップ332)。次のレコードがない場合にはステップ311−ステップ332のループを抜け、プロセッサ11が現在まで置換した入力データ数が入力データ数分生成されたか否かを判断する(ステップ421)。生成されたと判断した場合には終了する。生成されていないと判断した場合には、ステップ311に戻る。   Then, it is determined whether or not the number of input data replaced by the processor 11 so far has been generated (step 411). If it is determined that it has been generated, the process ends. If it is determined that it has not been generated, the replacement candidate counter i is incremented, and if there is a record of the next input data, the process returns to step 331 for that record (step 332). If there is no next record, the process goes out of the loop from step 311 to step 332, and it is determined whether or not the number of input data replaced by the processor 11 up to the present time has been generated (step 421). If it is determined that it has been generated, the process ends. If it is determined that it has not been generated, the process returns to step 311.

前記定義済み処理数値データ生成処理について次に説明する。図10は本実施形態に係る個人情報秘匿装置の数値生成動作フローチャートである。まず、プロセッサ11が入力データの対象データ項目の該当データを取得する(ステップ501)。プロセッサ11が設定データのマスク項目の指定文字列(数値指定)を取得する(ステップ511)。ループに入り(ステップ521)、プロセッサ11が指定文字列の次の2文字を取得する(ステップ531)。プロセッサ11が取得した文字が“$d”であるか否かを判断する(ステップ541)。$dであると判断した場合には、乱数にて0ないし9の数字を出力する(ステップ542)。“$d”でないと判断した場合には、プロセッサ11が取得した文字が“$n”であるか否かを判断する(ステップ551)。“$n”であると判断した場合、“$n”と同位置にある入力データの対象データ項目のデータを出力する(ステップ552)。“$n”でないと判断した場合、マスク項目指定文字をそのまま出力する(ステップ553)。次の指定文字がない場合にはステップ521−ステップ522のループを抜け、終了する。次の指定文字がある場合にはステップ521に戻る。   The predefined process numerical data generation process will be described next. FIG. 10 is a flowchart of the numerical value generation operation of the personal information concealment device according to the present embodiment. First, the processor 11 acquires the corresponding data of the target data item of the input data (step 501). The processor 11 acquires the designated character string (numerical value designation) of the mask item of the setting data (step 511). A loop is entered (step 521), and the processor 11 acquires the next two characters of the designated character string (step 531). It is determined whether or not the character acquired by the processor 11 is “$ d” (step 541). If it is determined that it is $ d, a number from 0 to 9 is output as a random number (step 542). If it is determined that it is not “$ d”, it is determined whether or not the character acquired by the processor 11 is “$ n” (step 551). If it is determined that it is “$ n”, the data of the target data item of the input data at the same position as “$ n” is output (step 552). If it is determined that it is not “$ n”, the mask item designation character is output as it is (step 553). If there is no next designated character, the loop of step 521 to step 522 is exited and the process is terminated. If there is a next designated character, the process returns to step 521.

[6.本実施形態の効果]
このように本発明においては、入力データに存在する姓、読みを用いて姓を構成する漢字を分離し、かかる漢字の分離に伴い読みも適切に分離し、分離した漢字から新たに姓を組成し、組成した姓に対応する読みを付与しているので、入力データ内の存在する漢字、読みをそのまま使用して組み合わせことになり、個人情報を秘匿しながら入力データのデータ特性を保持した出力データを得ることができる。また、漢字、読みの分離に伴い、辞書データを更新しているので、読みを適切に分離することができると共に、組成した漢字に適切な読みを付与することができる。姓、読み以外の入力データのデータ項目についても、必要に応じてランダムに置き換えることができ、使用者が望むテストデータを得ることができる。
[6. Effects of this embodiment]
As described above, in the present invention, the Chinese characters constituting the surname are separated by using the surname and reading existing in the input data, and the reading is appropriately separated along with the separation of the kanji, and a new surname is newly formed from the separated kanji. Since the reading corresponding to the surname is given, the kanji and reading that exist in the input data are used as they are, and the output is retained while maintaining the data characteristics of the input data while concealing personal information. Data can be obtained. Moreover, since the dictionary data is updated along with the separation of kanji and readings, readings can be appropriately separated and appropriate readings can be given to the composed kanji. The data items of the input data other than the surname and reading can also be replaced at random as necessary, and the test data desired by the user can be obtained.

(その他の実施形態)
[名前(姓)が3文字以上の場合] 前記第1の実施形態においては、姓が1文字及び2文字の場合について説示し、多くの姓を処理することができる。3文字の場合には、最初の2文字までを2文字からなる名前として処理し、1文字目の漢字及びその読み、2文字目の漢字及びその読みが求まる。そして、読みのうち1文字目の読み(1文字目の漢字の読み)、2文字目の読み(2文字目の漢字の読み)が決定されることで、必然的に3文字目の読みを決定することができる。ここで、1文字目の漢字及びその読み、2文字目の漢字及びその読みを必ず決定することができるわけでないために、逆に、3文字目の漢字の読みを3文字目の漢字を辞書データを用いて決定し、その後に1文字目の漢字の読み、2文字目の漢字の読みを決定する構成にすることもできる。
(Other embodiments)
[When Name (Last Name) Is More Than 3 Characters] In the first embodiment, a case where the last name is 1 character and 2 characters is explained, and many surnames can be processed. In the case of three characters, the first two characters are processed as a name consisting of two characters, and the first character and its reading are obtained. Then, the reading of the first character (reading of the first character) and the reading of the second character (reading of the second character) are inevitably determined. Can be determined. Here, since the first kanji and its reading cannot always be determined, the third kanji reading is reversed as the third kanji dictionary. It is also possible to adopt a configuration in which the determination is made using data, and then the reading of the first kanji is determined.

また、3文字目の漢字の場合でも参照に応じて参照回数を更新し、登録がなされていない場合には登録も行う。
3文字の漢字の姓の場合であっても、前記ステップ201を用いて3文字の漢字の姓を別の3文字の漢字の姓に変換することもできる。しかしながら、3文字以上の姓になると、それだけで個人を特定し得る情報ともなり得るので、3文字目以降の漢字を除外して2文字目までの漢字で姓を構成するようにすることが望ましい。ただし、3文字目以降の漢字も姓を決定する場合に選択される漢字として用いることはできる。
Also, even in the case of the third Chinese character, the reference count is updated according to the reference, and if it is not registered, registration is also performed.
Even in the case of a three-character kanji surname, the step 201 can be used to convert a three-character kanji last name into another three-character kanji last name. However, since a surname of 3 characters or more can be used as information that can identify an individual, it is desirable to exclude the 3rd and subsequent kanji characters and make up the last name with 2 kanji characters. . However, the third and subsequent kanji can also be used as the kanji selected when determining the surname.

このように3文字以上の名前に本発明を適用することで、姓名全体を秘匿処理することもできる。また、姓名をスペース等の文字で区別している場合にはそれぞれ処理することで、より姓らしい新たな姓、より名らしい新たな名を生成することができる。   In this way, by applying the present invention to a name having three or more characters, the entire first and last name can be concealed. Further, when the first and last names are distinguished by a character such as a space, a new last name that seems to be a last name and a new name that is more likely to be a first name can be generated by processing each name.

[漢字以外のひらがな、カタカナ等からなる名前への秘匿処理] 前記第1の実施形態においては、姓が漢字からなる場合について説示したが、ひらがな、カタカナ等の漢字以外の文字からなる場合には、辞書データを参照することなく読みを分割するのができ、容易に対応することができる。ただし、姓を決定する場合に選択される文字として、ひらがな、カタカナ等の漢字以外の文字を対象外とするのが望ましい。   [Concealment Process for Names Containing Hiragana, Katakana, etc. Other than Kanji] In the first embodiment, the case where the surname consists of kanji has been described, but in the case where the surname consists of characters other than kanji, such as hiragana, katakana, etc. The reading can be divided without referring to the dictionary data and can be handled easily. However, it is desirable to exclude characters other than kanji such as hiragana and katakana as characters to be selected when determining the surname.

姓自体でひらがな、カタカナを含むものは少ないが、名前にひらがな、かたかなを含む個人は少なからず存在する。また、会社名であれば多くの会社が存在する。
以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。
There are few surnames that contain hiragana and katakana, but there are many individuals whose names contain hiragana and katakana. There are many companies with company names.
Although the present invention has been described with the above embodiments, the technical scope of the present invention is not limited to the scope described in the embodiments, and various modifications or improvements can be added to these embodiments. . And embodiment which added such a change or improvement is also contained in the technical scope of the present invention. This is apparent from the claims and the means for solving the problems.

[付記] 上記実施形態に関し、更に以下の付記を開示する。
(付記1) 少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段とを備える個人情報秘匿装置。
[Appendix] The following appendices are further disclosed with respect to the embodiment.
(Supplementary note 1) Personal information including at least a name that is a character string consisting of kanji, including name reading that is a character string consisting of a reading for the name is used as input data, and the name of the input data is divided in character units. The name reading is divided so that it corresponds to the character-by-character kanji, the kanji reading dividing means for associating the divided kanji with the corresponding reading, the kanji divided from the divided kanji and the corresponding readings, and the corresponding readings Name composition means for generating one name and name reading by associating a character string consisting of kanji and a reading corresponding to the character string consisting of kanji characters by combining one or more at random, and kanji reading composition means for the name in the input data The name reading in the input data and the name reading associated with the name generated by the kanji reading composition means A personal information concealment device comprising:

したがって、入力データを構成する名前を漢字毎に分割し、分割したそれぞれの漢字の読みを名前読みから分割し、分割したそれぞれの漢字及び当該漢字に対応する読みから1以上取り出し、取り出した漢字及び読みを組み合せて新たに名前及び名前読みを生成し、生成した名前及び名前読みで入力データの名前及び名前読みを置き換えているので、入力データの漢字及び読みを使用しており入力データのデータ特性を保持しつつ、個人情報を秘匿した出力データを得ることができる。   Therefore, the name constituting the input data is divided for each kanji, the divided kanji readings are divided from the name reading, and one or more are extracted from each divided kanji and the reading corresponding to the kanji, and the extracted kanji and Since the name and name reading are newly generated by combining the readings, and the name and name reading of the input data are replaced with the generated name and name reading, the kanji and reading of the input data are used, and the data characteristics of the input data Output data in which personal information is concealed can be obtained.

名前は、氏名、団体・組織・建造物などの名称、名目及び名義、並びに、事物の名称及び名を含むものである。
特に、生成した名前が入力データ中の名前と重複しないか否かをチェックし、重複する場合にはその新しい名前を採用しない構成にすることで、より確実に個人情報を秘匿することができる。
The name includes the name, the name of the group / organization / building, the name and name, and the name and name of the thing.
In particular, it is possible to more securely conceal personal information by checking whether or not the generated name is duplicated with the name in the input data, and in the case of duplication, the new name is not adopted.

(付記2) 文字単位の漢字と当該漢字に対する読みからなる辞書データを記録する辞書データ記憶手段をさらに備え、前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、前記漢字読み分割手段により名称読みが分割された場合に分割された漢字に対応する分割された名称読みが辞書データに未登録の場合に、辞書データに当該名称読みを漢字に関連付けて登録する手段を備える前記付記1に記載の個人情報秘匿装置。     (Additional remark 2) It further has a dictionary data storage means which records the dictionary data which consists of the kanji of a character unit and the reading with respect to the said kanji, The said kanji reading division | segmentation means refers to dictionary data based on the separated kanji of a character unit, Reads kanji readings, if name readings include readings that are read, divides name readings by corresponding readings, and supports divided kanji when name readings are divided by the kanji reading dividing means The personal information concealment device according to appendix 1, further comprising means for registering the name reading in the dictionary data in association with the kanji when the divided name reading to be performed is not registered in the dictionary data.

したがって、名前読みを分割する場合に辞書データを参照して分割し、分割した漢字に対応する読みが辞書データに登録されていない場合に新たに漢字に関連付けて読みを登録するので、個人情報を秘匿処理を実行する度に辞書データが更新され新たな読みが登録され、名称読みをより適切に分割することができる。   Therefore, when dividing a name reading, it is divided by referring to the dictionary data, and when the reading corresponding to the divided kanji is not registered in the dictionary data, the reading is newly registered in association with the kanji, so the personal information is stored. Every time the concealment process is executed, the dictionary data is updated, a new reading is registered, and the name reading can be more appropriately divided.

(付記3) 文字単位の漢字、当該漢字に対する読み、参照回数からなる辞書データを記録する辞書データ記憶手段をさらに備え、前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、前記辞書データが分割に係った漢字及び当該漢字に対する読みに対応する参照回数を更新する手段を備え、前記名前組成手段が生成した名前を構成する漢字毎の読みを当該各漢字に基づき前記辞書データを参照して最も参照回数の多い読みとし、名前読みをこれら読みで置き換える手段を備える前記付記1に記載の個人情報秘匿装置。     (Additional remark 3) It further has a dictionary data storage means which records the dictionary data which consists of the kanji of a character unit, the reading with respect to the said kanji, and the frequency | count of reference, and the said kanji reading division | segmentation means refers to dictionary data based on the separated kanji of the character unit The name reading is divided by the corresponding reading when the name reading includes the reading, and the dictionary data corresponds to the kanji related to the division and the reading for the kanji. Means for updating the number of times of reference to be performed, and the reading of each kanji that constitutes the name generated by the name composition means is referred to the dictionary data based on each kanji and is set to the reading with the highest number of references, The personal information concealment device according to appendix 1, comprising means for replacing by reading.

したがって、名前読みを分割する場合に辞書データを参照して分割し、分割時に使用した漢字及び対応する読みに対応する参照回数を更新し、生成した名前読みを名前を構成する漢字に対する読み毎に辞書データ内で当該漢字に対する読みのうち最も参照回数の多い読みで置き換えるので、名前読みが最も用いられる読みで構成され、名前に対する名前読みが不自然となることを改善することができる。   Therefore, when dividing a name reading, it is divided by referring to the dictionary data, the kanji used at the time of division and the reference count corresponding to the corresponding reading are updated, and the generated name reading is read for each reading of the kanji constituting the name. Since the dictionary data is replaced with the reading with the highest number of references among the readings for the kanji, the name reading is composed of the most frequently used readings, and it is possible to improve that the name reading for the name becomes unnatural.

(付記4) 入力データを構成するデータ項目に対応するデータ項目のデータからなるマスタデータを記録するマスタデータ記憶手段と、入力データを構成する名前及び名前読み以外のデータ項目のデータをマスタデータの対応するデータ項目のデータをランダムに取り出して置き換える手段とを備える前記付記1に記載の個人情報秘匿装置。     (Supplementary Note 4) Master data storage means for recording master data composed of data of data items corresponding to data items constituting input data, and data of data items other than name and name reading constituting input data The personal information concealment device according to appendix 1, further comprising means for randomly extracting and replacing data of corresponding data items.

したがって、マスタデータの対応するデータ項目のデータをランダムに取り出し、入力データのデータと置き換えるので、個人情報が対応するデータ項目のマスタデータのデータで置き換えられ、個人情報を秘匿することができる。   Therefore, since the data of the corresponding data item of the master data is randomly extracted and replaced with the data of the input data, the personal information is replaced with the data of the master data of the corresponding data item, and the personal information can be kept secret.

(付記5) マスタデータの中でデータ項目間に関係を有する複数データ項目を一まとまりのデータ項目群としてマスタデータ記憶手段に記録し、マスタデータの並び変え対象のデータ項目がデータ項目群を構成する場合、データ項目群でランダムに取り出し、入力データのデータをデータ項目群のデータで一括して置き換える前記付記4に記載の個人情報秘匿装置。     (Appendix 5) A plurality of data items having a relationship between data items in the master data are recorded as a group of data items in the master data storage means, and the data items to be rearranged in the master data constitute the data item group In such a case, the personal information concealment device according to appendix 4, wherein the data item group is randomly extracted and the input data is collectively replaced with the data item group data.

したがって、マスタデータの対応するデータ項目をデータ項目群単位でランダムに取り出し、入力データのデータと置き換えるので、データ項目間に関係がある場合にはその関係を保持しつつ入力データのデータをマスタデータのデータで置き換えることができる。具体的には、住所が都道府県、市区町村、丁目のデータ項目からなる場合には、都道府県、市区町村、丁目のデータ項目のデータは都道府県、市区町村、丁目それぞれに取り出されるのではなく、一括して都道府県、市区町村、丁目が取り出され、「福岡県」「渋谷区」「2丁目」といったようにデータ項目間の整合性が取れていない複数データで入力データのレコードが置き換わることがない。   Therefore, the corresponding data item of the master data is randomly extracted in units of data item groups and replaced with the data of the input data. If there is a relationship between the data items, the data of the input data is retained while maintaining the relationship. It can be replaced with data. Specifically, if the address consists of data items for prefectures, cities, and towns, the data for the data items for the prefectures, cities, and towns are retrieved to the prefectures, cities, and towns, respectively. Instead, the prefectures, cities, towns and villages are extracted in a lump, and the input data can be input as multiple data items that are not consistent between data items, such as “Fukuoka Prefecture”, “Shibuya Ward”, and “2 Chome”. Records are not replaced.

(付記6) コンピュータを、
少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段として機能させるための個人情報秘匿プログラム。
(Appendix 6)
At least a name that is a character string consisting of kanji characters, personal information including a name reading that is a character string consisting of readings for the name is used as input data, the name of the input data is divided in character units, and the divided character unit A kanji reading dividing means for dividing a name reading so as to correspond to a kanji and associating the divided kanji with the corresponding reading, and a kanji divided from a plurality of divided kanji and corresponding readings and a corresponding reading at random 1 Name composition means for generating a name and a name reading by associating a character string composed of kanji and a reading corresponding to the character string composed of the kanji characters by combining them, and a name generated by the kanji reading composition means, respectively, in the input data And replace the name reading in the input data with the name reading associated with the name generated by the Kanji reading composition means. Personal information confidential program for functioning as means for outputting Te.

本発明の個人情報秘匿装置で生成した出力データは、プログラム作成のテスト工程で実データに極めて近いテストデータとして使用することができる。すなわち、実データのデータ特性を有するテストデータを用いることができる。したがって、システム構築先で旧システムで用いていたデータを個人情報秘匿装置で秘匿処理して出力されたテストデータを用いることにより、実環境に近い形でテストを行うことができる。   The output data generated by the personal information concealment device of the present invention can be used as test data that is very close to actual data in a test process for creating a program. That is, test data having data characteristics of actual data can be used. Therefore, the test can be performed in a form close to a real environment by using the test data output after the data used in the old system at the system construction destination is concealed by the personal information concealment device.

従来、プログラマー、システムエンジニア、品質保証部員は、プログラムモジュールに合わせてテストプログラムだけでなくテストデータも作成していたが、膨大なテストデータを作成するには多くの時間を有すると共に、作成したデータが実データと乖離したテストデータとなっていることが少なくなかった。
また、個人情報をテストデータとして用いることもできるが、個人情報の管理上複数の手続きを必要とするため簡易に利用することができなかった。
Traditionally, programmers, system engineers, and quality assurance departments have created not only test programs but also test data according to the program modules. Often, test data differed from actual data.
Personal information can also be used as test data, but it cannot be used easily because it requires a plurality of procedures for managing personal information.

本発明の実施形態に係る個人情報秘匿装置のデータフロー図である。It is a data flow figure of the personal information concealment device concerning the embodiment of the present invention. 本発明の実施形態に係る個人情報秘匿装置のハードウェア構成図である。It is a hardware block diagram of the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置で使用するデータ説明図である。It is data explanatory drawing used with the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置による具体的データを用いた説明図である。It is explanatory drawing using the concrete data by the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置による具体的データを用いた説明図である。It is explanatory drawing using the concrete data by the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置による具体的データを用いた説明図である。It is explanatory drawing using the concrete data by the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置の漢字かな分割動作フローチャートである。It is a Chinese character kana division | segmentation operation | movement flowchart of the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置の組成動作フローチャートである。It is a composition operation | movement flowchart of the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置のレコード生成動作フローチャートである。It is a record production | generation operation | movement flowchart of the personal information concealment apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報秘匿装置の数値生成動作フローチャートである。It is a numerical value generation operation | movement flowchart of the personal information concealment apparatus which concerns on embodiment of this invention.

符号の説明Explanation of symbols

10 コンピュータ
11 CPU(プロセッサ)
12 DRAM
13 HD
14 ディスプレイ
15 キーボード
16 マウス
17 LANカード
18 CD−ROMドライブ

10 Computer 11 CPU (Processor)
12 DRAM
13 HD
14 Display 15 Keyboard 16 Mouse 17 LAN card 18 CD-ROM drive

Claims (5)

少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、
複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、
入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段とを備える個人情報秘匿装置。
At least a name that is a character string consisting of kanji characters, personal information including a name reading that is a character string consisting of readings for the name is used as input data, the name of the input data is divided in character units, and the divided character unit A kanji reading dividing means for dividing the name reading so as to correspond to the kanji and associating the divided kanji with the corresponding reading;
Name and name by associating one or more randomly extracted kanji characters and corresponding readings from a plurality of divided kanji characters and corresponding readings and associating them with character strings consisting of kanji characters and readings corresponding to character strings consisting of the kanji characters. Name composition means to generate as a reading;
Personal information comprising means for replacing the name in the input data with the name generated by the kanji reading composition means, and replacing the name reading in the input data with the name reading associated with the name generated by the kanji reading composition means Concealment device.
文字単位の漢字と当該漢字に対する読みからなる辞書データを記録する辞書データ記憶手段をさらに備え、
前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、
前記漢字読み分割手段により名称読みが分割された場合に分割された漢字に対応する分割された名称読みが辞書データに未登録の場合に、辞書データに当該名称読みを漢字に関連付けて登録する手段を備える
前記請求項1に記載の個人情報秘匿装置。
It further comprises dictionary data storage means for recording dictionary data consisting of kanji in character units and readings for the kanji,
The kanji reading division means reads the reading for the kanji by referring to the dictionary data based on the separated kanji for each character, and if the name reading includes the reading, the name reading is divided by the corresponding reading. And
Means for registering the name reading in the dictionary data in association with the kanji when the name reading corresponding to the divided kanji is not registered in the dictionary data when the name reading is divided by the kanji reading dividing means. The personal information concealment device according to claim 1.
文字単位の漢字、当該漢字に対する読み、参照回数からなる辞書データを記録する辞書データ記憶手段をさらに備え、
前記漢字読み分割手段が、分離した文字単位の漢字に基づき辞書データを参照して当該漢字に対する読みを読み出し、名前読みが読み出した読みを含んでいる場合に名前読みを該当読みで名前読みを分割し、
前記辞書データが分割に係った漢字及び当該漢字に対する読みに対応する参照回数を更新する手段を備え、
前記名前組成手段が生成した名前を構成する漢字毎の読みを当該各漢字に基づき前記辞書データを参照して最も参照回数の多い読みとし、名前読みをこれら読みで置き換える手段を備える
前記請求項1に記載の個人情報秘匿装置。
It further comprises dictionary data storage means for recording dictionary data consisting of kanji in character units, reading for the kanji, and the number of references,
The kanji reading division means reads the reading for the kanji by referring to the dictionary data based on the separated kanji for each character, and if the name reading includes the reading, the name reading is divided by the corresponding reading. And
Means for updating the number of references corresponding to the kanji for the division of the dictionary data and the reading of the kanji,
A means for replacing the reading of each kanji that constitutes the name generated by the name composition means with the highest number of references by referring to the dictionary data based on each kanji and replacing the name reading with these readings. The personal information concealment device described in 1.
入力データを構成するデータ項目に対応するデータ項目のデータからなるマスタデータを記録するマスタデータ記憶手段と、
入力データを構成する名前及び名前読み以外のデータ項目のデータをマスタデータの対応するデータ項目のデータをランダムに取り出して置き換える手段とを備える
前記請求項1に記載の個人情報秘匿装置。
Master data storage means for recording master data composed of data of data items corresponding to data items constituting input data;
The personal information concealment device according to claim 1, further comprising: means for randomly extracting and replacing data of data items corresponding to master data for data items other than names and name readings constituting input data.
コンピュータを、
少なくとも漢字からなる文字列である名前を含み、当該名前に対する読みからなる文字列である名前読みを含む個人情報を入力データとし、当該入力データの名称を文字単位で分割し、分割した文字単位の漢字に対応するように名前読みを分割し、分割した漢字と対応する読みを関連付ける漢字読み分割手段と、
複数の分割した漢字とそれに対応する読みから分割した漢字とそれに対応する読みをランダムに1以上取り出し組み合せて漢字からなる文字列及び当該漢字からなる文字列に対応する読みを関連付けてそれぞれ名前及び名前読みとして生成する名前組成手段と、
入力データ中の名前を漢字読み組成手段で生成した名前で置き換えると共に、入力データ中の名前読みを漢字読み組成手段で生成した名前に関連付いた名前読みで置き換えて出力する手段として機能させるための個人情報秘匿プログラム。

Computer
At least a name that is a character string consisting of kanji characters, personal information including a name reading that is a character string consisting of a reading for the name is used as input data, the name of the input data is divided in character units, and the divided character unit A kanji reading dividing means for dividing the name reading so as to correspond to the kanji and associating the divided kanji with the corresponding reading;
Name and name by associating one or more randomly extracted kanji characters and corresponding readings from a plurality of divided kanji characters and corresponding readings and associating the kanji character strings and the corresponding kanji character string readings. Name composition means to generate as a reading;
To replace the name in the input data with the name generated by the Kanji reading composition means, and to function as a means to output the name reading in the input data by replacing it with the name reading associated with the name generated by the Kanji reading composition means Personal information concealment program.

JP2005298193A 2005-10-12 2005-10-12 Personal information concealing device and program for same Withdrawn JP2007108356A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005298193A JP2007108356A (en) 2005-10-12 2005-10-12 Personal information concealing device and program for same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005298193A JP2007108356A (en) 2005-10-12 2005-10-12 Personal information concealing device and program for same

Publications (1)

Publication Number Publication Date
JP2007108356A true JP2007108356A (en) 2007-04-26

Family

ID=38034269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005298193A Withdrawn JP2007108356A (en) 2005-10-12 2005-10-12 Personal information concealing device and program for same

Country Status (1)

Country Link
JP (1) JP2007108356A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012529114A (en) * 2009-06-01 2012-11-15 アビニシオ テクノロジー エルエルシー Generating obfuscated values
JP2013030171A (en) * 2012-08-27 2013-02-07 Fujitsu Ltd Information protection method, information processor and program
JP2013196269A (en) * 2012-03-19 2013-09-30 Hitachi Systems Ltd Test data generation system and test data generation device
JP2016218739A (en) * 2015-05-20 2016-12-22 株式会社野村総合研究所 Data masking device, data masking method, and computer program
JP2016218738A (en) * 2015-05-20 2016-12-22 株式会社野村総合研究所 Data masking device, data masking method, and computer program
CN111669394A (en) * 2020-06-04 2020-09-15 西安空间无线电技术研究所 Method for hiding and transmitting image and voice information of satellite communication

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012529114A (en) * 2009-06-01 2012-11-15 アビニシオ テクノロジー エルエルシー Generating obfuscated values
JP2013196269A (en) * 2012-03-19 2013-09-30 Hitachi Systems Ltd Test data generation system and test data generation device
JP2013030171A (en) * 2012-08-27 2013-02-07 Fujitsu Ltd Information protection method, information processor and program
JP2016218739A (en) * 2015-05-20 2016-12-22 株式会社野村総合研究所 Data masking device, data masking method, and computer program
JP2016218738A (en) * 2015-05-20 2016-12-22 株式会社野村総合研究所 Data masking device, data masking method, and computer program
CN111669394A (en) * 2020-06-04 2020-09-15 西安空间无线电技术研究所 Method for hiding and transmitting image and voice information of satellite communication

Similar Documents

Publication Publication Date Title
US11704342B2 (en) Similarity sharding
US10180992B2 (en) Atomic updating of graph database index structures
US8649552B2 (en) Data obfuscation of text data using entity detection and replacement
US20120102041A1 (en) Genetic information management system and method
WO2015045155A1 (en) Corpus generation device, corpus generation method, and corpus generation program
JP2007108356A (en) Personal information concealing device and program for same
KR101365860B1 (en) Short point-of-interest title generation
JP2006221647A (en) Method and system for obfuscating data structure by deterministic natural data substitution
JP6781373B2 (en) Search program, search method, and search device
JPWO2008142791A1 (en) Difference calculation program, difference calculation device, and difference calculation method
JP2005285002A (en) Test data generation apparatus
Weitz et al. Mining MARC's hidden treasures: initial investigations into how notes of the past might shape our future
JP2018101244A (en) Data cleansing system, data cleansing method, and data cleansing program
JP2013149056A (en) Method, apparatus, and program for processing computer-assisted name identification
JP6436171B2 (en) Information generating apparatus, information generating method and program
JP6604207B2 (en) Relation information generation method, apparatus, and program
JP7279524B2 (en) Data management program, data management method and data management system
Banos et al. Spatio-temporal exploration of SARS epidemic
JP2008210229A (en) Device, method and program for retrieving intellectual property information
CN104765829B (en) A kind of information retrieval method and device
JP2014174921A (en) Information processing system, and name-identification determination method and program
JP2003223459A (en) Managing method for address information
JP6076285B2 (en) Translation apparatus, translation method, and translation program
JP5538512B2 (en) Customer information input support system
JP7215722B2 (en) Sorted data generation device, sorted data production method, program and recording medium

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090106