JP2016218739A - Data masking device, data masking method, and computer program - Google Patents

Data masking device, data masking method, and computer program Download PDF

Info

Publication number
JP2016218739A
JP2016218739A JP2015102955A JP2015102955A JP2016218739A JP 2016218739 A JP2016218739 A JP 2016218739A JP 2015102955 A JP2015102955 A JP 2015102955A JP 2015102955 A JP2015102955 A JP 2015102955A JP 2016218739 A JP2016218739 A JP 2016218739A
Authority
JP
Japan
Prior art keywords
character string
information items
original
replacement
replacement character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015102955A
Other languages
Japanese (ja)
Inventor
俊彦 佐々木
Toshihiko Sasaki
俊彦 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2015102955A priority Critical patent/JP2016218739A/en
Publication of JP2016218739A publication Critical patent/JP2016218739A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data masking technique for further improving usability of a document after masking information.SOLUTION: A data masking device 14 holds replacement character strings of a plurality of information items recorded in an original document 16 and associated with each other. Between the replacement character strings of the plurality of items held by the data masking device 14, a relation between original character strings of the plurality of information items recorded in the original document 16 is maintained. The data masking device 14 generates a conversion document 18 by replacing the original character strings of the plurality of information items recorded in the original document 16 with the preliminarily held replacement character strings of the plurality of information items.SELECTED DRAWING: Figure 1

Description

この発明は、データ処理技術に関し、特にデータマスキング技術に関する。   The present invention relates to a data processing technique, and more particularly to a data masking technique.

本出願人は、個人情報をマスクした後の文書について、テストデータとしての品質低下を抑制するための技術を提案している(例えば特許文献1参照)。特許文献1のデータ変換装置は、マスク対象となる個人情報を示す文字列をそのハッシュ値で置換する。   The present applicant has proposed a technique for suppressing deterioration in quality as test data for a document after masking personal information (see, for example, Patent Document 1). The data conversion apparatus of Patent Document 1 replaces a character string indicating personal information to be masked with the hash value.

特開2013−246547号公報JP 2013-246547 A

本発明者は、マスク後の文字列から元の文字列が推測できる場合、マスクの意義が没却されかねないと考えた。また、漢字姓とかな姓のように互いに関連する複数の情報項目の文字列を1つの項目単位でマスクした場合、情報項目間の関連性が崩れてしまい、テストデータとしての価値が低下すると考えた。本発明は、本発明者の上記課題認識に基づいてなされたものであり、主たる目的は、情報をマスクした後の文書の有用性を一層高めるためのデータマスキング技術を提供することである。   The inventor considered that the significance of the mask may be lost if the original character string can be estimated from the character string after masking. Also, if the character strings of multiple information items that are related to each other, such as kanji surname and kana surname, are masked in one item unit, the relationship between the information items will be lost and the value as test data will be reduced. It was. The present invention has been made on the basis of the above-mentioned problem recognition of the present inventor, and a main object thereof is to provide a data masking technique for further enhancing the usefulness of a document after masking information.

上記課題を解決するために、本発明のある態様のデータマスキング装置は、原本データに記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を保持する置換文字列保持部と、原本データに記録された複数の情報項目の原本文字列を、置換文字列保持部に保持された複数の情報項目の置換文字列へ置換する文字列置換部と、を備える。置換文字列保持部に保持された複数の情報項目の置換文字列間では、原本データに記録された複数の情報項目の原本文字列間の関係が維持されている。   In order to solve the above problems, a data masking device according to an aspect of the present invention provides a replacement character string that is a plurality of information items recorded in original data and holds replacement character strings of a plurality of information items related to each other. A holding unit; and a character string replacement unit that replaces the original character strings of the plurality of information items recorded in the original data with the replacement character strings of the plurality of information items held in the replacement character string holding unit. The relationship between the original character strings of the plurality of information items recorded in the original data is maintained between the replacement character strings of the plurality of information items held in the replacement character string holding unit.

本発明の別の態様は、データマスキング方法である。この方法は、原本データに記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を記憶する記憶領域を参照して、原本データに記録された複数の情報項目の原本文字列を、記憶領域に記憶された複数の情報項目の置換文字列へ置換するステップをデータマスキング装置が実行し、記憶領域に記憶された複数の情報項目の置換文字列間では、原本データに記録された複数の情報項目の原本文字列間の関係が維持されている。   Another aspect of the present invention is a data masking method. This method is a plurality of information items recorded in the original data, and refers to a storage area that stores a replacement character string of the plurality of information items related to each other. The data masking device executes a step of replacing the original character string with a replacement character string of a plurality of information items stored in the storage area, and the original data between the replacement character strings of the plurality of information items stored in the storage area The relationship between the original character strings of a plurality of information items recorded in is maintained.

なお、以上の構成要素の任意の組合せ、本発明の表現を、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above components and the expression of the present invention converted between a system, a computer program, a recording medium storing the computer program, and the like are also effective as an aspect of the present invention.

本発明によれば、情報をマスクした後の文書の有用性を一層高めることができる。   According to the present invention, the usefulness of a document after information is masked can be further enhanced.

第1実施形態の情報処理システムの構成を示す図である。It is a figure which shows the structure of the information processing system of 1st Embodiment. 図1のデータマスキング装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data masking apparatus of FIG. 第1実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding | maintenance part of 1st Embodiment. 変形例の変換辞書を示す図である。It is a figure which shows the conversion dictionary of a modification. 第2実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding | maintenance part of 2nd Embodiment. 第2実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding | maintenance part of 2nd Embodiment. 変形例の変換辞書を示す図である。It is a figure which shows the conversion dictionary of a modification. 第3実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding | maintenance part of 3rd Embodiment.

実施の形態の情報処理システムの構成を説明する前に、実施の形態のデータマスキングの概要を述べる。以下では、データをマスキングする前のオリジナルの文書データを原本文書と呼び、データをマスキングした後の文書データを変換文書と呼ぶ。また、原本文書に記録された文字列であり、すなわち元データとしてのオリジナル文字列を原本文字列と呼ぶ。また、原本文字列を置換するための文字列であり、すなわち変換文書において原本文字列に代えて記録される文字列を置換文字列と呼ぶ。   Before describing the configuration of the information processing system according to the embodiment, an outline of data masking according to the embodiment will be described. In the following, original document data before masking data is called an original document, and document data after data masking is called a converted document. Further, it is a character string recorded in the original document, that is, an original character string as original data is called an original character string. A character string for replacing the original character string, that is, a character string recorded in place of the original character string in the converted document is referred to as a replacement character string.

実施の形態のデータマスキングは、原本文書における原本文字列を、それとは異なる置換文字列へ置換えることである。また、データの形式を維持しつつも、データが指し示す情報内容を不可視化、隠蔽することとも言える。   The data masking of the embodiment is to replace the original character string in the original document with a different replacement character string. It can also be said that the information content indicated by the data is invisible and concealed while maintaining the data format.

データマスキングにおいて本発明者が認識した第1の課題を説明する。個人情報をマスキングする方法として、これまでは原本文字列をランダムな文字列に置換える方法が採用されることがあった。例えば、人の姓に関する原本文字列「山田」「佐々木」「田中」をそれぞれ「じえ」「いうい」「山う」に置換えることがあった。また別の方法として、原本文字列を固定的な文字列に置換える方法が採用されることもあった。例えば、原本文字列「山田」「佐々木」「田中」をそれぞれ「佐藤01」「佐藤02」「佐藤03」に置き換えることがあった。   A first problem recognized by the present inventors in data masking will be described. As a method of masking personal information, a method of replacing an original character string with a random character string has been adopted so far. For example, the original character strings “Yamada”, “Sasaki”, and “Tanaka” relating to a person's last name may be replaced with “Jie”, “Noii”, and “Yamau”, respectively. As another method, a method of replacing an original character string with a fixed character string may be adopted. For example, the original character strings “Yamada”, “Sasaki”, and “Tanaka” may be replaced with “Sato 01”, “Sato 02”, and “Sato 03”, respectively.

しかし、このような方法では原本文字列と置換文字列の整合性が維持されない。例えば、変換文書の情報項目「姓」に「じえ」「いうい」「山う」が設定される場合、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらい。また、変換文書の情報項目「姓」に「佐藤01」「佐藤02」「佐藤03」が設定される場合、変換文書の利用者が違和感を抱くこともある。また、このような変換文書でテストを実施した場合、そのテスト結果が正しいか否かを判別しにくくなることもあった。   However, in such a method, consistency between the original character string and the replacement character string is not maintained. For example, when “Jie”, “Noii”, “Yamau” are set in the information item “last name” of the converted document, the user of the converted document intuitively knows that the character string is “last name”. Difficult to distinguish. In addition, when “Sato 01”, “Sato 02”, and “Sato 03” are set in the information item “last name” of the converted document, the user of the converted document may feel uncomfortable. Further, when a test is performed using such a converted document, it may be difficult to determine whether the test result is correct.

なお、このような問題は、原本文字列をハッシュ文字列へ置換える場合も同様に起こりうる。例えば、変換文書の情報項目「姓」にハッシュ値が設定されるため、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらく、違和感を抱くこともある。また、変換文書を用いたテスト結果が正しいか否かを判別しにくくなることもあった。   Such a problem can also occur when the original character string is replaced with a hash character string. For example, since a hash value is set for the information item “last name” of the converted document, it is difficult for the user of the converted document to intuitively determine that the character string is “last name”, and may feel uncomfortable. . In addition, it may be difficult to determine whether the test result using the converted document is correct.

このように、ランダムな文字列や固定文字列によりマスキングすると、変換文書の利用観点からの品質を低下させることがあった。そこで別の方法として、何らかの規則にしたがってマスキングする方法が採用されることもあった。例えば、「鈴木」を「三田村」、「佐藤」を「守屋」、「菊池」を「中田」に対応付けた辞書を設け、原本文字列「鈴木」「佐藤」「菊池」をそれぞれ「三田村」「守屋」「中田」に置換えることがあった。   Thus, when masking with a random character string or a fixed character string, the quality from the viewpoint of using the converted document may be deteriorated. Therefore, as another method, a method of masking according to some rule may be adopted. For example, a dictionary that associates “Suzuki” with “Mitamura”, “Sato” with “Moriya”, and “Kikuchi” with “Nakada” is provided, and the original character strings “Suzuki”, “Sato”, and “Kikuchi” are set to “Mitamura”. Sometimes replaced with "Moriya" and "Nakada".

しかし、この方法では辞書で予め定められた規則による文字列置換となるため、置換文字列から元の原本文字列を推測されやすいという問題があった。例えば、変換文書の情報項目「姓」における「三田村」「守屋」の出現頻度が高いため、「三田村」「守屋」は実際には「鈴木」「佐藤」(日本人に多い姓)でないかと推測されてしまう。また、マスキング前の元データをある程度把握している人には、特定の置換文字列の登場傾向によって元の原本文字列の推測が容易であった。   However, this method has a problem that the original original character string can be easily guessed from the replacement character string because the character string replacement is performed according to a rule predetermined in the dictionary. For example, because “Mitamura” and “Moriya” appear frequently in the information item “Last name” in the converted document, it is assumed that “Mitamura” and “Moriya” are actually “Suzuki” and “Sato” (a surname most commonly used by Japanese people). Will be. In addition, it is easy for a person who knows to some extent the original data before masking to guess the original original character string due to the appearance tendency of a specific replacement character string.

次に、データマスキングにおいて本発明者が認識した第2の課題を説明する。互いに関連する複数の情報項目が置換対象である場合、1つの情報項目単位でマスクすると、複数の情報項目の原本文字列間の関係が、マスキング後のそれら複数の情報項目の置換文字列間に反映されない。例えば、情報項目「漢字姓」と「かな姓」が置換対象である場合、「漢字姓」と「かな姓」の置換文字列を個別に決定すると、マスキング後は漢字と読みの関係がくずれてしまう。   Next, a second problem recognized by the inventor in data masking will be described. When multiple information items that are related to each other are to be replaced, if masking is performed in units of one information item, the relationship between the original character strings of the plurality of information items is between the replacement character strings of the plurality of information items after masking. Not reflected. For example, if the information items “Kanji surname” and “Kana surname” are to be replaced, if the replacement character strings of “Kanji surname” and “Kana surname” are individually determined, the relationship between kanji and reading will be lost after masking. End up.

具体的には、情報項目「漢字姓」の原本文字列「山田」「佐々木」「中田」をそれぞれ置換文字列「佐藤」「鈴木」「中田」に置き換えるとする。その一方、情報項目「かな姓」の原本文字列「やまだ」「さとう」「なかた」をそれぞれ置換文字列「たにぐち」「かわぐち」「おさない」に置き換えるとする。この場合、原本文書の「山田」「やまだ」は、変換文書では「佐藤」「たにぐち」となり、変換文書の利用者が違和感を抱くことがある。また、このような変換文書で、かな姓によるソート機能や検索機能のテストを実施した場合、テスト結果の正否を判別しにくくなることもあった。   Specifically, it is assumed that the original character strings “Yamada”, “Sasaki”, and “Nakada” of the information item “Kanji surname” are replaced with the replacement character strings “Sato”, “Suzuki”, and “Nakada”, respectively. On the other hand, it is assumed that the original character strings “Yamada”, “Sato”, “Nakata” of the information item “Kana surname” are respectively replaced with the replacement character strings “Taniguchi”, “Kawaguchi”, “Onai”. In this case, “Yamada” and “Yamada” in the original document become “Sato” and “Taniguchi” in the converted document, and the user of the converted document may feel uncomfortable. In addition, when such a converted document is subjected to a kana surname sorting function or search function test, it may be difficult to determine whether the test result is correct or not.

実施の形態のデータマスキング技術は、第1の課題を解決するために、特徴1として、複数の情報項目(例えば姓と名)の原本文字列の組み合わせに基づいて置換文字列を決定する。また、第2の課題を解決するために、特徴2として、原本文書における情報項目間の関連性(関係性)を反映した変換辞書を保持し、その変換辞書を参照して、原本文書における情報項目間の関連性を維持したマスキングを実行する。   In order to solve the first problem, the data masking technology of the embodiment determines, as feature 1, a replacement character string based on a combination of original character strings of a plurality of information items (for example, first name and last name). In order to solve the second problem, as the feature 2, a conversion dictionary reflecting the relationship (relationship) between information items in the original document is held, and the information in the original document is referred to by referring to the conversion dictionary. Perform masking while maintaining the relationship between items.

以下、特徴1に関して第1の実施の形態(以下「第1実施形態」と呼ぶ。)にて説明し、特徴2に関して第2の実施の形態(以下「第2実施形態」と呼ぶ。)にて説明する。また、特徴1と特徴2を組み合わせる実施例を第3の実施の形態(以下「第3実施形態」と呼ぶ。)にて説明する。   The feature 1 will be described in the first embodiment (hereinafter referred to as “first embodiment”), and the feature 2 will be described in the second embodiment (hereinafter referred to as “second embodiment”). I will explain. An example of combining feature 1 and feature 2 will be described in a third embodiment (hereinafter referred to as “third embodiment”).

(第1実施形態)
図1は、第1実施形態の情報処理システムの構成を示す。情報処理システム100は、本番機10、試験機12、データマスキング装置14を備える。本番機10は、本番環境(商用環境)に設置された情報処理装置であり、例えばウェブサーバや、アプリケーションサーバ、データベースサーバ、ディレクトリサーバである。試験機12は、開発環境や試験環境に設置された情報処理装置であり、例えば本番機10にデプロイするアプリケーションの開発やテストを実行するPCやサーバである。
(First embodiment)
FIG. 1 shows a configuration of an information processing system according to the first embodiment. The information processing system 100 includes a production machine 10, a testing machine 12, and a data masking device 14. The production machine 10 is an information processing apparatus installed in a production environment (commercial environment), such as a web server, an application server, a database server, or a directory server. The test machine 12 is an information processing apparatus installed in a development environment or a test environment.

本番機10は、企業の顧客やエンドユーザ、従業員の個人情報等、秘密にすべき情報や、公開が許可されない情報を保持する。試験機12は、本番機10から抽出されたテストデータにてテストを実行するが、このテストデータでは上記の秘密情報は隠蔽される必要がある。データマスキング装置14は、個人情報等の様々な秘密情報をマスキングする情報処理装置である。データマスキング装置14は、本番機10に保持される情報が記録された原本文書16を取得し、原本文書16に記録された秘密情報をマスキングした変換文書18を生成する。変換文書18は、テストデータとして試験機12へ提供される。   The production machine 10 holds information that should be kept secret, such as company customer, end user, and employee personal information, and information that is not permitted to be disclosed. The test machine 12 executes a test using the test data extracted from the production machine 10, and the secret information needs to be concealed in the test data. The data masking device 14 is an information processing device that masks various secret information such as personal information. The data masking device 14 acquires an original document 16 in which information held in the production machine 10 is recorded, and generates a converted document 18 in which confidential information recorded in the original document 16 is masked. The conversion document 18 is provided to the testing machine 12 as test data.

実施の形態の原本文書16、変換文書18は、複数の情報項目それぞれのコンテンツ(具体的には文字列)により構成されるレコードを複数記録した表形式(言い換えればテーブル構造)のデータ(例えばCSVファイル)とする。ただし、原本文書16、変換文書18は、情報項目の識別が可能であれば表形式のデータに限られない。例えば、各種オフィススイートの文書データであってもよく、RDBMSのテーブルデータであってもよく、プレーンテキストファイルであってもよい。   The original document 16 and the conversion document 18 according to the embodiment are data (for example, CSV) in a table format (in other words, a table structure) in which a plurality of records configured by contents (specifically, character strings) of a plurality of information items are recorded. File). However, the original document 16 and the converted document 18 are not limited to tabular data as long as the information items can be identified. For example, it may be document data of various office suites, RDBMS table data, or a plain text file.

図2は、図1のデータマスキング装置14の構成を示すブロック図である。データマスキング装置14は、制御部20、記憶部22、I/F部24を備える。制御部20は、各種データ処理を実行する。記憶部22は、制御部20により参照され、また更新されるデータを記憶する記憶領域である。I/F部24は、外部装置とのインタフェース機能を提供し、種々の通信プロトコルにしたがって外部装置と通信する。I/F部24は通信部とも言える。制御部20は、I/F部24を介して、本番機10および試験機12とデータを送受する。   FIG. 2 is a block diagram showing the configuration of the data masking device 14 of FIG. The data masking device 14 includes a control unit 20, a storage unit 22, and an I / F unit 24. The control unit 20 executes various data processing. The storage unit 22 is a storage area that stores data that is referred to and updated by the control unit 20. The I / F unit 24 provides an interface function with an external device, and communicates with the external device according to various communication protocols. It can be said that the I / F unit 24 is a communication unit. The control unit 20 transmits / receives data to / from the production machine 10 and the test machine 12 via the I / F unit 24.

本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。   Each block shown in the block diagram of the present specification can be realized in terms of hardware by an element such as a CPU of a computer or a mechanical device, and in terms of software, it can be realized by a computer program or the like. The functional block realized by those cooperation is drawn. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by a combination of hardware and software.

例えば、制御部20内の各ブロックに対応するモジュールを含むデータマスキングプログラムがDVD等の記録媒体に格納され、データマスキング装置14にインストールされてもよい。そして、データマスキング装置14のプロセッサ(CPU等)が、ローカルのストレージに格納されたデータマスキングプログラムを、メインメモリに読出し、実行することで、制御部20内の各ブロックの機能を発揮してもよい。記憶部22は、データマスキング装置14のストレージやメモリがデータを記憶することで実現されてよい。   For example, a data masking program including a module corresponding to each block in the control unit 20 may be stored in a recording medium such as a DVD and installed in the data masking device 14. Then, even if the processor (CPU or the like) of the data masking device 14 reads out the data masking program stored in the local storage to the main memory and executes it, the function of each block in the control unit 20 can be exhibited. Good. The storage unit 22 may be realized by storing data in the storage or memory of the data masking device 14.

記憶部22は、置換対象情報保持部30と変換辞書保持部32を含む。置換対象情報保持部30は、マスキング対象、言い換えれば置換対象となる情報項目の識別情報を保持する。置換対象情報保持部30は、複数の情報項目、例えば「契約者姓」「契約者名」「年齢」「性別」「住所」等を示す文字列を項目識別情報として保持してもよい。また、原本文書16における複数の情報項目の原本文字列それぞれの記録位置、例えばレコードの先頭位置からのバイト長や文字列長等を示す情報を項目識別情報として保持してもよい。   The storage unit 22 includes a replacement target information holding unit 30 and a conversion dictionary holding unit 32. The replacement target information holding unit 30 holds identification information of an information item to be masked, in other words, a replacement target. The replacement target information holding unit 30 may hold a plurality of information items, for example, a character string indicating “contractor surname”, “contractor name”, “age”, “sex”, “address”, and the like as item identification information. Moreover, information indicating the recording position of each original character string of a plurality of information items in the original document 16, for example, the byte length from the start position of the record, the character string length, and the like may be held as item identification information.

変換辞書保持部32は、文字列置換時に参照される辞書のデータ(以下「変換辞書」とも呼ぶ。)を保持する。実施の形態の変換辞書は、文字列置換対象となる複数の情報項目の置換文字列を、ハッシュ値と対応付けて記録したものである。ハッシュ値は、複数の情報項目の原本文字列の組み合わせのIDと言え、複数の情報項目の置換文字列の組み合わせのIDとも言える。また、置換文字列検索用のキーとも言える。   The conversion dictionary holding unit 32 holds dictionary data (hereinafter also referred to as “conversion dictionary”) that is referred to at the time of character string replacement. The conversion dictionary of the embodiment records replacement character strings of a plurality of information items to be character string replacement targets in association with hash values. The hash value can be said to be an ID of a combination of original character strings of a plurality of information items, and an ID of a combination of replacement character strings of a plurality of information items. It can also be said to be a replacement character string search key.

図3は、第1実施形態の変換辞書保持部32に保持される変換辞書の例を示す。同図の変換辞書は、ハッシュ値と、複数の情報項目「契約者姓」「契約者名」それぞれの置換文字列(例えば架空の姓や名)を対応付けている。変換辞書の1行(1レコード)が置換文字列の候補となり、変換辞書は置換文字列の複数の候補を複数のレコードに亘って定めている。変換辞書保持部32は、置換文字列の複数の候補を異なる位置(すなわち変換辞書の異なるレコード)に保持する候補文字列保持部とも言える。なお変換辞書は、ハッシュ値を記録しない構成であってもよい。また変換辞書保持部32は、複数の情報項目のそれぞれについて独立した別個の変換辞書を保持してもよい。   FIG. 3 shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the first embodiment. The conversion dictionary in FIG. 6 associates hash values with replacement character strings (for example, fictitious surnames and first names) of a plurality of information items “contractor last name” and “contractor name”. One line (one record) of the conversion dictionary is a candidate for the replacement character string, and the conversion dictionary defines a plurality of candidates for the replacement character string over a plurality of records. The conversion dictionary holding unit 32 can also be said to be a candidate character string holding unit that holds a plurality of candidates for replacement character strings at different positions (that is, different records in the conversion dictionary). The conversion dictionary may be configured not to record a hash value. Moreover, the conversion dictionary holding | maintenance part 32 may hold | maintain the separate conversion dictionary independent about each of several information item.

図2に戻り、制御部20は、原本文書取得部34、原本文字列取得部36、置換文字列決定部38、文字列変換部40、変換文書出力部42を含む。原本文書取得部34は、本番機10から出力された原本文書16を読み込む。原本文書取得部34は、I/F部24を介して本番機10と通信し、本番機10に保持された原本文書16を取得してもよい。また原本文書取得部34は、本番機10が出力した原本文書16を記録したメディア(DVDやUSBメモリ等)から、原本文書16を読み込んでもよい。   Returning to FIG. 2, the control unit 20 includes an original document acquisition unit 34, an original character string acquisition unit 36, a replacement character string determination unit 38, a character string conversion unit 40, and a converted document output unit 42. The original document acquisition unit 34 reads the original document 16 output from the production machine 10. The original document obtaining unit 34 may communicate with the production machine 10 via the I / F unit 24 and obtain the original document 16 held in the production machine 10. The original document acquisition unit 34 may read the original document 16 from a medium (DVD, USB memory, etc.) on which the original document 16 output from the production machine 10 is recorded.

原本文字列取得部36は、置換対象情報保持部30を参照して置換対象となる複数の情報項目を識別し、それら複数の情報項目の原本文字列を原本文書から取得する。例えば、原本文書16における置換対象情報項目のカラムから原本文字列を取得してもよく、原本文書16における置換対象情報項目の記録位置から原本文字列を取得してもよい。   The original character string acquisition unit 36 refers to the replacement target information holding unit 30 to identify a plurality of information items to be replaced, and acquires original character strings of the plurality of information items from the original document. For example, the original character string may be acquired from the column of the replacement target information item in the original document 16, or the original character string may be acquired from the recording position of the replacement target information item in the original document 16.

置換文字列決定部38は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定する。具体的には、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、複数の情報項目の原本文字列の組み合わせに基づき特定される辞書内の位置に記録された候補を置換文字列として決定する。さらに具体的には、複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される辞書内の位置に保持された候補を置換文字列として決定する。   The replacement character string determination unit 38 determines a replacement character string of the plurality of information items based on a combination of original character strings of the plurality of information items recorded in the original data. Specifically, among the plurality of replacement character string candidates recorded in the conversion dictionary of the conversion dictionary holding unit 32, the replacement character string is recorded at a position in the dictionary that is specified based on a combination of original character strings of a plurality of information items. Candidates are determined as replacement character strings. More specifically, a value obtained by converting a combination of original character strings of a plurality of information items by a predetermined one-way function is obtained, and a candidate held at a position in the dictionary specified based on the value is replaced with a replacement character. Determine as a column.

実施の形態の置換文字列決定部38は、原本文字列取得部36により取得された置換対象となる複数の情報項目の原本文字列を結合する。そして結合した文字列を、予め定められた所定のハッシュ関数(例えばMD5やSHA−1等)に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者姓」「契約者名」の場合、「契約者姓」の原本文字列「山田」、「契約者名」の原本文字列「太郎」を結合した文字列「山田太郎」のハッシュ値を取得する。   The replacement character string determination unit 38 of the embodiment combines the original character strings of a plurality of information items to be replaced acquired by the original character string acquisition unit 36. The combined character string is input to a predetermined hash function (for example, MD5, SHA-1, etc.) to obtain a hash value. For example, if multiple information items to be replaced are "Contractor Last Name" and "Contractor Name", the original character string "Yamada" for "Contractor Last Name" and the original character string "Taro" for "Contractor Name" Get the hash value of the combined character string “Taro Yamada”.

置換文字列決定部38は、取得したハッシュ値に対応する置換対象となる複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別する。置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、ハッシュ値として「1」〜「999」の値を取得してもよい。そして、変換辞書においてハッシュ値が示す行位置(ハッシュ値が「500」であれば500行目)に記録された置換文字列をマスキングに使用する置換文字列として決定する。   The replacement character string determination unit 38 identifies replacement character strings of a plurality of information items to be replaced corresponding to the acquired hash value with reference to the conversion dictionary held in the conversion dictionary holding unit 32. The replacement character string determination unit 38 uses the replacement character string recorded at the line position of the conversion dictionary corresponding to the hash value obtained from the character string obtained by combining the original character strings of the plurality of information items for masking. Determine as. For example, values “1” to “999” may be acquired as hash values. Then, the replacement character string recorded at the line position indicated by the hash value in the conversion dictionary (the 500th line if the hash value is “500”) is determined as the replacement character string used for masking.

なお、置換文字列決定部38は、異なる原本文字列間でハッシュ値が重複すること、いわゆるシノニムの発生を回避する処理を実行してもよいが、一方でシノニムの発生を回避する処理を抑制してもよい。変換文書18は、典型的には開発用・テスト用のデータであり、異なる原本文字列に対して同じ置換文字列を割当てても問題は生じにくいからである。また、シノニムを許容することにより、変換辞書保持部32が保持する変換辞書のレコード数、すなわち置換文字列の候補数は、原本文字列として記録されうる情報数に比べて少なく抑えることができる。   Note that the replacement character string determination unit 38 may execute processing for avoiding occurrence of so-called synonyms that hash values overlap between different original character strings, but suppress processing for avoiding generation of synonyms. May be. This is because the conversion document 18 is typically data for development and testing, and even if the same replacement character string is assigned to different original character strings, a problem does not easily occur. In addition, by allowing synonyms, the number of conversion dictionary records held by the conversion dictionary holding unit 32, that is, the number of replacement character string candidates, can be reduced compared to the number of pieces of information that can be recorded as original character strings.

文字列変換部40は、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を、置換文字列決定部38により決定された置換文字列へ置換える。例えば、原本文書16の1つのレコードにおける契約者姓と契約者名の原本文字列「山田」「太郎」を、置換文字列決定部38により決定された置換文字列「栗山」「高次」に置換する。文字列変換部40は、原本文字列を置換文字列に変換した変換文書18を生成する。   The character string conversion unit 40 replaces the original character strings of the plurality of information items to be replaced recorded in the original document 16 with the replacement character strings determined by the replacement character string determination unit 38. For example, the original character strings “Yamada” and “Taro” of the contractor surname and the contractor name in one record of the original document 16 are replaced with the replacement character strings “Kuriyama” and “Higher” determined by the replacement character string determination unit 38. Replace. The character string conversion unit 40 generates a converted document 18 in which the original character string is converted into a replacement character string.

変換文書出力部42は、文字列変換部40により生成された変換文書18を所定の装置へ出力する。例えば変換文書出力部42は、I/F部24を介して、変換文書18を試験機12へ送信してもよい。また、変換文書18をローカルのストレージや、所定の記録メディアへ保存してもよい。   The conversion document output unit 42 outputs the conversion document 18 generated by the character string conversion unit 40 to a predetermined device. For example, the converted document output unit 42 may transmit the converted document 18 to the testing machine 12 via the I / F unit 24. Further, the converted document 18 may be stored in a local storage or a predetermined recording medium.

以上の構成によるデータマスキング装置14の動作を以下説明する。
情報処理システム100の開発担当者やテスト担当者は、本番機10に保持された顧客や社員の個人情報を含む原本文書16を記録メディアに出力させ、その記録メディアをデータマスキング装置14に読み込ませる。データマスキング装置14の原本文書取得部34は、その記録メディアから原本文書16を読み込む。原本文字列取得部36は、置換対象情報保持部30に予め格納された項目識別情報にしたがって、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を読み込む。
The operation of the data masking device 14 having the above configuration will be described below.
A developer or a tester of the information processing system 100 causes the original document 16 including the customer or employee personal information held in the production machine 10 to be output to a recording medium, and causes the data masking device 14 to read the recording medium. . The original document acquisition unit 34 of the data masking device 14 reads the original document 16 from the recording medium. The original character string acquisition unit 36 reads the original character strings of a plurality of information items to be replaced recorded in the original document 16 according to the item identification information stored in the replacement target information holding unit 30 in advance.

置換文字列決定部38は、変換辞書保持部32の変換辞書を参照し、置換対象となる複数の情報項目の原本文字列の組み合わせにより特定される置換文字列を決定する。文字列変換部40は、原本文書16の原本文字列を置換文字列に置換えた変換文書18を生成する。変換文書出力部42は、個人情報をマスキングしたテストデータとして変換文書18を所定の記録メディアへ出力する。開発担当者やテスト担当者は、データマスキング装置14が出力し変換文書18を試験機12に読み込ませ、アプリケーションの開発やテストを実施する。   The replacement character string determination unit 38 refers to the conversion dictionary of the conversion dictionary holding unit 32 and determines a replacement character string specified by a combination of original character strings of a plurality of information items to be replaced. The character string conversion unit 40 generates a converted document 18 in which the original character string of the original document 16 is replaced with a replacement character string. The converted document output unit 42 outputs the converted document 18 to a predetermined recording medium as test data in which personal information is masked. The developer or tester outputs the data masking device 14 and causes the conversion document 18 to be read into the tester 12 to develop and test the application.

第1実施形態のデータマスキング装置14によると、複数の情報項目を単位として、複数の情報項目の原本文字列の組み合わせに基づいて置換文字列を決定する。これにより、原本文書16における特定の原本文字列の出現傾向が変換文書18に反映されることを抑制できる。例えば、複数の情報項目の少なくとも1つが、特定の原本文字列の出現頻度が高いものであっても、他の情報項目の原本文字列との組み合わせで置換文字列を決定するため、特定の原本文字列の出現頻度が特定の置換文字列の出現頻度に反映されることを抑制できる。この結果、変換文書18に記録された置換文字列から元の原本文字列を推測することを困難なものにでき、変換文書18による情報漏洩のリスクを低減できる。   According to the data masking device 14 of the first embodiment, a replacement character string is determined based on a combination of original character strings of a plurality of information items in units of a plurality of information items. As a result, the appearance tendency of a specific original character string in the original document 16 can be prevented from being reflected in the converted document 18. For example, even if at least one of a plurality of information items has a high frequency of appearance of a specific original character string, the replacement character string is determined in combination with the original character string of another information item. It can suppress that the appearance frequency of a character string is reflected in the appearance frequency of a specific substitution character string. As a result, it is difficult to infer the original original character string from the replacement character string recorded in the converted document 18, and the risk of information leakage by the converted document 18 can be reduced.

例えば、複数の情報項目が「契約者姓」「契約者名」で、原本文書16の第1レコードが「鈴木」「太郎」、第2レコードが「鈴木」「次郎」、第3レコードが「鈴木」「三郎」であるとする。この場合、第1実施形態のデータマスキングにより、例えば変換文書18の第1レコードが「佐藤」「信長」、第2レコードが「山口」「秀吉」、第3レコードが「佐々木」「家康」となる。「契約者姓」の「鈴木」が特定の1つの置換文字列(例えば「三田村」)に置換される場合、変換文書18における「三田村」の登場回数が多ければ、「三田村」は実際には「鈴木」や「佐藤」等であると推測できてしまう。第1実施形態のデータマスキング装置14では、単純に「鈴木」が「三田村」に置換されるのではなく、様々な文字列に置換されるため、置換文字列から原本文字列の推測が困難になる。   For example, the plurality of information items are “contractor last name” and “contractor name”, the first record of the original document 16 is “Suzuki” and “Taro”, the second record is “Suzuki” and “Jiro”, and the third record is “ Assume that they are Suzuki and Saburo. In this case, by the data masking of the first embodiment, for example, the first record of the converted document 18 is “Sato” “Nobunaga”, the second record is “Yamaguchi” “Hideyoshi”, and the third record is “Sasaki” “Ieyasu”. Become. When “Suzuki” of “contractor surname” is replaced with a specific replacement character string (for example, “Mitamura”), if “Mitamura” appears in the converted document 18 many times, “Mitamura” is actually You can guess that it is “Suzuki” or “Sato”. In the data masking device 14 of the first embodiment, “Suzuki” is not simply replaced with “Mitamura”, but is replaced with various character strings, making it difficult to guess the original character string from the replacement character string. Become.

このように、複数の情報項目の原本文字列の組み合わせにより置換文字列を決定することが好適な情報項目は、特定の原本文字列の出現頻度に何らかの傾向がある情報項目である。例えば、人の姓以外にも、住所等における都道府県名や、所属する部署名が挙げられる。都道府県名の場合、人口が多い原本文字列の「東京都」や「大阪府」が置換文字列から推測されてしまうことを防止しやすくなる。また部署名の場合、所属する従業員が多い部署名が置換文字列から推測されてしまうことを防止しやすくなる。実施の形態の技術思想は、複数の情報項目の原本文字列の組み合わせにより、それら複数の情報項目のうち原本文字列の出現頻度に傾向が現れやすい少なくとも1つの情報項目の置換文字列を決定することとも言える。   As described above, information items for which it is preferable to determine a replacement character string based on a combination of original character strings of a plurality of information items are information items that have some tendency in the appearance frequency of a specific original character string. For example, in addition to a person's last name, the name of a prefecture in an address or the like, and the department name to which the person belongs are listed. In the case of the prefecture name, it is easy to prevent the original character string “Tokyo” or “Osaka Prefecture” having a large population from being inferred from the replacement character string. In the case of a department name, it is easy to prevent a department name having many employees from being guessed from a replacement character string. The technical idea of the embodiment determines a replacement character string of at least one information item that tends to appear in the appearance frequency of the original character string among the plurality of information items by combining the original character strings of the plurality of information items. It can be said that.

また第1実施形態のデータマスキング装置14によると、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、複数の情報項目の原本文字列の組み合わせで特定される位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、特定の原本文字列の組み合わせが特定の置換文字列へ一意に変換されることになり、変換の一意性を保証できる。   Further, according to the data masking device 14 of the first embodiment, among the plurality of replacement character string candidates recorded at different positions in the conversion dictionary, the data is recorded at the position specified by the combination of the original character strings of the plurality of information items. The candidate is a replacement character string used for replacement of the original character string. According to this configuration, a specific combination of original character strings is uniquely converted into a specific replacement character string, and the uniqueness of the conversion can be guaranteed.

また第1実施形態のデータマスキング装置14によると、複数の情報項目の原本文字列を結合した文字列をハッシュ関数に入力してハッシュ値を取得する。そして、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、ハッシュ値により特定される変換辞書の位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。   Further, according to the data masking device 14 of the first embodiment, a hash value is obtained by inputting a character string obtained by combining original character strings of a plurality of information items into a hash function. Among the plurality of replacement character string candidates recorded at different positions in the conversion dictionary, the candidate recorded at the position of the conversion dictionary specified by the hash value is used as a replacement character string used for replacement of the original character string. According to this configuration, since only the correspondence between the hash value and the replacement character string is recorded in the conversion dictionary, it is difficult to grasp the original character string corresponding to the replacement character string only by looking at the conversion dictionary. Masking safety can be improved.

以上、本発明を第1実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the first embodiment. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

第1実施形態の第1変形例を説明する。原本文書16に第1情報項目と第2情報項目が含まれる場合に、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様で組み合わせた文字列に基づき特定される位置に保持された候補を第1情報項目の置換文字列として決定してもよい。その一方、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様とは異なる第2態様で組み合わせた文字列に基づき特定される位置に保持された候補を第2情報項目の置換文字列として決定してもよい。   A first modification of the first embodiment will be described. When the original document 16 includes the first information item and the second information item, the replacement character string determination unit 38 combines the original character string of the first information item and the original character string of the second information item in the first mode. The candidate held at the position specified based on the character string may be determined as the replacement character string of the first information item. On the other hand, the replacement character string determination unit 38 sets the original character string of the first information item and the original character string of the second information item at a position specified based on the character string that is combined in a second mode different from the first mode. The held candidate may be determined as the replacement character string of the second information item.

図3の変換辞書を用いた具体例を示す。第1情報項目が契約者姓、第2情報項目が契約者名である場合、置換文字列決定部38は、先頭から契約者姓、契約者名の順に原本文字列を結合した文字列(例えば「山田太郎」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「123」であれば、契約者姓の置換文字列は「栗山」になる。   A specific example using the conversion dictionary of FIG. 3 is shown. When the first information item is the contractor last name and the second information item is the contractor name, the replacement character string determination unit 38 combines the original character strings in the order of the contractor last name and the contractor name from the top (for example, “Taro Yamada”) is input to the hash function to obtain a hash value, and a record corresponding to the hash value is identified. Then, the replacement character string recorded in the record may be determined as the replacement character string of the contractor last name. If the hash value is “123”, the replacement character string of the contractor surname is “Kuriyama”.

また置換文字列決定部38は、先頭から契約者名、契約者姓の順に原本文字列を結合した文字列(例えば「太郎山田」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「422」であれば、契約者名の置換文字列は「平次」になる。   Further, the replacement character string determination unit 38 inputs a character string (for example, “Taro Yamada”) obtained by combining the original character strings in the order of the contractor name and the contractor surname from the beginning to the hash function to obtain a hash value, and the hash Identifies the record corresponding to the value. Then, the replacement character string recorded in the record may be determined as the replacement character string of the contractor last name. If the hash value is “422”, the replacement character string of the contractor name is “Hiraku”.

第1変形例の構成によると、マスキングの対象となる複数の情報項目の置換文字列の組み合わせが一層多様化して、置換文字列から原本文字列を推測することが一層困難になる。例えば図3の変換辞書では、契約者姓の置換文字列が「栗山」の場合、契約者名の置換文字列は常に「高次」になるわけではなく、「平次」や「光太郎」になるかもしれない。また、変換辞書を見て置換文字列に対応する原本文字列を把握することを一層困難なものにできる。   According to the configuration of the first modification, the combinations of replacement character strings of a plurality of information items to be masked are further diversified, and it becomes more difficult to estimate the original character string from the replacement character string. For example, in the conversion dictionary of FIG. 3, when the replacement character string of the contractor last name is “Kuriyama”, the replacement character string of the contractor name is not always “higher order”, but “Hiroji” or “Kotaro”. It may be. Further, it is possible to make it more difficult to grasp the original character string corresponding to the replacement character string by looking at the conversion dictionary.

第1実施形態の第2変形例を説明する。上記実施の形態では、置換文字列決定部38は、置換対象となる複数の情報項目の原本文字列を結合してハッシュ値を取得した。変形例として、各情報項目の原本文字列を結合後、所定の文字列操作やビット演算を実行した後にハッシュ値を取得してもよい。また、各情報項目の原本文字列に対して所定の文字列操作やビット演算を実行した後、操作・演算後の文字列を結合してハッシュ値を取得してもよい。また、各情報項目の原本文字列個々にハッシュ値を取得後、個々のハッシュ値を所定の演算により合成し、その合成値に基づいて置換文字列を決定してもよい。   A second modification of the first embodiment will be described. In the above embodiment, the replacement character string determination unit 38 acquires the hash value by combining the original character strings of the plurality of information items to be replaced. As a modification, after combining the original character strings of the information items, a hash value may be acquired after executing a predetermined character string operation or bit operation. Alternatively, after a predetermined character string operation or bit operation is performed on the original character string of each information item, the hash value may be obtained by combining the character strings after the operation / operation. Alternatively, after obtaining a hash value for each original character string of each information item, the individual hash values may be synthesized by a predetermined operation, and a replacement character string may be determined based on the synthesized value.

第1実施形態の第3変形例を説明する。上記実施の形態では、ハッシュ値に対応する行位置に記録された置換文字列をマスキングに使用する置換文字列として決定した。変形例として、置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応付けられた複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別してもよい。すなわち、結合した文字列から得られたハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図3の変換辞書を参照し、かつ、原本文字列を結合した「山田太郎」のハッシュ値が「123」である場合、「契約者姓」の置換文字列を「栗山」に決定し、「契約者名」の置換文字列を「高次」に決定してもよい。   A third modification of the first embodiment will be described. In the above embodiment, the replacement character string recorded at the line position corresponding to the hash value is determined as the replacement character string used for masking. As a modification, the replacement character string determination unit 38 converts the replacement character strings of the plurality of information items associated with the hash values obtained from the character strings obtained by combining the original character strings of the plurality of information items into the conversion dictionary holding unit. You may identify with reference to the conversion dictionary hold | maintained at 32. FIG. That is, the conversion dictionary record in which the hash value obtained from the combined character string is recorded may be identified, and the replacement character string recorded in the record may be determined as a character string used for masking. For example, referring to the conversion dictionary of FIG. 3 and the hash value of “Taro Yamada” combined with the original character string is “123”, the replacement character string of “contractor surname” is determined as “Kuriyama”. The replacement character string of “contractor name” may be determined as “high order”.

第1実施形態の第4変形例を説明する。変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図4は、変形例の変換辞書を示す。同図の変換辞書では、複数の情報項目「契約者姓」「契約者名」の原本文字列(図中の「原本契約者姓」「原本契約者名」のデータ)を、それらの情報項目の置換文字列(図中の「置換契約者姓」「置換契約者名」のデータ)に対応付けている。この場合、置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせそのものをキーとして変換辞書を検索してもよい。図4の例では、原本契約者姓と原本契約者名の組み合わせが「山田」「太郎」の場合、置換文字列決定部38は、置換契約者姓と置換契約者名の組み合わせとして「栗山」「高次」を決定する。   A fourth modification of the first embodiment will be described. The conversion dictionary held by the conversion dictionary holding unit 32 may directly associate the original character string with the replacement character string. FIG. 4 shows a modified conversion dictionary. In the conversion dictionary of the figure, the original character strings (data of “original contractor surname” and “original contractor name” in the figure) of a plurality of information items “contractor surname” and “contractor name” are stored in the information items. Of the replacement character string (data of “substitution contractor surname” and “substitution contractor name” in the figure). In this case, the replacement character string determination unit 38 may search the conversion dictionary using the original character string combinations of a plurality of information items as keys. In the example of FIG. 4, when the combination of the original contractor surname and the original contractor name is “Yamada” and “Taro”, the replacement character string determination unit 38 sets “Kuriyama” as the combination of the replacement contractor surname and the replacement contractor name. Determine “higher order”.

(第2実施形態)
第2実施形態では、置換対象となる複数の情報項目の原本文字列間の関係を、それら複数の情報項目の置換文字列間でも維持するデータマスキング技術を説明する。第2実施形態の情報処理システム100の構成は第1実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態と同じ(図2)である。以下、第1実施形態と重複する説明は省略し、異なる点を主に説明する。
(Second Embodiment)
In the second embodiment, a data masking technique for maintaining the relationship between original character strings of a plurality of information items to be replaced even between the replacement character strings of the plurality of information items will be described. The configuration of the information processing system 100 of the second embodiment is the same as that of the first embodiment (FIG. 1), and the functional block of the data masking device 14 of the second embodiment is also the same as that of the first embodiment (FIG. 2). . Hereinafter, the description which overlaps with 1st Embodiment is abbreviate | omitted, and a different point is mainly demonstrated.

第2実施形態でマスキング対象となる複数の情報項目には、互いに関連した内容の原本文字列が記録される。例えば複数の情報項目には、ある対象・事物を第1態様で表記した原本文字列が設定される第1情報項目と、同じ対象・事物を第1態様とは異なる第2態様で表記した原本文字列が設定される第2情報項目を含む。言い換えれば、複数の情報項目には、同じ対象・事物を外観上異なる態様で表記した文字列がそれぞれ設定される。例えば、第1情報項目が契約者の姓の漢字表記が設定される「契約者漢字姓」である場合、第2情報項目は契約者の姓のかな表記が設定される「契約者かな姓」が該当する。   In a plurality of information items to be masked in the second embodiment, original character strings having contents related to each other are recorded. For example, in a plurality of information items, a first information item in which an original character string in which a certain target / thing is described in the first mode is set, and an original in which the same target / thing is described in a second mode different from the first mode A second information item in which a character string is set is included. In other words, each of the plurality of information items is set with a character string describing the same object / thing in a different manner in appearance. For example, when the first information item is “contractor kanji surname” in which the contractor's surname's kanji is set, the second information item is “contractor kana surname” in which the contractor's surname is set. Is applicable.

互いに関連した内容の原本文字列が記録される複数の情報項目、すなわち第2実施形態のマスキングが有効な複数の情報項目は、漢字姓とかな姓以外にも様々なものが考えられる。例えば、人の名と性別、ID(例えば都道府県コード)とそのIDにより特定される情報(例えば都道府県名)、都道府県名と市区町村名、姓とメールアドレス(メールアドレスのローカル部に姓のローマ字を設定する規則がある場合)が挙げられる。   A plurality of information items in which original character strings having contents related to each other are recorded, that is, a plurality of information items for which masking of the second embodiment is effective, may be various in addition to the kanji surname and kana surname. For example, a person's first name and gender, an ID (for example, a prefecture code) and information (for example, a prefecture name) specified by the ID, a prefecture name and a city name, a last name and an email address (the last name in the local part of the email address) (When there is a rule to set romaji).

変換辞書保持部32は、原本文書16に記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を示す変換辞書を保持する。図5は、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間では、原本文書16に記録される複数の情報項目の原本文字列間の関係が維持されている。すなわち図5の変換辞書では、ハッシュ値と、情報項目「契約者漢字姓」「契約者かな姓」の置換文字列を対応付けており、あるレコードの「契約者かな姓」には、同じレコードの「契約者漢字姓」の読み仮名が設定される。   The conversion dictionary holding unit 32 holds a conversion dictionary that is a plurality of information items recorded in the original document 16 and indicates replacement character strings of a plurality of information items related to each other. FIG. 5 shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the second embodiment. The relationship between the original character strings of the plurality of information items recorded in the original document 16 is maintained between the replacement character strings of the plurality of information items defined by the conversion dictionary. That is, in the conversion dictionary of FIG. 5, the hash value is associated with the replacement character strings of the information items “contractor kanji surname” and “contractor kana surname”. Is set to the reading Kana of “Contractor Kanji Surname”.

図6も、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間でも、原本文書16に記録された複数の情報項目の原本文字列間の関係が維持されている。すなわち、同じレコード内の都道府県コード、都道府県名、市区町村名には、互いに整合する文字列が設定されている。   FIG. 6 also shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the second embodiment. The relationship between the original character strings of the plurality of information items recorded in the original document 16 is maintained even between the replacement character strings of the plurality of information items defined by the conversion dictionary. That is, character strings that match each other are set in the prefecture code, the prefecture name, and the city name in the same record.

図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、互いに関連した複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、互いに関連した複数の情報項目のそれぞれに設定された原本文字列を取得する。   Returning to FIG. 2, the replacement target information holding unit 30 holds identification information of a plurality of information items related to each other as information items to be replaced. The original character string acquisition unit 36 refers to the replacement target information holding unit 30 and acquires an original character string set for each of a plurality of information items related to each other.

置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、互いに関連する複数の情報項目の少なくとも1つの原本文字列に基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定する。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定してもよい。また、互いに関連する複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される位置に保持された候補を置換文字列として決定してもよい。   The replacement character string determination unit 38 is specified based on at least one original character string of a plurality of information items related to each other among a plurality of replacement character string candidates recorded in the conversion dictionary of the conversion dictionary holding unit 32. Candidates recorded at positions in the dictionary are determined as replacement character strings for a plurality of information items. The replacement character string determination unit 38 may determine candidates recorded at positions in the dictionary specified based on combinations of original character strings of a plurality of information items related to each other as replacement character strings of the plurality of information items. Good. Also, a value obtained by converting a combination of original character strings of a plurality of information items related to each other with a predetermined one-way function is obtained, and a candidate held at a position specified based on the value is determined as a replacement character string. May be.

実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列を結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者漢字姓」「契約者かな姓」である場合、「契約者漢字姓」の原本文字列「山田」、「契約者かな姓」の原本文字列「やまだ」を結合した文字列「山田やまだ」のハッシュ値を取得する。   The replacement character string determination unit 38 of the embodiment combines the original character strings of the plurality of information items acquired by the original character string acquisition unit 36, and inputs the combined character strings into a predetermined hash function to acquire a hash value To do. For example, if multiple information items to be replaced are "Contractor Kanji Surname" and "Contractor Kanji Surname", the original characters of "Contractor Kanji Surname" are the original characters "Yamada" and "Contractor Kana Last Name". Get the hash value of the string “Yamada Yamada” that combines the columns “Yamada”.

置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図5の変換辞書を参照し、かつ、「山田やまだ」のハッシュ値が「123」である場合、「契約者漢字姓」の置換文字列を「栗山」に決定し、「契約者かな姓」の置換文字列を「くりやま」に決定してもよい。   The replacement character string determination unit 38 determines the replacement character string recorded at the line position of the conversion dictionary corresponding to the acquired hash value as the replacement character string used for masking, as in the first embodiment. For example, if the hash value of “Yamada Yamada” is “500”, the replacement character string recorded in the 500th line of the conversion dictionary is determined as the character string used for masking. As a modification, the replacement character string determination unit 38 identifies a record in the conversion dictionary in which the acquired hash value is recorded, as in the third modification of the first embodiment, and the replacement character string recorded in the record May be determined as a character string used for masking. For example, referring to the conversion dictionary of FIG. 5 and the hash value of “Yamada Yamada” is “123”, the replacement character string of “contractor kanji surname” is determined as “Kuriyama” and “contractor kana” The replacement character string of “last name” may be determined as “Kuriyama”.

文字列変換部40は、原本文書16に記録された置換対象の複数の情報項目の原本文字列を、変換辞書保持部32が保持する変換辞書で定められたそれら複数の情報項目の置換文字列へ置換する。具体的には、文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、置換文字列決定部38により決定された各情報項目の置換文字列へ置き換える。   The character string conversion unit 40 replaces the original character strings of the plurality of information items to be replaced recorded in the original document 16 with the replacement character strings of the plurality of information items defined by the conversion dictionary held by the conversion dictionary holding unit 32. Replace with. Specifically, the character string conversion unit 40 replaces original character strings of a plurality of information items related to each other with the replacement character strings of the information items determined by the replacement character string determination unit 38.

第2実施形態のデータマスキング装置14の動作は、第1実施形態のデータマスキング装置14の動作と同様である。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせにしたがって、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列を決定する。文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列へ置換えることにより変換文書18を生成する。   The operation of the data masking device 14 of the second embodiment is the same as the operation of the data masking device 14 of the first embodiment. The replacement character string determination unit 38 determines a replacement character string of the plurality of information items determined by the conversion dictionary of the conversion dictionary holding unit 32 according to a combination of original character strings of a plurality of information items related to each other. The character string conversion unit 40 generates a converted document 18 by replacing original character strings of a plurality of information items related to each other with replacement character strings of the plurality of information items determined by the conversion dictionary of the conversion dictionary holding unit 32. .

第2実施形態のデータマスキング装置14によると、原本文書16および変換文書18に記録される互いに関連する複数の情報項目について、それらの情報項目の原本文字列間の関係を置換文字列間でも維持することができる。これにより、テストデータ等として利用する観点から有効性が高い変換文書18を生成できる。例えば、図5の変換辞書の場合、漢字姓の置換文字列と、かな姓の置換文字列が整合する。また図6の変換辞書の場合、都道府県コードと都道府県名、市区町村名それぞれの置換文字列が整合する。   According to the data masking device 14 of the second embodiment, for a plurality of mutually related information items recorded in the original document 16 and the converted document 18, the relationship between the original character strings of those information items is maintained even between the replacement character strings. can do. Thereby, it is possible to generate the converted document 18 that is highly effective from the viewpoint of using it as test data or the like. For example, in the case of the conversion dictionary in FIG. 5, the replacement character string for the kanji surname matches the replacement character string for the kana surname. In the case of the conversion dictionary of FIG. 6, the replacement character strings of the prefecture code, the prefecture name, and the city name match.

したがって、漢字姓が「栗山」でありながら、かな姓が「ありた」になることや、住所の都道府県名が「東京都」でありながら、市町村名が「横浜市西区」になること等、変換文書18の利用者に違和感を抱かせてしまうことを回避できる。また、変換文書18を用いたテストの結果、例えば都道府県名をキーとした検索結果等の判定が困難になることも回避できる。すなわち、変換文書18の利用者に、複数の情報項目の文字列間の関係に不自然さを感じさせない変換文書18を生成でき、マスキング後のデータの有用性を高めることができる。   Therefore, the Kanji surname is “Kuriyama” and the Kana surname is “Ari”, the prefecture name of the address is “Tokyo”, and the municipality name is “Nishi-ku, Yokohama-shi”, etc. Therefore, it is possible to avoid making the user of the converted document 18 feel uncomfortable. Further, it can be avoided that it becomes difficult to determine a result of a test using the converted document 18, for example, a search result using a prefecture name as a key. That is, it is possible to generate the converted document 18 that does not make the user of the converted document 18 feel unnatural in the relationship between the character strings of the plurality of information items, and the usefulness of the data after masking can be improved.

また第2実施形態のデータマスキング装置14によると、互いに関連する複数の情報項目の特定の原本文字列が特定の置換文字列へ一意に変換され、変換の一意性を担保できる。また、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。   Further, according to the data masking device 14 of the second embodiment, a specific original character string of a plurality of information items related to each other is uniquely converted into a specific replacement character string, thereby ensuring the uniqueness of the conversion. In addition, since only the correspondence between the hash value and the replacement character string is recorded in the conversion dictionary, it is difficult to grasp the original character string corresponding to the replacement character string simply by looking at the conversion dictionary. Can be improved.

以上、本発明を第2実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the second embodiment. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

第1実施形態の第2変形例〜第4変形例は、第2実施形態の変形例としても有用である。例えば、変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図7は、変形例の変換辞書を示す。置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせをキーとして変換辞書を検索してもよい。図7の例では、原本契約者漢字姓と原本契約者かな姓の組み合わせが「山田」「やまだ」の場合、置換文字列決定部38は、置換契約者漢字姓と置換契約者かな姓の組み合わせとして「栗山」「くりやま」を決定する。   The second to fourth modifications of the first embodiment are also useful as modifications of the second embodiment. For example, the conversion dictionary held by the conversion dictionary holding unit 32 may directly associate the original character string with the replacement character string. FIG. 7 shows a modified conversion dictionary. The replacement character string determination unit 38 may search the conversion dictionary using a combination of original character strings of a plurality of information items as a key. In the example of FIG. 7, when the combination of the original contractor kanji surname and the original contractor kana surname is “Yamada” or “Yamada”, the replacement character string determination unit 38 combines the replacement contractor kanji surname and the replacement contractor kana surname "Kuriyama" and "Kuriyama" are decided.

(第3実施形態)
第3実施形態のデータマスキング装置14は、第1実施形態の特徴と第2実施形態の特徴の両方を備える。第3実施形態の情報処理システム100の構成は第1実施形態、第2実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態、第2実施形態と同じ(図2)である。以下、第1実施形態、第2実施形態と重複する説明は省略し、異なる点を主に説明する。
(Third embodiment)
The data masking device 14 of the third embodiment has both the features of the first embodiment and the features of the second embodiment. The configuration of the information processing system 100 of the third embodiment is the same as that of the first and second embodiments (FIG. 1), and the functional block of the data masking device 14 of the second embodiment is also the first and second embodiments. It is the same as the embodiment (FIG. 2). Hereinafter, the description which overlaps with 1st Embodiment and 2nd Embodiment is abbreviate | omitted, and a different point is mainly demonstrated.

図8は、第3実施形態の変換辞書保持部32に保持される変換辞書の例を示す。第3実施形態の変換辞書の各レコードは、互いに関連する複数の情報項目を含む第1項目群と、互いに関連する複数の情報項目を含む第2項目群について、第1項目群と第2項目群それぞれの置換文字列とハッシュ値との対応関係を記録する。第1項目群は図8の例では契約者漢字姓と契約者かな姓の組み合わせであり、第2項目群は図8の例では契約者漢字名と契約者かな名の組み合わせである。第1項目群と第2項目群の間では関連姓はないことが望ましい。例えば、姓と名の間には直接の関連性はないと言える。   FIG. 8 shows an example of a conversion dictionary held in the conversion dictionary holding unit 32 of the third embodiment. Each record of the conversion dictionary of the third embodiment includes a first item group and a second item for a first item group including a plurality of information items related to each other and a second item group including a plurality of information items related to each other. The correspondence between the replacement character string and the hash value of each group is recorded. The first item group is a combination of the contractor kanji surname and the contractor kana last name in the example of FIG. 8, and the second item group is a combination of the contractor kanji name and the contractor kana name in the example of FIG. It is desirable that there is no related surname between the first item group and the second item group. For example, it can be said that there is no direct relationship between first name and last name.

図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、第1項目群に含まれる複数の情報項目の識別情報と、第2項目群に含まれる複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、第1項目群に含まれる複数の情報項目それぞれに設定された原本文字列と、第2項目群に含まれる複数の情報項目それぞれに設定された原本文字列を取得する。   Returning to FIG. 2, the replacement target information holding unit 30 identifies the identification information of the plurality of information items included in the first item group and the identification of the plurality of information items included in the second item group as information items to be replaced. Keep information. The original character string acquisition unit 36 refers to the replacement target information holding unit 30 and sets the original character string set for each of the plurality of information items included in the first item group and the plurality of information items included in the second item group. Get the original text string set for each.

置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、第1項目群の少なくとも1つの原本文字列と、第2項目群の少なくとも1つの原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を置換文字列として決定する。置換文字列決定部38は、第1項目群に含まれる複数の情報項目の複数の原本文字列と、第2項目群に含まれる複数の情報項目の複数の原本文字列の全てを組み合わせた文字列を使用して置換文字列を決定してもよい。   The replacement character string determination unit 38 includes at least one original character string of the first item group and at least one of the second item group among the plurality of replacement character string candidates recorded in the conversion dictionary of the conversion dictionary holding unit 32. A candidate recorded at a position in the dictionary specified based on a combination of two original character strings is determined as a replacement character string. The replacement character string determination unit 38 combines a plurality of original character strings of a plurality of information items included in the first item group and a plurality of original character strings of a plurality of information items included in the second item group. A replacement string may be determined using a column.

実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列の全てを結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、第1項目群の契約者漢字姓の原本文字列「山田」と契約者かな姓の原本文字列「やまだ」、第2項目群の契約者漢字名の原本文字列「太郎」と契約者かな名の原本文字列「たろう」を結合した「山田やまだ太郎たろう」のハッシュ値を取得する。   The replacement character string determination unit 38 according to the embodiment combines all of the original character strings of the plurality of information items acquired by the original character string acquisition unit 36 and inputs the combined character string to a predetermined hash function to obtain a hash value To get. For example, the original character string “Yamada” of the contractor kanji surname of the first item group and the original character string “Yamada” of the contractor kana surname, the original character string “Taro” of the contractor kanji name of the second item group, and the contractor Get the hash value of “Yamada Yamada Taro” combined with the original character string “Taro”.

置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ太郎たろう」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図8の変換辞書を参照し、かつ、「山田やまだ太郎たろう」のハッシュ値が「123」である場合、契約者漢字姓の置換文字列を「栗山」に決定し、契約者かな姓の置換文字列を「くりやま」に決定してもよい。それとともに、契約者漢字名の置換文字列を「高次」に決定し、契約者かな名の置換文字列を「こうじ」に決定してもよい。他の構成および動作は、第1実施形態、第2実施形態と同様である。   The replacement character string determination unit 38 determines the replacement character string recorded at the line position of the conversion dictionary corresponding to the acquired hash value as the replacement character string used for masking, as in the first embodiment. For example, if the hash value of “Yamada and yet Taro Taro” is “500”, the replacement character string recorded in the 500th line of the conversion dictionary is determined as the character string used for masking. As a modification, the replacement character string determination unit 38 identifies a record in the conversion dictionary in which the acquired hash value is recorded, as in the third modification of the first embodiment, and the replacement character string recorded in the record May be determined as a character string used for masking. For example, if the conversion dictionary in FIG. 8 is referred to and the hash value of “Yamada and yet Taro Taro” is “123”, the replacement character string of the contractor kanji surname is determined as “Kuriyama”, and the contractor kana surname is determined. The replacement character string may be determined as “Kuriyama”. At the same time, the replacement character string of the contractor Kanji name may be determined as “high order”, and the replacement character string of the contractor Kana name may be determined as “Koji”. Other configurations and operations are the same as those in the first embodiment and the second embodiment.

第3実施形態のデータマスキング装置14によると、第1実施形態の効果と第2実施形態の効果を両立できる。すなわち、置換文字列から元の原本文字列を推測することを困難にでき、また、互いに関連する複数の情報項目の原本文字列間の関係を、マスキング後の置換文字列間でも維持できる。これにより、情報漏洩防止とデータ利用の両面においてマスク後のデータの有用性を高めることができる。   According to the data masking device 14 of the third embodiment, both the effects of the first embodiment and the effects of the second embodiment can be achieved. That is, it is difficult to infer the original original character string from the replacement character string, and the relationship between the original character strings of a plurality of information items related to each other can be maintained between the replacement character strings after masking. Thereby, the usefulness of the data after masking can be enhanced in both of information leakage prevention and data utilization.

以上、本発明を第3実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。また、第1実施例の変形例および第2実施形態の変形例は第3実施形態にも有用である。例えば、図8の変換辞書において、ハッシュ値に代えて原本文字列を置換文字列に直接対応付けてもよい。   The present invention has been described based on the third embodiment. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there. The modification of the first example and the modification of the second embodiment are also useful for the third embodiment. For example, in the conversion dictionary of FIG. 8, the original character string may be directly associated with the replacement character string instead of the hash value.

請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。   It should also be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by the individual constituent elements shown in the embodiments and the modification examples or by their cooperation.

14 データマスキング装置、 30 置換対象情報保持部、 32 変換辞書保持部、 34 原本文書取得部、 36 原本文字列取得部、 38 置換文字列決定部、 40 文字列変換部、 42 変換文書出力部。   DESCRIPTION OF SYMBOLS 14 Data masking apparatus, 30 Replacement object information holding part, 32 Conversion dictionary holding part, 34 Original document acquisition part, 36 Original character string acquisition part, 38 Replacement character string determination part, 40 Character string conversion part, 42 Conversion document output part

Claims (6)

原本データに記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を保持する置換文字列保持部と、
前記原本データに記録された前記複数の情報項目の原本文字列を、前記置換文字列保持部に保持された前記複数の情報項目の置換文字列へ置換する文字列置換部と、
を備え、
前記置換文字列保持部に保持された前記複数の情報項目の置換文字列間では、前記原本データに記録された前記複数の情報項目の原本文字列間の関係が維持されていることを特徴とするデータマスキング装置。
A replacement character string holding unit for holding replacement character strings of a plurality of information items that are related to each other and are a plurality of information items recorded in the original data;
A character string replacement unit that replaces original character strings of the plurality of information items recorded in the original data with replacement character strings of the plurality of information items held in the replacement character string holding unit;
With
The relationship between the original character strings of the plurality of information items recorded in the original data is maintained between the replacement character strings of the plurality of information items held in the replacement character string holding unit. Data masking device.
前記複数の情報項目は、ある対象を第1の態様で表記する第1項目と、前記対象を前記第1の態様とは異なる第2の態様で表記する第2項目を含むことを特徴とする請求項1に記載のデータマスキング装置。   The plurality of information items include a first item that represents a target in a first mode and a second item that represents the target in a second mode different from the first mode. The data masking device according to claim 1. 前記第1項目には前記対象を漢字表記した文字列が設定され、前記第2項目には前記対象をかな表記した文字列が設定されることを特徴とする請求項2に記載のデータマスキング装置。   3. The data masking device according to claim 2, wherein a character string expressing the target in Chinese characters is set in the first item, and a character string expressing the target in kana is set in the second item. . 置換文字列決定部をさらに備え、
前記置換文字列保持部は、前記複数の情報項目の置換文字列の組み合わせについて複数の候補を異なる位置に保持し、
前記置換文字列決定部は、前記複数の情報項目のうち少なくとも1つの情報項目の原本文字列に基づいて特定される位置に保持された候補を前記複数の情報項目の置換文字列として決定することを特徴とする請求項1から3のいずれかに記載のデータマスキング装置。
A replacement character string determination unit;
The replacement character string holding unit holds a plurality of candidates at different positions for combinations of replacement character strings of the plurality of information items,
The replacement character string determination unit determines a candidate held at a position specified based on an original character string of at least one information item among the plurality of information items as a replacement character string of the plurality of information items. The data masking device according to any one of claims 1 to 3.
原本データに記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を記憶する記憶領域を参照して、前記原本データに記録された前記複数の情報項目の原本文字列を、前記記憶領域に記憶された前記複数の情報項目の置換文字列へ置換するステップをデータマスキング装置が実行し、
前記記憶領域に記憶された前記複数の情報項目の置換文字列間では、前記原本データに記録された前記複数の情報項目の原本文字列間の関係が維持されていることを特徴とするデータマスキング方法。
Original characters of the plurality of information items recorded in the original data with reference to a storage area for storing replacement character strings of the plurality of information items related to each other and the plurality of information items recorded in the original data The data masking device executes a step of replacing a column with a replacement character string of the plurality of information items stored in the storage area,
Data masking characterized in that a relationship between original character strings of the plurality of information items recorded in the original data is maintained between replacement character strings of the plurality of information items stored in the storage area. Method.
原本データに記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を記憶する記憶領域を参照して、前記原本データに記録された前記複数の情報項目の原本文字列を、前記記憶領域に記憶された前記複数の情報項目の置換文字列へ置換する機能をデータマスキング装置に実現させ、
前記記憶領域に記憶された前記複数の情報項目の置換文字列間では、前記原本データに記録された前記複数の情報項目の原本文字列間の関係が維持されていることを特徴とするコンピュータプログラム。
Original characters of the plurality of information items recorded in the original data with reference to a storage area for storing replacement character strings of the plurality of information items related to each other and the plurality of information items recorded in the original data A data masking device realizes a function of replacing a column with a replacement character string of the plurality of information items stored in the storage area,
A computer program characterized in that a relationship between original character strings of the plurality of information items recorded in the original data is maintained between replacement character strings of the plurality of information items stored in the storage area. .
JP2015102955A 2015-05-20 2015-05-20 Data masking device, data masking method, and computer program Pending JP2016218739A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015102955A JP2016218739A (en) 2015-05-20 2015-05-20 Data masking device, data masking method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015102955A JP2016218739A (en) 2015-05-20 2015-05-20 Data masking device, data masking method, and computer program

Publications (1)

Publication Number Publication Date
JP2016218739A true JP2016218739A (en) 2016-12-22

Family

ID=57581109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015102955A Pending JP2016218739A (en) 2015-05-20 2015-05-20 Data masking device, data masking method, and computer program

Country Status (1)

Country Link
JP (1) JP2016218739A (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736873A (en) * 1993-07-24 1995-02-07 Sony Corp Full name generating device for test data
JP2007108356A (en) * 2005-10-12 2007-04-26 Fujitsu Ltd Personal information concealing device and program for same
JP2009211603A (en) * 2008-03-06 2009-09-17 Fuji Xerox Co Ltd Document search system
JP2011209944A (en) * 2010-03-29 2011-10-20 Hitachi Solutions Ltd Device for generating masking data for test, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736873A (en) * 1993-07-24 1995-02-07 Sony Corp Full name generating device for test data
JP2007108356A (en) * 2005-10-12 2007-04-26 Fujitsu Ltd Personal information concealing device and program for same
JP2009211603A (en) * 2008-03-06 2009-09-17 Fuji Xerox Co Ltd Document search system
JP2011209944A (en) * 2010-03-29 2011-10-20 Hitachi Solutions Ltd Device for generating masking data for test, and program

Similar Documents

Publication Publication Date Title
US9892278B2 (en) Focused personal identifying information redaction
JP6526608B2 (en) Dictionary update device and program
JP5928421B2 (en) Information processing apparatus, image processing apparatus, information processing system, and program
JP5420099B1 (en) Personal information detection apparatus and computer program
CN105808513B (en) Conversion equipment and conversion method
JP6089881B2 (en) Data search method, data addition / update method, data search program, and relay device
US9465954B1 (en) Method and system for tracking masking of data
JP5687656B2 (en) Data converter
JP2008165432A (en) Query control program, query control device and query control method
US10783137B2 (en) Identity management
JP2023107143A (en) Anonymization device and program
JP2018060370A (en) Search program, search method and search device
JP2007108356A (en) Personal information concealing device and program for same
JP2016218739A (en) Data masking device, data masking method, and computer program
JP2016218738A (en) Data masking device, data masking method, and computer program
JP2011133991A (en) Confidential data protection system, confidential data protection method, and confidential data protection program
US10942934B2 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
JP6209901B2 (en) Character data processing method, program, and information processing apparatus
JP2018181121A (en) Analyzer, analysis program, and analysis method
JP2018077611A (en) Document retrieval device, document retrieval method and computer program
JP2011065597A (en) Device and data searching, and program
CN106776510A (en) Word embeds form generation method and device
US20200065332A1 (en) Method and System for Retrieving Data from Different Sources that Relates to a Single Entity
JP5358981B2 (en) Information processing apparatus, information processing apparatus control method, and information processing apparatus control program
JP2009199254A (en) Electronic mail transmission system, information processor, electronic mail transmission method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190827