JP2013246547A - Data conversion device - Google Patents
Data conversion device Download PDFInfo
- Publication number
- JP2013246547A JP2013246547A JP2012118365A JP2012118365A JP2013246547A JP 2013246547 A JP2013246547 A JP 2013246547A JP 2012118365 A JP2012118365 A JP 2012118365A JP 2012118365 A JP2012118365 A JP 2012118365A JP 2013246547 A JP2013246547 A JP 2013246547A
- Authority
- JP
- Japan
- Prior art keywords
- data
- personal information
- replacement
- character string
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 230000007717 exclusion Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 28
- 230000006866 deterioration Effects 0.000 abstract description 5
- 238000006073 displacement reaction Methods 0.000 abstract 3
- 238000000034 method Methods 0.000 description 20
- 238000004519 manufacturing process Methods 0.000 description 17
- 238000011161 development Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 230000000873 masking effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000012423 maintenance Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000009966 trimming Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明はデータ処理技術に関し、特に文書データの内容を変換する技術に関する。 The present invention relates to a data processing technique, and more particularly to a technique for converting the contents of document data.
情報システムの運用フェーズでは、保守作業のために、本番環境(言い換えれば商用環境)に蓄積されたデータをテスト用のデータとして抽出することがある。そして抽出したデータを開発環境(言い換えればテスト環境)へ導入し、開発環境にて各種のテストを実施することがある。 In the operation phase of the information system, data accumulated in the production environment (in other words, commercial environment) may be extracted as test data for maintenance work. Then, the extracted data may be introduced into a development environment (in other words, a test environment), and various tests may be performed in the development environment.
本番環境に蓄積されたデータには個人情報が含まれることがある。個人情報の保護が重視される現在、個人情報をマスキングする技術が提案されている。 Data stored in the production environment may contain personal information. Currently, protection of personal information is emphasized, and techniques for masking personal information have been proposed.
既述したように、本番環境から抽出されたデータが、開発環境においてテストデータとして用いられることがある。本発明者は、本番環境から抽出したデータに含まれる個人情報をマスクした場合に、テストデータとしての品質が低下することがあるという着想を得た。 As described above, data extracted from the production environment may be used as test data in the development environment. The inventor has come up with the idea that the quality of test data may be reduced when personal information contained in data extracted from the production environment is masked.
本発明は、本発明者の上記着想に基づきなされたものであり、その主な目的は、個人情報をマスクした後の文書データについて、テストデータとしての品質の低下を抑制する技術を提供することである。 The present invention has been made on the basis of the above-mentioned idea of the present inventor, and its main object is to provide a technique for suppressing deterioration in quality as test data for document data after masking personal information. It is.
上記課題を解決するために、本発明のある態様のデータ変換装置は、原本の文書データの中から、個人情報を検出する検出部と、検出部により検出された個人情報について、そのハッシュ値を示す置換データを取得する置換データ取得部と、原本の文書データにおける個人情報を置換データへ置換した文書データを出力する出力部と、を備える。 In order to solve the above problems, a data conversion apparatus according to an aspect of the present invention includes a detection unit that detects personal information from original document data, and a hash value of the personal information detected by the detection unit. A replacement data acquisition unit that acquires the replacement data to be shown, and an output unit that outputs document data obtained by replacing the personal information in the original document data with the replacement data.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements, and the expression of the present invention converted between a method, a system, a program, a recording medium storing the program, and the like are also effective as an aspect of the present invention.
本発明によれば、個人情報をマスクした後の文書データについて、テストデータとしての品質の低下を抑制することができる。 According to the present invention, it is possible to suppress deterioration in quality as test data for document data after masking personal information.
図1は、実施の形態の情報システム100の構成を示す。情報システム100は、例えば、小売業者や金融業者のための情報処理サービスを提供するものであり、その開発・運用・保守をSI企業が担当する。情報システム100は、本番機10と開発機12とデータ変換装置14を含む。
FIG. 1 shows a configuration of an
本番機10は、本番環境に設置されたウェブサーバや、アプリケーションサーバ、データベースサーバ等の情報処理装置である。本番機10は、顧客企業やエンドユーザに対する商用の情報処理サービスを提供し、また、顧客企業やエンドユーザの個人情報に該当する各種情報を含む文書データを保持する。この文書データは、データベースサーバが管理するテーブルのデータを含む。またCSVファイルや、フリーフォーマットのログファイル、固定長ファイル等を含む。
The
開発機12は開発環境に設置された情報処理装置である。また開発機12は、本番機10にインストールされたアプリケーションについて、そのトラブル解析や、バグ改修、機能追加等の作業(以下、総称して「保守作業」とも呼ぶ。)を行うための情報処理装置である。実施の形態では、開発機12での保守作業の効率を高めるために、その保守作業に用いるテストデータとして、本番環境に保持される文書データに対応した文書データを用いる。
The
データ変換装置14は、本番環境における文書データ(以下、「原本文書データ」とも呼ぶ。)を本番機10から取得する。そして、その原本文書データに含まれる個人情報をマスクした文書データ(以下、「テスト用文書データ」とも呼ぶ。)へ変換し、記録メディア16へ記録する。データ変換装置14は一般的なPCであってもよい。SI企業の担当者は、記録メディア16に記録されたテスト用文書データを開発機12に読み込ませて、開発機12での保守作業を実施する。
The
図2は、図1のデータ変換装置14の機能構成を示すブロック図である。データ変換装置14は、各種データを保持する記憶領域であるデータ保持部20と、各種データ処理を実行するデータ処理部30を備える。データ保持部20は、抽出データ保持部22と、対応関係保持部24と、置換規則保持部26と、除外規則保持部28を含む。データ処理部30は、原本文書取得部32と、個人情報検出部34と、置換規則決定部36と、置換データ取得部38と、文書変換部40と、変換文書出力部42と、ユーザ設定支援部44を含む。
FIG. 2 is a block diagram showing a functional configuration of the
本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。例えば図2の各ブロックは、プログラムモジュールとして記録媒体に格納され、その記録媒体を介してデータ変換装置14のストレージへインストールされてもよい。そしてデータ変換装置14において、各ブロックに対応するプログラムモジュールをメインメモリへ随時読み出し、CPUにより実行することで、各ブロックの機能を実現してもよい。
Each block shown in the block diagram of the present specification can be realized in terms of hardware by an element such as a CPU of a computer or a mechanical device, and in terms of software, it can be realized by a computer program or the like. The functional block realized by those cooperation is drawn. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by a combination of hardware and software. For example, each block in FIG. 2 may be stored as a program module in a recording medium and installed in the storage of the
抽出データ保持部22は、原本文書データに含まれる個人情報の抽出結果を保持する。図3は個人情報の抽出結果を示す。レコード番号フィールドには、原本文書データにおけるレコード番号が記録される。例えば、CSVファイルの行位置を示す番号であってもよく、データベースで管理されるテーブルの各レコードに付された識別番号であってもよい。項目名フィールドには個人情報が設定された、原本文書データの情報項目の名称が記録される。文字列フィールドには個人情報として検出された文字列が設定される。位置フィールドには、原本文書データの各情報項目において個人情報の文字列が設定された位置、具体的には先頭を1とした場合のバイト数が設定される。検出タイプフィールドには、個人情報の種類を識別する情報、例えば個人情報が人名・地名・電話番号・組織・メールアドレス等のいずれであるかを示す情報が記録される。
The extracted
図2に戻り、対応関係保持部24は、個人情報の検出タイプと、その個人情報を別の文字列(本実施の形態において文字列は数字列を含む)に置換する際の種類・態様を示すマスクパターンとを対応づけた対応規則を保持する。この対応規則は、データ変換装置14において予め定められたものであるが、後述のユーザ設定支援部44を介してユーザが変更することもできる。図4は対応規則を示す。同図で示すように、原則として、個人情報として検出された文字列の属性に合致するマスクパターン(例えば漢字の個人情報であればランダムな漢字列のマスクパターン)が対応づけられる。
Returning to FIG. 2, the correspondence
なおマスクパターンが、ユーザが任意の形式を設定可能な「カスタムパターン」の場合は、ユーザにより決定された文字列の態様を示すカスタム文字列をさらに保持する。例えば、カスタム文字列「<2n>−<4n>−<4n>」は、長さ2のランダムな数字列、「−」、長さ4のランダムな数字列、「−」、「長さ4のランダムな数字列」、を連結した文字列を示している。またカスタム文字列「<5a>@<3a>.<2a>.<2a>」は、長さ5のランダムなアスキー文字列、「@」、長さ3のランダムなアスキー文字列、「.」、長さ2のランダムなアスキー文字列、「.」、長さ2のランダムなアスキー文字列、を連結した文字列を示している。
If the mask pattern is a “custom pattern” that allows the user to set an arbitrary format, a custom character string indicating the character string mode determined by the user is further held. For example, a custom character string “<2n>-<4n>-<4n>” is a random number string of
図2に戻り、置換規則保持部26は、原本文書データにおける各情報項目と、マスクパターンとを対応づけた置換規則を保持する。図5は置換規則を示す。項目名フィールドには、原本文書データにおける情報項目の名称が記録される。対象フィールドには、当該情報項目が個人情報を含む(TRUE)か否か(FALSE)を示す情報が記録される。最大検出タイプフィールドには、当該情報項目の検出タイプとして最も多く決定された個人情報の種類が記録され、その検出タイプの検出数が検出数フィールドに記録される。マスクパターンフィールドには、個人情報を置換するマスクパターンが記録され、カスタムパターンについてはカスタム文字列がさらに記録される。
Returning to FIG. 2, the replacement
また図5の置換規則では、項目名「ACCOUNT_NUMBER」のマスクパターンとしてハッシュ値が指定されている。これは、項目名「ACCOUNT_NUMBER」のデータが、図5では不図示の他のテーブルでも使用され、両テーブルを関連づけるキーとなっているためである。個人情報をハッシュ値でマスクすることにより、原本文書データにおける複数テーブルの関連性を、テスト用文書データで維持することについては、図8等に関連して後述する。 In the replacement rule of FIG. 5, a hash value is specified as a mask pattern for the item name “ACCOUNT_NUMBER”. This is because the data of the item name “ACCOUNT_NUMBER” is also used in other tables not shown in FIG. 5 and serves as a key for associating both tables. Maintaining the relevance of multiple tables in the original document data by masking the personal information with the hash value will be described later with reference to FIG.
図2に戻り、除外規則保持部28は、個人情報として検出された文字列のうち、マスク処理から除外すべき文字列を識別するための除外規則を保持する。本実施の形態の除外規則は、マスク処理の対象外とすべき1つ以上の文字列(以下、「マスク対象外文字列」とも呼ぶ。)を定めたものとする。本実施の形態では、個人情報として検出された文字列のうち、マスク対象外文字列と完全一致する文字列をマスク処理から除外する。変形例としては、マスク対象外文字列を一部に含む文字列をマスク処理から除外してもよく、マスク対象外文字列が正規表現で示される場合には、その正規表現に包含される文字列をマスク処理から除外してもよい。
Returning to FIG. 2, the exclusion
原本文書取得部32は、原本文書データを本番機10から取得する。既述したように、原本文書データは、データベースのテーブルに格納されたレコードであってもよく、CSVファイル・固定長ファイル・フリーフォーマットのログファイル等の各種ファイルデータであってもよい。
The original
個人情報検出部34は、原本文書データから、当該データに含まれる個人情報を検出し、その検出結果を図2で示した態様で抽出データ保持部22へ記録する。個人情報検出部34は公知の個人情報抽出手段により実現されてよい。例えば、株式会社野村総合研究所が提供するソフトウェア製品である「TRUE TELLER 個人情報フィルタ(登録商標)」により実現されてもよい。
The personal
置換規則決定部36は、抽出データ保持部22に格納された個人情報の検出結果と、対応関係保持部24に格納された対応規則を参照して、原本文書データに含まれる個人情報に対する置換規則を決定し置換規則保持部26へ記録する。具体的には、原本文書データの情報項目ごとに、個人情報が検出されたか否か(例えば検出タイプが記録されたか否か)を判定し、その判定結果を記録する。また原本文書データの情報項目ごとに、各検出タイプの検出数をカウントして最大検出タイプを判定し記録する。そして、対応関係保持部24に格納された対応規則にしたがって、最大検出タイプと対応づけられたマスクパターン(およびカスタム文字列)を特定し記録する。
The replacement
なお、マスク前の文字列(個人情報を含む文字列であり、以下「オリジナル文字列」とも呼ぶ。)と、マスク後の文字列の属性を近似させるために、置換規則決定部36は、最大検出タイプの判定において、個人情報検出部34により特定された検出タイプを、文字の属性に応じてより詳細化する。例えば、個人情報の検出結果における最大検出タイプが[人名]であり、文字列フィールドに設定された文字列が漢字であれば、最大検出タイプ[人名]KANJIを記録する。また、個人情報の検出結果における最大検出タイプが[人名]であり、文字列フィールドに設定された文字列が平仮名であれば、最大検出タイプ[人名]KANAを記録する。
In order to approximate the character string before the mask (a character string including personal information, hereinafter also referred to as “original character string”) and the attribute of the character string after the mask, In the detection type determination, the detection type specified by the personal
置換データ取得部38は、置換規則保持部26に格納された置換規則を参照して、原本文書データのレコードごと、かつ、情報項目ごとに、個人情報をマスクするための置換用のデータ(以下、「マスクデータ」とも呼ぶ。)を取得する。例えば、マスクパターンがランダム文字列(漢字)の場合、オリジナルの文字列長に対応する長さ(本実施の形態では同じ長さ)のランダムな漢字文字列をマスクデータとして取得する。
The replacement
またマスクパターンがハッシュ値の場合、オリジナルの文字列をハッシュ関数(実施の形態ではSHA−2)に入力し、当該ハッシュ関数の出力結果であるハッシュ値を示す文字列(以下、「ハッシュ文字列」とも呼ぶ。)をマスクデータとして取得する。このハッシュ関数は、他の種類のハッシュ関数であってもよく、例えばSHA−1やMD5であってもよい。ハッシュ文字列は、所定長のハッシュ値を16進表記したHEX文字列であってもよく、数字列であってもよい。また置換データ取得部38は、ハッシュ文字列を、オリジナルの文字列長に対応する長さにトリミングした結果をマスクデータとして取得してもよい。
When the mask pattern is a hash value, an original character string is input to a hash function (SHA-2 in the embodiment), and a character string indicating a hash value as an output result of the hash function (hereinafter referred to as “hash character string”). Is also obtained as mask data. This hash function may be another type of hash function, for example, SHA-1 or MD5. The hash character string may be a HEX character string in which a hash value of a predetermined length is expressed in hexadecimal or a numeric string. Further, the replacement
また図6に関連して後述するように、マスクパターンがカスタムパターンの場合もハッシュ値が指定される場合がある。このとき置換データ取得部38は、オリジナル文字列のハッシュ値を取得し、そのハッシュ値を示す文字列を、カスタム文字列で指定された長さにトリミングした結果をマスクデータとして取得する。
As will be described later with reference to FIG. 6, a hash value may be specified even when the mask pattern is a custom pattern. At this time, the replacement
文書変換部40は、原本文書データのレコードごと、かつ、情報項目ごとに、個人情報検出部34により個人情報として検出された文字列を、置換データ取得部38により取得されたマスクデータへ置換する。これにより、原本文書データを、個人情報がマスクされたテスト用文書データへ変換する。
The
また文書変換部40は、原本文書データにおける変換対象のオリジナル文字列が、除外規則保持部28の除外規則で定められたマスク対象外文字列と一致するか否かを判定し、不一致であれば、当該オリジナル文字列をマスクデータへ置換する。一致した場合は、当該オリジナル文字列のマスクデータへの置換を抑制する。言い換えれば、当該オリジナル文字列のマスク処理をスキップして、次の変換対象文字列のマスク処理へ移行する。
Further, the
変換文書出力部42は、文書変換部40により生成されたテスト用文書データを記録メディア16へ記録する。例えば、原本文書データがデータベースのテーブルデータの場合は、個人情報をマスク後のテーブルデータをテスト用文書データとして記録メディア16へ格納する。また原本文書データがフリーフォーマットのログファイルの場合は、個人情報をマスク後のログファイルのデータをテスト用文書データとして記録メディア16へ格納する。記録メディア16に記録されたテスト用文書データは、開発機12に読み込まれ、開発機12での保守作業において(例えばテストのための入力データや照合用データとして)用いられる。
The converted
ユーザ設定支援部44は、対応関係保持部24に保持された対応規則と、置換規則保持部26に保持された置換規則に対するユーザの設定操作を支援する。具体的には、対応規則および置換規則を編集するためのユーザ設定画面を所定のディスプレイに表示させ、ユーザ設定画面に対するユーザの入力情報を対応関係保持部24の対応規則および置換規則保持部26の置換規則へ反映させる。
The user
図6はユーザ設定画面を示す。同図は、対応関係保持部24に保持された対応規則を編集するためのユーザ設定画面を示している。同図の内容をユーザが入力すると、[人名]KANJIの検出タイプと、8文字のハッシュ文字列のマスクパターンとを対応づけるよう対応関係が更新される。なお、マスクパターンのプルダウンメニューからハッシュ文字列を選択することもできる。
FIG. 6 shows a user setting screen. This figure shows a user setting screen for editing the correspondence rule held in the correspondence
またユーザ設定支援部44は、マスク対象外文字列をユーザに入力させるためのユーザ設定画面を表示させる。そして、ユーザ設定画面に対してユーザが入力したマスク対象外文字列を取得し、その文字列を除外規則保持部28の除外規則へ追加する。
The user
以上の構成によるデータ変換装置14の動作を以下説明する。
図7(a)は、データ変換装置14の動作を示すフローチャートである。データ変換装置14において本番環境の文書データに対するマスクパターンの決定を指示するユーザ操作が検出されると(S10のY)、原本文書取得部32は、当該ユーザ操作で指定された原本文書データを本番機10から取得する(S12)。個人情報検出部34は、原本文書データに記載された個人情報を検出し、その記載位置を含む属性情報を抽出データ保持部22へ記録する(S14)。置換規則決定部36は、個人情報検出部34により検出された個人情報の属性と、対応関係保持部24に保持された対応規則とに基づいて各個人情報のマスクパターンを決定し、各個人情報の置換規則を置換規則保持部26へ記録する(S16)。マスクパターンの決定を指示するユーザ操作が未検出であれば(S10のN)、S12〜S16をスキップする。
The operation of the
FIG. 7A is a flowchart showing the operation of the
またデータ変換装置14においてマスク処理の設定変更を指示するユーザ操作が検出されると(S18のY)、ユーザ設定支援部44は、ユーザ設定画面を表示させる(S20)。ユーザ設定支援部44は、ユーザ設定画面に入力された対応規則の更新情報を対応関係保持部24に反映させ、または、ユーザ設定画面に入力された置換規則の更新情報を置換規則保持部26に反映させる(S22)。マスク処理の設定変更を指示するユーザ操作が未検出であれば(S18のN)、S20およびS22をスキップする。なお図7(a)には不図示であるが、ユーザ設定画面においてマスク対象外文字列が入力されると、ユーザ設定支援部44はマスク対象外文字列を除外規則保持部28に記録する。
When the user operation for instructing the change of the mask processing setting is detected in the data conversion device 14 (Y in S18), the user setting
典型的には、データ変換装置14のユーザは、原本文書データにおいて複数箇所に記載されて、相互の関連性を維持すべき個人情報の項目に対するマスクパターンとしてハッシュ値を設定する。より具体的には、リレーショナルデータベースにおいて複数のテーブルを関連づけるためのキー情報(例えば第1テーブルにおける外部キーであり、第2のテーブルにおける主キー)に対するマスクパターンとしてハッシュ値を設定する。これにより、原本文書データにおける項目間の関連性、例えばリレーショナルデータベースにおける複数テーブル間のリレーションを、マスク後のテスト用文書データでも維持することができる。
Typically, the user of the
図7(b)は、図7(a)に続く動作を示すフローチャートである。データ変換装置14においてマスク処理の開始を指示するユーザ操作が検出されると(S24のY)、置換データ取得部38は、原本文書データに記載された個人情報のオリジナル文字列ごとに、その属性に応じたマスクパターンに基づくマスクデータを取得する。文書変換部40は、個人情報として検出されたオリジナル文字列が、除外規則保持部28に記録されたマスク対象外文字列と不一致であれば(S26のN)、そのオリジナル文字列をマスクデータへ置換する(S28)。具体的には、抽出データ保持部22に記録されたオリジナル文字列の先頭位置から、オリジナル文字列の長さ分のデータ(すなわちオリジナル文字列そのもの)を、マスクデータの文字列へ置き換える。個人情報として検出されたオリジナル文字列がマスク対象外文字列と一致すれば(S26のY)、S28をスキップする。
FIG. 7B is a flowchart showing the operation following FIG. When the user operation for instructing the start of the mask process is detected in the data conversion device 14 (Y in S24), the replacement
原本文書データに記載された全ての個人情報のオリジナル文字列に対する置換処理、もしくは置換スキップを完了すると(S30のY)、変換文書出力部42はテスト用文書データを記録メディア16へ出力する(S32)。未処理の個人情報のオリジナル文字列が残っていれば(S30のN)、S26へ戻って、置換データ取得部38は、未処理のオリジナル文字列に対するマスクデータを取得する。マスク処理の開始を指示するユーザ操作が未検出であれば(S24のN)、S26からS32をスキップする。
When the replacement process for the original character string of all personal information described in the original document data or the replacement skip is completed (Y in S30), the converted
本実施の形態のデータ変換装置14によると、原本文書データの各情報項目とマスクパターンとの対応関係を1つ1つユーザが定義する必要がない。すなわち、原本文書データに含まれる個人情報を自動的に検出し、個人情報の属性とマスクパターンとの対応規則にもとづいて、各個人情報のマスクパターンを自動的に決定する。これにより人為的なミスの発生(典型的にはマスク設定の漏れ)を抑制できる。例えば、原本文書データの中に予備項目が設けられ、その予備項目は初期の開発時には未使用であり、後の機能追加時に個人情報を保持するよう変更されることがある。人手でマスクパターンを設定すると、予備項目のマスクが見落とされて、マスク設定の漏れが発生しやすい。データ変換装置14では、マスク対象とすべき文字列の検出と、その文字列を置き換えるべきマスクデータの決定とを自動化することにより、人為的なミスの発生を抑制できる。
According to the
またユーザ設定画面では、置換規則を編集できるだけでなく、置換規則の基礎となる対応規則もユーザが編集できる。ユーザは対応規則を編集することで、個人情報の属性が共通する原本文書データの複数の情報項目に対するマスクパターンを一括して設定でき、マスク処理のためのユーザ作業の効率化を実現できる。 In addition, on the user setting screen, not only can the replacement rule be edited, but the user can also edit the corresponding rule that is the basis of the replacement rule. By editing the correspondence rule, the user can collectively set a mask pattern for a plurality of information items of original document data having the same personal information attribute, and the efficiency of user work for mask processing can be realized.
またデータ変換装置14によると、原本文書データにおいて異なる箇所に記載された複数の個人情報項目であり、マスク後においても互いの関連性を維持すべき複数の個人情報項目のそれぞれを、個人情報を示す文字列のハッシュ値によりマスクする。これにより、原本文書データにおける情報項目間の関連性を、個人情報をマスクした後のテスト用文書データでも維持でき、テストデータとしての品質の低下を抑制することができる。
Further, according to the
図8は、複数のテーブルのマスク処理を模式的に示す。名義情報テーブルと残高情報テーブルは、口座番号をキーとして互いに関連性を有する。図8(a)は、原本文書データとしての名義情報テーブルと残高情報テーブルを示しており、例えば名前「佐々木」の残高は「300,000」であることを示している。図8(b)は、名義情報テーブルの口座番号と、残高情報テーブルの口座番号のそれぞれをランダムな値でマスクした結果を示しており、名義情報テーブルと残高情報テーブルの関連性が失われている。 FIG. 8 schematically shows mask processing of a plurality of tables. The name information table and the balance information table are related to each other using the account number as a key. FIG. 8A shows a name information table and a balance information table as original document data. For example, the balance of the name “Sasaki” is “300,000”. FIG. 8B shows the result of masking the account number of the nominal information table and the account number of the balance information table with random values, and the association between the nominal information table and the balance information table is lost. Yes.
これに対して、図8(c)は、名義情報テーブルの口座番号と、残高情報テーブルの口座番号のそれぞれをハッシュ値によりマスクした結果を示している。同図で示すように、名義情報テーブルの口座番号と残高情報テーブルの口座番号は、それぞれオリジナルの値が秘匿されつつも、互いの関連性が維持されている。例えば、名前「XXX(佐々木のマスク結果)」の残高は「300,000」であることが、マスク後も識別できる。図8(c)の名義情報テーブルと残高情報テーブルをテスト用文書データとして用いることにより、開発環境においても本番環境に即したテストを実施しやすくなる。 On the other hand, FIG. 8C shows the result of masking each of the account number of the nominal information table and the account number of the balance information table with a hash value. As shown in the figure, the relationship between the account number in the name information table and the account number in the balance information table is maintained while the original values are kept secret. For example, the balance of the name “XXX (Sasaki mask result)” is “300,000”, which can be identified even after masking. By using the name information table and the balance information table of FIG. 8C as test document data, it becomes easy to perform a test according to the production environment even in the development environment.
またデータ変換装置14によると、個人情報がどの位置に記載されるかが確定しないフリーフォーマットのファイルデータ(例えばログデータ)に対しても、個人情報を自動でマスクすることができる。またデータ変換装置14によると、ユーザは任意の文字列をマスク対象外文字列として指定でき、個人情報の保護と、テストデータの品質低下の抑制の両立を支援できる。
Further, according to the
図9は、ログデータのマスク処理を模式的に示す。図9(a)は、2つのログメッセージを含む本番環境でのオリジナルのログデータを示している。これら2つのログメッセージはフォーマットが異なるものである。図9(b)は、図9(a)のログデータに含まれる個人情報をマスクした後のテスト用のデータを示している。既述したように、個人情報検出部34は、オリジナルのログデータに含まれる個人情報について、その属性・記載位置を記録する。そして置換データ取得部38は、個人情報の属性に応じたマスクデータを取得し、文書変換部40は、個人情報の記載位置を特定してマスクデータへ置き換える。これにより、フリーフォーマットのファイルデータにおける個人情報のマスキングを実現できる。
FIG. 9 schematically illustrates log data mask processing. FIG. 9A shows original log data in a production environment including two log messages. These two log messages have different formats. FIG. 9B shows test data after the personal information included in the log data of FIG. 9A is masked. As described above, the personal
なお図9(b)では、本来マスクされるべきでない商品名「山田300」も個人情報としてマスクされている。ユーザは、文字列「山田300」をマスク対象外文字列として指定することにより、テスト用ログデータにおいて商品名「山田300」をそのまま出力させることができる。 In FIG. 9B, the product name “Yamada 300” that should not be masked is also masked as personal information. The user can output the product name “Yamada 300” as it is in the test log data by designating the character string “Yamada 300” as a non-maskable character string.
また上記では言及していないが、個人情報検出部34は、図9(c)で示すように、個人情報として検出した文字列を記録した個人情報検出リストをさらに出力してもよい。そして、個人情報検出リストをディスプレイに表示し、ユーザへ提示してもよい。このリストは、抽出データ保持部22に格納した個人情報抽出結果によって代用してもよい。個人情報検出リストをユーザへ提示することにより、ユーザがマスク対象外文字列を適切に指定できるよう支援できる。
Although not mentioned above, the personal
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下変形例を示す。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there. A modification is shown below.
第1の変形例を説明する。
上記実施の形態では、ハッシュ値でマスクする個人情報項目をユーザが指定することとしたが、置換規則決定部36は、ハッシュ値でマスクする個人情報項目を自動で決定し、置換規則へ記録してもよい。例えば、リレーショナルデータベースの定義情報を参照し、リレーショナルデータベースにおいて複数テーブル間に設定された参照整合性制約を検出してもよい。そして参照整合性制約が設定されたカラム(典型的には第1テーブルにおける外部キーのカラムと、第2テーブルにおける主キーのカラムの両方)について、マスクパターンとしてハッシュ値を設定してもよい。
A first modification will be described.
In the above embodiment, the user designates the personal information item to be masked with the hash value, but the replacement
第2の変形例を説明する。
上記実施の形態で一部既述したが、ハッシュ文字列を、オリジナルの文字列長に対応する長さにトリミングした結果をマスクデータとする場合、異なるオリジナル文字列を同じマスクデータへ変換してしまうことが考えられる。そのため変形例として、置換データ取得部38は、オリジナル文字列と、そのハッシュ値をトリミングしたマスクデータとを対応づけたテーブル(以下、「割当履歴テーブル」)を保持してもよい。
A second modification will be described.
As described above in part in the above embodiment, when mask data is obtained by trimming a hash character string to a length corresponding to the original character string length, different original character strings are converted to the same mask data. It is possible to end up. Therefore, as a modification, the replacement
置換データ取得部38は、あるオリジナル文字列(「当該オリジナル文字列」と呼ぶ。)のマスクデータ(ここではハッシュ文字列をトリミングした文字列)を取得すべきとき、割当履歴テーブルを参照して、当該オリジナル文字列と一致する文字列にマスクデータを割当済かを判定する。割当済であれば、当該オリジナル文字列と一致する文字列に割当済のマスクデータを、当該オリジナル文字列へ割り当てる。
The replacement
当該オリジナル文字列と一致する文字列が割当履歴テーブルに未記録であれば、置換データ取得部38は、当該オリジナル文字列のハッシュ値をトリミングしたマスクデータを取得する。そして割当履歴テーブルを参照し、そのマスクデータを他のオリジナル文字列へ割当済か否かを判定する。未割当であれば、そのマスクデータを当該オリジナル文字列へ割り当て、割当履歴テーブルへ記録する。他のオリジナル文字列へ割当済であれば、当該オリジナル文字列のハッシュ値をハッシュ関数へ入力し、その出力結果であるハッシュ値を新たなマスクデータとして取得する。以下、ユニークなマスクデータを取得するまで上記処理を繰り返す。
If a character string that matches the original character string is not recorded in the allocation history table, the replacement
この変形例によると、マスクパターンがハッシュ値に設定され、そのハッシュ文字列をトリミングする場合に、異なるオリジナル文字列に対して重複するマスクデータを割り当てることを回避できる。これにより、原本文書データにおいて関連性のない複数の情報項目について、テスト用文書データにおいて関連性を生じさせることを回避できる。 According to this modification, when a mask pattern is set to a hash value and the hash character string is trimmed, it is possible to avoid assigning overlapping mask data to different original character strings. Thereby, it is possible to avoid the occurrence of relevance in the test document data for a plurality of information items that are not relevant in the original document data.
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。 It should also be understood by those skilled in the art that the functions to be fulfilled by the constituent elements recited in the claims are realized by the individual constituent elements shown in the embodiments and the modified examples or by their linkage.
14 データ変換装置、 22 抽出データ保持部、 24 対応関係保持部、 26 置換規則保持部、 28 除外規則保持部、 32 原本文書取得部、 34 個人情報検出部、 36 置換規則決定部、 38 置換データ取得部、 40 文書変換部、 42 変換文書出力部、 44 ユーザ設定支援部。
DESCRIPTION OF
Claims (5)
前記検出部により検出された個人情報について、そのハッシュ値を示す置換データを取得する置換データ取得部と、
前記原本の文書データにおける個人情報を前記置換データへ置換した文書データを出力する出力部と、
を備えることを特徴とするデータ変換装置。 A detection unit that detects personal information from the original document data;
For the personal information detected by the detection unit, a replacement data acquisition unit that acquires replacement data indicating the hash value;
An output unit for outputting document data obtained by replacing personal information in the original document data with the replacement data;
A data conversion device comprising:
前記置換規則は、前記原本の文書データで複数箇所に記載され、互いの関連性を維持すべき個人情報について、その個人情報のハッシュ値を前記置換データとすることを定めたものであり、
前記置換データ取得部は、前記置換規則にしたがって、前記検出された個人情報に対する置換データを取得することを特徴とする請求項1に記載のデータ変換装置。 It further includes a holding unit that holds a replacement rule that defines replacement data according to the attribute of personal information,
The replacement rule is described in a plurality of locations in the original document data, and for personal information that should maintain the relevance of each other, the hash value of the personal information is defined as the replacement data,
The data conversion apparatus according to claim 1, wherein the replacement data acquisition unit acquires replacement data for the detected personal information according to the replacement rule.
前記置換データ取得部は、前記キーとしての個人情報のハッシュ値を前記置換データとして取得することにより、前記出力部が出力する文書データにおいて前記複数のテーブルの関連づけを維持させることを特徴とする請求項1または2に記載のデータ変換装置。 The original document data includes data of a plurality of tables associated with personal information as a key,
The replacement data acquisition unit acquires the hash value of personal information as the key as the replacement data, thereby maintaining association of the plurality of tables in the document data output from the output unit. Item 3. The data conversion device according to Item 1 or 2.
前記出力部は、前記検出部により個人情報として検出された文字列のうち、前記除外規則が定める文字列に合致するものについては、前記置換データへの置換を抑制することを特徴とする請求項1から3のいずれかに記載のデータ変換装置。 It further includes an exclusion rule holding unit that defines a specific character string to be excluded from replacement,
The output unit suppresses replacement with the replacement data for a character string detected as personal information by the detection unit that matches a character string determined by the exclusion rule. The data conversion device according to any one of 1 to 3.
前記検出する機能により検出された個人情報について、そのハッシュ値を示す置換データを取得する機能と、
前記原本の文書データにおける個人情報を前記置換データへ置換した文書データを出力する機能と、
をコンピュータに実現させるためのコンピュータプログラム。 A function to detect personal information from the original document data;
A function of acquiring replacement data indicating a hash value of the personal information detected by the function of detecting;
A function of outputting document data obtained by replacing personal information in the original document data with the replacement data;
A computer program for realizing a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012118365A JP5687656B2 (en) | 2012-05-24 | 2012-05-24 | Data converter |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012118365A JP5687656B2 (en) | 2012-05-24 | 2012-05-24 | Data converter |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013246547A true JP2013246547A (en) | 2013-12-09 |
JP5687656B2 JP5687656B2 (en) | 2015-03-18 |
Family
ID=49846282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012118365A Active JP5687656B2 (en) | 2012-05-24 | 2012-05-24 | Data converter |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5687656B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5827440B1 (en) * | 2015-07-16 | 2015-12-02 | 株式会社Osk | Confidential information automatic grant system |
JP5940203B1 (en) * | 2015-09-14 | 2016-06-29 | 株式会社Osk | Confidential information automatic grant system |
WO2016157950A1 (en) * | 2015-03-31 | 2016-10-06 | 株式会社日立製作所 | Statistical model creation device, statistical model creation method, and statistical model creation program |
CN112085010A (en) * | 2020-10-28 | 2020-12-15 | 成都信息工程大学 | Mask detection and deployment system and method based on image recognition |
JP2021516811A (en) * | 2018-03-19 | 2021-07-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Data anonymization |
US11176275B2 (en) | 2019-07-08 | 2021-11-16 | International Business Machines Corporation | De-identifying source entity data |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007287102A (en) * | 2006-04-20 | 2007-11-01 | Mitsubishi Electric Corp | Data converter |
JP2008033411A (en) * | 2006-07-26 | 2008-02-14 | Nipponkoa Insurance Co Ltd | Personal information masking system and method |
JP2008140202A (en) * | 2006-12-04 | 2008-06-19 | Hitachi Ltd | Information provision controller, information provision control method and program |
JP2010231717A (en) * | 2009-03-30 | 2010-10-14 | Hitachi Ltd | Information concealing device, information concealing method, information concealment program, and recording medium |
JP2010244123A (en) * | 2009-04-01 | 2010-10-28 | Nec Corp | Information bringing-out management system and method |
JP2011034264A (en) * | 2009-07-31 | 2011-02-17 | Hitachi Solutions Ltd | Personal information masking system |
JP2011133991A (en) * | 2009-12-22 | 2011-07-07 | Nec Corp | Confidential data protection system, confidential data protection method, and confidential data protection program |
JP2011145802A (en) * | 2010-01-13 | 2011-07-28 | Nec Corp | Message mediation apparatus and control method therefor |
-
2012
- 2012-05-24 JP JP2012118365A patent/JP5687656B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007287102A (en) * | 2006-04-20 | 2007-11-01 | Mitsubishi Electric Corp | Data converter |
JP2008033411A (en) * | 2006-07-26 | 2008-02-14 | Nipponkoa Insurance Co Ltd | Personal information masking system and method |
JP2008140202A (en) * | 2006-12-04 | 2008-06-19 | Hitachi Ltd | Information provision controller, information provision control method and program |
JP2010231717A (en) * | 2009-03-30 | 2010-10-14 | Hitachi Ltd | Information concealing device, information concealing method, information concealment program, and recording medium |
JP2010244123A (en) * | 2009-04-01 | 2010-10-28 | Nec Corp | Information bringing-out management system and method |
JP2011034264A (en) * | 2009-07-31 | 2011-02-17 | Hitachi Solutions Ltd | Personal information masking system |
JP2011133991A (en) * | 2009-12-22 | 2011-07-07 | Nec Corp | Confidential data protection system, confidential data protection method, and confidential data protection program |
JP2011145802A (en) * | 2010-01-13 | 2011-07-28 | Nec Corp | Message mediation apparatus and control method therefor |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016157950A1 (en) * | 2015-03-31 | 2016-10-06 | 株式会社日立製作所 | Statistical model creation device, statistical model creation method, and statistical model creation program |
JP2016192034A (en) * | 2015-03-31 | 2016-11-10 | 株式会社日立製作所 | Statistical model creation device, statistical model creation method, and statistical model creation program |
JP5827440B1 (en) * | 2015-07-16 | 2015-12-02 | 株式会社Osk | Confidential information automatic grant system |
JP5940203B1 (en) * | 2015-09-14 | 2016-06-29 | 株式会社Osk | Confidential information automatic grant system |
JP2021516811A (en) * | 2018-03-19 | 2021-07-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Data anonymization |
JP7266354B2 (en) | 2018-03-19 | 2023-04-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Data anonymization |
US11176275B2 (en) | 2019-07-08 | 2021-11-16 | International Business Machines Corporation | De-identifying source entity data |
CN112085010A (en) * | 2020-10-28 | 2020-12-15 | 成都信息工程大学 | Mask detection and deployment system and method based on image recognition |
Also Published As
Publication number | Publication date |
---|---|
JP5687656B2 (en) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5420099B1 (en) | Personal information detection apparatus and computer program | |
JP5687656B2 (en) | Data converter | |
CN107957957B (en) | Test case obtaining method and device | |
CN106156355B (en) | Log processing method and device | |
CN107168872B (en) | Code checking method, device, storage medium and processor | |
CN108009408A (en) | A kind of right management method, device, computer-readable recording medium and storage control | |
JP6542612B2 (en) | Test scenario generation support apparatus and test scenario generation support method | |
JP2017174161A (en) | Information processor, information processing method and program | |
CN106503186A (en) | A kind of data managing method, client and system | |
JP6528381B2 (en) | Log management device, log management program, and log management method | |
CN109101644A (en) | A kind of sound state journal file scanning collecting method | |
CN109086094A (en) | Method, system, device and the storage medium of application service self-starting | |
JP4879193B2 (en) | System log management support apparatus and system log management support method | |
JP2013077124A (en) | Software test case generation device | |
CN105243022B (en) | The performance data analysis method and device of host application software system | |
US20220327162A1 (en) | Information search system | |
JP2013191012A (en) | Computer log collection system and attachment/detachment type log storage device | |
JP2010250738A (en) | Audit information processing method | |
JP2008059136A (en) | Leaking personal information retrieval system, leaking personal information retrieval method, leaking personal information retrieval device and program | |
JPWO2019176011A1 (en) | Search text utilization device and search text utilization method | |
JP2014235568A (en) | Data processing apparatus and data processing apparatus program for use in failure analysis, data processing method for use in failure analysis, and data processing method for use in failure analysis | |
JP2020035276A (en) | Information processor and information processing method | |
JP2005032002A (en) | Plant monitoring device | |
US20240045416A1 (en) | Logging support apparatus, logging system, method for logging support, and recording medium | |
JP2010055542A (en) | Repair information provision method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5687656 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |