JP5358549B2 - 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム - Google Patents

保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム Download PDF

Info

Publication number
JP5358549B2
JP5358549B2 JP2010263566A JP2010263566A JP5358549B2 JP 5358549 B2 JP5358549 B2 JP 5358549B2 JP 2010263566 A JP2010263566 A JP 2010263566A JP 2010263566 A JP2010263566 A JP 2010263566A JP 5358549 B2 JP5358549 B2 JP 5358549B2
Authority
JP
Japan
Prior art keywords
character string
target information
protection target
mask
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010263566A
Other languages
English (en)
Other versions
JP2012113606A (ja
Inventor
昌宏 湯口
明通 田中
隆 佐藤
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010263566A priority Critical patent/JP5358549B2/ja
Publication of JP2012113606A publication Critical patent/JP2012113606A/ja
Application granted granted Critical
Publication of JP5358549B2 publication Critical patent/JP5358549B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Description

本発明は、姓名、住所などの個人情報を含むテキストに対して、個人情報の保護を目的として個人情報を検出しその部分をマスクする保護対象情報マスクシステムに関し,特に、個人情報でない部分を誤ってマスクしてしまった可能性が高い場合でも、マスク前の状態を推測可能な個人情報マスクシステムに関する。
個人情報保護の重要性が増すなか、姓名、住所等の個人情報を含むテキストに対して、個人情報部分をマスクして読めなくする技術への期待が高まっている。
個人情報部分をマスキングする既存技術としては、文字列変換を実施する手法(特許文献1)などがある。
特開2007−102540号公報
しかしながら、既存技術では、電子文書内における一般名称などであっても、個人情報辞書データ内に登録されている文言についてはマスキング対象とされてしまい、誤ってマスキングされてしまう可能性があった。例えば、ブランド名として「Junko Koshino」について人名として間違われてマスキングされてしまうことがあり、該当のブランド名箇所の文字列が暗号化されてしまうことや、「*** ***」のような文字列に置き換えられてしまうことがあった。
これらの場合、誤ってマスキングされた箇所と正しくマスキングされた箇所とを区別することは困難であるため、マスキング結果データだけでは正しくマスキングされたかを確認することは難しいため、マスキング前の元データを参照する必要が発生する。
しかしながら、そもそも文書データにマスキングを適用する目的としては、個人情報の保護のために個人情報箇所を隠すことが主となる。よって、極力元データを参照することは避けることが望ましい。よって、マスキング前の元データを参照することなく、誤ってマスキングされてしまった文字列を推定可能なマスキング技術が必要となる。
本発明はこの課題を解決するための保護対象情報マスキング装置、方法、プログラムを提供することを目的とする。
前記課題を解決するために本発明では、保護対象の情報が格納された保護対象情報辞書データベースと、保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、前記保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出手段と、前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成手段と、前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換え手段と、を備えたことを特徴としている。
本発明によれば、保護対象情報を含む電子文書(テキスト)を適切にマスキングする際、誤ってマスキング処理された場合であっても、マスキング前の元データを参照することなく、誤変換箇所の推定を行うことができる。
これにより、本発明によりマスキングされたデータを利用することで、保護対象情報、例えば個人情報の保護を実現しつつ、統計情報の抽出などを実現することが可能となる。
本発明の一実施形態例を示す全体構成図。 本発明の一実施形態例における個人情報マスク生成手段の処理を示すフローチャート。 本発明の他の実施形態例における全体の処理を示すフローチャート。 本発明の個人情報マスク処理の適用例を示す説明図。 本発明をマーケティングデータ抽出に利用した実施例の説明図。 本発明を機密文書マスキングに利用した実施例の説明図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
尚、以下の図1〜図5で説明する実施形態例は、保護対象情報が個人情報である場合の実施形態を示している。
図1は本発明の実施形態における全体構成を示している。図1において、個人情報マスキング装置100は、保護の対象とする個人情報が格納された個人情報辞書DB(データベース)10(本発明の保護対象情報辞書データベース)と、電子文書などの元テキストを入力とし、該テキストから個人情報辞書DB10に含まれる個人情報部分を文字列として検出する個人情報検出手段20(本発明の保護対象情報検出手段)と、前記検出された個人情報文字列に対して、個人情報箇所をマスクするための文字列を生成する個人情報マスク生成手段30(本発明の保護対象情報マスク生成手段)と、前記個人情報検出手段20によって検出された個人情報部分を、前記個人情報マスク生成手段30により生成された文字列に置き換えて、個人情報マスク後テキスト(電子文書)を出力する個人情報置き換え手段40(本発明の保護対象情報置き換え手段)とを備えている。
個人情報マスキング装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、個人情報マスキング装置100は、図1に示すように、個人情報辞書DB10、個人情報検出手段20、個人情報マスク生成手段30、個人情報置き換え手段40を実装する。
前記個人情報マスク生成手段30は、後述する、ハッシュ値の先頭からの文字数bが設定された文字数設定情報DB31(図2)と、マスク用文字列およびマスク対象文字列位置情報を保存するマスク文字列情報DB32(図3)とを備えており、これら文字数設定情報DB31、マスク文字列情報DB32と前記個人情報辞書DB10は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
上記のように構成された装置において、個人情報マスキング装置100に個人情報を有する電子文書(元テキスト)が入力されると、個人情報検出手段20は、電子文書中の文字列に対し個人情報辞書DB10を元に、個人情報の対象となる文字列を検出する。
個人情報辞書DB10にて保存されるデータとしては、例えば、個人情報保護対象とすべき文字列(氏名、住所、電話番号)などのデータが保存される。
個人情報検出手段20では、個人情報辞書DB10に保存された個人情報データをキーとして、入力された電子文書(テキスト)データ中に個人情報に該当する文字列が存在するか検索を行い、該当する文字列をマスク対象文字列として検出する。
この際、例えば、個人情報辞書DB10において、氏名データが「姓」「名」として保存されている場合、「姓」、「名」をそれぞれキーとして検索するだけでなく、それぞれを組み合わせた「姓名」をキーとして検索を行ってもよい。
個人情報マスク生成手段30では、個人情報検出手段20にて抽出(検出)された個人情報対象文字列(マスク対象文字列)に対し、その文字列長とハッシュ値の一部からなるマスク用文字列を生成する。
ここで、個人情報マスク生成手段30が行なう処理を図2を用いて説明する。図2において、ステップS101では、前記個人情報検出手段20によって抽出された個人情報データが、個人情報マスク生成手段30にマスク対象文字列として入力される。
ステップS102では、入力されたマスク対象文字列の文字数をカウントし文字列長(a)を求める。例えば、マスク対象文字列が「Hanako」の場合、文字列長は6であり、a=6となる。
ステップS103では、入力されたマスク対象文字列の分類(文字種類判定)を行う。この際、マスク対象文字列が数値のみで構成される数値列であるか、または、数字以外の文字を含む文字列であるかを判定する。
例えば、マスク対象文字列が電話番号の場合は数字のみの数値列であると分類され、住所情報であれば文字列として分類される。
ステップS103にてマスク対象文字列が文字列として判定された場合は、ステップS104以降のマスク用文字列を生成するための処理ステップに遷移する。
ステップS104では、マスク対象文字列を元に、ハッシュ値を生成する。マスク対象文字列に対し、ランダムな文字列を加えたものから、ハッシュ値を求める。
例えば、マスク対象文字列が「hanako」の場合では、ランダムな文字列(ex.rKRotFVB)+hanakoから、Sha1(Secure hash algorithm 1)のようなハッシュ値を求めた場合、下記のようなハッシュ値が得られる。
EA1A9CF54F0DDB2065D2DAA9022B7F10875AF643
尚、このハッシュ値の生成の際には、Sha1以外にもハッシュ値を生成可能な手段であれば良いものとする。また、マスク対象文字列に加えるランダム文字列は、出力されたハッシュ値から元のマスク対象文字列を推定困難なものとするための値である。
ステップS105では、マスク用文字列の生成を行う。ここでは個人情報文字列(マスク対象文字列)の箇所をマスクするための文字列を生成する。すなわち、ステップS104にて生成したハッシュ値に対し、先頭b文字(bは正の任意数)をとり、前記ステップS102で求めた文字列長aと組み合わせ、
「開始記号」+「文字列長a」+「区切記号」+「ハッシュ値部分列b」+「終端記号」
の順に文字列を結合したマスク用文字列を生成する。
前記開始記号、終端記号はマスク箇所を発見しやすくするためのものであり、「*」などの記号を用いるものとし、区切記号としては、「:」などの記号を用いるものとする。
例えば、マスク対象文字列「hanako」の場合、文字列長は6であることからa=6となり、b=4とした場合は、マスク用文字列は「*6:EA1A*」となる。
この時、マスク用文字列として利用する、前記ハッシュ値の先頭からの文字数bは、文字数設定情報DB31(データ記憶領域)に保存された値であり、個人情報マスク生成処理開始時に設定する値とする。
なお、マスク用文字列として利用するハッシュ値の文字列については、一定位置の文字列であれば良いものとする。例えば、先頭から10文字後の連続するb文字でも良いものとする。
尚、マスク対象文字列の文字列長aをマスク用文字列に組み入れることにより、例えば姓、名などの文字列の場合、同一の電子文書内における文字列長の変動が少ないため、文字列長aを付与しても、元の個人情報データを絞り込む効果は少ない(マスク前文字列を推定しやすくならない)が、ブランド名などの一般名称の場合は、文字列長がさまざまなものが存在しており、文字列長aを指定することにより、絞り込みの効果が発生する。その分、ハッシュ値文字列長bを小さくしても、マスク前文字列を推定することが可能となる。
よって、マスク対象文字列長aの値を付与することにより、同一の電子文書中において、姓、名であるか、または一般名称であるかを推定することが可能となる。
尚、開始記号、終端記号の「*」を用いてマスク用文字列を生成する目的は、マスク変換箇所を他の箇所と区別するためのものであり、電子文書の特徴に応じ、「*」が多数含まれるなどの場合は、他の記号(例えば「#」など)を利用しても良い。
前記ステップS103にて、マスク対象文字列が数値列として分類(判定)された場合は、ステップS106にて数値用のマスク用文字列を生成する。
尚、マスク対象文字列が数値列の場合は、文字列の場合に比べ、ハッシュ値のパターン数が少なく、元の値の推定可能性が高くなる為、ハッシュ値は利用せず、固定値「N」を利用するものとする。よって、マスク対象文字列が文字数aの場合、マスク用文字列は、
「開始記号」+「文字列長a」+「区切記号」+「固定値N」+「終端記号」
の順に統合し、「*a:N*」として表示される。
例えば、3桁の数値列がマスク対象文字列の場合は、マスク用文字列は「*3:N*」となる。
従って、電話番号「012−345‐6789」がマスク対象文字列である場合は、マスク用文字列は「*3:N*−*3:N*−*4:N*」となる。
以上のステップを通じ、マスク用文字列が生成され、個人情報マスク生成手段30から出力される(ステップS107)。
その後、個人情報置き換え手段40では、個人情報の対象となる文字列(個人情報検出手段20の出力;マスク対象文字列)を、前記個人情報マスク生成手段30にて生成されたマスク用文字列に置き換える処理を行い、個人情報マスク後の電子文書(テキスト)として出力する。
次に、個人情報辞書DB10に登録されているデータが複数の種別を持つ場合にマスキングを行う実施例について、装置全体の処理の流れを表す図3を用いて説明する。
マスキング対象として、電話番号、携帯、カード、郵便番号、メールアドレス、ハンドル名、住所、カード名義、氏名、氏名カナ、などの個人情報が複数同時に存在する電子文書(元テキスト)について、個人情報箇所をマスクする場合は、各マスキング対象の文字列に対し、優先順位を設定したうえで、マスク対象文字列の抽出、及び、変換を実施する必要がある。
図3における個人情報辞書DB10には、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、Webハンドル名、住所等の複数の種類の個人情報文字列とそれらの文字列長のデータが格納されている(尚、文字列長が格納されていない個人情報文字列も存在するものとする)。
まずステップS201では、前述した個人情報が複数同時に存在する電子文書(元テキスト)が個人情報検出手段20に入力される。
ステップS202では、個人情報検出手段20が、個人情報辞書DB10中の複数の個人情報文字列について、文字列長が格納されている場合はその文字列長を採用し、文字列長が格納されていない場合はその文字列の文字数を算出する。 そしてステップS203では、個人情報検出手段20が、前記算出又は採用された各個人情報文字列の文字数を元に、検出優先順位の設定を行う。
すなわち、例えば、個人情報文字列のうち、文字列長が長いものを優先的に検出するものとする。これは、メールアドレスの一部に氏名のアルファベット表記の一部が使用されているなどの場合、文字列長が短いものから検出を行ってしまうと、本来検出すべきメールアドレスが検出することができないなど、誤った検出処理を避けるためである。また、文字列長が同じ場合は、数値列を優先し検出するものとし、検出優先順位を設定する。
その後ステップS204およびS205において、個人情報検出手段20は、前記設定された検出優先順位順に、個人情報辞書DB10内のすべての個人情報文字列について、前記入力されたテキストから個人情報辞書DB10内の個人情報文字列に該当する文字列をマスク対象文字列として検出する。
尚、この際、検出優先順位が高く、先に検出された文字列箇所については、再度、検出対象としないものとする。例えば、抽出(検出)された箇所については、入力データ中の該当箇所を空白に置き換えるなどにより、重複して検出対象とされることを避けるものとしても良い。
次にステップS206では、個人情報マスク生成手段30が、前記ステップS205の処理によって検出され個人情報検出手段20から順次入力されるマスク対象文字列の文字列長(a)を求める。
ここでは、前記個人情報辞書DB10に該当する文字列の文字列長が格納されている場合は、その文字列長を採用し、格納されていない場合は前記図2のステップS102と同様に、入力されたマスク対象文字列の文字数をカウントして文字列長を求める。
次にステップS207〜S210では、個人情報マスク生成手段30が、個人情報検出手段20から順次入力されるマスク対象文字列をマスクするためのマスク用文字列を、前記図2のステップS103〜S106の処理と同様の処理により生成する。
すなわちステップS207では該当の文字列種類について判定を行い、数値のみの場合はステップS210にて数値用のマスク用文字列を生成する。ステップS207にて数値以外を含む文字列として判定された場合は、ステップS208にて該当文字列のハッシュ値を生成の上、ステップS209にて対象文字列数の値とハッシュ値を元にマスク用文字列を生成する。
次にステップS211では、前記生成されたマスク用文字列と、該マスク用文字列に対応する、前記個人情報検出手段20により検出されたマスク対象文字列の位置情報とを、マスク文字列情報DB32に保存する。
その後、すべての検出対象文字列についてステップS203にて規定された検出優先順位の順に、ステップS204〜S211の処理を繰り返し実施する。
次に、ステップS204にてすべての検出対象文字列について検出が終了したと判定された場合、ステップS212において、個人情報置き換え手段40が、前記マスク文字列情報DB32内に保存された情報を元にマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置換し、ステップS213においてマスク処理が行われたテキストを出力する。
尚、前記ステップS205の文字列検出処理において、郵便番号と電話番号などの複数の数値列がハイフン「−」などの記号により組み合わされ構成されている文字列を検出する場合は、ハイフン「−」などの記号により組み合わされる部分数値列の全てが抽出対象とする電子文書(入力されたテキスト)内に存在する場合に検出処理を実施するものとする。
これにより、ECサイトなどの場合、郵便番号や電話番号の一部の文字列が金額表示の数値列と一致する場合であっても、誤ってマスキングされることを防ぐことが可能となる。
例えば、郵便番号が「234−0847」の場合、「234円」として金額表示されている場合であっても、「0847」も電子文書(入力されたテキスト)内に存在する場合のみ、マスキングを行うことになり、誤ったマスキングを避けることが可能となる。
以上のマスキング処理によって、本発明を個人情報に適用した例を示す図4のように、保護対象である図4(a)の個人情報が図4(b)のように各々マスキングされる。
図4によれば、開始記号「*」の次の数字(文字列長a)から、そのマスキングされた文字の字数を推定することができ、また、終端記号「*」の一つ手前に「N」が存在することから、そのマスキングされた文字が数値のみで成り立っていることを推定することができる。
また、本発明をWebページのアクセスログ分析システムとして活用することにより、マーケティング情報の抽出を行うことが可能となる。例えば、ユーザがどのWebサイトで、どのようなブランドの商品を購入したか、という情報を収集することにより、購買情報を収集することが可能となる。この、本発明を利用してアクセスログ分析システムを構築した実施例について、図5を用いて説明する。
図5において、200はユーザが使用するユーザ端末(複数存在する)であり、本発明の個人情報マスキング装置100を各々具備している。
201は、ユーザ端末200上でWebページにアクセスした情報中に含まれる個人情報を図1〜図4で述べた処理と同様の処理によりマスキングしたWebアクセスデータを示している。
202は、インターネットを介して入力された前記Webアクセスデータ201が格納されたWebアクセスデータDBである。
203は、ブランド名と、ブランド名の文字列長と、ブランド名に対して予め本発明の図1〜図4で述べたマスキング処理を施した結果のマスキングデータ(b=4)とを対応させて格納したブランド名リストDBである。
図5のアクセスログ分析システムによって、ユーザの端末上でWebページのアクセス情報中に含まれる個人情報に関わる文字列をマスキングする機能を実現することにより、個人情報をマスキングしたアクセスログを収集することが可能となる。
尚、ブランド名については、個人名が利用されたものが存在するため、ブランド名についてもマスキングが行われる可能性があるが、事前にブランド名に関するマスキング結果データを作成し、ブランド名リストDB203のように辞書データとして保持することにより、Webアクセスデータを分析する際に、WebアクセスデータDB202とブランド名リストDB203を比較することにより、ブランド名に関する分析を行うことが可能となる。
また、本発明を、機密情報や重要情報のマスキングシステムとして活用することにより、機密情報や重要情報の漏洩を防ぐことができる。
通常、企業内の重要情報や機密情報などを含んだ機密文書については、閲覧権限が厳密に管理され、閲覧可能な利用者、環境が限られている。しかしながら、業務都合上、このような重要電子文書などを社外からアクセスする必要が発生する場合がある。例えば、契約文書を緊急的に確認するため、社外からリモートアクセスし、電子文書を閲覧・編集する場合がある。このような場合、部外者により覗き見られることで、重要情報が漏洩する可能性がある。
そこで本発明のマスキング機能を活用することにより、顧客名などに対しマスキングを行うことが可能となる。この、本発明を利用して機密文書マスキングシステムを構築した実施例について図6を用いて説明する。
図6において300は、各種社内システム、ファイルサーバ等から成り、機密情報や重要情報などを含んだ機密文書(電子文書)を保持しているテキストサーバである。
301は、機密情報や重要情報の文字列とその文字列長などのデータが、前記図3の個人情報辞書DB10と同様に辞書として格納された重要情報辞書DBである。
302は、テキストサーバ300の機密文書に含まれる機密情報や重要情報について、重要情報辞書DB301を利用して、図1〜図4で述べた処理と同様の処理によりマスキングを行なう重要情報マスキングサーバである。
これらテキストサーバ300、重要情報辞書DB301、重要情報マスキングサーバ302は社内ネットワークで接続されている。
303は、社外ネットワークで接続された複数のリモートアクセス端末である。
304は、重要情報マスキングサーバ302とリモートアクセス端末303の間に設けられたファイアーウォールである。
上記のように構成されたシステムにおいて、社外のリモートアクセス端末303から社内のネットワークにアクセスがあったとき、重要情報マスキングサーバ302が、テキストサーバ300の機密文書中の機密情報、重要情報に対してマスキングを行なって、マスキング処理後の機密情報、重要情報を出力することにより、機密情報、重要情報の漏洩を防ぐことが可能となる。
また、本実施形態の保護対象情報マスキング装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の保護対象情報マスキング方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
10…個人情報辞書DB
20…個人情報検出手段
30…個人情報マスク生成手段
31…文字数設定情報DB
32…マスク文字列情報DB
40…個人情報置き換え手段
100…個人情報マスキング装置
200…ユーザ端末
202…WebアクセスデータDB
203…ブランド名リストDB
300…テキストサーバ
301…重要情報辞書DB
302…重要情報マスキングサーバ
303…リモートアクセス端末
304…ファイアーウォール

Claims (7)

  1. 保護対象の情報を有するテキストに対して保護対象情報部分を検出してマスキングを行う情報マスキング装置であって、
    保護対象の情報が格納された保護対象情報辞書データベースと、
    保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、前記保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出手段と、
    前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成手段と、
    前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換え手段と、
    を備えたことを特徴とする保護対象情報マスキング装置。
  2. 前記保護対象情報辞書データベースは、複数種類の保護対象の情報と、それら情報の文字列長のデータとが格納され、
    前記保護対象情報検出手段は、前記保護対象情報辞書データベース内の各保護対象情報の文字数を元に、保護対象情報の検出優先順位を設定し、該設定した検出優先順位順に、前記入力されたテキストから前記保護対象情報辞書データベース内の保護対象情報に該当する文字列をマスク対象文字列として検出し、
    前記保護対象情報マスク生成手段は、前記保護対象情報検出手段により順次検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を順次生成し、該生成されたマスク用文字列と、該マスク用文字列に対応する、前記保護対象情報検出手段により検出されたマスク対象文字列の位置情報とを保存し、
    前記保護対象情報置き換え手段は、前記保存された位置情報を元に、前記保護対象情報検出手段により検出されたマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置き換えることを特徴とする請求項1に記載の保護対象情報マスキング装置。
  3. 前記保護対象情報マスク生成手段は、前記マスク対象文字列が数値以外の文字で構成されている場合、マスク対象文字列を元にハッシュ値を求め、該ハッシュ値の部分列を含むマスク用文字列を生成することを特徴とする請求項1又は2に記載の保護対象情報マスキング装置
  4. 保護対象の情報を有するテキストに対して保護対象情報部分を検出してマスキングを行う情報マスキング方法であって、
    保護対象情報検出手段が、保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、保護対象の情報が格納された保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出ステップと、
    保護対象情報マスク生成手段が、前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成ステップと、
    保護対象情報置き換え手段が、前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換えステップと、
    を備えたことを特徴とする保護対象情報マスキング方法。
  5. 前記保護対象情報辞書データベースは、複数種類の保護対象の情報と、それら情報の文字列長のデータとが格納され、
    前記保護対象情報検出ステップは、前記保護対象情報辞書データベース内の各保護対象情報の文字数を元に、保護対象情報の検出優先順位を設定し、該設定した検出優先順位順に、前記入力されたテキストから前記保護対象情報辞書データベース内の保護対象情報に該当する文字列をマスク対象文字列として検出し、
    前記保護対象情報マスク生成ステップは、前記保護対象情報検出手段により順次検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を順次生成し、該生成されたマスク用文字列と、該マスク用文字列に対応する、前記保護対象情報検出手段により検出されたマスク対象文字列の位置情報とを保存し、
    前記保護対象情報置き換えステップは、前記保存された位置情報を元に、前記保護対象情報検出手段により検出されたマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置き換えることを特徴とする請求項4に記載の保護対象情報マスキング方法。
  6. 前記保護対象情報マスク生成ステップは、前記マスク対象文字列が数値以外の文字で構成されている場合、マスク対象文字列を元にハッシュ値を求め、該ハッシュ値の部分列を含むマスク用文字列を生成することを特徴とする請求項4又は5に記載の保護対象情報マスキング方法。
  7. コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる保護対象情報マスキングプログラム。
JP2010263566A 2010-11-26 2010-11-26 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム Active JP5358549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010263566A JP5358549B2 (ja) 2010-11-26 2010-11-26 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010263566A JP5358549B2 (ja) 2010-11-26 2010-11-26 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム

Publications (2)

Publication Number Publication Date
JP2012113606A JP2012113606A (ja) 2012-06-14
JP5358549B2 true JP5358549B2 (ja) 2013-12-04

Family

ID=46497738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010263566A Active JP5358549B2 (ja) 2010-11-26 2010-11-26 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム

Country Status (1)

Country Link
JP (1) JP5358549B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101282705B1 (ko) * 2012-07-30 2013-08-23 주식회사 한글과컴퓨터 전자 문서에 포함된 개인 정보 유출 방지 장치 및 방법
TW201423469A (zh) * 2012-12-03 2014-06-16 Inst Information Industry 電子數位資料匿篩裝置、方法及其電腦可讀取紀錄媒體
JP6420728B2 (ja) * 2015-07-01 2018-11-07 日本電信電話株式会社 マスク処理システム、マスク処理方法、ユーザ端末、及びサーバ
KR101742041B1 (ko) 2015-08-20 2017-05-31 한국과학기술정보연구원 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체
KR101612893B1 (ko) * 2015-08-28 2016-04-15 주식회사 컴트루테크놀로지 개인정보 스캔 시스템 및 스캔 방법
JP6631133B2 (ja) * 2015-09-30 2020-01-15 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
CN105630765A (zh) * 2015-12-21 2016-06-01 浙江万里学院 地名地址识别方法
KR102008668B1 (ko) * 2017-04-06 2019-08-08 주식회사 한류에이아이센터 외부 저장 장치에 저장되는 파일의 개인정보를 보호하는 보안 시스템 및 방법
JP2021052321A (ja) * 2019-09-25 2021-04-01 ソニー株式会社 画像処理装置、画像処理方法、プログラム、および画像処理システム
WO2024070153A1 (ja) * 2022-09-28 2024-04-04 富士フイルム株式会社 機密情報処理装置、その作動方法、及びデータ送受信システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185730A (ja) * 1997-09-08 1999-03-30 Dainippon Screen Mfg Co Ltd 文字詰め方法
JP2005070939A (ja) * 2003-08-21 2005-03-17 Sharp Corp 文字列処理装置、文字列処理方法、プログラム及び記録媒体
JP4663308B2 (ja) * 2004-12-17 2011-04-06 株式会社リコー 情報マスキング装置
JP2006221560A (ja) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd データ置換装置、データ置換方法およびデータ置換プログラム
JP4474390B2 (ja) * 2006-07-26 2010-06-02 日本興亜損害保険株式会社 個人情報マスキングシステム及びその方法

Also Published As

Publication number Publication date
JP2012113606A (ja) 2012-06-14

Similar Documents

Publication Publication Date Title
JP5358549B2 (ja) 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム
US10552462B1 (en) Systems and methods for tokenizing user-annotated names
CA2906475C (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
KR101282705B1 (ko) 전자 문서에 포함된 개인 정보 유출 방지 장치 및 방법
Walls et al. Forensic Triage for Mobile Phones with {DEC0DE}
US20200412740A1 (en) Methods, devices and systems for the detection of obfuscated code in application software files
JP5731361B2 (ja) 文字列変換方法及び文字列変換プログラム
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
Grosvald et al. Free from the Cover Text: A Human-generated Natural Language Approach to Text-based Steganography.
Benavides-Astudillo et al. Comparative study of deep learning algorithms in the detection of phishing attacks based on HTML and text obtained from web pages
De La Torre-Abaitua et al. On the application of compression-based metrics to identifying anomalous behaviour in web traffic
JP5676522B2 (ja) 文字列変換方法及びプログラム
US20200019605A1 (en) File fingerprint generation
JP5381542B2 (ja) 不正アクセス検出装置、不正アクセス検出プログラム、および、不正アクセス検出方法
CN110532805B (zh) 数据脱敏方法及装置
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
Mastjik et al. Comparison of pattern matching techniques on identification of same family malware
JP4807364B2 (ja) 情報管理装置
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
JP5513953B2 (ja) テスト用マスキングデータ生成装置及びプログラム
CN114996708A (zh) 涉诈手机应用研判方法、装置、电子设备及存储介质
CN108664792A (zh) 一种Android恶意软件的溯源方法
Kazmi et al. Unihach: unicode and hash function supported with counting and frequency recurrence of Arabic characters for Quranic text watermarking
Jeyaseeli et al. Design of an Efficient Smart Phone Data Extraction Tool Using Aho-Corasick Algorithm.
CN114004604B (zh) 一种邮件中url数据的检测方法、装置、电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5358549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350