JP2007058380A - 電子文書マスキングシステム - Google Patents

電子文書マスキングシステム Download PDF

Info

Publication number
JP2007058380A
JP2007058380A JP2005240776A JP2005240776A JP2007058380A JP 2007058380 A JP2007058380 A JP 2007058380A JP 2005240776 A JP2005240776 A JP 2005240776A JP 2005240776 A JP2005240776 A JP 2005240776A JP 2007058380 A JP2007058380 A JP 2007058380A
Authority
JP
Japan
Prior art keywords
character string
masking
electronic document
definition information
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005240776A
Other languages
English (en)
Inventor
Daiki Kurita
大樹 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2005240776A priority Critical patent/JP2007058380A/ja
Publication of JP2007058380A publication Critical patent/JP2007058380A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】 構造化されていない電子文書の本文中に含まれる個人情報についても適切にマスキングを行うことを可能とする電子文書マスキングシステムを提供する。
【解決手段】 電子文書マスキングシステム100は、個人情報のマスキング処理を行うマスキング処理部101と、マスキング対象となる個人情報を格納した個人情報データベース102,顧客情報データベース103と、電子文書中からマスキング対象となる文字列を抽出するためのマスキング対象判定辞書104とを備える。マスキング処理部101は、電子文書に含まれる文字列を読み込み、マスキング対象判定辞書104に定義された接頭辞,接尾辞又は配列パターンに応じて個人情報等を示すマスキング対象文字列に該当するか否かを判定し、当該判定結果に応じて伏字等のマスキング処理を行う。
【選択図】 図1

Description

本発明は、構造化されていない電子文書中に含まれる個人情報等の文字列に対してマスキングを行うシステムに関する。
近年、個人情報保護が重要視されており、企業等で扱う電子文書データに関しても、必要に応じて個人情報の漏洩防止策が考慮されている。
例えば、電子文書データに関する個人情報漏洩防止策の一つとして、電子文書データ内に含まれる個人情報についてマスキングを行うことが考慮されている。
このような電子文書内の個人情報をマスキングするシステムとして、従来、電子文書の構造解析を行うとともに、当該解析結果に応じてXMLタグを付加した構造化文書(XML文書)を生成し、XMLタグに対して予め設定された非公開レベルに応じてマスキングを行うシステムが公知となっている(例えば、特許文献1参照。)。
特開2004−954542号公報
しかし、前記特許文献1に記載の構成では、文書作成者又は編集者により論理構造に応じた文書要素について予め属性情報が設定された電子文書に基づきXMLタグの付加を行うものであるため、予め属性情報が設定されていない電子文書についてはマスキング処理を行うことができなかった。
また、論理構造に応じた文書要素毎にマスキング処理を行うか否かを設定するものであるため、例えば電子文書の本文中に含まれる氏名,住所等の個人情報のみを適切に抽出してマスキングを行うことは困難であった。
本発明は前記課題を解決するためのものであり、構造化されていない電子文書の本文中に含まれる個人情報についても適切にマスキングを行うことを可能とする電子文書マスキングシステムを提供することを目的とする。
前記課題を解決するため本発明は、予めマスキング対象となる文字列を判定するための定義情報を格納したマスキング対象判定辞書を有し、前記マスキング判定辞書の定義情報に基づき、電子文書中のマスキング対象文字列を判定する判定手段を備える電子文書マスキングシステムであって、前記マスキング対象判定辞書は、前記定義情報としてマスキング対象となる文字列の接頭辞又は接尾辞を示す文字列と、前記接頭辞又は接尾辞の前後に位置することによりマスキング対象となる文字列とを有し、前記判定手段は、電子文書中から前記定義情報に含まれる接頭辞又は接尾辞と一致する文字列を検索し、当該文字列の前後の文字列がマスキング対象文字列に該当するか否かを判定する手段を備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、個人名又は法人名に付加される接頭辞又は接尾辞を示す文字列と、マスキング対象としての個人名又は法人名を示す文字列とを含むものとし、前記判定手段は、前記定義情報に基づき、個人名又は法人名を示す文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、地名に付加される接尾辞を示す文字列と、マスキング対象としての地名を示す文字列とを含むものとし、前記判定手段は、前記定義情報に基づき、地名を示す文字列と接尾辞とをマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、さらに郵便番号に付加される接頭辞としての記号と、郵便番号を示す数字及び記号の配列パターンとを含むものとし、前記判定手段は、前記接頭辞の後ろに位置する文字列の配列パターンが前記定義情報と一致する場合にマスキング対象として判定する手段をさらに備えることを特徴とする
また前記マスキング対象判定辞書は、前記定義情報として、さらに電子メールアドレスの一部を示す記号を含むものとし、前記判定手段は、前記定義情報と一致する記号とその前後に位置する英数字及び記号の文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、さらに電話番号を示す数字と記号との配列パターンを含むものとし、前記判定手段は、前記定義情報と一致する配列パターンの文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、マスキング対象除外文字列として、単位を示す文字列を含むものとし、前記判定手段は、前記電話番号を示す配列パターンの文字列の接尾辞として前記マスキング対象除外文字列が付加されている場合に、前記文字列をマスキング対象から除外することを特徴とする。
以上の構成により本発明では、構造化されていない電子文書について、本文中に含まれる個人情報を適切にマスキングすることが可能となる。
従って、電子文書の論理構造の解析等が不要となり、高速にマスキング処理を行うことが可能となる。
以下、本発明の一実施の形態に係る電子文書マスキングシステムについて、図面に基づき説明する。
図1は、本実施の形態に係る電子文書マスキングシステムの概略構成を示すブロック図である。
本実施の形態に係る電子文書マスキングシステム100は、個人情報のマスキング処理を行うマスキング処理部101と、マスキング対象となる個人情報を格納した個人情報データベース102,顧客情報データベース103と、電子文書中からマスキング対象となる文字列を抽出するためのマスキング対象判定辞書104とを備える。
マスキング処理部101は、マスキング対象判定辞書104を参照してマスキング対象文字列を抽出し、各データベース102,103に格納された個人情報等に対し伏字等のマスキング処理を行う。
個人情報データベース102には、氏名等の個人情報を格納する。
顧客情報データベース103には、顧客企業名等の顧客情報を格納する。
マスキング対象判定辞書104には、各データベース102,103に格納された個人情報等を抽出するための接頭辞・接尾辞を格納する他、住所等を示す地名,電話番号,メールアドレス等、一般的に個人情報に該当すると考えられる文字列を抽出するための文字列又は配列パターン等を格納している。
図2は、マスキング処理部101の構成を示すブロック図である。
マスキング処理部101は、文分割部201,氏名・企業名判定部202,住所判定部203,メールアドレス判定部204,電話番号判定部205を有する。
文分割部201は、処理対象となる電子文書を句点,読点毎に分割する。
氏名・企業名判定部202は、分割した電子文書中から、接頭辞,接尾辞に基づき個人名,企業名を示す文字列を判定して、マスキング処理を行う。
住所判定部203は、分割した電子文書中から、接尾辞に基づき地名を示す文字列を判定して、マスキング処理を行う。また、数字及び記号の配列パターンに基づき郵便番号を示す文字列を判定して、マスキング処理を行う。
メールアドレス判定部204は、分割した電子文書中から、英数字及び記号の配列パターンに基づき電子メールアドレスを示す文字列を判定して、マスキング処理を行う。
電話番号判定部205は、分割した電子文書中から、数字及び記号の配列パターンに基づき電話番号を示す文字列を判定して、マスキング処理を行う。
なお、上記各判定部202〜205は、互いに独立して動作することが可能なものとする。
図3は、マスキング対象判定辞書104を構成する氏名・企業名接頭辞辞書の一例を示す図である。
氏名・企業名接頭辞辞書300は、分割した電子文書中から個人名,企業名を抽出するための接頭辞を示す文字列を格納したものであり、例えば、企業名の前に付く「(株)」「株式会社」「(財)」「財団法人」等が該当する。
図4は、マスキング対象判定辞書104を構成する氏名・企業名接尾辞辞書の一例を示す図である。
氏名・企業名接尾辞辞書400は、分割した電子文書中から個人名,企業名を抽出するための接尾辞を示す文字列を格納したものであり、例えば、個人名の後に付く「様」「さん」「殿」等の敬称や、企業名の後に付く「社」「(株)」「株式会社」等が該当する。
図5は、マスキング対象判定辞書104を構成する地名接尾辞辞書の一例を示す図である。
地名接尾辞辞書500は、分割した電子文書中から住所を抽出するための接尾辞を示す文字列を格納したものであり、例えば、地名の後に付く「都」「道」「府」「県」等が該当する。
図6は、マスキング対象判定辞書104を構成する地名辞書一例を示す図である。
地名辞書600は、住所に関連してマスキング対象となる文字列(地名)を格納したものである。本例では、各地名について、図5に示す地名接尾辞辞書500に格納した文字を除いた文字列としている。例えば、「北海道」をマスキング対象とした場合には、地名接尾辞辞書500に「道」を格納し、地名辞書600に「道」を除いた「北海」の文字列を格納する。
図7は、マスキング対象判定辞書104を構成する電話番号判定辞書の一例を示す図である。
電話番号判定辞書700は、電話番号としてマスキング対象となる文字列(数字)を示す桁数701と、各桁数に対応した数字及びハイフンの配置パターンを示す正規表現702との各データ項目を有する。
例えば、7桁の数字に対する正規表現「¥d{7}」,「¥d{2}・¥d{4}」は、「○○○○○○○(7桁の数字)」,「○○−○○○○(2桁の数字,ハイフン,4桁の数字)」を定義している。
図8は、マスキング対象判定辞書104を構成する単位辞書の一例を示す図である。
単位辞書800は、複数桁数の数字の配列について、電話番号以外の文字列の場合にマスキング対象から除外するための接尾辞(単位)を格納したものである。
例えば、「m」「km」「円」等が該当し、単位辞書800に格納された文字列が数字の後ろに付加されている場合には、電話番号以外の文字列を示すものとしてマスキング対象から除外する。
以上の構成に基づき、本実施の形態に係る電子文書マスキングシステムの行う処理を説明する。
図9は、氏名・企業名判定部202が氏名・企業名接頭辞辞書300に基づいて行うマスキング処理手順を示すフローチャートである。
氏名・企業名判定部202は、文分割部201が分割した電子文書を取得して、当該電子文書を構成する文字列を1文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す(ステップ901)。
次に、読み込んだ文字からm文字前までの文字列が個人名又は企業名の接頭辞に該当するか否かを判定する(ステップ902,903)。具体的には、氏名・企業接頭辞辞書300に格納されている文字列と一致するか否かを判定する。ここで「m」は、0からMAXまでループするものとし、MAXは図3の氏名・企業接頭辞辞書300に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、接頭辞に該当すると判定された文字列の後ろの文字列について、個人名又は企業名に該当するか否かの判定処理を繰り返す(ステップ904〜907)。一方、ステップ903の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
個人名,企業名に該当するか否かの判定処理では、まず、接頭辞の後ろn文字を読み込み(ステップ905)、読み込んだ文字列が、個人情報データベース102又は顧客情報データベース103のいずれかに格納された文字列と一致するか否かを判定する(ステップ906)。ここで「n」は、0〜MAXまでループするものとし、MAXは個人情報データベース102及び顧客情報データベース103に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ905で読み込んだ文字列をマスキング対象に設定して、伏字(●●●等)に置き換える(ステップ907)。
一方、ステップ906の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図10は、氏名・企業名判定部202が氏名・企業名接尾辞辞書400に基づいて行うマスキング処理手順を示すフローチャートである。
氏名・企業名判定部202は、図9に示す処理と同様に、文分割部201が分割した電子文書を取得して、当該電子文書を構成する文字列を1文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す(ステップ1001)。
次に、読み込んだ文字からm文字前までの文字列が個人名又は企業名の接尾辞に該当するか否かを判定する(ステップ1002,1003)。具体的には、氏名・企業接尾辞辞書400に格納されている文字列と一致するか否かを判定する。ここで「m」は、0からMAXまでループするものとし、MAXは図4の氏名・企業接尾辞辞書400に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、接尾辞に該当すると判定された文字列の前の文字列について、個人名又は企業名に該当するか否かの判定処理を繰り返す(ステップ1004〜1007)。一方、ステップ1003の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
個人名,企業名に該当するか否かの判定処理では、まず、接尾辞の前n文字を読み込み(ステップ1005)、読み込んだ文字列が、個人情報データベース102又は顧客情報データベース103のいずれかに格納された文字列と一致するか否かを判定する(ステップ1006)。ここで「n」は、0〜MAXまでループするものとし、MAXは個人情報データベース102及び顧客情報データベース103に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ1005で読み込んだ文字列をマスキング対象に設定して、伏字(●●●等)に置き換える(ステップ1007)。
一方、ステップ906の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図11は、住所判定部203が地名接尾辞辞書500に基づいて行うマスキング処理手順を示すフローチャートである。
住所判定部203は、文分割部201が分割した電子文書を取得して、当該電子文書を構成する文字列を1文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す(ステップ1101)。
次に、読み込んだ文字が地名に付くも接尾辞であるか否かを判定する(ステップ1102)。具体的には、地名接尾辞辞書500に格納された文字列と一致するか否かを判定する。判定の結果、一致する場合には、後述するA処理により地名のマスキング処理を行う(ステップ1103)。
一方、一致しない場合には、読み込んだ文字列が郵便番号に付く接頭辞「〒」か否かを判定する(ステップ1104)。判定の結果「〒」である場合には、後述するB処理により郵便番号のマスキング処理を行う(ステップ1105)。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図12は、図11のステップ1103に示すA処理(地名マスキング処理)の詳細を示すフローチャートである。
地名マスキング処理では、接尾辞の前n文字を読み込み(ステップ1201,1202)、読み込んだ文字列が地名辞書600に格納された文字列と一致するか否かを判定する(ステップ1203)。ここで「n」は、0〜MAXまでループするものとし、MAXは地名辞書600に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ1202で読み込んだ文字列をマスキング対象に設定して、伏字(●●●等)に置き換える(ステップ1204)。この場合のマスキング対象には、接尾辞として設定された文字列(例えば、「都」「道」「府」「県」等)が含まれるものとする。
一方、ステップ1203の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図13は、図11のステップ1105に示すB処理(郵便番号マスキング処理)の詳細を示すフローチャートである。
郵便番号マスキング処理では、接頭辞の後ろ8文字を読み込み(ステップ1301)、読み込んだ文字列が郵便番号を示す文字列の配列パターンに合致するか否かを判定する(ステップ1302)。具体的には、8文字の文字列が郵便番号の形式(配列パターン)に合致するか否かで判定を行う。ここで郵便番号の形式(配列パターン)とは「数字3桁+ハイフン+数字4桁」の形式とする。
判定の結果、郵便番号の形式に合致した場合には、ステップ1301で読み込んだ文字列をマスキング対象に設定して、伏字(●●●等)に置き換える(ステップ1303)。
一方、ステップ1302の判定の結果、郵便番号の形式(配列パターン)に合致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図14は、メールアドレス判定部204の行うマスキング処理手順を示すフローチャートである。
メールアドレス判定部204は、まず、文分割部201が分割した電子文書を取得して、当該電子文書を構成する文字列を1文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す(ステップ1401)。
次に、読み込んだ文字が「@」であるか否かを判定する(ステップ1402)。
判定の結果、「@」である場合には、後述するメールアドレスマスキング処理を行う(ステップ1403)。
一方、ステップ1402の判定の結果、「@」以外の文字の場合には、次の文字について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図15は、図14のステップ1403に示すメールアドレスマスキング処理の詳細を示すフローチャートである。
メールアドレスマスキング処理では、まず、「@」から分割された電子文書の先頭まで1文字ずつ読み込み(ステップ1501)、読み込んだ文字が英数字及び記号以外の文字であるか否かを判定する(ステップ1502)。
判定の結果、英数字,記号以外の場合には、それまでに読み込んだ文字列がメールアドレスの「@」より前の部分を構成するものとしてマスキング対象に設定し、伏字(●●●等)に置き換える(ステップ1503)。
一方、読み込んだ文字が英数字又は記号の場合には、次の文字を読み込む。
次に、「@」から分割された電子文書の末尾まで1文字ずつ読み込み(ステップ1504)、読み込んだ文字が英数字及び記号以外の文字であるか否かを判定する(ステップ1505)。
判定の結果、英数字,記号以外の場合には、それまでに読み込んだ文字列がメールアドレスの「@」より前の部分を構成するものとしてマスキング対象に設定し、伏字(●●●等)に置き換える(ステップ1503)。
一方、読み込んだ文字が英数字又は記号の場合には、次の文字を読み込む。
以上の処理によりメールアドレスについてマスキングを行う処理を終了する。
図16は、電話番号判定部205の行うマスキング処理手順を示すフローチャートである。
電話番号判定部205は、まず、文分割部201が分割した電子文書を取得して、当該電子文書を構成する文字列を1文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す(ステップ1601)。
次に、読み込んだ文字が数字であるか否かを判定する(ステップ1602)。
判定の結果、数字である場合には、読み込んだ文字(数字)から後ろにn文字目の文字を読み込み(ステップ1603,1604)、読み込んだ文字が数字及び記号(ハイフン)以外の文字であるか否かを判定する(ステップ1605)。この場合、n+1(ステップ1601で読み込んだ文字を含む文字数)が、電話番号判定辞書700の桁数701に設定された数字となるように、nが5〜12に設定されている。
判定の結果、数字又は記号(ハイフン)以外の文字である場合には、後述するC処理により電話番号のマスキング処理を行う(ステップ1606)。
一方、ステップ1605の判定の結果、読み込んだ文字が数字又は記号の場合には、次の文字について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。
図17は、図16のステップ1605に示すC処理(電話番号マスキング処理)の詳細を示すフローチャートである。
電話番号マスキング処理では、読み込んだn文字目までの文字列が電話番号判定辞書700の正規表現702と合致するか否かを判定する(ステップ1701)。
具体的には、n+1の桁数701に対応する正規表現702の定義情報を取得して、文字列との比較を行う。
判定の結果、正規表現702の定義情報に合致する場合には、文字列の接頭辞(m文字)又は接尾辞(m文字)が、単位辞書800に格納された文字列と一致するか否かを判定する(ステップ1703)。ここで「m」は、0〜MAXまでループするものとし、MAXは単位辞書800に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、当該文字列は電話番号以外を示すものとして、マスキング対象から除外して処理を終了する。
一方、ステップ1703の判定の結果、一致しない場合には、ステップ1604で読み込んだ文字列をマスキング対象に設定して、伏字(●●●等)に置き換えてC処理を終了する(ステップ1704)。
以上のように、本実施の形態に係る電子文書マスキングシステムは、予めマスキング対象となる文字列の接頭辞,接尾辞又は形式を定義したマスキング対象判定辞書を有し、当該マスキング対象判定辞書の定義情報に基づき、電子文書内に含まれる文字列がマスキング対象となるか否かを判定する手段を備えることとしたので、構造化されていない電子文書であっても、個人情報等に該当する文字列についてのマスキング処理を適切に行うことが可能となる。
なお、本発明の構成は、前記実施の形態に示すものに限らず、各処理部の構成及び各データベース,マスキング対象判定辞書のデータ構造等を変更してもよい。例えば、前記実施形態では、個人情報データベース,顧客情報データベースと、マスキング対象判定辞書とを異なるものとして構成しているが、各データベースをマスキング対象判定辞書に含めることとしてもよい。また、各データベースは他のシステムに存在するものを用いることとしてもよい。
本発明の一実施の形態に係る電子文書マスキングシステムの概略構成を示すブロック図である。 電子文書マスキングシステムを構成するマスキング処理部の概略構成を示すブロック図である。 氏名・企業名接頭辞辞書の一例を示す図である。 氏名・企業名接尾辞辞書の一例を示す図である。 地名接尾辞辞書の一例を示す図である。 地名辞書の一例を示す図である。 電話番号判定辞書の一例を示す図である。 単位辞書の一例を示す図である。 氏名・企業名接頭辞辞書に基づくマスキング処理手順を示すフローチャートである。 氏名・企業名接尾辞辞書に基づくマスキング処理手順を示すフローチャートである。 地名接尾辞辞書に基づくマスキング処理手順を示すフローチャートである。 地名辞書に基づくマスキング処理手順を示すフローチャートである。 郵便番号配列パターンに基づくマスクキング処理手順を示すフローチャートである。 電子メールアドレスパターンに基づくマスキング処理の前処理を示すフローチャートである。 電子メールアドレスパターンに基づくマスキング処理手順を示すフローチャートである。 電話番号パターンに基づくマスキング処理の前処理を示すフローチャートである。 電話番号パターンに基づくマスキング処理手順を示すフローチャートである。
符号の説明
100 電子文書マスキングシステム、101 マスキング処理部、102 個人情報データベース、103 顧客情報データベース、104 マスキング対象判定辞書、110 電子文書、120 マスキング済み電子文書、201 文分割部、202 氏名・企業名判定部、203 住所判定部、204 メールアドレス判定部、205 電話番号判定部。

Claims (7)

  1. 予めマスキング対象となる文字列を判定するための定義情報を格納したマスキング対象判定辞書を有し、
    前記マスキング判定辞書の定義情報に基づき、電子文書中のマスキング対象文字列を判定する判定手段を備える電子文書マスキングシステムであって、
    前記マスキング対象判定辞書は、前記定義情報としてマスキング対象となる文字列の接頭辞又は接尾辞を示す文字列と、前記接頭辞又は接尾辞の前後に位置することによりマスキング対象となる文字列とを有し、
    前記判定手段は、電子文書中から前記定義情報に含まれる接頭辞又は接尾辞と一致する文字列を検索し、前記接頭辞の後ろの文字列又は前記接尾辞の前の文字列がマスキング対象文字列に該当するか否かを判定する手段を備えることを特徴とする電子文書マスキングシステム。
  2. 前記マスキング対象判定辞書は、前記定義情報として、個人名又は法人名に付加される接頭辞又は接尾辞を示す文字列と、マスキング対象としての個人名又は法人名を示す文字列とを含むものとし、
    前記判定手段は、前記定義情報に基づき、個人名又は法人名を示す文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項1に記載の電子文書マスキングシステム。
  3. 前記マスキング対象判定辞書は、前記定義情報として、地名に付加される接尾辞を示す文字列と、マスキング対象としての地名を示す文字列とを含むものとし、
    前記判定手段は、前記定義情報に基づき、地名を示す文字列と接尾辞とをマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項1又は2に記載の電子文書マスキングシステム。
  4. 前記マスキング対象判定辞書は、前記定義情報として、さらに郵便番号に付加される接頭辞としての記号と、郵便番号を示す数字及び記号の配列パターンとを含むものとし、
    前記判定手段は、前記接頭辞の後ろに位置する文字列の配列パターンが前記定義情報と一致する場合にマスキング対象として判定する手段をさらに備えることを特徴とする請求項1〜3のいずれかに記載の電子文書マスキングシステム。
  5. 前記マスキング対象判定辞書は、前記定義情報として、さらに電子メールアドレスの一部を示す記号を含むものとし、
    前記判定手段は、前記定義情報と一致する記号とその前後に位置する英数字及び記号の文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項1〜4のいずれかに記載の電子文書マスキングシステム。
  6. 前記マスキング対象判定辞書は、前記定義情報として、さらに電話番号を示す数字と記号との配列パターンを含むものとし、
    前記判定手段は、前記定義情報と一致する配列パターンの文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項1〜5のいずれかに記載の電子文書マスキングシステム。
  7. 前記マスキング対象判定辞書は、マスキング対象除外文字列として、単位を示す文字列を含むものとし、
    前記判定手段は、前記電話番号を示す配列パターンの文字列の接尾辞として前記マスキング対象除外文字列が付加されている場合に、前記文字列をマスキング対象から除外することを特徴とする請求項6に記載の電子文書マスキングシステム。
JP2005240776A 2005-08-23 2005-08-23 電子文書マスキングシステム Pending JP2007058380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005240776A JP2007058380A (ja) 2005-08-23 2005-08-23 電子文書マスキングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005240776A JP2007058380A (ja) 2005-08-23 2005-08-23 電子文書マスキングシステム

Publications (1)

Publication Number Publication Date
JP2007058380A true JP2007058380A (ja) 2007-03-08

Family

ID=37921858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005240776A Pending JP2007058380A (ja) 2005-08-23 2005-08-23 電子文書マスキングシステム

Country Status (1)

Country Link
JP (1) JP2007058380A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017184A (ja) * 2006-07-06 2008-01-24 Hitachi Software Eng Co Ltd 電子黒板システムにおける描画オブジェクトの隠蔽処理方法及び電子黒板システム
KR100820306B1 (ko) * 2007-07-16 2008-04-08 주식회사 피앤피시큐어 데이터 마스킹을 이용한 보안시스템과 이를 이용한 데이터보안방법
KR100925985B1 (ko) 2007-11-30 2009-11-10 주식회사 케이티 사용자 인터페이스 보안 장치 및 그 방법
JP2010271751A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 個人情報削除装置とその方法、そのプログラムと記録媒体
JP2011178075A (ja) * 2010-03-02 2011-09-15 Toppan Printing Co Ltd 真贋判定装置及び真贋判定方法
JP2012049860A (ja) * 2010-08-27 2012-03-08 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2012113530A (ja) * 2010-11-25 2012-06-14 Hitachi Solutions Ltd 電子文書マスキングシステム
JP2013073277A (ja) * 2011-09-26 2013-04-22 Nippon Telegr & Teleph Corp <Ntt> 個人情報マスク方法、個人情報マスク装置、個人情報マスクプログラム
JP2013105274A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 文字列変換装置、文字列変換方法及び文字列変換プログラム
JP2014195286A (ja) * 2014-05-09 2014-10-09 Casio Comput Co Ltd 印字装置、印字方法、印字制御プログラム
US20220012357A1 (en) * 2020-07-10 2022-01-13 Bank Of America Corporation Intelligent privacy and security enforcement tool for unstructured data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259368A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259368A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017184A (ja) * 2006-07-06 2008-01-24 Hitachi Software Eng Co Ltd 電子黒板システムにおける描画オブジェクトの隠蔽処理方法及び電子黒板システム
JP4683560B2 (ja) * 2006-07-06 2011-05-18 株式会社日立ソリューションズ 電子黒板システムにおける描画オブジェクトの隠蔽処理方法及び電子黒板システム
WO2009011496A3 (en) * 2007-07-16 2009-03-12 Pnpsecure Inc Security system using the data masking and data security method thereof
WO2009011496A2 (en) * 2007-07-16 2009-01-22 Pnpsecure Inc. Security system using the data masking and data security method thereof
KR100820306B1 (ko) * 2007-07-16 2008-04-08 주식회사 피앤피시큐어 데이터 마스킹을 이용한 보안시스템과 이를 이용한 데이터보안방법
KR100925985B1 (ko) 2007-11-30 2009-11-10 주식회사 케이티 사용자 인터페이스 보안 장치 및 그 방법
JP2010271751A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 個人情報削除装置とその方法、そのプログラムと記録媒体
JP2011178075A (ja) * 2010-03-02 2011-09-15 Toppan Printing Co Ltd 真贋判定装置及び真贋判定方法
JP2012049860A (ja) * 2010-08-27 2012-03-08 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2012113530A (ja) * 2010-11-25 2012-06-14 Hitachi Solutions Ltd 電子文書マスキングシステム
JP2013073277A (ja) * 2011-09-26 2013-04-22 Nippon Telegr & Teleph Corp <Ntt> 個人情報マスク方法、個人情報マスク装置、個人情報マスクプログラム
JP2013105274A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 文字列変換装置、文字列変換方法及び文字列変換プログラム
JP2014195286A (ja) * 2014-05-09 2014-10-09 Casio Comput Co Ltd 印字装置、印字方法、印字制御プログラム
US20220012357A1 (en) * 2020-07-10 2022-01-13 Bank Of America Corporation Intelligent privacy and security enforcement tool for unstructured data

Similar Documents

Publication Publication Date Title
JP2007058380A (ja) 電子文書マスキングシステム
JP5315664B2 (ja) 位置表現検出装置、プログラム、及び、記憶媒体
US8095526B2 (en) Efficient retrieval of variable-length character string data
US20160041951A1 (en) Corpus generation device, corpus generation method and corpus generation program
CN105630765A (zh) 地名地址识别方法
KR20010035679A (ko) 외래어 음차표기의 음성적 거리 계산방법
CN113076748B (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
JP4957796B2 (ja) 差分算出プログラム、差分算出装置および差分算出方法
CN111553155B (zh) 基于语义结构的口令分词系统及方法
JP2007108356A (ja) 個人情報秘匿装置及びそのプログラム
Prasad et al. A new approach to Telugu text steganography
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
JP5586435B2 (ja) 電子文書マスキングシステム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
US11669601B2 (en) Digital watermarking for textual data
JP4940596B2 (ja) 省略日付表現からの年月日推定プログラムおよび装置
Tuan et al. A study of text normalization in Vietnamese for text-to-speech system
JP3531222B2 (ja) 類似文字列検索装置
JP2010003000A (ja) 項目判定システムおよび項目判定プログラム
CN111381191A (zh) 一种对文本进行同义修改、确定文本创作者的方法
JP2009048351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP6954108B2 (ja) 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置
Wang et al. A conditional random fields approach to biomedical named entity recognition
JP2006126883A (ja) 情報検索装置及び情報検索方法
CN108304401A (zh) 电子图书搜索方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100811