JP2007058380A

JP2007058380A - 電子文書マスキングシステム

Info

Publication number: JP2007058380A
Application number: JP2005240776A
Authority: JP
Inventors: Daiki Kurita; 大樹栗田
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2005-08-23
Filing date: 2005-08-23
Publication date: 2007-03-08

Abstract

【課題】構造化されていない電子文書の本文中に含まれる個人情報についても適切にマスキングを行うことを可能とする電子文書マスキングシステムを提供する。
【解決手段】電子文書マスキングシステム１００は、個人情報のマスキング処理を行うマスキング処理部１０１と、マスキング対象となる個人情報を格納した個人情報データベース１０２，顧客情報データベース１０３と、電子文書中からマスキング対象となる文字列を抽出するためのマスキング対象判定辞書１０４とを備える。マスキング処理部１０１は、電子文書に含まれる文字列を読み込み、マスキング対象判定辞書１０４に定義された接頭辞，接尾辞又は配列パターンに応じて個人情報等を示すマスキング対象文字列に該当するか否かを判定し、当該判定結果に応じて伏字等のマスキング処理を行う。
【選択図】図１

Description

本発明は、構造化されていない電子文書中に含まれる個人情報等の文字列に対してマスキングを行うシステムに関する。

近年、個人情報保護が重要視されており、企業等で扱う電子文書データに関しても、必要に応じて個人情報の漏洩防止策が考慮されている。
例えば、電子文書データに関する個人情報漏洩防止策の一つとして、電子文書データ内に含まれる個人情報についてマスキングを行うことが考慮されている。
このような電子文書内の個人情報をマスキングするシステムとして、従来、電子文書の構造解析を行うとともに、当該解析結果に応じてＸＭＬタグを付加した構造化文書（ＸＭＬ文書）を生成し、ＸＭＬタグに対して予め設定された非公開レベルに応じてマスキングを行うシステムが公知となっている（例えば、特許文献１参照。）。
特開２００４−９５４５４２号公報

しかし、前記特許文献１に記載の構成では、文書作成者又は編集者により論理構造に応じた文書要素について予め属性情報が設定された電子文書に基づきＸＭＬタグの付加を行うものであるため、予め属性情報が設定されていない電子文書についてはマスキング処理を行うことができなかった。
また、論理構造に応じた文書要素毎にマスキング処理を行うか否かを設定するものであるため、例えば電子文書の本文中に含まれる氏名，住所等の個人情報のみを適切に抽出してマスキングを行うことは困難であった。

本発明は前記課題を解決するためのものであり、構造化されていない電子文書の本文中に含まれる個人情報についても適切にマスキングを行うことを可能とする電子文書マスキングシステムを提供することを目的とする。

前記課題を解決するため本発明は、予めマスキング対象となる文字列を判定するための定義情報を格納したマスキング対象判定辞書を有し、前記マスキング判定辞書の定義情報に基づき、電子文書中のマスキング対象文字列を判定する判定手段を備える電子文書マスキングシステムであって、前記マスキング対象判定辞書は、前記定義情報としてマスキング対象となる文字列の接頭辞又は接尾辞を示す文字列と、前記接頭辞又は接尾辞の前後に位置することによりマスキング対象となる文字列とを有し、前記判定手段は、電子文書中から前記定義情報に含まれる接頭辞又は接尾辞と一致する文字列を検索し、当該文字列の前後の文字列がマスキング対象文字列に該当するか否かを判定する手段を備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、個人名又は法人名に付加される接頭辞又は接尾辞を示す文字列と、マスキング対象としての個人名又は法人名を示す文字列とを含むものとし、前記判定手段は、前記定義情報に基づき、個人名又は法人名を示す文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、地名に付加される接尾辞を示す文字列と、マスキング対象としての地名を示す文字列とを含むものとし、前記判定手段は、前記定義情報に基づき、地名を示す文字列と接尾辞とをマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、さらに郵便番号に付加される接頭辞としての記号と、郵便番号を示す数字及び記号の配列パターンとを含むものとし、前記判定手段は、前記接頭辞の後ろに位置する文字列の配列パターンが前記定義情報と一致する場合にマスキング対象として判定する手段をさらに備えることを特徴とする
また前記マスキング対象判定辞書は、前記定義情報として、さらに電子メールアドレスの一部を示す記号を含むものとし、前記判定手段は、前記定義情報と一致する記号とその前後に位置する英数字及び記号の文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、前記定義情報として、さらに電話番号を示す数字と記号との配列パターンを含むものとし、前記判定手段は、前記定義情報と一致する配列パターンの文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする。
また、前記マスキング対象判定辞書は、マスキング対象除外文字列として、単位を示す文字列を含むものとし、前記判定手段は、前記電話番号を示す配列パターンの文字列の接尾辞として前記マスキング対象除外文字列が付加されている場合に、前記文字列をマスキング対象から除外することを特徴とする。

以上の構成により本発明では、構造化されていない電子文書について、本文中に含まれる個人情報を適切にマスキングすることが可能となる。
従って、電子文書の論理構造の解析等が不要となり、高速にマスキング処理を行うことが可能となる。

以下、本発明の一実施の形態に係る電子文書マスキングシステムについて、図面に基づき説明する。
図１は、本実施の形態に係る電子文書マスキングシステムの概略構成を示すブロック図である。
本実施の形態に係る電子文書マスキングシステム１００は、個人情報のマスキング処理を行うマスキング処理部１０１と、マスキング対象となる個人情報を格納した個人情報データベース１０２，顧客情報データベース１０３と、電子文書中からマスキング対象となる文字列を抽出するためのマスキング対象判定辞書１０４とを備える。
マスキング処理部１０１は、マスキング対象判定辞書１０４を参照してマスキング対象文字列を抽出し、各データベース１０２，１０３に格納された個人情報等に対し伏字等のマスキング処理を行う。
個人情報データベース１０２には、氏名等の個人情報を格納する。
顧客情報データベース１０３には、顧客企業名等の顧客情報を格納する。
マスキング対象判定辞書１０４には、各データベース１０２，１０３に格納された個人情報等を抽出するための接頭辞・接尾辞を格納する他、住所等を示す地名，電話番号，メールアドレス等、一般的に個人情報に該当すると考えられる文字列を抽出するための文字列又は配列パターン等を格納している。

図２は、マスキング処理部１０１の構成を示すブロック図である。
マスキング処理部１０１は、文分割部２０１，氏名・企業名判定部２０２，住所判定部２０３，メールアドレス判定部２０４，電話番号判定部２０５を有する。
文分割部２０１は、処理対象となる電子文書を句点，読点毎に分割する。
氏名・企業名判定部２０２は、分割した電子文書中から、接頭辞，接尾辞に基づき個人名，企業名を示す文字列を判定して、マスキング処理を行う。
住所判定部２０３は、分割した電子文書中から、接尾辞に基づき地名を示す文字列を判定して、マスキング処理を行う。また、数字及び記号の配列パターンに基づき郵便番号を示す文字列を判定して、マスキング処理を行う。
メールアドレス判定部２０４は、分割した電子文書中から、英数字及び記号の配列パターンに基づき電子メールアドレスを示す文字列を判定して、マスキング処理を行う。
電話番号判定部２０５は、分割した電子文書中から、数字及び記号の配列パターンに基づき電話番号を示す文字列を判定して、マスキング処理を行う。
なお、上記各判定部２０２〜２０５は、互いに独立して動作することが可能なものとする。

図３は、マスキング対象判定辞書１０４を構成する氏名・企業名接頭辞辞書の一例を示す図である。
氏名・企業名接頭辞辞書３００は、分割した電子文書中から個人名，企業名を抽出するための接頭辞を示す文字列を格納したものであり、例えば、企業名の前に付く「（株）」「株式会社」「（財）」「財団法人」等が該当する。

図４は、マスキング対象判定辞書１０４を構成する氏名・企業名接尾辞辞書の一例を示す図である。
氏名・企業名接尾辞辞書４００は、分割した電子文書中から個人名，企業名を抽出するための接尾辞を示す文字列を格納したものであり、例えば、個人名の後に付く「様」「さん」「殿」等の敬称や、企業名の後に付く「社」「（株）」「株式会社」等が該当する。

図５は、マスキング対象判定辞書１０４を構成する地名接尾辞辞書の一例を示す図である。
地名接尾辞辞書５００は、分割した電子文書中から住所を抽出するための接尾辞を示す文字列を格納したものであり、例えば、地名の後に付く「都」「道」「府」「県」等が該当する。

図６は、マスキング対象判定辞書１０４を構成する地名辞書一例を示す図である。
地名辞書６００は、住所に関連してマスキング対象となる文字列（地名）を格納したものである。本例では、各地名について、図５に示す地名接尾辞辞書５００に格納した文字を除いた文字列としている。例えば、「北海道」をマスキング対象とした場合には、地名接尾辞辞書５００に「道」を格納し、地名辞書６００に「道」を除いた「北海」の文字列を格納する。

図７は、マスキング対象判定辞書１０４を構成する電話番号判定辞書の一例を示す図である。
電話番号判定辞書７００は、電話番号としてマスキング対象となる文字列（数字）を示す桁数７０１と、各桁数に対応した数字及びハイフンの配置パターンを示す正規表現７０２との各データ項目を有する。
例えば、７桁の数字に対する正規表現「￥ｄ｛７｝」，「￥ｄ｛２｝・￥ｄ｛４｝」は、「○○○○○○○（７桁の数字）」，「○○−○○○○（２桁の数字，ハイフン，４桁の数字）」を定義している。

図８は、マスキング対象判定辞書１０４を構成する単位辞書の一例を示す図である。
単位辞書８００は、複数桁数の数字の配列について、電話番号以外の文字列の場合にマスキング対象から除外するための接尾辞（単位）を格納したものである。
例えば、「ｍ」「ｋｍ」「円」等が該当し、単位辞書８００に格納された文字列が数字の後ろに付加されている場合には、電話番号以外の文字列を示すものとしてマスキング対象から除外する。

以上の構成に基づき、本実施の形態に係る電子文書マスキングシステムの行う処理を説明する。
図９は、氏名・企業名判定部２０２が氏名・企業名接頭辞辞書３００に基づいて行うマスキング処理手順を示すフローチャートである。
氏名・企業名判定部２０２は、文分割部２０１が分割した電子文書を取得して、当該電子文書を構成する文字列を１文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す（ステップ９０１）。
次に、読み込んだ文字からｍ文字前までの文字列が個人名又は企業名の接頭辞に該当するか否かを判定する（ステップ９０２，９０３）。具体的には、氏名・企業接頭辞辞書３００に格納されている文字列と一致するか否かを判定する。ここで「ｍ」は、０からＭＡＸまでループするものとし、ＭＡＸは図３の氏名・企業接頭辞辞書３００に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、接頭辞に該当すると判定された文字列の後ろの文字列について、個人名又は企業名に該当するか否かの判定処理を繰り返す（ステップ９０４〜９０７）。一方、ステップ９０３の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
個人名，企業名に該当するか否かの判定処理では、まず、接頭辞の後ろｎ文字を読み込み（ステップ９０５）、読み込んだ文字列が、個人情報データベース１０２又は顧客情報データベース１０３のいずれかに格納された文字列と一致するか否かを判定する（ステップ９０６）。ここで「ｎ」は、０〜ＭＡＸまでループするものとし、ＭＡＸは個人情報データベース１０２及び顧客情報データベース１０３に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ９０５で読み込んだ文字列をマスキング対象に設定して、伏字（●●●等）に置き換える（ステップ９０７）。
一方、ステップ９０６の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１０は、氏名・企業名判定部２０２が氏名・企業名接尾辞辞書４００に基づいて行うマスキング処理手順を示すフローチャートである。
氏名・企業名判定部２０２は、図９に示す処理と同様に、文分割部２０１が分割した電子文書を取得して、当該電子文書を構成する文字列を１文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す（ステップ１００１）。
次に、読み込んだ文字からｍ文字前までの文字列が個人名又は企業名の接尾辞に該当するか否かを判定する（ステップ１００２，１００３）。具体的には、氏名・企業接尾辞辞書４００に格納されている文字列と一致するか否かを判定する。ここで「ｍ」は、０からＭＡＸまでループするものとし、ＭＡＸは図４の氏名・企業接尾辞辞書４００に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、接尾辞に該当すると判定された文字列の前の文字列について、個人名又は企業名に該当するか否かの判定処理を繰り返す（ステップ１００４〜１００７）。一方、ステップ１００３の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
個人名，企業名に該当するか否かの判定処理では、まず、接尾辞の前ｎ文字を読み込み（ステップ１００５）、読み込んだ文字列が、個人情報データベース１０２又は顧客情報データベース１０３のいずれかに格納された文字列と一致するか否かを判定する（ステップ１００６）。ここで「ｎ」は、０〜ＭＡＸまでループするものとし、ＭＡＸは個人情報データベース１０２及び顧客情報データベース１０３に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ１００５で読み込んだ文字列をマスキング対象に設定して、伏字（●●●等）に置き換える（ステップ１００７）。
一方、ステップ９０６の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１１は、住所判定部２０３が地名接尾辞辞書５００に基づいて行うマスキング処理手順を示すフローチャートである。
住所判定部２０３は、文分割部２０１が分割した電子文書を取得して、当該電子文書を構成する文字列を１文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す（ステップ１１０１）。
次に、読み込んだ文字が地名に付くも接尾辞であるか否かを判定する（ステップ１１０２）。具体的には、地名接尾辞辞書５００に格納された文字列と一致するか否かを判定する。判定の結果、一致する場合には、後述するＡ処理により地名のマスキング処理を行う（ステップ１１０３）。
一方、一致しない場合には、読み込んだ文字列が郵便番号に付く接頭辞「〒」か否かを判定する（ステップ１１０４）。判定の結果「〒」である場合には、後述するＢ処理により郵便番号のマスキング処理を行う（ステップ１１０５）。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１２は、図１１のステップ１１０３に示すＡ処理（地名マスキング処理）の詳細を示すフローチャートである。
地名マスキング処理では、接尾辞の前ｎ文字を読み込み（ステップ１２０１，１２０２）、読み込んだ文字列が地名辞書６００に格納された文字列と一致するか否かを判定する（ステップ１２０３）。ここで「ｎ」は、０〜ＭＡＸまでループするものとし、ＭＡＸは地名辞書６００に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、ステップ１２０２で読み込んだ文字列をマスキング対象に設定して、伏字（●●●等）に置き換える（ステップ１２０４）。この場合のマスキング対象には、接尾辞として設定された文字列（例えば、「都」「道」「府」「県」等）が含まれるものとする。
一方、ステップ１２０３の判定の結果、一致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１３は、図１１のステップ１１０５に示すＢ処理（郵便番号マスキング処理）の詳細を示すフローチャートである。
郵便番号マスキング処理では、接頭辞の後ろ８文字を読み込み（ステップ１３０１）、読み込んだ文字列が郵便番号を示す文字列の配列パターンに合致するか否かを判定する（ステップ１３０２）。具体的には、８文字の文字列が郵便番号の形式（配列パターン）に合致するか否かで判定を行う。ここで郵便番号の形式（配列パターン）とは「数字３桁＋ハイフン＋数字４桁」の形式とする。
判定の結果、郵便番号の形式に合致した場合には、ステップ１３０１で読み込んだ文字列をマスキング対象に設定して、伏字（●●●等）に置き換える（ステップ１３０３）。
一方、ステップ１３０２の判定の結果、郵便番号の形式（配列パターン）に合致しない場合には次の文字列について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１４は、メールアドレス判定部２０４の行うマスキング処理手順を示すフローチャートである。
メールアドレス判定部２０４は、まず、文分割部２０１が分割した電子文書を取得して、当該電子文書を構成する文字列を１文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す（ステップ１４０１）。
次に、読み込んだ文字が「＠」であるか否かを判定する（ステップ１４０２）。
判定の結果、「＠」である場合には、後述するメールアドレスマスキング処理を行う（ステップ１４０３）。
一方、ステップ１４０２の判定の結果、「＠」以外の文字の場合には、次の文字について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１５は、図１４のステップ１４０３に示すメールアドレスマスキング処理の詳細を示すフローチャートである。
メールアドレスマスキング処理では、まず、「＠」から分割された電子文書の先頭まで１文字ずつ読み込み（ステップ１５０１）、読み込んだ文字が英数字及び記号以外の文字であるか否かを判定する（ステップ１５０２）。
判定の結果、英数字，記号以外の場合には、それまでに読み込んだ文字列がメールアドレスの「＠」より前の部分を構成するものとしてマスキング対象に設定し、伏字（●●●等）に置き換える（ステップ１５０３）。
一方、読み込んだ文字が英数字又は記号の場合には、次の文字を読み込む。
次に、「＠」から分割された電子文書の末尾まで１文字ずつ読み込み（ステップ１５０４）、読み込んだ文字が英数字及び記号以外の文字であるか否かを判定する（ステップ１５０５）。
判定の結果、英数字，記号以外の場合には、それまでに読み込んだ文字列がメールアドレスの「＠」より前の部分を構成するものとしてマスキング対象に設定し、伏字（●●●等）に置き換える（ステップ１５０３）。
一方、読み込んだ文字が英数字又は記号の場合には、次の文字を読み込む。
以上の処理によりメールアドレスについてマスキングを行う処理を終了する。

図１６は、電話番号判定部２０５の行うマスキング処理手順を示すフローチャートである。
電話番号判定部２０５は、まず、文分割部２０１が分割した電子文書を取得して、当該電子文書を構成する文字列を１文字ずつ読み込み、分割した電子文書の最後の文字まで、以下の処理を繰り返す（ステップ１６０１）。
次に、読み込んだ文字が数字であるか否かを判定する（ステップ１６０２）。
判定の結果、数字である場合には、読み込んだ文字（数字）から後ろにｎ文字目の文字を読み込み（ステップ１６０３，１６０４）、読み込んだ文字が数字及び記号（ハイフン）以外の文字であるか否かを判定する（ステップ１６０５）。この場合、ｎ＋１（ステップ１６０１で読み込んだ文字を含む文字数）が、電話番号判定辞書７００の桁数７０１に設定された数字となるように、ｎが５〜１２に設定されている。
判定の結果、数字又は記号（ハイフン）以外の文字である場合には、後述するＣ処理により電話番号のマスキング処理を行う（ステップ１６０６）。
一方、ステップ１６０５の判定の結果、読み込んだ文字が数字又は記号の場合には、次の文字について処理を繰り返す。
以上の処理を、分割した電子文書に含まれる全ての文字について行った後、処理を終了する。

図１７は、図１６のステップ１６０５に示すＣ処理（電話番号マスキング処理）の詳細を示すフローチャートである。
電話番号マスキング処理では、読み込んだｎ文字目までの文字列が電話番号判定辞書７００の正規表現７０２と合致するか否かを判定する（ステップ１７０１）。
具体的には、ｎ＋１の桁数７０１に対応する正規表現７０２の定義情報を取得して、文字列との比較を行う。
判定の結果、正規表現７０２の定義情報に合致する場合には、文字列の接頭辞（ｍ文字）又は接尾辞（ｍ文字）が、単位辞書８００に格納された文字列と一致するか否かを判定する（ステップ１７０３）。ここで「ｍ」は、０〜ＭＡＸまでループするものとし、ＭＡＸは単位辞書８００に格納された文字列の最大文字数とする。
判定の結果、一致した場合には、当該文字列は電話番号以外を示すものとして、マスキング対象から除外して処理を終了する。
一方、ステップ１７０３の判定の結果、一致しない場合には、ステップ１６０４で読み込んだ文字列をマスキング対象に設定して、伏字（●●●等）に置き換えてＣ処理を終了する（ステップ１７０４）。

以上のように、本実施の形態に係る電子文書マスキングシステムは、予めマスキング対象となる文字列の接頭辞，接尾辞又は形式を定義したマスキング対象判定辞書を有し、当該マスキング対象判定辞書の定義情報に基づき、電子文書内に含まれる文字列がマスキング対象となるか否かを判定する手段を備えることとしたので、構造化されていない電子文書であっても、個人情報等に該当する文字列についてのマスキング処理を適切に行うことが可能となる。

なお、本発明の構成は、前記実施の形態に示すものに限らず、各処理部の構成及び各データベース，マスキング対象判定辞書のデータ構造等を変更してもよい。例えば、前記実施形態では、個人情報データベース，顧客情報データベースと、マスキング対象判定辞書とを異なるものとして構成しているが、各データベースをマスキング対象判定辞書に含めることとしてもよい。また、各データベースは他のシステムに存在するものを用いることとしてもよい。

本発明の一実施の形態に係る電子文書マスキングシステムの概略構成を示すブロック図である。電子文書マスキングシステムを構成するマスキング処理部の概略構成を示すブロック図である。氏名・企業名接頭辞辞書の一例を示す図である。氏名・企業名接尾辞辞書の一例を示す図である。地名接尾辞辞書の一例を示す図である。地名辞書の一例を示す図である。電話番号判定辞書の一例を示す図である。単位辞書の一例を示す図である。氏名・企業名接頭辞辞書に基づくマスキング処理手順を示すフローチャートである。氏名・企業名接尾辞辞書に基づくマスキング処理手順を示すフローチャートである。地名接尾辞辞書に基づくマスキング処理手順を示すフローチャートである。地名辞書に基づくマスキング処理手順を示すフローチャートである。郵便番号配列パターンに基づくマスクキング処理手順を示すフローチャートである。電子メールアドレスパターンに基づくマスキング処理の前処理を示すフローチャートである。電子メールアドレスパターンに基づくマスキング処理手順を示すフローチャートである。電話番号パターンに基づくマスキング処理の前処理を示すフローチャートである。電話番号パターンに基づくマスキング処理手順を示すフローチャートである。

符号の説明

１００電子文書マスキングシステム、１０１マスキング処理部、１０２個人情報データベース、１０３顧客情報データベース、１０４マスキング対象判定辞書、１１０電子文書、１２０マスキング済み電子文書、２０１文分割部、２０２氏名・企業名判定部、２０３住所判定部、２０４メールアドレス判定部、２０５電話番号判定部。

Claims

予めマスキング対象となる文字列を判定するための定義情報を格納したマスキング対象判定辞書を有し、
前記マスキング判定辞書の定義情報に基づき、電子文書中のマスキング対象文字列を判定する判定手段を備える電子文書マスキングシステムであって、
前記マスキング対象判定辞書は、前記定義情報としてマスキング対象となる文字列の接頭辞又は接尾辞を示す文字列と、前記接頭辞又は接尾辞の前後に位置することによりマスキング対象となる文字列とを有し、
前記判定手段は、電子文書中から前記定義情報に含まれる接頭辞又は接尾辞と一致する文字列を検索し、前記接頭辞の後ろの文字列又は前記接尾辞の前の文字列がマスキング対象文字列に該当するか否かを判定する手段を備えることを特徴とする電子文書マスキングシステム。
前記マスキング対象判定辞書は、前記定義情報として、個人名又は法人名に付加される接頭辞又は接尾辞を示す文字列と、マスキング対象としての個人名又は法人名を示す文字列とを含むものとし、
前記判定手段は、前記定義情報に基づき、個人名又は法人名を示す文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項１に記載の電子文書マスキングシステム。
前記マスキング対象判定辞書は、前記定義情報として、地名に付加される接尾辞を示す文字列と、マスキング対象としての地名を示す文字列とを含むものとし、
前記判定手段は、前記定義情報に基づき、地名を示す文字列と接尾辞とをマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項１又は２に記載の電子文書マスキングシステム。
前記マスキング対象判定辞書は、前記定義情報として、さらに郵便番号に付加される接頭辞としての記号と、郵便番号を示す数字及び記号の配列パターンとを含むものとし、
前記判定手段は、前記接頭辞の後ろに位置する文字列の配列パターンが前記定義情報と一致する場合にマスキング対象として判定する手段をさらに備えることを特徴とする請求項１〜３のいずれかに記載の電子文書マスキングシステム。
前記マスキング対象判定辞書は、前記定義情報として、さらに電子メールアドレスの一部を示す記号を含むものとし、
前記判定手段は、前記定義情報と一致する記号とその前後に位置する英数字及び記号の文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項１〜４のいずれかに記載の電子文書マスキングシステム。
前記マスキング対象判定辞書は、前記定義情報として、さらに電話番号を示す数字と記号との配列パターンを含むものとし、
前記判定手段は、前記定義情報と一致する配列パターンの文字列をマスキング対象文字列として判定する手段をさらに備えることを特徴とする請求項１〜５のいずれかに記載の電子文書マスキングシステム。
前記マスキング対象判定辞書は、マスキング対象除外文字列として、単位を示す文字列を含むものとし、
前記判定手段は、前記電話番号を示す配列パターンの文字列の接尾辞として前記マスキング対象除外文字列が付加されている場合に、前記文字列をマスキング対象から除外することを特徴とする請求項６に記載の電子文書マスキングシステム。