JP6420728B2 - Mask processing system, mask processing method, user terminal, and server - Google Patents

Mask processing system, mask processing method, user terminal, and server Download PDF

Info

Publication number
JP6420728B2
JP6420728B2 JP2015132880A JP2015132880A JP6420728B2 JP 6420728 B2 JP6420728 B2 JP 6420728B2 JP 2015132880 A JP2015132880 A JP 2015132880A JP 2015132880 A JP2015132880 A JP 2015132880A JP 6420728 B2 JP6420728 B2 JP 6420728B2
Authority
JP
Japan
Prior art keywords
mask
character string
mask target
area information
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015132880A
Other languages
Japanese (ja)
Other versions
JP2017016420A (en
Inventor
昌宏 湯口
昌宏 湯口
明通 田中
明通 田中
青木 政勝
政勝 青木
澤田 宏
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015132880A priority Critical patent/JP6420728B2/en
Publication of JP2017016420A publication Critical patent/JP2017016420A/en
Application granted granted Critical
Publication of JP6420728B2 publication Critical patent/JP6420728B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、ユーザデータに対してマスク処理を行うためのマスク処理システム、マスク処理方法、ユーザ端末、及びサーバに関する。   The present invention relates to a mask processing system, a mask processing method, a user terminal, and a server for performing mask processing on user data.

ユーザが利用する端末上の操作履歴を取得し、保存する技術がある(例えば、特許文献1、非特許文献1)。   There is a technique for acquiring and storing an operation history on a terminal used by a user (for example, Patent Document 1 and Non-Patent Document 1).

ユーザ端末上では、さまざまなデータが利用される。たとえば、Webページを閲覧した際の閲覧履歴データなども収集される。収集されたWeb閲覧履歴データ中には、ユーザにとって公開したくない情報が含まれることがある。たとえば、個人情報に関連する文字列などが含まれることがある。これらのユーザ端末にて収集されたデータに対して、個人情報などに関連する文字列を他の文字列に置き換えるマスキング処理を行うシステムが存在する(例えば、特許文献2)。   Various data are used on the user terminal. For example, browsing history data when browsing a Web page is also collected. The collected web browsing history data may include information that the user does not want to disclose. For example, a character string related to personal information may be included. There is a system that performs a masking process to replace a character string related to personal information with another character string on the data collected by these user terminals (for example, Patent Document 2).

また、ユーザ端末上ではなく、ネットワーク上のプロキシサーバなどでユーザに関するデータを収集するシステムも存在する(例えば、特許文献3)。   In addition, there is a system that collects data related to a user using a proxy server on a network instead of a user terminal (for example, Patent Document 3).

特開2005−174138号公報JP 2005-174138 A 特開2012−113606号公報JP 2012-113606 A 特開2014−96117号公報JP 2014-96117 A

田中明通、内山匡、“PC操作履歴収集システム「メモリ・リトリーバ」”、NTT技術ジャーナル2010.07号、P12-15Akinori Tanaka, Kaoru Uchiyama, “PC Operation History Collection System“ Memory Retriever ””, NTT Technical Journal 2010.07, P12-15

サーバ上でユーザに関するデータを収集する場合、ユーザの個人情報などのマスキングしたい文字列に関する情報についても、サーバ上で管理し、該当する文字列が収集された際にマスキング処理を行うことが必要となる。   When collecting user-related data on the server, it is also necessary to manage information related to character strings to be masked, such as user personal information, on the server and perform masking processing when the corresponding character strings are collected. Become.

この際、ユーザごとのマスキングしたい文字列に関する情報をサーバ上で管理する場合、情報の漏えいや、盗難に対して厳格な管理や運用が求められることになるが、盗難や漏えいの可能性を完全に無くすことは困難である。   In this case, when managing information related to the character string to be masked for each user on the server, strict management and operation against information leakage and theft is required, but the possibility of theft and leakage is completely eliminated. It is difficult to eliminate them.

よって、ユーザごとのマスク対象文字列をサーバ上に配置しながらも、ユーザ自身の個人情報が容易に判明しないようにしつつ、マスク処理を可能とすることが求められる。   Therefore, it is required to enable mask processing while arranging the character string to be masked for each user on the server, while preventing the personal information of the user from being easily identified.

本発明は上記の事情に鑑みてなされたものであり、マスク対象の情報を適切にマスク処理することができるマスク処理システム、マスク処理方法、ユーザ端末、及びサーバを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a mask processing system, a mask processing method, a user terminal, and a server that can appropriately mask information to be masked.

上記目的を達成するために、本発明のマスク処理システムは、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、前記座標値を含む領域情報を、マスク対象領域情報として生成するマスク対象領域情報生成部、及び前記マスク対象領域情報生成部によって生成された前記マスク対象領域情報をサーバへ送信するマスク対象領域情報送信部を含むユーザ端末と、前記ユーザ端末から送信された前記マスク対象領域情報を受信するマスク対象領域情報受信部、前記マスク対象領域情報受信部によって受信した前記マスク対象領域情報を記憶するマスク対象領域情報データベース、前記ユーザ端末又はプロキシサーバから送信された前記ユーザに関するユーザデータを受信するユーザデータ受信部、及び前記マスク対象領域情報に基づいて、前記受信したユーザデータに含まれる文字列のマスク処理を行うマスク処理部を含むサーバと、を含む。   In order to achieve the above object, the mask processing system of the present invention converts a mask target character string related to a user into a coordinate value on a mask character string space, and generates region information including the coordinate value as mask target region information. A mask target region information generation unit that performs transmission, and a mask target region information transmission unit that transmits the mask target region information generated by the mask target region information generation unit to a server, and the user terminal transmitted from the user terminal. The mask target region information receiving unit that receives mask target region information, the mask target region information database that stores the mask target region information received by the mask target region information receiving unit, the user transmitted from the user terminal or proxy server User data receiving unit for receiving user data relating to the mask area Based on the distribution, including a server comprising a mask processing unit for performing mask processing of a character string included in the user data to the received.

本発明のマスク処理方法は、ユーザ端末とサーバとを含むマスク処理システムにおけるマスク処理方法であって、前記ユーザ端末のマスク対象領域情報生成部が、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、前記座標値を含む領域情報を、マスク対象領域情報として生成し、前記ユーザ端末のマスク対象領域情報送信部が、前記マスク対象領域情報生成部によって生成された前記マスク対象領域情報をサーバへ送信し、前記サーバのマスク対象領域情報受信部が、前記ユーザ端末から送信された前記マスク対象領域情報を受信し、前記受信した前記マスク対象領域情報をマスク対象領域情報データベースに記憶し、前記ユーザ端末又はプロキシサーバのユーザデータ送信部が、前記ユーザに関するユーザデータを前記サーバへ送信し、前記サーバのユーザデータ受信部が、前記ユーザ端末から送信されたユーザデータを受信し、前記サーバのマスク処理部が、前記マスク対象領域情報に基づいて、前記受信したユーザデータに含まれる文字列のマスク処理を行う。   A mask processing method of the present invention is a mask processing method in a mask processing system including a user terminal and a server, and the mask target area information generation unit of the user terminal displays a mask target character string related to a user on a mask character string space. The area information including the coordinate value is generated as mask target area information, and the mask target area information transmission unit of the user terminal generates the mask target generated by the mask target area information generation unit. The area information is transmitted to the server, and the mask target area information receiving unit of the server receives the mask target area information transmitted from the user terminal, and the received mask target area information is stored in the mask target area information database. Storing the user data related to the user by the user data transmission unit of the user terminal or the proxy server. The server user data reception unit receives the user data transmitted from the user terminal, and the server mask processing unit receives the received user data based on the mask target area information. The character string included in is masked.

本発明のユーザ端末は、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、前記座標値を含む領域情報を、マスク対象領域情報として生成するマスク対象領域情報生成部と、前記マスク対象領域情報生成部によって生成された前記マスク対象領域情報を、前記マスク対象領域情報をマスク対象領域情報データベースに記憶するサーバへ送信するマスク対象領域情報送信部と、前記ユーザのユーザデータを、前記マスク対象領域情報に基づいて前記ユーザデータに含まれる文字列のマスク処理を行う前記サーバへ送信するユーザデータ送信部と、を含む。   The user terminal of the present invention converts a mask target character string related to a user into a coordinate value on a mask character string space, and generates a mask target region information generation unit that generates region information including the coordinate value as mask target region information; A mask target region information transmitting unit that transmits the mask target region information generated by the mask target region information generating unit to a server that stores the mask target region information in a mask target region information database; and user data of the user A user data transmission unit that transmits to the server a masking process of a character string included in the user data based on the mask target area information.

本発明のサーバは、ユーザ端末から送信された、ユーザに関するマスク対象文字列を変換したマスク文字列空間上の座標値を含むマスク対象領域情報を受信するマスク対象領域情報受信部と、前記マスク対象領域情報受信部によって受信した前記マスク対象領域情報を記憶するマスク対象領域データベース、前記ユーザ端末又はプロキシサーバから送信された前記ユーザに関するユーザデータを受信するユーザデータ受信部、及び前記マスク対象領域情報に基づいて、前記受信したユーザデータに含まれる文字列のマスク処理を行うマスク処理部を含む。   The server of the present invention includes a mask target region information receiving unit that receives mask target region information including coordinate values on a mask character string space obtained by converting a mask target character string related to a user, transmitted from a user terminal, and the mask target A mask target area database that stores the mask target area information received by the area information receiving unit, a user data receiving unit that receives user data related to the user transmitted from the user terminal or proxy server, and the mask target area information And a mask processing unit that performs mask processing of the character string included in the received user data.

本発明の前記マスク処理部は、前記受信したユーザデータに含まれる文字列を、前記マスク文字列空間上の座標値に変換し、前記変換された前記座標値が、前記マスク対象領域情報に含まれる場合、前記ユーザデータに含まれる前記文字列のマスク処理を行うようにすることができる。   The mask processing unit of the present invention converts a character string included in the received user data into a coordinate value on the mask character string space, and the converted coordinate value is included in the mask target area information. In such a case, the character string included in the user data may be masked.

本発明の前記サーバは、前記マスク対象領域情報受信部によって受信した前記マスク対象領域情報に含まれるマスク対象文字列候補を選定するマスク対象文字列候補選定部を更に含み、前記マスク対象領域情報データベースは、前記マスク対象文字列候補選定部によって選定された前記マスク対象文字列候補を記憶し、前記マスク処理部は、前記受信したユーザデータに含まれる文字列が、前記マスク対象文字列候補と一致する場合に、前記ユーザデータに含まれる前記文字列のマスク処理を行うようにすることができる。   The server of the present invention further includes a mask target character string candidate selection unit that selects a mask target character string candidate included in the mask target region information received by the mask target region information reception unit, and the mask target region information database Stores the mask target character string candidate selected by the mask target character string candidate selection unit, and the mask processing unit matches the character string included in the received user data with the mask target character string candidate. In this case, the character string included in the user data can be masked.

本発明の前記マスク対象領域情報生成部は、ハッシュ関数を用いて、ユーザに関するマスク対象文字列を、マスク文字列空間上の座標値としてハッシュ値に変換し、前記ハッシュ値の先頭の所定ビットを、前記マスク対象領域情報として生成するようにすることができる。   The mask target area information generation unit of the present invention converts a mask target character string related to a user into a hash value as a coordinate value on a mask character string space using a hash function, and sets a predetermined bit at the head of the hash value. The mask target area information can be generated.

本発明の前記マスク対象領域情報生成部は、ユーザに関するマスク対象文字列を、前記マスク文字列空間上の座標値に変換し、前記座標値と、前記マスク対象文字列の文字数、又は前記マスク対象文字列が他のユーザに関する文字列と重複する確率とに基づいて、前記マスク対象領域情報を生成するようにすることができる。   The mask target area information generation unit of the present invention converts a mask target character string related to a user into a coordinate value on the mask character string space, and the coordinate value and the number of characters of the mask target character string, or the mask target The mask target area information can be generated based on a probability that a character string overlaps with a character string related to another user.

以上説明したように、本発明のマスク処理システム、マスク処理方法、ユーザ端末、及びサーバによれば、ユーザ端末において、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値を含む領域情報を、マスク対象領域情報として生成し、生成されたマスク対象領域情報をサーバへ送信し、サーバにおいて、ユーザ端末から送信されたマスク対象領域情報を記憶し、マスク対象領域情報に基づいて、受信したユーザデータに含まれる文字列のマスク処理を行うことにより、マスク対象の情報を適切にマスク処理することができる、という効果が得られる。   As described above, according to the mask processing system, the mask processing method, the user terminal, and the server of the present invention, in the user terminal, the mask target character string related to the user is converted into the coordinate value on the mask character string space, and The area information including coordinate values is generated as mask target area information, the generated mask target area information is transmitted to the server, the mask target area information transmitted from the user terminal is stored in the server, and the mask target area information is stored. Based on the above, it is possible to appropriately mask the information to be masked by performing the masking process on the character string included in the received user data.

本発明の第1の実施の形態に係るマスク処理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the mask processing system which concerns on the 1st Embodiment of this invention. ユーザ端末におけるマスク対象領域情報の生成及びサーバにおけるマスク対象領域情報の登録の概要を示す図である。It is a figure which shows the outline | summary of the production | generation of the mask object area | region information in a user terminal, and registration of the mask object area | region information in a server. 本発明の第1の実施の形態に係るマスク処理システムのユーザ端末におけるマスク対象領域情報生成処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the mask object area | region information generation process routine in the user terminal of the mask processing system which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマスク処理システムのサーバにおけるマスク対象領域情報登録処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the mask object area | region information registration processing routine in the server of the mask processing system which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマスク処理システムのユーザ端末におけるユーザデータ収集処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the user data collection process routine in the user terminal of the mask processing system which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマスク処理システムのサーバにおけるマスク処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the mask processing routine in the server of the mask processing system which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係るマスク処理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the mask processing system which concerns on the 2nd Embodiment of this invention. マスク文字列空間上のマスク対象文字列候補を表すイメージ図である。It is an image figure showing the mask object character string candidate on mask character string space. マスク対象文字列候補が選択される過程を表すイメージ図である。It is an image figure showing the process in which the mask object character string candidate is selected. 本発明の第2の実施の形態に係るマスク処理システムの処理の概要を示すブロック図である。It is a block diagram which shows the outline | summary of a process of the mask processing system which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るマスク処理システムのサーバにおけるマスク対象領域情報登録処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the mask object area | region information registration process routine in the server of the mask processing system which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るマスク処理システムのサーバにおけるマスク処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the mask processing routine in the server of the mask processing system which concerns on the 2nd Embodiment of this invention. 辞書データベースの更新処理の概要を表すイメージ図である。It is an image figure showing the outline | summary of the update process of a dictionary database. マスク対象領域情報に含まれるマスク対象文字列候補の数に応じてマスク対象領域のサイズを拡大又は縮小する処理を表すイメージ図である。It is an image figure showing the process which expands or reduces the size of a mask object area | region according to the number of mask object character string candidates contained in mask object area information. 本発明の第3の実施の形態に係るマスク処理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the mask processing system which concerns on the 3rd Embodiment of this invention. 本発明の第4の実施の形態に係るマスク処理システムの処理の概要を示すブロック図である。It is a block diagram which shows the outline | summary of a process of the mask processing system which concerns on the 4th Embodiment of this invention. 本発明の第4の実施の形態を、第2の実施の形態に適用させた場合のマスク処理システムの処理の概要を示すブロック図である。It is a block diagram which shows the outline | summary of a process of the mask processing system at the time of applying the 4th Embodiment of this invention to 2nd Embodiment.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の概要>
本発明の実施の形態は、ユーザに関するデータをサーバ上で文字列変換する技術に関する。
<Outline of Embodiment of the Present Invention>
The embodiment of the present invention relates to a technique for converting data on a user into a character string on a server.

本発明の実施の形態では、ユーザのマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値を含む領域情報をマスク対象領域情報としてサーバに配置し、サーバによって受信されたユーザデータ中に含まれる文字列が当該マスク対象領域に含まれる場合、当該文字列のマスク処理を行う。   In the embodiment of the present invention, the user's mask target character string is converted into a coordinate value on the mask character string space, and the area information including the coordinate value is placed on the server as the mask target area information and received by the server. When the character string included in the user data is included in the mask target area, the character string is masked.

本発明の実施の形態では、ユーザ端末上での操作情報や、ユーザがWebブラウザにて閲覧したWebページの履歴情報などをユーザデータとして扱う場合を例に説明する。   In the embodiment of the present invention, a case where operation information on a user terminal, history information of a web page browsed by a user with a web browser, and the like are handled as user data will be described as an example.

[第1の実施の形態]
<システム構成>
図1に示すように、本発明の第1の実施の形態に係るマスク処理システム100は、ユーザ端末10と、サーバ30とを備える。ユーザ端末10とサーバ30とは、インターネットなどのネットワーク11を介して接続されている。
[First Embodiment]
<System configuration>
As shown in FIG. 1, the mask processing system 100 according to the first embodiment of the present invention includes a user terminal 10 and a server 30. The user terminal 10 and the server 30 are connected via a network 11 such as the Internet.

[ユーザ端末10]
ユーザ端末10は、マスク対象領域情報出力部12と、ユーザデータ出力部22とを備えている。
[User terminal 10]
The user terminal 10 includes a mask target area information output unit 12 and a user data output unit 22.

マスク対象領域情報出力部12は、マスク情報登録部14と、マスク文字列空間座標算出部16と、マスク対象領域情報生成部18と、マスク対象領域情報送信部20とを備えている。   The mask target region information output unit 12 includes a mask information registration unit 14, a mask character string space coordinate calculation unit 16, a mask target region information generation unit 18, and a mask target region information transmission unit 20.

マスク情報登録部14は、入力部(図示省略)により入力されたユーザに関するマスク対象文字列を受け付ける。マスク対象文字列は、ユーザがマスク対象としたい文字列である。マスク情報登録部14は、ユーザがマスクしたい文字列であるマスク対象文字列を受け付け、メモリ(図示省略)に登録する。   The mask information registration unit 14 receives a mask target character string related to the user input by an input unit (not shown). The mask target character string is a character string that the user wants to mask. The mask information registration unit 14 receives a mask target character string that is a character string that the user wants to mask, and registers it in a memory (not shown).

例えば、ユーザの個人情報に関連する文字列などをマスク対象文字列とすることができ、氏名(姓・名)、住所、電話番号、クレジットカード番号、などを含むものとする。   For example, a character string related to the user's personal information can be used as a mask target character string, and includes a name (first name / last name), an address, a telephone number, a credit card number, and the like.

マスク文字列空間座標算出部16は、マスク情報登録部14によってメモリ(図示省略)に登録されたマスク対象文字列をマスク文字列空間上の座標値に変換する。具体的には、マスク文字列空間座標算出部16は、マスク対象文字列として登録された項目(例えば、氏名、電話番号、住所、など)の、それぞれでマスク文字列空間上の座標値を算出する。   The mask character string space coordinate calculation unit 16 converts the mask target character string registered in the memory (not shown) by the mask information registration unit 14 into a coordinate value in the mask character string space. Specifically, the mask character string space coordinate calculation unit 16 calculates the coordinate value on the mask character string space for each item (for example, name, telephone number, address, etc.) registered as the mask target character string. To do.

本実施の形態では、マスク文字列空間座標算出部16は、ハッシュ関数を用いて、マスク情報登録部14によって登録されたマスク対象文字列を、マスク文字列空間上の座標値として一定ビット長のハッシュ値に変換する。   In the present embodiment, the mask character string space coordinate calculation unit 16 uses the hash function to convert the mask target character string registered by the mask information registration unit 14 as a coordinate value in the mask character string space with a certain bit length. Convert to hash value.

例えば、マスク対象文字列がユーザの氏名(姓)である場合、マスク文字列空間座標算出部16は、マスク文字列空間上におけるユーザ氏名(姓)の座標値を算出する。ユーザの氏名(姓)が「通研」であり、ハッシュ関数としてMD5(Message Digest Algorithm 5)を用いる場合には、マスク文字列空間座標算出部16による処理によって32ビットのハッシュ値(3c9680c6fdb15c559b7219e77a25c9d2)が得られる。マスク文字列空間座標算出部16による処理によって得られたハッシュ値は、マスク文字列空間上の座標値として扱われる。   For example, when the mask target character string is the user's first name (last name), the mask character string space coordinate calculation unit 16 calculates the coordinate value of the user name (last name) in the mask character string space. When the user's full name is “Riken” and MD5 (Message Digest Algorithm 5) is used as a hash function, a 32-bit hash value (3c9680c6fdb15c559b7219e77a25c9d2) is obtained by processing by the mask character string space coordinate calculation unit 16. can get. The hash value obtained by the processing by the mask character string space coordinate calculation unit 16 is handled as a coordinate value in the mask character string space.

マスク対象領域情報生成部18は、マスク文字列空間座標算出部16によって算出された座標値を含む領域情報を、マスク対象領域情報として生成する。   The mask target area information generation unit 18 generates area information including the coordinate values calculated by the mask character string space coordinate calculation unit 16 as mask target area information.

具体的には、マスク文字列空間座標算出部16によって算出された一定ビット長のハッシュ値を当該座標値として扱う場合、マスク対象領域情報生成部18は、算出されたハッシュ値のうち、先頭から特定のビット数の部分をマスク対象領域情報として生成する。   Specifically, when a hash value having a constant bit length calculated by the mask character string space coordinate calculation unit 16 is handled as the coordinate value, the mask target area information generation unit 18 starts from the calculated hash value from the top. A part having a specific number of bits is generated as mask target area information.

例えば、マスク対象領域情報生成部18は、座標値のうち先頭から8ビット分を用いるとすることで、マスク対象領域情報を決定することができる。例えば、座標値として32ビットのハッシュ値(3c9680c6fdb15c559b7219e77a25c9d2)が得られた場合、先頭から8ビットの(3c9680c6)がマスク対象領域情報となる。   For example, the mask target area information generation unit 18 can determine the mask target area information by using 8 bits from the top of the coordinate values. For example, when a 32-bit hash value (3c9680c6fdb15c559b7219e77a25c9d2) is obtained as a coordinate value, 8-bit (3c9680c6) from the beginning is mask target area information.

なお、ハッシュ値の算出アルゴリズムとして用いられるハッシュ関数は、ユーザ端末10とサーバ30とで揃える必要があるが、上記MD5、SHA−1(Secure Hash Algorithm)などを利用しても良い。   It should be noted that the hash functions used as the hash value calculation algorithm need to be aligned between the user terminal 10 and the server 30, but the MD5, SHA-1 (Secure Hash Algorithm), or the like may be used.

図2に、マスク文字列空間座標算出部16及びマスク対象領域情報生成部18の処理の概要を表すイメージ図を示す。図2に示すように、マスク文字列空間座標算出部16は、マスク対象文字列をマスク文字列空間上の座標値に変換する。そして、マスク対象領域情報生成部18は、マスク文字列空間座標算出部16の処理によって得られた座標値に基づいて、マスク対象領域情報を生成する。   FIG. 2 is an image diagram showing an outline of processing of the mask character string space coordinate calculation unit 16 and the mask target region information generation unit 18. As shown in FIG. 2, the mask character string space coordinate calculation unit 16 converts the mask target character string into coordinate values on the mask character string space. Then, the mask target area information generation unit 18 generates mask target area information based on the coordinate values obtained by the processing of the mask character string space coordinate calculation unit 16.

マスク対象領域情報送信部20は、マスク対象領域情報生成部18によって生成されたマスク対象領域情報をサーバ30へ送信する。   The mask target area information transmission unit 20 transmits the mask target area information generated by the mask target area information generation unit 18 to the server 30.

ユーザデータ出力部22は、ユーザデータ収集部24と、ユーザデータ送信部26とを備えている。   The user data output unit 22 includes a user data collection unit 24 and a user data transmission unit 26.

ユーザデータ収集部24は、ユーザのWebページの閲覧履歴情報などを、ユーザに関するユーザデータとして収集する。   The user data collection unit 24 collects browsing history information and the like of the user's Web page as user data related to the user.

ユーザデータ送信部26は、ユーザデータ収集部24によって収集されたユーザデータを、サーバ30へ送信する。   The user data transmission unit 26 transmits the user data collected by the user data collection unit 24 to the server 30.

[サーバ30]
サーバ30は、マスク対象領域データ取得部32と、ユーザデータ取得部40とを備えている。サーバ30は、ユーザ端末10から送信されたマスク対象領域情報に基づいて、ユーザ端末10から送信されたユーザデータに含まれる文字列のマスク処理を行う。
[Server 30]
The server 30 includes a mask target area data acquisition unit 32 and a user data acquisition unit 40. The server 30 performs a mask process on the character string included in the user data transmitted from the user terminal 10 based on the mask target area information transmitted from the user terminal 10.

マスク対象領域データ取得部32は、マスク対象領域情報受信部34と、マスク対象領域情報登録部36と、マスク対象領域情報データベース38とを備えている。   The mask target region data acquisition unit 32 includes a mask target region information reception unit 34, a mask target region information registration unit 36, and a mask target region information database 38.

マスク対象領域情報受信部34は、ユーザ端末10から送信されたマスク対象領域情報を受信する。上述したように、マスク対象領域情報は、ユーザに関するマスク対象文字列を変換したマスク文字列空間上の座標値を含む。   The mask target area information receiving unit 34 receives the mask target area information transmitted from the user terminal 10. As described above, the mask target area information includes coordinate values on the mask character string space obtained by converting the mask target character string related to the user.

マスク対象領域情報登録部36は、上記図2に示すように、マスク対象領域情報受信部34によって受信されたマスク対象領域情報を、マスク対象領域情報データベース38に登録する。   The mask target region information registration unit 36 registers the mask target region information received by the mask target region information receiving unit 34 in the mask target region information database 38 as shown in FIG.

マスク対象領域情報データベース38には、マスク対象領域情報登録部36によって登録されたマスク対象領域情報が記憶される。マスク対象領域情報は、ユーザごとに登録される。マスク対象領域情報データベース38では、対象ユーザが識別できるようにマスク対象領域情報が記憶される。マスク対象領域情報について対象ユーザを識別可能とすることで、ユーザ端末から送信されたユーザデータに対し、当該ユーザに対するマスク対象領域情報を適用できるようにする。   The mask target area information database 38 stores the mask target area information registered by the mask target area information registration unit 36. Mask target area information is registered for each user. The mask target area information database 38 stores mask target area information so that the target user can be identified. By making the target user identifiable with respect to the mask target area information, the mask target area information for the user can be applied to the user data transmitted from the user terminal.

ユーザデータ取得部40は、ユーザデータ受信部42と、マスク処理部44と、マスク処理後ユーザデータ蓄積部46と、マスク済みユーザデータデータベース48とを備えている。   The user data acquisition unit 40 includes a user data reception unit 42, a mask processing unit 44, a post-mask processing user data storage unit 46, and a masked user data database 48.

ユーザデータ受信部42は、ユーザ端末10から送信されたユーザデータを受信する。   The user data receiving unit 42 receives user data transmitted from the user terminal 10.

マスク処理部44は、マスク対象領域情報データベース38に記憶されたマスク対象領域情報に基づいて、ユーザデータ受信部42によって受信されたユーザデータに含まれる文字列のマスク処理を行う。   Based on the mask target area information stored in the mask target area information database 38, the mask processing section 44 performs a mask process on the character string included in the user data received by the user data receiving section 42.

具体的には、マスク処理部44は、受信したユーザデータに含まれる文字列を、マスク文字列空間上の座標値に変換する。そして、マスク処理部44は、変換された座標値が、マスク対象領域情報データベース38に記憶された当該ユーザのマスク対象領域情報に含まれる場合、変換された座標値に対応する、ユーザデータに含まれる当該文字列のマスク処理を行う。   Specifically, the mask processing unit 44 converts a character string included in the received user data into coordinate values in the mask character string space. When the converted coordinate value is included in the mask target area information of the user stored in the mask target area information database 38, the mask processing unit 44 includes the converted coordinate value in the user data corresponding to the converted coordinate value. The character string to be masked is processed.

例えば、ユーザデータがユーザのWebページの閲覧履歴情報であり、閲覧履歴情報中にユーザの氏名などの情報が含まれる場合について説明する。また、具体的なマスク対象文字列の検出方法の一例を以下で説明する。   For example, a case will be described in which user data is browsing history information of a user's Web page, and information such as the user's name is included in the browsing history information. An example of a specific mask target character string detection method will be described below.

例えば、マスク処理部44は、受信したユーザデータに対し、形態素解析を行い、ユーザデータを形態素に分解する。   For example, the mask processing unit 44 performs morphological analysis on the received user data, and decomposes the user data into morphemes.

次に、マスク処理部44は、形態素解析によって分解された文字列に対し、ハッシュ関数を用いてハッシュ値を計算する。   Next, the mask processing unit 44 calculates a hash value using a hash function for the character string decomposed by the morphological analysis.

次に、マスク処理部44は、計算されたハッシュ値と、マスク対象領域情報データベース38に登録された当該ユーザのマスク対象領域情報とを比較し、マスク対象領域情報に含まれる文字列を検出する。   Next, the mask processing unit 44 compares the calculated hash value with the mask target area information of the user registered in the mask target area information database 38, and detects a character string included in the mask target area information. .

具体的には、マスク処理部44は、形態素解析によって分解された文字列のハッシュ値の先頭部分が、マスク対象領域情報データベース38に登録されたマスク対象領域情報と一致する場合、当該文字列をマスク対象文字列として判定する。   Specifically, the mask processing unit 44, when the head part of the hash value of the character string decomposed by morphological analysis matches the mask target area information registered in the mask target area information database 38, It is determined as a mask target character string.

例えば、形態素解析結果にユーザの氏名(姓)「通研」が含まれていた場合、上述したように座標値としてハッシュ値(3c9680c6fdb15c559b7219e77a25c9d2)が得られる。ユーザ氏名(姓)「通研」がマスク対象文字列であれば、マスク対象領域情報データベース38には、「通研」に対応するマスク対象領域情報として(3c9680c6)が登録されている。   For example, if the morphological analysis result includes the user's first name (last name) “Rieken”, the hash value (3c9680c6fdb15c559b7219e77a25c9d2) is obtained as the coordinate value as described above. If the user name (surname) “Tetsuken” is a character string to be masked, (3c9680c6) is registered in the mask target area information database 38 as mask target area information corresponding to “Tken”.

従って、形態素解析によって分解された「通研」のハッシュ値の先頭部分(3c9680c6)は、マスク対象領域情報データベース38に登録されたマスク対象領域情報(3c9680c6)と一致するため、マスク処理部44は、当該文字列をマスク対象文字列として判定する。   Therefore, since the head part (3c9680c6) of the hash value of “Rieken” decomposed by the morphological analysis matches the mask target area information (3c9680c6) registered in the mask target area information database 38, the mask processing unit 44 The character string is determined as a mask target character string.

そして、マスク処理部44は、マスク対象文字列であると判定された当該文字列について、マスク処理として、他の文字列に変換する処理を行う。   And the mask process part 44 performs the process which converts into the other character string as a mask process about the said character string determined to be a mask object character string.

また、事前にユーザデータの文書情報の構造が判明している場合は、構造情報を用いて、マスク対象文字列が含まれる箇所を選定するようにしても良い。   In addition, when the structure of the document information of the user data is known in advance, the location including the mask target character string may be selected using the structure information.

マスク処理後ユーザデータ蓄積部46は、マスク処理部44によってマスク処理が行われたユーザデータを、マスク済みユーザデータデータベース48に格納する。   The post-mask processing user data storage unit 46 stores the user data subjected to the mask processing by the mask processing unit 44 in the masked user data database 48.

マスク済みユーザデータデータベース48には、マスク処理が行われたユーザデータが格納される。   The masked user data database 48 stores user data subjected to mask processing.

<マスク処理システムの作用>
マスク処理システム100は、マスク対象領域情報の生成処理及び登録処理と、ユーザデータの収集処理及びマスク処理とを実行する。
まず、マスク対象領域情報の生成処理及び登録処理について説明する。
<Operation of mask processing system>
The mask processing system 100 executes generation processing and registration processing of mask target area information, user data collection processing, and mask processing.
First, generation processing and registration processing of mask target area information will be described.

<マスク対象領域情報生成処理ルーチン>
ユーザ端末10に、マスク対象文字列が入力されると、ユーザ端末10において、図3に示すマスク対象領域情報生成処理ルーチンが実行される。マスク対象領域情報生成処理ルーチンは、マスク対象文字列が入力される毎に実行される。
<Mask target area information generation processing routine>
When the mask target character string is input to the user terminal 10, the mask target area information generation processing routine shown in FIG. The mask target area information generation processing routine is executed every time a mask target character string is input.

まず、ステップS100において、マスク情報登録部14は、マスク対象文字列を受け付ける。   First, in step S100, the mask information registration unit 14 receives a mask target character string.

そして、ステップS102において、マスク情報登録部14は、上記ステップS100で受け付けたマスク対象文字列をメモリ(図示省略)に登録する。   In step S102, the mask information registration unit 14 registers the mask target character string received in step S100 in a memory (not shown).

ステップS104において、マスク文字列空間座標算出部16は、上記ステップS102で登録されたマスク対象文字列をマスク文字列空間上の座標値に変換する。   In step S104, the mask character string space coordinate calculation unit 16 converts the mask target character string registered in step S102 into coordinate values in the mask character string space.

ステップS106において、マスク対象領域情報生成部18は、上記ステップS104で変換された座標値を含む領域情報を、マスク対象領域情報として生成する。   In step S106, the mask target area information generation unit 18 generates area information including the coordinate values converted in step S104 as mask target area information.

そして、ステップS108において、マスク対象領域情報送信部20は、上記ステップS106で生成されたマスク対象領域情報をサーバ30へ送信して、マスク対象領域情報生成処理ルーチンを終了する。   In step S108, the mask target area information transmission unit 20 transmits the mask target area information generated in step S106 to the server 30 and ends the mask target area information generation processing routine.

<マスク対象領域情報登録処理ルーチン>
ユーザ端末10からマスク対象領域情報が送信され、サーバ30がマスク対象領域情報を受信すると、サーバ30において、図4に示すマスク対象領域情報登録処理ルーチンが実行される。マスク対象領域情報登録処理ルーチンは、マスク対象領域情報が受信される毎に実行される。
<Mask target area information registration processing routine>
When the mask target area information is transmitted from the user terminal 10 and the server 30 receives the mask target area information, the mask target area information registration processing routine shown in FIG. The mask target area information registration processing routine is executed every time mask target area information is received.

ステップS200において、マスク対象領域情報受信部34は、ユーザ端末10から送信されたマスク対象領域情報を受信する。   In step S <b> 200, the mask target area information receiving unit 34 receives the mask target area information transmitted from the user terminal 10.

ステップS202において、マスク対象領域情報登録部36は、上記ステップS200で受信されたマスク対象領域情報を、マスク対象領域情報データベース38に登録して、マスク対象領域情報登録処理ルーチンを終了する。   In step S202, the mask target region information registration unit 36 registers the mask target region information received in step S200 in the mask target region information database 38, and ends the mask target region information registration processing routine.

次に、ユーザデータの収集処理及びマスク処理について説明する。   Next, user data collection processing and mask processing will be described.

<ユーザデータ収集処理ルーチン>
ユーザが、ユーザ端末10を用いて例えばWeb閲覧行動を行っているときに、ユーザ端末10において、図5に示すユーザデータ収集処理ルーチンが実行される。
<User data collection processing routine>
When the user is performing, for example, Web browsing behavior using the user terminal 10, the user data collection processing routine shown in FIG.

ステップS300において、ユーザデータ収集部24は、ユーザのWebページの閲覧履歴情報などを、ユーザに関するユーザデータとして収集する。   In step S300, the user data collection unit 24 collects browsing history information of the user's Web page as user data related to the user.

ステップS302において、ユーザデータ送信部26は、上記ステップS300で収集されたユーザデータを、サーバ30へ送信する。   In step S <b> 302, the user data transmission unit 26 transmits the user data collected in step S <b> 300 to the server 30.

<マスク処理ルーチン>
ユーザ端末10からユーザデータが送信され、サーバ30がユーザデータを受信すると、サーバ30において、図6に示すマスク処理ルーチンが実行される。マスク処理ルーチンは、ユーザデータが受信される毎に実行される。
<Mask processing routine>
When user data is transmitted from the user terminal 10 and the server 30 receives the user data, the server 30 executes a mask processing routine shown in FIG. The mask processing routine is executed every time user data is received.

ステップS400において、ユーザデータ受信部42は、ユーザ端末10から送信されたユーザデータを受信する。   In step S <b> 400, the user data receiving unit 42 receives user data transmitted from the user terminal 10.

ステップS402において、マスク処理部44は、上記ステップS400で受信したユーザデータに含まれる文字列の各々を、マスク文字列空間上の座標値に変換する。   In step S402, the mask processing unit 44 converts each character string included in the user data received in step S400 to a coordinate value in the mask character string space.

ステップS404において、マスク処理部44は、マスク対象領域情報データベース38に記憶されたマスク対象領域情報を参照する。   In step S <b> 404, the mask processing unit 44 refers to the mask target area information stored in the mask target area information database 38.

ステップS406において、マスク処理部44は、上記ステップS400で受信したユーザデータに含まれる文字列の各々のうち、対象の文字列を選択する。   In step S406, the mask processing unit 44 selects a target character string from each of the character strings included in the user data received in step S400.

ステップS408において、マスク処理部44は、上記ステップS406で選択された対象の文字列についての上記ステップS402で得られた座標値が、上記ステップS404で参照したマスク対象領域情報に含まれるか否かを判定する。座標値が上記ステップS404で参照したマスク対象領域情報に含まれる場合、ステップS410へ進む。一方、座標値が上記ステップS404で参照したマスク対象領域情報に含まれない場合、ステップS412へ進む。   In step S408, the mask processing unit 44 determines whether or not the coordinate value obtained in step S402 for the target character string selected in step S406 is included in the mask target area information referenced in step S404. Determine. If the coordinate value is included in the mask target area information referenced in step S404, the process proceeds to step S410. On the other hand, if the coordinate value is not included in the mask target area information referenced in step S404, the process proceeds to step S412.

ステップS410において、マスク処理部44は、上記ステップS406で選択した対象の文字列に対してマスク処理を行う。   In step S410, the mask processing unit 44 performs mask processing on the target character string selected in step S406.

ステップS412において、上記ステップS400で受信したユーザデータに含まれる全ての文字列について、上記ステップS406〜S410の処理を実行したか否かを判定する。上記ステップS406〜S410の処理を実行していない文字列が存在する場合には、上記ステップS406へ戻り、当該文字列を対象の文字列として選択する。一方、上記ステップS400で受信したユーザデータに含まれる全ての文字列について、上記ステップS406〜S410の処理を実行した場合には、マスク処理ルーチンを終了する。   In step S412, it is determined whether or not the processing in steps S406 to S410 has been executed for all character strings included in the user data received in step S400. If there is a character string that has not been subjected to the processing in steps S406 to S410, the process returns to step S406, and the character string is selected as a target character string. On the other hand, when the processes in steps S406 to S410 have been executed for all the character strings included in the user data received in step S400, the mask processing routine is terminated.

以上説明したように、本発明の第1の実施の形態に係るマスク処理システム100によれば、ユーザ端末において、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値を含む領域情報を、マスク対象領域情報として生成し、生成されたマスク対象領域情報をサーバへ送信し、サーバにおいて、ユーザ端末から送信されたマスク対象領域情報を記憶し、マスク対象領域情報に基づいて、受信したユーザデータに含まれる文字列のマスク処理を行うことにより、マスク対象の情報を適切にマスク処理することができる。   As described above, according to the mask processing system 100 according to the first embodiment of the present invention, in the user terminal, the mask target character string related to the user is converted into the coordinate value in the mask character string space, and the coordinate The area information including the value is generated as mask target area information, the generated mask target area information is transmitted to the server, the server stores the mask target area information transmitted from the user terminal, and the mask target area information is stored in the mask target area information. Based on this, by masking the character string included in the received user data, it is possible to appropriately mask the information to be masked.

また、サーバ上には、ユーザ自身の個人情報文字列ではなく、マスク対象領域情報が保存されマスク処理に利用されることで、ユーザ自身の個人情報を容易に特定しづらく、より安全な状態でサーバ上でのマスク処理が可能となる。   On the server, not the user's own personal information character string but the mask target area information is stored and used for the masking process, so that it is difficult to specify the user's own personal information easily and in a safer state. Mask processing on the server is possible.

[第2の実施の形態]
次に、図7を参照して、本発明の第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to FIG. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

第2の実施の形態では、マスク対象領域情報に含まれるマスク対象文字列候補を選定し、受信したユーザデータに含まれる文字列が、マスク対象文字列候補と一致する場合に、ユーザデータに含まれる文字列のマスク処理を行う点が、第1の実施の形態と異なっている。   In the second embodiment, a mask target character string candidate included in the mask target region information is selected, and the character string included in the received user data is included in the user data when it matches the mask target character string candidate. This is different from the first embodiment in that a character string mask process is performed.

上記第1の実施の形態では、マスク対象領域情報をマスク対象領域情報データベース38に保存するとしたが、マスク対象領域に含まれる文字列の候補が限定的であれば、マスク対象領域の代わりに、当該領域に含まれるマスク対象文字列の候補文字列をデータベースに保管しても良い。第2の実施の形態では、サーバにおいて、マスク対象領域情報を受信した後、マスク対象候補とする文字列を選定する場合を例に説明する。   In the first embodiment, the mask target area information is stored in the mask target area information database 38. However, if there are limited character string candidates included in the mask target area, instead of the mask target area, The candidate character strings of mask target character strings included in the area may be stored in the database. In the second embodiment, an example will be described in which a server selects a character string as a mask target candidate after receiving mask target area information.

<システム構成>
図7に示すように、本発明の第2の実施の形態に係るマスク処理システム200は、ユーザ端末10と、サーバ230とを備える。ユーザ端末10とサーバ230とは、インターネットなどのネットワーク11を介して接続されている。
<System configuration>
As shown in FIG. 7, the mask processing system 200 according to the second embodiment of the present invention includes a user terminal 10 and a server 230. The user terminal 10 and the server 230 are connected via a network 11 such as the Internet.

[サーバ230]
サーバ230は、マスク対象領域データ取得部232と、ユーザデータ取得部240とを備えている。サーバ230は、ユーザ端末10から送信されたマスク対象領域情報に基づいて、ユーザ端末10から送信されたユーザデータに含まれる文字列のマスク処理を行う。
[Server 230]
The server 230 includes a mask target area data acquisition unit 232 and a user data acquisition unit 240. The server 230 performs a mask process on the character string included in the user data transmitted from the user terminal 10 based on the mask target area information transmitted from the user terminal 10.

マスク対象領域データ取得部232は、マスク対象領域情報受信部34と、辞書データベース233と、マスク対象文字列候補選定部234と、マスク対象文字列候補登録部236と、マスク対象領域情報データベース238とを備えている。   The mask target region data acquisition unit 232 includes a mask target region information reception unit 34, a dictionary database 233, a mask target character string candidate selection unit 234, a mask target character string candidate registration unit 236, and a mask target region information database 238. It has.

辞書データベース233には、複数の候補文字列と当該候補文字列について予め変換されたマスク文字列空間上の座標値との組み合わせの各々を表す辞書データが記憶されている。   The dictionary database 233 stores dictionary data representing each combination of a plurality of candidate character strings and coordinate values in the mask character string space that have been converted in advance for the candidate character strings.

図8に、辞書データベース233を生成する際のイメージ図を示す。以下では、候補文字列が、事前に想定される場合を例に説明する。なお、図8に示す例では、苗字を想定するが、苗字に特定しない文字列の場合は、マスク対象文字列の1文字ずつを、マスク文字列空間上の座標値に変換したものを用いても良い。   FIG. 8 shows an image diagram when the dictionary database 233 is generated. Hereinafter, a case where a candidate character string is assumed in advance will be described as an example. In the example shown in FIG. 8, a last name is assumed. However, in the case of a character string that is not specified as a last name, one character of each mask target character string is converted into a coordinate value in the mask character string space. Also good.

例えば、ユーザ端末10から氏名(姓・名)が送信されることを想定する場合、複数の苗字が格納された苗字辞書、又は複数の人名が格納された人名辞書を事前に用いて、苗字辞書又は人名辞書に含まれる文字列の各々を、マスク文字列空間の座標値に変換しておき、候補文字列と当該候補文字列の座標値との組み合わせの各々を辞書データとして辞書データベース233に格納しておく。   For example, when it is assumed that a full name (first name and last name) is transmitted from the user terminal 10, a last name dictionary in which a plurality of last names are stored or a name dictionary in which a plurality of names are stored is used in advance. Alternatively, each character string included in the personal name dictionary is converted into a coordinate value in the mask character string space, and each combination of the candidate character string and the coordinate value of the candidate character string is stored in the dictionary database 233 as dictionary data. Keep it.

なお、辞書データベースに事前に格納することができる候補文字列としては、ユーザ募集などの際に、氏名、メールアドレス情報などを収集している場合、これらを元に辞書データベースを生成することが可能である。また、電話番号、カード番号についても、入力パターンが限定されるので、事前に辞書データを作成することが可能である。   In addition, as a candidate character string that can be stored in the dictionary database in advance, if you collect name, e-mail address information, etc. at the time of user recruitment, it is possible to generate a dictionary database based on these It is. Further, since the input pattern is limited for telephone numbers and card numbers, dictionary data can be created in advance.

また、辞書データベースに事前に格納することが難しい候補文字列としては、自由記述による文字列などが挙げられる。この場合には、マスク対象文字列に含まれる各文字について、1文字ずつ特定の文字コードに変換し、変換された文字コードをマスク文字列空間上の座標値に変換しても良い。   In addition, examples of candidate character strings that are difficult to store in the dictionary database in advance include character strings by free description. In this case, each character included in the mask target character string may be converted character by character into a specific character code, and the converted character code may be converted into a coordinate value in the mask character string space.

例えば、文字コードをマスク文字列空間に変換した場合の座標値を、事前に計算しておく。そして、ユーザ端末10上で、文字コードに基づいて、マスク対象文字列に含まれる各文字について、1文字ずつマスク文字列空間上の座標値に変換し、マスク対象領域情報を生成する。ユーザ端末10は、生成したマスク対象領域情報をサーバ230へ送信し、サーバ230では、受信したマスク対象領域情報に基づいて、該当領域内に含まれるマスク対象文字列候補を選択する。   For example, the coordinate value when the character code is converted into the mask character string space is calculated in advance. Then, on the user terminal 10, based on the character code, each character included in the mask target character string is converted into a coordinate value in the mask character string space one by one to generate mask target region information. The user terminal 10 transmits the generated mask target area information to the server 230, and the server 230 selects a mask target character string candidate included in the corresponding area based on the received mask target area information.

マスク対象文字列候補選定部234は、マスク対象領域情報受信部34によって受信したマスク対象領域情報に含まれるマスク対象文字列候補を選定する。具体的には、マスク対象文字列候補選定部234は、辞書データベース233に記憶された辞書データから、マスク対象領域情報に含まれる座標値を有する候補文字列をマスク対象文字列候補として選定する。   The mask target character string candidate selecting unit 234 selects mask target character string candidates included in the mask target region information received by the mask target region information receiving unit 34. Specifically, the mask target character string candidate selection unit 234 selects, from the dictionary data stored in the dictionary database 233, candidate character strings having coordinate values included in the mask target area information as mask target character string candidates.

図9に、マスク対象文字列候補選定部234の処理のイメージ図を示す。図9に示すように、マスク対象文字列候補選定部234は、マスク対象領域情報に含まれる座標値を有する候補文字列をマスク対象文字列候補として選定する。   FIG. 9 shows an image diagram of processing of the mask target character string candidate selection unit 234. As illustrated in FIG. 9, the mask target character string candidate selection unit 234 selects a candidate character string having a coordinate value included in the mask target region information as a mask target character string candidate.

マスク対象文字列候補登録部236は、マスク対象文字列候補選定部234によって選定されたマスク対象文字列候補を、マスク対象領域情報データベース238に登録する。   The mask target character string candidate registration unit 236 registers the mask target character string candidate selected by the mask target character string candidate selection unit 234 in the mask target region information database 238.

マスク対象領域情報データベース238には、マスク対象文字列候補選定部234によって選定されたマスク対象文字列候補が記憶される。マスク対象領域情報データベース238では、対象ユーザが識別できるようにマスク対象文字列候補が記憶される。   In the mask target area information database 238, mask target character string candidates selected by the mask target character string candidate selection unit 234 are stored. In the mask target area information database 238, mask target character string candidates are stored so that the target user can be identified.

ユーザデータ取得部240は、ユーザデータ受信部42と、マスク処理部244と、マスク処理後ユーザデータ蓄積部46と、マスク済みユーザデータデータベース48とを備えている。   The user data acquisition unit 240 includes a user data reception unit 42, a mask processing unit 244, a post-mask processing user data storage unit 46, and a masked user data database 48.

マスク処理部244は、ユーザデータ受信部42により受信したユーザデータに含まれる文字列が、マスク対象領域情報データベース238に記憶されたマスク対象文字列候補と一致する場合に、ユーザデータに含まれる当該文字列のマスク処理を行う。   When the character string included in the user data received by the user data receiving unit 42 matches the mask target character string candidate stored in the mask target region information database 238, the mask processing unit 244 Performs mask processing for character strings.

図10に、第2の実施の形態に係るマスク処理システム200の動作の概念図を示す。   FIG. 10 shows a conceptual diagram of the operation of the mask processing system 200 according to the second embodiment.

ユーザ端末10では、図10(A)に示すように、マスク対象文字列をマスク文字列空間上の座標値に変換する。このとき、変換の方法としては、例えば、ハッシュ関数などを用いる。そして、図10(B)に示すように、変換された座標を含む領域をマスク対象領域情報とする。このとき、当該領域は、領域中に変換された座標を含むものとする。また、領域中には、変換された座標以外の座標を含むことが可能なことが望ましい。
そしてユーザ端末10は、サーバ230へマスク対象領域情報を送信する。
In the user terminal 10, as shown in FIG. 10A, the mask target character string is converted into a coordinate value in the mask character string space. At this time, as a conversion method, for example, a hash function is used. Then, as shown in FIG. 10B, an area including the converted coordinates is set as mask target area information. At this time, the area includes coordinates converted into the area. In addition, it is desirable that the area can include coordinates other than the converted coordinates.
Then, the user terminal 10 transmits mask target area information to the server 230.

サーバ230では、図10(C)に示すように、ユーザ端末10から送信されたマスク対象領域情報に含まれる、マスク対象文字列候補を選定する。そして、図10(D)に示すように、選定されたマスク対象文字列候補をもとに、該当する文字列がユーザデータ中に存在する場合にマスク処理を行う。   In the server 230, as shown in FIG. 10C, mask target character string candidates included in the mask target area information transmitted from the user terminal 10 are selected. Then, as shown in FIG. 10D, based on the selected mask target character string candidate, mask processing is performed when the corresponding character string exists in the user data.

<マスク処理システムの作用>
マスク処理システム200は、マスク対象領域情報の生成処理及び登録処理と、ユーザデータの収集処理及びマスク処理とを実行する。
まず、マスク対象領域情報の生成処理及び登録処理について説明する。
<Operation of mask processing system>
The mask processing system 200 executes mask target region information generation processing and registration processing, user data collection processing, and mask processing.
First, generation processing and registration processing of mask target area information will be described.

<マスク対象領域情報生成処理ルーチン>
ユーザ端末10に、マスク対象文字列が入力されると、ユーザ端末10において、上記図3に示すマスク対象領域情報生成処理ルーチンが実行される。マスク対象領域情報生成処理ルーチンは、マスク対象文字列が入力される毎に実行される。
<Mask target area information generation processing routine>
When a mask target character string is input to the user terminal 10, the mask target area information generation processing routine shown in FIG. The mask target area information generation processing routine is executed every time a mask target character string is input.

<マスク対象領域情報登録処理ルーチン>
サーバ230へマスク対象領域情報が送信され、サーバ230がマスク対象領域情報を受信すると、サーバ230において、図11に示すマスク対象領域情報登録処理ルーチンが実行される。マスク対象領域情報登録処理ルーチンは、マスク対象領域情報が受信される毎に実行される。
<Mask target area information registration processing routine>
When the mask target area information is transmitted to the server 230 and the server 230 receives the mask target area information, the server 230 executes a mask target area information registration process routine shown in FIG. The mask target area information registration processing routine is executed every time mask target area information is received.

ステップS200において、マスク対象領域情報受信部34は、ユーザ端末10から送信されたマスク対象領域情報を受信する。   In step S <b> 200, the mask target area information receiving unit 34 receives the mask target area information transmitted from the user terminal 10.

ステップS500において、マスク対象文字列候補選定部234は、辞書データベース233に記憶された辞書データから、上記ステップS200で受信したマスク対象領域情報に含まれるマスク対象文字列候補を選定する。   In step S500, the mask target character string candidate selection unit 234 selects a mask target character string candidate included in the mask target area information received in step S200 from the dictionary data stored in the dictionary database 233.

ステップS502において、マスク対象文字列候補登録部236は、上記ステップS400で選定されたマスク対象文字列候補を、マスク対象領域情報データベース238に登録して、マスク対象領域情報登録処理ルーチンを終了する。   In step S502, the mask target character string candidate registration unit 236 registers the mask target character string candidate selected in step S400 in the mask target region information database 238, and ends the mask target region information registration processing routine.

次に、ユーザデータの収集処理及びマスク処理について説明する。   Next, user data collection processing and mask processing will be described.

<ユーザデータ収集処理ルーチン>
ユーザが、ユーザ端末10を用いて例えばWeb閲覧行動を行っているときに、ユーザ端末10において、上記図5に示すユーザデータ収集処理ルーチンが実行される。
<User data collection processing routine>
When the user is performing, for example, Web browsing behavior using the user terminal 10, the user data collection processing routine shown in FIG.

<マスク処理ルーチン>
サーバ230へユーザデータが送信され、サーバ230がユーザデータを受信すると、サーバ230において、図12に示すマスク処理ルーチンが実行される。マスク処理ルーチンは、ユーザデータが受信される毎に実行される。
<Mask processing routine>
When user data is transmitted to the server 230 and the server 230 receives the user data, the server 230 executes a mask processing routine shown in FIG. The mask processing routine is executed every time user data is received.

ステップS400において、ユーザデータ受信部42は、ユーザ端末10から送信されたユーザデータを受信する。   In step S <b> 400, the user data receiving unit 42 receives user data transmitted from the user terminal 10.

ステップS604において、マスク処理部244は、マスク対象領域情報データベース238に記憶されたマスク対象文字列候補を参照する。   In step S604, the mask processing unit 244 refers to the mask target character string candidates stored in the mask target region information database 238.

ステップS406において、マスク処理部244は、上記ステップS400で受信したユーザデータに含まれる文字列の各々のうち、対象の文字列を選択する。   In step S406, the mask processing unit 244 selects a target character string from each of the character strings included in the user data received in step S400.

ステップS608において、マスク処理部244は、上記ステップS406で選択した対象の文字列が、上記ステップS604で参照したマスク対象文字列候補と一致するか否かを判定する。対象の文字列が上記ステップS604で参照したマスク対象文字列候補と一致する場合、ステップS610へ進む。一方、対象の文字列が上記ステップS604で参照したマスク対象文字列候補と一致しない場合、ステップS412へ進む。   In step S608, the mask processing unit 244 determines whether the target character string selected in step S406 matches the mask target character string candidate referenced in step S604. If the target character string matches the mask target character string candidate referenced in step S604, the process advances to step S610. On the other hand, if the target character string does not match the mask target character string candidate referenced in step S604, the process advances to step S412.

ステップS610において、マスク処理部244は、上記ステップS406で選択した対象の文字列に対してマスク処理を行う。   In step S610, the mask processing unit 244 performs mask processing on the target character string selected in step S406.

ステップS412において、上記ステップS400で受信したユーザデータに含まれる全ての文字列について、上記ステップS406〜S610の処理を実行したか否かを判定する。上記ステップS406〜S610の処理を実行していない文字列が存在する場合には、上記ステップS406へ戻り、当該文字列を対象の文字列として選択する。一方、上記ステップS400で受信したユーザデータに含まれる全ての文字列について、上記ステップS406〜S610の処理を実行した場合には、マスク処理ルーチンを終了する。   In step S412, it is determined whether or not the processes in steps S406 to S610 have been executed for all character strings included in the user data received in step S400. If there is a character string for which the processes in steps S406 to S610 are not performed, the process returns to step S406, and the character string is selected as a target character string. On the other hand, when the processes in steps S406 to S610 have been executed for all the character strings included in the user data received in step S400, the mask processing routine is terminated.

なお、第2の実施の形態に係るマスク処理システム200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   In addition, about the other structure and effect | action of the mask processing system 200 which concern on 2nd Embodiment, since it is the same as that of 1st Embodiment, description is abbreviate | omitted.

以上説明したように、本発明の第2の実施の形態に係るマスク処理システム200によれば、ユーザ端末において、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値を含む領域情報を、マスク対象領域情報として生成し、生成されたマスク対象領域情報をサーバへ送信し、サーバにおいて、ユーザ端末から送信されたマスク対象領域情報に含まれるマスク対象文字列候補を選定し、マスク対象文字列候補に基づいて、受信したユーザデータに含まれる文字列のマスク処理を行うことにより、マスク対象の情報を適切にマスク処理することができる。   As described above, according to the mask processing system 200 according to the second embodiment of the present invention, in the user terminal, the mask target character string related to the user is converted into the coordinate value in the mask character string space, and the coordinate Region information including a value is generated as mask target region information, the generated mask target region information is transmitted to the server, and the mask target character string candidate included in the mask target region information transmitted from the user terminal is determined in the server. By selecting and masking the character string included in the received user data based on the mask target character string candidate, the mask target information can be appropriately masked.

なお、上記第2の実施の形態において、マスク対象文字列が辞書データベース233に記憶されていない場合には、辞書データベース233を更新するようにしてもよい。   In the second embodiment, when the mask target character string is not stored in the dictionary database 233, the dictionary database 233 may be updated.

例えば、サーバ230は、辞書データベース233に記憶されている辞書データを、ユーザ端末10へ送信し、ユーザ端末10は辞書データを受信する。そして、ユーザ端末10は、マスク情報登録部14によって登録されたマスク対象文字列が、受信した辞書データに含まれるか否かを判定する。マスク対象文字列が辞書データに含まれない場合には、当該マスク対象文字列の座標値と、当該マスク対象文字列と、周辺文字列と、当該周辺文字列の座標値とを組み合わせてサーバ230に送信する。なお、辞書データに存在していなかったマスク対象文字列及び当該マスク対象文字列の座標値だけをサーバ230に送信しても良いが、さらに、周辺文字列と当該周辺文字列の座標値とを合わせて送信することで、サーバ230に送信されたデータからユーザのマスクしたい文字列であるマスク対象文字列を選択することが難しくなり、ユーザ自身の個人情報が容易に判明しなくなる。
サーバ230側では、ユーザ端末10から送信されたマスク対象文字列と、マスク対象文字列の座標値と、周辺文字列と、周辺文字列の座標値とを、辞書データベース233へ追加する。
For example, the server 230 transmits the dictionary data stored in the dictionary database 233 to the user terminal 10, and the user terminal 10 receives the dictionary data. Then, the user terminal 10 determines whether or not the mask target character string registered by the mask information registration unit 14 is included in the received dictionary data. When the mask target character string is not included in the dictionary data, the server 230 combines the coordinate value of the mask target character string, the mask target character string, the peripheral character string, and the coordinate value of the peripheral character string. Send to. Note that only the mask target character string that did not exist in the dictionary data and the coordinate value of the mask target character string may be transmitted to the server 230. Further, the peripheral character string and the coordinate value of the peripheral character string are By transmitting together, it becomes difficult to select the mask target character string that is the character string that the user wants to mask from the data transmitted to the server 230, and the personal information of the user cannot be easily identified.
On the server 230 side, the mask target character string, the coordinate value of the mask target character string, the peripheral character string, and the coordinate value of the peripheral character string transmitted from the user terminal 10 are added to the dictionary database 233.

図13に、辞書データベース233の更新処理のイメージ図を示す。例えば、図13に示すように、新たなマスク対象文字列「通研」が登録された場合には、「通研」の座標値と、マスク対象文字列「通研」と、周辺文字列「山田」「鈴木」「佐藤」と、周辺文字列「山田」「鈴木」「佐藤」の座標値とを組み合わせてサーバ230に送信する。サーバ230側では、ユーザ端末10から送信された「通研」の座標値と、「通研」と、周辺文字列「山田」「鈴木」「佐藤」と、周辺文字列「山田」「鈴木」「佐藤」の座標値とを、辞書データベース233へ追加する。なお、サーバ230側では、未登録のマスク対象文字列及び当該マスク対象文字列の座標値のみを、辞書データベース233に追加する、としても良い。   FIG. 13 shows an image diagram of the update process of the dictionary database 233. For example, as shown in FIG. 13, when a new mask target character string “Tuken” is registered, the coordinate value of “Tuken”, the mask target character string “Tuken”, and the surrounding character string “ The combination of “Yamada”, “Suzuki”, “Sato” and the coordinate values of the surrounding character strings “Yamada”, “Suzuki”, “Sato” is transmitted to the server 230. On the server 230 side, the coordinate value of “Tuken” transmitted from the user terminal 10, “Tuken”, the surrounding character strings “Yamada”, “Suzuki”, “Sato”, and the surrounding character strings “Yamada”, “Suzuki” The coordinate value of “Sato” is added to the dictionary database 233. On the server 230 side, only the unregistered mask target character string and the coordinate value of the mask target character string may be added to the dictionary database 233.

また、上記第2の実施の形態において、辞書データベース233に記憶されている辞書データに応じて、マスク対象領域のサイズを拡大・縮小し、マスク対象領域情報を生成してもよい。   In the second embodiment, the mask target area information may be generated by enlarging / reducing the size of the mask target area according to the dictionary data stored in the dictionary database 233.

例えば、ユーザ端末10がサーバ230から送信された辞書データを受信する場合について説明する。マスク対象領域のサイズに関する情報の初期値として、ある値を持たせる。その後、初期値で設定されたマスク対象領域の範囲に含まれる、辞書データのデータ数によって、マスク対象領域を拡大・縮小し、その結果をマスク対象領域情報として保存する、としても良い。   For example, a case where the user terminal 10 receives dictionary data transmitted from the server 230 will be described. A certain value is given as an initial value of information relating to the size of the mask target area. Thereafter, the mask target area may be enlarged / reduced according to the number of data of the dictionary data included in the range of the mask target area set as the initial value, and the result may be stored as mask target area information.

図14に、辞書データに応じてマスク対象領域のサイズを拡大・縮小する場合のイメージ図を示す。図14(A)に示すように、ユーザのマスク対象文字列「通研」をマスク文字列空間中の座標値に変換する。そして、図14(B)に示すように、マスク対象文字列「通研」の座標値の近傍をチェックし、初期値として持ったマスク対象領域からサイズを拡大・縮小する。具体的には、ユーザのマスク対象文字列の座標値から一定範囲に含まれる辞書データが少ない(疎な)場合には、マスク対象領域の領域サイズを拡大し、一定数を超えるようにする。また、ユーザのマスク対象文字列の座標値から一定範囲に含まれる辞書データが多数ある(密な)場合は、マスク対象領域の領域サイズを縮小し、一定数のみを含むように変換する。   FIG. 14 shows an image diagram when the size of the mask target area is enlarged / reduced according to the dictionary data. As shown in FIG. 14A, the user's mask target character string “Rieken” is converted into a coordinate value in the mask character string space. Then, as shown in FIG. 14B, the vicinity of the coordinate value of the mask target character string “Rieken” is checked, and the size is enlarged / reduced from the mask target area having the initial value. Specifically, when the dictionary data included in a certain range from the coordinate value of the user's mask target character string is small (sparse), the area size of the mask target area is enlarged so as to exceed a certain number. Also, when there are many (dense) dictionary data included in a certain range from the coordinate value of the user's mask target character string, the area size of the mask target region is reduced and converted to include only a certain number.

[第3の実施の形態]
<システム構成>
次に、図15を参照して、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Third Embodiment]
<System configuration>
Next, a third embodiment will be described with reference to FIG. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code is attached and description is abbreviate | omitted.

第3の実施の形態では、ユーザデータをプロキシサーバにて収集する点が、第1又は第2の実施の形態と異なっている。   The third embodiment is different from the first or second embodiment in that user data is collected by a proxy server.

上記第1又は第2の実施の形態では、ユーザ端末上で収集されたユーザデータをサーバに送信する場合を例に説明したが、ユーザデータをプロキシサーバにて収集することも可能である。第3の実施の形態では、ユーザデータをプロキシサーバにて収集する場合について説明する。   In the first or second embodiment, the case where user data collected on a user terminal is transmitted to a server has been described as an example. However, user data can be collected by a proxy server. In the third embodiment, a case where user data is collected by a proxy server will be described.

<システム構成>
図15に示すように、本発明の第3の実施の形態に係るマスク処理システム300は、ユーザ端末310と、プロキシサーバ321と、サーバ30とを備える。ユーザ端末310とプロキシサーバ321とサーバ30とは、インターネットなどのネットワーク11を介して接続されている。なお、ネットワーク11には、内部ネットワークと外部ネットワークとが含まれる。
<System configuration>
As shown in FIG. 15, the mask processing system 300 according to the third embodiment of the present invention includes a user terminal 310, a proxy server 321, and a server 30. The user terminal 310, the proxy server 321 and the server 30 are connected via a network 11 such as the Internet. The network 11 includes an internal network and an external network.

[ユーザ端末310]
ユーザ端末310は、マスク対象領域情報出力部12を備えている。ユーザ端末310において、例えばユーザがWeb閲覧をする際には、プロキシサーバ321を介してWebへのアクセスが行われる。
[User terminal 310]
The user terminal 310 includes a mask target area information output unit 12. In the user terminal 310, for example, when the user browses the Web, the Web is accessed via the proxy server 321.

マスク対象領域情報出力部12は、第1の実施の形態と同様に、マスク対象領域情報生成部18によって生成されたマスク対象領域情報を、プロキシサーバ321を介してサーバ30へ送信する。マスク対象領域情報出力部12は、マスク情報登録部14と、マスク文字列空間座標算出部16と、マスク対象領域情報生成部18と、マスク対象領域情報送信部20とを備えている。   The mask target area information output unit 12 transmits the mask target area information generated by the mask target area information generation unit 18 to the server 30 via the proxy server 321 as in the first embodiment. The mask target region information output unit 12 includes a mask information registration unit 14, a mask character string space coordinate calculation unit 16, a mask target region information generation unit 18, and a mask target region information transmission unit 20.

[プロキシサーバ321]
プロキシサーバ321は、ユーザデータ出力部322を備えている。プロキシサーバ321は、例えばユーザ端末がプロキシサーバ321を介してWebへのアクセスを行うときに、ユーザのWeb閲覧の操作情報をユーザデータとして収集し、収集されたユーザデータをサーバ30へ送信する。
[Proxy server 321]
The proxy server 321 includes a user data output unit 322. For example, when the user terminal accesses the Web via the proxy server 321, the proxy server 321 collects the user's Web browsing operation information as user data, and transmits the collected user data to the server 30.

ユーザデータ出力部322は、ユーザデータ収集部324と、ユーザデータ送信部326とを備えている。   The user data output unit 322 includes a user data collection unit 324 and a user data transmission unit 326.

ユーザデータ収集部324は、例えば、ユーザ端末310がプロキシサーバ321を介してWebへアクセスするときに、Webページ閲覧履歴情報などをユーザデータとして収集する。   For example, when the user terminal 310 accesses the Web via the proxy server 321, the user data collection unit 324 collects Web page browsing history information and the like as user data.

ユーザデータ送信部326は、ユーザデータ収集部324によって収集されたユーザデータを、サーバ30へ送信する。   The user data transmission unit 326 transmits the user data collected by the user data collection unit 324 to the server 30.

なお、第3の実施の形態に係るマスク処理システムの他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the mask processing system according to the third embodiment are the same as those of the first embodiment, and thus the description thereof is omitted.

以上説明したように、本発明の第3の実施の形態に係るマスク処理システム300によれば、ユーザ端末において、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値を含む領域情報を、マスク対象領域情報として生成し、生成されたマスク対象領域情報をサーバへ送信し、サーバにおいて、プロキシサーバから送信されたマスク対象領域情報に含まれるマスク対象文字列候補を選定し、マスク対象文字列候補に基づいて、受信したユーザデータに含まれる文字列のマスク処理を行うことにより、マスク対象の情報を適切にマスク処理することができる。   As described above, according to the mask processing system 300 according to the third embodiment of the present invention, in the user terminal, the mask target character string related to the user is converted into the coordinate value in the mask character string space, and the coordinate Region information including a value is generated as mask target region information, the generated mask target region information is transmitted to the server, and the mask target character string candidate included in the mask target region information transmitted from the proxy server is determined at the server. By selecting and masking the character string included in the received user data based on the mask target character string candidate, the mask target information can be appropriately masked.

なお、本発明の第3の実施の形態を、上記第2の実施の形態に適用してもよい。   Note that the third embodiment of the present invention may be applied to the second embodiment.

[第4の実施の形態]
<システム構成>
次に、第4の実施の形態について説明する。なお、第4の実施の形態に係るマスク処理システムの構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Fourth Embodiment]
<System configuration>
Next, a fourth embodiment will be described. Since the configuration of the mask processing system according to the fourth embodiment is the same as that of the first embodiment, the same reference numerals are given and description thereof is omitted.

第4の実施の形態では、マスク文字列空間を多次元ベクトル空間として定義する点が、第1〜第3の実施の形態と異なっている。   The fourth embodiment is different from the first to third embodiments in that the mask character string space is defined as a multidimensional vector space.

図16に、多次元ベクトルを想定したマスク文字列空間での処理の概要を示す。   FIG. 16 shows an outline of processing in a mask character string space assuming a multidimensional vector.

図16に示すように、第4の実施の形態では、ハッシュ関数を用いてハッシュ値を求めるだけでなく、マスク対象文字列の文字列数や、当該文字列と同一の文字列が他のユーザでも指定される確率値などを用いて、多次元のベクトルとして扱う。具体的には、以下に示すように、マスク対象文字列の文字列数や、マスク対象文字列が他のユーザに関する文字列と重複する確率を表すユーザ群重複確率などを多次元ベクトルの要素の一部として扱う。   As shown in FIG. 16, in the fourth embodiment, not only the hash value is obtained by using a hash function, but also the number of character strings of the mask target character string and the same character string as the character string are determined by other users. However, it is handled as a multidimensional vector using the specified probability value. Specifically, as shown below, the number of character strings of the mask target character string, the user group duplication probability representing the probability that the mask target character string overlaps with the character strings related to other users, etc. Treat as part.

(マスク対象文字列の文字列数、ハッシュ値、ユーザ群重複確率…)→(X,Y,Z,α,β,・・・) (Number of character strings of mask target character string, hash value, user group duplication probability ...) → (X, Y, Z, α, β,...)

例えば、ユーザ群重複確率については、ユーザ群のうち、100人あたり同一のマスク対象文字列を持つユーザが存在する確率を示すとしても良い。特に、姓名については、同姓・同名の存在数に関する統計データが得られるのであれば、同姓、同名となる確率を示すとしてもよい。   For example, the user group duplication probability may indicate a probability that a user having the same mask target character string exists for every 100 people in the user group. In particular, for surnames, if statistical data regarding the same surname / the number of the same name is obtained, the probability of the same surname and the same name may be indicated.

また、例えば、以下に示すように、日本における氏名の苗字は多数存在しているが、一部の苗字が人口における大半を占めている。そこで、ユーザの苗字が重複する可能性について考慮するため、ユーザ群重複確率を用いる、としても良い。多次元ベクトルの一要素として、ユーザ群重複確率などの値を利用することで、偏りを考慮することが可能となる。   For example, as shown below, there are many surnames in Japan, but some surnames account for the majority of the population. Therefore, in order to consider the possibility that the user's last name overlaps, the user group overlap probability may be used. By using a value such as a user group overlap probability as an element of a multidimensional vector, it is possible to consider the bias.

佐藤、田中、山田… などについては、ユーザ群重複確率:高
通研… などについては、ユーザ群重複確率:低
For Sato, Tanaka, Yamada, etc., the user group overlap probability: Takatsuken ... For, etc., the user group overlap probability: Low

例えば、上記第1の実施の形態の場合、異なるマスク文字列が同一のマスク領域情報を持つ可能性がある。このとき、文字列数が2文字、3文字と異なる文字列であっても同一のマスク領域として選定される可能性があり、余計なマスキング処理を増やすことになる。そこで、文字列数を考慮することにより、文字列数が異なるものはマスク領域から除外することにより、余計なマスキング処理を減らしつつ、効率化を行うことが可能となる。   For example, in the case of the first embodiment, different mask character strings may have the same mask area information. At this time, even if the number of character strings is a character string different from two characters or three characters, there is a possibility that they are selected as the same mask region, which increases unnecessary masking processing. Therefore, by considering the number of character strings, it is possible to improve efficiency while reducing unnecessary masking processing by excluding those having a different number of character strings from the mask area.

第4の実施の形態に係るマスク処理システム100のユーザ端末10におけるマスク対象領域情報生成部18は、マスク文字列空間座標算出部16によって変換された座標値と、マスク対象文字列の文字数、及びマスク対象文字列が他のユーザに関する文字列と重複する確率を表すユーザ群重複確率とに基づいて、座標値、マスク対象文字列の文字数、及びマスク対象文字列のユーザ群重複確率を表す多次元ベクトルを、マスク対象領域情報として生成する。なお、ユーザ群重複確率については、マスク対象文字列毎に予め求められたユーザ群重複確率を用いればよい。   The mask target area information generation unit 18 in the user terminal 10 of the mask processing system 100 according to the fourth embodiment includes the coordinate value converted by the mask character string space coordinate calculation unit 16, the number of characters of the mask target character string, and Multi-dimensional that represents the coordinate value, the number of characters of the mask target character string, and the user group overlap probability of the mask target character string, based on the user group overlap probability that represents the probability that the mask target character string overlaps with the character string related to other users A vector is generated as mask target area information. In addition, what is necessary is just to use the user group duplication probability calculated | required previously for every mask object character string about a user group duplication probability.

第4の実施の形態に係るマスク処理システム100のサーバ30におけるマスク処理部44は、マスク対象領域情報データベース38に記憶されたマスク対象領域情報に基づいて、ユーザデータ受信部42によって受信されたユーザデータに含まれる文字列のマスク処理を行う。   The mask processing unit 44 in the server 30 of the mask processing system 100 according to the fourth embodiment receives the user received by the user data receiving unit 42 based on the mask target area information stored in the mask target area information database 38. Performs mask processing for character strings included in data.

具体的には、マスク処理部44は、受信したユーザデータに含まれる文字列を、マスク文字列空間上の座標値に変換する。そして、マスク処理部44は、ユーザデータ含まれる文字列の座標値、当該文字列の文字数、及び当該文字列のユーザ群重複確率を表す多次元ベクトルが、マスク対象領域情報データベース38に記憶された当該ユーザのマスク対象領域情報に含まれる場合、当該文字列のマスク処理を行う。   Specifically, the mask processing unit 44 converts a character string included in the received user data into coordinate values in the mask character string space. The mask processing unit 44 stores a coordinate value of a character string included in user data, the number of characters of the character string, and a multidimensional vector representing the user group overlap probability of the character string in the mask target region information database 38. If it is included in the mask target area information of the user, the character string is masked.

以上説明したように、本発明の第4の実施の形態に係るマスク処理システムによれば、ユーザ端末において、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、当該座標値と、マスク対象文字列の文字数、及びマスク対象文字列が他のユーザに関する文字列と重複する確率を表すユーザ群重複確率とに基づいて、マスク対象領域情報を生成し、生成されたマスク対象領域情報をサーバへ送信し、サーバにおいて、ユーザ端末から送信されたマスク対象領域情報に含まれるマスク対象文字列候補を選定し、マスク対象文字列候補に基づいて、受信したユーザデータに含まれる文字列のマスク処理を行うことにより、マスク対象の情報を適切にマスク処理することができる。   As described above, according to the mask processing system of the fourth embodiment of the present invention, the user terminal converts the mask target character string related to the user into the coordinate value on the mask character string space, and the coordinate value Based on the number of characters of the mask target character string and the user group overlap probability representing the probability that the mask target character string overlaps with the character string related to another user, and generates the mask target region information. The information is transmitted to the server, the server selects the mask target character string candidate included in the mask target area information transmitted from the user terminal, and the character string included in the received user data based on the mask target character string candidate By performing this masking process, it is possible to appropriately mask the information to be masked.

なお、本発明の第4の実施の形態を、上記第2〜第3の実施の形態に適用してもよい。上記第4の実施の形態を、上記第2の実施の形態に適用する場合、図17に示すように、予め用意された複数のマスク対象文字列候補の各々について、ハッシュ関数を用いて、マスク文字列空間上の座標値として一定ビット長のハッシュ値に変換し、当該座標値と、マスク対象文字列の文字数、及びユーザ群重複確率とに基づいて、マスク対象領域情報に含まれるマスク対象文字列候補を選定すればよい。   In addition, you may apply the 4th Embodiment of this invention to the said 2nd-3rd embodiment. When the fourth embodiment is applied to the second embodiment, as shown in FIG. 17, a mask function is used to mask each of a plurality of mask target character string candidates prepared in advance. Converted into a hash value of a certain bit length as a coordinate value in the character string space, and based on the coordinate value, the number of characters in the mask target character string, and the user group duplication probability, the mask target character included in the mask target area information A column candidate may be selected.

本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、ユーザデータとしては、Webページの閲覧情報ではなく、ユーザのPCなどの操作ログを対象としてもよい。また、ユーザデータとして、社内の電子文書などを対象とし、マスク対象文字列として機密情報に関連する文字列を対象としても良い。例えば、取引企業の社名などをマスク対象文字列として扱うとして、機密文書中のマスク対象文字列のマスク処理を行うとしても良い。   For example, the user data may be an operation log of a user's PC or the like instead of Web page browsing information. Further, the user data may be an internal electronic document or the like, and the character string related to confidential information may be the mask target character string. For example, assuming that a company name of a trading company is handled as a mask target character string, mask processing of a mask target character string in a confidential document may be performed.

また、上記実施の形態では、ハッシュ関数を用いて、マスク対象文字列をマスク文字列空間上の座標値へ変換する場合を例に説明したが、これに限定されるものではなく、他の手法によってマスク対象文字列をマスク文字列空間上の座標値へ変換してもよい。例えば、文字コードの変換による処理によって、マスク対象文字列をマスク文字列空間上の座標値へ変換してもよい。   In the above-described embodiment, the case where the mask target character string is converted into the coordinate value on the mask character string space using the hash function has been described as an example. However, the present invention is not limited to this. The mask target character string may be converted into a coordinate value in the mask character string space. For example, the mask target character string may be converted into a coordinate value in the mask character string space by processing by character code conversion.

また、上記の第4の実施の形態では、座標値、マスク対象文字列の文字数、及びマスク対象文字列のユーザ群重複確率を表す多次元ベクトルを、マスク対象領域情報として生成する場合を例に説明したが、多次元ベクトルはこれに限定されるものではない。また、座標値、マスク対象文字列の文字数、及びマスク対象文字列のユーザ群重複確率の少なくとも1つに基づいて、マスク対象領域情報を生成するようにしてもよい。   In the fourth embodiment, the case where a coordinate value, the number of characters of the mask target character string, and a multi-dimensional vector representing the user group duplication probability of the mask target character string is generated as mask target region information is taken as an example. As described above, the multidimensional vector is not limited to this. The mask target area information may be generated based on at least one of the coordinate value, the number of characters of the mask target character string, and the user group overlap probability of the mask target character string.

また、上述のユーザ端末及びサーバは、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   Moreover, although the above-mentioned user terminal and server have a computer system inside, if a computer system is using the WWW system, it shall also include a homepage provision environment (or display environment).

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10,310 ユーザ端末
11 ネットワーク
12 マスク対象領域情報出力部
14 マスク情報登録部
16 マスク文字列空間座標算出部
18 マスク対象領域情報生成部
20 マスク対象領域情報送信部
22,322 ユーザデータ出力部
24,324 ユーザデータ収集部
26,326 ユーザデータ送信部
30,230 サーバ
32,232 マスク対象領域データ取得部
34 マスク対象領域情報受信部
36 マスク対象領域情報登録部
38,238 マスク対象領域情報データベース
40,240 ユーザデータ取得部
42 ユーザデータ受信部
44,244 マスク処理部
46 マスク処理後ユーザデータ蓄積部
48 マスク済みユーザデータデータベース
100,200,300 マスク処理システム
233 辞書データベース
234 マスク対象文字列候補選定部
236 マスク対象文字列候補登録部
321 プロキシサーバ
10, 310 User terminal 11 Network 12 Mask target region information output unit 14 Mask information registration unit 16 Mask character string space coordinate calculation unit 18 Mask target region information generation unit 20 Mask target region information transmission unit 22, 322 User data output unit 24, 324 User data collection unit 26, 326 User data transmission unit 30, 230 Server 32, 232 Mask target region data acquisition unit 34 Mask target region information reception unit 36 Mask target region information registration unit 38, 238 Mask target region information database 40, 240 User data acquisition unit 42 User data reception unit 44, 244 Mask processing unit 46 User data storage unit 48 after mask processing Masked user data database 100, 200, 300 Mask processing system 233 Dictionary database 234 Mask target character string candidate Selecting unit 236 masked character string candidate registration unit 321 the proxy server

Claims (5)

ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、前記座標値を含む領域情報を、マスク対象領域情報として生成するマスク対象領域情報生成部、及び
前記マスク対象領域情報生成部によって生成された前記マスク対象領域情報をサーバへ送信するマスク対象領域情報送信部
を含むユーザ端末と、
前記ユーザ端末から送信された前記マスク対象領域情報を受信するマスク対象領域情報受信部、
前記マスク対象領域情報受信部によって受信した前記マスク対象領域情報を記憶するマスク対象領域情報データベース、
前記ユーザ端末又はプロキシサーバから送信された前記ユーザに関するユーザデータを受信するユーザデータ受信部、及び
前記受信したユーザデータに含まれる文字列を、前記マスク文字列空間上の座標値に変換し、前記変換された前記座標値が、前記マスク対象領域情報に含まれる場合、前記受信したユーザデータに含まれる文字列のマスク処理を行うマスク処理部
を含むサーバと、
を含むマスク処理システム。
A mask target area information generation unit that converts a mask target character string related to a user into coordinate values on a mask character string space, and generates area information including the coordinate values as mask target area information, and the mask target area information generation unit A user terminal including a mask target area information transmitting unit that transmits the mask target area information generated by
A mask target area information receiving unit that receives the mask target area information transmitted from the user terminal;
A mask target region information database for storing the mask target region information received by the mask target region information receiving unit;
A user data receiving unit for receiving user data related to the user transmitted from the user terminal or a proxy server; and
A character string included in the received user data is converted into a coordinate value on the mask character string space, and when the converted coordinate value is included in the mask target area information, the received user data A server including a mask processing unit that performs mask processing of the included character string;
Including mask processing system.
前記マスク対象領域情報生成部は、ハッシュ関数を用いて、ユーザに関するマスク対象文字列を、マスク文字列空間上の座標値としてハッシュ値に変換し、前記ハッシュ値の先頭の所定ビットを、前記マスク対象領域情報として生成する請求項1記載のマスク処理システム。 The mask target area information generation unit converts a mask target character string related to a user into a hash value as a coordinate value on a mask character string space using a hash function, and converts a predetermined bit at the head of the hash value to the mask The mask processing system according to claim 1 , wherein the mask processing system is generated as target area information. 前記マスク対象領域情報生成部は、ユーザに関するマスク対象文字列を、前記マスク文字列空間上の座標値に変換し、前記座標値と、前記マスク対象文字列の文字数、又は前記マスク対象文字列が他のユーザに関する文字列と重複する確率とに基づいて、前記マスク対象領域情報を生成する請求項1記載のマスク処理システム。 The mask target area information generation unit converts a mask target character string related to a user into a coordinate value on the mask character string space, and the coordinate value, the number of characters of the mask target character string, or the mask target character string based on the probability of overlapping the character string for other users, the mask processing system according to claim 1 for generating the mask target area information. ユーザ端末とサーバとを含むマスク処理システムにおけるマスク処理方法であって、
前記ユーザ端末のマスク対象領域情報生成部が、ユーザに関するマスク対象文字列をマスク文字列空間上の座標値に変換し、前記座標値を含む領域情報を、マスク対象領域情報として生成し、
前記ユーザ端末のマスク対象領域情報送信部が、前記マスク対象領域情報生成部によって生成された前記マスク対象領域情報をサーバへ送信し、
前記サーバのマスク対象領域情報受信部が、前記ユーザ端末から送信された前記マスク対象領域情報を受信し、前記受信した前記マスク対象領域情報をマスク対象領域情報データベースに記憶し、
前記ユーザ端末又はプロキシサーバのユーザデータ送信部が、前記ユーザに関するユーザデータを前記サーバへ送信し、
前記サーバのユーザデータ受信部が、前記ユーザ端末から送信されたユーザデータを受信し、
前記サーバのマスク処理部が、前記受信したユーザデータに含まれる文字列を、前記マスク文字列空間上の座標値に変換し、前記変換された前記座標値が、前記マスク対象領域情報に含まれる場合、前記受信したユーザデータに含まれる文字列のマスク処理を行う
マスク処理方法。
A mask processing method in a mask processing system including a user terminal and a server,
The mask target area information generation unit of the user terminal converts a mask target character string related to a user into a coordinate value on a mask character string space, and generates area information including the coordinate value as mask target area information,
The mask target area information transmission unit of the user terminal transmits the mask target area information generated by the mask target area information generation unit to a server,
A mask target area information receiving unit of the server receives the mask target area information transmitted from the user terminal, and stores the received mask target area information in a mask target area information database;
The user data transmission unit of the user terminal or proxy server transmits user data related to the user to the server,
A user data receiving unit of the server receives user data transmitted from the user terminal;
The mask processing unit of the server converts a character string included in the received user data into a coordinate value on the mask character string space, and the converted coordinate value is included in the mask target area information. A mask processing method for masking a character string included in the received user data.
ユーザ端末から送信された、ユーザに関するマスク対象文字列を変換したマスク文字列空間上の座標値を含むマスク対象領域情報を受信するマスク対象領域情報受信部と、
前記マスク対象領域情報受信部によって受信した前記マスク対象領域情報を記憶するマスク対象領域データベース、
前記ユーザ端末又はプロキシサーバから送信された前記ユーザに関するユーザデータを受信するユーザデータ受信部、及び
前記受信したユーザデータに含まれる文字列を、前記マスク文字列空間上の座標値に変換し、前記変換された前記座標値が、前記マスク対象領域情報に含まれる場合、前記受信したユーザデータに含まれる文字列のマスク処理を行うマスク処理部
を含むサーバ。
A mask target region information receiving unit that receives mask target region information including coordinate values on a mask character string space obtained by converting a mask target character string related to a user, transmitted from the user terminal;
A mask target region database for storing the mask target region information received by the mask target region information receiving unit;
A user data receiving unit for receiving user data related to the user transmitted from the user terminal or a proxy server; and
A character string included in the received user data is converted into a coordinate value on the mask character string space, and when the converted coordinate value is included in the mask target area information, the received user data A server that includes a mask processing unit that performs mask processing for the contained character strings.
JP2015132880A 2015-07-01 2015-07-01 Mask processing system, mask processing method, user terminal, and server Active JP6420728B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015132880A JP6420728B2 (en) 2015-07-01 2015-07-01 Mask processing system, mask processing method, user terminal, and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015132880A JP6420728B2 (en) 2015-07-01 2015-07-01 Mask processing system, mask processing method, user terminal, and server

Publications (2)

Publication Number Publication Date
JP2017016420A JP2017016420A (en) 2017-01-19
JP6420728B2 true JP6420728B2 (en) 2018-11-07

Family

ID=57830674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015132880A Active JP6420728B2 (en) 2015-07-01 2015-07-01 Mask processing system, mask processing method, user terminal, and server

Country Status (1)

Country Link
JP (1) JP6420728B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4429619B2 (en) * 2003-04-15 2010-03-10 三菱電機株式会社 Information provision device
JP5531764B2 (en) * 2010-05-10 2014-06-25 株式会社リコー Information processing system
JP5358549B2 (en) * 2010-11-26 2013-12-04 日本電信電話株式会社 Protection target information masking apparatus, protection target information masking method, and protection target information masking program
JP2012159939A (en) * 2011-01-31 2012-08-23 Sony Corp Information processor, method, program, recording medium, and information processing system
JP5420099B1 (en) * 2013-08-20 2014-02-19 株式会社野村総合研究所 Personal information detection apparatus and computer program

Also Published As

Publication number Publication date
JP2017016420A (en) 2017-01-19

Similar Documents

Publication Publication Date Title
JP4438448B2 (en) Structured document display processing device, structured document display method, structured document display program
JP4881651B2 (en) Two-dimensional code generation program, two-dimensional code generation system, and two-dimensional code generation method
CN108664582B (en) Enterprise relation query method and device, computer equipment and storage medium
CN109948122B (en) Error correction method and device for input text and electronic equipment
JP6390139B2 (en) Document search device, document search method, program, and document search system
CN111859368A (en) Weak password generation method, password detection method, device and electronic equipment
CN111008348A (en) Anti-crawler method, terminal, server and computer readable storage medium
JP2009037501A (en) Information retrieval apparatus, information retrieval method and program
CN113505318A (en) Short link generation method, device, equipment and storage medium
CN107844488B (en) Data query method and device
CN111274263A (en) Visual database change statement generation method and device and storage medium
JP5676522B2 (en) Character string conversion method and program
CN111310088B (en) Page rendering method and device
CN101231655A (en) Method and system for processing search engine results
US7599946B2 (en) Systems and methods for discovering frequently accessed subtrees
JP6420728B2 (en) Mask processing system, mask processing method, user terminal, and server
CN113761565A (en) Data desensitization method and apparatus
JP2010198223A (en) Relevance analysis system and relevance analysis method
JP4445849B2 (en) File search method, file search device, and file search program
CN113641769B (en) Data processing method and device
CN113674083A (en) Internet financial platform credit risk monitoring method, device and computer system
JP4885678B2 (en) Content creation apparatus and content creation method
JP6167029B2 (en) RECOMMENDATION INFORMATION GENERATION DEVICE AND RECOMMENDATION INFORMATION GENERATION METHOD
CN113849538A (en) Intelligent extraction method and system based on fuzzy search multiple options
JP6782219B2 (en) Data utilization support device, data utilization support system, and data utilization support method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181012

R150 Certificate of patent or registration of utility model

Ref document number: 6420728

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150