JP2012182737A - Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program - Google Patents

Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program Download PDF

Info

Publication number
JP2012182737A
JP2012182737A JP2011045399A JP2011045399A JP2012182737A JP 2012182737 A JP2012182737 A JP 2012182737A JP 2011045399 A JP2011045399 A JP 2011045399A JP 2011045399 A JP2011045399 A JP 2011045399A JP 2012182737 A JP2012182737 A JP 2012182737A
Authority
JP
Japan
Prior art keywords
file
unit
image data
target file
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011045399A
Other languages
Japanese (ja)
Inventor
Masami Sakaguchi
雅美 坂口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011045399A priority Critical patent/JP2012182737A/en
Publication of JP2012182737A publication Critical patent/JP2012182737A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To strongly prevent leakage of data including secret information without effort of a user and a manager of a document file.SOLUTION: A secret data leakage preventing system includes: image converting means converting file data into image data in a prescribed unit including at least one separation unit which is previously decided as an extraction unit of a feature amount; feature amount extracting means extracting the feature amount from the image data for every prescribed unit; protection object file information storing means storing protection object file information including the feature amount extracted from each image data for every prescribed unit as information of the protection object file; and determining means extracting the feature amount of each image data for every prescribed unit from the file data of an output object file, comparing the extracted feature amount and the feature amount of each image data for every prescribed unit in the stored protection object file and determining identity of the image to determine permission of an output request.

Description

本発明は、秘密資料の流出を防止するための秘密資料流出防止システム、判定装置、秘密資料流出防止方法および秘密資料流出防止プログラムに関する。   The present invention relates to a secret material outflow prevention system, a determination device, a secret material outflow prevention method, and a secret material outflow prevention program for preventing outflow of secret material.

故意または不注意による秘密情報の外部漏洩や盗用が後を絶たず、その大きな原因の一つとして電子メールに添付された電子データのやりとりが挙げられる。秘密情報の漏洩を防止する方法として、電子ファイルの利用に制限を掛けたり、予め指定したキーワードを含む添付ファイルを検知することにより防止する方法がある。   One of the major causes for the outside leakage or theft of confidential information due to deliberate or carelessness is the exchange of electronic data attached to an e-mail. As a method of preventing leakage of confidential information, there are methods of restricting the use of electronic files or detecting an attached file containing a keyword specified in advance.

しかし、内容をイメージとして出力可能な電子ファイルは、その一部をコピーして再利用されてしまうと、データの流通を防ぐことは難しい。例えば、PowerPoint(登録商標)やPDFファイルの場合、その一部を画像として他の文書ファイルにコピーされてしまうと、電子ファイル単位の利用制限やキーワード検索では、その漏洩を検知することは難しい。   However, if an electronic file whose contents can be output as an image is copied and reused, it is difficult to prevent data distribution. For example, in the case of a PowerPoint (registered trademark) or a PDF file, if a part of the file is copied to another document file as an image, it is difficult to detect the leakage in the use restriction or keyword search in units of electronic files.

機密文書の漏洩防止技術に関して、例えば、特許文献1には、機密文書とされる印刷文書や電子ファイルのイメージ画像、イメージ画像から抽出される特徴量を登録しておき、自装置における画像の入出力処理の開始を検知すると、処理対象画像のイメージ画像等を機密文書管理装置に送信して、処理対象画像が登録した機密文書の画像と一致するか否かを判定する文書処理システムが記載されている。   Regarding the confidential document leakage prevention technology, for example, Patent Document 1 registers a print document that is a confidential document, an image image of an electronic file, and a feature amount extracted from the image image, and inputs an image in its own device. A document processing system is described that, upon detecting the start of output processing, transmits an image of a processing target image to a confidential document management apparatus and determines whether or not the processing target image matches a registered confidential document image. ing.

特開2008−042636号公報JP 2008-042636 A

故意または不注意による秘密情報の外部漏洩や盗用が後を絶たず、その大きな原因のひとつとして電子メールに添付された電子データのやりとりが挙げられる。漏洩を防止する方法として、電子ファイルの利用に制限を掛けたり、あらかじめ指定したキーワードを含む添付ファイルを検知したりする方法があるが、PowerPointやPDFファイルの一部を画像としてコピーして再利用されてしまうとデータの流通を防ぐことは難しい。   One of the major causes for the outside leakage or theft of confidential information intentionally or carelessly is the exchange of electronic data attached to an e-mail. As a method of preventing leakage, there are methods of restricting the use of electronic files and detecting attached files containing keywords specified in advance. However, a part of a PowerPoint or PDF file can be copied and reused. Once done, it is difficult to prevent data distribution.

なお、特許文献1には、機密文書管理装置が、文書処理装置から受信したイメージ画像やイメージ画像から抽出した特徴量およびテキスト情報にて画像インデックスを検索し、処理対象画像と完全に一致するだけでなく、処理対象画像と部分的に一致する所定のしきい値を超える類似度の登録データがある場合にも当該処理対象画像を機密文書と判定する旨が記載されている。しかし、特許文献1に部分一致の判定手法について具体的な記載はなく、例えば、処理対象ファイルの一部と、機密文書として登録された文書ファイルの一部とが一致していた場合にそれを検出できるかどうかは定かではない。あくまで機密文書として登録された印刷文書や文書ファイル単位に類似度を算出して判定を行う場合、一致するか否かがファイル全体に占める類似部分の割合に応じて異なるといったことも考えられる。   In Patent Document 1, the confidential document management device searches the image index from the image image received from the document processing device, the feature amount extracted from the image image, and the text information, and only completely matches the processing target image. In addition, it is described that even when there is registered data having a degree of similarity exceeding a predetermined threshold that partially matches the processing target image, the processing target image is determined to be a confidential document. However, there is no specific description of the partial match determination method in Patent Document 1, for example, when a part of a processing target file matches a part of a document file registered as a confidential document. Whether it can be detected is not certain. When the determination is made by calculating the similarity for each print document or document file registered as a confidential document, it may be considered that whether or not they match depends on the proportion of similar parts in the entire file.

また、特許文献1に記載されている文書処理システムでは、自装置が画像の入出力処理の開始を検知した場合にその処理対象画像のイメージ画像等を機密文書管理装置に送信する方法をとっているため、利用者が使用する端末全てに画像の入出力の監視用プログラム等をインストールしなければ、秘密情報を含んだ画像データの流出を防ぐことができないといった問題もある。   In the document processing system described in Patent Document 1, when the own apparatus detects the start of image input / output processing, a method of transmitting an image of the processing target image to the confidential document management apparatus is taken. For this reason, there is a problem in that leakage of image data including confidential information cannot be prevented unless an image input / output monitoring program or the like is installed in all terminals used by the user.

そこで、本発明は、文書ファイルの利用者や管理者の手間を掛けずに、秘密情報を含んだデータの流出をより堅固に防ぐことが可能な秘密資料の流出を防止するための秘密資料流出防止システム、判定装置、秘密資料流出防止方法および秘密資料流出防止プログラムを提供することを目的とする。   Accordingly, the present invention provides a secret material outflow for preventing the outflow of secret material that can more securely prevent the outflow of data including confidential information without the effort of the user or administrator of the document file. It is an object of the present invention to provide a prevention system, a determination device, a secret material outflow prevention method, and a secret material outflow prevention program.

本発明による秘密資料流出防止システムは、秘密情報を含むとされるファイルである保護対象ファイルのファイルデータを入力する保護対象ファイルデータ入力手段と、入力されたファイルデータを、特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データに変換する画像変換手段と、画像変換手段によって得られる所定単位別の画像データ各々から、特徴量を抽出する特徴量抽出手段と、保護対象ファイルデータ入力手段によって入力された保護対象ファイルの情報として、当該保護対象ファイルの所定単位別の各画像データから抽出された特徴量を含む保護対象ファイル情報を記憶する保護対象ファイル情報記憶手段と、外部機器への出力要求がされたファイルである出力対象ファイルを入力する出力対象ファイルデータ入力手段と、出力対象ファイルデータ入力手段により入力された出力対象ファイルのファイルデータから当該出力対象ファイルの所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、保護対象ファイル情報記憶手段に記憶されている保護対象ファイルの所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの所定単位別の各画像データと、保護対象ファイルの所定単位別の各画像データとの間の画像の同一性を判断することにより、出力要求の許否を判定する判定手段とを備えたことを特徴とする。   A secret material leakage prevention system according to the present invention includes a protection target file data input means for inputting file data of a protection target file that is a file that contains secret information, and the input file data is used as a feature quantity extraction unit. Image conversion means for converting into predetermined unit image data including at least one predetermined delimiter unit, and feature quantity extraction means for extracting feature quantities from each of the predetermined unit image data obtained by the image conversion means; Protected file information storage for storing protected file information including feature quantities extracted from image data for each predetermined unit of the protected file as information of the protected file input by the protected file data input means And the output target file that is the file for which output is requested to the external device. Output target file data input means, and the feature quantity of each image data for each predetermined unit of the output target file is extracted from the file data of the output target file input by the output target file data input means, and the extracted feature quantity Each of the image data for each predetermined unit of the output target file is compared with each feature amount of each image data for each predetermined unit of the protection target file stored in the protection target file information storage means, and the protection target And determining means for determining permission / rejection of the output request by determining the identity of the image with each image data for each predetermined unit of the file.

また、本発明による判定装置は、外部機器への出力要求がされたファイルである出力対象ファイルのファイルデータから変換される所定単位別の画像データであって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位別の画像データ各々から特徴量を抽出し、抽出された各画像データの特徴量各々と、所定の記憶手段に秘密情報を含むとされるファイルである保護対象ファイルの情報として記憶されている、当該保護対象ファイルのファイルデータから変換される所定単位別の各画像データから抽出された特徴量各々とを比較して、出力対象ファイルの所定単位別の各画像データと、保護対象ファイルの所定単位別の各画像データとの間の画像の同一性を判断することにより、出力要求の許否を判定する判定手段を備えたことを特徴とする。   The determination apparatus according to the present invention is image data for each predetermined unit converted from file data of an output target file that is a file requested to be output to an external device, and is determined in advance as a feature value extraction unit. A feature amount is extracted from each image data for each predetermined unit including at least one delimiter unit, and each feature amount of each extracted image data and a protection that is a file containing confidential information in a predetermined storage means Compare each feature quantity extracted from each image data for each predetermined unit converted from the file data of the protection target file stored as information of the target file, and each for each predetermined unit of the output target file Judgment of whether or not the output request is permitted by judging the identity of the image between the image data and each image data for each predetermined unit of the protection target file Characterized by comprising a constant section.

また、本発明による秘密資料流出防止方法は、秘密情報を含むとされるファイルである保護対象ファイルの情報として、当該保護対象ファイルのファイルデータから変換された各画像データから抽出された特徴量であって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データ各々から抽出された特徴量を含む保護対象ファイル情報を記憶しておき、外部機器への出力要求がされたファイルである出力対象ファイルを入力し、出力対象ファイルのファイルデータから当該出力対象ファイルの所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、記憶されている保護対象ファイルの所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの所定単位別の各画像データと、保護対象ファイルの所定単位別の各画像データとの間の画像の同一性を判断することにより、出力要求の許否を判定することを特徴とする。   In addition, the secret material leakage prevention method according to the present invention uses the feature amount extracted from each image data converted from the file data of the protection target file as the information of the protection target file that is a file including the secret information. And storing protection target file information including feature amounts extracted from each predetermined unit of image data including at least one delimiter unit that is predetermined as a feature amount extraction unit, and requesting output to an external device The output target file, which is a file that has been processed, is input, the feature amount of each image data for each predetermined unit of the output target file is extracted from the file data of the output target file, and each extracted feature amount is stored. Each of the image data for each predetermined unit of the output target file by comparing the feature amount of each image data for each predetermined unit of the protection target file And over data, by determining the identity of the image between the predetermined unit different for each image data to be protected file, and judging approval or disapproval of the output request.

また、本発明による秘密資料流出防止プログラムは、秘密情報を含むとされるファイルである保護対象ファイルの情報として、当該保護対象ファイルのファイルデータから変換された各画像データから抽出された特徴量であって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データ各々から抽出された特徴量を含む保護対象ファイル情報を記憶する保護対象フィル情報記憶手段を備えた、または保護対象フィル情報記憶手段にアクセス可能なコンピュータに、外部機器へのファイルデータの出力要求が検知されると、検知された出力対象ファイルのファイルデータから当該出力対象ファイルの所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、記憶されている保護対象ファイルの所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの所定単位別の各画像データと、保護対象ファイルの所定単位別の各画像データとの間の画像の同一性を判断することにより、出力要求の許否を判定する処理を実行させることを特徴とする。   Further, the secret material leakage prevention program according to the present invention is a feature amount extracted from each image data converted from the file data of the protection target file as information of the protection target file that is a file that contains secret information. And a protection target file information storage unit that stores protection target file information including feature amounts extracted from each of predetermined units of image data including at least one delimiter unit that is predetermined as a feature amount extraction unit. Or when a file access output request to an external device is detected by a computer accessible to the protection target file information storage means, each file for each predetermined unit of the output target file is detected from the detected file data of the output target file. Extract the feature values of the image data, and extract each feature value and the stored protection target file. The image data between each image data for each predetermined unit of the output target file and each image data for each predetermined unit of the protection target file. It is characterized in that processing for determining whether or not an output request is permitted is executed by determining the characteristics.

本実施例によれば、文書ファイルの利用者や管理者の手間を掛けずに、秘密情報を含んだデータの流出をより堅固に防ぐことができる。   According to the present embodiment, it is possible to more securely prevent the data including confidential information from leaking without taking the trouble of the user or administrator of the document file.

本発明による秘密資料流出防止方法を適用した資料管理システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the data management system to which the secret data outflow prevention method by this invention is applied. (A)は、文書DB34に記憶される文書情報の例を示す説明図であり、(B)は、特徴量DB35に記憶される特徴量情報の例を示す説明図である。(A) is explanatory drawing which shows the example of the document information memorize | stored in document DB34, (B) is explanatory drawing which shows the example of the feature-value information memorize | stored in feature-value DB35. 本実施形態の資料管理システムの動作(資料作成動作)の一例を示すシーケンス図である。It is a sequence diagram which shows an example of operation | movement (material preparation operation | movement) of the material management system of this embodiment. 本実施形態の資料管理システムの動作(複製資料添付メール送信動作)の一例を示すシーケンス図である。It is a sequence diagram which shows an example of operation | movement (copy material attachment mail transmission operation | movement) of the material management system of this embodiment. 画像データ間の同一性判断対象の例を示す説明図である。It is explanatory drawing which shows the example of the identity judgment object between image data. 本発明の概要を示すブロック図である。It is a block diagram which shows the outline | summary of this invention. 本発明による秘密資料流出防止システムの他の構成例を示すブロック図である。It is a block diagram which shows the other structural example of the secret data outflow prevention system by this invention.

以下、本発明の実施形態を図面を参照して説明する。図1は、本発明による秘密資料流出防止方法を資料管理システムに適用した場合の構成例を示すブロック図である。図1に示す資料管理システムは、資料作成者端末10と、資料複製者端末20と、文書管理サーバ30と、特徴量抽出サーバ40と、判定サーバ50と、メールサーバ60とを備える。また、これらの資料作成者端末10、資料複製者端末20、文書管理サーバ30、特徴量抽出サーバ40、判定サーバ50、メールサーバ60は、プログラム制御により動作するサーバ装置またはパーソナルコンピュータ、携帯端末装置等の情報処理装置であって、インターネット等のネットワーク100を介して相互に接続されている。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example when the method for preventing secret material leakage according to the present invention is applied to a material management system. The material management system shown in FIG. 1 includes a material creator terminal 10, a material duplicator terminal 20, a document management server 30, a feature amount extraction server 40, a determination server 50, and a mail server 60. The material creator terminal 10, the material duplicator terminal 20, the document management server 30, the feature amount extraction server 40, the determination server 50, and the mail server 60 are a server device or a personal computer that operates by program control, and a portable terminal device. Are connected to each other via a network 100 such as the Internet.

資料作成者端末10は、パーソナルコンピュータ等の情報処理装置であり、ユーザ操作に応じて文書管理サーバ30にアクセスして、PowerPointやPDF形式のファイルデータをネットワーク100を介して送信することによって資料を作成する。   The document creator terminal 10 is an information processing apparatus such as a personal computer. The document creator terminal 10 accesses the document management server 30 in response to a user operation, and transmits document data through PowerPoint or PDF format via the network 100. create.

資料複製者端末20は、パーソナルコンピュータ等の情報処理装置であり、ユーザ操作に応じて文書管理サーバ30にアクセスしてPowerPointやPDF形式のファイルデータを編集する。また、編集したファイルデータを添付した電子メールをネットワーク100を介して判定サーバ50に送信する機能を備えている。   The material duplicator terminal 20 is an information processing apparatus such as a personal computer, and accesses the document management server 30 in response to a user operation to edit file data in PowerPoint or PDF format. In addition, it has a function of transmitting an e-mail attached with edited file data to the determination server 50 via the network 100.

文書管理サーバ30は、データセンタなどクラウド環境に設置されているワークステーション・サーバ等の情報処理装置である。文書管理サーバ30は、文書記録部31と、特徴量記録部32と、特徴量送信部33と、文書データベース(DB)34と、特徴量DB35とを含む。   The document management server 30 is an information processing apparatus such as a workstation / server installed in a cloud environment such as a data center. The document management server 30 includes a document recording unit 31, a feature amount recording unit 32, a feature amount transmitting unit 33, a document database (DB) 34, and a feature amount DB 35.

文書記憶部31は、資料作成者端末10から受信したファイルデータの文書情報341を文書管理DB34に記録する。特徴量記録部32は、ファイルデータから抽出された特徴量の特徴量情報351を特徴量DB35に記録する。特徴量送信部33は、特徴量DB35に記憶された特徴量情報を参照して、ネットワーク100を介して判定サーバ40に送信する。   The document storage unit 31 records the document information 341 of the file data received from the material creator terminal 10 in the document management DB 34. The feature amount recording unit 32 records the feature amount information 351 of the feature amount extracted from the file data in the feature amount DB 35. The feature amount transmission unit 33 refers to the feature amount information stored in the feature amount DB 35 and transmits the feature amount information to the determination server 40 via the network 100.

文書DB34は、文書情報341を記憶するデータベースである。特徴量DB35は、特徴量情報351を記憶するデータベースである。   The document DB 34 is a database that stores document information 341. The feature amount DB 35 is a database that stores feature amount information 351.

図2(A)は、文書DB34に記憶される文書情報341の例を示す説明図であり、図2(B)は、特徴量DB35に記憶される特徴量情報351の例を示す説明図である。図2(A)に示すように、文書情報341は、文書ファイルを識別するための文書コードと、ファイル名と、ファイルデータと、作成者と、作成日とを含んでいてもよい。すなわち、文書情報341は、文書コードと、当該文書ファイルのファイルデータと、当該文書ファイルのメタデータとであってもよい。なお、本実施形態において、保護対象の文書ファイルは、機密とする情報が含まれうるファイルであればよく、ファイル形式は問わない。また、各ファイルは、文字情報を含んでいてもよいし、含んでいなくてもよい。なお、保護対象とする文書ファイルのファイル形式には、PowerPoint(登録商標)やPDFファイルといった外部に対して内容をイメージで出力するような形式のファイルや、データ内容に図や数式といったテキスト以外の情報を含みうるようなファイル形式を含んでいることがより好ましい。   FIG. 2A is an explanatory diagram illustrating an example of document information 341 stored in the document DB 34, and FIG. 2B is an explanatory diagram illustrating an example of feature amount information 351 stored in the feature amount DB 35. is there. As shown in FIG. 2A, the document information 341 may include a document code for identifying a document file, a file name, file data, a creator, and a creation date. That is, the document information 341 may be a document code, file data of the document file, and metadata of the document file. In the present embodiment, the document file to be protected may be a file that can contain confidential information, and the file format is not limited. Each file may or may not include character information. Note that the file format of the document file to be protected includes files such as PowerPoint (registered trademark) and PDF files that output contents as images to the outside, and data contents other than text such as diagrams and mathematical expressions. More preferably, it includes a file format that can contain information.

また、図2(B)に示すように、特徴量情報351は、特徴量データを識別するための特徴量コードと、特徴量の抽出元となった文書ファイルの文書コードと、特徴量の抽出対象範囲を識別するための識別情報としてのページ番号と、実際に抽出された特徴量を示す特徴量データとを含んでいてもよい。本発明では、特徴量は、ファイルをアーカイブする時に、後述する特徴量抽出サーバ40によってスライド毎、ページ毎、ブック毎といった当該ファイルの所定の区切り単位毎に抽出される。なお、ファイルデータから識別可能な範囲において、ページ毎と、図面毎といったように複数の異なる単位を特徴量抽出単位として設けることも可能である。特徴量抽出単位は、少なくとも当該ファイルのデータを区切るために用いられる区切り単位をその一つに含むものとする。これにより、ファイルデータの網羅性を確保する。区切り単位として、例えば、ユーザの利用態様を考慮し、当該ファイルを印刷する際に当該ファイルの出力イメージを区切るために標準的に用いられる単位の中から区切られた際の印刷領域が最も小さくなる単位(以下、標準出力最小単位という)としてもよい。以下、本実施形態では、ページ毎に特徴量を抽出する場合を例に説明している。   As shown in FIG. 2B, the feature amount information 351 includes feature amount codes for identifying feature amount data, document codes of document files from which feature amounts are extracted, and feature amount extraction. It may include a page number as identification information for identifying the target range, and feature amount data indicating the actually extracted feature amount. In the present invention, when archiving a file, the feature amount is extracted for each predetermined delimiter unit of the file, such as for each slide, page, or book, by a feature amount extraction server 40 described later. It should be noted that, within a range that can be identified from the file data, a plurality of different units such as each page and each drawing can be provided as the feature quantity extraction unit. The feature quantity extraction unit includes at least one delimiter unit used to delimit the data of the file. This ensures completeness of file data. As a delimiter unit, for example, in consideration of the user's usage mode, when printing the file, the print area when delimited from the units that are normally used to delimit the output image of the file is the smallest. A unit (hereinafter referred to as a standard output minimum unit) may be used. Hereinafter, in the present embodiment, a case where a feature amount is extracted for each page is described as an example.

特徴量抽出サーバ40は、例えば、データセンタなどクラウド環境に設置されているワークステーション・サーバ等の情報処理装置である。特徴量抽出サーバ40は、画像変換部41と、特徴量抽出部42と、記録部43と、特徴量送信部44とを含む。   The feature quantity extraction server 40 is an information processing apparatus such as a workstation server installed in a cloud environment such as a data center. The feature amount extraction server 40 includes an image conversion unit 41, a feature amount extraction unit 42, a recording unit 43, and a feature amount transmission unit 44.

画像変換部41は、判定サーバ50から受信したファイルデータを所定の区切り単位で画像ファイルに変換する。特徴量抽出部42は、画像変換部41によって変換された各画像ファイルの特徴量をビデオシグネチャ技術を利用して抽出する。記憶部43は、特徴量抽出部42によって抽出された特徴量を格納する。特徴量送信部44は、記録部43に格納された特徴量をネットワーク100を介して文書管理サーバ30、判定サーバ50に送信する。   The image conversion unit 41 converts the file data received from the determination server 50 into an image file in a predetermined delimiter unit. The feature amount extraction unit 42 extracts the feature amount of each image file converted by the image conversion unit 41 using a video signature technique. The storage unit 43 stores the feature amount extracted by the feature amount extraction unit 42. The feature amount transmission unit 44 transmits the feature amount stored in the recording unit 43 to the document management server 30 and the determination server 50 via the network 100.

判定サーバ50は、例えば、データセンタなどクラウド環境に設置されているワークステーション・サーバ等の情報処理装置である。判定サーバ50は、ファイル抽出部51と、特徴量参照部52と、比較部53と、判定部54と、記録部55とを含む。   The determination server 50 is an information processing apparatus such as a workstation / server installed in a cloud environment such as a data center. The determination server 50 includes a file extraction unit 51, a feature amount reference unit 52, a comparison unit 53, a determination unit 54, and a recording unit 55.

ファイル抽出部51は、資料複製者端末20から受信した電子メールの添付ファイルデータを抽出する。特徴量参照部52は、文書管理サーバ30にネットワーク100を介してアクセスして特徴量DB35を参照(取得)する。比較部53は、特徴量参照部52が参照した特徴量と記録部55に格納された特徴量とを比較する。判定部54は、比較部53による比較結果からメールの送信可否を判定し、資料複製者端末20またはメールサーバ60に処理を指示する。記録部55は、ファイル抽出部51により抽出された添付ファイルデータの特徴量を格納する。   The file extraction unit 51 extracts the attached file data of the email received from the material duplicator terminal 20. The feature amount reference unit 52 accesses the document management server 30 via the network 100 to refer to (acquire) the feature amount DB 35. The comparison unit 53 compares the feature amount referred to by the feature amount reference unit 52 with the feature amount stored in the recording unit 55. The determination unit 54 determines whether mail can be transmitted from the comparison result by the comparison unit 53, and instructs the material duplicator terminal 20 or the mail server 60 to perform processing. The recording unit 55 stores the feature amount of the attached file data extracted by the file extraction unit 51.

メールサーバ60は、例えば、データセンタなどクラウド環境に設置されているワークステーション・サーバ等の情報処理装置であって、判定サーバ50から送信が許可された電子メールを配信する。   The mail server 60 is, for example, an information processing apparatus such as a workstation server installed in a cloud environment such as a data center, and distributes an electronic mail permitted to be transmitted from the determination server 50.

次に、本実施形態の動作について説明する。図3および図4は、本実施形態の資料管理システムの動作の一例を示すシーケンス図である。なお、図3が本システムによる資料作成動作の一例を示すシーケンス図であり、図4が本システムによる複製資料添付メール送信動作の一例を示すシーケンス図である。   Next, the operation of this embodiment will be described. 3 and 4 are sequence diagrams showing an example of the operation of the material management system of this embodiment. FIG. 3 is a sequence diagram showing an example of a material creation operation by this system, and FIG. 4 is a sequence diagram showing an example of a duplicate material attached mail transmission operation by this system.

まず、資料作成動作について説明する。図3に示す例では、まず、資料作成者が、資料作成者端末10を操作して、文書管理サーバ30に新規文書ファイルAの文書情報(ファイル名、ファイルデータ、作成者、作成日など)を送信する(ステップA1)。   First, the material creation operation will be described. In the example shown in FIG. 3, first, the material creator operates the material creator terminal 10 to store document information (file name, file data, creator, creation date, etc.) of the new document file A in the document management server 30. Is transmitted (step A1).

資料作成者端末10は、例えば、ユーザ操作に応じて新規文書情報登録用のURLにアクセスしてもよい。文書管理サーバ30では、これに応答して、文書情報登録画面データを資料作成者端末10に送信する。そして、資料作成者端末10が、受信したデータから画面文書情報登録画面を表示し、表示された文書情報登録画面に対するユーザ操作に応じて、文書ファイルAの文書情報を文書管理サーバ30に送信してもよい。   For example, the document creator terminal 10 may access a URL for registering new document information in response to a user operation. In response to this, the document management server 30 transmits document information registration screen data to the material creator terminal 10. Then, the material creator terminal 10 displays a screen document information registration screen from the received data, and transmits the document information of the document file A to the document management server 30 in response to a user operation on the displayed document information registration screen. May be.

文書サーバ30の文書記録部31は、資料作成者端末10から文書情報を受信すると、ファイルデータを特徴量抽出サーバ40に送信する(ステップA2)。その際、当該ファイルデータがどのファイルのファイルデータなのかを識別するために文書コード(ここでは、当該ファイルを登録対象ファイルとして識別可能な文書コード)を割り当てて、割り当てた文書コードとともに送信してもよい。   When the document recording unit 31 of the document server 30 receives the document information from the material creator terminal 10, the document recording unit 31 transmits the file data to the feature amount extraction server 40 (step A2). At that time, in order to identify the file data of the file data, a document code (here, a document code that can identify the file as a registration target file) is assigned and transmitted together with the assigned document code. Also good.

特徴量抽出サーバ40では、画像変換部41が、受け取ったファイルデータを1ページ単位の画像データ(JPEG形式等)に変換する(ステップA3)。文書ファイルのファイルデータを画像データに変換する方法は、例えば、PowerPointの機能やPDFファイルをイメージ化する既存のソフトウェアなどを用いて、対象ファイルの各ページの印刷画像の画像データを生成してもよい。画像変換部41は、変換によって得られたページ別の画像データを一時的に記録部43に格納する。なお、複数の単位が特徴量抽出単位として設けられている場合には、それぞれの単位に合わせて画像データに変換すればよい。例えば、定められた区切り単位毎に画像データに変換した後で、その画像データを画像認識し、図面や表とみられる領域が検出された場合にはその領域の画像データを図面別の画像データや表別の画像データとして生成するといったことも考えられる。   In the feature amount extraction server 40, the image conversion unit 41 converts the received file data into image data (JPEG format or the like) in units of one page (step A3). A method for converting file data of a document file into image data can be achieved by, for example, generating image data of a print image of each page of a target file by using a function of PowerPoint or existing software for imaging a PDF file. Good. The image conversion unit 41 temporarily stores in the recording unit 43 the image data for each page obtained by the conversion. When a plurality of units are provided as feature quantity extraction units, they may be converted into image data according to each unit. For example, after converting into image data for each predetermined delimiter unit, the image data is recognized, and when an area that is regarded as a drawing or table is detected, the image data in that area is converted to image data by drawing or For example, it may be generated as image data for each table.

次いで、特徴量抽出部42は、画像変換部41によって得られたページ別画像データからそれぞれ特徴量を抽出し、ページ番号と特徴量データとを対応づけて特徴量情報にして記録部43に格納する(ステップA4)。   Next, the feature amount extraction unit 42 extracts feature amounts from the image data for each page obtained by the image conversion unit 41, associates the page number with the feature amount data, and stores the feature amount information in the recording unit 43. (Step A4).

特徴量の抽出方法として、本発明では、ビデオシグネチャ技術を用いる。ビデオシグネチャ技術として、例えば、特願2009−012810に記載された技術を用いてもよい。より具体的には、1つの画像データについて、当該画像データで表される画像(表示イメージ)をさまざまな大きさや形状の領域に分割して領域の特徴量を抽出し、領域同士の領域特徴量の比較結果を量子化した量子化インデックス(画像識別子)を複数の次元で求めたものを当該画像を識別するための特徴量としてもよい。なお、領域特徴量として、例えば、輝度値の平均値やRGB成分の平均ベクトル、エッジの方向分布を表す5ビンのヒストグラムが挙げられる。なお、特徴量抽出部42は、各画像データで表される画像のサイズが異なる場合には、各画像データで表される画像のサイズが一定になるように、画像データに対して画像サイズの調整処理(画像の拡大または縮小処理)を施した上で、特徴量を抽出してもよい。なお、画像サイズの調整処理は、画像変換部41が画像データに変換する際に行ってもよい。   In the present invention, a video signature technique is used as a feature amount extraction method. As the video signature technique, for example, the technique described in Japanese Patent Application No. 2009-012810 may be used. More specifically, for one piece of image data, an image (display image) represented by the image data is divided into regions of various sizes and shapes, and region feature amounts are extracted, and region feature amounts between regions are extracted. A quantization index (image identifier) obtained by quantizing the comparison results of the above may be obtained as a feature amount for identifying the image. Examples of the region feature amount include an average value of luminance values, an average vector of RGB components, and a 5-bin histogram representing the edge direction distribution. Note that the feature amount extraction unit 42 determines the image size of the image data so that the size of the image represented by each image data is constant when the size of the image represented by each image data is different. The feature amount may be extracted after performing adjustment processing (image enlargement or reduction processing). The image size adjustment process may be performed when the image conversion unit 41 converts the image data into image data.

このようにして文書ファイルAについての特徴量情報が生成されると、特徴量送信部44は、生成した特徴量情報を、要求元である文書管理サーバ30に送信する(ステップA5)。   When the feature amount information for the document file A is generated in this way, the feature amount transmission unit 44 transmits the generated feature amount information to the document management server 30 that is the request source (step A5).

文書管理サーバ30では、特徴量記録部32が、特徴量抽出サーバ40から登録対象ファイルについての特徴量情報を受信すると、当該特徴量情報について特徴量コードを新たに割り当てて、文書コードによって文書情報341と特徴量情報351とを紐付けつつ、それぞれ文書DB34と特徴量DB35に記録する(ステップA6)。このようにして、本システムが保護対象とする文書ファイルの情報を文書管理サーバ40に格納していく。   In the document management server 30, when the feature amount recording unit 32 receives feature amount information about a registration target file from the feature amount extraction server 40, a feature amount code is newly assigned to the feature amount information, and the document information is recorded by the document code. 341 and feature quantity information 351 are linked to each other and recorded in the document DB 34 and the feature quantity DB 35 (step A6). In this way, the document management server 40 stores information on document files to be protected by this system.

次に、図4を参照して、本システムによる複製資料添付メール送信動作について説明する。図4に示す例では、資料複製者が、資料複製者端末20を操作して、文書ファイルAの一部を画像として文書ファイルBにコピーする(ステップB1)。さらに、資料複製者は、資料複製者端末10を操作して、文書ファイルBを添付した電子メールを送信する(ステップB2)。   Next, with reference to FIG. 4, the operation of sending duplicate material attached mail by this system will be described. In the example shown in FIG. 4, the material duplicator operates the material duplicator terminal 20 to copy a part of the document file A to the document file B as an image (step B1). Further, the material duplicator operates the material duplicator terminal 10 and transmits an e-mail attached with the document file B (step B2).

資料複製者端末20は、例えば、ユーザ操作に応じて、文書ファイルAの一部を画像としてコピーし、文書ファイルBに貼り付けて保存する。そして、ユーザ操作に応じて、保存した文書ファイルB(文書ファイルAの内容の一部を画像情報として含むファイル)を添付した電子メールを作成し、ユーザからの送信指示に応じてメールサーバ60に向けて送信する。   For example, in response to a user operation, the material duplicator terminal 20 copies a part of the document file A as an image, and pastes and saves it on the document file B. Then, an e-mail attached with the saved document file B (a file including part of the contents of the document file A as image information) is created in response to a user operation, and the e-mail is sent to the mail server 60 in response to a transmission instruction from the user. Send to.

このとき、本実施形態では、資料複製者端末20によるメールサーバ60への電子メール送信要求メッセージを判定サーバ50がまず受信する。例えば、内部ネットワークから外部ネットワークへの中継を行うプロキシサーバの設定によって判定サーバ50に転送されるようにしてもよい。なお、メールサーバ60に先だって受け取る態様の他に、メールサーバ60から送信可否の判定を依頼する形で転送する態様でもよい。換言すると、システムが備えるネットワークノードにおいて、ファイルデータまたは画像データを外部ネットワーク宛てに送信する要求を検知する外部出力要求検知手段を備えていればよい。なお、ネットワークを介したデータ送信に限らず、外部機器(認証されていない周辺機器等)へのデータ出力をも監視対象に含める場合には、端末上で動作するソフトウェアに、外部機器へのデータ出力要求を検知する外部出力要求検知手段を実装してもよい。   At this time, in this embodiment, the determination server 50 first receives an e-mail transmission request message to the mail server 60 by the material duplicator terminal 20. For example, it may be transferred to the determination server 50 by setting a proxy server that relays from the internal network to the external network. In addition to the mode of receiving prior to the mail server 60, a mode of transferring the mail server 60 in a request for determining whether or not transmission is possible may be used. In other words, the network node provided in the system may be provided with an external output request detection means for detecting a request for transmitting file data or image data to an external network. When data output to external devices (such as non-authenticated peripheral devices) is included in the monitoring target as well as data transmission via the network, the data running on the terminal must be included in the software running on the terminal. External output request detection means for detecting an output request may be implemented.

判定サーバ50のファイル抽出部51は、資料複製者端末10から受信した電子メールに添付された文書ファイルB(出力対象ファイル)ファイルデータを抽出し、特徴量抽出サーバ30に送信する(ステップB3)。その際、文書ファイルBのファイルデータとともに、当該ファイルに対して新たに割り当てた文書コード(当該ファイルを出力文書として識別可能な文書コード)を送信してもよい。   The file extraction unit 51 of the determination server 50 extracts the document file B (output target file) file data attached to the e-mail received from the material duplicator terminal 10 and transmits it to the feature amount extraction server 30 (step B3). . At this time, together with the file data of the document file B, a document code newly assigned to the file (a document code that can identify the file as an output document) may be transmitted.

特徴量抽出サーバ40では、まず画像変換部41が、判定サーバ50から受け取ったファイルデータを、例えば1ページ単位の画像データ(JPEG形式等)に変換する(ステップB4)。画像変換部41は、変換によって得られたページ別の画像データを、一時的に記録部43に格納してもよい。次いで、特徴量抽出部42は、画像変換部41によって得られたページ別画像ファイルからそれぞれ特徴量を抽出して特徴量情報(この時点では、ファイルデータの文書コードと、各ページのページ番号と特徴量データとを含んでいればよい)を生成し、記録部43に格納する(ステップB5)。このようにして文書ファイルBについての特徴量情報が生成されると、特徴量送信部44は、生成した特徴量情報を、要求元である判定サーバ50に送信する(ステップB6)。   In the feature amount extraction server 40, first, the image conversion unit 41 converts the file data received from the determination server 50 into, for example, image data (JPEG format or the like) in units of one page (step B4). The image conversion unit 41 may temporarily store the image data for each page obtained by the conversion in the recording unit 43. Next, the feature amount extraction unit 42 extracts feature amounts from the image files for each page obtained by the image conversion unit 41 to obtain feature amount information (at this time, the document code of the file data, the page number of each page, And feature amount data), and is stored in the recording unit 43 (step B5). When the feature amount information for the document file B is generated in this way, the feature amount transmission unit 44 transmits the generated feature amount information to the determination server 50 that is the request source (step B6).

判定サーバ50では、特徴量抽出サーバ40から出力対象ファイルについての特徴量情報を受信すると、受信した特徴量情報を一旦記録部55に格納した上で、参照部52が、文書管理サーバ40にアクセスし、特徴量DB35に格納されている各文書ファイル(保護対象ファイル)についての特徴量情報を参照する(ステップB7)。   When the determination server 50 receives the feature amount information about the output target file from the feature amount extraction server 40, the reference unit 52 accesses the document management server 40 after temporarily storing the received feature amount information in the recording unit 55. Then, the feature amount information about each document file (protection target file) stored in the feature amount DB 35 is referred to (step B7).

判定部54は、記録部55に格納されている判定対象である文書ファイルB(出力対象ファイル)についての特徴量情報に含まれている各ページの特徴量データそれぞれと、参照部52により参照された各保護対象ファイルについての特徴量情報に含まれている各ページの特徴量データそれぞれとを比較する(ステップB8)。なお、本実施形態では、参照処理と比較処理とが最終的に全ての保護対象ファイルに対して行われればよく、保護対象ファイルを一括参照するか順次参照するかは問わない。   The determination unit 54 is referred to by the reference unit 52 and the feature amount data of each page included in the feature amount information about the document file B (output target file) that is the determination target stored in the recording unit 55. The feature amount data of each page included in the feature amount information for each protected file is compared (step B8). In the present embodiment, the reference process and the comparison process may be finally performed on all the protection target files, and it does not matter whether the protection target files are referred to collectively or sequentially.

図5は、画像データ間の同一性判断対象の例を示す説明図である。なお、図5では、出力対象ファイルの画像データとして2つの画像データが生成された場合を例示している。また、保護対象ファイルとして2つのファイル(保護対象ファイル1、2)が文章DB34に登録されており、保護対象ファイル1の画像データとして3つの画像データが生成され、保護対象ファイル2の画像データとして1つの画像データが生成された場合を示している。図5に示す例では、判定部54は、出力対象ファイルの各画像データと、保護対象ファイル1、2の各画像データとの間で、計8パターンの組み合わせの画像データの同一性判断処理が行われることになる。   FIG. 5 is an explanatory diagram illustrating an example of identity determination targets between image data. FIG. 5 illustrates a case where two pieces of image data are generated as the image data of the output target file. Also, two files (protection target files 1 and 2) are registered in the text DB 34 as protection target files, and three image data are generated as image data of the protection target file 1, and as image data of the protection target file 2. A case where one image data is generated is shown. In the example illustrated in FIG. 5, the determination unit 54 performs a process for determining the identity of a total of eight patterns of image data between each image data of the output target file and each image data of the protection target files 1 and 2. Will be done.

ステップB8において、一致する特徴量データが1つでも存在場合、すなわち出力対象ファイルのあるページの画像データと全ての保護対象ファイルのあるページの画像データとの間で画像の同一性があると判断される程度に特徴量データが一致した場合には、判定部54は、出力対象ファイルに機密情報が含まれていると判断して、当該ファイルの出力処理を行った資料複製者端末20に警告画面を表示する(ステップB9)。特徴量データに基づく画像の同一性判断の具体的方法としては、例えば、特徴量として上述のビデオシグネチャ技術により求まる複数の次元の量子化ベクトルを用いる場合には、各次元での量子化インデックス値を比較し、画像データ全体での不一致指数(不一致の次元数や各次元での差分値の合計等から求める値)が所定の閾値%以内であれば同一性が認められるとしてもよい。   In step B8, if there is at least one matching feature amount data, that is, it is determined that there is image identity between the image data of a page with an output target file and the image data of a page with all the protection target files. When the feature amount data matches to the extent that the file is matched, the determination unit 54 determines that the confidential information is included in the output target file, and warns the material duplicator terminal 20 that performed the output processing of the file. A screen is displayed (step B9). As a specific method for determining the identity of an image based on feature amount data, for example, in the case of using a plurality of dimensional quantization vectors obtained by the video signature technique described above as a feature amount, a quantization index value in each dimension If the disagreement index (the value obtained from the number of disagreement dimensions, the sum of the difference values in each dimension, etc.) is within a predetermined threshold%, the identity may be recognized.

一方、一致する特徴量データが存在しなかった場合、判定部54は、出力対象ファイルに機密情報が含まれていないとして、当該ファイルを添付した電子メールを本来の送信先であるメールサーバ60に送信する(ステップB10)。メールサーバ60より送信可否の問い合わせという形式で出力対象ファイルのファイルデータを受信していた場合には、判定部54は、問い合わせ元であるメールサーバ60に送信可の旨の応答を送信してもよい。   On the other hand, if there is no matching feature data, the determination unit 54 determines that the output target file does not contain confidential information, and sends an e-mail attached with the file to the mail server 60 that is the original transmission destination. Transmit (step B10). When the file data of the output target file is received from the mail server 60 in the form of an inquiry about whether or not transmission is possible, the determination unit 54 may send a response indicating that transmission is possible to the mail server 60 that is the inquiry source. Good.

メールサーバ60は、判定サーバ50から受信した電子メール、すなわち送信が許可された電子メールを配信する(ステップB11)。   The mail server 60 distributes the electronic mail received from the determination server 50, that is, the electronic mail permitted to be transmitted (step B11).

以上のように、本実施形態によれば、文書ファイルの利用者や管理者の手間を掛けずに、秘密情報を含んだデータの流出をより堅固に防ぐことができる。登録側と出力側のファイルそれぞれについて所定の区切り単位で画像データに変換し、各画像データ間の同一性を判断するからである。さらに、各画像データ間の同一性の判断方法にビデオシグネチャ技術を利用して抽出した特徴量を使用することで、テキストによるキーワード検索では検出されないような画像データの再利用を高い検出率で検出することができる。例えば、一部に加筆があったり、ページ内の1図面のみがコピーされたというようなページ全体の内容としては完全には一致していない場合であっても、高い検出率でデータの再利用を検出することができる。   As described above, according to the present embodiment, it is possible to more securely prevent data including confidential information from being leaked without taking the trouble of the user or administrator of the document file. This is because the registration-side and output-side files are converted into image data in a predetermined delimiter unit, and the identity between the image data is determined. Furthermore, by using features extracted using video signature technology to determine the identity between image data, it is possible to detect reuse of image data at a high detection rate that cannot be detected by text keyword search. can do. For example, even if there is a partial rewrite or only one drawing in the page has been copied, the content of the entire page is not exactly the same, but the data can be reused with a high detection rate. Can be detected.

なお、上記実施形態では、ファイル出力方法の例として、電子メールに添付して送信する例を示したが、ファイル出力方法は当該方法に限らず、ネットワークノードにおいてファイルまたは画像データが外部に出力されることを認識できるようなプロトコルであれば、同様の方法により適用可能である。例えば、FTPによるファイル転送や、データ要素に画像データを含むよう記述されたHTMLデータの送信であってもよい。   In the above embodiment, as an example of the file output method, an example of transmitting by attaching to an e-mail has been shown. However, the file output method is not limited to this method, and a file or image data is output to the outside at a network node. Any protocol that can recognize this can be applied by the same method. For example, file transfer by FTP or transmission of HTML data described to include image data in the data element may be used.

また、上記実施形態では、特徴量の比較において、全保護対象ファイルを対象とする例を示したが、例えば、保護対象ファイルのデータ再利用時(例えば、文書ファイルからデータをコピーして貼り付けるする際)に文書コードを記憶する仕組みを有している場合には、出力対象ファイルに利用元(コピー元)ファイルとして記憶のある保護対象ファイルのみを比較対象とすることも可能である。   In the above-described embodiment, an example in which all the files to be protected are targeted in the feature amount comparison has been described. For example, when data of a protection target file is reused (for example, data is copied and pasted from a document file) If the document code is stored in the output target file, only the protection target file stored as the use source (copy source) file in the output target file can be compared.

次に、本発明の概要について説明する。図6は、本発明の概要を示すブロック図である。図6に示すように、本発明による秘密資料流出防止システムは、保護対象ファイルデータ入力手段101と、画像変換手段102と、特徴量抽出手段103と、保護対象ファイル情報記憶手段104と、出力対象ファイルデータ入力手段105と、判定手段106とを備えている。   Next, the outline of the present invention will be described. FIG. 6 is a block diagram showing an outline of the present invention. As shown in FIG. 6, the secret material leakage prevention system according to the present invention includes a protection target file data input means 101, an image conversion means 102, a feature amount extraction means 103, a protection target file information storage means 104, and an output target. File data input means 105 and determination means 106 are provided.

保護対象ファイルデータ入力手段101(例えば、文書記録部31)は、秘密情報を含むとされるファイルである保護対象ファイルのファイルデータを入力する。   The protection target file data input unit 101 (for example, the document recording unit 31) inputs file data of a protection target file that is a file that includes secret information.

画像変換手段102(例えば、画像変換部41)は、入力されたファイルデータを、特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データに変換する。   The image conversion unit 102 (for example, the image conversion unit 41) converts the input file data into image data of a predetermined unit including at least one delimiter unit that is predetermined as a feature amount extraction unit.

特徴量抽出手段103(例えば、特徴量抽出部42)は、画像変換手段102によって得られる所定単位別の画像データ各々から、特徴量を抽出する。   The feature amount extraction unit 103 (for example, the feature amount extraction unit 42) extracts a feature amount from each of the image data for each predetermined unit obtained by the image conversion unit 102.

保護対象ファイル情報記憶手段104(例えば、文書DB34)は、保護対象ファイルデータ入力手段によって入力された保護対象ファイルの情報として、当該保護対象ファイルの所定単位別の各画像データから抽出された特徴量を含む保護対象ファイル情報を記憶する。   The protection target file information storage unit 104 (for example, the document DB 34), as the information on the protection target file input by the protection target file data input unit, is extracted from each image data for each predetermined unit of the protection target file. The protection target file information including is stored.

出力対象ファイルデータ入力手段105(例えば、ファイル抽出部51)は、外部機器への出力要求がされたファイルである出力対象ファイルを入力する。   The output target file data input means 105 (for example, the file extraction unit 51) inputs an output target file that is a file for which an output request has been made to an external device.

判定手段106(例えば、参照部52、比較部53、判定部54)は、出力対象ファイルデータ入力手段105により入力された出力対象ファイルのファイルデータから当該出力対象ファイルの所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、保護対象ファイル情報記憶手段104に記憶されている保護対象ファイルの所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの所定単位別の各画像データと、保護対象ファイルの所定単位別の各画像データとの間の画像の同一性を判断することにより、出力要求の許否を判定する。   The determination unit 106 (for example, the reference unit 52, the comparison unit 53, and the determination unit 54) determines each image data for each predetermined unit of the output target file from the file data of the output target file input by the output target file data input unit 105. Are extracted, and each extracted feature amount is compared with each feature amount of each image data for each predetermined unit of the protection target file stored in the protection target file information storage unit 104, and the output target Whether or not the output request is permitted is determined by determining the identity of the image between each image data for each predetermined unit of the file and each image data for each predetermined unit of the file to be protected.

また、特徴量抽出手段は、ビデオシグネチャ技術を用いて画像データから特徴量を抽出してもよい。   The feature amount extraction unit may extract the feature amount from the image data using a video signature technique.

また、区切り単位として、標準出力最小単位を用いてもよい。また、区切り単位として、ページ単位、スライド単位またはブック単位を用いてもよい。また、特徴量の抽出単位とする所定単位として、複数の異なる単位を定めてもよい。   Further, the standard output minimum unit may be used as the delimiter unit. Further, a page unit, a slide unit, or a book unit may be used as a delimiter unit. A plurality of different units may be defined as the predetermined unit as the feature quantity extraction unit.

また、図7に示すように、秘密資料流出防止システムは、さらに、当該システムが備えるネットワークノードにおいて、ファイルを添付した電子メールの送信要求を検知する外部出力検知手段107(例えば、メールサーバ60または図示しないプロキシサーバ)を備えていてもよい。   In addition, as shown in FIG. 7, the secret material leakage prevention system further includes an external output detection unit 107 (for example, a mail server 60 or a network server) that detects a transmission request for an email attached with a file in a network node included in the system. A proxy server (not shown) may be provided.

本発明は、特に、故意または不注意による秘密情報の外部漏洩や盗用を防止する用途に好適に適用可能である。また、クラウド環境において秘密情報を含む文書ファイルを利用する形態において、好適に適用可能である。   In particular, the present invention can be suitably applied to a use for preventing external leakage or theft of confidential information intentionally or carelessly. Further, the present invention can be preferably applied to a form in which a document file including secret information is used in a cloud environment.

100 ネットワーク
10 資料作成者端末
20 資料複製者端末
30 文書管理サーバ
31 文書記録部
32 特徴量記録部
33 特徴量参照部
34 文書DB
35 特徴量DB
40 特徴量抽出サーバ
41 画像変換部
42 特徴量抽出部
43 記録部
50 判定サーバ
51 ファイル抽出部
52 参照部
53 比較部
54 判定部
55 記録部
101 保護対象ファイルデータ入力手段
102 画像変換手段
103 特徴量抽出手段
104 保護対象ファイル情報記録手段
105 出力対象ファイルデータ入力手段
106 判定手段
107 外部出力検知手段
DESCRIPTION OF SYMBOLS 100 Network 10 Material creator terminal 20 Material duplicator terminal 30 Document management server 31 Document recording part 32 Feature quantity recording part 33 Feature quantity reference part 34 Document DB
35 Feature DB
DESCRIPTION OF SYMBOLS 40 Feature-value extraction server 41 Image conversion part 42 Feature-value extraction part 43 Recording part 50 Determination server 51 File extraction part 52 Reference part 53 Comparison part 54 Determination part 55 Recording part 101 Protection target file data input means 102 Image conversion means 103 Feature-value Extraction means 104 Protection target file information recording means 105 Output target file data input means 106 Determination means 107 External output detection means

Claims (9)

秘密情報を含むとされるファイルである保護対象ファイルのファイルデータを入力する保護対象ファイルデータ入力手段と、
入力されたファイルデータを、特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データに変換する画像変換手段と、
前記画像変換手段によって得られる前記所定単位別の画像データ各々から、特徴量を抽出する特徴量抽出手段と、
前記保護対象ファイルデータ入力手段によって入力された保護対象ファイルの情報として、当該保護対象ファイルの前記所定単位別の各画像データから抽出された特徴量を含む保護対象ファイル情報を記憶する保護対象ファイル情報記憶手段と、
外部機器への出力要求がされたファイルである出力対象ファイルを入力する出力対象ファイルデータ入力手段と、
前記出力対象ファイルデータ入力手段により入力された出力対象ファイルのファイルデータから当該出力対象ファイルの前記所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、前記保護対象ファイル情報記憶手段に記憶されている保護対象ファイルの前記所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの前記所定単位別の各画像データと、保護対象ファイルの前記所定単位別の各画像データとの間の画像の同一性を判断することにより、前記出力要求の許否を判定する判定手段とを備えた
ことを特徴とする秘密資料流出防止システム。
Protected file data input means for inputting file data of a protected file that is a file that contains confidential information;
Image conversion means for converting input file data into image data of a predetermined unit including at least one delimiter unit predetermined as a feature value extraction unit;
Feature amount extraction means for extracting feature amounts from each of the predetermined unit of image data obtained by the image conversion means;
Protection target file information for storing protection target file information including feature quantities extracted from the image data for each predetermined unit of the protection target file as information on the protection target file input by the protection target file data input means Storage means;
An output target file data input means for inputting an output target file that is a file requested to be output to an external device;
Extracting the feature quantity of each image data for each predetermined unit of the output target file from the file data of the output target file input by the output target file data input means, each extracted feature quantity, and the protection target file Each feature value of each image data for each predetermined unit of the protection target file stored in the information storage unit is compared, and each image data for each predetermined unit of the output target file is compared with the predetermined value of the protection target file. A secret material outflow prevention system comprising: a determination unit that determines whether or not the output request is permitted by determining the identity of an image with each unit of image data.
特徴量抽出手段は、ビデオシグネチャ技術を用いて画像データから特徴量を抽出する
請求項1に記載の秘密資料流出防止システム。
The secret material leakage prevention system according to claim 1, wherein the feature amount extraction unit extracts a feature amount from the image data using a video signature technique.
区切り単位として、標準出力最小単位を用いる
請求項1または請求項2に記載の秘密資料流出防止システム。
The secret data leakage prevention system according to claim 1 or 2, wherein the standard output minimum unit is used as a delimiter unit.
区切り単位として、ページ単位、スライド単位またはブック単位を用いる
請求項1から請求項3のうちのいずれか1項に記載の秘密資料流出防止システム。
The secret material leakage prevention system according to any one of claims 1 to 3, wherein a page unit, a slide unit, or a book unit is used as a delimiter unit.
特徴量の抽出単位とする所定単位として、複数の異なる単位を定める
請求項1から請求項4のうちのいずれか1項に記載の秘密資料流出防止システム。
The secret material outflow prevention system according to any one of claims 1 to 4, wherein a plurality of different units are defined as the predetermined unit as a feature quantity extraction unit.
当該システムが備えるネットワークノードにおいて、ファイルを添付した電子メールの送信要求を検知する外部出力検知手段を備えた
請求項1から請求項5のうちのいずれか1項に記載の秘密資料流出防止システム。
The secret material leakage prevention system according to any one of claims 1 to 5, further comprising an external output detection unit that detects a transmission request for an e-mail attached with a file in a network node included in the system.
外部機器への出力要求がされたファイルである出力対象ファイルのファイルデータから変換される所定単位別の画像データであって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位別の画像データ各々から特徴量を抽出し、抽出された各画像データの特徴量各々と、所定の記憶手段に秘密情報を含むとされるファイルである保護対象ファイルの情報として記憶されている、当該保護対象ファイルのファイルデータから変換される前記所定単位別の各画像データから抽出された特徴量各々とを比較して、出力対象ファイルの前記所定単位別の各画像データと、保護対象ファイルの前記所定単位別の各画像データとの間の画像の同一性を判断することにより、前記出力要求の許否を判定する判定手段を備えた
ことを特徴とする判定装置。
A predetermined unit including at least one delimiter unit, which is image data for each predetermined unit converted from the file data of the output target file, which is a file requested to be output to an external device, and is predetermined as a feature amount extraction unit. A feature amount is extracted from each unit of image data, and each feature amount of each extracted image data is stored as information on a protection target file, which is a file that contains confidential information in a predetermined storage means. Each feature data extracted from each image data for each predetermined unit converted from the file data of the protection target file is compared with each image data for each predetermined unit of the output target file, and the protection target file Determining means for determining whether or not the output request is permitted by determining the identity of the image data with the image data for each predetermined unit. Determination and wherein the.
秘密情報を含むとされるファイルである保護対象ファイルの情報として、当該保護対象ファイルのファイルデータから変換された各画像データから抽出された特徴量であって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データ各々から抽出された特徴量を含む保護対象ファイル情報を記憶しておき、
外部機器への出力要求がされたファイルである出力対象ファイルを入力し、前記出力対象ファイルのファイルデータから当該出力対象ファイルの前記所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、記憶されている前記保護対象ファイルの前記所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの前記所定単位別の各画像データと、保護対象ファイルの前記所定単位別の各画像データとの間の画像の同一性を判断することにより、前記出力要求の許否を判定する
ことを特徴とする秘密資料流出防止方法。
Information on the protection target file, which is a file that contains confidential information, is a feature amount extracted from each image data converted from the file data of the protection target file, and is predetermined as a feature amount extraction unit. Storing protection target file information including feature amounts extracted from each predetermined unit of image data including at least one delimiter unit,
An output target file, which is a file requested to be output to an external device, is input, and the feature amount of each image data for each predetermined unit of the output target file is extracted from the file data of the output target file and extracted. Each feature amount is compared with each feature amount of each stored image data for each predetermined unit of the protection target file, and each image data for each predetermined unit of the output target file is compared with the protection target file. A method for preventing secret material outflow, wherein whether or not the output request is permitted is determined by determining the identity of each image data with respect to each predetermined unit of image data.
秘密情報を含むとされるファイルである保護対象ファイルの情報として、当該保護対象ファイルのファイルデータから変換された各画像データから抽出された特徴量であって特徴量の抽出単位として予め定められている少なくとも1つの区切り単位を含む所定単位の画像データ各々から抽出された特徴量を含む保護対象ファイル情報を記憶する保護対象フィル情報記憶手段を備えた、または保護対象フィル情報記憶手段にアクセス可能なコンピュータに、
外部機器へのファイルデータの出力要求が検知されると、検知された出力対象ファイルのファイルデータから当該出力対象ファイルの前記所定単位別の各画像データの特徴量を抽出し、抽出された特徴量各々と、記憶されている前記保護対象ファイルの前記所定単位別の各画像データの特徴量各々とを比較して、出力対象ファイルの前記所定単位別の各画像データと、保護対象ファイルの前記所定単位別の各画像データとの間の画像の同一性を判断することにより、前記出力要求の許否を判定する処理
を実行させるための秘密資料流出防止プログラム。
Information on the protection target file, which is a file that contains confidential information, is a feature amount extracted from each image data converted from the file data of the protection target file, and is predetermined as a feature amount extraction unit. A protection target file information storage unit for storing protection target file information including feature quantities extracted from each predetermined unit of image data including at least one delimiter unit, or accessible to the protection target file information storage unit On the computer,
When an output request for file data to an external device is detected, the feature amount of each image data for each predetermined unit of the output target file is extracted from the file data of the detected output target file, and the extracted feature amount Each of the image data is compared with each feature amount of each image data for each predetermined unit of the protection target file stored, and each image data for each predetermined unit of the output target file is compared with the predetermined amount of the protection target file. A secret material outflow prevention program for executing a process for determining whether or not an output request is permitted by determining the identity of an image with each unit of image data.
JP2011045399A 2011-03-02 2011-03-02 Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program Pending JP2012182737A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011045399A JP2012182737A (en) 2011-03-02 2011-03-02 Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011045399A JP2012182737A (en) 2011-03-02 2011-03-02 Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program

Publications (1)

Publication Number Publication Date
JP2012182737A true JP2012182737A (en) 2012-09-20

Family

ID=47013538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011045399A Pending JP2012182737A (en) 2011-03-02 2011-03-02 Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program

Country Status (1)

Country Link
JP (1) JP2012182737A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101315956B1 (en) 2013-01-03 2013-10-08 오드컨셉 주식회사 Security system based visual information of the image and method thereof
JP2017531249A (en) * 2014-09-10 2017-10-19 シマンテック コーポレーションSymantec Corporation System and method for detecting attempts to send confidential information over a data delivery channel
JP2018136717A (en) * 2017-02-21 2018-08-30 富士通株式会社 Control program, control method and control device
JP2018159986A (en) * 2017-03-22 2018-10-11 日本電気株式会社 Information management apparatus, information management method and program
CN117473513A (en) * 2023-12-28 2024-01-30 北京立思辰安科技术有限公司 Equipment detection method, storage medium and electronic equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245048A (en) * 2001-02-20 2002-08-30 Mitsubishi Electric Corp Method and device for retrieving image
JP2004357302A (en) * 2003-05-28 2004-12-16 Microsoft Corp Method and system for identifying position in video by using content-based video timeline
JP2005182707A (en) * 2003-12-24 2005-07-07 Internatl Business Mach Corp <Ibm> Access control system, access controller, access control method, program and recording medium
JP2007158413A (en) * 2005-11-30 2007-06-21 Canon Inc Image processing method and apparatus
JP2008042636A (en) * 2006-08-08 2008-02-21 Fuji Xerox Co Ltd Document processing apparatus and document processing system, and document processing program
JP2010198157A (en) * 2009-02-24 2010-09-09 Internatl Business Mach Corp <Ibm> Method, apparatus and computer program for supporting determination on degree of confidentiality of document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245048A (en) * 2001-02-20 2002-08-30 Mitsubishi Electric Corp Method and device for retrieving image
JP2004357302A (en) * 2003-05-28 2004-12-16 Microsoft Corp Method and system for identifying position in video by using content-based video timeline
JP2005182707A (en) * 2003-12-24 2005-07-07 Internatl Business Mach Corp <Ibm> Access control system, access controller, access control method, program and recording medium
JP2007158413A (en) * 2005-11-30 2007-06-21 Canon Inc Image processing method and apparatus
JP2008042636A (en) * 2006-08-08 2008-02-21 Fuji Xerox Co Ltd Document processing apparatus and document processing system, and document processing program
JP2010198157A (en) * 2009-02-24 2010-09-09 Internatl Business Mach Corp <Ibm> Method, apparatus and computer program for supporting determination on degree of confidentiality of document

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101315956B1 (en) 2013-01-03 2013-10-08 오드컨셉 주식회사 Security system based visual information of the image and method thereof
JP2017531249A (en) * 2014-09-10 2017-10-19 シマンテック コーポレーションSymantec Corporation System and method for detecting attempts to send confidential information over a data delivery channel
JP2018136717A (en) * 2017-02-21 2018-08-30 富士通株式会社 Control program, control method and control device
JP2018159986A (en) * 2017-03-22 2018-10-11 日本電気株式会社 Information management apparatus, information management method and program
CN117473513A (en) * 2023-12-28 2024-01-30 北京立思辰安科技术有限公司 Equipment detection method, storage medium and electronic equipment
CN117473513B (en) * 2023-12-28 2024-04-12 北京立思辰安科技术有限公司 Equipment detection method, storage medium and electronic equipment

Similar Documents

Publication Publication Date Title
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US20110029555A1 (en) Method, system and apparatus for content identification
US9092636B2 (en) Methods and systems for exact data match filtering
JP6342577B2 (en) System and method for detecting attempts to send confidential information over a data delivery channel
US7809645B2 (en) Methods and apparatuses for sequestering content
US20060168659A1 (en) Security information estimating apparatus, a security information estimating method, a security information estimating program, and a recording medium thereof
US20140320888A1 (en) Apparatus and Method for Securing Confidential Information of Printed Document in Cloud Computing Environment
KR101977178B1 (en) Method for file forgery check based on block chain and computer readable recording medium applying the same
EP3792792A1 (en) Tampering detection method for paper copy and apparatus and non-transitory computer-readable storage medium
WO2019205366A1 (en) Picture management method and apparatus, computer device, and storage medium
US20130024769A1 (en) Apparatus and method for processing a document
JP2012182737A (en) Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program
CN108446543B (en) Mail processing method, system and mail proxy gateway
JP2007034618A (en) Security information estimation device, security information estimation method, security information estimation program and recording medium
CN110457434B (en) Webpage evidence obtaining method and device based on search, readable storage medium and server
US7987513B2 (en) Data-use restricting method and computer product
CN116561777A (en) Data processing method and device
WO2020130864A1 (en) System for automatic management and depositing of documents (images) hash in block-chain technology
WO2023115968A1 (en) Method and device for identifying violation data at user end, medium, and program product
US9083895B2 (en) Embedded document destination routing restrictions
JP5207402B2 (en) Information processing apparatus, information processing method, and program
US11418484B2 (en) Document management system
US20100106537A1 (en) Detecting Potentially Unauthorized Objects Within An Enterprise
Moreaux et al. Blockchain assisted near-duplicated content detection
JP2011198256A (en) Content protection device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130924