JP5629908B2 - Secure document detection method, secure document detection program, and optical character reader - Google Patents

Secure document detection method, secure document detection program, and optical character reader Download PDF

Info

Publication number
JP5629908B2
JP5629908B2 JP2010092071A JP2010092071A JP5629908B2 JP 5629908 B2 JP5629908 B2 JP 5629908B2 JP 2010092071 A JP2010092071 A JP 2010092071A JP 2010092071 A JP2010092071 A JP 2010092071A JP 5629908 B2 JP5629908 B2 JP 5629908B2
Authority
JP
Japan
Prior art keywords
document
secure
keyword
keywords
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010092071A
Other languages
Japanese (ja)
Other versions
JP2011221894A (en
Inventor
永崎 健
健 永崎
正和 藤尾
正和 藤尾
池田 尚司
尚司 池田
利幸 桑名
利幸 桑名
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2010092071A priority Critical patent/JP5629908B2/en
Publication of JP2011221894A publication Critical patent/JP2011221894A/en
Application granted granted Critical
Publication of JP5629908B2 publication Critical patent/JP5629908B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、情報のセキュリティを管理する技術に関し、特に、記憶装置に格納された文書又は印刷された文書からセキュアな文書を検出する技術に関する。   The present invention relates to a technique for managing information security, and more particularly to a technique for detecting a secure document from a document stored in a storage device or a printed document.
情報セキュリティに対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ(PC)に格納された大量の電子文書中に、セキュアな情報が存在するか否かを高精度に自動検出する技術が求められている。ここでセキュアな情報とは、例えば自社の秘密情報、他社の秘密情報又は個人情報のような、機密を保持する必要がある情報である。このような自動検出の技術として、例えば特許文献1が開示されている。   With increasing social interest in information security, it is possible to automatically detect whether or not secure information exists in a large amount of electronic documents stored in a server or a personal computer (PC) owned by an individual with high accuracy. Technology is required. Here, the secure information is information that needs to be kept confidential, such as private information of the company, confidential information of other companies, or personal information. For example, Patent Document 1 is disclosed as such an automatic detection technique.
特許文献1に記載された機密文書検出システムは、入力された文書を複数の領域に分割し、各領域に対応する辞書を参照することによって各領域の特徴要素を検出し、検出された特徴要素に基づいて各文書が属する機密情報カテゴリを判定する。   The confidential document detection system described in Patent Literature 1 divides an input document into a plurality of areas, detects feature elements in each area by referring to a dictionary corresponding to each area, and detects the detected feature elements Based on, the confidential information category to which each document belongs is determined.
特開2006−209649号公報JP 2006-209649 A
個人のPCのチェックツールのような、従来のテキスト検索を用いた場合、セキュア文書の誤検出が多いため、人間が点検する手間が多く必要であった。また、従来のセキュア文書検出では、検出したいキーワードをユーザが指定することはできるが、多様な様式の文書に対応することは困難であった。   When a conventional text search such as a personal PC check tool is used, there are many false detections of secure documents, which requires a lot of labor for human inspection. In the conventional secure document detection, a user can specify a keyword to be detected, but it is difficult to deal with documents in various formats.
例えば、特許文献1に記載された機密文書検出システムは、領域ごとに特徴要素を検出するが、定義されていない領域に出現した特徴要素を検出することはできない。さらに、この機密文書検出システムは、キーワードと、それが検出された領域との対応に基づいて機密情報カテゴリを判定するが、複数のキーワードの関係に基づいて機密情報カテゴリを判定することはできない。   For example, the confidential document detection system described in Patent Document 1 detects a feature element for each area, but cannot detect a feature element that appears in an undefined area. Further, the confidential document detection system determines the confidential information category based on the correspondence between the keyword and the area in which the keyword is detected, but cannot determine the confidential information category based on the relationship between a plurality of keywords.
本発明の代表的な一例を示せば、次の通りである。すなわち、セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係、及び、キーワードペアの組み合わせに含まれる各キーワードペアの位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから、前記辞書に登録された、各々が社名を含むキーワードペアの組み合わせを抽出する第1手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係及び前記各キーワードペアの位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含むことを特徴とする。 A typical example of the present invention is as follows. That is, a secure document detection method executed by a secure document detection device, wherein the secure document detection device includes an arithmetic device and a storage device that holds a dictionary, each of which includes at least two keywords. multiple keywords pair, the positional relationship in the document of the two keywords included in each keyword pair containing and information indicating a positional relationship between each keyword pairs included in the combination of keywords pair is registered, the secure document detection The method includes a first procedure for extracting a combination of keyword pairs each including a company name registered in the dictionary from input document data, and the input of two keywords included in each of the extracted keyword pairs. based on the positional relationship and positional relationship of each keyword pair in the document data, the inputted Document data, characterized in that it comprises a second procedure determines whether either a secure document.
本発明の一実施形態によれば、入力される文書の種類が増えた場合にも、簡易な定義で高精度にセキュアな文書を検出することができる。   According to an embodiment of the present invention, a secure document can be detected with high accuracy with a simple definition even when the types of input documents increase.
本発明の実施形態の概要を示すブロック図である。It is a block diagram which shows the outline | summary of embodiment of this invention. 本発明の第1の実施形態のセキュア電子文書管理システムのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the secure electronic document management system of the 1st Embodiment of this invention. 本発明の第1の実施形態のセキュア文書検出装置が実行する処理の全体を示す説明図である。It is explanatory drawing which shows the whole process which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態の文書要素抽出処理及びセキュア文書判定処理の詳細な手順を説明するフローチャートである。It is a flowchart explaining the detailed procedure of the document element extraction process and secure document determination process of the 1st Embodiment of this invention. 本発明の第1の実施形態のセキュア文書検出装置に入力されるセキュア文書の具体例の説明図である。It is explanatory drawing of the specific example of the secure document input into the secure document detection apparatus of the 1st Embodiment of this invention. 本発明の第1の実施形態のセキュア文書検出装置が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。It is explanatory drawing of the secure document detection based on the combination of the several keyword which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書検出装置によって識別されるブロックの説明図である。It is explanatory drawing of the block identified by the secure document detection apparatus of the 1st Embodiment of this invention. 本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第1の具体例を示す説明図である。It is explanatory drawing which shows the 1st specific example of the keyword extraction and the secure document determination which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第2の具体例を示す説明図である。It is explanatory drawing which shows the 2nd specific example of the keyword extraction and secure document determination which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第3の具体例を示す説明図である。It is explanatory drawing which shows the 3rd specific example of the keyword extraction and the secure document determination which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第4の具体例を示す説明図である。It is explanatory drawing which shows the 4th specific example of the keyword extraction and the secure document determination which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第5の具体例を示す説明図である。It is explanatory drawing which shows the 5th specific example of the keyword extraction and secure document determination which the secure document detection apparatus of the 1st Embodiment of this invention performs. 本発明の第1の実施形態のセキュア文書辞書に含まれる配置コストテーブルの説明図である。It is explanatory drawing of the arrangement | positioning cost table contained in the secure document dictionary of the 1st Embodiment of this invention. 本発明の第1の実施形態のセキュア文書辞書の説明図である。It is explanatory drawing of the secure document dictionary of the 1st Embodiment of this invention. 本発明の第2の実施形態のOCR一体型セキュア文書検出装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the OCR integrated secure document detection apparatus of the 2nd Embodiment of this invention.
以下、図面を用いて本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の実施形態の概要を示すブロック図である。   FIG. 1 is a block diagram showing an outline of an embodiment of the present invention.
最初に、従来のセキュア紙文書管理について説明する。   First, conventional secure paper document management will be described.
光学式文字読み取り装置(OCR装置)0302は、入力された紙文書0301を読み取り、文書ファイル0303を作成する。この文書ファイル0303には、紙文書0301に記載された画像、テキスト又はその両方のデータが含まれる。この文書ファイルは、例えばPDF(Portable Document Format)(登録商標)ファイルであってもよい。ユーザは、計算機0304によって表示された文書ファイル0303を参照して、その文書ファイル0303がセキュアであるか否かを判定し、その結果を計算機0304に入力する。文書ファイル0303がセキュアであると判定した場合、ユーザは、文書ファイル0303をロックする指示を計算機0304に入力してもよい。計算機0304は、文書ファイル0303をロックすることによって、ロックされた文書ファイル0305を作成し、この文書ファイル0305を出力する。なお、ロックとは、文書ファイル0305の閲覧を制限するための処理を意味し、その典型的な例は暗号化である。   The optical character reading device (OCR device) 0302 reads the input paper document 0301 and creates a document file 0303. This document file 0303 includes image, text, or both data described in the paper document 0301. This document file may be, for example, a PDF (Portable Document Format) (registered trademark) file. The user refers to the document file 0303 displayed by the computer 0304, determines whether or not the document file 0303 is secure, and inputs the result to the computer 0304. When it is determined that the document file 0303 is secure, the user may input an instruction to lock the document file 0303 to the computer 0304. The computer 0304 creates a locked document file 0305 by locking the document file 0303, and outputs this document file 0305. The lock means a process for restricting browsing of the document file 0305, and a typical example is encryption.
次に、本発明の実施形態の一つであるOCR一体型セキュア紙文書管理について説明する。   Next, OCR integrated secure paper document management, which is one embodiment of the present invention, will be described.
入力される紙文書0306は、既に説明した紙文書0301と同様のものであってよい。OCR装置0307は、入力された紙文書0306を読み取り、紙文書0306に含まれる画像情報及びテキスト情報を抽出する。計算機0308は、抽出された情報にセキュアな情報が含まれるか否かを判定する。抽出された情報にセキュアな情報が含まれると判定された場合、計算機0308は、抽出された情報を含む、ロックされた文書ファイル0309を作成し、出力する。これらの判定及び作成はユーザの介在なしに自動的に実行されるため、計算機0308はロックされる前の文書ファイルを表示する必要がない。このため、OCR装置0307及び計算機0308のいずれも、ロックされていない文書ファイルを上記の判定の前に作成する必要がない。また、ユーザは文書ファイルをロックする指示を計算機0308に入力する必要がない。   The input paper document 0306 may be the same as the paper document 0301 already described. The OCR device 0307 reads the input paper document 0306 and extracts image information and text information included in the paper document 0306. The computer 0308 determines whether or not the extracted information includes secure information. When it is determined that secure information is included in the extracted information, the computer 0308 creates and outputs a locked document file 0309 including the extracted information. Since these determinations and creation are automatically performed without user intervention, the computer 0308 does not need to display the document file before being locked. Therefore, neither the OCR device 0307 nor the computer 0308 needs to create an unlocked document file before the above determination. Further, the user does not need to input an instruction to lock the document file to the computer 0308.
なお、作成された文書ファイルがセキュアであることは、元の紙文書0306もセキュアであることを意味する。このため、計算機0308は、文書ファイルがセキュアであるか否かの判定結果に基づいて、OCR装置0307による紙文書0306の排出方法を制御してもよい。   Note that that the created document file is secure means that the original paper document 0306 is also secure. For this reason, the computer 0308 may control the discharge method of the paper document 0306 by the OCR device 0307 based on the determination result of whether or not the document file is secure.
このOCR一体型セキュア紙文書管理の詳細については、本発明の第2の実施形態として後述する。   Details of the OCR-integrated secure paper document management will be described later as a second embodiment of the present invention.
次に、本発明のもう一つの実施形態であるセキュア電子文書管理について説明する。   Next, secure electronic document management, which is another embodiment of the present invention, will be described.
計算機0311は、文書ファイル0310を入力されると、その文書ファイル0310がセキュアか否かを判定する。文書ファイル0310は、例えば文書ファイル0303と同様のものであってもよい。計算機0311は、文書ファイル0310がセキュアであると判定された場合、それをロックすることによって、ロックされた文書ファイル0312を作成し、出力する。上記のOCR一体型セキュア紙文書管理の場合と同様、これらの判定及び作成はユーザの介在なしに自動的に実行される。   When a document file 0310 is input, the computer 0311 determines whether the document file 0310 is secure. The document file 0310 may be the same as the document file 0303, for example. When it is determined that the document file 0310 is secure, the computer 0311 creates and outputs a locked document file 0312 by locking it. As in the case of the OCR-integrated secure paper document management described above, these determinations and creations are automatically executed without user intervention.
このセキュア電子文書管理の詳細については、本発明の第1の実施形態として後述する。   Details of the secure electronic document management will be described later as the first embodiment of the present invention.
なお、上記の説明ではテキスト等のデータを含む文書ファイルの例としてPDFファイルを挙げたが、これらの文書ファイルはPDF以外の形式の文書ファイル又は図面ファイルであってもよい。   In the above description, a PDF file is exemplified as an example of a document file including data such as text. However, these document files may be a document file of a format other than PDF or a drawing file.
<第1の実施形態>
図2は、本発明の第1の実施形態のセキュア文書検出装置0100のハードウェア構成を示すブロック図である。
<First Embodiment>
FIG. 2 is a block diagram illustrating a hardware configuration of the secure document detection device 0100 according to the first embodiment of this invention.
セキュア文書検出装置0100は、図1に示した本発明のセキュア電子文書管理を実現する装置の一例である。   The secure document detection apparatus 0100 is an example of an apparatus that realizes the secure electronic document management of the present invention shown in FIG.
本実施形態のセキュア文書検出装置0100は、操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及びこれらを相互に接続する通信線0106を備える。セキュア文書検出装置0100は、例えば一般的なパーソナルコンピュータであってもよい。   The secure document detection device 0100 of this embodiment includes an operation terminal device 0101, a display terminal device 0102, an external storage device 0103, a memory 0104, a central processing unit 0105, a communication device 0107, and a communication line 0106 that interconnects them. The secure document detection device 0100 may be a general personal computer, for example.
操作端末装置0101は、例えばキーボード又はマウス等であり、ユーザが指示又はデータ等をセキュア文書検出装置0100に入力するために使用される。   The operation terminal device 0101 is, for example, a keyboard or a mouse, and is used by the user to input an instruction or data to the secure document detection device 0100.
表示端末装置0102は、例えば液晶表示装置のような、テキスト及び画像等を表示する装置である。   The display terminal device 0102 is a device that displays text, images, and the like, such as a liquid crystal display device.
外部記憶装置0103は、例えばハードディスク装置又はフラッシュメモリのような記憶装置であり、入力された文書データ(例えば文書ファイル0310)及び出力された文書データ(例えばロックされた文書ファイル0312)を格納する。さらに、本実施形態を実現するために中央演算装置0105によって実行されるプログラム等が格納されてもよい。   The external storage device 0103 is a storage device such as a hard disk device or a flash memory, and stores input document data (for example, a document file 0310) and output document data (for example, a locked document file 0312). Furthermore, a program executed by the central processing unit 0105 to realize this embodiment may be stored.
メモリ0104は、例えば半導体メモリであり、中央演算装置0105によって実行されるプログラム及び参照されるデータ等を格納する。外部記憶装置0103に格納されたプログラム及びデータ等の少なくとも一部が必要に応じてメモリ0104にコピーされてもよい。   The memory 0104 is, for example, a semiconductor memory, and stores a program executed by the central processing unit 0105, data to be referred to, and the like. At least a part of programs, data, and the like stored in the external storage device 0103 may be copied to the memory 0104 as necessary.
中央演算装置0105は、メモリ0104に格納されたプログラムを実行し、必要に応じて操作端末装置0101、表示端末装置0102、外部記憶装置0103及び通信装置0107を制御する。以下の説明においてセキュア文書検出装置0100が実行する処理は、実際には中央演算装置0105によって実行される。   The central processing unit 0105 executes a program stored in the memory 0104 and controls the operation terminal device 0101, the display terminal device 0102, the external storage device 0103, and the communication device 0107 as necessary. In the following description, the processing executed by the secure document detection device 0100 is actually executed by the central processing unit 0105.
通信装置0107は、ネットワーク(図示省略)に接続され、そのネットワークに接続された他の装置(図示省略)と通信するインターフェースである。例えば、通信装置0107は入力データとして文書ファイル0310を受信し、ロックされた文書ファイル0312を送信してもよい。   The communication device 0107 is an interface that is connected to a network (not shown) and communicates with other devices (not shown) connected to the network. For example, the communication device 0107 may receive the document file 0310 as input data and transmit the locked document file 0312.
図3は、本発明の第1の実施形態のセキュア文書検出装置0100が実行する処理の全体を示す説明図である。   FIG. 3 is an explanatory diagram illustrating the entire processing executed by the secure document detection device 0100 according to the first embodiment of this invention.
セキュア文書検出装置0100が実行する処理は、学習フェーズ0500と利用フェーズ0510とに分けられる。   The processing executed by the secure document detection device 0100 is divided into a learning phase 0500 and a usage phase 0510.
学習フェーズ0500において、セキュア文書検出装置0100は、入力された情報に基づいてセキュア文書辞書0504を作成する。   In the learning phase 0500, the secure document detection device 0100 creates a secure document dictionary 0504 based on the input information.
具体的には、例えば、ユーザがセキュア文書例0501及びセキュア用語定義0502をセキュア文書検出装置0100に入力する。   Specifically, for example, the user inputs the secure document example 0501 and the secure term definition 0502 to the secure document detection apparatus 0100.
セキュア文書例0501は、セキュアな文書として検出されるべきであるとユーザが考える実際の文書ファイルである。セキュア文書例0501は、例えば通信装置0107を介してセキュア文書検出装置0100に入力されてもよい。   The secure document example 0501 is an actual document file that the user thinks should be detected as a secure document. The secure document example 0501 may be input to the secure document detection device 0100 via the communication device 0107, for example.
セキュア用語定義0502は、セキュア文書検出に用いられるキーワードのリストである。ユーザは、セキュアな文書として検出されるべき文書に含まれる文字列からなるキーワードのリストを、セキュア用語定義0502としてセキュア文書検出装置0100に入力することができる。特に、例えば「××製作所」のような文書の作成者又は所有者を示す文字列と、「設計書」のような文書の種類を示す文字列との組み合わせを含む文書をセキュア文書として検出する必要がある場合、ユーザは、このような文字列からなるキーワードの組み合わせ(以下、キーワードペアとも記載)を、セキュア用語定義0502としてセキュア文書検出装置0100に入力することができる。セキュア用語定義0502は、例えば通信装置0107を介して入力されてもよいし、操作端末装置0101を介して入力されてもよい。   The secure term definition 0502 is a list of keywords used for secure document detection. The user can input a keyword list including character strings included in a document to be detected as a secure document to the secure document detection apparatus 0100 as the secure term definition 0502. In particular, for example, a document including a combination of a character string indicating the creator or owner of a document such as “XX Manufacturing” and a character string indicating a document type such as “design document” is detected as a secure document. When necessary, the user can input a combination of keywords composed of such character strings (hereinafter also referred to as keyword pairs) to the secure document detection apparatus 0100 as the secure term definition 0502. The secure term definition 0502 may be input via the communication device 0107, for example, or may be input via the operation terminal device 0101.
セキュア文書検出装置0100は、入力されたセキュア文書例0501及びセキュア用語定義0502に基づいて、セキュア辞書学習処理0503を実行する。その結果、セキュア文書辞書0504が作成される。セキュア文書辞書0504には、後述するように(図10参照)、キーワードとして登録された文字列の組み合わせ、各キーワードペアに含まれる二つのキーワードの文書上の位置関係、等を示す情報が含まれる。なお、二つのキーワードの位置関係を示す情報は、例えば、それらのキーワードが配置される方向及び距離を表すベクトルである。このようなキーワードペアに含まれる二つのキーワードの位置関係を、以下、「キーワードペアの位置関係」とも記載する。   The secure document detection apparatus 0100 executes a secure dictionary learning process 0503 based on the input secure document example 0501 and the secure term definition 0502. As a result, a secure document dictionary 0504 is created. As will be described later (see FIG. 10), the secure document dictionary 0504 includes information indicating a combination of character strings registered as keywords, a positional relationship between two keywords included in each keyword pair, and the like. . Note that the information indicating the positional relationship between the two keywords is, for example, a vector representing the direction and distance in which the keywords are arranged. Hereinafter, the positional relationship between two keywords included in such a keyword pair is also referred to as “the positional relationship between keyword pairs”.
次に、利用フェーズ0510について説明する。ユーザは、セキュア文書検出装置0100に非管理文書0511を入力する。非管理文書0511は、ユーザがこれから管理しようとする文書であり、言い換えると、それがセキュアな情報を含んでいるか否かを判定する必要がある文書である。その判定結果に応じて、その文書の管理方法(例えば文書をロックするか否か等)が決定される。非管理文書0511は、例えば、図1の文書ファイル0310に相当する。   Next, the usage phase 0510 will be described. The user inputs the unmanaged document 0511 to the secure document detection apparatus 0100. The unmanaged document 0511 is a document that the user intends to manage from now on. In other words, it is a document that needs to be determined whether or not it includes secure information. In accordance with the determination result, the document management method (for example, whether to lock the document or the like) is determined. The unmanaged document 0511 corresponds to, for example, the document file 0310 in FIG.
セキュア文書検出装置0100は、入力された非管理文書0511について、文書要素抽出処理0512を実行する。これによって、非管理文書0511から文書要素、すなわち、テキスト、キーワード(KW)、罫線、キーワードの位置を示す情報、及びブロックの配置を示す情報等が抽出される。なお、キーワード及びその位置を抽出するために、セキュア文書辞書0504に含まれるキーワード情報0513が参照される。   The secure document detection device 0100 executes document element extraction processing 0512 for the input non-management document 0511. As a result, document elements, that is, text, keyword (KW), ruled line, information indicating the position of the keyword, information indicating the arrangement of blocks, and the like are extracted from the unmanaged document 0511. In order to extract a keyword and its position, the keyword information 0513 included in the secure document dictionary 0504 is referred to.
入力された非管理文書0511のファイル形式と、文書要素抽出処理0512によって処理できるファイル形式とが異なる場合、セキュア文書検出装置0100は、文書変換処理0517を実行して、入力された非管理文書0511のファイル形式を変換する。例えば、文書要素抽出処理0512がPDFファイルしか処理できないにもかかわらず、それ以外の形式のファイル(例えば一般的な文書作成ソフトウェアによって作成された文書ファイル)が非管理文書0511として入力された場合、文書変換処理0517によって、非管理文書0511のファイル形式がPDFに変換される。   If the file format of the input unmanaged document 0511 and the file format that can be processed by the document element extraction process 0512 are different, the secure document detection apparatus 0100 executes the document conversion process 0517 to input the input unmanaged document 0511. Convert the file format. For example, when the document element extraction process 0512 can process only a PDF file, but a file in another format (for example, a document file created by general document creation software) is input as the unmanaged document 0511, A document conversion process 0517 converts the file format of the unmanaged document 0511 to PDF.
次に、セキュア文書検出装置0100は、文書要素抽出処理0512によって抽出された文書情報0518について、セキュア文書判定処理0515を実行する。具体的には、セキュア文書検出装置0100は、文書情報0518と、セキュア文書辞書0504に含まれるパタン情報・配置尤度0514と、を参照して、入力された非管理文書0511のセキュア情報尤度を算出し、それに基づいて、非管理文書0511がセキュア文書であるか否か(すなわちセキュアな情報を含むか否か)を判定する。   Next, the secure document detection device 0100 executes secure document determination processing 0515 for the document information 0518 extracted by the document element extraction processing 0512. Specifically, the secure document detection apparatus 0100 refers to the document information 0518 and the pattern information / placement likelihood 0514 included in the secure document dictionary 0504, and the secure information likelihood of the input unmanaged document 0511. And whether or not the non-managed document 0511 is a secure document (that is, whether or not it includes secure information) is determined based on this.
そして、セキュア文書検出装置0100は、セキュア文書判定処理0515の結果0516を出力する。この結果は非管理文書0511がセキュア文書であるか否かを示す情報を含み、さらに、セキュア尤度又はそれに基づく危険度を示す情報等を含んでもよい。   Then, the secure document detection device 0100 outputs a result 0516 of the secure document determination process 0515. This result includes information indicating whether or not the unmanaged document 0511 is a secure document, and may further include information indicating a secure likelihood or a risk based on the secure likelihood.
なお、セキュア文書辞書0504を予め保持していれば、セキュア文書検出装置0100は、学習フェーズ0500を実行せずに、利用フェーズ0510のみを実行することができる。例えば、ユーザは、セキュア文書検出装置0100のメーカが作成したセキュア文書辞書0504を取得してもよいし、他のユーザが学習フェーズ0500を実行することによって作成したセキュア文書辞書0504を取得してもよい。   If the secure document dictionary 0504 is held in advance, the secure document detection device 0100 can execute only the use phase 0510 without executing the learning phase 0500. For example, the user may acquire the secure document dictionary 0504 created by the manufacturer of the secure document detection device 0100, or may acquire the secure document dictionary 0504 created by another user executing the learning phase 0500. Good.
図4は、本発明の第1の実施形態の文書要素抽出処理0512及びセキュア文書判定処理0515の詳細な手順を説明するフローチャートである。   FIG. 4 is a flowchart illustrating detailed procedures of the document element extraction process 0512 and the secure document determination process 0515 according to the first embodiment of this invention.
セキュア文書検出装置0100は、入力された電子文書ファイル0411について、文書要素を抽出する(ステップ0401)。具体的には、セキュア文書検出装置0100は、電子文書ファイル0411から、その電子文書に含まれるテキストの文字情報、その文字が書かれる紙面上の位置、罫線の位置、等を抽出する。これによって、各文字が抽出され、さらに、各文字の位置及び罫線の位置から、各行に相当する文字列が特定される。なお、電子文書ファイル0411は、図3の非管理文書0511に相当する。   The secure document detection device 0100 extracts document elements from the input electronic document file 0411 (step 0401). Specifically, the secure document detection device 0100 extracts from the electronic document file 0411 character information of text included in the electronic document, a position on the paper where the character is written, a ruled line position, and the like. Thereby, each character is extracted, and further, a character string corresponding to each line is specified from the position of each character and the position of the ruled line. The electronic document file 0411 corresponds to the unmanaged document 0511 in FIG.
次に、セキュア文書検出装置0100は、抽出された文書要素を用いて、文書構造を解析する(ステップ0402)。具体的には、セキュア文書検出装置0100は、抽出された文字及び罫線の位置等に基づいて、文書上の文字をブロックに分ける。例えば、文書がヘッダ、フッタ及び本文からなる場合、ヘッダ、フッタ及び本文がそれぞれ一つのブロックとして識別される。本文が段組みされている場合、各段が一つのブロックとして識別される。文書に表が含まれる場合、その表が一つのブロックとして識別される。セキュア文書検出装置0100は、ステップ0402において文書構造辞書(図示省略)を参照してもよい。これによって、ステップ0401で抽出された各行が属するブロックが特定される。このような文書構造の解析は、公知の方法によって行うことができる。例えば、X−Y再帰的解析法、文字列間移動距離最小法などの手法がある。   Next, the secure document detection device 0100 analyzes the document structure using the extracted document element (step 0402). Specifically, the secure document detection device 0100 divides characters on the document into blocks based on the extracted characters and the positions of ruled lines. For example, when a document includes a header, a footer, and a body, the header, the footer, and the body are each identified as one block. If the text is in columns, each column is identified as one block. If the document contains a table, the table is identified as a block. The secure document detection device 0100 may refer to a document structure dictionary (not shown) in step 0402. As a result, the block to which each row extracted in step 0401 belongs is specified. Such document structure analysis can be performed by a known method. For example, there are methods such as an XY recursive analysis method and a character string moving distance minimum method.
次に、セキュア文書検出装置0100は、ブロック及び行を、テキストの読み順(言い換えると、それらが文書中に現れる順)に整合するように並べ替える(ステップ0403)。これによって、各ブロック内の行がテキストの読み順に並べ替えられ、さらに、ブロックもテキストの読み順に並べ替えられる。例えば本文が複数のブロックからなる場合、それらのブロックがテキストの読み順に並べ替えられる。この並べ替えも、ステップ0402と同様、公知の方法によって行うことができる。   Next, the secure document detection device 0100 rearranges the blocks and lines so as to match the reading order of the text (in other words, the order in which they appear in the document) (step 0403). Thereby, the lines in each block are rearranged in the text reading order, and the blocks are also rearranged in the text reading order. For example, when the body is composed of a plurality of blocks, these blocks are rearranged in the reading order of the text. Similar to step 0402, this rearrangement can also be performed by a known method.
次に、セキュア文書検出装置0100は、文書要素を抽出する(ステップ0404)。具体的には、セキュア文書検出装置0100は、罫線、及び、その罫線等によって形成されたレイアウトを抽出する。さらに、セキュア文書検出装置0100は、ステップ0401において抽出された文字列からキーワードを抽出する。具体的には、セキュア文書検出装置0100は、セキュア文書辞書のキーワード情報0412に登録されたキーワードを検索キーとして、ステップ0401において抽出された文字列を検索する。キーワード情報0412は、図3のキーワード情報0513に相当する。   Next, the secure document detection device 0100 extracts document elements (step 0404). Specifically, the secure document detection device 0100 extracts a ruled line and a layout formed by the ruled line and the like. Further, the secure document detection device 0100 extracts a keyword from the character string extracted in step 0401. Specifically, the secure document detection device 0100 searches for the character string extracted in step 0401 using the keyword registered in the keyword information 0412 of the secure document dictionary as a search key. The keyword information 0412 corresponds to the keyword information 0513 in FIG.
次に、セキュア文書検出装置0100は、セキュア文書辞書に含まれるパタン情報0413を用いてセキュア情報尤度を算出する(ステップ0405)。セキュア情報尤度とは、入力された文書のセキュア文書らしさを示す指標である(詳細は後述)。パタン情報0413は、図3のパタン情報・配置尤度0514の一部に相当する。   Next, the secure document detection device 0100 calculates the secure information likelihood using the pattern information 0413 included in the secure document dictionary (step 0405). The secure information likelihood is an index indicating the secure document quality of the input document (details will be described later). The pattern information 0413 corresponds to a part of the pattern information / placement likelihood 0514 in FIG.
次に、セキュア文書検出装置0100は、セキュア文書辞書に含まれる配置尤度情報0414を用いてセキュア情報尤度を算出する(ステップ0406)。配置尤度情報0414は、図3のパタン情報・配置尤度0514の一部に相当する。   Next, the secure document detection device 0100 calculates secure information likelihood using the placement likelihood information 0414 included in the secure document dictionary (step 0406). The placement likelihood information 0414 corresponds to a part of the pattern information / placement likelihood 0514 of FIG.
セキュア情報尤度の算出については後述する(図8〜図9及び数式(1)〜(3)等参照)。   The calculation of the secure information likelihood will be described later (see FIGS. 8 to 9 and equations (1) to (3)).
セキュア文書検出装置0100は、ステップ0405及び0406において算出されたセキュア情報尤度に基づいて、入力された電子文書がセキュア文書であるか否かを判定する(ステップ0407)。例えば、セキュア文書検出装置0100は、算出されたセキュア情報尤度が所定の閾値より大きい場合、入力された電子文書がセキュア文書であると判定してもよい。ユーザがこの閾値を設定してもよい。   The secure document detection device 0100 determines whether or not the input electronic document is a secure document based on the secure information likelihood calculated in steps 0405 and 0406 (step 0407). For example, the secure document detection device 0100 may determine that the input electronic document is a secure document when the calculated secure information likelihood is greater than a predetermined threshold. The user may set this threshold value.
ステップ0407において、入力された電子文書がセキュア文書である(すなわち「Yes」)と判定された場合、セキュア文書検出装置0100は、入力された電子文書ファイル0411をロックする(ステップ0408)。一方、入力された電子文書がセキュア文書でない(すなわち「No」)と判定された場合、セキュア文書検出装置0100はステップ0408を実行しない。   If it is determined in step 0407 that the input electronic document is a secure document (ie, “Yes”), the secure document detection device 0100 locks the input electronic document file 0411 (step 0408). On the other hand, when it is determined that the input electronic document is not a secure document (that is, “No”), the secure document detection device 0100 does not execute Step 0408.
次に、セキュア文書検出装置0100は、電子文書を出力する(ステップ0409)。具体的には、セキュア文書検出装置0100は、ステップ0407で「Yes」の場合、ロックされた電子文書を出力し、「No」の場合、ロックされていない電子文書(すなわち入力された電子文書ファイル0411そのもの)を出力する。出力された電子文書0415(図1の文書ファイル0312に相当)は、外部記憶装置0103に格納される。さらに、セキュア文書検出装置0100は、セキュア情報尤度そのものを出力してもよいし、セキュア情報尤度に基づいて決定される危険度(又は要求される保護レベル)を出力してもよい。   Next, the secure document detection device 0100 outputs an electronic document (step 0409). Specifically, the secure document detection device 0100 outputs a locked electronic document if “Yes” in step 0407, and if it is “No”, the secure document detection device 0100 does not lock the electronic document (that is, the input electronic document file). 0411 itself) is output. The output electronic document 0415 (corresponding to the document file 0312 in FIG. 1) is stored in the external storage device 0103. Further, the secure document detection device 0100 may output the secure information likelihood itself, or may output the risk (or required protection level) determined based on the secure information likelihood.
なお、上記はステップ0407において文書がセキュア文書であるか否かを判定する例を示したが、ステップ0407においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、セキュア文書検出装置0100は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて電子文書の出力方法(例えば使用する暗号の強度等)が選択されてもよい。例えば、セキュア文書検出装置0100は、より高いランクの電子文書ファイル0411を暗号化するために、より長い暗号鍵を使用してもよい。   In the above, an example in which it is determined in step 0407 whether or not the document is a secure document has been described. However, in step 0407, multivalue determination may be performed instead of such binary determination. For example, the secure document detection device 0100 may determine the rank of the secure information likelihood by comparing the calculated secure information likelihood with a plurality of threshold values. In this case, an electronic document output method (for example, the strength of encryption used) may be selected according to the determined rank. For example, the secure document detection device 0100 may use a longer encryption key to encrypt the higher-ranked electronic document file 0411.
以下、図4の処理の詳細を説明する。   Hereinafter, details of the processing of FIG. 4 will be described.
図5は、本発明の第1の実施形態のセキュア文書検出装置0100に入力されるセキュア文書の具体例の説明図である。   FIG. 5 is an explanatory diagram of a specific example of a secure document input to the secure document detection apparatus 0100 according to the first embodiment of this invention.
本発明は、アクセスを制限する必要があるセキュア文書に適用することができる。そのようなセキュア文書の典型例は、自社が作成した自社の機密情報を含む文書、他社から取得した当該他社の機密情報を含む文書、又は顧客等の個人情報を含む文書、等である。このような典型例について説明する。   The present invention can be applied to secure documents in which access needs to be restricted. A typical example of such a secure document is a document including the confidential information of the company created by the company, a document including confidential information of the other company acquired from another company, or a document including personal information of a customer or the like. Such a typical example will be described.
図5(a)〜図5(c)は、文書のタイトル及び特定の企業の名称が表示されたセキュア文書の例である。例えば、文書の表紙のタイトルに「設計書」、「仕様書」又は「アライアンス」等の特定の文字列が含まれ、さらに、その表紙に(例えばその文書の作成者又はその文書の配布先として)特定の企業名「××」又は「××製作所」が含まれる。なお、図5に表示されたアンダーライン0601は、各文書に表示された特定の文字列及び企業名等を指し示して本実施形態を説明するために表示したものであり、そのアンダーライン0601自体が文書に表示されているわけではない。   FIG. 5A to FIG. 5C are examples of a secure document in which the document title and the name of a specific company are displayed. For example, the title of the cover page of a document includes a specific character string such as “design document”, “specification document”, or “alliance”. ) The specific company name “XX” or “XX Manufacturing” is included. Note that the underline 0601 displayed in FIG. 5 indicates the specific character string, company name, and the like displayed in each document to explain the present embodiment, and the underline 0601 itself is It is not displayed in the document.
図5(d)〜図5(f)は、ヘッダ等に特定の文字列(例えば企業名)を含み、さらにその文字列の隣に特定の接頭辞又は接尾辞を含むセキュア文書の例である。図5(d)の例では、特定の文字列「(株)××」の隣に特定の接尾辞「作成」が表示される。図5(e)の例では、特定の文字列「××」の隣に特定の接尾辞「confidential」が表示される。図5(e)の例では、特定の文字列「××」の隣に特定の接尾辞「Prepeard」が表示される。   FIG. 5D to FIG. 5F are examples of secure documents that include a specific character string (for example, a company name) in the header and the like, and further include a specific prefix or suffix next to the character string. . In the example of FIG. 5D, a specific suffix “created” is displayed next to a specific character string “(stock) xx”. In the example of FIG. 5 (e), a specific suffix “confidental” is displayed next to the specific character string “XX”. In the example of FIG. 5 (e), a specific suffix “Prepeard” is displayed next to the specific character string “XX”.
図5(g)及び図5(h)は、それぞれ設計図面及び製品仕様書の例である。この種の文書は、必ずしも特定の文字列を含んでいないが、罫線を用いた特定のフォーマットを有する場合が多い。   FIG. 5G and FIG. 5H are examples of design drawings and product specifications, respectively. This type of document does not necessarily include a specific character string, but often has a specific format using ruled lines.
図5(i)は、機密情報を含むことを示す文字列又は図形(例えば、「秘」のような文字を含む印影)が表示された文書の例である。   FIG. 5I is an example of a document in which a character string or a graphic (for example, an imprint including a character such as “secret”) indicating that confidential information is included is displayed.
図5(j)及び図5(k)は、文書中に特定の文字列と特定の接頭辞又は接尾辞とが混在している例を示す。   FIG. 5 (j) and FIG. 5 (k) show an example in which a specific character string and a specific prefix or suffix are mixed in a document.
図5(j)の例では、本文中に「北海道」及びそれに連続して「札幌市」と表示され、フッタに「北海道」及びそれに連続して「製作所」が表示されている。この場合、本文中の「北海道」は単なる地名であるが、フッタの「北海道」は特定の企業名(又はその一部)である。   In the example of FIG. 5 (j), “Hokkaido” and “Sapporo City” are displayed in the text, and “Hokkaido” and “Manufacturing” are displayed in the footer. In this case, “Hokkaido” in the text is merely a place name, but “Hokkaido” in the footer is a specific company name (or part thereof).
図5(k)の例では、本文中に人名を示す特定の文字列「××△△」が表示され、さらにその前後に隣接して文字列「出席」及び「様」が表示されている。   In the example of FIG. 5 (k), a specific character string “XXΔΔ” indicating a person's name is displayed in the text, and character strings “attendance” and “like” are displayed adjacently before and after the character string. .
本実施形態のセキュア文書検出装置0100は、入力された文書に含まれるキーワード、そのキーワードが記載された位置、及びその文書のフォーマット等に基づいてこれらのセキュア文書を検出する。   The secure document detection apparatus 0100 according to the present embodiment detects these secure documents based on a keyword included in the input document, a position where the keyword is described, a format of the document, and the like.
図5に示す文書は、例えばセキュア文書例0501としてセキュア文書検出装置0100に入力されてもよいし、非管理文書0511(すなわち電子文書ファイル0411)としてセキュア文書検出装置0100に入力されてもよい。   The document shown in FIG. 5 may be input to the secure document detection apparatus 0100 as the secure document example 0501, for example, or may be input to the secure document detection apparatus 0100 as the unmanaged document 0511 (that is, the electronic document file 0411).
例えば、図5(a)に示す文書がセキュア文書例0501として入力され、さらに、文字列「設計書」及び「××製作所」がセキュア用語定義0502として入力された場合、それらの入力に基づいてセキュア辞書学習処理0503が実行される。その結果、文字列「設計書」及び「××製作所」がキーワードとしてセキュア文書辞書0504に登録される。さらに、それらのキーワードの位置関係(例えばそれらの間の距離及びそれらが配置される方向を表すベクトル)もセキュア文書例0501から抽出され、セキュア文書辞書0504に登録される。このとき、例えば「××製作所」が主キーワード、「設計書」が補助キーワードとして、それらの組(キーワードペア)が登録されてもよい。   For example, when the document shown in FIG. 5A is input as the secure document example 0501 and the character strings “design document” and “XX manufactory” are input as the secure term definition 0502, based on those inputs. A secure dictionary learning process 0503 is executed. As a result, the character strings “design document” and “xx factory” are registered in the secure document dictionary 0504 as keywords. Further, the positional relationship of these keywords (for example, a vector representing the distance between them and the direction in which they are arranged) is also extracted from the secure document example 0501 and registered in the secure document dictionary 0504. At this time, for example, “XX factory” is the main keyword, and “design document” is the auxiliary keyword, and those sets (keyword pairs) may be registered.
なお、本実施形態では主に会社名「××製作所」のような固有名詞を主キーワード、「設計書」のような普通名詞を補助キーワードとして扱う例を示すが、実際には任意の文字列を主キーワード及び補助キーワードとして登録することができる。例えば、補助キーワード「××製作所」と主キーワード「設計書」とからなるキーワードペアが登録されてもよい。   In this embodiment, an example is shown in which a proper noun such as a company name “XX Manufacturing” is mainly treated as a main keyword, and a common noun such as “design document” is treated as an auxiliary keyword. Can be registered as a main keyword and an auxiliary keyword. For example, a keyword pair made up of an auxiliary keyword “XX factory” and a main keyword “design document” may be registered.
図5(a)に示す文書が非管理文書0511(すなわち電子文書ファイル0411)として入力された場合、その文書から抽出された複数のキーワード及びそれらの位置関係と、登録されている複数のキーワード及びそれらの位置関係とが参照され、その文書がセキュア文書であるか否かが判定される。   When the document shown in FIG. 5A is input as an unmanaged document 0511 (that is, an electronic document file 0411), a plurality of keywords extracted from the document and their positional relationships, a plurality of registered keywords, These positional relationships are referred to, and it is determined whether or not the document is a secure document.
図5(b)〜図5(f)、図5(j)及び図5(k)に示す文書も上記と同様である。すなわち、それらの文書に含まれる会社名、文書タイトル、接頭辞及び接尾辞等の文字列が主キーワード又は補助キーワードとして登録され、それらのキーワードに基づいて入力された文書がセキュア文書であるか否かが判定される。   The documents shown in FIGS. 5B to 5F, FIG. 5J, and FIG. 5K are the same as described above. That is, character strings such as company names, document titles, prefixes and suffixes included in those documents are registered as main keywords or auxiliary keywords, and whether or not a document input based on these keywords is a secure document. Is determined.
なお、図5に示す文書は典型例に過ぎず、本発明はあらゆる種類のセキュア文書に適用することができる。   The document shown in FIG. 5 is merely a typical example, and the present invention can be applied to all types of secure documents.
図6は、本発明の第1の実施形態のセキュア文書検出装置0100が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。   FIG. 6 is an explanatory diagram of secure document detection based on a combination of a plurality of keywords executed by the secure document detection apparatus 0100 according to the first embodiment of this invention.
図6に示す文書0701が非管理文書0511として入力されると、セキュア文書検出装置0100は、入力された文書から、自社名を示す主キーワード「××」と補助キーワード「confidential」とからなるキーワードペア、及び、他社名を示すキーワード「北海道」と補助キーワード「作成」とからなるキーワードペアを抽出する。そして、セキュア文書検出装置0100は、抽出されたキーワードペア及び各キーワードペアの位置関係を、セキュア文書辞書0504に登録された情報と比較することによって、セキュア情報尤度を算出する。   When the document 0701 shown in FIG. 6 is input as the unmanaged document 0511, the secure document detection apparatus 0100, from the input document, the keyword including the main keyword “xx” indicating the company name and the auxiliary keyword “confidental”. A keyword pair consisting of a pair and a keyword “Hokkaido” indicating the name of another company and an auxiliary keyword “creation” is extracted. Then, the secure document detection device 0100 calculates the secure information likelihood by comparing the extracted keyword pair and the positional relationship of each keyword pair with the information registered in the secure document dictionary 0504.
図7は、本発明の第1の実施形態のセキュア文書検出装置0100によって識別されるブロックの説明図である。   FIG. 7 is an explanatory diagram of blocks identified by the secure document detection device 0100 according to the first embodiment of this invention.
具体的には、図7には、図4のステップ0402において抽出され、ステップ0403において並べ替えられたブロックの具体例を示す。   Specifically, FIG. 7 shows a specific example of blocks extracted in step 0402 of FIG. 4 and rearranged in step 0403.
図7(a)に示す文書0820は、タイトル0851、著者名0852及び本文0853からなる。この文書0820が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、ブロックB1_0801、ブロックB2_0802及びブロックB3_0803を抽出する(ステップ0402)。ブロックB1_0801はタイトル0851が表示された領域に、ブロックB2_0802は著者名0852が表示された領域に、ブロックB3_0803は本文0853が表示された領域に相当する。   A document 0820 shown in FIG. 7A is composed of a title 0851, an author name 0852, and a text 0853. When this document 0820 is input as the electronic document file 0411, the secure document detection apparatus 0100 extracts the block B1_0801, the block B2_0802, and the block B3_0803 (step 0402). Block B1_0801 corresponds to the area where the title 0851 is displayed, block B2_0802 corresponds to the area where the author name 0852 is displayed, and block B3_0803 corresponds to the area where the body text 0853 is displayed.
図7(b)に示す文書0830は、本文0855及び本文0856を含む。この例において本文は段組みされており、本文0855及び本文0856が各段に相当し、本文0856は本文0855の次に読まれるべきものである。この文書0830が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、本文0855が表示された領域に相当するブロックB5_0805、及び、本文0856が表示された領域に相当するブロックB6_0806を抽出する(ステップ0402)。さらに、セキュア文書検出装置0100は、本文の読み順と同様、ブロックB6_0806がブロックB5_0805の後に続くようにこれらのブロックを並べ替える(ステップ0403)。   A document 0830 shown in FIG. 7B includes a text 0855 and a text 0856. In this example, the text is in a column, and the text 0855 and the text 0856 correspond to each level, and the text 0856 should be read after the text 0855. When this document 0830 is input as the electronic document file 0411, the secure document detection device 0100 extracts the block B5_0805 corresponding to the area where the text 0855 is displayed and the block B6_0806 corresponding to the area where the text 0856 is displayed. (Step 0402). Further, the secure document detection device 0100 rearranges these blocks so that the block B6_0806 follows the block B5_0805 in the same manner as the reading order of the text (step 0403).
図7(c)に示す文書0840は、本文0857、本文0858、脚注0859、ヘッダ0860及びフッタ0861を含む。この例において本文は段組みされており、本文0857及び本文0858が各段に相当し、本文0858は本文0857の次に読まれるべきものである。   A document 0840 shown in FIG. 7C includes a text 0857, a text 0858, a footnote 0859, a header 0860, and a footer 0861. In this example, the text is in a column, and the text 0857 and the text 0858 correspond to each level, and the text 0858 should be read after the text 0857.
この文書0840が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、ブロックB7_0807、ブロックB8_0808、ブロックB9_0809、ブロックB10_0810及びブロックB11_0811を抽出する(ステップ0402)。ブロックB7_0807及びブロックB8_0808はそれぞれ本文0857及び本文0858が表示された領域に、ブロックB9_0809は脚注0859が表示された領域に、ブロックB10_0810及びブロックB11_0811はそれぞれヘッダ0860及びフッタ0861が表示された領域に相当する。   When this document 0840 is input as the electronic document file 0411, the secure document detection apparatus 0100 extracts block B7_0807, block B8_0808, block B9_0809, block B10_0810, and block B11_0811 (step 0402). Block B7_0807 and block B8_0808 correspond to the area where the text 0857 and text 0858 are displayed, block B9_0809 corresponds to the area where the footnote 0859 is displayed, block B10_0810 and block B11_0811 correspond to the area where the header 0860 and footer 0861 are displayed, respectively To do.
さらに、セキュア文書検出装置0100は、本文の読み順と同様、ブロックB8_0808がブロックB7_0807の後に続くようにこれらのブロックを並べ替える(ステップ0403)。   Further, the secure document detection device 0100 rearranges these blocks so that the block B8_0808 follows the block B7_0807, similarly to the reading order of the text (step 0403).
図8A〜図8Eは、本発明の第1の実施形態のセキュア文書検出装置0100が実行するキーワード抽出及びセキュア文書判定の具体例を示す説明図である。   8A to 8E are explanatory diagrams illustrating specific examples of keyword extraction and secure document determination executed by the secure document detection device 0100 according to the first embodiment of this invention.
図8Aの例では、電子文書ファイル0411として文書0610が入力される。文書0610は、図5(a)に示したものと同じである。この文書0610には文字列「設計書」0611及び「××製作所」0612が含まれる。例えば、会社名に相当する主キーワード「××製作所」と、補助キーワード「設計書」との組み合わせ(キーワードペア)がキーワード情報0412に登録されている場合、セキュア文書検出装置0100は、ステップ0404のキーワード抽出処理によって文字列「設計書」0611及び「××製作所」0612をそれぞれ補助キーワード0613及び主キーワード0614として抽出する。   In the example of FIG. 8A, a document 0610 is input as the electronic document file 0411. The document 0610 is the same as that shown in FIG. The document 0610 includes a character string “design document” 0611 and “XX Manufacturing” 0612. For example, when the combination (keyword pair) of the main keyword “XX factory” corresponding to the company name and the auxiliary keyword “design document” is registered in the keyword information 0412, the secure document detection apparatus 0100 performs step 0404. The character strings “design document” 0611 and “xx factory” 0612 are extracted as the auxiliary keyword 0613 and the main keyword 0614, respectively, by the keyword extraction process.
なお、図8Aの左側の文書0610は、入力される文書に実際に表示されている文字等を示す。一方、中央及び右側の文書0610は、キーワード抽出処理を説明するための図面である。すなわち、二重線の楕円及び二重線の長方形等の図形、並びに、「会社名」及び「補助KW」等の文字は、実際に文書0610に表示されているものではなく、キーワード抽出処理を説明する便宜上付与したものである。これは、図8B〜図8Eについても同様である。   Note that a document 0610 on the left side of FIG. 8A indicates characters or the like actually displayed in the input document. On the other hand, the center and right side documents 0610 are diagrams for explaining the keyword extraction processing. That is, figures such as double-line ellipses and double-line rectangles, and characters such as “company name” and “auxiliary KW” are not actually displayed in the document 0610, and keyword extraction processing is performed. It is given for convenience of explanation. The same applies to FIGS. 8B to 8E.
さらに、セキュア文書検出装置0100は、抽出された主キーワード0614及び補助キーワード0613の位置関係に基づいて、両者の関連の強さを算出し、その関連の強さ等に基づいて、抽出されたキーワードペアが連携キーワードペアであるか否かを判定する。本実施形態では、二つのキーワード間のユークリッド距離、及び、それぞれのキーワードの文脈上の距離に基づいて、両者の関連の強さが算出される。連携キーワードペアの意義については図8C等を参照して、連携キーワードペアの判定基準については数式(1)等を参照してそれぞれ後述する。   Further, the secure document detection device 0100 calculates the strength of the relationship between the extracted main keyword 0614 and auxiliary keyword 0613 based on the positional relationship between the extracted keyword and the extracted keyword based on the strength of the relationship. It is determined whether the pair is a linked keyword pair. In the present embodiment, based on the Euclidean distance between two keywords and the contextual distance of each keyword, the strength of the relationship between the two keywords is calculated. The significance of the cooperative keyword pair will be described later with reference to FIG. 8C and the like, and the criterion for determining the cooperative keyword pair will be described later with reference to Equation (1) and the like.
抽出された主キーワード0614及び補助キーワード0613が連携キーワードペアである場合、それらの位置関係、具体的には位置関係を表すベクトル0615が抽出される。このベクトル0615は、主キーワード0614から補助キーワード0613に向かう方向、及び、それらの間の距離を表す。このベクトル0615と、セキュア文書辞書0504に登録されている主キーワード「××製作所」と補助キーワード「設計書」との位置関係を示すベクトルとの類似度が所定の閾値より高い場合、文書0610がセキュア文書であると判定される。   When the extracted main keyword 0614 and auxiliary keyword 0613 are linked keyword pairs, a positional relationship between them, specifically, a vector 0615 representing the positional relationship is extracted. This vector 0615 represents the direction from the main keyword 0614 to the auxiliary keyword 0613 and the distance between them. When the similarity between the vector 0615 and the vector indicating the positional relationship between the main keyword “xx factory” and the auxiliary keyword “design document” registered in the secure document dictionary 0504 is higher than a predetermined threshold, the document 0610 is It is determined that the document is a secure document.
なお、ユーザが予め学習フェーズ0500において文書0610をセキュア文書例0501としてセキュア文書検出装置0100に入力し、さらに、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせをセキュア用語定義0502として入力すれば、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせ、及び、文書0610におけるそれらのキーワードの位置関係を示す情報がキーワード情報0412としてセキュア文書辞書0504に登録される。その後、文書0610(又は、文書0610と同様に文字列「設計書」及び「××製作所」を含む文書)が入力された場合、セキュア文書検出装置0100は、キーワード情報0412を参照して、入力された文書から上記のように主キーワード0614及び補助キーワード0613を抽出し、それらに基づいて文書0610がセキュア文書か否かを判定することができる。これは、続いて説明する図8B及び図8Cについても同様である。   In the learning phase 0500, the user inputs the document 0610 in advance to the secure document detection apparatus 0100 as the secure document example 0501. Further, the secure keyword definition 0502 is a combination of the main keyword “XX factory” and the auxiliary keyword “design document”. As the keyword information 0412, the combination of the main keyword “XX factory” and the auxiliary keyword “design document” and the positional relationship of these keywords in the document 0610 are registered in the secure document dictionary 0504. . Thereafter, when the document 0610 (or a document including the character strings “design document” and “xx manufacturing” as in the document 0610) is input, the secure document detection device 0100 refers to the keyword information 0412 and inputs it. As described above, the main keyword 0614 and the auxiliary keyword 0613 are extracted from the obtained document, and it can be determined based on them whether the document 0610 is a secure document. The same applies to FIGS. 8B and 8C described later.
図8Bの例では、電子文書ファイル0411として文書0620が入力される。文書0620は、図5(d)に示したものと同じである。この文書0620には文字列「(株)××」0621及び「作成」0622が含まれる。例えば、会社名に相当する主キーワード「(株)××」と、補助キーワード「作成」との組み合わせがキーワード情報0412として登録されている場合、ステップ0404のキーワード抽出処理によって文字列「(株)××」0621及び「作成」0622がそれぞれ主キーワード0623及び補助キーワード0624として抽出される。この場合も、図8Aの場合と同様、抽出されたキーワード間の位置関係を示すベクトル0625が特定され、それに基づいて文書0620がセキュア文書であるか否かが判定される。   In the example of FIG. 8B, a document 0620 is input as the electronic document file 0411. The document 0620 is the same as that shown in FIG. This document 0620 includes a character string “(share) xx” 0621 and “creation” 0622. For example, when the combination of the main keyword “(stock) XX” corresponding to the company name and the auxiliary keyword “creation” is registered as the keyword information 0412, the character string “(stock)” is obtained by the keyword extraction process in step 0404. “XX” 0621 and “Create” 0622 are extracted as the main keyword 0623 and the auxiliary keyword 0624, respectively. Also in this case, as in the case of FIG. 8A, the vector 0625 indicating the positional relationship between the extracted keywords is specified, and based on this, it is determined whether or not the document 0620 is a secure document.
図8Cの例では、電子文書ファイル0411として文書0630が入力される。文書0630は、図5(j)に示したものと同じである。この文書0630には文字列「北海道」0631、「製作所」0632及び「北海道」0633が含まれる。例えば、会社名「北海道製作所」の前半部分に相当する主キーワード「北海道」と、後半部分に相当する補助キーワード「製作所」との組み合わせがキーワード情報0412として登録されている場合、ステップ0404のキーワード抽出処理によって文字列「北海道」0631及び「製作所」0632がそれぞれ会社名0634を構成する主キーワード0635及び補助キーワード0636として抽出される。この場合も、図8Aの場合と同様、抽出されたキーワード間の位置関係を示すベクトル0637が特定され、それに基づいて文書0630がセキュア文書であるか否かが判定される。   In the example of FIG. 8C, a document 0630 is input as the electronic document file 0411. The document 0630 is the same as that shown in FIG. This document 0630 includes character strings “Hokkaido” 0631, “Manufacturing” 0632, and “Hokkaido” 0633. For example, if a combination of the main keyword “Hokkaido” corresponding to the first half of the company name “Hokkaido Manufacturing” and the auxiliary keyword “manufacturing” corresponding to the second half is registered as the keyword information 0412, the keyword extraction in step 0404 is performed. Through the processing, the character strings “Hokkaido” 0631 and “Manufacturer” 0632 are extracted as the main keyword 0635 and the auxiliary keyword 0636 constituting the company name 0634, respectively. Also in this case, as in the case of FIG. 8A, the vector 0637 indicating the positional relationship between the extracted keywords is specified, and based on this, it is determined whether or not the document 0630 is a secure document.
なお、文書0630には、会社名の前半部分と同一の文字列「北海道」0633も含まれている。この場合、「北海道」0633と「製作所」0632との組み合わせもキーワードペアとして抽出される。しかし、文字列「北海道」0633の後に文字列「札幌市」が続いていることからわかるように、この文字列「北海道」0633は会社名の一部ではなく単なる地名である。   The document 0630 also includes a character string “Hokkaido” 0633 that is the same as the first half of the company name. In this case, a combination of “Hokkaido” 0633 and “Manufacturer” 0632 is also extracted as a keyword pair. However, as can be seen from the character string “Hokkaido” 0633 followed by the character string “Sapporo City”, this character string “Hokkaido” 0633 is not a part of the company name, but merely a place name.
例えば、「北海道製作所」なる会社が作成した資料のフッタ部分には、例えば図8Cに示すように「北海道製作所」という文字列が印刷され、そのような文書をセキュア文書として検出する必要がある場合、ユーザは、主キーワード「北海道」と補助キーワード「製作所」とを含むキーワードペア、及び、それらの位置関係を表すベクトル(例えばベクトル0637と同等のベクトル)をセキュア文書辞書0504に登録することができる。   For example, in the footer portion of the material created by the company “Hokkaido Seisakusho”, for example, a character string “Hokkaido Seisakusho” is printed as shown in FIG. 8C, and it is necessary to detect such a document as a secure document. The user can register a keyword pair including the main keyword “Hokkaido” and the auxiliary keyword “manufacturer” and a vector (for example, a vector equivalent to the vector 0637) representing the positional relationship thereof in the secure document dictionary 0504. .
しかし、その後、文書0630が電子文書ファイル0411として入力されると、上記のように「北海道」0631と「製作所」0632との組み合わせだけでなく、「北海道」0633と「製作所」0632との組み合わせもキーワードペアとして抽出される。この例において、「北海道」0631と「製作所」0632とは会社名「北海道製作所」の一部であるからそれらの間の関連が強いが、「北海道」0633と「製作所」0632とはそれぞれ全く異なる文脈に属するからそれらの間に関連はない。このような場合に「北海道」0633と「製作所」0632との組み合わせについても位置関係を表すベクトルを特定し、そのベクトルとセキュア文書辞書0504に登録されたベクトルとを比較しても、その比較はセキュア文書の検出に寄与しない。このため、「北海道」0633と「製作所」0632との組み合わせをベクトルの比較の対象から除外することが望ましい。   However, after that, when the document 0630 is input as the electronic document file 0411, not only the combination of “Hokkaido” 0631 and “Manufacturer” 0632 as described above, but also the combination of “Hokkaido” 0633 and “Manufacturer” 0632 Extracted as keyword pairs. In this example, “Hokkaido” 0631 and “Manufacturer” 0632 are part of the company name “Hokkaido Manufactory”, so the relationship between them is strong, but “Hokkaido” 0633 and “Manufacturer” 0632 are completely different from each other. There is no relationship between them because they belong to the context. In such a case, even if the vector representing the positional relationship is specified for the combination of “Hokkaido” 0633 and “Manufacturer” 0632 and the vector is compared with the vector registered in the secure document dictionary 0504, the comparison is not Does not contribute to secure document detection. For this reason, it is desirable to exclude the combination of “Hokkaido” 0633 and “Manufacturing” 0632 from the comparison target of vectors.
本実施形態のセキュア文書検出装置0100は、抽出されたキーワードペアからさらに、セキュア文書辞書0504に登録されたベクトルとの比較の対象とするキーワードペア(以下、連携キーワードペアと記載)を抽出する。抽出されたキーワードペアが連携キーワードペアであるか否かは、そのキーワードペアに含まれる二つのキーワードの関連の強さ、及び、それらのキーワードについて予め定められた重要度等に基づいて判定される。このように抽出された連携キーワードペアの位置関係がセキュア文書辞書0504に登録されたベクトルと比較される。   The secure document detection device 0100 of this embodiment further extracts a keyword pair (hereinafter referred to as a cooperative keyword pair) to be compared with a vector registered in the secure document dictionary 0504 from the extracted keyword pair. Whether or not the extracted keyword pair is a linked keyword pair is determined based on the strength of the relationship between the two keywords included in the keyword pair and the importance level determined in advance for the keywords. . The positional relationship between the linked keyword pairs extracted in this way is compared with a vector registered in the secure document dictionary 0504.
例えば、セキュア文書検出装置0100は、一つの文書から抽出された全てのキーワードペアについてそれらに含まれる二つのキーワードの関連の強さを算出し、その値の順位が所定の閾値より高いものを、連携キーワードペアとして抽出してもよい。あるいは、セキュア文書検出装置0100は、上記のように算出された関連の強さが所定の閾値を超えるものを連携キーワードペアとして抽出してもよい。「北海道」0633と「製作所」0632との関連の強さが十分に低ければ、「北海道」0633と「製作所」0632との組み合わせは連携キーワードペアとして抽出されない。   For example, the secure document detection device 0100 calculates the strength of the relationship between two keywords included in all keyword pairs extracted from one document, and the ranking of the values is higher than a predetermined threshold value. You may extract as a cooperation keyword pair. Alternatively, the secure document detection device 0100 may extract a link keyword pair whose association strength calculated as described above exceeds a predetermined threshold. If the relationship between “Hokkaido” 0633 and “Manufacturer” 0632 is sufficiently low, the combination of “Hokkaido” 0633 and “Manufacturer” 0632 is not extracted as a linked keyword pair.
さらに、本実施形態のセキュア文書検出装置0100は、連携キーワードペアとして抽出されるべきでないキーワードを積極的に排除することもできる。   Furthermore, the secure document detection apparatus 0100 of this embodiment can also positively exclude keywords that should not be extracted as linked keyword pairs.
例えば、学習フェーズ0500において、ユーザは、文字列「北海道」と文字列「札幌市」との組み合わせを、連携キーワードペアとして抽出されるべきでないキーワードペアとしてキーワード情報0412に登録してもよい。そのような情報が登録されていれば、文書0630が入力された場合、文字列「北海道」0633は、文字列「札幌市」との関連が強いものであると判定され、連携キーワードペアとしては抽出されない。   For example, in the learning phase 0500, the user may register a combination of the character string “Hokkaido” and the character string “Sapporo City” in the keyword information 0412 as a keyword pair that should not be extracted as a cooperative keyword pair. If such information is registered, when the document 0630 is input, it is determined that the character string “Hokkaido” 0633 is strongly related to the character string “Sapporo City”. Not extracted.
図8Dの例では、電子文書ファイル0411として文書0640が入力される。文書0640は、図5(g)に示したものと同じである。文書0640は図面0641を含む。図面0641は、例えば部品等の図面(図示省略)、図面のタイトル0642及び図面の作成年月日0643等を含み、それらの要素のレイアウトは罫線0644によって定義される。ステップ0404の罫線・レイアウト抽出処理によって文書0640のレイアウトが特定様式0645として抽出される。この特定様式0645とパタン情報0413とを比較することによって、文書0640のセキュア情報尤度を算出することができる(ステップ0405)。   In the example of FIG. 8D, a document 0640 is input as the electronic document file 0411. The document 0640 is the same as that shown in FIG. Document 0640 includes drawing 0641. The drawing 0641 includes, for example, drawings of parts and the like (not shown), a drawing title 0642, a drawing creation date 0643, and the like, and the layout of these elements is defined by ruled lines 0644. The layout of the document 0640 is extracted as the specific format 0645 by the ruled line / layout extraction process in step 0404. The secure information likelihood of the document 0640 can be calculated by comparing the specific format 0645 with the pattern information 0413 (step 0405).
なお、ユーザが予め学習フェーズ0500において文書0640をセキュア文書例0501としてセキュア文書検出装置0100に入力することによって、特定様式0645をパタン情報0413としてセキュア文書辞書0504に登録することができる。その後、文書0640(又は、文書0640と同様のレイアウトを有する文書)が入力された場合、セキュア文書検出装置0100は、パタン情報0413を参照して、入力された文書から上記のように特定様式0645を抽出することができる。これは、続いて説明する図8Eについても同様である。   It should be noted that the specific format 0645 can be registered in the secure document dictionary 0504 as the pattern information 0413 when the user inputs the document 0640 as the secure document example 0501 to the secure document detection device 0100 in advance in the learning phase 0500. Thereafter, when the document 0640 (or a document having a layout similar to that of the document 0640) is input, the secure document detection device 0100 refers to the pattern information 0413 and specifies the specific format 0645 as described above from the input document. Can be extracted. The same applies to FIG. 8E described later.
図8Eの例では、電子文書ファイル0411として文書0650が入力される。文書0650は、図5(i)に示したものと同じである。文書0650は印影0651を含む。印影0651は、それが表示された文書が機密情報を含むことを意味する「秘」の文字を含む。ステップ0404の罫線・レイアウト抽出処理によってこの印影0651が特定様式0652として抽出される。この特定様式0652とパタン情報0413とを比較することによって、文書0650のセキュア情報尤度を算出することができる(ステップ0405)。   In the example of FIG. 8E, a document 0650 is input as the electronic document file 0411. The document 0650 is the same as that shown in FIG. The document 0650 includes an imprint 0651. The seal impression 0651 includes a character “secret” which means that the document on which it is displayed contains confidential information. The imprint 0651 is extracted as the specific style 0652 by the ruled line / layout extraction process in step 0404. The secure information likelihood of the document 0650 can be calculated by comparing the specific format 0652 and the pattern information 0413 (step 0405).
次に、図4のステップ0406において実行されるセキュア情報尤度算出について説明する。   Next, secure information likelihood calculation executed in step 0406 of FIG. 4 will be described.
抽出された主キーワードmwi及び補助キーワードhwjの組み合わせ(ペア)の連携度を示す指標Lpair(mwi,hwj)は、次の数式(1)によって算出される。 An index L pair (mw i , hw j ) indicating the degree of cooperation of the extracted combination (pair) of the main keyword mw i and the auxiliary keyword hw j is calculated by the following equation (1).
ここで、DBLK(mwi,hwj)は、主キーワードと補助キーワードとの間の文書型ブロック距離である。文書型ブロック距離とは、言い換えるとすれば、二つのキーワードの文脈中の距離であり、二つのキーワードの文脈上の関連の強さを示す指標である。一般には、二つのキーワードが読まれる順が近ければ、それらの文脈上の関連が強い。例えば二つのキーワードが一つのブロックに属する場合と、それぞれが別のブロックに属する場合との文書型ブロック距離を比較すると、両者におけるキーワード間のユークリッド距離が同じであっても、一般に、後者の文書型ブロック距離は前者の文書型ブロック距離より大きくなる。 Here, D BLK (mw i , hw j ) is a document type block distance between the main keyword and the auxiliary keyword. In other words, the document type block distance is a distance in the context of two keywords, and is an index indicating the strength of the relationship between the contexts of the two keywords. In general, if the order in which two keywords are read is close, their contextual association is strong. For example, comparing the document-type block distances when two keywords belong to one block and when each belongs to another block, even if the Euclidean distance between the two keywords is the same, generally the latter document The type block distance is larger than the former document type block distance.
ここで、ブロック距離は画像処理の分野などで使われる距離の概念を文書向けに拡張したものである。一般に、画像処理におけるブロック距離では、2点間の距離をX方向の差とY方向の差の和|X|+|Y|や|X+Y|で表す距離尺度群を指す(マンハッタン距離とも称する)。単純なブロック距離は、文書上に書かれた段落や表など意味情報を表しているレイアウト構造を反映しない、文書上の任意の2点間で一様な距離尺度となっている。文書文脈上の関連の強さを文書構造から反映して、距離尺度の重みを変えるのが文書型ブロック距離である。   Here, the block distance is an extension of the concept of distance used in the field of image processing for documents. In general, the block distance in image processing refers to a distance scale group in which the distance between two points is represented by the sum of the difference in the X direction and the difference in the Y direction | X | + | Y | or | X + Y | (also referred to as Manhattan distance). . The simple block distance is a uniform distance measure between any two points on the document that does not reflect the layout structure representing semantic information such as paragraphs and tables written on the document. The document type block distance changes the weight of the distance measure by reflecting the strength of the relation in the document context from the document structure.
αは、文書型ブロック距離に基づく連携度を算出するための重み係数である。ユーザは、αとして任意の値を設定することができるが、二つのキーワードの配置に応じた適切な値を設定することが望ましい。αの値の例については、図9を参照して後述する。   α is a weighting coefficient for calculating the degree of cooperation based on the document type block distance. The user can set an arbitrary value as α, but it is desirable to set an appropriate value according to the arrangement of the two keywords. An example of the value of α will be described later with reference to FIG.
EUC(mwi,hwj)は、主キーワードと補助キーワードとの間のユークリッド距離、すなわち、文書中の、主キーワードが表示された位置と、補助キーワードが表示された位置との間のユークリッド距離である。 D EUC (mw i , hw j ) is the Euclidean distance between the main keyword and the auxiliary keyword, that is, the Euclidean distance between the position where the main keyword is displayed and the position where the auxiliary keyword is displayed in the document. Distance.
βは、ユークリッド距離に基づく連携度を算出するための重み係数である。ユーザは、βとして任意の値を設定することができる。   β is a weighting coefficient for calculating the degree of cooperation based on the Euclidean distance. The user can set an arbitrary value as β.
なお、数式(1)の右辺の第1項及び第2項の分母の「+1」は、距離がゼロの場合に値が発散することを防ぐために付されている。   Note that “+1” in the denominator of the first term and the second term on the right side of Expression (1) is attached to prevent the value from diverging when the distance is zero.
word(mwi,hwj)は、キーワードの重要度(各キーワードの重要度又はキーワードペアの重要度)を表す指標であり、予めユーザによって定められる。例えば、ユーザは、重要顧客の名前を含むキーワードの組み合わせに関するLword(mwi,hwj)として、その他の組み合わせに関するものより高い値を設定してもよい。 L word (mw i , hw j ) is an index representing the importance of keywords (importance of each keyword or importance of keyword pairs), and is determined in advance by the user. For example, the user may set a higher value for L word (mw i , hw j ) relating to a combination of keywords including the names of important customers than for other combinations.
γは、キーワードの重要度に基づく連携度を算出するための重み係数である。ユーザは、γとして任意の値を設定することができる。   γ is a weighting factor for calculating the degree of cooperation based on the importance of the keyword. The user can set an arbitrary value as γ.
結局、主キーワードmwi及び補助キーワードhwjの連携度は、文書型ブロック距離DBLK(mwi,hwj)が小さいほど高く、ユークリッド距離DEUC(mwi,hwj)が小さいほど高く、予め定められたキーワードの重要度が高いほど高く、重み係数(α、β及びγ)の値が大きいほど高くなる。 As a result, the degree of cooperation between the main keyword mw i and the auxiliary keyword hw j is higher as the document type block distance D BLK (mw i , hw j ) is smaller, and is higher as the Euclidean distance D EUC (mw i , hw j ) is smaller. The higher the importance of a predetermined keyword is, the higher the value is.
セキュア文書検出装置0100は、入力された文書から抽出された全てのキーワードペアについてLword(mwi,hwj)を算出し、それらの値が大きいものが連携キーワードペアであると判定してもよい。具体的には、例えば、あるキーワードペアのLword(mwi,hwj)の値が所定の閾値より大きい場合に、そのキーワードペアが連携キーワードペアであると判定してもよい。あるいは、各文書について算出された全てのLword(mwi,hwj)のうち、大きさの順位が所定の閾値より大きいものに対応するキーワードペアが連携キーワードペアであると判定してもよい。 The secure document detection device 0100 calculates L word (mw i , hw j ) for all keyword pairs extracted from the input document, and determines that those having large values are linked keyword pairs. Good. Specifically, for example, when the value of L word (mw i , hw j ) of a certain keyword pair is larger than a predetermined threshold, it may be determined that the keyword pair is a linked keyword pair. Alternatively, all of the L word (mw i, hw j ) calculated for each document within the keyword pair size rank corresponds to greater than a predetermined threshold value may be determined that the cooperative keyword pairs .
入力された文書dociのセキュア情報尤度(すなわちその文書のセキュア文書らしさを示す指標)Lsequre(doci)は、次の数式(2)によって算出される。 The secure information likelihood (that is, an index indicating the likelihood of a secure document of the document) L sequre (doc i ) of the input document doc i is calculated by the following equation (2).
ここで、dicjは、セキュア文書辞書0504に入力されたセキュア文書例0501(すなわち文書事例0702)に含まれるj番目の文書である。 Here, dic j is the j-th document included in the secure document example 0501 (that is, the document case 0702) input to the secure document dictionary 0504.
format(doci,dicj)は、文書dociのフォーマットと文書dicjのフォーマットとの比較に基づく、文書dociのセキュア文書らしさを示す指標である。具体的には、図4のステップ0404において抽出された文書dociのレイアウトと、文書dicjのレイアウトとの間の類似度が高いほど、Lformat(doci,dicj)の値は大きくなる。 L format (doc i , dic j ) is an index indicating the secure document quality of the document doc i based on a comparison between the format of the document doc i and the format of the document dic j . Specifically, the value of L format (doc i , dic j ) increases as the similarity between the layout of document doc i extracted in step 0404 in FIG. 4 and the layout of document dic j increases. .
keyword(doci,dicj)は、文書dociに含まれるキーワードと文書dicjに含まれるキーワードとの比較に基づく、文書dociのセキュア文書らしさを示す指標である。具体的には、図4のステップ0404において文書dociから抽出されたキーワードペアの位置関係と、文書dicjに含まれるキーワードペア(すなわちセキュア文書例0501から抽出されたキーワードの組み合わせ又はセキュア用語定義0502として入力されたキーワードの組み合わせ)の位置関係との間の類似度が計算され、その類似度が高いほどLkeyword(doci,dicj)の値は大きくなる。Lkeyword(doci,dicj)の算出方法については後述する(数式(3)参照)。 L keyword (doc i, dic j ) is based on a comparison of the keywords included in the keyword and document dic j included in the document doc i, an index indicating the secure document likeness document doc i. Specifically, the positional relationship between the keyword pairs extracted from the document doc i in step 0404 of FIG. 4 and the keyword pairs included in the document dic j (that is, the keyword combination extracted from the secure document example 0501 or the secure term definition). The degree of similarity with the positional relationship of the keyword combination input as 0502 is calculated, and the value of L keyword (doc i , dic j ) increases as the degree of similarity increases. A method for calculating L keyword (doc i , dic j ) will be described later (see Equation (3)).
全ての文書dicjについて算出されたLformat(doci,dicj)+Lkeyword(doci,dicj)の最大値がLsequre(doci)である。 The maximum value of L format (doc i , dic j ) + L keyword (doc i , dic j ) calculated for all documents dic j is L sequre (doc i ).
なお、文書のレイアウトによらず、キーワードの組み合わせのみに基づいて文書dociのセキュア情報尤度を算出してもよい。その場合、Lformat(doci,dicj)を算出する必要はなく、Lkeyword(doci,dicj)の最大値がLsequre(doci)である。 Note that the secure information likelihood of the document doc i may be calculated based only on the combination of keywords, regardless of the document layout. In that case, it is not necessary to calculate L format (doc i , dic j ), and the maximum value of L keyword (doc i , dic j ) is L sequre (doc i ).
keyword(doci,dicj)は数式(3)によって算出される。 L keyword (doc i , dic j ) is calculated by Equation (3).
数式(3)によって、文書dociから抽出されたキーワードペアの位置関係を表すベクトルと、文書dicjに含まれるキーワードペアの位置関係を表すベクトルとの距離が算出され、その距離に基づいてセキュア情報尤度が算出される。このとき、文書dociから抽出された全てのキーワードペアについてではなく、連携キーワードペアのみについて数式(3)が算出されてもよい。その場合、文書dociから抽出された全ての連携キーワードペアについて算出された上記の尤度の総和がLkeyword(doci,dicj)である。 The distance between the vector representing the positional relationship between the keyword pairs extracted from the document doc i and the vector representing the positional relationship between the keyword pairs included in the document dic j is calculated by Equation (3), and secure based on the distance. Information likelihood is calculated. At this time, the mathematical formula (3) may be calculated not for all the keyword pairs extracted from the document doc i but only for the linked keyword pairs. In this case, the total sum of the likelihoods calculated for all the linked keyword pairs extracted from the document doc i is L keyword (doc i , dic j ).
formatの意図は辞書として登録した文書と、似たキーワードを持ち、それらが似た配置にあるような文書を見つけることにある。数式(3)は単純なユークリッド距離の定義によってキーワードペアの類似性を導くことを示している。すなわちキーワード間に何らかの距離尺度が存在し(例えば、「confidential」や「prepared」など文書発行元を指し得る補助キーワードは同類と看做し距離0とし、敬称や送付先を表すような補助キーワード「御中」「宛先」などはこれと別類と看做し距離が大きいとするように、キーワードの間に距離尺度が定義できる。 The purpose of L format is to find a document registered as a dictionary and a document having similar keywords and in a similar arrangement. Equation (3) shows that the similarity between keyword pairs is derived by simply defining the Euclidean distance. That is, there is some distance measure between keywords (for example, auxiliary keywords such as “confidential” and “prepared” are regarded as similar, and the distance is 0, and an auxiliary keyword “ A distance scale can be defined between keywords so that the “middle”, “destination”, etc. are regarded as different types and the distance is large.
例えば、形態素解析で同じ品詞の場合は距離0、その他は1とするなども距離尺度となる)、キーワードの配置位置の間に距離尺度が存在し(例えば、先に説明した文書型ブロック距離)、類似度尺度の間に距離尺度が存在するならば、これらを数式(3)のようにベクトルと看做してユークリッド距離を計算すれば、2つのキーワードペアの間の距離が計算できる。   For example, the distance scale is the distance scale for the same part of speech in the morphological analysis, and the distance scale is 1 for the other parts), and there is a distance scale between the keyword placement positions (for example, the document type block distance described above) If there is a distance measure between the similarity measures, the distance between the two keyword pairs can be calculated if the Euclidean distance is calculated by regarding these as vectors as in Equation (3).
更に、これに尤度を導入することも可能である。2つのキーワードペアの各々の関連度Lwordが高く、かつ、配置が似ているものを尤度が高いとしたいならば、上記距離を0〜1の間に変換したものが尤度であると看做すことができる。すなわち、尤度を持つ項を入力とする、あらゆる計算式に対しては、それに付属する尤度を計算することができる。 It is also possible to introduce likelihood into this. If the relevance L word of each of the two keyword pairs is high and the likelihood is high that the arrangement is similar, the likelihood obtained by converting the distance between 0 and 1 is the likelihood Can be seen. That is, for any calculation formula that uses a term having a likelihood as an input, the likelihood attached to it can be calculated.
図9は、本発明の第1の実施形態のセキュア文書辞書0504に含まれる配置コストテーブル0900の説明図である。   FIG. 9 is an explanatory diagram of the arrangement cost table 0900 included in the secure document dictionary 0504 according to the first embodiment of this invention.
配置コストテーブル0900は、文書から抽出されたキーワードペアに含まれる二つのキーワードの当該文書中の位置(すなわち、それらのキーワードがその文書中のどの領域から抽出されたか)と、数式(1)の重み係数αとを対応付けるテーブルである。具体的には、配置コストテーブル0900は行0901〜0903及び列0911〜0913からなる。   The arrangement cost table 0900 includes the positions of two keywords included in the keyword pair extracted from the document in the document (that is, from which area in the document the keywords are extracted), and the expression (1). It is a table which matches weighting coefficient (alpha). Specifically, the arrangement cost table 0900 includes rows 0901 to 0903 and columns 0911 to 0913.
行0901には、主キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。行0902には、主キーワードが文書中の本文又はタイトルから抽出された場合の重み係数αの値が登録される。行0903には、主キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。   In row 0901, the value of the weighting coefficient α when the main keyword is extracted from the table in the document is registered. In row 0902, the value of the weighting coefficient α when the main keyword is extracted from the text or title in the document is registered. In row 0903, the value of the weighting factor α when the main keyword is extracted from the header or footer in the document is registered.
列0911には、補助キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。列0912には、補助キーワードが文書中の本文から抽出された場合の重み係数αの値が登録される。列0913には、補助キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。   In a column 0911, the value of the weighting factor α when the auxiliary keyword is extracted from the table in the document is registered. In a column 0912, the value of the weighting coefficient α when the auxiliary keyword is extracted from the text in the document is registered. In a column 0913, the value of the weighting factor α when the auxiliary keyword is extracted from the header or footer in the document is registered.
なお、図9の例では列0912が本文に対応するが、列0912は、補助キーワードが本文又はタイトルから抽出された場合に対応してもよい。また、上記のような領域の分類は一例に過ぎない。例えば、文書が段組みされている場合、各段が独立した領域として扱われてもよい。あるいは、ヘッダ及びフッタがそれぞれ独立した領域として扱われてもよい。   In the example of FIG. 9, column 0912 corresponds to the text, but column 0912 may correspond to the case where the auxiliary keyword is extracted from the text or the title. Moreover, the classification of the areas as described above is merely an example. For example, when documents are arranged in columns, each column may be treated as an independent area. Alternatively, the header and footer may be treated as independent areas.
図9の例において、主キーワード及び補助キーワードがいずれも文書中の表から抽出された場合、重み係数αの値は「α11」となる。主キーワードがタイトル又は本文から抽出され、補助キーワードが表から抽出された場合、重み係数αの値は「α21」となる。   In the example of FIG. 9, when both the main keyword and the auxiliary keyword are extracted from the table in the document, the value of the weighting factor α is “α11”. When the main keyword is extracted from the title or the text and the auxiliary keyword is extracted from the table, the value of the weight coefficient α is “α21”.
ユーザは、配置コストテーブル0900に重み係数αとして任意の値を登録することができる。ただし、一般に、主キーワードと補助キーワードとが文書中の同一の領域(例えばタイトル、本文、表、ヘッダ又はフッタ等)から抽出された場合、そうでない場合と比較して主キーワードと補助キーワードとの文脈上の距離が近いと推定される。後述するように、二つのキーワードの文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。このため、典型的には、主キーワードと補助キーワードとが文書中の同一の領域から抽出された場合のαの値が、そうでない場合と比較して大きくなるように設定される。例えば、典型的には、α11の値は、α21の値より大きい。   The user can register an arbitrary value as the weighting factor α in the arrangement cost table 0900. However, generally, when the main keyword and the auxiliary keyword are extracted from the same area in the document (for example, title, text, table, header, footer, etc.), the main keyword and the auxiliary keyword Estimated to be close in context. As will be described later, the closer the context distance between two keywords is, the higher the possibility that the relationship between the keywords is strong. For this reason, typically, the value of α when the main keyword and the auxiliary keyword are extracted from the same region in the document is set to be larger than that when it is not. For example, typically, the value of α11 is larger than the value of α21.
主キーワード及び補助キーワードが同一の領域から抽出された場合、重み係数αの値は、さらに、それらのキーワードの位置関係に応じて決定されてもよい。   When the main keyword and the auxiliary keyword are extracted from the same region, the value of the weighting factor α may be further determined according to the positional relationship between these keywords.
具体的には、主キーワードが本文又はタイトルから抽出され、補助キーワードが本文から抽出された場合、重み係数αは、さらに、タイトル及び本文の中における主キーワード及び補助キーワードの位置に応じて決定される。   Specifically, when the main keyword is extracted from the text or the title and the auxiliary keyword is extracted from the text, the weighting coefficient α is further determined according to the position of the main keyword and the auxiliary keyword in the title and the text. The
例えば、主キーワード及び補助キーワードがそれぞれ互いに隣接する単語である場合、重み係数αの値は「α22a」となる。主キーワード及び補助キーワードが隣接しないが、同一の行に含まれる場合、重み係数αの値は「α22b」となる。主キーワード及び補助キーワードがそれぞれ異なる行に含まれるが、同一の段落に含まれる場合、重み係数αの値は「α22c」となる。主キーワード及び補助キーワードがそれぞれ異なる段落に含まれる場合、重み係数αの値は「α22d」となる。   For example, when the main keyword and the auxiliary keyword are words adjacent to each other, the value of the weighting coefficient α is “α22a”. When the main keyword and the auxiliary keyword are not adjacent but are included in the same row, the value of the weight coefficient α is “α22b”. When the main keyword and the auxiliary keyword are included in different lines, but are included in the same paragraph, the value of the weight coefficient α is “α22c”. When the main keyword and the auxiliary keyword are included in different paragraphs, the value of the weighting coefficient α is “α22d”.
ユーザは、これらの値を任意に設定することができる。ただし、二つのキーワードが異なる段落に含まれるよりは同一の段落に含まれるほうが、二つのキーワードが異なる行に含まれるよりは同一の行に含まれるほうが、二つのキーワードが隣接しないよりは隣接するほうが、それらのキーワードの文脈上の距離が近い。文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。   The user can arbitrarily set these values. However, if two keywords are included in the same paragraph rather than included in different paragraphs, the two keywords are included in the same line rather than included in different lines, rather than the two keywords are not adjacent. The context distance of those keywords is closer. The closer the context, the more likely the keywords are related.
例えば、主キーワード「(株)××」と補助キーワード「作成」とが、連続する文字列「(株)××作成」から抽出された場合、これらのキーワードは互いに隣接している。この場合、通常、「(株)××」及び「作成」の文脈上の意味は互いに関連する。具体的には、上記の文字列は「(株)××」なる会社が何かを「作成」したことを意味し、図5(d)の例のように、それらのキーワードを含む文書自体が「(株)××」なる会社によって作成されたものである可能性がある。   For example, when the main keyword “(share) xx” and the auxiliary keyword “creation” are extracted from the continuous character string “(share) xx creation”, these keywords are adjacent to each other. In this case, the contextual meanings of “(share) xx” and “creation” are usually related to each other. Specifically, the above character string means that the company “(share) XX” “created” something, and the document itself including those keywords as shown in the example of FIG. May be created by a company “(share) xx”.
一方、例えば主キーワード「(株)××」と補助キーワード「作成」とが異なる段落から抽出された場合であっても、それらのキーワードが互いに関連している可能性はある。しかし、補助キーワード「作成」は、例えば「○○製作所作成」という文字列から抽出されたものである可能性もある。この場合、上記の抽出されたキーワードの組み合わせは、「(株)××」が何かを「作成」したことを意味しない。すなわち、「(株)××」と「作成」との間に文脈上の関連はない。この場合、それらのキーワードを含む文書自体が「(株)××」なる会社によって作成されたものである可能性は低い。   On the other hand, for example, even when the main keyword “(share) xx” and the auxiliary keyword “creation” are extracted from different paragraphs, the keywords may be related to each other. However, the auxiliary keyword “created” may be extracted from a character string “created by XX factory”, for example. In this case, the extracted keyword combination does not mean that “(stock) xx” “created” something. That is, there is no contextual relationship between “(share) xx” and “creation”. In this case, it is unlikely that the document itself including those keywords is created by a company “(share) xx”.
「(株)××」なる会社によって作成された文書がセキュア文書であると判定する必要がある場合、主キーワード「(株)××」と補助キーワード「作成」とからなるキーワードペアを連携キーワードペアとして抽出することが望ましい。上記のような例を考慮すると、主キーワード「(株)××」と補助キーワード「作成」とが隣接する場合の連携度を、そうでない場合より高くなるように算出することが望ましい。このため、典型的には、α22dよりα22cの値が大きく、α22cよりα22bの値が大きく、α22bよりα22aの値が大きくなるように重み係数αの値が設定される。   When it is necessary to determine that a document created by the company “(share) xx” is a secure document, a keyword pair consisting of the main keyword “(share) xx” and the auxiliary keyword “create” is linked to the keyword. It is desirable to extract as a pair. Considering the above example, it is desirable to calculate the degree of cooperation when the main keyword “(share) xx” and the auxiliary keyword “creation” are adjacent to each other so as to be higher than the case where the main keyword “(stock) XX” is adjacent. Therefore, typically, the value of the weighting factor α is set so that the value of α22c is larger than α22d, the value of α22b is larger than α22c, and the value of α22a is larger than α22b.
ただし、実際には、互いに離れた領域から抽出された主キーワードと補助キーワードとの連携度を高く算出すべき場合もある。例えば、図5(b)の例では、主キーワード「××」がフッタから抽出され、補助キーワード「仕様書」はタイトルから抽出される。このように配置されたキーワードペアを連携キーワードペアとして抽出したい場合、そのキーワードペアに対応する配置コストテーブル0900のα32の値をその他の値より大きく設定してもよい。ただし、その場合、列0912が本文だけでなくタイトルにも対応する。   However, in practice, there is a case where the degree of cooperation between the main keyword and the auxiliary keyword extracted from the areas separated from each other should be calculated high. For example, in the example of FIG. 5B, the main keyword “xx” is extracted from the footer, and the auxiliary keyword “specification” is extracted from the title. When it is desired to extract a keyword pair arranged in this way as a linked keyword pair, the value of α32 of the arrangement cost table 0900 corresponding to the keyword pair may be set larger than other values. However, in that case, column 0912 corresponds to not only the text but also the title.
主キーワード及び補助キーワードがいずれも表から抽出された場合も、上記のα22の場合と同様、重み係数αは、さらに、表の中における主キーワード及び補助キーワードの位置に応じて決定される。   When both the main keyword and the auxiliary keyword are extracted from the table, the weighting factor α is further determined according to the position of the main keyword and the auxiliary keyword in the table, as in the case of α22 described above.
例えば、主キーワード及び補助キーワードがそれぞれ表の中の互いに隣接するセルから抽出された場合、重み係数αの値は「α11a」となる。主キーワード及び補助キーワードが同一の表から(ただし互いに隣接するセル以外から)抽出された場合、重み係数αの値は「α11b」となる。主キーワード及び補助キーワードがそれぞれ別の表から抽出された場合、重み係数αの値は「α11c」となる。α22の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα22の場合と同様の理由で、α11cよりα11bが大きく、α11bよりα11aがさらに大きくなるように設定されてもよい。   For example, when the main keyword and the auxiliary keyword are extracted from cells adjacent to each other in the table, the value of the weighting coefficient α is “α11a”. When the main keyword and the auxiliary keyword are extracted from the same table (but not from cells adjacent to each other), the value of the weight coefficient α is “α11b”. When the main keyword and the auxiliary keyword are extracted from different tables, the value of the weighting factor α is “α11c”. As in the case of α22, the user can arbitrarily set these values. For example, for the same reason as in the case of α22 described above, α11b may be set larger than α11c, and α11a may be set larger than α11b.
同様に、主キーワード及び補助キーワードがいずれもヘッダ又はフッタから抽出された場合、重み係数αは、さらに、ヘッダ又はフッタの中における主キーワード及び補助キーワードの位置に応じて決定される。   Similarly, when both the main keyword and the auxiliary keyword are extracted from the header or footer, the weighting factor α is further determined according to the position of the main keyword and auxiliary keyword in the header or footer.
例えば、主キーワード及び補助キーワードが同一の行から抽出された場合、重み係数αの値は「α33a」となり、それらが互いに異なる行から抽出された場合、重み係数αの値は「α33b」となる。α22の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα22の場合と同様の理由で、α33aがα33bより大きくなるように設定されてもよい。   For example, when the main keyword and the auxiliary keyword are extracted from the same row, the value of the weighting factor α is “α33a”, and when they are extracted from different rows, the value of the weighting factor α is “α33b”. . As in the case of α22, the user can arbitrarily set these values. For example, α33a may be set larger than α33b for the same reason as in the case of α22 described above.
なお、セキュア文書辞書0504は、複数の配置コストテーブル0900を含んでもよい。例えば、図8Cに示したように、「北海道製作所」という文字列は連携キーワードペアとして抽出したいが、「北海道札幌市」という文字列に含まれる「北海道」は連携キーワードペアに含めたくない場合、「北海道」と「札幌市」(又は同様の北海道内の市町村名)との組み合わせに関する配置コストテーブル0900をさらに作成し、その中のα22aの値を、連携キーワードペアとして抽出されるべきキーワードペアの配置に与えられる値より小さい値(例えば「0」)としてもよい。その場合、「北海道札幌市」という文字列に関する連携度が低くなるため、文書のセキュア情報尤度判定に「北海道札幌市」のような文字列が与える影響を抑えることができる。   The secure document dictionary 0504 may include a plurality of arrangement cost tables 0900. For example, as shown in FIG. 8C, when the character string “Hokkaido Seisakusho” is to be extracted as a linked keyword pair, but “Hokkaido” included in the string “Hokkaido Sapporo City” is not to be included in the linked keyword pair, An arrangement cost table 0900 relating to a combination of “Hokkaido” and “Sapporo City” (or similar city name in Hokkaido) is further created, and the value of α22a in the placement cost table 0900 is extracted as a linked keyword pair. A value smaller than the value given to the arrangement (eg, “0”) may be used. In this case, since the degree of cooperation regarding the character string “Hokkaido Sapporo City” is low, the influence of the character string such as “Hokkaido Sapporo City” on the secure information likelihood determination of the document can be suppressed.
図10は、本発明の第1の実施形態のセキュア文書辞書0504の説明図である。   FIG. 10 is an explanatory diagram of the secure document dictionary 0504 according to the first embodiment of this invention.
セキュア文書辞書0504は、セキュア辞書ヘッダ1001、複数のキーワード1011等、一つ以上の配置コストテーブル1021等及び一つ以上の特定様式1031等を含む。   The secure document dictionary 0504 includes a secure dictionary header 1001, a plurality of keywords 1011 and the like, one or more arrangement cost tables 1021 and the like, and one or more specific forms 1031 and the like.
セキュア辞書ヘッダ1001は、セキュア文書辞書0504のバージョンを示す情報及びその辞書の内容を説明する情報を含む。   The secure dictionary header 1001 includes information indicating the version of the secure document dictionary 0504 and information describing the contents of the dictionary.
キーワード1011等の各々は、キーワードとして指定された文字列及びそのキーワードに関する付加情報を含む。付加情報は、そのキーワードが主キーワード又は補助キーワードのいずれであるかを示す情報、そのキーワードと組み合わせられる主キーワード又は補助キーワードを特定する情報、そのキーワードの品詞(例えば会社名のような固有名詞又は「秘」のような普通名詞)を示す情報、及びキーワードの重要度を示す情報等を含む。この付加情報は、上記の「北海道札幌市」の例のように、セキュア情報尤度判定に影響すべきでないキーワードの組み合わせを特定する情報をさらに含んでもよい。   Each of the keywords 1011 and the like includes a character string designated as a keyword and additional information related to the keyword. The additional information includes information indicating whether the keyword is a main keyword or an auxiliary keyword, information specifying a main keyword or an auxiliary keyword combined with the keyword, a part of speech of the keyword (for example, a proper noun such as a company name or Information indicating a common noun such as “secret”), information indicating the importance of the keyword, and the like. This additional information may further include information for specifying a combination of keywords that should not affect the secure information likelihood determination, as in the example of “Hokkaido Sapporo City”.
さらに、キーワード1011等の各々は、主キーワード及び補助キーワードからなるキーワードペアの位置関係を示すベクトルデータを含んでもよい。このベクトルデータは、例えば図4のステップ0406において、入力された文書から抽出されたキーワードペアの位置関係を示すベクトルデータと比較される。   Further, each of the keywords 1011 and the like may include vector data indicating the positional relationship between keyword pairs including a main keyword and an auxiliary keyword. This vector data is compared with vector data indicating the positional relationship of keyword pairs extracted from the input document, for example, in step 0406 of FIG.
図10にはキーワード1011等の例としてキーワード1_1011及びキーワード2_1012を示すが、セキュア文書辞書0504はさらに多くのキーワードを含んでもよい。   FIG. 10 shows a keyword 1 — 1011 and a keyword 2 — 1012 as examples of the keyword 1011 and the like, but the secure document dictionary 0504 may include more keywords.
配置コストテーブル1021等の各々は、図9を参照して説明した配置コストテーブル0900に相当するものであり、その配置コストテーブル1021等に対応する主キーワード及び補助キーワードの種類を示す情報、及びそれらの重み(重要度)を示す情報を含む。図9を参照して説明したように、複数の配置コストテーブル0900が作成されてもよい。例えば、キーワードペアの種類ごとに、それに対応する配置コストテーブル1021等が作成されてもよい。あるいは、特定のキーワードペアのみに対応する配置コストテーブル1021等が作成されてもよい。   Each of the arrangement cost table 1021 and the like corresponds to the arrangement cost table 0900 described with reference to FIG. 9, information indicating the types of main keywords and auxiliary keywords corresponding to the arrangement cost table 1021, and the like Includes information indicating the weight (importance) of. As described with reference to FIG. 9, a plurality of arrangement cost tables 0900 may be created. For example, for each type of keyword pair, an arrangement cost table 1021 corresponding to the keyword pair may be created. Or the arrangement | positioning cost table 1021 etc. corresponding to only a specific keyword pair may be produced.
図10には配置コストテーブル1021等の例として配置コストテーブル1_1021及び配置コストテーブル2_1022を示すが、セキュア文書辞書0504はさらに多くの配置コストテーブルを含んでもよい。   FIG. 10 shows an arrangement cost table 1_1021 and an arrangement cost table 2_1022 as examples of the arrangement cost table 1021 and the like, but the secure document dictionary 0504 may include more arrangement cost tables.
特定様式1031等の各々は、文書からその文書の様式(具体的には図8D及び図8Eに示すような特定のフォーマット又は図形等に対応するベクトルデータ)を抽出する方式及び範囲、及び、抽出されたベクトルデータと比較される様式ベクトルデータ(すなわち予めセキュア文書例0501から抽出され、登録された罫線又は印影等のベクトルデータ)を含む。図10には特定様式1031等の例として特定様式1_1031及び特定様式2_1032を示すが、セキュア文書辞書0504はさらに多くの特定様式を含んでもよい。   Each of the specific forms 1031 and the like is a method and range for extracting the form of the document (specifically, vector data corresponding to a specific format or graphic as shown in FIGS. 8D and 8E), and extraction. Format vector data (that is, vector data such as ruled lines or seals previously extracted from the registered secure document example 0501 and registered). FIG. 10 shows a specific form 1_1031 and a specific form 2_1032 as examples of the specific form 1031 and the like, but the secure document dictionary 0504 may include more specific forms.
なお、上記の第1の実施形態では、文書から抽出された二つのキーワードからなるキーワードペアについて、抽出された位置関係と予め登録された位置関係とを比較する例を示した。しかし、三つ以上のキーワードからなるキーワードのグループについて上記と同様の処理が実行されてもよい。例えば、三つのキーワード及びそれらの相互の位置関係を示すベクトルデータがセキュア文書辞書0504に登録されてもよい。その場合、入力された文書からそれらの三つのキーワード及びそれらの相互の位置関係を示すベクトルデータが抽出される。そして、抽出されたベクトルデータと登録されたベクトルデータとの類似度に基づいて、入力された文書がセキュア文書であるか否かが判定される。   In the first embodiment, an example is shown in which the extracted positional relationship is compared with the previously registered positional relationship for a keyword pair composed of two keywords extracted from the document. However, the same processing as described above may be executed for a group of keywords including three or more keywords. For example, vector data indicating three keywords and their positional relationship may be registered in the secure document dictionary 0504. In that case, vector data indicating the three keywords and their positional relationship are extracted from the input document. Then, based on the similarity between the extracted vector data and the registered vector data, it is determined whether or not the input document is a secure document.
以上に説明した本発明の第1の実施形態によれば、入力された文書に含まれるキーワード等に基づいて、その文書がセキュアであるか否かが自動的に判定され、セキュアである場合には暗号化等を施して保管することができる。特に、本実施形態によれば、複数のキーワードの組み合わせと、それらの組み合わせの文脈上の距離と、に基づいて、複数のキーワードの文脈中における関連を考慮したセキュア文書判定が行われる。文書から抽出されたキーワードの組み合わせの連携度に基づいて、その組み合わせをセキュア文書判定に用いるか否かが判定される。これによって、本来セキュアであるべき文書の検出漏れ及び本来セキュアでない文書の誤検出のいずれも減らすことができ、高精度のセキュア文書判定を実現することができる。これによって、ユーザによる管理コストを抑えながら、セキュアな文書を確実に保護することができる。   According to the first embodiment of the present invention described above, whether or not the document is secure is automatically determined based on a keyword or the like included in the input document. Can be stored with encryption or the like. In particular, according to the present embodiment, secure document determination is performed in consideration of the association of a plurality of keywords in the context based on the combination of the plurality of keywords and the context distance of the combination. Based on the degree of cooperation of the keyword combinations extracted from the document, it is determined whether or not to use the combination for secure document determination. As a result, it is possible to reduce both the omission of detection of a document that should be originally secure and the erroneous detection of a document that is not inherently secure, thereby realizing highly accurate secure document determination. As a result, it is possible to reliably protect a secure document while suppressing management costs by the user.
<第2の実施形態>
図11は、本発明の第2の実施形態のOCR一体型セキュア文書検出装置0200のハードウェア構成を示すブロック図である。
<Second Embodiment>
FIG. 11 is a block diagram illustrating a hardware configuration of the OCR integrated secure document detection apparatus 0200 according to the second embodiment of this invention.
OCR一体型セキュア文書検出装置0200は、図1に示した本発明のOCR一体型紙文書管理を実現する装置の一例である。   The OCR integrated secure document detection apparatus 0200 is an example of an apparatus that realizes the OCR integrated paper document management of the present invention shown in FIG.
本実施形態のOCR一体型セキュア文書検出装置0200は、操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207、画像撮像装置0208、ソータ装置0209及びこれらを相互に接続する通信線0206を備える。   The OCR integrated secure document detection device 0200 of this embodiment includes an operation terminal device 0201, a display terminal device 0202, an external storage device 0203, a memory 0204, a central processing unit 0205, a communication device 0207, an image imaging device 0208, a sorter device 0209, and A communication line 0206 is provided for interconnecting them.
操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207及び通信線0206は、それぞれ第1の実施形態の操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及び通信線0106と同様であるため、それらに関する詳細な説明は省略する。   The operation terminal device 0201, the display terminal device 0202, the external storage device 0203, the memory 0204, the central processing unit 0205, the communication device 0207, and the communication line 0206 are respectively the operation terminal device 0101, the display terminal device 0102, and the external device of the first embodiment. Since the storage device 0103, the memory 0104, the central processing unit 0105, the communication device 0107, and the communication line 0106 are the same, detailed description thereof will be omitted.
画像撮像装置0208は、入力された紙文書0306に記載された文字、罫線及び図形等を読み取ってデータ化する光学スキャナを含む。このとき読み取られたデータは、テキストデータ及び画像データを含むファイルとして外部記憶装置0203に格納されてもよい。   The image capturing apparatus 0208 includes an optical scanner that reads characters, ruled lines, graphics, and the like described in the input paper document 0306 and converts them into data. The data read at this time may be stored in the external storage device 0203 as a file including text data and image data.
ソータ装置0209は、画像撮像装置0208による読み取りが終了した後の紙文書0306を排出する装置である。例えば、ソータ装置0209は、紙文書0306の排出先として複数の棚を備えてもよい。この場合、ソータ装置0209は、必要に応じて選択された棚に紙文書0306を排出することができる。   The sorter device 0209 is a device that discharges the paper document 0306 after reading by the image pickup device 0208 is completed. For example, the sorter apparatus 0209 may include a plurality of shelves as the discharge destination of the paper document 0306. In this case, the sorter device 0209 can discharge the paper document 0306 to the selected shelf as necessary.
なお、OCR一体型セキュア文書検出装置0200は、第1の実施形態のセキュア文書検出装置0100に、従来のOCR装置を画像撮像装置0208及びソータ装置0209として追加することによって実現されてもよい。その場合、例えば、図11の画像撮像装置0208及びソータ装置0209が図1のOCR装置0307に相当し、図11の残りの部分が図1の計算機0308に相当する。あるいは、OCR一体型セキュア文書検出装置0200全体が一つのOCR装置として実現されてもよい。   Note that the OCR integrated secure document detection device 0200 may be realized by adding a conventional OCR device as the image capturing device 0208 and the sorter device 0209 to the secure document detection device 0100 of the first embodiment. In this case, for example, the image capturing device 0208 and the sorter device 0209 in FIG. 11 correspond to the OCR device 0307 in FIG. 1, and the remaining portion in FIG. 11 corresponds to the computer 0308 in FIG. Alternatively, the entire OCR integrated secure document detection device 0200 may be realized as one OCR device.
OCR一体型セキュア文書検出装置0200の中央演算装置0205は、画像撮像装置0208によって読み取られたデータを用いて、入力された文書がセキュア文書であるか否かを判定する。その処理は図3から図10を参照して説明した第1の実施形態と同様であるため、それについての説明は省略する。   The central processing unit 0205 of the OCR integrated secure document detection device 0200 uses the data read by the image capturing device 0208 to determine whether or not the input document is a secure document. Since the process is the same as that of the first embodiment described with reference to FIGS. 3 to 10, the description thereof is omitted.
さらに、本実施形態のOCR一体型セキュア文書検出装置0200は、ステップ0407の判定結果に基づいて、セキュア化電子文書0415を出力するだけでなく、画像撮像装置0208による読み取りが終了した後の紙文書0306の排出方法を選択することができる。これは、紙文書0306がセキュア文書である場合に、そこに含まれるセキュア情報を流出から保護するためである。   Furthermore, the OCR integrated secure document detection device 0200 according to the present embodiment not only outputs the secure electronic document 0415 based on the determination result of step 0407 but also the paper document after the reading by the image capturing device 0208 is completed. 0306 can be selected. This is because when the paper document 0306 is a secure document, the secure information contained therein is protected from outflow.
例えば、OCR一体型セキュア文書検出装置0200は、セキュア文書であると判定された紙文書0306を、そうでない紙文書0306とは異なる位置に排出してもよい。ここで「異なる位置」とは、例えば「異なる棚」であってもよいし、「同一の棚の中の異なる位置」であってもよい。   For example, the OCR integrated secure document detection apparatus 0200 may discharge the paper document 0306 determined to be a secure document to a position different from that of the paper document 0306 that is not. Here, the “different positions” may be, for example, “different shelves” or “different positions in the same shelf”.
あるいは、OCR一体型セキュア文書検出装置0200は、セキュア文書であると判定された紙文書0306を加工して排出してもよい。ここで「加工」とは、紙文書0306がセキュア文書であることを示す表示(例えば「秘」のような文字等)を印刷することであってもよいし、紙文書0306上の文字等を読み取りにくくするための所定の図形パタン等を印刷することであってもよいし、それらの文字等の読み取りを不可能にするために紙文書0306を破砕することであってもよい。この場合、ソータ装置0209は印刷装置又はシュレッダのような文書加工装置を含む。   Alternatively, the OCR integrated secure document detection device 0200 may process and discharge the paper document 0306 determined to be a secure document. Here, “processing” may mean printing a display (for example, a character such as “secret”) indicating that the paper document 0306 is a secure document, or a character on the paper document 0306. A predetermined graphic pattern or the like for making it difficult to read may be printed, or the paper document 0306 may be crushed to make it impossible to read those characters or the like. In this case, the sorter device 0209 includes a document processing device such as a printing device or a shredder.
あるいは、OCR一体型セキュア文書検出装置0200は、セキュア文書でないと判定された紙文書0306を通常の棚に排出し、セキュア文書であると判定された紙文書0306を排出しなくてもよい。この場合、セキュア文書であると判定された紙文書0306は、適切な権限を持ったユーザに取り出されるまで、OCR一体型セキュア文書検出装置0200の内部に蓄積される。   Alternatively, the OCR integrated secure document detection apparatus 0200 may discharge the paper document 0306 determined not to be a secure document to a normal shelf and may not discharge the paper document 0306 determined to be a secure document. In this case, the paper document 0306 determined to be a secure document is stored in the OCR integrated secure document detection apparatus 0200 until it is taken out by a user having appropriate authority.
なお、上記はステップ0407において文書がセキュア文書であるか否かを判定する例を示したが、ステップ0407においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、OCR一体型セキュア文書検出装置0200は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて紙文書0306の排出方法が選択されてもよい。例えば、一体型セキュア文書検出装置0200は、最も高いランクの紙文書0306を破砕して排出し、それ以外のランクの紙文書0306を、それぞれのランクに割り当てられた棚に排出してもよい。   In the above, an example in which it is determined in step 0407 whether or not the document is a secure document has been described. However, in step 0407, multivalue determination may be performed instead of such binary determination. For example, the OCR integrated secure document detection device 0200 may determine the rank of the secure information likelihood by comparing the calculated secure information likelihood with a plurality of threshold values. In that case, a discharge method of the paper document 0306 may be selected according to the determined rank. For example, the integrated secure document detection apparatus 0200 may crush and discharge the highest-ranked paper document 0306 and discharge the paper documents 0306 of other ranks to the shelves assigned to the respective ranks.
以上に説明した本発明の第2の実施形態によれば、紙に印刷された文書について、第1の実施形態と同様の高精度のセキュア文書判定を実現し、それによってセキュアな電子文書を確実に保護することができる。さらに、セキュア文書判定の結果と、入力された紙の排出とを連動させることによって、ユーザの管理コストを抑えながら、セキュアな紙文書を確実に保護することができる。   According to the second embodiment of the present invention described above, high-accuracy secure document determination similar to that of the first embodiment is realized for a document printed on paper, thereby ensuring a secure electronic document. Can be protected. Further, by linking the result of the secure document determination and the discharge of the input paper, the secure paper document can be reliably protected while suppressing the management cost of the user.
0100 セキュア文書検出装置
0101、0201 操作端末装置
0102、0202 表示端末装置
0103、0203 外部記憶装置
0104、0204 メモリ
0105、0205 中央演算装置
0106、0206 通信線
0107、0207 通信装置
0200 OCR一体型セキュア文書検出装置
0208 画像撮像装置
0209 ソータ装置
0301、0306 紙文書
0302 光学式文字読取装置(OCR装置)
0303、0305、0309、0310、0312 文書ファイル
0304、0308、0311 計算機
0501 セキュア文書例
0502 セキュア用語定義
0504 セキュア文書辞書
0511 非管理文書
0900 配置コストテーブル
0100 Secure document detection device 0101, 0201 Operation terminal device 0102, 0202 Display terminal device 0103, 0203 External storage device 0104, 0204 Memory 0105, 0205 Central processing unit 0106, 0206 Communication line 0107, 0207 Communication device 0200 OCR integrated secure document detection Apparatus 0208 Image imaging apparatus 0209 Sorter apparatus 0301, 0306 Paper document 0302 Optical character reader (OCR apparatus)
0303, 0305, 0309, 0310, 0312 Document file 0304, 0308, 0311 Computer 0501 Secure document example 0502 Secure term definition 0504 Secure document dictionary 0511 Unmanaged document 0900 Arrangement cost table

Claims (20)

  1. セキュア文書検出装置が実行するセキュア文書検出方法であって、
    前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、
    前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係、及び、キーワードペアの組み合わせに含まれる各キーワードペアの位置関係を示す情報が登録され、
    前記セキュア文書検出方法は、
    入力された文書データから、前記辞書に登録された、各々が社名を含むキーワードペアの組み合わせを抽出する第1手順と、
    前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係及び前記各キーワードペアの位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含むことを特徴とするセキュア文書検出方法。
    A secure document detection method executed by a secure document detection device,
    The secure document detection device includes an arithmetic device and a storage device that holds a dictionary,
    Wherein the dictionary, a plurality of keywords pairs each comprising at least two keywords, the positional relationship in the document of the two keywords included in each keyword pair, and the positional relationship of each keyword pairs included in the combination of the keyword pairs Is registered,
    The secure document detection method includes:
    A first procedure for extracting a combination of keyword pairs each including a company name registered in the dictionary from the input document data;
    Whether or not the input document data is a secure document based on the positional relationship in the input document data of the two keywords included in each extracted keyword pair and the positional relationship between the keyword pairs And a second procedure for determining the secure document detection method.
  2. 前記第2手順は、
    前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第3手順と、
    前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第4手順と、
    前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第5手順と、を含むことを特徴とする請求項1に記載のセキュア文書検出方法。
    The second procedure includes
    A third procedure for determining whether or not each of the extracted keyword pairs is a cooperative keyword pair based on the strength of association between the two keywords included in each of the extracted keyword pairs;
    The secure information likelihood of the input document data is increased so that the similarity between the positional relationship between the two keywords included in the cooperative keyword pair and the positional relationship between the two keywords registered in the dictionary increases. A fourth procedure for calculating the degree;
    The secure document detection method according to claim 1, further comprising: a fifth step of determining that the input document data is a secure document when the secure information likelihood is greater than a predetermined threshold. .
  3. 前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を含み、
    前記第3手順は、
    前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第6手順と、
    前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第7手順と、を含むことを特徴とする請求項2に記載のセキュア文書検出方法。
    The secure document detection method further includes a procedure of classifying text included in the input document data into a plurality of regions,
    The third procedure includes
    A sixth procedure for calculating the strength of association between the two keywords based on the region including the two keywords;
    If the associated intensity exceeds a predetermined threshold value, or, if the relevant strength ranking in the input document data exceeds a predetermined threshold value, each keyword pair said extracted cooperation keyword pairs The secure document detection method according to claim 2, further comprising: a seventh procedure for determining that
  4. 前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
    前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
    前記第6手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。
    The plurality of areas include at least one of a title, text, table, header, or footer,
    The dictionary further includes placement cost information that associates the combination of the regions with a predetermined weight,
    The sixth procedure includes a procedure of calculating the strength of association between the two keywords so that the larger the predetermined weight corresponding to the combination of regions to which the two keywords belong, the larger the predetermined procedure is. The secure document detection method according to claim 3.
  5. 前記辞書には、前記連携キーワードとして抽出されるべきでないキーワードペアがさらに登録され、
    前記配置コスト情報には、前記連携キーワードとして抽出されるべきでないキーワードペアに対応する前記重みとして、その他のキーワードペアに対応する前記重みより小さい値が登録されることを特徴とする請求項4に記載のセキュア文書検出方法。
    In the dictionary, keyword pairs that should not be extracted as the linked keywords are further registered,
    5. The arrangement cost information is registered with a value smaller than the weights corresponding to other keyword pairs as the weight corresponding to a keyword pair that should not be extracted as the cooperation keyword. The described secure document detection method.
  6. 前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストをそれが読まれる順に並べ替える手順を含み、
    前記第6手順は、前記テキストが読まれる順に基づいて、前記二つのキーワードの文脈上の距離を算出し、前記算出された文脈上の距離が近いほど大きくなるように前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。
    The secure document detection method further includes a procedure of rearranging text included in the input document data in the order in which the text is read.
    The sixth procedure calculates a contextual distance between the two keywords based on the order in which the text is read, and relates the relation between the two keywords so as to increase as the calculated contextual distance decreases. The secure document detection method according to claim 3, further comprising a procedure for calculating the strength.
  7. 前記第6手順は、前記二つのキーワードの前記入力された文書データにおけるユークリッド距離が近いほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。   The sixth procedure includes a procedure of calculating a strength of association between the two keywords so that the Euclidean distance in the input document data of the two keywords is shorter. 4. The secure document detection method according to 3.
  8. 前記セキュア文書検出方法は、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を含むことを特徴とする請求項1に記載のセキュア文書検出方法。 2. The method of claim 1, wherein the secure document detection method further includes a procedure of encrypting and outputting the input document data when it is determined that the input document data is a secure document. The described secure document detection method.
  9. 前記セキュア文書検出方法は、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を含むことを特徴とする請求項1に記載のセキュア文書検出方法。 In the secure document detection method, when a document to be determined to be a secure document and information specifying two keywords included in the document are input, information indicating the positional relationship between the two specified keywords The secure document detection method according to claim 1, further comprising a step of: extracting the specified keyword and information indicating the extracted positional relationship in the dictionary.
  10. 前記キーワードペアに含まれる二つのキーワードの位置関係を示す情報は、前記二つのキーワードの文書中の配置を示す方向及びそれらの間の距離を示すベクトルデータを含むことを特徴とする請求項1に記載のセキュア文書検出方法。 2. The information indicating the positional relationship between two keywords included in each keyword pair includes vector data indicating a direction indicating the arrangement of the two keywords in the document and a distance therebetween. The secure document detection method described in 1.
  11. 計算機によって実行されるセキュア文書検出プログラムであって、
    前記計算機は、演算装置と、前記セキュア文書検出プログラムを格納するメモリと、辞書を保持する記憶装置と、を備え、
    前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係、及び、キーワードペアの組み合わせに含まれる各キーワードペアの位置関係を示す情報が登録され、
    前記セキュア文書検出プログラムは、
    入力された文書データから前記辞書に登録された、各々が社名を含むキーワードペアの組み合わせを抽出する第1手順と、
    前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係及び前記各キーワードペアの位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を前記計算機に実行させることを特徴とするセキュア文書検出プログラム。
    A secure document detection program executed by a computer,
    The computer includes an arithmetic device, a memory that stores the secure document detection program, and a storage device that holds a dictionary.
    Wherein the dictionary, a plurality of keywords pairs each comprising at least two keywords, the positional relationship in the document of the two keywords included in each keyword pair, and the positional relationship of each keyword pairs included in the combination of the keyword pairs Is registered,
    The secure document detection program is:
    A first procedure for extracting a combination of keyword pairs each including a company name registered in the dictionary from the input document data;
    Whether or not the input document data is a secure document based on the positional relationship in the input document data of the two keywords included in each extracted keyword pair and the positional relationship between the keyword pairs A secure document detection program for causing the computer to execute a second procedure for determining
  12. 前記第2手順は、
    前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第3手順と、
    前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第4手順と、
    前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第5手順と、を含むことを特徴とする請求項11に記載のセキュア文書検出プログラム。
    The second procedure includes
    A third procedure for determining whether or not each of the extracted keyword pairs is a cooperative keyword pair based on the strength of association between the two keywords included in each of the extracted keyword pairs;
    The secure information likelihood of the input document data is increased so that the similarity between the positional relationship between the two keywords included in the cooperative keyword pair and the positional relationship between the two keywords registered in the dictionary increases. A fourth procedure for calculating the degree;
    The secure document detection program according to claim 11, further comprising: a fifth step of determining that the input document data is a secure document when the secure information likelihood is greater than a predetermined threshold. .
  13. 前記セキュア文書検出プログラムは、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を前記計算機に実行させ、
    前記第3手順は、
    前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第6手順と、
    前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第7手順と、を含むことを特徴とする請求項12に記載のセキュア文書検出プログラム。
    The secure document detection program further causes the computer to execute a procedure for classifying text included in the input document data into a plurality of regions,
    The third procedure includes
    A sixth procedure for calculating the strength of association between the two keywords based on the region including the two keywords;
    If the associated intensity exceeds a predetermined threshold value, or, if the relevant strength ranking in the input document data exceeds a predetermined threshold value, each keyword pair said extracted cooperation keyword pairs The secure document detection program according to claim 12, further comprising a seventh procedure for determining that
  14. 前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
    前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
    前記第6手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項13に記載のセキュア文書検出プログラム。
    The plurality of areas include at least one of a title, text, table, header, or footer,
    The dictionary further includes placement cost information that associates the combination of the regions with a predetermined weight,
    The sixth procedure includes a procedure of calculating the strength of association between the two keywords so that the larger the predetermined weight corresponding to the combination of regions to which the two keywords belong, the larger the predetermined procedure is. The secure document detection program according to claim 13.
  15. 前記セキュア文書検出プログラムは、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を前記計算機に実行させることを特徴とする請求項11に記載のセキュア文書検出プログラム。 The secure document detection program further causes the computer to execute a procedure of encrypting and outputting the input document data when it is determined that the input document data is a secure document. The secure document detection program according to claim 11.
  16. 前記セキュア文書検出プログラムは、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を前記計算機に実行させることを特徴とする請求項11に記載のセキュア文書検出プログラム。 When the secure document detection program is further input with a document to be determined to be a secure document and information specifying two keywords included in the document, information indicating the positional relationship between the two specified keywords The secure document detection program according to claim 11, wherein the computer is caused to execute a procedure of extracting the specified keyword and the information indicating the extracted positional relationship in the dictionary.
  17. 入力された紙文書から文字情報を読み取る光学式文字読取装置であって、
    前記光学式文字読取装置は、演算装置と、セキュア情報辞書を保持する記憶装置と、前記入力された紙文書を読み取る画像撮像装置と、前記入力された紙文書を排出する排紙装置と、を備え、
    前記セキュア情報辞書には、各々が二つのキーワードを含む複数のキーワードペア、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係、及び、キーワードペアの組み合わせに含まれる各キーワードペアの位置関係を示す情報が登録され、
    前記光学式文字読取装置は、
    前記入力された紙文書から文字情報を読み取ることによって文書データを作成し、
    前記文書データから、前記セキュア情報辞書に登録された、各々が社名を含むキーワードペアの組み合わせを抽出し、
    前記抽出されたキーワードペアに含まれる二つのキーワードの前記文書データ中の位置関係及び前記各キーワードペアの位置関係に基づいて、前記入力された紙文書がセキュア文書であるか否かを判定し、
    前記判定の結果に応じて、前記入力された紙文書の排出方法を制御することを特徴とする光学式文字読取装置。
    An optical character reader that reads character information from an input paper document,
    The optical character reader includes an arithmetic device, a storage device that holds a secure information dictionary, an image pickup device that reads the input paper document, and a paper discharge device that discharges the input paper document. Prepared,
    Wherein the secure information dictionary, a plurality of keywords pairs each comprising two keywords, the positional relationship in the document of the two keywords included in each keyword pair, and the position of each keyword pairs included in the combination of the keyword pairs Information indicating the relationship is registered,
    The optical character reader is
    Create document data by reading character information from the input paper document,
    From the document data, a combination of keyword pairs each including a company name registered in the secure information dictionary is extracted,
    Based on the positional relationship between the two keywords included in each extracted keyword pair in the document data and the positional relationship between the keyword pairs, it is determined whether or not the input paper document is a secure document. ,
    An optical character reader that controls a method of discharging the input paper document in accordance with the result of the determination.
  18. 前記排紙装置は、複数の棚を備え、
    前記光学式文字読取装置は、セキュア文書であると判定された紙文書と、セキュア文書でないと判定された紙文書とが、異なる前記棚に排出されるように、前記入力された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。
    The paper discharge device includes a plurality of shelves,
    The optical character reader discharges the input paper document so that a paper document determined to be a secure document and a paper document determined to be not a secure document are discharged to different shelves. The optical character reader according to claim 17, wherein:
  19. 前記排紙装置は、印刷装置を備え、
    前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、前記入力された紙文書にそれがセキュア文書であることを示す表示を印刷し、前記印刷された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。
    The paper discharge device includes a printing device,
    When it is determined that the input paper document is a secure document, the optical character reader prints a display indicating that the input paper document is a secure document on the input paper document, and the printed The optical character reader according to claim 17, wherein the paper document is discharged.
  20. 前記排紙装置は、読み取り困難になるように前記入力された紙文書を加工する加工装置を備え、
    前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、読み取り困難になるように前記入力された紙文書を加工し、前記加工された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。
    The paper discharge device includes a processing device that processes the input paper document so as to be difficult to read,
    When it is determined that the input paper document is a secure document, the optical character reader processes the input paper document so as to be difficult to read, and discharges the processed paper document The optical character reader according to claim 17.
JP2010092071A 2010-04-13 2010-04-13 Secure document detection method, secure document detection program, and optical character reader Expired - Fee Related JP5629908B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010092071A JP5629908B2 (en) 2010-04-13 2010-04-13 Secure document detection method, secure document detection program, and optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010092071A JP5629908B2 (en) 2010-04-13 2010-04-13 Secure document detection method, secure document detection program, and optical character reader

Publications (2)

Publication Number Publication Date
JP2011221894A JP2011221894A (en) 2011-11-04
JP5629908B2 true JP5629908B2 (en) 2014-11-26

Family

ID=45038785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010092071A Expired - Fee Related JP5629908B2 (en) 2010-04-13 2010-04-13 Secure document detection method, secure document detection program, and optical character reader

Country Status (1)

Country Link
JP (1) JP5629908B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5953851B2 (en) * 2012-03-19 2016-07-20 富士ゼロックス株式会社 Document management apparatus and program
US9064125B2 (en) * 2013-05-03 2015-06-23 Citrix Systems, Inc. Image analysis and management
CN104751064A (en) 2013-12-27 2015-07-01 珠海金山办公软件有限公司 Document encryption prompting method and document encryption prompting system
TWI528219B (en) * 2014-10-01 2016-04-01 財團法人資訊工業策進會 Method, electronic device, and computer readable recording media for identifying confidential data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228751A (en) * 2000-02-18 2001-08-24 Minolta Co Ltd Image-formed paper sheet processor
JP4225958B2 (en) * 2004-08-18 2009-02-18 シャープ株式会社 Image reading apparatus and image forming apparatus having the same
JP5056337B2 (en) * 2007-10-17 2012-10-24 三菱電機株式会社 Information retrieval system

Also Published As

Publication number Publication date
JP2011221894A (en) 2011-11-04

Similar Documents

Publication Publication Date Title
Déjean et al. A system for converting PDF documents into structured XML format
CN102236693B (en) Method and device for determining similarity between documents
US9754120B2 (en) Document redaction with data retention
US7801392B2 (en) Image search system, image search method, and storage medium
US8065739B1 (en) Detecting policy violations in information content containing data in a character-based language
US8286171B2 (en) Methods and systems to fingerprint textual information using word runs
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
JP4682284B2 (en) Document difference detection device
US20080222319A1 (en) Apparatus, method, and program for outputting information
US20110078098A1 (en) Method and system for extraction
US20040148298A1 (en) Browse information management system and management method
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
US9268768B2 (en) Non-standard and standard clause detection
US10235583B2 (en) Electronically shredding a document
RU2656581C2 (en) Editing the content of an electronic document
US9436882B2 (en) Automated redaction
US20190236102A1 (en) System and method for differential document analysis and storage
JP5629908B2 (en) Secure document detection method, secure document detection program, and optical character reader
JP2013105321A (en) Document processing device, method of analyzing relationship between document constituents and program
Meunier Optimized xy-cut for determining a page reading order
JP4135659B2 (en) Format conversion device and file search device
Hakak et al. Residual-based approach for authenticating pattern of multi-style diacritical Arabic texts
US20160026620A1 (en) Advanced clause groupings detection
Eskenazi et al. When document security brings new challenges to document analysis
Hendrickson et al. Identifying exceptional descriptions of people using topic modeling and subgroup discovery

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140912

R150 Certificate of patent or registration of utility model

Ref document number: 5629908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees