JP5084341B2 - Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method - Google Patents
Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method Download PDFInfo
- Publication number
- JP5084341B2 JP5084341B2 JP2007117193A JP2007117193A JP5084341B2 JP 5084341 B2 JP5084341 B2 JP 5084341B2 JP 2007117193 A JP2007117193 A JP 2007117193A JP 2007117193 A JP2007117193 A JP 2007117193A JP 5084341 B2 JP5084341 B2 JP 5084341B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- exception
- estimated
- handled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Description
本発明は、文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法に係り、特に文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法に関する。 The present invention relates to a document analysis processing device, an image processing device, a document analysis processing program, and a document analysis processing method, and in particular, a document analysis processing device, an image processing device, which analyzes a document attribute and performs processing according to the attribute. The present invention relates to a document analysis processing program and a document analysis processing method.
近年の自然言語処理技術の発達と計算機の処理能力の向上に伴い、従来の文書解析処理装置では、大量の蓄積文書の中から内容が類似する文書を抽出し、類似度に基づいて分類をすることが可能になっている。 With the recent development of natural language processing technology and improvement of computer processing capability, conventional document analysis processing devices extract documents with similar contents from a large amount of stored documents and classify them based on the degree of similarity It is possible.
文書が類似するかどうかの判定方法としては、以下の手法が知られている。まず、従来の判定方法では、対象文書を文字列や単語や文節を単位とする要素に分解し、その要素の組み合わせに基づいて特徴量を計算する。そして、従来の判定方法では、全ての文書の組み合わせについて、特徴量の類似度を求め、類似度が一定以上であれば類似するとみなしていた。 The following methods are known as methods for determining whether documents are similar. First, in the conventional determination method, a target document is decomposed into elements each having a character string, a word, or a phrase as a unit, and a feature amount is calculated based on the combination of the elements. In the conventional determination method, the similarity of the feature amounts is obtained for all the combinations of documents, and if the similarity is equal to or higher than a certain level, it is regarded as similar.
特徴量の計算方法としては様々な方式が考案されている。例えば、従来の計算方法では対象文書を文字列や単語や文節を単位とする要素に分解した後に、各要素の文書集合における出現頻度と、その対象文書における出現頻度とに基づいて要素の重みを求める。そして、従来の計算方法では各要素と、その重みによって構成されるベクトルとによって特徴量を表現していた。 Various methods have been devised for calculating feature amounts. For example, in the conventional calculation method, after the target document is decomposed into elements in units of character strings, words, and phrases, the element weights are calculated based on the appearance frequency of each element in the document set and the appearance frequency in the target document. Ask. In the conventional calculation method, the feature amount is expressed by each element and a vector constituted by its weight.
なお、類似度は、そのベクトルの内積を求めるなどして算出する。類似度に基づく従来の分類方法では、同じ分類のものとして定義された文書群の特徴量(ベクトル)の平均値を算出し、対象文書の特徴量(ベクトル)と、その平均ベクトルとの類似度が一定以上であれば、その対象文書はその分類であると判断していた。特許文献1には、上記のような類似文書の検索に関する技術の一例が記載されている。
The similarity is calculated by obtaining the inner product of the vectors. In the conventional classification method based on similarity, the average value of feature quantities (vectors) of document groups defined as having the same classification is calculated, and the similarity between the feature quantity (vector) of the target document and the average vector is calculated. If is more than a certain value, the target document is determined to be in that category.
また、企業等の各組織では、扱う企業秘密や個人情報について、その情報漏えいを防止することが求められている。特許文献2には、各組織においてセキュリティポリシー(ポリシー)を掲げて、権限のある人にしか機密情報にアクセスできないようにアクセスを制御したり、機密情報を暗号化して権限のある人にしか閲覧できないようにしたりする技術の一例が記載されている。
In addition, each organization such as a company is required to prevent information leakage of trade secrets and personal information handled.
このように従来の文書解析処理装置では、文書にアクセスする際、上記のような類似文書の検索に関する技術を利用し、文書の内容から文書の属性を推定して、文書に対するアクセスがポリシーに違反していないかを監視することができた。
しかしながら、ポリシーに従って文書に対するアクセスの監視を行う従来の文書解析処理装置では、以下のように、運用時にユーザが不便を感じることも起こり得た。例えばポリシーは「・・・は原則的に禁止、実行せざるをえない場合は管理責任者の許可を得た上で実行する。」というような原則運用である。したがって、原則以外が適用できない従来の文書解析処理装置は、例えば以下のケースについて、不便,融通が利かないなどの悪評を買うことがあった。 However, in a conventional document analysis processing apparatus that monitors access to a document according to a policy, the user may feel inconvenience during operation as follows. For example, a policy is a principle operation such as “... is prohibited in principle, and is executed with the permission of the manager in charge when it must be executed”. Therefore, the conventional document analysis processing apparatus to which other than the principle can not be applied is often notorious for the following cases, such as inconvenience and inflexibility.
第1のケースは、類似検索・分類の推定結果が論理的に正解であるが、運用上、その文書に推定属性を適用したくないような例である。原則以外が適用できない従来の文書解析処理装置は第1のケースに対して融通性がない。 The first case is an example in which the estimation result of the similar search / classification is logically correct, but the estimation attribute is not applied to the document in operation. A conventional document analysis processing apparatus to which other than the principle is not applicable is not flexible with respect to the first case.
例えば開発商品単位のカテゴリの分類「商品A,商品B,商品C」で分類管理する体系があるとする。商品Aについては競合他社への漏洩対策の為、開発関係者のみ参照可が規定され、開発関係者以外に対して「極秘」扱いが規定されている。 For example, it is assumed that there is a system for performing classification management by category classification “product A, product B, product C” of a developed product unit. For product A, it is stipulated that only development personnel can refer to it as a countermeasure against leakage to competitors, and “top-secret” treatment is stipulated for non-developer personnel.
商品Aのパンフレット文書を分類すると、原則以外が適用できない従来の文書解析処理装置では「商品A」に判定される。しかし、パンフレット文書は、多くの人に公開したいため、「極秘」扱いとしたくない。また、商品Aの機能仕様書のドラフト文書は開発関係者以外「極秘」扱いだが、他の商品Bのチームでも参考にする記述がある場合、他の商品Bのチームも参照可としたい。 If the pamphlet document of product A is classified, it is determined as “product A” in the conventional document analysis processing apparatus to which other than the principle cannot be applied. However, since pamphlet documents are open to many people, they do not want to treat them as “top secret”. In addition, the draft document of the functional specification of product A is treated as “confidential” except for those involved in development, but if there is a description that can be referred to by other product B teams, it would be possible to refer to other product B teams.
このようなケースでは、次回以降、同じような文書が分類された場合、前回の判定結果と異なる結果を要求される。このような状況を解決する1つの方法として、「極秘,秘,社外秘」など、アクセス制御されている従来の文書解析処理装置ではコンテンツによらず文書にIDが付与されており、例外制御を扱う機能として許可証等も考案されている。しかし、許可証を利用する従来の文書解析処理装置は、文書に付与されたIDに基づくものであり、文書にIDが付与されていない文書に適応できなかった。 In such a case, if a similar document is classified after the next time, a result different from the previous determination result is requested. As one method for solving such a situation, in a conventional document analysis processing apparatus in which access control is performed, such as “secret”, “secret”, “private secret”, etc., an ID is assigned to a document regardless of content, and exception control is handled. Permits etc. are also devised as a function. However, the conventional document analysis processing apparatus using a permit is based on the ID assigned to the document, and cannot be applied to a document in which no ID is assigned to the document.
第2のケースは、類似検索・分類の判定結果を変更する方法として、電子メールのスパムフィルタのフィードバック・再学習機能タイプを利用する例である。スパムフィルタのフィードバック・再学習機能タイプを利用する従来の文書解析処理装置では、学習データベースそのものを再学習させており、学習データベースの特徴量を変えることになってしまう。正解を正解でないと学習させることは、学習データベースの精度低下に繋がってしまう。 The second case is an example in which the feedback / relearning function type of an e-mail spam filter is used as a method for changing the determination result of the similar search / classification. In the conventional document analysis processing apparatus using the feedback / relearning function type of the spam filter, the learning database itself is relearned, and the feature amount of the learning database is changed. Learning the correct answer if it is not correct leads to a decrease in the accuracy of the learning database.
本発明は、上記の点に鑑みなされたもので、融通が利き、且つ精度低下も防止できる文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法を提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a document analysis processing device, an image processing device, a document analysis processing program, and a document analysis processing method that are flexible and can prevent deterioration in accuracy. .
上記課題を解決するため、本発明は、文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置であって、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と、前記文書及び前記文書に対するアクション情報を受信する受付手段と、前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段と、を有し、前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられていることを特徴とする。 In order to solve the above-described problems, the present invention is a document analysis processing apparatus that analyzes document attributes and performs processing according to the attributes, and associates the characteristics of an exception-handled document with exception-handled exception attributes. The exception attribute analyzing means for analyzing the exception attribute of the document based on the specified exception attribute storing means, and the estimated attribute storage means in which the characteristics of the document not handled as an exception and the estimated attribute not handled as an exception are associated with each other. An estimated attribute analyzing unit that analyzes the estimated attribute of the document, and based on a result of excluding the exception attribute of the document analyzed by the exception attribute analyzing unit from the estimated attribute of the document analyzed by the estimated attribute analyzing unit, a document attribute analysis means for the attribute analysis, a receiving unit for receiving the action information for the document and the document, Accession for the attribute and the document of the document Policy determination based on policy storage means in which the application information is associated with processing according to the document attribute and action information for the document, and based on the policy determination result, the document attribute and the document have a, and policy determination means for performing a process corresponding to the action information for the document, the exceptional attributes storage means, incidental conditions for exception handling is correspondence to exception attributes features and exception handling of the document to be exempt It is characterized by being.
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。 In addition, what applied the component, expression, or arbitrary combination of the component of this invention to a method, an apparatus, a system, a computer program, a recording medium, a data structure, etc. is also effective as an aspect of this invention.
本発明によれば、融通が利き、且つ精度低下も防止できる文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法を提供可能である。 According to the present invention, it is possible to provide a document analysis processing device, an image processing device, a document analysis processing program, and a document analysis processing method that are flexible and can prevent a decrease in accuracy.
次に、本発明を実施するための最良の形態を、以下の実施例に基づき図面を参照しつつ説明していく。 Next, the best mode for carrying out the present invention will be described based on the following embodiments with reference to the drawings.
図1は本発明によるシステムの一実施例の構成図である。図1のシステムは、文書属性学習・解析サーバ1,複合機2,文書学習連携プログラム3及び例外学習連携プログラム4を含む構成である。なお、文書属性学習・解析サーバ1は、文書解析処理装置の一例である。複合機2は、画像処理装置の一例である。
FIG. 1 is a block diagram of an embodiment of a system according to the present invention. The system shown in FIG. 1 includes a document attribute learning /
図1の文書属性学習・解析サーバ1は、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17を含む構成である。
The document attribute learning /
文書属性学習は、学習クライアントである文書学習連携プログラム3と、学習サーバである文書属性学習プログラム12とで行われる。文書属性学習プログラム12は、文書属性学習の結果を属性特徴ベースDB16に登録する。また、例外学習は学習クライアントである例外学習連携プログラム4と、学習サーバである例外学習プログラム13とで行われる。例外学習プログラム13は、例外学習の結果を例外情報DB17に登録する。
Document attribute learning is performed by the document
文書属性解析プログラム11は、複合機2から解析対象文書5を受信し、その文書の属性を後述のように解析する。そして、文書属性解析プログラム11はポリシーDB15を用いて後述のようにポリシー判定を行う。ポリシー違反を検出すると、文書属性解析プログラム11は例えば管理者に警告を行う。最後に、文書属性解析プログラム11は結果を解析結果DB14に登録する。
The document
文書属性学習・解析サーバ1は、例えば図2に示すようなハードウェア構成により実現される。図2は、文書属性学習・解析サーバの一実施例のハードウェア構成図である。
The document attribute learning /
文書属性学習・解析サーバ1は、それぞれバスBで相互に接続された入力装置21,出力装置22,ドライブ装置23,補助記憶装置24,主記憶装置25,演算処理装置26およびインターフェース装置27で構成される。
The document attribute learning /
入力装置21はキーボードやマウスなどで構成され、各種信号を入力するために用いられる。出力装置22はディスプレイ装置などで構成され、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置27は、モデム,LANカードなどで構成されており、インターネットやLAN等のネットワークに接続する為に用いられる。
The input device 21 includes a keyboard and a mouse, and is used for inputting various signals. The
本発明による文書解析処理プログラムは、文書属性学習・解析サーバ1を制御する各種プログラムの少なくとも一部である。文書解析処理プログラムは例えば記録媒体28の配布やネットワークからのダウンロードなどによって提供される。文書解析処理プログラムを記録した記録媒体28は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
The document analysis processing program according to the present invention is at least a part of various programs that control the document attribute learning /
また、文書解析処理プログラムを記録した記録媒体28がドライブ装置23にセットされると、文書解析処理プログラムは記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた文書解析処理プログラムはインターフェース装置27を介して補助記憶装置24にインストールされる。
When the
補助記憶装置24はインストールされた文書解析処理プログラムを格納すると共に、必要なファイル,データ等を格納する。主記憶装置25は、起動時に補助記憶装置24から文書解析処理プログラムを読み出して格納する。そして、演算処理装置26は主記憶装置25に格納された文書解析処理プログラムに従って、後述するような各種処理を実現している。
The
本発明による文書解析処理プログラムは、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13を含む構成である。文書属性学習処理は文書学習連携プログラム3及び文書属性学習プログラム12によって実現される。
The document analysis processing program according to the present invention includes a document
文書属性学習プログラム12は文書学習連携プログラム3から文書属性の学習依頼を受け付け、受け付けた文書を基に文書属性学習の結果を属性特徴ベースDB16に登録する登録処理を行う。なお、文書学習連携プログラム3及び文書属性学習プログラム12は所定のフォルダを監視し、フォルダに機密文書が保存されたとき、機密文書の文書属性学習を行って文書属性学習の結果を登録するような既存の技術を利用して実現できる。
The document
また、例外学習処理は例外学習連携プログラム4及び例外学習プログラム13によって実現される。図3は例外学習処理の手順を表したフローチャートである。ステップS1に進み、例外学習連携プログラム4は例えば管理者等のユーザから特別に例外扱いしたい文書と例外扱いしたい文書の属性(例外属性)とが入力される。
The exception learning process is realized by the exception learning cooperation program 4 and the
図4は特別に例外扱いしたい文書と例外扱いしたい文書の属性とが入力される例外学習画面の一例のイメージ図である。図4の例外学習画面40は、例外扱いしたい文書を「対象ファイル」として入力し、例外扱いしたい文書の属性を「属性」として入力する例を表している。なお、「対象ファイル」の入力は、「参照」ボタン41を押下することで表示されるファイル管理画面を利用して行うこともできる。
FIG. 4 is an image diagram of an example of an exception learning screen in which a document to be specially handled as an exception and attributes of the document to be handled as an exception are input. The
ステップS2に進み、例外学習連携プログラム4はユーザから入力された例外扱いしたい文書と例外扱いしたい文書の属性とに基づき、例外学習プログラム13へ例外情報の学習依頼を送信する。例外情報の学習依頼には、ユーザによって入力された例外扱いしたい文書と例外扱いしたい文書の属性とが、学習文書と例外属性として含まれる。
In step S2, the exception learning cooperation program 4 transmits a request for learning exception information to the
さらに、ユーザから例外属性を適用するのに必要なコンテキスト(付帯条件)が入力された場合、例外情報の学習依頼にはコンテキストが更に含まれる。例えばコンテキストには例外属性を適用する人を特定するもの(XXXさんがコピーする場合だけ例外的に許可する等)や例外属性を適用する場所を特定するもの(xxxの部屋内であればコピーを許可する等)がある。 Furthermore, when a context (ancillary condition) necessary for applying the exception attribute is input from the user, the exception information learning request further includes the context. For example, in the context, specify the person to whom the exception attribute is applied (exception is permitted only when Mr. XXX copies), or specify the location where the exception attribute is applied (copy in the xxx room) Etc.).
ステップS3に進み、例外学習プログラム13は例外学習連携プログラム4から例外情報の学習依頼を受け付ける。ステップS4に進み、例外学習プログラム13は受け付けた例外情報の学習依頼を基に例外情報の登録処理を行う。
In step S3, the
例外情報の登録処理では、受け付けた例外情報の学習依頼に含まれる学習文書から全文検索の元になるテキスト情報を抽出する。なお、学習文書がスキャン文書等の画像である場合にはOCR処理によりテキスト情報を抽出する。 In the exception information registration process, text information that is the source of the full-text search is extracted from the learning document included in the accepted exception information learning request. When the learning document is an image such as a scanned document, text information is extracted by OCR processing.
ステップS5に進み、例外学習プログラム13はテキスト情報から全文検索用の特徴量を算出し、その特徴量と共に、受け付けた例外情報の学習依頼に含まれる指定された例外属性を紐付けて例外情報DB17へ登録する。
In step S5, the
なお、図3のフローチャートに表した例外学習処理は既存の技術を利用して実現することができる。例えばテキスト情報から全文検索用の特徴量を算出する処理は従来技術を応用して実現できる。全文検索用の特徴量は、文字列,単語又は文節の組み合わせの要素に分解されたテキスト情報における、各要素の出現頻度や重みのn次元ベクトルで表すことができる。 The exception learning process shown in the flowchart of FIG. 3 can be realized by using existing technology. For example, the processing for calculating the feature amount for full text search from text information can be realized by applying the prior art. The feature quantity for full-text search can be represented by an n-dimensional vector of the appearance frequency and weight of each element in text information decomposed into elements of a combination of character string, word or clause.
全文検索用の特徴量をn次元ベクトルで表した場合、文書間の類似度は以下のように計算できる。類似度の計算は、例えば特開2000−148770号公報などに記載されているようなn次元ベクトル間の内積あるいは余弦によって算出する方法を用いることができる。類似度が閾値を超えていれば、2つの文書は類似すると判定される。 When the feature quantity for full-text search is represented by an n-dimensional vector, the similarity between documents can be calculated as follows. For the calculation of the similarity, for example, a method of calculating by an inner product or cosine between n-dimensional vectors as described in JP 2000-148770 A can be used. If the similarity exceeds the threshold, it is determined that the two documents are similar.
図5は例外情報DBに登録されるレコードのイメージ図である。図5のレコードは例外扱いする文書(例外文書)の特徴データと、例外文書の属性(例外属性)と、例外属性を適用する人(ユーザ)を特定するコンテキスト1と、例外属性を適用する場所を特定するコンテキスト2とを含む構成である。なお、例外文書の特徴データはテキスト情報から算出した全文検索用の特徴量である。例外属性,コンテキスト1及び2は、受け付けた例外情報の学習依頼に含まれていたものである。
FIG. 5 is an image diagram of records registered in the exception information DB. The record in FIG. 5 includes feature data of an exception handling document (exception document), an exception document attribute (exception attribute), a
さらに、文書属性解析処理は、文書属性解析プログラム11,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17によって実現される。図6は文書属性解析プログラムの一実施例の構成図である。図6の文書属性解析プログラム11は、文書解析依頼受付部61,文書解析判定処理部62,属性特徴ベース判定部63,例外情報判定部64,ポリシー判定部65を含む構成である。
Further, the document attribute analysis process is realized by the document
図7は文書属性解析処理の手順を表したフローチャートである。ステップS11では文書解析依頼受付部61が複合機2等の外部から解析対象文書5及びアクション情報(例えば誰が何をした等)をネットワーク経由で受信し、その解析対象文書5及びアクション情報を文書解析判定処理部62に送信する。
FIG. 7 is a flowchart showing the procedure of document attribute analysis processing. In step S11, the document analysis
ステップS12に進み、文書解析判定処理部62は例外情報判定部64へ例外判定を要求する。例外判定を要求された例外情報判定部64は例外情報DB17に登録されている例外文書の特徴データから解析対象文書5の特徴データと、ほぼ同一の例外文書を検索する類似文書検索を行う。そして、例外情報判定部64は検索された例外文書に紐付けされている例外属性を例外情報DB17から抽出する(結果1)。
In
なお、例外情報判定部64は例外情報DB17に登録されている例外文書の特徴データから解析対象文書5の特徴データと、ほぼ同一の例外文書を検索するため、類似度の閾値を図8に示すように通常より高く設定する。図8は、ほぼ同一の例外文書を検索する為に利用する類似度の閾値を表した一例のグラフ図である。
Note that the exception
閾値のグラフ図は、利用する文書検索エンジンによって類似度の値、分布が違う。したがって、類似文書検索を行う場合には予め実験して閾値の推奨値を決める。類似文書検索を行う場合の閾値は、評価段階で、目的に近いサンプルデータ(学習文書)を使って決めることが望ましい。 In the graph of the threshold value, the similarity value and distribution differ depending on the document search engine used. Therefore, when a similar document search is performed, a recommended value for the threshold is determined through an experiment in advance. It is desirable to determine the threshold value for the similar document search using sample data (learning document) close to the purpose at the evaluation stage.
例外判定では、ほぼ同一に近い類似文書を抽出したい。そこで、例外判定では学習したものと同じ文書(質問文書)で質問した場合に100%となるように正規化した類似度を用いる。 In exception determination, I want to extract similar documents that are nearly identical. Therefore, in the exception determination, a similarity degree normalized so as to be 100% when a question is asked with the same document (question document) as learned is used.
ただし、学習文書や質問文書が複合機2から得たスキャン画像である場合、毎回、全く同一の像やOCR結果を得ることが難しいので、同じ紙画像を質問しても100%は得られない。そこで、類似文書検索を行う場合には類似度の閾値を、多少の相違結果を考慮した高い値(2)とする。値(1)は、正解を誤りとしてしまう誤認と、誤りを正解としてしまう誤認とのバランスを考えた通常の閾値を表している。
However, if the learning document or question document is a scanned image obtained from the
ステップS13に進み、文書解析判定処理部62は属性特徴ベース判定部63へ属性推定を要求する。属性推定を要求された属性特徴ベース判定部63は、属性特徴ベースDB16に登録されている文書属性学習の結果に基づき、通常のコンテンツ解析(類似文書検索&文書分類)により解析対象文書5の推定属性を抽出する(結果2)。
In step S13, the document analysis
ステップS14に進み、文書解析判定処理部62は結果1の例外属性と結果2の推定属性とに基づき、解析対象文書5の総合判定を行う。図9は、結果1の例外属性,結果2の推定属性および総合結果を表した構造イメージ図である。図9に示すように、結果1の例外属性の構造は、複数の例外属性及び信頼度から成る。結果2の推定属性の構造は、複数の推定属性及び信頼度から成る。解析対象文書5の総合結果は、結果2の推定属性の構造を表す属性リストから結果1の例外属性の構造を表す属性リストを除いたものである。
In step S14, the document analysis
図10は、結果1の例外属性,結果2の推定属性及び総合結果を表した処理イメージ図である。図10の例では、結果1の例外属性「カテゴリA」を結果2の推定属性「カテゴリA,カテゴリB」から除いて、総合結果「カテゴリB」が得られた例を表している。
FIG. 10 is a processing image diagram showing the exception attribute of
総合結果が得られた後、ポリシー判定部65はステップS15に進み、ステップS14で得られた総合結果とステップS11で受信したアクション情報とを元に、ポリシーDB15を用いてポリシー判定を行う。ポリシーDB15には、図11のようなポリシーが設定されている。
After the comprehensive result is obtained, the
図11はポリシーDBに設定されているポリシーの一例の構成図である。図11のポリシーは「CATEGORY_Aの文書がスキャンされたら、管理者に警告メールを送信する。」というものである。ポリシーDB15には、文書の属性「カテゴリA」及び文書に対するアクション情報「スキャン」が、処理「管理者に警告メールを送信する」と対応付けられている。
FIG. 11 is a configuration diagram of an example of a policy set in the policy DB. The policy in FIG. 11 is “When a document of CATEGORY_A is scanned, a warning mail is sent to the administrator”. In the
ステップS15のポリシー判定の結果、ポリシー違反を検出すると、ポリシー判定部65はステップS16からステップS17に進み、ポリシーDB15に設定されているポリシーに従って警告メールや警告ログ等の責務処理を行った後、ステップS18に進む。
If a policy violation is detected as a result of the policy determination in step S15, the
ステップS15のポリシー判定の結果、ポリシー違反を検出しなければ、ポリシー判定部65はステップS16からステップS18に進む。ステップS18では、文書解析判定処理部62が総合結果を解析結果DB14に登録する。
If no policy violation is detected as a result of the policy determination in step S15, the
なお、本発明によるシステムは図1の構成に限るものでなく、図12,図13に示した構成であってもよい。図12は本発明によるシステムの他の実施例の構成図である。図12のシステムはサーバ及びクライアントの連携型でなく、複合機2へ各種機能を盛り込んだ構成となっている。
Note that the system according to the present invention is not limited to the configuration shown in FIG. 1, but may have the configurations shown in FIGS. FIG. 12 is a block diagram of another embodiment of the system according to the present invention. The system shown in FIG. 12 has a configuration in which various functions are incorporated in the
図12のシステムは、学習も文書学習連携プログラム3及び例外学習連携プログラム4と連携するのでなく、複合機2側から学習元のファイルサーバ121を監視して文書を取り込む形式となる。
The system shown in FIG. 12 does not cooperate with the document
複合機2は、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17,コピー,スキャナ,ファクシミリ等のアプリ120を含む構成である。
The
文書属性解析プログラム11は自機のアプリ120から解析対象文書5を取得し、その文書の属性を前述のように解析する。そして、文書属性解析プログラム11はポリシーDB15を用いて前述のようにポリシー判定を行う。ポリシー違反を検出すると、文書属性解析プログラム11は例えばオペパネを利用して管理者に警告を行う。最後に、文書属性解析プログラム11は結果を解析結果DB14に登録する。
The document
図13は本発明によるシステムの他の実施例の構成図である。図13のシステムは図12のシステムと同様、複合機2へ各種機能を盛り込んだ構成となっているが、学習を文書学習連携プログラム3と連携して行っている。
FIG. 13 is a block diagram of another embodiment of the system according to the present invention. The system shown in FIG. 13 has a configuration in which various functions are incorporated in the
本発明によるシステムは、属性特徴ベースDB16とは別の独立した例外情報DB17を用意して、例外情報を独立して学習させることにより、属性特徴ベースDB16の精度を低下させることなく、融通性を高めることができる。
The system according to the present invention prepares an
また、類似文書検索による例外文書の特定には、曖昧性を低くする為に類似度の閾値を通常より高く設定することで、ほぼ同一の例外文書の検索を実現する。ほぼ同一の例外文書の検索を実現することで、本発明によるシステムは文書のコンテンツ自体が文書を特定する要素になる。 In addition, in order to specify an exception document by similar document search, by setting a similarity threshold higher than usual in order to reduce ambiguity, it is possible to search for almost identical exception documents. By realizing retrieval of almost identical exception documents, in the system according to the present invention, the document content itself becomes an element for specifying the document.
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.
1 文書属性学習・解析サーバ
2 複合機
3 文書学習連携プログラム
4 例外学習連携プログラム
5 解析対象文書
11 文書属性解析プログラム
12 文書属性学習プログラム
13 例外学習プログラム
14 解析結果DB
15 ポリシーDB
16 属性特徴ベースDB
17 例外情報DB
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 主記憶装置
26 演算処理装置
27 インターフェース装置
61 文書解析依頼受付部
62 文書解析判定処理部
63 属性特徴ベース判定部
64 例外情報判定部
65 ポリシー判定部
120 アプリ
121 ファイルサーバ
DESCRIPTION OF
15 Policy DB
16 Attribute feature base DB
17 Exception information DB
21
Claims (5)
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と、
前記文書及び前記文書に対するアクション情報を受信する受付手段と、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段と、
を有し、
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられている
ことを特徴とする文書解析処理装置。 A document analysis processing device that analyzes document attributes and performs processing according to the attributes,
An exception attribute analyzing means for analyzing the exception attribute of the document based on an exception attribute storage means in which a feature of the document to be handled as an exception and an exception attribute to be handled as an exception are associated;
An estimated attribute analyzing means for analyzing the estimated attribute of the document based on an estimated attribute storage means in which a feature of a document not handled as an exception and an estimated attribute not handled as an exception are associated;
A document attribute analyzing unit that analyzes the attribute of the document based on a result obtained by removing the exception attribute of the document analyzed by the exception attribute analyzing unit from the estimated attribute of the document analyzed by the estimated attribute analyzing unit ;
Receiving means for receiving the document and action information for the document;
Policy determination is performed based on policy storage means in which the attribute of the document and action information for the document are associated with processing corresponding to the attribute of the document and action information for the document, and based on the result of the policy determination Policy determining means for performing processing according to the attribute of the document and action information for the document;
I have a,
The document analysis processing apparatus, wherein the exception attribute storage means associates an incidental condition for handling an exception with a feature of the document to be handled as an exception and an exception attribute to be handled as an exception .
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と、
前記文書及び前記文書に対するアクション情報を受信する受付手段と、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段と、
を有し、
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられている
ことを特徴とする画像処理装置。 An image processing apparatus having at least one of a plotter unit and a scanner unit that analyzes an attribute of a document and performs processing according to the attribute,
An exception attribute analyzing means for analyzing the exception attribute of the document based on an exception attribute storage means in which a feature of the document to be handled as an exception and an exception attribute to be handled as an exception are associated;
An estimated attribute analyzing means for analyzing the estimated attribute of the document based on an estimated attribute storage means in which a feature of a document not handled as an exception and an estimated attribute not handled as an exception are associated;
A document attribute analyzing unit that analyzes the attribute of the document based on a result obtained by removing the exception attribute of the document analyzed by the exception attribute analyzing unit from the estimated attribute of the document analyzed by the estimated attribute analyzing unit ;
Receiving means for receiving the document and action information for the document;
Policy determination is performed based on policy storage means in which the attribute of the document and action information for the document are associated with processing corresponding to the attribute of the document and action information for the document, and based on the result of the policy determination Policy determining means for performing processing according to the attribute of the document and action information for the document;
I have a,
The image processing apparatus according to claim 1, wherein the exception attribute storage means associates an incidental condition for handling an exception with a feature of the document to be handled as an exception and an exception attribute to be handled as an exception .
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段、
前記文書及び前記文書に対するアクション情報を受信する受付手段、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段
として機能させ、
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられていること
を特徴とする文書解析処理プログラム。 A document analysis processing device that analyzes document attributes and performs processing according to the attributes.
Exceptions attribute analysis means to analyze the exception attributes of the document based on the exception attribute storage means and exception attributes associated to features and exempt of the document to be exempt,
Estimated attribute analysis means to analyze the estimated attributes of the document based on the estimated attribute storage means and estimated attributes associated not characterized and exception handling documents that do not exempt,
The basis of the estimated attributes of the document analyzed by estimating attribute analysis unit to the exception attribute analyzing means results exception attributes of the analyzed document by the document attribute analysis means to analyze the attributes of the document,
Receiving means for receiving the document and action information for the document;
Policy determination is performed based on policy storage means in which the attribute of the document and action information for the document are associated with processing corresponding to the attribute of the document and action information for the document, and based on the result of the policy determination Policy determining means for performing processing according to the attribute of the document and action information for the document
And then allowed to function,
In the exception attribute storage means, the incidental conditions for handling exceptions are associated with the characteristics of the documents to be handled as exceptions and the exception attributes to be handled as exceptions.
Document analysis processing program characterized by
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析ステップと、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析ステップと、
前記推定属性解析ステップにより解析された前記文書の推定属性から前記例外属性解析ステップにより解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析ステップと、
前記文書及び前記文書に対するアクション情報を受信する受付ステップと、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定ステップと、
を有し、
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられている
ことを特徴とする文書解析処理方法。 A document analysis processing method in a document analysis processing apparatus that analyzes an attribute of a document and performs processing according to the attribute,
An exception attribute analyzing step of analyzing the exception attribute of the document based on an exception attribute storage means in which a feature of the document to be handled as an exception and an exception attribute to be handled as an exception are associated;
An estimated attribute analysis step of analyzing the estimated attribute of the document based on estimated attribute storage means in which a feature of the document that is not handled as an exception and an estimated attribute that is not handled as an exception are associated;
A document attribute analysis step for analyzing the attribute of the document based on a result obtained by removing the exception attribute of the document analyzed by the exception attribute analysis step from the estimated attribute of the document analyzed by the estimated attribute analysis step ;
Receiving a document and action information for the document;
Policy determination is performed based on policy storage means in which the attribute of the document and action information for the document are associated with processing corresponding to the attribute of the document and action information for the document, and based on the result of the policy determination A policy determination step for performing processing according to the attribute of the document and action information for the document;
I have a,
The document analysis processing method, wherein the exception attribute storage means associates an incidental condition for handling an exception with a feature of the document to be handled as an exception and an exception attribute to be handled as an exception .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007117193A JP5084341B2 (en) | 2007-04-26 | 2007-04-26 | Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007117193A JP5084341B2 (en) | 2007-04-26 | 2007-04-26 | Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008276386A JP2008276386A (en) | 2008-11-13 |
JP5084341B2 true JP5084341B2 (en) | 2012-11-28 |
Family
ID=40054283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007117193A Expired - Fee Related JP5084341B2 (en) | 2007-04-26 | 2007-04-26 | Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5084341B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4666065B2 (en) * | 2008-12-03 | 2011-04-06 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP5164876B2 (en) * | 2009-02-12 | 2013-03-21 | 日本電信電話株式会社 | Representative word extraction method and apparatus, program, and computer-readable recording medium |
JP2013114383A (en) * | 2011-11-28 | 2013-06-10 | Denso Corp | Privacy protection method, device for vehicle, communication system for vehicle and portable terminal |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034622A (en) * | 1999-07-19 | 2001-02-09 | Nippon Telegr & Teleph Corp <Ntt> | Document sorting method and its device, and recording medium recording document sorting program |
JP2006048220A (en) * | 2004-08-02 | 2006-02-16 | Ricoh Co Ltd | Method for applying security attribute of electronic document and its program |
-
2007
- 2007-04-26 JP JP2007117193A patent/JP5084341B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008276386A (en) | 2008-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8341734B1 (en) | Method and system to audit physical copy data leakage | |
US11188657B2 (en) | Method and system for managing electronic documents based on sensitivity of information | |
US8352535B2 (en) | Method and system for managing confidential information | |
KR100781730B1 (en) | System and method for electronically managing composite documents | |
US7830571B2 (en) | System, apparatus and method for document management | |
US9043929B2 (en) | Minimizing sensitive data exposure during preparation of redacted documents | |
US9167120B2 (en) | Document policies for a document processing unit | |
KR100882349B1 (en) | Method and apparatus for preventing confidential information leak | |
US8458179B2 (en) | Augmenting privacy policies with inference detection | |
US20080243818A1 (en) | Content-based accounting method implemented in image reproduction devices | |
JP5084341B2 (en) | Document analysis processing apparatus, image processing apparatus, document analysis processing program, document analysis processing method | |
JP2007148946A (en) | Unauthorized access detection method | |
JP2001320517A (en) | Picture reader | |
JP2012182737A (en) | Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program | |
US20240273230A1 (en) | System and method for managing data access requests | |
US9208452B2 (en) | Digital rights management for publishing scanned documents on the internet | |
WO2007057945A1 (en) | Document management device, program thereof, and system thereof | |
US20230077317A1 (en) | Method and system for masking personally identifiable information (pii) using neural style transfer | |
JP2007201639A (en) | Image processing apparatus and control method thereof, image processing system, program, and recording medium | |
JP5430618B2 (en) | Dynamic icon overlay system and method for creating a dynamic overlay | |
US20100106537A1 (en) | Detecting Potentially Unauthorized Objects Within An Enterprise | |
JP5217513B2 (en) | An information analysis processing method, an information analysis processing program, an information analysis processing device, an information registration processing method, an information registration processing program, an information registration processing device, an information registration analysis processing method, and an information registration analysis processing program. | |
US20140222762A1 (en) | Automated document archive for a document processing unit | |
US20120328148A1 (en) | Method and system for secure image management | |
CN112801492B (en) | Knowledge-hierarchy-based data quality inspection method and device and computer equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5084341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |