JP2009211404A - 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。 - Google Patents

情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。 Download PDF

Info

Publication number
JP2009211404A
JP2009211404A JP2008053776A JP2008053776A JP2009211404A JP 2009211404 A JP2009211404 A JP 2009211404A JP 2008053776 A JP2008053776 A JP 2008053776A JP 2008053776 A JP2008053776 A JP 2008053776A JP 2009211404 A JP2009211404 A JP 2009211404A
Authority
JP
Japan
Prior art keywords
information
analysis
registration
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008053776A
Other languages
English (en)
Other versions
JP5217513B2 (ja
Inventor
Yoichi Kanai
洋一 金井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008053776A priority Critical patent/JP5217513B2/ja
Publication of JP2009211404A publication Critical patent/JP2009211404A/ja
Application granted granted Critical
Publication of JP5217513B2 publication Critical patent/JP5217513B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】機密情報の漏洩を防止し、利便性を向上させる。
【解決手段】文書解析処理部200は、登録文書ピースの特徴量を格納する類似情報検索DB300と、登録文書データの分類特徴量を機密カテゴリごとに格納する文書分類DB310とを備え、文書解析受付部201が、解析文書データの解析要求を受け付ける情報解析受付ステップと、文書ピース分割解析部203が、解析文書データを解析文書ピースに分割する解析対象情報分割ステップと、類似文書検索部204が、文書解析ピースに類似する登録文書ピースを検索する類似情報検索ステップと、文書分類部205が、類似する登録文書ピースが検索されなかった場合、解析文書データをいずれかの機密カテゴリに分類する情報分類ステップと、文書解析処理部202が、解析文書データや検索結果等を解析結果として出力する解析結果出力ステップとを含む。
【選択図】 図4

Description

本発明は、文書などの情報を解析して分類する情報解析処理方法、情報解析処理プログラム、情報解析処理装置、および文書などの情報を分類するための分類情報を登録する情報登録処理方法、情報登録処理プログラム、情報登録処理装置、および文書などの情報を分類するための分類情報を登録し、該情報を解析して登録した分類情報に従って分類する情報登録解析処理方法、および情報登録解析処理プログラムに関する。
近年の自然言語処理技術の発達と計算機の処理能力の向上に伴い、大量の蓄積文書集合の中から内容が類似する文書を抽出したり、類似度に基づいて分類をしたりすることが可能になっている。
文書が類似するかどうかの判定方法としては、例えば、以下の手法が知られている。まず、対象文書を文字列や単語や文節を単位とする要素に分解し、その要素の組み合わせに基づいて特徴量を計算する。そして、全ての文書の組み合わせについて、特徴量の類似度を求め、類似度が一定以上であれば類似するとみなす。
特徴量の計算方法としては様々な方式が考案されている。例えば、対象文書を文字列や単語や文節を単位とする要素に分解した後に、各要素の文書集合における出現頻度とその対象文書における出現頻度とに基づいて要素の重みを求めて、各要素とその重みによって構成されるベクトルによって特徴量を表現する方法が知られている。また、類似度は、そのベクトルの内積を求めるなどして算出する。類似度に基づく分類は、同じ分類のものとして定義された文書群の特徴量(ベクトル)の平均値を算出し、対象文書の特徴量(ベクトル)とその平均ベクトルとの類似度が一定以上であればその対象文書はその分類であると判断するような方法がある。
ここで、例えば、問合せ文を分類するものとして、問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体が開示されている(特許文献1参照)。この特許文献1には、文書集合をクラスタリングして自動分類する方法と、その分類結果を利用して新しい文書を分類する方法が記載されている。すなわち、蓄積された問合せ・回答文書情報を、その内容に基づいて複数のカテゴリに分類し、新たに寄せられた問合せに対して、その内容が最も近いカテゴリを選び出すものである。
また、セキュリティ情報との関連付けがなされていない情報を適切に保護するセキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体が開示されている(特許文献2参照)。この特許文献2には、文書のセキュリティ属性を推定するシステムにおいて、その推定対象の文書に類似する文書を、既存の蓄積文書の中から検索し、見つかった類似する蓄積文書のセキュリティ属性を推定結果として提示するシステムが記載されている。
また、読み取られた原稿から文書IDが取得されない場合でも文書管理のセキュリティを維持する画像形成装置、画像形成システム、セキュリティ管理装置およびセキュリティ管理方法が開示されている(特許文献3参照)。この特許文献3には、複写機で原稿をコピー等する際に、その原稿からセキュリティ情報を読み取れなかった場合にはスキャン画像から文字列などを抽出して、既存の文書管理データの文書と合致するかどうかを判断し、合致する場合にはコピーを停止するようなシステムが記載されている。
また、画像データに画像として含まれているテキスト情報を適切に判定することのできる画像処理装置、画像処理方法、画像処理プログラム及び記録媒体が開示されている(特許文献4参照)。セキュリティ属性を推定するシステムにおいて、推定対象の文書がスキャン画像の場合、そのスキャン画像にOCR(Optical Character Reader)をかけてテキストを抽出し、そのテキストと類似する文書を既存の蓄積文書の中から検索するが、OCR誤りが影響してうまく検索できない場合がある。これを解決するために、特許文献4では、あらかじめ既存の蓄積文書の印刷イメージを作成し、その印刷イメージに対してOCRをかけた結果のテキストを保持しておく。そして、そのテキストとマッチングを取れば類似する文書がより正確に探し出せるというものである。
また、文書をカテゴリに分類する際に、推定したカテゴリに基づいて、内容の類似している文書をまとめ、ユーザに順次提示してチェックを促す文書分類支援方法および装置が開示されている(特許文献5参照)。電子文書を文書分類システムにかけた際には、分類誤りがないかどうかをチェックする必要があるが、特許文献5では、そのチェックを容易に行うことができるものである。また、文書分類システムそのものについても記載されている。
また、膨大なテキスト情報を自動分類する製品が製造されている(非特許文献1参照)。この非特許文献1の製品は、テキストに分類コード(複数)を対応させてシステムに学習させておき、図14に示すように、後で分類したい対象文書のテキストを入力することで該当する分類コード(複数)が得られるというものである。
また、近年、企業などで扱う企業秘密や個人情報について、その情報漏えいを防止することが求められている。そのために、権限のある利用者にしか機密情報にアクセスできないようにアクセスを制御したり、機密情報を暗号化して権限のある利用者にしか閲覧、印刷できないようにするものが知られている。しかし、その一方で、権限のある利用者にアクセスされた機密情報は、それが印刷されたりすると機密管理ができなくなってしまうという問題があった。
そのような問題に対しては、電子メールが送付される際や、紙文書がMFP(デジタル複合機:Multi Function Peripherals)においてスキャン、複写、ファクス送信される際に、その文書の内容を解析してその文書に類似する機密文書を文書DB(データベース)から検索して機密文書に類似するかどうかを判定し、その対象文書のセキュリティ属性を推定するようなシステムが提案されている(例えば、特許文献2〜4参照)。
特開2000−148770号公報 特開2006−185153号公報 特開2005−166023号公報 特開2006−293917号公報 特許第3603392号公報 http://www.justsystem.co.jp/km/product/cb102.html
しかしながら、実際には、解析を行う対象文書には、複数の機密文書の内容が混在する可能性がある。例えば、電子メールに添付された電子文書ファイルが複数の文書からのコピーアンドペーストで作成された場合が考えられる。また、MFPで複写する原稿が機密文書と一般文書が混在したものである場合が考えられる。
上記特許文献1〜5や非特許文献1では、文書等の情報の全体に対しての類似判定を行うものである。従って、上述のような電子メールの添付ファイル、MFPで複写された原稿全体について、既存の機密文書に似ているかどうかを判定しようとしても、部分的には似ているかもしれないが全体としては似ていないという判定結果になってしまう場合がある。そして、むしろそれを悪用し、一般文書の中に機密情報を紛れ込ませることで、機密文書には類似しないと判定させるようなことが可能となってしまうという問題があった。
また、仕掛かり文書やドラフト文書など、機密文書DBにまだ登録されていない文書については、それがメールで送信されたりMFPでスキャン、複写、ファクス送信されたりしても、その文面がいずれの機密文書にも類似しないという判定結果になってしまう場合がある。そうすると、既存の機密文書と同様の内容を含みながらも文面が異なるがために機密文書ではないと判定されてしまうとう問題があった。
本発明は、上記に鑑みてなされたものであって、機密情報の漏洩を防止し、利便性を向上させる情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、情報解析処理装置で実行される情報解析処理方法において、前記情報解析処理装置は、登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、情報解析受付部が、外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付ステップと、情報分割解析部が、前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する解析対象情報分割ステップと、類似情報検索部が、前記部分解析情報を構成する要素に基づいて前記部分解析情報の第3特徴量を算出し、算出された前記第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索ステップと、情報分類部が、前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類ステップと、情報解析処理部が、全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する解析結果出力ステップと、を含むことを特徴とする。
また、請求項2にかかる発明は、請求項1に記載の情報解析処理方法において、ポリシー処理部が、前記解析結果を受け取った前記解析対象情報に対して、前記属性情報に対応づけて前記解析対象情報に実行する処理を定めたセキュリティポリシーに基づく処理を行うポリシー処理ステップを、さらに含むことを特徴とする。
また、請求項3にかかる発明は、請求項1または2に記載の情報解析処理方法において、前記解析対象情報は、画像形成装置で処理された情報であることを特徴とする。
また、請求項4にかかる発明は、情報登録処理装置で実行される情報登録処理方法において、前記情報登録処理装置は、登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、情報登録受付部が、前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付ステップと、情報分割登録部が、前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する登録対象情報分割ステップと、類似情報登録部が、前記部分情報を構成する要素に基づいて前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する部分情報格納ステップと、情報分類登録部が、前記登録対象情報を構成する要素に基づいて前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納する分類格納ステップと、を含むことを特徴とする。
また、請求項5にかかる発明は、請求項4に記載の情報登録処理方法において、情報保存監視部が、前記登録対象情報を保存する記憶装置に、前記登録対象情報が保存されたか否かを監視する保存監視ステップと、情報登録要求部が、前記記憶装置に前記登録対象情報が保存された場合、前記登録対象情報と前記属性情報とを含む前記登録要求を、前記情報登録受付部に送出する登録要求ステップとをさらに含むことを特徴とする。
また、請求項6にかかる発明は、請求項4または5に記載の情報登録処理方法において、前記登録対象情報は、画像形成装置において形成された画像データであることを特徴とする。
また、請求項7にかかる発明は、情報登録解析処理装置で実行される情報登録解析処理方法において、前記情報登録解析処理装置は、登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、情報登録受付部が、前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付ステップと、情報分割登録部が、前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する登録対象情報分割ステップと、類似情報登録部が、前記部分情報を構成する要素に基づいて前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する部分情報格納ステップと、情報分類登録部が、前記登録対象情報を構成する要素に基づいて前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納する分類格納ステップと、情報解析受付部が、外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付ステップと、情報分割解析部が、前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する解析対象情報分割ステップと、類似情報検索部が、前記部分解析情報を構成する要素に基づいて前記部分解析情報の第3特徴量を算出し、算出された前記第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索ステップと、情報分類部が、前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類ステップと、情報解析処理部が、全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する解析結果出力ステップと、を含むことを特徴とする。
また、請求項8にかかる発明は、請求項7に記載の情報登録解析処理方法において、画像形成装置により形成された画像データを、前記登録対象情報として前記情報登録受付部に送出する情報登録送出ステップをさらに含み、前記情報登録受付ステップは、前記情報登録受付部が、前記登録対象情報としての前記画像データと前記属性情報とを含むと前記登録要求を受け付けることを特徴とする。
また、請求項9にかかる発明は、請求項7に記載の情報登録解析処理方法において、画像形成装置により形成された画像データを、前記解析対象情報として前記情報解析受付部に送出する情報解析送出ステップをさらに含み、前記情報解析受付ステップは、前記情報解析受付部が、前記外部装置から前記解析対象情報としての前記画像データを受信することを特徴とする。
また、請求項10にかかる発明は、請求項1〜9に記載の方法をコンピュータに実行させるプログラムである。
また、請求項11にかかる発明は、登録対象の情報である登録対象情報を分割した部分情報の第1特徴量を格納する類似情報検索記憶部と、前記登録対象情報の第2特徴量を属性情報ごとに格納する情報分類記憶部と、外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付部と、前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する情報分割解析部と、前記部分解析情報を構成する要素により算出された第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索部と、前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類部と、全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する情報解析処理部と、を備えることを特徴とする情報解析処理装置である。
また、請求項12にかかる発明は、登録対象の情報である登録対象情報を分割した部分情報の第1特徴量を格納する類似情報検索記憶部と、前記登録対象情報の第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付部と、前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する情報分割登録部と、前記部分情報を構成する要素により前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する類似情報登録部と、を備え、前記情報分類登録部は、前記登録対象情報を構成する要素により前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納することを特徴とする情報登録処理装置である。
本発明によれば、機密情報などの解析対象情報を分割することで、解析対象情報の類似度を判定する単位をより細かくして、解析対象情報を構成する部分である部分解析情報がいずれかの部分情報と類似するかを判定できる。また、部分解析情報が、登録されているいずれの部分情報にも類似しないと判定された場合には、解析対象情報をいずれかのカテゴリに分類できる。従って、解析対象情報が機密情報であるか否かの判定や分類をより正確に行うことができ、機密情報の漏洩を防止し、利便性を向上させるという効果を奏する。
以下に添付図面を参照して、この発明にかかる情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラムの最良な実施の形態を詳細に説明する。
以下の実施の形態では、情報を機密文書の文書データに適用した例を示し、登録が行われる文書データを登録文書データとし、解析が行われる文書データを解析文書データと称する。また、情報解析処理装置を文書解析処理部に適用し、情報登録処理装置を文書登録部に適用し、さらに、情報登録解析処理装置を文書登録解析サーバに適用した例を示すが、これに限定されることはない。すなわち、文書などの情報を登録、解析可能な装置やサーバであれば、本発明を適用することができる。
図1は、実施の形態にかかる文書登録解析サーバおよび関連周辺機器の全体構成を示す図である。図1に示すように、文書登録解析サーバ1は、類似文書検索DB(database)300と、文書分類DB310と、文書登録部100と、文書解析処理部200と、文書監視部400とから主に構成されている。そして、文書登録解析サーバ1は、画像ログDB2と、ファイルサーバ3と、MFP5と主にネットワーク等を介して接続されている。
まず、文書登録処理および文書解析処理の概要を説明する。文書監視部400は、管理者Dから監視するフォルダの設定を受け付け、該設定に従ってファイルサーバ3の文書フォルダに機密文書の登録文書データが保存されたか否かを監視する。そして、文書監視部400は、ファイルサーバ3から登録文書データを取得して、文書登録部100に登録文書データの登録要求を送出する。
文書登録部100は、文書監視部400から受け付けた機密文書の登録文書データを分割して類似文書検索DB300に登録したり、機密文書の登録文書データをいずれかの機密カテゴリに分類して文書分類DB310に登録する。
文書解析処理部200は、一般利用者EがPC4により印刷等を行った文書データや、一般利用者Fが紙原稿Pをスキャン、ファクス送信、複写等を行った文書データをMFP5から受信することで、解析文書データの解析要求を受け付ける。文書解析処理部200は、受け付けた解析文書データが既存の機密文書の登録文書データに類似するか、既存の機密文書の登録文書データに類似しなくても既存の機密文書の機密カテゴリのいずれかに分類できるか等の解析を行う。そして、文書解析処理部200は、その解析結果に基づいて、分類した解析文書データに対して、管理者Dにより設定されたセキュリティポリシーに従った処理、すなわち電子メールによる通報処理や画像ログDB2への記録処理を行う。
次に、登録文書データの文書登録処理の詳細について説明する。図2は、文書監視部および文書登録部の構成図である。まず、文書監視部400は、ファイルサーバ3の文書フォルダに新しく機密文書の登録文書データが保存されたか否かを監視するものであり、監視フォルダ設定部401と、文書保存監視部402と、文書登録要求部403とを主に備えている。
監視フォルダ設定部401は、監視フォルダ設定画面から管理者Dによる設定操作を受け付け、受け付けた設定操作に従って監視フォルダ設定データを生成して出力する。図3は、監視フォルダ設定画面の一例を示す図である。図3に示すように、監視フォルダ設定画面50には、登録文書データの機密カテゴリの名称入力欄51と、監視フォルダのパス入力欄52とが表示されている。この名称入力欄51とパス入力欄52から、管理者Dによる機密カテゴリの名称と監視フォルダのパスの入力操作(設定操作)を受け付けて、関しフォルダ設定データを生成し、メモリ等の記憶媒体に保存する。また、監視フォルダ設定画面50の下部には、設定済み監視フォルダの一覧53が表示されている。図3では、「D:\Documents\Contracts\」という監視フォルダに格納された登録文書データは、「CONTRACT」という機密カテゴリの文書として登録されることになる。
ここで、登録文書データとは、例えば、文書で構成された文書データを示しているが、登録する文書データは電子文書ファイルに限定されることはない。すなわち、例えば、MFP(デジタル複合機)で紙原稿をスキャンすることにより形成されたスキャン画像データに対して登録処理を行うように構成してもよい。この場合、紙原稿をスキャンする際に、MFPのオペレーションパネル等から、画像データの機密カテゴリを入力させる構成としてもよいし、スキャン送付の「あて先」を機密カテゴリとしてマッピングするようにする構成としてもよい。
文書保存監視部402は、監視フォルダ設定部401により生成された監視フォルダ設定データを読み込んで、監視フォルダ設定データの設定に従って、ファイルサーバ3の文書フォルダに新しい機密文書の登録文書データが保存されたか否かを監視するものである。また、文書保存監視部402は、新しい機密文書の登録文書データがファイルサーバ3に保存されると、保存された機密文書の登録文書データのファイルパスと、監視フォルダ設定データを参照して登録文書データに対応する機密カテゴリを文書登録要求部403に送出する。
文書登録要求部403は、ファイルサーバ3に登録文書データが保存された場合、ファイルサーバ3から登録文書データを読み出し、読み出した登録文書データと、登録文書データのファイルパスと、登録文書データの機密カテゴリとを含む登録要求を、文書登録部100の文書登録受付部101に送出するものである。
次に、文書登録部100は、文書監視部400から送出されてくる機密文書の登録文書データを登録するものであり、文書登録受付部101と、文書登録処理部102と、文書ピース分割登録部103と、類似文書検索DB登録部104と、文書分類DB登録部105とを主に備え、類似文書検索DB300と、文書分類DB310と接続されている。
文書登録受付部101は、文書監視部400の文書登録要求部403から、登録文書データのファイルパスと、登録文書データの機密カテゴリと、登録文書データとを含む登録要求を受け付けると、受け付けたファイルパスと機密カテゴリと登録文書データとを文書登録処理部102に送出するものである。
文書登録処理部102は、文書登録受付部101から、ファイルパスと機密カテゴリと登録文書データとを受け取り、ファイルパスと機密カテゴリと登録文書データとを文書ピース分割登録部103に送出し、機密カテゴリと登録文書データとを文書分類DB登録部105に送出するものである。
文書ピース分割登録部103は、文書登録処理部102から、ファイルパスと機密カテゴリと登録文書データとを受け取り、受け取った登録文書データを、予め規定された分割規則に基づいて複数の登録文書ピースに分割してピース番号を付与するものである。また、文書ピース分割登録部103は、ファイルパスと機密カテゴリとピース番号と登録文書ピースとを組にして類似文書検索DB登録部104に送出する。なお、登録文書データが画像データであった場合、該画像データに対してOCR処理を施すことでテキスト情報を取得し、取得したテキスト情報を登録文書ピースに分割して登録処理を行う。
ここで、上述した「予め規定された分割規則」とは、例えば、500文字ごとに分割するなど文字数によって分割する規則や、登録文書データの半ページを一つの登録文書ピースとして分割する規則や、パラグラフ単位で分割する規則、句点で区切って分割する規則などである。
類似文書検索DB登録部104は、文書ピース分割登録部103により分割された各登録文書ピースを構成する要素により、各登録文書ピースを特徴付ける特徴量(第1特徴量)を算出し、算出した特徴量をファイルパスと機密カテゴリとピース番号とに対応づけて、類似文書検索DB300に格納するものである。これにより、登録文書ピース単位の類似検索を可能にする。この第1特徴量は、登録文書ピースが類似しているか否かの検索をするために使用される。なお、第1特徴量の算出は、各登録文書ピースを構成する要素に基づいて公知の手法で算出される。
文書分類DB登録部105は、文書登録処理部102から、機密カテゴリと登録文書データとを受け取り、登録文書データを構成する要素により、登録文書データを特徴付ける分類特徴量(第2特徴量)を算出し、算出した分類特徴量を機密カテゴリごとに新たな分類特徴量として、文書分類DB310に格納するものである。これにより、登録文書データの分類を可能にする。この第2特徴量は、登録文書データを分類するために使用される。なお、第2特徴量の算出は、各登録文書データを構成する要素に基づいて公知の手法で算出される。
類似文書検索DB300は、算出された登録文書ピースの特徴量を、ファイルパスと機密カテゴリとピース番号と対応づけて登録するHDD(Hard Disk Drive)などの記録媒体である。
文書分類DB310は、算出された登録文書データの分類特徴量を、機密カテゴリごとに登録するHDDなどの記録媒体である。
次に、解析文書データの文書解析処理の詳細について説明する。図4は、文書解析処理部の構成図である。文書解析処理部200は、MFP5などの外部装置から受信した解析文書データを解析し、解析結果に基づいてセキュリティポリシーに従った処理を行うものであり、文書解析受付部201と、文書解析処理部202と、文書ピース分割解析部203と、類似文書検索部204と、文書分類部205と、ポリシー処理部206と、ポリシー設定部207とを主に備えている。
文書解析受付部201は、上述したように、PC4からの指示により印刷等を行ったり、紙原稿Pをスキャン、ファクス送信、複写等を行った解析文書データと、利用者固有の識別情報であるユーザIDと、受信する解析文書データに対していずれの処理が施されたかを示す文書処理種別(例えば、スキャン処理等)とを、MFP5からネットワークを介して受信することで、解析文書データの解析要求を受け付けるものである。そして、文書解析受付部201は、受信した解析文書データとユーザIDと文書処理種別とを文書解析処理部202に送出する。
ここで、解析文書データとは、例えば、文書で構成された文書データを示しているが、解析する文書データは電子文書ファイルに限定されることはない。すなわち、例えば、MFP(デジタル複合機)で紙原稿をスキャンすることにより形成されたスキャン画像データに対して解析処理を行うように構成してもよい。
文書解析処理部202は、文書解析受付部201から解析文書データとユーザIDと文書処理種別とを受け取り、解析文書データを文書ピース分割解析部203に送出する。
文書ピース分割解析部203は、文書解析処理部202から解析文書データを受け取ると、該解析文書データを、予め規定された分割規則に基づいて複数の解析文書ピースに分割して解析ピース番号を付与するものである。また、文書ピース分割解析部203は、解析ピース番号と解析文書ピースとを対応づけて類似文書検索部204に送出する。なお、解析文書データが画像データであった場合、該画像データに対してOCR処理を施すことでテキスト情報を取得し、取得したテキスト情報を解析文書ピースに分割して解析処理を行う。ここで、予め規定された分割規則とは、登録処理の場合と同様である。
類似文書検索部204は、文書ピース分割解析部203から、対応付けられた解析ピース番号と解析文書ピースとを受け取り、受け取った解析文書ピースに類似する登録文書ピースが類似文書検索DB300に登録されているか否かを検索するものである。すなわち、類似文書検索部204は、文書ピース分割解析部203により分割された解析文書ピースを特徴付ける特徴量(第3特徴量)を解析文書ピースの構成要素から算出し、算出した特徴量と類似文書検索DB300に格納された登録文書ピースにおける特徴量とを比較する。そして、登録文書ピースのいずれかの特徴量のうち、解析文書ピースの特徴量と類似するものが存在した場合、解析文書ピースと該登録文書ピースとは類似していると判断し、登録文書ピースのいずれかの特徴量のうち、解析文書ピースの特徴量と類似するものが存在しなかった場合、解析文書ピースと該登録文書ピースとは類似していないと判断する。特徴量の類似判断は、比較対象の特徴量の数値の差が所定の範囲内である場合に、類似していると判断することができるが、これに限定されるものではない。
類似検索を行った結果、解析文書ピースと類似する登録文書ピースが検索された場合、類似文書検索部204は、その登録文書ピースに対応づけられているファイルパスとピース番号と機密カテゴリとを含めた検索結果を生成し、生成した検索結果を文書ピース分割解析部203に送出する。
図5は、類似文書検索部により生成された検索結果の一例を示す図である。図5に示すように、検索結果60には、解析文書ピースと、解析文書ピースの解析ピース番号とが必ず含まれている。そして、類似する登録文書ピースの情報として、ファイルパス、ピース番号、機密カテゴリを含める。また、類似する登録文書ピースが複数存在した場合には、その全ての類似する登録文書ピースの情報を検索結果に含める。図5では、2つの類似する登録文書ピース(1)および(2)の情報が検索された場合を示している。
一方、類似検索を行った結果、解析文書ピースと類似する登録文書ピースが検索されなかった場合、類似文書検索部204は、類似する登録文書ピースの情報に関する部分には何も含まれずに空のままで、解析文書ピースとピース番号のみが含まれた検索結果を生成し、生成した検索結果を文書ピース分割解析部203に送出する。
そして、上述した文書ピース分割解析部203は、さらに、類似文書検索部204から送出された、解析ピース番号が付与された全ての解析文書ピースについての検索結果を受け取ると、それらの検索結果を集積したピース解析結果を生成して、生成したピース解析結果を文書解析処理部202に送出する。図6は、文書ピース分割解析部により生成されたピース解析結果の一例を示す図である。図6に示すように、ピース解析結果61には、類似文書検索部204から送出された全ての検索結果(図5参照)が含まれている。図6では、1〜Nまでの検索結果(1)(2)・・・(N)が含まれている。
そして、上述した文書解析処理部202は、さらに、文書ピース分割解析部203から送出されたピース解析結果を受け取ると、そのピース解析結果から類似する登録文書ピースが検索できなかった検索結果の解析ピース番号および解析文書ピースを取得し、取得した解析ピース番号および解析文書ピースを文書分類部205に送出する。
文書分類部205は、文書解析処理部202から送出された、類似する登録文書ピースが検索できなかった検索結果の解析ピース番号および解析文書ピースを受け取り、受け取った解析文書ピースの特徴量に基づいて解析文書データをいずれかの機密カテゴリに分類するものである。すなわち、文書分類部205は、受け取った解析文書ピースの特徴量を算出し、算出した特徴量と文書分類DB310のいずれかの機密カテゴリ(機密カテゴリA、B、C)に格納された登録文書データの分類特徴量とを比較して、いずれの機密カテゴリに分類されるかを判断し、分類処理を行ったピース分類結果を生成する。そして、文書分類部205は、生成したピース分類結果を集積した分類結果を生成して、生成した分類結果を文書解析処理部202に送出する。
図7は、文書分類部により生成されたピース分類結果の一例を示す図である。図7に示すように、ピース分類結果62には、解析文書ピースと、解析文書ピースの解析ピース番号とが必ず含まれている。そして、文書分類部205により算出された解析文書ピースの特徴量に基づいて分類された全ての機密カテゴリが含まれている。図7では、解析文書ピースが2つの機密カテゴリ(1)および(2)に分類されていることを示している。
図8は、文書分類部により生成された分類結果の一例を示す図である。図8に示すように、分類結果63には、文書分類部205により生成された全てのピース分類結果(図7参照)が含まれている。図8では、1〜Nまでのピース分類結果(1)(2)・・・(N)が含まれている。
そして、上述した文書解析処理部202は、類似文書検索部204により、全ての解析文書ピースに類似する登録文書ピースが検索された場合、ユーザIDと、解析文書データと、文書処理種別と、類似文書検索部204により検索されたピース解析結果とを解析結果として、ポリシー処理部206に送出する。
また、文書解析処理部202は、類似文書検索部204によって、少なくとも1つの解析文書ピースに類似する登録文書ピースが検索されなかった場合、ユーザIDと、解析文書データと、文書処理種別と、類似文書検索部204により検索されたピース解析結果と、文書分類部205により分類された分類結果とを解析結果として、ポリシー処理部206に送出する。
ポリシー処理部206は、セキュリティポリシーを取得し、取得したセキュリティポリシーを参照して、文書解析処理部202から受け取ったユーザID、解析文書データ、文書処理種別、ピース解析結果、分類結果に対して、機密カテゴリごとにそのセキュリティポリシーの設定内容に従った処理、すなわち、解析文書データをメールサーバ7に送出することによる電子メール送信処理や、解析文書データを画面ログサーバ6に送出することによる画像ログの記録処理等を行うものである。
ポリシー設定部207は、監視フォルダ設定部401により生成された監視フォルダ設定データを取得し、取得した監視フォルダ設定データに設定されている機密カテゴリごとに、セキュリティポリシーの設定画面を表示し、管理者Dによるポリシーの設定操作を受け付け、受け付けた設定操作に従ってセキュリティポリシーを生成するものである。図9は、ポリシー設定部により生成されたセキュリティポリシー設定画面の一例を示す図である。図10は、設定されたセキュリティポリシーの構造を示す図である。図9に示すように、セキュリティポリシー設定画面70には、機密カテゴリの表示欄71と、解析文書データにいずれの処理が施されたかを示す文書処理種別の選択欄72と、分類された解析文書データに対する処理を示すアクションの選択欄73とが表示されている。また、図9では、セキュリティポリシー設定画面の下部に、設定済みのセキュリティポリシー74が表示されている。
ここで、上記の文書解析処理では、文書解析を要求する外部装置として、MFP5(デジタル複合機)が図示されているが、解析文書データはデジタル複合機で処理された文書に限定されることはない。すなわち、例えば、ファイルサーバのある特定の文書フォルダに配置される電子文書ファイルを監視しておき、それを解析文書データとしたり、メールサーバを通過する電子メール本文やメールへの添付ファイルを解析文書データとしてもよい。
次に、以上のように構成された本実施の形態にかかる文書登録解析サーバ1による処理について説明する。まず、文書登録解析サーバ1における文書登録部100による文書登録処理について説明する。図11は、実施の形態における文書登録部による文書登録処理の手順を示すフローチャートである。
まず、文書登録受付部101は、文書監視部400における文書登録要求部403から、登録文書データのファイルパスと、登録文書データの機密カテゴリと、登録文書データとを受け付けると(ステップS10)、ファイルパスと機密カテゴリと登録文書データとを文書登録処理部102に送出する。
そして、文書登録処理部102は、文書登録受付部101からファイルパスと機密カテゴリと登録文書データとを受け取る(ステップS11)。そして、文書登録処理部102は、文書ピース分割登録部103に、受け取ったファイルパスと機密カテゴリと登録文書データとを送出する。また、文書登録処理部102は、文書分類DB登録部104に機密カテゴリと登録文書データとを送出する。
次に、文書ピース分割登録部103は、文書登録処理部102からファイルパスと機密カテゴリと登録文書データとを受け取り、受け取った登録文書データを登録文書ピースに分割し、ピース番号を付与する(ステップS12)。そして、文書ピース分割登録部103は、ファイルパスと機密カテゴリとピース番号と登録文書ピースとを組にして、類似文書検索DB登録部104に送出する。
次に、類似文書検索DB登録部104は、文書ピース分割登録部103からファイルパスと機密カテゴリとピース番号と登録文書ピースとを受け取ると、各登録文書ピースの特徴量を算出し、算出した特徴量をファイルパスと機密カテゴリとピース番号とに対応づけて類似文書検索DB300に格納する(ステップS13)。
一方、文書分類DB登録部105は、文書登録処理部102から、機密カテゴリと登録文書データとを受け取ると、登録文書データの分類特徴量を算出し、算出した分類特徴量を機密カテゴリごとに文書分類DB310に格納する(ステップS14)。
このように、文書登録部100による文書登録処理では、登録文書データを分割した登録文書ピースの特徴量と、登録文書データの分類特徴量を格納する。これにより、文書ピース単位の類似検索、および登録文書データの分類を行うことができる。
次に、文書登録解析サーバ1における文書解析処理部200による文書解析処理について説明する。図12は、実施の形態における文書解析処理部による文書解析処理の手順を示すフローチャートである。
文書解析受付部201は、MFP5からユーザIDと、解析文書データと、文書処理種別とを受信することで、解析文書データの解析要求を受け付ける(ステップS30)。そして、文書解析受付部201は、受信したユーザIDと解析文書データと文書処理種別とを文書解析処理部202に送出する。
文書解析処理部202は、文書解析受付部201から解析文書データとユーザIDと文書処理種別とを受け取ると(ステップS31)、解析文書データを文書ピース分割解析部203に送出する。
文書ピース分割解析部203は、文書解析処理部202から解析文書データを受け取ると、解析文書データを分割し、類似文書検索部204が解析処理を行う(ステップS32)。すなわち、文書ピース分割解析部203は、文書解析処理部202から受け取った解析文書データを分割して解析ピース番号を付与し、解析ピース番号と解析文書ピースとを対応づけて類似文書検索部204に送出する。そして、類似文書検索部204は、文書ピース分割解析部203から、対応付けられた解析ピース番号と解析文書ピースとを受け取り、受け取った解析文書ピースに類似する登録文書ピースが類似文書検索DB300に登録されているか否かを検索する。そして、類似文書検索部204が検索結果を生成し、文書ピース分割解析部203が全ての検索結果を集積したピース解析結果を生成し、文書解析処理部202に送出する。
文書解析処理部202は、ピース解析結果に含まれる各検索結果について類似する登録文書ピースが全て検索されたか否かを判断する(ステップS33)。ピース解析結果に類似する登録文書ピースが全て検索された場合(ステップS33:Yes)、文書解析処理部202は、ユーザIDと、解析文書データと、文書処理種別と、類似文書検索部204により検索されたピース解析結果とを解析結果として、ポリシー処理部206に送出する(ステップS36)。
一方、ピース解析結果に類似する登録文書ピースが全て検索されなかった場合、すなわち少なくとも一つのピース解析結果に類似する登録文書ピースが検索されなかった場合(ステップS33:No)、文書解析処理部202は、ピース解析結果から類似する登録文書ピースが検索されなかった検索結果の解析ピース番号および解析文書ピースを取得する(ステップS34)。そして、文書解析処理部202は、取得した解析ピース番号および解析文書ピースを文書分類部205に送出する。
文書分類部205は、文書解析処理部202から解析ピース番号および解析文書ピースを受け取ると、受け取った解析文書ピースの文書分類をする(ステップS35)。すなわち、文書分類部205は、受け取った解析文書ピースの特徴量を算出し、算出した特徴量によりいずれの機密カテゴリに分類されるかを判断してピース分類結果を生成する。そして、文書分類部205は、生成したピース分類結果を集積して分類結果を生成し、生成した分類結果を文書解析処理部202に送出する。
そして、文書解析処理部202は、ユーザIDと、解析文書データと、文書処理種別と、類似文書検索部204により検索されたピース解析結果と、文書分類部205により分類された分類結果とを解析結果として、ポリシー処理部206に送出する(ステップS36)。
そして、ポリシー処理部206は、セキュリティポリシーを参照して、文書解析処理部202から受け取ったユーザID、解析文書データ、文書処理種別、ピース解析結果、分類結果に対して、機密カテゴリごとにそのセキュリティポリシーの設定内容に従った処理を行う。
このように、文書解析処理部200による文書解析処理では、解析文書データを分割した解析文書ピースの特徴量により、解析文書ピースに類似する登録文書ピースを検索する。そして、解析文書ピースに類似する登録文書ピースが検索されなかった場合は、解析文書データをいずれかの機密カテゴリに分類することができる。
このように、本実施の形態にかかる文書登録解析サーバ1では、予め文書ピース単位で登録文書ピースの特徴量を類似文書検索DBに格納し、さらに文書全体(登録文書データ)で登録文書データの分類特徴量を文書分類DBに格納しておくことで、解析文書ピース単位での類似検索が可能となり、さらに解析文書データの機密カテゴリの分類が可能となっている。つまり、機密情報などの解析文書データを分割することで、解析文書データの類似度を判定する単位をより細かくして、解析文書ピースがいずれかの登録文書ピースと類似するかを判定できる。また、解析文書ピースが、登録されているいずれの登録文書ピースにも類似しないと判定された場合には、解析文書データをいずれかの機密カテゴリに分類できる。従って、解析文書データが機密情報であるか否かの判定をより正確に行うことができる。また、機密情報と判定された情報に対してはセキュリティポリシーに従った処理を行うことができるため、機密情報の漏洩を防止し、利便性を向上させることができる。
本実施の形態では、複数のファイルサーバの文書フォルダを監視する場合などを考えて、文書監視部と文書登録部とを分けて構成する例を示したがこれに限定されることはない。すなわち、文書監視部と文書登録部を統合して一つの構成部としてもよい。
図13は、本実施の形態の文書登録解析サーバのハードウェア構成を示す図である。本実施の形態の文書登録解析サーバ1は、CPU(Central Processing Unit)5001などの制御装置と、ROM(Read Only Memory)5002やRAM(Random Access Memory)5003などの記憶装置と、HDDやCDドライブ装置などの外部記憶装置5004と、ディスプレイ装置などの表示装置5005と、キーボードやマウスなどの入力装置5006と、通信I/F5007と、これらを接続するバス5008とを備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態の文書登録解析サーバ1で実行される文書登録解析プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施の形態の文書登録解析サーバ1で実行される文書登録解析プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態の文書登録解析サーバ1で実行される文書登録解析プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施の形態の文書登録解析プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の文書登録解析サーバ1で実行される文書登録解析プログラムは、上述した各部(文書登録受付部101、文書登録処理部102、文書ピース分割登録部103、類似文書検索DB登録部104、文書分類DB登録部105、文書解析受付部201、文書解析処理部202、文書ピース分割解析部203、類似文書検索部204、文書分類部205、ポリシー処理部206、ポリシー設定部207)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から文書登録解析プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、文書登録受付部101、文書登録処理部102、文書ピース分割登録部103、類似文書検索DB登録部104、文書分類DB登録部105、文書解析受付部201、文書解析処理部202、文書ピース分割解析部203、類似文書検索部204、文書分類部205、ポリシー処理部206、ポリシー設定部207が主記憶装置上に生成されるようになっている。
実施の形態にかかる文書登録解析サーバおよび関連周辺機器の全体構成を示す図である。 文書監視部および文書登録部の構成図である。 監視フォルダ設定画面の一例を示す図である。 文書解析処理部の構成図である。 類似文書検索部により生成された検索結果の一例を示す図である。 文書ピース分割解析部により生成されたピース解析結果の一例を示す図である。 文書分類部により生成されたピース分類結果の一例を示す図である。 文書分類部により生成された分類結果の一例を示す図である。 ポリシー設定部により生成されたセキュリティポリシー設定画面の一例を示す図である。 設定されたセキュリティポリシーの構造を示す図である。 実施の形態における文書登録部による文書登録処理の手順を示すフローチャートである。 実施の形態における文書解析処理部による文書解析処理の手順を示すフローチャートである。 本実施の形態の文書登録解析サーバのハードウェア構成を示す図である。 従来技術における膨大なテキスト情報を自動分類する製品の説明図である。
符号の説明
1 文書登録解析サーバ
2 画像ログDB
3 ファイルサーバ
4 PC
5 MFP
100 文書登録部
101 文書登録受付部
102 文書登録処理部
103 文書ピース分割登録部
104 類似文書検索DB登録部
105 文書分類DB登録部
200 文書解析処理部
201 文書解析受付部
202 文書解析処理部
203 文書ピース分割解析部
204 類似文書検索部
205 文書分類部
206 ポリシー処理部
207 ポリシー設定部
300 類似文書検索DB
310 文書分類DB
400 文書監視部
401 監視フォルダ設定部
402 文書保存監視部
403 文書登録要求部
A、B、C 機密カテゴリ
D 管理者
E、F 一般利用者

Claims (12)

  1. 情報解析処理装置で実行される情報解析処理方法において、
    前記情報解析処理装置は、
    登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、
    前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、
    情報解析受付部が、外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付ステップと、
    情報分割解析部が、前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する解析対象情報分割ステップと、
    類似情報検索部が、前記部分解析情報を構成する要素に基づいて前記部分解析情報の第3特徴量を算出し、算出された前記第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索ステップと、
    情報分類部が、前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類ステップと、
    情報解析処理部が、全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する解析結果出力ステップと、
    を含むことを特徴とする情報解析処理方法。
  2. ポリシー処理部が、前記解析結果を受け取った前記解析対象情報に対して、前記属性情報に対応づけて前記解析対象情報に実行する処理を定めたセキュリティポリシーに基づく処理を行うポリシー処理ステップを、さらに含むことを特徴とする請求項1に記載の情報解析処理方法。
  3. 前記解析対象情報は、画像形成装置で処理された情報であることを特徴とする請求項1または2に記載の情報解析処理方法。
  4. 情報登録処理装置で実行される情報登録処理方法において、
    前記情報登録処理装置は、
    登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、
    前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、
    情報登録受付部が、前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付ステップと、
    情報分割登録部が、前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する登録対象情報分割ステップと、
    類似情報登録部が、前記部分情報を構成する要素に基づいて前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する部分情報格納ステップと、
    情報分類登録部が、前記登録対象情報を構成する要素に基づいて前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納する分類格納ステップと、
    を含むことを特徴とする情報登録処理方法。
  5. 情報保存監視部が、前記登録対象情報を保存する記憶装置に、前記登録対象情報が保存されたか否かを監視する保存監視ステップと、
    情報登録要求部が、前記記憶装置に前記登録対象情報が保存された場合、前記登録対象情報と前記属性情報とを含む前記登録要求を、前記情報登録受付部に送出する登録要求ステップとをさらに含むことを特徴とする請求項4に記載の情報登録処理方法。
  6. 前記登録対象情報は、画像形成装置において形成された画像データであることを特徴とする請求項4または5に記載の情報登録処理方法。
  7. 情報登録解析処理装置で実行される情報登録解析処理方法において、
    前記情報登録解析処理装置は、
    登録対象の情報である登録対象情報を分割した部分情報の特徴量である第1特徴量を格納する類似情報検索記憶部と、
    前記登録対象情報の特徴量である第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、
    情報登録受付部が、前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付ステップと、
    情報分割登録部が、前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する登録対象情報分割ステップと、
    類似情報登録部が、前記部分情報を構成する要素に基づいて前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する部分情報格納ステップと、
    情報分類登録部が、前記登録対象情報を構成する要素に基づいて前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納する分類格納ステップと、
    情報解析受付部が、外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付ステップと、
    情報分割解析部が、前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する解析対象情報分割ステップと、
    類似情報検索部が、前記部分解析情報を構成する要素に基づいて前記部分解析情報の第3特徴量を算出し、算出された前記第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索ステップと、
    情報分類部が、前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類ステップと、
    情報解析処理部が、全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する解析結果出力ステップと、
    を含むことを特徴とする情報登録解析処理方法。
  8. 画像形成装置により形成された画像データを、前記登録対象情報として前記情報登録受付部に送出する情報登録送出ステップをさらに含み、
    前記情報登録受付ステップは、前記情報登録受付部が、前記登録対象情報としての前記画像データと前記属性情報とを含むと前記登録要求を受け付けることを特徴とする請求項7に記載の情報登録解析処理方法。
  9. 画像形成装置により形成された画像データを、前記解析対象情報として前記情報解析受付部に送出する情報解析送出ステップをさらに含み、
    前記情報解析受付ステップは、前記情報解析受付部が、前記外部装置から前記解析対象情報としての前記画像データを受信することを特徴とする請求項7に記載の情報登録解析処理方法。
  10. 請求項1〜9に記載の方法をコンピュータに実行させるプログラム。
  11. 登録対象の情報である登録対象情報を分割した部分情報の第1特徴量を格納する類似情報検索記憶部と、
    前記登録対象情報の第2特徴量を属性情報ごとに格納する情報分類記憶部と、
    外部装置から解析対象の情報である解析対象情報を受信することで、前記解析対象情報の解析要求を受け付ける情報解析受付部と、
    前記解析対象情報を、前記解析対象情報の部分である部分解析情報に分割する情報分割解析部と、
    前記部分解析情報を構成する要素により算出された第3特徴量と前記類似情報検索記憶部に格納された前記第1特徴量とに基づいて、前記部分解析情報に類似する前記部分情報を検索する類似情報検索部と、
    前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記部分解析情報の前記第3特徴量と前記情報分類記憶部に格納された前記第2特徴量とに基づいて、前記解析対象情報を、前記情報分類記憶部に格納されたいずれかの前記属性情報に分類する情報分類部と、
    全ての前記部分解析情報に類似する前記部分情報が検索された場合、前記解析対象情報と前記類似情報検索ステップによる検索結果とを解析結果として出力し、少なくとも一つの前記部分解析情報に類似する前記部分情報が検索されなかった場合、前記解析対象情報と前記検索結果と前記情報分類ステップによる分類結果とを解析結果として出力する情報解析処理部と、
    を備えることを特徴とする情報解析処理装置。
  12. 登録対象の情報である登録対象情報を分割した部分情報の第1特徴量を格納する類似情報検索記憶部と、
    前記登録対象情報の第2特徴量を属性情報ごとに格納する情報分類記憶部と、を備え、
    前記登録対象情報と前記登録対象情報の前記属性情報とを含むと登録要求を受け付ける情報登録受付部と、
    前記登録要求を受け付けた場合に、前記登録対象情報を前記部分情報に分割する情報分割登録部と、
    前記部分情報を構成する要素により前記第1特徴量を算出し、算出した前記第1特徴量を前記類似情報検索記憶部に格納する類似情報登録部と、を備え、
    前記情報分類登録部は、前記登録対象情報を構成する要素により前記第2特徴量を算出し、算出した前記第2特徴量を、前記属性情報の分類に従って、前記情報分類記憶部に格納することを特徴とする情報登録処理装置。
JP2008053776A 2008-03-04 2008-03-04 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。 Expired - Fee Related JP5217513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008053776A JP5217513B2 (ja) 2008-03-04 2008-03-04 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008053776A JP5217513B2 (ja) 2008-03-04 2008-03-04 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。

Publications (2)

Publication Number Publication Date
JP2009211404A true JP2009211404A (ja) 2009-09-17
JP5217513B2 JP5217513B2 (ja) 2013-06-19

Family

ID=41184479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008053776A Expired - Fee Related JP5217513B2 (ja) 2008-03-04 2008-03-04 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。

Country Status (1)

Country Link
JP (1) JP5217513B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084245A (ja) * 2011-09-29 2013-05-09 Canon Marketing Japan Inc 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
US9632701B2 (en) 2014-04-21 2017-04-25 Hitachi, Ltd. Storage system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158413A (ja) * 2005-11-30 2007-06-21 Canon Inc 画像処理方法及び装置
JP2007334588A (ja) * 2006-06-14 2007-12-27 Ricoh Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
JP2008027131A (ja) * 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2008042636A (ja) * 2006-08-08 2008-02-21 Fuji Xerox Co Ltd 文書処理装置および文書処理システム、文書処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158413A (ja) * 2005-11-30 2007-06-21 Canon Inc 画像処理方法及び装置
JP2007334588A (ja) * 2006-06-14 2007-12-27 Ricoh Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
JP2008027131A (ja) * 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2008042636A (ja) * 2006-08-08 2008-02-21 Fuji Xerox Co Ltd 文書処理装置および文書処理システム、文書処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084245A (ja) * 2011-09-29 2013-05-09 Canon Marketing Japan Inc 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
JP2018185834A (ja) * 2011-09-29 2018-11-22 キヤノンマーケティングジャパン株式会社 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
US9632701B2 (en) 2014-04-21 2017-04-25 Hitachi, Ltd. Storage system

Also Published As

Publication number Publication date
JP5217513B2 (ja) 2013-06-19

Similar Documents

Publication Publication Date Title
US8200642B2 (en) System and method for managing electronic documents in a litigation context
JP4747591B2 (ja) 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US7801720B2 (en) Translation requesting method, translation requesting terminal and computer readable recording medium
US8310711B2 (en) Output device and its control method for managing and reusing a job history
US20080243842A1 (en) Optimizing the performance of duplicate identification by content
US20080030792A1 (en) Image search system, image search server, and control method therefor
KR101814120B1 (ko) 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
JP2009224958A (ja) 業務手順推定システム及びプログラム
US20080243818A1 (en) Content-based accounting method implemented in image reproduction devices
EP2854047A1 (en) Automatic keyword tracking and association
US20090204606A1 (en) File management system, file management method, and storage medium
JP4791776B2 (ja) セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
US20120291118A1 (en) Image processing system, image processing apparatus and computer-readable recording medium
US20070185832A1 (en) Managing tasks for multiple file types
JP5458861B2 (ja) 文書検索装置、プログラム、文書登録装置、および文書検索システム
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
US8065321B2 (en) Apparatus and method of searching document data
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP5217513B2 (ja) 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。
US20120057186A1 (en) Image processing apparatus, method for managing image data, and computer-readable storage medium for computer program
EP2166467B1 (en) Information processing apparatus, control method thereof, computer program, and storage medium
US20110032572A1 (en) Job history data inspection system
JP2007336008A (ja) 画像検索装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees