JP2008071316A - 印刷情報監視装置、印刷情報監視方法及びプログラム - Google Patents

印刷情報監視装置、印刷情報監視方法及びプログラム Download PDF

Info

Publication number
JP2008071316A
JP2008071316A JP2006251898A JP2006251898A JP2008071316A JP 2008071316 A JP2008071316 A JP 2008071316A JP 2006251898 A JP2006251898 A JP 2006251898A JP 2006251898 A JP2006251898 A JP 2006251898A JP 2008071316 A JP2008071316 A JP 2008071316A
Authority
JP
Japan
Prior art keywords
print
character
image data
information monitoring
print information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006251898A
Other languages
English (en)
Inventor
Kiichi Matsuura
喜一 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006251898A priority Critical patent/JP2008071316A/ja
Publication of JP2008071316A publication Critical patent/JP2008071316A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】印刷媒体による情報漏洩を適切に防止することのできる印刷情報監視装置、印刷情報監視方法及びプログラムの提供を目的とする。
【解決手段】画像形成装置の印刷処理に係る印刷画像データを取得する印刷情報取得手段と、前記印刷画像データに含まれている表を検出する表検出手段と、前記印刷画像データに対して文字認識を実行し、認識結果としての文字列を抽出する文字認識手段と、前記表検出手段によって検出された表に関連する前記文字列の内容に基づいて前記印刷画像データに保護されるべき情報が含まれているかを判定する判定手段とを有することにより上記課題を解決する。
【選択図】図1

Description

本発明は、印刷情報監視装置、印刷情報監視方法及びプログラムに関する。
近年、ITシステムの発達によって重要文書の流出が広範囲に発生するようになり、情報漏洩が大きな問題となっている。このうち電子文書の漏洩に対してはユーザ認証やアクセス制御といったセキュリティ技術によって様々な対策がなされているが、紙文書の流通による情報漏洩に対する対策は一歩遅れている感が否めない。
従来、紙文書の流通による情報漏洩の対策に関する技術として、例えば、印刷された印刷データを蓄積することにより、情報漏洩が発生したことが判明した際に漏洩ルートの追跡を行うための技術が提案されている(例えば、特許文献1、特許文献2)。
特開2003−330677号公報 特開2002−149371号公報
しかしながら、特許文献1又は特許文献2に記載された技術は、「印刷時にログを取られている」という意識をユーザに与えることによる心理的な情報漏洩抑止効果や情報漏洩後の追跡が期待できるものの、情報漏洩そのものを防ぐことは困難であるという問題がある。
本発明は、上記の点に鑑みてなされたものであって、印刷媒体による情報漏洩を適切に防止することのできる印刷情報監視装置、印刷情報監視方法及びプログラムの提供を目的とする。
そこで上記課題を解決するため、本発明は、画像形成装置の印刷処理に係る印刷画像データを取得する印刷情報取得手段と、前記印刷画像データに含まれている表を検出する表検出手段と、前記印刷画像データに対して文字認識を実行し、認識結果としての文字列を抽出する文字認識手段と、前記表検出手段によって検出された表に関連する前記文字列の内容に基づいて前記印刷画像データに保護されるべき情報が含まれているかを判定する判定手段とを有することを特徴とする。
このような印刷情報監視装置では、印刷媒体による情報漏洩を適切に防止することができる。
また、上記課題を解決するため、本発明は、上記印刷情報監視装置における印刷情報監視方法、又は前記印刷情報監視方法をコンピュータに実行させるためのプログラムとしてもよい。
本発明によれば、印刷媒体による情報漏洩を適切に防止することのできる印刷情報監視装置、印刷情報監視方法及びプログラムを提供することができる。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における印刷ログ監視システムの構成例を示す図である。図1において、印刷ログ監視システム1は、印刷ログ監視サーバ10、プリンタ20、ユーザ端末30、及び管理者端末40等より構成され、各構成要素はLAN(Local Area Network)等のネットワーク50(有線又は無線の別は問わない)を介して接続されている。
ユーザ端末30は、アプリケーション31及びプリンタドライバ32等を有し、ユーザによって文書データの印刷指示が入力されるPC等のコンピュータである。例えば、アプリケーション31によって編集された文書データについて印刷指示が入力されると、当該文書データがプリンタドライバ32によってプリンタ20に解釈可能なPDL(Page Description Language)データ等の印刷データに変換される。印刷データは、プリンタ20に送信される。
プリンタ20は、ユーザ端末30より送信される印刷データに基づいて印刷処理を実行する複合機又はラインプリンタ等のプリンタである。プリンタ20は、印刷ログ生成部21を有する。印刷ログ生成部21は、印刷される画像データ(印刷画像データ)、プリンタ名、印刷ジョブ名、印刷要求元のユーザ端末30の識別情報(ホスト名又はIPアドレス等)、印刷要求元のユーザ名、タイムスタンプ、印刷設定情報(集約、両面、拡大、縮小等)、及び印刷部数等より構成される情報を印刷ログとして生成し、当該印刷ログを印刷ログ監視サーバ10に送信するソウトウェアである。なお、印刷ログを構成する情報のうち、プリンタ名、印刷ジョブ名、印刷要求元のユーザ端末30の識別情報、印刷要求元のユーザ名、印刷設定情報、及び印刷部数は、印刷データより抽出されたものである。すなわち、これらの情報は、プリンタドライバ32によって印刷データに付加される。また、印刷画像データは、プリンタドライバ32によって生成されたものでもよいし、プリンタ20において生成されたものでもよい。
印刷ログ監視サーバ10は、ログ管理部11、表検出部12、文字認識部13、保護情報判定部14、通信部15、及びキーワードテーブル16等より構成される。ログ管理サーバ10は、これら各部を用いて印刷ログに含まれている印刷画像データを解析し、保護すべき情報が印刷された可能性の有無を判定する。
ログ管理部11は、プリンタ20より印刷ログを受信(取得)し、当該印刷ログを記憶装置に保存する。表検出部12は、印刷ログにおける印刷画像データに含まれている表を検出する。文字認識部13は、印刷画像データに対して文字認識(OCR(Optical Character Recognition))を実行し、認識結果としての文字列を印刷画像データより抽出する。保護情報判定部14は、表検出部12によって検出された表に関連する文字列の内容に基づいて印刷画像データに保護されるべき情報(保護情報)が含まれているか否かを判定する。通知部15は、保護情報判定部14によって、印刷画像データに保護情報が含まれていると判定されたときに、予め通知先として登録されている端末装置(本実施の形態では管理者端末40)に保護情報が印刷された可能性があることを示す通知情報(例えば、電子メール)を送信する。キーワードテーブル16は、保護情報を検出するためのキーワード(一つの文字も含む)が登録されている情報である。
このように、印刷ログ監視サーバ10は、印刷画像データに含まれている表に注目し、表に関連する文字列(表内の文字列又は表の周辺の文字列(表のタイトル等))に基づいて、保護情報の有無を判定する。表に注目するのは、印刷ログ監視サーバ10が、主に、個人情報の漏洩の防止を目的していることに基づく。個人情報は、名簿や住所録等に代表されるように、一般的に表形式によって文書中に含まれていることが多い。個人情報のこのような性質に着目し、表に注目するのである。
管理者端末40は、例えば、セキュリティ管理者が利用する端末である。管理者端末40は、印刷ログ監視サーバ10より通知情報を受信できるものであれば、所定のものに限定されない。例えば、PC等のコンピュータであってもよいし、PDA(Personal Digital Assistance)、又は携帯電話であってもよい。
図2は、本発明の実施の形態における印刷ログ監視サーバのハードウェア構成例を示す図である。図2の印刷ログ監視サーバ10は、それぞれバスBで相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、演算処理装置104と、インタフェース装置105とを有するように構成される。
印刷ログ監視サーバ10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。演算処理装置104は、メモリ装置103に格納されたプログラムに従って印刷ログ監視サーバ10に係る機能を実行する。インタフェース装置105は、図1のネットワーク50に接続するためのインタフェースとして用いられる。
なお、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワーク50を介して他のコンピュータよりダウンロードするようにしてもよい。
以下、印刷ログ監視サーバ10の処理手順について説明する。図3は、第一の実施の形態における印刷ログ監視サーバの処理手順を説明するためのフローチャートである。
プリンタ20において印刷処理が実行されると、印刷ログ生成部21は当該印刷処理に係る印刷ログを生成し、印刷ログ監視サーバ10に送信する。印刷ログ監視サーバ10のログ管理部11は、印刷ログを受信し、当該印刷ログを補助記憶装置102に保存する(S101)。
続いて、表検出部12は、受信された印刷ログより印刷画像データを取り出し(S102)、当該印刷画像データより罫線を検出することにより表を検出する(S103)。なお、画像データからの表の検出は、例えば、特開平3−78892号公報に記載されている技術等、公知の技術を用いて行えばよい。
図4は、第一の実施の形態における表の検出処理を説明するための図である。図4では、印刷画像データ200における表t1が検出され、表t1に含まれている文字列部分が、続く文字認識処理(OCR処理)の対象となる領域(文字認識対象領域201)とされることが示されている。但し、例えば、表のタイトル(図中における「顧客名簿」)等、表の周辺部分も文字認識対象領域201に含めてもよい。この場合、検出された表の周囲の所定ドット数分の範囲を文字認識対象領域201に含めればよい。なお、表が検出されなかった場合(S104でNo)、処理は終了する。
表が検出された場合(S104でYes)、文字認識部13は、文字認識対象領域201に対してOCR処理を実行し、文字認識対象領域201より文字列データ(テキストデータ)を抽出する(S105)。
図5は、第一の実施の形態における文字列の抽出処理を説明するための図である。図5では、印刷画像データ200の文字認識対象領域201より、文字列データ202が抽出された例が示されている。なお、文字列データ202では、各文字列がカンマで区切られているが、他の記号(スペースやタブ等)によって区切られていてもよい。
続いて、保護情報判定部14は、文字列データ202より、キーワードテーブル16に登録されているキーワードを検出(検索)することにより、印刷画像データ200に保護情報が含まれているか否かを判定する(S106)。キーワードテーブル16には、例えば、都道府県名、市町村名、郵便番号、クレジット番号、電話番号を示す文字列や、"名簿"、"住所録"といったような文字列等、個人情報に含まれている可能性の高い文字列が保護情報を検出するためのキーワードとして登録されている。また、"極秘"、"マル秘"、"機密"等、機密度の高い情報であることを示す文字列が登録されていてもよい。保護情報判定部14は、キーワードテーブル16に登録されている各キーワードを、文字列データ202に含まれている各文字列と照合し、キーワードが検出された回数をカウントする。一致した回数が予め定められた閾値を超えた場合、保護情報判定部14は、印刷画像データ200には保護情報が含まれていると判定する。当該閾値は、補助記憶装置102に記憶されており、セキュリティ管理者等によって設定変更が可能とされている。
なお、全てのキーワードを同等に扱うのではなく、例えば、キーワードごとに閾値を設け、重要なキーワードについては閾値を低くするようにしてもよい。
保護情報判定部14によって保護情報は含まれていないと判定された場合(S107でNo)、処理は終了する。一方、保護情報判定部14によって保護情報は含まれていると判定された場合(S107でYes)、通知部15は、保護情報が印刷された可能性を通知する電子メール(通知メール)を管理者端末40に送信する(S108)。通知メールには、印刷ログに含まれている情報が添付される。印刷ログに含まれている全ての情報が通知メールに添付される必要はないが、印刷を行ったプリンタ20、印刷要求元のユーザ端末30、又は印刷要求元のユーザを識別できる情報が含まれていることが望ましい。これらの情報は、本実施の形態においては、プリンタ名、印刷要求元のユーザ端末30の識別情報、又は印刷要求元のユーザ名が相当する。セキュリティ管理者は、斯かる情報が添付された通知メールを参照して、保護情報が印刷された印刷物が社外に持ち出されることを防止することができる。すなわち、プリンタ名が判別すれば、印刷が行われた部署を推定することができる。その部署に対して連絡を行えば、印刷を行ったユーザに対して適切な処置を行うことができる。また、ユーザ端末30の識別情報又はユーザ名が判別すれば、セキュリティ管理者は、印刷を行ったユーザに直接連絡をとり、当該印刷物の社外への持ち出しを行わないよう注意を促すことができる。
上述したように、第一の実施の形態における印刷ログ監視システム1によれば、保護情報が印刷された可能性を検知することができる。したがって、その検知に応じて迅速に対応することで、その印刷物が流通し保護情報が漏洩してしまうのを未然に防止することができる。
また、印刷ログ監視サーバ10は、表に注目し、表内又は表の周辺部分をも含む部分を保護情報の検出対象として処理を実行する。したがって、印刷画像データの全領域に対して文字認識を実行し、抽出された全ての文字列に基づいて保護情報を検出する場合に比べ、処理効率を向上させることができる。特に、印刷ログ監視サーバ10が基幹系のシステム等、大規模なシステムに組み込まれる場合、各印刷画像データの全領域に対して文字認識等を実行するのは、処理効率を悪化させ迅速な対応を困難にもしかねない。したがって、本実施の形態のように表部分に限定して処理が行われるのが好適である。
また、個人情報は表形式によって文書中に含まれていることが多いため、文書中の全ての部分を検出対象とする場合に比べて、むしろ検出精度が高まることが期待できる。
なお、個人情報の漏洩は、現在大きな社会問題となっており、個人情報を漏洩してしまった企業は経済的にも社会的信用についても大きな損害を被りかねない。斯かる社会的背景に鑑みても、本実施の形態における印刷ログ監視システム1の有用性は理解できよう。
次に、第二の実施の形態について説明する。図6は、第二の実施の形態における印刷ログ監視サーバの処理手順を説明するためのフローチャートである。第二の実施の形態では、文書中の表が罫線を有していない場合に、当該表を検出する例について説明する。
図6において、ステップS201は、図3のS101と同様である。S201に続いて、文字認識部13は、受信された印刷ログより印刷画像データを取り出し(S202)、当該印刷画像データに対してOCR処理を実行し、文字列データを抽出する(S203)。ここでは、基本的に、印刷画像データの全領域の文字列データが抽出される。なお、文字列データの抽出に際し、文字認識部13は、各文字列の位置情報も抽出結果と共に出力する。
図7は、第二の実施の形態における文字列の抽出処理を説明するための図である。図7では、印刷画像データ300の全領域より文字列データ302が抽出された例が示されている。文字列データ302には、抽出された文字列と共に、各文字列の位置情報(座標情報)も含まれている(例えば、302a〜302f)。
続いて、表検出部12は、文字列データ302に基づいて表を検出する(S204)。具体的には、各文字列の位置情報に基づいて文字列の配置の規則性を判別する。
図8は、第二の実施の形態における表の検出処理を説明するための図である。図8では、文字列データ302に基づいて整列データ303が構築された例が示されている。整列データ303は、文字列データ302に含まれている各文字列が、それぞれの位置情報に基づいて整列されることにより構築される仮想的な情報である。すなわち、整列データ303は、必ずしも表の検出に際して実際に生成されるものではなく、説明の便宜上、図示したものである。整列データ303を参照すれば、罫線が存在しなくても、領域304は、表形式によって構成されていることを認識することができる。人間が領域304に表形式を認識することができるのは、領域304における各文字列が、行方向及び列方向に規則的に配置されているからである。原理的にはこのような認識(文字列の配置の規則性に基づく表の検出)を、表検出部12は仮想的に実行する。すなわち、各文字列の位置情報に基づいて、行方向及び列方向に文字列が規則的に配置されている部分が検出されれば、表検出部12は、その部分を表領域として判定し、表領域として判定された部分に含まれる文字列群を処理結果として出力する。なお、文字列の配置の規則性だけでなく、例えば、列方向又は行方向に並んでいる文字列の構成の類似性(パターンの類似性)をも考慮して表を検出してもよい。表の場合、行方向又は列方向において、同じ情報の値が並ぶ場合が多いからである。
表が検出されなかった場合(S205でNo)、処理は終了する。表が検出された場合(S205でYes)、保護情報判定部14は、表検出部12より出力された文字列群よりキーワードテーブル16に登録されているキーワードを検出(検索)することにより、印刷画像データ300に保護情報が含まれているか否かを判定する(S206)。この判定処理及び以降の処理(S207)は、図3におけるステップS106、S107と同様であるため、ここでの説明は省略する。
上述したように、第二の実施の形態における印刷ログ監視サーバ10よれば、罫線のない表を検出することができる。したがって、罫線のない表が含まれている文書が印刷される場合であっても、第一の実施の形態と同様の効果を得ることができる。
なお、第一及び第二の実施の形態において、プリンタ20から印刷ログ監視サーバ10への印刷ログの送信は、印刷用紙への印字が実際に行われる前に行われてもよい。この場合、印刷ログ監視サーバ10は、印刷画像データに保護情報が含まれていると判定された場合、プリンタ20に対して印字処理を待機するような命令を送信させてもよい。そうすることにより、保護情報が含まれている印刷の適否をセキュリティ管理者に判断させ、当該印刷が適切であると判断された場合にのみ当該印刷が実行されるようにしてもよい。
また、第一及び第二の実施の形態において説明した発明は、印刷画像データだけでなく、PC等のハードディスクに保存されている画像データに対して適用してもよい。近年では、各社員にノート型のPCが配布されている企業も少なくない。このような状況に鑑みて、例えば、持ち出されるPCのハードディスクに保存されている画像データに対し、上述した表検出部12、文字認識部13、及び保護情報判定部14等による処理を実行すれば保護情報の有無を判定することができ、保護情報が含まれているPCが持ち出されるのを未然に防止することができる。
次に、保護情報判定部14について更に詳しく説明する。以下において説明する事項は、上記における第一及び第二の実施の形態について共通に当てはまる事項である。
OCRによる文字認識では、認識結果が必ずしも一意に定まらず、同一の文字に対して複数の認識結果が出力される場合がある。図9及び図10は、同一の文字に対して複数の認識結果が出力される例を示す図である。図9では、「茨城県東海林」という文字列における「林」に対して、第一候補として「林」、第二候補として「村」、第三候補として「材」が認識結果として出力された例が示されている。したがって、この場合、保護情報判定部14は、「茨城県東海林」、「茨城県東海村」、及び「茨城県東海材」という三つの文字列をキーワードの検出対象とする。また、図10では、「03-3777-xxxx」という電話番号における最初の「0」(半角のゼロ)に対して、第一候補として「O」(半角大文字のオウ)、第二候補として「o」(半角小文字のオウ)、第三候補として「0」(半角のゼロ)が認識結果として出力された例が示されている。したがて、この場合、保護情報判定部14は、「03-3777-xxxx」、「o3-3777-xxxx」、及び「03-3777-xxxx」という三つの文字列をキーワードの検出対象とする。
こうすることで、OCRにおける誤認識に基づく保護情報の検出精度の劣化を適切に防止することができる。なお、処理の効率化を図るため、キーワードの検出対象を上位の数候補(例えば上位の2候補)に限定してもよい。また、候補ごとに確信度が出力される場合は、その確信度に応じて検出対象の限定範囲を動的に定めてもよい。例えば、第一候補の確信度が95%以上の場合は、第一候補のみを検出対象とし、95%未満の場合は、他の候補も検出対象とするといった具合である。なお、上位の幾つまでを検出対象とするか、また、検出対象とする確信度の閾値等は、セキュリティ管理者等によって設定変更を可能とするとよい。
また、誤認識の可能性が高い文字(以下「類似文字」という。)を予めキーワードテーブル16に登録しておき、類似文字をもキーワードとして扱うようにしてもよい。図11は、類似文字キーワードが登録されたキーワードテーブルの例を示す図である。図11のキーワードテーブル16には、「村」というキーワードに対して、「林」及び「材」が類似文字キーワードとして登録されている。また、「0」(半角のゼロ)に対して「O」(半角大文字のオウ)、「o」(半角小文字のオウ)、及び「0」(全角のゼロ)が類似文字として登録されている。斯かる場合、保護情報判定部14は、「村」を「林」又は「材」に置き換えたキーワードや、「0」を「O」、「o」、又は「0」に置き換えたキーワードにも基づいてキーワードの検出を行う。
また、キーワードテーブル16に登録するキーワードに正規表現を用いてもよい。図12は、正規表現を用いたキーワードが登録されたキーワードテーブルの例を示す図である。キーワードに正規表現(文字列パターン)が用いられている場合、保護情報判定部14は、当該正規表現に当てはまる文字列をキーワードとして検出する。したがって、例えば、電話番号やクレジット番号等、明確なパターンを持っており、かつ、それぞれの具体的な値を登録するのは非常に煩雑な情報について、キーワードテーブル16への登録作業を簡便化することができる。
また、正規表現を用いたキーワードに対しても、誤認識の可能性を考慮して類似文字キーワードを登録するようにしてもよい。図13は、正規表現を用いたキーワードに対して類似文字キーワードが登録されたキーワードテーブルの例を示す図である。図13のキーワードテーブル16では、0(半角のゼロ)に対する誤認識を考慮して、当該文字に対する類似文字を含む正規表現が類似文字キーワード登録されている。斯かる場合、保護情報判定部14は、当該類似文字キーワードに基づいてキーワードの検出を行う。
また、複数の認識結果が得られた場合に、その複数の認識結果を蓄積しておくことにより、OCRの誤認識に対する学習機能を設けてもよい。図14は、複数の認識結果が得られた場合の学習機能を説明するための図である。図14に示されるように、同一の文字に対して複数の認識結果が得られた場合、例えば、文字認識部13は、得られた認識結果を学習テーブル17に登録する。図中では、第一候補(「林」)が「基本文字」として登録され、他の候補の文字(「村」、「材」)が「類似文字」として登録される例が示されている。保護情報判定部14は、キーワードテーブル16に登録されているキーワードに基づいて保護情報の有無を判定する際、学習テーブルの基本文字を含むキーワードについては、その基本文字を類似文字に置き換えたキーワードをも用いて、キーワードの検出を行う。
なお、学習テーブル17への登録は、同じ認識結果が所定回数以上得られた場合に行うようにしてもよい。図14の例で言えば、「林」、「村」、及び「材」という認識結果が、所定回数以上得られた場合に、この認識結果を学習テーブル17に登録するといった具合である。また、複数の認識結果の中からキーワードが検出された場合にのみ、当該複数の認識結果を学習テーブル17へ登録するようにしてもよい。こうすることにより、学習テーブル17が、不必要に肥大化するのを回避することができる。
また、図14では第一候補を基本文字として登録する例について説明したが、学習テーブル17において基本文字又と類字文字との区別を設けず、複数の認識結果を一つのレコードに並べて登録するようにしてもよい。この場合、各キーワードについて、学習テーブル17に登録されているいずれかの文字が、他の文字に置換されて保護情報の有無が判定される。
ところで、以上においては、保護情報判定部14がキーワードテーブル16に登録されたキーワードに基づいて保護情報の有無を判定する例について説明したが、表より抽出された文字列の内容の規則性に基づいて保護情報の有無を判定するようにしてもよい。
図15は、表より抽出された文字列の内容の規則性に基づいて保護情報の有無を判定する例を説明するための図である。図15では、図8において説明した整列データ303を用いて説明する。
整列データ303の領域304において認識される表において、例えば、列3041では、「東京都大田区」という文字列が2回出現していることが検出され得る。また、列3042には、全ての文字列が「−」(ハイフン)で結ばれた数字によって構成されていることが検出され得る。一般的に、名簿等において、住所ついては、同一の都道府県名が複数個含まれていることが多い。また、郵便番号、電話番号、及びクレジット番号等については、同一のパターンによって構成されている。このように、個人情報を構成する情報の斯かる性質に基づいて、保護情報判定部14は、検出された表の行方向又は列方向に並んでいる文字列の中に、同一若しくは類似の文字列、又は構成が同一若しくは類似する文字列が複数個検出された場合は保護情報が含まれていると判定する。
このような判定方法は、キーワードテーブル16に対する登録漏れをカバーできるというメリットがある。仮に、全ての都道府県名及び市町村名がキーワードテーブル16に登録されていたとする。しかし、市町村の合併等がキーワードテーブル16に反映されていない場合は、合併等によって生じた新たな地名については検出対象から漏れてしまうことになる。しかし、図15の判定方法によれば、新たな地名を示す文字列が複数個検出されれば保護情報の存在を検出することができる。
また、文字認識部13による誤認識をカバーできるというメリットもある。既に、上記においてキーワードテーブル16に対する類似文字の登録によって誤認識をカバーする例を説明した。しかし、全ての類似文字を網羅するのは困難である。また、文字認識部13が想定していないフォントによる文字が含まれている場合も想定され得る。他方において、例え、想定外のフォントによる文字であっても、同一の文字であればOCRによる認識結果は同じように誤って得られる可能性は高い。すなわち、例えば文字認識部13による結果が誤認識であったとしても、図15による判定方法は、認識結果同士の比較に基づくため、同じように誤って認識された文字を同一文字であると判定することができるのである。
なお、図15の判定方法とキーワードテーブル16に基づく判定方法とを組み合わせると、保護情報の検出をより適切に行うことができる。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明の実施の形態における印刷ログ監視システムの構成例を示す図である。 本発明の実施の形態における印刷ログ監視サーバのハードウェア構成例を示す図である。 第一の実施の形態における印刷ログ監視サーバの処理手順を説明するためのフローチャートである。 第一の実施の形態における表の検出処理を説明するための図である。 第一の実施の形態における文字列の抽出処理を説明するための図である。 第二の実施の形態における印刷ログ監視サーバの処理手順を説明するためのフローチャートである。 第二の実施の形態における文字列の抽出処理を説明するための図である。 第二の実施の形態における表の検出処理を説明するための図である。 同一の文字列に対して複数の認識結果が出力される例を示す図である。 同一の文字列に対して複数の認識結果が出力される例を示す図である。 類似文字キーワードが登録されたキーワードテーブルの例を示す図である。 正規表現を用いたキーワードが登録されたキーワードテーブルの例を示す図である。 正規表現を用いたキーワードに対して類似文字キーワードが登録されたキーワードテーブルの例を示す図である。 複数の認識結果が得られた場合の学習機能を説明するための図である。 表より抽出された文字列の内容の規則性に基づいて保護情報の有無を判定する例を説明するための図である。
符号の説明
1 印刷ログ監視システム
10 印刷ログ監視サーバ
11 ログ管理部
12 表検出部
13 文字認識部
14 保護情報判定部
15 通信部
16 キーワードテーブル
20 プリンタ
21 印刷ログ生成部
30 ユーザ端末
31 アプリケーション
32 プリンタドライバ
40 管理者端末
50 ネットワーク
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 インタフェース装置
B バス

Claims (22)

  1. 画像形成装置の印刷処理に係る印刷画像データを取得する印刷情報取得手段と、
    前記印刷画像データに含まれている表を検出する表検出手段と、
    前記印刷画像データに対して文字認識を実行し、認識結果としての文字列を抽出する文字認識手段と、
    前記表検出手段によって検出された表に関連する前記文字列の内容に基づいて前記印刷画像データに保護されるべき情報が含まれているかを判定する判定手段とを有することを特徴とする印刷情報監視装置。
  2. 前記印刷情報取得手段は、前記画像形成装置及び前記印刷処理の要求元の少なくともいずれか一方を識別する識別情報を取得し、
    前記判定手段によって、前記印刷画像データに保護されるべき情報が含まれていると判定されたときに、予め登録されている端末装置に前記識別情報を送信する通知手段を有することを特徴とする請求項1記載の印刷情報監視装置。
  3. 前記表検出手段は、前記印刷画像データより罫線を検出することにより前記表を検出することを特徴とする請求項1又は2記載の印刷情報監視装置。
  4. 前記文字認識手段は、検出された前記表より文字列を抽出することを特徴とする請求項3記載の印刷情報監視装置。
  5. 前記表検出手段は、前記文字列の配置の規則性に基づいて、前記表を検出することを特徴とする請求項1又は2記載の印刷情報監視装置。
  6. 一つ以上の文字列又は文字がキーワードとして登録されたキーワード管理手段を有し、
    前記判定手段は、前記文字認識手段によって抽出された文字列より検出される前記キーワードの数に基づいて、前記印刷画像データに保護されるべき情報が含まれているかを判定することを特徴とする請求項1乃至5いずれか一項記載の印刷情報監視装置。
  7. 前記キーワードは、正規表現を用いて登録されていることを特徴とする請求項6記載の印刷情報監視装置。
  8. 前記判定手段は、前記文字認識手段によって同一の文字に対して複数の認識結果が得られた場合に、前記認識結果のうちの少なくとも二つの認識結果に係る文字列を前記キーワードの検出対象とすることを特徴とする請求項6又は7記載の印刷情報監視装置。
  9. 前記判定手段は、前記複数の認識結果に係る文字列のうちの少なくとも一部の文字列を前記キーワード管理手段に登録することを特徴とする請求項8記載の印刷情報監視装置。
  10. 前記判定手段は、前記表の行方向又は列方向に並んでいる前記文字列の内容の規則性に基づいて、前記印刷画像データに保護されるべき情報が含まれているかを判定することを特徴とする請求項1乃至5いずれか一項記載の印刷情報監視装置。
  11. 前記画像形成装置を含むことを特徴とする請求項1乃至10いずれか一項記載の印刷情報監視装置。
  12. 画像形成装置の印刷処理に係る印刷画像データを取得する印刷情報取得手順と、
    前記印刷画像データに含まれている表を検出する表検出手順と、
    前記印刷画像データに対して文字認識を実行し、認識結果としての文字列を抽出する文字認識手順と、
    前記表検出手順において検出された表に関連する前記文字列の内容に基づいて前記印刷画像データに保護されるべき情報が含まれているかを判定する判定手順とを有することを特徴とする印刷情報監視方法。
  13. 前記印刷情報取得手順は、前記画像形成装置及び前記印刷処理の要求元の少なくともいずれか一方を識別する識別情報を取得し、
    前記判定手順において、前記印刷画像データに保護されるべき情報が含まれていると判定されたときに、予め登録されている端末装置に前記識別情報を送信する通知手順を有することを特徴とする請求項12記載の印刷情報監視方法。
  14. 前記表検出手順は、前記印刷画像データより罫線を検出することにより前記表を検出することを特徴とする請求項12又は13記載の印刷情報監視方法。
  15. 前記文字認識手順は、検出された前記表より文字列を抽出することを特徴とする請求項14記載の印刷情報監視方法。
  16. 前記表検出手順は、前記文字列の配置の規則性に基づいて、前記表を検出することを特徴とする請求項12又は13記載の印刷情報監視方法。
  17. 一つ以上の文字列又は文字がキーワードとして登録されたキーワード管理手順を有し、
    前記判定手順は、前記文字認識手順において抽出された文字列より検出される前記キーワードの数に基づいて、前記印刷画像データに保護されるべき情報が含まれているかを判定することを特徴とする請求項12乃至16いずれか一項記載の印刷情報監視方法。
  18. 前記キーワードは、正規表現を用いて登録されていることを特徴とする請求項17記載の印刷情報監視方法。
  19. 前記判定手順は、前記文字認識手順において同一の文字に対して複数の認識結果が得られた場合に、前記認識結果のうちの少なくとも二つの認識結果に係る文字列を前記キーワードの検出対象とすることを特徴とする請求項17又は18記載の印刷情報監視方法。
  20. 前記判定手順は、前記複数の認識結果に係る文字列のうちの少なくとも一部の文字列を前記キーワード管理手順に登録することを特徴とする請求項19記載の印刷情報監視方法。
  21. 前記判定手順は、前記表の行方向又は列方向に並んでいる前記文字列の内容の規則性に基づいて、前記印刷画像データに保護されるべき情報が含まれているかを判定することを特徴とする請求項12乃至16いずれか一項記載の印刷情報監視方法。
  22. 請求項12乃至21いずれか一項記載の印刷情報監視方法をコンピュータに実行させるためのプログラム。
JP2006251898A 2006-09-15 2006-09-15 印刷情報監視装置、印刷情報監視方法及びプログラム Pending JP2008071316A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006251898A JP2008071316A (ja) 2006-09-15 2006-09-15 印刷情報監視装置、印刷情報監視方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006251898A JP2008071316A (ja) 2006-09-15 2006-09-15 印刷情報監視装置、印刷情報監視方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2008071316A true JP2008071316A (ja) 2008-03-27

Family

ID=39292816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006251898A Pending JP2008071316A (ja) 2006-09-15 2006-09-15 印刷情報監視装置、印刷情報監視方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2008071316A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225112A (ja) * 2009-03-25 2010-10-07 Toppan Printing Co Ltd データ生成装置およびデータ生成方法
JP2015523620A (ja) * 2012-05-07 2015-08-13 ファスドットコム カンパニー リミテッドFASOO.COM Co.,Ltd. 印刷保安装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225112A (ja) * 2009-03-25 2010-10-07 Toppan Printing Co Ltd データ生成装置およびデータ生成方法
JP2015523620A (ja) * 2012-05-07 2015-08-13 ファスドットコム カンパニー リミテッドFASOO.COM Co.,Ltd. 印刷保安装置及び方法

Similar Documents

Publication Publication Date Title
EP3574449B1 (en) Structured text and pattern matching for data loss prevention in object-specific image domain
JP5387124B2 (ja) コンテンツタイプ検索を行う方法及びシステム
US8643489B2 (en) Image processing system, history management apparatus, image processing control apparatus and computer readable medium
US20060285748A1 (en) Document processing device
US9270852B2 (en) Image processing apparatus
JP2008071316A (ja) 印刷情報監視装置、印刷情報監視方法及びプログラム
US20120062924A1 (en) Document data management system and image forming apparatus, server, method, and storage medium configuring document data management system
KR101794169B1 (ko) Hwp 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
JP2010049520A (ja) 機密情報プリント安全管理システム
JP2009171314A (ja) 画像処理装置、画像処理システムおよび画像処理プログラム
JP4747828B2 (ja) 履歴管理装置
US20220405499A1 (en) Method and system for extracting information from a document
US20130246455A1 (en) Document management apparatus, non-transitory computer readable medium, and document management method
JP2011198090A (ja) 印刷ジョブ情報管理装置、印刷装置、印刷ジョブ情報管理プログラム
JP6749583B2 (ja) 情報処理装置、画像処理装置およびプログラム
JP2010226289A (ja) 画像送信装置及びプログラム
JP2007034924A (ja) ネットワークシステム
KR101805844B1 (ko) 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7246610B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
US20150109633A1 (en) Apparatus and method for securing printing
KR101079639B1 (ko) 출력문서 보안 시스템 및 그 방법
JP4294456B2 (ja) 特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体
KR101794168B1 (ko) Pdf 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
JP7287097B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法