JP2007048053A - 文書処理方法および文書処理装置、プログラム - Google Patents

文書処理方法および文書処理装置、プログラム Download PDF

Info

Publication number
JP2007048053A
JP2007048053A JP2005232094A JP2005232094A JP2007048053A JP 2007048053 A JP2007048053 A JP 2007048053A JP 2005232094 A JP2005232094 A JP 2005232094A JP 2005232094 A JP2005232094 A JP 2005232094A JP 2007048053 A JP2007048053 A JP 2007048053A
Authority
JP
Japan
Prior art keywords
document
personal information
information detection
box
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005232094A
Other languages
English (en)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005232094A priority Critical patent/JP2007048053A/ja
Publication of JP2007048053A publication Critical patent/JP2007048053A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ボックス内に保存された文書に情報漏洩の対象となる文書が存在するどうかを自動的に検出し、存在すれば警告を通知する。
【解決手段】 ボックス内の文書に対し、文書画像にOCRをかけてテキストを抽出し、レイアウトあるいはテキスト内容から個人情報の存在を判断する。個人情報が存在すれば文書識別情報と共に警告を通知する。
【選択図】 図2

Description

本発明は、共用文書を記憶装置に保存し、保存された文書を部署内で共有利用する文書処理方法および文書処理装置、プログラムに関するものである。
近年の複写機は多機能化が進んでいる。単に紙をコピーする機能だけでなく、例えば、PCに接続してプリンタとして電子文書を印刷する機能、スキャンした原稿をFAX転送するFAX機能、メール転送する送信機能、共用文書を保管するボックス機能なども提供され、今や、ドキュメントのデジタル化の流れの中で、文書管理と連携するドキュメント・ソリューションのポータルとして位置付けられている。
このような中、複写機においてはセキュリティに対する考慮が重視されるようになっており、スキャン情報あるいは印刷情報について、個人情報あるいは機密情報の漏洩防止機能が提案されている。
例えば、特開平5−110815号公報においては、商品券、有価証券などの特定原稿のコピー抑制を目的として、特定原稿に対して付加情報を付与するなど原稿を加工して出力する技術が提案されている。この提案においては、特定原稿であるかどうか判定する手段として入力画像を特定原稿画像の画像データ同士を比較して類似度を求める技術が開示されている。
また、特開2001−266112号公報においては、機密性が高い文書の処理に対してオペレータに注意を促す技術を開示している。機密性が高いかどうかは、原稿画像を文字認識して文字化した上で「極秘」などの特定の記号列が含まれているかどうかで判断している。
次に、特開平7−129270号公報においては、紙に予めバーコードなどで著作物名称を付与しておき、ホストコンピュータから著作権情報を入手しコピーを続行するかどうかオペレータに問い合わせる技術を開示している。
最後に、特開平10−187542号公報においては、文書に指定キーワードが含まれるかどうかを判定し、指定キーワードを含む文書の検索を抑制する技術を開示している。
特開平5−110815号公報 特開2001−266112号公報 特開平7−129270号公報 特開平10−187542号公報
しかしながら、特開平5−110815号公報のような画像データを直接比較する技術は、紙幣など画像パターンが定まっている場合のコピー・印刷抑制に効果が期待できるが、住所録、名簿などのように文章内容が特定できない場合の抑制には効果が薄い。例えば、住所録にどのような人名や住所が出現するかは網羅することはできない。
また、特開2001−266112号公報においては、予め機密文書に特定の文字列を文章中、あるいは表題に付加するなどの運用が必要になり、効果が限定的である。例えば、不正者に「極秘」などの文字列を原稿から消されるだけで容易にコピー・印刷抑制機能を回避されてしまう。
また、特開平7−129270号公報の方式ではバーコードなどの付加情報を印刷時に予め付与しておく必要があり、例えば、紙文書配布後にコピー管理が必要になった場合などに臨機応変なセキュリティ管理ができない。
また、特開平10−187542号公報のようなキーワードを逐一指定する方法では、住所録や名簿のコピー・印刷を禁止したい場合には、網羅的に指定する必要があり、現実的には対応できない。
このような過去の提案は、印刷、コピー等の出力時に個人情報、機密情報の存在をチェックするものであった。このような出力機能については出力時にチェックをしさえすれば問題を回避できたが、文書を保管するボックス機能については、文書登録時にチェックするだけでは不十分である。問題のある文書を継継続して保管していれば、依然としてセキュリティ上の問題が続き、定期的チェックの必要があるが、それをチェックする機構は今まで存在しなかった。
本発明は、上記述べた課題を解決しようというものである。すなわち、ボックスに保管されている文書に個人情報が存在するかどうかをチェックし、存在すれば通知する機能を提供しようというものである。
上記目的を達成するために本発明による文字処理方法は以下の構成を備える。
即ち、文書を処理する文書処理方法であった、文書のラスタイメージにOCRをかけてテキスト情報を抽出する文字認識工程と、該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知工程と、文書保管手段に保管されている文書に個人情報が存在するかどうかをチェックするために前記個人情報検知工程を自動起動させる個人情報検知自動起動工程と、該個人情報検知工程が個人情報の存在を検知した場合に文書の識別子とともに警告を通知する警告通知工程とを備える。
また、文書を処理する文書処理方法であって、前記個人情報検知自動起動工程は、所定の時間間隔に基づいて前記個人情報検知工程を自動起動する。
また、文書を処理する文書処理方法であって、前記個人情報検知自動起動工程は、文書保管手段への文書登録時に前記個人情報検知工程を自動起動させる。
また、文書を処理する文書処理方法であって、個人情報の存在する位置を表示する個人情報位置表示工程を更に備え、前記個人情報位置表示工程は、前記警告通知工程と連動して動作する。
上記目的を達成するために本発明による文字処理装置は以下の構成を備える。
即ち、文書を処理する文書処理装置であって、文書を保管する文書保管手段と、文書のラスタイメージにOCRをかけてテキスト情報を抽出する文字認識手段と、該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知手段と、前記文書保管手段に保管されている文書に個人情報が存在するかどうかをチェックするために前記個人情報検知手段を自動起動させる個人情報検知自動起動手段と、該個人情報検知手段が個人情報の存在を検知した場合に警告を通知する警告通知手段とを備える。
上記目的を達成するために本発明によるプログラムは以下の構成を備える。
即ち、文書を処理するプログラムにおいて、文書のラスタイメージにOCRをかけてテキスト情報を抽出する文字認識手順と、該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知手順と、
前記文書保管手段に保管されている文書に個人情報が存在するかどうかをチェックするために前記個人情報検知手順を自動起動させる個人情報検知自動起動手順と、該個人情報検知手順が個人情報の存在を検知した場合に文書の識別子とともに警告を通知する警告通知手順とを備える。
本発明によれば、文書処理装置に補完された文書のラスタイメージを解析して個人情報が含まれるかどうかを判定できるので、その判定に基づいてセキュリティの危険性を通知できるので、セキュリティ性の高い文書処理装置を提供できる。
(実施形態1)
以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。
図1は本発明を適用した文字処理装置の構成を示すブロック図である。
図示の構成において、CPUはマイクロプロセッサであり、画像処理、文字処理、認識処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。
BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
RAMは読み書き可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶等に用いる。
ROMは読出し専用の不揮発性メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。
入力装置はタッチパネル等である。通常のPCの様にキーボード、マウス等で構成することもできる。
表示装置は液晶ディスプレイ等である。通常のPCの様にCRT等で構成することもできる。
スキャナは原稿である紙文書を読み取ってデジタル化する等の処理を行う装置である。
プリンタは文書を印刷するための装置である。通信回線より送られるPDL(印刷制御言語)形式の電子文書を印刷する。コピー機能は、スキャナから読み取られたスキャン画像をそのままプリンタにより印刷することにより実現される。
HDはハードディスクであり、CPUにより実行される制御プログラム、文書を保管するボックス、自然言語解析を行うための形態素解析辞書、文書種別をレイアウトに応じて判定するための文書種別レイアウトテーブル、固有表現を記述した固有表現辞書、形態から固有表現を判定するための固有表現ルール等が格納されて、必要に応じてRAMに示す主記憶にロードされ参照され、必要に応じて変更されHDに書き戻される。
なお、形態素解析辞書には一般の自然言語解析で提案されている必要な情報、例えば、単語表記、品詞情報、活用情報、単語共起情報などが格納される。
リムーバブル外部記憶装置はUSBメモリデバイス、ICカード等の着脱可能な記憶デバイスである。通常のPCと同様に、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等を配置することもできる。上記HDと同様に使用でき、それらの記録媒体を通じて他の文字処理装置とデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムについては、これらの外部記憶装置から必要に応じて全部または一部をHDにコピーすることができる。
通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。
かかる各構成要素からなる本発明文字処理装置においては、入力装置等からの各種イベントに応じて作動するものである。入力装置等からのインタラプトが供給されると信号がマイクロプロセッサCPUに送られ、それに伴ってイベントが発生し、イベントに応じてCPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
図2は本発明における操作例を示した図である。
MFPは複写機である。MFP上で紙原稿のボックス保存が指示されると文書をスキャンし文書画像が得られる。あるいはPCからある電子文書が指定されMFPに向かってボックス保存指示が出されると、電子文書がラスタライズされ、同様な文書画像が得られる。得られた文書画像はIDが付与され、必要な処理が施された後、ボックスに保存される。
保存された文書画像は、MFP上で印刷指示が操作されることにより、紙に出力することができる。
ボックスに保存された文書中に個人情報がもし含まれれば、「個人情報検出」というメッセージと共に文書IDが表示される。
図3は本発明における複写機の操作パネル等の画面レイアウト例を示した図である。画面3−1は操作パネルを表示する初期状態の画面である。各種アクションを起動するためのボタン(コピー、送信、FAX、ボックス保存、ボックス印刷、スキャン起動)が配置されている。コピーボタンがタッチされるとコピー動作が遂行される。すなわち、原稿がスキャンされ、原稿と同じ内容が記録紙に記録され出力される。送信、FAXボタンも同様に送信、FAX動作が遂行される。ボックス保存がタッチされると原稿がスキャンされ、原稿の文書内容が文書画像としてボックスに登録される。ボックス印刷がタッチされると、ボックス内に保存されている文書の一覧が表示され、一覧の中から該当する文書を選択することで、文書が印刷される。スキャン起動がタッチされるとボックス内に保存されている文書中に個人情報が存在するかどうかをボックス内スキャンによってチェックするためのボックススキャン起動処理が起動される。スキャンの結果、もし個人情報の存在する文書が検出されると、文書IDと共に「個人情報検出」などと警告メッセージが通知される(画面3−2)。
図4は本発明において行われるブロック解析の例を説明した図である。
4−1は紙原稿がスキャンされたスキャン画像、あるいは電子文書からラスタライズされたラスタライズ画像である。ブロック解析は、この文書画像に対してブロックの性質に応じた矩形ブロックに分割する処理である。図の場合、ブロック解析の結果、3つのブロックに分割されている。1つのブロック(4−2)は、内部に文章(テキスト)が含まれるためテキストブロックとなり、残りの2つのブロック(4−3、4−4)は、テキスト以外の情報(グラフ、写真など)が含まれるため画像ブロックとなる。テキストブロックに対しては、文字認識がかけられテキストが抽出される。画像ブロックからはテキスト情報は抽出されない。
図5は住所録の場合のブロック解析の例を示した図である。5−1は文書画像全体である。5−2はタイトルブロックとして抽出されたブロックである。タイトルブロックとはページの先頭付近にあり文字サイズの比較的大きなテキストブロックのことである。5−3は表と認識されて抽出された表ブロックである。表ブロックに対しては行数、列数などの情報も抽出される。
図6はテキストブロックから抽出されるOCRテキスト情報、及びそれからキーワード抽出により抽出されたキーワードデータを説明したものである。
文書画像のテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報としてテキストデータが抽出される。このテキストデータに対して形態素解析がかけられ、キーワードが抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“超写真画質”となるべき文字列は“超写真白質”となり、“フラグシップモデル”となるべき文字列は“フチノダシツプモデル”となってしまっている。このような誤認識文字が含まれると形態素解析において未知語となってしまうが、未知語は辞書と照合できないので、予め除去されてしまう。文字認識は100%近い正確な処理なので、誤認識文字は全体から見れば少数である。このように未知語を除外したとしても、文章の統計的な傾向は大差がないと見なせる。
図7は文書種別のレイアウト的特徴を記述した文書種別レイアウトテーブルの構成を示した図である。
文書種別レイアウトテーブルには、7−1「文書種別」と7−2「レイアウト特徴」が対応して格納される。
「文書種別」は、一群の同類の文書を識別するIDである。文書種別の例としては「住所録(名簿)」「振込伝票」「報告書」などがある。
「レイアウト特徴」は、各文書種別のレイアウト的な特徴を記述した情報である。住所録の場合の例を7−3に示す。レイアウト特徴は各特徴項目に分かれる。特徴項目1の「タイトルブロック=“住所録”」により、タイトルブロックに「住所録」という文字列を含むことを要請する。特徴項目2の「列数=3」により、列数が3の表ブロックを含むことを要請する。特徴項目3の「ブロック数=2」により、全ブロック数が2であることを要請する。これら全ての要請を満たす文書が「住所録」として認識される。別のもっと形態的な特徴の記述例は、特開2000−285187号公報などのような帳票認識の技術においても開示されている。
図8は固有表現辞書の構成を示した図である。
固有表現辞書は、固有表現(人名、地名、企業名等)のリストを保有したものである。「東京都」「大田区」「山田」「田中」「太郎」「花子」等の固有表現が記憶される。
図9は固有表現ルールの構成を示した図である。
上記の固有表現辞書では、1件1件の固有表現を必ずリストアップしなければならないので、きりがないものもある。例えば、電話番号を1件1件列挙することはばかげた行為であり、事実上不可能である。このような場合のために固有表現の形式を記述できるようにしたのが固有表現ルールである。9−1は固有表現種別であり、どのようなタイプの固有表現であるかを記述する。9−2は正規表現であり、必要な固有表現の表記形式を正規表現の形態で記述する。なお、正規表現がどのような形態で記述されるかは、特開平6−36069などにおいても紹介されているのでここでは詳細を述べない。例えば、この金額の記述により「¥1000」「¥30」などは全て金額と認識可能となる。
図10はボックスである。スキャンされた紙原稿のスキャンイメージあるいはPC等から指示された電子文書のラスタライズイメージが文書画像としてボックス中に格納される。ボックス中に保存された文書は必要な際にパネル上等で操作することにより印刷することができる。例えば、部署内で定まった共通のフォームなどを保存しておき、皆で共用するような使い方で使用される。
10−1「文書ID」には保存されている文書を一意に識別するID情報が格納される。10−2「文書画像」には該当文書の文書画像が格納される。必要に応じて更に情報が格納されるように構成することもできる。例えば、レイアウト特徴、文章特徴は登録時に予め特徴抽出しておけば、ボックス中に保管しておくことができる。
上述の動作をフローチャートに従って説明する。
図11は本発明文書処理装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS11-1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS11-2はタッチパネル等の入力装置、あるいは直接接続・ネットワーク接続されている機器・デバイスからのリクエスト、あるいは、システム内部のタイマー割り込みなど、何らかのイベントが発生するのをマイクロプロセッサCPUにおいて待つ処理である。イベントが発生すると、ステップS11-3においてマイクロプロセッサCPUがこのイベントを判別し、イベントの種類に応じて各種の処理に分岐する。各種イベントに対応した分岐先の複数の処理をステップS11-4という形でまとめて表現している。図12、図13、図14、図15で詳述するボックス保存処理、ボックス印刷処理、ボックススキャン起動処理、ボックススキャン処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、コピー処理、送信処理、FAX処理、FAXや送信先を指定する処理など通常のMFPで必要となる処理がある。ステップS11-5は上記の各処理の処理結果や処理終了を表示する表示処理である。エラーがあった場合のエラー表示、個人情報が検出された場合の警告通知、正常終了の場合の終了表示など通常広く行われる処理である。
図12はステップS11-4の一部であるボックス保存処理を詳細化したフローチャートである。ステップS12-1において、ボックスに保存すべき紙原稿をスキャナから読み込み、文書画像としてスキャン画像を生成する。ステップS12-2において、保管される文書のボックス中での文書IDを求める。ステップS12-3において、求まった文書画像と文書IDを対応付けてボックス中に書き込む。
図13はステップS11-4の一部であるボックス印刷処理を詳細化したフローチャートである。ステップS13-1において、印刷すべき文書を選択するためにボックスに保存されている文書の一覧を表示し、オペレータに選択させる。ステップS13-2において、選択された文書の文書画像をボックスから取得する。ステップS13-3において、取得された文書画像をプリンタに印刷する。
図14はステップS11-4の一部であるボックススキャン起動処理を詳細化したフローチャートである。ステップS14-1において、ボックススキャンを行うためのパラメータをオペレータに設定させるパラメータ設定処理が行われる。スキャンする時間間隔、スキャンを開始する日時、スキャンを終了するかどうか、などの設定パラメータをオペレータに設定される設定画面が表示され、インタラクティブに設定させる。ステップS13-2において、選択パラメータに従って、時間間隔、時刻などのタイマー割り込みを設定する。設定パラメータに応じて、ボックススキャンを即時起動すべきであるときはボックススキャン処理を起動する。
図15はステップS11-4の一部、またはS14-3のボックススキャン処理を詳細化したフローチャートである。ステップS15-1において、ボックスから文書を1文書ずつ取得し、文書画像を取得する。ステップS15-2において、前記取得された文書画像に対してブロック解析を行う。ステップS15-3においてブロック解析により抽出されたテキストブロック中の画像に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップS15-4においてOCRテキストに対して形態素解析辞書を参照しながら形態素解析を行い、文節に分割する。ステップS15-5において分割された文節からキーワードを抽出し、文章特徴としてキーワードリストを生成する。ステップS15-6において、ブロック解析されたページから図7で示したレイアウト特徴を抽出する。ステップS15-7において前記抽出された文章特徴、レイアウト特徴から図16で詳述するように文書種別を推定する。ステップS15-8において前記推定された文書種別に基づいて個人情報が検出されたかどうかを判定する。個人情報が検出されなかったときは通知が必要でないのでステップS15-10にスキップし、個人情報が検出された場合は通知が必要なのでステップS15-9において通知処理を行う。通知処理は図3において画面レイアウトを示したようにMFPの操作パネル上に文書IDとともにメッセージを表示する。ステップS15-10においてボックス内のすべての文書について処理が終了したかどうかを判定し、終了していなければステップS15-1にループし、終了していれば、ボックススキャン処理を終了する。
図16はステップS15-7の文書種別推定を詳細化したフローチャートである。まず、ステップS16-1において図17に詳述するように、入手したレイアウト特徴を文書種別レイアウトテーブルに登録されているレイアウト特徴と照合する。ステップS16-2において照合の結果、一致するものがあれば、文書種別を確定し、ステップS16-6に分岐して文書種別推定を終了する。レイアウト特徴が一致するものがなかったときはステップS16-3に進む。ステップS16-3において文章特徴として抽出されたキーワードを固有表現辞書と照合し、固有表現数をカウントする。ステップS16-4において辞書で記述できない固有表現を抽出するために、固有表現ルールと照合し、ルールで記述された固有表現を抽出し、その数を固有表現数に更に加える。ステップS14-5において上記求められた固有表現数が所定個数(例えば、20)を超えているかどうかを判定し、超えているときはステップS16-7に進んで文書種別として種別1(住所録)を設定して文書種別推定を終了する。ステップS16-5において固有表現数が所定個数を超えていなかった場合は、ステップS16-8に分岐し、文書種別として「不明」を設定して文書種別推定を終了する。
図17はステップS16-1の文書種別レイアウトテーブルとの照合を詳細化したフローチャートである。まず文書種別テーブルのチェックすべき文書種別が残っているかどうかを判定する。残っていれば、ステップS17-2において文書種別の特徴情報を1つ取得する。ステップS17-3において、その文書種別の特徴項目を1つ取得する。ステップS17-4において、全ての特徴項目のチェックが既に終了していて、取得できなかったかどうか判定し、取得できたときはステップS17-5に進み、特徴項目の記述と照合する。例えば、特徴項目としてタイトルブロック=“住所録”と記述されていたときは、ページの上方に存在する全体よりも大きなポイントで記述されたテキストブロックを取得し、そのブロック内のテキストに「住所録」という文字が含まれるかをチェックし、含まれるかどうかを照合する。ステップS17-6において、前記照合の結果、一致するかどうか判定する。先の例では「住所録」を含むときに「一致」と判定する。一致すれば、次の特徴項目をチェックするためにステップS17-3にループし、一致しなければステップS17-7に進む。ステップS17-7において、次の文書種別のチェックを開始するために処理中の文書種別のポインタを次に設定し、ステップS17-1にループする。ステップS17-4で特徴項目終わりと判定されたときはステップS17-9に分岐し、ステップS17-9において、現在処理中の文書種別を該当する文書種別だと設定して、処理を終了する。また、ステップS17-1において文書種別終わりと判定されたときはステップS17-8に分岐し、ステップS17-8において一致する文書種別が存在しないとして、文書種別レイアウトテーブルとの照合処理を終了する。
(実施形態2)
実施形態1においては、通知処理はMFP上の表示パネルに表示するように制御していたが、メール等で管理者のいるサーバ等に送信して通知するようにしてもよい。その場合には図15のステップS15-9の通知処理は、MFP上にメッセージを表示するのではなく、必要な情報をメールに記載し、メール送信することになる。
そのようにすることで、MFPの前に行かなくても危険の存在を知ることができる。
また、通知手法は「個人情報が存在する」というメッセージと文書IDのみを通知するだけであったが、これでは、該当する文書中のどの位置に個人情報が存在するかがよく分からない場合もある。そのような場合に備え、メッセージ表示だけではなく、個人情報の存在位置を文書上でハイライト表示させることもできる。この場合、実際の表示イメージは図18のようになる。
18-1は画面全体を示しており、内部に文書画像が表示される。18-2はハイライト表示された固有表現であり、図中メッシュ表示で示されている。画面下方には該当文書の文書IDが表示される。
このように構成する場合、実施例1の処理フローを以下のように変更する必要がある。
図16のステップS16-3、S16-4においては、単に辞書あるいはルールと照合するだけではなく、一致が検出できた位置情報を記憶、保持するようにする。記憶する情報は矩形と考えて、左上及び右下の画面上での座標を保持する。
図15のステップS15-9の通知処理において、先に記憶しておいた位置情報を使用して固有表現の部分をハイライト表示することになる。具体的には、図19のように処理する。ステップS19-1において、個人情報の検出された文書の文書画像を取得し、文書画像を表示する。ステップS19-2において、前記ステップS16-3、S16-4において記憶、保持された固有表現の位置情報を取得する。ステップS19-3において、前記認定された該当部分のみハイライト表示し、個人情報表示手段を終了するする。
このようにすることで、個人情報の存在位置がよりわかりやすくなるという効果が得られる。
(実施形態3)
本発明の目的は前述した実施例の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUまたはMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することとなり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM、DVDなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOperating System(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書きこまれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本実施例の文字処理装置の全体構成を示すブロック図である。 本実施例の文字処理装置における操作例を示した図である。 本実施例の文字処理装置における画面レイアウト例を示した図である。 ブロック解析の例を示した図である。 住所録の場合のブロック解析の例を示した図である。 OCRテキストからのキーワード抽出の例を示した図である。 本実施例の文書処理装置における文書種別レイアウトテーブルの構成を示した図である。 本実施例の文書処理装置における固有表現辞書の構成を示した図である。 本実施例の文書処理装置における固有表現ルールの構成を示した図である。 本実施例の文書処理装置におけるボックスの構成を示した図である。 本実施例の文書処理装置全体の処理手順の一例を示すフローチャートである ボックス保存処理の処理手順の一例を示すフローチャートである。 ボックス印刷処理の処理手順の一例を示すフローチャートである。 ボックススキャン起動処理の処理手順の一例を示すフローチャートである。 ボックススキャン処理の処理手順の一例を示すフローチャートである。 文書種別推定の処理手順の一例を示すフローチャートである。 文書種別レイアウトテーブルとの照合の処理手順の一例を示すフローチャートである。 個人情報のハイライト表示の画面例を示した図である。 個人情報表示処理の処理手順の一例を示すフローチャートである。

Claims (6)

  1. 文書を処理する文書処理方法において、
    文書画像にOCRをかけてテキスト情報を抽出する文字認識工程と、
    該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知工程と、
    文書保管手段に保管されている文書画像に個人情報が存在するかどうかをチェックするために前記個人情報検知工程を自動起動させる個人情報検知自動起動工程と、
    該個人情報検知工程が個人情報の存在を検知した場合に文書の識別子とともに警告を通知する警告通知工程とを備えることを特徴とする文書処理方法。
  2. 前記個人情報検知自動起動工程は、所定の時間間隔に基づいて前記個人情報検知工程を自動起動することを特徴とする請求項1記載の文書処理方法。
  3. 前記個人情報検知自動起動工程は、文書保管手段への文書登録時に前記個人情報検知工程を自動起動させることを特徴とする請求項1記載の文書処理方法。
  4. 個人情報の存在する位置を表示する個人情報位置表示工程を更に備え、
    前記個人情報位置表示工程は、前記警告通知工程と連動して動作することを特徴とする請求項1記載の文書処理方法。
  5. 文書を処理する文書処理装置において、
    文書を保管する文書保管手段と、
    文書画像にOCRをかけてテキスト情報を抽出する文字認識手段と、
    該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知手段と、
    前記文書保管手段に保管されている文書画像に個人情報が存在するかどうかをチェックするために前記個人情報検知手段を自動起動させる個人情報検知自動起動手段と、
    該個人情報検知手段が個人情報の存在を検知した場合に警告を通知する警告通知手段とを備えることを特徴とする文書処理装置。
  6. 文書を処理するプログラムにおいて、
    文書画像にOCRをかけてテキスト情報を抽出する文字認識手順と、
    該抽出されたテキスト情報を解析して個人情報が存在するかどうかを検知する個人情報検知手順と、
    前記文書保管手段に保管されている文書画像に個人情報が存在するかどうかをチェックするために前記個人情報検知手順を自動起動させる個人情報検知自動起動手順と、
    該個人情報検知手順が個人情報の存在を検知した場合に文書の識別子とともに警告を通知する警告通知手順とを備えることを特徴とするプログラム。
JP2005232094A 2005-08-10 2005-08-10 文書処理方法および文書処理装置、プログラム Withdrawn JP2007048053A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005232094A JP2007048053A (ja) 2005-08-10 2005-08-10 文書処理方法および文書処理装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005232094A JP2007048053A (ja) 2005-08-10 2005-08-10 文書処理方法および文書処理装置、プログラム

Publications (1)

Publication Number Publication Date
JP2007048053A true JP2007048053A (ja) 2007-02-22

Family

ID=37850821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005232094A Withdrawn JP2007048053A (ja) 2005-08-10 2005-08-10 文書処理方法および文書処理装置、プログラム

Country Status (1)

Country Link
JP (1) JP2007048053A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244972A (ja) * 2008-03-28 2009-10-22 Casio Comput Co Ltd 情報処理装置およびその制御プログラム
JP2010191611A (ja) * 2009-02-17 2010-09-02 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、プログラム及び記憶媒体
JP2011081537A (ja) * 2009-10-06 2011-04-21 Psc:Kk データ受渡方法及び汎用データ取得方法
KR101309592B1 (ko) * 2011-08-18 2013-11-21 주식회사 자바웨어 개인 정보 보호 방법
US10438011B2 (en) 2016-03-09 2019-10-08 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
JP2020511726A (ja) * 2017-03-22 2020-04-16 ドリリング・インフォ・インコーポレイテッド 電子文書からのデータ抽出

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244972A (ja) * 2008-03-28 2009-10-22 Casio Comput Co Ltd 情報処理装置およびその制御プログラム
JP2010191611A (ja) * 2009-02-17 2010-09-02 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、プログラム及び記憶媒体
JP2011081537A (ja) * 2009-10-06 2011-04-21 Psc:Kk データ受渡方法及び汎用データ取得方法
KR101309592B1 (ko) * 2011-08-18 2013-11-21 주식회사 자바웨어 개인 정보 보호 방법
US10438011B2 (en) 2016-03-09 2019-10-08 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
JP2020511726A (ja) * 2017-03-22 2020-04-16 ドリリング・インフォ・インコーポレイテッド 電子文書からのデータ抽出

Similar Documents

Publication Publication Date Title
CN102404478B (zh) 图像形成装置及系统、信息处理装置、图像形成方法
US8164771B2 (en) Image processing apparatus for treating recording medium provided with RFID chip
US8131081B2 (en) Image processing apparatus, and computer program product
JP2005044356A (ja) 文書処理装置、文書処理方法、文書処理装置の制御プログラムおよびコンピュータ読み取り可能な記録媒体
JP2009169536A (ja) 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
JP2007164224A (ja) ワークフロー処理のためのプログラム、方法及びシステム
JP2007048053A (ja) 文書処理方法および文書処理装置、プログラム
JP2008271534A (ja) 画像再生装置において実行されるコンテンツに基づくアカウンティング方法
US20130063745A1 (en) Generating a page of an electronic document using a multifunction printer
US20070127085A1 (en) Printing system, printing method and program thereof
AU2009212993B2 (en) Document processing system, search apparatus, information searching method, document processing method and program
JP2006261907A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2006093917A (ja) 画像読取装置および画像処理装置、画像形成装置
JP2006279545A (ja) 情報処理装置、情報処理方法及びそのプログラム
US8233165B2 (en) Document processing apparatus and document processing method
JP4455358B2 (ja) 画像処理装置およびその方法
JP2006186656A (ja) 画像処理装置、転送ジョブの管理方法、プログラムおよび記憶媒体
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2009223390A (ja) 画像処理監視システム及びプログラム
JP2017021654A (ja) 文書管理サーバ及びシステム
JP2006174183A (ja) 記録条件設定装置
US11184486B2 (en) Image forming apparatus for reading plural documents placed on document support surface and acquiring characters from images of read documents
JP2003076520A (ja) 情報管理システム、および、情報管理方法
JP7404943B2 (ja) 情報処理装置及び情報処理プログラム
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081104