JP4904218B2 - 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体 - Google Patents

画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体 Download PDF

Info

Publication number
JP4904218B2
JP4904218B2 JP2007188639A JP2007188639A JP4904218B2 JP 4904218 B2 JP4904218 B2 JP 4904218B2 JP 2007188639 A JP2007188639 A JP 2007188639A JP 2007188639 A JP2007188639 A JP 2007188639A JP 4904218 B2 JP4904218 B2 JP 4904218B2
Authority
JP
Japan
Prior art keywords
ocr
print job
text
text data
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007188639A
Other languages
English (en)
Other versions
JP2009026077A (ja
Inventor
康矢 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007188639A priority Critical patent/JP4904218B2/ja
Priority to US12/172,662 priority patent/US7990561B2/en
Publication of JP2009026077A publication Critical patent/JP2009026077A/ja
Application granted granted Critical
Publication of JP4904218B2 publication Critical patent/JP4904218B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1273Print job history, e.g. logging, accounting, tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1203Improving or facilitating administration, e.g. print management
    • G06F3/1204Improving or facilitating administration, e.g. print management resulting in reduced user or operator actions, e.g. presetting, automatic actions, using hardware token storing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1278Dedicated interfaces to print systems specifically adapted to adopt a particular infrastructure
    • G06F3/1285Remote printer device, e.g. being remote from client or server
    • G06F3/1288Remote printer device, e.g. being remote from client or server in client-server-printer device configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Facsimiles In General (AREA)
  • Processing Or Creating Images (AREA)
  • Storing Facsimile Image Data (AREA)
  • Storage Device Security (AREA)

Description

本発明は、画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体に関する。
近年、企業等における機密情報漏洩の問題が多発している。その背景としてプリンタやデジタル複合機の普及に従って、誰でも原稿の印刷、複写や送信が容易に行うことが可能になっていることが挙げられる。このため、利便性が向上しているが、機密原稿などの印刷や複写、送信といった情報漏洩の問題につながっていると考えられる。このような問題の対処法として、プリンタやデジタル複合機でジョブが実行される際に読み取った画像データ、テキストデータ、及び、いつ、どこで、誰が、といったログ情報をすべて記憶装置に蓄積し、それらのデータを検索できるようにする方法が考えられる。そうすることで情報漏洩が如何にして発生したかの追跡、及び結果として情報漏洩の抑止が可能になる。
このようなシステムではジョブの検索を可能にするために、ジョブのテキストデータを抽出し、画像データやログ情報に関連付けて蓄積しておく必要がある。関連技術として、電子ファイリングを行うためにファイリングドライバを実行し、描画情報からキーワード検索用の情報を抽出してキーワードとして登録するものがある(例えば、特許文献1)。また、所定アプリケーションソフトにより作成された文書の描画コードから文字コードを抽出してテキスト情報を生成し、文書画像と関連づけてデータベースに登録するものがある(例えば、特許文献3)。また画像データにOCR処理(光学文字認識処理)を実行して文字情報を抽出し、文書画像と関連づけてデータベースに登録するものがある(例えば、特許文献2、特許文献3)。
特開平8−147446号公報 特開平8−161467号公報 特開平8−212331号公報
しかしながら、上述した従来の技術では、テキストデータの抽出方法が固定、或いはファイル形式に応じて固定となっている。
本発明では、印刷ジョブ等の画像データ、テキストデータ、及びログ情報を抽出するために、ジョブ実行時にプリンタドライバがそれらのデータを抽出する。印刷描画コマンドが、文字を画像や図形としてプリンタドライバに送られてきた場合、プリンタドライバは、例えば、データのファイル形式が不明である場合に、テキストデータを抽出することができない。そのような印刷実行モジュールを有するアプリケーションに対しては、プリンタドライバがジョブの画像データを抽出し、その画像データにOCR処理を施してテキストデータを抽出する回避策が考えられる。
しかしながら、この方法は、「プリンタドライバがテキストデータを抽出することができないアプリケーション」をあらかじめ分かっていない限り、必ずOCR処理を実行しなければならない。そのため、正常にテキストデータを抽出できるアプリケーションの実行ジョブに対しても毎回OCR処理を実行しなければならず、パフォーマンス劣化の要因となるといった課題がある。それを避けるために、管理者が「プリンタドライバがテキストデータを抽出することができないアプリケーション」を調査し、システムに登録することは、労力のいる作業であり、ミスが発生する可能性も高い。
以上のことから、アプリケーション単位で、プリンタドライバが正確に文字を抽出できるかどうかシステムが自動的に調査し、テキストデータの抽出方法を自動的に切り替えるような技術が求められる。
上記課題を解決するために、本発明に係る画像処理サーバは、印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理が必要であるか否か判定するOCR要否判定手段と、前記OCR要否判定手段でOCR処理が不要であると判定された場合、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータを、前記画像データの検索用テキストデータとしてデータベースに登録する第1のデータ登録手段と、前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理を行って、テキストデータを抽出するOCR手段と、前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記OCR手段で抽出したテキストデータと、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータとを、前記画像データの検索用テキストデータとしてデータベースに登録する第2のデータ登録手段と、を有する画像処理サーバであって、前記OCR要否判定手段は、以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異に基づいて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とする。
本発明によって、プリンタのジョブのコンテンツデータをログ情報とともにサーバに保存するようなシステムにおいて、不必要なOCR処理を実行することなく精度の高いテキストデータを抽出することができる。そのため、データ登録処理におけるパフォーマンスを向上させることができる。或いはプリンタドライバが正確に文字を抽出していると判断した場合には画像データを抽出しないように設定することによって、データ登録処理のさらなるパフォーマンス向上、及びデータベースの容量を削減することができる。また、管理者が「プリンタドライバがテキストデータを抽出することができないアプリケーション」を手動で調べる必要がなくなるため、ユーザの利便性向上にもつながる。
(実施形態1)
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明に係るネットワーク文書管理システムの第1の実施形態の例を示すブロック図である。図1において、ネットワーク上にクライアントPC101、プリンタ102、画像処理サーバ103、データベースサーバ104、管理者PC105が接続されている。
クライアントPC101は、いわゆる一般ユーザが使用するPCであり、本発明の実施形態ではプリンタ102への印刷を実行するPCである。図1では、1台しかクライアントPC101が示されていないが、システムが許容する範囲内で複数台接続することができる。
クライアントPC101には、プリンタドライバ106とエージェントアプリケーション107がインストールされており、これらがPCのCPUやメモリを用いて実行されると、図1で示した各処理部が実現されることになる。
プリンタドライバ106は、主にユーザの指示に基づく印刷実行コマンドを受けてプリンタ102へ印刷データ(印刷ジョブ)を送信したり、印刷ジョブから画像データ等を抽出したりする機能がある。つまり、プリンタドライバ106により、印刷実行部108、画像データ抽出部109、テキストデータ抽出部110、ログ情報抽出部111としてコンピュータを機能させる。印刷実行部108は、アプリケーションの印刷要求を受けてPDLなどの印刷コマンドを生成し、プリンタ102に印刷コマンドを送信して印刷処理を行わせる。画像データ抽出部109は、印刷コマンドから描画コマンドを受信し、BMPやJPEGといった一般的な形式の画像ファイルを生成する。テキストデータ抽出部110は、印刷コマンドからテキスト描画コマンドを受信し、テキストデータを生成する。ここで、テキストデータは、例えば、印刷される文字列を含む。ログ情報抽出部111は、”いつ”、”どこで”、”誰が”といったログ情報を抽出する。このようなログ情報を、例えば、ログ情報を含む画像データの情報漏洩や不正使用を抑止するために、利用できる。ログ情報抽出部111は、印刷を実行したアプリケーションが使用した印刷実行モジュール名も抽出する。
エージェントアプリケーション107は、プリンタドライバ106での抽出条件の設定機能、プリンタドライバ106で抽出した画像データ、テキストデータ、及びログ情報の受信および保存機能、保存したデータの画像処理サーバ103への送信機能を実現させる。
エージェントアプリケーション107は、抽出条件設定部112、データ保存部113、データ送信部114としてコンピュータを機能させる。抽出条件設定部112は、プリンタドライバ106が画像やテキストなど、何を抽出するのか、さらには画像データ抽出部109が抽出する画像データの解像度やビット数、JPEGの場合には量子化係数などを設定する。データ保存部113は、画像データ抽出部109、テキストデータ抽出部110、及びログ情報抽出部111で抽出したデータを受信し、記憶装置に保存する。データ送信部114は、データ保存部113によって記憶装置に蓄積されたデータを、画像処理サーバ103へ送信する。
プリンタ102は、クライアントPC101から送信された印刷データ(印刷ジョブ)に従って印刷を行う。
画像処理サーバ103は、主にクライアントPC101から受信した画像データの変換処理、OCR処理(光学文字認識処理)、データベースサーバ104への登録処理を行う機能がある。
画像処理サーバ103は、データ受信部115、画像変換部116、OCR要否判定部117、OCR処理部118、文字数登録部119、データ登録部120として機能する。なお、本発明において、データ登録部が複数存在してもよい。この場合、複数のデータ登録部を、第1のデータ登録部、第2のデータ登録部、第3のデータ登録部のように呼んでもよい。データ受信部115は、クライアントPC101のデータ送信部114から送信された画像データ、テキストデータ、ログデータを受信する。画像変換部116は、受信した画像データをOCR処理が実行できる形式に変換し、かつデータベースサーバ104が格納できる形式に変換する。また、OCR処理をかけるために解像度変換処理、回転処理、斜行補正といった処理も画像変換部116が行う。OCR要否判定部117は、受信した画像データに対しOCR処理をかけてテキストデータを抽出するかどうかを判断する。OCR処理部118は、画像データにOCR処理をかけてテキストデータを抽出する。文字数登録部119は、データ受信部115で受信したテキストデータと、OCR処理部118が抽出したテキストデータの文字数の差分を算出し、差分を差分格納手段によりデータベースサーバ104へ格納する。登録する際には印刷実行モジュール名に関連付けて登録し、その印刷実行モジュール名で印刷した回数も同時に登録する。データ登録部120は、画像処理サーバ103ですべての処理がなされた、画像データ、テキストデータ、ログデータをデータベースサーバ104に登録する。
データベースサーバ104は、画像処理サーバ103より送られた画像データ、テキストデータ、ログデータ、すなわちジョブ追跡情報を蓄積するアーカイブサーバである。
管理者PC105は、ジョブの追跡を行うためにデータベースサーバ104に蓄積されたデータを検索するためのPCである。
なお、図1において、クライアントPC101が直接プリンタ102へ印刷するシステムを示したが、プリントサーバを経由してクライアントPC101がプリンタ102へ接続されても良い。その場合は、プリンタドライバ106内の各処理部は、例えば、まずプリントサーバへインストールされ、クライアントPC101へはポイントアンドプリントを利用してインストールされる。また、エージェントアプリケーション107内の各処理部はプリントサーバにだけインストールされる。
図2は、クライアントPC101、画像処理サーバ103、データベースサーバ104、及び管理者PC105のハードウェアを示すブロック図である。いずれもIBM−PC/AT互換機などの汎用PCなので同じブロック図としている。CPU201は、内部バスで接続される各デバイス(後述のROM、RAM他)を直接或いは間接的に制御し、本発明を実現するためのプログラムを実行する。ROM202は、BIOSなどの基本ソフトウェアを格納する。RAM203は、CPU201のワーク領域として利用され、また本発明を実現するためのプログラムをロードするための一時記憶として利用される。HDD(ハードディスクドライブ)204は、プログラムをファイルとして格納してある。入力装置205は、プログラムの中で操作画面を持つものを操作する。モニタ206は、操作の確認する。LAN I/F207は、外部機器をネットワークに接続する。
図3は、図1で詳説した各処理部が生成する画像データ、テキストデータの流れを示した図であり、画像処理サーバ103がOCR処理を行う場合の図である。なお、ログ情報については特に明記していないが、テキストデータと関連付けてデータベースサーバへ登録されるものとする。
クライアントPC101において印刷が実行された場合、画像データ抽出部109は、画像データ301を生成し、テキストデータ抽出部110は、テキストデータ302(テキスト1)を生成する。データ送信部114は、これらのデータを画像処理サーバ103へ送信する。画像処理サーバ103の画像変換部116は、画像データ301に画像変換処理を行い、OCR処理部118は、画像データ301にOCR処理を実行し、テキストデータ303(テキスト2)を生成する。文字数登録部119は、テキストデータ302(テキスト1)とテキストデータ303(テキスト2)の文字数を比較し、その差分を差分格納手段によりデータベースサーバ104へ格納する。データ登録部120は、画像データ301、テキストデータ302(テキスト1)、及びテキストデータ303(テキスト2)をデータベースサーバ104へ登録する。
図4は、図1で詳説した各処理部が生成する画像データ、テキストデータの流れを示した図であり、画像処理サーバ103がOCR処理を行わない場合の図である。なお、ログデータについては特に明記していない。
クライアントPC101の処理については、図3と同様の処理となるため、説明を省略する。画像処理サーバ103のOCR要否判定部117が、画像データに対してOCR処理が不要であると判断した場合、OCR処理部118は実行されない。このとき、図3のテキストデータ303(テキスト2)は生成されない。データ登録部120は、画像データ301とテキストデータ302(テキスト1)をデータベースサーバ104へ登録する。
図4に示されている処理の流れでは、OCR処理を行わないため、ジョブに対する登録パフォーマンスが向上する。また、データベースサーバ104に冗長なテキストデータを登録しないためデータベースサーバ104のディスク容量の削減につながる。
図5は、本発明の実施形態に係る印刷実行時のクライアントPC101における各処理部のフローチャートである。実際の紙の排紙に関わる部分など、本発明に直接関係しない処理についての説明を省略する。
図5に示されているフローチャートの処理は、全て図2に示されているCPU201により実行される。
ユーザの操作により印刷指示がなされると、画像データ抽出部109は、実行ジョブ(印刷ジョブ)に基づいて画像データ301を生成する(ステップS501)。テキストデータ抽出部110は実行ジョブ(印刷ジョブ)のテキスト描画コマンドからテキストデータ302(テキスト1)を抽出する(ステップS502)。データ保存部113は画像データ、テキストデータ、及びログデータを記憶装置204に保存する(ステップS503)。データ送信部114は、記憶装置204に蓄積されたデータを画像処理サーバ103へ送信する(ステップS504)。
図6は、本発明の実施形態に係る印刷実行時の画像処理サーバ103における各処理部のフローチャートである。データサーバへ格納するために必要な画像変換処理など、本発明に直接関係しない処理についての説明を省略する。
図6に示されているフローチャートの処理は、全て図2に示されているCPU201により実行される。
画像処理サーバ103のデータ受信部115は、クライアントPC101のデータ送信部114から送られたデータを受信する(ステップS601)。OCR要否判定部117は、画像データ301に対してOCR処理を実行する必要があるか否かを判定する(ステップS602)。
ステップS602の処理の詳細をステップS603〜S609で示す。OCR要否判定部117は、データベースサーバ104へ接続し、該印刷ジョブを作成した印刷実行モジュール名に対応する判定データである「文字数の差の累計」と「印刷実行回数」を取得する(ステップS603)。「印刷実行回数」が予め定められた値以下だった場合には(ステップS604)、OCR要否判定部117は、画像データ301に対するOCR処理が必要と判断し、ステップS609に処理が進む。「印刷実行回数」が予め定められた閾値以上だった場合には(ステップS604)、OCR要否判定部117は「文字数の差の累計」と「印刷実行回数」から「文字数の差の平均」を算出する(ステップS606)。算出された平均値が予め定められた閾値以下だった場合には(ステップS607)、OCR要否判定部は画像データ301に対するOCR処理は必要ない(ステップS608)と判断する。逆に、算出された平均値が予め定められた値以上だった場合には(ステップS607)、OCR要否判定部は、画像データ301に対するOCR処理は必要であると判断する(ステップS609)。つまり、以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータと、OCR結果として得たテキストデータとの差異が大きいか否かに基づいて、新たな印刷ジョブに対してOCR処理が必要か否かを判定している。なお、「印刷実行回数」、及び「文字数の差の平均」で比較対象となる閾値は、システムとして予め登録してある値でも良いし、管理者が設定可能な値でも良い。
OCR要否判定部117が、OCR処理は必要だと判定した場合(ステップS610)、OCR処理部118は、画像データ301にOCR処理を実行し、テキストデータ303(テキスト2)を生成する(ステップS611)。文字数登録部119は、テキストデータの文字数の登録を行う(ステップS612)。
ステップS612の処理の詳細をステップS613〜S615で示す。文字数登録部119は、テキストデータ302(テキスト1)とテキストデータ303(テキスト2)の文字数をそれぞれカウントし、差分の絶対値を算出する(ステップS613)。そして、文字数登録部119は該ジョブの印刷実行モジュール名と関連付けて、算出した値をデータベースサーバ104へ登録する(ステップS614)。そして文字数登録部119は、該印刷実行モジュール名の「印刷実行回数」を1つ加算する(ステップS615)。
データ登録部120は、テキストデータ303(テキスト2)を画像データ301の全文検索用テキストデータとして、データベースサーバ104へ登録する(ステップS616)。そして、データ登録部120は、画像データ301をデータベースサーバ104へ登録する(ステップS617)。そして、データ登録部120はテキストデータ302(テキスト1)も画像データ301の全文検索用テキストデータとして、データベースサーバ104へ登録する(ステップS618)。そして、データ登録部120は、ログ情報を画像データ301に関連付けてデータベースサーバ104へ登録する(ステップS619)。
OCR要否判定部117が、OCR処理は必要ないと判断した場合は(ステップS610)、ステップS611からステップS616までの処理は行われず、ステップS617、ステップS618、ステップS619の処理のみ行う。これらの処理を行わない分、パフォーマンスの向上につながる。
なお、上記で説明したフローでは、ステップS604の処理によって、予め定められた印刷実行回数まで必ずOCR処理が発生する。これを回避するために、ステップS611の処理において抽出した文字数の差が常に非常に小さいと判断できる場合には、OCR処理が不要という判断を早める処理を入れても良い。
また、ステップS612において、単なる文字数の差分の絶対値でなく、テキストデータ302(テキスト1)とテキストデータ303(テキスト2)のどちらか文字数の多い方の値で差分を割っても良い。これによって精度の向上が期待できる。
また、上記で説明したフローでは、ステップS602において、一度OCR処理が不要であると判定された後も常に画像処理サーバ103は、データベースサーバ104へ接続し、OCR処理の要否を確認している。これを回避するために以下のように処理しても良い。初めてOCR処理が必要でないと判定されたときにその実行モジュール名を画像処理サーバの記憶装置204へ記録する。以降該印刷実行モジュールのジョブは、データベースサーバ104へ接続せずにローカルの記憶装置204をチェックする。これにより、OCR処理の要否を確認の処理のパフォーマンスが向上する。
なお、上記で説明した動作フローは一例であり、上記の処理の流れに限定されるものではない。
図7は、データベースサーバ104内における、印刷実行モジュール名ごとの文字数の差分を格納するテーブル(差異データベース)の例を示している。
テーブル701は、テーブル本体である。属性名702は、左から「印刷実行モジュール名」、「差分の累計」、「印刷実行回数」の属性を有する。「差分の累計」は、その印刷実行モジュール名に対するテキストデータ302(テキスト1)とテキストデータ303(テキスト2)の差分の累計を、「印刷実行回数」はその印刷実行モジュール名に対する印刷実行回数を記録する。フィールド703は、属性名702に対応した値の入るフィールドである。
図7では主キーなどの属性を省略している。また、テーブルの持ち方は一つの例であり、かつデータベースは必ずしも関係データベースに限定されるものではない。
(実施形態2)
図8は、本発明の第2の実施形態に係る各処理部が生成する画像データ、テキストデータの流れを示した図であり、OCR処理が不要であると判断した場合にクライアントPC101で画像データ301を抽出しないことを例示した図である。なお、図8について、上記第1の実施形態における図4と対応する要素と同一符号を付してある要素についての説明を省略する。
図5および図6を用いて説明したフローでは、テキストデータ302(テキスト1)とテキストデータ303(テキスト2)の文字数の差分の平均値からOCR処理の要否のみ切り替えていた。第2の実施形態ではさらに、OCR処理が不要と判定した後、画像データ抽出部109は、画像データ301を抽出しないようにする。すなわち、クライアントPC101ではテキストデータ302(テキスト1)のみが抽出され、画像処理サーバ103を経由してデータベースサーバ104へ登録される。これによって画像データ301の転送時間、及び画像処理時間の削減からくるパフォーマンス向上、及びデータベースサーバ104のディスク容量の削減が実現する。
図9は、本発明の第2の実施形態に係る印刷実行時のクライアントPC101における各処理部のフローチャートである。なお、図9について第1の実施形態における図5と対応する要素と同一符号を付してある要素の説明を省略する。
図9に示されているフローチャートの処理は、全て図2に示されているCPU201により実行される。
印刷が実行された場合、画像データ抽出部109は、画像データ301を抽出するかどうか自身の記憶装置204をチェックする(ステップS901)。抽出が必要ないときは画像データ301を抽出しない。
図10は、本発明の第2の実施形態に係る印刷実行時の画像処理サーバ103における各処理部のフローチャートである。なお、図10について、第1の実施形態における図6と対応する要素と同一符号を付してある要素についての説明を省略する。
図10に示されているフローチャートの処理は、全て図2に示されているCPU201により実行される。
図10において、画像変換部116は、受信したデータに画像が含まれているかチェックする(ステップS1001)。受信したデータに画像が含まれていない場合には、データ登録部120は、テキストデータ302(テキスト1)とログ情報のみデータベースサーバ104へ登録する。
ステップS609において、OCR処理が必要ないと判定された場合、OCR要否判定部117は、該ジョブの印刷実行モジュール名を調べ、クライアントPC101へ画像データ301を抽出する必要のない印刷実行モジュール名として通知する。この通知は、画像処理サーバ103がクライアントPC101へ通知するのではなく、画像処理サーバ103は、自身の記憶装置204へ該印刷実行モジュール名を記録し、クライアントPC101が定期的に画像処理サーバ103へ問い合わせても良い。
なお、上記で説明した動作フローは、一例であり、上記の処理の流れに限定されるものではない。
(その他の実施形態)
本発明の目的は、上述した実施形態で示したフローチャートの手順を実現するプログラムコードを記憶した記憶媒体から、システムあるいは装置のコンピュータ(またはCPUやMPU)がそのプログラムコードを読出し実行することによって達成される。この場合、記憶媒体から読み出されたプログラムコードによって上述した実施形態の機能(各処理部)を実現することになる。そのため、このプログラムコード及びプログラムコードを記録または記憶したコンピュータ読み取り可能な記憶媒体も本発明の一つを構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、プログラムコードの指示に基づきコンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も本発明に含まれる。更に、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことによっても、上述した実施形態の機能を実現可能である。この場合、上記記憶媒体から読出されたプログラムコードが機能拡張ボードや機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき上記CPUなどによって処理が実行される。
本発明の実施形態におけるネットワーク文書管理システムの全体を示すブロック図である。 本システムの一連のPC、サーバのハードウェアを示すブロック図である。 OCR処理を行う場合において、図1の各処理部が生成する画像データ、テキストデータの流れを示した図である。 OCR処理を行わない場合において、図1の各処理部が生成する画像データ、テキストデータの流れを示した図である。 印刷実行時におけるクライアントPC101の各処理部の処理フローを説明するフローチャートである。 印刷実行時における画像処理サーバ103の各処理部の処理フローを説明するフローチャートである。 データベースサーバ104内における、印刷実行モジュール名ごとの文字数の差分を格納するテーブルの例を示した図である。 本発明の第2の実施形態における、画像データ301を抽出しない場合の、テキストデータの流れを示した図である。 本発明の第2の実施形態における、印刷実行時におけるクライアントPC101の各処理部の処理フローを説明するフローチャートである。 本発明の第2の実施形態における、印刷実行時における画像処理サーバ103の各処理部の処理フローを説明するフローチャートである。
符号の説明
101 クライアントPC
103 画像処理サーバ
104 データベースサーバ
106 プリンタドライバ
107 エージェントアプリケーション
108 印刷実行部
109 画像データ抽出部
110 テキストデータ抽出部
111 ログ情報抽出部
113 データ保存部
114 データ送信部
115 データ受信部
117 OCR要否判定部
118 OCR処理部
119 文字数登録部
120 データ登録部
301 画像データ
302 テキストデータ
303 テキストデータ
701 テーブル

Claims (9)

  1. 印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理が必要であるか否か判定するOCR要否判定手段と、
    前記OCR要否判定手段でOCR処理が不要であると判定された場合、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータを、前記画像データの検索用テキストデータとしてデータベースに登録する第1のデータ登録手段と、
    前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理を行って、テキストデータを抽出するOCR手段と、
    前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記OCR手段で抽出したテキストデータと、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータとを、前記画像データの検索用テキストデータとしてデータベースに登録する第2のデータ登録手段と、を有する画像処理サーバであって、
    前記OCR要否判定手段は、以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異に基づいて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とする画像処理サーバ。
  2. 前記OCR要否判定手段は、前記以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異を、当該以前に処理した印刷ジョブの印刷実行モジュール名と関連づけて格納している差異データベースを用いて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とする請求項1に記載の画像処理サーバ。
  3. 前記以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの、文字数の差分の絶対値を算出し、前記印刷実行モジュール名と関連づけて前記差異データベースに格納する差分格納手段を、更に備えることを特徴とする請求項2に記載の画像処理サーバ。
  4. 前記OCR要否判定手段は、前記以前に処理した印刷ジョブの回数が閾値より小さい場合は、前記印刷ジョブに対してOCR処理が必要であると判定し、
    前記以前に処理した印刷ジョブの回数が閾値以上である場合は、前記以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異に基づいて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とする請求項1に記載の画像処理サーバ。
  5. 前記印刷ジョブのテキスト描画コマンドから抽出されるテキストデータは、プリンタドライバの機能により抽出されるテキストデータであることを特徴とする請求項1に記載の画像処理サーバ。
  6. 前記印刷ジョブの描画コマンドに基づいて生成された画像データと前記印刷ジョブのテキスト描画コマンドから抽出されたテキストデータとを受信する受信手段を、更に有し、
    前記OCR要否判定手段では、前記受信した印刷ジョブの画像データに対してOCR処理が必要であるか否かを判定することを特徴とする請求項1に記載の画像処理サーバ。
  7. OCR要否判定手段が、印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理が必要であるか否か判定するOCR要否判定工程と、
    第1のデータ登録手段が、前記OCR要否判定工程でOCR処理が不要であると判定された場合、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータを、前記画像データの検索用テキストデータとしてデータベースに登録する第1のデータ登録工程と、
    OCR手段が、前記OCR要否判定工程でOCR処理が必要であると判定された場合、前記印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理を行って、テキストデータを抽出するOCR工程と、
    第2のデータ登録手段が、前記OCR要否判定工程でOCR処理が必要であると判定された場合、前記OCR工程で抽出したテキストデータと、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータとを、前記画像データの検索用テキストデータとしてデータベースに登録する第2のデータ登録工程と、を有する画像処理方法であって、
    前記OCR要否判定工程では、以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異に基づいて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とする画像処理方法。
  8. コンピュータを、
    印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理が必要であるか否か判定するOCR要否判定手段、
    前記OCR要否判定手段でOCR処理が不要であると判定された場合、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータを、前記画像データの検索用テキストデータとしてデータベースに登録する第1のデータ登録手段、
    前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記印刷ジョブの描画コマンドに基づいて生成された画像データに対してOCR処理を行って、テキストデータを抽出するOCR手段、
    前記OCR要否判定手段でOCR処理が必要であると判定された場合、前記OCR手段で抽出したテキストデータと、前記印刷ジョブのテキスト描画コマンドから抽出したテキストデータとを、前記画像データの検索用テキストデータとしてデータベースに登録する第2のデータ登録手段、として機能させるためのコンピュータプログラムであって、
    前記OCR要否判定手段では、以前に処理した印刷ジョブのOCR処理を行うことにより生成されたテキストデータと、当該以前に処理した印刷ジョブのテキスト描画コマンドから抽出したテキストデータとの差異に基づいて、前記印刷ジョブに対してOCR処理が必要であるか否かを判定することを特徴とするコンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムを記憶した、コンピュータ読み取り可能な記憶媒体。
JP2007188639A 2007-07-19 2007-07-19 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体 Expired - Fee Related JP4904218B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007188639A JP4904218B2 (ja) 2007-07-19 2007-07-19 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体
US12/172,662 US7990561B2 (en) 2007-07-19 2008-07-14 Image processing server, image processing method, and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007188639A JP4904218B2 (ja) 2007-07-19 2007-07-19 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体

Publications (2)

Publication Number Publication Date
JP2009026077A JP2009026077A (ja) 2009-02-05
JP4904218B2 true JP4904218B2 (ja) 2012-03-28

Family

ID=40264616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007188639A Expired - Fee Related JP4904218B2 (ja) 2007-07-19 2007-07-19 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体

Country Status (2)

Country Link
US (1) US7990561B2 (ja)
JP (1) JP4904218B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5354981B2 (ja) * 2008-07-14 2013-11-27 キヤノン株式会社 文書管理装置、文書管理方法及びプログラム
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
US8515185B2 (en) * 2009-11-25 2013-08-20 Google Inc. On-screen guideline-based selective text recognition
JP5601446B2 (ja) * 2009-12-24 2014-10-08 富士ゼロックス株式会社 ファクシミリ装置およびファクシミリ通信システムおよびファクシミリ通信プログラム
JP5275319B2 (ja) * 2010-10-20 2013-08-28 シャープ株式会社 画像処理システム、プログラムおよび記録媒体
US8472726B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis
US8472727B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis for improved OCR
CN105631393A (zh) 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
JP2019034449A (ja) 2017-08-10 2019-03-07 キヤノン株式会社 画像処理装置、画像処理方法、画像形成装置及びプログラム
JP2023006605A (ja) * 2021-06-30 2023-01-18 キヤノン株式会社 画像形成装置、画像形成装置の制御方法、及びプログラム
JP7388411B2 (ja) * 2021-07-28 2023-11-29 株式会社リコー 情報処理システム、通信システム、情報処理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3028346B2 (ja) * 1991-02-05 2000-04-04 松下電器産業株式会社 画像データ転送装置
JP3683925B2 (ja) 1994-11-18 2005-08-17 キヤノン株式会社 電子ファイリング装置
JP3689441B2 (ja) 1994-12-05 2005-08-31 キヤノン株式会社 電子ファイリング装置および電子ファイリング方法
US5907835A (en) 1994-11-18 1999-05-25 Canon Kabushiki Kaisha Electronic filing system using different application program for processing drawing commands for printing
JP3696915B2 (ja) 1995-01-31 2005-09-21 キヤノン株式会社 電子ファイリング方法及び電子ファイリング装置
JP3772606B2 (ja) * 1999-10-19 2006-05-10 株式会社日立製作所 電子文書管理方法及びシステム並びに記録媒体
US6739510B2 (en) * 2002-03-08 2004-05-25 Lockheed Martin Corporation OCR/BCR sequencing priority
JP2004086420A (ja) * 2002-08-26 2004-03-18 Murata Mach Ltd 文書管理装置および文書登録プログラム
JP2004280274A (ja) * 2003-03-13 2004-10-07 Toshiba Corp 情報読み取り装置、方法およびプログラム
JP4350414B2 (ja) * 2003-04-30 2009-10-21 キヤノン株式会社 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4227569B2 (ja) * 2004-07-07 2009-02-18 キヤノン株式会社 画像処理システム、画像処理装置の制御方法、プログラム及び記録媒体
US7933048B2 (en) * 2005-01-31 2011-04-26 Canon Kabushiki Kaisha Image reading apparatus, server apparatus, and image processing system
JP2007168382A (ja) * 2005-12-26 2007-07-05 Canon Inc 印刷装置、印刷システム、印刷方法、及びそのプログラム、記憶媒体

Also Published As

Publication number Publication date
JP2009026077A (ja) 2009-02-05
US20090021785A1 (en) 2009-01-22
US7990561B2 (en) 2011-08-02

Similar Documents

Publication Publication Date Title
JP4904218B2 (ja) 画像処理サーバ、画像処理方法、コンピュータプログラム、および記憶媒体
US8390867B2 (en) Form generation system and form generation method
US8639990B2 (en) Information processing apparatus that records logs, and control method and storage medium therefor
US8677445B2 (en) Information processing apparatus and computer readable medium
US8045228B2 (en) Image processing apparatus
JP6634744B2 (ja) 情報処理システム、情報処理装置、機器、情報処理方法、プログラム
JP5797052B2 (ja) 印刷システム、サーバー装置、情報処理方法及びプログラム
US8319988B2 (en) Job auditing systems and methods for direct imaging of documents
US8144351B2 (en) Print system, information processing apparatus, and information processing method, including log information
JP4921202B2 (ja) ジョブ履歴管理システム、その制御方法、プログラム及び記憶媒体
US20150324161A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US8064079B2 (en) Method for notifying state of printing processing, information processing device, and information processing program
JP2007312225A (ja) データ処理装置、並びに当該装置で実行されるデータ処理方法及びデータ処理プログラム
US9871933B2 (en) Information processing apparatus and image processing system for generating image data for a preview image by using print data described in page description language
EP2073528A1 (en) Macro transmission server apparatus and control method therefor
JP2009116602A (ja) 情報処理装置およびその制御方法ならびにそのプログラム及び記憶媒体
JP4895696B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US7352484B2 (en) Printing system and management method therefor
US20080225320A1 (en) Systems and methods for unified imaging job accounting
JP2001256027A (ja) 情報処理装置、ネットワークシステム、情報処理方法、記憶媒体
JP2010026987A (ja) ネットワーク文書管理システム
JP2006184947A (ja) ログ収集装置、ログ収集方法、ログ収集プログラム及び記憶媒体
WO2010070860A1 (en) Image forming apparatus, control method for image forming apparatus, and storage medium
US20220038601A1 (en) Information processing apparatus, information processing method, and nontransitory recording medium
US20240073331A1 (en) Print control apparatus and method for controlling the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100629

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120106

R151 Written notification of patent or utility model registration

Ref document number: 4904218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees