JP2009048293A - 情報処理システム、情報処理実行プログラム及び画像処理装置 - Google Patents
情報処理システム、情報処理実行プログラム及び画像処理装置 Download PDFInfo
- Publication number
- JP2009048293A JP2009048293A JP2007211813A JP2007211813A JP2009048293A JP 2009048293 A JP2009048293 A JP 2009048293A JP 2007211813 A JP2007211813 A JP 2007211813A JP 2007211813 A JP2007211813 A JP 2007211813A JP 2009048293 A JP2009048293 A JP 2009048293A
- Authority
- JP
- Japan
- Prior art keywords
- character recognition
- area
- image
- section
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつOCR変換のための時間を細分化管理することで、作業効率の低下を防止する。
【解決手段】サーチャブルPDF50を作成するためのOCR変換の際、当該元となる原稿のイメージ領域を複数の区画部Anに分類し、それぞれの区画部An毎にOCR変換時間を設定し、この設定した時間を経過しても当該区画部AnのOCR変換が見完了の場合は、その区画部AnのみOCR変換を断念するようにした。これにより、冗長されるOCR変換にある程度歯止めをかけて、処理時間の短縮化を図ると共に、他の区画部AnのOCR変換が完了していれば、その区画部AnのサーチャブルPDFとしての能力を維持することができる。
【選択図】図3
【解決手段】サーチャブルPDF50を作成するためのOCR変換の際、当該元となる原稿のイメージ領域を複数の区画部Anに分類し、それぞれの区画部An毎にOCR変換時間を設定し、この設定した時間を経過しても当該区画部AnのOCR変換が見完了の場合は、その区画部AnのみOCR変換を断念するようにした。これにより、冗長されるOCR変換にある程度歯止めをかけて、処理時間の短縮化を図ると共に、他の区画部AnのOCR変換が完了していれば、その区画部AnのサーチャブルPDFとしての能力を維持することができる。
【選択図】図3
Description
本発明は、検査機能付電子文書を作成するための情報処理システム、情報処理実行プログラム及び画像処理装置に関するものである。
近年、紙文書の電子化の最大の課題は、電子化された文書を如何に容易に検索可能にするかと言われている。
上記課題に対応するため、透明テキスト付電子文書(透明テキスト付PDF)という技術が開発されている。これは、スキャンした画像データに、OCR変換(文字認識)したテキストデータを透明色で貼り付けた構成となっている。
なお、OCR変換技術として、不必要なイメージデータ部分を除外するべく、予めストップマークを付与することで、OCR変換を中止する技術が提案されている(特許文献1参照)。
ここで、この透明テキスト付PDFは、人間が見るときはスキャンした画像データであるため、仮にOCR変換に誤変換があっても全く気にならない。一方、正しく変換できない部分はPDFの検索機能でほぼ正確に検索できる。このように、検索が可能であることから、透明テキスト付PDFをサーチャブルPDFということもある(以下、「サーチャブルPDF」という)。
サーチャブルPDFは、上記の如く非常に便利である反面、OCR変換したテキストデータが透明であるため、このOCR変換した領域の内、誤変換された部分を特定するのが困難となる。
このため、OCR変換の精度を高める必要があるが、OCR変換の精度を高めると読取時間(文字認識時間)が増長することになる。
そこで、用紙(1頁)の読み取り作業において、所定時間経過しても完了しない場合は、1頁全体のOCR変換を中止することが考えられるが、これでは、多くのOCR変換部分が存在するばかりでなく、当該頁における既にOCR変換が完了した部分が無駄となる。
特開平10−232904公報
本発明は上記事実を考慮し、既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつOCR変換のための時間を細分化管理することで、作業効率の低下を防止することができる情報処理システム、画像処理実行プログラム及び画像処理装置を得ることが目的である。
(第1の発明/画像処理システム)
第1の発明は、所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成された電子文書に重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理システムであって、前記文字認識装置で抽出する領域を複数に区画する文字認識領域区画手段と、前記文字認識領域区画手段で区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定する文字認識時間設定手段と、前記文字認識時間設定手段で設定した文字認識実行時間中に文字認識が完了したか否かを判別する判別手段と、各区画毎の前記判別手段による判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略する文字認識中止手段と、を有している。
第1の発明は、所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成された電子文書に重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理システムであって、前記文字認識装置で抽出する領域を複数に区画する文字認識領域区画手段と、前記文字認識領域区画手段で区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定する文字認識時間設定手段と、前記文字認識時間設定手段で設定した文字認識実行時間中に文字認識が完了したか否かを判別する判別手段と、各区画毎の前記判別手段による判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略する文字認識中止手段と、を有している。
第1の発明によれば、文字認識装置で抽出する領域を複数に区画し、区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定すると共に、この設定した文字認識実行時間中に文字認識が完了したか否かを判別し、文字認識未完了と判別された場合に、当該区画の文字認識を省略するようにした。
この結果、既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつ作業効率の低下を防止することができる。
第1の発明において、前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴としている。
また、領域が原稿の1頁分であり、前記区画が1頁内の細分化とすることで、作業効率の低下の防止効果をさらに上げることができる。
また、第1の発明において、前記電子文書に含まれるイメージ領域が、所定の圧縮率で圧縮する圧縮手段をさらに有することを特徴としている。
さらに、所定の圧縮処理によりイメージ領域の読取時間を短縮することができる。
(画像処理実行プログラム/第2の発明)
第2の発明は、所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成された電子文書に重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理実行プログラムであって、前記文字認識装置で抽出する領域を複数に区画し、区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定し、設定した文字認識実行時間中に文字認識が完了したか否かを判別し、各区画毎の判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略することを特徴としている。
第2の発明は、所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成された電子文書に重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理実行プログラムであって、前記文字認識装置で抽出する領域を複数に区画し、区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定し、設定した文字認識実行時間中に文字認識が完了したか否かを判別し、各区画毎の判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略することを特徴としている。
第2の発明によれば、文字認識装置で抽出する領域を複数に区画し、区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定すると共に、この設定した文字認識実行時間中に文字認識が完了したか否かを判別し、文字認識未完了と判別された場合に、当該区画の文字認識を中止するようにした。
この結果、既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつ作業効率の低下を防止することができる。
第2の発明において、前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴としている。
また、領域が原稿の1頁分であり、前記区画が1頁内の細分化とすることで、作業効率の低下の防止効果をさらに上げることができる。
(画像処理装置/第3の発明)
第3の発明は、原稿画像を読み取る原稿画像読取装置と、前記原稿画像読取装置で読み取った読取データに基づいて、文字認識すべき領域と、イメージ領域とに分別する文字認識領域分別手段と、前記文字認識領域分別手段で分別した文字認識領域内の読取データに基づいて文字認識を実行する文字認識装置と、前記文字認識領域選別手段で分別したイメージ領域の読取データを所定の圧縮率で圧縮する圧縮手段とを有し、前記文字認識装置が、前記文字認識領域分別手段で分別した文字認識領域を細分化して、複数の区画を生成する区画生成手段と、前記区画生成手段で区画した領域毎に文字認識実行時間を設定する文字認識実行時間設定手段と、前記区画毎の文字認識処理において、それぞれの区画における文字認識実行時間設定手段で設定した文字認識実行時間を超えた場合に、当該区画の文字認識を中止する文字認識中止手段と、を備えることを特徴としている。
第3の発明は、原稿画像を読み取る原稿画像読取装置と、前記原稿画像読取装置で読み取った読取データに基づいて、文字認識すべき領域と、イメージ領域とに分別する文字認識領域分別手段と、前記文字認識領域分別手段で分別した文字認識領域内の読取データに基づいて文字認識を実行する文字認識装置と、前記文字認識領域選別手段で分別したイメージ領域の読取データを所定の圧縮率で圧縮する圧縮手段とを有し、前記文字認識装置が、前記文字認識領域分別手段で分別した文字認識領域を細分化して、複数の区画を生成する区画生成手段と、前記区画生成手段で区画した領域毎に文字認識実行時間を設定する文字認識実行時間設定手段と、前記区画毎の文字認識処理において、それぞれの区画における文字認識実行時間設定手段で設定した文字認識実行時間を超えた場合に、当該区画の文字認識を中止する文字認識中止手段と、を備えることを特徴としている。
第3の発明によれば、文字認識装置で抽出する領域を複数に区画し、区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定すると共に、この設定した文字認識実行時間中に文字認識が完了したか否かを判別し、文字認識未完了と判別された場合に、当該区画の文字認識を中止するようにした。
この結果、既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつ作業効率の低下を防止することができる。
第3の発明において、前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴としている。
また、領域が原稿の1頁分であり、前記区画が1頁内の細分化とすることで、作業効率の低下の防止効果をさらに上げることができる。
以上説明した如く本発明では、既に実行したOCR変換処理を、必要以上に無駄にすることなく、かつOCR変換のための時間を細分化管理することで、作業効率の低下を防止することができるという優れた効果を有する。
図1には、本実施の形態に係る画像形成装置10と、この画像形成装置10を用いた画像処理を制御するためのPC100とがネットワーク102介して接続されたシステム構成が示されている。
(画像形成装置10の概略構成)
図2には、本実施の形態に係る画像形成装置10の概要が示されている。画像形成装置10には、画像形成部12、この画像形成部12の上方に設けられた原稿読取部14とで構成されている。原稿読取部14には、当該原稿読取部14の開閉蓋を兼用する原稿搬送装置16が設けられている。
図2には、本実施の形態に係る画像形成装置10の概要が示されている。画像形成装置10には、画像形成部12、この画像形成部12の上方に設けられた原稿読取部14とで構成されている。原稿読取部14には、当該原稿読取部14の開閉蓋を兼用する原稿搬送装置16が設けられている。
原稿読取部14には、その上面に原稿を載せるための透明のガラス板で形成されたプラテンガラス(図示省略)が設置され、原稿読取領域となっている。また原稿読取部14には、ユーザが原稿読取、或いは複写指示等を入力操作するためのユーザー・インターフェイス24が配設されている。ユーザー・インターフェイス24にはテンキーが設けられ、プリント枚数設定や倍率設定に利用されると共に、ファクシミリ送信時の電話機のダイヤルキーとしても利用される。すなわち、原稿読取部14は、コピー時の原稿読取機能と、ファクシミリ送信時の原稿読取機能とを併せ持っている。なお、コピー機能は前記画像形成部12と原稿読取部14との組合わせで実行可能である。
原稿搬送装置16には、複写しようとする原稿を(複数枚の場合は重ねて)載せるフィーダートレイ20が設けられている。この原稿搬送装置16では、フィーダートレイ20上に載せられた原稿(複数枚重ねられている場合は、その最上層の原稿)を、原稿反転ユニット(図示省略)へ送り込むことで、反転しながらプラテンガラス上の読取領域を通過させ、フィーダートレイ20の下部に設けられた原稿排紙トレイ22上に排出されるように自動搬送して原稿読取動作を実行する。
画像形成部12には、装置本体下部に3段に渡って配置された給紙トレイ26が設けられ、サイズが指定されることで、選択的に給紙トレイ26から記録シートが給紙装置によって1枚ずつ引き出され、画像形成部12に搬送されるようになっている。
画像形成部12には、シート材に画像を形成する感光体ドラムが配設されている。なお、図示は省略したが、感光体ドラムの周囲には、帯電装置、光走査装置、現像装置、転写装置等が配設されている。感光体ドラムの周面は、一様に帯電された後、光走査装置によって画像データに基づく静電潜像が形成され、形成された静電潜像を現像装置によってトナー現像する。その後、転写装置を通過することで、感光体ドラム上のトナー画像がシート材に転写する構成となっている。画像が転写されたシート材は定着装置によって加熱、加圧処理され、画像が定着された状態で排出されるようになっている。
上記画像形成装置10では、例えば、物理的に存在する紙媒体に記録された原稿画像を、画像読取部14で読み取ることで、検索機能付電子文書(以下、「サーチャブルPDF」という)を作成する機能を備えている。作成されたサーチャブルPDF50(図4参照)は、所定の端末処理装置(例えば、PC100)へ送信される。
サーチャブルPDF50とは、原稿画像に基づいて生成したPDF画像(図4に示すPDFレイヤー52)に対して、別途原稿画像のテキスト部分をOCR変換して生成したテキストデータ(図4に示すテキストレイヤー54)を透明化して貼り付けた、所謂レイヤー構造であり、当該目視可能なPDF画像のテキスト部分を検索可能としたものである。
このため、このサーチャブルPDFを、前記PC100のモニタ100Aに表示することで、当該一連(複数ページに亘る場合がある)のサーチャブルPDFを検索対象とした、文字(デキストデータ)検索が可能となる。
図3は、PC100における、画像形成装置10のスキャナ機能(画像読取部14による画像読取機能)によって読み取ったデータに基づいてサーチャブルPDFを生成するための機能ブロック図である。なお、この機能ブロック図は、ハード構成を限定するものではない。
画像形成装置10のスキャニング機能で読み取った画像データ(イメージデータ)は、画像解析部101に入力されるようになっている。
画像解析部101では、イメージデータの内、テキスト(文字)になり得る領域(テキスト領域)と、写真、イラスト、図形等の領域(イメージ領域)とが混在するか否かの解析を実行する。
画像解析部101は、イメージ/テキスト分離部103に接続されている。イメージ/テキスト分離部103では、前記画像解析部100で解析したテキスト領域と、イメージ領域とに分離する。
また、イメージ/テキスト分離部103は、圧縮部104と、テキストデータ区画部106と、PDF作成部108とにそれぞれ接続されている。
圧縮部104は、イメージ/テキスト分離部103から入力されるスキャンデータを対象とした圧縮処理を実行し(以下、圧縮後のデータを「圧縮イメージデータ」という)、当該圧縮イメージデータをPDF作成部108へ送出する。
テキストデータ区画部106は、イメージ/テキスト分離部103から入力されるテキスト領域を複数の領域に区画する(図5に示す区画部An(nは正の整数)参照)。言い換えれば、後に実行するOCR変換処理の対象領域を予め細分化しておく。
この区画部Anは、例えば、単純に矩形の枠で区画してもよいし、文字フォントや大きさ等の特定ファクタに基づいて区画してもよい。
また、テキストデータ区画部106は、区画部−OCR変換時間設定部110、区画領域読出部112に接続されている。
区画部−OCR変換時間設定部110は、前記テキストデータ区画部106で区画された複数の区画部Anの情報(区画情報)に基づいて、当該区画部An毎に、OCR変換時間を設定する。例えば、このOCR変換時間は、区画部Anの面積に比例して設定してもよいし、文字数に比例して設定してもよい。
なお、ここでは詳細に記載していないが、区画部Anを示す識別符号と、当該区画部AnのOCR変換時間とをテーブルかして記憶するようにしてもよいし、区画部Anの面積や区画部An内の文字数に基づいて、その都度、演算によってOCR変換時間を得るようにしてもよい。
区画領域読出部112は、前記テキスト領域区画部106からテキスト領域データを受け、これをOCR変換実行部114からの読出指示に応答するように送出する役目を有している。
なお、このとき、区画領域読出部106では、前記区画部−OCR変換時間設定部110に対して、OCR変換区画指定情報を送出する。これにより、区画部−OCR変換時間設定部110では、該当するOCR設定時間情報を計時部116へ送出するようになっている。
計時部116は、OCR変換実行部114に接続され、このOCR変換実行部114からは計時部116に対して、特定の区画部AnのOCR変換処理が開始されるとき、計時起動指示が送出される。
計時部116では、前記計時起動指示に応じて、計時を開始するが、このときの計時終了時間(タイムアップ時間)は、前記区画部−OCR変換時間設定部110から入力するOCR変換時間である。
計時部116は、OK/NG判別部118に接続されている。また、前記OCR変換実行部114もOK/NG判別部118に接続されている。
OCR変換実行部114から計時部116には、OCR変換開始信号及び変換終了信号が送出される。
計時部116では、計時時間情報をOK/NG判別部118へ送出する。OK/NG判別部118では、前記開始信号から終了信号までの時間と、前記区画部−OCR変換時間設定部110から入力するOCR変換時間と、に基づいてOCR変換が所定の時間内に完了したか(OK)否か(NG)が判別され、その判別信号(OK又はNG)が、OCR変換実行部114にフィードバックされる。
判別結果がOKの場合には、OCR変換実行部114でOCR変換したデータ(区画部Anのテキストデータ)は、OCR変換データレイアウト部120へ送出されるようになっている。
OCR変換データレイアウト部120では、OCR変換したテキストデータ(区画部An)を、元の原稿画像の座標データと照合しながらレイアウトし(図4に示すテキストレイヤー54の作成)、レイヤー管理部122へ送出する。
一方、このレイヤー管理部122には、前記PDF作成部で作成したPDF(図4に示すPDFレイヤー52)が入力されるようになっている。このレイヤー管理部124では、テキストレイヤー54とPDFレイヤー52とが合成され、サーチャブルPDF50が生成される。
レイヤー管理部124は、表示制御部124に接続されている。表示制御部124では、合成されたサーチャブルPDF50をPC100のモニタ100Aに表示する。
以下に本実施の形態の作用を図6のフローチャートに従い説明する。
図6は、PC100におけるサーチャブルPDF50の作成手順を示しており、ステップ150では、スキャンデータが入力されたか否かが判断され、肯定判定されるとステップ152へ移行して入力データを解析し、ステップ154へ移行する。また、ステップ150で否定判定された場合には、後述するステップ186へ移行する。
ステップ154では、イメージ領域とテキスト領域とを分離し、次いでステップ156へ移行してスキャンデータの圧縮処理を実行し、ステップ158へ移行する。
ステップ158では、圧縮処理されたデータに基づいて、PDFレイヤー52を作成する。
一方、次のステップ160では、前記ステップ154で分離した片方であるイメージ領域を区画部Anに分割し、ステップ162へ移行する。
ステップ162では、各区画部An毎のOCR変換時間を設定する。この区画−OCR設定時間はテーブル化して記憶してもよいし、その都度、演算等による得るようにしてもよい。
次のステップ164では、OCR変換する区画部Anを特定し、次いでステップ166へ移行して特定した区画部AnのOCR変換時間を読み出して、ステップ168へ移行する。
ステップ168では、OCR変換を開始し、次いでステップ170で計時をスタートする。
次のステップ172では、OCR変換が終了したか否かが判断され、否定判定されると、ステップ174へ移行して、当該区画部Anに設定したOCR変換時間が経過したか否かが判断される。このステップ174で否定判定された場合は、区画部An内のOCR変換時間に余裕があり、ステップ172へ戻り、OCR変換を継続する。
一方、ステップ174で肯定判定された場合は、区画部An内のOCR変換時間がなくなったと判断され、ステップ176へ移行して当該区画部AnのOCR変換を中止し、ステップ178へ移行する。
また、前記ステップ172で肯定判定された場合は、当該区画部AnのOCR変換が終了したと判断し、ステップ178へ移行する。
ステップ178では、次にOCR変換する区画部Anが残っているか否かが判断され、肯定判定されると、ステップ164へ戻り、上記工程を繰り返す。
また、ステップ178で否定判定されると、全ての区画部AnのOCR変換処理が終了(OCR中止区画部Anを含む)したと判断し、ステップ180へ移行してテキストレイヤー54を作成する。
次のステップ182では、前記ステップ158で作成されたPDFレイヤー52と、ステップ180で作成されたテキストレイヤー54とを合成し、次いでステップ184で合成によって生成されたサーチャブルPDFを保存し、ステップ186へ移行する。
ステップ186では、サーチャーブルPDF50の表示指示があったか否かが判断され、肯定判定されるとステップ188へ移行して、保存されたサーチャブルPDFから表示指示がなされたサーチャブルPDF50を読み出し、次いでステップ190へ移行して表示制御を実行する(PC100のモニタ100Aに表示)。
以上説明したように本実施の形態では、サーチャブルPDF50を作成するためのOCR変換の際、当該元となる原稿のイメージ領域を複数の区画部Anに分類し、それぞれの区画部An毎にOCR変換時間を設定し、この設定した時間を経過しても当該区画部AnのOCR変換が見完了の場合は、その区画部AnのみOCR変換を断念するようにした。
これにより、冗長されるOCR変換にある程度歯止めをかけて、処理時間の短縮化を図ると共に、他の区画部AnのOCR変換が完了していれば、その区画部AnのサーチャブルPDFとしての能力を維持することができる。
なお、本実施の形態では、一連のOCR変換処理をPC100により実行するように説明したが、この一連のOCR変換処理は、前記画像形成装置10で実行するようにしてもよい。
言い換えれば、PC100と画像形成装置10とは、ネットワーク102を介して画像処理装置(画像処理システム)を構成しており、一連のOCR処理は、画像処理装置の範疇であれば、上記PC100、画像形成装置10に限らず、例えば、新たにネットワーク102に接続、或いは、PC100又は画像形成装置10に直接接続した、サーバーや情報処理端末等によって実行するようにしてもよい。
また、上記では、原稿画像を元の画像としたが、ファクシミリ等のように電子的に受信したビットマップデータ等を元の画像としてOCR変換処理を実行してもよい。
さらに、本実施の形態デでは、Adobe System社によって開発されたPDFフォーマットを中心に説明したが、それに類する検索機能の付いた電子文書の応用も可能である。
10 画像形成装置
100 PC(文字認識装置)
102 ネットワーク
12 画像形成部
14 原稿読取部(原稿画像読取装置)
16 原稿搬送装置
24 ユーザ・インター・フェイス
20 フィーダートレイ
22 原稿排紙トレイ
26 給紙トレイ
50 サーチャーブルPDF
52 PDFレイヤー
54 テキストレイヤー
100A モニタ
101 画像解析部
103 イメージ/テキスト分離部(文字認識領域分別手段)
104 圧縮部(圧縮手段)
106 テキストデータ区画部(文字認識領域区画手段、区画生成手段)
108 PDF作成部
110 区画部−OCR変換時間設定部(文字認識実行時間設定手段)
112 区画領域読出部
114 OCR変換実行部(文字認識中止手段)
116 計時部
118 OK/NG判別部(判別手段)
120 OCR変換データレイアウト部
122 レイヤー管理部
124 表示制御部
100 PC(文字認識装置)
102 ネットワーク
12 画像形成部
14 原稿読取部(原稿画像読取装置)
16 原稿搬送装置
24 ユーザ・インター・フェイス
20 フィーダートレイ
22 原稿排紙トレイ
26 給紙トレイ
50 サーチャーブルPDF
52 PDFレイヤー
54 テキストレイヤー
100A モニタ
101 画像解析部
103 イメージ/テキスト分離部(文字認識領域分別手段)
104 圧縮部(圧縮手段)
106 テキストデータ区画部(文字認識領域区画手段、区画生成手段)
108 PDF作成部
110 区画部−OCR変換時間設定部(文字認識実行時間設定手段)
112 区画領域読出部
114 OCR変換実行部(文字認識中止手段)
116 計時部
118 OK/NG判別部(判別手段)
120 OCR変換データレイアウト部
122 レイヤー管理部
124 表示制御部
Claims (7)
- 所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成された電子文書に重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理システムであって、
前記文字認識装置で抽出する領域を複数に区画する文字認識領域区画手段と、
前記文字認識領域区画手段で区画されたそれぞれの区画毎に、文字認識装置における文字認識時間を設定する文字認識実行時間設定手段と、
前記文字認識実行時間設定手段で設定した文字認識実行時間中に文字認識が完了したか否かを判別する判別手段と、
各区画毎の前記判別手段による判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略する文字認識中止手段と、
を有する情報処理システム。 - 前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴とする請求項1記載の情報処理システム。
- 前記電子文書に含まれるイメージ領域が、所定の圧縮率で圧縮する圧縮手段をさらに有することを特徴とする請求項1又は請求項2記載の情報処理システム。
- 所定の原稿画像から文字認識装置によって抽出された透明なテキストデータを、前記所定の原稿画像に基づいて生成されたPDFに重ね合わせ、目視画像に対して検索機能を加味した検索機能付電子文書を作成するための情報処理実行プログラムであって、
前記文字認識装置で抽出する領域を複数に区画し、
区画されたそれぞれの区画毎に、文字認識装置における文字認識実行時間を設定し、
設定した文字認識実行時間中に文字認識が完了したか否かを判別し、
各区画毎の判別結果が、文字認識未完了と判別された場合に、当該区画の文字認識を省略することを特徴とする情報処理実行プログラム。 - 前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴とする請求項4記載の情報処理実行プログラム。
- 原稿画像を読み取る原稿画像読取装置と、
前記原稿画像読取装置で読み取った読取データに基づいて、文字認識すべき領域と、イメージ領域とに分別する文字認識領域分別手段と、
前記文字認識領域分別手段で分別した文字認識領域内の読取データに基づいて文字認識を実行する文字認識装置と、
前記文字認識領域選別手段で分別したイメージ領域の読取データを所定の圧縮率で圧縮する圧縮手段とを有し、
前記文字認識装置が、
前記文字認識領域分別手段で分別した文字認識領域を細分化して、複数の区画を生成する区画生成手段と、
前記区画生成手段で区画した領域毎に文字認識実行時間を設定する文字認識実行時間設定手段と、
前記区画毎の文字認識処理において、それぞれの区画における文字認識実行時間設定手段で設定した文字認識実行時間を超えた場合に、当該区画の文字認識を中止する文字認識中止手段と、
を備えることを特徴とする画像処理装置。 - 前記領域が原稿の1頁分であり、前記区画は1頁内の細分化であることを特徴とする請求項6記載の画像処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007211813A JP2009048293A (ja) | 2007-08-15 | 2007-08-15 | 情報処理システム、情報処理実行プログラム及び画像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007211813A JP2009048293A (ja) | 2007-08-15 | 2007-08-15 | 情報処理システム、情報処理実行プログラム及び画像処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009048293A true JP2009048293A (ja) | 2009-03-05 |
Family
ID=40500468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007211813A Withdrawn JP2009048293A (ja) | 2007-08-15 | 2007-08-15 | 情報処理システム、情報処理実行プログラム及び画像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009048293A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013161268A (ja) * | 2012-02-06 | 2013-08-19 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
JP2015204075A (ja) * | 2014-04-16 | 2015-11-16 | コニカミノルタ株式会社 | 電子文書生成システムおよびプログラム |
CN105260996A (zh) * | 2014-07-11 | 2016-01-20 | 柯尼卡美能达株式会社 | 电子文档生成系统以及电子文档生成装置 |
US9485368B2 (en) | 2014-09-08 | 2016-11-01 | Konica Minolta, Inc. | Electronic document generation apparatus, recording medium, and electronic document generation system |
-
2007
- 2007-08-15 JP JP2007211813A patent/JP2009048293A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013161268A (ja) * | 2012-02-06 | 2013-08-19 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
JP2015204075A (ja) * | 2014-04-16 | 2015-11-16 | コニカミノルタ株式会社 | 電子文書生成システムおよびプログラム |
US9614984B2 (en) | 2014-04-16 | 2017-04-04 | Konica Minolta, Inc. | Electronic document generation system and recording medium |
CN105260996A (zh) * | 2014-07-11 | 2016-01-20 | 柯尼卡美能达株式会社 | 电子文档生成系统以及电子文档生成装置 |
JP2016021088A (ja) * | 2014-07-11 | 2016-02-04 | コニカミノルタ株式会社 | 電子文書生成システム、電子文書生成装置およびプログラム |
CN105260996B (zh) * | 2014-07-11 | 2018-06-12 | 柯尼卡美能达株式会社 | 电子文档生成系统以及电子文档生成装置 |
US9485368B2 (en) | 2014-09-08 | 2016-11-01 | Konica Minolta, Inc. | Electronic document generation apparatus, recording medium, and electronic document generation system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101207677B (zh) | 打印处理装置和打印处理方法 | |
CN100401253C (zh) | 数据处理设备、数据处理方法 | |
US7783136B2 (en) | Image data searching with changing search method based on image data output form | |
EP3564810A1 (en) | Print processing apparatus, print processing apparatus control method, and storage medium | |
JP2006350551A (ja) | 文書変換装置、文書変換方法、文書変換システム、文書処理装置および情報処理装置 | |
US9191532B2 (en) | Image display device and computer-readable storage medium storing a display control program | |
US8290306B2 (en) | Image processing method and image processing apparatus | |
CN103369173B (zh) | 电子化装置 | |
JP2016055525A (ja) | 欠陥情報特定装置及び欠陥情報特定方法 | |
JP5889373B2 (ja) | 印刷処理装置、印刷処理装置の制御方法、及び、プログラム | |
JP2009048293A (ja) | 情報処理システム、情報処理実行プログラム及び画像処理装置 | |
US9131180B2 (en) | Method and apparatus for automatically grouping documents for aggregate printing | |
JP2006150791A (ja) | 画像形成装置 | |
JP2008158098A (ja) | 文書管理システム、文書管理装置、文書管理方法、およびプログラム | |
JP4845700B2 (ja) | 画像形成装置及びその制御方法 | |
JP2006184722A (ja) | 自己診断機能を備えた画像形成装置 | |
US20120254870A1 (en) | Information processing apparatus, workflow setting method, and program therefor | |
CN104869272B (zh) | 图像形成装置及其控制方法 | |
US8274689B2 (en) | Image processing apparatus, computer-readable recording medium, and method for acquiring and outputting an image | |
JP2003127508A (ja) | オフラインプリント方法、出力制御データの作成方法、およびソフトウェア | |
US20150146254A1 (en) | Image Processing Apparatus and Image Processing Method That Ensures Effective Search | |
JP2004064552A (ja) | 画像処理装置 | |
JP2006245747A (ja) | 印刷装置および印刷処理方法 | |
JP2004356964A (ja) | 画像形成装置、画像送信元特定方法及び画像送信元特定プログラム | |
JP2016143961A (ja) | 画像形成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100713 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20111006 |