JP2009140478A - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
JP2009140478A
JP2009140478A JP2008266832A JP2008266832A JP2009140478A JP 2009140478 A JP2009140478 A JP 2009140478A JP 2008266832 A JP2008266832 A JP 2008266832A JP 2008266832 A JP2008266832 A JP 2008266832A JP 2009140478 A JP2009140478 A JP 2009140478A
Authority
JP
Japan
Prior art keywords
image data
character
replacement
image
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008266832A
Other languages
English (en)
Inventor
Akira Nozaki
陽 野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008266832A priority Critical patent/JP2009140478A/ja
Priority to US12/270,732 priority patent/US8073256B2/en
Publication of JP2009140478A publication Critical patent/JP2009140478A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】置換用の画像に置換用の情報が含まれていなくても自動的にページごとに画像データの置換を行うことができ、オペレータの負荷を軽減させるようにする。
【解決手段】置換対象の画像データと置換用の画像データとを格納し、置換対象の画像データの文字画像と置換用の画像データの文字画像とを抽出し、抽出された文字画像に含まれる文字列をページごとに文字認識する。そして、文字認識された置換対象の画像データの各ページの文字列と置換用の画像データの各ページの文字列とをページ毎に比較し、互いの類似度を判断する。そして、判断結果に基づいて、置換対象の画像データの少なくとも一部のページを置換用の画像データの少なくとも一部のページで置換する。
【選択図】図2

Description

本発明は、画像原稿の文字画像に含まれる文字列を文字認識することによって、画像原稿のページ単位で容易に画像データの置換を行う画像処理装置及び画像処理方法に関する。
従来から、複数ページからなる画像原稿の画像データにおいて、このうちの一部のページの画像データに対して加筆修正を施した新たな画像データで元の画像原稿の対応するページを置換することが要求されている。また、新たにページを追加することも要求されている。本発明と技術分野が類似する従来技術として、置換用の文書を読み込み、ページ番号を認識して、指定した置換対象の文書のページに対してページ単位で画像データの置換又は追加を行う技術が開示されている(特許文献1参照)。また、この特許文献1では、置換用の文章についての情報を記載した用紙を読み込ませることによりこの情報に基づいて置換用の文書のページ番号などを認識し、置換対象の文書に対してページ単位で画像データの置換又は追加を行う技術が開示されている。
また、置換対象の画像原稿の画像データ及び置換用の画像原稿の画像データを、夫々2値化して画素単位で比較すること、夫々の文字領域からキーワードを検出してキーワード検索すること、により類似画像を検索し、ページを置換する技術が開示されている(特許文献2参照)。
また、類似画像の検索技術の一手法として、検索対象となる画像のヒストグラムと元画像のヒストグラムとを比較することで類似度を算出する技術が開示されている(特許文献3参照)。
特開平9−6948号公報 特開2000−148790号公報 特開2002−82985号公報
しかしながら、前述の従来の技術では、置換用の文書のページ番号を指定しなければならず、また、置換用の文書にページ番号が記載されていなければならなかった。一方、特許文献2に開示されているように、ページ番号が記載されていない場合には、置換用の文章についての情報を記載した用紙を読み込ませることにより、所望のページ番号の文章の画像データを置換するという技術がある。しかし、ページ番号を記載した置換用の文章についての情報を記載した用紙を別途読み込ませるのは手間がかかる。さらに、置換対象の画像原稿にページ番号を持たない表紙などがある場合、全てページ番号を持つ画像原稿とのページ構成が異なるために、異なるページ番号を指定するように構成しなければならなかった。
また、キーワード検索による画像原稿の画像データの置換では、置換すべきでない文章であってもキーワードが同じであれば置換対象と誤認してしまう可能性があった。また、従来は画像データを置換する際には置換対象の画像データと置換用の画像データとを同じアプリケーションデータに変換してアプリケーション上で類似度を比較する作業を行うか、両方のデータを一旦2値化画像に変換して類似度を比較する必要があった。そのため、置換したい原稿が画像データではなく、紙原稿の場合には、原稿を一旦スキャナで読み取り、置換対象画像データと同じアプリケーションデータやフォーマットに変換した後に類似度を判定していた。この際、スキャン原稿上や原稿台に存在するゴミ等がヒストグラムに影響してしまい、同じ文章の原稿であっても異なる文章であると判断してしまうというおそれがあった。また、2値化して画素毎に比較を行うことは処理が重く時間がかかってしまっていた。
本発明はこのような課題を鑑みてなされたものであり、置換用の画像に置換用の情報が記載されていない場合でも、また、置換対象の画像データと置換用の画像データとを同じアプリケーションのデータや2値化データに変換せずとも、簡便かつ高い信頼性で類似度を判定し、画像データをページごとに置換可能な画像処理装置及び画像処理方法を提供することを特徴とする。
上記課題を解決するための本発明は、複数ページからなる第一の画像データの少なくとも一部のページを、複数ページからなる第二の画像データの少なくとも一部のページで置換する画像処理装置であって、
前記第一の画像データと前記第二の画像データとを格納する格納手段と、
前記第一の画像データの文字画像と前記第二の画像データの文字画像とを抽出する抽出手段と、
前記抽出手段により抽出された文字画像に含まれる文字列をページごとに文字認識する文字認識手段と、
前記文字認識手段により文字認識された前記第一の画像データの各ページの文字列と前記第二の画像データの各ページの文字列とを、ページ毎に比較し、互いの類似度を判断する類似判断手段と、
前記類似判断手段の判断結果に基づいて、前記第一の画像データの少なくとも一部のページを前記第二の画像データの少なくとも一部のページで置換する置換手段と、
を備えることを特徴とする。
また、上記課題を解決するための別の本発明は、複数ページからなる第一の画像データの少なくとも一部のページを、複数ページからなる第二の画像データの少なくとも一部のページで置換する画像処理方法であって、
前記第一の画像データと前記第二の画像データとを格納する格納工程と、
前記第一の画像データの文字画像と前記第二の画像データの文字画像とを抽出する抽出工程と、
前記抽出工程により抽出された文字画像に含まれる文字列をページごとに文字認識する文字認識工程と、
前記文字認識工程により文字認識された前記第一の画像データの各ページの文字列と前記第二の画像データの各ページの文字列とを、ページ毎に比較し、互いの類似度を判断する類似判断工程と、
前記類似判断工程の判断結果に基づいて、前記第一の画像データの少なくとも一部のページを前記第二の画像データの少なくとも一部のページで置換する置換工程と、
を有することを特徴とする
本発明の画像処理装置によれば、置換用の画像に置換用の情報が含まれていなくても自動的にページごとに画像データの置換を行うことができ、オペレータの負荷を軽減させることができる。また、従来の類似画像の検索技術を応用して画像を比較して画像原稿の画像データの置換を行う場合に比べ、精度を向上させる効果がある。
以下、本発明の実施例について図面を参照して詳細に説明する。
なお、本明細書における画像には、特に区別するための記載がない限り文字なども含まれるものとする。
図1は、本発明の代表的な実施例である画像処理装置としてのパーソナルコンピュータ(PC)の概略構成を示す図である。
図1において、画像処理装置は、PC101にUSB等のインターフェース102で接続される読み取り装置103と入力装置104と出力装置105とが接続されて構成される。CPU106は中央演算処理部であり、データや命令に基づいて、演算、判断、制御し、一次記憶装置107に格納されたプログラムの実行などを行う。一次記憶装置107は主に一時的にデータを格納可能な不揮発性のRAMなどのメモリであり、二次記憶装置108に記憶されたプログラムなどをロードして格納する。二次記憶装置108は、例えばハードディスクなどがこれに該当する。本実施例では、プログラムを二次記憶装置108に格納しておき、プログラム実行時に一次記憶装置107にロードしてCPU106で実行する。
また、読み取り装置103は、例えばスキャナや、スキャナやプリンタやファクシミリといった機能を搭載した複合機などがこれに該当する。入力装置104は、ユーザの指示及び選択を受け付けるものであり、例えばマウス、キーボード、コントローラなどがこれに該当する。出力装置105は、例えばディスプレイなどがこれに該当する。
システムバス109は、CPU106と、一次記憶装置107及び二次記憶装置108との間で、命令やデータ転送をするための伝送経路を指す。
図2は、図1に示した画像処理装置における二次記憶装置108に格納された画像データ置換アプリケーションの機能構成図を示すブロック図である。
画像データ置換アプリケーション201において、置換対象画像データ指定手段202は、ユーザインタフェース203を介して指定された置換対象画像データを指定し、図1に示した一次記憶装置107からこの画像データを読み込む。なお、置換対象画像データとは、以前に読み込んだN枚のページ(複数ページ)からなる画像原稿の画像データ(第一の画像データ)を、新たに読み込んだM枚のページからなる画像原稿の画像データ(第二の画像データ)の少なくとも一部で置換する場合の、N枚のページからなる画像原稿の画像データを示すものである。具体的にはPDF(Portable Document Format)フォーマットで作成されたデータとする。PDFフォーマットとは、1ファイル中に複数のページを含むことができる文書フォーマットであり、各ページに含まれるオブジェクト毎に階層構造で表現可能な形態(形式)で構成されたフォーマットである。PDFフォーマットでは、画像データのオブジェクトの他に文字情報(文字位置、文字コード、フォントの情報等)のオブジェクトを別階層として持つことが可能である。また、置換用画像データとは、この場合のM枚のページからなる画像原稿の画像データを示すものであり、スキャンした複数枚の画像データやパソコンに保存されたPDFファイルとする。
領域識別手段206は、一次記憶装置107から読み込まれた置換対象画像データ及び置換用画像データのそれぞれから文字画像を抽出し、文字領域とそれ以外の領域とに分割する。文字認識処理手段207は、領域識別手段206によって文字領域と判定された領域の画像データに基づいて文字認識する。また、文字領域以外を比較する手段208は、領域識別手段206によって文字以外の領域と判定された領域の比較をする。
基準値入力手段209は、ユーザインタフェース203を介して、ユーザから類似度の基準値を取得する。設定値取得手段210は、基準値入力手段209から入力された基準値を取得し、管理手段211へ保存する。管理手段211は、設定値取得手段210により取得された基準値や、文字認識処理手段207により認識された文字列についてのデータを保存、管理する。
類似度算出手段212は、管理手段211に保存されている置換対象画像データの文字列と置換用画像データの文字列との比較を文字列の並びに従ってページごとに行い、ページごとに互いの類似度を算出する。基準値判定手段213は、類似度算出手段212で算出された類似度がユーザの設定した基準値を超えているかどうかを判定することで類似判断する。画像データ置換手段214は、基準値判定手段213における判定結果に従い、基準値を超えている場合には該当するページの画像データを置換した後、PDFフォーマットで、図3で指定されたファイル名および保存場所に保存する。
以上、本発明の実施例である画像処理装置の概略構成及びその画像処理装置における画像データ置換アプリケーションの機能構成について説明した。
図3は、画像データ置換アプリケーション201のユーザインタフェース203の表示画面の一例を示す模式図である。
置換対象画像データ設定項目301では、ユーザが置換対象にしたい画像データが格納されている場所が指定される。また、置換用画像データ設定項目302では、ユーザが置換用にしたい画像データの指定や追加が可能である。ボタン(不図示)の押下により読み取り装置103から読み取ったデータを置換用画像データとするか、二次記憶装置108から置換用画像データを読み出すかを指定することができる。そして、置換基準値設定項目303では、置換対象画像データを置換用画像データに置換する場合の類似度の基準値が設定される。この基準値となる類似度を超える置換対象画像データは、置換用画像データに置換される。こうして、置換対象画像データ設定項目301、置換用画像データ設定項目302、置換基準値設定項目303の設定により、置換後の画像データが決定される。
図4は、画像データ置換アプリケーション201の画像データ置換手段214の動作例を説明するための図である。
置換対象画像データ401の画像データC及びEが、それぞれ置換用画像データ402のF及びGと類似している判定されたとする。画像データ置換手段214により、ページ単位での画像データの置換が実行されると、置換後の画像データ403に示すように、置換対象画像データ401の画像データCが削除され、そのページに置換用画像データ402のFが挿入される。さらに、置換対象画像データ401の画像データEが削除され、そのページに置換用画像データ402のGが挿入される。
次に、上述した画像処理装置において実行される画像データ置換処理手順について説明する。
図5は、本実施例における画像データ置換処理を示すフローチャートである。本フローチャートの各ステップの処理は、特に断らない限り、PC101(図1)が画像データ置換アプリケーション201(図2)を実行することにより実現される(図6乃至図8も同様)。
最初に、ステップS105で、ユーザが置換したいページを含む置換対象画像データを指定する。次に、ステップS110で、文字認識処理手段207においてユーザが指定した置換対象画像データの文字認識をする。置換対象画像データが画像データ中に文字情報を持つPDFである場合は、文字認識処理を行わず、ファイルに含まれている文字情報を表すタグから文字抽出を行った結果を文字認識結果として利用する。次に、ステップS115で、ユーザにより指定された置換用画像データを読み込む。ここで、ハードディスクなどの不揮発性の記憶手段(格納手段)としての二次記憶装置108に既に保存されたPDFフォーマットの画像データだけでなく、スキャナや複合機等の読み取り装置103から読み込まれた画像データを置換用画像データとすることができる。その場合、スキャン後に置換用画像データとしてUI表示される。次に、ステップS116で置換用画像データが文字情報をもつPDFかどうか判断する。文字情報をもつPDFの場合には文字情報のタグから文字情報を抽出する。ステップS116で置換用画像データが文字情報をもつPDFでは無い場合には、ステップS120で、文字認識処理手段207において置換用画像データの全体より文字領域を抽出し、文字認識をする(ステップS120の処理はOCR処理とも呼ばれる)。
次に、ステップS175では、置換対象画像データの文字認識結果と、置換用画像データの各ページにおける文字情報タグまたは、文字領域から抽出され、認識された文字列をそれぞれ置換対象画像データの全ページにおける文字情報と比較する。そして、ページごとに類似度を算出する。本ステップS175における処理を図8を用いて具体的に説明する。
まず、ステップS801で置換対象画像データの比較対象ページ番号Nと置換用画像データの比較対象ページ番号Mを1に設定する。ステップS802で、置換対象画像データの1ページ目の文字情報と置換用画像データの1ページ目の文字情報とを比較して類似度を算出する。
この比較は、例えば、置換用画像データの文字列と置換対象画像データの文字列とを先頭の文字から順に1文字ずつ比較していき、各文字について一致か不一致かの一義的な判定を行う。また、類似度は、この判定結果を用いて、置換用画像データの比較対象ページに関し、置換対象画像データの比較対象ページに含まれる文字総数に対する一致する文字数の割合を算出することにより得られる。
次に、ステップS803では、S802で処理した置換用画像データのページが最終ページであるか否かを判断する。最終ページでなければステップS804で置換用画像データの比較対象ページを次ページに移す。そして、ステップS802に戻って置換対象画像データの1ページ目と置換用画像データの2ページ目について類似度を算出する。これを置換用画像データの最終ページが処理されるまで繰り返す。
置換用画像データの最終ページが処理されたとステップS803で判断された場合には、ステップS805で、S802で処理した置換対象画像データが最終ページであるか否かを判断する。最終ページでなければステップS806で置換対象画像データの処理対象ページを次ページに移し、置換用画像データの処理対象ページを1ページ目に戻す。そして、ステップS802に戻って、置換対象画像データの最終ページが処理されるまで同様の処理を繰り返す。その後、ステップS185に処理を移す。
ステップS185では、置換対象画像の各ページに対し、置換用画像データの各ページのうち類似度が最も高かったページをそれぞれ置換する。類似度が最も高いページを置換する理由は、置換用画像データは一般的に置換対象画像をもとに加筆修正を施したデータであるため、置換用画像データにおいて類似度が最も高いページが置換対象画像に対応する置換用画像である確率が高いからである。
そして、PDFフォーマットで、図3で指定されたファイル名および保存場所に保存して終了する。
また、画像データを置換するかどうかを確認するメッセージボックスを表示し、置換を実行する、または実行しないかを1ページ毎にユーザが選択することも可能である。
図6は、本実施例における画像データ置換処理を示すフローチャートである。
本実施例は、実施例1の処理方法に、類似度が基準値を超えたか否かを判断し、この判断結果に応じて画像データを置換するか追加するか判断する工程を追加した処理方法である。これは類似度の数値が全体的に低かった場合には、その中で類似度が最も高いページであっても置換対象画像のページに対応した置換用画像のページであるとは限らないからである。このため、ユーザが設定する基準値を用いた判定を追加することで、より正確な置換対象画像を特定することを目的とする。
ステップS105からステップS120、およびステップS175は、実施例1の図5で示した画像データ置換処理を示すフローチャートと共通するため説明を省略する。
ステップS125では、ユーザが図3で入力した置換するページと判定するための類似度の基準値を取得する。
ステップS180では、ステップS175でページごとに算出した類似度が最大となるページの類似度とステップS125で取得した(ユーザが入力した)類似度の基準値とを比較する。類似度が最大である(即ち、置換候補となった)ページの類似度が基準値を超えたページについては、ステップS185に進み、夫々のページの画像データを置換する。類似度が基準値以下であった置換用画像データのページについては、追加用画像データと見なす。そして、ステップS190で追加用画像データを置換対象画像画像データの最終ページに追加するかどうかを、メッセージボックスでユーザに問い合わせる。最終ページに追加することが選択されると、ステップS195で、追加用画像データは置換対象画像データの最終ページに追加され、最終ページに追加しないことが選択されると、そのまま処理は終了する。
なお、基準値以上の類似度であっても、類似度が最大でなかったため置換対象とならなかったページがあった場合には、基準値以下の置換用画像データのページの処理と同様に、最終ページに追加するかどうかユーザに確認させれば良い。このように基準値を設けて置換対象とするかを判断することで、より置換候補のページを正確に判定することができるようになった。
図7A−7Bは、本実施例における画像データ置換処理を示すフローチャートである。
本実施例は、主に、実施例2の処理方法に、文字領域が存在するか否かを判断する工程、文字領域が存在しないページについての画像データ置換処理工程、位置情報を利用した文字の抽出処理工程を追加した処理方法である。
ステップS175からステップS195は、実施例2の図6で示した画像データ置換処理を示すフローチャートと共通する。このため、これらのステップについての説明は省略する。
ステップS105で置換対象画像データを指定する。次に、S115で置換用画像データを指定して読み込む。
ステップS135では、ユーザが指定した置換用画像データについて、領域識別手段206によって文字領域と文字領域以外の画像領域とに分離する処理を行う。
そして、ステップS140で、ユーザが指定した置換用画像データについて、ページごとに文字領域が存在するかどうかを判定する。文字領域が存在しないと判断されたページは、ステップS145で、置換対象画像データの各ページの画像領域との画像比較を行う。画像比較は、画素毎に類似度を比較したり、画像のヒストグラムを用いるといった一般的な類似画像検索の手法を用いて行えば良い。ステップS145で類似画像が検出されると、ステップS150で類似ページが存在すると判断される。置換対象画像データのうち類似ページが存在すると判断されたページは、ステップS155で、置換用画像データの類似ページに置換される。ステップS150で類似ページが存在しないと判断された場合は、そのまま処理を終了する。
ステップS140で置換用画像データの文字領域が存在すると判断されたページは、ステップS156で置換用画像データが文字情報を持つPDFかどうかを判定する。置換用画像データが文字情報を持つPDFであった場合には、ステップS158で文字情報のタグを用い、文字領域の座標に存在する文字を文字認識結果とし、S165(図7B)に進む。ステップS156で文字情報を持たないPDFと判断された場合には、ステップS159で置換用画像データの文字領域を抽出する。次に、ステップS160で、文字認識処理手段207において、置換用画像データの文字領域における画像データの文字認識をする。図7Bに移り、次にステップS165では置換対象画像データが文字情報をもつPDFかどうか判断する。文字情報をもつPDFであった場合にはステップS166に進む。ステップS166では、ステップS158またはステップS160で置換用画像データの文字認識を行った領域に対応する置換対象画像データの領域の文字情報のタグから文字情報を抽出して文字認識結果とする。文字情報をもたないPDFの場合には、ステップS167に進む。ステップS167では、ステップS158またはステップS160で置換用画像データの文字認識を行った領域に対応する置換対象画像データの領域において文字認識を行う。ステップS175では置換対象画像データと置換用画像データそれぞれについて、文字認識結果を用いてページ毎に類似度を判定する(これ以降は実施例2と同様)。
本実施例では、置換用画像データの文字領域を抽出した位置情報を元に置換対象画像データの対応する領域について類似度を判定する。そのため、画像全体を比較する方法に比べて、短時間で類似度を判断することが可能となった。
このように、画像データのPDF情報を利用することで、PDFとスキャナで読み込んだ画像データという異なるフォーマットデータ上であっても類似度を判定できるようになった。また、双方の画像データを2値化データに変換する必要がないため、従来に比べて処理負荷を少なくすることができるようになった。また、1文字毎に文字情報を比較して類似度を判定するため、従来の画像の特徴を用いた比較に比べて高い信頼性で類似度を判定することができるようになった。
なお、コンピュータを上記の画像処理装置として機能させるためのプログラムも本発明に含まれる。
本発明の代表的な実施例である画像処理装置としてのパーソナルコンピュータ(PC)の概略構成を示す図である。 図1に示した画像処理装置における画像データ置換アプリケーションの機能構成図を示すブロック図である。 画像データ置換アプリケーションのユーザインタフェースの表示画面の一例を示す模式図である。 画像データ置換アプリケーションの画像データ置換手段の動作例を説明するための図である。 実施例1における画像データ置換処理を示すフローチャートである。 実施例2における画像データ置換処理を示すフローチャートである。 実施例3における画像データ置換処理を示すフローチャートである。 実施例3における画像データ置換処理を示すフローチャートである。 図5のステップS175の詳細を示すフローチャートである。
符号の説明
106 CPU
107 一次記憶装置
206 領域識別手段
207 文字認識処理手段
212 類似度算出手段
213 基準値判定手段
214 画像データ置換手段

Claims (12)

  1. 複数ページからなる第一の画像データの少なくとも一部のページを、複数ページからなる第二の画像データの少なくとも一部のページで置換する画像処理装置であって、
    前記第一の画像データと前記第二の画像データとを格納する格納手段と、
    前記第一の画像データの文字画像と前記第二の画像データの文字画像とを抽出する抽出手段と、
    前記抽出手段により抽出された文字画像に含まれる文字列をページごとに文字認識する文字認識手段と、
    前記文字認識手段により文字認識された前記第一の画像データの各ページの文字列と前記第二の画像データの各ページの文字列とを、ページ毎に比較し、互いの類似度を判断する類似判断手段と、
    前記類似判断手段の判断結果に基づいて、前記第一の画像データの少なくとも一部のページを前記第二の画像データの少なくとも一部のページで置換する置換手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記類似判断手段は、前記第一の画像データと前記第二の画像データの各ページの文字列における一致する文字の割合により類似度を判断することを特徴とする請求項1に記載の画像処理装置。
  3. 前記置換手段は、前記割合が基準値を超えるページについて前記第一の画像データを置換することを特徴とする請求項2に記載の画像処理装置。
  4. 前記割合が前記基準値以下のページの画像データを前記第一の画像データに追加する追加手段をさらに備えることを特徴とする請求項3に記載の画像処理装置。
  5. 前記追加手段による追加をするか否かのユーザによる選択を受け付ける受け付け手段をさらに備えることを特徴とする請求項4に記載の画像処理装置。
  6. 前記基準値を設定する設定手段をさらに備えることを特徴とする請求項3乃至請求項5のいずれか1項に記載の画像処理装置。
  7. 画像原稿を読み取るスキャナをさらに備え、
    前記格納手段は、前記第一の画像データを格納する不揮発性の格納手段と、前記スキャナにより前記画像原稿を読み取ることにより得られた前記第二の画像データを一時的に格納する揮発性の格納手段とを有することを特徴とする請求項1乃至請求項6のいずれか1項に記載の画像処理装置。
  8. 前記第一の画像データは、オブジェクト毎に階層構造で構成され、前記階層構造の中に文字情報の階層を持つことが可能な形式であることを特徴とする請求項1乃至請求項7のいずれか1項に記載の画像処理装置。
  9. 前記文字認識手段は、前記第二の画像データに含まれる文字領域に対応する領域においてのみ、前記第一の画像データに関して文字認識することを特徴とする請求項8に記載の画像処理装置。
  10. 前記抽出手段は、画像データが持っている文字情報を利用し、前記第二の画像データに含まれる文字領域に対応する領域においてのみ、前記第一の画像データから文字抽出を行うことを特徴とする請求項8または請求項9に記載の画像処理装置。
  11. 複数ページからなる第一の画像データの少なくとも一部のページを、複数ページからなる第二の画像データの少なくとも一部のページで置換する画像処理方法であって、
    前記第一の画像データと前記第二の画像データとを格納する格納工程と、
    前記第一の画像データの文字画像と前記第二の画像データの文字画像とを抽出する抽出工程と、
    前記抽出工程により抽出された文字画像に含まれる文字列をページごとに文字認識する文字認識工程と、
    前記文字認識工程により文字認識された前記第一の画像データの各ページの文字列と前記第二の画像データの各ページの文字列とを、ページ毎に比較し、互いの類似度を判断する類似判断工程と、
    前記類似判断工程の判断結果に基づいて、前記第一の画像データの少なくとも一部のページを前記第二の画像データの少なくとも一部のページで置換する置換工程と、
    を有することを特徴とする画像処理方法。
  12. コンピュータを請求項1乃至請求項10のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2008266832A 2007-11-15 2008-10-15 画像処理装置及び画像処理方法 Pending JP2009140478A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008266832A JP2009140478A (ja) 2007-11-15 2008-10-15 画像処理装置及び画像処理方法
US12/270,732 US8073256B2 (en) 2007-11-15 2008-11-13 Image processing apparatus and method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007297198 2007-11-15
JP2008266832A JP2009140478A (ja) 2007-11-15 2008-10-15 画像処理装置及び画像処理方法

Publications (1)

Publication Number Publication Date
JP2009140478A true JP2009140478A (ja) 2009-06-25

Family

ID=40870973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008266832A Pending JP2009140478A (ja) 2007-11-15 2008-10-15 画像処理装置及び画像処理方法

Country Status (1)

Country Link
JP (1) JP2009140478A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107795A (ja) * 2009-11-13 2011-06-02 Hitachi Ltd 画像検索システム
JP2016024527A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及び自動ページ差し替え方法
JP2018125782A (ja) * 2017-02-03 2018-08-09 理想科学工業株式会社 画像処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330840A (ja) * 2005-05-23 2006-12-07 Mitsubishi Electric Corp 文書作成支援装置および文書作成支援プログラム
JP2007036406A (ja) * 2005-07-25 2007-02-08 Konica Minolta Business Technologies Inc 画像編集装置
JP2007243730A (ja) * 2006-03-09 2007-09-20 Canon Inc 画像処理装置およびその制御方法、および画像処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330840A (ja) * 2005-05-23 2006-12-07 Mitsubishi Electric Corp 文書作成支援装置および文書作成支援プログラム
JP2007036406A (ja) * 2005-07-25 2007-02-08 Konica Minolta Business Technologies Inc 画像編集装置
JP2007243730A (ja) * 2006-03-09 2007-09-20 Canon Inc 画像処理装置およびその制御方法、および画像処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107795A (ja) * 2009-11-13 2011-06-02 Hitachi Ltd 画像検索システム
JP2016024527A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及び自動ページ差し替え方法
US9569146B2 (en) 2014-07-17 2017-02-14 Fujifilm Corporation Information processor and automatic page replacement method
JP2018125782A (ja) * 2017-02-03 2018-08-09 理想科学工業株式会社 画像処理装置

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
US8320019B2 (en) Image processing apparatus, image processing method, and computer program thereof
US6885481B1 (en) System and method for automatically assigning a filename to a scanned document
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP5357612B2 (ja) 下線除去装置
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20060285748A1 (en) Document processing device
US8073256B2 (en) Image processing apparatus and method therefor
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US20070116363A1 (en) Image processing device, image processing method, and storage medium storing image processing program
US9614984B2 (en) Electronic document generation system and recording medium
US9524274B2 (en) Methods and systems for generation of document structures based on sequential constraints
JP2009140478A (ja) 画像処理装置及び画像処理方法
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2007041709A (ja) 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
US9483694B2 (en) Image text search and retrieval system
JP7172343B2 (ja) 文書検索用プログラム
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
JP2001034763A (ja) 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120801

A131 Notification of reasons for refusal

Effective date: 20120806

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20121004

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121022