JP2006004050A - 画像処理装置、画像読み取り装置およびプログラム - Google Patents

画像処理装置、画像読み取り装置およびプログラム Download PDF

Info

Publication number
JP2006004050A
JP2006004050A JP2004177935A JP2004177935A JP2006004050A JP 2006004050 A JP2006004050 A JP 2006004050A JP 2004177935 A JP2004177935 A JP 2004177935A JP 2004177935 A JP2004177935 A JP 2004177935A JP 2006004050 A JP2006004050 A JP 2006004050A
Authority
JP
Japan
Prior art keywords
page
data
page number
headline
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004177935A
Other languages
English (en)
Inventor
Atsushi Ito
篤 伊藤
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Naoko Sato
直子 佐藤
Tsuguaki Ryu
紹明 劉
Hiroshi Masuichi
博 増市
Kiyoshi Tashiro
潔 田代
Kyosuke Ishikawa
恭輔 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004177935A priority Critical patent/JP2006004050A/ja
Publication of JP2006004050A publication Critical patent/JP2006004050A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】 電子化した文書の各ページに対し正確な見出しを付加する。
【解決手段】 本発明は、複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段とを有する画像処理装置を提供する。
【選択図】 図1

Description

本発明は、画像処理技術に関し、より詳細には、文書を電子化した画像データに対し、正確性の高い見出しを示す情報を付加する機能を有する画像処理装置、その画像処理装置を有する画像読み取り装置、およびこれらの機能を実現するプログラムに関する。
紙文書(原稿)をスキャナで読み取り(スキャンし)、画像データとして電子化して利用、あるいは保存するということが行われている。紙文書を電子化することの利点としては、文書の検索、ソート等の容易性が挙げられる。文書の検索・ソートの利便性をより向上させるためには、複数ページからなる文書のページ毎に、そのページに記載された内容を特定する情報、すなわちそのページの記載内容を簡潔に表した見出しを、そのページの画像データに対応付けて記憶することが望ましい。以下、説明の便宜上、ページに記載された内容を特定する情報を「見出し」といい、見出しを示すデータを「見出しデータ」という。なお、このような情報は、「しおり」、「タイトル」あるいは「インデックス」と呼ばれる場合もある。
実際、このように電子化された文書のデータを読み込み、あるページの画像と、その文書中の一部あるいは全部のページの見出しを同時に表示するソフトウェアが広く用いられている。このようにして電子化した文書を利用するにあたっては、画像データに付加される見出しは、精度の高いもの、すなわち文書に記載された内容を正確に反映したものであることが要求される。
電子化した文書の各ページに正確な見出しを付けるためには、使用者が文書の内容を目視確認しながら手動で見出しを付けていくことが望ましいが、大量に存在する電子化文書に1ページずつ手動で見出しを付ける作業は現実には実現不可能である。そのため、紙文書をスキャナで読み込む際に自動的に見出しを付加する技術が要求されている。
文書の内容を反映した見出しを電子化文書に付加するためには、文書をスキャンした画像データから見出しを自動抽出する必要がある。従来、画像データから見出しを抽出する技術としては、例えば、(1)画像データに対しレイアウト抽出を行い、(2)レイアウト抽出により抽出された領域のうち、所定の条件(例えば、その領域のサイズ、あるいはその領域の当該ページ内における位置に関する条件)を満たすものを見出しと認識し、(3)その領域に対し文字認識処理を行い、抽出された文字列を当該ページの見出しとする、という処理を、すべてのページに対して行っていた。しかし、このような処理は非常に煩雑であり、より簡便に見出しを抽出することのできる技術が求められていた。また、このようにして抽出された見出しは、必ずしもそのページに記載された内容を適切に表現するものではないという問題もあった。
各ページから正確な見出しを抽出する技術としては、例えば、定型の書式で記載された文書から、その文書のタイトルを抽出する技術がある(特許文献1参照)。
特開平7―93348号公報
しかし、特許文献1に記載の技術は、定型の書式により記載された文書の見出し(タイトル)を抽出するものであり、定形外の書式で記載された文書に対しては、見出し抽出を行うことができないという問題があった。したがって、定形外の書式で記載された文書に対しては、従来のように、レイアウト抽出、見出しの特定、文字認識といった処理を行わなくてはならないにもかかわらず、抽出される見出しは必ずしも適切なものが得られるとは限らないという問題があった。
本発明は上記の事情に鑑みてなされたものであり、複数ページからなる文書の画像データに対し、各ページに正確な見出しを付与することのできる画像処理装置および画像読み取り装置を提供することを目的とする。
上述の課題を解決するため、本発明は、複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段とを有する画像処理装置を提供する。
この画像処理装置によれば、複数ページから構成される文書の画像データに対し、各ページの画像データに対し正確性の高い見出しデータを付加することができる。
好ましい態様において、本発明に係る画像処理装置は、前記文書を構成する各ページに対応する画像データから、当該ページのページ番号に対応する数字を示す紙ページ番号データを抽出する紙ページ番号抽出手段と、前記文書の各ページの画像データが有する、当該データ化された文書中におけるページの並び順を示す識別番号を示す識別番号データと、前記紙ページ番号データとを比較することにより、前記ページ番号データの修正要否を判断するページ番号修正要否判断手段と、前記ページ番号修正判断手段により修正要と判断された場合に、前記紙ページ番号データに基づいて前記ページ番号データを修正するページ番号修正手段とをさらに有する。
この態様の画像処理装置によれば、各ページの画像データに付加されたページ番号データと、データ化された文書における並び順とを整合させることができる。
別の好ましい態様において、本発明に係る画像処理装置は、前記文書を構成する各ページに対応する画像データから、当該ページの見出しの候補を示す見出し候補データを抽出する見出し候補抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データおよび見出しデータのいずれか一方または双方に基づいて、前記見出しデータの修正要否を判断する見出し修正要否判断手段と、前記見出し修正要否判断手段により修正要と判断された場合に、前記見出し候補データに基づいて前記見出しデータを修正する見出し修正手段とをさらに有する。
この態様の画像処理装置によれば、目次ページから見出しを抽出できなかったページの画像データに対しても、見出しデータを付加することができる。
また、本発明は、紙文書を光学的に読み取り、その紙文書上に現された画像に対応する画像データを生成する画像読み取り手段と、前述のいずれかの態様の画像処理装置とを有する画像読み取り装置を提供する。
この画像読み取り装置によれば、読み取った紙文書に対し、各ページに対し正確な見出しが付加された画像データを得ることができる。
さらに本発明は、上述の処理をコンピュータ装置に実行させるプログラムを提供する。
本発明に係る画像処理装置および画像読み取り装置によれば、文書を電子化する際、正確性の高い見出しを示す見出しデータが付加された画像データを得ることができる。
以下、図面を参照して本発明の実施形態について説明する。第1実施形態においては、目次ページに記載された情報に基づいて画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。第2実施形態においては、目次ページから抽出したページ番号を、各ページから抽出した情報に基づいて必要に応じて修正した後に、画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。第3実施形態においては、目次ページから抽出した見出しデータを、各ページから抽出した情報に基づいて必要に応じて修正した後に、画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。
<第1実施形態>
図1は、本発明の第1実施形態に係る画像処理装置10の機能構成を示すブロック図である。レイアウト抽出部101は、画像データに対しレイアウト抽出処理を施し、原稿画像を複数の領域に分割する。目次ページ特定部102は、レイアウト抽出処理の結果に基づいて、目次が記載されたページを特定する。文字認識部103は、目次ページ特定部102により特定された目次ページに対し、文字認識処理を施し、画像データから文字列を抽出する。見出し抽出部104は、文字認識処理により抽出された文字列から、ページ番号と、そのページの見出しとを抽出する。見出しデータ付加部105は、見出し抽出部104により抽出されたページ番号により特定されるページの画像データに、そのページの見出しを示す情報を付加する。
図2は、画像処理装置10のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)201は、RAM(Random Access Memory)202を作業エリアとして、ROM(Read Only Memory)203あるいはHDD(Hard Disk Drive)204に記憶されたプログラムを読み出し、実行する。本実施形態においては、CPU201がHDD204に記憶されたスキャン処理プログラムを読み出して実行することにより、上述の機能構成における各構成要素に対応する機能が実現される。ディスプレイ205には、各種プログラムの実行画面等が表示される。画像処理装置10の使用者は、キーボード206あるいはマウス207を用いて、ディスプレイ205に表示された画面を参照して画像処理装置10に対し指示入力を行うことができる。また、画像処理装置10は、I/F208を介して外部の機器とデータのやり取りを行うことができる。以上の各要素は、バス209を介して相互にデータおよび信号のやりとりをすることができる。
図3は、本実施形態に係る画像読み取りシステム50の構成を示す図である。スキャナ70は、ADF(Automatic Document Feeder)71を有する画像読み取り装置である。ADF71は、トレイ72にセットされた複数枚の文書を1枚ずつ読み取り位置まで搬送する。スキャナ70は、1枚ずつ読み取った原稿の画像を示す画像データを生成し、画像処理装置10に出力する。画像処理装置10は、スキャナ70から出力された画像データに対し見出し付加処理(詳細は後述する)を施す。また、画像処理装置10は、画像データをHDD204あるいはCD−ROM等の記録媒体に記憶あるいは記録(保存)する機能を有する。画像処理装置10とスキャナ70とは、ケーブル60を介して相互にデータおよび信号のやりとりを行うことができる。
続いて、画像処理装置10の動作について説明する。図4は、本実施形態においてスキャン処理の対象となる文書1の構成を示す図である。図4に示されるように、文書1は、文書1−1〜1−5の5ページから構成される文書である。このうち、第1ページ(文書1−1)は、文書1の題名を表したページである。第3、第4、第5(文書1−3、1−4、1−5)は、それぞれ、文書1の実体的な内容である、背景、目的、実施を記載したものである。第2ページ(文書1−2)は、いわゆる目次ページであり、文書1の各ページのページ番号と、そのページの記載内容とを記載したページである。文書1−2〜1−5のヘッダには、各ページの記載内容を示す文字がヘッダとして記載されている。また、文書1のフッタには、ページ番号を示す数字が記載されている。
使用者は、画像処理装置10に対しスキャン処理プログラムの実行を指示する指示入力を行い、スキャン処理プログラムを実行させる。使用者は、文書1をADF71のトレイ72にセットし、画像処理装置10の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャン処理の開始が指示されると、ADF71は、文書1を1ページずつスキャナ70の読み取り位置まで搬送する。スキャナ70は原稿の画像を読み取り、対応する画像データを生成する。スキャナ70は、さらに、生成した画像データに、その画像データを識別する識別番号を付加し、内臓のメモリに記憶する。本実施形態においては、文書1は、文書1−1から順番に読み取られる。したがって、文書1−1の画像データには識別番号1が、以下、文書1−2〜1−5にはそれぞれ識別番号2〜5が付加される。すべてのページのスキャンが完了すると、スキャナ70は、生成した画像データを画像処理装置10に出力する。
図5は、画像処理装置10の動作を示すフローチャートである。画像データを受信した画像処理装置10のCPU201は、まず識別番号1の画像データを対象として、周知のレイアウト抽出処理を施す(ステップS101)。この処理は、図1の機能構成におけるレイアウト抽出部101に対応するものである。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてCPU201は、抽出した複数の領域のうち、ヘッダに対応するものを特定する(ステップS102)。具体的には、CPU201は、HDD204からヘッダを特定する条件を示すデータを読み出す。この条件は、例えば「面積がxx以上の領域を対象とする」、「対象領域のうち、最上段に位置するものをヘッダとする」というものである。
続いて、CPU201は、ヘッダと特定した領域の画像データに対し文字認識処理を施し、その領域に現された文字列を抽出する。前述の条件に従うと、識別番号1の文書1−1からは、「○×の研究」という文字列が抽出される。CPU201は、抽出した文字列が「目次」を示すものであるか判断する(ステップS103)。具体的には、CPU201は、HDD204から類語テーブルを読み出す。類語テーブルには、「目次」、「もくじ」、「content」、「index」、「コンテンツ」等、そのページが目次であることを表す文字列が複数記録されている。CPU201は、抽出した文字列を検索キーとして類語テーブルを検索する。CPU201は、類語テーブル内に抽出した文字列と同一の文字列を発見した場合は、抽出した文字列が「目次」を示すものであると判断する(ステップS103:YES)。一方、CPU201は、類語テーブル内に抽出した文字列と同一の文字列を発見しない場合は、抽出した文字列が「目次」を示すものではないと判断する(ステップS103:NO)。本実施形態においては、抽出した文字列「○×の研究」と同一の文字列は類語テーブルには無いので、このページは目次ページではないと判断する(ステップS103:NO)。
対象ページが目次ページでない場合、CPU201は、対象ページを次のページへと変更する(ステップS104)。本実施形態においては、対象ページが識別番号1の文書1−1から、識別番号2の文書1−2へと変更される。そして、変更された対象ページの画像データに対し、ステップS101〜S103の処理が繰り返される。文書1−2の画像データに対しては、ヘッダとして、「目次」の文字列が抽出される。したがって、ステップS103において、CPU201は、類語テーブル内に、抽出した文字列と同一の文字列を発見するので、抽出した文字列が「目次」を示すものであると判断する(ステップS103:YES)。S102〜S103の処理は機能構成における目次ページ特定部102に対応する。
対象ページが目次ページである場合、CPU201は、そのページからページ番号と見出しとを抽出する(ステップS105)。具体的には、CPU201は、この目次ページの画像データに対し文字認識処理を施し、目次ページに記載された文字列を抽出する。CPU201は、抽出した文字列を、1行ごとの部分文字列に分割する。本実施形態においては、図4に示す文書1−2から、「目次」、「§1 背景 P3」、「§2 目的 P4」、「§3 実施 P5」、「2」という5つの部分文字列が抽出される。CPU201は、抽出した部分文字列に数字が含まれるか否か判断する。部分文字列に数字が含まれると判断した場合は、CPU201は、部分文字列に含まれる数字のうち、最も右側に位置するものを抽出する。例えば、「§1 背景 P3」という部分文字列からは、数字「3」が抽出される。また、例えば、「1−1−1 背景………35」という部分文字列からは、数字「35」が抽出される。CPU201は、得られた数字をページ番号としてRAM202に記憶する。なお、目次ページからページ番号を抽出する方法はこの方法に限られるものではなく、ページ数を表す文字列をページ番号として抽出してもよく、また上記抽出方法と組み合わせてもよい。ここでページ数を表す文字列とは、例えば、「P3」のようにアルファベットの「P」と数字の組み合わせにより表されるものである。
CPU201は続いて、数字が抽出された部分文字列から、抽出した数字以外の部分を抽出する。例えば、「§1 背景 P3」という部分文字列からは、「§1 背景 P」という文字列が、「1−1−1 背景………35」という部分文字列からは、「1−1−1 背景………」という文字列が抽出される。CPU201は、抽出した文字列に対して整形処理を施す。具体的には、CPU201は、HDD204から整形ルールファイルを読み出す。整形ルールファイルには、「 」、「………」といった削除対象文字列と、「削除対象文字列より右に位置する文字列を削除する」といったルールが記録されている。CPU201は、整形ルールファイルに記載されたルールに基づき抽出した文字列を整形する。例えば、「§1 背景 P」という文字列に対しては、削除対象文字列「 」より右に位置する文字列が削除され、「§1 背景」という文字列が得られる。CPU201は、得られた文字列を見出しとして、先ほど記憶したページ番号と対応付けてRAM202に記憶する。以上の処理は、機能構成における見出し抽出部104に対応するものである。なお、以上の処理のうち、文字列を整形する処理は省略する構成としてもよい。
CPU201は、すべての部分文字列に対して上述の処理を行う。すべての部分文字列について上述の処理が完了すると、RAM202には、図6に示す見出しテーブルTB1が記憶されている。CPU201は、見出しテーブルTB1の内容に基づいて、各ページの画像データに見出しデータを付加する(ステップS106)。具体的には、CPU201は、見出しテーブルTB1に記録されたページ番号と同一の識別番号を有する画像データを読み出し、読み出した画像データに対し見出しデータを付加する。この処理は、機能構成における見出し情報付加部105に対応するものである。なお、見出しデータは、画像処理装置10すなわちCPU201が処理可能な形式のデータとして画像データに付加されれば十分であるが、使用者が知覚的に認識可能な態様で画像データに付加されてもよい。すなわち、例えば、当該ページの画像のうちある部分に、見出しを視覚的に認識可能な画像として付加する形式でデータを付加してもよい。また、見出しを聴覚的に認識可能な音声データとして付加してもよい。
CPU201は、このようにして見出しデータを付加した画像データをHDD204等の記憶装置、あるいはCD−ROM等の記録媒体に記録する。記録に際しては、複数の画像データを複数のファイルとして記録してもよいし、複数の画像データをまとめて単一のファイルとして記録してもよい。見出しデータはデータとして付加されているので、周知の検索技術を用いれば、通常のコンピュータ装置により、文書の内容を容易に検索することができる。
なお、対象ページが目次ページであるか判断する手法は、上述の手法に限られない。例えば、対象ページに対し文字認識処理を施し、認識できた文字数における数字の割合が、あるしきい値以上であった場合に対象ページが目次ページであると判断する構成としてもよい。あるいは、「………」、「−」、「.」等、目次ページにおいて高い割合で存在すると考えられる文字の割合がしきい値以上であった場合に対象ページが目次ページであると判断する構成としてもよい。あるいは、文字認識処理で抽出した文字列の各行において、行頭あるいは行尾に数字が記載された行の割合がしきい値以上あるいは一定数以上連続した場合に、対象ページが目次ページであると判断する構成としてもよい。
また、以上の説明においては、ステップS103において、対象ページが目次ページであると判断された場合には、そのページからページ番号と見出しデータとを抽出し、画像データに見出しデータを付加する処理を行い、最終的にデータの保存を行ったが、見出しデータを付加した後、さらに次のページが目次ページであるか否かの判断を行う構成としてもよい。このような構成によれば、目次ページが複数ページにわたる場合でも、正確な見出しを抽出することができる。
また、見出し抽出部104は、同一のページ番号に対して複数の見出しが抽出されるような場合には、あらかじめ決められたルールに従ってそのうち一の見出しを選択する機能を有する構成としてもよい。具体的には、例えば、HDD204に「同一のページ番号に対して複数の見出しが抽出された場合には、見出しテーブルTB1において上位に記録されているものを見出しとして採用する」というルールを記載したファイルを記憶しておき、CPU201はこのルールに従って見出しテーブルTB1を参照して複数の見出しのうち1の見出しを当該ページの見出しとして採用する構成としてもよい。
本実施形態によれば、正確性の高い見出しデータが各ページの画像データに付加されるので、検索、ソートの利便性の高い画像データを生成することができる。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。本実施形態に係る画像処理装置20は、目次ページから取得したページ番号をそのまま使用するのではなく、各ページの画像データから抽出した情報と照合して、必要があればページ番号を修正する機能を有する。なお、以下の説明においては、画像処理装置20において、第1実施形態に係る画像処理装置10と同一の構成要素には同一の参照番号を付している。
図7は、本実施形態に係る画像処理装置20の機能構成を示すブロック図である。画像処理装置20は、第1実施形態に係る画像処理装置10の構成要素に加え、目次ページから抽出したページ番号の修正要否を判断する修正要否判断部107と、修正要と判断された場合にページ番号のデータに修正を施すページ番号修正部106を有する。画像処理装置20のハードウェア構成は、画像処理装置10と同一である(図2参照)。また、本実施形態に係る画像読み取りシステムは、図3に示す画像読み取りシステム50において、画像処理装置10を画像処理装置20に置換したものに相当する。
図8は、本実施形態においてスキャン処理の対象となる文書2の構成を示す図である。第1ページである文書2−1は文書2の目次ページであり、文書2−1には、文書2の実質的な内容を記載した第2〜第5ページである文書2−2〜2−5の内容とページ番号とが記載されている。第1実施形態における文書1と同様に、文書2のヘッダ部分には、各ページの見出しが、フッタ部分には、各ページのページ番号が記載されている。以下、説明の便宜上、紙文書に記載されたページ番号を「紙ページ番号」、電子化した文書において、当該ページの表示順を示すページ番号を「電子化ページ番号」という。文書2は、例えば科学技術雑誌に掲載された論文のコピーであり、第1ページのフッタに記載された紙ページ番号は「1」ではなく、「359」という半端な番号である。このような文書に対して、第1実施形態の画像処理装置10により見出しが付加されると、文書2−2の画像データには、電子化ページ番号として「359」が、見出しとして「1−1 背景」を示すデータが付加される。例えば、ページの画像と共にそのページの電子化ページ番号および見出しを表示する画像表示プログラムにおいては、文書2−2は、電子化された文書2においては第2ページであるにもかかわらず、電子化ページ番号として「359」が表示されてしまうこととなる。このような表示は、使用者の混乱を招くおそれがある。本実施形態に係る画像処理装置20は、このような課題を解決するものである。
図9は、画像処理装置20の動作を示すフローチャートである。使用者は、まず、スキャナ70のトレイ72に文書2をセットし、画像処理装置20の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャン処理の開始が指示されると、スキャナ70は、第1実施形態と同様に、文書2の画像データを生成し、画像処理装置20に出力する。
画像データを受信した画像処理装置20のCPU201は、まず識別番号1の画像データを対象として、周知のレイアウト抽出処理を施す(ステップS201)。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてCPU201は、抽出した複数の領域のうち、ヘッダおよびフッタに対応するものを特定する(ステップS202)。具体的には、CPU201は、HDD204からヘッダおよびフッタを特定する条件を示すデータを読み出す。この条件は、例えば「面積がxx以上の領域を対象とする」、「対象領域のうち、最上段に位置するものをヘッダとする」、「対象領域のうち、最下段に位置するものをフッタとする」というものである。
続いてCPU201は、対象ページの画像データから、紙ページ番号を抽出する(ステップS203)。具体的には、CPU201は、特定したヘッダおよびフッタの領域のいずれか一方または双方に対して文字認識処理を施し、認識された文字列から数字、すなわち紙ページ番号を抽出する。本実施形態においては、文書2−1から紙ページ番号「359」が抽出される。CPU201は、抽出した紙ページ番号と、その対象ページの識別番号とを対応付けて、紙ページ番号テーブルTB2としてRAM202に記憶する。図10は、紙ページ番号テーブルTB2を例示する図である。
次にCPU201は、第1実施形態と同様の方法により、対象ページが目次ページであるか否か判断する(ステップS204)。対象ページが目次ページでないと判断された場合(S204:NO)、CPU201は、処理を後述するステップS206へ進める。
対象ページが目次ページであると判断された場合(S204:YES)、CPU201は、第1実施形態と同様に、目次ページからページ番号および見出しを抽出する(ステップS205)。抽出されたページ番号は、電子化ページ番号として画像データに付加される予定のものである。本実施形態においては、文書2−1は目次ページであると判断され、CPU201は、文書2−1から図11に示すような電子化ページ番号と見出しとを対応付けた電子化ページ番号テーブルTB3を抽出する。
対象ページが目次ページではないと判断された場合、あるいは、前述のS205の処理が完了した場合、CPU201は、すべてのページに対して紙ページ番号の抽出処理が完了したか判断する(ステップS206)。完了していない場合は、S201〜S206の処理を繰り返し、すべてのページに対して紙ページ番号の抽出処理を行う。なお、既に目次ページが特定されている場合には、S204、S205をスキップする構成としてもよい。
すべてのページに対して紙ページ番号の抽出が完了すると、CPU201は、ページ番号の照合を行う(ステップS207)。具体的には、CPU201は、紙ページ番号テーブルTB2内のデータを読み出す。識別番号と紙ページ番号とが一致していない場合は、CPU201は、電子化ページ番号のデータを書き換える必要があると判断する(ステップS208:YES)。以上の処理は、機能構成における修正要否判断部107に対応するものである。データの書き換えが必要であると判断すると、CPU201は、紙ページ番号テーブルTB2を参照して電子化ページ番号テーブルTB3の電子化ページ番号の書き換えを行う(ステップS209)。具体的には、CPU201は、電子化ページ番号テーブルTB3の最上段の電子化ページ番号「360」を読み出し、紙ページ番号テーブルTB2から、読み出した電子化ページ番号と同一の紙ページ番号を検索する。本実施形態においては、CPU201は、紙ページ番号テーブルTB2の2行目に紙ページ番号「360」を発見する。CPU201は、紙ページ番号テーブルTB2から、発見した紙ページ番号に対応付けて記憶されている識別番号を読み出し、その値を電子化ページ番号として電子化ページ番号テーブルTB3を書き換える。CPU201は、このような書き換え処理を、電子化ページ番号テーブルTB3のすべての行について実行する。以上の処理は、機能構成におけるページ番号修正部106に対応するものである。
図12は、このようにして書き換えられた電子化ページ番号テーブルTB3(電子化ページ番号テーブルTB3’という)を示す図である。CPU201は、このようにして書き換えられた電子化ページ番号テーブルTB3’を参照して、第1実施形態と同様に文書2の画像データに見出しデータ付加処理を行う(ステップS210)。CPU201は、こうして処理した画像データを第1実施形態と同様にHDD204に記憶あるいはCD−ROMに記録する。
本実施形態によれば、画像処理装置20は、紙ページ番号を参照して電子化ページ番号および見出しを示すデータを画像データに付加するので、文書をページの後ろから逆順にスキャンした場合や、ページの順番がバラバラになった文書をスキャンした場合でも、適切な見出しデータを画像データに付加することができる。
<第3実施形態>
続いて、本発明の第3実施形態について説明する。本実施形態に係る画像処理装置30は、各ページの画像データから見出しを抽出し、抽出した見出しを参照して目次ページから抽出した見出しデータを修正する機能を有する。なお、以下の説明においては、画像処理装置20において、第1実施形態に係る画像処理装置10および第2実施形態に係る画像処理装置20と同一の構成要素には同一の参照番号を付している。
図13は、本実施形態に係る画像処理装置30の機能構成を示すブロック図である。画像処理装置30は、第1実施形態に係る画像処理装置10の構成要素に加え、目次ページから抽出したページ番号と見出しデータとが、妥当なものであるか判断する修正要否判断部107と、修正要否判断部107により妥当でないと判断された場合に見出しデータを修正する見出し修正部108とを有する。画像処理装置20のハードウェア構成は、画像処理装置10と同一である(図2参照)。また、本実施形態に係る画像読み取りシステムは、図3に示す画像読み取りシステム50において、画像処理装置10を画像処理装置30に置換したものに相当する。
図14は、本実施形態においてスキャン処理の対象となる文書3の構成を示す図である。第1ページである文書3−1は文書3のタイトルを記載したページであり、第2ページである文書3−2は、文書3の実質的な内容を記載した第3〜第11ページである文書3−3〜3−11の見出しとページ番号とが記載されている。第1実施形態における文書1と同様に、文書2のヘッダ部分には、各ページの見出しが、フッタ部分には、各ページのページ番号が記載されている。文書3においては、「§1 背景」および「§2 目的」はそれぞれ2ページにわたって、また、「§3 実験」は4ページにわたって記載されているため、目次ページである文書3−2に記載されている各見出しに対応するページ番号は、「3」、「5」、「7」、「11」と不連続な値となっている。このような文書に対して第1実施形態に係る画像処理装置10により見出しデータの付加を行うと、ページ番号「3」、「5」、「7」、「11」に対応するページの画像データにのみ見出しデータが付加され、それ以外のページの画像データには見出しデータが付加されないという問題がある。これは、使用者がすべてのページの画像データに対して見出しデータの付加を望んでいる場合には、使用者の要求を満足できるものではないという問題がある。本実施形態に係る画像処理装置30は、このような課題を解決するものである。
図15は、画像処理装置30の動作を示すフローチャートである。使用者は、まず、スキャナ70のトレイ72に文書3をセットし、画像処理装置30の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャナ70は、第1実施形態と同様に、文書3の画像データを生成し、画像処理装置30に出力する。
画像データを受信した画像処理装置30のCPU201は、まず識別番号1の画像データを対象として、周知のレイアウト抽出処理を施す(ステップS301)。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてCPU201は、第1実施形態と同様に、抽出した複数の領域のうち、ヘッダに対応するものを特定する(ステップS302)。さらにCPU201は、第1実施形態と同様に、対象ページが目次ページであるか否か判断する(ステップS303)。
対象ページが目次ページではないと判断された場合(S303:NO)、CPU201は、その対象ページから、見出しの抽出を行う(ステップS305)。具体的には、CPU201は、ステップS302でヘッダと特定された領域に対し文字認識処理を施し、文字列を抽出する。CPU201は、抽出した文字列をその対象ページの見出し候補として、その対象ページの識別番号と対応付けてテーブルTB4としてRAM202に記憶する。なお、ヘッダに相当する部分が特定されなかった場合は、対象ページ全体に文字認識処理を施し、抽出した文字列のうち先頭からあらかじめ決められた文字数の文字列をそのページの見出しとする等の手法により、見出し候補を抽出する構成としてもよい。
対象ページが目次ページであると判断された場合(S303:YES)は、CPU201は、第1実施形態と同様に、目次ページからページ番号と見出しとを抽出する(ステップS304)。見出し抽出処理により、第1実施形態における見出しテーブルTB1に相当するテーブルがRAM202に記憶される(本実施形態における見出しテーブルを、見出しテーブルTB1’という)。続いて、CPU201は、前述のステップS305の処理を行う。
ステップS305の処理に引き続き、CPU201は、文書3のすべてのページに対して処理が完了したか判断する(ステップS306)。まだすべてのページについて処理が完了していないと判断された場合(S306:NO)は、CPU201は、処理対象を次のページに変更してS301〜S306の処理を繰り返す。すべてのページについて処理が行われると、テーブルTB4には、すべてのページの識別番号と見出し候補とが対応付けて記録されている。図16は、文書3に対して上述の処理を行った場合のテーブルTB4の内容を示す図である。
すべてのページについて処理が完了した場合(S306:YES)、CPU201は、見出しデータに修正が必要であるか判断する(ステップS307)。具体的には、CPU201は、見出しテーブルTB1’のページ番号フィールドに記録されたデータと、テーブルTB4の識別番号フィールドに記録されたデータとを読み出し、両者のデータ数を比較する。両者のデータ数が一致する場合は、CPU201は、見出しデータの修正は必要ないと判断する(S307:NO)。見出しデータの修正が必要ない場合、CPU201は、第1実施形態と同様に見出しデータ付加処理(ステップS309)を行う。
両者のデータ数が一致しない場合は、CPU201は、見出しデータの修正が必要であると判断する(S307:YES)。この場合、CPU201は、見出しデータの修正を行う(ステップS308)。具体的には、CPU201は、見出しテーブルTB1’とテーブルTB4とを比較し、見出しテーブルTB1’において欠番となっている識別番号とその識別番号に対応する見出しとをテーブルTB4から抽出し、見出しテーブルTB1’へと付加する。以上の処理は、機能構成における見出し修正部108に対応するものである。CPU201は、見出しテーブルTB1’とテーブルTB4とのデータ数が一致するまでこの処理を繰り返し、一致した後でS309の見出しデータ付加処理を行う。
なお、修正要否の判断手法は、上述の方法に限られるものではない。例えば、見出しテーブルTB1’の見出しフィールドに記録されたデータと、テーブルTB4の識別番号フィールドに記録されたデータとを読み出し、両者のデータ数を比較する構成としてもよい。あるいは、例えば、見出しテーブルTB1’のページ番号フィールドに記録されたページ番号に不連続があるか否か判断し、不連続があった場合に修正要と判断する構成としてもよい。
本実施形態によれば、目次ページに見出しが記載されているページについては目次ページの記載に基づき正確な見出しデータが付加され、かつ、目次ページに見出しデータが記載されていないページに対してのみ、そのページから抽出した見出し候補が見出しデータとして画像データに付加されるので、すべてのページについて見出しデータを付加することができ、かつ、目次ページに見出しが記載されているページについては、正確な見出しを付加することができる。
また、図17に示すような、ページ内の想定領域(上記例ではヘッダ部分)外に見出しが存在する場合にも、目次ページから見出しデータを抽出することができ、正確な見出し抽出を行うことができる。
<変形例>
本発明は上述の各実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、画像処理装置の各機能構成要素が、CPU上で動作するソフトウェアにより実現される態様について説明したが、上述の各機能構成要素の一部または全部を、その機能構成要素に対応する処理機能を有するLSI等のハードウェアにより実現する構成としてもよい。
また、上述の各実施形態において、すべてのページに対して処理を行っても目次ページを発見できなかった場合には、各ページから抽出した見出しデータを用いて各ページの画像データに見出しデータを付加する構成としてもよい。
また、上述の各実施形態においては、目次ページの検索を識別番号の小さい(若い)画像データから順に行ったが、検索順はこれに限られるものではない。例えば、識別番号の大きい画像データから逆順に検索してもよい。あるいは、識別番号の小さいものから所定の枚数、大きいものから所定の枚数など、検索対象を絞り込む情報をHDD204あるいはRAM202に記憶しておき、絞り込まれた検索対象から目次ページを検索する構成としてもよい。
また、第3実施形態において、各ページの画像データから、そのページの見出しを抽出する方法は、レイアウト抽出によりヘッダを特定し、ヘッダに記載された文字列を見出しとする方法に限られない。例えば、対象ページにレイアウト抽出処理を施し、独立したレイアウトとみなされた領域から文字列を抽出し、そのページの見出しとする構成としてもよい。
また、第3実施形態において、見出しデータを修正する方法は、上述の方法に限られない。例えば、見出しデータが欠落しているページ番号に対しては、欠落しているページ番号より若いページ番号であって、対応する見出しデータが存在するものの見出しデータをコピーして、その欠落している見出しデータとする構成としてもよい。すなわち、図14に示す文書3に対しては、第3〜第4ページには「§1 背景」が、第5〜第6ページには「§2 目的」、第7〜第10ページには「§3 実験」が、それぞれ見出しとして割り当てられることとなる。
また、上述の第2実施形態に係るページ番号修正部106と、第3実施形態に係る修正要否判断部107および見出し修正部108を共に有し、ページ番号データおよび見出しデータの双方を修正可能な構成としてもよい。
また、以上で説明した画像処理装置をスキャナ等の画像読み取り装置に組み込み、読み取った画像データに対して上述の見出し付加処理を施す画像読み取り装置を構成してもよい。
本発明の第1実施形態に係る画像処理装置10の機能構成を示すブロック図である。 同実施形態に係る画像処理装置10のハードウェア構成を示すブロック図である。 同実施形態に係る画像読み取りシステム50の構成を示す図である。 同実施形態においてスキャン処理の対象となる文書1の構成を示す図である。 画像処理装置10の動作を示すフローチャートである。 見出しテーブルTB1を例示する図である。 第2実施形態に係る画像処理装置20の機能構成を示すブロック図である。 同実施形態においてスキャン処理の対象となる文書2の構成を示す図である。 画像処理装置20の動作を示すフローチャートである。 紙ページ番号テーブルTB2を例示する図である。 電子化ページ番号テーブルTB3を例示する図である。 電子化ページ番号テーブルTB3’を示す図である。 第3実施形態に係る画像処理装置30の機能構成を示すブロック図である。 同実施形態においてスキャン処理の対象となる文書3の構成を示す図である。 画像処理装置30の動作を示すフローチャートである。 テーブルTB4を例示する図である。 見出しが付加されるページを例示する図である。
符号の説明
1、2、3…文書、10、20、30…画像処理装置、50…画像読み取りシステム、70…スキャナ、71…ADF、72…トレイ、101…レイアウト抽出部、102…目次ページ特定部、103…文字認識部、104…見出し抽出部、105…見出し情報付加部、106…ページ番号修正部、107…修正要否判断部、108…見出し修正部、201…CPU、202…RAM、203…ROM、204…HDD、205…ディスプレイ、206…キーボード、207…マウス、208…I/F、209…バス

Claims (5)

  1. 複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、
    前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、
    前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段と
    を有する画像処理装置。
  2. 前記文書を構成する各ページに対応する画像データから、当該ページのページ番号に対応する数字を示すページ番号データを抽出するページ番号抽出手段と、
    前記文書の各ページの画像データが有する、当該データ化された文書中におけるページの並び順を示す識別番号を示す識別番号データと、前記ページ番号データとを比較することにより、前記ページ番号データの修正要否を判断するページ番号修正要否判断手段と、
    前記ページ番号修正判断手段により修正要と判断された場合に、前記ページ番号データに基づいて前記ページ番号データを修正するページ番号修正手段と
    をさらに有する請求項1に記載の画像処理装置。
  3. 前記文書を構成する各ページに対応する画像データから、当該ページの見出しの候補を示す見出し候補データを抽出する見出し候補抽出手段と、
    前記見出しデータ抽出手段により抽出されたページ番号データおよび見出しデータのいずれか一方または双方に基づいて、前記見出しデータの修正要否を判断する見出し修正要否判断手段と、
    前記見出し修正要否判断手段により修正要と判断された場合に、前記見出し候補データに基づいて前記見出しデータを修正する見出し修正手段と
    をさらに有する請求項1に記載の画像処理装置。
  4. 紙文書を光学的に読み取り、その紙文書上に現された画像に対応する画像データを生成する画像読み取り手段と、
    請求項1〜3のいずれかの項に記載の画像処理装置と
    を有する画像読み取り装置。
  5. コンピュータ装置に、
    複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定ステップと、
    前記目次ページ特定ステップにより特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出ステップと
    前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このこのページ番号データにより特定されるページの画像データに付加する情報付加ステップと
    を実行させるプログラム。
JP2004177935A 2004-06-16 2004-06-16 画像処理装置、画像読み取り装置およびプログラム Withdrawn JP2006004050A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004177935A JP2006004050A (ja) 2004-06-16 2004-06-16 画像処理装置、画像読み取り装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004177935A JP2006004050A (ja) 2004-06-16 2004-06-16 画像処理装置、画像読み取り装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2006004050A true JP2006004050A (ja) 2006-01-05

Family

ID=35772413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004177935A Withdrawn JP2006004050A (ja) 2004-06-16 2004-06-16 画像処理装置、画像読み取り装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2006004050A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013093040A (ja) * 2006-08-30 2013-05-16 Amazon Technologies Inc ドキュメントページの自動分類
US20130258419A1 (en) * 2012-03-30 2013-10-03 Kyocera Document Solutions Inc. Digitizing apparatus
JP2014164384A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US9778823B2 (en) 2014-01-09 2017-10-03 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and non-transitory computer readable medium

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013093040A (ja) * 2006-08-30 2013-05-16 Amazon Technologies Inc ドキュメントページの自動分類
US20130258419A1 (en) * 2012-03-30 2013-10-03 Kyocera Document Solutions Inc. Digitizing apparatus
JP2013210827A (ja) * 2012-03-30 2013-10-10 Kyocera Document Solutions Inc 電子化装置
US8934147B2 (en) 2012-03-30 2015-01-13 Kyocera Document Solutions Inc. Digitizing apparatus for generating portable data file by compiling image data of pages into single file, having page number conversion unit for converting page numbers into electronic document page numbers
CN103369173B (zh) * 2012-03-30 2015-11-18 京瓷办公信息系统株式会社 电子化装置
JP2014164384A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US9778823B2 (en) 2014-01-09 2017-10-03 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2009146064A (ja) 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2006085582A (ja) 文書処理装置およびプログラム
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
JP2009266009A (ja) 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
JP2008146295A (ja) 情報処理装置と情報処理方法とプログラムとコンピュータ読み取り可能な記録媒体
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2005267057A (ja) テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム
JP4823049B2 (ja) 文書画像検索装置及びプログラム
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP4480109B2 (ja) 画像管理装置および画像管理方法
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JP5298484B2 (ja) 文書処理装置
JP5121591B2 (ja) 画像処理装置、画像処理装置における画像処理方法、プログラムおよびプログラムを記憶したコンピュータ可読記憶媒体
JP3486168B2 (ja) 検索システム、ファイリングシステム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070517

A761 Written withdrawal of application

Effective date: 20090116

Free format text: JAPANESE INTERMEDIATE CODE: A761