JP2006004050A

JP2006004050A - 画像処理装置、画像読み取り装置およびプログラム

Info

Publication number: JP2006004050A
Application number: JP2004177935A
Authority: JP
Inventors: Atsushi Ito; 篤伊藤; Michihiro Tamune; 道弘田宗; Masatoshi Tagawa; 昌俊田川; Naoko Sato; 直子佐藤; Tsuguaki Ryu; 紹明劉; Hiroshi Masuichi; 博増市; Kiyoshi Tashiro; 潔田代; Kyosuke Ishikawa; 恭輔石川
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-06-16
Filing date: 2004-06-16
Publication date: 2006-01-05

Abstract

【課題】電子化した文書の各ページに対し正確な見出しを付加する。
【解決手段】本発明は、複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段とを有する画像処理装置を提供する。
【選択図】図１

Description

本発明は、画像処理技術に関し、より詳細には、文書を電子化した画像データに対し、正確性の高い見出しを示す情報を付加する機能を有する画像処理装置、その画像処理装置を有する画像読み取り装置、およびこれらの機能を実現するプログラムに関する。

紙文書（原稿）をスキャナで読み取り（スキャンし）、画像データとして電子化して利用、あるいは保存するということが行われている。紙文書を電子化することの利点としては、文書の検索、ソート等の容易性が挙げられる。文書の検索・ソートの利便性をより向上させるためには、複数ページからなる文書のページ毎に、そのページに記載された内容を特定する情報、すなわちそのページの記載内容を簡潔に表した見出しを、そのページの画像データに対応付けて記憶することが望ましい。以下、説明の便宜上、ページに記載された内容を特定する情報を「見出し」といい、見出しを示すデータを「見出しデータ」という。なお、このような情報は、「しおり」、「タイトル」あるいは「インデックス」と呼ばれる場合もある。

実際、このように電子化された文書のデータを読み込み、あるページの画像と、その文書中の一部あるいは全部のページの見出しを同時に表示するソフトウェアが広く用いられている。このようにして電子化した文書を利用するにあたっては、画像データに付加される見出しは、精度の高いもの、すなわち文書に記載された内容を正確に反映したものであることが要求される。

電子化した文書の各ページに正確な見出しを付けるためには、使用者が文書の内容を目視確認しながら手動で見出しを付けていくことが望ましいが、大量に存在する電子化文書に１ページずつ手動で見出しを付ける作業は現実には実現不可能である。そのため、紙文書をスキャナで読み込む際に自動的に見出しを付加する技術が要求されている。

文書の内容を反映した見出しを電子化文書に付加するためには、文書をスキャンした画像データから見出しを自動抽出する必要がある。従来、画像データから見出しを抽出する技術としては、例えば、（１）画像データに対しレイアウト抽出を行い、（２）レイアウト抽出により抽出された領域のうち、所定の条件（例えば、その領域のサイズ、あるいはその領域の当該ページ内における位置に関する条件）を満たすものを見出しと認識し、（３）その領域に対し文字認識処理を行い、抽出された文字列を当該ページの見出しとする、という処理を、すべてのページに対して行っていた。しかし、このような処理は非常に煩雑であり、より簡便に見出しを抽出することのできる技術が求められていた。また、このようにして抽出された見出しは、必ずしもそのページに記載された内容を適切に表現するものではないという問題もあった。

各ページから正確な見出しを抽出する技術としては、例えば、定型の書式で記載された文書から、その文書のタイトルを抽出する技術がある（特許文献１参照）。
特開平７―９３３４８号公報

しかし、特許文献１に記載の技術は、定型の書式により記載された文書の見出し（タイトル）を抽出するものであり、定形外の書式で記載された文書に対しては、見出し抽出を行うことができないという問題があった。したがって、定形外の書式で記載された文書に対しては、従来のように、レイアウト抽出、見出しの特定、文字認識といった処理を行わなくてはならないにもかかわらず、抽出される見出しは必ずしも適切なものが得られるとは限らないという問題があった。
本発明は上記の事情に鑑みてなされたものであり、複数ページからなる文書の画像データに対し、各ページに正確な見出しを付与することのできる画像処理装置および画像読み取り装置を提供することを目的とする。

上述の課題を解決するため、本発明は、複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段とを有する画像処理装置を提供する。
この画像処理装置によれば、複数ページから構成される文書の画像データに対し、各ページの画像データに対し正確性の高い見出しデータを付加することができる。

好ましい態様において、本発明に係る画像処理装置は、前記文書を構成する各ページに対応する画像データから、当該ページのページ番号に対応する数字を示す紙ページ番号データを抽出する紙ページ番号抽出手段と、前記文書の各ページの画像データが有する、当該データ化された文書中におけるページの並び順を示す識別番号を示す識別番号データと、前記紙ページ番号データとを比較することにより、前記ページ番号データの修正要否を判断するページ番号修正要否判断手段と、前記ページ番号修正判断手段により修正要と判断された場合に、前記紙ページ番号データに基づいて前記ページ番号データを修正するページ番号修正手段とをさらに有する。
この態様の画像処理装置によれば、各ページの画像データに付加されたページ番号データと、データ化された文書における並び順とを整合させることができる。

別の好ましい態様において、本発明に係る画像処理装置は、前記文書を構成する各ページに対応する画像データから、当該ページの見出しの候補を示す見出し候補データを抽出する見出し候補抽出手段と、前記見出しデータ抽出手段により抽出されたページ番号データおよび見出しデータのいずれか一方または双方に基づいて、前記見出しデータの修正要否を判断する見出し修正要否判断手段と、前記見出し修正要否判断手段により修正要と判断された場合に、前記見出し候補データに基づいて前記見出しデータを修正する見出し修正手段とをさらに有する。
この態様の画像処理装置によれば、目次ページから見出しを抽出できなかったページの画像データに対しても、見出しデータを付加することができる。

また、本発明は、紙文書を光学的に読み取り、その紙文書上に現された画像に対応する画像データを生成する画像読み取り手段と、前述のいずれかの態様の画像処理装置とを有する画像読み取り装置を提供する。
この画像読み取り装置によれば、読み取った紙文書に対し、各ページに対し正確な見出しが付加された画像データを得ることができる。
さらに本発明は、上述の処理をコンピュータ装置に実行させるプログラムを提供する。

本発明に係る画像処理装置および画像読み取り装置によれば、文書を電子化する際、正確性の高い見出しを示す見出しデータが付加された画像データを得ることができる。

以下、図面を参照して本発明の実施形態について説明する。第１実施形態においては、目次ページに記載された情報に基づいて画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。第２実施形態においては、目次ページから抽出したページ番号を、各ページから抽出した情報に基づいて必要に応じて修正した後に、画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。第３実施形態においては、目次ページから抽出した見出しデータを、各ページから抽出した情報に基づいて必要に応じて修正した後に、画像データに見出しデータおよびページ番号を示すデータを付加する態様について説明する。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る画像処理装置１０の機能構成を示すブロック図である。レイアウト抽出部１０１は、画像データに対しレイアウト抽出処理を施し、原稿画像を複数の領域に分割する。目次ページ特定部１０２は、レイアウト抽出処理の結果に基づいて、目次が記載されたページを特定する。文字認識部１０３は、目次ページ特定部１０２により特定された目次ページに対し、文字認識処理を施し、画像データから文字列を抽出する。見出し抽出部１０４は、文字認識処理により抽出された文字列から、ページ番号と、そのページの見出しとを抽出する。見出しデータ付加部１０５は、見出し抽出部１０４により抽出されたページ番号により特定されるページの画像データに、そのページの見出しを示す情報を付加する。

図２は、画像処理装置１０のハードウェア構成を示すブロック図である。ＣＰＵ（Central Processing Unit）２０１は、ＲＡＭ（Random Access Memory）２０２を作業エリアとして、ＲＯＭ（Read Only Memory）２０３あるいはＨＤＤ（Hard Disk Drive）２０４に記憶されたプログラムを読み出し、実行する。本実施形態においては、ＣＰＵ２０１がＨＤＤ２０４に記憶されたスキャン処理プログラムを読み出して実行することにより、上述の機能構成における各構成要素に対応する機能が実現される。ディスプレイ２０５には、各種プログラムの実行画面等が表示される。画像処理装置１０の使用者は、キーボード２０６あるいはマウス２０７を用いて、ディスプレイ２０５に表示された画面を参照して画像処理装置１０に対し指示入力を行うことができる。また、画像処理装置１０は、Ｉ／Ｆ２０８を介して外部の機器とデータのやり取りを行うことができる。以上の各要素は、バス２０９を介して相互にデータおよび信号のやりとりをすることができる。

図３は、本実施形態に係る画像読み取りシステム５０の構成を示す図である。スキャナ７０は、ＡＤＦ（Automatic Document Feeder）７１を有する画像読み取り装置である。ＡＤＦ７１は、トレイ７２にセットされた複数枚の文書を１枚ずつ読み取り位置まで搬送する。スキャナ７０は、１枚ずつ読み取った原稿の画像を示す画像データを生成し、画像処理装置１０に出力する。画像処理装置１０は、スキャナ７０から出力された画像データに対し見出し付加処理（詳細は後述する）を施す。また、画像処理装置１０は、画像データをＨＤＤ２０４あるいはＣＤ−ＲＯＭ等の記録媒体に記憶あるいは記録（保存）する機能を有する。画像処理装置１０とスキャナ７０とは、ケーブル６０を介して相互にデータおよび信号のやりとりを行うことができる。

続いて、画像処理装置１０の動作について説明する。図４は、本実施形態においてスキャン処理の対象となる文書１の構成を示す図である。図４に示されるように、文書１は、文書１−１〜１−５の５ページから構成される文書である。このうち、第１ページ（文書１−１）は、文書１の題名を表したページである。第３、第４、第５（文書１−３、１−４、１−５）は、それぞれ、文書１の実体的な内容である、背景、目的、実施を記載したものである。第２ページ（文書１−２）は、いわゆる目次ページであり、文書１の各ページのページ番号と、そのページの記載内容とを記載したページである。文書１−２〜１−５のヘッダには、各ページの記載内容を示す文字がヘッダとして記載されている。また、文書１のフッタには、ページ番号を示す数字が記載されている。

使用者は、画像処理装置１０に対しスキャン処理プログラムの実行を指示する指示入力を行い、スキャン処理プログラムを実行させる。使用者は、文書１をＡＤＦ７１のトレイ７２にセットし、画像処理装置１０の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャン処理の開始が指示されると、ＡＤＦ７１は、文書１を１ページずつスキャナ７０の読み取り位置まで搬送する。スキャナ７０は原稿の画像を読み取り、対応する画像データを生成する。スキャナ７０は、さらに、生成した画像データに、その画像データを識別する識別番号を付加し、内臓のメモリに記憶する。本実施形態においては、文書１は、文書１−１から順番に読み取られる。したがって、文書１−１の画像データには識別番号１が、以下、文書１−２〜１−５にはそれぞれ識別番号２〜５が付加される。すべてのページのスキャンが完了すると、スキャナ７０は、生成した画像データを画像処理装置１０に出力する。

図５は、画像処理装置１０の動作を示すフローチャートである。画像データを受信した画像処理装置１０のＣＰＵ２０１は、まず識別番号１の画像データを対象として、周知のレイアウト抽出処理を施す（ステップＳ１０１）。この処理は、図１の機能構成におけるレイアウト抽出部１０１に対応するものである。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてＣＰＵ２０１は、抽出した複数の領域のうち、ヘッダに対応するものを特定する（ステップＳ１０２）。具体的には、ＣＰＵ２０１は、ＨＤＤ２０４からヘッダを特定する条件を示すデータを読み出す。この条件は、例えば「面積がｘｘ以上の領域を対象とする」、「対象領域のうち、最上段に位置するものをヘッダとする」というものである。

続いて、ＣＰＵ２０１は、ヘッダと特定した領域の画像データに対し文字認識処理を施し、その領域に現された文字列を抽出する。前述の条件に従うと、識別番号１の文書１−１からは、「○×の研究」という文字列が抽出される。ＣＰＵ２０１は、抽出した文字列が「目次」を示すものであるか判断する（ステップＳ１０３）。具体的には、ＣＰＵ２０１は、ＨＤＤ２０４から類語テーブルを読み出す。類語テーブルには、「目次」、「もくじ」、「ｃｏｎｔｅｎｔ」、「ｉｎｄｅｘ」、「コンテンツ」等、そのページが目次であることを表す文字列が複数記録されている。ＣＰＵ２０１は、抽出した文字列を検索キーとして類語テーブルを検索する。ＣＰＵ２０１は、類語テーブル内に抽出した文字列と同一の文字列を発見した場合は、抽出した文字列が「目次」を示すものであると判断する（ステップＳ１０３：ＹＥＳ）。一方、ＣＰＵ２０１は、類語テーブル内に抽出した文字列と同一の文字列を発見しない場合は、抽出した文字列が「目次」を示すものではないと判断する（ステップＳ１０３：ＮＯ）。本実施形態においては、抽出した文字列「○×の研究」と同一の文字列は類語テーブルには無いので、このページは目次ページではないと判断する（ステップＳ１０３：ＮＯ）。

対象ページが目次ページでない場合、ＣＰＵ２０１は、対象ページを次のページへと変更する（ステップＳ１０４）。本実施形態においては、対象ページが識別番号１の文書１−１から、識別番号２の文書１−２へと変更される。そして、変更された対象ページの画像データに対し、ステップＳ１０１〜Ｓ１０３の処理が繰り返される。文書１−２の画像データに対しては、ヘッダとして、「目次」の文字列が抽出される。したがって、ステップＳ１０３において、ＣＰＵ２０１は、類語テーブル内に、抽出した文字列と同一の文字列を発見するので、抽出した文字列が「目次」を示すものであると判断する（ステップＳ１０３：ＹＥＳ）。Ｓ１０２〜Ｓ１０３の処理は機能構成における目次ページ特定部１０２に対応する。

対象ページが目次ページである場合、ＣＰＵ２０１は、そのページからページ番号と見出しとを抽出する（ステップＳ１０５）。具体的には、ＣＰＵ２０１は、この目次ページの画像データに対し文字認識処理を施し、目次ページに記載された文字列を抽出する。ＣＰＵ２０１は、抽出した文字列を、１行ごとの部分文字列に分割する。本実施形態においては、図４に示す文書１−２から、「目次」、「§１背景Ｐ３」、「§２目的Ｐ４」、「§３実施Ｐ５」、「２」という５つの部分文字列が抽出される。ＣＰＵ２０１は、抽出した部分文字列に数字が含まれるか否か判断する。部分文字列に数字が含まれると判断した場合は、ＣＰＵ２０１は、部分文字列に含まれる数字のうち、最も右側に位置するものを抽出する。例えば、「§１背景Ｐ３」という部分文字列からは、数字「３」が抽出される。また、例えば、「１−１−１背景………３５」という部分文字列からは、数字「３５」が抽出される。ＣＰＵ２０１は、得られた数字をページ番号としてＲＡＭ２０２に記憶する。なお、目次ページからページ番号を抽出する方法はこの方法に限られるものではなく、ページ数を表す文字列をページ番号として抽出してもよく、また上記抽出方法と組み合わせてもよい。ここでページ数を表す文字列とは、例えば、「Ｐ３」のようにアルファベットの「Ｐ」と数字の組み合わせにより表されるものである。

ＣＰＵ２０１は続いて、数字が抽出された部分文字列から、抽出した数字以外の部分を抽出する。例えば、「§１背景Ｐ３」という部分文字列からは、「§１背景Ｐ」という文字列が、「１−１−１背景………３５」という部分文字列からは、「１−１−１背景………」という文字列が抽出される。ＣＰＵ２０１は、抽出した文字列に対して整形処理を施す。具体的には、ＣＰＵ２０１は、ＨＤＤ２０４から整形ルールファイルを読み出す。整形ルールファイルには、「」、「………」といった削除対象文字列と、「削除対象文字列より右に位置する文字列を削除する」といったルールが記録されている。ＣＰＵ２０１は、整形ルールファイルに記載されたルールに基づき抽出した文字列を整形する。例えば、「§１背景Ｐ」という文字列に対しては、削除対象文字列「」より右に位置する文字列が削除され、「§１背景」という文字列が得られる。ＣＰＵ２０１は、得られた文字列を見出しとして、先ほど記憶したページ番号と対応付けてＲＡＭ２０２に記憶する。以上の処理は、機能構成における見出し抽出部１０４に対応するものである。なお、以上の処理のうち、文字列を整形する処理は省略する構成としてもよい。

ＣＰＵ２０１は、すべての部分文字列に対して上述の処理を行う。すべての部分文字列について上述の処理が完了すると、ＲＡＭ２０２には、図６に示す見出しテーブルＴＢ１が記憶されている。ＣＰＵ２０１は、見出しテーブルＴＢ１の内容に基づいて、各ページの画像データに見出しデータを付加する（ステップＳ１０６）。具体的には、ＣＰＵ２０１は、見出しテーブルＴＢ１に記録されたページ番号と同一の識別番号を有する画像データを読み出し、読み出した画像データに対し見出しデータを付加する。この処理は、機能構成における見出し情報付加部１０５に対応するものである。なお、見出しデータは、画像処理装置１０すなわちＣＰＵ２０１が処理可能な形式のデータとして画像データに付加されれば十分であるが、使用者が知覚的に認識可能な態様で画像データに付加されてもよい。すなわち、例えば、当該ページの画像のうちある部分に、見出しを視覚的に認識可能な画像として付加する形式でデータを付加してもよい。また、見出しを聴覚的に認識可能な音声データとして付加してもよい。

ＣＰＵ２０１は、このようにして見出しデータを付加した画像データをＨＤＤ２０４等の記憶装置、あるいはＣＤ−ＲＯＭ等の記録媒体に記録する。記録に際しては、複数の画像データを複数のファイルとして記録してもよいし、複数の画像データをまとめて単一のファイルとして記録してもよい。見出しデータはデータとして付加されているので、周知の検索技術を用いれば、通常のコンピュータ装置により、文書の内容を容易に検索することができる。

なお、対象ページが目次ページであるか判断する手法は、上述の手法に限られない。例えば、対象ページに対し文字認識処理を施し、認識できた文字数における数字の割合が、あるしきい値以上であった場合に対象ページが目次ページであると判断する構成としてもよい。あるいは、「………」、「−」、「．」等、目次ページにおいて高い割合で存在すると考えられる文字の割合がしきい値以上であった場合に対象ページが目次ページであると判断する構成としてもよい。あるいは、文字認識処理で抽出した文字列の各行において、行頭あるいは行尾に数字が記載された行の割合がしきい値以上あるいは一定数以上連続した場合に、対象ページが目次ページであると判断する構成としてもよい。

また、以上の説明においては、ステップＳ１０３において、対象ページが目次ページであると判断された場合には、そのページからページ番号と見出しデータとを抽出し、画像データに見出しデータを付加する処理を行い、最終的にデータの保存を行ったが、見出しデータを付加した後、さらに次のページが目次ページであるか否かの判断を行う構成としてもよい。このような構成によれば、目次ページが複数ページにわたる場合でも、正確な見出しを抽出することができる。

また、見出し抽出部１０４は、同一のページ番号に対して複数の見出しが抽出されるような場合には、あらかじめ決められたルールに従ってそのうち一の見出しを選択する機能を有する構成としてもよい。具体的には、例えば、ＨＤＤ２０４に「同一のページ番号に対して複数の見出しが抽出された場合には、見出しテーブルＴＢ１において上位に記録されているものを見出しとして採用する」というルールを記載したファイルを記憶しておき、ＣＰＵ２０１はこのルールに従って見出しテーブルＴＢ１を参照して複数の見出しのうち１の見出しを当該ページの見出しとして採用する構成としてもよい。

本実施形態によれば、正確性の高い見出しデータが各ページの画像データに付加されるので、検索、ソートの利便性の高い画像データを生成することができる。

＜第２実施形態＞
続いて、本発明の第２実施形態について説明する。本実施形態に係る画像処理装置２０は、目次ページから取得したページ番号をそのまま使用するのではなく、各ページの画像データから抽出した情報と照合して、必要があればページ番号を修正する機能を有する。なお、以下の説明においては、画像処理装置２０において、第１実施形態に係る画像処理装置１０と同一の構成要素には同一の参照番号を付している。

図７は、本実施形態に係る画像処理装置２０の機能構成を示すブロック図である。画像処理装置２０は、第１実施形態に係る画像処理装置１０の構成要素に加え、目次ページから抽出したページ番号の修正要否を判断する修正要否判断部１０７と、修正要と判断された場合にページ番号のデータに修正を施すページ番号修正部１０６を有する。画像処理装置２０のハードウェア構成は、画像処理装置１０と同一である（図２参照）。また、本実施形態に係る画像読み取りシステムは、図３に示す画像読み取りシステム５０において、画像処理装置１０を画像処理装置２０に置換したものに相当する。

図８は、本実施形態においてスキャン処理の対象となる文書２の構成を示す図である。第１ページである文書２−１は文書２の目次ページであり、文書２−１には、文書２の実質的な内容を記載した第２〜第５ページである文書２−２〜２−５の内容とページ番号とが記載されている。第１実施形態における文書１と同様に、文書２のヘッダ部分には、各ページの見出しが、フッタ部分には、各ページのページ番号が記載されている。以下、説明の便宜上、紙文書に記載されたページ番号を「紙ページ番号」、電子化した文書において、当該ページの表示順を示すページ番号を「電子化ページ番号」という。文書２は、例えば科学技術雑誌に掲載された論文のコピーであり、第１ページのフッタに記載された紙ページ番号は「１」ではなく、「３５９」という半端な番号である。このような文書に対して、第１実施形態の画像処理装置１０により見出しが付加されると、文書２−２の画像データには、電子化ページ番号として「３５９」が、見出しとして「１−１背景」を示すデータが付加される。例えば、ページの画像と共にそのページの電子化ページ番号および見出しを表示する画像表示プログラムにおいては、文書２−２は、電子化された文書２においては第２ページであるにもかかわらず、電子化ページ番号として「３５９」が表示されてしまうこととなる。このような表示は、使用者の混乱を招くおそれがある。本実施形態に係る画像処理装置２０は、このような課題を解決するものである。

図９は、画像処理装置２０の動作を示すフローチャートである。使用者は、まず、スキャナ７０のトレイ７２に文書２をセットし、画像処理装置２０の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャン処理の開始が指示されると、スキャナ７０は、第１実施形態と同様に、文書２の画像データを生成し、画像処理装置２０に出力する。

画像データを受信した画像処理装置２０のＣＰＵ２０１は、まず識別番号１の画像データを対象として、周知のレイアウト抽出処理を施す（ステップＳ２０１）。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてＣＰＵ２０１は、抽出した複数の領域のうち、ヘッダおよびフッタに対応するものを特定する（ステップＳ２０２）。具体的には、ＣＰＵ２０１は、ＨＤＤ２０４からヘッダおよびフッタを特定する条件を示すデータを読み出す。この条件は、例えば「面積がｘｘ以上の領域を対象とする」、「対象領域のうち、最上段に位置するものをヘッダとする」、「対象領域のうち、最下段に位置するものをフッタとする」というものである。

続いてＣＰＵ２０１は、対象ページの画像データから、紙ページ番号を抽出する（ステップＳ２０３）。具体的には、ＣＰＵ２０１は、特定したヘッダおよびフッタの領域のいずれか一方または双方に対して文字認識処理を施し、認識された文字列から数字、すなわち紙ページ番号を抽出する。本実施形態においては、文書２−１から紙ページ番号「３５９」が抽出される。ＣＰＵ２０１は、抽出した紙ページ番号と、その対象ページの識別番号とを対応付けて、紙ページ番号テーブルＴＢ２としてＲＡＭ２０２に記憶する。図１０は、紙ページ番号テーブルＴＢ２を例示する図である。

次にＣＰＵ２０１は、第１実施形態と同様の方法により、対象ページが目次ページであるか否か判断する（ステップＳ２０４）。対象ページが目次ページでないと判断された場合（Ｓ２０４：ＮＯ）、ＣＰＵ２０１は、処理を後述するステップＳ２０６へ進める。

対象ページが目次ページであると判断された場合（Ｓ２０４：ＹＥＳ）、ＣＰＵ２０１は、第１実施形態と同様に、目次ページからページ番号および見出しを抽出する（ステップＳ２０５）。抽出されたページ番号は、電子化ページ番号として画像データに付加される予定のものである。本実施形態においては、文書２−１は目次ページであると判断され、ＣＰＵ２０１は、文書２−１から図１１に示すような電子化ページ番号と見出しとを対応付けた電子化ページ番号テーブルＴＢ３を抽出する。

対象ページが目次ページではないと判断された場合、あるいは、前述のＳ２０５の処理が完了した場合、ＣＰＵ２０１は、すべてのページに対して紙ページ番号の抽出処理が完了したか判断する（ステップＳ２０６）。完了していない場合は、Ｓ２０１〜Ｓ２０６の処理を繰り返し、すべてのページに対して紙ページ番号の抽出処理を行う。なお、既に目次ページが特定されている場合には、Ｓ２０４、Ｓ２０５をスキップする構成としてもよい。

すべてのページに対して紙ページ番号の抽出が完了すると、ＣＰＵ２０１は、ページ番号の照合を行う（ステップＳ２０７）。具体的には、ＣＰＵ２０１は、紙ページ番号テーブルＴＢ２内のデータを読み出す。識別番号と紙ページ番号とが一致していない場合は、ＣＰＵ２０１は、電子化ページ番号のデータを書き換える必要があると判断する（ステップＳ２０８：ＹＥＳ）。以上の処理は、機能構成における修正要否判断部１０７に対応するものである。データの書き換えが必要であると判断すると、ＣＰＵ２０１は、紙ページ番号テーブルＴＢ２を参照して電子化ページ番号テーブルＴＢ３の電子化ページ番号の書き換えを行う（ステップＳ２０９）。具体的には、ＣＰＵ２０１は、電子化ページ番号テーブルＴＢ３の最上段の電子化ページ番号「３６０」を読み出し、紙ページ番号テーブルＴＢ２から、読み出した電子化ページ番号と同一の紙ページ番号を検索する。本実施形態においては、ＣＰＵ２０１は、紙ページ番号テーブルＴＢ２の２行目に紙ページ番号「３６０」を発見する。ＣＰＵ２０１は、紙ページ番号テーブルＴＢ２から、発見した紙ページ番号に対応付けて記憶されている識別番号を読み出し、その値を電子化ページ番号として電子化ページ番号テーブルＴＢ３を書き換える。ＣＰＵ２０１は、このような書き換え処理を、電子化ページ番号テーブルＴＢ３のすべての行について実行する。以上の処理は、機能構成におけるページ番号修正部１０６に対応するものである。

図１２は、このようにして書き換えられた電子化ページ番号テーブルＴＢ３（電子化ページ番号テーブルＴＢ３’という）を示す図である。ＣＰＵ２０１は、このようにして書き換えられた電子化ページ番号テーブルＴＢ３’を参照して、第１実施形態と同様に文書２の画像データに見出しデータ付加処理を行う（ステップＳ２１０）。ＣＰＵ２０１は、こうして処理した画像データを第１実施形態と同様にＨＤＤ２０４に記憶あるいはＣＤ−ＲＯＭに記録する。

本実施形態によれば、画像処理装置２０は、紙ページ番号を参照して電子化ページ番号および見出しを示すデータを画像データに付加するので、文書をページの後ろから逆順にスキャンした場合や、ページの順番がバラバラになった文書をスキャンした場合でも、適切な見出しデータを画像データに付加することができる。

＜第３実施形態＞
続いて、本発明の第３実施形態について説明する。本実施形態に係る画像処理装置３０は、各ページの画像データから見出しを抽出し、抽出した見出しを参照して目次ページから抽出した見出しデータを修正する機能を有する。なお、以下の説明においては、画像処理装置２０において、第１実施形態に係る画像処理装置１０および第２実施形態に係る画像処理装置２０と同一の構成要素には同一の参照番号を付している。

図１３は、本実施形態に係る画像処理装置３０の機能構成を示すブロック図である。画像処理装置３０は、第１実施形態に係る画像処理装置１０の構成要素に加え、目次ページから抽出したページ番号と見出しデータとが、妥当なものであるか判断する修正要否判断部１０７と、修正要否判断部１０７により妥当でないと判断された場合に見出しデータを修正する見出し修正部１０８とを有する。画像処理装置２０のハードウェア構成は、画像処理装置１０と同一である（図２参照）。また、本実施形態に係る画像読み取りシステムは、図３に示す画像読み取りシステム５０において、画像処理装置１０を画像処理装置３０に置換したものに相当する。

図１４は、本実施形態においてスキャン処理の対象となる文書３の構成を示す図である。第１ページである文書３−１は文書３のタイトルを記載したページであり、第２ページである文書３−２は、文書３の実質的な内容を記載した第３〜第１１ページである文書３−３〜３−１１の見出しとページ番号とが記載されている。第１実施形態における文書１と同様に、文書２のヘッダ部分には、各ページの見出しが、フッタ部分には、各ページのページ番号が記載されている。文書３においては、「§１背景」および「§２目的」はそれぞれ２ページにわたって、また、「§３実験」は４ページにわたって記載されているため、目次ページである文書３−２に記載されている各見出しに対応するページ番号は、「３」、「５」、「７」、「１１」と不連続な値となっている。このような文書に対して第１実施形態に係る画像処理装置１０により見出しデータの付加を行うと、ページ番号「３」、「５」、「７」、「１１」に対応するページの画像データにのみ見出しデータが付加され、それ以外のページの画像データには見出しデータが付加されないという問題がある。これは、使用者がすべてのページの画像データに対して見出しデータの付加を望んでいる場合には、使用者の要求を満足できるものではないという問題がある。本実施形態に係る画像処理装置３０は、このような課題を解決するものである。

図１５は、画像処理装置３０の動作を示すフローチャートである。使用者は、まず、スキャナ７０のトレイ７２に文書３をセットし、画像処理装置３０の図示しないスタートボタンを押す等の方法によりスキャン処理の開始を指示する。スキャナ７０は、第１実施形態と同様に、文書３の画像データを生成し、画像処理装置３０に出力する。

画像データを受信した画像処理装置３０のＣＰＵ２０１は、まず識別番号１の画像データを対象として、周知のレイアウト抽出処理を施す（ステップＳ３０１）。レイアウト抽出処理により、画像データは複数の領域に区分される。続いてＣＰＵ２０１は、第１実施形態と同様に、抽出した複数の領域のうち、ヘッダに対応するものを特定する（ステップＳ３０２）。さらにＣＰＵ２０１は、第１実施形態と同様に、対象ページが目次ページであるか否か判断する（ステップＳ３０３）。

対象ページが目次ページではないと判断された場合（Ｓ３０３：ＮＯ）、ＣＰＵ２０１は、その対象ページから、見出しの抽出を行う（ステップＳ３０５）。具体的には、ＣＰＵ２０１は、ステップＳ３０２でヘッダと特定された領域に対し文字認識処理を施し、文字列を抽出する。ＣＰＵ２０１は、抽出した文字列をその対象ページの見出し候補として、その対象ページの識別番号と対応付けてテーブルＴＢ４としてＲＡＭ２０２に記憶する。なお、ヘッダに相当する部分が特定されなかった場合は、対象ページ全体に文字認識処理を施し、抽出した文字列のうち先頭からあらかじめ決められた文字数の文字列をそのページの見出しとする等の手法により、見出し候補を抽出する構成としてもよい。

対象ページが目次ページであると判断された場合（Ｓ３０３：ＹＥＳ）は、ＣＰＵ２０１は、第１実施形態と同様に、目次ページからページ番号と見出しとを抽出する（ステップＳ３０４）。見出し抽出処理により、第１実施形態における見出しテーブルＴＢ１に相当するテーブルがＲＡＭ２０２に記憶される（本実施形態における見出しテーブルを、見出しテーブルＴＢ１’という）。続いて、ＣＰＵ２０１は、前述のステップＳ３０５の処理を行う。

ステップＳ３０５の処理に引き続き、ＣＰＵ２０１は、文書３のすべてのページに対して処理が完了したか判断する（ステップＳ３０６）。まだすべてのページについて処理が完了していないと判断された場合（Ｓ３０６：ＮＯ）は、ＣＰＵ２０１は、処理対象を次のページに変更してＳ３０１〜Ｓ３０６の処理を繰り返す。すべてのページについて処理が行われると、テーブルＴＢ４には、すべてのページの識別番号と見出し候補とが対応付けて記録されている。図１６は、文書３に対して上述の処理を行った場合のテーブルＴＢ４の内容を示す図である。

すべてのページについて処理が完了した場合（Ｓ３０６：ＹＥＳ）、ＣＰＵ２０１は、見出しデータに修正が必要であるか判断する（ステップＳ３０７）。具体的には、ＣＰＵ２０１は、見出しテーブルＴＢ１’のページ番号フィールドに記録されたデータと、テーブルＴＢ４の識別番号フィールドに記録されたデータとを読み出し、両者のデータ数を比較する。両者のデータ数が一致する場合は、ＣＰＵ２０１は、見出しデータの修正は必要ないと判断する（Ｓ３０７：ＮＯ）。見出しデータの修正が必要ない場合、ＣＰＵ２０１は、第１実施形態と同様に見出しデータ付加処理（ステップＳ３０９）を行う。

両者のデータ数が一致しない場合は、ＣＰＵ２０１は、見出しデータの修正が必要であると判断する（Ｓ３０７：ＹＥＳ）。この場合、ＣＰＵ２０１は、見出しデータの修正を行う（ステップＳ３０８）。具体的には、ＣＰＵ２０１は、見出しテーブルＴＢ１’とテーブルＴＢ４とを比較し、見出しテーブルＴＢ１’において欠番となっている識別番号とその識別番号に対応する見出しとをテーブルＴＢ４から抽出し、見出しテーブルＴＢ１’へと付加する。以上の処理は、機能構成における見出し修正部１０８に対応するものである。ＣＰＵ２０１は、見出しテーブルＴＢ１’とテーブルＴＢ４とのデータ数が一致するまでこの処理を繰り返し、一致した後でＳ３０９の見出しデータ付加処理を行う。

なお、修正要否の判断手法は、上述の方法に限られるものではない。例えば、見出しテーブルＴＢ１’の見出しフィールドに記録されたデータと、テーブルＴＢ４の識別番号フィールドに記録されたデータとを読み出し、両者のデータ数を比較する構成としてもよい。あるいは、例えば、見出しテーブルＴＢ１’のページ番号フィールドに記録されたページ番号に不連続があるか否か判断し、不連続があった場合に修正要と判断する構成としてもよい。

本実施形態によれば、目次ページに見出しが記載されているページについては目次ページの記載に基づき正確な見出しデータが付加され、かつ、目次ページに見出しデータが記載されていないページに対してのみ、そのページから抽出した見出し候補が見出しデータとして画像データに付加されるので、すべてのページについて見出しデータを付加することができ、かつ、目次ページに見出しが記載されているページについては、正確な見出しを付加することができる。
また、図１７に示すような、ページ内の想定領域（上記例ではヘッダ部分）外に見出しが存在する場合にも、目次ページから見出しデータを抽出することができ、正確な見出し抽出を行うことができる。

＜変形例＞
本発明は上述の各実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、画像処理装置の各機能構成要素が、ＣＰＵ上で動作するソフトウェアにより実現される態様について説明したが、上述の各機能構成要素の一部または全部を、その機能構成要素に対応する処理機能を有するＬＳＩ等のハードウェアにより実現する構成としてもよい。

また、上述の各実施形態において、すべてのページに対して処理を行っても目次ページを発見できなかった場合には、各ページから抽出した見出しデータを用いて各ページの画像データに見出しデータを付加する構成としてもよい。

また、上述の各実施形態においては、目次ページの検索を識別番号の小さい（若い）画像データから順に行ったが、検索順はこれに限られるものではない。例えば、識別番号の大きい画像データから逆順に検索してもよい。あるいは、識別番号の小さいものから所定の枚数、大きいものから所定の枚数など、検索対象を絞り込む情報をＨＤＤ２０４あるいはＲＡＭ２０２に記憶しておき、絞り込まれた検索対象から目次ページを検索する構成としてもよい。

また、第３実施形態において、各ページの画像データから、そのページの見出しを抽出する方法は、レイアウト抽出によりヘッダを特定し、ヘッダに記載された文字列を見出しとする方法に限られない。例えば、対象ページにレイアウト抽出処理を施し、独立したレイアウトとみなされた領域から文字列を抽出し、そのページの見出しとする構成としてもよい。

また、第３実施形態において、見出しデータを修正する方法は、上述の方法に限られない。例えば、見出しデータが欠落しているページ番号に対しては、欠落しているページ番号より若いページ番号であって、対応する見出しデータが存在するものの見出しデータをコピーして、その欠落している見出しデータとする構成としてもよい。すなわち、図１４に示す文書３に対しては、第３〜第４ページには「§１背景」が、第５〜第６ページには「§２目的」、第７〜第１０ページには「§３実験」が、それぞれ見出しとして割り当てられることとなる。

また、上述の第２実施形態に係るページ番号修正部１０６と、第３実施形態に係る修正要否判断部１０７および見出し修正部１０８を共に有し、ページ番号データおよび見出しデータの双方を修正可能な構成としてもよい。

また、以上で説明した画像処理装置をスキャナ等の画像読み取り装置に組み込み、読み取った画像データに対して上述の見出し付加処理を施す画像読み取り装置を構成してもよい。

本発明の第１実施形態に係る画像処理装置１０の機能構成を示すブロック図である。同実施形態に係る画像処理装置１０のハードウェア構成を示すブロック図である。同実施形態に係る画像読み取りシステム５０の構成を示す図である。同実施形態においてスキャン処理の対象となる文書１の構成を示す図である。画像処理装置１０の動作を示すフローチャートである。見出しテーブルＴＢ１を例示する図である。第２実施形態に係る画像処理装置２０の機能構成を示すブロック図である。同実施形態においてスキャン処理の対象となる文書２の構成を示す図である。画像処理装置２０の動作を示すフローチャートである。紙ページ番号テーブルＴＢ２を例示する図である。電子化ページ番号テーブルＴＢ３を例示する図である。電子化ページ番号テーブルＴＢ３’を示す図である。第３実施形態に係る画像処理装置３０の機能構成を示すブロック図である。同実施形態においてスキャン処理の対象となる文書３の構成を示す図である。画像処理装置３０の動作を示すフローチャートである。テーブルＴＢ４を例示する図である。見出しが付加されるページを例示する図である。

符号の説明

１、２、３…文書、１０、２０、３０…画像処理装置、５０…画像読み取りシステム、７０…スキャナ、７１…ＡＤＦ、７２…トレイ、１０１…レイアウト抽出部、１０２…目次ページ特定部、１０３…文字認識部、１０４…見出し抽出部、１０５…見出し情報付加部、１０６…ページ番号修正部、１０７…修正要否判断部、１０８…見出し修正部、２０１…ＣＰＵ、２０２…ＲＡＭ、２０３…ＲＯＭ、２０４…ＨＤＤ、２０５…ディスプレイ、２０６…キーボード、２０７…マウス、２０８…Ｉ／Ｆ、２０９…バス

Claims

複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定手段と、
前記目次ページ特定手段により特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出手段と、
前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このページ番号データにより特定されるページの画像データに付加する見出しデータ付加手段と
を有する画像処理装置。
前記文書を構成する各ページに対応する画像データから、当該ページのページ番号に対応する数字を示すページ番号データを抽出するページ番号抽出手段と、
前記文書の各ページの画像データが有する、当該データ化された文書中におけるページの並び順を示す識別番号を示す識別番号データと、前記ページ番号データとを比較することにより、前記ページ番号データの修正要否を判断するページ番号修正要否判断手段と、
前記ページ番号修正判断手段により修正要と判断された場合に、前記ページ番号データに基づいて前記ページ番号データを修正するページ番号修正手段と
をさらに有する請求項１に記載の画像処理装置。
前記文書を構成する各ページに対応する画像データから、当該ページの見出しの候補を示す見出し候補データを抽出する見出し候補抽出手段と、
前記見出しデータ抽出手段により抽出されたページ番号データおよび見出しデータのいずれか一方または双方に基づいて、前記見出しデータの修正要否を判断する見出し修正要否判断手段と、
前記見出し修正要否判断手段により修正要と判断された場合に、前記見出し候補データに基づいて前記見出しデータを修正する見出し修正手段と
をさらに有する請求項１に記載の画像処理装置。
紙文書を光学的に読み取り、その紙文書上に現された画像に対応する画像データを生成する画像読み取り手段と、
請求項１〜３のいずれかの項に記載の画像処理装置と
を有する画像読み取り装置。
コンピュータ装置に、
複数ページから構成される文書の画像データのうち、目次ページに対応する画像データを特定する目次ページ特定ステップと、
前記目次ページ特定ステップにより特定された目次ページの画像データから、ページ番号を示すページ番号データと、このページ番号で特定されるページに記載された内容を特定する見出しを示す見出しデータとの対を抽出する見出しデータ抽出ステップと
前記見出しデータ抽出手段により抽出されたページ番号データと見出しデータとを、このこのページ番号データにより特定されるページの画像データに付加する情報付加ステップと
を実行させるプログラム。