JP2006251864A

JP2006251864A - ファイル管理方法及びその装置並びにファイル管理用プログラム

Info

Publication number: JP2006251864A
Application number: JP2005063562A
Authority: JP
Inventors: Maki Kohama; 真樹小濱
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2005-03-08
Filing date: 2005-03-08
Publication date: 2006-09-21

Abstract

【課題】文書をスキャナで読み取り電子化するときに文書のタイトルを自動的に抽出して該文書の画像データファイルに関連付ける。
【解決手段】文書をスキャナで読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し（ステップＳ２）、該画像部分を文字認識処理して文字列を生成し（ステップＳ２）、該文字列にタイトルの特徴がある場合（ステップＳ３）には該文字列をタイトルとして前記画像データのファイルに対応付け（ステップＳ４）ファイル管理する。
【選択図】図３

Description

本発明は、文書をスキャナ等の画像読取装置で読み取りファイル管理する方法等に係り、特に、文書中の任意箇所にある当該文書のタイトル等を自動的に抽出し当該文書の画像データと関連付けてファイル管理するファイル管理方法及びその装置並びにファイル管理用プログラムに関する。

紙等に印刷されている文書を電子化するためにスキャナで読み取り、その文書の画像データをファイルとしてパーソナルコンピュータ等で管理する場合、電子データである画像データに元の文書のタイトルやキーワードを関連付けて管理するのが便利である。

そこで、下記の特許文献１では、文書中のタイトルやキーワード等を予め枠で囲っておき、この文書をスキャナで読み取ったとき、枠内のタイトルやキーワード等をパーソナルコンピュータが文字認識し、文字認識結果の文字列と文書の画像データとを関連付けてファイル管理する様にしている。

また、下記の特許文献２では、文書中の特定箇所、例えば右下隅領域から読み取った画像データに対して文字認識処理を施し、その文字認識結果の文字列をその文書の画像データと関連付けてファイル管理する様にしている。

特開平５―２７４３６７号公報特開平７―９３３４８号公報

電子データとして管理する文書が１枚だけであれば、文書中のタイトル等を予め枠で囲ってからスキャナで読み取らせる操作はそれほど面倒なものではない。しかし、管理しようとする文書が何枚、何十枚にも及ぶときは、各文書毎にタイトル等を枠で囲む作業は面倒であり、時間の浪費にもなる。

また、文書中の特定箇所にその文書のタイトル等が記載されているという前提の文書であれば、一々、タイトル等を枠で囲む必要はないが、タイトルが特定箇所に記載されている文書の方が少なく、一般的には、文書のタイトル等の記載箇所は任意である。このため、一般の文書に対して画像データの特定箇所を文字認識した文字列を画像データと関連付けても、意味のある関連付けとはならない。

本発明の目的は、面倒な作業を必要とせずに、文書中の任意箇所にあるタイトル等を自動的に画像データから抽出して画像データと関連付けファイル管理するファイル管理方法及びその装置並びにファイル管理用プログラムを提供することにある。

本発明のファイル管理方法は、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理することを特徴とする。

本発明のファイル管理方法は、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理することを特徴とする。

本発明のファイル管理方法は、上記のタイトルと上記のページ数の両方を用いてファイル管理することを特徴とする。

本発明のファイル管理方法は、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとして管理することを特徴とする。

本発明のファイル管理装置は、文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理する管理手段とを備えることを特徴とする。

本発明のファイル管理装置は、文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理する管理手段を備えることを特徴とする。

本発明のファイル管理装置は、上記のタイトルと上記のページ数の両方を用いてファイル管理することを特徴とする。

本発明のファイル管理装置は、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとして管理することを特徴とする。

本発明のファイル管理用プログラムは、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けるステップとを備えることを特徴とする。

本発明のファイル管理用プログラムは、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けるステップとを備えことを特徴とする。

本発明のファイル管理用プログラムは、上記のタイトルと上記のページ数の両方を前記画像データのファイルに対応付けるステップを備えることを特徴とする。

本発明のファイル管理用プログラムは、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとするステップを備えることを特徴とする。

本発明によれば、文書のタイトルやページ数が自動的に抽出され該文書の画像データファイルに対応付けられるため、ファイル管理が容易となる。

以下、本発明の一実施形態について、図面を参照して説明する。

図１は、本発明の一実施形態に係るファイル管理装置の構成図である。このファイル管理装置は、文書を読み取って画像データにするスキャナ１と、スキャナから送られてきた画像データからタイトル等を抽出して文字認識し認識結果を画像データに関連付けてファイル管理する管理手段としてのパーソナルコンピュータ５とを備える。

スキャナ１にはオートシートフィーダ２が取り付けられており、一度に複数枚の文書３がオートシートフィーダ２にセットされたとき、文書３の各葉を一枚づつスキャナ１に送り画像データ化する様になっている。本実施形態のファイル管理装置では、複数枚の文書３は、ページ数が順番に重ねられている必要はなく、バラバラに重ねた状態でオートシートフィーダ２にセットすることができる。

図２は、図１に示すファイル管理装置の機能ブロック図である。パーソナルコンピュータ５のファイル管理用プログラムが起動されると、スキャナ１から送られてきた画像データは、読み取り画像保持部６によって一時保持され、一時保持された画像データに対して文字認識部７が後述するようにして文書タイトルが記載されている画像領域とページ数が記載されている画像領域とを探索して該画像領域の画像データに対して文字認識処理を施す。

この文字認識処理の結果を受け取ったページ数及びタイトル情報認識部８は、文字認識処理によって得られた文字列の中から、ページ数であると判断した文字列をページ数として、文書タイトルであると判断した文字列を文書タイトルとして、ページ数及びタイトル情報格納部９に格納する。そして、新規画像作成部１０は、格納部９の格納結果を参照してスキャナ１から送られてきた複数枚に及び画像データに対してソート処理等を施し、処理結果の画像データを新規画像格納部１１に格納する。

図３は、図１に示すファイル管理装置が実行するファイル管理用プログラムの処理手順を示すフローチャートである。先ず、文字認識部７は、スキャナ１から受け取った画像データのうち１枚目の画像データを画像保持部６から読み込み（ステップＳ１）、少なくとも３方が余白に囲まれた文字列の画像データ領域を抽出し、抽出した画像データに文字認識処理を施して文字列を生成する（ステップＳ２）。

図４（ａ）は、一般的な文書の第１頁を例示し、図４（ｂ）は、その第１７頁を例示する図である。図４（ａ）に示す様に、文書の最初に「タイトル」がある場合、そのタイトルの文字列２１は、紙面の上方２２、左方２３、右方２４の３方に広い空き代（余白）があるのが普通である。また、タイトル文字列２１の下方２５の余白も、文書本文２６の各行間の余白よりも広い場合が多い。

これに対し、文書本文２６の各行を構成する各行文字列は、左方２７と右方２８の２方にしか余白は存在しない。

また、文書にページ数が記載されている場合、このページ数２９も、タイトル同様に３方３１，３２，３３に余白がある。通常、ページ数は、フッタ情報とかヘッダ情報として印刷されるため、文書の最外周部分にあり、必ず３方が余白となっている場合が多い。

図４（ｂ）に示す文書では、タイトル文字列３５は、文書本文３６，３７間に存在する。しかし、タイトル文字列３５の文書本文３６との間の余白、文書本文３７との間の余白は、文書本文中の各行間の余白より広い場合が多い。このため、タイトル文字列３５は少なくとも３方が余白によって囲まれている。

そこで、本実施形態では、「タイトル」と「ページ数」とを文書から抽出するために、少なくとも３方が余白となっている文字列の画像部分をステップＳ２で抽出し文字認識処理を行う。どの程度の「余白」をステップＳ２における「余白」と判断するかは、文書の画像データを調べて決定するのが良い。

文書は文書本文の占める割合が多いのが普通であり、文書本文の画像が文書全体の画像のどこを占めているかの判断は容易である。そこで、文書本文の各行間の余白の距離の平均値を求め、この平均値を超える余白を、上方，下方の「余白」としてステップＳ２を実行するのが良い。右方，左方の余白は、タイトル文字列と文書本文とで同じ場合があるので、１文字程度の幅の余白を「余白」としてステップＳ２を実行する。

次に、ステップＳ３で、文字認識処理の結果である文字列が、タイトルの特徴を有するか否かを判定する。図４（ａ）（ｂ）の文書では、３方が余白に囲まれている文字列として、タイトル文字列２１，３５と、ページ数２９，３８の他に、文書本文２６，３６，３７の夫々の最初と最後の行の文字列が抽出されてしまう。そこで、タイトル文字列２１，３５を文書本文の文字列と分けるために、タイトルの特徴を用いて判断する。

タイトルの特徴としては、例えば、先頭に「第」の文字がある、文字列中に「章」とか「節」とかの特定キーワードを含む、「４」とか「（ａ）とかの数字や記号で始まる、文書本文の文字列に比較して線が太い、文書本文の文字列に比較して文字が大きい、文書本文の文字列のフォント種類と異なるフォントである、等が挙げられる。

これらの特徴のうち１つでも該当すれば、その文字列はタイトル文字列であると判定でき、ステップＳ４でその文字列をその文書のタイトル文字列としてファイル管理テーブル（図５参照）に登録する。尚、１枚の文書中に複数のタイトル文字列が検出された場合には、全ての文字列をタイトル文字列として登録しても良く、また、例えばその中の最短文字列だけをタイトル文字列として登録しても良い。タイトルの特徴を持つ文字列が検出されなかった場合には、その文書には「タイトル無し」を登録する（ステップＳ５）。

ステップＳ４，Ｓ５の後にはステップＳ６に進み、今度は、ステップＳ２で抽出された文字列が「ページ数」の特徴を有するか否かを判定する。ページ数の特徴としては、例えば、「ｐ１７」の様に「ｐ」で始まる数字である、「−５−」の様に「−」記号で挟まれている、「３／１５」の様に、２つの数字が「／」で分けられている、連続する数字が４文字以下（９９９９ページ以下）である、等が挙げられる。

これらの特徴のうちの１つでも該当すれば、その文字列をページ数文字列としてファイル管理テーブルに登録する（ステップＳ７）。尚、１枚の文書中に複数のページ数が検出された場合には、その中の１つの文字列だけを「ページ数」文字列として選択し登録する。その選択は、例えば、複数の文書で抽出された夫々の「ページ数」の文字列が文書中の同一箇所から抽出されている、同一の特徴を有する、最短の文字列である、等によって行う。「ページ数」の特徴を持つ文字列が検出されなかった場合には、その文書には「ページ数無し」を登録する（ステップＳ８）。

次のステップＳ９では、以上の処理を全文書で行ったか否かを判定し、全文書の処理が終了していない場合にはステップＳ１に戻り、スキャナ１が次に読み取った文書の処理を行う。

図５は、ファイル管理テーブルを例示する図である。図３の処理を実行することで、各文書の「タイトル」と「ページ数」とがこのファイル管理テーブルに登録される。ユーザは図１のパーソナルコンピュータ５の画面でこのファイル管理テーブルを調べ、書類束３としてオートシートフィーダ２に挿入した文書中に別の文書が入っていなかったか否かをファイル管理テーブルで確認することができる。

例えば、ファイル名「００２．ｐｄｆ」のタイトルから、この文書が別の文書であると判断できる。また、「ページ数無し」となっている文書がおかしいと判断することもできる。あるいは、図５には示していないが、「ページ数」を抽出した位置が他の文書と異なるときそれを登録欄に記入しておく処理ステップを図３の処理中に設けておけば、ユーザはその文書を注意して調べることができる。

ユーザは、ファイル管理テーブルを調べて、不要のファイルが存在した場合には、そのファイルをファイル管理テーブルから削除して当該文書の画像データも削除し、その後に、例えばソート処理を行い、必要な一連の文書の画像データを新規画像データとして１ファイルに纏め、ファイル管理テーブルと共に保存する。

尚、上述した説明で分かる通り、複数ページに渡るある文書Ａと、複数ページに渡る別の文書Ｂを混在させたままスキャナ１で画像を読み取った場合には、文書Ａと文書Ｂの夫々のページ数の記載箇所が異なったりページ数の特徴が異なっていれば、上述した実施形態を適用することで、文書Ａの画像データと文書Ｂの画像データとを別々に管理することができ、また、文書毎にソート処理することができることはいうまでもない。同様に、文書Ａと文書Ｂのタイトルの特徴が異なっていれば、タイトルでも文書Ａと文書Ｂとを分類することが可能である。

本発明に係るファイル管理方法等は、自動的に文書のタイトルを抽出して当該文書の画像データを特徴付けると共にページ数を抽出して複数文書の画像データをソート処理することができるため、多数の書類を電子化して保存するファイル管理方法及びその装置並びにファイル管理用プログラムとして有用である。

本発明の一実施形態に係るファイル管理装置の構成図である。図１に示すファイル管理装置の機能ブロック図である。図１に示すファイル管理装置が実行するファイル管理用プログラムの処理手順を示すフローチャートである。図１のファイル管理装置のスキャナが読み込む文書の一例を示す図である。図３の処理によって作成されるファイル管理テーブルを例示する図である。

符号の説明

１スキャナ（画像読取装置）
２オートシートフィーダ
３書類束
５パーソナルコンピュータ
７文字認識部
８ページ数及びタイトル情報認識部
９ページ数及びタイトル情報格納部

Claims

文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理することを特徴とするファイル管理方法。
文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理することを特徴とするファイル管理方法。
請求項１記載のタイトルと請求項２記載のページ数の両方を用いてファイル管理することを特徴とするファイル管理方法。
夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項１乃至請求項３のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとして管理することを特徴とするファイル管理方法。
文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理する管理手段とを備えることを特徴とするファイル管理装置。
文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理する管理手段を備えることを特徴とするファイル管理装置。
請求項４記載のタイトルと請求項４記載のページ数の両方を用いてファイル管理することを特徴とするファイル管理装置。
夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項１乃至請求項３のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとして管理することを特徴とするファイル管理装置。
文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けるステップとを備えることを特徴とするファイル管理用プログラム。
文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の４方向のうちの少なくとも３方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けるステップとを備えことを特徴とするファイル管理用プログラム。
請求項９記載のタイトルと請求項１０記載のページ数の両方を前記画像データのファイルに対応付けるステップを備えることを特徴とするファイル管理用プログラム。
夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項１乃至請求項３のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて１ファイルとするステップを備えることを特徴とするファイル管理用プログラム。