JP2006251864A - ファイル管理方法及びその装置並びにファイル管理用プログラム - Google Patents
ファイル管理方法及びその装置並びにファイル管理用プログラム Download PDFInfo
- Publication number
- JP2006251864A JP2006251864A JP2005063562A JP2005063562A JP2006251864A JP 2006251864 A JP2006251864 A JP 2006251864A JP 2005063562 A JP2005063562 A JP 2005063562A JP 2005063562 A JP2005063562 A JP 2005063562A JP 2006251864 A JP2006251864 A JP 2006251864A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- character string
- file
- file management
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 文書をスキャナで読み取り電子化するときに文書のタイトルを自動的に抽出して該文書の画像データファイルに関連付ける。
【解決手段】 文書をスキャナで読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し(ステップS2)、該画像部分を文字認識処理して文字列を生成し(ステップS2)、該文字列にタイトルの特徴がある場合(ステップS3)には該文字列をタイトルとして前記画像データのファイルに対応付け(ステップS4)ファイル管理する。
【選択図】 図3
【解決手段】 文書をスキャナで読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し(ステップS2)、該画像部分を文字認識処理して文字列を生成し(ステップS2)、該文字列にタイトルの特徴がある場合(ステップS3)には該文字列をタイトルとして前記画像データのファイルに対応付け(ステップS4)ファイル管理する。
【選択図】 図3
Description
本発明は、文書をスキャナ等の画像読取装置で読み取りファイル管理する方法等に係り、特に、文書中の任意箇所にある当該文書のタイトル等を自動的に抽出し当該文書の画像データと関連付けてファイル管理するファイル管理方法及びその装置並びにファイル管理用プログラムに関する。
紙等に印刷されている文書を電子化するためにスキャナで読み取り、その文書の画像データをファイルとしてパーソナルコンピュータ等で管理する場合、電子データである画像データに元の文書のタイトルやキーワードを関連付けて管理するのが便利である。
そこで、下記の特許文献1では、文書中のタイトルやキーワード等を予め枠で囲っておき、この文書をスキャナで読み取ったとき、枠内のタイトルやキーワード等をパーソナルコンピュータが文字認識し、文字認識結果の文字列と文書の画像データとを関連付けてファイル管理する様にしている。
また、下記の特許文献2では、文書中の特定箇所、例えば右下隅領域から読み取った画像データに対して文字認識処理を施し、その文字認識結果の文字列をその文書の画像データと関連付けてファイル管理する様にしている。
電子データとして管理する文書が1枚だけであれば、文書中のタイトル等を予め枠で囲ってからスキャナで読み取らせる操作はそれほど面倒なものではない。しかし、管理しようとする文書が何枚、何十枚にも及ぶときは、各文書毎にタイトル等を枠で囲む作業は面倒であり、時間の浪費にもなる。
また、文書中の特定箇所にその文書のタイトル等が記載されているという前提の文書であれば、一々、タイトル等を枠で囲む必要はないが、タイトルが特定箇所に記載されている文書の方が少なく、一般的には、文書のタイトル等の記載箇所は任意である。このため、一般の文書に対して画像データの特定箇所を文字認識した文字列を画像データと関連付けても、意味のある関連付けとはならない。
本発明の目的は、面倒な作業を必要とせずに、文書中の任意箇所にあるタイトル等を自動的に画像データから抽出して画像データと関連付けファイル管理するファイル管理方法及びその装置並びにファイル管理用プログラムを提供することにある。
本発明のファイル管理方法は、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理することを特徴とする。
本発明のファイル管理方法は、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理することを特徴とする。
本発明のファイル管理方法は、上記のタイトルと上記のページ数の両方を用いてファイル管理することを特徴とする。
本発明のファイル管理方法は、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとして管理することを特徴とする。
本発明のファイル管理装置は、文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理する管理手段とを備えることを特徴とする。
本発明のファイル管理装置は、文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理する管理手段を備えることを特徴とする。
本発明のファイル管理装置は、上記のタイトルと上記のページ数の両方を用いてファイル管理することを特徴とする。
本発明のファイル管理装置は、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとして管理することを特徴とする。
本発明のファイル管理用プログラムは、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けるステップとを備えることを特徴とする。
本発明のファイル管理用プログラムは、文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けるステップとを備えことを特徴とする。
本発明のファイル管理用プログラムは、上記のタイトルと上記のページ数の両方を前記画像データのファイルに対応付けるステップを備えることを特徴とする。
本発明のファイル管理用プログラムは、夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ上記のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとするステップを備えることを特徴とする。
本発明によれば、文書のタイトルやページ数が自動的に抽出され該文書の画像データファイルに対応付けられるため、ファイル管理が容易となる。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本発明の一実施形態に係るファイル管理装置の構成図である。このファイル管理装置は、文書を読み取って画像データにするスキャナ1と、スキャナから送られてきた画像データからタイトル等を抽出して文字認識し認識結果を画像データに関連付けてファイル管理する管理手段としてのパーソナルコンピュータ5とを備える。
スキャナ1にはオートシートフィーダ2が取り付けられており、一度に複数枚の文書3がオートシートフィーダ2にセットされたとき、文書3の各葉を一枚づつスキャナ1に送り画像データ化する様になっている。本実施形態のファイル管理装置では、複数枚の文書3は、ページ数が順番に重ねられている必要はなく、バラバラに重ねた状態でオートシートフィーダ2にセットすることができる。
図2は、図1に示すファイル管理装置の機能ブロック図である。パーソナルコンピュータ5のファイル管理用プログラムが起動されると、スキャナ1から送られてきた画像データは、読み取り画像保持部6によって一時保持され、一時保持された画像データに対して文字認識部7が後述するようにして文書タイトルが記載されている画像領域とページ数が記載されている画像領域とを探索して該画像領域の画像データに対して文字認識処理を施す。
この文字認識処理の結果を受け取ったページ数及びタイトル情報認識部8は、文字認識処理によって得られた文字列の中から、ページ数であると判断した文字列をページ数として、文書タイトルであると判断した文字列を文書タイトルとして、ページ数及びタイトル情報格納部9に格納する。そして、新規画像作成部10は、格納部9の格納結果を参照してスキャナ1から送られてきた複数枚に及び画像データに対してソート処理等を施し、処理結果の画像データを新規画像格納部11に格納する。
図3は、図1に示すファイル管理装置が実行するファイル管理用プログラムの処理手順を示すフローチャートである。先ず、文字認識部7は、スキャナ1から受け取った画像データのうち1枚目の画像データを画像保持部6から読み込み(ステップS1)、少なくとも3方が余白に囲まれた文字列の画像データ領域を抽出し、抽出した画像データに文字認識処理を施して文字列を生成する(ステップS2)。
図4(a)は、一般的な文書の第1頁を例示し、図4(b)は、その第17頁を例示する図である。図4(a)に示す様に、文書の最初に「タイトル」がある場合、そのタイトルの文字列21は、紙面の上方22、左方23、右方24の3方に広い空き代(余白)があるのが普通である。また、タイトル文字列21の下方25の余白も、文書本文26の各行間の余白よりも広い場合が多い。
これに対し、文書本文26の各行を構成する各行文字列は、左方27と右方28の2方にしか余白は存在しない。
また、文書にページ数が記載されている場合、このページ数29も、タイトル同様に3方31,32,33に余白がある。通常、ページ数は、フッタ情報とかヘッダ情報として印刷されるため、文書の最外周部分にあり、必ず3方が余白となっている場合が多い。
図4(b)に示す文書では、タイトル文字列35は、文書本文36,37間に存在する。しかし、タイトル文字列35の文書本文36との間の余白、文書本文37との間の余白は、文書本文中の各行間の余白より広い場合が多い。このため、タイトル文字列35は少なくとも3方が余白によって囲まれている。
そこで、本実施形態では、「タイトル」と「ページ数」とを文書から抽出するために、少なくとも3方が余白となっている文字列の画像部分をステップS2で抽出し文字認識処理を行う。どの程度の「余白」をステップS2における「余白」と判断するかは、文書の画像データを調べて決定するのが良い。
文書は文書本文の占める割合が多いのが普通であり、文書本文の画像が文書全体の画像のどこを占めているかの判断は容易である。そこで、文書本文の各行間の余白の距離の平均値を求め、この平均値を超える余白を、上方,下方の「余白」としてステップS2を実行するのが良い。右方,左方の余白は、タイトル文字列と文書本文とで同じ場合があるので、1文字程度の幅の余白を「余白」としてステップS2を実行する。
次に、ステップS3で、文字認識処理の結果である文字列が、タイトルの特徴を有するか否かを判定する。図4(a)(b)の文書では、3方が余白に囲まれている文字列として、タイトル文字列21,35と、ページ数29,38の他に、文書本文26,36,37の夫々の最初と最後の行の文字列が抽出されてしまう。そこで、タイトル文字列21,35を文書本文の文字列と分けるために、タイトルの特徴を用いて判断する。
タイトルの特徴としては、例えば、先頭に「第」の文字がある、文字列中に「章」とか「節」とかの特定キーワードを含む、「4」とか「(a)とかの数字や記号で始まる、文書本文の文字列に比較して線が太い、文書本文の文字列に比較して文字が大きい、文書本文の文字列のフォント種類と異なるフォントである、等が挙げられる。
これらの特徴のうち1つでも該当すれば、その文字列はタイトル文字列であると判定でき、ステップS4でその文字列をその文書のタイトル文字列としてファイル管理テーブル(図5参照)に登録する。尚、1枚の文書中に複数のタイトル文字列が検出された場合には、全ての文字列をタイトル文字列として登録しても良く、また、例えばその中の最短文字列だけをタイトル文字列として登録しても良い。タイトルの特徴を持つ文字列が検出されなかった場合には、その文書には「タイトル無し」を登録する(ステップS5)。
ステップS4,S5の後にはステップS6に進み、今度は、ステップS2で抽出された文字列が「ページ数」の特徴を有するか否かを判定する。ページ数の特徴としては、例えば、「p17」の様に「p」で始まる数字である、「−5−」の様に「−」記号で挟まれている、「3/15」の様に、2つの数字が「/」で分けられている、連続する数字が4文字以下(9999ページ以下)である、等が挙げられる。
これらの特徴のうちの1つでも該当すれば、その文字列をページ数文字列としてファイル管理テーブルに登録する(ステップS7)。尚、1枚の文書中に複数のページ数が検出された場合には、その中の1つの文字列だけを「ページ数」文字列として選択し登録する。その選択は、例えば、複数の文書で抽出された夫々の「ページ数」の文字列が文書中の同一箇所から抽出されている、同一の特徴を有する、最短の文字列である、等によって行う。「ページ数」の特徴を持つ文字列が検出されなかった場合には、その文書には「ページ数無し」を登録する(ステップS8)。
次のステップS9では、以上の処理を全文書で行ったか否かを判定し、全文書の処理が終了していない場合にはステップS1に戻り、スキャナ1が次に読み取った文書の処理を行う。
図5は、ファイル管理テーブルを例示する図である。図3の処理を実行することで、各文書の「タイトル」と「ページ数」とがこのファイル管理テーブルに登録される。ユーザは図1のパーソナルコンピュータ5の画面でこのファイル管理テーブルを調べ、書類束3としてオートシートフィーダ2に挿入した文書中に別の文書が入っていなかったか否かをファイル管理テーブルで確認することができる。
例えば、ファイル名「002.pdf」のタイトルから、この文書が別の文書であると判断できる。また、「ページ数無し」となっている文書がおかしいと判断することもできる。あるいは、図5には示していないが、「ページ数」を抽出した位置が他の文書と異なるときそれを登録欄に記入しておく処理ステップを図3の処理中に設けておけば、ユーザはその文書を注意して調べることができる。
ユーザは、ファイル管理テーブルを調べて、不要のファイルが存在した場合には、そのファイルをファイル管理テーブルから削除して当該文書の画像データも削除し、その後に、例えばソート処理を行い、必要な一連の文書の画像データを新規画像データとして1ファイルに纏め、ファイル管理テーブルと共に保存する。
尚、上述した説明で分かる通り、複数ページに渡るある文書Aと、複数ページに渡る別の文書Bを混在させたままスキャナ1で画像を読み取った場合には、文書Aと文書Bの夫々のページ数の記載箇所が異なったりページ数の特徴が異なっていれば、上述した実施形態を適用することで、文書Aの画像データと文書Bの画像データとを別々に管理することができ、また、文書毎にソート処理することができることはいうまでもない。同様に、文書Aと文書Bのタイトルの特徴が異なっていれば、タイトルでも文書Aと文書Bとを分類することが可能である。
本発明に係るファイル管理方法等は、自動的に文書のタイトルを抽出して当該文書の画像データを特徴付けると共にページ数を抽出して複数文書の画像データをソート処理することができるため、多数の書類を電子化して保存するファイル管理方法及びその装置並びにファイル管理用プログラムとして有用である。
1 スキャナ(画像読取装置)
2 オートシートフィーダ
3 書類束
5 パーソナルコンピュータ
7 文字認識部
8 ページ数及びタイトル情報認識部
9 ページ数及びタイトル情報格納部
2 オートシートフィーダ
3 書類束
5 パーソナルコンピュータ
7 文字認識部
8 ページ数及びタイトル情報認識部
9 ページ数及びタイトル情報格納部
Claims (12)
- 文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理することを特徴とするファイル管理方法。
- 文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し、該画像部分を文字認識処理して文字列を生成し、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理することを特徴とするファイル管理方法。
- 請求項1記載のタイトルと請求項2記載のページ数の両方を用いてファイル管理することを特徴とするファイル管理方法。
- 夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項1乃至請求項3のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとして管理することを特徴とするファイル管理方法。
- 文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けファイル管理する管理手段とを備えることを特徴とするファイル管理装置。
- 文書を読み取り画像データを出力する画像読取装置と、前記画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し該画像部分を文字認識処理して文字列を生成し該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けファイル管理する管理手段を備えることを特徴とするファイル管理装置。
- 請求項4記載のタイトルと請求項4記載のページ数の両方を用いてファイル管理することを特徴とするファイル管理装置。
- 夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項1乃至請求項3のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとして管理することを特徴とするファイル管理装置。
- 文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にタイトルの特徴がある場合には該文字列をタイトルとして前記画像データのファイルに対応付けるステップとを備えることを特徴とするファイル管理用プログラム。
- 文書を画像読取装置で読み取って得た画像データから所要余白以上の余白が上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出すステップと、該画像部分を文字認識処理して文字列を生成するステップと、該文字列にページ数の特徴がある場合には該文字列をページ数として前記画像データのファイルに対応付けるステップとを備えことを特徴とするファイル管理用プログラム。
- 請求項9記載のタイトルと請求項10記載のページ数の両方を前記画像データのファイルに対応付けるステップを備えることを特徴とするファイル管理用プログラム。
- 夫々が複数枚で構成される文書が複数混在して前記画像読取装置で読み取られ請求項1乃至請求項3のいずれかのファイル管理方法で管理するとき同一の前記タイトルの特徴または前記ページ数の特徴を有する画像データを纏めて1ファイルとするステップを備えることを特徴とするファイル管理用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063562A JP2006251864A (ja) | 2005-03-08 | 2005-03-08 | ファイル管理方法及びその装置並びにファイル管理用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063562A JP2006251864A (ja) | 2005-03-08 | 2005-03-08 | ファイル管理方法及びその装置並びにファイル管理用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006251864A true JP2006251864A (ja) | 2006-09-21 |
Family
ID=37092334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005063562A Pending JP2006251864A (ja) | 2005-03-08 | 2005-03-08 | ファイル管理方法及びその装置並びにファイル管理用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006251864A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012190315A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
JP2012247918A (ja) * | 2011-05-26 | 2012-12-13 | Konica Minolta Business Technologies Inc | ファイル名作成装置およびファイル名作成プログラム |
-
2005
- 2005-03-08 JP JP2005063562A patent/JP2006251864A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012190315A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
JP2012247918A (ja) * | 2011-05-26 | 2012-12-13 | Konica Minolta Business Technologies Inc | ファイル名作成装置およびファイル名作成プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4181892B2 (ja) | 画像処理方法 | |
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
US6351559B1 (en) | User-enclosed region extraction from scanned document images | |
JP2009122760A (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US20070242282A1 (en) | Image forming apparatus for detecting index data of document data, and control method and program product for the same | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
JP2006059075A (ja) | 文書処理装置およびプログラム | |
US20140099038A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
WO2000052645A1 (fr) | Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document | |
US20060167899A1 (en) | Meta-data generating apparatus | |
JP4666996B2 (ja) | 電子ファイリングシステム、電子ファイリング方法 | |
JP2006251864A (ja) | ファイル管理方法及びその装置並びにファイル管理用プログラム | |
JP2006155439A (ja) | 文書管理装置及びその方法 | |
US20050203936A1 (en) | Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion | |
JP4934181B2 (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP4278134B2 (ja) | 情報検索装置及びプログラム並びに記録媒体 | |
JP2002342343A (ja) | 文書管理システム | |
JP2008158777A (ja) | 画像処理装置及び方法、コンピュータプログラム及び記憶媒体 | |
JP2007011683A (ja) | 文書管理支援装置 | |
US20060023236A1 (en) | Method and arrangement for copying documents | |
JP4480109B2 (ja) | 画像管理装置および画像管理方法 | |
JP2006085234A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
JP4569162B2 (ja) | 画像処理方法、画像処理プログラムおよび画像処理装置 | |
JP4241115B2 (ja) | 文書ファイリング装置 | |
JP2005267057A (ja) | テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061124 |