JPH08153110A - 文書ファイリング装置及び方法 - Google Patents

文書ファイリング装置及び方法

Info

Publication number
JPH08153110A
JPH08153110A JP6296674A JP29667494A JPH08153110A JP H08153110 A JPH08153110 A JP H08153110A JP 6296674 A JP6296674 A JP 6296674A JP 29667494 A JP29667494 A JP 29667494A JP H08153110 A JPH08153110 A JP H08153110A
Authority
JP
Japan
Prior art keywords
character
area
document
image
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6296674A
Other languages
English (en)
Inventor
Takayuki Shimizu
高幸 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP6296674A priority Critical patent/JPH08153110A/ja
Priority to US08/562,450 priority patent/US5821929A/en
Publication of JPH08153110A publication Critical patent/JPH08153110A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 ユーザが文字認識を行う領域を指定しなくて
も適切な領域のみ文字認識が行え、文字認識に要する時
間を短縮する。 【構成】 文書取り込み部100により文書画像を読み
取り、領域分割部101で複数の文字領域に分割し、第
一文字領域特定部102で最も左側の列で最も上側の文
字領域を特定し、切り出し部103でその文字領域を切
り出し、文字認識部104でその文字領域に対して文字
認識処理を行い、認識された文字列の中の先頭から所定
数の文字列を取り出し部105で抽出し、抽出した文字
列と読み取った文書画像の記憶媒体上の格納アドレスと
を対応づけて文書登録部106がデータベースに登録す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書のイメージデータ
をキーワードなどの文書管理情報と関連付けて記憶し、
これらの情報に対して検索、表示、印刷等を行う文書フ
ァイリング方法及び文書ファイリング装置に関するもの
である。
【0002】
【従来の技術】近年、文書をスキャナ等で読み込むなど
して作成した文書のイメージデータに、キーワードなど
の文書管理情報を関連付けて記憶し、これらの情報に対
して検索、表示、印刷等を行う電子ファイリング装置が
発表されている。従来、こうしたキーワードは、文書の
登録時などにユーザが手作業で入力する必要があった。
【0003】近年、文書中のイメージデータに対して文
字認識を行い、その認識結果の文字列をキーワードとし
て自動的に登録するものが発表されている。このような
電子ファイリング装置では、文書全体に対して文字認識
を行い、全文の認識結果の文字列の中から名詞のみを取
り出してそれらをキーワードとして登録するなどしてい
た。しかし、文書全体の文字認識を行うため、文字認識
の処理に非常に時間がかかっていた。そのため、近年、
ユーザが文書中の文字認識を行う領域を指定し、その領
域に対してのみ文字認識を行い、その認識結果の文字列
をキーワードとして登録する電子ファイリング装置が発
表されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来技術の電子ファイリング装置では、文字認識の処理に
必要となる時間を短縮するためには、ユーザが文字認識
を行う文書中の領域を指定する必要があった。このた
め、文書登録などにおける操作が繁雑になり、ユーザの
作業の負荷の増大を招いていた。
【0005】本発明は、かかる上記問題点について鑑み
なされたものであり、ユーザが文字認識を行う領域を指
定することなく文字認識にかかる時間を短縮することが
できる電子ファイリング方法及び電子ファイリング装置
を提供することを目的としている。
【0006】
【課題を解決するための手段】本発明は上記目的を達成
するために、文書画像を読み取る読取手段と、上記読取
手段により読み取られた文書画像から特定の文字領域を
検出する検出手段と、上記検出手段により検出された文
字領域の画像に対して文字認識を行う認識手段と、上記
認識手段により認識された文字列内の所定数の文字を抽
出する抽出手段と、上記抽出手段により抽出された文字
列を上記読取手段により読み取られた画像のインデック
スとして登録する登録手段と、を有するものである。
【0007】また、本発明は、文書画像を読み取り、読
み取られた文書画像の中の特定の文字領域を検出し、検
出した特定の文字領域の画像に対し、文字認識処理を行
い、文字認識処理の結果認識された文字列の中の所定数
の文字列を抽出し、抽出した文字列を、読み取られた文
書画像のインデックスとして登録するものである。
【0008】
【作用】本発明は読取手段が文書画像を読み取り、検出
手段が読み取られた文書画像の中から特定の文字領域を
検出し、認識手段が検出された文字領域の画像に対して
文字認識処理を行い、抽出手段が認識された文字列の中
の所定数の文字列を抽出し、登録手段が文書画像のイン
デックスとして抽出された文字列を登録する。これによ
り、文書画像のインデックス付与を容易にする。
【0009】
【実施例】
(第一の実施例)図1は、本発明の第一の実施例におけ
る電子ファイリング装置の構成を示すブロック図であ
る。この電子ファイリング装置は、文書読み込み部10
0と、領域分割部101と、第一文字領域特定部102
と、文字領域切り出し部103と、文字認識部104
と、文字列取り出し部105と、文書登録部106と、
ファイル装置107と、メモリ112とを備えている。
尚、101〜105は処理部110に含まれている。処
理部110内の各処理はCPUが行うようしても、ハー
ドウェア回路で行うようにしても良い。
【0010】文書読み込み部100は、スキャナ装置な
どから文書を読み取り、イメージデータを出力する。出
力されたイメージデータはメモリ112に格納される。
領域分割部101は、メモリ112に格納された文書の
イメージデータに対して領域分割を行い、文字領域を分
割する。第一文字領域特定部102は、領域分割部10
1で領域分割した文字領域の順序付けを行い、最初の文
字領域を特定する。文字領域切り出し部103は、第一
文字領域特定部102で特定された文字領域のイメージ
データを抽出する。文字認識部104は、文字領域切り
出し部103で抽出した文字領域のイメージデータに対
して文字認識を行う。文字列取り出し部105は、文字
認識部104で認識した結果の文字列から最初の特定の
長さの文字列を取り出す。文書登録部106は、文書読
み込み部100で読み込んだ文書のイメージデータと、
文字列取り出し部105で取り出した文字列とを関連付
けてファイル装置107に登録する。ファイル装置10
7は、文書のイメージデータとキーワードなどの文書管
理情報とを関連付けて記憶するもので、データベースを
使用する場合が多い。なお、電子ファイリング装置に
は、上記以外にも、ファイル装置107に記憶された文
書の情報に対して、検索、表示、印刷などの機能を実現
するための種々の構成要素が設けられている。
【0011】次に、以上のように構成された電子ファイ
リング装置の動作について、図2のフローチャートに従
い説明する。
【0012】まず、ユーザの開始指示により処理を開始
し(ステップ200)、処理スキャナ装置などで読み込
んだ文書のイメージデータをビットマップ形式でメモリ
に格納し(ステップ201)、そのイメージデータに対
して領域分割を行う(ステップ202)。
【0013】領域分割とは、文書全体のイメージデータ
を、文章、図形、表などの属性の領域に分割し、抽出す
るものであり、近年、文字認識の前処理として行われて
いる周知技術である。領域の属性は、大別すると文字領
域とイメージ領域とに分けられ、文字領域に関しては属
性情報として、領域の位置、領域のサイズ、領域内の文
字の平均文字サイズなどが抽出される。なお、領域分割
の方法は本発明の主眼ではないので、その説明を省略す
る。
【0014】次に、その文書に文字領域があるか判別し
(ステップ203)、その文書に文字領域がある場合
は、文字領域の順序付けを行い、最初(最も左側の列で
最も上側)の文字領域を特定する(ステップ204)。
【0015】文字領域の順序付けとは、分割した文字領
域ごとに文字認識した文字列を、その前後関係に基いて
適切に結合し、一つの文章として再生するために行うも
ので、近年、上記の領域分割とともに文字認識の前処理
として行われている周知技術である。なお、順序付けの
方法も本発明の主眼ではないので、その説明を省略す
る。
【0016】図3は、文書の領域分割と文字領域の順序
付けを説明する図である。図3では、領域分割によりイ
メージ領域と文字領域が分割、抽出された様子を示して
いる。斜線の矩形領域がイメージ領域であり、斜線が施
されていない矩形領域が文字領域である。また、順序付
けにより文字領域が順序付けられた様子を、文字領域を
示すフレームの中の番号で示している。
【0017】次に、特定された文字領域の属性情報の領
域の位置と領域のサイズから、特定された文字領域のイ
メージデータを抽出し(ステップ205)、そのイメー
ジデータに対して文字認識を行う(ステップ206)。
そして、文字認識した結果の文字列から最初の20文字
の文字列を取り出し(ステップ207)、その文字列を
文書管理情報の文書コメントのデータとして、ページ
数、登録日などの他の文書管理情報とともに、文書のイ
メージデータの記憶媒体への格納アドレスと関連付けて
データベースに登録し、かつ、その文書の記憶媒体への
格納し(ステップ208)、処理を終了する(ステップ
209)。ここで文字認識した結果の文字列を取り出す
文字数を20文字にしたが、別途ユーザが設定する数で
あってもかまわないし、また、認識した文字数がこれに
満たない場合は、認識した文字数でかまわない。
【0018】文書中に文字領域がない場合は、「テキス
トなし」など、文書中に文字領域がないことを示す文字
列を文書コメントのデータとして設定する(ステップ2
10)。
【0019】尚、文書コメントデータ等の文書管理情報
は検索時のインデックスとして使用できる。
【0020】このように、文書のイメージデータに対し
て領域分割と文字領域の順序付けを行い、最初の文字領
域に対してのみ文字認識を行うので、ユーザが文字認識
を行う文書中の領域を指定することなく、文書全文に対
して文字認識を行う場合に比べて、文字認識に必要な処
理時間を短縮することができる。しかも、一般的に各文
書の特徴ある最初の文字列を登録するので、文書の概要
を把握しやすい文字列を登録することができる。さら
に、文書中に文字領域がない場合においても、そのこと
を示す文字列を登録するので、後に、文書の一覧表示な
どを行う場合に文書の特徴として表示することができる
ようになる。
【0021】(第二の実施例)図4は、本発明の第二の
実施例における電子ファイリング装置の構成を示すブロ
ック図である。この電子ファイリング装置は、文書読み
込み部400と、領域分割部401と、最大文字領域特
定部408と、文字領域切り出し部403と、文字認識
部404と、文字列取り出し部405と、文書登録部4
06と、ファイル装置407と、メモリ412とを備え
ている。尚、401〜405は処理部410に含まれて
いる。
【0022】最大文字領域特定部408は、領域分割部
401で領域分割した文字領域から、文字領域の属性情
報の平均文字サイズが一番大きい文字領域を特定するも
である。その他の構成部分は、前記第一の実施例と同様
の機能を有するものであり、図4において対応する番号
を付して説明を省略する。
【0023】次に、以上のように構成された電子ファイ
リング装置の動作について、図5のフローチャートに従
い説明する。
【0024】ステップ511では、文字領域の属性情報
として抽出されている平均文字サイズと領域の位置から
一つの文字領域を特定する処理を行う。その他のステッ
プは、前記第一の実施例と同様の動作を行うものであ
り、図5において対応する番号を付して説明を省略す
る。
【0025】次に、図6のフローチャートに従い、上記
ステップ511の文字領域特定処理の動作をさらに詳細
に説明する。
【0026】まず、領域分割された各文字領域の平均文
字サイズを比較し、最大の平均文字サイズの文字を有す
る文字領域を特定する(ステップ600)。次に、最大
の平均文字サイズの文字を有する文字領域が一つに特定
されたか判別し(ステップ601)、特定されない場合
は、ステップ600により特定されている文字領域の垂
直位置を比較し、最も上に位置する文字領域を特定する
(ステップ602)。そして、ステップ602 により
文字領域が一つに特定されたか判別し(ステップ60
3)、特定されない場合は、ステップ602により特定
されている文字領域の水平位置を比較し、最も左に位置
する文字領域を特定する(ステップ604)。これら上
記のいずれかの文字領域特定の処理により、一つの文字
領域が特定され、ステップ505に処理を移す。
【0027】このように、文書のイメージデータに対し
て領域分割を行い、文字領域の平均文字サイズと位置か
ら特定した一つの文字領域に対してのみ文字認識を行う
ので、ユーザが文字認識を行う文書中の領域を指定する
ことなく、文書全文に対して文字認識を行う場合に比べ
て、文字認識に必要な処理時間を短縮することができ
る。しかも、一般的に文書の特徴的な文字列である文書
中の最も大きい文字サイズの文字列を登録するので、文
書のタイトルと同様に文書の概要が把握しやすい文字列
を登録することができる。さらに、文書中に文字領域が
ない場合においても、そのことを示す文字列を登録する
ので、後に、文書の一覧表示などを行う場合に文書の特
徴として表示することができるようになる。
【0028】
【発明の効果】以上説明したように、本発明によれば、
文字認識を行う領域を自動的に抽出するので、ユーザが
文字認識を行う領域を指定することなく文字認識にかか
る時間を短縮することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例における電子ファイリン
グ装置の構成を示すブロック図である。
【図2】本発明の第一の実施例における電子ファイリン
グ装置の動作を説明するフローチャートである。
【図3】文書の領域分割と文字領域の順序付けを説明す
る図である。
【図4】本発明の第二の実施例における電子ファイリン
グ装置の構成を示すブロック図である。
【図5】本発明の第二の実施例における電子ファイリン
グ装置の動作を説明するフローチャートである。
【図6】本発明の第二の実施例における文字領域特定処
理の動作を説明するフローチャートである。
【符号の説明】
100,400 文書読み込み部 101,401 領域分割部 203,403 文字領域切り出し部 204,404 文字認識部 205,405 文字列取り出し部 206,406 文書登録部 207,407 ファイル装置 102 第一文字領域特定部 408 最大文字領域特定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を読み取る読取手段と、 上記読取手段により読み取られた文書画像から特定の文
    字領域を検出する検出手段と、 上記検出手段により検出された文字領域の画像に対して
    文字認識を行う認識手段と、 上記認識手段により認識された文字列内の所定数の文字
    を抽出する抽出手段と、 上記抽出手段により抽出された文字列を上記読取手段に
    より読み取られた画像のインデックスとして登録する登
    録手段と、を有することを特徴とする文書ファイリング
    装置。
  2. 【請求項2】 上記検出手段は文書画像内の文字領域の
    最も左側の列で最も上側の文字領域を特定の文字領域と
    して検出することを特徴とする請求項1記載の文書ファ
    イリング装置。
  3. 【請求項3】 上記検出手段は、複数の文字領域の中で
    文字の平均サイズが最大の文字領域を特定の文字領域と
    して検出することを特徴とする請求項1記載の文書ファ
    イリング装置。
  4. 【請求項4】 文書画像を読み取り、 読み取られた文書画像の中の特定の文字領域を検出し、 検出した特定の文字領域の画像に対し、文字認識処理を
    行い、 文字認識処理の結果認識された文字列の中の所定数の文
    字列を抽出し、 抽出した文字列を、読み取られた文書画像のインデック
    スとして登録することを特徴とする文書ファイリング方
    法。
JP6296674A 1994-11-30 1994-11-30 文書ファイリング装置及び方法 Pending JPH08153110A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6296674A JPH08153110A (ja) 1994-11-30 1994-11-30 文書ファイリング装置及び方法
US08/562,450 US5821929A (en) 1994-11-30 1995-11-24 Image processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6296674A JPH08153110A (ja) 1994-11-30 1994-11-30 文書ファイリング装置及び方法

Publications (1)

Publication Number Publication Date
JPH08153110A true JPH08153110A (ja) 1996-06-11

Family

ID=17836611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6296674A Pending JPH08153110A (ja) 1994-11-30 1994-11-30 文書ファイリング装置及び方法

Country Status (1)

Country Link
JP (1) JPH08153110A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2012015896A (ja) * 2010-07-02 2012-01-19 Riso Kagaku Corp 画像処理装置
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS63201867A (ja) * 1987-02-18 1988-08-19 Hitachi Ltd 文書画像自動要約方式
JPH04287168A (ja) * 1991-03-15 1992-10-12 Ricoh Co Ltd ファイリングの自動キーワード抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS63201867A (ja) * 1987-02-18 1988-08-19 Hitachi Ltd 文書画像自動要約方式
JPH04287168A (ja) * 1991-03-15 1992-10-12 Ricoh Co Ltd ファイリングの自動キーワード抽出方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method
JP2012015896A (ja) * 2010-07-02 2012-01-19 Riso Kagaku Corp 画像処理装置

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
JP4054428B2 (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH07200631A (ja) 電子ファイリング装置
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JPH08153110A (ja) 文書ファイリング装置及び方法
JP2005107931A (ja) 画像検索装置
JP3711636B2 (ja) 情報検索装置および方法
JP4278134B2 (ja) 情報検索装置及びプログラム並びに記録媒体
JPH08180068A (ja) 電子ファイリング装置
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JPH1013642A (ja) 画像情報処理装置
JPH09204511A (ja) ファイリング装置
JPH06162107A (ja) 電子ファイリングシステム
JP2006253995A (ja) 画像処理装置
JPH08123813A (ja) 電子ファイル装置
JPH08202859A (ja) 電子ファイリング装置及びその方法
JP2004288015A (ja) 文書ファイリング装置および文書区切り方法
JPH06149881A (ja) 辞書引き装置及び文書処理装置並びにディジタル複写装置
JPH08161350A (ja) 電子ファイリング方法および装置
JPH09269970A (ja) 文字認識方法とその装置
JPH07306872A (ja) 電子ファイリング装置
JP2601139B2 (ja) 文字列検索装置
JP2006260115A (ja) 文書管理システム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031028