JP4143245B2 - 画像処理方法および装置並びに記憶媒体 - Google Patents

画像処理方法および装置並びに記憶媒体 Download PDF

Info

Publication number
JP4143245B2
JP4143245B2 JP2000132734A JP2000132734A JP4143245B2 JP 4143245 B2 JP4143245 B2 JP 4143245B2 JP 2000132734 A JP2000132734 A JP 2000132734A JP 2000132734 A JP2000132734 A JP 2000132734A JP 4143245 B2 JP4143245 B2 JP 4143245B2
Authority
JP
Japan
Prior art keywords
cell
character
determining
image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000132734A
Other languages
English (en)
Other versions
JP2001312691A (ja
Inventor
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000132734A priority Critical patent/JP4143245B2/ja
Publication of JP2001312691A publication Critical patent/JP2001312691A/ja
Application granted granted Critical
Publication of JP4143245B2 publication Critical patent/JP4143245B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テンプレートを用いることなく、帳票内の特定の領域を取り出すことが可能な画像処理装置および画像処理方法、およびコンピュータが読み出し可能なプログラムを格納した記憶媒体に関するものである。
【0002】
【従来の技術】
従来、例えば帳票上の特定の領域に存在する情報を取り出す場合、あらかじめその領域の位置や大きさなどの情報を持つテンプレートを用意し、イメージスキャナなど光電変換装置で読み取られた画像にテンプレートを当てはめ、領域内の画像を取り出す方法および装置が知られている。
【0003】
例えば、登録されている印影と照合するために帳票上の印影を取り出す場合、まず、その帳票に対応するテンプレート情報を取り出し、テンプレートに格納された印影領域の位置・大きさ情報を用いて、帳票画像の印影領域を特定することで印影の画像を得ることができる。
【0004】
この場合、帳票に対応するテンプレートを選択するため、帳票上のあらかじめ定められた位置に記録されている帳票IDを最初に読み込み、その結果を用いてテンプレートを特定するように構成されている。帳票IDとは、帳票の種類を特定する個別に定められた番号であり、帳票IDには、文字やマーク、バーコードなどが用いられる。
【0005】
また、入力した帳票画像を通信により遠隔地へ送り、送り先の装置で画像を表示しながら入力作業を行う場合、通信量を減らすため、帳票画像全体ではなく、必要な領域のみを取り出して画像データを送るように構成されているものもある。しかし、この場合でも上記公知の技術と同様に、テンプレートを用いて送信すべき領域を特定している。
【0006】
【発明が解決しようとする課題】
しかしながら、上述の従来の技術では、テンプレートが既に存在する帳票しか読み込ませることができず、新規の帳票が入力された場合は、手動で領域を指定するか、新たにテンプレートを作成しなければならないという問題があった。
【0007】
本発明は上記の問題点を解消するためになされたもので、テンプレートが存在しなくても、帳票上の特定の領域を自動的に取り出すことを可能にすることを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による画像処理装置は例えば以下の構成を備える。すなわち、
原稿上の所定の線図で囲まれた領域をセル領域として抽出するセル領域抽出手段と、
前記セル領域内の文字画像を抽出する文字画像抽出手段と、
前記抽出された文字画像について文字認識する文字認識手段と、
前記文字認識手段による文字認識結果から指定キーワードに対応する文字列を検索する検索手段と、
前記検索手段によって検索された文字列の領域の、該文字列を含むセル領域中に占める割合が所定値を越えるか否かを判定する判定手段と、
前記検索手段によって検索された文字列を含むセル領域に基づいて指定されたセルを決定する決定手段とを備え、
前記決定手段は、前記判定手段により前記割合が所定値を越えると判定された場合は、該セル領域に隣接する別のセル領域を指定されたセルとして決定し、前記判定手段により前記割合が所定値を越えないと判定された場合は、該セル領域を指定されたセルとして決定する。
【0009】
また、上記の目的を達成するための本発明の一態様による画像処理方法は、例えば以下の工程を有する。すなわち、
原稿上の所定の線図で囲まれた領域をセル領域として抽出するセル領域抽出工程と、
前記セル領域内の文字画像を抽出する文字画像抽出工程と、
前記抽出された文字画像について文字認識する文字認識工程と、
前記文字認識工程による文字認識結果から指定キーワードに対応する文字列を検索する検索工程と、
前記検索工程によって検索された文字列の領域の、該文字列を含むセル領域中に占める割合が所定値を越えるか否かを判定する判定工程と、
前記検索工程によって検索された文字列を含むセル領域に基づいて指定されたセルを決定する決定工程とを有し、
前記決定工程では、前記判定工程により前記割合が所定値を越えると判定された場合は、該セル領域に隣接する別のセル領域を指定されたセルとして決定し、前記判定工程により前記割合が所定値を越えないと判定された場合は、該セル領域を指定されたセルとして決定する。
【0010】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0011】
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る画像処理装置の構成を示すブロック図である。101はCPUで、ROM102に格納されている制御プログラムに従って本装置全体の制御を行う。103はRAMで、CPU101の主記憶として機能する。104は磁気ディスク等の外部記憶装置であり、テキストファイルやイメージファイルなどのファイルが記憶される。また、105はディスプレイ、106はキーボード、107はマウス等のポインティングデバイスである。108はイメージスキャナなどの光電変換装置であり、この装置により帳票が読み取られ、RAM103または外部記憶装置104に記憶される。109はネットワークインタフェースで、不図示のネットワークを介して他の外部記憶装置にファイルの読み書きをすることも可能である。なお、汎用コンピュータなどで本発明を実施する場合は、本発明に係る処理をプログラムコード化し、このプログラムを、コンピュータ読み出し可能な記録媒体により供給し、前記の汎用コンピュータなどのCPU101で実施されるように構成される。
【0012】
図4は、本発明を実施する装置の処理対象となる帳票401の一例を示す図である。帳票は通常、罫線でフィールドが分割されていて、その中に記述する内容を示すタグ文字、例えば、住所、氏名などが書かれている。図4では、402は住所フィールド、403は電話番号フィールド、404は氏名のふりがなフィールド、405は氏名フィールド、406は印鑑フィールドであり、それぞれタグ文字として「住所」、「電話番号」、「フリガナ」、「氏名」、「印鑑」を有する。そして、例えば記入者は、それぞれのフィールドに必要事項を記入し、印鑑フィールド406に押印する。
【0013】
本実施の形態に係る処理の概略を図2のフローチャートを用いて説明する。
【0014】
ステップS201では、光電変換装置108、あるいは、外部記憶装置104に記憶されたファイルから対象となる帳票画像を読み込む。
【0015】
ステップS202では、読み込まれた画像からセルを抽出する。ここでのセルとは、罫線で囲まれた矩形領域のこととする。ステップS203では、抽出されたセルに対し、その中に含まれるタグ文字領域(または、タグ文字画像)を抽出する。セルの抽出は、画素の連続性から罫線を抽出し、この罫線の形状や結合状態を基に行う。文字領域(または、文字画像)は、近隣画素との結合状態から抽出する。なお、具体的なセルの抽出あるいは文字領域(または、文字画像)の抽出については、例えば、特開平10−83431公報に記載の方法などを用いることで実現可能である。タグ文字は、記入文字に比べ小さく、セルの領域内の左上にあるなどの大きさや位置情報を用いることで、タグ文字と記入文字を区別することが可能である。
【0016】
タグ文字の抽出ができたら、ステップS204では、タグ文字の文字認識を行う。認識終了後、ステップS205では、事前に決定しているキーワードを用いて文字認識されたタグ文字の中からキーワードで指定されるものを検索する。キーワードは、抽出する領域を特定するためのもので、例えば、印影部分を抽出したい場合は、”印鑑”などをキーワードとする。ここで、”印鑑”と“ご捺印”や、”住所”と”おところ”など、同一対象の異なる表現は同一視し、それら複数の文字列で検索するように構成しておく。例えば、”印鑑”というキーワードが指定されると、セル406のタグ文字は、”印鑑”、“ご捺印”などの実質上同義の文字で検索される。
【0017】
ステップS206では、この検索されたキーワードを含むセルを特定し、そのセルを抽出する。更に、ステップS207では、抽出された領域内の画像を外部記憶装置104に保存する。
なお、抽出された画像が文字画像の場合は、ステップS207で文字認識を行って、文字コード列にした後、外部記憶装置104に保存するようにしてもよい。
【0018】
以上説明したように、本実施の形態によれば、罫線で囲まれた形式の帳票から、特定のタグ文字を含むセルを特定することができ、複数の表現がある同一の意味を持つ情報に対しても、正しく読み取りができる効果がある。
【0019】
なお、本実施の形態および以下に示す第2の実施の形態に係る装置は、ネットワークインタフェース109を介し、通信手段を用いて遠隔地にある記憶装置等にあるイメージファイルやプログラムを使用するものでも良い。また、文字認識の処理または手段は、認識精度を向上するための処理または手段を含むものであっても良い。
【0020】
以上説明したように、第1の実施形態によれば、フィールドを特定する文字(タグ)を認識し、その認識結果を検索することにより所望のセルを抽出できる。このため、テンプレートがあらかじめ用意されていなくても、帳票上の特定の領域を自動的に取り出すことが可能となる効果がある。
【0021】
また、本実施形態によれば、テンプレートを特定する必要性がなくなり、帳票のフォーマットの制限を無くすことができる効果がある。
【0022】
更に、本実施形態によれば、帳票全体を扱うことなく、必要な一部分だけの画像を扱うことになるため、これを保存する場合は保存領域が少なくてすみ、送信する場合は、送信量が少なくてすむ効果がある。
【0023】
[第2の実施の形態]
本発明の第2の実施の形態について説明する。本実施の形態に係る画像処理装置の構成は、図1に示す上記第1の実施の形態にかかる装置の構成と同じであることから、この画像処理装置の構成についての説明は省略する。
【0024】
図5は、本実施の形態に係る装置の処理対象となる帳票501の一例を示す図である。図5の帳票では、502は住所タグ、503は住所フィールド、504は電話番号タグ、505は電話番号フィールド、506は氏名タグ、507は氏名フィールド、508は印鑑タグ、509は印鑑フィールドというように、タグ文字がそれぞれセルになっていて、文字記入するフィールドとは別のセルになっている。
【0025】
本発明の第2の実施の形態に係る処理の概略を図3のフローチャートを用いて説明する。
【0026】
第1の実施の形態を説明する際に用いた図2に示した処理と同様に、ステップS301では帳票画像を読み込み、ステップS302では読み込まれた画像からセルを抽出する。ステップS303ではセルに含まれるタグ文字領域(または、タグ文字画像)を抽出し、ステップS304ではタグ文字の文字認識を行う。ステップS305では認識結果の文字からキーワードを検索し、キーワードを含むセルを特定する。
【0027】
ステップS306では、特定したセルがタグ文字のみかどうかを判定する。タグ文字の領域がセルの大きさに比べ十分大きく、他の情報が記入される余地がない場合は、セル内にはタグ文字のみであると判定する。また、ステップS303でタグ文字領域(または、タグ文字画像)の抽出の際、同一セル内にタグ以外の画像領域(または、文字画像)が存在した場合、ステップS306では、そのセルはタグ文字のみではないと判定する。
【0028】
ステップS306で、セル内にタグ文字のみが存在すると判定した場合、ステップS307に進み、ステップS307では近傍のセルを、抽出するセルと特定する。横書きの場合、求めるセルは一般的にタグを含んだセルの右隣、または下に存在する。セルの高さが同一で右に接しているセルがあれば右のセルを、セルの幅が同一で下に接しているセルがあれば下のセルを、それを特定セルとする。
【0029】
ステップS306でセルがタグ文字のみでないと判定された場合は、ステップS306からステップS308に進み、ステップS307では、図2に示す上記第1の実施の形態に係る処理であるステップS206と同様、タグ文字を含むセルを特定セルとする。
【0030】
ステップS309では、ネットワークインタフェース109を介して、抽出された領域内の画像を送信する。
【0031】
以上説明したように、第2の実施形態によれば、第1の実施形態の効果に加え、セル内にタグとなる文字がなくても、近隣の対応するセルを特定し、必要とするタグが存在する領域を抽出することができる効果がある。
【0032】
なお、上記実施形態では、処理対象の文書として帳票を例に挙げたが、これに限られるものではなく、種々の文書フォーマットに適用可能であることはいうまでもない。
【0033】
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0034】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0035】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0036】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した(図2および/または図3に示す)フローチャートに対応するプログラムコードが格納されることになる。
【0037】
【発明の効果】
以上説明したように、本発明によれば、テンプレートが存在しなくても、帳票上の特定の領域を自動的に取り出すことが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態全体に係る画像処理装置のブロック図である。
【図2】第1の実施の形態に係る画像処理装置が行う、処理ステップの一例を示すフローチャートである。
【図3】第2の実施の形態に係る画像処理装置が行う、処理ステップの一例を示すフローチャートである。
【図4】第1の実施の形態に係る画像処理装置の処理の対象となる帳票画像を説明する図である。
【図5】第2の実施の形態に係る画像処理装置の処理の対象となる帳票画像を説明する図である。

Claims (3)

  1. 原稿上の所定の線図で囲まれた領域をセル領域として抽出するセル領域抽出手段と、
    前記セル領域内の文字画像を抽出する文字画像抽出手段と、
    前記抽出された文字画像について文字認識する文字認識手段と、
    前記文字認識手段による文字認識結果から指定キーワードに対応する文字列を検索する検索手段と、
    前記検索手段によって検索された文字列の領域の、該文字列を含むセル領域中に占める割合が所定値を越えるか否かを判定する判定手段と、
    前記検索手段によって検索された文字列を含むセル領域に基づいて指定されたセルを決定する決定手段とを備え、
    前記決定手段は、前記判定手段により前記割合が所定値を越えると判定された場合は、該セル領域に隣接する別のセル領域を指定されたセルとして決定し、前記判定手段により前記割合が所定値を越えないと判定された場合は、該セル領域を指定されたセルとして決定することを特徴とする画像処理装置。
  2. 原稿上の所定の線図で囲まれた領域をセル領域として抽出するセル領域抽出工程と、
    前記セル領域内の文字画像を抽出する文字画像抽出工程と、
    前記抽出された文字画像について文字認識する文字認識工程と、
    前記文字認識工程による文字認識結果から指定キーワードに対応する文字列を検索する検索工程と、
    前記検索工程によって検索された文字列の領域の、該文字列を含むセル領域中に占める割合が所定値を越えるか否かを判定する判定工程と、
    前記検索工程によって検索された文字列を含むセル領域に基づいて指定されたセルを決定する決定工程とを有し、
    前記決定工程では、前記判定工程により前記割合が所定値を越えると判定された場合は、該セル領域に隣接する別のセル領域を指定されたセルとして決定し、前記判定工程により前記割合が所定値を越えないと判定された場合は、該セル領域を指定されたセルとして決定することを特徴とする画像処理方法。
  3. 請求項に記載の画像処理方法をコンピュータによって実行させるための制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2000132734A 2000-05-01 2000-05-01 画像処理方法および装置並びに記憶媒体 Expired - Fee Related JP4143245B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000132734A JP4143245B2 (ja) 2000-05-01 2000-05-01 画像処理方法および装置並びに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000132734A JP4143245B2 (ja) 2000-05-01 2000-05-01 画像処理方法および装置並びに記憶媒体

Publications (2)

Publication Number Publication Date
JP2001312691A JP2001312691A (ja) 2001-11-09
JP4143245B2 true JP4143245B2 (ja) 2008-09-03

Family

ID=18641370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000132734A Expired - Fee Related JP4143245B2 (ja) 2000-05-01 2000-05-01 画像処理方法および装置並びに記憶媒体

Country Status (1)

Country Link
JP (1) JP4143245B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101356541B (zh) * 2006-01-13 2012-05-30 富士通株式会社 帐票处理装置以及帐票处理方法
JP4871668B2 (ja) * 2006-08-01 2012-02-08 キヤノン株式会社 画像処理システム、画像処理方法及びプログラム
EP1927936B1 (en) 2006-11-29 2016-08-17 Brother Kogyo Kabushiki Kaisha Image scanning device
JP5324831B2 (ja) * 2008-06-12 2013-10-23 株式会社Pfu 証憑管理装置および証憑管理方法
JP5593966B2 (ja) * 2010-08-27 2014-09-24 沖電気工業株式会社 印鑑照合装置

Also Published As

Publication number Publication date
JP2001312691A (ja) 2001-11-09

Similar Documents

Publication Publication Date Title
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
JP2009146064A (ja) 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JP2008192032A (ja) 文書処理装置、文書処理方法、プログラム
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2008145611A (ja) 情報処理装置、プログラム
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
JP4136282B2 (ja) 画像処理装置及び画像処理方法並びに記憶媒体
CN116110051B (zh) 一种文件信息处理方法、装置、计算机设备及存储介质
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
CN101097518B (zh) 用于识别光学字符的系统和方法
US7844138B2 (en) History control apparatus
JP2006165863A (ja) 情報処理システム
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JP5018601B2 (ja) 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム
JP2005208872A (ja) 画像処理システム
JP3412998B2 (ja) 画像処理装置及びその方法
CN118155230A (zh) 文件处理方法、存储介质及计算机设备
JP2022167414A (ja) 画像処理装置、画像処理方法およびプログラム
JPH09190491A (ja) 画像処理方法及びその装置
JP2006243879A (ja) 画像データファイリングシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041210

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080606

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees