JP4867894B2 - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
JP4867894B2
JP4867894B2 JP2007287392A JP2007287392A JP4867894B2 JP 4867894 B2 JP4867894 B2 JP 4867894B2 JP 2007287392 A JP2007287392 A JP 2007287392A JP 2007287392 A JP2007287392 A JP 2007287392A JP 4867894 B2 JP4867894 B2 JP 4867894B2
Authority
JP
Japan
Prior art keywords
image
unit
noise
ruled line
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007287392A
Other languages
English (en)
Other versions
JP2009116520A (ja
Inventor
智也 井木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007287392A priority Critical patent/JP4867894B2/ja
Publication of JP2009116520A publication Critical patent/JP2009116520A/ja
Application granted granted Critical
Publication of JP4867894B2 publication Critical patent/JP4867894B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、画像認識装置、画像認識方法及びプログラムに関する。
表面又は裏面に印刷がされた帳票などの書類上の文字をコンピュータ上のデータとして扱う場合、OCR等からなるスキャナ等の文字認識装置11を用いて、帳票上の文字を読取り、文字の認識を行なう。文字認識装置11は、例えば、帳票12上の認識対象領域内に記載された文字に対して読取りを行い、文字認識を行なう。
従来の文字認識装置11は、図1に示すように、例えば、画像入力部13と、レイアウト解析部14と、フォーマットデータベース(以下、データベースをDBと略す。)が記録された記録部15と、文字認識部17と、出力形成部18とを備える。なお、レイアウト解析部14には、CRT(cathode ray tube)などの表示装置、キーボード、マウスなどの入力装置16が接続可能となっている。図1は、従来の文字認識装置11を示すブロック図である。
ここで、画像入力部13は、読取り対象である帳票12からその記載内容を画像データとして読み取る。レイアウト解析部14は、帳票12上における認識対象領域の位置を解析する。また、レイアウト解析部14は、画像入力部13が読み取った画像データから特徴情報を抽出してフォーマットの作成をし、フォーマットをフォーマットDBとして記録部15に記録する。レイアウト解析部14は、フォーマットに基づいて認識対象領域内の画像データのみを抽出する。
記録部15は、フォーマットDBを記録しており、フォーマットDBは、レイアウト解析部14での解析に必要な情報、例えば、読取り対象である帳票12の認識対象領域内の画像データのみを抽出するために用いられる。
文字認識部17は、レイアウト解析部14によって認識対象領域と判断された領域内の画像データに対し、文字認識を行なう。出力形成部18は、文字認識部17で認識された文字認識結果を、帳票12上の認識対象領域内に記載された文字として、テキストデータ等として出力する。
次に、図2を参照して、従来のレイアウト解析部14について更に詳しく説明する。図2は、従来のレイアウト解析部14を示すブロック図である。レイアウト解析部14は、制御部21と、認識対象領域矩形座標設定部22と、フォーマットDB作成部23と、フォーマットDB解析部24と、認識対象領域作成部25と、ラベリング部26と、雑音判断部27と、雑音除去部28などを有する。
制御部21は、レイアウト解析部14全体の制御手段を有する。認識対象領域矩形座標設定部22は、入力装置16の操作に基づいて、例えば矩形からなる認識対象領域の矩形座標を設定する。フォーマットDB作成部23は、画像入力部13が読み取った画像データから特徴情報を抽出してフォーマットの作成をする。フォーマットDB解析部24は、認識対象領域内の画像データのみを抽出するため、フォーマットDBの解析を行なう。認識対象領域作成部25は、認識対象領域の矩形座標に基づいて認識対象領域を作成する。ラベリング部26は、4近傍ラベリング処理、8近傍ラベリング処理等のラベリング処理を行って、認識対象領域のラベルを抽出する。ラベルとは、黒画素の連続している領域のことを指し、ラベリング処理は画像から黒画素が連続している部分を抽出する処理のことを指す。1つの文字は、字の形状によって1つまたは複数のラベルで構成される。雑音判断部27は、ラベルの幅と高さが閾値を下回る黒画素を雑音と判断する。雑音除去部28は、雑音と判断された黒画素を除去する。
上記の構成を有する従来の文字認識装置11の動作について説明する。まず、図3を参照して、従来の文字認識装置11のフォーマットDB作成処理について説明する。図3は、従来の文字認識装置11のフォーマットDB作成処理を示すフローチャートである。
まず、画像入力部13が帳票12、32表面の画像データを読み取る(ステップS11)。続いて、オペレータ(操作者)による操作を介して入力装置16に認識対象領域矩形座標が入力されることによって、認識対象領域矩形座標設定部22が、認識対象領域19の矩形座標を設定する(ステップS12)。そして、フォーマットDB作成部23が、フォーマットDBを作成し(ステップS13)、記録部15にフォーマットDBが記録される。
次に、図4及び図5を参照して、従来の文字認識装置11の文字認識処理について説明する。図4は、従来の文字認識装置11の文字認識処理を示すフローチャートである。図5は、従来の文字認識装置11の文字認識処理で読み取られる帳票を示す説明図である。ここで読み取られる帳票12は、表面に文字認識処理対象となる、例えば、金額などの数字等が記載され、裏面に文字認識処理対象としない罫線20等が記載されているとする。
まず、画像入力部13が、図5に示すような帳票12の画像データを読み取る(ステップS21)。続いてフォーマットDB解析部24が、記録部15に記録されたフォーマットDBを読み込み、解析する(ステップS22)。次に、認識対象領域作成部25が、認識対象領域の矩形座標に基づいて認識対象領域19を作成する(ステップS23)。そして、図5に示すような認識対象領域19に対して文字認識部17が文字認識を行い(ステップS24)、出力形成部18が認識結果を出力する(ステップS25)。
また、図6及び図7を参照して、従来の文字認識装置11の別の文字認識処理について説明する。図6は、従来の文字認識装置11の文字認識処理を示すフローチャートである。図7は、従来の文字認識装置11の文字認識処理で読み取られる帳票を示す説明図である。ここで読み取られる帳票32は、表面に文字認識処理対象となる、例えば、金額などの数字等が記載され、裏面に文字認識処理対象としない注意事項などの文字40等が記載されているとする。
まず、上述した従来の文字認識装置11と同様に、画像入力部13が図7に示すような帳票32表面の画像データを読み取り(ステップS31)、続いてフォーマットDB解析部24が、記録部15に記録されたフォーマットDBを読み込み、解析する(ステップS32)。次に、ラベリング部26が認識対象領域のラベルを抽出する(ステップS33)。そして、雑音判断部27及び雑音除去部28が、予め設定された閾値よりも低い値を有するラベルを除去する(ステップS34)。次に、認識対象領域作成部25が、認識対象領域の矩形座標に基づいて認識対象領域39を作成する(ステップS35)。そして、図7に示すような認識対象領域に対して文字認識部17が文字認識を行い(ステップS36)、出力形成部18が認識結果を出力する(ステップS37)。このような雑音除去を行う技術として、例えば特許文献1のような孤立点ノイズ除去の技術がある。
特開平09−238208号公報
ところで、表面及び裏面に印刷がされている帳票12、32などの書類上の文字をスキャナで読取り、文字を認識する際、帳票12、32の紙の厚さや印刷の濃さ等によっては、帳票12、32の表面上の文字を読み取りたい場合に裏面上の罫線20や文字40、模様等を同時に読み取ってしまう場合がある。
例えば、図5に示すように、帳票12の裏面に罫線20が印刷されていることによって、帳票12の表面画像の認識対象領域19に裏面の罫線20が裏映りする場合がある。このとき、認識対象領域19内の文字を正確に認識できないという問題があった。
また、図7に示すように、帳票12の裏面に文字40が印刷されていることによって、帳票12の表面画像の認識対象領域39に裏面の文字40が裏映りする場合がある。このとき、上述したように雑音判断部27及び雑音判断部28が閾値より低いラベルを除去するとしても、裏映りした文字40を除去することができない場合がある。そのため、帳票12の表面画像の認識対象領域39内の文字を正確に認識できないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、帳票表面に記載された画像を正確に認識することが可能な、新規かつ改良された画像認識装置、画像認識方法及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、読取り対象となる帳票の表面に対して裏面側の裏面画像に基づく情報が予め記録された記録部と、帳票の表面を読取る画像入力部と、画像入力部で読取られた表面画像に帳票の裏面の裏写りからなる雑音画像が含まれるとき、表面画像から雑音画像を情報の少なくとも一部を用いて除去する雑音除去部と、雑音画像が除去された表面画像から帳票の表面に記載された画像を認識する画像認識部とを備えることを特徴とする画像認識装置が提供される。
かかる構成により、記録部は、読取り対象となる帳票の表面に対して裏面側の裏面画像に基づく情報が予め記録され、画像入力部は、帳票の表面を読取り、雑音除去部は、画像入力部で読取られた表面画像に帳票の裏面の裏写りからなる雑音画像が含まれるとき、表面画像から雑音画像を情報の少なくとも一部を用いて除去し、画像認識部は、雑音画像が除去された表面画像から帳票の表面に記載された画像を認識する。その結果、帳票表面に記載された画像を正確に認識することができる。
上記裏面画像に基づく情報は罫線の位置情報であり、雑音除去部は、予め記録された裏面の罫線の位置と一致する罫線を除去してもよい。また、上記記録部に表面画像に基づく罫線の位置情報を記録し、雑音除去部は、予め記録した裏面の罫線と表面の罫線の位置が重なる場合は、重なる部分の罫線を除去しなくてもよい。
上記記録部に帳票の文字認識対象領域を記録し、雑音除去部は文字認識対象領域内に対して裏面の罫線と一致する罫線を除去し、画像認識部は文字認識対象領域内の文字を認識してもよい。
上記記録部に複数の帳票に対応させて帳票ごとの表面と裏面の罫線の位置情報を記録し、画像認識部は、雑音画像が除去された表面画像の罫線と予め記録された帳票ごとの表面の罫線とを比較してどの帳票かを特定してもよい。
上記裏面画像に基づく情報は文字の情報であってもよい。また、上記画像入力部で読取られた表面画像をラベリング処理して第1のラベルを生成するラベリング部を備え、雑音除去部が、所定の雑音閾値に基づいて第1のラベルを除去することによって雑音画像を除去してもよい。
上記ラベリング部は、記録部に記録された裏面画像をラベリング処理し第2のラベルを生成し、第2のラベルに基づいて雑音閾値を変更する雑音閾値変更部を備え、雑音除去部は、変更された雑音閾値に基づいて雑音画像を除去してもよい。
上記第2のラベルに基づいて、画像入力部で読取られた表面画像を複数の領域に分割する領域分割部を備え、雑音閾値変更部は、複数の領域ごとに雑音閾値を変更してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、読取り対象となる帳票の表面に対して裏面側の裏面画像を記録するステップと、帳票の表面を読取るステップと、読取られた表面画像に裏面画像の反転画像の少なくとも一部からなる雑音画像が含まれるとき、表面画像から雑音画像を除去するステップと、雑音画像が除去された表面画像から帳票の表面に記載された画像を認識するステップとを含むことを特徴とする画像認識方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、読取り対象となる帳票の表面に対して裏面側の裏面画像を記録する手段、帳票の表面を読取る手段、読取られた表面画像に裏面画像の反転画像の少なくとも一部からなる雑音画像が含まれるとき、表面画像から雑音画像を除去する手段、雑音画像が除去された表面画像から帳票の表面に記載された画像を認識する手段として、コンピュータを機能させることを特徴とするプログラムが提供される。
本発明によれば、帳票表面に記載された画像を正確に認識することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
(第1の実施形態の構成)
まず、本発明の第1の実施形態に係る文字認識装置(画像認識装置)100について説明する。図8は、本実施形態に係る文字認識装置100を示すブロック図である。文字認識装置100は、表面又は裏面に印刷がされた帳票などの書類上の文字をコンピュータ上のデータとして扱うため、例えば、帳票101上の認識対象領域内に記載された文字に対して読取りを行い、文字認識を行なう。
文字認識装置100は、図8に示すように、例えば、画像入力部102と、レイアウト解析部110と、フォーマットデータベース(以下、データベースをDBと略す。)が記録された記録部120と、文字認識部140と、出力形成部150とを備える。なお、レイアウト解析部110には、CRT(cathode ray tube)などの表示装置、キーボード、マウスなどの入力装置130が接続可能となっている。
ここで、画像入力部102は、読取り対象である帳票101からその記載内容を画像データとして読み取る。レイアウト解析部110は、帳票101上における認識対象領域の位置を解析する。また、レイアウト解析部110は、画像入力部102が読み取った画像データから特徴情報を抽出してフォーマットの作成をし、フォーマットをフォーマットDBとして記録部120に記録する。更に、レイアウト解析部110は、フォーマットに基づいて認識対象領域内の画像データのみを抽出する。
記録部120は、フォーマットDBを記録しており、フォーマットDBは、レイアウト解析部110での解析に必要な情報、例えば、読取り対象である帳票101の認識対象領域内の画像データのみを抽出するために用いられる帳票フォーマットのデータである。フォーマットDBは1つの帳票ごとに作成される。
文字認識部140は、画像認識部の一例であり、レイアウト解析部110によって認識対象領域と判断された領域内の画像データに対し、文字認識を行なう。出力形成部150は、文字認識部140で認識された文字認識結果を、帳票101上の認識対象領域内に記載された文字として、テキストデータ等として出力する。
次に、図9を参照して、レイアウト解析部110について更に詳しく説明する。図9は、第1の実施形態のレイアウト解析部110を示すブロック図である。レイアウト解析部110は、制御部111と、認識対象領域矩形座標設定部112と、フォーマットDB作成部113と、フォーマットDB解析部114と、認識対象領域作成部115と、罫線検出部116と、表裏面罫線一致判定部117と、罫線除去部118などを有する。
制御部111は、レイアウト解析部110全体の制御手段を有する。認識対象領域矩形座標設定部112は、入力装置130の操作に基づいて、例えば矩形からなる認識対象領域の矩形座標を設定する。フォーマットDB作成部113は、画像入力部102が読み取った画像データから特徴情報を抽出してフォーマットの作成をする。フォーマットDB解析部114は、認識対象領域内の画像データのみを抽出するため、フォーマットDBの解析を行なう。認識対象領域作成部115は、認識対象領域の矩形座標に基づいて認識対象領域を作成する。
罫線検出部116は、帳票101上における水平方向又は垂直方向の連続する黒画素を探索し、罫線を検出する。表裏面罫線一致判定部117は、罫線検出部116で検出された表面画像の罫線座標と、予め記録部120に記録されていた裏面画像の罫線座標に一致しているものがあるか否かを判断する。また、予め記録部120に記録されていた表面画像の罫線座標と一致するか否かを判断することにより帳票画像に対応するフォーマットDBの特定を行うこともできるものとする。罫線除去部118は、雑音除去部の一例であり、画像入力部102で読み取られた帳票101の画像データから罫線(雑音画像)を除去する。
(第1の実施形態の動作)
次に、本発明の第1の実施形態に係る文字認識装置100の動作について説明する。
まず、図10及びを参照して、本実施形態に係る文字認識装置100のフォーマットDB作成処理について説明する。図10は、本実施形態に係る文字認識装置100のフォーマットDB作成処理を示すフローチャートである。図12は、本実施形態に係る文字認識装置100のフォーマットDB作成処理で読み取られる帳票101を示す説明図である。ここで読み取られる帳票101は、表面に文字認識処理対象となる、例えば、金額などの数字等が記載され、裏面に文字認識処理対象としない罫線162等が記載されているとする。
まず、画像入力部102が登録画像を取得するため、帳票101の表面及び裏面の画像データを読み取る(ステップS101)。続いて、オペレータ(操作者)による操作を介して入力装置130に帳票101表面の認識対象領域矩形座標が入力されることによって、認識対象領域矩形座標設定部112が、認識対象領域160の矩形座標を設定する(ステップS102)。また、罫線検出部116が、帳票101の裏面に印刷された罫線162を検出する(ステップS103)。次に、フォーマットDB作成部113が、認識対象領域160の矩形座標と帳票101裏面の罫線の座標に基づいてフォーマットDBを作成し(ステップS104)、記録部120にフォーマットDBを記録する。本実施形態において、フォーマットDBは、1つの帳票ごとの表面および裏面の罫線の検出結果の情報を含むものである。フォーマットDBは各帳票に対応した名称がつけられて記録される。罫線情報が一致するフォーマットDBを検索することにより、その罫線情報に対応する帳票を特定することができる。さらにフォーマットDBには、その帳票ごとの文字認識を行う認識対象領域の帳票上の位置、認識対象文字種等の情報が含まれており、特定した帳票に応じた文字認識を行うことができるようになっている。
次に、図11及び図12を参照して、本実施形態に係る文字認識装置100の文字認識処理について説明する。図11は、本実施形態に係る文字認識装置100の文字認識処理を示すフローチャートである。図12は、本実施形態に係る文字認識装置100の文字認識処理で読み取られる帳票101を示す説明図である。
まず、画像入力部102が、図12に示すような帳票101の表面の画像データを読み取る(ステップS111)。続いてフォーマットDB解析部114が、記録部120に記録されたフォーマットDBを読み込み解析し、フォーマットDBから認識対象領域160の矩形座標と、帳票101裏面の罫線162の座標を抽出する(ステップS112)。
次に、罫線検出部116が、画像入力部102で読み取られた帳票101表面の読み取り画像から、画像内に含まれる罫線162の検出を開始する(ステップS113)。このとき、裏面の罫線162が帳票101の表面に裏映りしている場合、表面の罫線とともに読み取り画像の画像内に裏面の罫線162が検出される。そして、表裏面罫線一致判定部117が、記録部120に予め記録された登録画像の帳票101裏面の罫線検出結果を反転させた情報と、読み取り画像に基づいて検出された罫線検出結果とを比較する(ステップS114)。帳票101の認識対象領域160内に両者が一致する罫線162がある場合(ステップS115)は、罫線除去部118が認識対象領域160内の一致する罫線162を除去する(ステップS116)。
帳票101の認識対象領域160内に両者が一致する罫線がない場合(ステップS115)や罫線除去部118による罫線除去後は、認識対象領域作成部115が、認識対象領域160の矩形座標に基づいて認識対象領域160を作成する(ステップS117)。そして、図12に示すような認識対象領域160に対して文字認識部140が文字認識を行い(ステップS118)、出力形成部150が認識結果を出力する(ステップS119)。
次に、上記のステップS111で読み取られた帳票101の読み取り画像において、帳票101裏面の罫線が裏映りしているが、かすれた状態で読み取られた場合について説明する。
このとき、表裏面罫線一致判定部117が記録部120に記録された帳票101裏面の罫線検出結果と、読み取り画像に基づいて検出された罫線検出結果とを比較するとき(ステップS114)、表裏面罫線一致判定部117は、読み取り画像に基づいて検出された罫線が断続的に連なった罫線であっても、予め設定された所定の距離以内の間隔であれば、連続した罫線とみなして検出する。
また、表裏面罫線一致判定部117は、予め読み取られた帳票101裏面の画像データから、罫線の特徴情報(例えば、各罫線の方向(縦方向又は横方向など)、座標、長さ、太さ、線種(実線、破線など))を反転させ、表面側で罫線が裏映りして罫線が存在すると想定される領域を参照して判定をする。これにより、効率良く裏映りした罫線を除去することができる。
ステップS113において、罫線検出部116が、画像入力部102で読み取られた読み取り画像から画像内に含まれる罫線を検出するとき、かすれた罫線を破線として検出するとしてもよい。そして、表裏面罫線一致判定部117は、裏面の罫線情報と重なる破線を裏映りした裏面の罫線として判定する。もし、帳票101の表面の実線の罫線が、裏映りした裏面の罫線と近接している場合、破線のほうを裏面の罫線と判定するとすれば、裏面の罫線の判定の精度が向上する。
更に、ステップS116において罫線除去部118が罫線除去する際、認識対象領域160に限定せず、帳票101全面に対して帳票101裏面の罫線特徴に基づいて罫線除去を行うとしてもよい。これにより、記録部120に記録された罫線特徴に基づく帳票101表裏面の罫線の識別を精度良く行うことができる。
なお、ステップS112で帳票に対応するフォーマットDBを読み込む前に、読み込んだ帳票画像をもとに帳票を特定するようにすることもできる。すなわち、裏面の罫線を除去した画像(表面の罫線のみが残った画像)から抽出した罫線情報とフォーマットDBの表面の罫線情報を比較して一致するものを選択することにより、帳票識別(どの帳票かを特定する処理)を行うようにすることができる。
その場合、表裏面罫線一致判定部117は、ひとつのフォーマットDBを読み込んで、ステップS113からステップS116までと同様な処理をフォーマットDBごとに繰り返しつつ、残った罫線と表面の罫線の情報とを比較するようにすればよい。このとき、裏面の罫線と表面の罫線が重なる位置にある場合は、除去しないか、重ならない部分のみの罫線情報を除去する(当該罫線の座標情報を、裏面のみに存在する部分を含まないように修正する)ようにして、表面に存在する罫線を除去してしまわないようにする。このようにすれば、裏写りする可能性のある裏面の罫線を除去した上で、残った表面の罫線のみによる罫線情報による帳票識別が行えるので、帳票識別の精度を向上させることができる。
本実施形態によれば、フォーマットに帳票101裏面画像の罫線を記録し、読み取り時に帳票101裏面画像と一致する罫線がある場合は、認識対象領域160の罫線を除去することによって正確に文字を認識することができる。
(第2の実施形態の構成)
まず、本発明の第2の実施形態に係る文字認識装置200について説明する。文字認識装置200は、第1の実施形態と同様に、図8に示すように、例えば、画像入力部102と、レイアウト解析部110と、フォーマットデータベース(以下、データベースをDBと略す。)が記録された記録部120と、文字認識部140と、出力形成部150とを備える。なお、レイアウト解析部110には、CRT(cathode ray tube)などの表示装置、キーボード、マウスなどの入力装置130が接続可能となっている。これらの構成要素については、第1の実施形態と同一であるため、詳細な説明は省略する。
次に、図13を参照して、レイアウト解析部110について更に詳しく説明する。図13は、第2の実施形態のレイアウト解析部110を示すブロック図である。レイアウト解析部110は、制御部111と、認識対象領域矩形座標設定部112と、フォーマットDB作成部113と、フォーマットDB解析部114と、認識対象領域作成部115と、ラベリング部216と、雑音判断部217と、雑音除去部218と、認識対象領域分割部219と、雑音閾値変更部220などを有する。
制御部111と、認識対象領域矩形座標設定部112と、フォーマットDB作成部113と、フォーマットDB解析部114と、認識対象領域作成部115については、第1の実施形態と同様であるため、詳細な説明は省略する。
ラベリング部216は、4近傍ラベリング処理、8近傍ラベリング処理等のラベリング処理を行って、認識対象領域内のラベルを抽出する。雑音判断部217は、ラベルの幅と高さが閾値を下回る黒画素を雑音と判断する。雑音除去部218は、雑音と判断された黒画素を除去する。認識対象領域分割部219は、領域分割部の一例であり、設定された認識対象領域を分割し、複数の部分領域を作成する。雑音閾値変更部220は、予め設定されている雑音閾値を変更する。
(第2の実施形態の動作)
次に、本発明の第2の実施形態に係る文字認識装置200の動作について説明する。
まず、図14及び図16を参照して、本実施形態に係る文字認識装置200のフォーマットDB作成処理について説明する。図14は、本実施形態に係る文字認識装置200のフォーマットDB作成処理を示すフローチャートである。図16は、本実施形態に係る文字認識装置200のフォーマットDB作成処理で読み取られる帳票201を示す説明図である。ここで読み取られる帳票201は、表面に文字認識処理対象となる、例えば、金額などの数字等が記載され、裏面に文字認識処理対象としない例えば約款、注意事項等の文字などが記載されているとする。
まず、画像入力部102が登録画像を取得するため、帳票201の表面及び裏面の画像データを読み取る(ステップS201)。続いて、オペレータ(操作者)による操作を介して入力装置130に帳票201表面の認識対象領域矩形座標が入力されることによって、認識対象領域矩形座標設定部112が、認識対象領域260の矩形座標を設定する(ステップS202)。
また、ラベリング部216が帳票201の裏面画像のラベル(第2のラベル)を抽出する(ステップS203)。次に、フォーマットDB作成部113が、認識対象領域の矩形座標と帳票201裏面の画像データのラベルに基づいてフォーマットDBを作成し(ステップS204)、記録部120にフォーマットDBを記録する。
次に、図15及び図16を参照して、本実施形態に係る文字認識装置200の文字認識処理について説明する。図15は、本実施形態に係る文字認識装置200の文字認識処理を示すフローチャートである。図16は、本実施形態に係る文字認識装置200の文字認識処理で読み取られる帳票を示す説明図である。
まず、画像入力部102が、図16に示すような帳票201の表面の画像データを読み取る(ステップS211)。続いてフォーマットDB解析部114が、記録部120に記録されたフォーマットDBを読み込み、解析し、フォーマットDBから認識対象領域260の矩形座標と、帳票101裏面の画像データのラベルを抽出する(ステップS212)。
次に、認識対象領域分割部219が、抽出された帳票201の裏面画像のラベル(第2のラベル)を参照し(ステップS213)、例えば図17に示すようにラベルサイズに基づいて認識対象領域260を複数に分割する(ステップS214)。具体的には、図17に示すように、1行単位で文字が連なって文章が形成されているものをグルーピングする。即ち、帳票201の裏面画像のラベルの位置(帳票上の高さ方向)がほぼ同じであり、相互の距離が所定の間隔以内のものを1つのグループとしてグルーピングする。グルーピングされたものをラベルグループとする。そして、ラベルグループの外接矩形をそれぞれのラベルグループごとの領域262、263とする。この裏面画像のラベルグループの領域262、263は、反転されて認識対象領域260の分割領域の1つとして決定される。図17は、認識対象領域260を示し、上記のラベルをグルーピングした領域262、263と、それ以外の領域264、265からなる。
そして、分割領域ごとにラベルサイズの最大値を抽出する(ステップS215)。次に、分割領域ごとに雑音閾値Thを変更する処理を行う。例えば、それぞれの分割領域に番号を振るとする。そして、初期値としてn=0とし(ステップSS216)、n=n+1の演算(ステップS217)により、まず、番号1の分割領域について雑音閾値Thを変更する。具体的には、番号1の分割領域における裏面ラベルサイズの最大値が、予め設定されている雑音閾値Thpreより大きく、かつ予め設定されている最大雑音閾値Thmaxよりも小さいかどうかを判断する(ステップS218)。そして、該当する場合、雑音閾値Thを裏面ラベルサイズの最大値に変更する(ステップS219)。
例えば、裏面画像のラベルをグルーピングした領域262、263は、裏面ラベルサイズの最大値が、予め設定されている雑音閾値Thpreより大きく、かつ予め設定されている最大雑音閾値Thmaxよりも小さい。また、領域262の裏面ラベルサイズの最大値が、領域263の裏面ラベルサイズの最大値よりも大きい。その結果、図17に示すように、領域262の雑音閾値Thは大きく設定され、領域263の雑音閾値Thは領域262よりも小さく設定され、裏面画像のラベルをグルーピングした領域262、263以外の領域264、265については、予め設定されている雑音閾値Thpreに決定される。
次に、ラベリング部216が帳票201表面における認識対象領域260の分割領域n=1のラベル(第1のラベル)を抽出する(ステップS220)。そして、雑音判断部217及び雑音除去部218が、雑音閾値Thよりも低い値を有するラベルを除去する(ステップS221)。そして、分割領域の数に到達するまで、上記のステップS217〜ステップS221を繰り返して、分割領域ごとに雑音閾値を変更する(ステップS222)。
次に、認識対象領域作成部115が、認識対象領域260の矩形座標に基づいて認識対象領域260を作成する(ステップS223)。そして、図16に示すような認識対象領域260に対して文字認識部140が文字認識を行い(ステップS224)、出力形成部150が認識結果を出力する(ステップS225)。
本実施形態によれば、フォーマットとして認識対象領域260の位置に該当する帳票201裏面の画像データのラベルを予め登録し、帳票201の読取り時に、認識対象領域260を複数に分割した後、分割領域ごとに雑音閾値を変更して雑音除去を実施する。その結果、帳票201表面の文字を正確に認識することができる。また、分割領域ごとに雑音除去をするために必要な雑音閾値Thを設定するため、帳票201表面上の比較的小さな文字や記号(例えば、゛(濁点)等)を雑音と誤って判断して除去してしまう可能性を低減することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
従来の文字認識装置を示すブロック図である。 従来のレイアウト解析部を示すブロック図である。 従来の文字認識装置のフォーマットDB作成処理を示すフローチャートである。 従来の文字認識装置の文字認識処理を示すフローチャートである。 従来の文字認識装置の文字認識処理で読み取られる帳票を示す説明図である。 従来の文字認識装置の文字認識処理を示すフローチャートである。 従来の文字認識装置の文字認識処理で読み取られる帳票を示す説明図である。 本発明の第1の実施形態に係る文字認識装置を示すブロック図である。 同実施形態のレイアウト解析部を示すブロック図である。 同実施形態に係る文字認識装置のフォーマットDB作成処理を示すフローチャートである。 同実施形態に係る文字認識装置の文字認識処理を示すフローチャートである。 同実施形態に係る文字認識装置のフォーマットDB作成処理及び文字認識処理で読み取られる帳票を示す説明図である。 本発明の第2の実施形態のレイアウト解析部を示すブロック図である。 同実施形態に係る文字認識装置のフォーマットDB作成処理を示すフローチャートである。 同実施形態に係る文字認識装置の文字認識処理を示すフローチャートである。 同実施形態に係る文字認識装置の文字認識処理を示すフローチャートである。 同実施形態に係る文字認識装置のフォーマットDB作成処理及び文字認識処理で読み取られる帳票を示す説明図である。 同実施形態の認識対象領域を示す説明図である。
符号の説明
100、200 文字認識装置
102 画像入力部
110 レイアウト解析部
111 制御部
112 認識対象領域矩形座標設定部
113 フォーマットDB作成部
114 フォーマットDB解析部
115 認識対象領域作成部
116 罫線検出部
117 表裏面罫線一致判定部
118 罫線除去部
120 記録部
130 入力装置
140 文字認識部
150 出力形成部
216 ラベリング部
217 雑音判断部
218 雑音除去部
219 認識対象領域分割部
220 雑音閾値変更部

Claims (11)

  1. 読取り対象となる帳票の表面に対して裏面側の裏面画像に基づく情報が予め記録された記録部と、
    前記帳票の表面を読取る画像入力部と、
    前記画像入力部で読取られた表面画像に前記帳票の裏面の罫線の位置情報を反転させた情報と一致する罫線が検出された場合、前記表面画像か雑音画像を前記情報の少なくとも一部を用いて除去する雑音除去部と、
    前記雑音画像が除去された表面画像から前記帳票の表面に記載された画像を認識する画像認識部と、
    を備え
    前記裏面画像に基づく情報は罫線の位置情報であり、
    前記記録部に複数の帳票に対応させて帳票ごとの表面と裏面の罫線の位置情報を記録し、
    前記雑音除去部は、予め記録された裏面の罫線の位置と一致する罫線を除去し、
    前記画像認識部は、前記雑音画像が除去された表面画像の罫線と予め記録された帳票ごとの表面の罫線とを比較してどの帳票かを特定する
    ことを特徴とする、画像認識装置。
  2. 前記記録部に表面画像に基づく罫線の位置情報を記録し、
    前記雑音除去部は、予め記録した裏面の罫線と表面の罫線の位置が重なる場合は、重なる部分の罫線を除去しない
    ことを特徴とする、請求項に記載の画像認識装置。
  3. 前記記録部に前記帳票の文字認識対象領域を記録し、
    前記雑音除去部は前記文字認識対象領域内に対して裏面の罫線と一致する罫線を除去し、
    前記画像認識部は文字認識対象領域内の文字を認識する
    ことを特徴とする、請求項に記載の画像認識装置。
  4. 読取り対象となる帳票の表面に対して裏面側の裏面画像に基づく情報が予め記録された記録部と、
    前記帳票の表面を読取る画像入力部と、
    前記画像入力部で読取られた表面画像の、前記帳票の裏面の文字の位置情報を反転させた領域について、前記表面画像か雑音画像を前記情報の少なくとも一部を用いて除去する雑音除去部と、
    前記雑音画像が除去された表面画像から前記帳票の表面に記載された画像を認識する画像認識部と、
    前記画像入力部で読取られた表面画像をラベリング処理して第1のラベルを生成するラベリング部と、
    を備え
    前記雑音除去部が、ラベルのサイズが閾値を下回る場合に雑音と判断するための雑音閾値に基づいて前記第1のラベルを除去することによって前記雑音画像を除去する
    ことを特徴とする、画像認識装置。
  5. 前記ラベリング部は、前記記録部に記録された裏面画像をラベリング処理し第2のラベルを生成し、
    前記第2のラベルに基づいて前記雑音閾値を変更する雑音閾値変更部を備え、
    前記雑音閾値変更部は、前記第2のラベルのサイズが前記雑音閾値より大きい場合に当該雑音閾値を大きく変更し、
    前記雑音除去部は、前記変更された雑音閾値に基づいて前記雑音画像を除去する
    ことを特徴とする、請求項に記載の画像認識装置。
  6. 前記第2のラベルに基づいて、前記画像入力部で読取られた表面画像を複数の領域に分割する領域分割部を備え、
    前記雑音閾値変更部は、前記複数の領域ごとに前記雑音閾値を変更する
    ことを特徴とする、請求項に記載の画像認識装置。
  7. 前記雑音除去部は、前記雑音画像を判別するための雑音閾値を用いて、前記画像入力部で読取られた表面画像の、前記帳票の裏面の文字の位置情報を反転させた領域について前記雑音画像を除去し、
    前記画像認識装置は、前記雑音閾値を変更する雑音閾値変更部をさらに備える
    ことを特徴とする、請求項に記載の画像認識装置。
  8. 前記裏面画像に基づく情報は文字の情報である
    ことを特徴とする、請求項1又は4に記載の画像認識装置。
  9. 読取り対象となる帳票の表面に対して裏面側の裏面画像を記録するステップと、
    前記帳票の表面を読取るステップと、
    前記読取られた表面画像に前記帳票の裏面の罫線の位置情報を反転させた情報と一致する罫線が検出された場合、前記表面画像か雑音画像を除去するステップと、
    前記雑音画像が除去された表面画像から前記帳票の表面に記載された画像を認識するステップと、
    を含み、
    前記裏面画像に基づく情報は罫線の位置情報であり、
    前記記録するステップでは複数の帳票に対応させて帳票ごとの表面と裏面の罫線の位置情報を記録し、
    前記除去するステップでは予め記録された裏面の罫線の位置と一致する罫線を除去し、
    前記認識するステップでは前記雑音画像が除去された表面画像の罫線と予め記録された帳票ごとの表面の罫線とを比較してどの帳票かを特定する
    ことを特徴とする、画像認識方法。
  10. 読取り対象となる帳票の表面に対して裏面側の裏面画像を記録するステップと、
    前記帳票の表面を読取るステップと、
    前記読取られた表面画像の、前記帳票の裏面の文字の位置情報を反転させた領域について、前記表面画像か雑音画像を除去するステップと、
    前記雑音画像が除去された表面画像から前記帳票の表面に記載された画像を認識するステップと、
    前記画像入力部で読取られた表面画像をラベリング処理して第1のラベルを生成するステップと、
    を含み、
    前記除去するステップでは、ラベルのサイズが閾値を下回る場合に雑音と判断するための雑音閾値に基づいて前記第1のラベルを除去することによって前記雑音画像を除去する
    ことを特徴とする、画像認識方法。
  11. 請求項9又は10に記載の画像認識方法をコンピュータに実現させるためのプログラム。
JP2007287392A 2007-11-05 2007-11-05 画像認識装置、画像認識方法及びプログラム Active JP4867894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007287392A JP4867894B2 (ja) 2007-11-05 2007-11-05 画像認識装置、画像認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007287392A JP4867894B2 (ja) 2007-11-05 2007-11-05 画像認識装置、画像認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009116520A JP2009116520A (ja) 2009-05-28
JP4867894B2 true JP4867894B2 (ja) 2012-02-01

Family

ID=40783622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007287392A Active JP4867894B2 (ja) 2007-11-05 2007-11-05 画像認識装置、画像認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4867894B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090418A (ja) * 2009-10-21 2011-05-06 Toshiba Corp 帳票読取装置およびプログラム
JP2021047693A (ja) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 情報処理装置及びプログラム
CN111914835A (zh) * 2020-07-04 2020-11-10 中信银行股份有限公司 票据要素提取方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666216A (ja) * 1992-08-17 1994-03-08 Yanmar Diesel Engine Co Ltd 燃料オートリターン装置
JPH07105312A (ja) * 1993-10-07 1995-04-21 Fujitsu Ltd 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP3359180B2 (ja) * 1995-03-28 2002-12-24 キヤノン株式会社 画像読取装置及び画像読取方法
JP2000059630A (ja) * 1998-08-07 2000-02-25 Ricoh Co Ltd 画像記録方法及び画像記録プログラムを記録した媒体
JP3904840B2 (ja) * 2000-08-15 2007-04-11 富士通株式会社 多値画像から罫線を抽出する罫線抽出装置
JP4265421B2 (ja) * 2004-01-30 2009-05-20 富士ゼロックス株式会社 印刷画像検査方法
JP2006085463A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 文字認識装置およびその認識方法
JP2006215964A (ja) * 2005-02-07 2006-08-17 Toshiba Corp 文字認識装置

Also Published As

Publication number Publication date
JP2009116520A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
US7970213B1 (en) Method and system for improving the recognition of text in an image
JP2951814B2 (ja) 画像抽出方式
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
US20030198386A1 (en) System and method for identifying and extracting character strings from captured image data
US8452133B2 (en) Underline removal apparatus
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
CN101122953A (zh) 一种图片文字分割的方法
JPH08305796A (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
Kaundilya et al. Automated text extraction from images using OCR system
US20060078204A1 (en) Image processing apparatus and method generating binary image from a multilevel image
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
KR101793184B1 (ko) 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
JP4867894B2 (ja) 画像認識装置、画像認識方法及びプログラム
JPH09311905A (ja) 行検出方法および文字認識装置
JPH1031716A (ja) 文字行抽出方法および装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
JP4492258B2 (ja) 文字・図形の認識方法および検査方法
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP4078045B2 (ja) 画像処理装置、方法、プログラム、及び記憶媒体
Gayashan et al. Old Sinhala newspaper article segmentation for content recognition using image processing
Chitrakala et al. An efficient character segmentation based on VNP algorithm
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP7532124B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4882929B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4867894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3