JP3913985B2 - 文書画像中の基本成分に基づく文字列抽出装置および方法 - Google Patents

文書画像中の基本成分に基づく文字列抽出装置および方法 Download PDF

Info

Publication number
JP3913985B2
JP3913985B2 JP2000611236A JP2000611236A JP3913985B2 JP 3913985 B2 JP3913985 B2 JP 3913985B2 JP 2000611236 A JP2000611236 A JP 2000611236A JP 2000611236 A JP2000611236 A JP 2000611236A JP 3913985 B2 JP3913985 B2 JP 3913985B2
Authority
JP
Japan
Prior art keywords
character
component
basic
character string
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000611236A
Other languages
English (en)
Inventor
克仁 藤本
洋 鎌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP3913985B2 publication Critical patent/JP3913985B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Description

本発明は、文書画像に含まれる文字、図形等の情報の基本成分に基づいて、文書画像から文字列を抽出する文字列抽出装置およびその方法に関する。
文書画像における文字列パターンは、1つ以上の文字パターンの並びに対応し、文字パターンは、任意の言語の文字、記号等のパターンに対応する。文字列抽出装置は、文書画像を入力とし、文書画像中の文字列パターンを抽出して、後段の文字コード化処理あるいは検索処理に提供する装置である。現在、二値文書画像を入力とする文字列抽出装置が製品として存在している。
また、近年、情報共有のための文書管理システムが注目されており、構造を持った電子化文書、構造を持たない生の画像文書、紙に記録された文書のような様々な文書の一元管理の仕組みが求められている。
そこで、構造を持たない画像文書や紙文書も含めた検索可能化技術として、文書画像から情報検索のためのテキスト情報を抽出する文字列抽出装置に対する期待が高まってきた。特に、写真を含むグレースケール文書やカラー文書が増加しているため、これらの文書から高精度に文字列を抽出する技術の必要性が増大している。
このような要求に応えるため、汎用性があり、様々な情報が混在した文書を扱うことが可能な文字列抽出技術がいくつか提案されている。これらの技術では、文書構造の先見的知識を必要とせず、図と文章領域の混在、文章の横書きと縦書きの混在、図中の文字列の抽出等が視野に入れられている。それらのうち代表的なものを次に説明することにする。
ただし、画像のぼかしを用いる方法、黒画素の投影分布を用いる方法、および局所領域の画像特徴を用いる方法は、段組の入り組んだ文字列や図中の文字列の抽出には適さないため、除外した。
従来の文字列抽出技術は、文字の一部または全部を表す画像パターンである文字成分の集合を何らかの方法で抽出し、その文字成分の大きさの同質性や相互の近接姓を用いて、文字成分の部分集合としての文字列を抽出するといったような、基本的考え方に基づいている。この場合、文字成分抽出の精度が文字列抽出の精度に大きな影響を与える。従来の文字成分抽出方法としては、以下のようなものがある。
文字成分抽出の第1の考え方は、文字、図形等の一部または全部を表す画像パターンである基本成分の集合を文書画像から何らかの方法で抽出し、その基本成分を大きさ・形状により分類して、文字成分のみ抽出することである。
例えば、公開特許公報の特開昭61−072374(文字認識装置)および特開昭61−026150(文書画像ファイル登録検索装置)では、文書画像中の文字の大きさがほぼ一定であるという前提を用いて、文字成分の抽出を行っている。
また、特開昭62−165284(文字列抽出方式)および特開平09−167233(画像処理方法および画像処理装置)では、二値画像における黒画素連結成分の外接矩形を基本成分とし、大きさが一定値以下の基本成分を文字成分とみなして抽出している。
また、特開平06−111060(光学的文字読取装置)では、カラー画像の色ごとの連結成分を基本成分とし、大きさが一定値以下の基本成分を文字成分とみなして抽出し、カラー画像中の文字列抽出を可能としている。
また、文字成分抽出の第2の考え方は、基本成分あるいは基本成分の集合から構成される文字列候補を文字認識あるいは文字列認識して得られた確信度を用いて、基本成分の集合を文字成分とそうでないものとに分類することである。
例えば、特開平05−028305(画像認識装置および認識方法)では、基本成分の近接性により文字列候補を生成し、文字認識結果の評価値により文字列らしいもののみを残して、基本成分の抽出ひいては文字列の抽出を行っている。
また、上述した第1および第2の考え方を併せ持つ方法も提案されている。例えば、特開平07−168911(文書認識装置)では、黒画素連結成分の外接矩形を基本成分とし、基本成分を大きさ・縦横比により文字候補・図形候補・罫線候補・画像候補に分類している。そして、文字候補を文字認識して得られた確信度が低い場合には、それを画像候補に変更し、図形候補を文字認識して得られた確信度が高い場合には、それを文字候補に変更して、文字成分を抽出している。
しかしながら、このような従来の文字列抽出技術では文字成分抽出の精度が充分ではなく、結果として文字列抽出自身の精度も充分ではないという問題がある。
第1の考え方では、文字と図形のように異なる種類の情報に対応する基本成分が同じ程度の大きさを持つ場合に、文字成分抽出に失敗し、結果的に文字列抽出にも失敗してしまう。このため、抽出精度が充分でなくなる。
第2の考え方では、このような場合でも、文字認識あるいは文字列認識を行うことにより、文字成分とそうでないものを区別できる可能性が高くなる。しかし、現在の文字認識技術の水準では、文字認識結果の確信度自身の信頼性がそれほど高くはない。
このため、高い信頼度で文字成分であると判定するための確信度のしきい値は、高い信頼度で文字成分ではないと判定するための確信度のしきい値と大きく異なる値に設定せざるを得ない。その結果、2つのしきい値の中間的な確信度を持つ基本成分に対する判定が困難となり、強引に文字成分である/文字成分ではないと判定した場合に、文字成分抽出の精度が充分でなくなる。
本発明の課題は、文書画像に含まれる基本成分を用いて、より正確に文字列を抽出する文字列抽出装置およびその方法を提供することである。
図1は、本発明の文字列抽出装置の原理図である。図1の文字列抽出装置は、基本成分抽出手段1、文字成分抽出手段2、および文字列抽出手段3を備える。基本成分抽出手段1は、入力された文書画像から基本成分の集合を抽出する。文字成分抽出手段2は、基本成分の集合に含まれる基本成分間の包含関係を用いて基本成分が文字成分に対応するか否かを判定し、文字成分の集合を抽出する。文字列抽出手段3は、文字成分の集合を用いて文字列を抽出する。
文書画像として、二値画像、多階調画像、カラー画像等が入力されると、基本成分抽出手段1は、画素連結成分、画素連結成分の外接矩形等を基本成分として抽出する。次に、文字成分抽出手段2は、抽出された基本成分間の包含関係を用いて、各基本成分が文字成分に対応するか否かを判定し、文字成分であると判定された基本成分の集合を文字成分の集合として抽出する。そして、文字列抽出手段3は、抽出された文字成分の集合から文字列に対応する文字成分を抽出する。
文字成分抽出手段2が用いる基本成分間の包含関係とは、文書画像内においてある基本成分が他の基本成分の内側に含まれるか、外側にあるか、他の基本成分と重なり合っているか等の2次元的な位置関係を表す。
文字成分抽出手段2は、例えば、所定数以上の基本成分を含む基本成分や、所定数以上の基本成分と重なり合っている基本成分や、何らかの方法により文字成分であると判定された基本成分を1つでも含むような基本成分は、文字成分ではないと判定する。
このように、基本成分の大きさ・形状、文字認識結果の確信度等だけでなく、基本成分間の包含関係も判定基準として用いることで、従来は正しく判定できなかった基本成分をも正しく判定することができる。したがって、文字成分抽出の精度ひいては文字列抽出の精度が向上する。
本発明の別の文字列抽出装置は、基本成分抽出手段1、文字成分抽出手段2、文字列抽出手段3、および文字認識手段を備える。基本成分抽出手段1は、入力された文書画像から基本成分の集合を抽出する。文字認識手段は、基本成分抽出手段1により抽出された基本成分の文字認識を行う。文字成分抽出手段2は、基本成分の集合に含まれる基本成分間の包含関係を用いて基本成分が文字成分に対応するか否かを判定し、文字成分の集合を抽出する。このとき、文字成分抽出手段2は、所定数以上の基本成分を含む基本成分、および、所定数以上の基本成分と重なり合っている基本成分を、文字成分ではないと判定する。文字列抽出手段3は、文字成分の集合を用いて文字列を抽出する。
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態においては、二値画像における黒画素連結成分の集合あるいはカラー画像における同一色画素の連結成分の集合のように、何らかの方法で得られた基本成分の集合に対して、基本成分間の包含関係を用いて文字成分であるか否かの判定を行う。そして、判定結果に基づいて文字成分の集合を抽出し、文字成分の集合から文字列を抽出する。
図2は、このような文字列抽出装置の構成図である。図2の文字列抽出装置は、基本成分抽出部11、文字成分抽出部12、および文字列抽出部13を備える。
基本成分抽出部11は、入力された文書画像から基本成分の集合を抽出する。文字成分抽出部12は、基本成分の集合を入力とし、基本成分間の包含関係を用いて各基本成分が文字成分であるか否かを判定し、文字成分を抽出する。また、文字列抽出部13は、例えば、文字成分の同質性あるいは近接性に基づいて、文字列に対応する文字成分の部分集合を求める。
基本成分には、文字成分、図形成分等が含まれる。文字成分は、文字の一部または全部を表す画像パターンであり、図形成分は、図形、写真、表等の一部または全部を表す画像パターンである。
例えば、図3のような二値画像において、黒画素連結成分の外接矩形を基本成分として採用し、図形21の外接矩形22と、文字“あ”、“い”、“う”、“え”、“お”の外接矩形23、24、25、26、27が抽出されたとする。この場合、外接矩形22は図形成分に対応し、外接矩形23、24、25、26、27は文字成分に対応するが、基本成分抽出部11は、これらを区別せずに、ともに基本成分として抽出する。
また、基本成分間の包含関係とは、文書画像内においてある基本成分が他の基本成分の内側に含まれるか、外側にあるか、他の基本成分と重なり合っているか等の2次元的な位置関係を表す。
例えば、図4に示すように、基本成分28が多くの他の基本成分を内側に含んでいる場合、基本成分28は図形成分に対応する可能性が高い。そこで、このような場合、文字成分抽出部12は、基本成分28を文字成分ではないと判定する。
また、図5に示すように、基本成分29が多くの他の基本成分30、31、32、33と重なり合っている場合、基本成分29は図形成分に対応する可能性が高い。そこで、このような場合、文字成分抽出部12は、基本成分29を文字成分ではないと判定する。
また、図3に示したように、基本成分が文字成分を含む場合、その基本成分は図形成分に対応する可能性が高い。そこで、文字成分抽出部12は、あらかじめ何らかの方法で文字成分と判定された基本成分を1つ以上含む基本成分を、文字成分ではないと判定する。
図6は、このような文字成分抽出処理のフローチャートである。文字成分抽出部12は、まず、基本成分の集合から1つの基本成分を取り出し(ステップS1)、それが所定数以上の基本成分を含むか否かをチェックする(ステップS2)。そして、その基本成分が所定数以上の基本成分を含んでいれば、それを文字成分の候補から除外する(ステップS7)。
基本成分が所定数以上の基本成分を含んでいなければ、次に、それが所定数以上の基本成分と重なり合っているか否かをチェックする(ステップS3)。そして、その基本成分が所定数以上の基本成分と重なり合っていれば、それを文字成分の候補から除外する(ステップS7)。
基本成分が所定数以上の基本成分と重なり合っていなければ、次に、それが1つ以上の文字成分を含むか否かをチェックする(ステップS4)。そして、その基本成分が文字成分を含んでいれば、それを文字成分の候補から除外する(ステップS7)。
基本成分が文字成分の候補から除外された場合、あるいはステップS4において基本成分が文字成分を含んでいない場合、判定対象となる次の基本成分があるか否かをチェックする(ステップS5)。次の基本成分があれば、その基本成分についてステップS1以降の処理を繰り返す。
そして、次の基本成分がなくなると、文字成分の候補として残された基本成分の集合から、任意の方法により文字成分の集合を抽出して(ステップS6)、処理を終了する。
ステップS4の判定を行うために、例えば、各基本成分をあらかじめ文字認識しておくことが考えられる。この場合、入力された基本成分は、高い信頼度で文字成分であると判定されたものとそうでないものとに分類される。
図7は、このような文字成分抽出処理を行う構成を示している。文字成分抽出部12は、入力された基本成分の集合を文字認識部41に渡し、認識結果を受け取る。認識結果には、認識された文字の種類を表す情報と、認識処理の確信度とが含まれる。
文字成分抽出部12は、所定のしきい値以上の確信度を持つ基本成分を文字成分であると判定し、判定結果を用いてステップS4の判定を行う。このとき、ステップS4の判定精度を高めるため、確信度のしきい値として比較的厳しい値を用いることにする。
ところで、文字成分を含む基本成分が文字成分に対応する場合も有り得る。例えば、図8に示す文字“話”の画像の場合、“話”の外接矩形51は、“話”を構成する6つの部分の外接矩形52、53、54、55、56、57を含んでいる。このうち、外接矩形52〜55は文字“一”に対応し、外接矩形56は文字“口”に対応し、外接矩形57は文字“舌”に対応する。この場合、ステップS4の判定によれば、外接矩形51は文字成分ではないと判定されてしまう。
そこで、基本成分が“一”、“口”等の単純な文字に対応する文字成分を含む場合、その基本成分を文字成分の候補から除外しない等の例外処理を付加することが望ましい。基本成分が単純な文字に対応するかどうかは、文字認識等によりチェックすることができる。あるいは、基本成分に含まれる文字成分の大きさに対する基本成分の大きさの比率を求め、それが所定値以上の場合に、基本成分を文字成分ではないと判定してもよい。
また、あらかじめ文字成分の判定を行う方法としては、公開特許公報の特開昭61−026149(文書画像ファイル登録検索装置)に開示されている方法を用いることもできる。この方法によれば、黒画素数と黒ラン(連続して一列に配置された黒画素)の連結数を用いて、文字ストローク領域が識別される。
ステップS6の文字成分抽出においては、基本成分の大きさ・形状、あるいは文字認識結果の確信度等を判定基準として文字成分であるか否かが判定され、文字成分と判定されたものが次の文字列抽出処理に出力される。
従来の文字成分抽出処理ではステップS6の処理のみが行われていたが、本実施形態では、基本成分間の包含関係も判定基準として活用している。このため、従来は正しく判定できなかった基本成分をも正しく判定することができ、文字成分抽出の精度ひいては文字列抽出の精度を向上させることができる。
こうして文字成分が抽出されると、文字列抽出部13は、例えば、先願の特願平10−146926(文書画像認識装置および文書画像認識プログラムの記憶媒体)に開示された方法を用いて、文字成分の集合から文字列を抽出する。この方法では、文字成分の大きさ・間隔が類似していることを表す同質性や、文字成分の大きさに比較して文字成分間の距離が小さいことを表す近接性に基づいて、文字列としての信頼度が評価される。さらに、文字成分の色等の他の性質に関する同質性を用いて、文字列としての信頼度を評価してもよい。
このように、大きさ、間隔、色等が互いに類似している文字成分や、互いに近接している文字成分は、同じ文字列に属する文字を表しているものとみなされ、これらの文字成分の集合は1つの文字列として出力される。
また、文字成分抽出部12と文字列抽出部13が相互に作用することで、文字列抽出の精度をさらに向上させることも可能である。この場合、文字列抽出装置は、文字列認識の確信度が高い文字列に含まれる文字成分のみを真の文字成分であるとみなし、それ以外の文字列に含まれる文字成分を文字成分ではないと判定し直して、再度、文字列抽出を行う。
図9は、このような文字列抽出処理を行う構成を示している。文字成分抽出部12は、入力された基本成分の集合を文字認識部41に渡し、上述したような認識結果を受け取る。そして、所定のしきい値以上の確信度を持つ基本成分を文字成分であると判定し、判定結果を用いてステップS4の判定を行う。
文字列抽出部13は、図10に示すような文字列抽出処理を行う。文字列抽出部13は、まず、文字成分抽出部12から文字成分の集合を受け取り、文字成分の同質性や近接性に基づいて文字列を抽出する(ステップS11)。そして、文字列抽出の結果得られた文字列集合を文字列認識部61に渡し、認識結果を受け取る(ステップS12)。
このとき、文字列認識部61は、文字認識、文字列認識等を行って、認識された文字列を表す情報と認識処理の確信度とを、認識結果として文字列抽出部13に返す。
次に、文字列抽出部13は、所定のしきい値以上の確信度を持つ文字列を抽出し、それらに含まれる文字成分を選択して、文字成分抽出部12に渡す(ステップS13)。
文字成分抽出部12は、例えば、文字列抽出部13から受け取った文字成分を真の文字成分であると判定し、それ以外の文字成分を文字成分ではないと判定する。そして、新たな文字成分の集合を生成して、再度、文字列抽出部13に出力する。これを受けて、文字列抽出部13は、新たな文字成分の集合から文字列を抽出し(ステップS14)、処理を終了する。
このように、文字成分抽出部12と文字列抽出部13が相互に作用して文字列抽出を繰り返すことにより、文字成分抽出および文字列抽出の精度が向上する。例えば、1回目の文字列抽出において順位の低かった候補を、2回目の文字列抽出において文字列と判定することができるようになる。ここでは、文字列抽出を2回行っているが、同様にして、これを3回以上繰り返してもよい。
次に、図11から図16までを参照しながら、図2の基本成分抽出部11の構成について説明する。
図11の基本成分抽出部は、連結成分抽出部71を含む。文書画像として二値画像が入力されたとき、連結成分抽出部71は、入力画像から黒画素連結成分を抽出し、それを基本成分として出力する。また、グレースケール文書のような多階調画像が入力されたとき、入力画像から画素レベルがほぼ同一である画素の連結成分を抽出し、それを基本成分として出力する。また、カラー文書のようなカラー画像が入力されたとき、入力画像から色がほぼ同一である画素の連結成分を抽出し、それを基本成分として出力する。
多階調画像の場合は、例えば、あらかじめ画素の階調レベルを複数の範囲に分類しておき、1つの範囲に属する階調レベルを持つ隣接画素を連結して、画素連結成分を生成すればよい。また、カラー画像の場合は、例えば、あらかじめ画素の色情報(RGBの値)を複数の範囲に分類しておき、1つの範囲に属する色情報を持つ隣接画素を連結して、画素連結成分を生成すればよい。
このような基本成分抽出部によれば、二値画像だけでなく、多階調画像あるいはカラー画像からも基本成分を抽出することができ、これらの文書画像から文字列を抽出することができる。
図12の基本成分抽出部は、連結成分抽出部71と外接矩形生成部72を含む。連結成分抽出部71の処理については、図11の場合と同様である。外接矩形生成部72は、入力された画素連結成分に外接する矩形を生成し、それを基本成分として出力する。
外接矩形の形状は画素連結成分の形状より簡略化されているため、基本成分間の包含関係のチェックがより簡単になり、文字成分抽出、文字列抽出等の後処理が高速化される。外接矩形の代わりに、他の多角形、円、楕円等の任意の外接図形を用いることもできる。
図13の基本成分抽出部は、連結成分抽出部71、外接矩形生成部72、および二値画像生成部73を含む。連結成分抽出部71と外接矩形生成部72の処理については、図12の場合と同様である。二値画像生成部73は、入力された外接矩形に含まれる多階調画像あるいはカラー画像を二値化して二値画像を生成し、連結成分抽出部71に出力する。
二値画像生成部73は、例えば、先願の特願平10−353045(カラー文書画像認識装置)に開示された方法を用いて、多階調画像あるいはカラー画像から二値画像を生成する。この方法では、各画素の明度成分が所定のしきい値で二値化され、描画領域に対応する値と背景領域に対応する値のいずれか一方を持つ画素から構成される二値画像が生成される。
連結成分抽出部71は、入力された二値画像から同じ値を持つ画素の連結成分を抽出し、それを基本成分として出力する。あるいは、外接矩形生成部72が、得られた画素連結成分の外接矩形を生成し、それを基本成分として出力することもできる。
このような基本成分抽出部によれば、多階調画像あるいはカラー画像の基本成分に対応する部分が二値化された後に基本成分が抽出されるため、より精密に基本成分を抽出することができる。
図14の基本成分抽出部は、二値画像生成部74と連結成分抽出部75を含む。二値画像生成部74は、入力された多階調画像あるいはカラー画像からエッジ二値画像を生成し、連結成分抽出部75は、エッジ二値画像から同じ値を持つ画素の連結成分(エッジ連結成分)を抽出し、それを基本成分として出力する。
二値画像生成部74は、例えば、上述の特願平10−353045に開示された方法を用いて、多階調画像あるいはカラー画像からエッジ二値画像を生成する。この方法では、エッジ抽出処理によりエッジ強度画像あるいはエッジ方向画像が生成され、得られた画像が所定のしきい値で二値化されて、エッジ二値画像が生成される。エッジ抽出処理には、ソーベルフィルタ、ラプラシアンフィルタ等が用いられる。
このような基本成分抽出部によれば、エッジ抽出により多階調画像あるいはカラー画像の描画領域の輪郭が抽出されるため、より精密に基本成分を抽出することができる。
図15の基本成分抽出部は、二値画像生成部74、連結成分抽出部75、および外接矩形生成部72を含む。二値画像生成部74と連結成分抽出部75の処理については、図14の場合と同様である。外接矩形生成部72は、入力されたエッジ連結成分に外接する矩形を生成し、それを基本成分として出力する。
図16の基本成分抽出部は、二値画像生成部74、連結成分抽出部75、外接矩形生成部72、および二値画像生成部73を含む。二値画像生成部74、連結成分抽出部75、および外接矩形生成部72の処理については、図15の場合と同様である。二値画像生成部73は、入力された外接矩形に含まれる多階調画像あるいはカラー画像を二値化して二値画像を生成し、連結成分抽出部75に出力する。
連結成分抽出部71は、入力された二値画像から同じ値を持つ画素の連結成分を抽出し、それを基本成分として出力する。あるいは、外接矩形生成部72が、得られた画素連結成分の外接矩形を生成し、それを基本成分として出力することもできる。
このように、図11から図16に示した基本成分抽出部によれば、文書画像として多階調画像あるいはカラー画像が入力された場合でも、基本成分を抽出することができ、それに基づいて文字成分および文字列を抽出することができる。
特に、図16の基本成分抽出部と図7の構成を組み合わせれば、二値化により得られる精密な基本成分に対して文字認識が行われ、認識結果に基づいて基本成分間の包含関係がチェックされるため、より高精度な文字成分抽出および文字列抽出が可能となる。また、図16の基本成分抽出部と図9の構成を組み合わせれば、文字成分抽出部と文字列抽出部の相互作用により、さらに高精度な文字成分抽出および文字列抽出が可能となる。
ところで、上述した文字列抽出装置は、図17に示すような情報処理装置(コンピュータ)を用いて構成することができる。図17の情報処理装置は、CPU(中央処理装置)81、メモリ88、入力装置83、出力装置84、外部記憶装置85、媒体駆動装置86、およびネットワーク接続装置87を備え、それらはバス88により互いに接続されている。
メモリ82は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、処理に用いられるプログラムとデータを格納する。CPU81は、メモリ82を利用してプログラムを実行することにより、必要な処理を行う。
この場合、図2の基本成分抽出部11、文字成分抽出部12、文字列抽出部13、図7の文字認識部41、および図9の文字列認識部61は、メモリ82に格納されたプログラムに対応するソフトウエアコンポーネントとして実装される。
入力装置83は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置84は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。
外部記憶装置85は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-optical disk)装置等である。情報処理装置は、この外部記憶装置85に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ82にロードして使用することができる。
媒体駆動装置86は、可搬記録媒体89を駆動し、その記録内容にアクセスする。可搬記録媒体89としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等、任意のコンピュータ読み取り可能な記録媒体が用いられる。ユーザは、この可搬記録媒体89に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ82にロードして使用することができる。
ネットワーク接続装置87は、LAN(local area network)等の任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、ネットワーク接続装置87を介して上述のプログラムとデータを外部の装置から受け取り、それらをメモリ82にロードして使用することができる。
図18は、図17の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体89や外部のデータベース90に保存されたプログラムとデータは、メモリ82にロードされる。そして、CPU81は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
本発明によれば、文書画像の基本成分が文字成分であるか否かの判定において、従来は正しく判定できなかった基本成分をも正しく判定することができ、文字成分抽出の精度ひいては文字列抽出の精度を向上させることができる。
本発明の文字列抽出装置の原理図である。 文字列抽出装置の構成図である。 文字成分と図形成分を示す図である。 基本成分を含む基本成分を示す図である。 互いに重なり合う基本成分を示す図である。 文字成分抽出処理のフローチャートである。 文字認識に基づく文字成分抽出を示す図である。 文字成分を含む文字成分を示す図である。 文字列認識に基づく文字列抽出を示す図である。 文字列抽出処理のフローチャートである。 第1の基本成分抽出部を示す図である。 第2の基本成分抽出部を示す図である。 第3の基本成分抽出部を示す図である。 第4の基本成分抽出部を示す図である。 第5の基本成分抽出部を示す図である。 第6の基本成分抽出部を示す図である。 情報処理装置の構成図である。 記録媒体を示す図である。

Claims (11)

  1. 入力された文書画像から基本成分の集合を抽出する基本成分抽出手段と、
    前記基本成分の集合に含まれる基本成分間の包含関係を用いて基本成分が文字成分に対応するか否かを判定し、文字成分の集合を抽出する文字成分抽出手段と、
    前記文字成分の集合を用いて文字列を抽出する文字列抽出手段とを備え、
    前記文字成分抽出手段は、所定数以上の基本成分を含む基本成分、および、所定数以上の基本成分と重なり合っている基本成分を、文字成分ではないと判定することを特徴とする文字列抽出装置。
  2. 前記文字列抽出手段により抽出された文字列の認識を行って、文字列の確信度を求める文字列認識手段をさらに備え、前記文字成分抽出手段は、所定のしきい値以上の確信度を持つ文字列に含まれる文字成分を真の文字成分であると判定し、該しきい値より小さい確信度を持つ文字列に含まれる文字成分を文字成分ではないと判定して、新たな文字成分の集合を抽出し、該文字列抽出手段は、該新たな文字成分の集合を用いて、再度、文字列を抽出することを特徴とする請求項記載の文字列抽出装置。
  3. 前記文字成分抽出手段と文字列抽出手段は、新たな文字成分の集合の抽出と文字列の再抽出を複数回繰り返すことを特徴とする請求項記載の文字列抽出装置。
  4. 前記基本成分抽出手段は、前記文書画像として多階調画像が入力されたとき、該多階調画像において所定の範囲の階調レベルを持つ画素の連結成分を求め、該連結成分および該連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  5. 前記基本成分抽出手段は、前記文書画像としてカラー画像が入力されたとき、該カラー画像において所定の範囲の色情報を持つ画素の連結成分を求め、該連結成分および該連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  6. 前記基本成分抽出手段は、前記文書画像として多階調画像が入力されたとき、該多階調画像において所定の範囲の階調レベルを持つ画素の連結成分を求め、該連結成分の外接図形に含まれる画像を二値化して二値画像を生成し、得られた二値画像における画素連結成分および該画素連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  7. 前記基本成分抽出手段は、前記文書画像としてカラー画像が入力されたとき、該カラー画像において所定の範囲の色情報を持つ画素の連結成分を求め、該連結成分の外接図形に含まれる画像を二値化して二値画像を生成し、得られた二値画像における画素連結成分および該画素連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  8. 前記基本成分抽出手段は、前記文書画像として多階調画像およびカラー画像のうちの一方が入力されたとき、該文書画像のエッジ二値画像を生成し、得られたエッジ二値画像におけるエッジ連結成分を求め、該エッジ連結成分および該エッジ連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  9. 前記基本成分抽出手段は、前記文書画像として多階調画像およびカラー画像のうちの一方が入力されたとき、該文書画像のエッジ二値画像を生成し、得られたエッジ二値画像におけるエッジ連結成分を求め、該エッジ連結成分の外接図形に含まれる画像を二値化して二値画像を生成し、得られた二値画像における画素連結成分および該画素連結成分の外接図形のうち少なくとも一方を基本成分として抽出することを特徴とする請求項2または3記載の文字列抽出装置。
  10. 入力された文書画像に含まれる文字成分の集合に基づいて文字列を抽出するコンピュータのためのプログラムを記録した記録媒体であって、
    前記文書画像から基本成分の集合を抽出するステップと、
    前記文書画像に含まれる基本成分間の包含関係を用いて基本成分が文字成分に対応するか否かを判定するステップと、
    所定数以上の基本成分を含む基本成分を、文字成分ではないと判定するステップと、
    判定結果に基づいて前記文字成分の集合を抽出するステップと、
    前記文字成分の集合を用いて文字列を抽出するステップと
    抽出された文字列の認識を行って文字列の確信度を求めるステップと、
    所定のしきい値以上の確信度を持つ文字列に含まれる文字成分を真の文字成分であると判定し、該しきい値より小さい確信度を持つ文字列に含まれる文字成分を文字成分ではないと判定して、新たな文字成分の集合を抽出するステップと、
    前記新たな文字成分の集合を用いて、再度、文字列を抽出するステップと
    を含む処理を前記コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. 入力された文書画像から基本成分の集合を抽出し、
    前記基本成分の集合に含まれる基本成分間の包含関係を用いて基本成分が文字成分に対応するか否かを判定し、
    所定数以上の基本成分を含む基本成分を、文字成分ではないと判定し、
    判定結果に基づいて文字成分の集合を抽出し、
    前記文字成分の集合を用いて文字列を抽出し、
    抽出された文字列の認識を行って文字列の確信度を求め、
    所定のしきい値以上の確信度を持つ文字列に含まれる文字成分を真の文字成分であると判定し、該しきい値より小さい確信度を持つ文字列に含まれる文字成分を文字成分ではないと判定して、新たな文字成分の集合を抽出し、
    前記新たな文字成分の集合を用いて、再度、文字列を抽出する
    ことを特徴とする文字列抽出方法。
JP2000611236A 1999-04-14 1999-04-14 文書画像中の基本成分に基づく文字列抽出装置および方法 Expired - Fee Related JP3913985B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/001986 WO2000062243A1 (fr) 1999-04-14 1999-04-14 Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document

Publications (1)

Publication Number Publication Date
JP3913985B2 true JP3913985B2 (ja) 2007-05-09

Family

ID=14235475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000611236A Expired - Fee Related JP3913985B2 (ja) 1999-04-14 1999-04-14 文書画像中の基本成分に基づく文字列抽出装置および方法

Country Status (3)

Country Link
US (1) US6701015B2 (ja)
JP (1) JP3913985B2 (ja)
WO (1) WO2000062243A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447113B2 (en) 2008-11-12 2013-05-21 Fujitsu Limited Character area extracting device, imaging device having character area extracting function, recording medium saving character area extracting programs, and character area extracting method

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080057386A1 (en) * 2002-10-15 2008-03-06 Polyplus Battery Company Ionically conductive membranes for protection of active metal anodes and battery cells
US7428700B2 (en) * 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
JP4587698B2 (ja) * 2004-04-21 2010-11-24 オムロン株式会社 文字成分抽出装置
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP4543873B2 (ja) 2004-10-18 2010-09-15 ソニー株式会社 画像処理装置および処理方法
KR100727961B1 (ko) * 2005-07-29 2007-06-13 삼성전자주식회사 N-업 디스플레이 방법 및 장치, 그를 이용한 화상 형성장치
US7557963B2 (en) * 2005-08-12 2009-07-07 Seiko Epson Corporation Label aided copy enhancement
US7596270B2 (en) * 2005-09-23 2009-09-29 Dynacomware Taiwan Inc. Method of shuffling text in an Asian document image
FR2895622A1 (fr) * 2005-12-27 2007-06-29 France Telecom Interfonctionnement de services de telephonie sur ip
US20070253040A1 (en) * 2006-04-28 2007-11-01 Eastman Kodak Company Color scanning to enhance bitonal image
US7873215B2 (en) * 2007-06-27 2011-01-18 Seiko Epson Corporation Precise identification of text pixels from scanned document images
CN101436248B (zh) * 2007-11-14 2012-10-24 佳能株式会社 用于根据图像生成文本字符串的方法和设备
JP4960897B2 (ja) 2008-01-30 2012-06-27 株式会社リコー 画像処理装置、画像処理方法、プログラム、記憶媒体
JP4549400B2 (ja) * 2008-03-04 2010-09-22 富士通株式会社 文書認識プログラム、文書認識装置、および文書認識方法
JP4998496B2 (ja) 2009-03-16 2012-08-15 富士ゼロックス株式会社 画像処理装置、情報処理装置および画像読取装置
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
US10210384B2 (en) * 2016-07-25 2019-02-19 Intuit Inc. Optical character recognition (OCR) accuracy by combining results across video frames

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448692A (en) * 1991-03-27 1995-09-05 Ricoh Company, Ltd. Digital image processing device involving processing of areas of image, based on respective contour line traces
IL98293A (en) * 1991-05-28 1994-04-12 Scitex Corp Ltd A method for distinguishing between text and graphics
JPH0528305A (ja) * 1991-07-24 1993-02-05 Fujitsu Ltd 画像認識装置及び認識方法
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
EP0633539B1 (en) * 1993-06-30 2001-02-21 Canon Kabushiki Kaisha Document processing method and apparatus
JPH07168911A (ja) * 1993-12-16 1995-07-04 Matsushita Electric Ind Co Ltd 文書認識装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
JPH0855188A (ja) * 1994-06-06 1996-02-27 Toshiba Corp 文字認識方式
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
JP3476595B2 (ja) * 1995-06-26 2003-12-10 シャープ株式会社 画像領域分割方法、および画像2値化方法
JP3689455B2 (ja) * 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JPH0981743A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 文字・図形処理装置及び文字・図形処理方法
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JP4071328B2 (ja) * 1997-11-18 2008-04-02 富士通株式会社 文書画像処理装置および方法
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP4100746B2 (ja) * 1998-01-09 2008-06-11 キヤノン株式会社 画像処理装置及び方法
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
KR100294924B1 (ko) * 1999-06-24 2001-07-12 윤종용 영상분할 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447113B2 (en) 2008-11-12 2013-05-21 Fujitsu Limited Character area extracting device, imaging device having character area extracting function, recording medium saving character area extracting programs, and character area extracting method

Also Published As

Publication number Publication date
WO2000062243A1 (fr) 2000-10-19
US6701015B2 (en) 2004-03-02
US20020012465A1 (en) 2002-01-31

Similar Documents

Publication Publication Date Title
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
EP0543599B1 (en) Method and apparatus for image hand markup detection
Jain et al. Document representation and its application to page decomposition
US8649600B2 (en) System and method for segmenting text lines in documents
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
KR100383372B1 (ko) 패턴 추출 장치, 패턴 추출 방법, 및 기억 매체
EP1971957B1 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
NO20161728A1 (en) Written text transformer
Demilew et al. Ancient Geez script recognition using deep learning
US10586125B2 (en) Line removal method, apparatus, and computer-readable medium
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
Nayak et al. Odia running text recognition using moment-based feature extraction and mean distance classification technique
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Rani et al. 2d morphable feature space for handwritten character recognition
Baig et al. Automatic segmentation and reconstruction of historical manuscripts in gradient domain
US10657404B2 (en) Character recognition device, character recognition method, and character recognition program
Qin et al. Laba: Logical layout analysis of book page images in arabic using multiple support vector machines
Chowdhury et al. Bengali handwriting recognition and conversion to editable text
US20090245658A1 (en) Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method
JP2011018311A (ja) 画像検索装置、画像検索プログラムおよび記録媒体
JP6503850B2 (ja) 範囲指定プログラム、範囲指定方法および範囲指定装置
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
Elmore et al. A morphological image preprocessing suite for ocr on natural scene images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140209

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees