JP5098504B2 - 文字認識プログラム、文字認識装置および文字認識方法 - Google Patents

文字認識プログラム、文字認識装置および文字認識方法 Download PDF

Info

Publication number
JP5098504B2
JP5098504B2 JP2007208612A JP2007208612A JP5098504B2 JP 5098504 B2 JP5098504 B2 JP 5098504B2 JP 2007208612 A JP2007208612 A JP 2007208612A JP 2007208612 A JP2007208612 A JP 2007208612A JP 5098504 B2 JP5098504 B2 JP 5098504B2
Authority
JP
Japan
Prior art keywords
character
partial
image
images
mesh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007208612A
Other languages
English (en)
Other versions
JP2009043102A (ja
Inventor
浩明 武部
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007208612A priority Critical patent/JP5098504B2/ja
Priority to US12/153,015 priority patent/US20090041361A1/en
Priority to CN2008101082592A priority patent/CN101364267B/zh
Publication of JP2009043102A publication Critical patent/JP2009043102A/ja
Application granted granted Critical
Publication of JP5098504B2 publication Critical patent/JP5098504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明は、入力画像内の文字を認識する文字認識プログラム、文字認識装置および文字認識方法であって、文字以外のパターンが重畳した文字画像を高精度に認識する文字認識プログラム、文字認識装置および文字認識方法に関するものである。
従来、文字認識で予め文字パターンやその特徴量を文字種別ごとに辞書として記憶しておき、認識対象画像との比較演算により類似度を求め、類似度の最も高い文字種別を認識結果として出力する手法が用いられてきた。
このように文字パターンの特徴量から文字種別を認識する場合、認識対象画像内で文字が他の文字や記号と接触していると、文字パターンの形状が損なわれて特徴量を正しく算出できず、認識精度が著しく低下する。これに対し、従来の技術では、接触した複数のパターンを分離して、文字認識を行なう技術が知られている。
例えば特許文献1は、互いに接触する複数の文字パターンから構成される文字列パターンに対して、文字列パターンの外内輪郭部で検出した切断線端点の候補から各文字パターンの切断線と見なされる線分を構成する切断線端点のペアを抽出し、このペアの切断線端点を結ぶ線分で文字パターンの切出しを行なうことで、複雑に入り組んで接触している文字列でも正確な文字の切出しを実現する文字認識装置を開示している。
また、特許文献2は、表形式の帳簿類を対象とした文字認識において、認識用辞書として罫線と接触しない文字用の辞書と、罫線と接触した文字用の辞書とを具備するとともに、認識対象領域における文字と罫線との接触の有無を判定し、判定結果に応じて文字認識に使用する辞書を選択することで、帳簿類の文字を高精度に認識する文字認識装置を開示している。
特開平6−111070号公報 特開2001−22889号公報
しかしながら、上述した特許文献1では、文字パターン同士の接触している場合や、丸中文字列のように特定形状と文字パターンが接触している場合にしか適用することができない。また、上述した特許文献2においても同様に、文字パターンが罫線と接触している場合にしか適用することができない。
すなわち、上述した従来技術では、文字パターンに対して接触するパターンの形状が不明である場合には、文字認識を十分に行なうことができないという問題点があった。このため、例えば、申込書やアンケートの選択肢欄で文字列や番号を直接手書きでマークさせ、これらの内容をコンピュータで読み取るためには、文字とマークが重複したパターンから正しく文字を認識する必要があるが、ユーザが行うマークは形状もさまざまであり、文字パターンとの接触の仕方もさまざまであるので、従来の技術では十分に認識することができなかった。
そこで、文字パターンとマークの重畳の形状に依存することなく、任意形状のパターンが重複した文字画像を高精度に文字認識する技術の実現が重要な課題となっていた。
本発明は、上述した従来技術における問題点を解消し、課題を解決するためになされたものであり、任意形状のパターンが重複した文字画像を高精度に文字認識する文字認識プログラム、文字認識装置および文字認識方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、入力画像内の文字を認識する文字認識において、入力画像を複数の部分入力画像に分割し、分割によって得られた複数の部分入力画像の各々について特徴量を算出する。そして、複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶した検索テーブルを参照し、部分入力画像の各々について特徴量が類似する部分文字画像を検索する。さらに検索によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する。そして抽出した文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が文字種別によって示された文字の構成要素であると認識する。
また、本発明は、上記発明において、複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成し、作成したグラフのクリークを文字候補として抽出することを特徴とする。
また、本発明は、上記発明において、抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に文字種別によって示された文字が存在すると認識することを特徴とする。
また、本発明は、上記発明において、検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶することを特徴とする。
また、本発明は、上記発明において、検索テーブルは、部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶することを特徴とする。
本発明によれば、入力画像内で文字パターンと重複していない部分入力画像を使用して文字領域の位置と文字カテゴリとを求めることができるので、任意形状のパターンが重複した文字画像を高精度に文字認識することができるという効果を奏する。
また、本発明によれば、複数の部分入力画像の位置関係をグラフ化し、クリーク抽出によって整合のとれた部分入力画像の組み合わせを求めるので、任意形状のパターンが重複した文字画像を高精度かつ高速に文字認識することができるという効果を奏する。
また、本発明によれば、整合のとれた複数の部分入力画像の組み合わせに外接する矩形を文字領域とすることで、入力画像内で文字の存在する領域を簡易に特定することができるという効果を奏する。
また、本発明によれば、入力画像に対するメッシュ分割のサイズや位置のズレによる認識精度低下を防止し、高精度に文字認識を行なうことができるという効果を奏する。
また、本発明によれば、部分文字画像に対して類似する複数の特徴量を対応付けて検索テーブルに登録することで、部分入力画像に類似する部分文字画像を簡易に検索可能とし、もって文字認識速度を向上することができるという効果を奏する。
以下に、本発明にかかる文字認識プログラム、文字認識装置および文字認識方法の実施例を図面に基づいて詳細に説明する。
本発明にかかる文字認識では、入力画像に対して文字パターンと文字以外のパターンを分離することなく、文字パターンのうち重複のない部分を利用して文字を認識する。すなわち、図4に示すように入力画像内の文字列「1.配偶者」に手書きでマークがされ、文字が繋がってそれぞれの文字を分離することが困難な場合であっても、マークがない部分の特徴から「1.配偶者」の文字が存在することを認識する。
そのために、まず入力画像を分割し、分割によって得られた各部分入力画像の特徴がどの文字のどの部分に類似しているかを求める。そして、同一の文字の異なる部分にそれぞれ類似する複数の部分入力画像の位置関係が、対応する文字内での位置関係と整合が取れている場合に、それらの複数の部分入力画像が文字の一部であると認識する。
図1は、本発明の実施例にかかる文字認識の機能構成を示す機能構成図である。同図に示すように文字認識装置1は、その内部に入力部11、表示部12、画像読取部13、外部インターフェース14、記憶部15、制御部20を有する。
入力部11は、オペレータからの操作入力を受け付ける処理部であり、例えばキーボードなどによって実現される。また、表示部12は、オペレータに対して表示出力を行なう装置であり、例えば液晶ディスプレイなどによって実現される。
画像読取部13は、入力画像を読み取る処理を行なう処理部であり、スキャナなどによって実現される。また外部インターフェース14は、外部の装置と接続してデータの送受信を行なう処理部である。
記憶部15は、文字認識装置1が処理中に使用する各種データや、処理によって生成された各種データを記憶する記憶手段であり、同図に示した例では各文字カテゴリの局所的な特徴を示すハッシュテーブル16を記憶している。ここで、文字カテゴリとは文字種別、文字名を指す。
制御部20は、文字認識装置1を全体制御する制御部であり、その内部に認識処理部21およびハッシュテーブル登録部22を有する。ハッシュテーブル登録部22は、外部インターフェース14を介して取得した学習用の文字画像サンプルを用いてハッシュテーブル16を作成し、記憶部15に登録する処理を行なう。
認識処理部21は、画像読取部13が読み取った入力画像から文字を認識する処理を行なう処理部である。図2は、認識処理部21の機能構成をさらに詳細に説明する機能構成図である。同図に示したように、認識処理部21は、その内部にメッシュ分割部31、特徴算出部32、正規化処理部33、文字カテゴリ検索部34、位置整合性判定部35および文字判定部36を有する。
メッシュ分割部31は、入力画像をメッシュ状に分割して部分入力画像を作成する処理を行なう。特徴算出部32は、メッシュ分割部31によって作成された複数の部分入力画像について、その特徴量を算出する処理を行なう。そして、正規化処理部33は、特徴算出部32によって算出した特徴量を正規化する処理を行なう。
文字カテゴリ検索部34は、正規化処理部33によって正規化された特徴量をキーにハッシュテーブル16を参照し、部分入力画像の各々について特徴量が類似する文字カテゴリの部分文字画像を検索する。
位置整合性判定部35は、文字カテゴリ検索部34によって得られた複数の部分文字画像を文字カテゴリ毎に集計し、各文字カテゴリ内における部分文字画像の位置関係と、入力画像内における部分入力画像の位置関係との整合性を判定して、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する処理を行なう。
文字判定部36は、位置整合性判定部35によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、その文字候補が有する部分入力画像が文字種別によって示された文字カテゴリの構成要素であると判定し、表示部12にその文字カテゴリを表示出力する処理を行なう。
つづいて、文字認識装置1の各処理について詳細に説明する。まず、図3を参照し、ハッシュテーブル登録部22による処理について説明する。図3は、ハッシュテーブル登録部22によるハッシュテーブル16の登録について説明する説明図である。
まず、ハッシュテーブル登録部22は、外部インターフェース14を介して学習用の文字画像サンプルを取得し、取得した文字画像をn×n(例えばn=5)でメッシュに分割する。そして分割によって得られた各メッシュをその文字画像の部分文字画像とし、メッシュごと(部分文字画像ごと)に特徴を算出する。
この特徴算出について種々の方法を適用することができ、例えば、加重方向指数ヒストグラム(電子情報通信学会論文誌D‘87/7 Vol.J70-D No.7 pp.1390-1397’加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”など)を適用することができる。この加重方向指数ヒストグラムは、方向指数の個数分の次元を持つベクトルが特徴として得られるものであり、本実施例では4次元の特徴ベクトルを用いる場合を例に説明を行なう。
図3に示した例では、ハッシュテーブル登録部22は、学習用の文字サンプルである「配」の文字画像を5×5で分割している。そして分割によって得られた各メッシュをi行j列の行列と見なし、各メッシュを「配」(1,1)〜「配」(5,5)と識別して各メッシュの特徴ベクトルを算出すると、「配」(1,1)の特徴ベクトルは(29,8,13,5)、「配」(1,2)の特徴ベクトルは(32,14,18,25)、「配」(2,1)の特徴ベクトルは(12,2,4,37)となっている。
さらに、同一文字カテゴリについて複数の学習用の文字サンプルがある場合には、同一文字カテゴリに属する学習用サンプル画像数分に関して平均をとることによって個々の文字画像に依存する特徴成分を除去し、文字カテゴリ自体の特徴ベクトルを求める。
その結果、1つの文字カテゴリに対して、n×nのメッシュ特徴ベクトルが得られる。また、このメッシュ特徴ベクトルの算出は、各文字カテゴリについてそれぞれ行なう。
次に、ハッシュテーブル登録部22は、メッシュ特徴ベクトルをハッシュ値に変換し、ハッシュ値から文字カテゴリとメッシュの位置を引けるようにする。メッシュ特徴ベクトルは方向指数の個数分の次元のベクトルであるが、値域を0から9の整数をとるように正規化を行う。この結果、メッシュ特徴ベクトルは10の方向指数の個数分(=4)の累乗(=10000)通りの値をとることになる。
正規化の方法は任意の方法を用いることができるが、類似の値が同一の値に変換される手法を採用することが好ましい。例えば、所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える、といった手法が好適である。
図3に示した例では、ハッシュテーブル登録部22は、特徴ベクトルの各次元の値を「4」で除算し、整数商を求めている。その結果、「配」(1,1)の特徴ベクトル(29,8,13,5)は(7,2,3,3)に正規化され、「配」(1,2)の特徴ベクトル(32,14,18,25)は(8,3,4,6)に正規化され、「配」(2,1)の特徴ベクトル(12,2,4,37)は(3,0,1,9)に正規化されている。
そして、ハッシュテーブル登録部22は、正規化したメッシュ特徴ベクトル値に対して、文字カテゴリ名、メッシュの位置(i, j)を対応付けて、ハッシュテーブル16に登録する。すなわち、メッシュ特徴ベクトル(va, vb, vc, vd)が与えられたとき、(va, vb, vc, vd)に正規化を行なって(Va, Vb, Vc, Vd)に変換し、H=Va×1000+Vb×100+Vc×10+Vdを求め、Hに(文字カテゴリ名, i, j)を記録する。
図3に示した例では、正規化した特徴ベクトルが(7,2,3,3)である「配」(1,1)はハッシュ値(7233)に対応付けられ、正規化した特徴ベクトルが(8,3,4,6)である「配」(1,2)はハッシュ値(8346)に対応付けられ、正規化した特徴ベクトルが(3,0,1,9)である「配」(2,1)はハッシュ値(3019)に対応付けられている。
ハッシュテーブル登録部22は、以上の処理を全て文字カテゴリについて行なうことで、ハッシュテーブル16を作成し、記憶部15に格納する。同図に示した例では、ハッシュ値(7233)には「配」(1,1)に加えて「酸」(1,1),「王」(3,2)などが対応付けて登録され、ハッシュ値(3019)には「配」(2,1)に加えて「酸」(2,1),「祖」(1,3)などが対応付けて登録され、ハッシュ値(8346)には「配」(1,2)に加えて「祖」(3,2),「酉」(1,3)などが対応付けて登録されている。
つづいて、認識処理部21による処理について説明する。図4は、認識処理部21による入力画像の特徴算出と文字カテゴリ検索について説明する説明図である。画像読取部13から入力画像が入力されると、メッシュ分割部31が図4に示すように入力画像をメッシュに分割する。
この時、メッシュの大きさは、入力画像内の1文字がn×nで分割される大きさを基準にして設定する。例えば、入力画像の解像度が400dpiのとき平均的な文字の大きさを縦横各40画素として、メッシュの大きさを縦横各8画素と設定すれば、一文字を5×5に相当する大きさでメッシュ分割することができる。その他の解像度の画像に対しては、解像度に比例してメッシュの大きさを設定すればよい。また、周辺の文字の大きさが認識可能である場合には、周辺の文字の大きさに基づいてメッシュの大きさを設定すればよい。
なお、メッシュ分割部31は、入力画像のメッシュ分割によって得られたメッシュ(部分入力画像)について、それぞれ入力画像のどの位置から切出されたかを記憶部15に格納して記憶させる。
つぎに、特徴算出部32は、切出された各メッシュについてそれぞれ特徴ベクトルを求める。この特徴ベクトルの算出には、ハッシュテーブル作成時と同様に、例えば加重方向指数ヒストグラムを用いる。図4に示した例では、入力画像から切出されたメッシュm43の特徴ベクトルは(13,1,5,62)、同じくメッシュm104の特徴ベクトルは(36,7,3,4)と求められている。
正規化処理部33は、特徴算出部32が算出した特徴ベクトルをそれぞれ正規化する処理を行なう。この正規化についてもハッシュテーブル作成時と同様に行ない、例えば、所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える。
図4に示した例では、正規化処理部33は、特徴ベクトルの各次元の値を「4」で除算し、整数商を求めている。その結果、メッシュm43の特徴ベクトル(13,1,5,62)は(3,0,1,9)に正規化され、メッシュm104の特徴ベクトル(36,7,3,4)は(9,2,1,1)に正規化されている。
文字カテゴリ検索部34は、正規化された特徴ベクトルをキーとしてハッシュテーブル16を参照し、部分入力画像の各々について特徴量が類似する文字カテゴリの部分文字画像を検索する。
その結果、図4に示した例では、メッシュm43に類似する部分文字画像として、ハッシュ値(3019)に紐付けられた部分文字画像、すなわち文字カテゴリ「配」の(2,1)、文字カテゴリ「酸」の(2,1)、文字カテゴリ「祖」の(1,3)などが検索結果として得られる。同じく、メッシュm104に類似する部分文字画像として、ハッシュ値(9211)に紐付けられた部分文字画像、すなわち文字カテゴリ「祖」の(4,4)、文字カテゴリ「酸」の(5,3)などが検索結果として得られる。
文字カテゴリ検索部34が入力画像から切出された全てのメッシュ、すなわち部分入力画像について類似する部分文字画像を検索した後、位置整合性判定部35は、検索結果として得られた複数の部分文字画像を文字カテゴリ毎に集計する。
図5は、検索結果の文字カテゴリ毎の集計について説明する説明図である。同図に示した例では、メッシュm43,m104の検索結果を文字カテゴリの対応する位置に投票して集計している。具体的には、文字カテゴリ「配」について、(2,1)の位置にメッシュm43を投票し、(5,3)の位置にメッシュm104を投票している。同様に、文字カテゴリ「酸」の(2,1)にメッシュm43を投票し、文字カテゴリ「祖」の(1,3)にメッシュm43、文字カテゴリ「祖」の(4,4)にメッシュm104を投票している。
つぎに、位置整合性判定部35は、各文字カテゴリに投票された部分入力画像について、入力画像での位置関係と文字カテゴリ内での位置関係とを比較し、その整合性を判定する。具体的には、位置整合性判定部35は、同一の文字カテゴリの各位置に投票された部分入力画像をノードとして、文字カテゴリのメッシュ間での関係と入力画像のメッシュ間の関係が保たれるノード同士をパスで結ぶことでグラフを生成する。
図6は、位置整合性判定部35による部分入力画像のグラフ化処理について説明する説明図である。同図に示した例では、入力画像から切出した部分入力画像であるメッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108が全て文字カテゴリ「配」に投票されている。
ここで、メッシュm21は文字カテゴリ「配」の(1,1)に投票されている。同様に、メッシュm43は(2,1)に、メッシュm44は(2,2)に、メッシュm104は(5,4)に、メッシュm105は(5,5)に、メッシュm108は(4,4)に投票されている。
位置整合性判定部35は、「配」に登録された全ての部分入力画像(メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108)をノードとし、ノード間の位置関係に基づいてパスを引く。
図7は、ノード間でのパス接続について説明する説明図である。同図を参照し、メッシュm43、メッシュm105、メッシュm108の位置関係を例にノード接続について説明する。
まず、メッシュm43とメッシュm105について考える。入力画像においては、メッシュm43に対して右下方向にメッシュm105が位置する。また、文字カテゴリ内においてもメッシュm43に対して右下方向にメッシュm105が位置する。このように、メッシュm43とメッシュm105との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れている(位置関係が保たれている)ので、メッシュm43とメッシュm105との間をパスで結ぶ(図6に示すグラフ参照。)。
つぎに、メッシュm105とメッシュm108について考える。入力画像においては、メッシュm105と同じ高さの右方向にメッシュm108が位置する。これに対し、文字カテゴリ内ではメッシュm105に対して左上方向にメッシュm108が位置する。このように、メッシュm105とメッシュm108との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れていないので、メッシュm105とメッシュm108との間にはパスを引かない(図6に示すグラフ参照。)。
さらに、メッシュm43とメッシュm108について考える。入力画像においては、メッシュm43に対して右下方向にメッシュm108が位置する。また、文字カテゴリ内においてもメッシュm43に対して右下方向にメッシュm108が位置する。このように、メッシュm43とメッシュm108との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れているので、メッシュm43とメッシュm108との間にパスを引く(図6に示すグラフ参照。)。
位置整合性判定部35は、文字カテゴリごとに、投票されたメッシュのすべての2つの関係に対して位置の関係が満たされているかどうかを調べ、グラフを作成する。その後、位置整合性判定部35は、作成したグラフから完全部分グラフであるクリークを抽出する処理を行なう。この位置整合性判定部35が抽出するクリークは、部分文字画像の位置関係と整合する部分入力画像の組み合わせであり、入力画像内における文字候補となる。グラフからクリークを抽出するアルゴリズムとしては、種々の方法を用いることができる(例えば、C.Bron and J.Kerbosch Algorithm 457. Finding all cliques of an undirected graph [H]. Comm. ACM. 16(9) (September 1973).など。)。
文字判定部36は、位置整合性判定部35が抽出したクリークを評価することで、文字カテゴリが認識対象領域のどことマッチングしたかを識別する。具体的には、クリークのノードの個数がある閾値以上の場合にその対応が正しいとみなして、ノードに対応する対象領域にその文字カテゴリが存在すると判定する。
図8は、クリークの抽出と評価について説明する説明図である。同図に示したように、メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108を有するグラフG1からクリークを抽出すると、メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105の5つのノードを有するクリークG2、メッシュm21、メッシュm43、メッシュm44、メッシュm108の4つのノードを有するクリークG3とが得られる。
ここで、文字判定部36による判定閾値が5であるとすると、クリークG2は閾値以上のノード数を有するので、文字判定部36は、クリークG2の各ノードに対応する入力画像内の領域が文字カテゴリ「配」の文字が存在する文字領域であると判定する。一方、クリークG3のノード数は閾値に満たないため、文字判定部36は、クリークG3のノードの組み合わせは「配」の文字ではないと判定する。
より詳細には、文字判定部36は、閾値以上のノード数を有するクリークについて、各ノードに対応する部分入力画像に外接する矩形を求め、この外接矩形を文字領域と認識する。
図9は、文字判定部36による文字領域の認識について説明する説明図である。同図に示した例では、文字判定部36は、クリークG2を構成するメッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105の外接矩形を文字領域A1として判定し、この文字領域A1に「配」の文字が存在すると認識する。
なお、入力画像に同じ文字が複数ある場合、文字判定部36は、同一カテゴリの全ての文字から1つのグラフを作成する。その後、グラフからノード数が閾値を超える複数のクリークが抽出され、それぞれのクリークが入力画像内において各々異なる文字領域を構成することとなる。
ここまでの説明では、入力画像と文字カテゴリでの位置関係を明確すべく概念的な図面を用いて各処理部の動作を説明したが、各処理において実際に生成・使用されるデータは装置内での処理に適した形式で記憶部15に格納される。
例えば、図10は、位置整合性判定部35が文字カテゴリ検索部による検索結果から作成する投票結果データである。この投票結果データは、図5を参照して説明した位置整合性判定部35による集計の結果として得られたものであり、文字カテゴリ、カテゴリ内位置、入力画像メッシュ、の3つの項目を有する表の形式でデータを保持する。
また、図11は、位置整合性判定部35が作成するグラフデータである。このグラフデータでは、そのグラフが有する各ノード間について、パスを接続する場合には値「1」を、パスを接続しない場合には値「0」を持つ表の形式でデータを保持している。
つづいて、文字認識装置1による処理の流れを説明する。図12は、ハッシュテーブル登録における処理動作を説明するフローチャートである。同図に示した処理では、まず、ハッシュテーブル登録部22が外部インターフェース14を介し、文字カテゴリ毎に複数のサンプル文字画像データを受け付ける(ステップS101)。
そして、ハッシュテーブル登録部22は、受け付けたサンプル文字画像データをメッシュに分割し(ステップS102)、分割によって得られた各メッシュ、すなわち各部分文字画像について特徴ベクトルを算出する(ステップS103)。
その後、ハッシュテーブル登録部22は、文字カテゴリのメッシュ位置毎に特徴ベクトルを平均し(ステップS104)、平均した特徴ベクトルを正規化する(ステップS105)。そして、正規化した特徴ベクトルに文字カテゴリとメッシュ位置とを対応付けてハッシュテーブルに登録し(ステップS106)、処理を終了する。ハッシュテーブル登録部22は、以上の処理を文字カテゴリ毎に実行してハッシュテーブルを作成する。
図13は、文字の認識処理における処理動作を説明するフローチャートである。同図に示した処理では、まず、メッシュ分割部31が画像読取部13によって読み取られた入力画像をメッシュに分割する(ステップS201)。つぎに、特徴算出部32が、分割によって得られた各メッシュ(部分入力画像)について特徴ベクトルを算出する(ステップS202)。そして、正規化処理部33が各特徴ベクトルを正規化し(ステップS203)、文字カテゴリ検索部34は、各メッシュについて正規化された特徴ベクトルをキーにハッシュテーブルの検索を行なう(ステップS204)。
位置整合性判定部35は、この検索結果を用いて文字カテゴリ毎に特徴ベクトルを投票し(ステップS205)、同一文字カテゴリに投票された入力画像のメッシュ(部分入力画像)をノードとするグラフを作成する(ステップS206)。このグラフ作成では、既に述べたように、各ノードに対応する部分画像領域の入力画像での位置関係と文字カテゴリ内での位置関係とを比較してノード間のパスを引いておく。
そして、位置整合性判定部35は、各文字カテゴリのグラフからクリークを抽出する処理を行なう(ステップS207)。文字判定部36は、得られたクリークのうち、ノード数が閾値を超えるクリークについて、クリーク構成ノードが占める領域に対応する文字カテゴリが存在すると判定し(ステップS208)、処理を終了する。
つづいて、ハッシュテーブル登録および文字認識の変形例について説明する。部分入力画像と特徴が類似する部分文字画像を検索する場合、例えば部分文字画像の特徴ベクトルと部分文字画像の特徴ベクトルの距離から類似度を算出し、類似度が閾値以上である場合に互いに類似する、と判定する手法を用いることも可能であるが、ベクトル間の距離を測定することで類似する組み合わせを探索すると演算に時間がかかる。そこで、文字認識装置1は、部分文字画像の特徴ベクトルをハッシュ値に変換し、ハッシュ値から文字カテゴリとメッシュの位置を引けるようにすることで、認識処理を高速化している。
具体的には、文字認識装置1は、特徴ベクトルからハッシュ値を作成する際に、類似の値が同一の値に変換されるよう正規化することで、類似度の算出を簡略化している。なお、上述した例では、特徴ベクトルの各次元の値を所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える手法を採用した場合について説明したが、この手法の変形例について説明する。
図14は、ハッシュテーブル作成時における正規化の変形例について説明する説明図である。同図に示した例では、整数aと整数b(a>b)を定めておき、4次元ベクトル値(x1, x2, x3, x4)に対して、(xi±b)/aの整数商を求める。この商が9を越える場合は強制的に9に置き換える。
例えば、文字カテゴリ「配」の(2,1)特徴ベクトルが(12,2,4,37)であり、a=4、b=1とすると、x1を正規化した値として(12+1)/4=3と(12−1)/4=2、x2を正規化した値として(2+1)/4=0と(2−1)/4=0、x3を正規化した値として(4+1)/4=1と(4−1)/4=0、x4を正規化した値として (37+1)/4=9,(37−1)/4=9が得られる。そして、これからできる全組合せを求めると、(3,0,0,9),(3,0,1,9),(4,0,0,9),(4,0,1,9)の4通りの組合せが得られる。この場合、ハッシュテーブルには、文字カテゴリ「配」の(2,1)に対応して4通りの特徴ベクトルをそれぞれ登録する。
このように、ある特徴ベクトルに対して対応させるハッシュ値に幅を持たせ、文字カテゴリとメッシュ位置の組み合わせに複数のハッシュ値を対応させてハッシュテーブルに登録することで、類似度の比較において閾値を下げた場合と同様の効果、すなわち、比較的類似度の低い特徴ベクトルを検索結果として取得する効果を得ることができる。
ところで、サンプル文字画像や入力画像に対してメッシュ分割を行なう際、メッシュの位置によって、メッシュの特徴ベクトルの値は変わる。そこで、ハッシュテーブルを作成する際には、ある程度のずらしたメッシュを考え、サンプル文字のメッシュ特徴ベクトルを多重に登録しておくことが望ましい。入力画像に対しては、ひとつのメッシュでメッシュ特徴ベクトルを計算すればよい。同様に、メッシュの大きさに関しても、複数のサイズを考え、文字のメッシュ特徴ベクトルを多重に登録しておく。
図15は、1つの文字画像に対して異なる複数のメッシュ分割を行なう場合について説明する説明図である。同図に示した例では文字画像をn×nに分割する際にn=4,5,6の3つのメッシュサイズで分割している。これに加え、各分割サイズについて、x方向とy方向に数画素ずらしたメッシュに関しても同様に特徴を求めている。
分割数nでx方向y方向にズレのないメッシュ分割を行なって得られた特徴ベクトルを文字カテゴリの(n,0,0)特徴とし、分割数nでx方向やy方向にズレを持つメッシュ分割を行なって得られた特徴ベクトルを(n,dx,dy)特徴とする。例えば、dxとdyは、メッシュを3等分するように2つの値を設定することにより、(n,0,0)特徴、(n,0,1)特徴、(n,0,2)特徴、(n,1,0)特徴、(n,1,1)特徴、(n,1,2)特徴、(n,2,0)特徴、(n,2,1)特徴、(n,2,2)特徴の9つの特徴が設定される。例えば、1つのメッシュの一辺が6画素のときは、2画素ずつずらすことによりメッシュを3等分できる。
かくして、この例では27個の(n,dx,dy)特徴(n=4,5,6;dx=0,1,2;dy=0,1,2)を求めて、それぞれハッシュテーブルに登録する。特徴の値は、メッシュを行列とみなした場合の行数iと列数jと特徴ベクトル(v1,v2,v3,v4)により、(n,dx,dy)−(i,j)−(v1,v2,v3,v4)で表現される。そこで、ハッシュテーブルに登録する際には、特徴ベクトル(v1,v2,v3,v4)から算出したハッシュ値Hに(文字カテゴリ名,n,dx,dy,i,j)を対応付けて登録すればよい。
このように(n,dx,dy)特徴を求めてそれぞれハッシュテーブルに登録した場合の認識処理では、メッシュサイズやメッシュ位置の異なる複数の部分文字画像が検索結果として得られるので、文字カテゴリ上にそれぞれの検索結果を投影して位置関係の整合性を評価する。
図16は、(n,dx,dy)特徴を用いる場合の認識処理について説明する説明図である。同図に示した例では、入力画像上のメッシュmαに対して(4,0,0)特徴、(5,0,0)特徴のそれぞれで対応する部分文字画像が存在し、入力画像上のメッシュmβに対して(4,0,1)特徴で対応する部分文字画像が存在する。この場合、文字カテゴリ上で各部分文字画像の位置を投影することで、メッシュmαについて(4,0,0)での投影像としてmα’、(5,0,0)での投影像としてmα’’が得られる。同じくメッシュmβについて(4,0,1)での投影像としてmβ’が得られる。
このようにしてメッシュ分割のサイズや位置の異なる特徴ベクトルが混在する場合であっても、文字カテゴリ上に投影することで相互の位置関係を評価することができる。なお、同図に示したように、1つの部分入力画像mαから複数の投影像mα’,mα’’が得られた場合、それぞれの投影像を個別のノードとして取り扱えばよい。
つぎに、本発明の利用例について説明する。図17は、本発明を利用した画像認識システムの概要構成について説明する概要構成図である。同図に示した画像認識システム100は、スキャナ101と接続され、スキャナ101が読み取った画像データD1を取得する。画像データD1は、選択肢欄で文字列や番号を直接手書きでマークさせた申込書やアンケートであり、文字パターンに手書きマークが重複している。
画像認識システム100は、その内部に文字認識装置1、差分画像作成部102、画像解析部103を有する。文字認識装置1は、これまで説明してきたように、画像データD1に対して文字認識を行なって、認識結果である画像データD2を出力する。この画像データD2は、その画像内のどの位置に何の文字が存在するかが示されている。
差分画像作成部102は、画像データD1と画像データD2との差分を取ることで、画像データD3を作成する。画像データD1は文字に手書きマークが重なっており、画像データD2は文字のみが含まれているので、これらの差分である画像データD3は手書きマークが抜き出された画像となる。
画像解析部103は、画像データD3に示された手書きマークの位置と、画像データD2に示された文字とその位置から、どの選択肢が選択されているかを出力する。同図に示した例では、画像解析部103は、画像データD1が「1.配偶者」を選択したものであることを示す解析結果データD4を出力することができる。
以上説明してきたように、本実施例にかかる文字認識装置1は、ハッシュテーブル登録部22が各文字カテゴリの局所的な領域である部分入力画像の特徴を示すハッシュテーブル16を作成し、認識処理部21は、入力画像をメッシュ分割して部分入力画像に分割し、各部分入力画像について特徴を算出し、各部分入力画像と特徴が類似する部分文字画像をハッシュテーブルから検索し、部分入力画像の位置関係と部分文字画像の位置関係とを比較し、その整合性を評価して入力画像のどの領域にどの文字が存在するかを認識する。
そのため、文字認識装置1は、入力画像において文字パターンと文字以外のパターンを分離することなく、文字パターンのうち重複のない部分を利用して文字を認識することができ、文字パターンに接触する文字以外のパターンの形状や接触の仕方がいかなるものであっても文字パターンを認識可能である。また、画像をメッシュに分割し、メッシュごとに類似度を求め、それらの位置の整合性から全体の類似度を求めて認識を行うため、画像から文字単位に文字領域を切り出す必要なく認識が可能になる。
なお、本実施例はあくまで一例であり、本発明を限定するものではない。本発明は請求の範囲に記載した技術的思想の範囲内において構成および動作を適宜変更して実施することができるものである。
例えば、本実施例では、文字認識装置1は、ハッシュテーブル登録部22によるハッシュテーブル登録と認識処理部21による文字認識とを切り替えて実行するように構成しているが、例えば、他の装置が作成したハッシュテーブルを使用し、文字認識のみを実行するように構成してもよい。
また、部分入力画像や部分文字画像の特徴の算出、特徴が類似する文字カテゴリの検索、部分入力画像や部分文字画像の位置関係の整合性判定などについても、任意の手法を適用することができる。例えば、本実施例においては、ノード間のパスを引く際に、メッシュ間の相対方向によって位置関係の整合性を判定していたが、相対方向に加えてメッシュ間の距離についても位置関係の整合性の判断基準として用いることもできる。
なお、本発明にかかる文字認識方法は、図1および図2に示した文字認識装置1のように各機能部を専用のハードウェアによって実現することでも実施可能であるが、文字認識プログラムをコンピュータに実行させ、コンピュータのハードウェア資源をそれぞれの機能部として動作させることでも実施することができる。
図18は、文字認識プログラムを実行するコンピュータの概要構成を説明する概要構成図である。同図に示したように、コンピュータ40は、入力装置41、表示装置42、画像読取装置43、外部インターフェース44、CPU(Central Processing Unit)45、ROM(Read Only Memory)46、RAM(Random Access Memory)47およびHDD(Hard Disk Drive)48をバス49で接続して構成される。ここで、入力装置41は、図1に示した入力部11に対応し、表示装置42は同じく表示部12に対応し、画像読取装置43および外部インターフェース44は同じく画像読取部13及び外部インターフェース14に対応する。
そして、ROM46には、上記の認識処理部21およびハッシュテーブル登録部22と同様の機能を発揮する認識処理プログラム51およびハッシュテーブル登録プログラム52が予め記憶されている。
CPU45は認識処理プログラム51やハッシュテーブル登録プログラム52をROM46から読み出して実行することで、その機能を実現することができる。例えば図18に示した例では、CPU45はROM46から認識処理プログラム51を読み出して認識処理プロセス54を動作させており、CPU45は認識処理部21と同様の動作を行うこととなる。
また、HDD48は、図18に示したようにハッシュテーブルデータ53を格納している。このハッシュテーブルデータ53は、CPU45によって読み出されてRAM47上に展開され、図1および図2に示したハッシュテーブル16として動作する。
ところで、上記した認識処理プログラム51やハッシュテーブル登録プログラム52は、必ずしも最初からROM46に記憶させておく必要は無く、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「過般用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ40がこれらから各プログラムを読み出して実行するようにしてもよい。
(付記1)入力画像内の文字を認識する文字認識処理をコンピュータに実行させる文字認識プログラムであって、
前記入力画像を複数の部分入力画像に分割する分割ステップと、
前記分割ステップによって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出ステップと、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出ステップによって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索ステップと、
前記検索ステップによって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定ステップと、
前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識ステップと、
をコンピュータに実行させることを特徴とする文字認識プログラム。
(付記2)前記整合性判定ステップは、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成ステップと、前記グラフ作成ステップによって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出ステップとを含んだことを特徴とする付記1に記載の文字認識プログラム。
(付記3)前記認識ステップは、前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記1または2に記載の文字認識プログラム。
(付記4)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記1〜3のいずれか一つに記載の文字認識プログラム。
(付記5)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記1〜4のいずれか一つに記載の文字認識プログラム。
(付記6)入力画像内の文字を認識する文字認識装置であって、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けた検索テーブルを記憶する検索テーブル記憶手段と、
前記入力画像を複数の部分入力画像に分割する分割手段と、
前記分割手段によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量をキーにして前記検索テーブルを参照し、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索手段と、
前記検索手段によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定手段と、
前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識手段と、
を備えたことを特徴とする文字認識装置。
(付記7)前記整合性判定手段は、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成し、作成したグラフの完全部分グラフであるクリークを前記文字候補として抽出することを特徴とする付記6に記載の文字認識装置。
(付記8)前記認識手段は、前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記6または7に記載の文字認識装置。
(付記9)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記6〜8のいずれか一つに記載の文字認識装置。
(付記10)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記6〜9のいずれか一つに記載の文字認識装置。
(付記11)入力画像内の文字を認識する文字認識方法であって、
前記入力画像を複数の部分入力画像に分割する分割工程と、
前記分割工程によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出工程と、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出工程によって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索工程と、
前記検索工程によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定工程と、
前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識工程と、
を含んだことを特徴とする文字認識方法。
(付記12)前記整合性判定工程は、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成工程と、前記グラフ作成工程によって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出工程とを含んだことを特徴とする付記11に記載の文字認識方法。
(付記13)前記認識工程は、前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記11または12に記載の文字認識方法。
(付記14)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記11〜13のいずれか一つに記載の文字認識方法。
(付記15)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記11〜14のいずれか一つに記載の文字認識方法。
以上のように、本発明にかかる文字認識プログラム、文字認識装置および文字認識方法は、文字認識に有用であり、特に、文字以外のパターンが重畳した文字画像の認識に適している。
本発明の実施例にかかる文字認識装置の機能構成を示す機能構成図である。 認識処理部21の機能構成をさらに詳細に説明する機能構成図である。 ハッシュテーブル登録部22によるハッシュテーブル16の登録について説明する説明図である。 認識処理部21による入力画像の特徴算出と文字カテゴリ検索について説明する説明図である。 検索結果の文字カテゴリ毎の集計について説明する説明図である。 位置整合性判定部35による部分入力画像のグラフ化処理について説明する説明図である。 ノード間でのパス接続について説明する説明図である。 クリークの抽出と評価について説明する説明図である。 文字判定部36による文字領域の認識について説明する説明図である。 位置整合性判定部35が文字カテゴリ検索部による検索結果から作成する投票結果データを示す図である。 位置整合性判定部35が作成するグラフデータを示す図である。 ハッシュテーブル登録の処理動作を説明するフローチャートである。 文字の認識処理における処理動作を説明するフローチャートである。 ハッシュテーブル作成時における正規化の変形例について説明する説明図である。 1つの文字画像に対して異なる複数のメッシュ分割を行なう場合について説明する説明図である。 (n,dx,dy)特徴を用いる場合の認識処理について説明する説明図である。 本発明を利用した画像認識システムの概要構成について説明する概要構成図である。 文字認識プログラムを実行するコンピュータの概要構成を説明する概要構成図である。
符号の説明
1 文字認識装置
11 入力部
12 表示部
13 画像読取部
14 外部インターフェース
15 記憶部
16 ハッシュテーブル
20 制御部
21 認識処理部
22 ハッシュテーブル登録部
31 メッシュ分割部
32 特徴算出部
33 正規化処理部
34 文字カテゴリ検索部
35 位置整合性判定部
36 文字判定部
40 コンピュータ
41 入力装置
42 表示装置
43 画像読取装置
44 外部インターフェース
49 バス
51 認識処理プログラム
52 ハッシュテーブル登録プログラム
53 ハッシュテーブルデータ
54 認識処理プロセス
100 画像認識システム
101 スキャナ
102 差分画像作成部
103 画像解析部
D1,D2,D3 画像データ
D4 解析結果データ
G1 グラフ
G2,G3 クリーク
m21,m43,m44,m104,m105,m108,mα,mβ メッシュ
mα’,mα’’,mβ’ 投影像

Claims (7)

  1. 入力画像内の文字を認識する文字認識処理をコンピュータに実行させる文字認識プログラムであって、
    前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割ステップと、
    前記分割ステップによって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出ステップと、
    複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出ステップによって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索ステップと、
    前記検索ステップによって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定ステップと、
    前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識ステップと、
    をコンピュータに実行させることを特徴とする文字認識プログラム。
  2. 前記整合性判定ステップは、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成ステップと、前記グラフ作成ステップによって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出ステップとを含んだことを特徴とする請求項1に記載の文字認識プログラム。
  3. 前記認識ステップは、前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする請求項1または2に記載の文字認識プログラム。
  4. 前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、当該各部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする請求項1〜3のいずれか一つに記載の文字認識プログラム。
  5. 前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする請求項1〜4のいずれか一つに記載の文字認識プログラム。
  6. 入力画像内の文字を認識する文字認識装置であって、
    前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割手段と、
    前記分割手段によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出手段と、
    複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けた検索テーブルを記憶する検索テーブル記憶手段と、
    前記特徴量算出手段によって算出された特徴量をキーにして前記検索テーブルを参照し、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索手段と、
    前記検索手段によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定手段と、
    前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識手段と、
    を備えたことを特徴とする文字認識装置。
  7. 入力画像内の文字を認識する文字認識方法であって、
    前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割工程と、
    前記分割工程によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出工程と、
    複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出工程によって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索工程と、
    前記検索工程によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定工程と、
    前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識工程と、
    を含んだことを特徴とする文字認識方法。
JP2007208612A 2007-08-09 2007-08-09 文字認識プログラム、文字認識装置および文字認識方法 Active JP5098504B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007208612A JP5098504B2 (ja) 2007-08-09 2007-08-09 文字認識プログラム、文字認識装置および文字認識方法
US12/153,015 US20090041361A1 (en) 2007-08-09 2008-05-12 Character recognition apparatus, character recognition method, and computer product
CN2008101082592A CN101364267B (zh) 2007-08-09 2008-06-05 字符识别装置、字符识别方法及计算机产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007208612A JP5098504B2 (ja) 2007-08-09 2007-08-09 文字認識プログラム、文字認識装置および文字認識方法

Publications (2)

Publication Number Publication Date
JP2009043102A JP2009043102A (ja) 2009-02-26
JP5098504B2 true JP5098504B2 (ja) 2012-12-12

Family

ID=40346612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007208612A Active JP5098504B2 (ja) 2007-08-09 2007-08-09 文字認識プログラム、文字認識装置および文字認識方法

Country Status (3)

Country Link
US (1) US20090041361A1 (ja)
JP (1) JP5098504B2 (ja)
CN (1) CN101364267B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011166402A (ja) * 2010-02-09 2011-08-25 Seiko Epson Corp 画像処理装置、方法及びコンピュータプログラム
CN102208022A (zh) * 2010-03-31 2011-10-05 富士通株式会社 遮挡字符恢复装置及其方法、遮挡字符识别装置及其方法
JP5372853B2 (ja) * 2010-07-08 2013-12-18 株式会社日立製作所 デジタルシーケンス特徴量算出方法及びデジタルシーケンス特徴量算出装置
JP5630863B2 (ja) 2010-11-26 2014-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 構造化文書に含まれるノードの全順序関係を、ログ情報に基づいて決定して可視化する方法、装置及びコンピュータプログラム
CN102622366B (zh) 2011-01-28 2014-07-30 阿里巴巴集团控股有限公司 相似图像的识别方法和装置
JP5168435B2 (ja) * 2011-05-17 2013-03-21 パナソニック株式会社 文字列抽出方法と文字列抽出装置
CN102724387B (zh) * 2012-05-26 2016-08-03 安科智慧城市技术(中国)有限公司 一种电子稳像的方法及装置
CN102880874B (zh) * 2012-09-29 2016-04-13 重庆新媒农信科技有限公司 字符识别方法和字符识别器
JP2014127186A (ja) * 2012-12-27 2014-07-07 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP6127685B2 (ja) * 2013-04-19 2017-05-17 富士通株式会社 情報処理装置、プログラム、及び形状認識方法
CN104348624B (zh) * 2013-08-09 2018-02-02 阿里巴巴集团控股有限公司 一种哈希认证可信度的方法和装置
JP6170860B2 (ja) * 2014-03-25 2017-07-26 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法
JP6694638B2 (ja) * 2015-01-21 2020-05-20 国立大学法人東京農工大学 プログラム、情報記憶媒体及び認識装置
CN107092903A (zh) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 信息识别方法及装置
CN106599028B (zh) * 2016-11-02 2020-04-28 华南理工大学 一种基于视频图像处理的书本内容搜索匹配方法
CN109753967A (zh) * 2018-12-29 2019-05-14 北京师范大学 一种图片文字识别方法
CN110929708A (zh) * 2019-09-30 2020-03-27 京东数字科技控股有限公司 识别泰国身份证中国旗的方法、设备及存储介质
CN113542750B (zh) * 2021-05-27 2024-06-25 绍兴市北大信息技术科创中心 采用两套以上哈希表进行搜索的数据编码方法
CN113962199B (zh) * 2021-12-20 2022-04-08 腾讯科技(深圳)有限公司 文本识别方法、装置、设备、存储介质及程序产品
CN114637845B (zh) * 2022-03-11 2023-04-14 上海弘玑信息技术有限公司 模型测试方法、装置、设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4075605A (en) * 1974-09-13 1978-02-21 Recognition Equipment Incorporated Character recognition unit
JPS5923467B2 (ja) * 1979-04-16 1984-06-02 株式会社日立製作所 位置検出方法
US5119441A (en) * 1989-03-28 1992-06-02 Ricoh Company, Ltd. Optical character recognition apparatus and method using masks operation
US5067165A (en) * 1989-04-19 1991-11-19 Ricoh Company, Ltd. Character recognition method
JPH03160585A (ja) * 1989-11-17 1991-07-10 Sanyo Electric Co Ltd 文字認識方法
JPH06236455A (ja) * 1993-02-10 1994-08-23 Oki Electric Ind Co Ltd 文字認識装置
JP2951814B2 (ja) * 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
JPH0896080A (ja) * 1994-09-26 1996-04-12 Nec Eng Ltd 光学文字読取装置
JP3294995B2 (ja) * 1996-06-21 2002-06-24 三菱電機株式会社 帳票読取装置
JPH11184971A (ja) * 1997-12-22 1999-07-09 Toshiba Corp 手書き文字認識機能を持つ文字入力装置及び方法
CN1200387C (zh) * 2003-04-11 2005-05-04 清华大学 基于单个字符的统计笔迹鉴别和验证方法
US7190834B2 (en) * 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
US7386172B2 (en) * 2005-03-11 2008-06-10 Kabushiki Kaisha Toshiba Image recognition method
JP4750802B2 (ja) * 2006-01-13 2011-08-17 富士通株式会社 帳票処理プログラムおよび帳票処理装置

Also Published As

Publication number Publication date
CN101364267B (zh) 2011-09-28
JP2009043102A (ja) 2009-02-26
US20090041361A1 (en) 2009-02-12
CN101364267A (zh) 2009-02-11

Similar Documents

Publication Publication Date Title
JP5098504B2 (ja) 文字認識プログラム、文字認識装置および文字認識方法
US10853638B2 (en) System and method for extracting structured information from image documents
Moreno-García et al. New trends on digitisation of complex engineering drawings
Hajič et al. The MUSCIMA++ dataset for handwritten optical music recognition
US11113518B2 (en) Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
US8233726B1 (en) Image-domain script and language identification
CN111523537A (zh) 一种文字识别方法、存储介质及系统
CN112925938A (zh) 一种图像标注方法、装置、电子设备及存储介质
CN110020005A (zh) 一种病历中主诉和现病史中症状匹配方法
CN110796145B (zh) 基于智能决策的多证件分割关联方法及相关设备
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
JP4140221B2 (ja) 画像照合装置および画像照合プログラム
CN114782965A (zh) 基于布局关联性的视觉富文档信息抽取方法、系统及介质
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
Sotoodeh et al. Staff detection and removal using derivation and connected component analysis
CN112287763A (zh) 图像处理方法、装置、设备及介质
JP2004046723A (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
Maity et al. An approach for detecting circular callouts in architectural, engineering and constructional drawing documents
CN113420840B (zh) 基于低分辨率图像的目标检测方法和系统
Liu et al. Table detection method based on feature pyramid network with faster R-CNN
CN112183538B (zh) 一种满文识别方法及系统
JP2014081867A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5098504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150