JP5769029B2 - 文字認識装置、認識辞書生成装置及び正規化方法 - Google Patents

文字認識装置、認識辞書生成装置及び正規化方法 Download PDF

Info

Publication number
JP5769029B2
JP5769029B2 JP2012055638A JP2012055638A JP5769029B2 JP 5769029 B2 JP5769029 B2 JP 5769029B2 JP 2012055638 A JP2012055638 A JP 2012055638A JP 2012055638 A JP2012055638 A JP 2012055638A JP 5769029 B2 JP5769029 B2 JP 5769029B2
Authority
JP
Japan
Prior art keywords
image
procedure
character
contour
grid point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012055638A
Other languages
English (en)
Other versions
JP2013190911A (ja
Inventor
利昇 三好
利昇 三好
永崎 健
健 永崎
新庄 広
広 新庄
庸昂 堤
庸昂 堤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2012055638A priority Critical patent/JP5769029B2/ja
Priority to CN201310027353.6A priority patent/CN103310210B/zh
Publication of JP2013190911A publication Critical patent/JP2013190911A/ja
Application granted granted Critical
Publication of JP5769029B2 publication Critical patent/JP5769029B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、文字認識用の認識辞書生成装置及び文字認識装置に関し、特に文字画像の正規化手法に関する。
文字認識装置は、認識辞書を用いて、入力画像中に書かれている文字カテゴリを判定し、判定結果を出力する。ここで、文字カテゴリとは、例えば、数字認識の場合には、0〜9までの10種類の数字である。認識辞書は、認識辞書生成装置によって作成される。
文字認識装置が入力画像を受け取ってから判定結果を出力するまでの処理フローは、前処理、正規化、特徴抽出、識別の4つの処理手順を含む。
図2は、従来の文字認識装置が実行する処理を示すフロー図である。
文字画像入力部201では、ユーザ又は演算装置によって実行されるプログラムによって、画像が入力される。
前処理部202では、例えば、入力画像のノイズ除去、ぼかし処理によるスムージング等を行い、文字認識の妨げとなる外乱要因を可能な限り取り除く手順が実行される。
次に、正規化部203では、様々なサイズの前処理後の画像を入力として受け取り、それらの画像のサイズを揃える手順が実行される。これによって後の処理を統一することができる。
次に、特徴抽出部209では、正規化後の画像を入力として受け取り、ベクトル空間上のベクトル値に変換する手順が実行される。前記ベクトル空間を特徴空間、前記ベクトル値を特徴ベクトルとよぶ。特徴抽出手法としては、画素特徴、輪郭特徴、勾配特徴、ガボール特徴などを抽出する手法が広く知られている(非特許文献1)。必要があれば、主成分分析又は線型判別分析などの次元削減手法を用いて、特徴空間の次元数を圧縮し、特徴空間の次元数を削減する(非特許文献2)。
ここまでの処理によって、入力画像は特徴空間上のベクトル値(特徴ベクトル)として表現されることになる。
次に、識別部210では、認識辞書214を用いて、特徴ベクトルが所属する文字カテゴリを判定する処理が実行される。認識辞書214は、特徴空間上の各点が、どの文字カテゴリに所属するかを判断するための情報を保持している。認識辞書214を用いた判定の詳細については、非特許文献1又は非特許文献2に記載されている。
出力部211では、判定結果をディスプレイなどの表示装置又はファイル等に出力する。
高精度な文字認識を行うためには、上記の前処理部202、正規化部203、特徴抽出部209、及び識別部210の各々の処理が重要な役割をもっている。そのため、各々の処理で、文字認識に適した処理を行うことが重要である。
認識対象となる入力画像中の文字は、筆記具、筆記者、フォント、スキャン時の環境、紙質、又は紙の保存状態などによって、同じ文字種であっても、サイズ、形、又は劣化度にばらつきがある。正規化には、入力画像のサイズを揃えることの他に、このような入力画像中の同一文字種間の形のばらつきを抑えるという目的がある。これによって、文字認識装置の識別率を上げることができる。
既存の文字画像の正規化手法には、線型正規化法、非線型正規化法、モーメント正規化法、バイモーメント正規化法、CBA法、MCBA法、LDPF法などがある。これらの手法のうち、モーメント正規化法及びバイモーメント正規化法は、高い識別率を有するという文字認識のベンチマーク結果が、論文等によって公表されている(非特許文献3)。
図5は、モーメント正規化法及びバイモーメント正規化法によって生成された画像の例の説明図である。具体的には、図5には、正規化処理の入力画像501、入力画像501にモーメント正規化法を適用することによって生成された正規化画像502、及び入力画像501にバイモーメント正規化法を適用することによって生成された正規化画像503を示す。
上記のように、モーメント法及びバイモーメント法などの正規化法は、高い識別能力があることが知られている。しかし、これらの手法は、原画像の画素値を直接用いてモーメントを計算するため、文字ストロークの太さに影響されやすい。したがって、文字の太さによってモーメントの値が大きく異なり、そのため、正規化画像中の文字の位置が文字の太さによって違ってくる。
図6は、同一の文字の異なるフォントの例の説明図であり、具体的には、異なるフォントの文字「T」の画像601を示す。図6に示すように、文字を判断する上で、文字の太さは本質的でない。そのため、文字の太さの違いによって生じる同一文字カテゴリ間の正規化画像の文字のばらつき(文字の位置やサイズ等)は、識別に不利である。
輪郭特徴量モーメント正規化法(特許文献1、非特許文献4、非特許文献5)は、文字の輪郭を抽出し、文字の輪郭のモーメントに基づいて正規化を行う方法である。この方法は、文字の長さ及び太さに起因する文字間のばらつきを低減するために有効であり、活字文字認識において高い識別率を有する。
図10は、モーメント正規化法及び輪郭特徴量モーメント正規化法によって正規化された画像の説明図である。
図10に例示された原画像1001は、それぞれ横棒の太さが異なる複数の「T」の文字画像である。さらに、その原画像1001をモーメント正規化法によって正規化した画像1002を示す。正規化画像1002では、横棒が太くなるにしたがって、画像の中心がTの上の部分にずれ、文字の位置が全体的に下に下がっていることが分かる。また、正規化画像1002では、原画像1001で同じ太さであったTの縦棒の太さにもばらつきが生じている。このようなばらつきは、特徴抽出後の特徴空間上でのベクトル点のばらつきとなって現れ、識別率を低下させる原因となる。これに対し、原画像1001を輪郭特徴量モーメント正規化法によって正規化した画像1003では、これらのばらつきが低減されている。
特開2010−108113号公報
Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen, "Character Recognition Systems: A Guide for Students and Practitioners", Wiley-Interscience, 2007. 石井健一郎, 上田修功, 前田英作, 村瀬洋, "パターン認識"、 オーム社出版局、1998年8月 Cheng-Lin Liu, Kazuki Nakashima, Hiroshi Sako, and Hiromichi Fujisawa, "Handwritten digit recognition: investigation of normalization and feature extraction techniques", Pattern Recognition, Vol.37, No.2, pp. 265_279, 2004. Toshinori Miyoshi, Takeshi Nagasaki, and Hiroshi Shinjo, "Character Normalization Methods using Moments of Gradient Features and Normalization Cooperated Feature Extraction", Proceedings of the 2009 Chinese Conference on Pattern Recognition and the First CJK Joint Workshop on Pattern Recognition, pp.934-938, 2009. 三好利昇、永崎健、新庄広、"勾配特徴量のモーメントを用いた文字正規化法"、電子情報通信学会技術研究報告、PRMU、パターン認識・メディア理解108(432)、pp.187-192, 2009.
輪郭特徴量モーメント正規化法は、文字の輪郭を抽出し、抽出した文字輪郭部のモーメント値に基づいて正規化を行う方法である。この方法は、文字の太さや長さのばらつきを抑えることに効果があり、特に、活字文字の認識において有効である。しかし、手書き文字及び一部の活字文字においては、文字の輪郭が失われている場合がある。
図13は、輪郭の一部が失われた文字画像の例を示す説明図である。図13に示す文字画像1301及び1302は、いずれも文字「構」の手書き文字画像である。一方、文字画像1303及び2304は、それぞれ、文字画像1301及び1302から抽出された輪郭の画像である。文字画像1302においては、文字のつぶれのために、輪郭の一部が消失している。そのような場合には輪郭特徴量モーメントは不安定となる。
本発明の代表的な一例を示せば次の通りである。すなわち、プロセッサ及び記憶装置を含む演算装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される出力装置と、を有する文字認識装置であって、前記演算装置は、前記入力装置を介して入力された入力画像又は前記記憶装置に格納された入力画像から、文字認識の妨げとなる外乱要因を低減するための前処理を実行する第1手順と、前記前処理が実行された画像を正規化する第2手順と、前記正規化された画像をベクトル空間上のベクトル値に変換する第3手順と、前記記憶装置に格納された認識辞書に基づいて前記ベクトル値をいずれかの文字であると判定する第4手順と、前記出力装置を介して前記判定の結果を出力する第5手順と、を実行し、前記第2手順は、前記前処理が実行された画像の輪郭を抽出する第6手順と、前記前処理が実行された画像と前記抽出された輪郭の画像とを合成する第7手順と、前記合成された画像から所定のサイズの正規化された画像への写像を、前記合成された画像の重心の像が前記所定のサイズの範囲の中心に近づき、かつ、前記合成された画像の画素が広がる範囲の像が前記所定のサイズの範囲に近づくように生成する第8手順と、前記生成された写像に従って、前記前処理が実行された画像を正規化する第9手順と、を含むことを特徴とする。
本発明の一実施形態によれば、文字輪郭画像と原画像との合成画像に基づいて正規化を行うことによって、文字輪郭が失われている場合の正規化の不安定性を低減し、活字及び手書き文字における認識率を向上させることができる。
本発明の実施形態の文字認識装置のハードウェア構成の一例を示すブロック図である。 従来の文字認識装置が実行する処理を示すフロー図である。 本発明の実施形態の演算装置によって実行される文字認識処理の概要を示すフロー図である。 本発明の実施形態の演算装置によって実行される識別処理の説明図である。 モーメント正規化法及びバイモーメント正規化法によって生成された画像の例の説明図である。 同一の文字の異なるフォントの例の説明図である。 モーメント正規化法によって定められる文字画像の重心及び境界の説明図である。 本発明の実施形態の演算装置によって使用される文字輪郭の抽出方法の第1の例の説明図である。 本発明の実施形態において文字画像の輪郭を抽出するために参照される画素の説明図である。 モーメント正規化法及び輪郭特徴量モーメント正規化法によって正規化された画像の説明図である。 本発明の実施形態において文字画像の輪郭を抽出するために使用されるフィルターの説明図である。 本発明の実施形態の演算装置によって抽出される輪郭画像の例の説明図である。 輪郭の一部が失われた文字の例を示す説明図である。
図1は、本発明の実施形態の文字認識装置のハードウェア構成の一例を示すブロック図である。
本発明の文字認識装置100は、入力装置101、演算装置102、認識辞書103、表示装置104、及びパターンデータベース(DB)105を備える。
入力装置101は、コマンド等を入力するためのキーボードやマウス、及び画像入力のためのスキャナ等の装置である。
演算装置102は、入力された画像を読み取り、入力画像中の文字を判定する。演算装置102は、CPU(Central Processing Unit)、メモリ、及び記憶装置等を備える。
認識辞書103は、認識辞書を保存する辞書データベースである。
表示装置104は、演算装置102による処理内容を出力する装置であり、例えば、ディスプレイ等の装置である。処理内容を表示する必要がない場合には表示装置104はなくてもよく、必要に応じて表示装置以外の出力装置によって置き換えられてもよい。
パターンDB105は、入力装置101によって入力されたパターンを格納する。
認識辞書103及びパターンDB105は、演算装置102内の記憶装置に格納されてもよい。
本発明の実施形態の演算装置102は、文字認識手段を備える。具体的には、例えば、演算装置102内のCPUがメモリ又は記憶装置に格納されたプログラムを実行することによって文字認識手段を実現する。
次に、本発明の実施形態における処理フローの説明に移る。
図3は、本発明の実施形態の演算装置102によって実行される文字認識処理の概要を示すフロー図である。
図3に示す文字画像入力部201、前処理部202、正規化部301、特徴抽出部209、識別部210、出力部211及び認識辞書学習部213は、演算装置102によって(すなわち、CPUがメモリ等に格納されたプログラムを実行することによって)実現される機能であり、言い換えると、それぞれが演算装置102によって実行される処理手順に相当する。正規化部301に含まれる文字輪郭抽出部302、合成画像生成部303、モーメント値算出部304、正規化写像生成部207及び正規化画像生成部208についても同様である。
文字認識装置100は、入力された画像を読み取り、入力画像中の文字を判定し、判定結果を出力する。既に説明したように、図2は、従来の輪郭特徴量モーメント正規化法による文字認識処理のフロー図である。本実施形態の文字認識装置100が実行する文字認識処理のうち、正規化部301における文字輪郭抽出部302及び合成画像生成部303の処理が、従来の文字認識処理と異なる。
文字画像入力部201では、ユーザ、または、演算装置102によって実行されるプログラムによって、認識対象となる画像が入力される。例えば、入力装置101に含まれるスキャナが文書を読み取り、それによって得られた文字画像のデータを演算装置102がメモリ又は記憶装置に格納してもよい。なお、記憶装置等に予め文字画像のデータが格納されている場合には、それを認識対象として使用することもできる。
前処理部202は、入力画像にノイズ除去、ぼかし処理等を施すことによって、ノイズ又はかすれ等の、画像中の文字を判定する上で障害となる外乱要因を低減する。例えば、ノイズ除去処理によって、ある閾値以下の大きさの孤立点が除去される。前処理が施された入力画像は、一旦記憶装置に格納されてもよい。
正規化部301は、前処理が施された入力画像の各々を予め指定しておいた固定サイズの画像に変換する。変換後の画像を正規化画像とよぶ。正規化の主な目的の一つは、様々なサイズの入力画像を固定サイズの画像に変換することで、後の処理を統一することである。また、正規化のもう一つの主な目的は、様々な形の入力画像を、同一文字間で文字の形のばらつきが小さくなるように固定サイズの画像に変換することである。これによって、同一文字種の文字画像間でのばらつきを低減することができ、識別精度の向上に役立つ。詳細は、後述する。正規化部301で生成された正規化画像は、一旦記憶装置に格納されてもよい。
特徴抽出部209は、正規化部301で生成される正規化画像を入力として受け取り、入力された正規化画像をベクトル空間上のベクトル値に変換する。変換先のベクトル空間を特徴空間、変換されたベクトル値を特徴ベクトルとよぶ。次元圧縮によって、特徴空間の次元を削減する場合もある。その場合、特徴空間から識別への寄与が小さい成分をなるべく取り除き、特徴ベクトルをより低次元の特徴空間上の特徴ベクトルとして表現する。
識別部210は、認識辞書214を用いて、特徴ベクトルが所属する文字カテゴリを判定する。認識辞書214は、特徴空間を各文字カテゴリが占める領域に分割するための情報を保持している。これによって、特徴ベクトルが所属する領域に対応する文字カテゴリが判定結果として返される。
図4は、本発明の実施形態の演算装置102によって実行される識別処理の説明図である。
図4には、一例として、特徴空間401においてカテゴリA、カテゴリB及びカテゴリCのそれぞれが占める領域402A、402B及び402Cを示す。各カテゴリが一つの文字に対応する。この例では、未知入力(すなわち入力された正規化画像の特徴ベクトル)403が、いずれのカテゴリの領域にも含まれていない。この場合、識別部210は、未知入力403に最も近い領域402Aに対応するカテゴリAを、未知入力が所属するカテゴリと判断してもよい。あるいは、識別部210は、未知入力403がどのカテゴリにも所属しないと判断し、棄却の判定をしてもよい。識別部210は、判定の結果(例えば「カテゴリA」又は「棄却」)を出力する。
再び図3を参照する。出力部211は、識別部210による判定結果をディスプレイなどの表示装置104又は記憶装置等に出力する。
次に、本発明の正規化部301の処理の説明に移る前に、輪郭特徴量モーメント正規化法による正規化部203の処理について説明する。
前処理部202を経て、文字輪郭抽出部204に入力される原画像f(x,y)のサイズを幅W0、高さH0とする。ここで、0≦x<W0、0≦y<H0、各格子点を表すx及びyは整数値とし、左からk1番目、下からk2番目の格子点の画素値はf(k1−1,k2−1)と表示される。この原画像を幅L、高さLの画像サイズに正規化する例を説明する。
輪郭特徴量モーメント正規化法が適用される場合、まず、文字輪郭抽出部204が原画像f(x,y)の文字の輪郭画像fc(x,y)を抽出する。以下に輪郭の抽出方法の例を二つ挙げる。
文字輪郭の抽出方法の第1の例を挙げる。まず、文字画像f(x,y)から、輪郭の横方向成分fx(x,y)及び縦方向成分fy(x,y)を抽出する。
図8は、本発明の実施形態の演算装置によって使用される文字輪郭の抽出方法の第1の例の説明図である。
図8には、例として、入力画像801、輪郭画像802、横方向の輪郭画像803、及び縦方向の輪郭画像804を示している。ここで、入力画像801は、文字「B」の画像であり、輪郭画像802、横方向の輪郭画像803及び縦方向の輪郭画像804は、いずれも入力画像801から抽出された輪郭画像の例である。入力画像801がf(x,y)、横方向の輪郭画像803がfx(x,y)、縦方向の輪郭画像804がfy(x,y)に対応する。
最初に、文字輪郭抽出部204は、fx(x,y)=0、fy(x,y)=0と設定する。次に、文字輪郭抽出部204は、入力画像f(x,y)の格子点を順番に選択し、各々の格子点に対して、輪郭方向の特徴を抽出する。斜め方向は、縦横の両方にカウントする。いま、注目している格子点の画素が黒画素、すなわち、p=f(x,y)=1であるとき、文字輪郭抽出部204は、図9に示す画素pの近傍にある画素の情報から、数式(1)〜(3)によって特徴を抽出する。
Figure 0005769029
Figure 0005769029
Figure 0005769029
図9は、本発明の実施形態において文字画像の輪郭を抽出するために参照される画素の説明図である。
具体的には、図9には、ある格子点の画素pと、それに隣接する周囲の格子点の画素d1からd7との位置関係901を示す。例えば、画素pの格子点の座標が(x,y)である場合、画素d1、d2、d3、d4、d5、d6及びd7の格子点の座標は、それぞれ(x+1,y+1)、(x,y+1)、(x−1,y+1)、(x−1,y)、(x−1,y−1)、(x,y−1)及び(x+1,y−1)である。
これによって、輪郭の横方向成分fx(x,y)及び縦方向成分fy(x,y)が生成される。輪郭画像fc(x,y)は、fc(x,y)=fx(x,y)+fy(x,y)(ここで=は代入)を計算することによって求められる。
文字輪郭の抽出方法の第2の例を挙げる。まず、文字輪郭抽出部204は、fx(x,y)=0、fy(x,y)=0と設定する。次に、文字輪郭抽出部204は、入力画像f(x,y)の格子点を順番に選択し、各々の格子点に対して、特徴を抽出する。斜め方向は、縦横の両方にカウントする。文字輪郭抽出部204は、格子点(x,y)に対し、数式(4)によって特徴を抽出する。
Figure 0005769029
図11は、本発明の実施形態において文字画像の輪郭を抽出するために使用されるフィルターの説明図である。図11のフィルター1101が数式(4)のfy(x,y)の計算式に対応し、フィルター1102がfx(x,y)の計算式に対応する。
輪郭画像fc(x,y)は、fc(x,y)=fx(x,y)+fy(x,y)(ここで=は代入)を計算することによって求められる。
図12は、本発明の実施形態の演算装置102によって抽出される輪郭画像の例の説明図である。例えば、文字種「綾」「鮎」「或」「粟」及び「袷」の手書き文字の原画像1201から、輪郭画像1202が抽出される。
次に、モーメント値算出部206が、輪郭画像fc(x,y)のモーメント値を算出する。ここでは、数式(5)及び数式(7)を用いて、数式(6)に示す重心(xc,yc)及び数式(8)に示すδx、δyの値を計算する。このδx及びδyは、原画像の画素が広がる範囲を示すパラメータであり、後述する原画像の境界を定めるために使用される。
Figure 0005769029
Figure 0005769029
Figure 0005769029
Figure 0005769029
次に、正規化写像生成部207は、原画像を正規化平面[0,L]×[0,L]に写すための写像を生成する。輪郭特徴量モーメント正規化法では、モーメント値算出部206が計算した重心(xc,yc)を中心として横方向にδx、縦方向にδyの幅をもった領域を、拡大又は縮小してL×Lのサイズとすることによって、正規化画像を生成する。すなわち、原画像中の[xc−δx/2,xc+δx/2]×[yc−δy/2,yc+δy/2]の部分を正規化平面[0,L]×[0,L]に写像する。そのための写像は、数式(9)によって表される。
Figure 0005769029
次に、正規化画像生成部208は、正規化画像f’(x’,y’)を数式(10)の関係式によって生成する。この例の場合には、すでに述べたように、原画像中の[xc−δx/2,xc+δx/2]×[yc−δy/2,yc+δy/2]の部分をL×Lのサイズに拡大縮小することによって正規化画像が得られる。
Figure 0005769029
以上のように、輪郭特徴量モーメント正規化法は、原画像f(x,y)から輪郭画像fc(x,y)を抽出し、輪郭画像fc(x,y)のモーメントを用いて、文字画像の重心及び境界を定める。
従来のように、モーメント正規化法、すなわち、原画像そのもののモーメント値に基づく正規化法が適用された場合には、原画像の画素の重心の像が正規化画像の範囲の中心に近づき、かつ、原画像の画素が広がる範囲の像が正規化画像の範囲に近づくように、原画像から正規化画像への写像が生成される。
図7は、モーメント正規化法によって定められる文字画像の重心及び境界の説明図である。
具体的には、図7には、前処理後の画像(すなわち上記の説明における原画像)701と、それらについて定められた重心及び境界の表示を含む文字画像702を示す。例えば、文字種「0」に対応する原画像701Aから、重心703A及び境界704Aが決定される。ここで、境界704Aは、原画像701Aにおける、文字種「0」に相当する文字が表示された領域とそれ以外の領域との境界であり、言い換えると、文字種「0」に相当する文字の画素が広がる範囲に相当する。モーメント正規化法が適用される場合、文字の画素が広がる範囲を示すパラメータとして、数式(8)によって算出された二次モーメント値δx、δyが使用され、境界704Aは、重心703Aを中心として横方向にδx、縦方向にδyの幅をもった領域によって定義される。
上記のようにして生成された写像を用いて正規化を行うことによって、入力された文字画像の大きさ及び形にばらつきがある場合であっても、それらが同一の文字種の画像であれば、正規化された文字画像の特徴量のばらつきを抑えることが期待できる。
しかし、上記のようなモーメント正規化法が適用された場合、入力された文字画像の線の太さの変動に応じて、図10の正規化画像1002に示すような正規化画像のばらつきが生じやすい。これは、原画像の画素の重心の位置が原画像の文字の線の太さの影響を受けて変動すること等のために、モーメント値が不安定になり、それによって生成される写像も変動するためである。
これに対して、輪郭特徴量モーメント正規化法が適用された場合(すなわち輪郭画像のモーメント値に基づく正規化が行われた場合)には、原画像の輪郭の画素の重心の像が正規化画像の範囲の中心に近づき、かつ、原画像の輪郭の画素が広がる範囲の像が正規化画像の範囲に近づくように、原画像から正規化画像への写像が生成される。この場合、原画像のうち輪郭以外の部分の画素が削除されているため、輪郭の画素の重心の位置は、原画像の文字の線の太さの影響を受けにくい。このため、モーメント値及び生成される写像は文字の線の太さにかかわらず安定し、図10の正規化画像1003に示すように、正規化画像のばらつきが生じにくくなる。
しかし、図13の文字画像1302及び1304の例が示すように、文字の輪郭の構造が失われている場合には、輪郭の一部が抽出できない。輪郭の一部が失われることで、輪郭の画素の重心の位置が変動するため、輪郭の構造が失われる場合には、算出されるモーメントの値が不安定となり、生成される正規化画像のばらつきが、同一文字種間で大きくなる。このようなばらつきは、特徴抽出後の特徴空間上でのベクトル点のばらつきとなって現れ、識別率を低下させる原因となる。
次に、本発明の実施形態の正規化部301が実行する正規化について説明する。
文字輪郭抽出部302は、文字輪郭抽出部204と同様の方法(例えば上記の第1又は第2の例)を用いて文字輪郭画像fc(x、y)を抽出してもよいし、別の方法を用いてもよい。ここで、文字輪郭を抽出する別の方法の例として、第3及び第4の例を説明する。
最初に第3の例を説明する。まず、文字輪郭抽出部302は、全ての白画素p=(x、y)についてg0(p)=g1(p)=…=g7(p)とする。次に、文字輪郭抽出部302は、全ての黒画素p=(x、y)についてg0(p)、g1(p)、…、g7(p)を数式(11)によって計算する。
Figure 0005769029
d0、d1、…、d7は、図9に示すように、画素pの近傍画素である。文字輪郭抽出部302は、輪郭画像fc(x,y)を、fc(x,y)=Σgk(x,y)によって生成する。ここで、Σgk(x,y)は、k=0、1、…、7の範囲で計算される。
次に第4の例を説明する。まず、文字輪郭抽出部302は、全ての画素p=(x,y)についてgx(p)、gy(p)を数式(12)によって計算する。次に、文字輪郭抽出部302は、輪郭画像fc(x,y)を数式(13)によって生成する。ここで、d0、d1、…、d7は図9に示すように、画素pの近傍画素である。
Figure 0005769029
Figure 0005769029
上記の第1〜第4の例は、文字画像の輪郭を抽出する方法の例であり、文字輪郭抽出部302は、上記に例示した方法以外の方法によって文字画像の輪郭を抽出してもよい。上記のように、原画像の格子点の周囲の格子点の画素値が所定の条件を満たす場合に当該原画像の格子点における輪郭の画像の画素値を増加させる方法(上記の第1の例及び第3の例に相当)、又は、原画像の格子点の周囲の格子点の画素値に所定の係数を乗じた値を集計することによって当該原画像の格子点における輪郭の画像の画素値を算出する方法(上記の第2の例及び第3の例に相当)等によって、文字画像の輪郭を抽出することができる。
以上で文字輪郭抽出部302の説明を終了し、続いて、合成画像生成部303以降の処理を説明する。合成画像生成部303は、文字輪郭抽出部302において生成した各格子点の文字輪郭画像fc(x,y)と、前処理部202から出力される各格子点の原画像f(x,y)との合成画像fs(x,y)を数式(14)によって生成する。
Figure 0005769029
ここで、γ1及びγ2は正の数であり、γ1+γ2=1を満たす。この合成画像は、原画像の輪郭部分が強調された画像、言い換えると、原画像の輪郭部分の画素値がそれ以外の部分の画素値より大きくなるように重み付けされた画像に相当する。
モーメント値算出部304は、fc(x,y)の代わりにfs(x,y)を用いてモーメント値を算出する。すなわち、モーメント値算出部206は、数式(5)の代わりに数式(15)用いて、数式(6)に示す重心(xc,yc)及び数式(8)に示すδx、δyの値を計算する。
Figure 0005769029
続いて、本発明の正規化写像生成部207が、数式(15)等によって計算されたモーメント値に基づいて正規化写像を生成し、生成された正規化写像を用いて、本発明の正規化画像生成部208が正規化画像を生成する(数式(10))。
上記の本発明の実施形態では、合成画像の二次モーメント値δx及びδyに基づいて、合成画像の画素が広がる範囲(すなわち境界)が定められる。この範囲は、必ずしも合成画像の画素の輪郭とは一致しない。しかし、上記のようなモーメント値に基づく範囲の決定方法は一例に過ぎず、本発明では、上記以外の方法によって文字画像の画素が広がる範囲が定められてもよい。例えば、演算装置102は、モーメント値算出部304において、モーメント値を算出する代わりに、合成画像の画素の輪郭に外接する長方形の範囲を合成画像の画素が広がる範囲として定めてもよい。
ここまでの説明は文字認識装置100に関するものであるが、文字認識装置100は、認識辞書生成装置として使用することもできる。その場合、演算装置102の記憶装置が文字画像DB212(図3)を保持し、前処理部202は、文字画像DB212に格納された文字画像について前処理を行う。正規化部301及び特徴抽出部209の処理は上記の文字認識装置100と同様である。認識辞書学習部213は、特徴抽出部209によって抽出された特徴量に基づいて、認識辞書の学習を行い、その結果を認識辞書214(図1の認識辞書103に相当)に格納する。なお、認識辞書学習部213は、正規化部301等と同様、演算装置102によって実現される機能である。
以上のように、本発明の実施形態によれば、原画像と輪郭画像との合成画像のモーメント値に基づく正規化が行われる。すなわち、合成画像のモーメント値が計算され、これに基づいて原画像から正規化画像への写像が生成される。合成によって、文字画像の輪郭部分の画素値がそれ以外の部分の画素値より大きくなる。その結果、原画像そのもののモーメント値に基づく正規化を行った場合と比較すると、輪郭部分の画素の重みが増しているために、文字の線の太さの影響を軽減することができ、かつ、輪郭画像のモーメント値に基づく正規化を行った場合と比較すると、輪郭以外の部分の画素も利用されているために、輪郭の消失の影響を軽減することができる。このように、本実施形態によれば、線の太さ及び輪郭の消失のいずれに対しても安定した正規化を実現することができ、これによって、活字及び手書き文字の認識率を向上させることができる。
なお、上記の効果を最大化するためには、係数γ1及びγ2を最適化することが望ましい。最適な係数γ1及びγ2の値は、輪郭の抽出方法等、種々の条件に依存し得るが、合成された画像における文字画像の輪郭部分の画素値がそれ以外の部分の画素値より大きくなるような値を選択する必要がある。例えば、本実施形態の合成画像生成部303は、γ1<γ2を満たすγ1及びγ2を使用してもよい。
100 文字認識装置
101 入力装置
102 演算装置
103、214 認識辞書
104 表示装置
105 パターンDB
201 文字画像入力部
202 前処理部
203、301 正規化部
204、302 文字輪郭抽出部
206、304 モーメント値算出部
207 正規化写像生成部
208 正規化画像生成部
209 特徴抽出部
210 識別部
211 出力部
212 文字画像DB
213 認識辞書学習部
303 合成画像生成部

Claims (15)

  1. プロセッサ及び記憶装置を含む演算装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される出力装置と、を有する文字認識装置であって、
    前記演算装置は、
    前記入力装置を介して入力された入力画像又は前記記憶装置に格納された入力画像から、文字認識の妨げとなる外乱要因を低減するための前処理を実行する第1手順と、
    前記前処理が実行された画像を正規化する第2手順と、
    前記正規化された画像をベクトル空間上のベクトル値に変換する第3手順と、
    前記記憶装置に格納された認識辞書に基づいて前記ベクトル値をいずれかの文字であると判定する第4手順と、
    前記出力装置を介して前記判定の結果を出力する第5手順と、を実行し、
    前記第2手順は、
    前記前処理が実行された画像の輪郭を抽出する第6手順と、
    前記前処理が実行された画像と前記抽出された輪郭の画像とを合成する第7手順と、
    前記合成された画像から所定のサイズの正規化された画像への写像を、前記合成された画像の重心の像が前記所定のサイズの範囲の中心に近づき、かつ、前記合成された画像の画素が広がる範囲の像が前記所定のサイズの範囲に近づくように生成する第8手順と、
    前記生成された写像に従って、前記前処理が実行された画像を正規化する第9手順と、を含むことを特徴とする文字認識装置。
  2. 前記第7手順は、各格子点における前記前処理が実行された画像の画素値に第1の係数を乗算した値と、各格子点における前記輪郭の画像の画素値に第2の係数を乗算した値と、を加算することによって、各格子点における前記合成された画像の画素値を算出する手順を含むことを特徴とする請求項1に記載の文字認識装置。
  3. 前記第2手順は、さらに、前記合成された画像の画素が広がる範囲を示すパラメータとして、前記合成された画像のモーメント値を算出する手順を含み、
    前記第8手順は、前記モーメント値に応じて前記合成された画像を拡大又は縮小する写像を生成する手順を含むことを特徴とする請求項1に記載の文字認識装置。
  4. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値が所定の条件を満たす場合に前記各格子点における輪郭の画像の画素値を増加させる手順を含むことを特徴とする請求項1に記載の文字認識装置。
  5. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値に所定の係数を乗じた値を集計することによって前記各格子点における輪郭の画像の画素値を算出する手順を含むことを特徴とする請求項1に記載の文字認識装置。
  6. プロセッサ、及び、前記プロセッサに接続され、文字画像が格納された記憶装置を含む演算装置を有する認識辞書生成装置であって、
    前記演算装置は、
    前記記憶装置に格納された文字画像から、文字認識の妨げとなる外乱要因を低減するための前処理を実行する第1手順と、
    前記前処理が実行された画像を正規化する第2手順と、
    前記正規化された画像をベクトル空間上のベクトル値に変換する第3手順と、
    前記ベクトル値に基づいて、文字認識に使用される認識辞書を学習する第4手順と、
    前記学習の結果を前記記憶装置に格納する第5手順と、を実行し、
    前記第2手順は、
    前記前処理が実行された画像の輪郭を抽出する第6手順と、
    前記前処理が実行された画像と前記抽出された輪郭の画像とを合成する第7手順と、
    前記合成された画像から所定のサイズの正規化された画像への写像を、前記合成された画像の重心の像が前記所定のサイズの範囲の中心に近づき、かつ、前記合成された画像の画素が広がる範囲の像が前記所定のサイズの範囲に近づくように生成する第8手順と、
    前記生成された写像に従って、前記前処理が実行された画像を正規化する第9手順と、を含むことを特徴とする認識辞書生成装置。
  7. 前記第7手順は、各格子点における前記前処理が実行された画像の画素値に第1の係数を乗算した値と、各格子点における前記輪郭の画像の画素値に第2の係数を乗算した値と、を加算することによって、各格子点における前記合成された画像の画素値を算出する手順を含むことを特徴とする請求項6に記載の認識辞書生成装置。
  8. 前記第2手順は、さらに、前記合成された画像の画素が広がる範囲を示すパラメータとして、前記合成された画像のモーメント値を算出する手順を含み、
    前記第8手順は、前記モーメント値に応じて前記合成された画像を拡大又は縮小する写像を生成する手順を含むことを特徴とする請求項6に記載の認識辞書生成装置。
  9. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値が所定の条件を満たす場合に前記各格子点における輪郭の画像の画素値を増加させる手順を含むことを特徴とする請求項6に記載の認識辞書生成装置。
  10. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値に所定の係数を乗じた値を集計することによって前記各格子点における輪郭の画像の画素値を算出する手順を含むことを特徴とする請求項6に記載の認識辞書生成装置。
  11. プロセッサ及び前記プロセッサに接続される記憶装置を含む演算装置が実行する画像の正規化方法であって、
    前記演算装置が、前記記憶装置に格納された原画像の輪郭を抽出する第6手順と、
    前記演算装置が、前記原画像と前記抽出された輪郭の画像とを合成する第7手順と、
    前記演算装置が、前記合成された画像から所定のサイズの正規化された画像への写像を、前記合成された画像の重心の像が前記所定のサイズの範囲の中心に近づき、かつ、前記合成された画像の画素が広がる範囲の像が前記所定のサイズの範囲に近づくように生成する第8手順と、
    前記演算装置が、前記生成された写像に従って、前記原画像を正規化し、その結果を前記記憶装置に格納する第9手順と、を含むことを特徴とする正規化方法。
  12. 前記第7手順は、各格子点における前記前処理が実行された画像の画素値に第1の係数を乗算した値と、各格子点における前記輪郭の画像の画素値に第2の係数を乗算した値と、を加算することによって、各格子点における前記合成された画像の画素値を算出する手順を含むことを特徴とする請求項11に記載の正規化方法。
  13. 前記正規化方法は、さらに、前記合成された画像の画素が広がる範囲を示すパラメータとして、前記合成された画像のモーメント値を算出する手順を含み、
    前記第8手順は、前記モーメント値に応じて前記合成された画像を拡大又は縮小する写像を生成する手順を含むことを特徴とする請求項11に記載の正規化方法。
  14. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値が所定の条件を満たす場合に前記各格子点における輪郭の画像の画素値を増加させる手順を含むことを特徴とする請求項11に記載の正規化方法。
  15. 前記第6手順は、前記前処理が実行された画像の各格子点の周囲の格子点の画素値に所定の係数を乗じた値を集計することによって前記各格子点における輪郭の画像の画素値を算出する手順を含むことを特徴とする請求項11に記載の正規化方法。
JP2012055638A 2012-03-13 2012-03-13 文字認識装置、認識辞書生成装置及び正規化方法 Active JP5769029B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012055638A JP5769029B2 (ja) 2012-03-13 2012-03-13 文字認識装置、認識辞書生成装置及び正規化方法
CN201310027353.6A CN103310210B (zh) 2012-03-13 2013-01-24 文字识别装置、识别字典生成装置以及归一化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012055638A JP5769029B2 (ja) 2012-03-13 2012-03-13 文字認識装置、認識辞書生成装置及び正規化方法

Publications (2)

Publication Number Publication Date
JP2013190911A JP2013190911A (ja) 2013-09-26
JP5769029B2 true JP5769029B2 (ja) 2015-08-26

Family

ID=49135406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012055638A Active JP5769029B2 (ja) 2012-03-13 2012-03-13 文字認識装置、認識辞書生成装置及び正規化方法

Country Status (2)

Country Link
JP (1) JP5769029B2 (ja)
CN (1) CN103310210B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6170860B2 (ja) * 2014-03-25 2017-07-26 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法
CN107274345A (zh) * 2017-06-07 2017-10-20 众安信息技术服务有限公司 一种中文打印字符图像合成方法及装置
CN107194378B (zh) * 2017-06-28 2020-11-17 深圳大学 一种基于混合字典学习的人脸识别方法及装置
CN113569859B (zh) * 2021-07-27 2023-07-04 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3052464B2 (ja) * 1991-07-31 2000-06-12 日本ビクター株式会社 多値化データを用いた輪郭点抽出法
JP3301467B2 (ja) * 1993-12-02 2002-07-15 日本電信電話株式会社 画像パターン同定・認識方法
DE69427677T2 (de) * 1993-12-02 2002-05-16 Nippon Telegraph & Telephone Bildmusteridentifikations/Erkennungsverfahren
JPH07160815A (ja) * 1993-12-02 1995-06-23 Hitachi Eng Co Ltd 輪郭強調による画像二値化処理方法及び装置
JP2002150306A (ja) * 2000-09-04 2002-05-24 Minolta Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録したコンピュータ読取可能な記録媒体
JP2002230481A (ja) * 2001-01-30 2002-08-16 Oki Electric Ind Co Ltd 光学式文字読取装置
CN100589119C (zh) * 2008-05-23 2010-02-10 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
JP5268563B2 (ja) * 2008-10-29 2013-08-21 日立コンピュータ機器株式会社 文字認識装置、及び、認識辞書生成装置
CN102169542B (zh) * 2010-02-25 2012-11-28 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置

Also Published As

Publication number Publication date
CN103310210A (zh) 2013-09-18
CN103310210B (zh) 2016-06-29
JP2013190911A (ja) 2013-09-26

Similar Documents

Publication Publication Date Title
JP5406705B2 (ja) データ補正装置及び方法
US8155398B2 (en) Image processing apparatus, image processing method and computer program
US20180039853A1 (en) Object Detection System and Object Detection Method
WO2017219391A1 (zh) 一种基于三维数据的人脸识别系统
US8509536B2 (en) Character recognition device and method and computer-readable medium controlling the same
US8391613B2 (en) Statistical online character recognition
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
JP5082637B2 (ja) 画像処理プログラム、画像処理方法及び画像処理装置
US20220012612A1 (en) System, method, and program for predicting information
US8351700B2 (en) Variable glyph system and method
CN110674744A (zh) 一种年龄识别方法、装置及电子设备
WO2006088222A1 (ja) 手書き文字認識方法、手書き文字認識システム、手書き文字認識プログラム及び記憶媒体
JP5769029B2 (ja) 文字認識装置、認識辞書生成装置及び正規化方法
US20150186753A1 (en) Image Processing Apparatus, Image Processing Method, and Image Processing Program
JP5912570B2 (ja) 筆跡鑑定方法,筆跡鑑定装置及び筆跡鑑定プログラム
JP5268563B2 (ja) 文字認識装置、及び、認識辞書生成装置
CN113724271A (zh) 一种用于复杂环境移动机器人场景理解的语义分割模型训练方法
JP2010182167A (ja) 画像処理装置および画像処理方法
JP6147003B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113077390B (zh) 一种基于深度学习的图像摆正方法
JP4011859B2 (ja) 単語画像正規化装置,単語画像正規化プログラム記録媒体および単語画像正規化プログラム
JP3855467B2 (ja) 手書き文字正規化方法及び手書き文字正規化装置並びに手書き文字正規化処理プログラムを記録した記録媒体
JP5915275B2 (ja) 画像処理プログラム、画像処理方法及び画像処理装置
CN116403269A (zh) 一种遮挡人脸解析方法、系统、设备及计算机存储介质
CN112163589A (zh) 一种图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130809

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150610

R150 Certificate of patent or registration of utility model

Ref document number: 5769029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250