JP2010108113A - 文字認識装置 - Google Patents

文字認識装置 Download PDF

Info

Publication number
JP2010108113A
JP2010108113A JP2008277599A JP2008277599A JP2010108113A JP 2010108113 A JP2010108113 A JP 2010108113A JP 2008277599 A JP2008277599 A JP 2008277599A JP 2008277599 A JP2008277599 A JP 2008277599A JP 2010108113 A JP2010108113 A JP 2010108113A
Authority
JP
Japan
Prior art keywords
image
character
center
gravity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008277599A
Other languages
English (en)
Other versions
JP5268563B2 (ja
Inventor
Toshinori Miyoshi
利昇 三好
Takeshi Eisaki
健 永崎
Hiroshi Shinjo
広 新庄
Shoichi Ishii
正一 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Computer Peripherals Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Computer Peripherals Co Ltd filed Critical Hitachi Computer Peripherals Co Ltd
Priority to JP2008277599A priority Critical patent/JP5268563B2/ja
Publication of JP2010108113A publication Critical patent/JP2010108113A/ja
Application granted granted Critical
Publication of JP5268563B2 publication Critical patent/JP5268563B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字識別の精度を上げるために、サイズが異なる複数の入力画像を、同一文字間の形のばらつきが小さくなるように正規化を行う。
【解決手段】正規化処理では、画像から文字ストロークの方向の情報を保持する特徴を抽出し、抽出した方向成分特徴のモーメントから画像中の文字の重心と境界を定め、文字のアスペクト比を保存する形で、固定サイズの正規化画像に変換する。まず、方向成分抽出61では、画像から文字ストロークの方向の情報を保持する特徴を抽出する。縦横別々に抽出する方法もある。重心の算出62と境界の算出63では、抽出した特徴のモーメントから文字の重心、境界を定める。アスペクト比算出35では、正規化画像中の文字のアスペクト比を、原画像の文字のアスペクト比から定める。正規化画像生成36では、定めたアスペクト比に従って、文字画像を予め定めた固定サイズの画像に変換する。
【選択図】図6

Description

本発明は、文字認識用の認識辞書生成装置、文字認識装置に関し、特に文字画像の正規化手法に関する。
文字認識装置は、予め作成しておいた認識辞書を用いて、入力画像中に書かれている文字カテゴリを判定し、判定結果を出力する。ここで、文字カテゴリとは、例えば、数字認識の場合には、0〜9までの10種類の数字である。
文字認識装置が、入力画像を受け取ってから、判定結果を出力するまでの処理フローは、前処理、正規化、特徴抽出、識別の4つの処理フローに分けられる。図2に、処理のフローを示す。
入力21は、ユーザまたは、演算装置によって実行されるプログラムによって、画像が入力される。
前処理22では、例えば、入力画像のノイズ除去、ぼかし処理によるスムージング等を行い、文字認識の妨げとなる外乱要因を可能な限り取り除く。
次に、正規化23では、前処理後の画像を入力とし、様々なサイズで入ってくる入力画像のサイズを揃えることで、後の処理を統一する。
次に、特徴抽出24では、正規化後の画像を入力として受け取り、ベクトル空間上のベクトル値に変換する。前記ベクトル空間を特徴空間、前記ベクトル値を特徴ベクトルとよぶ。特徴抽出手法には、画素特徴、輪郭特徴、勾配特徴、ガボール特徴などが広く知られている(非特許文献1)。必要があれば、主成分分析や線型判別分析などの次元削減手法を用いて、特徴空間の次元数を圧縮し、特徴空間の次元数を削減する(非特許文献2)。
ここまでの処理により、入力画像は特徴空間上のベクトル値(特徴ベクトル)として表現されることになる。
次に、識別25では、認識辞書を用いて、特徴ベクトルが所属する文字カテゴリを判定する。認識辞書は、特徴空間上の各点が、どの文字カテゴリに所属するかを判断するための情報を保持している。図10は、その一例の模式図を示す。この例では、未知入力(特徴ベクトル)に対して、最も近いカテゴリAを未知入力が所属するカテゴリと判断し、その結果を出力する。または、図10の場合には、全てのカテゴリの領域の外部にあるため、どのカテゴリにも所属しないと判断し、棄却の判定をする場合もある。詳しくは、非特許文献1または非特許文献2を参照のこと。
出力26では、判定結果をディスプレイなどの表示装置やファイル等に出力する。
高精度な文字認識を行うためには、上記の前処理22、正規化23、特徴抽出24、識別25の各々の処理が重要な役割をもっている。そのため、各々の処理で、文字認識に適した処理を行うことが重要である。本発明は、正規化22の処理に関するものである。
正規化には、入力画像のサイズを揃えることの他に、様々な形で入ってくる入力画像の同一文字間の形のばらつきを抑えるという目的がある。同一文字カテゴリに属する入力画像の形のばらつきを抑えることによって、同一文字カテゴリにある画像から抽出した特徴ベクトルが特徴空間上にコンパクトにまとまるという効果が得られる。これによって、文字認識装置の識別率を上げることができる。
既存の文字画像の正規化手法には、線型正規化法、非線型正規化法、モーメント正規化法、バイモーメント正規化法、CBA法、MCBA法、LDPF法などがある。これらの手法のうち、モーメント正規化法、バイモーメント正規化法は、高い識別率を有するという文字認識のベンチマーク結果が、論文等により公表されている(非特許文献3)。図11は、正規化処理の入力画像を示す。図12はモーメント正規化法、図13はバイモーメント正規化法によって生成された正規化画像を示す。
Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen. Character Recognition Systems: A Guide for Students and Practitioners. Wiley-Interscience, 2007. 石井健一郎, 上田修功, 前田英作, 村瀬洋. パターン認識. オーム社出版局, pp. 49139. Cheng-Lin Liu, Kazuki Nakashima, Hiroshi Sako, and Hiromichi Fujisawa. Handwritten digit recognition: investigation of normalization and feature extraction techniques. Pattern Recognition, Vol.37, No.2, pp. 265279, 2004.
本発明の目的は、文字の太さや長さの違いに起因する文字識別能力の低下を軽減するための正規化方式を提供することである。モーメント法やバイモーメント法は、高い識別能力があることが知られている。しかし、これらの従来手法は、原画像の画素値を直接用いてモーメントを計算するため、文字ストロークの太さや長さに影響されやすい。したがって、文字の太さや長さによってモーメントの値が大きく異なり、そのため、正規化画像中の文字の位置が文字の太さや長さによって違ってくる。図14には、異なるフォントのTを示す。図14にあるように、文字を判断する上で、文字の太さや長さは本質的でない。そのため、文字の太さや長さの違いによって生じる同一文字カテゴリ間の正規化画像の文字のばらつき(文字の位置やサイズ等)は、識別に不利である。
図15は、Tの横棒の太さを変えて作成した原画像151と、モーメント正規化法によって正規化した画像152を示す。正規化画像152では、横棒が太くなるにしたがって、画像の中心がTの上の部分にずれ、文字の位置が全体的に下に下がっていることが分かる。また、正規化画像152では、原画像151で同じ太さであったTの縦棒の太さにもばらつきがある。さらに、画像154は、Tの横棒の長さを変えて作成した画像153を、モーメント正規化法により正規化した正規化画像である。Tの横棒の長さが短くなるにつれて、正規化画像154の中の文字の位置が上にずれていることが分かる。このようなばらつきは、特徴抽出後の特徴空間上でのベクトル点のばらつきとなって現れ、識別率を低下させる原因となる。
上記課題を解決するために、本発明の文字認識装置は、認識対象となる画像を入力する入力部と、前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
判定結果を出力する出力部と、を有する。
本発明の文字認識装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴としていても良い。
本発明の文字認識装置は、境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴としていても良い。
本発明の文字認識装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴としていても良い。
本発明の文字認識装置は、方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴としていても良い。
本発明の認識辞書生成装置は、認識辞書生成用DBを入力する入力部と、前記認識辞書生成用DBの各々の画像パターンから文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記各々の正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、前記各々のベクトル値の集合を用いて前記ベクトル空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する認識辞書生成部と、を有する。
本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴としていても良い。
本発明の認識辞書生成装置は、境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴としていても良い。
本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴としていても良い。
本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴としていても良い。
本発明の文字認識装置は、認識対象となる画像を入力する入力部と、前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の文字ストロークから縦と横の二方向の情報を保持する特徴を抽出する方向成分抽出ステップと、画像中の文字画像部分を抽出する文字画像抽出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、判定結果を出力する出力部と、を有することを特徴とする。
本発明の認識辞書生成装置は、画像中の文字画像部分を抽出する文字画像抽出ステップにおいて、画像中の背景画素でない部分を囲む最小の矩形により指定された部分を文字画像とすることを特徴としていても良い。
本発明の認識辞書生成装置は、正規化画像生成ステップにおいて、縦方向、横方向の方向成分特徴から、それぞれ、縦方向、横方向のヒストグラムを算出し、ヒストグラムが均一になるように文字画像を正規化することで正規化画像を生成することを特徴としていても良い。
本発明の認識辞書生成装置は、文字画像抽出ステップにおいて、方向成分特徴から文字の重心を算出し、前記重心からの文字の境界の位置を方向成分特徴の二次モーメントから算出し、前記文字の境界によって囲まれた部分を文字画像とすることを特徴としていても良い。
本発明の構成によれば、同一文字カテゴリ間で、正規化画像中の文字のばらつきを低減し、文字認識率を向上させることが可能となる。
(実施例1)
図1は、本発明の文字認識装置の一例を示す構成図である。
本発明の文字認識装置は、入力装置11、演算装置12、認識辞書13、表示装置14、パターンデータベース(DB)15を備える。
入力装置11は、コマンド等を入力するためのキーボードやマウス、および画像入力のためのスキャナ等の装置である。
演算装置12は、入力された画像を読み取り、入力画像中の文字を判定する。演算装置12は、CPU,メモリ、記憶装置等を備える。
認識辞書13は、認識辞書を保存する辞書データベースである。
表示装置14は、演算装置12による処理内容を適宜表示するディスプレイ等の装置である。表示装置14はなくてもよい。パターンDB15は、入力装置11によって入力されたパターンを格納する。本発明の実施形態の演算装置12は、文字認識手段を備える。
次に、本発明の実施形態における処理フローの説明に移る。
図5は、本発明の実施形態の演算装置12によって実行される文字認識手段の概要を示すフロー図である。なお、本発明の特徴は、方向成分を用いた正規化51の処理にある。文字認識装置は、入力された画像を読み取り、入力画像中の文字を判定し、判定結果を出力する。
入力21は、ユーザまたは、演算装置12によって実行されるプログラムによって、認識対象となる画像が入力される。
前処理22は、入力画像にノイズ除去、ぼかし処理等を施すことにより、ノイズやかすれ等の画像中の文字を判定する上で障害となる外乱要因をできる限り除去する。例えば、ノイズ除去処理では、ある閾値以下の大きさの孤立点を除去する。
方向成分を用いた正規化51は、入力画像の各々を予め指定しておいた固定サイズの画像に変換する。変換後の画像を正規化画像とよぶ。正規化は、様々なサイズで入ってくる入力画像を固定サイズの画像に変換することで、後の処理を統一することが主な目的の1つである。また、正規化のもう一つの主な目的は、様々な形で入ってくる入力画像を、同一文字間で文字の形のばらつきが小さくなるように固定サイズの画像に変換することである。これによって、同一文字カテゴリにある画像は、画像中の文字の形が似た正規化画像として表現されることになり、識別精度の向上に役立つ。本発明の特徴は、この方向成分を用いた正規化51の処理にある。詳細は、後述する。
特徴抽出24は、方向成分を用いた正規化51で生成される正規化画像を入力として受け取り、入力された正規化画像をベクトル空間上のベクトル値に変換する。前記ベクトル空間を特徴空間、前記ベクトル値を特徴ベクトルとよぶ。特徴空間は、次元圧縮により、次元を削減する場合もある。次元圧縮では、特徴空間から識別への寄与が小さい成分をなるべく取り除き、特徴ベクトルをより低次元の特徴空間上の特徴ベクトルとして表現する。
識別25では、認識辞書を用いて、特徴ベクトルが所属する文字カテゴリを判定する。認識辞書は、特徴空間を各文字カテゴリが占める領域に分割するための情報を保持している。これによって、特徴ベクトルが所属する領域に対応する文字カテゴリが判定結果として返される。図10は、その模式図を示す。この例では、未知入力(特徴ベクトル)に対して、最も近いカテゴリAを未知入力が所属するカテゴリと判断し、その結果を出力する。または、図10の場合には、全てのカテゴリの領域の外部にあるため、どのカテゴリにも所属しないと判断し、棄却の判定をする場合もある。
出力26では、判定結果をディスプレイなどの表示装置や記憶装置等に出力する。
次に、本発明の方向成分を用いた正規化51の処理の説明に移る前に、以下では、従来手法であるモーメント正規化法とバイモーメント正規化法について説明する。
モーメント正規化法について説明する。図3に、処理の流れを示す。入力31によって入力される原画像f(x、y)のサイズを幅W0、高さH0とする(0≦x<W0,0≦y<H0、格子点は整数値とし、左からk1番目、下からk2番目の画素値をf(k1−1、k2−1)で表すことにする)。この原画像を幅L、高さLの画像サイズに正規化することを考える。
モーメント正規化法では、前処理を施した後の入力画像f(x、y)中の文字の中心と文字の境界をf(x、y)のモーメントから推定し、定める。図16は、入力画像(上)と、モーメント正規化法で定めた入力画像中の文字の中心と境界を示した画像(下)である。
入力画像f(x、y)のモーメントmpqは、数1により定義される。
重心の算出33では、文字の重心座標(xc、yc)を計算する。文字の重心座標(xc、yc)は、m00、m10、m01を計算することで、数2によって与えられる。
境界の算出34では、境界の位置をf(x、y)の二次モーメントにより定める。文字の幅δxと高さδyは、m20、m02を計算することで、数3によって与えられる。αは、定数で、例えばα=5などとする。
以上により、文字の境界は、重心を文字の中心として、x方向が[xc−δx/2、xc+δx/2]、y方向が[yc−δy/2、yc+δy/2]として定める。このようにして、モーメントによって定められた境界によって囲まれる画像[xc−δx/2、xc+δx/2]×[yc−δy/2、yc+δy/2]を、文字画像とよぶことにする(数4)。図16の例の場合、下の画像の四角に囲まれた部分が文字画像である。文字画像の幅をW1,高さをH1とする。つまり、この場合、W1=δx、H1=δyとなる。
アスペクト比算出35では、後の処理(正規化画像生成36)で文字画像(数4)を幅W2、高さW2に、拡大、または縮小により、変換するために用いるW2,H2の値を算出する。
幅W2,高さH2の定め方について説明する。幅W2,高さH2は、原画像のアスペクト比を部分的に保存する形で定める。原画像のアスペクト比R1は、数5により定義される。次に、幅W2,高さH2は、このH2×W2の画像のアスペクト比R2が、連続関数gを用いて、R2=g(R1)となるように定める。例えば、数6に示す関数が、よく用いられる。次に、H1≧W1のときは、H2=L,W2=LR2,H1<W1のときは、W2=L,H2=LR2として、W2,H2を定める。
正規化画像生成36では、文字画像を幅W2,高さH2の画像に拡大、または縮小する。次に、このようにして得たH2×W2の画像を、H2×W2の画像の中心がLxLの画像の中心に一致するように、L×Lの大きさの画像サイズに埋め込む。これによって生成されるL×Lの画像が正規化画像となる。
出力37では、生成した正規化画像をメモリや記憶装置等に出力する。
以上が、モーメント正規化法の説明である。
次にバイモーメント正規化法について説明する。原画像f(x、y)のサイズを幅W0、高さH0とする。この原画像を幅L、高さLの画像サイズに正規化することを考える。
図4に、バイモーメント正規化法による正規化の処理の流れを示す。境界の算出41、二次関数の作成42、正規化画像生成43の処理以外は、モーメント正規化法の処理と同じである。
重心の算出33では、モーメント正規化法と同様に、文字の重心座標(xc、yc)を数2により算出する。境界の算出41では、f(x、y)のモーメントの値から、境界の位置を定める。バイモーメント正規化法では、境界の位置は、モーメント正規化法と異なり、重心から上下左右、別々にモーメントを算出し、その値をもとに、定める。重心からの境界の距離は、数7によって重心から上下左右、別々に算出したモーメントを用いて、数8によって定められる。これを用いて、文字画像は、x方向が[xc−δx−、xc+δx+]、y方向が[yc−δy−、yc+δy+]の範囲にある画像として定められる(数9)。文字画像の幅をW1,高さをH1とする。このとき、W1=δx−+δx+、H1=δy−+δy+となる。バイモーメント正規化法は、重心の上下左右で別々にモーメントを計算するため、重心に関して非対称な文字に対して有利である。
アスペクト比算出35では、モーメント正規化法の場合と同様にして、W1,H1の値を用いて、文字画像の変換先の画像の幅W2と高さH2を定める。
二次関数の作成42では、文字画像の重心(xc、yc)をH2xW2サイズの画像の中心、文字画像の境界をH2xW2サイズの画像の境界に写像するための二次関数を作成する。まず、数18に示すu(x)の係数を、(xc−δx−、xc、xc+δx+)がそれぞれ(0,0.5,1)に移るように定める。すなわち、数19を満たすように、a1、b1、c1を定める。数18に示すv(x)の係数も同様にして、数20を満たすようにして定める。
正規化画像生成43では、これらの二次関数(数18)を用いて、文字画像[xc−δx−、xc+δx+]×[yc−δy−、yc+δy+]を、数21に示す式によってW2×H2サイズの画像に変換する。最後に、W2×H2の画像の中心がL×Lの画像の中心と一致するように、L×Lの画像に埋め込み、正規化画像とする。
出力37では、正規化画像をファイルやメモリ、記憶装置等に保存する。
以上のように、モーメント正規化法およびバイモーメント正規化法は、原画像f(x、y)のモーメントを用いて、文字画像の重心、境界を定める。
しかし、モーメント法やバイモーメント法は、原画像f(x、y)を用いてモーメントを計算するため、文字ストロークの太さや長さに影響されやすい。したがって、文字の太さや長さによってモーメントの値が大きく異なり、そのため、正規化画像中の文字の位置が文字の太さや長さによって違ってくる。図14には、異なるフォントのTを示す。図14にあるように、文字を判断する上で、文字の太さや長さは本質的でない。そのため、文字の太さや長さの違いによって生じる同一文字カテゴリ間の正規化画像の文字のばらつき(文字の位置やサイズ等)は、識別に不利である。
図15は、Tの横棒の太さを変えて作成した原画像151と、モーメント正規化法によって正規化した画像152を示す。正規化画像152では、横棒が太くなるにしたがって、画像の中心がTの上の部分にずれ、文字の位置が全体的に下に下がっていることが分かる。また、正規化画像152では、原画像151で同じ太さであったTの縦棒の太さにもばらつきがある。さらに、画像154は、Tの横棒の長さを変えて作成した画像153を、モーメント正規化法により正規化した正規化画像である。Tの横棒の長さが短くなるにつれて、正規化画像154の中の文字の位置が上にずれていることが分かる。このようなばらつきは、特徴抽出後の特徴空間上でのベクトル点のばらつきとなって現れ、識別率を低下させる原因となる。
以上が、従来の正規化法であるモーメント法とバイモーメント法の説明である。次に、本発明の実施の形態における正規化法の説明に移る。
本発明の実施の形態における方向成分を用いた正規化51の処理について説明する。図6は、方向成分を用いた正規化51の処理の詳細を示したものである。本発明の特徴は、この方向成分を用いた正規化51の処理にある。
入力31は、ユーザまたは、演算装置12によって実行されるプログラムによって、前処理22の処理を施した後の画像が入力される。
方向成分抽出61は、画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する。ここでは、画像が2値画像であることを仮定し、画像の画素値の変化点(輪郭)から文字ストロークの情報を保持する特徴を抽出する例を挙げる。この例では、輪郭を縦横の二つの成分に分解する。
以下では、文字画像f(x、y)から、輪郭の横方向成分fx(x、y)と縦方向成分fy(x、y)を抽出する例を説明する。図17は、左から入力画像、輪郭画像、横方向の輪郭画像、縦方向の輪郭画像を示している。入力画像がf(x、y)、横方向の輪郭画像がfx(x、y)、縦方向の輪郭画像がfy(x、y)に対応する。
まず、fx(x、y)=0、fy(x、y)=0と設定する。次に、入力画像f(x、y)の格子点を順番に選択し、各々の格子点に対して、輪郭方向の特徴を抽出する。斜め方向は、縦横の両方にカウントする。いま、注目している格子点の画素が黒画素、すなわち、c=f(x、y)=1であるとき、図18に示す画素cの近傍にある画素の情報から、数22、数23、数24のようにして特徴を抽出する。これによって、横方向の特徴fx(x、y)と縦方向の特徴fy(x、y)が生成される。
以上が、fx(x、y)、fy(x、y)の生成例である。輪郭を縦横に分解することなく、輪郭をそのまま用いる場合には、fx(x、y)=fy(x、y)=fx(x、y)+fy(x、y)(ここで=は代入)として、以下の処理を進める。また、fx(x、y)とfy(x、y)を入れ替えて、以下の処理を進めてもよい。また、より一般に、a,bを定数として、fx(x、y)=fy(x、y)=a×fx(x、y)+b×fy(x、y)(ここで=は代入)としてもよい。
次に、重心の算出62では、fx(x、y)、fy(x、y)のモーメントを用いて、文字画像の重心を算出する。x方向のモーメントmxp、y方向のモーメントmypは、それぞれ数11により定義される。重心の座標(xc、yc)は、mx0、mx1、my0、my1を計算することで、数12により算出される。
次に、境界の算出63では、文字画像の境界を定める。以下では、一例を挙げる。fx(x、y)、fy(x、y)の2次モーメントから、それぞれ文字画像の幅、高さを定める。mx2、my2を計算し、画像の幅δxと高さδyを数13によって定める。文字画像の境界は、x方向が[xc−δx/2、xc+δx/2]、y方向が[yc−δy/2、yc+δy/2]とする(数14)。αは定数で、例えばα=5などとする。
次に、アスペクト比算出35では、文字画像を拡大、または縮小により変換する変換先の画像の幅W2と高さH2のアスペクト比R2を算出する。文字画像の幅をW1、高さをH1とおくと、文字画像のアスペクト比R1は、数5によって求められる。正規化画像のアスペクト比R2は、R1の連続関数の値として定める。数6に、いくつかの例を挙げる。
正規化画像のサイズをL×Lで定めたとする。このとき、H2とW2は、H2≧W2ならば、H2=L,W2=LR2、H2<W2ならば、W2=L,H2=LR2によって定める。
正規化画像生成36では、正規化画像を作成する。まず、文字画像をW2×H2の画像サイズに変換する。変換は、文字画像の重心がW2×H2のサイズの画像の中心となり、境界が一致するように定める。文字画像[xc−δx/2、xc+δx/2]×[yc−δy/2、yc+δy/2]の中心が、重心(xc、yc)に一致するため、これをW2×H2サイズの画像に拡大または縮小することにより、W2×H2のサイズに変換する。
最後に、W2×H2の画像の中心がL×Lの画像の中心と一致するように、L×Lの画像に埋め込み、正規化画像とする。
出力37では、生成した正規化画像を出力する。
図19には、原画像と、モーメント正規化法による正規化画像と、本発明の正規化法による正規化画像を示す。従来法のモーメント正規化法では、正規化画像中の文字の位置が下にずれているのに対し、本発明の正規化法では、文字の太さにあまり影響されず、正規化画像中の文字の位置が定まっていることが分かる。図20は、本発明の正規化法による図11の画像の正規化画像を示す。
本実施例では、図17に示すように、原画像から輪郭を抽出するだけでなく、輪郭を縦成分と横成分に分離し、それぞれのヒストグラムから縦方向、横方向のモーメントを計算した。以下では、輪郭を抽出するだけでなく、縦横成分に分離することの目的を述べる。
図23には、原画像231をそれぞれ、従来法のモーメント正規化法による画像232、本発明の本実施例の方法において輪郭を縦横成分に分離することなく正規化した画像233を示す。縦横成分に分離することなく正規化する方法は、上記において輪郭の縦横成分fx(x、y)、fy(x、y)を抽出した後、改めてfx(x、y)=fy(x、y)=fx(x、y)+fy(x、y)(ここで=は代入)とおくことと同等である。この方法でも、本実施例の方法233の方が、従来のモーメント正規化法232よりも、正規化画像の文字の位置の上下へのずれが少ない。
しかし、図24に示す原画像241の正規化画像は、正規化画像中の文字の位置のばらつきを抑えるには、輪郭を縦横成分に分離した方が効果的であることを示す。図24は、Tの横棒の長さを変えた原画像241を、それぞれ、従来法であるモーメント正規化法による正規化画像242、本実施例において輪郭を分離しない場合の正規化法による正規化画像243、本実施例において輪郭を縦横に分離した場合の正規化法による正規化画像244を示す。従来法による正規化画像242、および輪郭を分離しない場合の方法による正規化画像243では、画像中の文字の位置が、Tの横棒が短くなるし従って、上にずれていることがわかる。しかし、輪郭を分離した場合の正規化画像244では、文字の位置はほぼ一定となり、正規化画像中の文字のばらつきが小さい。
文字認識実験の結果を示す。従来型の正規化法であるモーメント正規化法、バイモーメント正規化法と、本発明による実施例1の正規化法(輪郭を縦横に分離した場合)を比較した。読み取り対象字種は、数字(0〜9)の10種類、Oを除くアルファベット25種類、拗音、濁音、半濁音を除くアからンまでのカナ46種類、記号()*,-/\の7種類の合計88種類である。アルファベットのOは、数字の0と同型となるため除いた。学習サンプル数は、1字種あたり300個で、合計26,400個である。また、テストサンプルは、学習サンプルとは異なる7720個である。図22に、学習サンプルの一部231と、テストサンプルの一部232を示す。識別器には、修正二次識別関数、特徴抽出には、輪郭特徴抽出法を用いた。以下が、文字認識実験における識別精度である。
モーメント正規化法 バイモーメント正規化法 実施例1
精度 99.55% 99.43% 99.70%
文字認識実験により、従来法の99.55%よりも高い認識精度99.70%が本発明による実施例1の正規化法で得られていることが分かる。
(実施例2)
図1は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例1と同様である。処理のフローは、図5に示す。本発明の特徴は、方向成分を用いた正規化51にある。方向成分を用いた正規化51の処理の詳細は、図6に示す。図5、図6に示す処理の詳細は、方向特徴抽出61を除いて実施例1と同様である。
本実施例における方向特徴抽出61の処理について説明する。なお、本実施例における方向特徴抽出61は実施例1と異なり、入力画像は2値画像に限らず、グレー画像(多値画像)を入力としてとることができる。
方向特徴抽出61では、入力画像f(x、y)を受け取り、二つの方向成分fx(x、y)、fy(x、y)を生成し、次の処理に渡す。本実施例では、fx(x、y)、fy(x、y)の作成方法が実施例1と異なる。
まず、fx(x、y)=0、fy(x、y)=0と設定する。次に、入力画像f(x、y)の格子点を順番に選択し、各々の格子点に対して、特徴を抽出する。斜め方向は、縦横の両方にカウントする。格子点(x、y)に対し、数10によって特徴を抽出する。図21は、この特徴を抽出するフィルターを図示したものである。
これによって、横方向の特徴fx(x、y)と縦方向の特徴fy(x、y)が生成される。輪郭を縦横に分解することなく、輪郭をそのまま用いる場合には、fx(x、y)=fy(x、y)=fx(x、y)+fy(x、y)(ここで=は代入)として、以下の処理を進める。より一般に、a,bを定数として、fx(x、y)=fy(x、y)=a×fx(x、y)+b×fy(x、y)(ここで=は代入)としてもよい。また、fx(x、y)とfy(x、y)を入れ替えて、以下の処理を進めてもよい。
実施例1の方法は、2値画像にしか用いることができないが、本実施例の方法は、多値画像にも用いることができる。
本実施例の方法による文字認識実験の結果を示す。実験の条件などは、実施例1と同様である。以下が、文字認識実験における識別精度である。
モーメント正規化法 バイモーメント正規化法 実施例2
精度 99.55% 99.43% 99.68%
文字認識実験により、従来法の99.55%よりも高い認識精度99.68%が本発明による実施例2の正規化法で得られていることが分かる。
(実施例3)
図1は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例1と同様である。処理のフローは、図5に示す。本発明の特徴は、方向成分を用いた正規化51の処理にある。方向成分を用いた正規化51の処理の詳細は、図7に示すフロー図に示される。
以下では、方向成分を用いた正規化51の処理の流れを図7を用いて説明する。
入力31は、ユーザまたは、演算装置12によって実行されるプログラムによって、前処理22の処理を施した後の画像が入力される。実施例1、実施例2と同様である。
方向成分抽出61は、入力画像f(x、y)を受け取り、二つの方向成分fx(x、y)、fy(x、y)を生成し、次の処理に渡す。実施例1または実施例2と同様の処理を用いてもよい。
重心の算出62では、文字の重心座標(xc、yc)を算出する。すなわち、fx(x、y)、fy(x、y)のモーメントを用いて、文字画像の重心の座標(xc、yc)を、mx0、mx1、my0、my1を計算することで、数12により算出する。
境界の算出71では、重心(xc、yc)から境界までの距離を算出する。実施例1、実施例2と異なり、重心から上下左右の方向に別々にモーメントを計算し、境界の位置を定める。
各方向のモーメントは、数15により計算され、これを用いて、重心からの境界の距離を数16によって定める。これによって、文字画像は、[xc−δx−、xc+δx+]×[yc−δy−、yc+δy+]となる(数17)。ここで、βは定数で、例えば、β=2.5とする。
アスペクト比算出35では、文字画像の幅W1、高さH1から、変換先の画像の幅W2、高さH2を算出する。処理は、実施例1、実施例2と同様の方法を用いてもよい。
二次関数の作成72では、文字画像の重心(xc、yc)をH2xW2サイズの画像の中心、文字画像の境界をH2xW2サイズの画像の境界に写像するための二次関数を作成する。まず、数18に示すu(x)の係数を、(xc−δx−、xc、xc+δx+)がそれぞれ(0,0.5,1)に移るように定める。すなわち、数19を満たすように、a1、b1、c1を定める。数18に示すv(x)の係数も同様にして、数20を満たすようにして定める。
正規化画像生成73では、これらの二次関数を用いて、文字画像[xc−δx−、xc+δx+]×[yc−δy−、yc+δy+]を、数21に示す式によってW2×H2サイズの画像に変換する。最後に、W2×H2の画像の中心がLxLの画像の中心と一致するように、L×Lの画像に埋め込み、正規化画像とする。
出力37では、生成した正規化画像を出力する。
本実施例の方法による文字認識実験の結果を示す。実験の条件などは、実施例1と同様である。以下が、文字認識実験における識別精度である。
モーメント正規化法 バイモーメント正規化法 実施例3
精度 99.55% 99.43% 99.69%
文字認識実験により、従来法の99.55%よりも高い認識精度99.69%が本発明による実施例3の正規化法で得られていることが分かる。
(実施例4)
図1は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例1、実施例2、実施例3と同様である。また、処理のフローは、図5に示す。本発明の特徴は、方向成分を用いた正規化51の処理にある。方向成分を用いた正規化51の処理の詳細は、図6または図7のフロー図に示される。方向成分抽出61の処理が、実施例1、実施例2、実施例3と異なる。
以下、本実施例の方向成分抽出61の処理について説明する。
本実施例の方向成分抽出61では、実施例1または実施例2または実施例3と同様にして、または、別の方法によって、入力画像f(x、y)からfx(x、y)、fy(x、y)を作成する。その後、作成したfx(x、y)、fy(x、y)にぼかし処理を加える。ぼかし処理の加え方には、既存の方法を用いることができる。例えば、ガウスフィルター等を用いる。
ぼかし処理によって、同一文字間での文字の形の違いを吸収することができ、この処理によって、さらに、同一文字間での正規化画像中の文字のばらつきを軽減することができる。
(実施例5)
図1は、本発明の認識辞書生成装置の一例を示す構成図である。
本発明の認識辞書生成装置は、入力装置11、演算装置12、認識辞書13、表示装置14、パターンデータベース(DB)15を備える。
入力装置11は、コマンド等を入力するためのキーボードやマウス、および画像入力のためのスキャナ等の装置である。
演算装置12は、入力された画像を読み取り、認識辞書を作成する。演算装置12は、CPU,メモリ、記憶装置等を備える。
認識辞書13は、認識辞書を保存する辞書データベースである。
表示装置14は、演算装置12による処理内容を適宜表示するディスプレイ等の装置である。表示装置14はなくてもよい。
パターンDB15は、入力装置11によって入力されたパターンを格納する。パターンDB15には、認識辞書13を作成するために演算装置12が用いる認識辞書生成用パターンDB等が格納されている。
本発明の実施形態の演算装置12は、認識辞書作成手段を備える。
次に、本発明の実施形態における処理フローの説明に移る。図8は、本発明の実施形態の演算装置12によって実行される認識辞書作成手段の概要を示すフロー図である。なお、本発明の特徴は、方向成分を用いた正規化51の手法にある。
認識辞書生成装置は、認識辞書生成用DBから認識辞書を生成する。
入力81は、ユーザまたは、演算装置12によって実行されるプログラムによって、認識辞書生成用DBの各々の画像が入力される。認識辞書生成用DBは、画像パターンとその所属文字カテゴリを示すラベルの組の集合であり、予め認識辞書生成用に準備しておく。
前処理82、方向成分を用いた正規化83、特徴抽出84では、認識辞書生成用DBに含まれる各々のパターンを特徴空間上のベクトル値(特徴ベクトル)に変換する。一つ一つのパターンに対する方向成分を用いた正規化83の処理は、本発明の正規化手法を用いた処理である。一つ一つの入力パターンに対して、前処理82、方向成分を用いた正規化83、特徴抽出84では、それぞれ、実施例1または実施例2または実施例3または実施例4における、前処理22、方向成分を用いた正規化51、特徴抽出24と同様の処理を用いてもよい。
ここまでの処理によって、認識辞書生成用DBは、特徴空間上の特徴ベクトルとその所属文字カテゴリを示すラベルの組の集合に変換される。
認識辞書作成85は、前記の特徴ベクトルとその所属文字カテゴリを示すラベルの組の集合を用いて、特徴空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する。
出力86では、作成した認識辞書を認識辞書13に保存する。
本発明の正規化法を用いた識別を行うためには、本発明の正規化法を用いて作成した認識辞書が必要である。本実施例は、認識辞書の作成例について述べたものである。
(実施例6)
図1は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例1と同様である。処理のフローは、図5に示す。本発明の特徴は、方向成分を用いた正規化51の処理にある。方向成分を用いた正規化51の処理の詳細は、図23に示すフロー図に示される。
以下では、方向成分を用いた正規化51の処理の流れを図9を用いて説明する。
入力31は、ユーザまたは、演算装置12によって実行されるプログラムによって、前処理22の処理を施した後の画像が入力される。実施例1、実施例2と同様である。
方向成分抽出61は、入力画像f(x、y)を受け取り、二つの方向成分fx(x、y)、fy(x、y)を生成し、次の処理に渡す。実施例1または実施例2と同様の処理を用いてもよい。
文字画像抽出91では、背景画素(白画素)でない部分を囲む最小の矩形を算出し、その矩形によって囲まれる部分を文字画像として抽出する。以下では、文字画像の幅をW1、高さをH1とする。
アスペクト比算出35では、文字画像の幅W1、高さH1から、変換先の画像の幅W2、高さH2を算出する。処理は、実施例1、実施例2と同様の方法を用いてもよい。
正規化画像生成92では、文字画像をW2×H2サイズの画像に変換する。その後、W2×H2の画像の中心がL×Lの画像の中心と一致するように、L×Lの画像に埋め込み、正規化画像とする。
文字画像をW2xH2サイズの画像に変換する方法を説明する。まず、fx(x、y)、fy(x、y)からdx(x、y)、dy(x、y)を定める。例えば、dx(x、y)=fx(x、y)、dy(x、y)=fy(x、y)とする。次に、数25により、dx(x、y)、dy(x、y)のヒストグラムpx(x)、py(y)を算出する。px(x)、py(y)はその和が1となるように正規化されている。次に、数26によりヒストグラムの累積値を算出し、それを用いて、数27の正規化写像を定める。数27の正規化写像によって、文字画像をW2×H2サイズの画像に変換する。
出力37では、生成した正規化画像を出力する。
本実施例の方法では、正規化画像中の文字の太さのばらつきを軽減することができる。
本発明の文字認識装置、および、認識辞書生成装置の構成を示す図。 従来法による文字認識装置の処理フローを示す図。 モーメント法による正規化の処理フローを示す図。 バイモーメント法による正規化の処理フローを示す図。 本発明の文字認識装置の処理フローを示す図。 本発明の方向成分を用いた正規化の処理フローを示す図。 本発明の方向成分を用いた正規化の処理フローを示す図。 本発明の認識辞書生成装置の処理フローを示す図。 本発明の方向成分を用いた正規化の処理フローを示す図。 認識辞書が保持する情報について説明する図。 正規化処理前の原画像を示す図。 モーメント法による正規化画像を示す図。 バイモーメント法による正規化画像を示す図。 アルファベットのTを様々なフォントで示した図。 モーメント法による正規化画像が文字の太さに影響される様子を示す図。 モーメント法により定められる文字の重心と境界の処理フローを示す図。 文字の原画像、輪郭画像、輪郭の横成分、輪郭の縦成分を示す図。 画素cの格子点とその近傍の画素を示す図。 本発明による正規化法が文字の太さに影響されにくいことを示す図。 本発明の正規化法による正規化画像を示す図。 勾配を用いた文字の方向成分特徴の抽出フィルターを示す図。 文字認識実験において用いた画像サンプルを示す図。 本発明による輪郭を分離しない場合の正規化法による正規化画像を示す図。 本発明による正規化法が文字の長さに影響されにくいことを示す図。
符号の説明
11 入力装置
12 演算装置
13 認識辞書
14 表示装置
15 パターンDB
21 入力
22 前処理
23 正規化
24 特徴抽出
25 識別
26 出力
31 入力
33 重心の算出
34 境界の算出
35 アスペクト比算出
36 正規化画像生成
37 出力
41 境界の算出
42 二次関数の作成
43 正規化画像生成
51 方向成分を用いた正規化
61 方向成分抽出
62 重心の算出
63 境界の算出
71 境界の算出
72 二次関数の作成
73 正規化画像生成
81 入力
82 前処理
83 方向成分を用いた正規化
84 特徴抽出
85 認識辞書生成
86 出力
91 文字画像抽出
92 正規化画像生成
101 認識辞書と特徴空間
111 原画像
121 モーメント正規化法による正規化画像
131 バイモーメント正規化法による正規化画像
141 フォントが異なるT
151 原画像
152 現画像のモーメント正規化法による正規化画像
153 原画像2
154 原画像2のモーメント正規化法による正規化画像
161 原画像
162 文字の重心と境界
171 輪郭画像
181 黒画素と周辺画素
191 原画像
192 モーメント法による正規化画像
193 本発明の正規化法による正規化画像
201 本発明の正規化法による正規化画像
211 縦方向の勾配特徴フィルター
212 横方向の勾配特徴フィルター
221 学習用サンプル
222 テスト用サンプル
231 原画像
232 モーメント正規化法
233 本発明において、輪郭を縦横に分離しない正規化法の場合
241 原画像
242 モーメント正規化法
243 本発明において、輪郭を縦横に分離しない正規化法の場合
244 本発明において、輪郭を縦横に分離した正規化法の場合

Claims (14)

  1. 認識対象となる画像を入力する入力部と、
    前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、
    前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
    前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
    前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
    判定結果を出力する出力部と、
    を有する文字認識装置。
  2. 請求項1における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴とする文字認識装置。
  3. 請求項1における境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴とする文字認識装置。
  4. 請求項1における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴とする文字認識装置。
  5. 請求項1における方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴とする文字認識装置。
  6. 認識辞書生成用DBを入力する入力部と、
    前記認識辞書生成用DBの各々の画像パターンから文字認識の妨げとなる外乱要因を低減する前処理部と、
    前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
    前記各々の正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
    前記各々のベクトル値の集合を用いて前記ベクトル空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する認識辞書生成部と、
    を有する認識辞書生成装置。
  7. 請求項6における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴とする認識辞書生成装置。
  8. 請求項6における境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴とする認識辞書生成装置。
  9. 請求項6における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴とする認識辞書生成装置。
  10. 請求項6における方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴とする認識辞書生成装置。
  11. 認識対象となる画像を入力する入力部と、
    前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、
    前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の文字ストロークから縦と横の二方向の情報を保持する特徴を抽出する方向成分抽出ステップと、画像中の文字画像部分を抽出する文字画像抽出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
    前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
    前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
    判定結果を出力する出力部と、
    を有する文字認識装置。
  12. 請求項11における画像中の文字画像部分を抽出する文字画像抽出ステップにおいて、画像中の背景画素でない部分を囲む最小の矩形により指定された部分を文字画像とすることを特徴とする文字認識装置。
  13. 請求項11における正規化画像生成ステップにおいて、縦方向、横方向の方向成分特徴から、それぞれ、縦方向、横方向のヒストグラムを算出し、ヒストグラムが均一になるように文字画像を正規化することで正規化画像を生成することを特徴とする文字認識装置。
  14. 請求項11における文字画像抽出ステップにおいて、方向成分特徴から文字の重心を算出し、前記重心からの文字の境界の位置を方向成分特徴の二次モーメントから算出し、前記文字の境界によって囲まれた部分を文字画像とすることを特徴とする文字認識装置。
JP2008277599A 2008-10-29 2008-10-29 文字認識装置、及び、認識辞書生成装置 Active JP5268563B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008277599A JP5268563B2 (ja) 2008-10-29 2008-10-29 文字認識装置、及び、認識辞書生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008277599A JP5268563B2 (ja) 2008-10-29 2008-10-29 文字認識装置、及び、認識辞書生成装置

Publications (2)

Publication Number Publication Date
JP2010108113A true JP2010108113A (ja) 2010-05-13
JP5268563B2 JP5268563B2 (ja) 2013-08-21

Family

ID=42297528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008277599A Active JP5268563B2 (ja) 2008-10-29 2008-10-29 文字認識装置、及び、認識辞書生成装置

Country Status (1)

Country Link
JP (1) JP5268563B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190911A (ja) * 2012-03-13 2013-09-26 Hitachi Computer Peripherals Co Ltd 文字認識装置、認識辞書生成装置及び正規化方法
CN109657665A (zh) * 2018-10-31 2019-04-19 广东工业大学 一种基于深度学习的发票批量自动识别系统
CN113569859A (zh) * 2021-07-27 2021-10-29 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57164376A (en) * 1981-03-30 1982-10-08 Nippon Telegr & Teleph Corp <Ntt> Character pattern classifying and processing device
JPH05114051A (ja) * 1991-03-12 1993-05-07 Science & Tech Agency フアジイパターン認識方法
JPH0644407A (ja) * 1992-07-24 1994-02-18 Fujitsu Ltd 文字認識方法
JPH0844824A (ja) * 1994-08-03 1996-02-16 Mitsubishi Heavy Ind Ltd 正規化装置
JPH1021398A (ja) * 1996-07-03 1998-01-23 Tamura Electric Works Ltd 方向特徴ベクトル抽出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57164376A (en) * 1981-03-30 1982-10-08 Nippon Telegr & Teleph Corp <Ntt> Character pattern classifying and processing device
JPH05114051A (ja) * 1991-03-12 1993-05-07 Science & Tech Agency フアジイパターン認識方法
JPH0644407A (ja) * 1992-07-24 1994-02-18 Fujitsu Ltd 文字認識方法
JPH0844824A (ja) * 1994-08-03 1996-02-16 Mitsubishi Heavy Ind Ltd 正規化装置
JPH1021398A (ja) * 1996-07-03 1998-01-23 Tamura Electric Works Ltd 方向特徴ベクトル抽出方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190911A (ja) * 2012-03-13 2013-09-26 Hitachi Computer Peripherals Co Ltd 文字認識装置、認識辞書生成装置及び正規化方法
CN109657665A (zh) * 2018-10-31 2019-04-19 广东工业大学 一种基于深度学习的发票批量自动识别系统
CN109657665B (zh) * 2018-10-31 2023-01-20 广东工业大学 一种基于深度学习的发票批量自动识别系统
CN113569859A (zh) * 2021-07-27 2021-10-29 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113569859B (zh) * 2021-07-27 2023-07-04 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP5268563B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN104298982B (zh) 一种文字识别方法及装置
CN113128442A (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
CN112818952A (zh) 煤岩分界线的识别方法、装置及电子设备
JP2011248702A (ja) 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体
JP2008251029A (ja) 文字認識装置、ナンバープレート認識システム
Mandal et al. Handwritten Bangla character recognition in machine-printed forms using gradient information and Haar wavelet
CN103455816B (zh) 一种笔画宽度提取方法、装置及一种文字识别方法、系统
CN112686265A (zh) 一种基于层级轮廓提取的象形文字分割方法
JP5268563B2 (ja) 文字認識装置、及び、認識辞書生成装置
Ubul et al. Off-line Uyghur signature recognition based on modified grid information features
JP5769029B2 (ja) 文字認識装置、認識辞書生成装置及び正規化方法
Sas et al. Three-stage method of text region extraction from diagram raster images
Li An effective approach to offline arabic handwriting recognition
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN112861860B (zh) 一种基于上下边界提取的自然场景下文字检测方法
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Ajmire et al. Handwritten Devanagari (Marathi) compound character recognition using seventh central moment
KR20230036674A (ko) Hog, svm 영상처리기법을 이용한 필기체 문자 인식 방법
JP4264332B2 (ja) 文字認識装置、ナンバープレート認識システム
JP2009259190A (ja) 文字認識プログラムおよび文字認識装置
Roy et al. An approach towards segmentation of real time handwritten text
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
Ghaleb et al. Printed and handwritten hindi/arabic numeral recognition using centralized moments
JP5419491B2 (ja) 文字認識装置及び文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130507

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5268563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250