JP2010108113A

JP2010108113A - 文字認識装置

Info

Publication number: JP2010108113A
Application number: JP2008277599A
Authority: JP
Inventors: Toshinori Miyoshi; 利昇三好; Takeshi Eisaki; 健永崎; Hiroshi Shinjo; 広新庄; Shoichi Ishii; 正一石井
Original assignee: Hitachi Computer Peripherals Co Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2008-10-29
Filing date: 2008-10-29
Publication date: 2010-05-13
Anticipated expiration: 2028-10-29
Also published as: JP5268563B2

Abstract

【課題】文字識別の精度を上げるために、サイズが異なる複数の入力画像を、同一文字間の形のばらつきが小さくなるように正規化を行う。
【解決手段】正規化処理では、画像から文字ストロークの方向の情報を保持する特徴を抽出し、抽出した方向成分特徴のモーメントから画像中の文字の重心と境界を定め、文字のアスペクト比を保存する形で、固定サイズの正規化画像に変換する。まず、方向成分抽出６１では、画像から文字ストロークの方向の情報を保持する特徴を抽出する。縦横別々に抽出する方法もある。重心の算出６２と境界の算出６３では、抽出した特徴のモーメントから文字の重心、境界を定める。アスペクト比算出３５では、正規化画像中の文字のアスペクト比を、原画像の文字のアスペクト比から定める。正規化画像生成３６では、定めたアスペクト比に従って、文字画像を予め定めた固定サイズの画像に変換する。
【選択図】図６

Description

本発明は、文字認識用の認識辞書生成装置、文字認識装置に関し、特に文字画像の正規化手法に関する。

文字認識装置は、予め作成しておいた認識辞書を用いて、入力画像中に書かれている文字カテゴリを判定し、判定結果を出力する。ここで、文字カテゴリとは、例えば、数字認識の場合には、０〜９までの１０種類の数字である。

文字認識装置が、入力画像を受け取ってから、判定結果を出力するまでの処理フローは、前処理、正規化、特徴抽出、識別の４つの処理フローに分けられる。図２に、処理のフローを示す。

入力２１は、ユーザまたは、演算装置によって実行されるプログラムによって、画像が入力される。

前処理２２では、例えば、入力画像のノイズ除去、ぼかし処理によるスムージング等を行い、文字認識の妨げとなる外乱要因を可能な限り取り除く。

次に、正規化２３では、前処理後の画像を入力とし、様々なサイズで入ってくる入力画像のサイズを揃えることで、後の処理を統一する。

次に、特徴抽出２４では、正規化後の画像を入力として受け取り、ベクトル空間上のベクトル値に変換する。前記ベクトル空間を特徴空間、前記ベクトル値を特徴ベクトルとよぶ。特徴抽出手法には、画素特徴、輪郭特徴、勾配特徴、ガボール特徴などが広く知られている（非特許文献１）。必要があれば、主成分分析や線型判別分析などの次元削減手法を用いて、特徴空間の次元数を圧縮し、特徴空間の次元数を削減する（非特許文献２）。

ここまでの処理により、入力画像は特徴空間上のベクトル値（特徴ベクトル）として表現されることになる。

次に、識別２５では、認識辞書を用いて、特徴ベクトルが所属する文字カテゴリを判定する。認識辞書は、特徴空間上の各点が、どの文字カテゴリに所属するかを判断するための情報を保持している。図１０は、その一例の模式図を示す。この例では、未知入力（特徴ベクトル）に対して、最も近いカテゴリＡを未知入力が所属するカテゴリと判断し、その結果を出力する。または、図１０の場合には、全てのカテゴリの領域の外部にあるため、どのカテゴリにも所属しないと判断し、棄却の判定をする場合もある。詳しくは、非特許文献１または非特許文献２を参照のこと。

出力２６では、判定結果をディスプレイなどの表示装置やファイル等に出力する。

高精度な文字認識を行うためには、上記の前処理２２、正規化２３、特徴抽出２４、識別２５の各々の処理が重要な役割をもっている。そのため、各々の処理で、文字認識に適した処理を行うことが重要である。本発明は、正規化２２の処理に関するものである。

正規化には、入力画像のサイズを揃えることの他に、様々な形で入ってくる入力画像の同一文字間の形のばらつきを抑えるという目的がある。同一文字カテゴリに属する入力画像の形のばらつきを抑えることによって、同一文字カテゴリにある画像から抽出した特徴ベクトルが特徴空間上にコンパクトにまとまるという効果が得られる。これによって、文字認識装置の識別率を上げることができる。

既存の文字画像の正規化手法には、線型正規化法、非線型正規化法、モーメント正規化法、バイモーメント正規化法、CBA法、MCBA法、LDPF法などがある。これらの手法のうち、モーメント正規化法、バイモーメント正規化法は、高い識別率を有するという文字認識のベンチマーク結果が、論文等により公表されている（非特許文献３）。図１１は、正規化処理の入力画像を示す。図１２はモーメント正規化法、図１３はバイモーメント正規化法によって生成された正規化画像を示す。

Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen. Character Recognition Systems: A Guide for Students and Practitioners. Wiley-Interscience, 2007. 石井健一郎, 上田修功, 前田英作, 村瀬洋. パターン認識. オーム社出版局, pp. 49139. Cheng-Lin Liu, Kazuki Nakashima, Hiroshi Sako, and Hiromichi Fujisawa. Handwritten digit recognition: investigation of normalization and feature extraction techniques. Pattern Recognition, Vol.37, No.2, pp. 265279, 2004.

本発明の目的は、文字の太さや長さの違いに起因する文字識別能力の低下を軽減するための正規化方式を提供することである。モーメント法やバイモーメント法は、高い識別能力があることが知られている。しかし、これらの従来手法は、原画像の画素値を直接用いてモーメントを計算するため、文字ストロークの太さや長さに影響されやすい。したがって、文字の太さや長さによってモーメントの値が大きく異なり、そのため、正規化画像中の文字の位置が文字の太さや長さによって違ってくる。図１４には、異なるフォントのＴを示す。図１４にあるように、文字を判断する上で、文字の太さや長さは本質的でない。そのため、文字の太さや長さの違いによって生じる同一文字カテゴリ間の正規化画像の文字のばらつき（文字の位置やサイズ等）は、識別に不利である。

図１５は、Ｔの横棒の太さを変えて作成した原画像１５１と、モーメント正規化法によって正規化した画像１５２を示す。正規化画像１５２では、横棒が太くなるにしたがって、画像の中心がＴの上の部分にずれ、文字の位置が全体的に下に下がっていることが分かる。また、正規化画像１５２では、原画像１５１で同じ太さであったＴの縦棒の太さにもばらつきがある。さらに、画像１５４は、Ｔの横棒の長さを変えて作成した画像１５３を、モーメント正規化法により正規化した正規化画像である。Ｔの横棒の長さが短くなるにつれて、正規化画像１５４の中の文字の位置が上にずれていることが分かる。このようなばらつきは、特徴抽出後の特徴空間上でのベクトル点のばらつきとなって現れ、識別率を低下させる原因となる。

上記課題を解決するために、本発明の文字認識装置は、認識対象となる画像を入力する入力部と、前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
判定結果を出力する出力部と、を有する。

本発明の文字認識装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴としていても良い。

本発明の文字認識装置は、境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴としていても良い。

本発明の文字認識装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴としていても良い。

本発明の文字認識装置は、方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴としていても良い。

本発明の認識辞書生成装置は、認識辞書生成用ＤＢを入力する入力部と、前記認識辞書生成用ＤＢの各々の画像パターンから文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記各々の正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、前記各々のベクトル値の集合を用いて前記ベクトル空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する認識辞書生成部と、を有する。

本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴としていても良い。

本発明の認識辞書生成装置は、境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴としていても良い。

本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴としていても良い。

本発明の認識辞書生成装置は、方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴としていても良い。

本発明の文字認識装置は、認識対象となる画像を入力する入力部と、前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の文字ストロークから縦と横の二方向の情報を保持する特徴を抽出する方向成分抽出ステップと、画像中の文字画像部分を抽出する文字画像抽出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、判定結果を出力する出力部と、を有することを特徴とする。

本発明の認識辞書生成装置は、画像中の文字画像部分を抽出する文字画像抽出ステップにおいて、画像中の背景画素でない部分を囲む最小の矩形により指定された部分を文字画像とすることを特徴としていても良い。

本発明の認識辞書生成装置は、正規化画像生成ステップにおいて、縦方向、横方向の方向成分特徴から、それぞれ、縦方向、横方向のヒストグラムを算出し、ヒストグラムが均一になるように文字画像を正規化することで正規化画像を生成することを特徴としていても良い。

本発明の認識辞書生成装置は、文字画像抽出ステップにおいて、方向成分特徴から文字の重心を算出し、前記重心からの文字の境界の位置を方向成分特徴の二次モーメントから算出し、前記文字の境界によって囲まれた部分を文字画像とすることを特徴としていても良い。

本発明の構成によれば、同一文字カテゴリ間で、正規化画像中の文字のばらつきを低減し、文字認識率を向上させることが可能となる。

（実施例１）
図１は、本発明の文字認識装置の一例を示す構成図である。
本発明の文字認識装置は、入力装置１１、演算装置１２、認識辞書１３、表示装置１４、パターンデータベース（ＤＢ）１５を備える。
入力装置１１は、コマンド等を入力するためのキーボードやマウス、および画像入力のためのスキャナ等の装置である。
演算装置１２は、入力された画像を読み取り、入力画像中の文字を判定する。演算装置１２は、ＣＰＵ，メモリ、記憶装置等を備える。
認識辞書１３は、認識辞書を保存する辞書データベースである。
表示装置１４は、演算装置１２による処理内容を適宜表示するディスプレイ等の装置である。表示装置１４はなくてもよい。パターンＤＢ１５は、入力装置１１によって入力されたパターンを格納する。本発明の実施形態の演算装置１２は、文字認識手段を備える。

次に、本発明の実施形態における処理フローの説明に移る。
図５は、本発明の実施形態の演算装置１２によって実行される文字認識手段の概要を示すフロー図である。なお、本発明の特徴は、方向成分を用いた正規化５１の処理にある。文字認識装置は、入力された画像を読み取り、入力画像中の文字を判定し、判定結果を出力する。
入力２１は、ユーザまたは、演算装置１２によって実行されるプログラムによって、認識対象となる画像が入力される。
前処理２２は、入力画像にノイズ除去、ぼかし処理等を施すことにより、ノイズやかすれ等の画像中の文字を判定する上で障害となる外乱要因をできる限り除去する。例えば、ノイズ除去処理では、ある閾値以下の大きさの孤立点を除去する。
方向成分を用いた正規化５１は、入力画像の各々を予め指定しておいた固定サイズの画像に変換する。変換後の画像を正規化画像とよぶ。正規化は、様々なサイズで入ってくる入力画像を固定サイズの画像に変換することで、後の処理を統一することが主な目的の１つである。また、正規化のもう一つの主な目的は、様々な形で入ってくる入力画像を、同一文字間で文字の形のばらつきが小さくなるように固定サイズの画像に変換することである。これによって、同一文字カテゴリにある画像は、画像中の文字の形が似た正規化画像として表現されることになり、識別精度の向上に役立つ。本発明の特徴は、この方向成分を用いた正規化５１の処理にある。詳細は、後述する。

特徴抽出２４は、方向成分を用いた正規化５１で生成される正規化画像を入力として受け取り、入力された正規化画像をベクトル空間上のベクトル値に変換する。前記ベクトル空間を特徴空間、前記ベクトル値を特徴ベクトルとよぶ。特徴空間は、次元圧縮により、次元を削減する場合もある。次元圧縮では、特徴空間から識別への寄与が小さい成分をなるべく取り除き、特徴ベクトルをより低次元の特徴空間上の特徴ベクトルとして表現する。

識別２５では、認識辞書を用いて、特徴ベクトルが所属する文字カテゴリを判定する。認識辞書は、特徴空間を各文字カテゴリが占める領域に分割するための情報を保持している。これによって、特徴ベクトルが所属する領域に対応する文字カテゴリが判定結果として返される。図１０は、その模式図を示す。この例では、未知入力（特徴ベクトル）に対して、最も近いカテゴリＡを未知入力が所属するカテゴリと判断し、その結果を出力する。または、図１０の場合には、全てのカテゴリの領域の外部にあるため、どのカテゴリにも所属しないと判断し、棄却の判定をする場合もある。
出力２６では、判定結果をディスプレイなどの表示装置や記憶装置等に出力する。

次に、本発明の方向成分を用いた正規化５１の処理の説明に移る前に、以下では、従来手法であるモーメント正規化法とバイモーメント正規化法について説明する。
モーメント正規化法について説明する。図３に、処理の流れを示す。入力３１によって入力される原画像ｆ（ｘ、ｙ）のサイズを幅Ｗ０、高さＨ０とする（０≦ｘ＜Ｗ０，０≦ｙ＜Ｈ０、格子点は整数値とし、左からｋ１番目、下からｋ２番目の画素値をｆ（ｋ１−１、ｋ２−１）で表すことにする）。この原画像を幅Ｌ、高さＬの画像サイズに正規化することを考える。

モーメント正規化法では、前処理を施した後の入力画像ｆ（ｘ、ｙ）中の文字の中心と文字の境界をｆ（ｘ、ｙ）のモーメントから推定し、定める。図１６は、入力画像（上）と、モーメント正規化法で定めた入力画像中の文字の中心と境界を示した画像（下）である。
入力画像ｆ（ｘ、ｙ）のモーメントｍｐｑは、数１により定義される。
重心の算出３３では、文字の重心座標（ｘｃ、ｙｃ）を計算する。文字の重心座標（ｘｃ、ｙｃ）は、ｍ００、ｍ１０、ｍ０１を計算することで、数２によって与えられる。
境界の算出３４では、境界の位置をｆ（ｘ、ｙ）の二次モーメントにより定める。文字の幅δｘと高さδｙは、ｍ２０、ｍ０２を計算することで、数３によって与えられる。αは、定数で、例えばα＝５などとする。

以上により、文字の境界は、重心を文字の中心として、ｘ方向が[ｘｃ−δｘ／２、ｘｃ＋δｘ／２]、ｙ方向が[ｙｃ−δｙ／２、ｙｃ＋δｙ／２]として定める。このようにして、モーメントによって定められた境界によって囲まれる画像[ｘｃ−δｘ／２、ｘｃ＋δｘ／２]×[ｙｃ−δｙ／２、ｙｃ＋δｙ／２]を、文字画像とよぶことにする（数４）。図１６の例の場合、下の画像の四角に囲まれた部分が文字画像である。文字画像の幅をＷ１，高さをＨ１とする。つまり、この場合、Ｗ１＝δｘ、Ｈ１＝δｙとなる。

アスペクト比算出３５では、後の処理（正規化画像生成３６）で文字画像（数４）を幅Ｗ２、高さＷ２に、拡大、または縮小により、変換するために用いるＷ２，Ｈ２の値を算出する。

幅Ｗ２，高さＨ２の定め方について説明する。幅Ｗ２，高さＨ２は、原画像のアスペクト比を部分的に保存する形で定める。原画像のアスペクト比Ｒ１は、数５により定義される。次に、幅Ｗ２，高さＨ２は、このＨ２×Ｗ２の画像のアスペクト比Ｒ２が、連続関数ｇを用いて、Ｒ２＝ｇ（Ｒ１）となるように定める。例えば、数６に示す関数が、よく用いられる。次に、Ｈ１≧Ｗ１のときは、Ｈ２＝Ｌ，Ｗ２＝ＬＲ２，Ｈ１＜Ｗ１のときは、Ｗ２＝Ｌ，Ｈ２＝ＬＲ２として、Ｗ２，Ｈ２を定める。

正規化画像生成３６では、文字画像を幅Ｗ２，高さＨ２の画像に拡大、または縮小する。次に、このようにして得たＨ２×Ｗ２の画像を、Ｈ２×Ｗ２の画像の中心がＬｘＬの画像の中心に一致するように、Ｌ×Ｌの大きさの画像サイズに埋め込む。これによって生成されるＬ×Ｌの画像が正規化画像となる。
出力３７では、生成した正規化画像をメモリや記憶装置等に出力する。
以上が、モーメント正規化法の説明である。

次にバイモーメント正規化法について説明する。原画像ｆ（ｘ、ｙ）のサイズを幅Ｗ０、高さＨ０とする。この原画像を幅Ｌ、高さＬの画像サイズに正規化することを考える。
図４に、バイモーメント正規化法による正規化の処理の流れを示す。境界の算出４１、二次関数の作成４２、正規化画像生成４３の処理以外は、モーメント正規化法の処理と同じである。

重心の算出３３では、モーメント正規化法と同様に、文字の重心座標（ｘｃ、ｙｃ）を数２により算出する。境界の算出４１では、ｆ（ｘ、ｙ）のモーメントの値から、境界の位置を定める。バイモーメント正規化法では、境界の位置は、モーメント正規化法と異なり、重心から上下左右、別々にモーメントを算出し、その値をもとに、定める。重心からの境界の距離は、数７によって重心から上下左右、別々に算出したモーメントを用いて、数８によって定められる。これを用いて、文字画像は、ｘ方向が[ｘｃ−δｘ−、ｘｃ＋δｘ＋]、ｙ方向が[ｙｃ−δｙ−、ｙｃ＋δｙ＋]の範囲にある画像として定められる（数９）。文字画像の幅をＷ１，高さをＨ１とする。このとき、Ｗ１＝δｘ−＋δｘ＋、Ｈ１＝δｙ−＋δｙ＋となる。バイモーメント正規化法は、重心の上下左右で別々にモーメントを計算するため、重心に関して非対称な文字に対して有利である。

アスペクト比算出３５では、モーメント正規化法の場合と同様にして、Ｗ１，Ｈ１の値を用いて、文字画像の変換先の画像の幅Ｗ２と高さＨ２を定める。

二次関数の作成４２では、文字画像の重心（ｘｃ、ｙｃ）をＨ２ｘＷ２サイズの画像の中心、文字画像の境界をＨ２ｘＷ２サイズの画像の境界に写像するための二次関数を作成する。まず、数１８に示すｕ（ｘ）の係数を、（ｘｃ−δｘ−、ｘｃ、ｘｃ＋δｘ＋）がそれぞれ（０，０．５，１）に移るように定める。すなわち、数１９を満たすように、ａ１、ｂ１、ｃ１を定める。数１８に示すｖ（ｘ）の係数も同様にして、数２０を満たすようにして定める。

正規化画像生成４３では、これらの二次関数（数１８）を用いて、文字画像[ｘｃ−δｘ−、ｘｃ＋δｘ＋]×[ｙｃ−δｙ−、ｙｃ＋δｙ＋]を、数２１に示す式によってＷ２×Ｈ２サイズの画像に変換する。最後に、Ｗ２×Ｈ２の画像の中心がＬ×Ｌの画像の中心と一致するように、Ｌ×Ｌの画像に埋め込み、正規化画像とする。

出力３７では、正規化画像をファイルやメモリ、記憶装置等に保存する。
以上のように、モーメント正規化法およびバイモーメント正規化法は、原画像ｆ（ｘ、ｙ）のモーメントを用いて、文字画像の重心、境界を定める。

しかし、モーメント法やバイモーメント法は、原画像ｆ（ｘ、ｙ）を用いてモーメントを計算するため、文字ストロークの太さや長さに影響されやすい。したがって、文字の太さや長さによってモーメントの値が大きく異なり、そのため、正規化画像中の文字の位置が文字の太さや長さによって違ってくる。図１４には、異なるフォントのＴを示す。図１４にあるように、文字を判断する上で、文字の太さや長さは本質的でない。そのため、文字の太さや長さの違いによって生じる同一文字カテゴリ間の正規化画像の文字のばらつき（文字の位置やサイズ等）は、識別に不利である。

以上が、従来の正規化法であるモーメント法とバイモーメント法の説明である。次に、本発明の実施の形態における正規化法の説明に移る。
本発明の実施の形態における方向成分を用いた正規化５１の処理について説明する。図６は、方向成分を用いた正規化５１の処理の詳細を示したものである。本発明の特徴は、この方向成分を用いた正規化５１の処理にある。

入力３１は、ユーザまたは、演算装置１２によって実行されるプログラムによって、前処理２２の処理を施した後の画像が入力される。

方向成分抽出６１は、画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する。ここでは、画像が２値画像であることを仮定し、画像の画素値の変化点（輪郭）から文字ストロークの情報を保持する特徴を抽出する例を挙げる。この例では、輪郭を縦横の二つの成分に分解する。

以下では、文字画像ｆ（ｘ、ｙ）から、輪郭の横方向成分ｆｘ（ｘ、ｙ）と縦方向成分ｆｙ（ｘ、ｙ）を抽出する例を説明する。図１７は、左から入力画像、輪郭画像、横方向の輪郭画像、縦方向の輪郭画像を示している。入力画像がｆ（ｘ、ｙ）、横方向の輪郭画像がｆｘ（ｘ、ｙ）、縦方向の輪郭画像がｆｙ（ｘ、ｙ）に対応する。

まず、ｆｘ（ｘ、ｙ）＝０、ｆｙ（ｘ、ｙ）＝０と設定する。次に、入力画像ｆ（ｘ、ｙ）の格子点を順番に選択し、各々の格子点に対して、輪郭方向の特徴を抽出する。斜め方向は、縦横の両方にカウントする。いま、注目している格子点の画素が黒画素、すなわち、ｃ＝ｆ（ｘ、ｙ）＝１であるとき、図１８に示す画素ｃの近傍にある画素の情報から、数２２、数２３、数２４のようにして特徴を抽出する。これによって、横方向の特徴ｆｘ（ｘ、ｙ）と縦方向の特徴ｆｙ（ｘ、ｙ）が生成される。

以上が、ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）の生成例である。輪郭を縦横に分解することなく、輪郭をそのまま用いる場合には、ｆｘ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）＝ｆｘ（ｘ、ｙ）＋ｆｙ（ｘ、ｙ）（ここで＝は代入）として、以下の処理を進める。また、ｆｘ（ｘ、ｙ）とｆｙ（ｘ、ｙ）を入れ替えて、以下の処理を進めてもよい。また、より一般に、ａ，ｂを定数として、ｆｘ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）＝ａ×ｆｘ（ｘ、ｙ）＋ｂ×ｆｙ（ｘ、ｙ）（ここで＝は代入）としてもよい。

次に、重心の算出６２では、ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）のモーメントを用いて、文字画像の重心を算出する。ｘ方向のモーメントｍｘｐ、ｙ方向のモーメントｍｙｐは、それぞれ数１１により定義される。重心の座標（ｘｃ、ｙｃ）は、ｍｘ０、ｍｘ１、ｍｙ０、ｍｙ１を計算することで、数１２により算出される。

次に、境界の算出６３では、文字画像の境界を定める。以下では、一例を挙げる。ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）の２次モーメントから、それぞれ文字画像の幅、高さを定める。ｍｘ２、ｍｙ２を計算し、画像の幅δｘと高さδｙを数１３によって定める。文字画像の境界は、ｘ方向が[ｘｃ−δｘ／２、ｘｃ＋δｘ／２]、ｙ方向が[ｙｃ−δｙ／２、ｙｃ＋δｙ／２]とする（数１４）。αは定数で、例えばα＝５などとする。

次に、アスペクト比算出３５では、文字画像を拡大、または縮小により変換する変換先の画像の幅Ｗ２と高さＨ２のアスペクト比Ｒ２を算出する。文字画像の幅をＷ１、高さをＨ１とおくと、文字画像のアスペクト比Ｒ１は、数５によって求められる。正規化画像のアスペクト比Ｒ２は、Ｒ１の連続関数の値として定める。数６に、いくつかの例を挙げる。

正規化画像のサイズをＬ×Ｌで定めたとする。このとき、Ｈ２とＷ２は、Ｈ２≧Ｗ２ならば、Ｈ２＝Ｌ，Ｗ２＝ＬＲ２、Ｈ２＜Ｗ２ならば、Ｗ２＝Ｌ，Ｈ２＝ＬＲ２によって定める。

正規化画像生成３６では、正規化画像を作成する。まず、文字画像をＷ２×Ｈ２の画像サイズに変換する。変換は、文字画像の重心がＷ２×Ｈ２のサイズの画像の中心となり、境界が一致するように定める。文字画像[ｘｃ−δｘ／２、ｘｃ＋δｘ／２]×[ｙｃ−δｙ／２、ｙｃ＋δｙ／２]の中心が、重心（ｘｃ、ｙｃ）に一致するため、これをＷ２×Ｈ２サイズの画像に拡大または縮小することにより、Ｗ２×Ｈ２のサイズに変換する。

最後に、Ｗ２×Ｈ２の画像の中心がＬ×Ｌの画像の中心と一致するように、Ｌ×Ｌの画像に埋め込み、正規化画像とする。

出力３７では、生成した正規化画像を出力する。

図１９には、原画像と、モーメント正規化法による正規化画像と、本発明の正規化法による正規化画像を示す。従来法のモーメント正規化法では、正規化画像中の文字の位置が下にずれているのに対し、本発明の正規化法では、文字の太さにあまり影響されず、正規化画像中の文字の位置が定まっていることが分かる。図２０は、本発明の正規化法による図１１の画像の正規化画像を示す。

本実施例では、図１７に示すように、原画像から輪郭を抽出するだけでなく、輪郭を縦成分と横成分に分離し、それぞれのヒストグラムから縦方向、横方向のモーメントを計算した。以下では、輪郭を抽出するだけでなく、縦横成分に分離することの目的を述べる。

図２３には、原画像２３１をそれぞれ、従来法のモーメント正規化法による画像２３２、本発明の本実施例の方法において輪郭を縦横成分に分離することなく正規化した画像２３３を示す。縦横成分に分離することなく正規化する方法は、上記において輪郭の縦横成分ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）を抽出した後、改めてｆｘ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）＝ｆｘ（ｘ、ｙ）＋ｆｙ（ｘ、ｙ）（ここで＝は代入）とおくことと同等である。この方法でも、本実施例の方法２３３の方が、従来のモーメント正規化法２３２よりも、正規化画像の文字の位置の上下へのずれが少ない。

しかし、図２４に示す原画像２４１の正規化画像は、正規化画像中の文字の位置のばらつきを抑えるには、輪郭を縦横成分に分離した方が効果的であることを示す。図２４は、Ｔの横棒の長さを変えた原画像２４１を、それぞれ、従来法であるモーメント正規化法による正規化画像２４２、本実施例において輪郭を分離しない場合の正規化法による正規化画像２４３、本実施例において輪郭を縦横に分離した場合の正規化法による正規化画像２４４を示す。従来法による正規化画像２４２、および輪郭を分離しない場合の方法による正規化画像２４３では、画像中の文字の位置が、Ｔの横棒が短くなるし従って、上にずれていることがわかる。しかし、輪郭を分離した場合の正規化画像２４４では、文字の位置はほぼ一定となり、正規化画像中の文字のばらつきが小さい。

文字認識実験の結果を示す。従来型の正規化法であるモーメント正規化法、バイモーメント正規化法と、本発明による実施例１の正規化法（輪郭を縦横に分離した場合）を比較した。読み取り対象字種は、数字（０〜９）の１０種類、Oを除くアルファベット２５種類、拗音、濁音、半濁音を除くアからンまでのカナ４６種類、記号()*,-/\の７種類の合計８８種類である。アルファベットのOは、数字の０と同型となるため除いた。学習サンプル数は、１字種あたり３００個で、合計２６，４００個である。また、テストサンプルは、学習サンプルとは異なる７７２０個である。図２２に、学習サンプルの一部２３１と、テストサンプルの一部２３２を示す。識別器には、修正二次識別関数、特徴抽出には、輪郭特徴抽出法を用いた。以下が、文字認識実験における識別精度である。

モーメント正規化法バイモーメント正規化法実施例１
精度９９．５５％９９．４３％９９．７０％
文字認識実験により、従来法の９９．５５％よりも高い認識精度９９．７０％が本発明による実施例１の正規化法で得られていることが分かる。
（実施例２）
図１は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例１と同様である。処理のフローは、図５に示す。本発明の特徴は、方向成分を用いた正規化５１にある。方向成分を用いた正規化５１の処理の詳細は、図６に示す。図５、図６に示す処理の詳細は、方向特徴抽出６１を除いて実施例１と同様である。

本実施例における方向特徴抽出６１の処理について説明する。なお、本実施例における方向特徴抽出６１は実施例１と異なり、入力画像は２値画像に限らず、グレー画像（多値画像）を入力としてとることができる。

方向特徴抽出６１では、入力画像ｆ（ｘ、ｙ）を受け取り、二つの方向成分ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）を生成し、次の処理に渡す。本実施例では、ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）の作成方法が実施例１と異なる。

まず、ｆｘ（ｘ、ｙ）＝０、ｆｙ（ｘ、ｙ）＝０と設定する。次に、入力画像ｆ（ｘ、ｙ）の格子点を順番に選択し、各々の格子点に対して、特徴を抽出する。斜め方向は、縦横の両方にカウントする。格子点（ｘ、ｙ）に対し、数１０によって特徴を抽出する。図２１は、この特徴を抽出するフィルターを図示したものである。

これによって、横方向の特徴ｆｘ（ｘ、ｙ）と縦方向の特徴ｆｙ（ｘ、ｙ）が生成される。輪郭を縦横に分解することなく、輪郭をそのまま用いる場合には、ｆｘ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）＝ｆｘ（ｘ、ｙ）＋ｆｙ（ｘ、ｙ）（ここで＝は代入）として、以下の処理を進める。より一般に、ａ，ｂを定数として、ｆｘ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）＝ａ×ｆｘ（ｘ、ｙ）＋ｂ×ｆｙ（ｘ、ｙ）（ここで＝は代入）としてもよい。また、ｆｘ（ｘ、ｙ）とｆｙ（ｘ、ｙ）を入れ替えて、以下の処理を進めてもよい。

実施例１の方法は、２値画像にしか用いることができないが、本実施例の方法は、多値画像にも用いることができる。

本実施例の方法による文字認識実験の結果を示す。実験の条件などは、実施例１と同様である。以下が、文字認識実験における識別精度である。

モーメント正規化法バイモーメント正規化法実施例２
精度９９．５５％９９．４３％９９．６８％
文字認識実験により、従来法の９９．５５％よりも高い認識精度９９．６８％が本発明による実施例２の正規化法で得られていることが分かる。
（実施例３）
図１は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例１と同様である。処理のフローは、図５に示す。本発明の特徴は、方向成分を用いた正規化５１の処理にある。方向成分を用いた正規化５１の処理の詳細は、図７に示すフロー図に示される。

以下では、方向成分を用いた正規化５１の処理の流れを図７を用いて説明する。

入力３１は、ユーザまたは、演算装置１２によって実行されるプログラムによって、前処理２２の処理を施した後の画像が入力される。実施例１、実施例２と同様である。

方向成分抽出６１は、入力画像ｆ（ｘ、ｙ）を受け取り、二つの方向成分ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）を生成し、次の処理に渡す。実施例１または実施例２と同様の処理を用いてもよい。

重心の算出６２では、文字の重心座標（ｘｃ、ｙｃ）を算出する。すなわち、ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）のモーメントを用いて、文字画像の重心の座標（ｘｃ、ｙｃ）を、ｍｘ０、ｍｘ１、ｍｙ０、ｍｙ１を計算することで、数１２により算出する。

境界の算出７１では、重心（ｘｃ、ｙｃ）から境界までの距離を算出する。実施例１、実施例２と異なり、重心から上下左右の方向に別々にモーメントを計算し、境界の位置を定める。

各方向のモーメントは、数１５により計算され、これを用いて、重心からの境界の距離を数１６によって定める。これによって、文字画像は、[ｘｃ−δｘ−、ｘｃ＋δｘ＋]×[ｙｃ−δｙ−、ｙｃ＋δｙ＋]となる（数１７）。ここで、βは定数で、例えば、β＝２．５とする。

アスペクト比算出３５では、文字画像の幅Ｗ１、高さＨ１から、変換先の画像の幅Ｗ２、高さＨ２を算出する。処理は、実施例１、実施例２と同様の方法を用いてもよい。

二次関数の作成７２では、文字画像の重心（ｘｃ、ｙｃ）をＨ２ｘＷ２サイズの画像の中心、文字画像の境界をＨ２ｘＷ２サイズの画像の境界に写像するための二次関数を作成する。まず、数１８に示すｕ（ｘ）の係数を、（ｘｃ−δｘ−、ｘｃ、ｘｃ＋δｘ＋）がそれぞれ（０，０．５，１）に移るように定める。すなわち、数１９を満たすように、ａ１、ｂ１、ｃ１を定める。数１８に示すｖ（ｘ）の係数も同様にして、数２０を満たすようにして定める。

正規化画像生成７３では、これらの二次関数を用いて、文字画像[ｘｃ−δｘ−、ｘｃ＋δｘ＋]×[ｙｃ−δｙ−、ｙｃ＋δｙ＋]を、数２１に示す式によってＷ２×Ｈ２サイズの画像に変換する。最後に、Ｗ２×Ｈ２の画像の中心がＬｘＬの画像の中心と一致するように、Ｌ×Ｌの画像に埋め込み、正規化画像とする。

出力３７では、生成した正規化画像を出力する。

モーメント正規化法バイモーメント正規化法実施例３
精度９９．５５％９９．４３％９９．６９％
文字認識実験により、従来法の９９．５５％よりも高い認識精度９９．６９％が本発明による実施例３の正規化法で得られていることが分かる。
（実施例４）
図１は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例１、実施例２、実施例３と同様である。また、処理のフローは、図５に示す。本発明の特徴は、方向成分を用いた正規化５１の処理にある。方向成分を用いた正規化５１の処理の詳細は、図６または図７のフロー図に示される。方向成分抽出６１の処理が、実施例１、実施例２、実施例３と異なる。

以下、本実施例の方向成分抽出６１の処理について説明する。

本実施例の方向成分抽出６１では、実施例１または実施例２または実施例３と同様にして、または、別の方法によって、入力画像ｆ（ｘ、ｙ）からｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）を作成する。その後、作成したｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）にぼかし処理を加える。ぼかし処理の加え方には、既存の方法を用いることができる。例えば、ガウスフィルター等を用いる。
ぼかし処理によって、同一文字間での文字の形の違いを吸収することができ、この処理によって、さらに、同一文字間での正規化画像中の文字のばらつきを軽減することができる。
（実施例５）
図１は、本発明の認識辞書生成装置の一例を示す構成図である。

本発明の認識辞書生成装置は、入力装置１１、演算装置１２、認識辞書１３、表示装置１４、パターンデータベース（ＤＢ）１５を備える。

入力装置１１は、コマンド等を入力するためのキーボードやマウス、および画像入力のためのスキャナ等の装置である。

演算装置１２は、入力された画像を読み取り、認識辞書を作成する。演算装置１２は、ＣＰＵ，メモリ、記憶装置等を備える。

認識辞書１３は、認識辞書を保存する辞書データベースである。

表示装置１４は、演算装置１２による処理内容を適宜表示するディスプレイ等の装置である。表示装置１４はなくてもよい。

パターンＤＢ１５は、入力装置１１によって入力されたパターンを格納する。パターンＤＢ１５には、認識辞書１３を作成するために演算装置１２が用いる認識辞書生成用パターンＤＢ等が格納されている。

本発明の実施形態の演算装置１２は、認識辞書作成手段を備える。

次に、本発明の実施形態における処理フローの説明に移る。図８は、本発明の実施形態の演算装置１２によって実行される認識辞書作成手段の概要を示すフロー図である。なお、本発明の特徴は、方向成分を用いた正規化５１の手法にある。

認識辞書生成装置は、認識辞書生成用DBから認識辞書を生成する。

入力８１は、ユーザまたは、演算装置１２によって実行されるプログラムによって、認識辞書生成用ＤＢの各々の画像が入力される。認識辞書生成用ＤＢは、画像パターンとその所属文字カテゴリを示すラベルの組の集合であり、予め認識辞書生成用に準備しておく。

前処理８２、方向成分を用いた正規化８３、特徴抽出８４では、認識辞書生成用ＤＢに含まれる各々のパターンを特徴空間上のベクトル値（特徴ベクトル）に変換する。一つ一つのパターンに対する方向成分を用いた正規化８３の処理は、本発明の正規化手法を用いた処理である。一つ一つの入力パターンに対して、前処理８２、方向成分を用いた正規化８３、特徴抽出８４では、それぞれ、実施例１または実施例２または実施例３または実施例４における、前処理２２、方向成分を用いた正規化５１、特徴抽出２４と同様の処理を用いてもよい。

ここまでの処理によって、認識辞書生成用ＤＢは、特徴空間上の特徴ベクトルとその所属文字カテゴリを示すラベルの組の集合に変換される。

認識辞書作成８５は、前記の特徴ベクトルとその所属文字カテゴリを示すラベルの組の集合を用いて、特徴空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する。
出力８６では、作成した認識辞書を認識辞書１３に保存する。

本発明の正規化法を用いた識別を行うためには、本発明の正規化法を用いて作成した認識辞書が必要である。本実施例は、認識辞書の作成例について述べたものである。
（実施例６）
図１は、本発明の文字認識装置の一例を示す構成図である。装置の構成は、実施例１と同様である。処理のフローは、図５に示す。本発明の特徴は、方向成分を用いた正規化５１の処理にある。方向成分を用いた正規化５１の処理の詳細は、図２３に示すフロー図に示される。

以下では、方向成分を用いた正規化５１の処理の流れを図９を用いて説明する。

文字画像抽出９１では、背景画素（白画素）でない部分を囲む最小の矩形を算出し、その矩形によって囲まれる部分を文字画像として抽出する。以下では、文字画像の幅をＷ１、高さをＨ１とする。

正規化画像生成９２では、文字画像をＷ２×Ｈ２サイズの画像に変換する。その後、Ｗ２×Ｈ２の画像の中心がＬ×Ｌの画像の中心と一致するように、Ｌ×Ｌの画像に埋め込み、正規化画像とする。

文字画像をＷ２ｘＨ２サイズの画像に変換する方法を説明する。まず、ｆｘ（ｘ、ｙ）、ｆｙ（ｘ、ｙ）からｄｘ（ｘ、ｙ）、ｄｙ（ｘ、ｙ）を定める。例えば、ｄｘ（ｘ、ｙ）＝ｆｘ（ｘ、ｙ）、ｄｙ（ｘ、ｙ）＝ｆｙ（ｘ、ｙ）とする。次に、数２５により、ｄｘ（ｘ、ｙ）、ｄｙ（ｘ、ｙ）のヒストグラムｐｘ（ｘ）、ｐｙ（ｙ）を算出する。ｐｘ（ｘ）、ｐｙ（ｙ）はその和が１となるように正規化されている。次に、数２６によりヒストグラムの累積値を算出し、それを用いて、数２７の正規化写像を定める。数２７の正規化写像によって、文字画像をＷ２×Ｈ２サイズの画像に変換する。
出力３７では、生成した正規化画像を出力する。
本実施例の方法では、正規化画像中の文字の太さのばらつきを軽減することができる。

本発明の文字認識装置、および、認識辞書生成装置の構成を示す図。従来法による文字認識装置の処理フローを示す図。モーメント法による正規化の処理フローを示す図。バイモーメント法による正規化の処理フローを示す図。本発明の文字認識装置の処理フローを示す図。本発明の方向成分を用いた正規化の処理フローを示す図。本発明の方向成分を用いた正規化の処理フローを示す図。本発明の認識辞書生成装置の処理フローを示す図。本発明の方向成分を用いた正規化の処理フローを示す図。認識辞書が保持する情報について説明する図。正規化処理前の原画像を示す図。モーメント法による正規化画像を示す図。バイモーメント法による正規化画像を示す図。アルファベットのTを様々なフォントで示した図。モーメント法による正規化画像が文字の太さに影響される様子を示す図。モーメント法により定められる文字の重心と境界の処理フローを示す図。文字の原画像、輪郭画像、輪郭の横成分、輪郭の縦成分を示す図。画素ｃの格子点とその近傍の画素を示す図。本発明による正規化法が文字の太さに影響されにくいことを示す図。本発明の正規化法による正規化画像を示す図。勾配を用いた文字の方向成分特徴の抽出フィルターを示す図。文字認識実験において用いた画像サンプルを示す図。本発明による輪郭を分離しない場合の正規化法による正規化画像を示す図。本発明による正規化法が文字の長さに影響されにくいことを示す図。

符号の説明

１１入力装置
１２演算装置
１３認識辞書
１４表示装置
１５パターンＤＢ
２１入力
２２前処理
２３正規化
２４特徴抽出
２５識別
２６出力
３１入力
３３重心の算出
３４境界の算出
３５アスペクト比算出
３６正規化画像生成
３７出力
４１境界の算出
４２二次関数の作成
４３正規化画像生成
５１方向成分を用いた正規化
６１方向成分抽出
６２重心の算出
６３境界の算出
７１境界の算出
７２二次関数の作成
７３正規化画像生成
８１入力
８２前処理
８３方向成分を用いた正規化
８４特徴抽出
８５認識辞書生成
８６出力
９１文字画像抽出
９２正規化画像生成
１０１認識辞書と特徴空間
１１１原画像
１２１モーメント正規化法による正規化画像
１３１バイモーメント正規化法による正規化画像
１４１フォントが異なるT
１５１原画像
１５２現画像のモーメント正規化法による正規化画像
１５３原画像２
１５４原画像２のモーメント正規化法による正規化画像
１６１原画像
１６２文字の重心と境界
１７１輪郭画像
１８１黒画素と周辺画素
１９１原画像
１９２モーメント法による正規化画像
１９３本発明の正規化法による正規化画像
２０１本発明の正規化法による正規化画像
２１１縦方向の勾配特徴フィルター
２１２横方向の勾配特徴フィルター
２２１学習用サンプル
２２２テスト用サンプル
２３１原画像
２３２モーメント正規化法
２３３本発明において、輪郭を縦横に分離しない正規化法の場合
２４１原画像
２４２モーメント正規化法
２４３本発明において、輪郭を縦横に分離しない正規化法の場合
２４４本発明において、輪郭を縦横に分離した正規化法の場合

Claims

認識対象となる画像を入力する入力部と、
前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、
前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
判定結果を出力する出力部と、
を有する文字認識装置。
請求項１における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴とする文字認識装置。
請求項１における境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴とする文字認識装置。
請求項１における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴とする文字認識装置。
請求項１における方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴とする文字認識装置。
認識辞書生成用ＤＢを入力する入力部と、
前記認識辞書生成用ＤＢの各々の画像パターンから文字認識の妨げとなる外乱要因を低減する前処理部と、
前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの方向の情報を保持する特徴を抽出する方向成分抽出ステップと、前記方向成分特徴から文字の重心を算出する重心の算出ステップと、前記重心から文字の境界までの距離を前記方向成分特徴のモーメントから算出する境界の算出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記境界によって囲まれる文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
前記各々の正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
前記各々のベクトル値の集合を用いて前記ベクトル空間を各々の文字カテゴリに対応する領域に分割し、その情報を保存した認識辞書を作成する認識辞書生成部と、
を有する認識辞書生成装置。
請求項６における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、前記重心からの文字の境界の縦方向の位置を前記縦の方向成分特徴の二次モーメントから、前記重心からの文字の境界の横方向の位置を前記横の方向成分特徴の二次モーメントからそれぞれ算出することを特徴とする認識辞書生成装置。
請求項６における境界の算出ステップにおいて、重心からの上方向、下方向、左方向、右方向の文字の境界までの距離を、それぞれ方向成分特徴の重心より上、下、左、右の部分の二次モーメントの値から定めることを特徴とする認識辞書生成装置。
請求項６における方向成分抽出ステップにおいて、入力された画像の各格子点において、その近傍の画素値の変化量から文字ストロークの縦と横の二方向の情報を保持する特徴を抽出し、重心の算出ステップにおいて、前記縦と横の方向成分特徴のモーメントからそれぞれ文字の重心の縦方向の座標と横方向の座標を算出し、境界の算出ステップにおいて、重心からの上方向、下方向の文字の境界までの距離を、それぞれ縦の方向成分特徴の重心より上、下の部分の二次モーメントの値から定め、重心からの左方向、右方向の文字の境界までの距離を、それぞれ横の方向成分特徴の重心より左、右の部分の二次モーメントの値から定めることを特徴とする認識辞書生成装置。
請求項６における方向成分抽出ステップにおいて、抽出した方向成分特徴にぼかし処理を加えることを特徴とする認識辞書生成装置。
認識対象となる画像を入力する入力部と、
前記入力画像から文字認識の妨げとなる外乱要因を低減する前処理部と、
前記前処理を施した後の画像を入力する入力ステップと、前記入力ステップによって入力された画像の文字ストロークから縦と横の二方向の情報を保持する特徴を抽出する方向成分抽出ステップと、画像中の文字画像部分を抽出する文字画像抽出ステップと、正規化後の文字のアスペクト比を定めるアスペクト比算出ステップと、前記文字画像を予め定めておいた固定サイズの画像に変換する正規化画像生成ステップと、生成した前記正規化画像を出力する出力ステップと、を有する前処理後の画像を固定サイズの画像に変換し、正規化画像を生成する方向成分を用いた正規化部と、
前記正規化画像をベクトル空間上のベクトル値に変換する特徴抽出部と、
前記ベクトル値が表す文字を認識辞書を用いて判定する識別部と、
判定結果を出力する出力部と、
を有する文字認識装置。
請求項１１における画像中の文字画像部分を抽出する文字画像抽出ステップにおいて、画像中の背景画素でない部分を囲む最小の矩形により指定された部分を文字画像とすることを特徴とする文字認識装置。
請求項１１における正規化画像生成ステップにおいて、縦方向、横方向の方向成分特徴から、それぞれ、縦方向、横方向のヒストグラムを算出し、ヒストグラムが均一になるように文字画像を正規化することで正規化画像を生成することを特徴とする文字認識装置。
請求項１１における文字画像抽出ステップにおいて、方向成分特徴から文字の重心を算出し、前記重心からの文字の境界の位置を方向成分特徴の二次モーメントから算出し、前記文字の境界によって囲まれた部分を文字画像とすることを特徴とする文字認識装置。