JP2010211346A - 手書き文字認識システム - Google Patents

手書き文字認識システム Download PDF

Info

Publication number
JP2010211346A
JP2010211346A JP2009054448A JP2009054448A JP2010211346A JP 2010211346 A JP2010211346 A JP 2010211346A JP 2009054448 A JP2009054448 A JP 2009054448A JP 2009054448 A JP2009054448 A JP 2009054448A JP 2010211346 A JP2010211346 A JP 2010211346A
Authority
JP
Japan
Prior art keywords
character
template
gray
decoded
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009054448A
Other languages
English (en)
Inventor
Akihito Kitadai
誠仁 耒代
Masaki Nakagawa
正樹 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Original Assignee
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo University of Agriculture and Technology NUC, Tokyo University of Agriculture filed Critical Tokyo University of Agriculture and Technology NUC
Priority to JP2009054448A priority Critical patent/JP2010211346A/ja
Publication of JP2010211346A publication Critical patent/JP2010211346A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】 欠損手書き文字に関する文字認識手法に関して、非線形正規化処理における問題を緩和すると共に、実用可能なパターンマッチング検索方法を提供すること
【解決手段】 この欠損手書き文字を解読する文字認識システムは、欠損部をグレーゾーンとして指定した解読対象の文字パターンを非線形正規化し、字形の特徴を表す多次元ベクトルを生成する手段と、解読済みの文字パターンを非線形正規化し、テンプレートとして字形の特徴を表す多次元ベクトルの形式で蓄積したデータベースと、前記グレーゾーンに対応して、前記テンプレートの多次元ベクトルを修正するテンプレート修正手段と、前記解読対象の文字パターンと修正後のテンプレートとの間でベクトル演算により距離計算を行う手段とを備えている。
【選択図】 図2

Description

本発明は、手書き文字認識システムに関する。更に具体的には、本発明は、例えば、古代木簡に表された欠損を伴った手書き文字の解読を支援する文字認識システムに関する。
考古学・歴史学等の分野において、古文書の解読によって得られる情報は重要である。特に、国内各地の遺跡から出土する古代木簡の解読結果には大きな注目が集まっている。木簡とは、奈良時代及び平安時代の古代遺跡から出土した木片に文字が記載された文書の総称である。
木簡が完全な形で出土して文字に欠損が無い場合には、コンピュータによる木簡文字解読支援が利用されている。
しかし、1000年以上もの間地中に埋没していた古代木簡の多くは、汚損、変色及び文字を表記した墨の欠落等の解読の障害となる欠損が見られる。出土した古代木簡の欠損を伴った手書き文字(以下、「欠損手書き文字」ともいう。)は、現在までほんの僅かしか解読されていない。
欠損手書き文字を解読する場合、この分野の専門家が、他の古代木簡、その他の史料等から類似した部位を有する文字パターンを探し出し、豊富な知識・経験を用いて解読を試みている。
本発明者等は、以下の先行技術文献を承知している。
特開平11-110486号「文字認識装置」(公開日:1999年4月23日) 特開2003-281470号「文字認識装置及び文字認識方法」(公開日:2003年10月3日) 特許文献1では、欠損部分の局所的特徴量を、マッチング対象の特徴量と置き換えて類似度を算出している。
特許文献2では、文字フォントのつぶれ・かすれ領域の照合重みを変更し、登録されている各文字の特徴量と照合している。
従って、以下に説明する本発明の特徴であるグレーゾーンを利用した非線形正規化処理及びテンプレートの修正に関しては、何等開示するものではない。
手書き文字認識では、コンピュータを利用して、解読対象の文字の文字パターン(字体)を検索キーとして、既に解読済みの文字パターン群のデータベースから類似文字パターンを探し出すパターンマッチング検索が行われる。この手書き文字認識手法は、木簡に記載された文字に欠損が無い場合には比較的有効な手段である。
しかし、欠損手書き文字の場合、幾つかの問題が生じて、コンピュータを利用したパターンマッチング検索で実用可能な有効な手段はない。
例えば、パターンマッチング検索を行うためには、解読対象文字パターンと解読済み文字パターンとをコンピュータ上で比較出来るように、文字パターンを規格化する必要がある。このため、後述する非線形正規化処理を施して、個々の文字のサイズ、くせ等を除去して文字パターンを規格化している。
しかし、欠損手書き文字に関して非線形正規化処理を施すと、正規化後の文字パターンに過剰な変形が生じる問題がある。
更に、欠損手書き文字と解読済みの文字パターン群との間のパターンマッチングに際し、欠損部の取扱いについて有効な提案も為されていない。
本発明者等は、欠損手書き文字に関する文字認識手法に関して鋭意研究開発を継続している。
本発明は、欠損手書き文字に関する文字認識手法に関して、非線形正規化処理における問題を緩和すると共に、実用可能なパターンマッチング検索方法を提供することを目的とする。
上記目的に鑑みて、本発明に係る手書き文字認識システムは、欠損を伴った手書き文字を解読する文字認識システムであって、欠損部をグレーゾーンとして指定した解読対象の文字パターンを非線形正規化し、字形の特徴を表す多次元ベクトルを生成する手段と、解読済みの文字パターンを非線形正規化し、テンプレートとして字形の特徴を表す多次元ベクトルの形式で蓄積したデータベースと、前記グレーゾーンに対応して、前記テンプレートの多次元ベクトルを修正するテンプレート修正手段と、前記解読対象の文字パターンと修正後のテンプレートとの間でベクトル演算により距離計算を行う手段とを備えている。
更に、本発明に係る手書き文字認識システムは、欠損を伴った手書き文字を解読する文字認識システムであって、解読対象の欠損を伴った手書き文字の文字パターン画像データを生成する手段と、欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理する手段と、前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成する手段と、解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースと、前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正する手段と、前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行う手段とを備えている。
更に、上記手書き文字認識システムでは、欠損部をグレーゾーンとして指定して該グレーゾーン内の画素は灰色とすることにより、線密度に従って行われる非線形正規化処理において、欠損部による過重な文字パターンの変形を抑制することも出来る。
更に、上記手書き文字認識システムでは、前記テンプレートの修正は、多次元特徴ベクトルの各要素に対して、各要素の特徴残存率を乗じて行ってもよい。
更に、本発明に係る手書き文字認識方法は、欠損を伴った手書き文字を解読する文字認識方法であって、解読対象の欠損を伴った手書き文字の文字パターン画像データを生成するステップと、欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップと、前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成するステップと、解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースを作成するステップと、前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップと、前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行うステップとを含む。
更に、上記手書き文字認識方法では、前記欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップは、該グレーゾーン内の画素は灰色とすることにより、線密度に従って行われる非線形正規化において、欠損部による過重文字パターンの変形を抑制してもよい。
更に、上記手書き文字認識方法では、前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップは、多次元特徴ベクトルの各要素に対して、各要素の特徴残存率を乗じて行ってもよい。
更に、本発明に係るコンピュータプログラムは、コンピュータに、解読対象の欠損を伴った手書き文字の文字パターン画像データを生成するステップと、欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップと、前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成するステップと、解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースを作成するステップと、前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップと、前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行うステップとを実行させるコンピュータプログラムである。
更に、本発明に係る記録媒体は、上記コンピュータプログラムを記録した記録媒体である。
本発明によれば、欠損手書き文字に関する文字認識手法に関して、非線形正規化処理における問題を緩和すると共に、実用可能なパターンマッチング検索方法を提供することが出来る。
図1は、欠損手書き文字に対する文字認識システムの全体構成を示すブロック図である。 図2(A)は、欠損手書き文字に対する文字認識システムの動作フローを示し、図2(B)は、欠損無しの手書き文字に対する文字認識システムの動作フローを示す図である。 図3は、特徴抽出及び多次元特徴ベクトル化(図2のステップS60,S600)の動作フローを示す図である。 図4は、テンプレートの修正(図2のステップS20)の動作フローを示す図である。 図5は、文字パターンの非線形正規化処理をイメージ的に説明する図である。 図6は、文字パターンの特徴抽出について説明する図である。 図7は、文字パターンの各区画の特徴からなる特徴ベクトルの生成を説明する図である。 図8は、欠損手書き文字を非線形正規化した場合の問題点を説明する図である。 図9は、グレーゾーンの指定と非線形正規化の抑制について説明する図である。 図10は、擬似的なグレーゾーンを規定するため16種類の欠損用マスクを説明する図である。 図11は、文字画像にマスクを順次重ねた、解読対象の欠損手書き文字画像及び疑似グレーゾーンを付加した文字画像を説明する図である。 図12は、特徴残存率を説明する図である。 図13は、辞書であるデータベースに含まれる文字画像(テンプレート)の例を示す図である。
以下、本発明に係る手書き文字認識システムの実施形態に関して添付の図面を参照しながら詳細に説明する。なお、図面に表示された同じ要素に対しては同じ参照符号を付して、重複した説明を省略する。
[手書き文字認識システム]
(全体構成)
図1は、欠損手書き文字に対する文字認識システム10の全体構成を示すブロック図である。手書き文字認識システム10は、CPU(Central Processing Unit)12及びこれに接続された記憶装置20を備え、記憶装置には、例えば、文字認識プログラム22、辞書24等が蓄積されている。更に、CPU12は、画像データを入力するデジタルカメラ14、キーボード等16及びGUI(Graphical User Interface)18を有する。更に、CPU12は、出力データを表示するモニタ26を有している。
カメラ14は、木簡に表された手書き文字を撮影して、文字パターンのデジタル画像データを生成してCPU12に入力する入力装置である。
GUI18は、例えば、利用者が、文字パターンを見ながらペンデバイス等20を使って、文字パターンに関連したデータを入力する入力装置である。
記憶装置20は、例えば、HDD(ハードディスクドライブ)であってよい。HDDに蓄積された文字認識プログラム22は、本実施形態に記載する文字認識を実行するプログラムである。辞書24は、既に解読された文字パターン(これを「テンプレート」という。)のデータを多数集めたデータベースである。
このようなコンピュータシステム10は、特殊なものでなく、現在広く利用されているパーソナルコンピュータで実現することが出来る。
(動作フロー)
図2(A)は、図1に示す手書き文字認識システム10で実行される欠損手書き文字に対する文字認識の動作フローを示す。この動作フローは、CPU12によって記憶装置20に蓄積されている文字認識プログラム22を使って実行される。
(欠損の無い文字に対する文字認識の動作フロー)
この欠損手書き文字に対する文字認識の動作フロー(図2(A))の特徴を分かり易くするため、図2(B)に欠損の無い文字に対する文字認識の動作フローを示し、これと比較して説明する。
図2(B)に示す文字認識の動作フローでは、一方で、既に解読済みの多数の文字パターンが、テンプレートとして記憶装置20の辞書24として蓄積されている。このテンプレートのデータは、文字の画像データでなく、字形の特徴を抽出した多次元特徴ベクトルの形式となっている。他方で、ステップS600で、解読対象の文字パターンから字形の特徴を抽出した多次元特徴ベクトルを生成する。ステップS700で、パターンマッチング検索を実行して、辞書24に登録された多数のテンプレートの中から、解読対象文字に類似の文字を探し出す。このパターンマッチング検索は、解読対象文字の多次元特徴ベクトルと、辞書24に登録されたテンプレートの多次元特徴ベクトルとの間でベクトル演算を行い実行される。
図2(B)に示す欠損の無い文字に対する文字認識の動作フローに関して、更に詳しく説明する。
ステップS300で、解読対象の文字を画像化する。例えば、古代木簡に表された文字から、デジタルカメラ14を利用して、文字パターンのモノクロのデジタル画像データを生成する。なお、複数の文字を解読する場合、予め全ての文字を画像データ化して記憶装置20に取り込んでおくことが好ましい。
ステップS500で、このデジタル画像データに対して、非線形正規化処理を行う。
手書き文字の文字パターン認識では、解読対象の手書き文字を規定のサイズに正規化し、同様に正規化された解読済み文字との間でパターンマッチング検索する必要がある。手書き文字は、様々なサイズで表記され、また筆記者の癖を有し、筆記環境により文字パターンに変形がある。手書き文字のパターン認識においては、このような字種と無関係の癖、文字パターンの変形等を除去して、文字のサイズ、縦横比、線幅等を規格化するため、非線形正規化処理を行う。
効果的な非線形正規化手法として、例えば、線密度を用いたものが挙げられる。この非線形正規化処理では、単に文字サイズを線形的に2倍、3倍等するのではなく、線密度に応じて、即ち、情報密度が少ない部分を圧縮し、情報密度が多い部分を伸張する非線形処理を行っている。
図5は、非線形正規化処理をイメージ的に説明する図である。図5(A)では、文字「遅」が、高い縦横比(縦長)で太い線で書かれている。正規化処理により、予め定められた規定のサイズ、縦横比、線幅等の文字パターンに変形される。図5(B)では、文字「波」が、低い縦横比(横長)で細い線で書かれている。正規化処理により、予め定められた規定のサイズ、縦横比、線幅等の文字パターンに変形される。
種々のサイズ、文字変形、筆記者の癖等のある手書き文字が、非線形正規化処理により、変形、癖等が除去されて、予め規定されたサイズ、縦横比、線幅等に統一される。非線形正規化処理を行うことにより、手書き文字間で高い精度のパターンマッチング検索が可能となる。
図2(B)のステップS600で、正規化処理された文字パターンから字形の特徴を抽出して、抽出した特徴を表す多次元特徴ベクトルを生成する。
解読対象の文字を非線形正規化処理した後、解読対象の文字パターンから字体の特徴を抽出する。この特徴抽出手法としては、例えば、字体の輪郭線に注目した手法がある。図3は、ステップS600で行われる特徴抽出及び多次元特徴ベクトル化の動作フローを示す図である。
ステップS610で、文字パターンを表わす全ての画素の特徴を定義する。即ち、文字パターンのデジタル画像の全ての黒画素から、その黒画素が形成している輪郭線の特徴を抽出する。
図6は、特徴抽出について説明する図である。図6に示すように、注目する黒画素(図中、下地黒に白色抜き文字0を表示した部分)とその8個の近傍画素(注目画素を中心に合計3×3個の画素)について、4方向の特徴(右下がり、上下、右上がり、左右)のいずれに該当するか、当てはめを試みる。これら4方向の特徴には、注目の黒画素及び隣接白画素を含むため文字の輪郭部分に該当し、注目の黒画素及び隣接黒画素を含むため文字の輪郭の延在方向(輪郭線)を表す要素となる。従って、注目黒画素が、4方向の特徴のいずれかに合致した場合、その画素は合致した輪郭線の特徴を有すると定義される。文字パターンを構成する全ての黒画素に対して特徴の有無を調べることにより、字形の輪郭線の4方向成分を抽出することができる。
図7は、各区画の特徴からなる特徴ベクトルを説明する図である。
文字の全ての画素について特徴の抽出が完了した後、非線形正規化処理だけでは取り除けない字体の変動による特徴の位置ズレを吸収するため、ガウスフィルタによる処理を行う。
図3のステップS620で、図7の左部分に示すように文字パターンをm×n個(図では、4×4個)の格子状の区画(小領域)に分割する。ここで、第i行第j列の区画をCijと表す。
ステップS630で、各々の区画に対してガウスフィルタを定義する。図7に、区画C11、C12及びC44に対する夫々のガウスフィルタをイメージ的に示す。ガウスフィルタは、その頂点は注目の小領域の中心とし、その縁部は周辺の小領域まで延在するガウス関数を使ったぼかしフィルタである。ガウス関数をフィルタリングに使うことにより、画素の特徴を算出するときの重みを小領域の中心からの距離に応じてガウス関数で決定する。
ステップS640で、区画Cellij(小領域毎)の特徴量を算出する。具体的には、図7に示すように、ステップS610で定義された黒画素毎の特徴に対して、その黒画素の属する区画のガウスフィルタを乗じて、各画素の特徴量を得る。区画Cij内の全ての画素の特徴量の総和を求めて、区画Cijの特徴量Fijを得る。
各区画(小領域)の特徴量には、ガウスフィルタを通して当該小領域の外の画素の特徴も加算される。ガウスフィルタの利用によって、非線形正規化処理だけでは取り除けない字体の変動による特徴の位置ズレが吸収される。なお、小領域の概念は、ガウスフィルタの中心を定めるために導入された概念である。
ステップS650で、文字パターンの多次元特徴ベクトルを得る。文字パターンをm×n個(例えば、4×4個)の小領域に分割した場合、この文字パターンの特徴ベクトルは、m×nの特徴量から成る要素(例えば、F11,F12,…,Fmn)を持ったm×n次元の特徴ベクトルで表現される。文字パターンを多次元ベクトル化することにより、パターン空間上にマッピングすることが可能となる。以上により、図2(B)のステップS600の特徴抽出及び特徴ベクトル化が終了する。
図2(B)に示すテンプレート側を説明する。ステップS100で、既に解読済みの手書き文字を読み出す。図1の記憶装置20の辞書24には、既に解読済みの手書き文字(テンプレート)のデータが予め多数蓄積されている。テンプレートは、解読済みの手書き文字の画像を、(ステップS300と同様の手段で)デジタルデータ化し、(ステップS500と同様の手段で)非線形正規化処理し、(ステップS600と同様の手段で)特徴抽出及び特徴ベクトル化して、多次元特徴ベクトルの形式で蓄積されている。テンプレートに関するこれらの処理は、解読対象の文字に対して文字認識をする時点で行うのではなく、予め処理を行って、辞書24として登録されている。
その後、判別処理(尤度計算)として、多数の解読済み文字(テンプレート)の中から、解読対象の文字に類似する文字を探し出すパターンマッチング検索を行い(S700)、その検索結果から類似の文字候補を挙げる(S800)。
即ち、ステップS700で、解読対象文字の特徴ベクトルとテンプレートとの間でパターンマッチング検索が行われる。テンプレートとしては、辞書に蓄積された全ての文字が対象となる。従って、解読対象文字と辞書の多数のテンプレートとの間で、逐次パターンマッチングが実行される。パターンマッチングは、具体的には、ステップS600で得られた解読対象文字のm×n次元特徴ベクトルと、ステップS100で読み出されたテンプレートのm×n次元特徴ベクトルとの間で、対応する要素の座標間の空間内の距離を求める距離計算を行う。即ち、文字間の字体の類似の程度を数値化して求める。辞書24に蓄積された全てのテンプレートに対して、このパターンマッチング検索が行われる。
解読対象の欠損手書き文字と全てのテンプレートとの間でパターンマッチングが終了したら、ステップS800で、距離計算の結果をモニタ26に出力する。例えば、解読済み文字パターンの中から、解読対象の文字パターンに近いものを順番に類似文字候補として出力する。
以上により、欠損の無い文字に対する文字認識は終了する。
(欠損手書き文字の文字認識の問題)
しかし、図2(B)に示す動作フローをそのまま欠損手書き文字に適用すると、(1)非線形正規化による過度の変形、(2)文字の多次元特徴ベクトル化に際しての欠損部の取扱い等の問題が生じる。
(欠損手書き文字の文字認識の動作フロー)
そこで、これらの問題の解決手段を説明しながら、本実施形態に係る欠損手書き文字の文字認識の動作フロー(図2(A))を説明する。本発明者等は、この方法を「テンプレート修正法」と称している。以下に説明するテンプレート修正法では、解読対象の文字パターンから黒画素の特徴だけを抽出すると共に、テンプレートからグレーゾーンに対応する部分の特徴を取り除くテンプレートの修正を行う。これにより、欠損手書き文字に関しても、残存する字形に注目した特徴抽出及び判別処理が可能となる。
ステップS30で、解読対象の手書き文字をデジタル画像データにする。ステップS300の処理と同様である。
ステップS40で、(1)の非線形正規化による過度の変形に対処するため、欠損手書き文字の欠損部に対してグレーゾーンの指定を行う。
非線形正規化処理は、欠損部には字形の一部が存在しないという前提で処理されるため、欠損手書き文字パターンに対して実行すると過剰に変形処理される。その結果、本来の字種の文字パターンから遠くなる(非類似になる)という問題を生じる。
図8は、欠損手書き文字を非線形正規化した場合の問題点を説明する図である。図8(A)は、左側の黒い部分が残存する木簡の部分を表し、右側の白い部分が失われた木簡の部分を表す。図8(B)は、木簡に表された欠陥手書き文字を表し、図8(C)は、この文字の2値画像(デジタル画像データ)であり、図8(D)は、この画像を非線形正規化処理して過剰に変形された文字パターンを表す。
非線形正規化処理は、文字パターンの情報密度に注目した処理であり、字形を形成する黒画素を対象としている。即ち、白画素は字形を構成してないとの前提に立っている。文字に欠損が無い場合、文字パターンは白画素と黒画素とから構成されるので、この前提は正しい。
欠損手書き文字の場合、欠損部は、元々黒画素であったか白画素であったか不明である。しかし、現状の非線形正規化処理では、欠損部に字形の一部が存在したか否かに拘わらず、欠損部は情報密度が少ない部分として圧縮される。即ち、欠損部を埋めるように、黒画素が表す部分が拡大される。図8(B),(C)に示すように、元々この漢字のへんの部分が「魚」であったものが、非線形正規化処理により過剰に変形され、図8(D)では漢字のつくりの部分まで拡大される。
図9は、グレーゾーンの指定と非線形正規化について説明する図である。欠損部をグレーゾーンに指定することにより、欠損部の画素は全て灰色とされ、文字部分(黒画素)と下地部分(白画素)との間の線密度となる。典型的には、灰色の色濃度は黒と白の中間に指定される。手書き文字の欠損部をグレーゾーンと指定することにより、線密度に注目した非線形正規化処理における過剰な変形が抑制される。グレーゾーンの指定は、コンピュータのGUI18により、専門家がペンデバイス等19を利用して行う。
図9に示すように、欠損部に対するグレーゾーンの指定に際し、グレー(灰色)の濃度を可変にしてもよい。具体的には、墨が比較的少量であったと推定される場合は薄い灰色を指定し(図9(A))、平均的な量であったと推定される場合は平均的な灰色を指定し(図9(B))、比較的多量であったと推定される場合は濃い灰色を指定(図9(C))する。このような灰色の濃度の相違は、非線形正規化処理において、線密度の高低の相違として反映され、欠損部以外に表れた字形の拡大の程度に反映される。なお、グレーゾーンの指定は、図示のように文字パターンの必ずしも右半分、左半分ではなく、実際の欠損部に対応して行われるため、複数個の島状に分かれて指定される場合もある。
図2のステップS50で、グレーゾーン指定後の文字画像データに対して、非線形正規化処理を行う。ステップS500と同様の処理である。欠損部に対しても、グレーゾーン指定により一定の線密度が付与されているため、過度の文字変形は生じない。
ステップS60で、特徴抽出及び特徴ベクトル化を行う。ステップS600と同様の処理である。なお、グレーゾーンを指定した場合、非線形正規化段階で過剰な変形は抑制される。しかし、非線形正規化後の特徴抽出段階では、文字パターンの黒画素から特徴が抽出され、クレーゾーンからは特徴は抽出されない。図6に関連して説明したように、黒画素のみに注目して特徴抽出するからである。
一方、テンプレート側を説明する。
ステップS10で、既に解読済みの手書き文字(テンプレート)を読み出す。ステップS100と同様の処理である。
ステップS20で、全てのテンプレートに対して、グレーゾーンに対応する部分の特徴を目減りさせるテンプレート修正を行う。
この場合、例えば、既に解読済みの文字の画像パターンを、解読対象の文字で指定したグレーゾーンと同じ大きさのマスクで覆って特徴抽出し、多次元ベクトル化することも考えられる。その後、パターマッチング検索することにより、欠損手書き文字の文字認識は可能になる。しかし、現状では、1つの文字パターンの特徴抽出に比較的長いコンピュータ処理時間(例えば、数10分)を必要としている。従って、解読対象の文字にグレーゾーン指定を行う毎に、全てのテンプレートの文字画像にこのグレーゾーンと同じ大きさのマスクをかけて、特徴抽出及び多次元ベクトル化することは、莫大な時間を要し、実用的でない。
そこで、テンプレート修正法では、解読済みの文字から作成されたテンプレートの多次元特徴ベクトルに対して、グレーゾーンに対応する部分の特徴を目減りさせる方法を採ることにより、コンピュータ処理時間を大幅に短縮している。
テンプレート修正法では、グレーゾーンに含まれない画素からは特徴抽出が可能であり、反対にグレーゾーンに含まれた画素からは特徴抽出は行わないとする。そこで、図3のステップS620で説明した区画(小領域)毎に、グレーゾーン外の画素の割合(特徴残存率)を算出し、この特徴残存率によりテンプレートの多次元ベクトルの要素を修正、即ち、目減りさせている。区画単位で行う、グレーゾーン内の画素の集計及びグレーゾーン外の画素集の際、ステップS630で説明したガウスフィルタを利用して、特徴ベクトルを作成したときと同様の修正を行う。
図4は、このテンプレート修正法の動作フローである。
図12に示すように、ステップS21で、グレーゾーンに含まれた画素を特定する。具体的には、全ての画素に対して、灰色画素にc(cはゼロより大きい定数)、黒画素及び白画素にゼロのスコアsgrayを付与する。なお、灰色画素のcは、典型的には白と黒の中間値50%を付与する。しかし、図7に説明するように、薄い灰色にc1、灰色にc2、濃い灰色にc3(c1<c2<c3)のように、複数の色濃度に対応する値を付与してもよい。
sgray=c(灰色画素に対して),0(黒画素,白画素に対して)
ステップS22で、各画素のスコアsgrayに対して、図2のステップS60で用いた該当する区画のガウスフィルタを乗じて、ステップS23で、区画Cellijにおける評価値としてこれを集計してSgrayijを求める。
ステップS24で、区画Cellijに含まれる全ての画素に対して、スコアs=c(cは灰色画素のスコアに同じ。)を付与する。
ステップS25で、各画素のスコアsに対して、該当する区画のガウスフィルタを乗じて、ステップS26で、区画Cellijにおける評価値としてこれを集計してSijを求める。
ステップS27で、各区画の特徴残存率を求める。区画Cellijの特徴残存率Rijは次式で求められる。区画Cellijの特徴残存率Rijは、区画Cellij内の特徴出可能な画素の割合(グレーゾーン外の画素の割合)を表す。
Rij=1−(Sgrayij/Sij)
ステップS28で、次式に示すように、各区画の特徴残存率を使って、テンプレートの多次元ベクトルの対応する要素を修正する。即ち、多次元ベクトルの要素毎に、異なる特徴残存率Rijで修正される。
Fij→Rij×Fij
以上のステップで、区画単位で特徴の残存率に基づき、テンプレートの多次元特徴ベクトルを修正する。
図2(A)のステップS70で、欠損手書き文字の多次元ベクトルと、修正されたテンプレートとの間でパターンマッチングが行われる。ステップS700と同様の処理である。
ステップS80で、距離計算の結果をモニタ26に出力する。ステップS800と同様の処理である。
以上により、欠損手書き文字の文字認識が可能になる。
[本実施形態の評価検証]
本実施形態に係る欠損手書き文字の文字認識の評価検証について説明する。
評価用データベースの辞書として、309字種で1字種あたり2画像を含む2,108画像を用意した。図13は、辞書であるデータベースに含まれる文字画像(テンプレート)の例を示す図である。
解読対象の欠損手書き文字を用意するため、図10に示すように、擬似的なグレーゾーンを規定するため16種類の欠損用マスクを用意した。図11に示すように、2,108画像の文字画像にこのマスクを順次重ね、2108×16個の画像を作成し、解読対象の欠損手書き文字画像及び疑似グレーゾーンを付加した文字画像とした。なお、灰色の色濃度は、濃度50%(白と黒の単純平均)及び薄い灰色から濃い灰色まで複数の色濃度のうちの最適値で試験した。
評価試験では、1個抜きクロスバリデーション法を用いて、解読対象の欠損手書き文字画像に使用した文字画像は辞書から外して行った。即ち、解読対象の欠損手書き文字画像を、辞書の2,107画像と順次比較した。
評価結果として、解読対象の欠損手書き文字が、検索結果の尤度上位10位以内に含まれる確立を検索率として求めた。
尤度計算は、特徴ベクトル相互間の距離計算として、シティブロック処理(Cityblock distance)とユークリッド距離(Euclidian distance)を用いた。
評価試験では、文字画像を2通り用意した。1つは画像サイズ64×64画素、区画数8×8(即ち、特徴ベクトルの次元数8×8)であり、他の1つは画像サイズ100×100画素、区画数10×10(即ち、特徴ベクトルの次元数10×10)である。
最初に、マスクを適用しない場合の検索率を求めた。表1にその結果を示す。表1の数字は、尤度上位10位以内に含まれた検索率(%)及び回数(括弧内)である。表1は、欠損部がない文字に対するコンピュータによる文字検索の現在の実力を表す。検索率は、約69〜76%である。
上述したように、現在まで、欠損手書き文字に対するコンピュータによる文字検索は行われていない。次に、テンプレート修正を行わず、グレーゾーン指定後に非線形正規化処理を行う場合として、疑似欠損を付加して検索率を求めた。即ち、グレーゾーン後の非線形正規化を採用し、テンプレート修正不採用の場合のデータである。テンプレート表2にその結果を示す。検索率は、約36〜43%である。
次に、テンプレート修正を行って、検索率を求めた。即ち、グレーゾーン後の非線形正規化を採用し、テンプレート修正を採用した場合のデータである。表3にその結果を示す。検索率は、色濃度50%の場合で約56〜63%、最適色濃度で約69〜75%であった。表1の検索率とほぼ同じ結果を得ることが出来た。
以上の評価試験は、Intel Xeon 3060 (2.4GHz)をCPU12とするコンピュータ上で実施した。特徴ベクトルの次元数を8×8とし、疑似グレーゾーンの色濃度を50%に固定し、テンプレート修正法を採用してユークリッド距離計算を行った場合、処理時間は試行1回につき約0.13秒であった。これは、1文字に関して辞書全てのテンプレートに対する試行回数2,107回で4分半程度である。この程度であれば、実用に際して問題は無い。この時間短縮は、テンプレートに関して比較的長い時間を要する特徴抽出処理を予め行い、解読作業時には多次元ベクトルに対してテンプレートの修正を行うために可能となる。
この結果から、本実施形態のテンプレート修正法は、欠損手書き文字の文字認識に関して有効な手段と判断される。
[実施形態の利点・効果]
本実施形態による手書き文字認識システムにより、次のような利点・効果を得ることが出来る。
(1)欠陥手書き文字に関して、コンピュータを利用した文字認識が可能となる。
(2)欠損部をグレーゾーンに指定することで、非線形正規化処理における過重な変形を抑制で来る。
(3)グレーゾーンに対応してテンプレートを修正することで、検索率を大幅に控除することが出来る。
(4)グレーゾーンの色濃度を可変にして複数回の検索を行うことで、検索率を一層向上する事が出来る。
(5)これらの文字認識が、短時間のコンピュータ処理で可能になる。
[変形例・代替例]
以上、古代木簡に記載された欠損手書き文字の解読を支援する文字認識システムの実施形態に関して説明したが、本発明は、これに限定されない。本発明は、古代木簡に限らず、部分的に欠けてしまった手書き文字の解読支援に広く応用することが出来る。
本発明の技術的範囲は、添付の特許請求の範囲の記載によって定められる。
10:文字認識システム、 12:CPU(中央演算処理装置)、 14:カメラ、 16:キーボード等、 18:GUI、 20:記憶装置、 22:文字認識プログラム、 24:辞書,テンプレートのデータベース、 26:モニタ、

Claims (9)

  1. 欠損を伴った手書き文字を解読する文字認識システムにおいて、
    欠損部をグレーゾーンとして指定した解読対象の文字パターンを非線形正規化し、字形の特徴を表す多次元ベクトルを生成する手段と、
    解読済みの文字パターンを非線形正規化し、テンプレートとして字形の特徴を表す多次元ベクトルの形式で蓄積したデータベースと、
    前記グレーゾーンに対応して、前記テンプレートの多次元ベクトルを修正するテンプレート修正手段と、
    前記解読対象の文字パターンと修正後のテンプレートとの間でベクトル演算により距離計算を行う手段とを備えた、文字認識システム。
  2. 欠損を伴った手書き文字を解読する文字認識システムにおいて、
    解読対象の欠損を伴った手書き文字の文字パターン画像データを生成する手段と、
    欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理する手段と、
    前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成する手段と、
    解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースと、
    前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正する手段と、
    前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行う手段とを備えた、文字認識システム。
  3. 請求項1又は2に記載の欠損を伴った手書き文字を解読する文字認識システムにおいて、
    欠損部をグレーゾーンとして指定して該グレーゾーン内の画素は灰色とすることにより、線密度に従って行われる非線形正規化処理において、欠損部による過重な文字パターンの変形を抑制している、文字認識システム。
  4. 請求項1又は2に記載の欠損を伴った手書き文字を解読する文字認識システムにおいて、
    前記テンプレートの修正は、多次元特徴ベクトルの各要素に対して、各要素の特徴残存率を乗じて行っている、文字認識システム。
  5. 欠損を伴った手書き文字を解読する文字認識方法において、
    解読対象の欠損を伴った手書き文字の文字パターン画像データを生成するステップと、
    欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップと、
    前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成するステップと、
    解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースを作成するステップと、
    前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップと、
    前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行うステップとを含む、文字認識方法。
  6. 請求項5に記載の欠損を伴った手書き文字を解読する文字認識方法において、
    前記欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップは、該グレーゾーン内の画素は灰色とすることにより、線密度に従って行われる非線形正規化において、欠損部による過重文字パターンの変形を抑制している、文字認識方法。
  7. 請求項5に記載の欠損を伴った手書き文字を解読する文字認識方法において、
    前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップは、多次元特徴ベクトルの各要素に対して、各要素の特徴残存率を乗じて行っている、文字認識方法。
  8. コンピュータに、
    解読対象の欠損を伴った手書き文字の文字パターン画像データを生成するステップと、
    欠損部をグレーゾーンとして指定した文字画像データを、該グレーゾーン内の画素は灰色として非線形正規化処理するステップと、
    前記非線形正規化処理後の解読対象の文字パターンの字形の特徴を表す多次元特徴ベクトルを生成するステップと、
    解読済みの文字の非線形正規化処理後の文字パターンの字形の特徴を表す多次元特徴ベクトルをテンプレートとして多数集積したデータベースを作成するステップと、
    前記グレーゾーンに対応して、前記データベースのテンプレートの多次元特徴ベクトルの要素を修正するステップと、
    前記解読対象の文字パターンの特徴を表す多次元特徴ベクトルと、修正後のテンプレートの多次元特徴ベクトルとの間で尤度計算を行うステップとを実行させる、コンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムを記録した記録媒体。
JP2009054448A 2009-03-09 2009-03-09 手書き文字認識システム Pending JP2010211346A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009054448A JP2010211346A (ja) 2009-03-09 2009-03-09 手書き文字認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009054448A JP2010211346A (ja) 2009-03-09 2009-03-09 手書き文字認識システム

Publications (1)

Publication Number Publication Date
JP2010211346A true JP2010211346A (ja) 2010-09-24

Family

ID=42971472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009054448A Pending JP2010211346A (ja) 2009-03-09 2009-03-09 手書き文字認識システム

Country Status (1)

Country Link
JP (1) JP2010211346A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081332A1 (ja) * 2010-12-16 2012-06-21 シャープ株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2017016539A (ja) * 2015-07-06 2017-01-19 日本電気株式会社 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置
JP2017167329A (ja) * 2016-03-16 2017-09-21 アイラボ株式会社 プログラム、情報記憶媒体及び筆順判定装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081332A1 (ja) * 2010-12-16 2012-06-21 シャープ株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2017016539A (ja) * 2015-07-06 2017-01-19 日本電気株式会社 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置
JP2017167329A (ja) * 2016-03-16 2017-09-21 アイラボ株式会社 プログラム、情報記憶媒体及び筆順判定装置

Similar Documents

Publication Publication Date Title
JP7474587B2 (ja) 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
JP4806230B2 (ja) 劣化辞書生成プログラム、方法および装置
JP4618098B2 (ja) 画像処理システム
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
JP5188334B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4232804B2 (ja) 画像濃度変換方法、画像強調処理装置、およびそのプログラム
CN112419174B (zh) 基于门循环单元的图像文字去除方法、系统及装置
JPH0863546A (ja) 情報抽出方法および画像修復方法並びに画像修復システム
Hung et al. Micrography QR codes
CN111553349A (zh) 一种基于全卷积网络的场景文本定位与识别方法
CN111401099A (zh) 文本识别方法、装置以及存储介质
JP5028911B2 (ja) 文字列認識プログラム、方法および装置
JP2010211346A (ja) 手書き文字認識システム
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
JP2008028716A (ja) 画像処理方法及び装置
CN113392772B (zh) 一种面向文字识别的文字图像收缩变形增强方法
CN115937095A (zh) 融合图像处理算法和深度学习的印刷缺陷检测方法及系统
JPH11272800A (ja) 文字認識装置
CN111612045B (zh) 一种获取目标检测数据集的通用方法
JP7338159B2 (ja) 情報処理装置及びプログラム
JP2009282940A (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP2009259190A (ja) 文字認識プログラムおよび文字認識装置
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers