JP2010039609A - プログラム、情報記憶媒体及び文字列認識装置 - Google Patents

プログラム、情報記憶媒体及び文字列認識装置 Download PDF

Info

Publication number
JP2010039609A
JP2010039609A JP2008199388A JP2008199388A JP2010039609A JP 2010039609 A JP2010039609 A JP 2010039609A JP 2008199388 A JP2008199388 A JP 2008199388A JP 2008199388 A JP2008199388 A JP 2008199388A JP 2010039609 A JP2010039609 A JP 2010039609A
Authority
JP
Japan
Prior art keywords
point
character string
unit
probability
cut
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008199388A
Other languages
English (en)
Other versions
JP5344338B2 (ja
Inventor
Hekiran Shu
碧蘭 朱
Masaki Nakagawa
正樹 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Original Assignee
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo University of Agriculture and Technology NUC, Tokyo University of Agriculture filed Critical Tokyo University of Agriculture and Technology NUC
Priority to JP2008199388A priority Critical patent/JP5344338B2/ja
Publication of JP2010039609A publication Critical patent/JP2010039609A/ja
Application granted granted Critical
Publication of JP5344338B2 publication Critical patent/JP5344338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて、認識率を向上させることが可能なプログラム、情報記憶媒体及び文字列認識装置を提供すること。
【解決手段】ストローク間のオフストロークのうち、仮切出しポイントとして設定するオフストロークを決定し、前記仮切出しポイントによって切り出された仮切出しユニット毎に文字認識を行い、候補文字列を生成する。前記仮切出しユニットは、隣接する前記仮切出しポイントにより切り出される最小仮切出しユニットを少なくとも1つ含む。前記候補文字列の各候補文字に対応する前記仮切出しユニットに含まれる前記最小仮切出しユニット、および隣接する前記最小切り出しユニット間の連結について、複数項目の確からしさを評価し、前記複数項目の確からしさについて各項目に与える重みの値を設定する。
【選択図】図11

Description

本発明は、プログラム、情報記憶媒体及び文字列認識装置に関する。
従来から、与えられた文字列パタンを1文字ごとに分割して切出し候補とし、切出し候補に対応する文字パタンを文字認識して候補文字を出力し、候補文字列を評価して最適な文字列を認識結果として出力するオンライン文字列認識装置が知られている(例えば特許文献1参照)。
特開平11−328316号公報
しかしながら従来の文字列認識装置では、文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向があった。
本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、
文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて、認識率を向上させることが可能なプログラム、情報記憶媒体及び文字列認識装置を提供することにある。
(1)本発明は、手書き入力された文字パタンのストロークから文字列を認識するためのプログラムであって、
ストローク間のオフストロークのうち、仮切出しポイントとして設定するオフストロークを決定する仮切出しポイント決定部と、
前記仮切出しポイントによって切り出された仮切出しユニット毎に文字認識を行い、候補文字列を生成する候補文字列生成部と、
前記候補文字列について複数項目の確からしさを評価し、評価結果に基づき文字列を認識する認識部としてコンピュータを機能させ、
前記仮切出しユニットは、隣接する前記仮切出しポイントにより切り出される最小仮切出しユニットを少なくとも1つ含み、
前記認識部は、
前記候補文字列の各候補文字に対応する前記仮切出しユニットに含まれる前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、前記複数項目の確からしさを評価し、前記複数項目の確からしさについて各項目に与える重みの値を設定することを特徴とする。
また本発明は、上記各部を含む文字列認識装置に関係する。また本発明はコンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるプログラムを記憶した情報記憶媒体に関係する。
本発明によれば、各最小仮切出しユニットと隣接する最小仮切出しユニット間の連結について複数項目の確からしさを評価し、前記複数項目の各項目に適切な重みの値を設定することで、候補文字列の尤度評価を最小仮切出しユニットに基づき行うことができ、文字列候補の文字数に影響されず文字を認識することができる。すなわち、文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて認識率を向上させることができる。
(2)また本発明に係るプログラム及び情報記憶媒体では、
前記認識部は、
前記候補文字列の前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、言語文脈の確からしさ、文字パタンサイズの確からしさ、文字パタン内分割の確からしさ、文字認識の確からしさ、単一文字パタン位置の確からしさ、ペア文字パタン位置の確からしさ及び前記仮切出しポイントの確からしさを含む複数項目の確からしさを評価するようにしてもよい。
本発明によれば、各候補文字列について上記7項目の確からしさを評価することで、認識率を向上させることができる。
(3)また本発明に係るプログラム及び情報記憶媒体では、
前記認識部は、
前記仮切出しポイントを、隣接する文字パタン間の仮切出しポイントとして判断する場合には、前記仮切出しポイントが切出しポイントとして識別される確からしさを評価し、前記仮切出しポイントを、文字パタン内部の仮切出しポイントとして判断する場合には、前記仮切出しポイントが非切出しポイントとして識別される確からしさを評価するようにしてもよい。
本発明によれば、仮切出しポイントが文字パタン間にあるか、或いは文字パタン内部にあるかによって、それぞれ切出しポイントとして識別される確からしさ、或いは非切出しポイントとして識別される確からしさを評価することによって、文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて認識率を向上させることができる。
(4)また本発明に係るプログラム及び情報記憶媒体では、
前記仮切出しポイント決定部は、
前記オフストロークから抽出した多次元の特徴値をサポートベクターマシン(SVM)に適用することで、前記仮切出しポイントのSVM出力値を求め、
前記認識部は、
前記SVM出力値に基づき前記仮切出しポイントの確からしさを評価するようにしてもよい。
本発明によれば、仮切出しポイントを多角的に評価することができる。
(5)また本発明に係るプログラム及び情報記憶媒体では、
前記認識部は、
遺伝的アルゴリズムにより学習した複数の重みの値を前記複数項目の確からしさに与えるようにしてもよい。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
1.構成
図1に本実施形態の文字列認識装置の機能ブロック図の一例を示す。なお本実施形態の文字列認識装置は図1の構成要素(各部)の一部を省略した構成としてもよい。
文字入力部160は、ユーザがペンで手書き文字を入力するためのものであり、その機能は、タブレット(筆記面)などにより実現できる。文字入力部160は、ペンが筆記面に触れてから離れるまでのペン先の位置を表す座標データを一定時間間隔で検出し、検出された座標データを筆点情報取得部110に出力する。
記憶部170は、処理部100や通信部196などのワーク領域となるもので、その機能はRAMなどにより実現できる。
情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などにより実現できる。処理部100は、情報記憶媒体180に格納されるプログラム(データ)に基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
表示部190は、本実施形態により生成された画像を出力するものであり、その機能は、CRT、LCD、タッチパネル型ディスプレイ、或いはHMD(ヘッドマウントディスプレイ)などにより実現できる。
処理部100(プロセッサ)は、文字入力部160からの座標データやプログラムなどに基づいて、認識処理、表示処理などの処理を行う。この処理部100は記憶部170内の主記憶部172をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部100は、筆点情報取得部110、仮切出しポイント決定部112、候補文字列生成部114、認識部116、表示処理部120を含む。なおこれらの一部を省略する構成としてもよい。
筆点情報取得部110は、ペンが筆記面に触れてから離れるまでの座標データ列(筆点座標系列)をストロークのデータとして文字入力部160から取得する。また筆点情報取得部110は、他の情報処理装置からネットワーク及び通信部196を介してストロークのデータを取得するようにしてもよい。
仮切出しポイント決定部112は、ストローク間のオフストローク(ペンが筆記面から離れてから再び触れるまでのベクトル)のうち、仮切出しポイントとして設定するオフストロークを決定する。具体的には、オフストロークから距離や交わりを表す特徴値を抽出し、抽出した特徴値に基づき仮切出しポイントとして設定するオフストロークを決定する。
また仮切出しポイント決定部112は、前記オフストロークから抽出した多次元の特徴値をサポートベクターマシン(SVM)に適用することで、前記仮切出しポイントのSVM出力値を求めるようにしてもよい。
候補文字列生成部114は、前記仮切出しポイントによって切り出された仮切出しユニット(隣接する前記仮切出しポイントにより切り出される最小仮切出しユニットを少なくとも1つ含む仮切出しユニット)毎に文字認識を行い、候補文字列を生成する。
認識部116は、前記候補文字列について複数項目の確からしさを評価し、評価結果に基づき文字列を認識する。また認識部116は、前記候補文字列の各候補文字に対応する前記仮切出しユニットに含まれる前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、前記複数項目の確からしさを評価し、前記複数項目の確からしさについて各項目に適切な重みの値を設定する。
また認識部116は、前記候補文字列の各前記最小仮切出しユニットと隣接する前記最小切出しユニット間の連結について、言語文脈の確からしさ、文字パタンサイズの確からしさ、文字パタン内分割の確からしさ、文字認識の確からしさ、単一文字パタン位置の確からしさ、ペア文字パタン位置の確からしさ及び前記仮切出しポイントの確からしさを含む複数項目の確からしさを評価するようにしてもよい。
また認識部116は、前記仮切出しポイントを、隣接する文字パタン間の仮切出しポイントとして判断する場合には、前記仮切出しポイントが切出しポイントとして識別される確からしさを評価し、前記仮切出しポイントを、文字パタン内部の仮切出しポイントとして判断する場合には、前記仮切出しポイントが非切出しポイントとして識別される確からしさを評価するようにしてもよい。
また認識部116は、前記SVM出力値に基づき前記仮切出しポイントの確からしさを評価するようにしてもよい。
また認識部116は、遺伝的アルゴリズムにより学習した複数の重みの値を前記複数項目の確からしさに与えるようにしてもよい。
表示処理部120は、認識部116により認識された文字列(認識結果)を表示部190に出力する。なお処理部100は、認識部116による認識結果をネットワーク及び通信部196を介して他の情報処理装置に送信するようにしてもよい。
通信部196は、他の情報処理装置との間で通信を行うための各種制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。
なお本実施形態の各部としてコンピュータを機能させるためのプログラム(データ)は、サーバが有する情報記憶媒体からネットワーク及び通信部196を介して記憶部170、情報記憶媒体180に配信してもよい。このようなサーバの情報記憶媒体の使用も本発明の範囲内に含めることができる。
2.本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。
2−1.仮切出しポイントの決定
本実施形態では、入力された各ストロークを、隣接するストローク間の距離や重なりなどの特徴によって、切出しポイント、非切出しポイントと不確定ポイントに分類する。切出しポイントは、2つの文字パタン間にあると判断されたポイントであり、非切出しポイントは、1つの文字パタンの内部にあると判断されたポイントである。また不確定ポイントは、切出しポイントであるか非切出しポイントであるかを決定できないポイントである。本実施形態では、切出しポイントと不確定ポイントとを仮切出しポイントとする。
本実施形態では、入力されたオフストロークから水平方向距離と交差長さの2つの特徴値を抽出する。オフストロークの水平方向距離特徴fは、次式により求めることができる。
=DBx/acs (1)
ここでacsは平均文字サイズを示し、各ストロークの外接矩形における長い方の辺長をもとめ、全てのストロークについてその辺長をソートし、それらの辺長の中において長い方から3分の1のものに対して平均を取ることによって求めることができる。
またDBxは、図2に示すように、注目するオフストロークの前の全ての外接矩形Bbp_allと、注目するオフストロークの後の全ての外接矩形Bbs_allとのX方向距離を示し、DBxは、次式により求めることができる。
Bx=Bbs_allの左位置X座標−Bbp_allの右位置X座標 (2)
また、オフストロークの交差長さ特徴fは、以下のように求める。
すわなち、図3に示すように、注目するオフストロークを基準として、前の全てのストローク列をSp_allとし、後ろの全てのストローク列をSs_allとし、Sp_allに属する1つのストロークをSとし、Ss_allに属する1つのストロークをSとし、SとSとが交差する点をpとし、pからSの右側の端点までのS上の長さとpからSの左側の端点までのS上の長さの短い方をlとし、Sの長さとSの長さの長い方をlとして、SとSの交差長さlを、次式により求める。
=−l/l (3)
なお、SとSが交差していない場合にはl=0とする。
次に、交差長さの和Lsumを、SとSの組み合わせペアの数をnとして、次式により求める。
そしてオフストロークの交差長さ特徴fを、Lsum<0の場合には、f=Lsumとし、f(水平方向距離特徴)>0の場合には、f=fとし、それ以外の場合には、f=0として求める。
図4は、水平方向距離特徴と交差長さ特徴の学習パタンの分布を示す図である。図4において、横軸は水平方向距離特徴fを示し、縦軸は交差長さ特徴fを示す。また、実線と黒点は、学習パタンにおける切出しポイント(文字パタン間のオフストローク)の特徴値の分布を示し、グレーの領域は、学習パタンにおける非切出しポイント(文字パタン内部のオフストローク)の特徴値の分布を示す。
本実施形態では、入力されたオフストロークから抽出した水平方向距離特徴と交差長さ特徴が0以上であり、或いはOABCDE(学習パタンにおいて切出しポイントが密集する2つの長方形を重ねた形)のエリアに位置する場合に、当該オフストロークを不確定ポイントに分類し、それ以外のオフストロークを非切出しポイントに分類する。
その後、全ての隣接する2つの不確定ポイントについて、2つの不確定ポイント間のストローク列の外接矩形の幅を求め、当該外接矩形の幅/acs(平均文字サイズ)が所定の閾値より大きい場合には、当該2つの不確定ポイント間に存在する非切出しポイントの特徴値がOFGH(学習パタンにおいて切出しポイントが存在し得る長方形)のエリアに位置する場合に、当該非切出しポイントを不確定ポイントに修正する。
次に、各不確定ポイント(仮切出しポイント)から、交差長さ特徴値fに加えて、18個の特徴値と、広さ特徴値を含む20個の特徴値を抽出する。18個の特徴値f〜f18は、それぞれ次式(5)〜(22)により求めることができる。
=オフストロークの経過時間 (5)
=DBx/acs (6)
=Bbp_allとBbs_allの重なり面積/(acs) (7)
=Dbx/Bbp1の幅 (8)
=Dbx/Bbs1の幅 (9)
=Dbx/acs (10)
=Dby/Bbp1の高さ (11)
=Dby/Bbs1の高さ (12)
=Dby/acs (13)
10=O/(Bbs1の幅×高さ) (14)
11=O/(acs) (15)
12=Dbsy/acs (16)
13=Dbs/acs (17)
14=Df/acs (18)
15=オフストロークの長さ/acs (19)
16=オフストロークの正弦値 (20)
17=オフストロークの余弦値 (21)
18=f/文字列中の最大f (22)
ここで、Bbp1は、1つ前のストロークの外接矩形を示し、Bbs1は、1つ後のストロークの外接矩形を示す。またDByは、Bbp_allとBbs_allのY方向距離(DBy=Bbs_allの上位置Y座標−Bbp_allの下位置Y座標)を示す。またDbxは、Bbp1とBbs1のX方向距離(Dbx=Bbs1の左位置X座標−Bbp1の右位置X座標)を示す。またDbyは、Bbp1とBbs1のY方向距離(Dby=Bbs1の上位置Y座標−Bbp1の下位置Y座標)を示す。またOは、Bbp1とBbs1の重なり面積を示す。またDbsyは、Bbp1とBbs1の中心のY方向距離(Dbsy=Bbs1の中心のY座標−Bbp1の中心のY座標)を示す。またDbsは、Bbp1とBbs1の中心の距離を示す。またDfは、Bbp_allとBbs1の上位置Y座標のずれ(Df=abs(Bbp_allの上位置Y座標−Bbs1の上位置Y座標))を示す。
また、広さ特徴値fは、次式により求めることができる。
=w/acs (23)
ここで、wは、1つ前の仮切出しポイントから1つ後の仮切出しポイントまでのストローク列の外接矩形の幅である。
本実施形態では、学習パタンに対して、切出しポイントに教師信号1、非切出しポイントに教師信号−1を与えて、オフストロークから抽出した20個の特徴値(18個の特徴値f〜f18、交差長さ特徴値f、広さ特徴値f)をSVMに適用し、SVMモデルを学習しておく。
そして、不確定ポイント(仮切出しポイント)から抽出した上記20個の特徴値を、学習したSVMに適用することで、不確定ポイントのSVM出力値を求める。SVM出力値が所定の閾値より大きく、且つ広さ特徴値fが所定の閾値より大きい不確定ポイントを切出しポイントとして確定する。
2−2.候補ラティスの構築
図5に、本実施形態の候補ラティスの一例を示す。
本実施形態では、図5に示すように、仮切出しポイント(不確定ポイントUP及び切出しポイントDP)によりストローク列を切り出し、切り出されたストローク列(仮切出しユニット)毎に文字認識を行って候補文字(認識候補)を並べ、それらをリンクして複数の候補文字列からなる候補ラティスを構築する。
ここで不確定ポイントUPは、切出しポイントと非切出しポイントの2通りに仮定され、切出しポイントとして仮定される場合には、切出しユニットの抽出に利用される。例えば図5において、不確定ポイントUPを切出しユニットとして仮定した場合に、「明」という手書き文字パタンから2つの仮切出しユニットを抽出し、それぞれ「日、目、月」、「月、口、目、旦」という候補文字を生成する。また不確定ポイントUPを非切出しユニットとして仮定した場合には、「明」という手書き文字パタンから1つの仮切出しユニットを抽出して「朋、胴、明」という候補文字を生成する。なお、1つの仮切出しユニットの内部に仮切出しポイントを含まないもの、すなわち隣接する仮切出しポイントによって切り出されたユニットを最小仮切出しユニットとする。
候補ラティスにおいて、各ノードNDは文字認識によって1つの仮切出しユニットに関して生成される1つの候補文字を示し、各連結線ALは1つの仮切出しポイントを文字の境として文字列の連接を示す。後述する複数項目の確からしさからなる尤度を評価するスコアは、各連結線ALとノードNDに与えられる。本実施形態では、閾値より低い確からしさを持つノードNDを削除する。このようにすると、文字列候補パスの数を削減して認識処理を高速化することができる。
2−3.文字列認識
本実施形態では、仮切出しポイントから構築した候補ラティスの各文字列候補パス(候補文字列)について複数項目の確からしさを評価する。
図6(A)に示すように、1つの文字列パタンXに対して、ある切出しS=S..S..S(nは仮切出しユニットの数)を選択して、ある候補文字列C=C..C..Cに認識するとする。ここで仮切出しユニットSはCに対応している。図6(B)に示すように、仮切出しユニットSは、最小仮切出しユニットの列Si1i2..Sij..Sikiからなる。Sijは、1つの最小仮切出しユニットである。
文字列パタンXが候補文字列Cに認識される条件付き確立P(C|X)は、次式により求めることができる。
ここで、最小仮切出しユニットSijは、外接矩形bij、内分割qijと位置情報p ijを持ち、隣接する最小仮切出しユニットにおいて、位置関係情報p ijと仮切出しポイントgijをもつ。Cijは、Sijの認識候補の1つであり、文字Cの全部か一部である。b,q,S,p,p,gは仮切出しの特徴値の列である。
式(24)において、分母P(b,q,S,p,p,g)は、文字列候補パスによらない。そこで特徴値間の独立を仮定して、文字列候補パスの尤度f(X,C)を、次式のように近似する。
ここで、C−1 ijとC−2 ijは、直前の2つの認識候補を示し、kは仮切出しユニットSに含まれる最小仮切出しユニットの数を示し、Lijは、切出しポイントか非切出しポイントであるかを示すラベルである。
ijが文字の一部である場合、式(25)の第7項目(仮切出しポイントに関わる項目)以外については、求めるのが困難である。これを解決するために、Cijをそれを含む文字Cに置き換えて、式(25)の第1項目について、次式のように近似する。
ここで、λ11とλ12は重みパラメータを示し、λはバイアスを示す。
式(25)の第7項目については、ラベルLijを、切出しspと非切出しn−spの2種類に分類してその推定誤差を調節するための重みを付け、それ以外の第2〜第6項目については、式(26)と同じ方法で近似すると、文字列候補パスの尤度f(X,C)は、次式により求めることができる。
ここで、b、q、p は、それぞれ仮切出しユニットSの外接矩形、内分割、位置情報に関する特徴ベクトルであり、p は、隣接する仮切出しユニット間の位置関係に関する特徴ベクトルを示し、gi1、gij(j=2〜k)は、仮切出しポイントの特徴ベクトルを示す。これらの詳細については後述する。またλ11〜λ71、λ12〜λ72とλは、重みパラメータを示し、後述する遺伝的アルゴリズムを用いて学習されたものである。
式(27)において、第1項目は言語文脈の確からしさ、第2項目は文字パタンサイズの確かしさ、第3項目は文字パタン内分割の確からしさ、第4項目は、文字認識の確からしさ、第5項目は単一文字パタン位置の確からしさ、第6項目はペア文字パタン位置の確からしさ、第7、第8項目(以下、第7項目という)は仮切出しポイントの確からしさを評価するための項目である。
本実施形態では、式(27)に示すように、文字列候補パスの尤度は最小切出しユニットに基づいて尤度を積み上げたものであり、文字列候補の文字数に影響されない。従って、文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて認識率を向上させることができる。
本実施形態では、式(27)によって求めた文字列候補パスの尤度を候補ラティスの各ノードと各連結線に与え、当該候補ラティスに対してビタビ(Viterbi)探索を行うことによって、最適な候補文字列(最適な切出しと文字認識結果)を決定する。
以下、式(27)の各項目の詳細について説明する。
第1項目のP(C|Ci−1,Ci−2)は、Ci−1,Ci−2からCへの移転的確率(tri−gram確率)である。なお、1番目の文字Cについては、uni−gram確率P(C)、2番目の文字Cについては、bi−gram確率P(C|C)により求める。tri−gram確率を学習するには膨大なテキストが必要なため、P(C|Ci−1,Ci−2)の代わりに、次式に示すP’(C|Ci−1,Ci−2)を用いる。
ここで、β、β、β、βは、tri−gram確率の学習用テキストと異なるテキストによって認識率が最大になるように求める。
第2項目のP(b|C)は、文字パタンサイズの条件付き確率である。bは、平均文字サイズacsで正規化した文字パタン(仮切出しユニット)の外接矩形の幅と高さからなる幾何学的な特徴ベクトルである。
第3項目のP(q|C)は、文字パタン内分割の条件付き確率である。qは、図7に示すqik(k=1〜6)からなる幾何的特徴ベクトルである。qik(k=1〜3)は各垂直の分割での文字パタンの垂直方向の射影におけるギャップdの長さを平均文字サイズacsで正規化した値であり、qik(k=4〜6)は各水平の分割での文字パタンの水平方向の射影におけるギャップdの長さを平均文字サイズacsで正規化した値である。各分割において2つ以上のギャップがある場合、これらのギャップの和が使用される。
第4項目のP(S|C)は、仮切出しユニットの条件付き確率である。Sは、文字パタンとしての仮切出しユニットの特徴ベクトルを示す。P(S|C)は、文字認識のスコアから近似することができる。
第5項目のP(p |C)は、単一文字パタン位置の条件付き確率である。p は、図8(A)に示すように、単一文字パタン位置(unary位置)の2つの要素からなる幾何学的な特徴ベクトルである。2つの要素は、それぞれ文字パタンの上部から文字列の中心線CLまでの距離を平均文字サイズacsで正規化した値と、文字パタンの底部から文字列の中心線CLまでの距離を平均文字サイズacsで正規化した値である。
第6項目のP(p |C,Ci−1)は、ペア文字パタン位置の条件付き確率である。p は、図8(A)に示すように、2つの隣接する文字パタン(仮切出しユニット)間におけるペア文字パタン位置(binary位置)の2つの要素からなる幾何学的な特徴ベクトルである。2つの要素は、それぞれ隣接する文字パタンの上部同士の距離を平均文字サイズacsで正規化した値と、隣接する文字パタンの下部同士の距離を平均文字サイズacsで正規化した値である。
第7項目のP(gi1|sp)は、切出しポイントがgi1を生じる条件付き確率であり、P(gij|n−sp)(j=2〜k)は、非切出しポイントがgijを生じる条件付き確率である。図8(B)に示すように、gi1は、仮切出しユニットSの先頭に位置し、切出しポイントとして識別される仮切出しポイント(隣接する文字パタン間の仮切出しポイント)から抽出した20次元の幾何学的な特徴ベクトル(20個の特徴値)であり、gij(j=2〜k)は、仮切出しユニットSの内部に位置し、非切出しポイントして識別される仮切出しポイント(文字パタン内部の仮切出しポイント)から抽出した20次元の幾何学的な特徴ベクトルである。
このように本実施形態では、切出しポイントして識別される仮切出しポイントのみならず、非切出しポイントして識別される仮切出しポイントについても、非切出しポイントとして識別される確からしさを評価することで、文字列を少ない文字数に解釈する傾向や、文字列を多い文字数に解釈する傾向を弱めて認識率を向上させることができる。
なお本実施形態では、P(gi1|sp)を、P(oi1=SVM(gi1)|sp)により近似し、P(gij|n−sp)(j=2〜k)を、P(oij=SVM(gij)|n−sp)により近似する。ここでは、oijはgijに関するSVM出力値である。P(oi1|sp)は切出しポイントに対して、学習パタンで学習したSVMが出力値oi1を生じる条件付き確率である。P(oij|n−sp)(j=2〜k)は非切出しポイントに対して、学習パタンで学習したSVMが出力値oijを生じる条件付き確率である。なお、P(o11|sp)=1とする。
以下、説明を簡略化するためにoijの代わりに符号oを使用する。図9(A)に示すようにSVMの出力値oについて、学習パタンからP(o|sp)とP(o|n−sp)を学習することができる。ここで、SVMの出力値が1か−1に近づくと確率値が激しく降下する。そこで、P(o|sp)とP(o|n−sp)の代わりに、次式に示す累積の関数P’(o|sp)とP’(o|n−sp)を使用する。
図9(B)に、P’(o|sp)とP’(o|n−sp)の確率値を示す。さらに、次式に示すシグモンド関数によってこれらを近似することができる。
図9(b)に示すSVMの出力値に対して、−10から10まで0.02の間隔でSVMの出力値o(k=1〜Ns)を取り、確率P’(o|sp)とP’(o|n−sp)を得る。ここで、NsはSVM出力値を取る個数である。そして、最急降下法により次式に示すエラー関数の最小化の尺度に基づいてパラメータα10,α11,α20,α21を求める。
2−4.重みパラメータの学習
本実施形態では、学習パタンを利用して遺伝的アルゴリズムにより、式(27)における複数の重みパラメータ(λ11〜λ71、λ12〜λ72、λ)を学習する。ここでは、複数の重みパラメータからなる重み系列を1つの染色体とみなす。1つの重みパラメータは染色体の1つの遺伝子である。以下、学習の処理手順について説明する。
まず、N個の染色体をランダムで0〜1の値に初期化する。N個の染色体の古い平均評価値foldを0、繰返し数tを1に初期化する。
次に、N個の染色体の中からランダムで選択した2つの染色体について、ランダムで決定した2位置の中の遺伝子を交叉させることで新しい2つの染色体を生成する。これをM個の新染色体が生成されるまで繰り返す。
次に、N+M個の染色体の各遺伝子に確率Pmutで突然変異を起こさせる。具体的には−1〜1のランダム値を加算し、[0,1]に丸める。
次に、各染色体を学習パタンに関する認識率により評価する。ここでは、各染色体の遺伝子は式(27)における重みに設定される。
次に、各染色体の評価値によりそのルーレット確率を求める。ここでは、評価値が高い染色体ほどルーレット確率が大きくなるようにする。そして、評価値が最高の2つの染色体を選択し、N個の新染色体を得るまでルーレット確率により染色体を選択する。N個の新染色体でN個の古い染色体を置換する。
次に、N個の新染色体の平均評価値fnewを求める。もし(fnew−fold<閾値)がnstop回以上発生するかそれともt>Tであれば、評価値が最高の染色体を返す。それ以外の場合には、fnewをfoldに、tをt+1に置換し、前記交叉の処理に戻る。ここでは、Nを50に、Mを100に、Pmutを0.03に、nstopを25に、Tを10000にセットする。
染色体を評価するために学習パタンに対して手書き文字認識(単文字認識)を適用し、候補ラティスを生成し、そこでViterbi探索を行う必要がある。仮切出しと単文字認識は1回だけで済むが、Viterbi探索は重み系列(染色体)ごとに行う必要があるが、多大な処理時間を要することになる。そこで、まず各重みを1にセットし、学習パタンの各文字列からViterbi探索を用いて上位100個の文字列候補パスを選択する。
そして遺伝的アルゴリズムにより重み系列を発生し、これらの選択した文字列候補パスに発生した重み系列を適用して評価を行うことで、可能性の高い重みを選択する。収束したら、学習した新しい重み系列を適用して、学習パタンの各文字列からViterbi探索を用いて上位100個の文字列候補パスを選択する。遺伝的アルゴリズムにより重み系列を学習する。このプロセスをもう1度繰り返す。このようにすることで、重み系列の組み合わせを1つずつ試すことなく、効率よく最適な重みの組み合わせを求めることができる。
3.性能評価結果
性能評価に先立って、データベースを利用してP(S|C)について文字認識のモデルを学習した。またデータベースを利用して文字パタンサイズ、文字パタン内分割、単一文字パタン位置(unary位置特徴)とペア文字パタン位置(binary位置特徴)における4つの二次識別関数(QDF)を学習した。また新聞データにより言語文脈の確からしさのためのtri−gram表を作った。そして、データベースによりβ、β、β、βを学習した。
さらに、100人分の文字列方向と文字方向自由のオンライン日本語手書き文字列データベースから1行ずつの左から右への文字列を抽出した。このうち75人分のデータから20次元の仮切出し特徴値を抽出し、これらのデータを利用することで、仮切出しのための閾値、仮切出しポイント確かさしさのためのSVMモデルと式(27)における重みパラメータを学習した。そして、残った25人分の文字列データをテストパタンとして本実施形態の方法(式(27)に示す文字列候補パス評価方法)の性能を評価した。
なお比較対象として、式(32)、式(33)に示す文字列候補パス評価方法(方法1、方法2)についても評価した。
ここで、式(32)、式(33)におけるλ(i=1〜7)とλは、本実施形態と同様の重みパラメータであり、遺伝的アルゴリズムにより学習されたものである。式(32)に示すように、方法1では、最小仮切出しユニットではなく仮切出しユニットに基づいて尤度を積み上げたもので、文字列候補の文字数に影響され、文字列を少ない文字数に解釈する傾向がある。つまり、そこでは、学習した重みパラメータをそのまま各項目に与えており、本実施形態のように、最小切出しユニットに基づいて尤度を積み上げていない。また式(33)に示すように、方法2では、文字列候補の文字数によって文字列候補パスの尤度を正規化するため、文字列を多い文字数に解釈する傾向がある。また方法1、方法2では、非切出しポイントして識別される確からしさを評価していない。
図10に、本実施形態の方法、方法1、方法2それぞれの性能評価結果を示す。
なお、図10に示すfは、次式に示す文字切出し性能のf尺度である。
図10に示すように、本実施形態の方法では、方法1、方法2に比べて、文字切出し性能と文字認識率が向上していることが確認できる。文字認識率の差は1%程度であるが、90%を越えた文字認識率をさらに1%向上させることは容易なことではない。
4.本実施形態の処理
図11は、本実施形態の文字列認識装置の処理の一例を示すフローチャートである。
まず、筆点情報取得部110は、文字入力部160からストロークのデータ(筆点座標系列)を取得する(ステップS10)。
次に、仮切出しポイント決定部112は、各オフストロークから抽出した水平方向距離と交差長さの特徴値に基づいて、不確定ポイント(仮切出しポイント)を決定する(ステップS12)。次に、各オフストロークから抽出した20個の特徴値を学習したSVMに適用して仮切出しポイントのSVM出力値を求める(ステップS14)。次に、仮切出しポイントのSVM出力値に基づき切出しポイントを確定する(ステップS16)。
次に、候補文字列生成部114は、仮切出しポイント(不確定ポイント、切出しポイント)によって切出された仮切出しユニット毎に文字認識を行い、候補ラティスを生成する(ステップS18)。
次に、認識部116は、候補ラティスの各文字列候補パス(候補文字列)について、それぞれ重み付けされた複数項目の確からしさを考慮した尤度を求める(ステップS20)。次に、候補ラティスに対してViterbi探索を行って、最適な文字列候補パスを選択する認識処理を行う(ステップS22)。
なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変形が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
本実施形態の文字列認識装置の機能ブロック図の一例。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 本実施形態の手法について説明するための図。 性能評価結果を示す図。 本実施形態の文字列認識装置の処理の流れを示すフローチャート図。
符号の説明
100 処理部、110 筆点情報取得部、112 仮切出しポイント決定部、114 候補文字列生成部、116 認識部、120 表示処理部、160 文字入力部、170 記憶部、180 情報記憶媒体、190 表示部、196 通信部

Claims (7)

  1. 手書き入力された文字パタンのストロークから文字列を認識するためのプログラムであって、
    ストローク間のオフストロークのうち、仮切出しポイントとして設定するオフストロークを決定する仮切出しポイント決定部と、
    前記仮切出しポイントによって切り出された仮切出しユニット毎に文字認識を行い、候補文字列を生成する候補文字列生成部と、
    前記候補文字列について複数項目の確からしさを評価し、評価結果に基づき文字列を認識する認識部としてコンピュータを機能させ、
    前記仮切出しユニットは、隣接する前記仮切出しポイントにより切り出される最小仮切出しユニットを少なくとも1つ含み、
    前記認識部は、
    前記候補文字列の各候補文字に対応する前記仮切出しユニットに含まれる前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、前記複数項目の確からしさを評価し、前記複数項目の確からしさについて各項目に与える重みの値を設定することを特徴とするプログラム。
  2. 請求項1において、
    前記認識部は、
    前記候補文字列の前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、言語文脈の確からしさ、文字パタンサイズの確からしさ、文字パタン内分割の確からしさ、文字認識の確からしさ、単一文字パタン位置の確からしさ、ペア文字パタン位置の確からしさ及び前記仮切出しポイントの確からしさを含む複数項目の確からしさを評価することを特徴とするプログラム。
  3. 請求項2において、
    前記認識部は、
    前記仮切出しポイントを、隣接する文字パタン間の仮切出しポイントとして判断する場合には、前記仮切出しポイントが切出しポイントとして識別される確からしさを評価し、前記仮切出しポイントを、文字パタン内部の仮切出しポイントとして判断する場合には、前記仮切出しポイントが非切出しポイントとして識別される確からしさを評価することを特徴とするプログラム。
  4. 請求項2又は3において、
    前記仮切出しポイント決定部は、
    前記オフストロークから抽出した多次元の特徴値をサポートベクターマシン(SVM)に適用することで、前記仮切出しポイントのSVM出力値を求め、
    前記認識部は、
    前記SVM出力値に基づき前記仮切出しポイントの確からしさを評価することを特徴とするプログラム。
  5. 請求項1乃至4のいずれかにおいて、
    前記認識部は、
    遺伝的アルゴリズムにより学習した複数の重みの値を前記複数項目の確からしさに与えることを特徴とするプログラム。
  6. コンピュータ読み取り可能な情報記憶媒体であって、請求項1乃至5のいずれかのプログラムを記憶したことを特徴とする情報記憶媒体。
  7. 手書き入力された文字パタンのストロークから文字列を認識する文字列認識装置であって、
    ストローク間のオフストロークのうち、仮切出しポイントとして設定するオフストロークを決定する仮切出しポイント決定部と、
    前記仮切出しポイントによって切り出された仮切出しユニット毎に文字認識を行い、候補文字列を生成する候補文字列生成部と、
    前記候補文字列について複数項目の確からしさを評価し、評価結果に基づき文字列を認識する認識部とを含み、
    前記仮切出しユニットは、隣接する前記仮切出しポイントにより切り出される最小仮切出しユニットを少なくとも1つ含み、
    前記認識部は、
    前記候補文字列の各候補文字に対応する前記仮切出しユニットに含まれる前記最小仮切出しユニット、および隣接する前記最小切出しユニット間の連結について、前記複数項目の確からしさを評価し、前記複数項目の確からしさについて各項目に与える重みの値を設定することを特徴とする文字列認識装置。
JP2008199388A 2008-08-01 2008-08-01 プログラム、情報記憶媒体及び文字列認識装置 Active JP5344338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008199388A JP5344338B2 (ja) 2008-08-01 2008-08-01 プログラム、情報記憶媒体及び文字列認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008199388A JP5344338B2 (ja) 2008-08-01 2008-08-01 プログラム、情報記憶媒体及び文字列認識装置

Publications (2)

Publication Number Publication Date
JP2010039609A true JP2010039609A (ja) 2010-02-18
JP5344338B2 JP5344338B2 (ja) 2013-11-20

Family

ID=42012116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008199388A Active JP5344338B2 (ja) 2008-08-01 2008-08-01 プログラム、情報記憶媒体及び文字列認識装置

Country Status (1)

Country Link
JP (1) JP5344338B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205922A (ja) * 2012-03-27 2013-10-07 Fuji Xerox Co Ltd 文字認識用学習データ生成装置、文字認識装置、およびプログラム
JP2014092817A (ja) * 2012-10-31 2014-05-19 Fuji Xerox Co Ltd 文字認識装置及びプログラム
CN116071764A (zh) * 2023-03-28 2023-05-05 中国人民解放军海军工程大学 基于原型网络的手写汉字识别方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124364A (ja) * 1992-10-13 1994-05-06 Sanyo Electric Co Ltd 文字切り出し装置
JP2002063548A (ja) * 2001-06-18 2002-02-28 Hitachi Software Eng Co Ltd 手書き文字認識方法
JP2004171316A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd Ocr装置及び文書検索システム及び文書検索プログラム
JP2005141329A (ja) * 2003-11-04 2005-06-02 Toshiba Corp 手書き文字認識装置、及び手書き文字認識方法
JP2009528615A (ja) * 2006-03-01 2009-08-06 ザイ デクマ アクチボラゲット 付加的文字認識方法とその装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124364A (ja) * 1992-10-13 1994-05-06 Sanyo Electric Co Ltd 文字切り出し装置
JP2002063548A (ja) * 2001-06-18 2002-02-28 Hitachi Software Eng Co Ltd 手書き文字認識方法
JP2004171316A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd Ocr装置及び文書検索システム及び文書検索プログラム
JP2005141329A (ja) * 2003-11-04 2005-06-02 Toshiba Corp 手書き文字認識装置、及び手書き文字認識方法
JP2009528615A (ja) * 2006-03-01 2009-08-06 ザイ デクマ アクチボラゲット 付加的文字認識方法とその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012059769; Bilan ZHU et al.: 'Segmentation of On-Line Freely Written Japanese Text Using SVM for Improving Text Recognition' IEICE transactions on information and systems 第91巻,第1号, 20080101, 第105-113頁, (社)電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205922A (ja) * 2012-03-27 2013-10-07 Fuji Xerox Co Ltd 文字認識用学習データ生成装置、文字認識装置、およびプログラム
JP2014092817A (ja) * 2012-10-31 2014-05-19 Fuji Xerox Co Ltd 文字認識装置及びプログラム
CN116071764A (zh) * 2023-03-28 2023-05-05 中国人民解放军海军工程大学 基于原型网络的手写汉字识别方法、装置、设备及介质

Also Published As

Publication number Publication date
JP5344338B2 (ja) 2013-11-20

Similar Documents

Publication Publication Date Title
JP5071914B2 (ja) 認識グラフ
CN111695527B (zh) 一种蒙古文在线手写体识别方法
Bharath et al. HMM-based lexicon-driven and lexicon-free word recognition for online handwritten Indic scripts
Awal et al. A global learning approach for an online handwritten mathematical expression recognition system
Awal et al. First experiments on a new online handwritten flowchart database
JP2019087237A (ja) 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
Davila et al. Using off-line features and synthetic data for on-line handwritten math symbol recognition
Kim et al. Hierarchical random graph representation of handwritten characters and its application to Hangul recognition
Purohit et al. A literature survey on handwritten character recognition
US7903877B2 (en) Radical-based HMM modeling for handwritten East Asian characters
KR102293538B1 (ko) 음악 심볼들을 인식하기 위한 방법 및 장치
Stern et al. Most discriminating segment–Longest common subsequence (MDSLCS) algorithm for dynamic hand gesture classification
JP6170860B2 (ja) 文字認識装置及び識別関数生成方法
Zarro et al. Recognition-based online Kurdish character recognition using hidden Markov model and harmony search
Potrus et al. An evolutionary harmony search algorithm with dominant point detection for recognition-based segmentation of online Arabic text recognition
Mandal et al. GMM posterior features for improving online handwriting recognition
JP5344338B2 (ja) プログラム、情報記憶媒体及び文字列認識装置
Yesilbek et al. Sketch recognition with few examples
Goswami et al. Classification of printed Gujarati characters using SOM based k-Nearest Neighbor Classifier
TWI303783B (en) Method and device for recognition of a handwritten pattern, and computer program product
Porwal et al. Ensemble of biased learners for offline arabic handwriting recognition
Premaratne et al. Lexicon and hidden Markov model-based optimisation of the recognised Sinhala script
Shetty et al. Handwritten word recognition using conditional random fields
Nasien et al. New feature vector from freeman chain code for handwritten roman character recognition
JP2009271874A (ja) トピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130802

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5344338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250