JP3897999B2

JP3897999B2 - 手書き文字認識方法

Info

Publication number: JP3897999B2
Application number: JP2001183717A
Authority: JP
Inventors: 晴信大山; 正樹中川
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2001-06-18
Filing date: 2001-06-18
Publication date: 2007-03-28
Anticipated expiration: 2017-08-22
Also published as: JP2002063547A

Description

【０００１】
【発明の属する技術分野】
本発明は、タブレットや電子黒板などの手書き文字入力装置から入力された手書き文字を認識する手書き文字列認識方法に関するものである。
【０００２】
【従来の技術】
従来、この種の手書き文字認識方法あるいは認識装置として、次のようなものが提案されている。
（１）特開昭６１−２９９８２号（名称：オンライン手書き文字列認識方式）
（２）特開平５−１７４１８５号（名称：日本語文字認識装置）
（３）特開平６−１６２２６９号（名称：手書き文字認識装置）
（４）特開平８−５０６３２号（名称：手書き文字切り出し方法および装置）
【０００３】
特開昭６１−２９９８２号公報に開示されたオンライン手書き文字列認識方法は、データタブレット上に自由形式で筆記された文字列を認識する際の制約を解消すると共に、文字のセグメンテーションを正しく行うことを目的とし、データタブレットから入力されたストローク列を複数の基本セグメント列に分割し、次に、その基本セグメントを組み合わせて候補文字を生成し、次に、生成された候補文字を標準文字との照合によって逐次認識し、認識結果の文字名称と相違度を蓄積する処理を、全ての候補文字に対して反復実行し、入力ストローク列に対し相違度の総和を最小とする文字名称の系列を最小経路探索アルゴリズムを用いて割り当てるようにしたものである。
【０００４】
特開平５−１７４１８５号公報に開示された日本語文字認識装置は、スキャナなどからオンラインもしくはオフラインで入力された日本語文字列の誤切り出しおよび誤認識を最小限にすることを目的とし、分離文字あるいは半角文字が並んでいる可能性のある文字列の範囲を検出し、その範囲で全ての切り出し候補を求め、認識を行い、切り出し優先順位と認識類似度との相互判断で最も確からしい認識文字コードを出力するために、文字部分の連結部分の外接図形を抽出し、隣接する外接図形が、横書き文書ならば上下方向に、縦書き文書ならば左右方向に重なっている場合に統合を行って基本矩形を作成し、その基本矩形が単独で１文字として決定できるか否かを判定し、決定できない場合、その基本矩形の範囲を検出し、この範囲に対し、切り出し候補として隣接する基本矩形の統合の組合せを求め、夫々に優先順位を付け、全切り出し候補を認識し、切り出し優先順位および認識類似度より最も確からしい認識文字コードを出力するようにしたものである。
【０００５】
特開平６−１６２２６９号公報に開示された手書き文字認識装置は、任意の位置に任意の速度で円滑に手書き文字を入力可能にすることを目的とし、入力された手書き文字のストローク間の距離および方向、始点の位置を検出し、座標データを文字単位で識別し、文字単位の座標データによって該ストロークが表現する文字を認識するようにしたものである。
【０００６】
特開平８−５０６３２号公報に開示された手書き文字切り出し方法および装置は、入力枠を設けずに文字の切り出しを可能にすることを目的とし、入力された手書き文字列の高さＨを求め、この文字列高さＨに基づいて幅Ｌを決定し、基点Ｏから水平方向に幅Ｌの範囲を予備探索範囲とし、その予備探索範囲内においてストロークの数Ｓと最大高さｈと形状特徴量ｘ（空白長の最大のもの）を求め、変数Ｓ，ｈ，ｘに応じて探索範囲を決定し、その探索範囲内でヒストグラムが最小値をとる区間を探索し、その区間のうち最長のものが後続の文字との間の切れ目であるとして１文字の切り出しを行うようにしたものである。
【０００７】
【発明が解決しようとする課題】
しかしながら、前述の各公報に記載された手書き文字認識方法にあっては、いずれも、筆記方向が横書きまたは縦書きとして予め指定されるか、固定されていることを前提とし、さらに改行位置も指定されることを前提としているため、筆記方向や改行位置が指定されない手書き文字文書、例えば、電子黒板に筆記された複数行の手書き文書をオンラインで取り込み、これを一括して認識することができないという問題がある。
【０００８】
また、特開昭６１−２９９８２号公報に開示されたオンライン手書き文字列認識方式にあっては、入力されたストローク列を基本セグメント列に区分する手法として、横書きの手書き入力文字パターンに対して、各ストロークの横軸への投影の重なり具合と手書き入力文字パターンの外接図形の高さの比と閾値とを比較してストロークを分割し、分割された各ストロークの組を基本セグメントとしているため、手書き文字が斜め方向に傾いて筆記された場合、外接図形の高さが文字高さより異常に大きくなってしまい、その結果として、隣の文字を構成するセグメント列を含んだ形で１つの組の基本セグメント列として区分してしまう。
この結果、斜め方向に傾いて筆記された手書き入力文字を正しく認識することができなくなるという問題がある。
【０００９】
また、特開平５−１７４１８５号公報に開示された日本語文字認識装置にあっては、横書きの場合は縦方向に、縦書きの場合は横方向に重なり合うストローク同士を結合し、１つの文字を構成し得る基本セグメントとしているため、すなわち、重なりが有るか無いかという決定論的な手法によって基本セグメントに分割しているため、文字間隔が狭くて隣接する文字との外接図形が重なっている場合には、複数の文字のストロークを１つの文字の基本セグメントに統合してしまう危険性があり、文字間隔の狭い手書き入力文字を正しく認識できなくなる恐れがある。
【００１０】
また、特開平６−１６２２６９号公報に開示された手書き文字認識装置にあっては、複数の手書き文字を１文字づつ切り出す際に、第１ストロークの始点に注目し、直前の文字の最後のストロークの始点位置が予め定めた閾値よりも下部に有り、かつ当該文字の第１ストロークの始点位置が前記閾値より上部に有ることを検出したならば、この部分を１文字の境界候補とした後、直前の文字の第１ストロークと注目文字の第１ストロークの始点間距離および方向を調べ、その始点間距離が閾値より大きく、かつ文字入力方向と同一であれば、１文字の切り出し候補に決定し、その切り出し候補の外接ボックスを作成し、直前に作成した外接ボックスとの重なり関係を調べ、重なる場合は２つの外接ボックスを同一文字のストローク群として統合し、重ならない場合は１つ前の切り出し候補のストローク群を１文字分として切り出すようにしているため、第１ストロークの始点位置が直前の文字の最後のストロークの始点位置よりも常に下部になる縦書き形式の手書き文字認識には適用できないという問題がある。
また、横書き形式であっても、同様の理由により、１行全体の文字が右下がり方向に傾いた斜め書き形式の手書き文字の場合に、注目文字の第１ストロークの始点位置が直前の文字の最後のストロークの始点位置より下部になっていれば、当該第１ストロークは直前の文字を構成するストロークとして区分されてしまい、切り出しが正しく行われなくなるという問題がある。
【００１１】
また、特開平８−５０６３２号公報に開示された手書き文字切り出し方法にあっては、入力された手書き文字列の高さＨを求め、この文字列高さＨに基づいて幅Ｌを決定し、基点Ｏから水平方向に幅Ｌの範囲を予備探索範囲とし、その予備探索範囲内においてストロークの数Ｓと最大高さｈと形状特徴量ｘ（空白長の最大のもの）を求め、変数Ｓ，ｈ，ｘに応じて探索範囲を決定し、その探索範囲内でヒストグラムが最小値をとる区間を探索し、その区間のうち最長のものが後続の文字との間の切れ目であるとして１文字の切り出しを行うようにしているため、例えば、３桁の数字「１１１」を縦長に筆記した場合、これらの数字が１つの文字を構成するストローク列として切り出され、漢字の「川」という文字に誤認識されてしまう恐れがある。
また、複数行の手書き文字については改行位置で行の区分を行うようにしているが、改行位置をどのようにして検出するかについては考慮されていない。このため、複数行に渡って筆記された手書き文字をそれぞれの行別に一括して認識することができないという問題がある。
【００１２】
本発明は、前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、電子黒板等に改行位置が指定されずに筆記された手書き文字をオンラインで取り込み、その手書き文字の改行位置を正確に判定し、その判定結果に従って複数行に渡る手書き文字を一括して認識することが可能な手書き文字認識方法を提供することにある。
【００１３】
また、本発明の他の目的は、電子黒板等に筆記方向が指定されずに筆記された手書き文字をオンラインで取り込み、その手書き文字の筆記方向を正確に判定し、その判定結果に従って手書き文字を一括して認識することが可能な手書き文字認識方法を提供することにある。
【００１４】
また、本発明の他の目的は、斜め書きや文字間隔が狭い手書き文字であっても、各文字の切り出しを正確に行い、その切り出し結果に従って任意行の手書き文字を一括して認識することが可能な手書き文字認識方法を提供することにある。
【００１５】
また、本発明の他の目的は、縦書き横書きの種別、行数、筆記枠の有無に関係なく、電子黒板等に筆記された手書き文字をオンラインで取り込み、その手書き文字を一括して認識することが可能な手書き文字認識方法を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【００１６】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
即ち、本発明は、手書き文字入力装置からストローク順に入力された複数ストローク群から成る複数の手書き文字列を認識する手書き文字認識方法であって、前記複数ストローク群を対象として、縦書きの場合はヒストグラムを用いて筆点分布度数が小さい部分をまたぐ左上方向の裏ストロークを、横書きの場合は左下方向の裏ストロークを改行位置候補に選定し、さらに、前記ストローク群の中のストローク入力時刻において隣り合うストロークの終点から始点へのベクトルおよびそのベクトルの長さの平均を求め、前記選定された改行位置候補内のベクトルの長さと前記ベクトルの長さの平均を比較し、改行判定用の閾値を超えるベクトルの位置を改行位置として判定し、この改行位置の判定結果に従って前記複数ストローク群から成る手書き文字列を認識することを特徴とする。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
なお、実施の形態を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
図１は、本発明を適用した手書き文字認識装置の実施の形態を示すブロック構成図であり、タブレットあるいは電子黒板等で構成され、ペン１で入力面に筆記された手書き文字の筆点座標をストローク順に出力する手書き文字入力装置２と、手書き文字の認識結果を表示する表示装置３と、手書き文字入力装置２から入力された手書き文字の複数ストローク群を文字要素候補別に結合／分割し、辞書との照合によって認識する中央処理装置（ＣＰＵ）４と、認識処理に必要な各種のパラメータやコマンドを入力するキーボード５、手書き文字認識プログラム６１や辞書６２等を記憶した記憶装置６とで構成されている。
【００１８】
ここで、手書き文字入力装置２は、電子黒板やタブレットに限定されるものではなく、手書き文字の筆点座標をストローク順に出力する構成のものであれば全て使用することができる。また、透明タブレットの下面に表示画面を実装した構造の入力装置を使用することもできる。
【００１９】
本実施形態の手書き文字認識装置にあっては、図２に示すように、手書き文字入力装置２の入力面２１上には手書き文字の入力枠は設けられておらず、入力面２１上でペン１によって、例えば、図２に示すような任意の手書き文字「枠無し手書き文字の認識について」を任意の位置に複数行に渡って入力した後、「認識」のコマンドボタン２２を選択操作すると、入力面２１上に筆記された手書き文字が一括して認識され、その認識結果が表示装置３の表示画面に文字表示される。
この場合、認識結果に誤りがあったならば、「再認識」のコマンドボタン２３を選択操作することにより、筆記方向を認識する処理から始まる一連の処理が再度実行され、再認識結果が表示される。また、誤った手書き文字を筆記した場合、「取消し」のコマンドボタン２４を選択操作することにより、１文字単位で取り消すことができる。
【００２０】
ここで、本明細書中で使用する用語の定義について説明する。
（１）ストローク
ストロークとは、ペン１が入力装置２の入力面２１に接触してから離れるまでに書かれる１本の手書き線を意味し、日本語でいうところの「一画」に対応する。１つの手書き文字は、句読点などを除き複数のストロークで構成される。
（２）筆点
筆点とは、それぞれのストロークを構成する最小単位の点を意味し、入力面２１におけるペン１の押圧座標値、あるいはその押圧座標値から導き出される論理的な座標値で表現され、ストロークの始点や終点といった属性を備える。
【００２１】
（３）文字要素
文字要素とは、１文字に含まれることが明らかなストロークの集合のことを指し、任意のストロークの集合に対して交点を持つストローク同士の結合、距離の近いストローク同士の結合等の処理を経ることによって得られる。
ストローク、文字要素の区別を図３に例示する。
（４）手書きパターン
手書きパターンとは、図３に例示するように、入力装置２の入力面に筆記された認識対象の手書き文字を構成するストローク群の全体を指し、何処までを認識対象とするかは、ユーザが区切りであることをボタンやメニュー等で明示的に指示する方法、あるいはペン１が入力面２１から離れて一定時間以上接触操作が行われなかった時点を区切りとして指示する方法がある。
【００２２】
（５）裏ストローク
裏ストロークとは、あるストロークの終点から次のストロークの始点へのベクトルを意味し、本発明では、文字内裏ストローク、文字間裏ストローク、改行裏ストロークに細分される。
（６）文字内裏ストローク
文字内裏ストロークとは、１文字内に含まれる連続した２ストローク間で発生する裏ストロークを意味する。
（７）文字間裏ストローク
文字間裏ストロークとは、ある文字の最後のストロークの終点と次の文字の始点との間で発生する裏ストロークを意味する。
（８）改行裏ストローク
改行裏ストロークとは、ある行の最後の文字の最後のストロークの終点と次の行の先頭の文字の最初のストロークの始点との間で発生する裏ストロークを意味する。
【００２３】
図４は、本実施形態の手書き文字入力装置の機能構成図であり、入力装置２の入力面２１で手書き文字が筆記されると、その手書き文字の各ストロークを構成する複数の筆点の座標データ列が入力装置２からストローク順に出力される。この各ストロークの筆点座標データ列は、記憶装置６に順次格納される。
任意の手書き文字の入力が終了し、ユーザが「認識」のコマンドボタン２２を選択操作すると、手書き文字認識プログラム６１が起動され、記憶装置６に格納された手書き文字の筆点座標データ列を読出し、筆記方向の判別処理、改行位置の判別処理、文字サイズの判別処理、ストローク群の分割／結合処理、文字要素の分割／結合処理、辞書６２を用いた認識処理を行う。
手書き文字認識プログラム６１は、筆記方向取得部６１１、改行位置取得部６１２、標準文字サイズ取得部６１３、枠無し手書き文字列認識部６１４とから構成される。
このうち、枠無し手書き文字列認識部６１４は、図５に示すように、仮結合処理部６１５、仮分割処理部６１６、評価・探索処理部６１７とから構成される。
【００２４】
以下、この手書き文字認識プログラム６１を構成する各部の構成および処理内容について詳細に説明する。
（１）記憶装置６に格納される筆点座標データ列の構成
入力装置２から出力される手書き文字の各ストローク筆点座標データ列は、図６に示すように、基本的にはストローク番号６３１と各筆点のｘ，ｙ座標値６３２とから構成され、認識処理の過程で各ストロークが何文字目のストロークに属するかなどのストローク間関係属性６３３、改行位置に相当するストロークであることを示す改行位置フラグ６３４などが付加されるようになっている。
【００２５】
（２）筆記方向取得部６１１
筆記方向取得部６１１は、図７および図８で示される手順に従って手書きパターンが縦書きか、横書きかを判定する。
図７は、裏ストローク及び縦書き横書き判別ベクトルの説明図である。
裏ストロークとは、前述したように、あるストロークの終点から次のストロークの始点へのベクトルである。
直感的には、手書きパターンの入力中のタブレットから離れた状態でのペン１の移動が裏ストロークであり、裏ストロークは、さらに文字内裏ストロークと文字間裏ストロークに分類できる。
文字内裏ストロークとは、１文字に含まれるストローク間に生じる裏ストロークであり、文字間裏ストロークとは、ある文字の最後のストロークの終点から次の文字の最初のストロークの始点への裏ストロークである。
図７の手書きパターンでは、ＢＳ１,ＢＳ２,ＢＳ４,ＢＳ６が文字内裏ストローク、ＢＳ３,ＢＳ５が文字間裏ストロークである。
【００２６】
筆記方向取得部６１１は、認識対象の手書きパターンの全てのストローク群を対象として、各裏ストロークに含まれる右方向の成分Ｒ３，Ｒ４，Ｒ５と下方向の成分Ｄ６のみを加算し、縦書き横書き判別ベクトルを求める。
図７では、Ｖtotalが縦書き横書き判別ベクトルである。
日本語の場合、横書きの文字列では文字間裏ストロークは、右方向の成分を多く含み、縦書きの文字列では文字間裏ストロークは下方向の成分を多く含む。
この性質を利用し、筆記方向取得部６１１は、図８のような手順で縦書き横書きの判定を行なっている。
【００２７】
まず、図７で示した縦書き横書き判別ベクトルを求める（ステップ８０１）。
次に、縦書き横書き判別ベクトルの右方向の成分を下方向の成分で割った値Ａ（下方向成分に対する右方向成分の比）と、横書き判定用の閾値Ｔｈ及び縦書き判定用の閾値Ｔｖとを比較し、前記の値ＡがＴｈ以上であれば横書き、Ｔｖ以下であれば縦書きとして判定する（ステップ８０２）。
前述の処理で判定できなかった場合は、筆記された文字数が少ないと判断し、筆記された手書きパターン全体の外接矩形の縦横比（高さに対する幅の比）が「１」以上か否かを調べ、「１」以上ならば横書き、「１」未満ならば縦書きとして判定する（ステップ８０３）。
従って、図７に示したように、判別ベクトルの下方向成分に対する右方向成分の比が横書き判定用の閾値Ｔｈを超えるものについては、正確に「横書き」として判定される。
このようにして横書きか、縦書きかを判定することにより、ユーザは予め筆記方向を指定する必要がなくなり、手書き文字を筆記する際の煩わしさから解放される。
【００２８】
（３）改行位置取得部６１２
改行位置取得部６１２は、入力装置２から入力された手書き文字の複数ストローク群を対象とし、その筆記方向へのヒストグラムを求め、そのヒストグラムにより筆記点が少ない部分を改行位置候補に選定し、さらに前記ストローク群の中のストローク入力時刻において隣合うストロークの終点から始点へのベクトルおよびそのベクトルの長さの平均を求め、前記改行位置候補内のベクトルの長さと前記ベクトルの長さの平均を比較し、改行判定用の閾値を超えるベクトルの位置を改行位置として判定する。
即ち、改行位置取得部６１２は、図１１のフローチャートに示すように、筆記方向取得部６１１が判定した筆記方向の判定結果に基づき、ストローク群の筆記方向へのヒストグラムを求める（ステップ１１０１）。
横書きの場合、図９に示すように、ヒストグラム９０１の「谷」に相当する位置が改行位置であると推定される。
そこで、ヒストグラム９０１で筆点分布度数が小さい部分（谷の部分）をまたぐ裏ストロークを改行位置候補に選定する（ステップ１１０２）。
【００２９】
改行裏ストロークとは、文字間裏ストロークの一種であり、図１０に示すように、ある行の末尾の文字の最後のストロークの終点から次の行の先頭の文字の最初のストロークの始点への裏ストロークという意味である。
日本語の場合、横書きの文章中の改行裏ストロークは左下方向、縦書きの文章中の裏ストロークは左上方向である。
そこで、縦書きの場合は、ヒストグラム９０１で筆点分布度数が小さい部分（谷の部分）をまたぐ左上方向の裏ストロークを、横書きの場合は左下方向の裏ストロークを改行裏ストローク候補として選択する。
次に、横書きの場合、前述処理で選択した裏ストロークの左方向水平成分Ｗｃｒが、改行判定用の閾値を超えるものを改行裏ストロークと判定し、縦書きの場合は、上記処理で選択した裏ストロークの上方向鉛直成分Ｈｃｒが改行判定用の閾値を超えるものを改行裏ストロークと判定する（ステップ１１０３）。
【００３０】
この場合、改行裏ストロークの水平成分Ｗｃｒおよび鉛直成分Ｈｃｒの大きさは、１行の文字数によって異なる。
そこで、手書き文字の１文字の標準サイズが、図１０に示すように既知であるか、推定できる場合、その標準文字サイズの幅Ｗｓで水平成分Ｗｃｒを割った値が閾値を超えるものを横書きの場合の改行裏ストロークとして選定し、また標準文字サイズの高さＨｓで鉛直成分Ｈｃｒを割った値が閾値を超えるものを縦書きの場合の改行裏ストロークとして選定することにより、判定精度がさらに向上する。
【００３１】
ところで、手書き文字が斜め方向に傾いて筆記された場合、水平成分Ｗｃｒおよび鉛直成分Ｈｃｒが算定できなくなる恐れがあるが、斜め書きの場合は、手書き文字パターンを正規直交座標系に変換する補正処理を施すことによって水平成分Ｗｃｒおよび鉛直成分Ｈｃｒを正常に算定することが可能である。
この場合、斜め書きであるか否かは、例えば、各手書き文字の外接矩形の中心を結ぶ線を求め、その線の傾斜によって判定することができる。
このようにして改行位置を判定することにより、ユーザは筆記途中で改行位置を指定する必要がなくなり、手書き文字を筆記する際の煩わしさから解放される。
【００３２】
（４）標準文字サイズ取得部６１３
標準文字サイズ取得部６１３は、入力装置２から入力された手書き文字の複数ストローク群を構成する各ストローク間の距離を、予め定めた関係式に従って評価し、その評価した距離が仮結合用の閾値よりも小さいストローク同士を結合する仮結合処理を、結合可能なストロークがなくなるまで繰り返すことにより、複数ストローク群を複数の文字要素に分割した後、各文字要素の外接矩形を求め、その外接矩形の高さの最大値または平均値と幅の最大値または平均値を手書き文字の標準文字サイズとして推定する。
仮結合処理におけるストローク間の距離は、図１２および図１３に示すような各パラメータに係数を乗じて加算した値で評価する。
【００３３】
ここで、Ｌは、図１２（ａ）に示すように１つのストロークの標準サイズ（１辺の長さ）、Ｓは１つのストロークの標準の面積である。
１つのストロークの標準サイズＬおよび標準面積Ｓは、図１２（ｂ）に破線で示すような各ストロークの外接矩形を求め、その外接矩形の高さおよび幅のうち、長い方の値のみを選択し、さらに全てのストロークの高さおよび幅のうち最大のものを選択し、これから１つのストロークの標準サイズＬおよび標準面積Ｓ推定する。
なお、後述する文字要素間の結合処理においては、Ｌは１つの文字要素の標準サイズ、Ｓは１つの文字要素の標準面積となる。
【００３４】
（ａ）評価パラメータ＝ｄ／Ｌ
図１２（ｂ）に示すように、隣合うストロークの外接図形（破線で図示）の筆記方向の変位ｄの１文字の標準サイズＬに対する割合い、
（ｂ）評価パラメータ＝ｃ／Ｓ
図１２（ｃ）に示すように、隣合うストロークの外接図形（破線で図示）の重なり部分の面積ｃの１文字の標準面積Ｓに対する割合い、
（ｃ）評価パラメータ＝ｄ／Ｌ
図１２（ｄ）に示すように、隣合うストロークの重心座標のユークリッド距離ｄの１文字の標準サイズＬに対する割合い、
（ｄ）評価パラメータ＝ｄ／Ｌ
図１３（ａ）に示すように、隣合うストロークの重心座標の筆記方向の変位ｄの１文字の標準サイズＬに対する割合い、
（ｅ）評価パラメータ＝ｄ／Ｌ
図１３（ｂ）に示すように、先のストロークの末尾の筆点と後のストロークの先頭の筆点のユークリッド距離ｄの１文字の標準サイズＬに対する割合い、
（ｆ）評価パラメータ＝ｄ／Ｌ
図１３（ｃ）に示すように、先のストロークの末尾の筆点と後のストロークの先頭の筆点の筆記方向の変位ｄの１文字の標準サイズＬに対する割合い。
【００３５】
これらの評価パラメータの中から少なくとも２つを予め選定しておき、その選定した複数の評価パラメータによる評価値が求まったならば、その各評価値に所定の係数を乗じて加算し、その加算値と仮結合用の閾値と比較する。
この比較処理の結果、加算値が小さいものについては、１文字の中に含まれると判定し、その１対のストロークを同一集合に結合し、１つの文字要素候補に選定する。
この仮結合処理は、閾値以下のストロークがいずれかの文字要素に全て結合されるまで再帰的に繰り返す。
【００３６】
例えば、図１４（ａ）に示すように「ソフト」というカナ文字が入力された場合、このカナ文字を構成するストロークＳＴ_１〜ＳＴ_５について、互いに隣接するストローク同士で図１２（ｂ）〜図１３（ｃ）に示す評価パラメータを求め、その評価パラメータを全部使って総合評価を行い、どのストロークを結合して１つの文字要素とするかを決定する。
図１４（ｂ）に各評価パラメータの値の例を示している。
ここで、図１４（ｂ）における評価パラメータ（ａ）〜（ｃ）は、図１２（ａ）〜（ｃ）の評価パラメータ、評価パラメータ（ｄ）〜（ｆ）は図１３（ａ）〜（ｃ）の評価パラメータに該当する。
算出した各評価パラメータは、小さいほど結合の度合いが強いことを示している。
【００３７】
図１４（ｂ）の評価パラメータに対し、「仮結合の閾値＝−４．０」、「仮分割の閾値＝−５．０」を設定した場合、総合評価はストロークＳＴ_１，ＳＴ_２間が「−３．２」、ストロークＳＴ_２，ＳＴ_３間が「−５．４５」、ストロークＳＴ_３，ＳＴ_４間が「−７．４」、ストロークＳＴ_４，ＳＴ_５間が「−１．４１」であるので、ストロークＳＴ_１，ＳＴ_２間は「結合」、ストロークＳＴ_２，ＳＴ_３間は「分割」、ストロークＳＴ_３，ＳＴ_４間は「分割」、ストロークＳＴ_４，ＳＴ_５間は「結合」となる。
【００３８】
ここで、Ｘ軸方向（横書き方向）の単なる重なり度合いによって「結合」か「分割」かを、従来の決定論的な方法によって判断するようにした場合、例えば、ストロークＳＴ_２，ＳＴ_３間の距離ｄ２よりも小さい距離を、仮結合用の閾値に設定した場合、ストロークＳＴ_４，ＳＴ_５間の距離ｄ３は、ｄ２＞ｄ３であるのでストロークＳＴ_４，ＳＴ_５は「結合」となる。
しかし、ストロークＳＴ_１，ＳＴ_２間の距離ｄ１は、ｄ１＞ｄ２であるので、これらストロークＳＴ_１，ＳＴ_２間は「分割」となり、ストロークＳＴ_２，ＳＴ_３間は「結合」となり、ストローク同士の結合および分割が正しく行われなくなる。
【００３９】
一方、本発明のように、複数の評価パラメータの総合評価によってストローク同士の結合および分割を決定することにより、ストローク同士の結合および分割を精度良く行うことができる。
標準文字サイズ取得部６１３は、以上のようにしてストロークの結合および分割を行い、文字要素となる候補を定めるこの結果、入力装置２から入力された手書き文字の複数ストローク群は、図１５に破線で囲んで示すように、複数の文字要素に分割される。
【００４０】
そこで、次に、図１５に破線で示すような各文字要素の外接矩形を求め、その外接矩形の大きさから１文字の大きさを推定する。
文字の大きさは、高さと幅をそれぞれ別個に計算し、計算には、各外接矩形の高さおよび幅のうち、長い方の値のみを利用する。
図１４のような手書きパターンが与えられた時は、高さの計算には、Ｈ_１，Ｈ_３，Ｈ_４，Ｈ_５，Ｈ_６を、幅の計算にはＷ_２，Ｗ_７を利用する。
計算に用いるデータを選択した後、それぞれのデータの平均値と標準偏差を求め、平均値との差を標準偏差で割った値が閾値以上のものはノイズを含んでいるものと見做してデータから削除する。
最後に残ったデータの最大値もしくは平均値を標準文字の高さ、あるいは幅の推定値とする。
【００４１】
この場合、最終的にデータ不足で、高さＨあるいは幅Ｗの片方が算出できなかった場合、算出できた方の値を算出できなかった方の値にも利用する。
例えば、高さＨだけが算出でき、幅Ｗが求められなかった場合は、幅Ｗ＝高さＨとする。図１４の例では、文字の高さ＝Ｈ_６、幅＝Ｗ_７として算出している。
このようにすることにより、筆記方向や行数の指定が無い場合でも、文字の大きさの推定が可能になる。
そして、筆記方向や行数の情報が筆記方向判別処理および改行位置判別処理で判明すれば、仮結合処理の精度がさらに向上し、結果として、手書き文字の標準サイズの推定精度が向上するという利点がある。
【００４２】
特に、斜め書きや文字間隔が狭い手書き文字であっても、各文字要素の切り出しを行うための標準文字サイズを正確に推定することができる。
例えば、図１６（ａ）に示すように斜め書きの手書き文字が入力された場合、仮結合処理によって図１６（ｂ）に示すように結合または分割された文字要素単位に、その文字要素の外接矩形を求め、その外接矩形の大きさから１文字の大きさを推定するため、標準文字サイズを斜め書きの場合であっても正確に推定することができる。
【００４３】
（５）枠無し手書き文字列認識部６１４
枠無し手書き文字列認識部６１４は、図５に詳細を示したように仮結合処理部６１５、仮分割処理部６１６、評価・探索処理部６１７とで構成される。
仮結合処理部６１５における処理は、標準文字サイズ取得部６１３における仮結合処理と全く同様である。
但し、標準文字サイズ取得部６１３における仮結合処理は個々のストロークを結合し、「１つの文字に含まれることが明らかな状態の文字要素」を作成することであるのに対し、仮結合処理部６１５における仮結合処理は標準文字サイズの推定値を参照し、各文字要素をさらに結合することである。
この場合、文字要素を結合する際に用いる評価パラメータおよび手順は、標準文字サイズ取得部６１３における仮結合処理と全く同様のものを用いることができる。
但し、標準サイズＬは、１つの文字要素の外接矩形の長さの大きい方の値、標準面積Ｓは標準サイズＬの正方形の面積を使用する点が異なる。
なお、文字要素の結合に専用に設定した評価パラメータを用いてもよい。
【００４４】
この文字要素の再帰的な仮結合処理によって、例えば、図１７に示すように「問」という漢字については、「門構え」内の「口」という文字要素は最後に筆記された文字要素であるにも拘らず、「門構え」内に結合され、「問」という１つの漢字の文字要素集合となる。
文字要素がさらに結合され、新たな文字要素集合が作成されたならば、仮分割処理部６１６において仮分割処理を行う。
仮分割処理とは、文字要素間の距離を評価し、仮分割用の閾値よりも大きい距離の文字要素間に、そこが文字の区切りであることを示す属性フラグを設定するという処理である。
この場合、文字要素間の距離の評価方法は前述した仮結合処理と同様である。
【００４５】
この処理によって、文字区切りの属性フラグが設定された２つの文字要素のうち先に筆記された文字要素の末尾のストロークと、後に筆記された文字要素の先頭のストロークの間は「文字の区切りであることが明らかな状態」になる。
図６においては、この属性フラグを文字の順番号で例示している。属性フラグの表現方法としては、他の方法を用いても何等構わない。
この枠無し文字列認識部６１４における仮結合処理および仮分割処理は、後続の評価・探索処理部６１７における探索空間を小さくするための処理であるので、処理時間が問題にならない場合（高速の処理時間を必要としない場合）は省略することができる。
【００４６】
次に、評価・探索処理部６１７において、各文字要素集合によって辞書６２を探索し、辞書６２に登録された手書き文字パターンに対する評価値が最大になる文字を判定し、その文字のコードを認識結果として表示装置３に出力し、表示装置３において文字コードに対応した文字を表示させる。
前記の仮分割処理部６１６の処理が終了した段階では、入力装置２から入力された手書きパターンに含まれる全ての隣接したストローク間の状態は、「１文字に含まれることが明らかな状態」、「文字の区切りであることが明らかな状態」、「曖昧な状態」のいずれかである。
この段階で存在する「曖昧な状態」についてそれぞれ、１文字に含まれていると見做すか、文字の区切りであると見做すかによって、１つの「切り出しパターン」が定義できる。
探索空間にある「切り出しパターン」の数は「あいまいな状態」の数をｎとすると、２のｎ乗である。
【００４７】
この評価・探索処理は、探索空間に含まれる「全切り出しパターン」の中から以下で説明する評価値を最大にする「切り出しパターン」を探索するという処理である。
この場合の探索手法には、動的計画法、全探索、ビーム探索等の既存の探索手法が利用可能である。
本実施形態では、探索空間を図１８に示すように２分木で表現し、その２分木に対するビーム探索を行うようにしている。
切り出しパターンの評価値は、次に示す評価パラメータに係数を乗じて加算した値を用いている。
【００４８】
（ａ）切り出された各手書きパターンと辞書に登録されている手書きパターンとの距離から得られる評価パラメータ、
（ｂ）各認識結果文字間の遷移確率から得られる評価パラメータ、
（ｃ）切り出された各手書きパターンのサイズの標準の文字サイズに対する割合から得られる評価パラメータ、
（ｄ）１文字に含まれると判断した隣接のストローク間の、文字要素間の距離の評価値と、仮結合の閾値から得られる評価パラメータ、
（ｅ）文字の区切りであると判断した隣接ストローク間の、文字要素間の距離の評価値と、仮分割処理の閾値から得られる評価パラメータ。
【００４９】
図１８において、１点鎖線は区切りになるかどうかが曖昧な部分を示し、破線矢印は分割処理、実線矢印は結合処理によって各文字要素が分割または結合されることを示している。
例えば、手書き文字「晴れ」を▲１▼の曖昧部分で結合した後、▲２▼の曖昧部分で分割した場合は「晴れ」という文字に認識される。しかし、▲２▼の曖昧部分も結合した場合は認識不可能であることを示している。
評価・探索処理部６１７は、各文字要素間の結合関係が曖昧な部分を左から順に、文字の区切りと判断する場合は左側に、１文字に含まれると判断する場合は右側に進むものとすると、図１８の２分木の各ノードの日本語の文字列としての確からしさを以下に述べる手法で評価しながら、２分木の葉の中から最も確からしい葉を探索し、その葉に相当する文字列を認識結果とする。これは、上記（ｃ）の評価方法に該当する。
ある手書きパターンＸが文字列Ｃである確率は、ベイズの定理により次の「数１」によって表すことができる。
【００５０】
【数１】

【００５１】
ここで、Ｐ（Ｘ）は事象Ｘの起こる確率、Ｐ（Ｘ│Ｙ）は事象Ｙのもとで事象Ｘの起きる条件つき確率である。すなわち、

である。
ここで、Ｐ（Ｃ）は近似的に、「数２」によって表すことができる。
【００５２】
【数２】

【００５３】
但し、Ｐ（Ｃ_ｉ＋１│Ｃ_ｉ）は、ｉ番目の文字と（ｉ＋１）番目の文字が連続して書かれる確率のことで、予め統計を取って用意して有る表から求める。Ｎは文字数である。
Ｐ（Ｘ│Ｃ）は近似的に、「数３」によって表すことができる。
【００５４】
【数３】

但し、Ｐ（Ｘ_ｉ│Ｃ_ｉ）は文字列Ｃ中のｉ番目の文字Ｃｉが、手書きパターンＸを１文字毎に分割した中のｉ番目の手書きパターンＸｉのように書かれる確率であり、文字Ｃｉに対応する辞書パターンと手書きパターンＸｉをオンライン枠有り文字認識装置で比較することにより求めている。
【００５５】
Ｐ（区切りｏｒ結合│ｄｋ）はｋ番目の文字要素と（ｋ＋１）番目の文字要素間の距離がｄｋの場合にその２つの文字要素間が、文字の区切りに成っている確率、あるいは１文字に含まれている確率である。どちらの確率を求めるかは、手書きパターンＸの分割の仕方に依存する。
評価中の手書きパターンの分割法で、ｋ番目の文字要素と（ｋ＋１）番目の文字要素が、１文字に含まれていなければ文字になる確率を、１文字に含まれていれば１文字に含まれる確率を求める。
Ｐ（ＳＩＺＥ_ｉ│標準サイズ）は、１文字の標準の大きさが標準サイズである時の、ｉ番目の文字の大きさＳＩＺＥｉの確からしさである。
【００５６】
次に、コンピュータで計算することを考慮した場合、「数３」では乗算が多く、（２ｉ＋ｋ）回の乗算が必要になる。
そこで、「数３」を「数４」に示すような対数項を持つ計算式に置き換え、この「数４」の計算結果を統計的評価値として採用する。
【００５７】
【数４】

【００５８】
このように日本語としての確からしさを評価し、その評価値が最大となる文字を認識結果として出力することにより、文字間隔が不揃いな手書き文字、斜めに傾いて筆記された手書き文字が存在したとしても、複数行にわたる文字列の文脈に適合する認識結果が得られ、文字単位の認識では得られない高精度の認識結果を一括して得ることができる。
例えば、図１６（ａ）の手書き文字は同図（ｃ）に示すような文字要素の結合によって正しく認識される。
【００５９】
なお、本発明は、上記実施形態に限定されるものではなく、筆記方向取得部６１１、改行位置取得部６１２、標準文字サイズ取得部６１２、枠無し手書き文字認識部６１４における処理を新規の要素技術として、既存の文字認識処理の中に組み込んで構成することができる。
また、手書き文字認識プログラムは、ＣＤ・ＲＯＭ等の記録媒体に格納されてユーザに提供される。または、インタネット等の通信媒体を通じて有償で提供される。
【００６０】
以上説明したように、本実施の形態によれば、電子黒板等に筆記方向が指定されずに筆記された手書き文字の筆記方向を正確に判定し、その判定結果に従って手書き文字を認識することができる。
また、電子黒板等に改行位置が指定されずに筆記された手書き文字の改行位置を正確に判定し、その判定結果に従って複数行に渡る手書き文字を認識することができる。
さらに、斜め書きや文字間隔が狭い手書き文字であっても、各文字要素の切り出しを正確に行い、その切り出し結果に従って任意行の手書き文字を認識することができる。
また、縦書き横書きの種別、行数、筆記枠の有無に関係なく、電子黒板等に筆記された手書き文字を高精度で認識することができる。
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【００６１】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明によれば、電子黒板等に改行位置が指定されずに筆記された手書き文字の改行位置を正確に判定し、その判定結果に従って複数行に渡る手書き文字を認識することが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した手書き文字認識装置の実施形態を示すブロック構成図である。
【図２】手書き文字入力装置の入力面に筆記された手書き文字の一例を示す説明図である。
【図３】手書き文字の中のデータの単位を示す説明図である。
【図４】図１の手書き文字認識装置の機能構成図である。
【図５】枠無し文字列認識部の詳細構成図である。
【図６】記憶装置に格納される手書き文字のデータ構成の一例を示す図である。
【図７】縦書き横書き判別ベクトルの説明図である。
【図８】縦書き横書きの判別処理を示すフローチャートである。
【図９】改行位置の判別に使用するヒストグラムの例を示す説明図である。
【図１０】改行裏ストロークの説明図である。
【図１１】改行位置の判定処理を示すフローチャートである。
【図１２】ストローク間の仮結合処理に用いる評価パラメータの説明図である。
【図１３】ストローク間の仮結合処理に用いる評価パラメータの説明図である。
【図１４】ストロークの仮結合処理の対象となる入力ストロークの例と評価パラメータの算出例を示す説明図である。
【図１５】文字要素の外接矩形から標準文字サイズを推定する処理の説明図である。
【図１６】斜め書きの手書き文字の文字要素への仮結合処理の一例を示す図である。
【図１７】文字要素の再帰的な処理によって結合可能な手書き文字の一例を示す説明図である。
【図１８】手書き文字を辞書内で探索する際に用いる２分木の一例を示す説明図である。
【符号の説明】
１…ペン、２…手書き文字入力装置、３…表示装置、４…ＣＰＵ、６…記憶装置、２１…手書き文字の入力面、６１…手書き文字認識プログラム、６２…辞書、６１１…筆記方向取得部、６１２…改行位置取得部、６１３…標準文字サイズ取得部、６１４…枠無し手書き文字列認識部、６１５…仮結合処理部、６１６…仮分割処理部、６１７…評価・探索処理部。

Claims

手書き文字入力装置からストローク順に入力された複数ストローク群から成る複数の手書き文字列を認識する手書き文字認識方法であって、
前記複数ストローク群を対象として、
縦書きの場合はヒストグラムを用いて筆点分布度数が小さい部分をまたぐ左上方向の裏ストロークを、横書きの場合は左下方向の裏ストロークを改行位置候補に選定し、
さらに、前記ストローク群の中のストローク入力時刻において隣り合うストロークの終点から始点へのベクトルおよびそのベクトルの長さの平均を求め、前記選定された改行位置候補内のベクトルの長さと前記ベクトルの長さの平均を比較し、改行判定用の閾値を超えるベクトルの位置を改行位置として判定し、この改行位置の判定結果に従って前記複数ストローク群から成る手書き文字列を認識することを特徴とする手書き文字認識方法。