JP5867227B2 - Learning data generation device for character recognition, character recognition device, and program - Google Patents
Learning data generation device for character recognition, character recognition device, and program Download PDFInfo
- Publication number
- JP5867227B2 JP5867227B2 JP2012071636A JP2012071636A JP5867227B2 JP 5867227 B2 JP5867227 B2 JP 5867227B2 JP 2012071636 A JP2012071636 A JP 2012071636A JP 2012071636 A JP2012071636 A JP 2012071636A JP 5867227 B2 JP5867227 B2 JP 5867227B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- vector
- stroke
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
本発明は、文字認識用学習データ生成装置、文字認識装置、およびプログラムに関する。 The present invention relates to a character recognition learning data generation device, a character recognition device, and a program.
特許文献1には、オンライン手書き文字入力により入力される文字を、各文字が分離して筆記されたPritingスタイル、文字間を続けて筆記されたCursiveスタイル、PritingスタイルおよびCursiveスタイルが混在するMixedスタイルに分別して認識する手書き文字認識装置が開示されている。特許文献2には、統計上一筆書きされやすいパターンが登録された辞書を用いることで続け字が崩し字に対する認識率および認識処理速度を向上する手書き認識装置が開示されている。特許文献3には、タッチパネル等から入力される手書き文字の認識処理において、「い」「ろ」等の大文字と「っ」等の小文字を区別するための閾値を用いた認識処理を行うことで大きさが異なる文字の認識率を向上する手書き文字認識装置が開示されている。特許文献4には、「h」「g」等の上下に幅が振れるアルファベットの認識処理において、ライン・スペース及びベース・ラインを調整する調整方法が開示されている。
Patent Document 1 describes a Pricing style in which characters entered by online handwritten character input are written separately, a Cursive style in which characters are continuously written, a Pricing style and a Cursive style. A handwritten character recognizing device that recognizes separately is disclosed.
本発明の目的の1つは、互いに大きさが異なる文字を含む書面の文字認識を行う際に、文字の大きさの違いによる影響を軽減する文字認識用学習データ生成装置、文字認識装置、およびプログラムを提供することにある。 One of the objects of the present invention is to provide a character recognition learning data generation device, a character recognition device, and a character recognition device that reduce the influence of a difference in character size when performing character recognition of a document containing characters of different sizes. To provide a program.
上記目的を達成するために、請求項1に記載の発明は、順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる学習対象書面について、前記複数の文字要素それぞれの前記学習対象書面内における位置及び大きさを示す文字要素情報と、前記複数の文字要素のそれぞれが前記複数の文字のいずれに対応するかを示す対応文字情報と、を取得する文字要素情報取得手段、前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、判定対象となる判定対象書面について、当該判定対象書面に含まれる2つの文字要素が同一文字に属するか否かを判定する際に用いる学習データを生成する手段であって、前記対応文字情報により特定される、前記連続する2つの文字要素が同一文字に含まれるか否かを示す情報と、前記ベクトル情報補正手段により補正されたベクトル情報と、を入力データとして用いて前記学習データを生成する学習手段、を有することを特徴とする文字認識用学習データ生成装置である。 In order to achieve the above object, the invention described in claim 1 includes a plurality of character elements having a plurality of character elements, the order of which is defined, and the plurality of learning objects composed of the plurality of character elements. Character element information indicating the position and size of each of the character elements in the learning target document, and corresponding character information indicating which of the plurality of character elements corresponds to each of the plurality of characters. Character element information acquisition means, for the two character elements that are consecutive in the order among the plurality of character elements, vector information indicating a vector from the preceding character element to the subsequent character element in the order in the character element information Vector information generating means for generating the information based on the character element information, the size of at least one of the two consecutive character elements indicated by the character element information The vector information correcting means for correcting the size of the vector and the determination target document to be determined determine whether or not two character elements included in the determination target document belong to the same character. Means for generating learning data to be used at the time, information indicating whether or not the two consecutive character elements specified by the corresponding character information are included in the same character, and correction by the vector information correction unit A learning data generation device for character recognition, comprising learning means for generating the learning data using input vector information as input data.
また、請求項2に記載の発明は、請求項1に記載の文字認識用学習データ生成装置であって、前記ベクトル情報補正手段は、前記連続する2つの文字要素の少なくとも一方に外接する矩形領域の形状の、予め定められる形状に対する比率に応じて、前記ベクトルの大きさを補正することを特徴とする文字認識用学習データ生成装置である。
The invention according to
また、請求項3に記載の発明は、請求項1又は2に記載の文字認識用学習データ生成装置であって、前記文字要素情報取得手段は、前記文字要素のそれぞれの、最初に形成された部分の位置および最後に形成された部分の位置を示す端部位置情報をさらに取得し、前記ベクトル情報生成手段は、前記端部位置情報に基づいて、前記先行する文字要素の最後に形成された部分から、前記後続する文字要素の最初に形成された部分に至るベクトルを示すベクトル情報を生成することを特徴とする文字認識用学習データ生成装置である。
The invention according to claim 3 is the learning data generation device for character recognition according to
また、請求項4に記載の発明は、請求項1又は2に記載の文字認識用学習データ生成装置であって、前記ベクトル情報生成手段は、前記先行する文字要素に外接する矩形領域の中心点から、前記後続する文字要素に外接する矩形領域の中心点に至るベクトルを示すベクトル情報を生成することを特徴とする文字認識用学習データ生成装置である。
The invention according to claim 4 is the learning data generation apparatus for character recognition according to
また、請求項5に記載の発明は、順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる判定対象書面について、前記複数の文字要素それぞれの前記判定対象書面内における位置及び大きさを示す文字要素情報を取得する文字要素情報取得手段、前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、前記ベクトル情報補正手段により補正されたベクトル情報に基づいて、前記2つの文字要素が同一文字に属するか否かを判定する判定手段、を有することを特徴とする文字認識装置である。 In addition, the invention according to claim 5 includes a plurality of character elements in which an order is defined, and a determination target document including a plurality of characters constituted by the plurality of character elements. Character element information acquisition means for acquiring character element information indicating a position and a size in a document to be determined, among two character elements that are consecutive in the order among the plurality of character elements, from character elements that precede in the order Vector information generating means for generating vector information indicating a vector toward the subsequent character element based on the character element information, according to the size of at least one of the two consecutive character elements indicated by the character element information Corrected by the vector information correcting means for correcting the magnitude of the vector and the vector information correcting means. Based on the vector information, determining means for determining whether the two character elements belong to the same character, a character recognition apparatus characterized by having a.
また、請求項6に記載の発明は、コンピュータを、順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる学習対象書面について、前記複数の文字要素それぞれの前記学習対象書面内における位置及び大きさを示す文字要素情報と、前記複数の文字要素のそれぞれが前記複数の文字のいずれに対応するかを示す対応文字情報と、を取得する文字要素情報取得手段、前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、判定対象となる判定対象書面について、当該判定対象書面に含まれる2つの文字要素が同一文字に属するか否かを判定する際に用いる学習データを生成する手段であって、前記対応文字情報により特定される、前記連続する2つの文字要素が同一文字に含まれるか否かを示す情報と、前記ベクトル情報補正手段により補正されたベクトル情報と、を入力データとして用いて前記学習データを生成する学習手段、として機能させるためのプログラムである。
In the invention according to
また、請求項7に記載の発明は、コンピュータを、順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる判定対象書面について、前記複数の文字要素それぞれの前記判定対象書面内における位置及び大きさを示す文字要素情報を取得する文字要素情報取得手段、前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、前記ベクトル情報補正手段により補正されたベクトル情報に基づいて、前記2つの文字要素が同一文字に属するか否かを判定する判定手段、として機能させるためのプログラムである。 In the invention according to claim 7, the computer includes a plurality of character elements with respect to a determination target document including a plurality of character elements including a plurality of character elements, the order of which is defined. Character element information acquisition means for acquiring character element information indicating a position and a size in each document to be judged, and preceding two character elements in the order among the plurality of character elements. Vector information generating means for generating vector information indicating a vector from a character element to a subsequent character element based on the character element information, the size of at least one of the two consecutive character elements indicated by the character element information And a vector information correcting means for correcting the magnitude of the vector according to the size, and the vector information correcting means. Based on the corrected vector information by the two character elements are programmed for causing the determining means for determining whether or not belonging to the same character function as.
請求項1,6に係る発明によれば、2つの文字要素が同一文字に含まれるか否かを判定する際に用いる学習データが、文字要素の大きさに応じて補正されたベクトル情報を用いて生成される。 According to the first and sixth aspects of the invention, the learning data used when determining whether or not two character elements are included in the same character uses vector information corrected according to the size of the character element. Generated.
請求項2に係る発明によれば、ベクトルの大きさが、該ベクトルの始点を有する文字要素および終点を有する文字要素の少なくとも一方の大きさに応じて補正される。
According to the invention of
請求項3に係る発明によれば、連続する2つの文字要素のうち、先行する文字要素の最後に形成された部分から、後続する文字要素の最初に形成された部分に至るベクトルを示すベクトル情報が生成される。 According to the invention of claim 3, vector information indicating a vector from the last formed part of the preceding character element to the first formed part of the subsequent character element among the two consecutive character elements. Is generated.
請求項4に係る発明によれば、連続する2つの文字要素のうち、先行する文字要素に外接する矩形領域の中心点から、後続する文字要素に外接する矩形領域の中心点に至るベクトルを示すベクトル情報が生成される。 According to the fourth aspect of the present invention, the vector from the center point of the rectangular area circumscribing the preceding character element to the center point of the rectangular area circumscribing the succeeding character element is shown among the two consecutive character elements. Vector information is generated.
請求項5,7に係る発明によれば、2つの文字要素が同一文字に含まれるか否かの判定が、文字要素の大きさに応じて補正されたベクトル情報を用いて実行される。 According to the fifth and seventh aspects of the present invention, the determination as to whether or not two character elements are included in the same character is performed using vector information corrected according to the size of the character element.
以下、本発明の実施形態について図面に基づき詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
図1は、本発明の第1の実施形態に係る文字認識用学習データ生成装置100の構成を示す図である。文字認識用学習データ生成装置100は、タブレットPC、電子ペン等のユーザの手書き動作を認識する入力受付装置200と接続される。
[First Embodiment]
FIG. 1 is a diagram showing a configuration of a character recognition learning
文字認識用学習データ生成装置100は、外部I/F部110、ストローク情報取得部120、オフストローク情報生成部130、オフストローク情報補正部140、学習処理部150、および記憶部160を有する。外部I/F部110、ストローク情報取得部120、オフストローク情報生成部130、オフストローク情報補正部140、および学習処理部150は、記憶部160に記憶されるプログラムにより動作するCPUの一機能として実現される。記憶部160は、ハードディスク、メモリー等の記憶装置からなる。
The learning data generation device for
入力受付装置200は、筆記道具(タッチペン、電子ペン、指先等)が記録媒体(タブレットPCのディスプレイ、紙等)に降ろされて(ペンダウン、接触の開始)から離される(ペンアップ、接触の終了)までの、筆記道具の先端部の動きを示す電気信号を生成して、文字認識用学習データ生成装置100に出力する。また、例えばある文字の筆記と次の文字の筆記の間に筆記用具に設けられたボタンが押下されることにより、文字の切り替わりを示す信号が生成して、文字認識用学習データ生成装置100に出力する。
In the
ここで、筆記用具により入力されるのは、予め与えられる例えば数百〜数千の文字からなる学習対象書面データである。 Here, what is input by the writing tool is written document data to be learned consisting of hundreds to thousands of characters given in advance.
外部I/F部110は、入力受付装置200から入力される信号を取得して、ストローク情報取得部120に出力する。
The external I /
ストローク情報取得部120は、複数の文字要素それぞれの学習対象書面内における位置および大きさを示すストローク(文字要素)情報と、複数のストロークのそれぞれが学習対象書面の複数の文字のいずれに対応するかを示す対応文字情報と、を取得する文字要素情報取得手段として動作する。すなわち、ストローク情報取得部120は、外部I/F部110から入力される信号を基に、学習対象書面データに含まれる文字のそれぞれを構成するストローク(ペンダウンからペンアップの間(一画)で記録される文字要素)の、学習対象書面内における位置、形状、および大きさを示すストローク情報を取得する。このうち位置および形状を示す情報は、筆記用具が記録媒体と接触した位置の座標データとして取得される。(形状については、接触したまま移動した際に、所定の周期で取得された座標データとして取得される。)また、位置および形状を示す情報には、ストロークの最初の部分(ペンダウンが行われた部分)および最後の部分(ペンアップが行われた部分)の位置を示す端部情報が含まれる。大きさを示す情報については、1ストロークの間で取得された全ての座標の、横方向(x軸方向)の最大値と最小値の差分、および縦方向(y軸方向)の最大値と最小値の差分として取得される。また、前述された文字の切り替わりの際の操作に基づく信号より、各ストロークがどの文字(何番目の文字)に対応するかを示す文字対応情報が取得される。こうして筆記用具の動作に基づいて連続的にストローク情報が入力され、入力順序に応じて取得および記録を行うことで、複数のストロークにおいて順序が定義される。
The stroke
図2は、ストローク情報により示されるストロークの例を示す図である。図2においてはストローク301,302,303が1番目の文字「あ」、ストローク304,305が2番目の文字「い」にそれぞれ対応する。また、ストローク301,302,303,304,305、の順に順序が定義される。
FIG. 2 is a diagram illustrating an example of a stroke indicated by the stroke information. In FIG. 2, strokes 301, 302, and 303 correspond to the first character “A”, and strokes 304 and 305 correspond to the second character “I”, respectively. The order is defined in the order of
オフストローク情報生成部130は、前述の順序において連続する2つのストローク(文字要素)について、該順序において先行するストロークから後続するストロークへ向かうベクトル(オフストローク)を示すオフストローク情報を、ストローク情報に基づいて生成する。オフストロークは、筆記用具があるストロークを記録してペンアップした点(該ストロークの最後に形成された部分)の位置から、次にペンダウンをした点(次のストロークの最初に形成された部分)の位置に至るベクトルである。オフストローク情報は、前述の次のストロークの最初の点の座標から、前述の該ストロークの最後の点の座標を減ずることで得られる。ストローク301,302,303,304,305において、オフストローク401,402,403,404,405が得られる。
The off-stroke
オフストローク情報補正部140は、ストローク情報により示される、前述の連続する2つのストロークのうち少なくとも一方の大きさに応じて、オフストローク情報生成部130において生成されたオフストローク情報により示されるオフストローク(ベクトル)の大きさを補正するベクトル情報補正手段として動作する。オフストローク情報補正部140は、オフストローク情報により示される複数のオフストロークのそれぞれの大きさを、該オフストロークの始点を有するストロークの大きさに応じて補正する。具体的には、該当するストロークに外接する矩形領域を、例えば縦および横の長さが1単位(単位は適宜定義されてよい)の正方形等の予め定められる形状に変形する際の比率にて、オフストロークを変形させる。図3は、オフストロークの補正の一例を示す図である。例えば図2において、ストローク303の大きさ(すなわちストローク303に外接する矩形領域の大きさ)が縦2単位、横4単位であった場合に、オフストローク403を、縦方向に1/2、横方向に1/4に変形させる。また、オフストローク情報補正部140は、ストローク情報についても、該ストローク情報により示されるストロークを変形させる(すなわち、縦および横の長さを1単位とする)補正を行う。この補正により、例えば学習対象書面において文字の大きさが異なることにより、ストロークの大きさが互いに大幅に異なっている場合に、ストロークおよびオフストロークの大きさが揃えられ、以降の処理においては、均等な大きさの文字からなる学習対象書面に対する処理と同等の処理が実行される。
The off-stroke
学習処理部150は、判定対象書面に含まれる2つのストロークが同一文字に属するか否かを判定する際に用いる学習データを生成する学習手段として動作する。学習処理部150は、オフストローク情報補正部140によりそれぞれ補正された、ストローク情報およびオフストローク情報を取得する。学習処理部150は、取得されたストローク情報に含まれる文字対応情報に基づき、オフストロークが文字間の遷移(文字間遷移)であるか、同一文字内の遷移(文字内遷移)であるか、を判定する。
The
そして学習処理部150は、文字間遷移と判定されたオフストロークに関する補正済みオフストローク情報と、該オフストロークの始点を有するストロークに関する補正済みストローク情報と、を関連づけて「ポジティブデータリスト」に、文字内遷移と判定されたオフストロークに関する補正済みオフストローク情報と、該オフストロークの始点を有するストロークに関する補正済みストローク情報と、を関連づけて「ネガティブデータリスト」に、それぞれ追加する。そして学習処理部150は、これらの情報を用いて、例えば教師あり学習に用いられる識別手法であるSVM(サポートベクタマシン)等の既知の文字認識処理における、オフストロークが文字内のオフストロークか文字間のストロークかの判定の際に使用される学習データを生成する。生成された学習データは、記憶部160に記憶される。
The
ここまで、学習処理部150はあるオフストローク(着目オフストローク)に関する補正済みオフストローク情報と、該オフストロークの始点を有するストロークに関する補正済みストローク情報と、を関連づけて分類し、学習処理に使用する構成が示されたが、学習処理部150が、着目オフストロークに関する補正済みオフストローク情報と、該着目オフストロークに先行する予め定められる数(n:nは1以上の整数)のストロークに関する補正済みストローク情報および該着目ストロークに後続する予め定められる数(m:mは1以上の整数)のストロークに関する補正済みストローク情報と、を関連づけて分類し、学習処理に使用する構成とすれば、より多くのデータに基づく学習処理が実行される。
Up to this point, the
ここで、学習処理部150が着目オフストロークに関する補正済みオフストローク情報と、該着目オフストロークに先行するn個のストロークに関する補正済みストローク情報および該着目ストロークに後続するm個のストロークに関する補正済みストローク情報と、を関連づけて分類し、学習に使用する文字認識用学習データ生成装置100の動作を、フローチャートを用いて説明する。図4は、本発明の第1の実施形態に係る文字認識用学習データ生成装置100の動作を示すフローチャートである。
Here, the corrected off-stroke information regarding the target off-stroke, the corrected stroke information regarding the n strokes preceding the target off-stroke, and the corrected stroke regarding the m strokes following the target stroke. The operation of the learning data generating apparatus for
まず、ストローク情報取得部120は、入力受付装置200から入力されて外部I/F部110により取得される信号に基づいて、ストローク情報を取得する(S401)。ここで、ストローク情報が取得されるストロークの数をN(N:2以上の整数)とし、ストロークをSti(0≦i<N)で示す。
First, the stroke
次に、オフストローク情報生成部130は、S401において取得されたストローク情報を基に、オフストローク情報を生成する(S402)。ここでオフストローク情報はN−1個生成され、以下これらのオフストロークをOStj(0≦j<N−1)で示す。そしてオフストローク情報補正部140は、S401で取得されたストローク情報およびS402で生成されたオフストローク情報を補正する(S403)。
Next, the off-stroke
そして、学習処理部150は、S402で生成されたオフストロークOStjのそれぞれについて、補正済みのストロークStj−n,Stj−n+1,…,Stj,…,Stj+m−1,Stj+mを示す情報を取得する(S404)。次に学習処理部150は、ベクトルOStjが文字間遷移であるか文字内遷移であるかの判定を行い(S405)、文字間遷移であった場合には各情報をポジティブデータリストに分類し(S406)、文字内遷移であった場合には各情報をネガティブデータリストに分類する(S407)。学習処理部150はS404からS407の処理をS402でオフストローク情報が取得された全てのOStjについて実行し、その後学習処理部150は学習処理を実行して(S408)、生成された学習データを記憶部160に保存して(S409)、文字認識用学習データ生成装置100の動作は終了する。
Then, the
[第2の実施形態]
図5は、本発明の第2の実施形態に係る文字認識装置500の構成を示す図である。文字認識装置500は、タブレットPC、電子ペン等のユーザの手書き動作を認識する入力受付装置600と接続される。
[Second Embodiment]
FIG. 5 is a diagram showing a configuration of a
文字認識装置500は、外部I/F部510、ストローク情報取得部520、オフストローク情報生成部530、オフストローク情報補正部540、認識処理部550、および記憶部560を有する。外部I/F部510、ストローク情報取得部520、オフストローク情報生成部530、オフストローク情報補正部540、および認識処理部550は、記憶部560に記憶されるプログラムにより動作するCPUの一機能として実現される。記憶部560は、ハードディスク、メモリー等の記憶装置からなる。
The
入力受付装置600は、筆記道具が記録媒体に降ろされてから離されるまでの、筆記道具の先端部の動きを示す電気信号を生成して、文字認識装置500に出力する。また、例えばある文字の筆記と次の文字の筆記の間に筆記用具に設けられたボタンが押下されることにより、文字の切り替わりを示す信号が生成して、文字認識装置500に出力する。
The
ここで、筆記用具により入力されるのは、文字認識の対象である判定対象書面データである。 Here, what is input by the writing implement is determination target document data that is an object of character recognition.
外部I/F部510は、入力受付装置600から入力される信号を取得して、ストローク情報取得部520に出力する。
External I /
ストローク情報取得部520は、複数の文字要素それぞれの学習対象書面内における位置および大きさを示すストローク(文字要素)情報と、複数のストロークのそれぞれが学習対象書面の複数の文字のいずれに対応するかを示す対応文字情報と、を取得する文字要素情報取得手段として動作する。すなわち、ストローク情報取得部520は、外部I/F部510から入力される信号を基に、判定対象書面データに含まれる文字のそれぞれを構成するストローク(ペンダウンからペンアップの間(一画)で記録される文字要素)の、判定対象書面内における位置、形状、および大きさを示すストローク情報を取得する。このうち位置および形状を示す情報は、筆記用具が記録媒体と接触した位置の座標データとして取得される。(形状については、接触したまま移動した際に、所定の周期で取得された座標データとして取得される。)また、位置および形状を示す情報には、ストロークの最初の部分(ペンダウンが行われた部分)および最後の部分(ペンアップが行われた部分)の位置を示す端部情報が含まれる。大きさを示す情報については、1ストロークの間で取得された全ての座標の、横方向(x軸方向)の最大値と最小値の差分、および縦方向(y軸方向)の最大値と最小値の差分として取得される。また、前述された文字の切り替わりの際の操作に基づく信号より、各ストロークがどの文字(何番目の文字)に対応するかを示す文字対応情報が取得される。こうして筆記用具の動作に基づいて連続的にストローク情報が入力され、入力順序に応じて取得および記録を行うことで、複数のストロークにおいて順序が定義される。
The stroke
オフストローク情報生成部530は、前述の順序において連続する2つのストローク(文字要素)について、該順序において先行するストロークから後続するストロークへ向かうベクトル(オフストローク)を示すオフストローク情報を、ストローク情報に基づいて生成する。オフストロークは、筆記用具があるストロークを記録してペンアップした点(該ストロークの最後に形成された部分)の位置から、次にペンダウンをした点(次のストロークの最初に形成された部分)の位置に至るベクトルである。オフストローク情報は、前述の次のストロークの最初の点の座標から、前述の該ストロークの最後の点の座標を減ずることで得られる。
The off-stroke
オフストローク情報補正部540は、ストローク情報により示される、前述の連続する2つのストロークのうち少なくとも一方の大きさに応じて、オフストローク情報生成部130において生成されたオフストローク情報により示されるオフストローク(ベクトル)の大きさを補正するベクトル情報補正手段として動作する。オフストローク情報補正部540は、オフストローク情報により示される複数のオフストロークのそれぞれの大きさを、該オフストロークの始点を有するストロークの大きさに応じて補正する。具体的には、該当するストロークに外接する矩形領域を、例えば縦および横の長さが1単位(単位は適宜定義されてよい)の正方形等の予め定められる形状に変形する際の比率にて、オフストロークを変形させる。また、オフストローク情報補正部540は、ストローク情報についても、該ストローク情報により示されるストロークを変形させる(すなわち、縦および横の長さを1単位とする)補正を行う。この補正により、例えば学習対象書面において文字の大きさが異なることにより、ストロークの大きさが互いに大幅に異なっている場合に、ストロークおよびオフストロークの大きさが揃えられ、以降の処理においては、均等な大きさの文字からなる学習対象書面に対する処理と同等の処理が実行される。
The off-stroke
認識処理部550は、認識対象書面に含まれる2つのストロークが同一文字に属するか否かを判定する判定手段として動作する。認識処理部550は、オフストローク情報補正部540によりそれぞれ補正された、ストローク情報およびオフストローク情報を取得する。そして認識処理部550は、取得されたストローク情報およびオフストローク情報に基づき、オフストロークが同一文字内の遷移であるか、文字間の遷移であるか、を判定する。具体的には、あるオフストロークの補正済みオフストローク情報と、該オフストロークの始点を有するストロークの補正済みストローク情報と、に対して、例えばSVM(サポートベクターマシン)等の既知の認識手法による認識処理を行い、該オフストロークが同一文字内の遷移であるか、文字間の遷移であるか、の判定処理を行う。
The
そして認識処理部550は、文字間の遷移と判定されたオフストロークにおいて文字が切り替わったと判定し、この文字間の遷移で区切られたストローク群について、既知の技術によって、テキストコードに変換する単文字認識処理を実行する。さらに、単文字認識処理によって判定対象の文字のそれぞれについて複数の認識結果(文字)の候補が生成される場合、言語としての確からしさを考慮して認識結果の選択および修正を行う文脈処理を実行する。文脈処理は、文字列のリスト、n−gramリスト、正規表現等で構成される。
Then, the
ここまで、認識処理部550はあるオフストローク(着目オフストローク)に関する補正済みオフストローク情報と、該オフストロークの始点を有するストロークに関する補正済みストローク情報と、を用いて判定処理を行う構成が示されたが、認識処理部550が、着目オフストロークに関する補正済みオフストローク情報と、該着目オフストロークに先行する予め定められる数(n:nは1以上の整数)のストロークに関する補正済みストローク情報および該着目ストロークに後続する予め定められる数(m:mは1以上の整数)のストロークに関する補正済みストローク情報と、を用いて、判定処理を行う構成とすれば、より多くのデータに基づく判定処理が実行される。
Up to this point, a configuration has been shown in which the
ここで、認識処理部550が着目オフストロークに関する補正済みオフストローク情報と、該着目オフストロークに先行するn個のストロークに関する補正済みストローク情報および該着目ストロークに後続するm個のストロークに関する補正済みストローク情報と、を用いて学習処理を実行する文字認識装置500の動作を、フローチャートを用いて説明する。図6は、本発明の第2の実施形態に係る文字認識装置500の動作を示すフローチャートである。
Here, the
まず、ストローク情報取得部520は、入力受付装置600から入力されて外部I/F部510により取得される信号に基づいて、ストローク情報を取得する(S601)。ここで、ストローク情報が取得されるストロークの数をN(N:2以上の整数)とし、ストロークをSti(0≦i<N)で示す。
First, the stroke
次に、オフストローク情報生成部530は、S601において取得されたストローク情報を基に、オフストローク情報を生成する(S602)。ここでオフストローク情報はN−1個生成され、以下これらのオフストロークをOStj(0≦j<N−1)で示す。そしてオフストローク情報補正部540は、S602で生成されたストローク情報を補正する(S603)。
Next, the off-stroke
そしてS602で生成されたオフストロークOStjのそれぞれについて、認識処理部550は補正済みのストロークSti−n,Sti−n+1,…,Sti,…,Sti+m−1,Sti+mを示す情報を取得する(S604)。そして認識処理部550は、オフストロークOStiが文字内遷移であるか文字間遷移であるかの判定処理を行う(S605)。認識処理部550は、S604およびS605の処理をS602でオフストローク情報が取得された全てのOStjについて実行する。
Then, for each of the off strokes OSt j generated in S602, the
次に認識処理部550は、S605において文字間遷移と判定されたオフストロークOStjで区切られたストローク群のそれぞれについて、文字認識処理および文脈処理(S606)を実行して、文字認識装置500の動作は終了する。
Next, the
以上の構成により、互いに大きさが異なる文字を含む書面の文字認識を行う際に、文字の大きさの違いによる影響を軽減した学習データの生成処理、および文字認識処理が実行される。 With the above configuration, learning data generation processing and character recognition processing that reduce the influence of the difference in character size are executed when character recognition is performed on a document that includes characters of different sizes.
なお、上記の実施形態は本発明の原理および効果、機能を例示的に説明するものであって、本発明はこれらによって限定されるものではない。例えば上記の実施形態においてはタッチペン等の筆記用具を用いたオンライン処理によりストロークのそれぞれの形状を示すストローク情報が取得され、これらのストロークの終点から始点に至るベクトルがオフストロークとして使用される構成が示されたが、既に記述された書面を用いるオフライン処理により学習データの生成処理および文字認識処理を実行する構成としてもよい。その場合の構成について、以下に示す。 In addition, said embodiment demonstrates the principle of this invention, an effect, and a function as an example, and this invention is not limited by these. For example, in the above embodiment, stroke information indicating the shape of each stroke is acquired by online processing using a writing instrument such as a touch pen, and a vector from the end point to the start point of these strokes is used as an off-stroke. Although shown, it is good also as a structure which performs the production | generation process and the character recognition process of learning data by the offline process using the document already described. The configuration in that case is shown below.
オフライン処理の場合、ストローク情報取得部120および520は、記述された書面に対してスキャンを行って2値化を行い、文字要素の抽出処理を行う。文字要素の抽出処理は、例えば直線や曲線の抽出処理を行って抽出されたそれぞれを文字要素としてもよいし、互いに繋がった描点の塊を1つの文字要素としてもよい。図7は、オフライン処理において抽出される文字要素の例を示す図である。図7では文字要素701,702,703が抽出される。そしてオフストローク情報生成部130および530は、抽出された文字要素701,702,703に対して、例えば上から下、左から右等の予め定められる規則に従って順序を定義し(ここでは文字要素701、文字要素702、文字要素703の順序とする。)、この順序に従って、文字要素701,702,703の中心間を結ぶベクトルをオフストローク801,802として生成する。以降は、上述の第1および第2の実施形態と同様に、補正処理および、学習データの生成処理または文字認識処理が実行される。
In the case of offline processing, the stroke
なお、これまで述べた実施形態では、オフストロークの補正を、該オフストロークの始点を有するストローク(文字要素)の大きさに基づいて実行する構成が開示されたが、オフストロークの終点を有するストロークの大きさに基づいて実行する構成としてもよいし、オフストロークの始点を有するストロークおよびオフストロークの終点を有するストロークの両者の大きさに基づいて実行する構成としてもよい。 In the embodiment described so far, the configuration in which the off-stroke correction is performed based on the size of the stroke (character element) having the start point of the off-stroke is disclosed. However, the stroke having the end point of the off-stroke is disclosed. It is good also as a structure performed based on the magnitude | size of this, and it is good also as a structure performed based on the magnitude | size of both the stroke which has the starting point of an offstroke, and the stroke which has the end point of an offstroke.
なお、ここで述べた文字認識用学習データ生成装置100および文字認識装置500の動作は、文字認識用学習データ生成装置100および文字認識装置500のそれぞれの記憶部160,560に記憶されるプログラムを動作させることで実現される。このプログラムは通信によって提供されてもよいし、コンピュータによる読み取りが可能な、CD−ROM等の記憶媒体に格納されて提供されてもよい。
The operations of the character recognition learning
100 文字認識用学習データ生成装置、110 外部I/F部、120 ストローク情報取得部、130 オフストローク情報生成部、140 オフストローク情報補正部、150 学習処理部、160 記憶部、200 入力受付装置、301,302,303,304,305 ストローク、401,402,403,404,405 オフストローク、500 文字認識装置、510 外部I/F部、520 ストローク情報取得部、530 オフストローク情報生成部、540 オフストローク情報補正部、550 認識処理部、560 記憶部、600 入力受付装置、701,702,703 文字要素、801,802 オフストローク。 100 character recognition learning data generation device, 110 external I / F unit, 120 stroke information acquisition unit, 130 off stroke information generation unit, 140 off stroke information correction unit, 150 learning processing unit, 160 storage unit, 200 input reception device, 301, 302, 303, 304, 305 Stroke, 401, 402, 403, 404, 405 Off stroke, 500 character recognition device, 510 External I / F unit, 520 Stroke information acquisition unit, 530 Off stroke information generation unit, 540 Off Stroke information correction unit, 550 recognition processing unit, 560 storage unit, 600 input reception device, 701, 702, 703 character element, 801, 802 off-stroke.
Claims (7)
前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、
前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、
判定対象となる判定対象書面について、当該判定対象書面に含まれる2つの文字要素が同一文字に属するか否かを判定する際に用いる学習データを生成する手段であって、前記対応文字情報により特定される、前記連続する2つの文字要素が同一文字に含まれるか否かを示す情報と、前記ベクトル情報補正手段により補正されたベクトル情報と、を入力データとして用いて前記学習データを生成する学習手段、
を有することを特徴とする文字認識用学習データ生成装置。 A learning target document including a plurality of character elements including a plurality of character elements, the order of which is defined, and indicating the position and size of each of the plurality of character elements in the learning target document. Character element information acquisition means for acquiring character element information and corresponding character information indicating which of the plurality of characters corresponds to each of the plurality of character elements;
Vector information for generating vector information indicating a vector from the preceding character element to the subsequent character element in the order, based on the character element information, for two character elements that are consecutive in the order among the plurality of character elements Generating means,
Vector information correction means for correcting the size of the vector in accordance with the size of at least one of the two consecutive character elements indicated by the character element information; and
A means for generating learning data used for determining whether or not two character elements included in the determination target document belong to the same character with respect to the determination target document to be determined, specified by the corresponding character information Learning that generates the learning data using, as input data, information indicating whether or not the two consecutive character elements are included in the same character and the vector information corrected by the vector information correcting unit means,
A character recognition learning data generation device characterized by comprising:
前記ベクトル情報補正手段は、前記連続する2つの文字要素の少なくとも一方に外接する矩形領域の形状の、予め定められる形状に対する比率に応じて、前記ベクトルの大きさを補正することを特徴とする文字認識用学習データ生成装置。 The learning data generating device for character recognition according to claim 1,
The vector information correcting unit corrects the size of the vector according to a ratio of a shape of a rectangular area circumscribing at least one of the two consecutive character elements to a predetermined shape. A learning data generator for recognition.
前記文字要素情報取得手段は、前記文字要素のそれぞれの、最初に形成された部分の位置および最後に形成された部分の位置を示す端部位置情報をさらに取得し、
前記ベクトル情報生成手段は、前記端部位置情報に基づいて、前記先行する文字要素の最後に形成された部分から、前記後続する文字要素の最初に形成された部分に至るベクトルを示すベクトル情報を生成することを特徴とする文字認識用学習データ生成装置。 The learning data generation device for character recognition according to claim 1 or 2,
The character element information acquisition means further acquires end position information indicating the position of the first formed portion and the position of the last formed portion of each of the character elements,
The vector information generation means, based on the end position information, vector information indicating a vector from the last formed part of the preceding character element to the first formed part of the subsequent character element. A learning data generating device for character recognition characterized by generating.
前記ベクトル情報生成手段は、前記先行する文字要素に外接する矩形領域の中心点から、前記後続する文字要素に外接する矩形領域の中心点に至るベクトルを示すベクトル情報を生成することを特徴とする文字認識用学習データ生成装置。 The learning data generation device for character recognition according to claim 1 or 2,
The vector information generating means generates vector information indicating a vector from a central point of a rectangular area circumscribing the preceding character element to a central point of the rectangular area circumscribing the subsequent character element. Learning data generation device for character recognition.
前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、
前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、
前記ベクトル情報補正手段により補正されたベクトル情報に基づいて、前記2つの文字要素が同一文字に属するか否かを判定する判定手段、
を有することを特徴とする文字認識装置。 A determination target document including a plurality of character elements including a plurality of character elements, the order of which is defined, and indicating the position and size of each of the plurality of character elements in the determination target document. Character element information acquisition means for acquiring character element information;
Vector information for generating vector information indicating a vector from the preceding character element to the subsequent character element in the order, based on the character element information, for two character elements that are consecutive in the order among the plurality of character elements Generating means,
Vector information correction means for correcting the size of the vector in accordance with the size of at least one of the two consecutive character elements indicated by the character element information; and
Determining means for determining whether or not the two character elements belong to the same character based on the vector information corrected by the vector information correcting means;
A character recognition device comprising:
順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる学習対象書面について、前記複数の文字要素それぞれの前記学習対象書面内における位置及び大きさを示す文字要素情報と、前記複数の文字要素のそれぞれが前記複数の文字のいずれに対応するかを示す対応文字情報と、を取得する文字要素情報取得手段、
前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、
前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、
判定対象となる判定対象書面について、当該判定対象書面に含まれる2つの文字要素が同一文字に属するか否かを判定する際に用いる学習データを生成する手段であって、前記対応文字情報により特定される、前記連続する2つの文字要素が同一文字に含まれるか否かを示す情報と、前記ベクトル情報補正手段により補正されたベクトル情報と、を入力データとして用いて前記学習データを生成する学習手段、
として機能させるためのプログラム。 Computer
A learning target document including a plurality of character elements including a plurality of character elements, the order of which is defined, and indicating the position and size of each of the plurality of character elements in the learning target document. Character element information acquisition means for acquiring character element information and corresponding character information indicating which of the plurality of characters corresponds to each of the plurality of character elements;
Vector information for generating vector information indicating a vector from the preceding character element to the subsequent character element in the order, based on the character element information, for two character elements that are consecutive in the order among the plurality of character elements Generating means,
Vector information correction means for correcting the size of the vector in accordance with the size of at least one of the two consecutive character elements indicated by the character element information; and
A means for generating learning data used for determining whether or not two character elements included in the determination target document belong to the same character with respect to the determination target document to be determined, specified by the corresponding character information Learning that generates the learning data using, as input data, information indicating whether or not the two consecutive character elements are included in the same character and the vector information corrected by the vector information correcting unit means,
Program to function as.
順序が定義される複数の文字要素を含み、当該複数の文字要素によって構成される複数の文字からなる判定対象書面について、前記複数の文字要素それぞれの前記判定対象書面内における位置及び大きさを示す文字要素情報を取得する文字要素情報取得手段、
前記複数の文字要素のうち、前記順序で連続する2つの文字要素について、該順序において先行する文字要素から後続する文字要素へ向かうベクトルを示すベクトル情報を前記文字要素情報に基づいて生成するベクトル情報生成手段、
前記文字要素情報により示される、前記連続する2つの文字要素のうち少なくとも一方の大きさに応じて、前記ベクトルの大きさを補正するベクトル情報補正手段、および、
前記ベクトル情報補正手段により補正されたベクトル情報に基づいて、前記2つの文字要素が同一文字に属するか否かを判定する判定手段、
として機能させるためのプログラム。 Computer
A determination target document including a plurality of character elements including a plurality of character elements, the order of which is defined, and indicating the position and size of each of the plurality of character elements in the determination target document. Character element information acquisition means for acquiring character element information;
Vector information for generating vector information indicating a vector from the preceding character element to the subsequent character element in the order, based on the character element information, for two character elements that are consecutive in the order among the plurality of character elements Generating means,
Vector information correction means for correcting the size of the vector in accordance with the size of at least one of the two consecutive character elements indicated by the character element information; and
Determining means for determining whether or not the two character elements belong to the same character based on the vector information corrected by the vector information correcting means;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012071636A JP5867227B2 (en) | 2012-03-27 | 2012-03-27 | Learning data generation device for character recognition, character recognition device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012071636A JP5867227B2 (en) | 2012-03-27 | 2012-03-27 | Learning data generation device for character recognition, character recognition device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013205922A JP2013205922A (en) | 2013-10-07 |
JP5867227B2 true JP5867227B2 (en) | 2016-02-24 |
Family
ID=49524986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012071636A Active JP5867227B2 (en) | 2012-03-27 | 2012-03-27 | Learning data generation device for character recognition, character recognition device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5867227B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916720A (en) * | 1995-07-03 | 1997-01-17 | Seiko Epson Corp | Character recognition method and system |
JP5344338B2 (en) * | 2008-08-01 | 2013-11-20 | 国立大学法人東京農工大学 | Program, information storage medium, and character string recognition device |
-
2012
- 2012-03-27 JP JP2012071636A patent/JP5867227B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013205922A (en) | 2013-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102449640B (en) | Recognizing handwritten words | |
CN111931710B (en) | Online handwritten character recognition method and device, electronic equipment and storage medium | |
EP1564675B1 (en) | Apparatus and method for searching for digital ink query | |
WO2006091155A1 (en) | Segmentation-based recognition | |
CN108701215B (en) | System and method for identifying multi-object structures | |
CN114730241B (en) | Gesture and stroke recognition in touch user interface input | |
KR102694644B1 (en) | Extract text lines | |
JP6055065B1 (en) | Character recognition program and character recognition device | |
Kumar et al. | Recognition of multi-stroke based online handwritten Gurmukhi aksharas | |
JP5807342B2 (en) | Character recognition device and program | |
JP6081606B2 (en) | Electronic apparatus and method | |
Tappert et al. | English language handwriting recognition interfaces | |
JP5867227B2 (en) | Learning data generation device for character recognition, character recognition device, and program | |
US9342739B2 (en) | Character recognition apparatus, non-transitory computer readable medium, and character recognition method | |
JP5974576B2 (en) | Character recognition learning device, character recognition device, and program | |
JP5712415B2 (en) | Form processing system and form processing method | |
JP6575116B2 (en) | Character recognition device, character recognition processing system, and program | |
Abuzaraida et al. | Online recognition system for handwritten arabic chemical symbols | |
JP6437208B2 (en) | Handwritten music symbol recognition apparatus and handwritten music symbol recognition program | |
CN116959000A (en) | Handwriting recognition method, handwriting recognition device, computer equipment and storage medium | |
CN117935352A (en) | Gesture recognition method, electronic device, and computer-readable storage medium | |
CN110647245A (en) | Handwriting input method based on DTW algorithm | |
Rakate et al. | Integrated approach to handwritten character recognition using ANN and it's implementation on ARM | |
JP2014179024A (en) | Information processing device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5867227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |