JPH01111288A - オンライン文字認識方式 - Google Patents

オンライン文字認識方式

Info

Publication number
JPH01111288A
JPH01111288A JP62269089A JP26908987A JPH01111288A JP H01111288 A JPH01111288 A JP H01111288A JP 62269089 A JP62269089 A JP 62269089A JP 26908987 A JP26908987 A JP 26908987A JP H01111288 A JPH01111288 A JP H01111288A
Authority
JP
Japan
Prior art keywords
pattern
stroke
codebook
distance
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP62269089A
Other languages
English (en)
Inventor
Kazunaga Yoshida
吉田 和永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62269089A priority Critical patent/JPH01111288A/ja
Publication of JPH01111288A publication Critical patent/JPH01111288A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明はオンラインで入力された文字の筆跡より文字を
認識するオンライン文字認識装置の改良に関する。
(従来の技術) 従来、オンラインで入力された文字を認識する方式は存
在した。たとえば、特願昭60−039163号(以下
引用文献(1)と称す)には、入力された文字パターン
(入力文字パターン)の各ストローク(ペンがオンして
から次にオフするまでの間の筆線)を、あらかじめ保持
されている標準パターンのストロークと過不足なく対応
付けた場合の最小距離を基に文字を認識する方式が述べ
られている。また、「電子通信学会論文誌J Vol、
J65−DNo、 6 (1982年6月) 679〜
686ページに「筆順に依存しないオンライン手書き文
字認識アルゴリズム」と題して発表された論文(以下引
用文献(2)と称す)には、入力文字パターンの各スト
ロークを、あらかじめ保持されている標準パターンのス
トロークと、多重対応を許して対応付けた場合の最小距
離を基に文字を認識する方式が述べられている。
(発明が解決しようとする問題点) ・以上引用文献(
1)、(2)に述べられている方式では、入力文字パタ
ーンのストロークと標準パターンのストロークの全ての
岨合せに対しストローク間距離を求めなければならない
。このため計算量が大きいという問題点があった。たと
えば、このストローク間距離の計算回数は標準パターン
の文字数を2000、平均ストローク数を12とすると
2000x 12 x 12= 288000回という
大きな数になる。
また、このようなストローク間距離に基づく認識では、
ストロークの微細な変形による距離の積み重ねにより、
本来の特徴となる部分の距離がマスクされることにより
誤認識が生じる可能性があるという問題点があった。た
とえば、第3図に示すように標準パターン1「間」、2
「開」により、入力文字パターン3「開」を認識するこ
とを考える。入力文字パターン3「開」の特徴部である
「升」は、標準パターン3の「間」のr日」よりも、2
「開」の[升jに距離が近いが、入力文字パターン3「
開」の「門」は、1「間」の「門」により近いから、1
「間」に誤認識されてしまう可能性がある。
本発明の目的は、このようなストローク間距離の計算量
および標準パターンのメモリ量を従来方式より大幅に減
らし、且つストロークの微細な変形による誤認識の無い
オンライン文字認識方式の提供にある。
(問題点を解決するための手段) 本願の第1の発明によるオンライン文字認識方式は、学
習文字パターンのストローク単位のパターンに対してコ
ードブックを作成するコードブック作成手段と、前記コ
ードブックを用いて学習文字パターンをストローク単位
で量子化し標準パターンを作成するストローク量子化手
段と、入力文字パターンのストローク単位のパターンと
前記コードブックを構成するコードベクトルとの距離を
求めるストローク間距離計算手段と、前記入力文字パタ
ーンと前記標準パターンとを前記距離を用いてパターン
マツチングし入力文字を認識するパターンマツチング手
段とを有して成る。
また、本願の第2の発明によるオンライン文字認識方式
は、学習文字パターンのストローク単位のパターンに対
してコードブックを作成するコードブツク作成手段と、
前記コードブックを用いて学習文字パターンをストロー
ク単位で量子化しコード列として標準パターンを作成す
るストローク量子化手段と、1文字の標準パターン中に
同一コードが複数個存在した場合1個のコードのみを残
し他を消去する情報圧縮手段と、入力文字パターンのス
トローク単位のパターンと前記コードブックを構成する
コードベクトルとの距離を求めるストローク間距離計算
手段と、前記入力文字パターンと前記標準パターンとを
前記距離を用いてストロークの重複対応を許して対応付
ることにより求めた文字間距離に基づき入力文字を認識
するパターンマツチング手段とを有して成る。
(作用) 本願の第1の発明の要件は、標準パターンをストローク
単位にベクトル量子化することにある。
ベクトル量子化は、たとえば東海大学出版会列「ディジ
タル音声処理」の125〜129ページ及び169〜1
70ページ(以下引用文献(3)と称す)で述べられて
いるように、音声の符号化や音声認識に広く応用されて
いる。これらは計算量やメモリ量の低減を目的としてい
る。このベクトル量子化は音声処理以外にも様々な分野
で使われているが、何を量子化の対称とするかにより利
点はそれぞれ異なるので、量子化対称の選択が重要な問
題となる。
本発明では、オンライン文字認識における標準パターン
の1ストロークのデータを、量子化の対称となる1ベク
トルとするものである。すなわち、標準パターンのスト
ロークを基に、あらかじめクラスタリングの手法を用い
てストロークを分類することによりコードブックを作成
し、さらにこのコードブックを用いて標準パターンのス
トロークを量子化しコード化する、入力文字パターンが
入力された時は、まず入力文字パターンの各ストローク
とコートブック内の各コードベクトルとの間の距離を求
めて距離テーブルを作っておく。文字の認識は引用文献
(1)、(2)に述べられているような方式により行う
が、ストローク間距離の計算は、前記距離テーブルから
標準パターンの各ストロークのコードをアドレスとして
距離を読み出すことにより行うことができる。
これにより、引用文献(1)、(2)に述べられている
ような方式のように、入力文字パターンのストロークと
標準パターンのストロークの全ての組合せに対しストロ
ーク間距離を求めることが必要な場合でも、ストローク
間距離の計算は距離テーブルを作るために必要な回数だ
け行えばよいので計算量を大幅に減らせる。たとえば、
入力文字パターンのストローク数を12、コードブック
のサイズを256とすると距離計算回数は256x 1
2= 3072回となり、前述の従来例における288
000回の約1/100になる。同時に、標準パターン
の1つのストロークのデータは1つのコードで表せるの
で、標準パターンのメモリ量が大幅に減ることは明かで
ある。
また、ストロークを量子化することにより、類似したス
トロークは1つのストロークにより代表されるため微細
なストロークの揺らぎを吸収することができる。たとえ
ば第3図に示した例における標準パターン1「間」、2
「開」のストロークから、コードブックを求めた際のコ
ードベクトルのパターンの例を第4図に示す。図におい
て(1〜12)はコードベクトルである。標準パターン
1「間」は(1,2,3,3,4,5,6,6,7,8
,9,10) 、2 r開」は(1,2,3,3,4,
5,6,6,7,9,11,12)の各コードにより表
される。この量子化により「門」を構成するストローク
のコードベクトル(1〜6)は共通となるなめ、第3図
の例において生じ得る、この部分のパターンの揺らぎに
よる誤認識はなくなる。
本願の第2の発明は、引用文献(2)に示されているよ
うな、入力文字パターンのストロークと標準パターンの
ストロークとを多重対応を許して対応付た最小距離を基
に認識する場合の改良に関するものである。すなわち、
前述の第1の発明に加えて、1文字の標準パターン中に
同一コードのストロークが複数個存在した場合、1つの
ストロークのコードのみを残し他を消去するという情報
圧縮を行うことにより、認識性能を変えずに対応付の検
証のための計算量及び標準パターンのメモリ量を低減す
るものである。
コードブックのサイズがある程度以上率さい場合、類似
したストロークは1つのコードベクトルで代表される。
このため、本来異なるストロークでも同一のコードで表
されることになる。たとえば第4図の例ではコードベク
トル(3,6)はそれぞれ2つのストロークに対応して
いる。このように本来異なるストロークが同一で表され
ても、それらは相互に類似した(相互距離の小さい)ス
トロークであるため、誤認識の原因となることは少ない
ので問題はない。
引用文献(2)に示されているような、入力文字パター
ンのストロークと標準パターンのストロークとを多重対
応を許して対応付る方式を用いた場合、同一コードを持
つストロークが複数個存在すると、重複して対応付けの
検証が行われることになる。そこで、本発明では標準パ
ターンの同一コードを持つ複数のストロークを1つにま
とめるという情報圧縮を行う。このような情報圧縮を行
っても、まとめられた標準パターンのストロークは複数
回対応付けに用いられるので、全く同じ文字間距離を得
ることができる。このため、認識性能を変えずに、対応
付の計算量および標準パターンのメモリ量を低減するこ
とが実現できる。
(実施例) まず、本願の第1の発明の実施例について図面を参照し
て説明する。第1図はその第1の発明の一実施例を示す
構成図である。まず最初に、コードブックおよび標準パ
ターンを作成する学習フェーズについて説明する。
学習文字パターンメモリ1中には、あらかじめ学習に用
いる学習用文字パターンが保持されている。まず、コー
ドブック作成部2では、学習用文字パターンのストロー
ク毎のデータPsを学習文字パターンメモリ1から読み
だしコードブックCbを作成する。このコードブック作
成法は引用文献(3)に述べられているように、クラス
タリングの手法を用いて行う。クラスタリングの手法に
ついては、コロナ社刊[パターン情報処理Jの113〜
120ページに述べられているような方法を用いること
ができるが、ここではに平均アルゴリズムを用いるとす
る。すなわち、ストローク毎のデータPsを1サンプル
として「1離の小さいサンプルの組をまとめていく操作
を行う。この距離としては、例えば特願昭60−001
649号明細書(以下引用文献(4)と称す)中に述べ
られている様々なストローク間距離の定義を用いること
ができる。ここで作成するコードブックのサイズをNと
すると、コードブックcbは、代表的ストロークを表す
コードベクトルV(C)(1≦C≦N)から成る。この
ようにして求められたコードブックcbは、学習用コー
ドブックメモリ3中に保持される。
続いて、ストローク量子化部4では、学習文字パターン
メモリ1から読みだされたストローク毎のデータPsを
量子化(コード化)し標準パターンを作成する。すなわ
ち、学習用文字パターンのストローク毎のデータPsと
、学習用コードブックメモリ3内に保持されているコー
ドベクトルV(C)(1≦C≦N)とのストローク間距
離を順次求め、最小距離を与えるコードCを求める。
このコードCの列で表された学習用文字パターンが、標
準パターンRとして学習用標準パターンメモリ5内に保
持される。このようにして、全ての学習用文字パターン
に対して標準パターンRを作成する。求められたコード
ブックcb及び標準パターンRはそれぞれ、コードブッ
クメモリ11及び・ 標準パターンメモリ12に転送さ
れて保持される。
以上述べた学習フェーズに続いて、認識フェーズについ
て説明する。まず、入力文字パターンSが入力されると
、ストローク間距離計算部13では入力文字パターンの
ストロークパターン5(i)(1≦1≦I:入力文字パ
ターンのストローク数)毎に、コードブックメモリ11
内の全てのコードベクトルV(c)(1≦C≦N)との
間のストローク間距離(計算法は引用文献(4)参照)
が計算される。入力文字パターンのストローク5(i)
の、全てのコードCに対するストローク間距離のテーブ
ルD(i、c)は距離テーブル部14内に保持される。
パターンマツチング部15では、標準パターンメモリ1
2中の標準パターンRを用いて、引用文献(1)、(2
)に述べられているような方法により入力文字パターン
Sを認識する。これらの認識方法では、ストローク間距
離の積分値が最小となる標準パターンを選択し、その標
準パターンのあたえるカテゴリAが認識結果となるが、
このときストロークパターン5(1)と標準パターンの
コードCのストロークとのストローク間距離を求める必
要がある。この距離は、その都度計算しなくとも、1.
Cをアドレスとして距離テーブル部14よりD(i、c
)を読みだすことにより求めることができる。
次に、本願の第2の発明の実施例について図面を参照し
て説明する。第2図はその第2の発明の一実施例の学習
フェーズに必要な部分を示す構成図である。
学習文字パターンメモリ21中には、あらかじめ学習に
用いる学習用文字パターンが保持されている。まず、コ
ードブック作成部22では、学習用文字パターンのスト
ローク毎のデータPsを学習文字パターンメモリ21か
ら読みだし、コードブックcbを作成する。このコード
ブック作成法は前述の第1の発明の実施例の場合と同じ
である。求められたコードブックcbは、学習用コード
ブックメモリ23中に保持される。
続いて、ストローク量子化部24では、学習文字パター
ンメモリ1から読みだされたストローク毎のデータPs
を量子化(コード化)し仮標準パターンRtを作成する
。この標準パターン作成法も前述の第1の発明の実施例
の場合と同じである。
次に情報圧縮部26では、コードCの列で表された1文
字の仮標準パターンRtの中に同一コードを持つストロ
ークが複数個存在した場合、1つのコードのみを残し他
を消去する。得られたパターンは標準パターンRとして
学習用標準パターンメモリ25内に保持される。このよ
うにして、全ての学習用文字パターンに対して標準パ欠
−ンRを作成する。求められたコードブックcb及び標
準パターンRは、それぞれ、第1図のコードブックメモ
リ11及び標準パターンメモリ12に転送されて保持さ
れる。
認識フェーズの動作は、第1図に示した第1の発明の実
施例の場合とほぼ同じである。ただしパターンマツチン
グ部15における認識方法は、引用文献(2)に示され
ているようなストロークの多重対応を許す方法を用いる
(発明の効果) 本願発明によれば、ストローク間距離の計算量および標
準パターンのメモリ量を従来方式より大幅に減らし、且
つストロークの微細な変形による誤認識を無くすことに
より、コンパクトで且つ高性能にしたオンライン文字認
識方式を実現することができる。
【図面の簡単な説明】
第1図は、本願の第1の発明の一実施例の構成図である
。第2図は、本願の第2の発明の一実施例の学習フェー
ズに必要な部分の構成図である。 第3図は、従来方式の問題点を説明するための図である
。第4図は、コードベクトルのパターンの例を示す図で
ある。

Claims (2)

    【特許請求の範囲】
  1. (1)学習文字パターンのストローク単位のパターンに
    対してコードブックを作成するコードブック作成手段と
    、前記コードブックを用いて学習文字パターンをストロ
    ーク単位で量子化し標準パターンを作成するストローク
    量子化手段と、入力文字パターンのストローク単位のパ
    ターンと前記コードブックを構成するコードベクトルと
    の距離を求めるストローク間距離計算手段と、前記入力
    文字パターンと前記標準パターンとを前記距離を用いて
    パターンマッチングし入力文字を認識するパターンマッ
    チング手段とを有して成るオンライン文字認識方式。
  2. (2)学習文字パターンのストローク単位のパターンに
    対してコードブックを作成するコードブック作成手段と
    、前記コードブックを用いて学習文字パターンをストロ
    ーク単位で量子化しコード列として標準パターンを作成
    するストローク量子化手段と、1文字の標準パターン中
    に同一コードが複数個存在した場合1個のコードのみを
    残し他を消去する情報圧縮手段と、入力文字パターンの
    ストローク単位のパターンと前記コードブックを構成す
    るコードベクトルとの距離を求めるストローク間距離計
    算手段と、前記入力文字パターンと前記標準パターンと
    を前記距離を用いてストロークの重複対応を許して対応
    付ることにより求めた文字間距離に基づき入力文字を認
    識するパターンマッチング手段とを有して成るオンライ
    ン文字認識方式。
JP62269089A 1987-10-23 1987-10-23 オンライン文字認識方式 Withdrawn JPH01111288A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62269089A JPH01111288A (ja) 1987-10-23 1987-10-23 オンライン文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62269089A JPH01111288A (ja) 1987-10-23 1987-10-23 オンライン文字認識方式

Publications (1)

Publication Number Publication Date
JPH01111288A true JPH01111288A (ja) 1989-04-27

Family

ID=17467517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62269089A Withdrawn JPH01111288A (ja) 1987-10-23 1987-10-23 オンライン文字認識方式

Country Status (1)

Country Link
JP (1) JPH01111288A (ja)

Similar Documents

Publication Publication Date Title
CN110163181B (zh) 手语识别方法及装置
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
JPH05143707A (ja) 符号化画像データの処理方法および装置
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN113569833A (zh) 基于文本文档的文字识别方法、装置、设备及存储介质
CN111382567B (zh) 一种中文分词和汉字多音字识别的方法及装置
JPH09319829A (ja) オンライン文字認識装置
CN114220179A (zh) 一种基于faiss的在线手写签名笔迹检索方法和系统
CN116843155B (zh) 一种基于saas的人岗双向匹配方法和系统
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN115909381A (zh) 一种文本图像识别方法、系统及相关装置
JPH01250184A (ja) 文字認識方法及び文字の回転角度判定方法
JPH01111288A (ja) オンライン文字認識方式
CN115019316A (zh) 一种文本识别模型的训练方法、文本识别方法
CN109992716B (zh) 一种基于itq算法的印尼语相似新闻推荐方法
CN114255379A (zh) 基于编解码的数学公式识别方法及装置、可读存储介质
JPH09319828A (ja) オンライン文字認識装置
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
Fred et al. A minimum code length technique for clustering of syntactic patterns
JP3025382B2 (ja) 文書処理装置
JPH09114926A (ja) オンライン文字認識における入力文字大分類方法および装置
JPH0256086A (ja) 文字認識の後処理方法
CN115064152A (zh) 语音识别方法、装置、设备及存储介质
CN115906776A (zh) 文档制作方法、装置、终端及存储介质
CN115544965A (zh) 一种简单的英语单词外观特征码的计算方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees