JPH0797394B2 - 文字切出し認識装置 - Google Patents

文字切出し認識装置

Info

Publication number
JPH0797394B2
JPH0797394B2 JP1242469A JP24246989A JPH0797394B2 JP H0797394 B2 JPH0797394 B2 JP H0797394B2 JP 1242469 A JP1242469 A JP 1242469A JP 24246989 A JP24246989 A JP 24246989A JP H0797394 B2 JPH0797394 B2 JP H0797394B2
Authority
JP
Japan
Prior art keywords
recognition
pattern
neural network
character
neuron elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1242469A
Other languages
English (en)
Other versions
JPH03103997A (ja
Inventor
輝芳 鷲澤
克己 早野
Original Assignee
株式会社テレマティーク国際研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テレマティーク国際研究所 filed Critical 株式会社テレマティーク国際研究所
Priority to JP1242469A priority Critical patent/JPH0797394B2/ja
Publication of JPH03103997A publication Critical patent/JPH03103997A/ja
Publication of JPH0797394B2 publication Critical patent/JPH0797394B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、バックプロパゲーション型ニューラルネット
を利用した文字の切出しと認識を同時に行う文字切出し
認識装置に関する。本発明は特に連続した手書き文字の
切出し認識に適する断続的視点移動を行って文字の切出
し認識を行う装置に関する。
〔概要〕
本発明は、バックプロパゲーション型ニューラルネット
を利用した文字切出し認識装置において、 ニューラルネットの出力認識パターンの偏在する位置に
ニューラルネットの視点を断続的に移動させて文字切出
し認識を行うことにより、 続け文字のように連続する手書き文字も効率よく切出し
認識を行うことができるようにするものである。
〔従来の技術〕
近年ニューラルネットを用いた手書き文字認識技術が種
々開発されている。このニューラルネットによる手書き
文字認識技術としては、バックプロパゲーションアルゴ
リズムを用いるものが盛んに研究されている。
このニューラルネットの構成例の一例を第5図に示す。
このニューラルネットは、入力層51と中間層52と認識層
53との3層で構成される。各層はそれぞれ複数のニュー
ロン素子で構成されており、この図では、入力層51はニ
ューロン素子511〜51n、中間層52は、ニューロン素子52
1〜52n、認識層53は、ニューロン素子531〜53nで構成さ
れており、各層のニューロン素子はそれぞれ前後の層の
ニューロン素子と結合しており、その結合の強さ(結合
の重み付けということもできる。)を変えることができ
るように構成される。なお、中間層52は1層だけでな
く、複数の層で構成することもできる。
認識層53が、このニューラルネットで認識した結果を出
力する。中間層52は入力層51のニューロン素子511〜51n
と認識層53のニューロン素子531〜53nとの間の結合強さ
を変えていくものである。
そして、バックプロパゲーション型のニューラルネット
で文字認識を行う文字認識装置は、認識層53が出力する
与えられた文字パターンを認識した結果の出力パターン
と望ましい出力パターンである教師パターンとを比較す
る手段を備えており、この比較により、出力パターンと
教師パターンの差が小さくなるように、ニューラルネッ
トのニューロン素子間の結合強さを変更していく。
〔発明が解決しようとする課題〕
ところで、このようなバックプロパゲーション型ニュー
ラルネットで文字認識を行う場合は、前処理として1文
字毎の切出しや正規化を施した後にニューラルネットに
文字パターンのデータを入力して文字認識を行うように
している。
しかしながら、古文書に見られるような続け文字は、ニ
ューラルネットに入力するために上述のような1文字毎
の切出しや正規化を施す前処理を行うことはできない。
このため、続け文字のような連続する字体で書かれた手
書き文字をニューラルネットで切出し認識することはで
きなかった。
ところで、人の視覚系でのパターン認識では、視点をパ
ターンの特徴点に断続的にいわばジャンプして移動させ
る断続性眼球運動(サッケードともいう。)が見られ
る。この断続性眼球運動は、人の視覚系におけるパター
ン認識において重要な意味のあるものとして医学的ある
いは工学的にも注目されて研究されているものである。
本発明は、人の視覚系運動に見られる断続性眼球運動に
着目し、このサッケードをバックプロパゲーションによ
る手書き文字の切出し認識に適用して、効率よく続け文
字のような手書き文字の切出しと認識を同時に行うこと
ができるようにした文字切出し認識装置を提供すること
を目的とする。
〔課題を解決するための手段〕 本発明は、文字パターンが入力され複数のニューロン素
子から構成される入力層と、複数のニューロン素子から
構成され前後の層のニューロン素子との結合強さを変更
する少なくとも1以上の中間層と、複数のニューロン素
子から構成され文字パターンを出力する認識層とからな
り、上記各層のニューロン素子が相互に結合され、その
結合強さが可変であるニューラルネットを備え、文字パ
ターンを上記入力層に与える手段と、この与えられた文
字パターンを認識して認識パターンを認識層から出力す
る手段と、この出力された認識パターンを与えられた教
師パターンと比較してその比較結果にしたがって教師パ
ターンと出力認識パターンとの差が小さくなるように、
上記各層間の結合強さを変える手段とを備えた文字切出
し認識装置において、 上記ニューラルネットの出力認識パターンが偏在する位
置に上記ニューラルネットの文字切出し視点を移動させ
る手段を備えたことを特徴とする。
また、ニューラルネットは複数の副ニューラルネットか
ら構成され、出力認識パターンの偏在する副ニューラル
ネットの位置をニューラルネットの視点中心にくるよう
に選択してニューラルネットの文字切出し視点を移動さ
せる手段を含むことが好ましい。
また、ニューラルネットまたは副ニューラルネットの認
識層を構成するニューロン素子の出力値の最大値を
Vmax、その最小値をVmin、VmaxおよびVminを除いたニュ
ーロン素子の出力値をVi、ニューロン素子の出力値の平
均値をVmean、ニューロン素子の総数をNとするとき、 Vmax=Vminのときは零 で定義されるエントロピEが極小となる位置に、ニュー
ラルネットの文字切出し視点を移動させる手段を備えた
ことが好ましい。
〔作用〕
入力層、中間層、認識層の3層からなるニューラルネッ
トの文字認識装置を構成する。
このニューラルネットの認識層のニューロン素子に着目
し、その出力パターンの偏在を示す値を極小となるよう
に、断続的に文字切出し視点を移動させる。
このようにニューラルネットの視点を移動すると、認識
層の1つのニューロン素子だけが興奮している状態にも
っとも近い状態になるため、文字認識をし易い位置にニ
ューラルネットの視点が移動することになる。このた
め、この位置で文字の切出しおよび認識を行うと、ニュ
ーラルネットでの文字の切出し認識を効率よく行うこと
ができる。
このニューラルネットの出力パターンの偏在を表す値と
しては、次のような評価関数を定義し、その関数値が極
小となるように視点移動を行うことがよい。
すなわち、ニューラルネットあるいは副ニューラルネッ
トの認識層のニューロン素子に着目して、そのニューロ
ン素子の出力値の最大値をVmax、その最小値をVmin、V
maxおよびVminを除いたニューロン素子の出力値をVi
ニューラルネットの認識層のニューロン素子の出力値の
平均値をVmean、ニューラルネットの認識層のニューロ
ン素子の総数をNとするとき、 Vmax=Vminのときは零 で定義されるエントロピEが極小の位置に、ニューラル
ネットの視点を移動させる。
〔実施例〕
以下図面を参照して本発明の実施例を説明する。
第1図は本発明一実施例の手書き文字切出し認識装置の
構成を示す構成図である。
この文字切出し認識装置のニューラルネット2は、二次
元マトリクス状に配置されたK×L個のサブニューラル
ネット2-K/2,L/2〜2K/2-1,L/2-1から構成されている。
この各サブニューラルネットは、それぞれ、入力層21、
中間層22、認識層23とから構成され、各層とも、ニュー
ロン素子211〜21n、221〜22i、231〜23jとを備えてお
り、この各層のニューロン素子は中間層のニューロン素
子221〜22iを介して相互に結合され、その結合強さは学
習によって変えられる構成である。そして、この各サブ
ニューラルネットは、その認識層23に出力される認識パ
ターンが与えられる教師パターンとの差が小さくなるよ
うにそのニューロン素子相互間の結合強さを変化させ
る。また、各サブニューラルネットは、その認識層23に
おける出力から後述するエントロピEを演算するエント
ロピ演算手段24を備えており、このエントロピ演算手段
24の演算結果をマトリクス状に表す出力装置3に出力す
る。
この文字切出し認識装置は、二次元マトリクス状に配置
されたニューラルネット2に認識すべき入力文字パター
ン1が画素毎に分割されて与えられる。この与えられた
入力文字パターン1はK×L個のサブニューラルネット
から構成されるニューラルネット2で認識され、またそ
の認識層23のニューラル素子の出力から、各サブニュー
ラルネットが認識している領域のエントロピEが演算さ
れて、出力装置3に各サブニューラルネットごとに出力
されてマトリクス状に表現される。この各ニューラルネ
ットごとのエントロピEの出力は極小なエントロピEを
とる座標を検出する検出手段4により、サブニューラル
ネットのうち、どのサブニューラルネットの出力するエ
ントロピが極小あるいは最小であるかを検出する。この
検出手段4の検出結果により、入力文字パターン1に対
するニューラルネット2の視点(m,n)の座標位置を、
エントロピEが極小となる入力文字パターン1の座標位
置にくるように移動させる移動手段5が設けてあり、こ
の移動手段5で、ニューラルネット2全体の視点(m,
n)を移動させる。
サブニューラルネットの配置においては、そのk、l
は、 −K/2≦k<K/2 −L/2≦l<K/2 の値を取ることができるため、入力文字パターン1が横
方向M画素、縦方向N画素であるとき、このニューラル
ネットは、一度に横方向(M+K)、縦方向(N+L)
画素領域を見ることができる。なお、第1図における
k、lはK、Lの値内でサブニューラルネットの移動距
離を表す。
この実施例ではニューラルネット全体の視点の座標を
(m,n)すなわち、サブニューラルネット2o,oの入力領
域に設定している。
なお、各サブニューラルネット2-K/2,-L/2〜2
K/2-1,L/2-1の入力層の入力領域にはその隣合うサブニ
ューラルネットとは重なり合う部分がある。
なお、本実施例においてニューラルネット2のサブニュ
ーラルネットは、その入力文字パターン1の左上隅の部
分を認識するサブニューラルネットに2-K/2,-L/2、入力
文字パターン1の中央を認識するサブニューラルネット
に2o,o、右下隅部分を認識するサブニューラルネットに
2K/2-1,L/2-1の符号をふっている。
次にこの各サブニューラルネットで演算するエントロピ
Eを定義する。
このエントロピEは、バックプロパゲーションにおける
認識し易さを示すもので、これは、ニューラルネットの
認識層のある一つのニューロン素子だけが興奮している
状態にどれだけ近いかを示す評価値と考えられ、ニュー
ラルネット2の認識層でのニューロン素子の興奮がどの
程度偏在しているかを示す量と考えることができる。
このエントロピEは、サブニューラルネットの認識層の
ニューロン素子に着目したとき、そのニューロン素子の
出力値の最大値をVmax、その最小値をVmin、Vmaxおよび
Vminを除いたニューロン素子の出力値をVi、サブニュー
ラルネットのニューロン素子の出力値の平均値を
Vmean、サブニューラルネットの認識層のニューロン素
子の総数をNとするとき、 で定義できる。
である。なお、Vmax=VminのときはエントロピEは零と
なる。
上記各サブニューラルネットのエントロピ演算手段24
は、現在サブニューラルネットが認識している入力文字
パターン1における自サブニューラルネットのエントロ
ピEを算出して、出力装置3の自ニューラルネットの出
力装置の自装置領域に出力しておく。
検出手段4は、出力装置3に出力されたエントロピEの
算出結果から、そのエントロピがもっとも小さい座標点
あるいは極小の座標点を求めて、この出力により、移動
手段5により、エントロピEが最も小さいあるいは極小
となるサブニューラルネットの座標位置をニューラルネ
ットの視点座標(m,n)となるように、ニューラルネッ
ト2の文字パターン切出しと認識のための視点を移動さ
せる。
さてここで、本発明で定義したエントロピEの性質を検
討する。
認識層23のニューロン素子の出力値のうち最大値Vmax
変化に対するエントロピEの変化は、 となり、この式が正の値をとらないためには分子が正に
ならなければよく、 {−(1-1/N)(Vmax‐Vmin2+(Vmax‐Vmean2 ≦(1−N)(Vmax‐Vmean2≦0 となる。また、最大値でも最小値でもない出力値Viの変
化に対するエントロピEの変化は、 となり、視点移動のための認識し易さを表す量を満足す
るものである。
次に具体的な手書き英数字文字パターンを与えて、その
文字パターンに対する視点を順次移動させたときのエン
トロピEを計算した例を説明して本実施例の動作を説明
する。
まず、バックプロパゲーション型ニューラルネットで学
習する標準文字パターンを第2図に示す。この標準パタ
ーンとしては各パターンにつき1種類しか与えなかっ
た。
次に学習を終えたニューラルネットに、第3図に示すよ
うな3つの文字が一つの枠の中に書記された英数字文字
パターンを与えて、そのエントロピEを計算した。
この第3図(b)の文字パターンの極小点に対する認識
層の状態を第4図に示す。この第4図の斜線の部分がエ
ントロピEの最小値へ移動できる位置であり、この斜線
部分のうちエントロピEが最小である座標点すなわち一
つのニューロン素子だけが興奮していると評価できる座
標点を文字切出しの視点(基点)として各数字文字を切
出して認識すれば文字パターンが連続する場合であって
も、認識に必要な文字パターンデータを必要な領域で切
り出すことができ、文字切出しと文字認識を同時に行う
ことができる。
なお、本実施例での文字パターンの認識は、ニューラル
ネットが一度に見える領域の広さによってその極小点へ
の収束が変化する。
たとえば、一度に呈示された英数字文字パターンすべて
を見渡せるような値として、前述のKおよびLの値をと
れば、そのニューラルネットの視点はエントロピEの最
小の地点へ移動させることができる。しかし、Kおよび
Lの値として小さな値、例えばK=L=3とした場合、
視点の軌跡はその初期値によって変化する。上述の第4
図の斜線を施した領域に視点があれば、文字切出しを行
う最適な位置まで視点を移動させてその位置で文字パタ
ーンの切出し認識を行うことができる。しかし、その視
点の初期値が例えば第4図で(20,17)の位置にあった
とすると、文字認識には適当でない極小点に落ち込み、
誤り認識をすることがある。
このような場合に対する対策として、ニューラルネット
の一度に見渡せる領域を適度な広さに設定すること、あ
るいは文字列に対して大まかな中心線を引き、この中心
線から切出し中心位置へジャンプする場合のみに、上述
の視点移動を適用することによって、適切でない極小点
への落ち込みの問題を回避することが可能である。
〔発明の効果〕
以上説明したように、本発明は続け文字のような手書き
文字の切出し認識を行う場合においてもその文字の切出
し認識位置への視点移動を行うことができるため、従来
では扱うことができなかった続け文字の切出し認識を同
時に効率よく行うことができる効果がある。
【図面の簡単な説明】
第1図は本発明一実施例の構成図。 第2図は実施例に与えた学習用パターン例。 第3図は実施例に与えた呈示用パターン例。 第4図は実施例のエントロピの極小点に対する認識層の
状態を説明する図。 第5図は従来のニューラルネットの説明図。 1……入力文字パターン、2……ニューラルネット、2
-K/2,-L/2〜2K/2-1,L/2-1……サブニューラルネット、
3……出力装置、4……検出手段、5……移動手段、2
1、51……入力層、22、52……中間層、23、53……認識
層、24……エントロピ演算手段。
フロントページの続き (56)参考文献 特開 平3−163684(JP,A) 電子情報通信学会技術研究報告,Vo l.89,No.321,NC89−37,P.27 −32,(’89年12月) 電子通信学会技術研究報告,Vol. 80,No.138,PRL80−34,P.55− 61,(’80年9月) 電子情報通信学会技術研究報告,Vo l.88,No.177,PRU88−58,P. 79−86,(’88年9月) R.A.Anderson,G.K.E ssick,and R.M.Siege l,”Encoding of spat ial location by pos terior parietal neu rons.”Science,230,P. 456−458(1985年)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文字パターンが入力され複数のニューロン
    素子から構成される入力層と、複数のニューロン素子か
    ら構成され前後の層のニューロン素子との結合強さを変
    更する少なくとも1以上の中間層と、複数のニューロン
    素子から構成され認識パターンを出力する認識層とから
    なり、上記各層のニューロン素子が相互に結合され、そ
    の結合強さが可変であるニューラルネットを備え、 文字パターンを上記入力層に与える手段と、 この与えられた文字パターンを認識して認識パターンを
    認識層から出力する手段と、 この出力された認識パターンを与えられた教師パターン
    と比較してその比較結果にしたがって教師パターンと出
    力認識パターンとの差が小さくなるように、上記各層間
    の結合強さを変える手段と を備えた文字切出し認識装置において、 上記ニューラルネットの出力認識パターンが偏在する位
    置に上記ニューラルネットの文字切出し視点を移動させ
    る手段を備え、 ニューラルネットの認識層を構成するニューロン素子の
    出力値の最大値をVmax、その最小値をVmin、Vmaxおよび
    Vminを除いたニューロン素子の出力値をVi、ニューロン
    素子の出力値の平均値をVmean、ニューロン素子の総数
    をNとするとき、 Vmax=Vminのときは零 で定義されるエントロピEが極小となる位置に、上記ニ
    ューラルネットの文字切出し視点を移動させる手段を 備えたことを特徴とする文字切出し認識装置。
  2. 【請求項2】文字パターンが入力され複数のニューロン
    素子から構成される入力層と、複数のニューロン素子か
    ら構成され前後の層のニューロン素子との結合強さを変
    更する少なくとも1以上の中間層と、複数のニューロン
    素子から構成され認識パターンを出力する認識層とから
    なり、上記各層のニューロン素子が相互に結合され、そ
    の結合強さが可変であるニューラルネットを備え、 文字パターンを上記入力層に与える手段と、 この与えられた文字パターンを認識して認識パターンを
    認識層から出力する手段と、 この出力された認識パターンを与えられた教師パターン
    と比較してその比較結果にしたがって教師パターンと出
    力認識パターンとの差が小さくなるように、上記各層間
    の結合強さを変える手段と を備えた文字切出し認識装置において、 上記ニューラルネットは複数の副ニューラルネットから
    構成され、 上記ニューラルネットの出力認識パターンの偏在する副
    ニューラルネットの位置をニューラルネットの視点中心
    にくるように選択してニューラルネットの文字切出し視
    点を移動させる手段を含む ことを特徴とする文字切出し認識装置。
  3. 【請求項3】副ニューラルネットの認識層を構成するニ
    ューロン素子の出力値の最大値をVmax、その最小値をV
    min、VmaxおよびVminを除いたニューロン素子の出力値
    をVi、ニューロン素子の出力値の平均値をVmean、ニュ
    ーロン素子の総数をNとするとき、 Vmax=Vminのときは零 で定義されるエントロピEが極小となる位置に、上記ニ
    ューラルネットの文字切出し視点を移動させる手段を 備えた請求項2に記載の文字切出し認識装置。
JP1242469A 1989-09-19 1989-09-19 文字切出し認識装置 Expired - Lifetime JPH0797394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1242469A JPH0797394B2 (ja) 1989-09-19 1989-09-19 文字切出し認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1242469A JPH0797394B2 (ja) 1989-09-19 1989-09-19 文字切出し認識装置

Publications (2)

Publication Number Publication Date
JPH03103997A JPH03103997A (ja) 1991-04-30
JPH0797394B2 true JPH0797394B2 (ja) 1995-10-18

Family

ID=17089547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1242469A Expired - Lifetime JPH0797394B2 (ja) 1989-09-19 1989-09-19 文字切出し認識装置

Country Status (1)

Country Link
JP (1) JPH0797394B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728953A (ja) * 1993-07-08 1995-01-31 Nec Corp 文字検出装置
JP6348431B2 (ja) * 2015-02-24 2018-06-27 株式会社日立製作所 画像処理方法、画像処理装置
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
US10210631B1 (en) 2017-08-18 2019-02-19 Synapse Technology Corporation Generating synthetic image data
US10452959B1 (en) 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
US11010605B2 (en) 2019-07-30 2021-05-18 Rapiscan Laboratories, Inc. Multi-model detection of objects

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
R.A.Anderson,G.K.Essick,andR.M.Siegel,"Encodingofspatiallocationbyposteriorparietalneurons."Science,230,P.456−458(1985年)
電子情報通信学会技術研究報告,Vol.88,No.177,PRU88−58,P.79−86,(’88年9月)
電子情報通信学会技術研究報告,Vol.89,No.321,NC89−37,P.27−32,(’89年12月)
電子通信学会技術研究報告,Vol.80,No.138,PRL80−34,P.55−61,(’80年9月)

Also Published As

Publication number Publication date
JPH03103997A (ja) 1991-04-30

Similar Documents

Publication Publication Date Title
CN110135243B (zh) 一种基于两级注意力机制的行人检测方法及系统
US10198689B2 (en) Method for object detection in digital image and video using spiking neural networks
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN109740463A (zh) 一种车载环境下的目标检测方法
CN107748858A (zh) 一种基于级联卷积神经网络的多姿态眼睛定位方法
CN107729872A (zh) 基于深度学习的人脸表情识别方法及装置
JPH06508464A (ja) 筆記体認識の方法と装置
CN109978882A (zh) 一种基于多模态融合的医疗影像目标检测方法
CN110533695A (zh) 一种基于ds证据理论的轨迹预测装置及方法
CN107038422A (zh) 基于空间几何约束深度学习的疲劳状态识别方法
JPH0695192A (ja) 画像認識装置及び画像入力方法
CN112149533A (zh) 一种基于改进ssd模型的目标检测方法
JP2021103347A (ja) 情報処理装置、情報処理方法及びプログラム
Ghica et al. Recognition of traffic signs by artificial neural network
CN115641471A (zh) 一种基于生成对抗网络的对抗样本生成方法及系统
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
JPH0797394B2 (ja) 文字切出し認識装置
CN116311472B (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN113327269A (zh) 一种无标记颈椎运动检测方法
CN113409316B (zh) 一种图像分类方法、装置、计算机可读存储介质及设备
CN111597864A (zh) 基于累积光流加权特征的微表情识别方法
CN109583584A (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN112487920B (zh) 一种基于卷积神经网络的翻越行为识别方法
CN112560824A (zh) 一种基于多特征自适应融合的人脸表情识别方法