JPH03102581A - 認識結果判定装置 - Google Patents

認識結果判定装置

Info

Publication number
JPH03102581A
JPH03102581A JP1241583A JP24158389A JPH03102581A JP H03102581 A JPH03102581 A JP H03102581A JP 1241583 A JP1241583 A JP 1241583A JP 24158389 A JP24158389 A JP 24158389A JP H03102581 A JPH03102581 A JP H03102581A
Authority
JP
Japan
Prior art keywords
output
recognition
recognition result
time series
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1241583A
Other languages
English (en)
Other versions
JP2892397B2 (ja
Inventor
Toru Ueda
徹 上田
Fumio Togawa
外川 文雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1241583A priority Critical patent/JP2892397B2/ja
Publication of JPH03102581A publication Critical patent/JPH03102581A/ja
Application granted granted Critical
Publication of JP2892397B2 publication Critical patent/JP2892397B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 く産業上の利用分町〉 この発明は、文字画像あるいは音?信号等の特徴量を入
力して、人力文字あるい(J人力&声を認識する際に使
用される認識結果判定装置に関する。
く従来の技術〉 従来、文字画像の特徴量を人力して、入力文字を認識す
る方法として次のような方法がある。この文字認識方法
は、第6図に示すように1行単位に切り出ざれた文字画
像データに基づいてその一端側から8×8の升目の領域
を抽出し、この領域を所定間隔で他端側に向かってソフ
トしてその領域の画像データの特徴量をニューラル・ネ
ソトワークの入力層に人力する。そして、ニューラル・
3 じように{吏用ざれる。
〈発明が解決しようとする課題〉 」二記人力文字画像の特徴量をシフトしながらニコーラ
ル・ネソI・ワークに入力して入ノノ文字を認識する方
法、あるいは、入力音声信号の特徴パラメータの時系列
を次々ニューラル・ネソトワークに入力して人力音声を
認識する方法は、例えば文字部や音節部と境界部とを識
別するようなニコーラル・ネソトワークの学習が完全に
実施されおり、ニコーラル・ネソI・ワークにおける出
力値の演算が正確に実行されていれば、−1二述の手法
によって正しい認識結果を得ることができる。しかしな
がら、一般に、ニューラル・ネットワークの学習を完全
に実施することは困難である。したがって、次の1二う
に通常は満足な認識結果が得られないという問題がある
すなわち、第4図に示すように、入力文字rinjを認
識する際に、ニューラル・ネットワークに人力する画像
データの特徴量の領域を、領域■から領域■まて順次シ
フトして入力するとする。そのネソトワークは人力され
た領域の特徴量が属1′ろカテゴリ(例えば、アルファ
ヘット,数字および記号等)に応じた出力データを求め
、この出力データの時系列を出力するのてあろ。
その際に、例えば領域イにjま文字rD−1の画像が完
全に含まれているが、領域口には文字「D」の他に文字
ITJの−・部も含まれている。したかって、完全な文
字[D−1を識別する上うに学習されているニコーラル
・ネノl・ワークは、領域イの特徴量を入力した際にお
ける文字「D」が割りイ」けられた出力ノードの出力値
の方が、領域口の特徴量を人力した際にお(ラる文字「
D」が割り{ttJられた出力ノードの出力値よりも大
きな値を示4゛。したがって、ニクーラル・ネソトワー
クからの出力データの時系列から入力文宇を識別する場
合には、出力データの時系列において最大値を出力して
いる出力ノートからの出力値の極大値を求める必要があ
る。
−1ユ述の手法は、音声信号に基つく特徴パラメータの
時系列をニコーラル・ネソトヮークに次々に人力して、
入力音声を認識する場合においても同4 場合、領域■の特徴量が人力された場合には文字[−1
4力司二しく認識される。同じように領域■の特徴量が
人力された場合には文字rnJが正しく認識されろ。と
ころが、領域■の特徴量が入力された場合には、文字「
i」と文字rnlとの境界領域であるにも拘わらず文字
rmJてあると誤認識ざれてしまう場合がある。このよ
うな誤認識{J1特徴量が人力された領域が文字画像に
おげろ文字領域であるか境界領域であるかに拘わらづ2
、領域■〜領域■まで総ての領域の特徴量を同じ条件で
処理しているから生じるのである。
そこで、この発明の11的は、認識対象の時系列が入力
されて上記認識対象を認識する認識用の二jーラル・ネ
ットワークによる認識結果が正しいか否かを判定して、
正しい認識結果を出力できる認識結果判定装置を提供す
ることにある。
〈課題を解決するための手段〉 上記目的を達威するため、第1の発明の認識結果判定装
置は、認識対象の時系列における」二記各認識対象間の
平均間隔に応じた時間間隔で興食性の値を示ずどj(に
、上記興蕾性の値の近傍においては抑制性の値を示ケウ
ェイト・ベク■・ルを格納するウエイI・格納部と、下
層における複数ノードから出力される出力ベクトルの時
系列を人力し、この入力された」一記下層の複数ノード
からの出力ベクl・ルの時系列の各値と上記ウェイ]・
格納部に格納されたウェイト・ベクトルの値とに基づい
て、上記下層における複数ノードからの出力ベクトルが
表す認識対象に対ずる認識結果が正しい認識結果である
か否かを判定するための判定用データを算出し、出力層
の各出力ノートから出力する判定用データ算出部と、」
一記判定用データ算出部から出力ざれる判定用データの
時系列に基づいて、上記下層における複数ノードからの
出力ベクトルが表す認識対象に対ずる認識結果が正しい
か否かを判定して、正しい認識結果を出カする出カ判定
部を備えたことを特徴としている。
また、第2の発明の認識結果判定装置は、上記第1の発
明の認識結果判定装置において、上記判定用データ算出
部によって判定用データを算出す7 ータ算出部によって、ウェイト格納部に格納されたウエ
イ}・・ヘクトルと」一記人ツノされた出力ヘクトルの
時系列とに基づいて、−J二記下層における複数ノード
からの出力ベクl・ルが表す認識対象に対する認識結果
が正しいか否かを判定するための判定用データが算出さ
れる。
その際に、上記ウェイト・ベクトルは、認識対象間の平
均間隔に応じた時間間隔で興蕾性の値を示すと共に、上
記興意性の値の近傍においては抑制性の値を示す上うに
設定ざれているので、認識対象に対応する判定用データ
は抑制されずに、認識対象間の境界部に対応ずる判定用
データのみが抑制されるのである。
そして、出力判定部によって、」二記判定用データ算出
部から出力される判定用データの時系列に基づいて、上
記下層にお;Jる複数ノードからの出力ベクトルが表す
認識対象に対ずる認識結果が正しいか否かが判定され、
認識対象とその境界部とを識別して正しい認識結果が出
力される。
また、第2の発明にJ5いて、゛F1]定用データ算出
る際に、算出しようと十る判定用データに対応4゛ろ上
記下層に43ける複数ノートからの出力ベクトルが表す
認識結果に応じて、上記ウェイト・ベク]・ルの値を所
定の規til1に基づいて変更するウェイト制御部を備
えたことを特徴としていろ。
また、第3の発明の認識結果判定装置は、−1−記第1
の発明の認識結果判定装置において、」二記認識対象の
時系列に基づく特徴屯の時系列を人力し、上記入力した
特徴量の時系列に基づいて、認識しようとしている認識
対象と隣接ずろ認識対象との間の間隔を表す情報を求め
ろ入力監視部と、上記入力監視部によって求められた認
識対象と隣接ずる認識対象との間隔を表す情報を人力し
て、この人力された情報に応じてL記ウェイト・ベクト
ルの値を所定の規til1に基づいて適応的に変更する
ウエイ1・制御部を備えたことを特徴としている。
く作用〉 第1の発明において、判足用データ算出部に下層におけ
る複数ノードから出力される出力ベクトルの時系列が人
力されろ。モうずると、判定用デ8 部に下層にお1′lる複数ノードから出力される出力ベ
クトルの時系列が人力ざれ、判定用データが算出されよ
うとする。その際に、ウェイト制御部によって、上記判
定用データ算出部が算出しようとしている判定用データ
に対応ずる上記下層における複数ノードからの出力ベク
}・ルが表4−認識結果に応じて、上記ウェイト格納部
に格納されたウェイI・・ベクトルの値が所定の規朋に
基づいて変更される。そうすると、」一記判定用データ
算出部は、上記ウェイト制御部によって変更されたウェ
イト・ベクI・ルを用いて判定用データを算出する。そ
うすることによって、上記境界部に対応する判定用デー
タをより抑制することか可能となるのである。
そして、出力判定部によって、判定用データ算出部から
の判定用データの時系列に基づいて、上記F層における
複数ノートからの出力ヘクトルが表す認識対象に対ずる
認識結果か正しいか否がか判定されて、更に正しい認識
払果か出力される。
また、第3の発明において、」二記認識対象の時系列に
基づく特徴量の時系列が人力監視部に入力されると、こ
の入力された特徴量の時系列に.2ヨづいて、認識しよ
うとしている認識対象と隣接ずろ認識対象との間の間隔
を表す情報が求められる。
そして、ウェイト制御部によって、」一記入力監視部に
よって求められた認識対象と隣接4−る認識対象との間
隔を表す情報に応じて、上記ウエイ1・・ベク}・ルの
値が所定の規則に基づいて変更される。
そうすると、判定用データ算出部は、上記ウェイト制御
部によって変更されたウェイト・ヘクl・ルを用いて判
定用データを作成ずる。
したがって、認識対象の時系列において−11記各認識
対象間の間隔が絶えず変化しても、適応的に追従してウ
ェイト・ベクトルの値を変更でき、更にきめ細かな認識
処理を実行できる。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。
認識用ニコーラノ1戸ネゾ}・ワークの入力層に、認識
対象のシフトされる領域の特徴量を人力する。
よって所定範囲の領域を抽出し、この領域を所定間隔で
シフトさせて領域内の特徴量を認識用ニコーラル・ネッ
トワーク2の入力層に入力する。認識用ニコーラル・ネ
ソトワーク2は、入力された上記領域内の特徴量および
内部に記憶しているウェイト・ベクトルに従ってその領
域の*,¥mB2が属する文字を表す出力ベクトルを算
出する。そして、認識結果を表オ出ノノベクl・ルの時
系列を出力ずろ。
こうして、認識用ニコーラル・ネソトワーク2によって
出力ざれた出力ベクトルの時系列は第1111カバッフ
ァ3に格納ざれる。
判定用ニコーラル・ネットワーク4(」ウェイト格納部
7と判定用データ算出部8をrfオろ。この判定用デー
タ算出部8は、±.記第1出力バッファ3に格納された
認識用ニコーラル・ネッ1・ワーク2からの出力ベクI
・ルの時系列を読み込んて、読み込まれた出力ベクトル
の時系列どウエイ1・格納部7に格納されたウェイト・
ベクl・ルに従って、認識[Tlニコーラル・ネソトワ
ーク2による認識結果がrF− L.いか否かを′I′
ll 足ずるための刊定用データそう−i゛ろと、この
よ忍識111ニコーラル・ネノトワークの出力層から認
蟲♀占果を表す出力データの時系列が出力される。この
発明の認識結果判定装置は、1;記認識用ニコーラル・
ネッ1・ワークからの出力データの時系列を入力して招
識結果判定用のデータを生成し、この判定用データに基
づいて正しい認識結果を判定して最終的な認識結果を出
力するしのである。−1−記判定11]データの生成{
よニクーラル・ネッ1・ワークによりで実行されろ。以
下、この判定用データを!:I−. T&オろニューラ
ル・ネノ1・ワークを判定用ニューラル・ネッ1・1ノ
ークと言う。
第1図はこの発明の誌識結果判定装置におけろ−・実施
例のブロック図であろ3、本実施例(j文字認識の場合
における認識1’i!i果j′4]定装置であり、人力
提示部lは認識用ニューラル・ネッl−ワーク2に入力
する人力データを生成して入力する。この入力提示部I
にはスキャナ,行抽出部および領域抽出部等を含み、ス
キャナによって読み取った文字画像データから1行分の
画像データを抽出し、この1行の文字画像データに址づ
いて領域抽出部にを算出する。そして、この算出さ,B
1た判定Illデータの時系列を出力ノードから出力す
る。こうして、判定用ニコーラル・ネソトワーク4によ
ー〕て出力された判定用データの時系列は第2出力バッ
ファ5に格納されろ。出力判定部6{」、第2出力バソ
ファ5に格納ざれた判定用ニコーラル・ネットワーク4
からの判定用データの時系列が所定の基準に合致してい
るか否かを判定して入力文字の最終的な認識結果を出力
する,、 人力監視部9(よ、入力提示部1からの人力データの内
容に応じて、後に詳述する上うに判定用ニコーラル・ネ
ットワーク4のウェイト・ベクトルの値を変更4−ろ際
に参照さイ]ろテータを作成ずろ。CPU(中央処理装
尚“)10は、人力提示部1.認識用ニクーラル・ネッ
l・ワーク2,ウエイ1・格納部7判定用データ算出部
8,第2出力ハッファ5.出力判定部6およひ人力藍視
部9を制御して、入力文字の認識動作を実行する。
第2図(上上記認識用ニコーラル・ネッi・ワーク2の
出力層から出力さ11,ろ出力ベク1・ルの時系列の上
記判定用二,−ラル・ネッ1・ワーク4への人力状態の
−例を示4″図である。第2図に43いて、矢印(で示
される4つのノード11.,12,134は、時刻tt
:;l’;ける出力データを出力している認識用二:r
−ラル・ネットワーク2の出力ノードを示ケ。以下同様
にして、矢印(t−1)で示されろ4つのノード] I
’,1 2’.+ 3’,+ 4’は、時刻(Cl.)
iこおiJる出ノノデー夕を出力してし)る認識用ニコ
ーラル・ネッ1・ワーク2の出力ノー1・を示し、矢印
( t I1.)およびグ(印(1+2)で示されるノ
ートも同様に時刻( t 4− ])および時刻(L{
2)にお(』ろ出力データを出力している出力ノードを
示している。ただし、認識用ニューラル・ネソトワーク
2の出力ノードは4つてあり、矢印(1−1),矢印(
0,矢印(t+1)および矢印(t+2)で示される各
4つのノードは、いずれも時刻(L−1−).時刻(L
),時刻(1:+i)および時刻(t+2)に43ける
出力ノードif.f2.i3  14を示している。す
なわち、第2図(」認識用ニューラル・ネットワーク2
の4つの出力ノードの時間的な変化を空間的な変化どし
て実現したものであ1;記認識用二二I−ラル・ネット
ワーク2の4つの出力ノートl 1.+ 2.1 3.
1 4は、夫々認識文字の例えばra,,IJb,.I
.rcjJd Jに割りイ”Iげらiているど4−る。
そして、この出カノー1111.21 3 , I4カ
ラ時刻( +. − 1.) 〜lljj刻L〜時刻(
t+1.)l.:おいて出力される出ノノ値(オなイっ
し、各時刻における認識結果)は、判定用ニコーラル・
ネソ}・ワーク4の入カノードζこ入ヵざれる。この場
合、説明を簡単にするために、判定用ニコーラル・ネッ
トワーク4は認識用ニューラル・ネッl・ワーク2に直
接接続されていると考え、しかも認識用ニコーラル・ネ
ッI・ワーク2の出カノード11.12  1314は
判定用ニューラル・ネゾ}・ワーク4の入ノノノードを
兼用しているものと考える。そうすると、判定用ニュー
ラル・ネットワーク4は、夫々の入力ノートに入力され
た各時刻?こおfナる値とウェイ1・格納郎7から読み
出した各時刻に対応した値のウェイト・ベクトルw(1
)とに基づいて、判定用データ算出部8で例えば式(1
)に従って判定用デー15 夕を算出し、各々の出力ノードに出力ずる。
ここで、式(+.)は認識用ニコーラル・ネットワーク
2にお(ジる認識文字rcllが割り例{Jられた出カ
ノード14からの出力値0 1d(t)に対ずる判定用
データ、ケなイっち、判定用ニューラル・ネットワーク
4におζ1る認識文字「(1」が割り付i′Jられた出
力ノードI5からの出力値0 2d(t)の算出式であ
る。
i4 02dQ)=  ΣW(i)0 1(t+i)+=] ・・(1) 但し、 W(i)  時刻(t+i)におけるウェイI・・ベク
トル。このウェイト・ベクトルは、時刻 (t+i)における認識用ニコーラル・ネットワーク2
の出力ベクトルO ](t+i)に基づいて判定用ニュ
ーラル・ネット ワーク4の出力値0 2d(t)を算出する際のウェイ
ト・ベクトルである。そし て、このウェイト・ベク1・ルの要素は16 認識用ニコーラル・ネッ}・ワーク2の出力ノーF数だ
け存在し、各要素の 値は総て等しい。
Ol(L+i)  時刻(tト1)にわける認識用ニュ
ーラル・ネソl・ワーク2からの出力ベク]・ル。
W(1)・01(L+i) ベクトルW(1)とベクトルO I(t+ i)との内
積。
T 定数。
K:正の定数。
ヒ述の式(1)は、認識用ニューラル・ネソ1・ワーク
2からの出力ベク1・ノレO I(t+i)の{直にウ
エイ}・・ベクトルW(i)の値に応じた重み付けがな
されていることを表している。
そこで、第1の発明の認識枯果判定装置においては、出
力判定部6において文字部と境界部とを識別できるよう
に、認識用ニコーラル・ネットワーク2における入カノ
ードに入力される特徴員の領域が境界部であるような1
におけるウェイト・ベクトルW(i)の値を抑制ヤLの
ウェイト・ベクトル(ずなわち、負のウエイI・・ベク
1・ル)とする一方、文字部であるようなiにおIJる
ウェイト・ベクトルW(1)の値を興禽性のウェイI・
・ベクトル(すなわち、正のウェイト・ベク1・ル)と
するのである。換ftl“れば、ウェイト・ベク1−ル
W ( i )を平均的な文字間隔(ずなわら、認識対
象の間隔)で興命性の値を有ずるように設定するのであ
る。
こうずることによって、判定用ニコーラル・ネッI・ワ
ーク4からの出力値は、境界部に45いては抑制される
一方、文字部においては抑1i1jされない。
したがって、境界部におj:lる認識用ニコーラル・ネ
ットワーク2のある出力ノーl・の出力値が大きくても
、判定用二,−ラル・ネソトヮーク4によってその値は
抑制されるので、文字部として誤認識されることから免
れるのである。
第3図は」二述のように構成ざれた認識結果判定装置に
よる認識結果判定動作および認識用ニコーラル・ネット
ワーク2による入力文字認識動作の大まかなフ[ノ−ヂ
ャートである。以下、第3図に従って入力文字認識動作
/認識結果判定動作の概19 式(1)によって判定用データが演算され、判定用デー
タの時系列が出力される。
ステップS5で、1−,記ステップS4において出力さ
れた判定用データの時系列が第2出力バソファ5に格納
される。
ステソブS6で、第2出力バッファ4に格納ざれた判定
用データの時系列が順次読み出され、出力判定部6によ
って、この判定用データの時系列に乱づいて人力文字が
最終的に認識されて認識結果が出力され、人力文字認識
動作/認識結果判定動作が終了する。
次に、認識結果判定装置による認識結果判定動作につい
て、入力文字「1n」を認識する場合を例に具体的に説
明する。
第4図は認識用ニコーラル・ネッ1・ワーク2の入カノ
ードに入力される文字画像r’inJを示す。この文字
画像を認識用ニューラル・ネットワーク2に入力ケる際
には、文字画像から所定の大きさの領域を抽出し、その
領域を領域■から領域■まで順次ンフトしてその領域の
特徴量を人力する。そ略について述べる。
ステップS1て、人力堤示部1によって、」−述のよう
にして、認識用二コーラル・ネソ]・ワーク2の人カノ
ーl・に人力文字画像の仔意の領域の特徴量がその領域
を順次ンフ[・さUながら入力される。
ステソブS2て、il%識用二:r−ラル・ネソトワー
ク2に43いて、順次ノフ1・されて入力さS1た文才
一両像の特徴41に』,(ついて認識処理か尖行され、
認識結果を表4′出力ベクI・ルの時系列が出力される
ステップ83で、−ヒ記ステソプS2において出力ざれ
た出力ベク1・ルの時系列が第1出力バノファ3に格納
される。
ステソプS4で、第1出力バノファ3に洛納された認識
用ニューラル・ネノトヮーク2の出力ベクトルの時系列
の中から、認識用ニューラル・ネンl・ワーク2に上る
認識結果を判疋しようとする時刻(を中心として前後]
゛個の出力ベクトルを読み込む。そして、この読み込ま
れた時刻(L ′r)〜時刻L〜時刻(t+T)に才5
(」ろ出力ベクトルに基づいての場合、領域■には[−
1」の文字画像が完全に入り、領域■にはrrlの文字
画像が完全に入っており、共に文字部を構成していろ。
したがって、この文字画像「in−1の場合に(よ、境
界部である領域■,領域■および領域■にお1:lる認
識用ニューラル・ネットワーク2からの出力ヘクトルの
値を抑制し、文字部てある領域■と領域■とにおける出
力ベク}・ルの値を抑制しないようにウエイ1・・ベク
トルW(i)を設定4〜ればよい。
そこて、ウェイト・ベクトルW(i)を第5図に示す土
うに設定する6すなわち、本実施例にお(ラるウェイト
・ベクトルW(i)は、(Ril移lが1 −3および
i=3において興奮性の値W (−3) 一= W (
3) = 05を示すようになっている。こt+. t
J:、例えば第4図にお(Jろ文字部である領域■を偏
移“0゛゜に当て嵌めろと、同しく文字部てあろ領域■
はイ粘1移゛3”に当て嵌まり、文字部に.l3!ナる
ウJ.イト・ベクトルW(】)の値が興奮}生の値にr
−jるように設定ざれている。それと同時に、境界部に
お{1るウエイ1・・ベクトノlパV(i)の値は゛0
′゜よノ,ζ」“−0.8”であり抑制性のkになる上
うに設定されているのである。
まず、認識1i1ニコーラル・ネッ}・ワーク2の人カ
ノードに、第4図に示す文字画像の領域■から領域■ま
て順次シフトされた領域の特徴量が人力される。ここで
、認識用ニコーラル・ネットワーク2はrij.l−m
JrnJの3文字を識別1,て認識ずろものであるとず
ろ。したかー)て、認識用ニューラル・ネノl・ワーク
2の出力ノードは認識文字Fil「ml,l’−nlに
割り付ζづられている。その結果、第1表に示すような
出力ベク}・ル01.(t)が得られる。
第I表 表中におのる*印は各領域における最大出力値を示す。
この場合、従来の方法に上れば、出力判定部6は例えば
閾値”0.7”以上の最人出力値を呈する出力ノードに
割り付けられた認識文字を認識23 一・方、各時刻における認識用ニコ、一ラノレ・ネソl
・ワーク2の出力ベクトルは第1表1′.り次のようこ
なる。
0 1(t−2)= (1.0,0.2,0.2)、0
1−(t−4)=(0.I.,0.10 2)、  0
1(t+1)=(0.2,0.1,0.8)、  01
(tト2)==(02 0.I..O.I) また、時刻(にお(づる認識用一ニコーラノレ・ネ・ノ
l・1ノーク2の出力ノート1m」の出力値01m(t
)!:!第1表より、0 1.m(t)= 0 . 8
である。
したかって、判定用ニコーラル・ネ・ソト1ノーク4に
おける出力ノード丁m」から出力される判定月1データ
0 2mQ)は、式(1)上り次のよう(こ求めること
ができる。まず、式(1)の第1項は、172 ΣW(i)・01(L利) l:I W(1)・O (t+l.) + W (2)・O (
t+2)(−0.Pt,−0.8,−.0.8)・(Q
.2,O.I.,[1.8)+(0,0.0)・(0.
2.0.1.[).l.)(−0.8)X0.2+ (
−0.8)XO.l+ (−0.8)X0.8088 次に、式(1)の第2項は、 結果とする場合には、第1表に従一)て認識結果の時系
列I−1m−n」が出力され、本来はrin−jである
人力文字が(’imnjど誤認識されてしまうのである
そこで、以下に詳述4−るように、判定用ニコーラル・
ネッl・ワーク4によって各出力ヘクl・ル01.(t
)に対才ろ判定用データを算出し、この判定用データに
基づいて正しく人力文字を認識ずろのである。
以下、領域■(境界部)におけろ出力ノード「mlの出
力値” 0 . 8 ”と、領域■(文字部)における
出力ノート[n−1の出力値゛゜0 8”とに対ずろ判
定用データの算出について、具体的に述べる。
a)領域■における出力ノード「m」 ここで、領域■の時刻か1となるから、領域■の時刻{
J.(t−.1.)、領域■の時刻(よ(1−2)、領
域■の時刻は011)、領域■の時刻は(t+2)とな
る。
したかって、判定用ニコーラル・ネゾ}・ワーク4にお
Oるウェイト・ヘク]・ルW(1)は第5図より次のよ
うになる。
W(−2)= (0.0.0)、W(川)=(−0.8
,−0.8.−0.8)、W’(])=(−0.8,−
0.8,.....0.8)、W(2)=(CI,0.
0)?4 W(−1.)・○(t−1)+W(−2)・O (t−
2)(−0.8,−0.8,−0.8)・(0.]..
,O.!.,0.2)+(0,0.0)・(1..0.
0.2,0.2)(−0.8)XO.ll−(−[).
8)XO,l+(0.8)X0.20.32 さらに、式(1)の第3項は、K == 1として、K
−0]m(L)−1 xO.8=0.8したがって、 1二2 0 2m(t)一 ΣW(i)01(t+i)1:1 0  88−0.32 l−0.8 04 1))領域■にお{1′ろ出力ノーF「n 1ここで、
領域■の時刻が(となるから、領域■の時刻は0−1)
、領域■の時刻は(t−2)、領域■の時刻は(t−3
)、領域■の時刻(』0←1)となる。したがって、ウ
ェイト・ベク1・ルW(】)および認識用ニコーフル・
ネノ]・ワーク2の出力{7iは次のようになW(−3
)=(0.5,0.5,0.5)、W(−2)=(0,
o,o)、W(−1.)−(−0.8,−0.8,−0
.8)、 W].=(−0.8,−0.808) 0 1.(t−3)= (1.0,0.2,0.2)、
01(t−2)=(0.]...0.10.2)、O 
](t−1)= (0.2,0.8,0.:’l)、0
 1..(t+1.)= ([12 0.1 0.1.
) 0 1n(t) = 0 . 8 したがって、判定用ニューラル・ネ・ソトワーク4にお
ける出力ノード丁n」から出力される判定用データ0 
2n(t)は、式(1)上りK=1として次のように求
めることかできる。
1−1 0 2n(t)一 Σ W(i)Of(い1)i=1 = (−0.8.−08,−0.8)・(0.2,O.
I.,0.1.)−t− (−0.8,−0.8,−0
.8)・(0 . 2 , 0 . 8 , 0 . 
3)+(0.5,0.5,0.5)・(1.[l,0.
2,0.2)十0.8 =−0 . 3 2−0 . 3 4 −+− 0 .
 827 0  14 以下同様にして、第1表に示した認識用ニコーラル・ネ
ソトワーク2の出力ベクトル01(1)に応して、’l
’.ll定用ニューラル・ネソl・ワータ4によって判
定用データが算出さ21、’l.!I定用データのベク
]・ルが第2表に示すように出力ざれる。第2表は、各
領域■〜■における出力ヘクl・ルの最大値に対ケろ判
定用データのみを表示している。
第2表 この場合、第1表に示すように、認識用ニコーラル・ネ
ソトワーク2から出力される領域■に43ける出力ノー
ド丁m」の出力値と領域■におげる出力ノード[−n1
の出力値と(.L同し値゜゛0 8”を1′.シている
。ところが、この同じ値“0 8”に対して判定用二:
r−ラル・ネットワーク4によって得られた判定用デー
タは、文字部てある領域■にJ3いては相28 ?的に大きな値”0.14”となる一方境界部てある領
域■においては相対的に小さい値“−0 4”となり、
夫々異なる値になる。
したがって、出力判定部6は例えば閾値” o . o
 ”以」二の最大出力値を呈する出力ノードに割り付け
られた認識文字を認識結果とする場合には、第2表に従
って認識結果の時系列「1−01が出力される。
すなわち、入力文字「1n」の画像データが入力された
場合に、文字部「1」お上び文字部rnJとそれらの境
界部とを識別して正しく人力文字を認識できるのである
上述のように、本実施例においては、シフ1・される領
域内の特徴量に基づいて、認識用ニコ−−ラル・ネッ}
・ワーク2によって入力文字が認識される。そうすると
、平均的な文字間隔て■蕾仕の値を有するように設定さ
れたウエイ1・・ベクトルW(1)と認識用ニューラル
・ネットワーク2からの出力ベクl・ルの時系列とに基
づいて、判定用ニコーラル・ネットワーク4の判定用デ
ータ算出部8によって、式(1)に従って文字部と境界
部とをより正しく判定するための判定用データを算出す
る。
そして、この判定用データの時系列に基づいて出力判定
部6によって正しい文字以識結果を出力する。したが引
て、認識用ニコーラル・ネットワーク2による認識結果
が正しいか否かを判定して正しい認識結果を出力できろ
上記実施例における判定用データの算出アルゴリズムは
、例えば日本語文字を認識する際には膨大な計算量とな
る。そこで、計算量を少なくする方法として、各領域■
〜■にお{プる杷識用ニューラル・ネッI・ワーク2の
出力ベクトルの最大出力値(第1表における*印の付加
された出力値)のみを用いて判定川データを算出電る,
、この場合に得られる判定用データは第3表に示すよう
になる。
第3表 この場合し、第2表と同様に文字部である領域■にJ:
 tJろ判定用データは抑制され4′゛にIQ界部であ
る領域■にお(−jろ判定用データか抑制ざれる。した
がって、出力判定郎6(J閾仏“0 0゜′より大きな
最人出力値を−宅4−る出力ノードに割りイマ]けられ
た認識文字を認識結果とするようにすると、第3表に従
一)て認識結果の時系列ri−nlが出力される。
上記各実施例は、この発明を文字認識に使用した場合の
例であるが、音声認識に使用した場合にも同じような効
果が得られる。ずなわら、この場合にはウェイト・ベク
トルW(i)の興蕾ヤ1:の間隔を平均音節長に設定す
るのである。こうずることによって、平均音節長に近い
間隔における特?FI.量に基つく認識用ニコーラル・
ネットワークの出力値は抑制ざれず、その間の区間にお
ける特徴量に基づく認識用ニコーラル・ネットワークの
出力値は抑制され、認識率を上げることができるのであ
る。
このことは、人間の丈際に音を聞き取る動作において、
ある音が聞こえる(すなわち、認識される)とその後の
短区間は認識に関tj.シないというマスク効果によく
似た現象であると言える。但し、音31 認識桔果に応じた、換言すれば、判別用ニコーラル・ネ
ントワーク4に対する人カベクトルに応じたCPUIO
の制御によって、ウェイト・ベク1・ルW(1)の値を
変更するのである。
ずなわら、時刻Lにおける人力ヘクトルのうち最大偵を
呈する要素を出力した認識用二:I−ラル・ネノトワー
ク2の出力ノー1・が割りイで]けられている文字が(
ずなイつら、認識用ニューラル・ネットワーク2の認識
結果力9文字幅の狭い「1」の場合には、例えば第5図
に示すi−W(i)の関係を1軸に沿って縮小したi−
W(i)関係を子Jずるウエイ1・・ベクトルW(1)
を用いろようにする。また、文字幅の広い[−m」の場
合には、第5図に示ずl−W(i)の関係を1袖に’/
(’tって伸長したi−W(i)関係を有するウェイト
・ベクトルW(i)を用いるようにするのである。
古なわち、七記第1の発明で述へた実施例の場合には、
領域■にお51る出力ノー1’「mlの出力値の算出の
際に用いるウェイト・ベクトルW(1)として、第5図
に示すi−W(i)関係をi軸に沿って弓声詔識の場合
には、マスク効果の影饗度が時間的な前後に対して異な
るため、第5図に示すウェイト・ベクトルのi−W(i
)関係を時間の正逆方向に対して非対象にすることによ
って、さらに認識率を高めろことかできる。
上記文字認識の場含の尖施例に13いては、領域■にお
けろ出力ノード「m−1の出力偵の算出の際にお{Jる
ウ」.イト・ヘクトルW(1)と、領域■にわげる出力
ノー}・丁n−1の出力値の算出の際にお(ナるウエイ
]・・ベク}・ル’A’ ( i )と{J、、i−W
(i)関係が同し(第5図に示す関係)であるウェイト
・ベクl・ルW(i)を用いている。ところが、一般に
文字間隔は文字幅によって異なり、例えば[l」は文字
幅が狭<rmJtユ文字Φ1゛3が広いのでl−i1−
rm4の間隔とrmJと次の文字との間隔とは異なる。
したがって、文字部ど境界部とを適確に判別するために
は興蕾性のウェイト・ベクトルの間隔を文字間隔に応じ
て変更する必要かある。
そこで、第2の発明の認識イ111果判疋装ρlに71
3いては、認識用ニコーラル・不ノ1・ワーク2に土る
32 き伸ばしたウエイ[・・ベクl・ルW(i)を用いるの
である。このように、認識}1]ニコーラル・ネソトワ
ーク2の認識結果に応じてウエイ1・・ベク]〜ルW(
])を変更することによって、領域■における出カノー
ドI”’mlの出力値算出の際に用いられろウェイト・
ベクトルW(1)のイ直か1ニリ小さくなり、よりノ←
きむ抑制効果が得られるのである。(7たがって、文字
幅の小さい文字や大きい文字の特性に合一・たように正
確に興奮と抑制の効果が得られ、さらに制度の高い文字
認識ができる。
上述のようなウェイト・ベクトルW(】)にお(」る興
蕾性の値の間隔の制御は、予め認識対象間の間隔を直接
求めて、この永めた認識対象間の間隔に応じて判定時に
適応的に実施4−るようにすれば、さらにきめ細かな認
識処理を尖行てきる。
そこで、第3の発明の認識結果判定装置においては、第
1因にJ5(つる人力監視部9によって認識苅象の特徴
量に基づいて認識対象間の間隔を求め、人力監視部9か
らのデータに基づいてCPLJIOによー)てウエイI
・・ベクトルW(i)の値を変更するものである。
以下、上述の入ノノ監視部9およびC P L.J I
 Oによるウェイト・ベクトルW(1)の制御について
、音声認識の場合を例に具体的に説明4−る。入力監視
部9は、入力提示部1の音声分析部に音声信号か入力さ
れるど、A/I)変換ざれて−・定のフレーム長でケプ
ストラム係数が求められ、入力監視部9に出力される。
そうすると、人力監視部9は、数フレーム離れたフレー
ム問のケブス1・ラム係数値(スペクトル変化)が極小
値を取るフレームの前後数フレーム区間の中から、連続
する類似フレーム(すなわち、上記極小値を取るフレー
ムとのケプストラノ,、係数値の差が閾値以下となるフ
レーム)の数を求め、その連続する類似フレームの数を
定常部区間長どする。そして、予め記憶している定常部
区間長と発声速度との対応表を参照して、上記求められ
た定常部区間長に基づいて平均発声速度を算出し、この
平均発声速度の逆数から平均音節長を求めるのである。
そうずると、CPUl.Oはウェイト格納部7か35 この発明における判定用データ算出アルゴリズムは、上
記各実施例にお+1るアルゴリズムに限定されるもので
はない。
〈発明の効果〉 以上より明らかなように、第1の発明の認識結果判定装
置は、ウェイト格納部.判定用データ算出部および出力
判定部を備えて、下層における複数ノードから出力され
る出力ヘクトルの時系列を上記判定用データ算出部に入
力し、上記ウェイト格納部に格納されたウェイト・ベク
トルを用いて、下層における複数ノートから出力される
出力ベクトルが表す認識結果が正しいか否かを判定する
ための判定用データを求め、この判定用データに基づい
て上記出力判定部によって上記認識結果が正しいか否か
を判定して正しい認識結果を出ノノするようにしたので
、下層によるソフトされる領域の特徴量に基づく認識結
果が正しいか否かを上記判定用データに基づいて判定す
ることができ、正しい認識結果を出力ずることができる
また、第2の発明の認識結果判定装置は、上記ら対応ず
るウエイ}・・ヘクトルW(1)を読み出し、入力監視
部9からの平均音節長に基づいて、ト述のようにウエイ
1・・ベクトルW(i)の興奮性の間隔を平均音節長に
変更するのである。こうずることにjコって、発声速度
が変化しても適応的に追従してウェイト・ベクl・ルW
(1)の興奮性の間隔を平均音節長に制御することかて
き、きめ細かな音声認識処理を実施できるのである。
この発明における平均音節長算出のアルゴリズムは、本
実施例のアルゴリズムに限定されるものではない。
」二記各実施例においては、認識用ニコーラル・ネット
ワーク2と判定用ニューラル・ネソI・ワーク4とを異
なるニューラル・ネットワークによって構威している。
しかしながら、この発明はこれに限定されるものではな
く、一つのニコーラル・ネッ1・ワークによって構成し
、そのニコーラル・ネソトワークの下層部を認識用のニ
コーラル・ネットワークとし、上層部を判定用のニョー
ラル・ネットワークとしも差し支えない。
36 ウェイト格納部,判定用データ算出部および出力判定部
に加えてウェイト制御部を備えて、上記判定用データ算
出部が算出しようどしている判定用データに対応ずる下
層における複数ノードからの出力ベクトルが表す認識結
果に応じて、1二記ウェイト制御部によって上記ウエイ
I・・ベク1・ルの値を所定の規1’ll1に従って変
更l−るようにしたので、認識対象間の境界部におげろ
上記F層における複数ノートからの出力値を更に抑制し
て上記判定用データを算出することが可能となる。した
がって、この発明の認識結果判定装置によれば、より正
しい認識結果を出力できる。
また、第3の発明の認識結果判定装置(J、」二記ウェ
イト格納部.!P11定用デーク算出部および出力判定
部に加えて、入力監視部およびウェイト制御部を備えて
、上記入力監視部に上って認識対象と隣接する認識対象
との間隔を表す情報を求め、この情報に応じて上記ウェ
イト制御部によってウェイト・ベクトルの値を変更づー
るようにしたので、入力される認識対象間の間隔が絶え
ず変化しても適応的に追従してウェイト・ベクトルを変
更でき、更に正しい認識結果をIIj力できる。
【図面の簡単な説明】
第1図はこの発明の認識結果判定装置にお(:lろ一実
施例のブロック図、第2図は認識用ニクーラル・ネット
ワークからの出力ベク1・ル時系列の判定用ニューラル
・ネットワークへの入力状態の説明図、第3図は入力文
字認識動作および認識結果判定動作のフローヂャート、
第4図は認識用ニコーラル・ネッI・ワークに入力され
る特徴量の領域に対ずるソフトの説明図、第5図はウェ
イト・ヘクI・ルの値の一例を示す図、第6図は従来例
における文字画像データ入力の説明図である。 1 人力提示部、 2・・認識用ニコーラル・ネットワーク、3・・第I出
力バソファ・ 4・・判定用ニューラル・ネットワーク、5 第2出力
バッファ、    6・・・出力判定部、7 ウェイト
格納部、8・判定用データ算出部、9・・・人力監視部
、      10−CPU03g

Claims (3)

    【特許請求の範囲】
  1. (1)認識対象の時系列における上記各認識対象間の平
    均間隔に応じた時間間隔で興奮性の値を示すと共に、上
    記興奮性の値の近傍においては抑制性の値を示すウェイ
    ト・ベクトルを格納するウェイト格納部と、 下層における複数ノードから出力される出力ベクトルの
    時系列を入力し、この入力された上記下層の複数ノード
    からの出力ベクトルの時系列の各値と上記ウェイト格納
    部に格納されたウェイト・ベクトルの値とに基づいて、
    上記下層における複数ノードからの出力ベクトルが表す
    認識対象に対する認識結果が正しい認識結果であるか否
    かを判定するための判定用データを算出し、出力層の各
    出力ノードから出力する判定用データ算出部と、上記判
    定用データ算出部から出力される判定用データの時系列
    に基づいて、上記下層における複数ノードからの出力ベ
    クトルが表す認識対象に対する認識結果が正しいか否か
    を判定して、正しい認識結果を出力する出力判定部を備
    えたことを特徴とする認識結果判定装置。
  2. (2)請求項1に記載の認識結果判定装置において、 上記判定用データ算出部によって判定用データを算出す
    る際に、算出しようとする判定用データに対応する上記
    下層における複数ノードからの出力ベクトルが表す認識
    結果に応じて、上記ウェイト・ベクトルの値を所定の規
    則に基づいて変更するウェイト制御部を備えたことを特
    徴とする認識結果判定装置。
  3. (3)請求項1に記載の認識結果判定装置において、 上記認識対象の時系列に基づく特徴量の時系列を入力し
    、上記入力した特徴量の時系列に基づいて、認識しよう
    としている認識対象と隣接する認識対象との間の間隔を
    表す情報を求める入力監視部と、 上記入力監視部によって求められた認識対象と隣接する
    認識対象との間隔を表す情報を入力して、この入力され
    た情報に応じて上記ウェイト・ベクトルの値を所定の規
    則に基づいて適応的に変更するウェイト制御部を備えた
    ことを特徴とする認識結果判定装置。
JP1241583A 1989-09-18 1989-09-18 認識結果判定装置 Expired - Fee Related JP2892397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1241583A JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1241583A JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Publications (2)

Publication Number Publication Date
JPH03102581A true JPH03102581A (ja) 1991-04-26
JP2892397B2 JP2892397B2 (ja) 1999-05-17

Family

ID=17076473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1241583A Expired - Fee Related JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Country Status (1)

Country Link
JP (1) JP2892397B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221976A (ja) * 2001-01-24 2002-08-09 Yamaha Corp 話速検出方法および音声信号処理装置
CN112397053A (zh) * 2020-11-02 2021-02-23 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221976A (ja) * 2001-01-24 2002-08-09 Yamaha Corp 話速検出方法および音声信号処理装置
CN112397053A (zh) * 2020-11-02 2021-02-23 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质
CN112397053B (zh) * 2020-11-02 2022-09-06 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP2892397B2 (ja) 1999-05-17

Similar Documents

Publication Publication Date Title
US7200558B2 (en) Prosody generating device, prosody generating method, and program
US5526466A (en) Speech recognition apparatus
US10847151B2 (en) Dialogue system and dialogue method
JP3168779B2 (ja) 音声認識装置及び方法
TW201935272A (zh) 基於多模態情緒與臉部屬性識別的人機交互方法、系統
JP6787770B2 (ja) 言語記憶方法及び言語対話システム
JPH0634185B2 (ja) 入力語認識装置
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及系统
JP3521429B2 (ja) ニューラルネットワークを用いた音声認識装置およびその学習方法
US5375173A (en) Speaker adapted speech recognition system
JPH03102581A (ja) 認識結果判定装置
CN116257816A (zh) 一种陪护机器人情绪识别方法、装置、存储介质及设备
JP6846310B2 (ja) 距離測定装置、データ変換装置、距離測定方法、及びプログラム
JP2021009571A (ja) 顔認識装置、学習装置及びプログラム
CN114242045A (zh) 一种自然语言对话系统意图深度学习方法
JPH0667698A (ja) 音声認識装置
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
JP3222699B2 (ja) パターン認識装置
CN117892237B (zh) 一种基于超图神经网络的多模态对话情绪识别方法及系统
US11735158B1 (en) Voice aging using machine learning
Benayed et al. Improving the performance of a keyword spotting system by using support vector machines
JPH04198997A (ja) 音声認識方法
KR100349656B1 (ko) 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
CN117854510A (zh) 一种演讲者识别方法及其装置、设备、存储介质
JP2019219830A (ja) 感情評価方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees