JP2892397B2 - 認識結果判定装置 - Google Patents

認識結果判定装置

Info

Publication number
JP2892397B2
JP2892397B2 JP1241583A JP24158389A JP2892397B2 JP 2892397 B2 JP2892397 B2 JP 2892397B2 JP 1241583 A JP1241583 A JP 1241583A JP 24158389 A JP24158389 A JP 24158389A JP 2892397 B2 JP2892397 B2 JP 2892397B2
Authority
JP
Japan
Prior art keywords
output
recognition
input
recognition result
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1241583A
Other languages
English (en)
Other versions
JPH03102581A (ja
Inventor
徹 上田
文雄 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP1241583A priority Critical patent/JP2892397B2/ja
Publication of JPH03102581A publication Critical patent/JPH03102581A/ja
Application granted granted Critical
Publication of JP2892397B2 publication Critical patent/JP2892397B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、文字画像あるいは音声信号等の特徴量を
入力して、入力文字あるいは入力音声を認識する際に使
用される認識結果判定装置に関する。
〈従来の技術〉 従来、文字画像の特徴量を入力して、入力文字を認識
する方法として次のような方法がある。この文字認識方
法は、第6図に示すように1行単位に切り出された文字
画像データに基づいてその一端側から8×8の升目の領
域を抽出し、この領域を所定間隔で他端側に向かってシ
フトしてその領域の画像データの特徴量をニューラル・
ネットワークの入力層に入力する。そして、ニューラル
・ネットワークは入力された領域の特徴量が属するカテ
ゴリ(例えば、アルファベット,数字および記号等)に
応じた出力データを求め、この出力データの時系列を出
力するのである。
その際に、例えば領域イには文字「D」の画像が完全
に含まれているが、領域ロには文字「D」の他に文字
「I」の一部も含まれている。したがって、完全な文字
「D」を識別するように学習されているニューラル・ネ
ットワークは、領域イの特徴量を入力した際における文
字「D」が割り付けられた出力ノードの出力値の方が、
領域ロの特徴量を入力した際における文字「D」が割り
付け出力ノードの出力値の方が、領域ロの特徴量を入力
した際における文字「D」が割り付けられた出力ノード
の出力値よりも大きな値を示す。したがって、ニューラ
ル・ネットワークからの出力データの時系列から入力文
字を識別する場合には、出力データの時系列において最
大値を出力している出力ノードからの出力値の極大値を
求める必要がある。
上述の手法は、音声信号に基づく特徴パラメータの時
系列をニューラル・ネットワークに次々に入力して、入
力音声を認識する場合においても同じように使用され
る。
〈発明が解決しようとする課題〉 上記入力文字画像の特徴量をシフトしながらニューラ
ル・ネットワークに入力して入力文字を認識する方法、
あるいは、入力音声信号の特徴パラメータの時系列を次
々ニューラル・ネットワークに入力して入力音声を認識
する方法は、例えば文字部や音節部と境界部とを識別す
るようなニューラル・ネットワークの学習が完全に実施
されており、ニューラル・ネットワークにおける出力値
の演算が正確に実行されていれば、上述の手法によって
正しい認識結果を得ることができる。しかしながら、一
般に、ニューラル・ネットワークの学習を完全に実施す
ることは困難である。したがって、次のように通常は満
足な認識結果が得られないという問題がある。
すなわち、第4図に示すように、入力文字「in」を認
識する際に、ニューラル・ネットワークに入力する画像
データの特徴量の領域を、領域ら領域まで順次シフ
トして入力するとする。その場合、領域の特徴量が入
力された場合には文字「i」が正しく認識される。同じ
ように領域の特徴量が入力された場合には文字「n」
が正しく認識される。ところが、領域の特徴量が入力
された場合には、文字「i」と文字「n」との境界領域
であるにも拘わらず文字「m」であると誤認識されてし
まう場合がある。このような誤認識は、特徴量が入力さ
れた領域が文字画像における文字領域であるか境界領域
であるかに拘わらず、領域〜領域まで総ての領域の
特徴量を同じ条件で処理しているから生じるのである。
そこで、この発明の目的は、認識対象の時系列が入力
されて上記認識対象を認識する認識用のニューラル・ネ
ットワークによる認識結果が正しいか否かを判定して、
正しい認識結果を出力できる認識結果判定装置を提供す
ることにある。
〈課題を解決するための手段〉 上記目的を達成するため、第1の発明の認識結果判定
装置は、認識対象の時系列における上記各認識対象間の
平均間隔に応じた時間間隔で興奮性の値を示すと共に、
上記興奮性の値の近傍においては抑制性の値を示すウエ
イト・ベクトルを格納するウエイト格納部と、下層にお
ける複数ノードから出力される出力ベクトルの時系列を
入力し、この入力された上記下層の複数ノードからの出
力ベクトルの時系列の各値と上記ウエイト格納部に格納
されたウエイト・ベクトルの値とに基づいて、上記下層
における複数ノードからの出力ベクトルが表す認識対象
に対する認識結果が正しい認識結果であるか否かを判定
するための判定用データを算出し、出力層の各出力ノー
ドから出力する判定用データ算出部と、上記判定用デー
タ算出部から出力される判定用データの時系列に基づい
て、上記下層における複数ノードからの出力ベクトルが
表す認識対象に対する認識結果が正しい否かを判定し
て、正しい認識結果を出力する出力判定部を備えたこと
を特徴としている。
また、第2の発明の認識結果判定装置は、上記第1の
発明の認識結果判定装置において、上記判定用データ算
出部によって判定用データを算出する際に、算出しよう
とする判定用データに対応する上記下層における複数ノ
ードからの出力ベクトルが表す認識結果に応じて、上記
ウエイト・ベクトルの値を所定の規則に基づいて変更す
るウエイト制御部を備えたことを特徴としている。
また、第3の発明の認識結果判定装置は、上記第1の
発明の認識結果判定用データ装置において、上記認識対
象の時系列に基づく特徴量の時系列を入力し、上記入力
した特徴量の時系列に基づいて、認識しようとしている
認識対象と隣接する認識対象との間の間隔を表す情報を
求める入力監視部と、上記入力監視部によって求められ
た認識対象と隣接する認識対象との間隔を表す情報を入
力して、この入力された情報に応じて上記ウエイト・ベ
クトルの値を所定の規則に基づいて適応的に変更するウ
エイト制御部を備えたことを特徴としている。
〈作用〉 第1の発明において、判定用データ算出部に下層にお
ける複数ノードから出力される出力ベクトルの時系列が
入力される。そうすると、判定用データ算出部によっ
て、ウエイト格納部に格納されたウエイト・ベクトルと
上記入力された出力ベクトルの時系列とに基づいて、上
記下層における複数ノードから出力ベクトルが表す認識
対象に対する認識結果が正しいか否かを判定するための
判定用データが算出される。
その際に、上記ウエイト・ベクトルは、認識対象間の
平均間隔に応じた時間間隔で興奮性の値を示すと共に、
上記興奮性の値の近傍においては抑制性の値を示すよう
に設定されているので、認識対象に対応する判定用デー
タは抑制されずに、認識対象間の境界部に対応する判定
用データのみが抑制されるのである。
そして、出力判定部によって、上記判定用データ算出
部から出力される判定用データの時系列に基づいて、上
記下層における複数ノードからの出力ベクトルが表す認
識対象に対する認識結果が正しいか否かが判定され、認
識対象とその境界部とを識別して正しい認識結果が出力
される。
また、第2の発明において、判定用データ算出部に下
層における複数ノードから出力される出力ベクトルの時
系列が入力され、判定用データが算出されようとする。
その際に、ウエイト制御部によって、上記判定用データ
算出部が算出しようとしている判定用データに対応する
上記下層における複数ノードからの出力ベクトルが表す
認識結果に応じて、上記ウエイト格納部に格納されたウ
エイト・ベクトルの値が所定の規則に基づいて変更され
る。そうすると、上記判定用データ算出部は、上記ウエ
イト制御部によって変更されたウエイト・ベクトルを用
いて判定用データを算出する。そうすることによって、
上記境界部に対応する判定用データをより抑制すること
が可能となるのである。
そして、出力判定部によって、判定用データ算出部か
らの判定用データの時系列に基づいて、上記下層におけ
る複数ノードからの出力ベクトルが表す認識対象に対す
る認識結果が正しか否かが判定されて、更に正しい認識
結果が出力される。
また、第3の発明において、上記認識対象の時系列に
基づく特徴量の時系列が入力監視部に入力されると、こ
の入力された特徴量の時系列に基づいて、認識しようし
ている認識対象と隣接する認識対象との間の間隔を表す
情報が求められる。そして、ウエイト制御部によって、
上記入力監視部によって求められた認識対象と隣接する
認識対象との間隔を表す情報に応じて、上記ウエイト・
ベクトルの値が所定の規則に基づいて変更される。そう
すると、判定用データ算出部は、上記ウエイト制御部に
よって変更されたウエイト・ベクトルを用いて判定用デ
ータを作成する。
したがって、認識対象の時系列において上記各認識対
象間の間隔が絶えず変化しても、適応的に追従してウエ
イト・ベクトルの値を変更でき、更にきめ細かな認識処
理を実行できる。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明す
る。
認識用ニューラル・ネットワークの入力層に、認識対
象のシフトされる領域の特徴量を入力する。そうする
と、この認識用ニューラル・ネットワークの出力層から
認識結果を表す出力データの時系列が出力される。この
発明の認識結果判定装置は、上記認識用ニューラル・ネ
ットワークからの出力データの時系列を入力して認識結
果判定用のデータを生成し、この判定用データに基づい
て正しい認識結果を判定して最終的な認識結果を出力す
るものである。上記判定用データの生成はニューラル・
ネットワークによって実行される。以下、この判定用デ
ータを生成するニューラル・ネットワークを判定用ニュ
ーラル・ネットワークと言う。
第1図はこの発明の認識結果判定装置における一実施
例のブロック図である。本実施例では、文字認識の場合
における認識結果判定装置であり、入力提示部1は認識
用ニューラル・ネットワーク2に入力する入力データを
生成して入力する。この入力提示部1にはスキャナ,行
抽出部および領域抽出部等を含み、スキャナによって読
み取った文字画像データから1行分の画像データを抽出
し、この1行の文字画像データに基づいて領域抽出部に
よって所定範囲の領域を抽出し、この領域を所定間隔で
シフトさせて領域内の特徴量を認識用ニューラル・ネッ
トワーク2の入力層に入力する。認識用ニューラル・ネ
ットワーク2は、入力された上記領域内の特徴量および
内部に記憶しているウエイト・ベクトルに従ってその領
域の特徴量が属する文字を表す出力ベクトルを算出す
る。そして、認識結果を表す出力ベクトルの時系列を出
力する。こうして、認識用ニューラル・ネットワーク2
よって出力された出力ベクトルの時系列は第1出力バッ
ファ3に格納される。
判定用ニューラル・ネットワーク4はウエイト格納部
7と判定用データ算出部8を有する。この判定用データ
算出部8は、上記第1出力バッファ3に格納された認識
用ニューラル・ネットワーク2からの出力ベクトルの時
系列を読み込んで、読み込まれた出力ベクトルの時系列
とウエイト格納部7に格納されたウエイト・ベクトルに
従って、認識用ニューラル・ネットワーク2による認識
結果が正しか否かを判定するための判定用データを算出
する。そして、この算出された判定用データの時系列を
出力ノードから出力する。こうして、判定用ニューラル
・ネットワーク4によって出力された判定用データの時
系列は第2出力バッファ5に格納される。出力判定部6
は、第2出力バッファ5に格納された判定用ニューラル
・ネットワーク4からの判定用データの時系列が所定の
基準に合致しているか否かを判定して入力文字の最終的
な認識結果を出力する。
入力監視部9は、入力提示部1からの入力データの内
容に応じて、後に後述するように判定用ニューラル・ネ
ットワーク4のウエイト・ベクトルの値を変更する際に
参照されるデータを作成する。CPU(中央処理装置)10
は、入力提示部1,認識用ニューラル・ネットワーク2,ウ
エイト格納部7,判定用データ算出部8,第2出力バッファ
5,出力判定部6および入力監視部9を制御して、入力文
字の認識動作を実行する。
第2図は上記認識用ニューラル・ネットワーク2の出
力層から出力される出力ベクトルの時系列の上記判定用
ニューラル・ネットワーク4への入力状態の一例を示す
図である。第2図において、矢印tで示される4つのノ
ード11,12,13,14は、時刻tにおける出力データを出力
している認識用ニューラル・ネットワーク2の出力ノー
ドを示す。以下同様にして、矢印(t−1)で示される
4つのノード11′,12′,13′,14′は、時刻(t−1)
における出力データを出力している認識用ニューラル・
ネットワーク2の出力ノードを示し、矢印(t+1)お
よび矢印(t+2)で示されるノードも同様に時刻(t
+1)および時刻(t+2)における出力データを出力
している出力ノードを示している。ただし、認識用ニュ
ーラル・ネットワーク2の出力ノードは4つであり、矢
印(t−1),矢印(t),矢印(t+1)および矢印
(t+2)で示される各4つのノードは、いずれも時刻
(t−1),時刻(t),時刻(t+1)および時刻
(t+2)における出力ノード11,12,13,14を示してい
る。すなわち、第2図は認識用ニューラル・ネットワー
ク2の4つの出力ノードの時間的な変化を空間的な変化
として実現したものである。
上記認識用ニューラル・ネットワーク2の4つの出力
ノード11,12,13,14は、夫々認識文字の例えば「a」,
「b」,「c」,「d」に割り付けられているとする。
そして、この出力ノード11,12,13,14から時刻(t−
1)〜時刻t〜時刻(t+1)において出力される出力
値(すなわち、各時刻における認識結果)は、判定用ニ
ューラル・ネットワーク4の入力ノードに入力される。
この場合、説明を簡単にするために、判定用ニューラル
・ネットワーク4は認識用ニューラル・ネットワーク2
に直接接続されていると考え、しかも認識用ニューラル
・ネットワーク2の出力ノード11,12,13,14は判定用ニ
ューラル・ネットワーク4の入力ノードを兼用している
ものと考える。そうすると、判定用ニューラル・ネット
ワーク4は、夫々の入力ノードに入力された各時刻にお
ける値とウエイト格納部7から読み出した各時刻に対応
した値のウエイト・ベクトルW(i)とに基づいて、判
定用データ算出部8で例えば式(1)に従って判定用デ
ータを算出し、各々の出力ノードに出力する。
ここで、式(1)は認識用ニューラル・ネットワーク
2における認識文字「d」が割り付けられた出力ノード
14からの出力値O1d(t)に対する判定用データ、すな
わち、判定用ニューラル・ネットワーク4における認識
文字「d」が割り付けられた出力ノード15からの出力値
O2d(t)の算出式である。
但し、 W(i):時刻(t+i)におけるウエイト・ベクト
ル。このウエイト・ベクトルは、時刻(t+i)におけ
る認識用ニューラル・ネットワーク2の出力ベクトルO1
(t+i)に基づいて判定用ニューラル・ネットワーク
4の出力値O2d(t)を算出する際のウエイト・ベクト
ルである。そして、このウエイト・ベクトルの要素は認
識用ニューラル・ネットワーク2の出力ノード数だけ存
在し、各要素の値は総て等しい。
O1(t+i):時刻(t+i)における認識用ニューラ
ル・ネットワーク2からの出力ベクトル。
W(i)・O1(t+i) :ベクトルW(i)とベクトルO1(t+i)との内積。
T:定数。
K:正の定数。
上述の式(1)は、認識用ニューラル・ネットワーク
2からの出力ベクトルO1(t+i)の値にウエイト・ベ
クトルW(i)の値に応じて重み付けがなされているこ
とを表している。
そこで、第1の発明の認識結果判定装置においては、
出力判定部6において文字部と境界部とを識別できるよ
うに、認識用ニューラル・ネットワーク2における入力
ノードに入力される特徴量の領域が境界部であるような
iにおけるウエイト・ベクトルW(i)の値を抑制性の
ウエイト・ベクトル(すなわち、負のウエイト・ベクト
ル)とする一方、文字部であるようなiにおけるウエイ
ト・ベクトルW(i)の値を興奮性のウエイト・ベクト
ル(すなわち、正のウエイト・ベクトル)とするのであ
る。換言すれば、ウエイト・ベクトルW(i)を平均的
な文字間隔(すなわち、認識対象の間隔)で興奮性の値
を有するように設定するのである。
こうすることによって、判定用ニューラル・ネットワ
ーク4からの出力値は、境界部においては抑制される一
方、文字部においては抑制されない。したがって、境界
部における認識用ニューラル・ネットワーク2のある出
力ノードの出力値が大きくても、判定用ニューラル・ネ
ットワーク4によってその値は抑制されるので、文字部
として誤認識されることから免れるのである。
第3図は上述のように構成された認識結果判定装置に
よる認識結果判定動作および認識用ニューラル・ネット
ワーク2による入力文字認識動作の大まかなフローチャ
ートである。以下、第3図に従って入力文字認識動作/
認識結果判定動作の概略について述べる。
ステップS1で、入力提示部1によって、上述のように
して、認識用ニューラル・ネットワーク2の入力ノード
に入力文字画像の任意の領域の特徴量がその領域を順次
シフトさせながら入力される。
ステップS2で、認識用ニューラル・ネットワーク2に
おいて、順次シフトされて入力された文字画像の特徴量
に基づいて認識処理が実行され、認識結果を表す出力ベ
クトルの時系列が出力される。
ステップS3で、上記ステップS2において出力された出
力ベクトルの時系列が第1出力バッファ3に格納され
る。
ステップS4で、第1出力バッファ3に格納された認識
用ニューラル・ネットワーク2の出力ベクトルの時系列
の中から、認識用ニューラル・ネットワーク2による認
識結果を判定しようとする時刻tを中心として前後T個
の出力ベクトルを読み込む。そして、この読み込まれた
時刻(t−T)〜時刻t〜時刻(t+T)における出力
ベクトルに基づいて式(1)によって判定用データが演
算され、判定用データの時系列が出力される。
ステップS5で、上記ステップS4において出力された判
定用データの時系列が第2出力バッファ5に格納され
る。
ステップS6で、第2出力バッファ4に格納された判定
用データの時系列が順次読み出され、出力判定部6によ
って、この判定用データの時系列に基づいて入力文字が
最終的に認識されて認識結果が出力され、入力文字認識
動作/認識結果判定動作が終了する。
次に、認識結果判定装置による認識結果判定動作につ
いて、入力文字「in」を認識する場合を例に具体的に説
明する。
第4図は認識用ニューラル・ネットワーク2の入力ノ
ードに入力される文字画像「in」を示す。この文字画像
を認識用ニューラル・ネットワーク2に入力する際に
は、文字画像から所定の大きさの領域を抽出し、その領
域を領域から領域まで順次シフトしてその領域の特
徴量を入力する。その領域を領域から領域まで順次
シフトしてその領域の特徴量を入力する。その場合、領
域には「i」の文字画像が完全に入り、領域には
「n」の文字画像が完全に入っており、共に文字部を構
成している。したがって、この文字画像「in」の場合に
は、境界部である領域,領域および領域における
認識用ニューラル・ネットワーク2からの出力ベクトル
の値を抑制し、文字部である領域と領域とにおける
出力ベクトルの値を抑制しないようにウエイト・ベクト
ルW(i)を設定すればよい。
そこで、ウエイト・ベクトルW(i)を第5図に示す
ように設定する。すなわち、本実施例におけるウエイト
・ベクトルW(i)は、偏移iがi=−3およびi=3
において興奮性の値W(−3)=W(3)=0.5を示す
ようになっている。これは、例えば第4図における文字
部である領域を偏移“0"に当て嵌めると、同じく文字
部である領域は偏移“−3"に当て嵌まり、文字部にお
けるウエイト・ベクトルW(i)の値が興奮性の値にな
るように設定されている。それと同時に、境界部におけ
るウエイト・ベクトルW(i)の値は“0"または“−0.
8"であり抑制性の値になるように設定されているのであ
る。
まず、認識用ニューラル・ネットワーク2の入力ノー
ドに、第4図に示す文字画像の領域から領域まで順
次シフトされた領域の特徴量が入力される。ここで、認
識用ニューラル・ネットワーク2は「i」,「m」,
「n」の3文字を識別して認識するものであるとする。
したがって、認識用ニューラル・ネットワーク2の出力
ノードは認識文字「i」,「m」,「n」に割り付けら
れている。その結果、第1表に示すような出力ベクトル
O1(t)が得られる。
表中における*印は各領域における最大出力値を示す。
この場合、従来の方法によれば、出力判定部6は例えば
閾値“0.7"以上の最大出力値を呈する出力ノードに割り
付けられた認識文字を認識結果とする場合には、第1表
に従って認識結果の時系列「i−m−n」が出力され、
本来は「in」である入力文字が「imn」と誤認識されて
しまうのである。そこで、以下に詳述するように、判定
用ニューラル・ネットワーク4によって各出力ベクトル
O1(t)に対する判定用データを算出し、この判定用デ
ータに基づいて正しく入力文字を認識するのである。
以下、領域(境界部)における出力ノード「m」の
出力値“0.8"と、領域(文字部)における出力ノード
「n」の出力値“0.8"とに対する判定用データの算出に
ついて、具体的に述べる。
a)領域における出力ノード「m」 ここで、領域の時刻がtとなるから、領域の時刻
は(t−1)、領域の時刻は(t−2)、領域の時
刻は(t+1)、領域の時刻は(t+2)となる。
したがって、判定用ニューラル・ネットワーク4にお
けるウエイト・ベクトルW(i)は第5図より次のよう
になる。
W(−2)=(0,0,0)、W(−1)=(−0.8,−0.8,
−0.8)、W(1)=(−0.8,−0.8,−0.8)、W(2)
=(0,0,0) 一方、各時刻における認識用ニューラル・ネットワー
ク2の出力ベクトルは第1表より次のようになる。
O1(t−2)=(1.0,0.2,0.2)、O1(t−1)=(0.
1,0.1,0.2)、O1(t+1)=(0.2,0.1,0.8)、O1(t
+2)=(0.2,0.1,0.1) また、時刻tにおける認識用ニューラル・ネットワー
ク2の出力ノード「m」の出力値O1m(t)は第1表よ
り、O1m(t)=0.8である。
したがって、判定用ニューラル・ネットワーク4にお
ける出力ノード「m」から出力される判定用データO2m
(t)は、式(1)より次のように求めることができ
る。まず、式(1)の第1項は、 次に、式(1)の第2項は、 さらに、式(1)の第3項は、K=1として、 K・O1m(t)=1×0.8=0.8 したがって、 b)領域における出力ノード「n」 ここで、領域の時刻がtとなるから、領域の時刻
は(t−1)、領域の時刻は(t−2)、領域の時
刻は(t−3)、領域の時刻は(t+1)となる。し
たがって、ウエイト・ベクトルW(i)および認識用ニ
ューラル・ネットワーク2の出力値は次のようになる。
W(−3)=(0.5,0.5,0.5)、W(−2)=(0,0,
0)、 W(−1)=(−0.8,−0.8,−0.8)、W1=(−0.8,−
0.8,−0.8) O1(t−3)=(1.0,0.2,0.2)、O1(t−2)=(0.
1,0.1,0.2)、O1(t−1)=(0.2,0.8,0.3)、O1(t
+1)=(0.2,0.1,0.1) O1n(t)=0.8 したがって、判定用ニューラル・ネットワーク4にお
ける出力ノード「n」から出力される判定用データO2n
(t)は、式(1)よりK=1として次のように求める
ことができる。
以下同様にして、第1表に示した認識用ニューラル・
ネットワーク2の出力ベクトルO1(t)に応じて、判定
用ニューラル・ネットワーク4によって判定用データが
算出され、判定用データのベクトルが第2表に示すよう
に出力される。第2表は、各領域〜における出力ベ
クトルの最大値に対する判定用データのみを表示してい
る。
この場合、第1表に示すように、認識用ニューラル・ネ
ットワーク2から出力される領域における出力ノード
「m」の出力値と領域における出力ノード「n」の出
力値とは同じ値“0.8"を呈している。ところが、この同
じ値“0.8"に対して判定用ニューラル・ネットワーク4
によって得られた判定用データは、文字部である領域
においては相対的に大きな値“0.14"となる一方境界部
である領域においては相対的に小さい値“−0.4"とな
り、夫々異なる値になる。
したがって、出力判定部6は例えば閾値“0.0"以上の
最大出力値を呈する出力ノードに割り付けられた認識文
字を認識結果とする場合には、第2表に従って認識結果
の時系列「i−n」が出力される。すなわち、入力文字
「in」の画像データが入力された場合に、文字部「i」
および文字部「n」とそれらの境界部とを識別して正し
く入力文字を認識できるのである。
上述のように、本実施例においては、シフトされる領
域内の特徴量に基づいて、認識用ニューラル・ネットワ
ーク2によって入力文字が認識される。そうすると、平
均的な文字間隔で興奮性の値を有するように設定された
ウエイト・ベクトルW(i)と認識用ニューラル・ネッ
トワーク2からの出力ベクトルの時系列とに基づいて、
判定用ニューラル・ネットワーク4の判定用データ算出
部8によって、式(1)に従って文字部と境界部とをよ
り正しく判定するための判定用データを算出する。そし
て、この判定用データの時系列に基づいて出力判定部6
によって正しい文字認識結果を出力する。したがって、
認識用ニューラル・ネットワーク2による認識結果が正
しいか否かを判定して正しい認識結果を出力できる。
上記実施例における判定用データの算出アルゴリズム
は、例えば日本語文字を認識する際には膨大な計算量と
なる。そこで、計算量を少なくする方法として、各領域
〜における認識用ニューラル・ネットワーク2の出
力ベクトルの最大出力値(第1表における*印の付加さ
れた出力値)のみを用いて判定用データを算出する。こ
の場合に得られる判定用データは第3表に示すようにな
る。
この場合も、第2表と同様に文字部である領域におけ
る判定用データは抑制されずに境界部である領域にお
ける判定用データが抑制される。したがって、出力判定
部6は閾値“0.0"より大きな最大出力値を呈する出力ノ
ードに割り付けられた認識文字を認識結果とするように
すると、第3表に従って認識結果の時系列「i−n」が
出力される。
上記各実施例は、この発明を文字認識に使用した場合
の例であるが、音声認識に使用した場合にも同じような
効果が得られる。すなわち、この場合にはウエイト・ベ
クトルW(i)の興奮性の間隔を平均音節長に設定する
のである。こうすることによって、平均音節長に近い間
隔における特徴量に基づく認識用ニューラル・ネットワ
ークの出力値は抑制されず、その間の区間における特徴
量に基づく認識用ニューラル・ネットワークの出力値は
抑制され、認識率を上げることができるのである。この
ことは、人間の実際の音を聞き取る動作において、ある
音が聞こえる(すなわち、認識される)とその後の短区
間は認識に関与しないというマスク効果によく似た現象
であると言える。但し、音声認識の場合には、マスク効
果の影響度が時間的な前後に対して異なるため、第5図
に示すウエイト・ベクトルのi−W(i)関係を時間の
正逆方向に対して非対象にすることによって、さらに認
識率を高めることができる。
上記文字認識の場合の実施例においては、領域にお
ける出力ノード「m」の出力値の算出の際におけるウエ
イト・ベクトルW(i)と、領域における出力ノード
「n」の出力値の算出の際におけるウエイト・ベクトル
W(i)とは、i−W(i)関係が同じ(第5図に示す
関係)であるウエイト・ベクトルW(i)を用いてい
る。ところが、一般に文字間隔は文字幅によって異な
り、例えば「i」は文字幅が狭く「m」は文字幅が広い
ので「i」−「m」の間隔と「m」と次の文字との間隔
とは異なる。したがって、文字部と境界部とを適確に判
別するためには興奮性のウエイト・ベクトルの間隔を文
字間隔に応じて変更する必要がある。
そこで、第2の発明の認識結果判定装置においては、
認識用ニューラル・ネットワーク2による認識結果に応
じた、換言すれば、判別用ニューラル・ネットワーク4
に対する入力ベクトルに応じたCPU10の制御によって、
ウエイト・ベクトルW(i)の値を変更するのである。
すなわち、時刻tにおける入力ベクトルのうち最大値
を呈する要素を出力し認識用ニューラル・ネットワーク
2の出力ノードが割り付けられている文字が(すなわ
ち、認識用ニューラル・ネットワーク2の認識結果が)
文字幅の狭い「i」の場合には、例えば第5図に示すi
−W(i)の関係をi軸に沿って縮小したi−W(i)
関係を有するウエイト・ベクトルW(i)を用いるよう
にする。また、文字幅の広い「m」の場合には、第5図
に示すi−W(i)の関係をi軸に沿って伸長したi−
W(i)関係を有するウエイト・ベクトルW(i)を用
いるようにするのである。
すなわち、上記第1の発明で述べた実施例の場合に
は、領域における出力ノード「m」の出力値の算出の
際に用いるウエイト・ベクトルW(i)として、第5図
に示すi−W(i)関係をi軸に沿って引き伸ばしたウ
エイト・ベクトルW(i)を用いるのである。このよう
に、認識用ニューラル・ネットワークの認識結果に応じ
てウエイト・ベクトルW(i)を変更することによっ
て、領域における出力ノード「m」の出力値算出の際
に用いられるウエイト・ベクトルW(i)の値がより小
さくなり、より大きな抑制効果が得られるのである。し
たがって、文字幅の小さい文字や大きい文字の特性に合
ったように正確に興奮と抑制の効果が得られ、さらに制
度の高い文字認識ができる。
上述のようなウエイト・ベクトルW(i)における興
奮性の値の間隔の制御は、予め認識対象間の間隔を直接
求めて、この求めた認識対象間の間隔に応じて判定時に
適応的に実施するようにすれば、さらにきめ細かな認識
処理を実行できる。
そこで、第3の発明の認識結果判定装置においては、
第1図における入力監視部9によって認識対象の特徴量
に基づいて認識対象間の間隔を求め、入力監視部9から
のデータに基づいてCPU10によってウエイト・ベクトル
W(i)の値を変更するものである。
以下、上述の入力監視部9およびCPU10によるウエイ
ト・ベクトルW(i)の制御について、音声認識の場合
を例に具体的に説明する。入力監視部9は、入力提示部
1の音声分析部に音声信号が入力されると、A/D変換さ
れて一定のフレーム長でケプストラム係数が求められ、
入力監視部9に出力される。そうすると、入力監視部9
は、数フレーム離れたフレーム間のケプストラム係数値
(スペクトル変化)が極小値を取るフレームの前後数フ
レーム区間の中から、連続する類似フレーム(すなわ
ち、上記極小値を取るフレームとのケプストラム係数値
の差が閾値以下となるフレーム)の数を求め、その連続
する類似フレームの数を定常部区間長とする。そして、
予め記憶している定常部区間長と発声速度との対応表を
参照して、上記求められた定常部区間長に基づいて平均
発声速度を算出し、この平均発声速度の逆数から平均音
節長を求めるのである。
そうすると、CPU10はウエイト格納部7から対応する
ウエイト・ベクトルW(i)を読み出し、入力監視部9
からの平均音節長に基づいて、上述のようにウエイト・
ベクトルW(i)の興奮性の間隔を平均音節長に変更す
るのである。こうすることによって、発声速度が変化し
ても適応的に追従してウエイト・ベクトルW(i)の興
奮性の間隔を平均音節長に制御することができ、きめ細
かな音声認識処理を実施できるのである。
この発明における平均音節長算出のアルゴリズムは、
本実施例のアルゴリズムに限定されるものではない。
上記各実施例においては、認識対象ニューラル・ネッ
トワーク2と判定用ニューラル・ネットワーク4とを異
なるニューラル・ネットワークによって構成している。
しかしながら、この発明はこれに限定されるものではな
く、一つのニューラル・ネットワークによって構成し、
そのニューラル・ネットワークの下層部を認識用のニュ
ーラル・ネットワークとし、上層部を判定用のニューラ
ル・ネットワークとしも差し支えない。
この発明における判定用データ算出アルゴリズムは、
上記各実施例におけるアルゴリズムに限定されるもので
はない。
〈発明の効果〉 以上より明らかなように、第1の発明の認識結果判定
装置は、ウエイト格納部,判定用データ算出部および出
力判定部を備えて、下層における複数ノードから出力さ
れる出力ベクトルの時系列を上記判定用データ算出部に
入力し、上記ウエイト格納部に格納されたウエイト・ベ
クトルを用いて、下層における複数ノードから出力され
る出力ベクトルが表す認識結果が正しいか否かを判定す
るための判定用データを求め、この判定用データに基づ
いて上記出力判定部によって上記認識結果が正しいか否
かを判定して正しい認識結果を出力するようにしたの
で、下層によるシフトされる領域の特徴量に基づく認識
結果が正しいか否かを上記判定用データに基づいて判定
することができ、正しい認識結果を出力することができ
る。
また、第2の発明の認識結果判定装置は、上記ウエイ
ト格納部,判定用データ算出部および出力判定部に加え
てウエイト制御部を備えて、上記判定用データ算出部が
算出しようとしている判定用データに対応する下層にお
ける複数ノードからの出力ベクトルが表す認識結果に応
じて、上記ウエイト制御部によって上記ウエイト・ベク
トルの値を所定の規則に従って変更するようにしたの
で、認識対象間の境界部における上記下層における複数
ノードからの出力値を更に抑制して上記判定用データを
算出するとが可能となる。したがって、この発明の認識
結果判定装置によれば、より正しい認識結果を出力でき
る。
また、第3の発明の認識結果判定装置は、上記ウエイ
ト格納部,判定用データ算出部および出力判定部に加え
て、入力監視部およびウエイト制御部を備えて、上記入
力監視部によって認識対象と隣接する認識対象との間隔
を表す情報を求め、この情報に応じて上記ウエイト制御
部によってウエイト・ベクトルの値を変更するようにし
たので、入力される認識対象間の間隔が絶えず変化して
も適応的に追従してウエイト・ベクトルを変更でき、更
に正しい認識結果を出力できる。
【図面の簡単な説明】
第1図はこの発明の認識結果判定装置における一実施例
のブロック図、第2図は認識用ニューラル・ネットワー
クからの出力ベクトル時系列の判定用ニューラル・ネッ
トワークへの入力状態の説明図、第3図は入力文字認識
動作および認識結果判定動作のフローチャート、第4図
は認識用ニューラル・ネットワークに入力される特徴量
の領域に対するシフトの説明図、第5図はウエイト・ベ
クトルの値の一例を示す図、第6図は従来例における文
字画像データ入力の説明図である。 1…入力提示部、2…認識用ニューラル・ネットワー
ク、3…第1出力バッファ、4…判定用ニューラル・ネ
ットワーク、5…第2出力バッファ、6…出力判定部、
7…ウエイト格納部、8…判定用データ算出部、9…入
力監視部、10…CPU。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象の時系列における上記各認識対象
    間の平均間隔に応じた時間間隔で興奮性の値を示すと共
    に、上記興奮性の値の近傍においては抑制性の値を示す
    ウエイト・ベクトルを格納するウエイト格納部と、 下層における複数ノードから出力される出力ベクトルの
    時系列を入力し、この入力された上記下層の複数ノード
    から出力ベクトルの時系列の各値と上記ウエイト格納部
    に格納されたウエイト・ベクトルの値とに基づいて、上
    記下層における複数ノードからの出力ベクトルが表す認
    識対象に対する認識結果が正しい認識結果であるか否か
    を判定するための判定用データを算出し、出力層の各出
    力ノードから出力する判定用データ算出部と、 上記判定用データ算出部から出力される判定用データの
    時系列に基づいて、上記下層における複数ノードからの
    出力ベクトルが表す認識対象に対する認識結果が正しい
    か否かを判定して、正しい認識結果を出力する出力判定
    部を備えたことを特徴とする認識結果判定装置。
  2. 【請求項2】請求項1に記載の認識結果判定装置におい
    て、 上記判定用データ算出部によって判定用データを算出す
    る際に、算出しようとする判定用データに対応する上記
    下層における複数ノードからの出力ベクトルが表す認識
    結果に応じて、上記ウエイト・ベクトルの値を所定の規
    則に基づいて変更するウエイト制御部を備えたことを特
    徴とする認識結果判定装置。
  3. 【請求項3】請求項1に記載の認識結果判定装置におい
    て、 上記認識対象の時系列に基づく特徴量の時系列を入力
    し、上記入力した特徴量の時系列に基づいて、認識しよ
    うとしている認識対象と隣接する認識対象との間の間隔
    を表す情報を求める入力監視部と、 上記入力監視部によって求められた認識対象と隣接する
    認識対象との間隔を表す情報を入力して、この入力され
    た情報に応じて上記ウエイト・ベクトルの値を所定の規
    則に基づいて適応的に変更するウエイト制御部を備えた
    ことを特徴とする認識結果判定装置。
JP1241583A 1989-09-18 1989-09-18 認識結果判定装置 Expired - Fee Related JP2892397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1241583A JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1241583A JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Publications (2)

Publication Number Publication Date
JPH03102581A JPH03102581A (ja) 1991-04-26
JP2892397B2 true JP2892397B2 (ja) 1999-05-17

Family

ID=17076473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1241583A Expired - Fee Related JP2892397B2 (ja) 1989-09-18 1989-09-18 認識結果判定装置

Country Status (1)

Country Link
JP (1) JP2892397B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882152B2 (ja) * 2001-01-24 2012-02-22 ヤマハ株式会社 話速検出方法および音声信号処理装置
CN112397053B (zh) * 2020-11-02 2022-09-06 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JPH03102581A (ja) 1991-04-26

Similar Documents

Publication Publication Date Title
JP4767595B2 (ja) 対象物検出装置及びその学習装置
US20130257873A1 (en) Information processing apparatus, information processing method, and program
JPWO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
JPH0821065B2 (ja) 文字認識装置
CN112001401A (zh) 实例分割网络的训练模型及训练方法,实例分割网络
CN116386081A (zh) 一种基于多模态图像的行人检测方法及系统
JP2892397B2 (ja) 認識結果判定装置
CN116257816A (zh) 一种陪护机器人情绪识别方法、装置、存储介质及设备
JP2005115569A (ja) 信号識別装置および信号識別方法
JP4997524B2 (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
CN111883109B (zh) 语音信息处理及验证模型训练方法、装置、设备及介质
WO2020059498A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2009059047A (ja) 対象物検出装置、対象物検出方法、および対象物検出プログラム
JP7438744B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2880383B2 (ja) パターン認識装置および方法
CN113520393B (zh) 冲突事件的检测方法、装置、可穿戴设备及存储介质
US20230095985A1 (en) Information processing apparatus, information processing method, and storage medium
US11869492B2 (en) Anomaly detection system and method using noise signal and adversarial neural network
JPH04198997A (ja) 音声認識方法
JP4712907B2 (ja) 対象物検出装置及びその学習装置
JP4536445B2 (ja) データ類別装置
JPH05182028A (ja) 文字認識装置
WO2020084680A1 (ja) 情報処理装置、プログラム及び情報処理方法
CN116311489A (zh) 一种移动端实时动作检测与动作分割方法
WO2020049667A1 (ja) 情報処理装置、情報処理方法、プログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees