JP2892397B2

JP2892397B2 - 認識結果判定装置

Info

Publication number: JP2892397B2
Application number: JP1241583A
Authority: JP
Inventors: 徹上田; 文雄外川
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC
Priority date: 1989-09-18
Filing date: 1989-09-18
Publication date: 1999-05-17
Anticipated expiration: 2014-05-17
Also published as: JPH03102581A

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、文字画像あるいは音声信号等の特徴量を
入力して、入力文字あるいは入力音声を認識する際に使
用される認識結果判定装置に関する。

〈従来の技術〉従来、文字画像の特徴量を入力して、入力文字を認識
する方法として次のような方法がある。この文字認識方
法は、第６図に示すように１行単位に切り出された文字
画像データに基づいてその一端側から８×８の升目の領
域を抽出し、この領域を所定間隔で他端側に向かってシ
フトしてその領域の画像データの特徴量をニューラル・
ネットワークの入力層に入力する。そして、ニューラル
・ネットワークは入力された領域の特徴量が属するカテ
ゴリ（例えば、アルファベット，数字および記号等）に
応じた出力データを求め、この出力データの時系列を出
力するのである。

その際に、例えば領域イには文字「Ｄ」の画像が完全
に含まれているが、領域ロには文字「Ｄ」の他に文字
「Ｉ」の一部も含まれている。したがって、完全な文字
「Ｄ」を識別するように学習されているニューラル・ネ
ットワークは、領域イの特徴量を入力した際における文
字「Ｄ」が割り付けられた出力ノードの出力値の方が、
領域ロの特徴量を入力した際における文字「Ｄ」が割り
付け出力ノードの出力値の方が、領域ロの特徴量を入力
した際における文字「Ｄ」が割り付けられた出力ノード
の出力値よりも大きな値を示す。したがって、ニューラ
ル・ネットワークからの出力データの時系列から入力文
字を識別する場合には、出力データの時系列において最
大値を出力している出力ノードからの出力値の極大値を
求める必要がある。

上述の手法は、音声信号に基づく特徴パラメータの時
系列をニューラル・ネットワークに次々に入力して、入
力音声を認識する場合においても同じように使用され
る。

〈発明が解決しようとする課題〉上記入力文字画像の特徴量をシフトしながらニューラ
ル・ネットワークに入力して入力文字を認識する方法、
あるいは、入力音声信号の特徴パラメータの時系列を次
々ニューラル・ネットワークに入力して入力音声を認識
する方法は、例えば文字部や音節部と境界部とを識別す
るようなニューラル・ネットワークの学習が完全に実施
されており、ニューラル・ネットワークにおける出力値
の演算が正確に実行されていれば、上述の手法によって
正しい認識結果を得ることができる。しかしながら、一
般に、ニューラル・ネットワークの学習を完全に実施す
ることは困難である。したがって、次のように通常は満
足な認識結果が得られないという問題がある。

すなわち、第４図に示すように、入力文字「in」を認
識する際に、ニューラル・ネットワークに入力する画像
データの特徴量の領域を、領域ら領域まで順次シフ
トして入力するとする。その場合、領域の特徴量が入
力された場合には文字「ｉ」が正しく認識される。同じ
ように領域の特徴量が入力された場合には文字「ｎ」
が正しく認識される。ところが、領域の特徴量が入力
された場合には、文字「ｉ」と文字「ｎ」との境界領域
であるにも拘わらず文字「ｍ」であると誤認識されてし
まう場合がある。このような誤認識は、特徴量が入力さ
れた領域が文字画像における文字領域であるか境界領域
であるかに拘わらず、領域〜領域まで総ての領域の
特徴量を同じ条件で処理しているから生じるのである。

そこで、この発明の目的は、認識対象の時系列が入力
されて上記認識対象を認識する認識用のニューラル・ネ
ットワークによる認識結果が正しいか否かを判定して、
正しい認識結果を出力できる認識結果判定装置を提供す
ることにある。

〈課題を解決するための手段〉上記目的を達成するため、第１の発明の認識結果判定
装置は、認識対象の時系列における上記各認識対象間の
平均間隔に応じた時間間隔で興奮性の値を示すと共に、
上記興奮性の値の近傍においては抑制性の値を示すウエ
イト・ベクトルを格納するウエイト格納部と、下層にお
ける複数ノードから出力される出力ベクトルの時系列を
入力し、この入力された上記下層の複数ノードからの出
力ベクトルの時系列の各値と上記ウエイト格納部に格納
されたウエイト・ベクトルの値とに基づいて、上記下層
における複数ノードからの出力ベクトルが表す認識対象
に対する認識結果が正しい認識結果であるか否かを判定
するための判定用データを算出し、出力層の各出力ノー
ドから出力する判定用データ算出部と、上記判定用デー
タ算出部から出力される判定用データの時系列に基づい
て、上記下層における複数ノードからの出力ベクトルが
表す認識対象に対する認識結果が正しい否かを判定し
て、正しい認識結果を出力する出力判定部を備えたこと
を特徴としている。

また、第２の発明の認識結果判定装置は、上記第１の
発明の認識結果判定装置において、上記判定用データ算
出部によって判定用データを算出する際に、算出しよう
とする判定用データに対応する上記下層における複数ノ
ードからの出力ベクトルが表す認識結果に応じて、上記
ウエイト・ベクトルの値を所定の規則に基づいて変更す
るウエイト制御部を備えたことを特徴としている。

また、第３の発明の認識結果判定装置は、上記第１の
発明の認識結果判定用データ装置において、上記認識対
象の時系列に基づく特徴量の時系列を入力し、上記入力
した特徴量の時系列に基づいて、認識しようとしている
認識対象と隣接する認識対象との間の間隔を表す情報を
求める入力監視部と、上記入力監視部によって求められ
た認識対象と隣接する認識対象との間隔を表す情報を入
力して、この入力された情報に応じて上記ウエイト・ベ
クトルの値を所定の規則に基づいて適応的に変更するウ
エイト制御部を備えたことを特徴としている。

〈作用〉第１の発明において、判定用データ算出部に下層にお
ける複数ノードから出力される出力ベクトルの時系列が
入力される。そうすると、判定用データ算出部によっ
て、ウエイト格納部に格納されたウエイト・ベクトルと
上記入力された出力ベクトルの時系列とに基づいて、上
記下層における複数ノードから出力ベクトルが表す認識
対象に対する認識結果が正しいか否かを判定するための
判定用データが算出される。

その際に、上記ウエイト・ベクトルは、認識対象間の
平均間隔に応じた時間間隔で興奮性の値を示すと共に、
上記興奮性の値の近傍においては抑制性の値を示すよう
に設定されているので、認識対象に対応する判定用デー
タは抑制されずに、認識対象間の境界部に対応する判定
用データのみが抑制されるのである。

そして、出力判定部によって、上記判定用データ算出
部から出力される判定用データの時系列に基づいて、上
記下層における複数ノードからの出力ベクトルが表す認
識対象に対する認識結果が正しいか否かが判定され、認
識対象とその境界部とを識別して正しい認識結果が出力
される。

また、第２の発明において、判定用データ算出部に下
層における複数ノードから出力される出力ベクトルの時
系列が入力され、判定用データが算出されようとする。
その際に、ウエイト制御部によって、上記判定用データ
算出部が算出しようとしている判定用データに対応する
上記下層における複数ノードからの出力ベクトルが表す
認識結果に応じて、上記ウエイト格納部に格納されたウ
エイト・ベクトルの値が所定の規則に基づいて変更され
る。そうすると、上記判定用データ算出部は、上記ウエ
イト制御部によって変更されたウエイト・ベクトルを用
いて判定用データを算出する。そうすることによって、
上記境界部に対応する判定用データをより抑制すること
が可能となるのである。

そして、出力判定部によって、判定用データ算出部か
らの判定用データの時系列に基づいて、上記下層におけ
る複数ノードからの出力ベクトルが表す認識対象に対す
る認識結果が正しか否かが判定されて、更に正しい認識
結果が出力される。

また、第３の発明において、上記認識対象の時系列に
基づく特徴量の時系列が入力監視部に入力されると、こ
の入力された特徴量の時系列に基づいて、認識しようし
ている認識対象と隣接する認識対象との間の間隔を表す
情報が求められる。そして、ウエイト制御部によって、
上記入力監視部によって求められた認識対象と隣接する
認識対象との間隔を表す情報に応じて、上記ウエイト・
ベクトルの値が所定の規則に基づいて変更される。そう
すると、判定用データ算出部は、上記ウエイト制御部に
よって変更されたウエイト・ベクトルを用いて判定用デ
ータを作成する。

したがって、認識対象の時系列において上記各認識対
象間の間隔が絶えず変化しても、適応的に追従してウエ
イト・ベクトルの値を変更でき、更にきめ細かな認識処
理を実行できる。

〈実施例〉以下、この発明を図示の実施例により詳細に説明す
る。

認識用ニューラル・ネットワークの入力層に、認識対
象のシフトされる領域の特徴量を入力する。そうする
と、この認識用ニューラル・ネットワークの出力層から
認識結果を表す出力データの時系列が出力される。この
発明の認識結果判定装置は、上記認識用ニューラル・ネ
ットワークからの出力データの時系列を入力して認識結
果判定用のデータを生成し、この判定用データに基づい
て正しい認識結果を判定して最終的な認識結果を出力す
るものである。上記判定用データの生成はニューラル・
ネットワークによって実行される。以下、この判定用デ
ータを生成するニューラル・ネットワークを判定用ニュ
ーラル・ネットワークと言う。

第１図はこの発明の認識結果判定装置における一実施
例のブロック図である。本実施例では、文字認識の場合
における認識結果判定装置であり、入力提示部１は認識
用ニューラル・ネットワーク２に入力する入力データを
生成して入力する。この入力提示部１にはスキャナ，行
抽出部および領域抽出部等を含み、スキャナによって読
み取った文字画像データから１行分の画像データを抽出
し、この１行の文字画像データに基づいて領域抽出部に
よって所定範囲の領域を抽出し、この領域を所定間隔で
シフトさせて領域内の特徴量を認識用ニューラル・ネッ
トワーク２の入力層に入力する。認識用ニューラル・ネ
ットワーク２は、入力された上記領域内の特徴量および
内部に記憶しているウエイト・ベクトルに従ってその領
域の特徴量が属する文字を表す出力ベクトルを算出す
る。そして、認識結果を表す出力ベクトルの時系列を出
力する。こうして、認識用ニューラル・ネットワーク２
よって出力された出力ベクトルの時系列は第１出力バッ
ファ３に格納される。

判定用ニューラル・ネットワーク４はウエイト格納部
７と判定用データ算出部８を有する。この判定用データ
算出部８は、上記第１出力バッファ３に格納された認識
用ニューラル・ネットワーク２からの出力ベクトルの時
系列を読み込んで、読み込まれた出力ベクトルの時系列
とウエイト格納部７に格納されたウエイト・ベクトルに
従って、認識用ニューラル・ネットワーク２による認識
結果が正しか否かを判定するための判定用データを算出
する。そして、この算出された判定用データの時系列を
出力ノードから出力する。こうして、判定用ニューラル
・ネットワーク４によって出力された判定用データの時
系列は第２出力バッファ５に格納される。出力判定部６
は、第２出力バッファ５に格納された判定用ニューラル
・ネットワーク４からの判定用データの時系列が所定の
基準に合致しているか否かを判定して入力文字の最終的
な認識結果を出力する。

入力監視部９は、入力提示部１からの入力データの内
容に応じて、後に後述するように判定用ニューラル・ネ
ットワーク４のウエイト・ベクトルの値を変更する際に
参照されるデータを作成する。CPU（中央処理装置）10
は、入力提示部1,認識用ニューラル・ネットワーク2,ウ
エイト格納部7,判定用データ算出部8,第２出力バッファ
5,出力判定部６および入力監視部９を制御して、入力文
字の認識動作を実行する。

第２図は上記認識用ニューラル・ネットワーク２の出
力層から出力される出力ベクトルの時系列の上記判定用
ニューラル・ネットワーク４への入力状態の一例を示す
図である。第２図において、矢印ｔで示される４つのノ
ード11,12,13,14は、時刻ｔにおける出力データを出力
している認識用ニューラル・ネットワーク２の出力ノー
ドを示す。以下同様にして、矢印（ｔ−１）で示される
４つのノード11′,12′,13′,14′は、時刻（ｔ−１）
における出力データを出力している認識用ニューラル・
ネットワーク２の出力ノードを示し、矢印（ｔ＋１）お
よび矢印（ｔ＋２）で示されるノードも同様に時刻（ｔ
＋１）および時刻（ｔ＋２）における出力データを出力
している出力ノードを示している。ただし、認識用ニュ
ーラル・ネットワーク２の出力ノードは４つであり、矢
印（ｔ−１），矢印（ｔ），矢印（ｔ＋１）および矢印
（ｔ＋２）で示される各４つのノードは、いずれも時刻
（ｔ−１），時刻（ｔ），時刻（ｔ＋１）および時刻
（ｔ＋２）における出力ノード11,12,13,14を示してい
る。すなわち、第２図は認識用ニューラル・ネットワー
ク２の４つの出力ノードの時間的な変化を空間的な変化
として実現したものである。

上記認識用ニューラル・ネットワーク２の４つの出力
ノード11,12,13,14は、夫々認識文字の例えば「ａ」，
「ｂ」，「ｃ」，「ｄ」に割り付けられているとする。
そして、この出力ノード11,12,13,14から時刻（ｔ−
１）〜時刻ｔ〜時刻（ｔ＋１）において出力される出力
値（すなわち、各時刻における認識結果）は、判定用ニ
ューラル・ネットワーク４の入力ノードに入力される。
この場合、説明を簡単にするために、判定用ニューラル
・ネットワーク４は認識用ニューラル・ネットワーク２
に直接接続されていると考え、しかも認識用ニューラル
・ネットワーク２の出力ノード11,12,13,14は判定用ニ
ューラル・ネットワーク４の入力ノードを兼用している
ものと考える。そうすると、判定用ニューラル・ネット
ワーク４は、夫々の入力ノードに入力された各時刻にお
ける値とウエイト格納部７から読み出した各時刻に対応
した値のウエイト・ベクトルＷ（ｉ）とに基づいて、判
定用データ算出部８で例えば式（１）に従って判定用デ
ータを算出し、各々の出力ノードに出力する。

ここで、式（１）は認識用ニューラル・ネットワーク
２における認識文字「ｄ」が割り付けられた出力ノード
14からの出力値O1d（ｔ）に対する判定用データ、すな
わち、判定用ニューラル・ネットワーク４における認識
文字「ｄ」が割り付けられた出力ノード15からの出力値
O2d（ｔ）の算出式である。

但し、Ｗ（ｉ）：時刻（ｔ＋ｉ）におけるウエイト・ベクト
ル。このウエイト・ベクトルは、時刻（ｔ＋ｉ）におけ
る認識用ニューラル・ネットワーク２の出力ベクトルO1
（ｔ＋ｉ）に基づいて判定用ニューラル・ネットワーク
４の出力値O2d（ｔ）を算出する際のウエイト・ベクト
ルである。そして、このウエイト・ベクトルの要素は認
識用ニューラル・ネットワーク２の出力ノード数だけ存
在し、各要素の値は総て等しい。

O1（ｔ＋ｉ）：時刻（ｔ＋ｉ）における認識用ニューラ
ル・ネットワーク２からの出力ベクトル。

Ｗ（ｉ）・O1（ｔ＋ｉ）：ベクトルＷ（ｉ）とベクトルO1（ｔ＋ｉ）との内積。

T:定数。

K:正の定数。

上述の式（１）は、認識用ニューラル・ネットワーク
２からの出力ベクトルO1（ｔ＋ｉ）の値にウエイト・ベ
クトルＷ（ｉ）の値に応じて重み付けがなされているこ
とを表している。

そこで、第１の発明の認識結果判定装置においては、
出力判定部６において文字部と境界部とを識別できるよ
うに、認識用ニューラル・ネットワーク２における入力
ノードに入力される特徴量の領域が境界部であるような
ｉにおけるウエイト・ベクトルＷ（ｉ）の値を抑制性の
ウエイト・ベクトル（すなわち、負のウエイト・ベクト
ル）とする一方、文字部であるようなｉにおけるウエイ
ト・ベクトルＷ（ｉ）の値を興奮性のウエイト・ベクト
ル（すなわち、正のウエイト・ベクトル）とするのであ
る。換言すれば、ウエイト・ベクトルＷ（ｉ）を平均的
な文字間隔（すなわち、認識対象の間隔）で興奮性の値
を有するように設定するのである。

こうすることによって、判定用ニューラル・ネットワ
ーク４からの出力値は、境界部においては抑制される一
方、文字部においては抑制されない。したがって、境界
部における認識用ニューラル・ネットワーク２のある出
力ノードの出力値が大きくても、判定用ニューラル・ネ
ットワーク４によってその値は抑制されるので、文字部
として誤認識されることから免れるのである。

第３図は上述のように構成された認識結果判定装置に
よる認識結果判定動作および認識用ニューラル・ネット
ワーク２による入力文字認識動作の大まかなフローチャ
ートである。以下、第３図に従って入力文字認識動作／
認識結果判定動作の概略について述べる。

ステップS1で、入力提示部１によって、上述のように
して、認識用ニューラル・ネットワーク２の入力ノード
に入力文字画像の任意の領域の特徴量がその領域を順次
シフトさせながら入力される。

ステップS2で、認識用ニューラル・ネットワーク２に
おいて、順次シフトされて入力された文字画像の特徴量
に基づいて認識処理が実行され、認識結果を表す出力ベ
クトルの時系列が出力される。

ステップS3で、上記ステップS2において出力された出
力ベクトルの時系列が第１出力バッファ３に格納され
る。

ステップS4で、第１出力バッファ３に格納された認識
用ニューラル・ネットワーク２の出力ベクトルの時系列
の中から、認識用ニューラル・ネットワーク２による認
識結果を判定しようとする時刻ｔを中心として前後Ｔ個
の出力ベクトルを読み込む。そして、この読み込まれた
時刻（ｔ−Ｔ）〜時刻ｔ〜時刻（ｔ＋Ｔ）における出力
ベクトルに基づいて式（１）によって判定用データが演
算され、判定用データの時系列が出力される。

ステップS5で、上記ステップS4において出力された判
定用データの時系列が第２出力バッファ５に格納され
る。

ステップS6で、第２出力バッファ４に格納された判定
用データの時系列が順次読み出され、出力判定部６によ
って、この判定用データの時系列に基づいて入力文字が
最終的に認識されて認識結果が出力され、入力文字認識
動作／認識結果判定動作が終了する。

次に、認識結果判定装置による認識結果判定動作につ
いて、入力文字「in」を認識する場合を例に具体的に説
明する。

第４図は認識用ニューラル・ネットワーク２の入力ノ
ードに入力される文字画像「in」を示す。この文字画像
を認識用ニューラル・ネットワーク２に入力する際に
は、文字画像から所定の大きさの領域を抽出し、その領
域を領域から領域まで順次シフトしてその領域の特
徴量を入力する。その領域を領域から領域まで順次
シフトしてその領域の特徴量を入力する。その場合、領
域には「ｉ」の文字画像が完全に入り、領域には
「ｎ」の文字画像が完全に入っており、共に文字部を構
成している。したがって、この文字画像「in」の場合に
は、境界部である領域，領域および領域における
認識用ニューラル・ネットワーク２からの出力ベクトル
の値を抑制し、文字部である領域と領域とにおける
出力ベクトルの値を抑制しないようにウエイト・ベクト
ルＷ（ｉ）を設定すればよい。

そこで、ウエイト・ベクトルＷ（ｉ）を第５図に示す
ように設定する。すなわち、本実施例におけるウエイト
・ベクトルＷ（ｉ）は、偏移ｉがｉ＝−３およびｉ＝３
において興奮性の値Ｗ（−３）＝Ｗ（３）＝0.5を示す
ようになっている。これは、例えば第４図における文字
部である領域を偏移“0"に当て嵌めると、同じく文字
部である領域は偏移“−3"に当て嵌まり、文字部にお
けるウエイト・ベクトルＷ（ｉ）の値が興奮性の値にな
るように設定されている。それと同時に、境界部におけ
るウエイト・ベクトルＷ（ｉ）の値は“0"または“−0.
8"であり抑制性の値になるように設定されているのであ
る。

まず、認識用ニューラル・ネットワーク２の入力ノー
ドに、第４図に示す文字画像の領域から領域まで順
次シフトされた領域の特徴量が入力される。ここで、認
識用ニューラル・ネットワーク２は「ｉ」，「ｍ」，
「ｎ」の３文字を識別して認識するものであるとする。
したがって、認識用ニューラル・ネットワーク２の出力
ノードは認識文字「ｉ」，「ｍ」，「ｎ」に割り付けら
れている。その結果、第１表に示すような出力ベクトル
O1（ｔ）が得られる。

表中における＊印は各領域における最大出力値を示す。
この場合、従来の方法によれば、出力判定部６は例えば
閾値“0.7"以上の最大出力値を呈する出力ノードに割り
付けられた認識文字を認識結果とする場合には、第１表
に従って認識結果の時系列「ｉ−ｍ−ｎ」が出力され、
本来は「in」である入力文字が「imn」と誤認識されて
しまうのである。そこで、以下に詳述するように、判定
用ニューラル・ネットワーク４によって各出力ベクトル
O1（ｔ）に対する判定用データを算出し、この判定用デ
ータに基づいて正しく入力文字を認識するのである。

以下、領域（境界部）における出力ノード「ｍ」の
出力値“0.8"と、領域（文字部）における出力ノード
「ｎ」の出力値“0.8"とに対する判定用データの算出に
ついて、具体的に述べる。

ａ）領域における出力ノード「ｍ」ここで、領域の時刻がｔとなるから、領域の時刻
は（ｔ−１）、領域の時刻は（ｔ−２）、領域の時
刻は（ｔ＋１）、領域の時刻は（ｔ＋２）となる。

したがって、判定用ニューラル・ネットワーク４にお
けるウエイト・ベクトルＷ（ｉ）は第５図より次のよう
になる。

Ｗ（−２）＝（0,0,0）、Ｗ（−１）＝（−0.8,−0.8,
−0.8）、Ｗ（１）＝（−0.8,−0.8,−0.8）、Ｗ（２）
＝（0,0,0）一方、各時刻における認識用ニューラル・ネットワー
ク２の出力ベクトルは第１表より次のようになる。

O1（ｔ−２）＝（1.0,0.2,0.2）、O1（ｔ−１）＝（0.
1,0.1,0.2）、O1（ｔ＋１）＝（0.2,0.1,0.8）、O1（ｔ
＋２）＝（0.2,0.1,0.1）また、時刻ｔにおける認識用ニューラル・ネットワー
ク２の出力ノード「ｍ」の出力値O1m（ｔ）は第１表よ
り、O1m（ｔ）＝0.8である。

したがって、判定用ニューラル・ネットワーク４にお
ける出力ノード「ｍ」から出力される判定用データO2m
（ｔ）は、式（１）より次のように求めることができ
る。まず、式（１）の第１項は、次に、式（１）の第２項は、さらに、式（１）の第３項は、Ｋ＝１として、Ｋ・O1m（ｔ）＝１×0.8＝0.8 したがって、ｂ）領域における出力ノード「ｎ」ここで、領域の時刻がｔとなるから、領域の時刻
は（ｔ−１）、領域の時刻は（ｔ−２）、領域の時
刻は（ｔ−３）、領域の時刻は（ｔ＋１）となる。し
たがって、ウエイト・ベクトルＷ（ｉ）および認識用ニ
ューラル・ネットワーク２の出力値は次のようになる。

Ｗ（−３）＝（0.5,0.5,0.5）、Ｗ（−２）＝（0,0,
0）、Ｗ（−１）＝（−0.8,−0.8,−0.8）、W1＝（−0.8,−
0.8,−0.8） O1（ｔ−３）＝（1.0,0.2,0.2）、O1（ｔ−２）＝（0.
1,0.1,0.2）、O1（ｔ−１）＝（0.2,0.8,0.3）、O1（ｔ
＋１）＝（0.2,0.1,0.1） O1n（ｔ）＝0.8 したがって、判定用ニューラル・ネットワーク４にお
ける出力ノード「ｎ」から出力される判定用データO2n
（ｔ）は、式（１）よりＫ＝１として次のように求める
ことができる。

以下同様にして、第１表に示した認識用ニューラル・
ネットワーク２の出力ベクトルO1（ｔ）に応じて、判定
用ニューラル・ネットワーク４によって判定用データが
算出され、判定用データのベクトルが第２表に示すよう
に出力される。第２表は、各領域〜における出力ベ
クトルの最大値に対する判定用データのみを表示してい
る。

この場合、第１表に示すように、認識用ニューラル・ネ
ットワーク２から出力される領域における出力ノード
「ｍ」の出力値と領域における出力ノード「ｎ」の出
力値とは同じ値“0.8"を呈している。ところが、この同
じ値“0.8"に対して判定用ニューラル・ネットワーク４
によって得られた判定用データは、文字部である領域
においては相対的に大きな値“0.14"となる一方境界部
である領域においては相対的に小さい値“−0.4"とな
り、夫々異なる値になる。

したがって、出力判定部６は例えば閾値“0.0"以上の
最大出力値を呈する出力ノードに割り付けられた認識文
字を認識結果とする場合には、第２表に従って認識結果
の時系列「ｉ−ｎ」が出力される。すなわち、入力文字
「in」の画像データが入力された場合に、文字部「ｉ」
および文字部「ｎ」とそれらの境界部とを識別して正し
く入力文字を認識できるのである。

上述のように、本実施例においては、シフトされる領
域内の特徴量に基づいて、認識用ニューラル・ネットワ
ーク２によって入力文字が認識される。そうすると、平
均的な文字間隔で興奮性の値を有するように設定された
ウエイト・ベクトルＷ（ｉ）と認識用ニューラル・ネッ
トワーク２からの出力ベクトルの時系列とに基づいて、
判定用ニューラル・ネットワーク４の判定用データ算出
部８によって、式（１）に従って文字部と境界部とをよ
り正しく判定するための判定用データを算出する。そし
て、この判定用データの時系列に基づいて出力判定部６
によって正しい文字認識結果を出力する。したがって、
認識用ニューラル・ネットワーク２による認識結果が正
しいか否かを判定して正しい認識結果を出力できる。

上記実施例における判定用データの算出アルゴリズム
は、例えば日本語文字を認識する際には膨大な計算量と
なる。そこで、計算量を少なくする方法として、各領域
〜における認識用ニューラル・ネットワーク２の出
力ベクトルの最大出力値（第１表における＊印の付加さ
れた出力値）のみを用いて判定用データを算出する。こ
の場合に得られる判定用データは第３表に示すようにな
る。

この場合も、第２表と同様に文字部である領域におけ
る判定用データは抑制されずに境界部である領域にお
ける判定用データが抑制される。したがって、出力判定
部６は閾値“0.0"より大きな最大出力値を呈する出力ノ
ードに割り付けられた認識文字を認識結果とするように
すると、第３表に従って認識結果の時系列「ｉ−ｎ」が
出力される。

上記各実施例は、この発明を文字認識に使用した場合
の例であるが、音声認識に使用した場合にも同じような
効果が得られる。すなわち、この場合にはウエイト・ベ
クトルＷ（ｉ）の興奮性の間隔を平均音節長に設定する
のである。こうすることによって、平均音節長に近い間
隔における特徴量に基づく認識用ニューラル・ネットワ
ークの出力値は抑制されず、その間の区間における特徴
量に基づく認識用ニューラル・ネットワークの出力値は
抑制され、認識率を上げることができるのである。この
ことは、人間の実際の音を聞き取る動作において、ある
音が聞こえる（すなわち、認識される）とその後の短区
間は認識に関与しないというマスク効果によく似た現象
であると言える。但し、音声認識の場合には、マスク効
果の影響度が時間的な前後に対して異なるため、第５図
に示すウエイト・ベクトルのｉ−Ｗ（ｉ）関係を時間の
正逆方向に対して非対象にすることによって、さらに認
識率を高めることができる。

上記文字認識の場合の実施例においては、領域にお
ける出力ノード「ｍ」の出力値の算出の際におけるウエ
イト・ベクトルＷ（ｉ）と、領域における出力ノード
「ｎ」の出力値の算出の際におけるウエイト・ベクトル
Ｗ（ｉ）とは、ｉ−Ｗ（ｉ）関係が同じ（第５図に示す
関係）であるウエイト・ベクトルＷ（ｉ）を用いてい
る。ところが、一般に文字間隔は文字幅によって異な
り、例えば「ｉ」は文字幅が狭く「ｍ」は文字幅が広い
ので「ｉ」−「ｍ」の間隔と「ｍ」と次の文字との間隔
とは異なる。したがって、文字部と境界部とを適確に判
別するためには興奮性のウエイト・ベクトルの間隔を文
字間隔に応じて変更する必要がある。

そこで、第２の発明の認識結果判定装置においては、
認識用ニューラル・ネットワーク２による認識結果に応
じた、換言すれば、判別用ニューラル・ネットワーク４
に対する入力ベクトルに応じたCPU10の制御によって、
ウエイト・ベクトルＷ（ｉ）の値を変更するのである。

すなわち、時刻ｔにおける入力ベクトルのうち最大値
を呈する要素を出力し認識用ニューラル・ネットワーク
２の出力ノードが割り付けられている文字が（すなわ
ち、認識用ニューラル・ネットワーク２の認識結果が）
文字幅の狭い「ｉ」の場合には、例えば第５図に示すｉ
−Ｗ（ｉ）の関係をｉ軸に沿って縮小したｉ−Ｗ（ｉ）
関係を有するウエイト・ベクトルＷ（ｉ）を用いるよう
にする。また、文字幅の広い「ｍ」の場合には、第５図
に示すｉ−Ｗ（ｉ）の関係をｉ軸に沿って伸長したｉ−
Ｗ（ｉ）関係を有するウエイト・ベクトルＷ（ｉ）を用
いるようにするのである。

すなわち、上記第１の発明で述べた実施例の場合に
は、領域における出力ノード「ｍ」の出力値の算出の
際に用いるウエイト・ベクトルＷ（ｉ）として、第５図
に示すｉ−Ｗ（ｉ）関係をｉ軸に沿って引き伸ばしたウ
エイト・ベクトルＷ（ｉ）を用いるのである。このよう
に、認識用ニューラル・ネットワークの認識結果に応じ
てウエイト・ベクトルＷ（ｉ）を変更することによっ
て、領域における出力ノード「ｍ」の出力値算出の際
に用いられるウエイト・ベクトルＷ（ｉ）の値がより小
さくなり、より大きな抑制効果が得られるのである。し
たがって、文字幅の小さい文字や大きい文字の特性に合
ったように正確に興奮と抑制の効果が得られ、さらに制
度の高い文字認識ができる。

上述のようなウエイト・ベクトルＷ（ｉ）における興
奮性の値の間隔の制御は、予め認識対象間の間隔を直接
求めて、この求めた認識対象間の間隔に応じて判定時に
適応的に実施するようにすれば、さらにきめ細かな認識
処理を実行できる。

そこで、第３の発明の認識結果判定装置においては、
第１図における入力監視部９によって認識対象の特徴量
に基づいて認識対象間の間隔を求め、入力監視部９から
のデータに基づいてCPU10によってウエイト・ベクトル
Ｗ（ｉ）の値を変更するものである。

以下、上述の入力監視部９およびCPU10によるウエイ
ト・ベクトルＷ（ｉ）の制御について、音声認識の場合
を例に具体的に説明する。入力監視部９は、入力提示部
１の音声分析部に音声信号が入力されると、A/D変換さ
れて一定のフレーム長でケプストラム係数が求められ、
入力監視部９に出力される。そうすると、入力監視部９
は、数フレーム離れたフレーム間のケプストラム係数値
（スペクトル変化）が極小値を取るフレームの前後数フ
レーム区間の中から、連続する類似フレーム（すなわ
ち、上記極小値を取るフレームとのケプストラム係数値
の差が閾値以下となるフレーム）の数を求め、その連続
する類似フレームの数を定常部区間長とする。そして、
予め記憶している定常部区間長と発声速度との対応表を
参照して、上記求められた定常部区間長に基づいて平均
発声速度を算出し、この平均発声速度の逆数から平均音
節長を求めるのである。

そうすると、CPU10はウエイト格納部７から対応する
ウエイト・ベクトルＷ（ｉ）を読み出し、入力監視部９
からの平均音節長に基づいて、上述のようにウエイト・
ベクトルＷ（ｉ）の興奮性の間隔を平均音節長に変更す
るのである。こうすることによって、発声速度が変化し
ても適応的に追従してウエイト・ベクトルＷ（ｉ）の興
奮性の間隔を平均音節長に制御することができ、きめ細
かな音声認識処理を実施できるのである。

この発明における平均音節長算出のアルゴリズムは、
本実施例のアルゴリズムに限定されるものではない。

上記各実施例においては、認識対象ニューラル・ネッ
トワーク２と判定用ニューラル・ネットワーク４とを異
なるニューラル・ネットワークによって構成している。
しかしながら、この発明はこれに限定されるものではな
く、一つのニューラル・ネットワークによって構成し、
そのニューラル・ネットワークの下層部を認識用のニュ
ーラル・ネットワークとし、上層部を判定用のニューラ
ル・ネットワークとしも差し支えない。

この発明における判定用データ算出アルゴリズムは、
上記各実施例におけるアルゴリズムに限定されるもので
はない。

〈発明の効果〉以上より明らかなように、第１の発明の認識結果判定
装置は、ウエイト格納部，判定用データ算出部および出
力判定部を備えて、下層における複数ノードから出力さ
れる出力ベクトルの時系列を上記判定用データ算出部に
入力し、上記ウエイト格納部に格納されたウエイト・ベ
クトルを用いて、下層における複数ノードから出力され
る出力ベクトルが表す認識結果が正しいか否かを判定す
るための判定用データを求め、この判定用データに基づ
いて上記出力判定部によって上記認識結果が正しいか否
かを判定して正しい認識結果を出力するようにしたの
で、下層によるシフトされる領域の特徴量に基づく認識
結果が正しいか否かを上記判定用データに基づいて判定
することができ、正しい認識結果を出力することができ
る。

また、第２の発明の認識結果判定装置は、上記ウエイ
ト格納部，判定用データ算出部および出力判定部に加え
てウエイト制御部を備えて、上記判定用データ算出部が
算出しようとしている判定用データに対応する下層にお
ける複数ノードからの出力ベクトルが表す認識結果に応
じて、上記ウエイト制御部によって上記ウエイト・ベク
トルの値を所定の規則に従って変更するようにしたの
で、認識対象間の境界部における上記下層における複数
ノードからの出力値を更に抑制して上記判定用データを
算出するとが可能となる。したがって、この発明の認識
結果判定装置によれば、より正しい認識結果を出力でき
る。

また、第３の発明の認識結果判定装置は、上記ウエイ
ト格納部，判定用データ算出部および出力判定部に加え
て、入力監視部およびウエイト制御部を備えて、上記入
力監視部によって認識対象と隣接する認識対象との間隔
を表す情報を求め、この情報に応じて上記ウエイト制御
部によってウエイト・ベクトルの値を変更するようにし
たので、入力される認識対象間の間隔が絶えず変化して
も適応的に追従してウエイト・ベクトルを変更でき、更
に正しい認識結果を出力できる。

【図面の簡単な説明】

第１図はこの発明の認識結果判定装置における一実施例
のブロック図、第２図は認識用ニューラル・ネットワー
クからの出力ベクトル時系列の判定用ニューラル・ネッ
トワークへの入力状態の説明図、第３図は入力文字認識
動作および認識結果判定動作のフローチャート、第４図
は認識用ニューラル・ネットワークに入力される特徴量
の領域に対するシフトの説明図、第５図はウエイト・ベ
クトルの値の一例を示す図、第６図は従来例における文
字画像データ入力の説明図である。１…入力提示部、２…認識用ニューラル・ネットワー
ク、３…第１出力バッファ、４…判定用ニューラル・ネ
ットワーク、５…第２出力バッファ、６…出力判定部、
７…ウエイト格納部、８…判定用データ算出部、９…入
力監視部、10…CPU。

Claims

(57)【特許請求の範囲】

【請求項１】認識対象の時系列における上記各認識対象
間の平均間隔に応じた時間間隔で興奮性の値を示すと共
に、上記興奮性の値の近傍においては抑制性の値を示す
ウエイト・ベクトルを格納するウエイト格納部と、下層における複数ノードから出力される出力ベクトルの
時系列を入力し、この入力された上記下層の複数ノード
から出力ベクトルの時系列の各値と上記ウエイト格納部
に格納されたウエイト・ベクトルの値とに基づいて、上
記下層における複数ノードからの出力ベクトルが表す認
識対象に対する認識結果が正しい認識結果であるか否か
を判定するための判定用データを算出し、出力層の各出
力ノードから出力する判定用データ算出部と、上記判定用データ算出部から出力される判定用データの
時系列に基づいて、上記下層における複数ノードからの
出力ベクトルが表す認識対象に対する認識結果が正しい
か否かを判定して、正しい認識結果を出力する出力判定
部を備えたことを特徴とする認識結果判定装置。
【請求項２】請求項１に記載の認識結果判定装置におい
て、上記判定用データ算出部によって判定用データを算出す
る際に、算出しようとする判定用データに対応する上記
下層における複数ノードからの出力ベクトルが表す認識
結果に応じて、上記ウエイト・ベクトルの値を所定の規
則に基づいて変更するウエイト制御部を備えたことを特
徴とする認識結果判定装置。
【請求項３】請求項１に記載の認識結果判定装置におい
て、上記認識対象の時系列に基づく特徴量の時系列を入力
し、上記入力した特徴量の時系列に基づいて、認識しよ
うとしている認識対象と隣接する認識対象との間の間隔
を表す情報を求める入力監視部と、上記入力監視部によって求められた認識対象と隣接する
認識対象との間隔を表す情報を入力して、この入力され
た情報に応じて上記ウエイト・ベクトルの値を所定の規
則に基づいて適応的に変更するウエイト制御部を備えた
ことを特徴とする認識結果判定装置。