JPH04121798A

JPH04121798A - 単語認識方式

Info

Publication number: JPH04121798A
Application number: JP2243410A
Authority: JP
Inventors: Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-09-12
Filing date: 1990-09-12
Publication date: 1992-04-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード笠のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。

［従来の技術］本出願人は、特願平１−９８３７６号により、［ニュー
ラルネットワークを用いて入力音声から′その単語を認
識する単語認識方式であワて、ニューラルネットワーク
への入力として、音声の周波数特性の時間的変化を用い
る単語認識方式」を提案している。

［発明が解決しようとする課題］然しながら、従来技術では、類似単語（例えば、／ニジ
ムラ／と／イチムラ／）を誤認識する場合があった。

本発明は、ニューラルネットワークを用いて単語認識す
るに際し、類似単語についても誤認識することなく、認
識率の向上を図ることを目的とする。

［課題を解決するための手段］本発明は、ニューラルネットワークを用いてタカ音声か
らその単語を認識するに際し、入力音声を時間軸上で等
分割した各区間での平均的な周ま数特性の時系列なニュ
ーラルネットワークへのツカパターンとする単語認識方
式であつて、全認刺単語を対象とする主ニューラルネッ
トワークと、全認識単語のうちの類似単語のある特定区
間の２を対象とする副ニューラルネットワークとをｍ１
し、今回の入力音声について、主ニューラルネットワー
クにより認識を行ない、当該主ニューラルネットワーク
の認識結果が予め特定した類似単Ｍのいずれかであると
き、当該類似単語に対応ず２副ニユーラルネツトワーク
により認識を行ない、それら主ニューラルネットワーク
と副ニューラルネットワークの認識結果により今回の入
力単語を判定するようにしたものである。

［作用］本発明にあっては、認識対象単語の中で、互いに類似し
ている単語のグループを定め、且つその類似単語間て差
異かあると思われる区間（特定区間）を定める。そして
、全認識単語を対象とした主ニューラルネットワークと
、類似単語の特定区間のみを対象とした副ニューラルネ
ットワークを併用することにより、類似単語に対する誤
認識か減少し認ｉｉ＊が向上する。

［実施例コ第１図は本発明か適用された単語認識システムの一例を
示す模式図、第２図は学習手順を示す流れ図、第３図は
認識手順を示す流れ図、第４図は入力音声を示す模式図
である。

単語認識システム１は、第１図に示す如く、音声入力部
１１、前処理部１２、主ニューラルネットワーク１３、
主判定部１４、グループ記憶部１５、ニューラルネット
ワーク選択部１６、区間選択部１７、複数の副ニューラ
ルネットワーク１８、副判定部１９を有して構成される
。

このとき、主ニューラルネットワーク１３は、全認識単
語を対象とし、各副ニューラルネットワーク１８は、全
認識単語のうちの類似単語のある特定区間のみを対象と
する。

以下、単語認識システム１を用いた学習手順、認識手順
について説明する。

（Ａ）音声入力部１１にて、音声試料を取入れる。この
とき、人名　１００語（／ニジムラ／と／イチムラ／等
を含む）を話者１名が１０回発声した１０００サンプル
を音声試料とする。

（Ｂ）前処理 ■前処環部１２において、入力音声を、第４図に示す如
く、時間釉上で４つのブロックに等分割する。

■各ブロックの音声波形を、複数（この実施例では１６
個）チャンネルのバンドパスフィルタに通し、各ブロッ
ク即ち各一定時間毎に周波数特性を得る。このとき、バ
ンドパスフィルタの出力は、各ブロック即ち一定時間毎
に平均化回路で平均化される。これにより、一つのサン
プル（音声試料）について、４　Ｘ　１６＝　６４次元
の特徴ベクトルを得る。

（Ｃ）ニューラルネットワークの学習（第２図参照）上記（Ａ）、（Ｂ）　（７）１０００サンプル（音声試
料）の前処理結果により、主ニューラルネットワーク１
３、各副ニューラルネットワーク１８の学習を行なう。

■全認識対象単語の中で、類似している単語とその類似
単語間で差異かあると思われる区間（以下、特定区間と
呼ぶ）を指定する。例えは、類似単語として、／ニジム
ラ／と／イチムラ／を指定し、それらの類似単語の特定
区間として第１区間を指定する。

■学習用の音声試料全てにより、全認識単語を対象とし
だ主ニューラルネットワーク１３の学習を行ない、主ニ
ューラルネットワーク１３を構築する。

■学習用の音声試料のうち、類似単語として指定された
単語の特定区間により、類似単語のある区間のみを対象
とした副ニューラルネットワーク１８の学習を行ない、
副ニューラルネットワーク１８を構築する。尚、副ニュ
ーラルネットワーク１８は、類似単語として指定された
グループ毎に必要となる。

（Ｄ）ニューラルネットワークによる認識（第３図参照
）前述の話者が別の時期に発声した人名　１００語（各１
０回発声）を評価用試料とし、認識実験を行なった。

■入力された音声に前処理を施し、ニューラルネットワ
ーク１３．１８への入力パターンを得る。

■主ニューラルネットワーク１３により認識を行なう。

■主判定部１４により、主ニューラルネ、ットワーク１
３の認識による認識候補か類似単語に指定されている単
語か否か判定する。

■上記■の判定により、主ニューラルネットワーク１３
による認識単語が類似単語として指定されていないもの
てあれば、主判定部１４は主ニューラルネットワーク１
３の認識結果から、今回入力音声の単語を判定する。

■上記■の判定により、主ニューラルネットワーク１３
による認識単語が類似単語として指定されているもので
あれば、副ニューラルネットワーク１８による認識を行
なう。

このとき、グループ記憶部１５は、主判定部１４の判定
結果に基づき、今回の類似単語に対応する副ニューラル
ネットワーク１８をニューラルネットワーク選択部１６
により選択し、且つ前処理部１２の前処理結果から抽出
すべき当該類似単語の特定区間データを区間選択部１７
により選択する。

■態判定部１９により、副ニューラルネットワーク１８
の認識結果から、今回入力音声の単語を判定する。

上記（Ｄ）の認識の結果、従来の手法（主ニューラルネ
ットワーク１３のみによる認識）に比べ、誤り率におい
て３０％の改善かみられた。

即ち、上記実施例によれば、以下の如くの作用かある。

全認識単語を対象としだ主ニューラルネットワーク１３
と、類似単語の特定区間のみを対象とした副ニューラル
ネットワーク１８を併用することにより、類似単語に対
する誤認識か減少し認識率が向上する。

［発明の効果］以上のように本発明によれば、ニューラルネットワーク
を用いて単語認識するに際し、類似単語についても誤認
識することなく、認識率の向上を図ることができる。

【図面の簡単な説明】

第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は学習手順を示す流れ図、第３図は
認識手順を示す流れ図、第４図は入力音声を示す模式図
である。１・・・単語認識システム、１３−・・主ニューラルネットワーク、１５・・・グル
ープ記憶部、１６・・・ニューラルネットワーク選択部、１７・・・
区間選択部、１８・・・副ニューラルネットワーク。第２図

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識するに際し、入力音声を時間軸上で等分割
した各区間での平均的な周波数特性の時系列をニューラ
ルネットワークへの入力パターンとする単語認識方式で
あって、全認識単語を対象とする主ニューラルネットワ
ークと、全認識単語のうちの類似単語のある特定区間の
みを対象とする副ニューラルネットワークとを用意し、
今回の入力音声について、主ニューラルネットワークに
より認識を行ない、当該主ニューラルネットワークの認
識結果が予め特定した類似単語のいずれかであるとき、
当該類似単語に対応する副ニューラルネットワークによ
り認識を行ない、それら主ニューラルネットワークと副
ニューラルネットワークの認識結果により今回の入力単
語を判定する単語認識方式。