JPH0415695A - 単語認識システム - Google Patents
単語認識システムInfo
- Publication number
- JPH0415695A JPH0415695A JP2120862A JP12086290A JPH0415695A JP H0415695 A JPH0415695 A JP H0415695A JP 2120862 A JP2120862 A JP 2120862A JP 12086290 A JP12086290 A JP 12086290A JP H0415695 A JPH0415695 A JP H0415695A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- word
- group
- output
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 89
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010013883 Dwarfism Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は単語認識システムに関する。
[従来の技術]
本出願人は、ニューラルネットワークを用いた単語認識
システムを提案している。この単語認識システムにあっ
ては、ニューラルネットワークの出カバターンに対し一
定のしきい値θを設け、例えばニューラルネットワーク
の1つの出力ユニットの出力値か0以上の値をとり、他
の出力ユニットの出力値の全てか(1−f:l)以下の
値をとる場合に、今回の人力単語は出力値か0以上であ
る出力ユニットに対応する登録単語と同一単語であるも
のと認識する。
システムを提案している。この単語認識システムにあっ
ては、ニューラルネットワークの出カバターンに対し一
定のしきい値θを設け、例えばニューラルネットワーク
の1つの出力ユニットの出力値か0以上の値をとり、他
の出力ユニットの出力値の全てか(1−f:l)以下の
値をとる場合に、今回の人力単語は出力値か0以上であ
る出力ユニットに対応する登録単語と同一単語であるも
のと認識する。
[発明が解決しようとする課題]
然しなから、ニューラルネットワークの出カバターンは
必ずしも上述の如くにならず、00以上の出力値を示す
出力ユニットか複数個あるパターン、或いは■全ての出
力ユニットの出力値か(1−θ)以下の値をとるパター
ン等の出現をみることがある。そして、このような出カ
バターンについては、単語認識か困難ないし不能となる
のである。
必ずしも上述の如くにならず、00以上の出力値を示す
出力ユニットか複数個あるパターン、或いは■全ての出
力ユニットの出力値か(1−θ)以下の値をとるパター
ン等の出現をみることがある。そして、このような出カ
バターンについては、単語認識か困難ないし不能となる
のである。
本発明は、全登録単語を学習対象として構築されたニュ
ーラルネットワークの出力パターンが入力単語を特定て
きないパターンである場合にも、正確に単語認識を行な
うことを目的とする。
ーラルネットワークの出力パターンが入力単語を特定て
きないパターンである場合にも、正確に単語認識を行な
うことを目的とする。
[課趙を解決するための手段コ
請求項1に記載の本発明は、ニューラルネットワークを
用いた単語認識システムにおいて、全登録単語を学習対
象として構築した全単語用ニューラルネットワークと、
全単語用ニューラルネットワークを構成する各出力ユニ
ットの出力値か互いに一定の類似関係にありしきい値判
定てきないことに基づいて、全登録単語をグループ分け
した各グループ毎の登録単語を学習対象として構築した
各グループ用ニューラルネットワークとを用い、入力単
語について、全単語用ニューラルネットワークによる認
識を行ない、該全単語用ニューラルネットワークの出カ
バターンが入力単語を特定てきないパターンである時、
更に、該全単語用ニューラルネットワークにおける最大
出力値の出力ユニットに対応する登録単語を含むグルー
プの、グループ用ニューラルネットワークによる認識を
行なうようにしたものである 請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたものである。
用いた単語認識システムにおいて、全登録単語を学習対
象として構築した全単語用ニューラルネットワークと、
全単語用ニューラルネットワークを構成する各出力ユニ
ットの出力値か互いに一定の類似関係にありしきい値判
定てきないことに基づいて、全登録単語をグループ分け
した各グループ毎の登録単語を学習対象として構築した
各グループ用ニューラルネットワークとを用い、入力単
語について、全単語用ニューラルネットワークによる認
識を行ない、該全単語用ニューラルネットワークの出カ
バターンが入力単語を特定てきないパターンである時、
更に、該全単語用ニューラルネットワークにおける最大
出力値の出力ユニットに対応する登録単語を含むグルー
プの、グループ用ニューラルネットワークによる認識を
行なうようにしたものである 請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたものである。
[作用]
請求項1に記載の本発明によれば、下記■の作用効果か
ある。
ある。
■全登録単語を学習対象として構築した全単語用ニュー
ラルネットワークと、類似単語にてグループ化された登
録単語を学習対象として構築した各グループ用ニューラ
ルネットワークとを用いることにより、単語認識率を向
上できる。これにより、全登録単語を学習対象として構
築されたニューラルネットワークの出力パターンが入力
単語を特定できないパターンである場合にも、正確に単
語認識を行なうことがてきる。
ラルネットワークと、類似単語にてグループ化された登
録単語を学習対象として構築した各グループ用ニューラ
ルネットワークとを用いることにより、単語認識率を向
上できる。これにより、全登録単語を学習対象として構
築されたニューラルネットワークの出力パターンが入力
単語を特定できないパターンである場合にも、正確に単
語認識を行なうことがてきる。
請求項2に記載の本発明によれば5下記■の作用かある
。
。
■ニューラルネットワークへの入力として、請求項1に
記載の■〜■の各要素のうちの1つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間か短くて足りるため、単語認識システムを複雑
な処理装置によることなく容易に実時間処理てきる。
記載の■〜■の各要素のうちの1つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間か短くて足りるため、単語認識システムを複雑
な処理装置によることなく容易に実時間処理てきる。
「実施例コ
第1図は全単語用ニューラルネットワークの学習系統を
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。
(A)先ず、全単語用ニューラルネットワークの学習系
統について説明する(第1図参照)。
統について説明する(第1図参照)。
この系統は、音声入力部11、前処理部12、全単語用
ニューラルネットワーク13にて構成される。
ニューラルネットワーク13にて構成される。
以下、前処理部12、全単語用ニューラルネットワーク
13の構成について説明する。
13の構成について説明する。
(1)前処理部
前処理部12は、入力音声に簡単な前処理を施し、上記
全単語用ニューラルネットワーク13、後述するグルー
プ用ニューラルネットワーク14への入力データを作成
する。
全単語用ニューラルネットワーク13、後述するグルー
プ用ニューラルネットワーク14への入力データを作成
する。
前処理部12の具体的構成を例示すれば以下の如くであ
る。
る。
即ち、前処理部12としては、ローパスフィルタ、バン
トパスフィルタ、平均化回路の結合からなるものを用い
ることかできる。
トパスフィルタ、平均化回路の結合からなるものを用い
ることかできる。
■入力音声の音声信号の高域の雑音成分を、ローパスフ
ィルタにてカットする。そして、この入力音声を8つの
ブロックに時間的に等分割する。
ィルタにてカットする。そして、この入力音声を8つの
ブロックに時間的に等分割する。
■音声波形を、複数(n個)チャンネルのバンドパスフ
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。
この時、バントパスフィルタの出力信号は、平均化回路
にて、各ブロック毎、即ち各一定時間で平均化される。
にて、各ブロック毎、即ち各一定時間で平均化される。
以上の前処理により、「音声の一定時間内における平均
的な周波数特性の時間的変化」か得られる。
的な周波数特性の時間的変化」か得られる。
(2)全単語用ニューラルネットワーク全単語用ニュー
ラルネットワーク13は、入力音声が全登録単語のいず
れであるかを判定する。
ラルネットワーク13は、入力音声が全登録単語のいず
れであるかを判定する。
全単語用ニューラルネットワーク13の具体的構成を例
示すれば、以下の如くである。
示すれば、以下の如くである。
■構造
全単語用ニューラルネットワーク13は例えば3層バー
セブトロン型てあり、入カニニット数は前処理部12の
8ブロツク、nチャンネルに対応する8n個、出力ユニ
ット数は登録単語と同数個である。
セブトロン型てあり、入カニニット数は前処理部12の
8ブロツク、nチャンネルに対応する8n個、出力ユニ
ット数は登録単語と同数個である。
■学習
目標値は、登録単語について対応する出力ユニットの出
力値を 1、その他の出力値を0とする。
力値を 1、その他の出力値を0とする。
(a)登録単語の音声に前処理部12による前処理を施
し、全単語用ニューラルネットワーク13に入力する。
し、全単語用ニューラルネットワーク13に入力する。
目標値に近づくように全単語用ニューラルネットワーク
13の重みと変換関数を修正する。
13の重みと変換関数を修正する。
(a)を目標値と出力ユニットの出力値の誤差が、十分
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
(B)次に、グループ用ニューラルネットワークの学習
系統について説明する(第2図参照)。
系統について説明する(第2図参照)。
この系統は、音声入力部11、前処理部12、全単語用
ニューラルネットワーク13、グループ用ニューラルネ
ットワーク14、判定部15、学習パターン記憶部16
にて構成される。
ニューラルネットワーク13、グループ用ニューラルネ
ットワーク14、判定部15、学習パターン記憶部16
にて構成される。
以下、グループ用ニューラルネットワーク14、判定部
15、学習パターン記憶部16の構成について説明する
。前処理部12は、前述(A)の前処理部12と同一て
あり、全単語用ニューラルネットワーク13は前述(A
)にて構築済のものを用いる。
15、学習パターン記憶部16の構成について説明する
。前処理部12は、前述(A)の前処理部12と同一て
あり、全単語用ニューラルネットワーク13は前述(A
)にて構築済のものを用いる。
各グループ用ニューラルネットワーク14は、予めグル
ープ分けした各グループ毎に対応して設けられ、入力音
声が各グループ内の登録単語のいずれであるかを判定す
る。尚、各グループは、「全単語用ニューラルネットワ
ーツク13を構成する各出力ユニットの出力値か互いに
一定の類似関係にありしきい値判定できない単語の組」
毎にグループ化して構成したものである。そして、各グ
ループを構成することとなる単語の入力音声は、判定部
15の判定結果に基づき上述の如くにグループ化されて
学習パターン記憶部16に記憶され、グループ用ニュー
ラルネットワーク14の学習のために供される。尚、学
習パターン記憶部16はグループ記憶部16Aを付帯的
に備えている。
ープ分けした各グループ毎に対応して設けられ、入力音
声が各グループ内の登録単語のいずれであるかを判定す
る。尚、各グループは、「全単語用ニューラルネットワ
ーツク13を構成する各出力ユニットの出力値か互いに
一定の類似関係にありしきい値判定できない単語の組」
毎にグループ化して構成したものである。そして、各グ
ループを構成することとなる単語の入力音声は、判定部
15の判定結果に基づき上述の如くにグループ化されて
学習パターン記憶部16に記憶され、グループ用ニュー
ラルネットワーク14の学習のために供される。尚、学
習パターン記憶部16はグループ記憶部16Aを付帯的
に備えている。
ここで、上述の「全単語用ニューラルネットワーク13
の各出力ユニットの出力値が互いに一定の類似関係にあ
りしきい値判定できない単語の組」とは、■出カバター
ンの中でしきい値0以上の値をとるユニットか複数個あ
り、或いは全てのユニットが(1−θ)以下の値をとる
ためにしきい値判定できない状況下て、■例えば最大出
力値の出力ユニットに対応する単語、及び、該最大出力
値から一定の差をなす範囲内に出力値がある出力ユニッ
トに対応する単語(又は該最大出力値と一定の比率をな
す範囲内に出力値がある出力ユニットに対応する単語)
からなる単語の組をいう。
の各出力ユニットの出力値が互いに一定の類似関係にあ
りしきい値判定できない単語の組」とは、■出カバター
ンの中でしきい値0以上の値をとるユニットか複数個あ
り、或いは全てのユニットが(1−θ)以下の値をとる
ためにしきい値判定できない状況下て、■例えば最大出
力値の出力ユニットに対応する単語、及び、該最大出力
値から一定の差をなす範囲内に出力値がある出力ユニッ
トに対応する単語(又は該最大出力値と一定の比率をな
す範囲内に出力値がある出力ユニットに対応する単語)
からなる単語の組をいう。
グループ用ニューラルネットワーク14の具体的構成を
例示すれば、以下の如くである。
例示すれば、以下の如くである。
■構造
グループ用ニューラルネットワーク14は例えば3層バ
ーセブトロン型てあり、入カニニット数は前処理部12
の8ブロツク、nチャンネルに対応する8n個、出力ユ
ニット数は当該グループを構成する登録単語数と同数個
である。
ーセブトロン型てあり、入カニニット数は前処理部12
の8ブロツク、nチャンネルに対応する8n個、出力ユ
ニット数は当該グループを構成する登録単語数と同数個
である。
■学習
目標値は、当該グループを構成する登録単語について対
応する出力ユニットの出力値を1、その他の出力値を0
とする。
応する出力ユニットの出力値を1、その他の出力値を0
とする。
(a)当該グループを構成する登録単語の音声に前処理
部12による前処理を施し、グループ用ニューラルネッ
トワーク14に入力する。目標値に近づくようにグルー
プ用ニューラルネットワーク14の重みと変換関数を修
正する。
部12による前処理を施し、グループ用ニューラルネッ
トワーク14に入力する。目標値に近づくようにグルー
プ用ニューラルネットワーク14の重みと変換関数を修
正する。
(a)を目標値と出力ユニットの出力値の誤差が、十分
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
(C)次に、本発明による単語認識系統について説明す
る(第3図、第4図参照)。
る(第3図、第4図参照)。
単語認識システム10は、音声入力部11、前処理部1
2、全単語用ニューラルネットワーク13、グループ用
ニューラルネットワーク14、及び、第1判定部21、
グループ記憶部22、ネットワーク選択部23、最終判
定部24にて構成される。この時、全単語用ニューラル
ネットワーク13は前述(A)にて構築され、グループ
用ニューラルネットワーク14は前述(B)にて構築さ
れたものである。
2、全単語用ニューラルネットワーク13、グループ用
ニューラルネットワーク14、及び、第1判定部21、
グループ記憶部22、ネットワーク選択部23、最終判
定部24にて構成される。この時、全単語用ニューラル
ネットワーク13は前述(A)にて構築され、グループ
用ニューラルネットワーク14は前述(B)にて構築さ
れたものである。
単語認識システム10は、下記(1)〜(3)のアルゴ
リズムにより単語認識する。
リズムにより単語認識する。
(])入力音声に対し、全単語用ニューラルネットワー
ク13による認識を行なう。第1判定部21により、全
単語用ニューラルネットワーク13の化カバターンをし
きい値判定して単語認識し、入力単語を特定する。
ク13による認識を行なう。第1判定部21により、全
単語用ニューラルネットワーク13の化カバターンをし
きい値判定して単語認識し、入力単語を特定する。
(2)上記(1)において、全単語用ニューラルネット
ワーク13の化カバターンか入力単語を特定できないパ
ターンである時、グループ記憶部22、ネットワーク選
択部23を用いて、該全単語用ニューラルネットワーク
13における最大出力値の出力ユニットに対応する登録
単語を含むグループのグループ用ニューラルネットワー
ク14を選択する。
ワーク13の化カバターンか入力単語を特定できないパ
ターンである時、グループ記憶部22、ネットワーク選
択部23を用いて、該全単語用ニューラルネットワーク
13における最大出力値の出力ユニットに対応する登録
単語を含むグループのグループ用ニューラルネットワー
ク14を選択する。
(3)前記(1)の入力音声に対し、上記(2)により
選択されたグループ用ニューラルネットワーク14によ
る認識を行なう。最終判定部24により、グループ用ニ
ューラルネットワーク14の化カバターンをしきい値判
定して単語認識し、入力単語を特定する。
選択されたグループ用ニューラルネットワーク14によ
る認識を行なう。最終判定部24により、グループ用ニ
ューラルネットワーク14の化カバターンをしきい値判
定して単語認識し、入力単語を特定する。
以下、上、記単語認識システム10の具体的実施結果に
ついて説明する。
ついて説明する。
■登録単語として、47都道府県名を用い、各音声単語
試料に前処理を施し、128次元(8ブロツク×16チ
ヤンネル)の特徴ベクトルを得る。これをニューラルネ
ットワークの入力として、全単語用ニューラルネットワ
ーク】3を構築する。
試料に前処理を施し、128次元(8ブロツク×16チ
ヤンネル)の特徴ベクトルを得る。これをニューラルネ
ットワークの入力として、全単語用ニューラルネットワ
ーク】3を構築する。
■全単語用ニューラルネットワーク】3を構成する各出
力ユニットの出力値が互いに一定の類似関係にあり、し
きい値判定できないことに基づいてグループ分けした各
グループの登録単語毎にグループ化したグループ用ニュ
ーラルネットワーク14を構築する。
力ユニットの出力値が互いに一定の類似関係にあり、し
きい値判定できないことに基づいてグループ分けした各
グループの登録単語毎にグループ化したグループ用ニュ
ーラルネットワーク14を構築する。
グル−プ1 /Tokushima/と/Kagosh
ima/グループ2 /Niigata/と/Yama
gata/グループ3 /Shiga/と/Chiba
/等■全単語用ニューラルネットワーク13、及びグル
ープ用ニューラルネットワーク14を用い、前記アルゴ
リズムに従って単語認識を行なう。
ima/グループ2 /Niigata/と/Yama
gata/グループ3 /Shiga/と/Chiba
/等■全単語用ニューラルネットワーク13、及びグル
ープ用ニューラルネットワーク14を用い、前記アルゴ
リズムに従って単語認識を行なう。
従来の全登録単語を対象としたニューラルネットワーク
のみの場合ては、化カニニット値か0〜1の範囲で、 ■入力音声/Tokushi■a/に対し、出力ユニッ
) /Tokushii+a/の出力値か0.56、出
力ユニット/にagoshima/の出力値は0.71
■入力音声/Niigata/に対し、出力ユニッ)
/Niigata/の出力値は0.07、出力ユニット
/Yamagata/の出力値は0.17■入力音声/
Shiga/に対し、出力ユニット/Shiga/の出
力値は0.19、出力ユニット/Chiba/の出力値
は0.49 等となり、単語の認識か困難であった。
のみの場合ては、化カニニット値か0〜1の範囲で、 ■入力音声/Tokushi■a/に対し、出力ユニッ
) /Tokushii+a/の出力値か0.56、出
力ユニット/にagoshima/の出力値は0.71
■入力音声/Niigata/に対し、出力ユニッ)
/Niigata/の出力値は0.07、出力ユニット
/Yamagata/の出力値は0.17■入力音声/
Shiga/に対し、出力ユニット/Shiga/の出
力値は0.19、出力ユニット/Chiba/の出力値
は0.49 等となり、単語の認識か困難であった。
これに対し、本発明の単語認識システム10によれば、
全単語用ニューラルネットワーク13に加え、グループ
用ニューラルネットワーク14を用いることにより、上
述の各登録単語を正確に認識することか可能となった。
全単語用ニューラルネットワーク13に加え、グループ
用ニューラルネットワーク14を用いることにより、上
述の各登録単語を正確に認識することか可能となった。
又、前述の前処理部12により、入力音声を前処理して
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用てきる。
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用てきる。
そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかできる
。
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかできる
。
尚、上記■の線形予測係数は、以下の如く定義される。
即ち、音声波形のサンプル値(χ。)の間には、一般に
高い近接相関かあることが知られている。
高い近接相関かあることが知られている。
そこで次のような線形予測か可能であると仮定する。
線形予測値 χ(=−Σαムχ、−1 ・・・(1
)線形予測誤差 ε(=χ、−χえ ・・・(2)こ
こで、χt:時刻tにおける音声波形のサンプル値、(
α、+(1=1.・・・、p)= (9次の)線形予測
係数 さて、本発明の実施においては、線形予測誤差εtの2
乗平均値が最小となるように線形予測係数(α1)を求
める。
)線形予測誤差 ε(=χ、−χえ ・・・(2)こ
こで、χt:時刻tにおける音声波形のサンプル値、(
α、+(1=1.・・・、p)= (9次の)線形予測
係数 さて、本発明の実施においては、線形予測誤差εtの2
乗平均値が最小となるように線形予測係数(α1)を求
める。
具体的には (ε )2を求め、その時間平均を=1.
2.・・・、pとおくことによって、次の式から(α1
)が求められる。
2.・・・、pとおくことによって、次の式から(α1
)が求められる。
Σ’(! Ivll−il =Q、 J=1 +
2 + ”’+ p”” (3)又、上記■のPAR
COR係数は以下の如く定義される。
2 + ”’+ p”” (3)又、上記■のPAR
COR係数は以下の如く定義される。
即ち、[kn](n=1.・・・、p)を(9次の)P
ARCOR係数(偏自己相関係数)とする時、PARC
OR係数k。。1は、線形予測による前向き残差ε (
f)と後向き残差ε、−1゜や、、 +b1間の正規化
相関係数として、次の式によって定義される。
ARCOR係数(偏自己相関係数)とする時、PARC
OR係数k。。1は、線形予測による前向き残差ε (
f)と後向き残差ε、−1゜や、、 +b1間の正規化
相関係数として、次の式によって定義される。
・・・(4)
ここて、εt(f) =χt−Σ α直χt−ム、(α
1) :前向き予測係数、 εt−+n条1)=χt −(n (11) F、
lPJ ・χt−j 。
1) :前向き予測係数、 εt−+n条1)=χt −(n (11) F、
lPJ ・χt−j 。
(βd:f&向き予測係数
又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期(ピッチ周期)の逆数である。
し周期(ピッチ周期)の逆数である。
尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかできる。
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかできる。
又、上記■の高域強調とは、音声波形のスペクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。
ところが、このスペクトルの平均的な傾きが補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークが学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間がかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無間係てありながら、学習に影響を及ばずスペク
トルの平均的な傾きを補償てきるため、学習速度か速く
なるのである。
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークが学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間がかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無間係てありながら、学習に影響を及ばずスペク
トルの平均的な傾きを補償てきるため、学習速度か速く
なるのである。
上記実施例によれば、下記■、■の作用効果かある。
■全登録単語を学習対象として構築した全単語用ニュー
ラルネットワーク13と、類似単語にてグループ化され
た登録単語を学習対象として構築した各グループ用ニュ
ーラルネットワーク14とを用いることにより、単語認
識率を向上できる。
ラルネットワーク13と、類似単語にてグループ化され
た登録単語を学習対象として構築した各グループ用ニュ
ーラルネットワーク14とを用いることにより、単語認
識率を向上できる。
これにより、全登録単語を学習対象として構築されたニ
ューラルネットワークの出カバターンが入力単語を特定
できないパターンである場合にも、正確に単語認識を行
なうことかてきる。
ューラルネットワークの出カバターンが入力単語を特定
できないパターンである場合にも、正確に単語認識を行
なうことかてきる。
■ニューラルネットワーク13.14への入力として、
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの1つ以上を用
いるから、入力を得るための前処理か単純となり、この
前処理に要する時間が短くて足りるため、単語認識シス
テム10を複雑な処理装置によることなく容易に実時間
処理できるや [発明の効果コ 以上のように本発明によれば、全登録単語を学習対象と
して構築されたニューラルネットワークの出力パターン
が入力単語を特定てきないパターンである場合にも、正
確に単語認識を行なうことかてきる。
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの1つ以上を用
いるから、入力を得るための前処理か単純となり、この
前処理に要する時間が短くて足りるため、単語認識シス
テム10を複雑な処理装置によることなく容易に実時間
処理できるや [発明の効果コ 以上のように本発明によれば、全登録単語を学習対象と
して構築されたニューラルネットワークの出力パターン
が入力単語を特定てきないパターンである場合にも、正
確に単語認識を行なうことかてきる。
第1図は全単語用ニューラルネットワークの学習系統を
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。 工0・・・単語認識システム、 11・・・音声入力部、 12・・・前処理部、 13・・・全単語用ニューラルネットワーク、14・・
・グループ用ニューラルネットワーク、21・・・第1
判定部、 22・・・グループ記憶部、 23・・・ネットワーク選択部、 24・・・最終判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。 工0・・・単語認識システム、 11・・・音声入力部、 12・・・前処理部、 13・・・全単語用ニューラルネットワーク、14・・
・グループ用ニューラルネットワーク、21・・・第1
判定部、 22・・・グループ記憶部、 23・・・ネットワーク選択部、 24・・・最終判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
Claims (2)
- (1)ニューラルネットワークを用いた単語認識システ
ムにおいて、全登録単語を学習対象として構築した全単
語用ニューラルネットワークと、全単語用ニューラルネ
ットワークを構成する各出力ユニットの出力値が互いに
一定の類似関係にありしきい値判定できないことに基づ
いて、全登録単語をグループ分けした各グループ毎の登
録単語を学習対象として構築した各グループ用ニューラ
ルネットワークとを用い、入力単語について、全単語用
ニューラルネットワークによる認識を行ない、該全単語
用ニューラルネットワークの出力パターンが入力単語を
特定できないパターンである時、更に、該全単語用ニュ
ーラルネットワークにおける最大出力値の出力ユニット
に対応する登録単語を含むグループの、グループ用ニュ
ーラルネットワークによる認識を行なうことを特徴とす
る単語認識システム。 - (2)前記ニューラルネットワークへの入力として、 [1]音声の周波数特性の時間的変化、 [2]音声の平均的な線形予測係数、 [3]音声の平均的なPARCOR係数、 [4]音声の平均的な周波数特性、及びピッチ周波数、 [5]高域強調を施された音声波形の平均的な周波数特
性、並びに [6]音声の平均的な周波数特性 のうちの1つ以上を使用する請求項1に記載の単語認識
システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2120862A JPH0415695A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2120862A JPH0415695A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0415695A true JPH0415695A (ja) | 1992-01-21 |
Family
ID=14796793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2120862A Pending JPH0415695A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0415695A (ja) |
-
1990
- 1990-05-09 JP JP2120862A patent/JPH0415695A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier | |
CN103106903B (zh) | 一种单通道盲源分离法 | |
Gogate et al. | DNN driven speaker independent audio-visual mask estimation for speech separation | |
EP0219712A1 (en) | Method of and system for speech recognition | |
US5812973A (en) | Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system | |
US5963904A (en) | Phoneme dividing method using multilevel neural network | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
Shaltaf | Neural-network-based time-delay estimation | |
JPH0415695A (ja) | 単語認識システム | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
JPH0415700A (ja) | 話者認識システム | |
JPH0415694A (ja) | 単語認識システム | |
Nilsson et al. | Human whistle detection and frequency estimation | |
EP0369485B1 (en) | Speaker recognition system | |
Das et al. | Pattern recognition in speaker verification | |
JP2510301B2 (ja) | 話者認識システム | |
Matsuoka | Independent component analysis and its applications to sound signal separation | |
Muhsina et al. | Signal enhancement of source separation techniques | |
JPH0415699A (ja) | 話者認識システム | |
Li et al. | Monaural source separation based on sequentially trained LSTMs in real room environments | |
JPH03175498A (ja) | 話者照合システム | |
Xian et al. | Monaural speech enhancement based on two stage long short-term memory networks | |
Park et al. | Advancing Temporal Spike Encoding for Efficient Speech Recognition |