JPH0415694A - 単語認識システム - Google Patents
単語認識システムInfo
- Publication number
- JPH0415694A JPH0415694A JP2120861A JP12086190A JPH0415694A JP H0415694 A JPH0415694 A JP H0415694A JP 2120861 A JP2120861 A JP 2120861A JP 12086190 A JP12086190 A JP 12086190A JP H0415694 A JPH0415694 A JP H0415694A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- word
- words
- group
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 81
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 206010011416 Croup infectious Diseases 0.000 description 2
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 201000010549 croup Diseases 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010013883 Dwarfism Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は単語認識システムに間する。
[従来の技術]
本出願人は、ニューラルネットワークを用いた単語認識
システムを提案している。この単語認識システムにあっ
ては、ニューラルネットワークの出力パターンに対し一
定のしきい値θを設け、例えばニューラルネットワーク
の1つの出力二二ットの出力値か0以上の値をとり、他
の出力ユニッl〜の出力値の全てか(1−O)以下の値
をとる場合に、今回の入力単語は出力値か0以上である
出力ユニットに対応する登録単語と同一単語であるもの
と認識する。
システムを提案している。この単語認識システムにあっ
ては、ニューラルネットワークの出力パターンに対し一
定のしきい値θを設け、例えばニューラルネットワーク
の1つの出力二二ットの出力値か0以上の値をとり、他
の出力ユニッl〜の出力値の全てか(1−O)以下の値
をとる場合に、今回の入力単語は出力値か0以上である
出力ユニットに対応する登録単語と同一単語であるもの
と認識する。
[発明か解決しようとする課題]
然しなから、ニューラルネットワークの出力パターンは
必ずしも上述の如くにならず、00以上の出力値を示す
出力ユニットか複数個あるパターン、或いは■全ての出
力ユニットの出力値が(1−49)以下の値をとるパタ
ーン等の出現をみることかある。そして、このような出
力パターンについては、単語認識か困難ないし不能とな
るのである。
必ずしも上述の如くにならず、00以上の出力値を示す
出力ユニットか複数個あるパターン、或いは■全ての出
力ユニットの出力値が(1−49)以下の値をとるパタ
ーン等の出現をみることかある。そして、このような出
力パターンについては、単語認識か困難ないし不能とな
るのである。
本発明は、全登録単語を学習対象として構築されたニュ
ーラルネットワークの出力パターンか入力単語を特定で
きないパターンである場合にも、正確に単語認識を行な
うことを目的とする。
ーラルネットワークの出力パターンか入力単語を特定で
きないパターンである場合にも、正確に単語認識を行な
うことを目的とする。
[課題を解決するための手段]
請求項1に記載の本発明は、ニューラルネットワークを
用いた単語認識システムにおいて、全登録単語を学習対
象として構築した全単語用ニューラルネットワークと、
音素列の並びか類似パターンであることに基づいて、全
登録単語をクルーフ分けした各クループ毎の登録単語を
学習対象として構築した各グループ用ニューラルネット
ワークとを用い、入力単語について、全単語用ニューラ
ルネットワークによる認識を行ない、該全単語用ニュー
ラルネットワークの出力パターンか入力単語を特定でき
ないパターンである時、更に、該全単語用ニューラルネ
ットワークにおける最大出力値の出力ユニットに対応す
る登録単語を含むクループの、グループ用ニューラルネ
ットワークによる認識を行なうようにしたものである。
用いた単語認識システムにおいて、全登録単語を学習対
象として構築した全単語用ニューラルネットワークと、
音素列の並びか類似パターンであることに基づいて、全
登録単語をクルーフ分けした各クループ毎の登録単語を
学習対象として構築した各グループ用ニューラルネット
ワークとを用い、入力単語について、全単語用ニューラ
ルネットワークによる認識を行ない、該全単語用ニュー
ラルネットワークの出力パターンか入力単語を特定でき
ないパターンである時、更に、該全単語用ニューラルネ
ットワークにおける最大出力値の出力ユニットに対応す
る登録単語を含むクループの、グループ用ニューラルネ
ットワークによる認識を行なうようにしたものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたしのである。
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたしのである。
[作用]
請求項1に記載の本発明によれば、下記■の作用効果か
ある。
ある。
■全登録単語を学習対象として構築した全単語用ニュー
ラルネットワークと、類似単語にてクループ化された登
録単語を学習対象として構築した各クループ用ニューラ
ルネットワークとを用いることにより、単語認識率を向
上てきる。これにより、全登録単語を学習対象として構
築されたニューラルネットワークの出力パターンか入力
単語を特定できないパターンである場合にも、正確に単
語認識を行なうことかできる。
ラルネットワークと、類似単語にてクループ化された登
録単語を学習対象として構築した各クループ用ニューラ
ルネットワークとを用いることにより、単語認識率を向
上てきる。これにより、全登録単語を学習対象として構
築されたニューラルネットワークの出力パターンか入力
単語を特定できないパターンである場合にも、正確に単
語認識を行なうことかできる。
請求項2に記載の本発明によれば、下記■の作用かある
。
。
■ニューラルネットワークへの入力として、請求項1に
記載の■〜■の各要素のうちの1つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間か短くて足りるため、単語認識システムを複雑
な処理装置によることなく容易に実時間処理てきる。
記載の■〜■の各要素のうちの1つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間か短くて足りるため、単語認識システムを複雑
な処理装置によることなく容易に実時間処理てきる。
[実施例コ
第1図は全単語用ニューラルネットワークの学習系統を
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。
(A)先ず、全単語用ニューラルネットワークの学習系
統について説明する(第1図参照)。
統について説明する(第1図参照)。
この系統は、音声入力部11.前処理部12、全単語用
ニューラルネットワーク13にて構成される。
ニューラルネットワーク13にて構成される。
以下、前処理部12、全単語用ニューラルネットワーク
13の構成について説明する。
13の構成について説明する。
(1)前処理部
前処理部12(j、入力音声に簡単な前処理を施し、上
記全単語用ニューラルネットワーク13、後述するクル
ープ用ニューラルネットワークJ4への入力データを作
成する。
記全単語用ニューラルネットワーク13、後述するクル
ープ用ニューラルネットワークJ4への入力データを作
成する。
前処理部12の具体的構成を例示すれば以下の如くであ
る。
る。
即ち、前処理部12としては、ローパスフィルタ、バン
ドパスフィルタ、平均化回路の結合からなるものを用い
ることかてきる。
ドパスフィルタ、平均化回路の結合からなるものを用い
ることかてきる。
■入力音声の音声信号の高域の雑音成分を、ローパスフ
ィルタにてカットする。そして、この入力音声を8つの
ブロックに時間的に等分割する。
ィルタにてカットする。そして、この入力音声を8つの
ブロックに時間的に等分割する。
■音声波形を、複数(n個)チャンネルのバントパスフ
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。
この時、ノ〜ントバスフィルタの出力信号は、平均化回
路にて、各ブロック毎、即ち各一定時間て平均化される
。
路にて、各ブロック毎、即ち各一定時間て平均化される
。
以上の前処理により、「音声の一定時間内における平均
的な周波数特性の時間的変化」か得られる。
的な周波数特性の時間的変化」か得られる。
(2)全単語用ニューラルネットワーク全単語用ニュー
ラルネットワーク13は、入力音声が全登録単語のいず
れであるかを判定する。
ラルネットワーク13は、入力音声が全登録単語のいず
れであるかを判定する。
全単語用ニューラルネットワーク13の具体的構成を例
示すれば、以下の如くである。
示すれば、以下の如くである。
■構造
全単語用ニューラルネットワーク13は例えば3層パー
セブトロン型であり、入カニニット数は前処理部12の
8ブロツク、nチャンネルに対応する8n個、出力ユニ
ット数は登録単語と同数個である。
セブトロン型であり、入カニニット数は前処理部12の
8ブロツク、nチャンネルに対応する8n個、出力ユニ
ット数は登録単語と同数個である。
■学習
目標値は、登録単語について対応する出力ユニットの出
力値を 1、その他の出力値を0とする。
力値を 1、その他の出力値を0とする。
(a)登録単語の音声に前処理部12による前処理を施
し、全単話用ニューラルネットワーク13に入力する。
し、全単話用ニューラルネットワーク13に入力する。
目標値に近づくように全単語用ニューラルネットワーク
13の重みと変換関数を修正する。
13の重みと変換関数を修正する。
(a)を目標値と出力ユニットの出力値の誤差が、十分
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
に小さな値(例えば、I X 10−’)になるまで繰
り返す。
fB)次に、グループ用ニューラルネットワークの学習
系統について説明する(第2図参照)。
系統について説明する(第2図参照)。
この系統は、音声入力部11、前処理部12、複数のグ
ループ用ニューラルネットワーク14にて構成される。
ループ用ニューラルネットワーク14にて構成される。
以下、グループ用ニューラルネットワーク14の構成に
ついて説明する。前処理部12は、前述(A)の前処理
部12と同一である。
ついて説明する。前処理部12は、前述(A)の前処理
部12と同一である。
各クループ用ニューラルネットワーク14は、予めグル
ープ分けした各グループ毎に対応して設けられ、入力音
声か各グループ内の登録単語のいずれであるかを判定す
る。尚、各グループは、全登録単語を音素列の並びか類
似パターンである単語の組錘にクループ化して構成した
ものである。
ープ分けした各グループ毎に対応して設けられ、入力音
声か各グループ内の登録単語のいずれであるかを判定す
る。尚、各グループは、全登録単語を音素列の並びか類
似パターンである単語の組錘にクループ化して構成した
ものである。
クループ用ニューラルネットワーク14の具体的構成を
例示すれば、以下の如くである。
例示すれば、以下の如くである。
■構造
グループ用ニューラルネットワーク14は例えは3層バ
ーセプトロン型であり、入カニニット数は前処理部12
の8フロツク、nチャンネルに対応する80個、出力ユ
ニット数は当該クループを構成する登録単語数と同数個
である。
ーセプトロン型であり、入カニニット数は前処理部12
の8フロツク、nチャンネルに対応する80個、出力ユ
ニット数は当該クループを構成する登録単語数と同数個
である。
■学習
目標値は、当該グループを構成する登録単語について対
応する出力ユニットの出力値を1、その他の出力値を0
とする。
応する出力ユニットの出力値を1、その他の出力値を0
とする。
(a)当該クループを構成する登録単語の音声に前処理
部12による前処理を施し、グループ用ニューラルネッ
トワーク14に入力する。目標値に近づくようにグルー
プ用ニューラルネットワーク14の重みと変換関数を修
正する。
部12による前処理を施し、グループ用ニューラルネッ
トワーク14に入力する。目標値に近づくようにグルー
プ用ニューラルネットワーク14の重みと変換関数を修
正する。
(a)を目標値と出力ユニットの出力値の誤差か、十分
に小さな値(例えば、I X 10−’)になるまて繰
り返す。
に小さな値(例えば、I X 10−’)になるまて繰
り返す。
(C)次に、本発明による単語認識系統について説明す
る(第3図、第4図参照)。
る(第3図、第4図参照)。
単語認識システム10は、音声入力部11、前処理部1
2、全単語用ニューラルネットワーク13、グループ用
ニューラルネットワーク14、及び、第1判定部21、
グループ記憶部22、ネットワーク選択部23、最終判
定部24にて構成される。この時、全単語用ニューラル
ネットワーク13は前述(A)にて構築され、グループ
用ニューラルネットワーク14は前述(B)にて構築さ
れたものである。
2、全単語用ニューラルネットワーク13、グループ用
ニューラルネットワーク14、及び、第1判定部21、
グループ記憶部22、ネットワーク選択部23、最終判
定部24にて構成される。この時、全単語用ニューラル
ネットワーク13は前述(A)にて構築され、グループ
用ニューラルネットワーク14は前述(B)にて構築さ
れたものである。
単語認識システム10は、下記(1)〜(3)のアルゴ
リズムにより単語認識する。
リズムにより単語認識する。
(1)入力音声に対し、全単語用ニューラルネットワー
ク13による認識を行なう。第1判定部21により、全
単語用ニューラルネットワーク13の出力パターンをし
きい値判定して単語認識し、入力単語を特定する。
ク13による認識を行なう。第1判定部21により、全
単語用ニューラルネットワーク13の出力パターンをし
きい値判定して単語認識し、入力単語を特定する。
(2)上記(1)において、全単語用ニューラルネット
ワーク13の出力パターンが入力単語を特定できないパ
ターンである時、グループ記憶部22、ネットワーク選
択部23を用いて、該全単語用ニューラルネットワーク
13における最大出力値の出力ユニットに対応する登録
単語を含むクループのグループ用ニューラルネットワー
ク14を選択する。
ワーク13の出力パターンが入力単語を特定できないパ
ターンである時、グループ記憶部22、ネットワーク選
択部23を用いて、該全単語用ニューラルネットワーク
13における最大出力値の出力ユニットに対応する登録
単語を含むクループのグループ用ニューラルネットワー
ク14を選択する。
(3)前記(1)の入力音声に対し、上記(2)により
選択されたクループ用ニューラルネットワーク14によ
る認識を行なう。最終判定部24により、グループ用ニ
ューラルネットワーク14の出力パターンをしきい値判
定して単語認識し、入力単語を特定する。
選択されたクループ用ニューラルネットワーク14によ
る認識を行なう。最終判定部24により、グループ用ニ
ューラルネットワーク14の出力パターンをしきい値判
定して単語認識し、入力単語を特定する。
以下、上記単語認識システム10の具体的実施結果につ
いて説明する。
いて説明する。
■登録単語として、47都道府県名を用い、各音声単語
試料に前処理を施し、128次元(8ブロツク×16チ
ヤンネル)の特徴ベクトルを得る。これをニューラルネ
ットワークへの入力として、全単語用ニューラルネット
ワーク13を構築する。
試料に前処理を施し、128次元(8ブロツク×16チ
ヤンネル)の特徴ベクトルを得る。これをニューラルネ
ットワークへの入力として、全単語用ニューラルネット
ワーク13を構築する。
■全登録単語を音素列の並びが類似パターンであること
に基づいてグループ分けした各クループの登録単語毎に
グループ化したグループ用ニューラルネットワーク14
を構築する。
に基づいてグループ分けした各クループの登録単語毎に
グループ化したグループ用ニューラルネットワーク14
を構築する。
クループ1 /Tokushima/と/Kagosh
ima/グループ2 /Niigata/と/Yama
gata/グループ3 /Shiga/と/Chiba
/等■全単語用ニューラルネットワーク13、及びグル
ープ用ニューラルネットワーク14を用い、前記アルゴ
リズムに従って単語認識を行なう。
ima/グループ2 /Niigata/と/Yama
gata/グループ3 /Shiga/と/Chiba
/等■全単語用ニューラルネットワーク13、及びグル
ープ用ニューラルネットワーク14を用い、前記アルゴ
リズムに従って単語認識を行なう。
従来の全登録単語を対象としたニューラルネットワーク
のみの場合では、出力ユニット値か0〜1の範囲で、 ■入力音声/Tokushiaa/に対し、出力ユニッ
) /Tokushima/の出力値が0.56、出力
ユニット/Kagoshima/の出力値は0.71■
入力音声/Niigata/に対し、出力ユニッ) /
Niigata/の出力値は0.07、出力ユニット/
Yamagata/の出力値は0.17■入力音声/S
higa/に対し、出力ユニット/Shiga/の出力
値は0,19、出力ユニット/Chiba/の出力値は
0.49 等となり、単語の認識が困難であった。
のみの場合では、出力ユニット値か0〜1の範囲で、 ■入力音声/Tokushiaa/に対し、出力ユニッ
) /Tokushima/の出力値が0.56、出力
ユニット/Kagoshima/の出力値は0.71■
入力音声/Niigata/に対し、出力ユニッ) /
Niigata/の出力値は0.07、出力ユニット/
Yamagata/の出力値は0.17■入力音声/S
higa/に対し、出力ユニット/Shiga/の出力
値は0,19、出力ユニット/Chiba/の出力値は
0.49 等となり、単語の認識が困難であった。
これに対し、本発明の単語認識システム10によれば、
全単語用ニューラルネットワーク13に加え、クループ
用ニューラルネットワーク14を用いることにより、上
述の各登録単語を正確に認識することか可能となった。
全単語用ニューラルネットワーク13に加え、クループ
用ニューラルネットワーク14を用いることにより、上
述の各登録単語を正確に認識することか可能となった。
又、前述の前処理部12により、入力音声を前処理して
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用てきる。
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用てきる。
そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることができる
。
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることができる
。
尚、上記■の線形予測係数は、以下の如く定義される。
即ち、音声波形のサンプル値(χ、)の間には、一般に
高い近接相関かあることが知られている。
高い近接相関かあることが知られている。
そこで次のような線形予測か可能であると仮定する。
線形予測値 χt;−Σα五χt−1 ・・・(1
)線形予測誤差 ε、=χ、−χt ・・・(2)こ
こて、χt:時刻tにおける音声波形のサンプル値、(
α、) (1= 1.−・・、p): (1次の)線形
予測係数 さて、本発明の実施においては、線形予測誤差ε(の2
乗平均値か最小となるように線形予測係数(α、)を求
める。
)線形予測誤差 ε、=χ、−χt ・・・(2)こ
こて、χt:時刻tにおける音声波形のサンプル値、(
α、) (1= 1.−・・、p): (1次の)線形
予測係数 さて、本発明の実施においては、線形予測誤差ε(の2
乗平均値か最小となるように線形予測係数(α、)を求
める。
具体的には (ε )2を求め、その時間平均を(εt
)2と表わして、θ(εt)”/aαt=0.i=1.
2.・・・、pとおくことによって、次の式から(α、
)が求められる。
)2と表わして、θ(εt)”/aαt=0.i=1.
2.・・・、pとおくことによって、次の式から(α、
)が求められる。
又、上記■のPARCOR係数は以下の如く定義される
。
。
即ち、[k、](n=1.・・・、p)を(1次の)P
ARCOR係数(偏自己相関係数)とする時、PARC
OR係数k n、、は、線形予測による前向き残差ε、
(f)と後向き残差ε、−1゜。8.ib1間の正規化
相関係数として、次の式によって定義される。
ARCOR係数(偏自己相関係数)とする時、PARC
OR係数k n、、は、線形予測による前向き残差ε、
(f)と後向き残差ε、−1゜。8.ib1間の正規化
相関係数として、次の式によって定義される。
ε t −ε 1−(口◆l]
ここで、ε、 (f) :χ、−Σ α1χL−r +
(α、):前向き予測係数、 εt−+n◆1)2 χt −(n◆1) −Σβj・
χt−J ・(βj):後向き予測係数 又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期(ピッチ周期)の逆数である。
(α、):前向き予測係数、 εt−+n◆1)2 χt −(n◆1) −Σβj・
χt−J ・(βj):後向き予測係数 又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期(ピッチ周期)の逆数である。
尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかてきる。
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかてきる。
又、上記■の高域強調とは、音声波形のスペクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。
ところが、このスペクトルの平均的な傾きか補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間がかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通て、認
識には無関係てありなから、学習に影響を及ばずスペク
トルの平均的な傾きを補償てきるため、学習速度か速く
なるのである。
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間がかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通て、認
識には無関係てありなから、学習に影響を及ばずスペク
トルの平均的な傾きを補償てきるため、学習速度か速く
なるのである。
上記実施例によれば、下記■、■の作用効果かある。
■全登録単語を学習対象として構築した全単語用ニュー
ラルネットワーク13と、類似単語にてグループ化され
た登録単語を学習対象として構築した各グループ用ニュ
ーラルネットワーク14とを用いることにより、単語認
識率を向上てきる。
ラルネットワーク13と、類似単語にてグループ化され
た登録単語を学習対象として構築した各グループ用ニュ
ーラルネットワーク14とを用いることにより、単語認
識率を向上てきる。
これにより、全登録単語を学習対象として構築されたニ
ューラルネットワークの出力パターンか入力単語を特定
できないパターンである場合にも、正確に単語認識を行
なうことができる。
ューラルネットワークの出力パターンか入力単語を特定
できないパターンである場合にも、正確に単語認識を行
なうことができる。
■ニューラルネットワーク13.14への入力として、
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの1つ以上を用
いるから、入力を得るための前処理か単純となり、この
前処理に要する時間か短くて足りるため、単語認識シス
テム10を複雑な処理装置によることなく容易に実時間
処理できる。
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの1つ以上を用
いるから、入力を得るための前処理か単純となり、この
前処理に要する時間か短くて足りるため、単語認識シス
テム10を複雑な処理装置によることなく容易に実時間
処理できる。
[発明の効果コ
以上のように本発明によれば、全登録単語を学習対象と
して構築されたニューラルネットワークの出力パターン
か入力単語を特定できないパターンである場合にも、正
確に単語認識を行なうことかできる。
して構築されたニューラルネットワークの出力パターン
か入力単語を特定できないパターンである場合にも、正
確に単語認識を行なうことかできる。
第1図は全単語用ニューラルネットワークの学習系統を
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。 10・・・単語認識システム、 11・・・音声入力部、 12・・・前処理部、 13・・・全単語用ニューラルネットワーク、14・・
・クループ用ニューラルネットワーク、2j・・・第1
判定部、 22・・・グループ記憶部、 23・・・ネットワーク選択部、 24・・・最終判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
示すブロック図、第2図はグループ用ニューラルネット
ワークの学習系統を示すブロック図、第3図は単語認識
系統を示すブロック図、第4図は単語認識系統を示す流
れ図である。 10・・・単語認識システム、 11・・・音声入力部、 12・・・前処理部、 13・・・全単語用ニューラルネットワーク、14・・
・クループ用ニューラルネットワーク、2j・・・第1
判定部、 22・・・グループ記憶部、 23・・・ネットワーク選択部、 24・・・最終判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
Claims (2)
- (1)ニューラルネットワークを用いた単語認識システ
ムにおいて、全登録単語を学習対象として構築した全単
語用ニューラルネットワークと、音素列の並びが類似パ
ターンであることに基づいて、全登録単語をグループ分
けした各グループ毎の登録単語を学習対象として構築し
た各グループ用ニューラルネットワークとを用い、入力
単語について、全単語用ニューラルネットワークによる
認識を行ない、該全単語用ニューラルネットワークの出
力パターンが入力単語を特定できないパターンである時
、更に、該全単語用ニューラルネットワークにおける最
大出力値の出力ユニットに対応する登録単語を含むグル
ープの、グループ用ニューラルネットワークによる認識
を行なうことを特徴とする単語認識システム。 - (2)前記ニューラルネットワークへの入力として、 [1]音声の周波数特性の時間的変化、 [2]音声の平均的な線形予測係数、 [3]音声の平均的なPARCOR係数、 [4]音声の平均的な周波数特性、及びピッチ周波数、 [5]高域強調を施された音声波形の平均的な周波数特
性、並びに [6]音声の平均的な周波数特性 のうちの1つ以上を使用する請求項1に記載の単語認識
システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2120861A JPH0415694A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2120861A JPH0415694A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0415694A true JPH0415694A (ja) | 1992-01-21 |
Family
ID=14796769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2120861A Pending JPH0415694A (ja) | 1990-05-09 | 1990-05-09 | 単語認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0415694A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019035902A (ja) * | 2017-08-18 | 2019-03-07 | 日本電信電話株式会社 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
-
1990
- 1990-05-09 JP JP2120861A patent/JPH0415694A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019035902A (ja) * | 2017-08-18 | 2019-03-07 | 日本電信電話株式会社 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
Gevaert et al. | Neural networks used for speech recognition | |
Kadıoğlu et al. | An empirical study of Conv-TasNet | |
Grais et al. | Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders | |
Vincent et al. | Performance measurement in blind audio source separation | |
Gogate et al. | DNN driven speaker independent audio-visual mask estimation for speech separation | |
Phan et al. | Self-attention generative adversarial network for speech enhancement | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
Li et al. | Frame-Level Signal-to-Noise Ratio Estimation Using Deep Learning. | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Li et al. | Source-aware context network for single-channel multi-speaker speech separation | |
CN110136741B (zh) | 一种基于多尺度上下文的单通道语音增强方法 | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
Krishnakumar et al. | A comparison of boosted deep neural networks for voice activity detection | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
JPH0415694A (ja) | 単語認識システム | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN110992966B (zh) | 一种人声分离方法及系统 | |
Nilsson et al. | Human whistle detection and frequency estimation | |
Muhsina et al. | Signal enhancement of source separation techniques |