JPH02254498A - 音韻分類記号化装置 - Google Patents
音韻分類記号化装置Info
- Publication number
- JPH02254498A JPH02254498A JP1077536A JP7753689A JPH02254498A JP H02254498 A JPH02254498 A JP H02254498A JP 1077536 A JP1077536 A JP 1077536A JP 7753689 A JP7753689 A JP 7753689A JP H02254498 A JPH02254498 A JP H02254498A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- frame
- classification
- phoneme classification
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 abstract description 9
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〈産業上の利用分野〉
この発明は、音声入力装置等に用いられる音韻分類記号
化装置の改良に関する。
化装置の改良に関する。
〈従来の技術〉
音声入力装置において、入力された音声信号を一定の周
期(8ms程度、以下、フレームと言う)毎に大略的性
質によって分類し、この分類された性質に対してラベル
付け(音韻分類記号化)を行う。
期(8ms程度、以下、フレームと言う)毎に大略的性
質によって分類し、この分類された性質に対してラベル
付け(音韻分類記号化)を行う。
そして、後に入力音声信号から音声区間や音節区間を切
り出す際に、上記音韻分類記号を用いるのである。
り出す際に、上記音韻分類記号を用いるのである。
従来、音韻分類記号化を行う手法として、例えば次のよ
うな手法がある。すなわち、入力音声信号の各フレーム
毎にパワー、零交差数および自己相関係数等の特徴パラ
メータを求め、この求めた特徴パラメータの値と閾値と
の比較をフレーム毎に行い、その比較結果に基づいて各
フレームに音韻分類記号を付けるようにしている。
うな手法がある。すなわち、入力音声信号の各フレーム
毎にパワー、零交差数および自己相関係数等の特徴パラ
メータを求め、この求めた特徴パラメータの値と閾値と
の比較をフレーム毎に行い、その比較結果に基づいて各
フレームに音韻分類記号を付けるようにしている。
また、最近ニューラル・ネットワークを用いて、音節の
切り出しや音素認識を行う方法が提案されている。
切り出しや音素認識を行う方法が提案されている。
〈発明が解決しようとする課題〉
しかしながら、上記閾値を用いた音韻分類記号化の手法
は、特徴パラメータの値と閾値との比較をフレーム毎に
行い、その比較結果に基づいて各フレームに音韻分類記
号を付けるようにしているので、特徴パラメータの値と
比較する閾値の設定には多くの音声認識上の経験を必要
とするという問題がある。さらに、各フレーム毎に独立
して音韻分類記号化を行っているので、隣接するフレー
ムの音韻分類記号間に矛盾が生じる場合があるという問
題もある。
は、特徴パラメータの値と閾値との比較をフレーム毎に
行い、その比較結果に基づいて各フレームに音韻分類記
号を付けるようにしているので、特徴パラメータの値と
比較する閾値の設定には多くの音声認識上の経験を必要
とするという問題がある。さらに、各フレーム毎に独立
して音韻分類記号化を行っているので、隣接するフレー
ムの音韻分類記号間に矛盾が生じる場合があるという問
題もある。
また、上記ニューラル・ネットワークを用いた音節の切
り出しや音素認識は、音節あるいは音素の単位での音韻
分類記号化であり、フレームのように音韻あるいは音素
よりも短い区間における音韻分類記号化には用いられて
いない。
り出しや音素認識は、音節あるいは音素の単位での音韻
分類記号化であり、フレームのように音韻あるいは音素
よりも短い区間における音韻分類記号化には用いられて
いない。
そこで、この発明の目的は、隣接するフレームにおける
音韻分類記号に矛盾のない音韻分類記号化を簡単に実行
できる音韻分類記号化装置を提供することにある。
音韻分類記号に矛盾のない音韻分類記号化を簡単に実行
できる音韻分類記号化装置を提供することにある。
〈課題を解決するための手段〉
上記目的を達成するため、この発明は、入力された音声
信号のフレーム毎の特徴パラメータに基づいて、入力音
声信号の各フレームに音声の性質を表す音韻分類記号を
付ける音韻分類記号化装置において、入力音声信号の所
定フレーム数の特徴パラメータを表す信号を入力し、上
記所定フレーム数のフレームにおける中心フレームの音
韻分類記号を識別して識別信号を出力する音韻分類記号
化用ニューラル・ネットワークと、上記音韻分類記号化
用ニューラル・ネットワークから出力される上記識別信
号に基づいて、上記中心フレームの音韻分類記号を決定
する音韻分類部を備えたことを特徴としている。
信号のフレーム毎の特徴パラメータに基づいて、入力音
声信号の各フレームに音声の性質を表す音韻分類記号を
付ける音韻分類記号化装置において、入力音声信号の所
定フレーム数の特徴パラメータを表す信号を入力し、上
記所定フレーム数のフレームにおける中心フレームの音
韻分類記号を識別して識別信号を出力する音韻分類記号
化用ニューラル・ネットワークと、上記音韻分類記号化
用ニューラル・ネットワークから出力される上記識別信
号に基づいて、上記中心フレームの音韻分類記号を決定
する音韻分類部を備えたことを特徴としている。
〈作用〉
音韻分類記号化用ニューラル・ネットワークに、入力音
声信号の所定フレーム数の特徴パラメータを表す信号が
入力されると、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号が識別されて識別信号が出
力される。そうすると、上記音韻分類記号化用ニューラ
ル・ネットワークからの識別信号に基づいて、音韻分類
部によって上記中心フレームの音韻分類記号が決定され
る。
声信号の所定フレーム数の特徴パラメータを表す信号が
入力されると、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号が識別されて識別信号が出
力される。そうすると、上記音韻分類記号化用ニューラ
ル・ネットワークからの識別信号に基づいて、音韻分類
部によって上記中心フレームの音韻分類記号が決定され
る。
したがって、前後数フレームの特徴パラメータの影響を
考慮して、当該フレームに音韻分類記号を付けることが
できる。
考慮して、当該フレームに音韻分類記号を付けることが
できる。
〈実施例〉
以下、この発明を図示の実施例により詳細に説明する。
この発明は、入力音声信号の各フレーム毎の音韻分類記
号を求めろ手法として、ニューラル・ネットワークを用
いるものである。上記ニューラル・ネットワークを利用
した識別は、学習によって入ツノデータが属するカテゴ
リを識別する規則を自ら求め、この求めた規則に従って
入力データが属するカテゴリを識別する方法である。し
たがって、予め適確な学習データを用いて正しく学習さ
れたニューラル・ネットワークを用いれば、簡単な処理
で入力データ(特徴パラメータ)か属するカテゴリ(音
韻分類記号)を正しく識別することができるのである。
号を求めろ手法として、ニューラル・ネットワークを用
いるものである。上記ニューラル・ネットワークを利用
した識別は、学習によって入ツノデータが属するカテゴ
リを識別する規則を自ら求め、この求めた規則に従って
入力データが属するカテゴリを識別する方法である。し
たがって、予め適確な学習データを用いて正しく学習さ
れたニューラル・ネットワークを用いれば、簡単な処理
で入力データ(特徴パラメータ)か属するカテゴリ(音
韻分類記号)を正しく識別することができるのである。
第1図はこの発明の音韻分類記号化装置における一実施
例のブロック図である。入力音声信号は音声分析部lに
おいてザンブリング周期12 K I−IZでA/D変
換され、更にフレーム(Iフレームは8ms程度)毎に
パワー、零交差数および1次自己相関係数等の特徴パラ
メータに変換される。
例のブロック図である。入力音声信号は音声分析部lに
おいてザンブリング周期12 K I−IZでA/D変
換され、更にフレーム(Iフレームは8ms程度)毎に
パワー、零交差数および1次自己相関係数等の特徴パラ
メータに変換される。
上記音声分析部lから出力された特徴パラメータは、後
に詳述する遅延部2を介して音韻分類記号化用ニューラ
ル・ネットワーク3に入力されると共に、音^口分類部
4に入力される。そして、音韻分類記号化用ニューラル
・ネットワーク3によって、後に詳述するようにして各
フレーム毎に特徴パラメータの属する音韻分類記号が識
別され、識別データが出力される。そうすると、音韻分
類部4によって、音韻分類記号化用ニューラル・ネット
ワーク3からの識別データに基づいて、音韻分類記号が
決定されて得られた音韻分類記号が音声分析部1からの
特徴パラメータに付加されて出力される。
に詳述する遅延部2を介して音韻分類記号化用ニューラ
ル・ネットワーク3に入力されると共に、音^口分類部
4に入力される。そして、音韻分類記号化用ニューラル
・ネットワーク3によって、後に詳述するようにして各
フレーム毎に特徴パラメータの属する音韻分類記号が識
別され、識別データが出力される。そうすると、音韻分
類部4によって、音韻分類記号化用ニューラル・ネット
ワーク3からの識別データに基づいて、音韻分類記号が
決定されて得られた音韻分類記号が音声分析部1からの
特徴パラメータに付加されて出力される。
第2図は上記音韻分類記号化用ニューラル・ネットワー
ク3の構造の概略図である。このニューラル・ネットワ
ークは、図中下側から順に入力層11、中間層12およ
び出力層13から成る3層構造を有する3層パーセプト
ロン型ニューラル・ネットワークである。上記音韻分類
記号化用ニューラル・ネットワーク3の入力層11には
7X3=21個のユニットを配し、中間層12には10
個のユニットを配し、出力層13には6gのユニットを
配している。上記入力層11の21個のユニットは3個
づつ7個のグループに分けられる。そして、各グループ
の1番目のユニット+ 4.17.・・20、・・・、
23には、音声分析部lからのパワーを表す信号を入力
する。また、各グループの2番目のユニットI 5,1
8.・、21.・・、24には、音声分析部lからの零
交差数を表す信号を入力する。
ク3の構造の概略図である。このニューラル・ネットワ
ークは、図中下側から順に入力層11、中間層12およ
び出力層13から成る3層構造を有する3層パーセプト
ロン型ニューラル・ネットワークである。上記音韻分類
記号化用ニューラル・ネットワーク3の入力層11には
7X3=21個のユニットを配し、中間層12には10
個のユニットを配し、出力層13には6gのユニットを
配している。上記入力層11の21個のユニットは3個
づつ7個のグループに分けられる。そして、各グループ
の1番目のユニット+ 4.17.・・20、・・・、
23には、音声分析部lからのパワーを表す信号を入力
する。また、各グループの2番目のユニットI 5,1
8.・、21.・・、24には、音声分析部lからの零
交差数を表す信号を入力する。
さらに、各グループの3番目のユニット16,19゜・
・、22.・・・、25には、音声分析部Iからの1次
自己相関係数を表す信号を入力する。その際に、上記7
個のグループのうちユニット+4.15.16から成る
グループには(t−+−a)フレームの特徴パラメータ
を入力し、ユニットl 7,18.19から成るグルー
プには(t+2)フレームの特徴パラメータを入力し、
以下同様にして、ユニット20゜21.22から成るグ
ループにはLフレームの特徴パラメータを入力し、ユニ
ット23,24.25から成るグループには(t−3)
フレームの特徴パラメータを入力する。すなわち、音韻
分類記号化用ニューラル・ネットワーク3の入力層l!
には、入力音声信号のフレーム(t−3)〜フレームQ
+3)の連続した7フレ一ム分の特徴パラメータを入力
するのである。
・、22.・・・、25には、音声分析部Iからの1次
自己相関係数を表す信号を入力する。その際に、上記7
個のグループのうちユニット+4.15.16から成る
グループには(t−+−a)フレームの特徴パラメータ
を入力し、ユニットl 7,18.19から成るグルー
プには(t+2)フレームの特徴パラメータを入力し、
以下同様にして、ユニット20゜21.22から成るグ
ループにはLフレームの特徴パラメータを入力し、ユニ
ット23,24.25から成るグループには(t−3)
フレームの特徴パラメータを入力する。すなわち、音韻
分類記号化用ニューラル・ネットワーク3の入力層l!
には、入力音声信号のフレーム(t−3)〜フレームQ
+3)の連続した7フレ一ム分の特徴パラメータを入力
するのである。
ここで、音声分析部lから出力される連続した7フレー
ムの特徴パラメータを入力層11に入力する方法として
、例えば次のような方法がある。
ムの特徴パラメータを入力層11に入力する方法として
、例えば次のような方法がある。
ここで、第3図に示すように上記遅延部2は特徴パラメ
ータの種類に対応して3つの遅延部35゜36.37か
ら成り、各遅延部35,36.37は同じ構造を有し同
じ動作をするので、特徴パラメータのパワーに対応する
遅延部35のみについて説明する。
ータの種類に対応して3つの遅延部35゜36.37か
ら成り、各遅延部35,36.37は同じ構造を有し同
じ動作をするので、特徴パラメータのパワーに対応する
遅延部35のみについて説明する。
第2図および第3図において、入力層IIのユニット1
4には音声分析部1からのパワーを表す信号を直接入力
し、ユニット17には音声分析部lからのパワーを表す
信号を遅延部35の遅延素子38によって!フレーム分
だけ時間を遅延させて入力する。以下同様にして、ユニ
ット20には音声分析部1からのパワーを表す信号を3
個の遅延素子38によって3フレ一ム分だけ時間を遅延
させて入力し、ユニット23には音声分析部lからのパ
ワーを表4″信号を6gの遅延素子38によって6フレ
一ム分だけ時間を遅延させて入力すればよい。この場合
、全ユニット14.+7.・・・、20・・・、23の
中心のユニット20が、この音韻分類記号化用ニューラ
ル・ネットワーク3によってカテゴリか識別される当該
フレームtに対応する。
4には音声分析部1からのパワーを表す信号を直接入力
し、ユニット17には音声分析部lからのパワーを表す
信号を遅延部35の遅延素子38によって!フレーム分
だけ時間を遅延させて入力する。以下同様にして、ユニ
ット20には音声分析部1からのパワーを表す信号を3
個の遅延素子38によって3フレ一ム分だけ時間を遅延
させて入力し、ユニット23には音声分析部lからのパ
ワーを表4″信号を6gの遅延素子38によって6フレ
一ム分だけ時間を遅延させて入力すればよい。この場合
、全ユニット14.+7.・・・、20・・・、23の
中心のユニット20が、この音韻分類記号化用ニューラ
ル・ネットワーク3によってカテゴリか識別される当該
フレームtに対応する。
また、出力層13の6個のユニットには次のように音韻
分類記号を割り付ける。すなわち、ユニット26にはカ
テゴリ“(無音性)を割り付け、ユニット27にはカテ
ゴリ“B”(バズバー性)を割り付け、ユニット28に
はカテゴリ“N“(鼻音性)を割す付け、ユニット29
にはカテゴリ″v“(母音性)を割り付け、ユニット3
0にはカテゴリ“C”(弱い摩擦性)を割り付け、ユニ
ット3Iにはカテゴリ“F”(強い摩擦性)を割り付け
る。入力層11の各ユニットは夫々中間層I2の全ユニ
ットと接続している。また、中間層22の各ユニットは
夫々出力層【3の全ユニットと接続している。しかしな
がら、各層内のユニット間は接続されない。
分類記号を割り付ける。すなわち、ユニット26にはカ
テゴリ“(無音性)を割り付け、ユニット27にはカテ
ゴリ“B”(バズバー性)を割り付け、ユニット28に
はカテゴリ“N“(鼻音性)を割す付け、ユニット29
にはカテゴリ″v“(母音性)を割り付け、ユニット3
0にはカテゴリ“C”(弱い摩擦性)を割り付け、ユニ
ット3Iにはカテゴリ“F”(強い摩擦性)を割り付け
る。入力層11の各ユニットは夫々中間層I2の全ユニ
ットと接続している。また、中間層22の各ユニットは
夫々出力層【3の全ユニットと接続している。しかしな
がら、各層内のユニット間は接続されない。
上記音韻分類記号化用ニューラル・ネットワーク3の学
習は、次のように誤差逆伝播法によって行う。すなわち
、多数話者の音声信号から7フレ一ム分の音声信号を切
り出し、各フレーム毎に求められたパワー、零交差数お
よび1次自己相関係数の時系列を学習データとする。ま
た、上記学習データにおける中心フレームの性質を表す
音韻分類記号を視察によって求め、その求めた中心フレ
ームの音韻分類記号を表すデータを教師データとする。
習は、次のように誤差逆伝播法によって行う。すなわち
、多数話者の音声信号から7フレ一ム分の音声信号を切
り出し、各フレーム毎に求められたパワー、零交差数お
よび1次自己相関係数の時系列を学習データとする。ま
た、上記学習データにおける中心フレームの性質を表す
音韻分類記号を視察によって求め、その求めた中心フレ
ームの音韻分類記号を表すデータを教師データとする。
そして、学習の際には、学習データを音韻分類記号化用
ニューラル・ネットワーク3における入力層11の各ユ
ニットに上述のように入力し、入力した7フレームから
成る学習データの中心フレームの音韻分類記号に応じた
教師データを出力層13に入力する。例えば、視察によ
って求められた中心フレームの音韻分類記号が“N”で
ある学習データを音韻分類記号化用ニューラル・ネット
ワーク3の入力層11に入力した場合は、出力層13の
カテゴリ“N”が割り付けられたユニット28への入力
値が“ビであり、他のユニットへの入力値が0”である
教師データを人ツノするのである。
ニューラル・ネットワーク3における入力層11の各ユ
ニットに上述のように入力し、入力した7フレームから
成る学習データの中心フレームの音韻分類記号に応じた
教師データを出力層13に入力する。例えば、視察によ
って求められた中心フレームの音韻分類記号が“N”で
ある学習データを音韻分類記号化用ニューラル・ネット
ワーク3の入力層11に入力した場合は、出力層13の
カテゴリ“N”が割り付けられたユニット28への入力
値が“ビであり、他のユニットへの入力値が0”である
教師データを人ツノするのである。
すなわち、この学習においては、音韻分類記号化用ニュ
ーラル・ネットワーク3の入力層11に7フレ一ム分の
特徴パラメータが入力された場合に、この7フレームの
中心フレームの音韻分類記号を識別するように学習する
のである。そうすると、音韻分類記号化用ニューラル・
ネットワーク3は、出力層13の各ユニット26.・・
・、31からの出力値が教師データと同じになるように
ネットワークの重みを設定しなおしてネットワーク横進
を決定するのである。
ーラル・ネットワーク3の入力層11に7フレ一ム分の
特徴パラメータが入力された場合に、この7フレームの
中心フレームの音韻分類記号を識別するように学習する
のである。そうすると、音韻分類記号化用ニューラル・
ネットワーク3は、出力層13の各ユニット26.・・
・、31からの出力値が教師データと同じになるように
ネットワークの重みを設定しなおしてネットワーク横進
を決定するのである。
入力音声信号の音韻分類記号は次のようにして音韻分類
記号化用ニューラル・ネットワーク3によって識別され
る。
記号化用ニューラル・ネットワーク3によって識別され
る。
上記音韻分類記号化用ニューラル・ネットワーク3の入
力層11に、音声分析部lからのフレーム(t−3)〜
フレーム(t+3)の7フレ一ム分のパワー、零交差数
および1次自己相関係数が上述のように遅延部2を介し
て入力される。その結果、入力された7フレ一ム分の特
徴パラメータの中心フレームtの特徴パラメータが属す
るカテゴリを表す出力データが出力層13から出力され
る。そして、1フレームに相当する時間が経過すると、
音声分析部Iからフレーム(t−2)〜フレーム(t+
4)の7フレ一ム分のパワー、零交差数および1次自己
相関係数が入力層11に入力される。その結果、入力さ
れた7フレ一ム分の特徴パラメータの中心フレーム(t
+1)の特徴パラメータが届するカテゴリを表す出力デ
ータが出力層13から出力されるのである。こうして、
入力音声信号の各フレーム毎の音韻分類記号の識別結果
を表す出力データの時系列が、出力層13から出力され
て音韻分類部4に入力される。
力層11に、音声分析部lからのフレーム(t−3)〜
フレーム(t+3)の7フレ一ム分のパワー、零交差数
および1次自己相関係数が上述のように遅延部2を介し
て入力される。その結果、入力された7フレ一ム分の特
徴パラメータの中心フレームtの特徴パラメータが属す
るカテゴリを表す出力データが出力層13から出力され
る。そして、1フレームに相当する時間が経過すると、
音声分析部Iからフレーム(t−2)〜フレーム(t+
4)の7フレ一ム分のパワー、零交差数および1次自己
相関係数が入力層11に入力される。その結果、入力さ
れた7フレ一ム分の特徴パラメータの中心フレーム(t
+1)の特徴パラメータが届するカテゴリを表す出力デ
ータが出力層13から出力されるのである。こうして、
入力音声信号の各フレーム毎の音韻分類記号の識別結果
を表す出力データの時系列が、出力層13から出力され
て音韻分類部4に入力される。
このよう(こ、本実施例においては、音韻分類記号化用
ニューラル・ネッ)・ワーク3によって、前後3フレー
ムを加えた合計7フレ一ム分の特徴パラメータに基づい
て、当該フレームtの音韻分類記号を識別するのである
。したがって、前後3フレームの影響を考慮して音韻分
類記号化を行うことができるのである。
ニューラル・ネッ)・ワーク3によって、前後3フレー
ムを加えた合計7フレ一ム分の特徴パラメータに基づい
て、当該フレームtの音韻分類記号を識別するのである
。したがって、前後3フレームの影響を考慮して音韻分
類記号化を行うことができるのである。
上述のようにして、音韻分類記号化用ニューラル・ネッ
トワーク3の出力層I3から出力される当該フレームt
の識別音韻分類記号を表す出力データは、音韻分類部4
に入力されろ。そして、この音韻分類記号を表す出力デ
ータに基づいて、当該フレームEの音韻分類記号が次の
ようにして決定される。
トワーク3の出力層I3から出力される当該フレームt
の識別音韻分類記号を表す出力データは、音韻分類部4
に入力されろ。そして、この音韻分類記号を表す出力デ
ータに基づいて、当該フレームEの音韻分類記号が次の
ようにして決定される。
すなわち、音韻分類記号化用ニューラル・ネットワーク
3における出力層13の全ユニット26゜・・・、31
からの出ツノ値のうち、一つのユニットからの出力値の
みが閾値以上であれば、そのユニットが割り付けられて
いるカテゴリの音韻分類記号を、フレームtの音韻分類
記号とする。また、複数のユニットからの出力値が閾値
以上であれば、出力値の大きいユニットが割り付けられ
ている音韻分類記号の順に、複数の音韻分類記号をフレ
ームtにおける音韻分類記号候補とする。さらに、総て
のユニットの出力値が閾値未満であれば、ひとつ前のフ
レーム(t−1)に付けた音韻分類記号をフレーム(の
音韻分類記号とするのである。
3における出力層13の全ユニット26゜・・・、31
からの出ツノ値のうち、一つのユニットからの出力値の
みが閾値以上であれば、そのユニットが割り付けられて
いるカテゴリの音韻分類記号を、フレームtの音韻分類
記号とする。また、複数のユニットからの出力値が閾値
以上であれば、出力値の大きいユニットが割り付けられ
ている音韻分類記号の順に、複数の音韻分類記号をフレ
ームtにおける音韻分類記号候補とする。さらに、総て
のユニットの出力値が閾値未満であれば、ひとつ前のフ
レーム(t−1)に付けた音韻分類記号をフレーム(の
音韻分類記号とするのである。
上述のように、本実施例の音韻分類記号化装置において
は、入力音声信号7フレ一ム分の)くワー零交差数およ
び1次自己相関係数を音韻分類記号化用ニューラル・ネ
ットワーク3の入力層11に入力すると、音韻分類記号
化用ニューラル・ネットワーク3は入力された7フレ一
ム分の特徴lクラメータのうちの中心フレームtの特徴
ノくラメータが属する音韻分類記号を識別して、識別音
韻分類記号を表す出ノJデータを出力する。そして、音
韻分類部4によって、上記識別音韻分類記号を表す出力
データに基づいてフレームLの音韻分類記号あるいは音
韻分類記号候補を決定するようにしている。
は、入力音声信号7フレ一ム分の)くワー零交差数およ
び1次自己相関係数を音韻分類記号化用ニューラル・ネ
ットワーク3の入力層11に入力すると、音韻分類記号
化用ニューラル・ネットワーク3は入力された7フレ一
ム分の特徴lクラメータのうちの中心フレームtの特徴
ノくラメータが属する音韻分類記号を識別して、識別音
韻分類記号を表す出ノJデータを出力する。そして、音
韻分類部4によって、上記識別音韻分類記号を表す出力
データに基づいてフレームLの音韻分類記号あるいは音
韻分類記号候補を決定するようにしている。
したがって、本実施例によれば、学習によって、7フ一
ム分の特徴パラメータに基づいて中心フレームの音韻分
類記号を識別する規則を自ら生成するニューラル・ネッ
トワークを用いて、前後3フレームの影響を考慮してフ
レームの音韻分類記号あるいは音韻分類記号候補を決定
することができる。したかって、簡単な処理によって隣
接するフレームの音韻分類記号間に矛盾か生じないよう
に音韻分類記号あるいは音韻分類記号候補を決定できる
のである。
ム分の特徴パラメータに基づいて中心フレームの音韻分
類記号を識別する規則を自ら生成するニューラル・ネッ
トワークを用いて、前後3フレームの影響を考慮してフ
レームの音韻分類記号あるいは音韻分類記号候補を決定
することができる。したかって、簡単な処理によって隣
接するフレームの音韻分類記号間に矛盾か生じないよう
に音韻分類記号あるいは音韻分類記号候補を決定できる
のである。
上記実施例において、特徴パラメータとしてパワー、零
交差数および1次自己相関係数を用い、識別カテゴリと
して−”、“B”、“N”、V”、“C“および“F“
を割り付けているが、この発明はこれらに限定されるも
のではない。
交差数および1次自己相関係数を用い、識別カテゴリと
して−”、“B”、“N”、V”、“C“および“F“
を割り付けているが、この発明はこれらに限定されるも
のではない。
上記音韻分類記号化用ニューラル・ネットワーク3の入
ツノ層11.中間層12および出力層I3のユニット数
は、入力する特徴パラメータの数。
ツノ層11.中間層12および出力層I3のユニット数
は、入力する特徴パラメータの数。
識別音韻分類記号の数および音韻分類記号の識別精度等
によって変更しても何等差し支えない。
によって変更しても何等差し支えない。
また、上記実施例においては、3層パーセプトロン型ニ
ューラル・ネットワークを用いているが、4層以上のパ
ーセブトロン型ニューラル・ネットワークであっても+
Rわない。
ューラル・ネットワークを用いているが、4層以上のパ
ーセブトロン型ニューラル・ネットワークであっても+
Rわない。
〈発明の効果〉
以上より明らかなように、この発明の音韻分類記号化装
置は、音韻分類記号化用ニューラル・ネットワーク、音
韻分類部を備えて、入力音声信号の所定フレーム数の特
徴パラメータに基づいて、上記音韻分類記号化用ニュー
ラル・ネットワークによって上記所定フレーム数のフレ
ームにおける中心フレームの音韻分類記号を識別し、こ
の音韻分類記号化用ニューラル・ネットワークからの識
別信号に基づいて、上記音韻分類部によって上記中心フ
レームの音韻分類記号を決定するようにしたので、前後
数フレームの影響を考慮して当該フレームの音韻分類記
号を決定することができ、簡単な処理によって隣接する
フレームの音韻分類記号間に矛盾が生じないように音韻
分類記号を決定することかできる。
置は、音韻分類記号化用ニューラル・ネットワーク、音
韻分類部を備えて、入力音声信号の所定フレーム数の特
徴パラメータに基づいて、上記音韻分類記号化用ニュー
ラル・ネットワークによって上記所定フレーム数のフレ
ームにおける中心フレームの音韻分類記号を識別し、こ
の音韻分類記号化用ニューラル・ネットワークからの識
別信号に基づいて、上記音韻分類部によって上記中心フ
レームの音韻分類記号を決定するようにしたので、前後
数フレームの影響を考慮して当該フレームの音韻分類記
号を決定することができ、簡単な処理によって隣接する
フレームの音韻分類記号間に矛盾が生じないように音韻
分類記号を決定することかできる。
第1図はこの発明の音韻分類記号化装置における一実施
例のブロック図、第2図は第1図における音韻分類記号
化用ニューラル・ネットワークの概略構成図、第3図は
第1図における遅延部の詳細なブロック図である。 l・・・音声分析部、 2・・・遅延部、
3・・音韻分類記号化用ニューラル・ネットワーク、4
・・・音韻分類部、 11・・・入力層、
12・・・中間層、 13・・・出力層
、38・・・遅延素子。 特許出願人 シャープ株式会社
例のブロック図、第2図は第1図における音韻分類記号
化用ニューラル・ネットワークの概略構成図、第3図は
第1図における遅延部の詳細なブロック図である。 l・・・音声分析部、 2・・・遅延部、
3・・音韻分類記号化用ニューラル・ネットワーク、4
・・・音韻分類部、 11・・・入力層、
12・・・中間層、 13・・・出力層
、38・・・遅延素子。 特許出願人 シャープ株式会社
Claims (1)
- (1)入力された音声信号のフレーム毎の特徴パラメー
タに基づいて、入力音声信号の各フレームに音声の性質
を表す音韻分類記号を付ける音韻分類記号化装置におい
て、 入力音声信号の所定フレーム数の特徴パラメータを表す
信号を入力し、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号を識別して識別信号を出力
する音韻分類記号化用ニューラル・ネットワークと、 上記音韻分類記号化用ニューラル・ネットワークから出
力される上記識別信号に基づいて、上記中心フレームの
音韻分類記号を決定する音韻分類部を備えたことを特徴
とする音韻分類記号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1077536A JPH02254498A (ja) | 1989-03-29 | 1989-03-29 | 音韻分類記号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1077536A JPH02254498A (ja) | 1989-03-29 | 1989-03-29 | 音韻分類記号化装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02254498A true JPH02254498A (ja) | 1990-10-15 |
Family
ID=13636711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1077536A Pending JPH02254498A (ja) | 1989-03-29 | 1989-03-29 | 音韻分類記号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02254498A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123473A (ja) * | 1994-10-28 | 1996-05-17 | Sony Corp | 音韻ラベル化装置 |
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
KR100802984B1 (ko) * | 2006-11-24 | 2008-02-14 | 연세대학교 산학협력단 | 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치 |
-
1989
- 1989-03-29 JP JP1077536A patent/JPH02254498A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
JPH08123473A (ja) * | 1994-10-28 | 1996-05-17 | Sony Corp | 音韻ラベル化装置 |
KR100802984B1 (ko) * | 2006-11-24 | 2008-02-14 | 연세대학교 산학협력단 | 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
JP2764277B2 (ja) | 音声認識装置 | |
Orozco et al. | Detecting pathologies from infant cry applying scaled conjugate gradient neural networks | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
JPH0816187A (ja) | 音声分析における音声認識方法 | |
CN111681143A (zh) | 基于课堂语音的多维度分析方法、装置、设备及存储介质 | |
Dahmani et al. | Vocal folds pathologies classification using Naïve Bayes Networks | |
EP1398758B1 (en) | Method and apparatus for generating decision tree questions for speech processing | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
JPH02254498A (ja) | 音韻分類記号化装置 | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
JPH02253298A (ja) | 音声通過フィルタ | |
Elman et al. | An architecture for parallel processing in speech recognition: The TRACE model | |
Macon et al. | Generalization and discrimination in tree-structured unit selection | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
Bennani | Text-independent talker identification system combining connectionist and conventional models | |
Buscicchio et al. | Speech emotion recognition using spiking neural networks | |
Kavitha et al. | Deep Learning based Audio Processing Speech Emotion Detection | |
JPH0466999A (ja) | 文節境界検出装置 | |
Wang et al. | Speaker verification and identification using gamma neural networks | |
CN115171700B (zh) | 一种基于脉冲神经网络的声纹识别语音助手方法 | |
Muthusamy et al. | A review of research in automatic language identification | |
JP2792709B2 (ja) | 音声認識装置 | |
JPH02254500A (ja) | 発声速度推定装置 |