JPH02254498A

JPH02254498A - 音韻分類記号化装置

Info

Publication number: JPH02254498A
Application number: JP1077536A
Authority: JP
Inventors: Shin Kamiya; 伸神谷; Mitsuhiro Toya; 充宏斗谷; Toru Ueda; 徹上田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-03-29
Filing date: 1989-03-29
Publication date: 1990-10-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、音声入力装置等に用いられる音韻分類記号
化装置の改良に関する。

〈従来の技術〉音声入力装置において、入力された音声信号を一定の周
期（８ｍｓ程度、以下、フレームと言う）毎に大略的性
質によって分類し、この分類された性質に対してラベル
付け（音韻分類記号化）を行う。

そして、後に入力音声信号から音声区間や音節区間を切
り出す際に、上記音韻分類記号を用いるのである。

従来、音韻分類記号化を行う手法として、例えば次のよ
うな手法がある。すなわち、入力音声信号の各フレーム
毎にパワー、零交差数および自己相関係数等の特徴パラ
メータを求め、この求めた特徴パラメータの値と閾値と
の比較をフレーム毎に行い、その比較結果に基づいて各
フレームに音韻分類記号を付けるようにしている。

また、最近ニューラル・ネットワークを用いて、音節の
切り出しや音素認識を行う方法が提案されている。

〈発明が解決しようとする課題〉しかしながら、上記閾値を用いた音韻分類記号化の手法
は、特徴パラメータの値と閾値との比較をフレーム毎に
行い、その比較結果に基づいて各フレームに音韻分類記
号を付けるようにしているので、特徴パラメータの値と
比較する閾値の設定には多くの音声認識上の経験を必要
とするという問題がある。さらに、各フレーム毎に独立
して音韻分類記号化を行っているので、隣接するフレー
ムの音韻分類記号間に矛盾が生じる場合があるという問
題もある。

また、上記ニューラル・ネットワークを用いた音節の切
り出しや音素認識は、音節あるいは音素の単位での音韻
分類記号化であり、フレームのように音韻あるいは音素
よりも短い区間における音韻分類記号化には用いられて
いない。

そこで、この発明の目的は、隣接するフレームにおける
音韻分類記号に矛盾のない音韻分類記号化を簡単に実行
できる音韻分類記号化装置を提供することにある。

〈課題を解決するための手段〉上記目的を達成するため、この発明は、入力された音声
信号のフレーム毎の特徴パラメータに基づいて、入力音
声信号の各フレームに音声の性質を表す音韻分類記号を
付ける音韻分類記号化装置において、入力音声信号の所
定フレーム数の特徴パラメータを表す信号を入力し、上
記所定フレーム数のフレームにおける中心フレームの音
韻分類記号を識別して識別信号を出力する音韻分類記号
化用ニューラル・ネットワークと、上記音韻分類記号化
用ニューラル・ネットワークから出力される上記識別信
号に基づいて、上記中心フレームの音韻分類記号を決定
する音韻分類部を備えたことを特徴としている。

〈作用〉音韻分類記号化用ニューラル・ネットワークに、入力音
声信号の所定フレーム数の特徴パラメータを表す信号が
入力されると、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号が識別されて識別信号が出
力される。そうすると、上記音韻分類記号化用ニューラ
ル・ネットワークからの識別信号に基づいて、音韻分類
部によって上記中心フレームの音韻分類記号が決定され
る。

したがって、前後数フレームの特徴パラメータの影響を
考慮して、当該フレームに音韻分類記号を付けることが
できる。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

この発明は、入力音声信号の各フレーム毎の音韻分類記
号を求めろ手法として、ニューラル・ネットワークを用
いるものである。上記ニューラル・ネットワークを利用
した識別は、学習によって入ツノデータが属するカテゴ
リを識別する規則を自ら求め、この求めた規則に従って
入力データが属するカテゴリを識別する方法である。し
たがって、予め適確な学習データを用いて正しく学習さ
れたニューラル・ネットワークを用いれば、簡単な処理
で入力データ（特徴パラメータ）か属するカテゴリ（音
韻分類記号）を正しく識別することができるのである。

第１図はこの発明の音韻分類記号化装置における一実施
例のブロック図である。入力音声信号は音声分析部ｌに
おいてザンブリング周期１２　Ｋ　Ｉ−ＩＺでＡ／Ｄ変
換され、更にフレーム（Ｉフレームは８ｍｓ程度）毎に
パワー、零交差数および１次自己相関係数等の特徴パラ
メータに変換される。

上記音声分析部ｌから出力された特徴パラメータは、後
に詳述する遅延部２を介して音韻分類記号化用ニューラ
ル・ネットワーク３に入力されると共に、音＾口分類部
４に入力される。そして、音韻分類記号化用ニューラル
・ネットワーク３によって、後に詳述するようにして各
フレーム毎に特徴パラメータの属する音韻分類記号が識
別され、識別データが出力される。そうすると、音韻分
類部４によって、音韻分類記号化用ニューラル・ネット
ワーク３からの識別データに基づいて、音韻分類記号が
決定されて得られた音韻分類記号が音声分析部１からの
特徴パラメータに付加されて出力される。

第２図は上記音韻分類記号化用ニューラル・ネットワー
ク３の構造の概略図である。このニューラル・ネットワ
ークは、図中下側から順に入力層１１、中間層１２およ
び出力層１３から成る３層構造を有する３層パーセプト
ロン型ニューラル・ネットワークである。上記音韻分類
記号化用ニューラル・ネットワーク３の入力層１１には
７Ｘ３＝２１個のユニットを配し、中間層１２には１０
個のユニットを配し、出力層１３には６ｇのユニットを
配している。上記入力層１１の２１個のユニットは３個
づつ７個のグループに分けられる。そして、各グループ
の１番目のユニット＋　４．１７．・・２０、・・・、
２３には、音声分析部ｌからのパワーを表す信号を入力
する。また、各グループの２番目のユニットＩ　５，１
８．・、２１．・・、２４には、音声分析部ｌからの零
交差数を表す信号を入力する。

さらに、各グループの３番目のユニット１６，１９゜・
・、２２．・・・、２５には、音声分析部Ｉからの１次
自己相関係数を表す信号を入力する。その際に、上記７
個のグループのうちユニット＋４．１５．１６から成る
グループには（ｔ−＋−ａ）フレームの特徴パラメータ
を入力し、ユニットｌ　７，１８．１９から成るグルー
プには（ｔ＋２）フレームの特徴パラメータを入力し、
以下同様にして、ユニット２０゜２１．２２から成るグ
ループにはＬフレームの特徴パラメータを入力し、ユニ
ット２３，２４．２５から成るグループには（ｔ−３）
フレームの特徴パラメータを入力する。すなわち、音韻
分類記号化用ニューラル・ネットワーク３の入力層ｌ！
には、入力音声信号のフレーム（ｔ−３）〜フレームＱ
＋３）の連続した７フレ一ム分の特徴パラメータを入力
するのである。

ここで、音声分析部ｌから出力される連続した７フレー
ムの特徴パラメータを入力層１１に入力する方法として
、例えば次のような方法がある。

ここで、第３図に示すように上記遅延部２は特徴パラメ
ータの種類に対応して３つの遅延部３５゜３６．３７か
ら成り、各遅延部３５，３６．３７は同じ構造を有し同
じ動作をするので、特徴パラメータのパワーに対応する
遅延部３５のみについて説明する。

第２図および第３図において、入力層ＩＩのユニット１
４には音声分析部１からのパワーを表す信号を直接入力
し、ユニット１７には音声分析部ｌからのパワーを表す
信号を遅延部３５の遅延素子３８によって！フレーム分
だけ時間を遅延させて入力する。以下同様にして、ユニ
ット２０には音声分析部１からのパワーを表す信号を３
個の遅延素子３８によって３フレ一ム分だけ時間を遅延
させて入力し、ユニット２３には音声分析部ｌからのパ
ワーを表４″信号を６ｇの遅延素子３８によって６フレ
一ム分だけ時間を遅延させて入力すればよい。この場合
、全ユニット１４．＋７．・・・、２０・・・、２３の
中心のユニット２０が、この音韻分類記号化用ニューラ
ル・ネットワーク３によってカテゴリか識別される当該
フレームｔに対応する。

また、出力層１３の６個のユニットには次のように音韻
分類記号を割り付ける。すなわち、ユニット２６にはカ
テゴリ“（無音性）を割り付け、ユニット２７にはカテ
ゴリ“Ｂ”（バズバー性）を割り付け、ユニット２８に
はカテゴリ“Ｎ“（鼻音性）を割す付け、ユニット２９
にはカテゴリ″ｖ“（母音性）を割り付け、ユニット３
０にはカテゴリ“Ｃ”（弱い摩擦性）を割り付け、ユニ
ット３Ｉにはカテゴリ“Ｆ”（強い摩擦性）を割り付け
る。入力層１１の各ユニットは夫々中間層Ｉ２の全ユニ
ットと接続している。また、中間層２２の各ユニットは
夫々出力層【３の全ユニットと接続している。しかしな
がら、各層内のユニット間は接続されない。

上記音韻分類記号化用ニューラル・ネットワーク３の学
習は、次のように誤差逆伝播法によって行う。すなわち
、多数話者の音声信号から７フレ一ム分の音声信号を切
り出し、各フレーム毎に求められたパワー、零交差数お
よび１次自己相関係数の時系列を学習データとする。ま
た、上記学習データにおける中心フレームの性質を表す
音韻分類記号を視察によって求め、その求めた中心フレ
ームの音韻分類記号を表すデータを教師データとする。

そして、学習の際には、学習データを音韻分類記号化用
ニューラル・ネットワーク３における入力層１１の各ユ
ニットに上述のように入力し、入力した７フレームから
成る学習データの中心フレームの音韻分類記号に応じた
教師データを出力層１３に入力する。例えば、視察によ
って求められた中心フレームの音韻分類記号が“Ｎ”で
ある学習データを音韻分類記号化用ニューラル・ネット
ワーク３の入力層１１に入力した場合は、出力層１３の
カテゴリ“Ｎ”が割り付けられたユニット２８への入力
値が“ビであり、他のユニットへの入力値が０”である
教師データを人ツノするのである。

すなわち、この学習においては、音韻分類記号化用ニュ
ーラル・ネットワーク３の入力層１１に７フレ一ム分の
特徴パラメータが入力された場合に、この７フレームの
中心フレームの音韻分類記号を識別するように学習する
のである。そうすると、音韻分類記号化用ニューラル・
ネットワーク３は、出力層１３の各ユニット２６．・・
・、３１からの出力値が教師データと同じになるように
ネットワークの重みを設定しなおしてネットワーク横進
を決定するのである。

入力音声信号の音韻分類記号は次のようにして音韻分類
記号化用ニューラル・ネットワーク３によって識別され
る。

上記音韻分類記号化用ニューラル・ネットワーク３の入
力層１１に、音声分析部ｌからのフレーム（ｔ−３）〜
フレーム（ｔ＋３）の７フレ一ム分のパワー、零交差数
および１次自己相関係数が上述のように遅延部２を介し
て入力される。その結果、入力された７フレ一ム分の特
徴パラメータの中心フレームｔの特徴パラメータが属す
るカテゴリを表す出力データが出力層１３から出力され
る。そして、１フレームに相当する時間が経過すると、
音声分析部Ｉからフレーム（ｔ−２）〜フレーム（ｔ＋
４）の７フレ一ム分のパワー、零交差数および１次自己
相関係数が入力層１１に入力される。その結果、入力さ
れた７フレ一ム分の特徴パラメータの中心フレーム（ｔ
＋１）の特徴パラメータが届するカテゴリを表す出力デ
ータが出力層１３から出力されるのである。こうして、
入力音声信号の各フレーム毎の音韻分類記号の識別結果
を表す出力データの時系列が、出力層１３から出力され
て音韻分類部４に入力される。

このよう（こ、本実施例においては、音韻分類記号化用
ニューラル・ネッ）・ワーク３によって、前後３フレー
ムを加えた合計７フレ一ム分の特徴パラメータに基づい
て、当該フレームｔの音韻分類記号を識別するのである
。したがって、前後３フレームの影響を考慮して音韻分
類記号化を行うことができるのである。

上述のようにして、音韻分類記号化用ニューラル・ネッ
トワーク３の出力層Ｉ３から出力される当該フレームｔ
の識別音韻分類記号を表す出力データは、音韻分類部４
に入力されろ。そして、この音韻分類記号を表す出力デ
ータに基づいて、当該フレームＥの音韻分類記号が次の
ようにして決定される。

すなわち、音韻分類記号化用ニューラル・ネットワーク
３における出力層１３の全ユニット２６゜・・・、３１
からの出ツノ値のうち、一つのユニットからの出力値の
みが閾値以上であれば、そのユニットが割り付けられて
いるカテゴリの音韻分類記号を、フレームｔの音韻分類
記号とする。また、複数のユニットからの出力値が閾値
以上であれば、出力値の大きいユニットが割り付けられ
ている音韻分類記号の順に、複数の音韻分類記号をフレ
ームｔにおける音韻分類記号候補とする。さらに、総て
のユニットの出力値が閾値未満であれば、ひとつ前のフ
レーム（ｔ−１）に付けた音韻分類記号をフレーム（の
音韻分類記号とするのである。

上述のように、本実施例の音韻分類記号化装置において
は、入力音声信号７フレ一ム分の）くワー零交差数およ
び１次自己相関係数を音韻分類記号化用ニューラル・ネ
ットワーク３の入力層１１に入力すると、音韻分類記号
化用ニューラル・ネットワーク３は入力された７フレ一
ム分の特徴ｌクラメータのうちの中心フレームｔの特徴
ノくラメータが属する音韻分類記号を識別して、識別音
韻分類記号を表す出ノＪデータを出力する。そして、音
韻分類部４によって、上記識別音韻分類記号を表す出力
データに基づいてフレームＬの音韻分類記号あるいは音
韻分類記号候補を決定するようにしている。

したがって、本実施例によれば、学習によって、７フ一
ム分の特徴パラメータに基づいて中心フレームの音韻分
類記号を識別する規則を自ら生成するニューラル・ネッ
トワークを用いて、前後３フレームの影響を考慮してフ
レームの音韻分類記号あるいは音韻分類記号候補を決定
することができる。したかって、簡単な処理によって隣
接するフレームの音韻分類記号間に矛盾か生じないよう
に音韻分類記号あるいは音韻分類記号候補を決定できる
のである。

上記実施例において、特徴パラメータとしてパワー、零
交差数および１次自己相関係数を用い、識別カテゴリと
して−”、“Ｂ”、“Ｎ”、Ｖ”、“Ｃ“および“Ｆ“
を割り付けているが、この発明はこれらに限定されるも
のではない。

上記音韻分類記号化用ニューラル・ネットワーク３の入
ツノ層１１．中間層１２および出力層Ｉ３のユニット数
は、入力する特徴パラメータの数。

識別音韻分類記号の数および音韻分類記号の識別精度等
によって変更しても何等差し支えない。

また、上記実施例においては、３層パーセプトロン型ニ
ューラル・ネットワークを用いているが、４層以上のパ
ーセブトロン型ニューラル・ネットワークであっても＋
Ｒわない。

〈発明の効果〉以上より明らかなように、この発明の音韻分類記号化装
置は、音韻分類記号化用ニューラル・ネットワーク、音
韻分類部を備えて、入力音声信号の所定フレーム数の特
徴パラメータに基づいて、上記音韻分類記号化用ニュー
ラル・ネットワークによって上記所定フレーム数のフレ
ームにおける中心フレームの音韻分類記号を識別し、こ
の音韻分類記号化用ニューラル・ネットワークからの識
別信号に基づいて、上記音韻分類部によって上記中心フ
レームの音韻分類記号を決定するようにしたので、前後
数フレームの影響を考慮して当該フレームの音韻分類記
号を決定することができ、簡単な処理によって隣接する
フレームの音韻分類記号間に矛盾が生じないように音韻
分類記号を決定することかできる。

【図面の簡単な説明】

第１図はこの発明の音韻分類記号化装置における一実施
例のブロック図、第２図は第１図における音韻分類記号
化用ニューラル・ネットワークの概略構成図、第３図は
第１図における遅延部の詳細なブロック図である。ｌ・・・音声分析部、　　　　　　　２・・・遅延部、
３・・音韻分類記号化用ニューラル・ネットワーク、４
・・・音韻分類部、　　　　　　　１１・・・入力層、
１２・・・中間層、　　　　　　　　１３・・・出力層
、３８・・・遅延素子。特許出願人　　シャープ株式会社

Claims

【特許請求の範囲】

（１）入力された音声信号のフレーム毎の特徴パラメー
タに基づいて、入力音声信号の各フレームに音声の性質
を表す音韻分類記号を付ける音韻分類記号化装置におい
て、入力音声信号の所定フレーム数の特徴パラメータを表す
信号を入力し、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号を識別して識別信号を出力
する音韻分類記号化用ニューラル・ネットワークと、上記音韻分類記号化用ニューラル・ネットワークから出
力される上記識別信号に基づいて、上記中心フレームの
音韻分類記号を決定する音韻分類部を備えたことを特徴
とする音韻分類記号化装置。