JPH036599A

JPH036599A - 鼻子音開放点検出方法

Info

Publication number: JPH036599A
Application number: JP1141939A
Authority: JP
Inventors: Shigeaki Komatsu; 慈明小松
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1989-06-02
Filing date: 1989-06-02
Publication date: 1991-01-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】本発明は、音素を単位として音声認識を行なう装置等の
鼻子音マツチングに利用される鼻子音開放点を検出する
方法に関するものである。［従来技術Ｊ従来、音声ｉ！識において鼻子音の認識は非常に困難な
ものであった。これは、通常の音声分析においては音声
を全極型モデルによって近似しでいるのに対し、鼻子音
については極基性に零点が存在するため、充分な近似が
できないからである。つまり、全極型モデルにより算出された線形予測係数等
のパラメータは、鼻子音の情報を充分に含んでいない、
そのために、バタンマツチング時に適当なリファレンス
バタン以外にも距離が小さくなるものがあるためである
。このため、零点を含めたモデルにより音声を近似するも
のも提案され実用化されているが、全極型のものとくら
べ計算量が多く、高速のプロセッサ及び大容量のメモリ
が必要となるため、小規模で高速処理が要求されている
分野では利用できな％Ｉ％。そのため、鼻子音開放点を用いた音声認識方法が注目さ
れている。この鼻子音開放点の位置が正確に検出できれ
ば、その位置を用いて、音声情報の多い区間を抽出でき
、その区間においてバタンマツチングを行なうことによ
り、略正確な音声認識が可能となるのである。従来、上記の鼻子音開放点を検出する方法として次のよ
うなものが知られている。虫ず音声信号における７００
Ｈｚ以上の周波数成分のエネルギーを求め、後続の母音
のエネルギー値より決定される閾値と比較し、前記７０
０　Ｈｚ以上の周波数成分のエネルギーが閾値を越えた
時点を開放点とする。また、昭和６３年３月の［日本音響学会講演論文集」第
１７頁に記載されるように、ツナグラフを観察すること
により検出する方法もある。［発明が解決しようとする課題１しかしながら上記のような方法では、後続母音のエネル
ギーが小さい場合についでは、閾値の設定があいまいと
なり、正確に検出できない場合がある。本発明は上記問題点を解決するためになされたものであ
り、その目的とするところは、後続の母音のエネルギー
が小さな場合においても正確な鼻子音開放点を検出可能
な方法を提供することである。［課題を解決するための手段］上記目的を達成するために本発明は、鼻子音区間の近接
する短時間フレームの各短時間スペクトルの距離の極大
点を鼻子音開放点とすることを特徴とするものである。【作用１一般に鼻子音開放点は、その位置におけるスペクトルの
変化が激しい。そのため、鼻子音区間の短時間フレーム
の各短時間スペクトルの距離を調べると、その位置にお
いて極大となることが確認されている。［実施例］以下に本発明を音声認識装置に具体化した一実施例を図
面を参照しで説明する。ｌＩ！識すべき音声を収音して電気信号に変換するマイ
クロホン１１は、アンプ１２の入力端子に接続されてい
る。この７ンプ１２のゲインは、一般的な使用条件にお
いて後述する量子化処理でオーバー７０つを起こすこと
がない最大の値に設定されでいる。このアンプ１２の出
力端子には、微分回路１３が接続されでいる。この微分
回路１３の作用により、入力された音声は６ｄＢ／ａｃ
ｔでプリエン７Ｔシスされる。これにより、音声信号に
おける口部放射特性の影響が除去され、スペクトルが比
較的に平坦となる。これは後述する量子化の処理におい
て失なわれる情報の量をおさえるとともに、線形予測分
析における前処理も兼ねている。この微分回路１３の出力端子には、ローパスフィルタ１
４が接続されている。このローパスフィルタ１４の通過
帯域は通常の音声情報が通過するように、ＯＨｚから５
．５ＫＨｚに設定されている。このローパスフィルタ１４の出力端子は、Ａ／Ｄコンバ
ータ１５の入力端子に接続されている。このＡ／Ｄコン
バータ１５は、入力される信号を標本化周波数１２ＫＨ
ｚで標本化し、同時に各標本値を１２ビツト（内１ビッ
トは符号）で量子化する。二のＡ／Ｄコンバータ１５の出力端子にはＩ１０ボート
１６が接続され、そのＩ１０ボート１６にはＣＰＵ１７
が接続されている。このＩ１０ボート１５には、他にス
イッチ１８、及びデイスプレィ、１９が接続されている
。前記ＣＰＵ１７は■１０ボート１６を介してこれらの
部材とデータの授受が可能である。前記ＣＰＵ１７には
更にＲＯＭ２０及ＶＲＡＭ２１が接続されている。上記構成を有する装置における鼻子音の認識の作用を以
下に説明する。マイク１１より入力された音声は電気信
号に変換され、アンプ１２により増幅される。この増幅
された信号は、微分回路１３に入力される。この微分回
路１３により６ｄＢ１０ｃｔのプリエン７７シスが行わ
れる。音声波形は口部放射特性により、−６ｄＢ１０ａ
ｔの特性が付与されているため、このプリエンファシス
により補正され、音声における音帯特性及び音道特性の
みを表すようになる。この信号は、ローパスフィルタ１
４に入力され、５．５ＫＨｚ以下の成分のみが通過する
。このローパスフィルタ１４を通過した信号は、Ａ／Ｄ
コンバータ１５により量子化及び標本化が行なわれる。前記スイッチ１８が押下されるとく第２図の８１）、Ａ
／Ｄコンバータ１５により量子化された各データは、Ｉ
１０ボート１６を介しでＣＰＵｌ７に取込まれる。ＣＰ
Ｕ１７は、取込んだデータを順次ＲＡＭ２１に記憶させ
てい＜（８２）、この処理はＳ３においてスイッチ１８
の押下が解除されたと判断されるまで続けられる（Ｌｌ
）。スィッチ１８押下間の音声信号のデータが総てＲＡＭ２
１に記憶されると、ＣＰＵ１７は、上記し１を抜け、Ｒ
ＡＭ２１より２５６ポイント分の前記データ（フレーム
）を読出しくＳ４）、ノ）ミング窓による窓かけを行な
う（Ｓ　Ｓ　）、この窓かけにより、分析時の周波数分
解能を高め、かつ不必要な周波数領域からの畳み込みに
よるひずみがおさえられる０次にこの窓かけが行なわれ
たフレームに対し、公知の自己相関法により１６次の線
形予測分析を行ない、１７個の予測係数（ａｏ乃至ａ、
＠、ただしａ０＝１）を求め、ＲＡＭ２１に記憶させる
（Ｓ　６　）、この予測係数は、音声信号における８個
までの極の情報（大きさ、周波数）を含んでνする。つまり、この予測係数により、入力された音声信号の放
射特性及び声帯特性が排除された音声の音韻情報を含む
声道特性の情報が得られる。ＣＰＵ１７は次にこの予測
係数を基に、公知の漸化式によりＬＰＣケプストラム係
数（Ｃ０乃至Ｃ１６）を求める（Ｓ７）、８４で選出さ
れたフレームに対し上記処理が終了すると、Ｓ８におい
て８４に戻り、次のフレームを選出して（Ｓ４）、同様
の処理を繰返していく、２回目以後の８４の処理では、
前処理において選出されたフレームに時間的に続くフレ
ームを選出するわけであるが、前記窓かけによって損な
われる音声区間を考慮して、８０ポイント毎にオーバー
ラツプさせて選出する。つまり１フレーム毎に分析され
る区間が９６ポイントづつ進むわけである。このように
してＳ４乃至Ｓ７を繰返しくＬ２）、前記ＲＡＭ２１に
記憶された総ての音声信号の全域にわたり各フレームの
予測係数及びＬＰＣケプストラムを計算すると、Ｓ８の
作用によりＬ２をぬける。次にＣＰＵ１７は、特開昭６３−２３１４９９号公報等
に記載の公知の技術を用いて、全フレームにわたり母音
区間を検出する。そして、母音区間として検出されなか
った区間（子音候補）を開放点の検出区間とする（Ｓ　
９　）、次にＣＰＵ１７は、３番目以後のフレームにつ
いて、ＬＰＣケプストラム距離を計算する（Ｓ　１０）
、　ｉｌ！−目のフレーム（以下フレームｉと称す）の
ＬＰＣケプストラムをＣ０（ｉ）乃至Ｃ１５（ｉ）で表
わすとすると、フレームｉのＬＰＣケプストラム距離Ｄ
ＣＥＰ（ｉ）は次式で表される。ＤＣＥＰ（ｉ）＝（Ｃ−（ｉ＋　１　）−Ｃｏ（ｉ−１
）”＋２×Σ（Ｃｎ（ｉ＋　１　）”−Ｃｎ（ｉ　−１
））２１ｍｌ第３図においで、このＬＰＣケプストラム距離の変遷を
示す、同図は「Ｚｉ輸ｕｉｎｌと発音された音声の「ｉ
閣ｕｌの位置をねきだしたもので横軸は７レ一ム番号で
ある。そして図中に実線で示したものがＬＰＣケプスト
ラム距離であり、破線で示したものが、音声のパワー（
フレーム内の各標本値の２釆和に比例する）である。次にＣＰＵ１７は、各検出区間の終端より時間的に前方
に順にＤＣＥＰの値を検索し、最初に見つかる極大のフ
レーム、即ち前記区間内の最後の極大をとるフレームを
検出する（Ｓ　１１　）、この検出されたフレームを開
放点として出力する。このフレームは、若し前記区間の
音声が鼻子音であるとするならば、その鼻子音の開放点
の位置と略−致していることが、実験により確かめられ
ている。以上のようにして開放点フレーム候補が決定すると、次
に実際の音素の認識を行なう、母音については、公知の
方法により充分実用になる認識率を得ることができる。子音のＢａについでは、上記フレームを用いて次のよう
にして行なう。実際の子音の認識において誤認識を生じ
やすいのは鼻子音であり、その鼻子音は口膣の開放点か
らやや後方にホルマント遷移をするといった特徴がある
ため、その部分を抽出可能であればバタンマツチングは
容扁である。そのため、前記開放点フレーム候補を始端
とした４フレームはバタンマツチングの対象とする（Ｓ
　１２　）、これにより鼻子音の認識率は飛躍的に向上
する０次に上記４フレームを、ＲＯＭ２０に記憶された
リファレンスバタンとバタンマツチングする（１３）、
このり７アレンスパタンは特に子音については、標準音
声の上記のようにしで決定された４７レ一ム分のスペク
トルのデータである。＊にこのマツチングにより得られ
た認識結果をデイスプレィ１９に表示しく５１４）、本
処理を終了する。以上のようにして認識された鼻子音の情報と他の公知の
アルゴリズムによって得られた認識結果とを参照して入
力音声の認識結果を得る。［発明の効果Ｊ以上詳述したように本発明では、簡単な方法により鼻子
音開放点を検出することが可能であるため、音声認識装
置の処理装置によｙ）容易に実現でき、それにより該音
声ａ！！識装置の認識率を飛躍的に上げることが可能で
ある。

【図面の簡単な説明】

第１図乃至第３図は本発明の一実施例を示すもので、第
１図は本発明の方法のプロセスを含む音声認識処理を実
行する構成を示す図、第２図は上記装置のＣＰＵの作用
を示す７０−チャートの図、第３図はＬＰＣケプストラ
ム距離の遷都と開放点の関係を示す図である。図中、１７・・・は本−発明の処理を実行するＣＰＵ。Ｓ７はＬＰＣケプストラム距離を計算する処理ステップ
、Ｓ１１はその極大値を求める処理ステップである。

Claims

【特許請求の範囲】１、鼻子音区間の近接する短時間フレームの各短時間ス
ペクトルの距離の極大点を鼻子音開放点とすることを特
徴とする鼻子音開放点検出方法。２、請求項１記載の鼻子音開放点検出方法であって、短時間フレームにより区切られた音声信号より母音フレ
ームを除去した鼻子音開放点検出区間を設定し、該区間の隣接フレーム間の短時間スペクトルの距離を計
算し、前記区間内の最も時間的後方に現れる前記距離の極大点
を鼻子音開放点と認定することを特徴とする鼻子音開放
点検出方法。