JPH036599A - 鼻子音開放点検出方法 - Google Patents

鼻子音開放点検出方法

Info

Publication number
JPH036599A
JPH036599A JP1141939A JP14193989A JPH036599A JP H036599 A JPH036599 A JP H036599A JP 1141939 A JP1141939 A JP 1141939A JP 14193989 A JP14193989 A JP 14193989A JP H036599 A JPH036599 A JP H036599A
Authority
JP
Japan
Prior art keywords
point
section
nasal
voice
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1141939A
Other languages
English (en)
Inventor
Shigeaki Komatsu
慈明 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP1141939A priority Critical patent/JPH036599A/ja
Publication of JPH036599A publication Critical patent/JPH036599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】 本発明は、音素を単位として音声認識を行なう装置等の
鼻子音マツチングに利用される鼻子音開放点を検出する
方法に関するものである。 [従来技術J 従来、音声i!識において鼻子音の認識は非常に困難な
ものであった。これは、通常の音声分析においては音声
を全極型モデルによって近似しでいるのに対し、鼻子音
については極基性に零点が存在するため、充分な近似が
できないからである。 つまり、全極型モデルにより算出された線形予測係数等
のパラメータは、鼻子音の情報を充分に含んでいない、
そのために、バタンマツチング時に適当なリファレンス
バタン以外にも距離が小さくなるものがあるためである
。 このため、零点を含めたモデルにより音声を近似するも
のも提案され実用化されているが、全極型のものとくら
べ計算量が多く、高速のプロセッサ及び大容量のメモリ
が必要となるため、小規模で高速処理が要求されている
分野では利用できな%I%。 そのため、鼻子音開放点を用いた音声認識方法が注目さ
れている。この鼻子音開放点の位置が正確に検出できれ
ば、その位置を用いて、音声情報の多い区間を抽出でき
、その区間においてバタンマツチングを行なうことによ
り、略正確な音声認識が可能となるのである。 従来、上記の鼻子音開放点を検出する方法として次のよ
うなものが知られている。虫ず音声信号における700
Hz以上の周波数成分のエネルギーを求め、後続の母音
のエネルギー値より決定される閾値と比較し、前記70
0 Hz以上の周波数成分のエネルギーが閾値を越えた
時点を開放点とする。 また、昭和63年3月の[日本音響学会講演論文集」第
17頁に記載されるように、ツナグラフを観察すること
により検出する方法もある。 [発明が解決しようとする課題1 しかしながら上記のような方法では、後続母音のエネル
ギーが小さい場合についでは、閾値の設定があいまいと
なり、正確に検出できない場合がある。 本発明は上記問題点を解決するためになされたものであ
り、その目的とするところは、後続の母音のエネルギー
が小さな場合においても正確な鼻子音開放点を検出可能
な方法を提供することである。 [課題を解決するための手段] 上記目的を達成するために本発明は、鼻子音区間の近接
する短時間フレームの各短時間スペクトルの距離の極大
点を鼻子音開放点とすることを特徴とするものである。 【作用1 一般に鼻子音開放点は、その位置におけるスペクトルの
変化が激しい。そのため、鼻子音区間の短時間フレーム
の各短時間スペクトルの距離を調べると、その位置にお
いて極大となることが確認されている。 [実施例] 以下に本発明を音声認識装置に具体化した一実施例を図
面を参照しで説明する。 lI!識すべき音声を収音して電気信号に変換するマイ
クロホン11は、アンプ12の入力端子に接続されてい
る。この7ンプ12のゲインは、一般的な使用条件にお
いて後述する量子化処理でオーバー70つを起こすこと
がない最大の値に設定されでいる。このアンプ12の出
力端子には、微分回路13が接続されでいる。この微分
回路13の作用により、入力された音声は6dB/ac
tでプリエン7Tシスされる。これにより、音声信号に
おける口部放射特性の影響が除去され、スペクトルが比
較的に平坦となる。これは後述する量子化の処理におい
て失なわれる情報の量をおさえるとともに、線形予測分
析における前処理も兼ねている。 この微分回路13の出力端子には、ローパスフィルタ1
4が接続されている。このローパスフィルタ14の通過
帯域は通常の音声情報が通過するように、OHzから5
.5KHzに設定されている。 このローパスフィルタ14の出力端子は、A/Dコンバ
ータ15の入力端子に接続されている。このA/Dコン
バータ15は、入力される信号を標本化周波数12KH
zで標本化し、同時に各標本値を12ビツト(内1ビッ
トは符号)で量子化する。 二のA/Dコンバータ15の出力端子にはI10ボート
16が接続され、そのI10ボート16にはCPU17
が接続されている。このI10ボート15には、他にス
イッチ18、及びデイスプレィ、19が接続されている
。前記CPU17は■10ボート16を介してこれらの
部材とデータの授受が可能である。前記CPU17には
更にROM20及VRAM21が接続されている。 上記構成を有する装置における鼻子音の認識の作用を以
下に説明する。マイク11より入力された音声は電気信
号に変換され、アンプ12により増幅される。この増幅
された信号は、微分回路13に入力される。この微分回
路13により6dB10ctのプリエン77シスが行わ
れる。音声波形は口部放射特性により、−6dB10a
tの特性が付与されているため、このプリエンファシス
により補正され、音声における音帯特性及び音道特性の
みを表すようになる。この信号は、ローパスフィルタ1
4に入力され、5.5KHz以下の成分のみが通過する
。このローパスフィルタ14を通過した信号は、A/D
コンバータ15により量子化及び標本化が行なわれる。 前記スイッチ18が押下されるとく第2図の81)、A
/Dコンバータ15により量子化された各データは、I
10ボート16を介しでCPUl7に取込まれる。CP
U17は、取込んだデータを順次RAM21に記憶させ
てい<(82)、この処理はS3においてスイッチ18
の押下が解除されたと判断されるまで続けられる(Ll
)。 スィッチ18押下間の音声信号のデータが総てRAM2
1に記憶されると、CPU17は、上記し1を抜け、R
AM21より256ポイント分の前記データ(フレーム
)を読出しくS4)、ノ)ミング窓による窓かけを行な
う(S S )、この窓かけにより、分析時の周波数分
解能を高め、かつ不必要な周波数領域からの畳み込みに
よるひずみがおさえられる0次にこの窓かけが行なわれ
たフレームに対し、公知の自己相関法により16次の線
形予測分析を行ない、17個の予測係数(ao乃至a、
@、ただしa0=1)を求め、RAM21に記憶させる
(S 6 )、この予測係数は、音声信号における8個
までの極の情報(大きさ、周波数)を含んでνする。 つまり、この予測係数により、入力された音声信号の放
射特性及び声帯特性が排除された音声の音韻情報を含む
声道特性の情報が得られる。CPU17は次にこの予測
係数を基に、公知の漸化式によりLPCケプストラム係
数(C0乃至C16)を求める(S7)、84で選出さ
れたフレームに対し上記処理が終了すると、S8におい
て84に戻り、次のフレームを選出して(S4)、同様
の処理を繰返していく、2回目以後の84の処理では、
前処理において選出されたフレームに時間的に続くフレ
ームを選出するわけであるが、前記窓かけによって損な
われる音声区間を考慮して、80ポイント毎にオーバー
ラツプさせて選出する。つまり1フレーム毎に分析され
る区間が96ポイントづつ進むわけである。このように
してS4乃至S7を繰返しくL2)、前記RAM21に
記憶された総ての音声信号の全域にわたり各フレームの
予測係数及びLPCケプストラムを計算すると、S8の
作用によりL2をぬける。 次にCPU17は、特開昭63−231499号公報等
に記載の公知の技術を用いて、全フレームにわたり母音
区間を検出する。そして、母音区間として検出されなか
った区間(子音候補)を開放点の検出区間とする(S 
9 )、次にCPU17は、3番目以後のフレームにつ
いて、LPCケプストラム距離を計算する(S 10)
、 il!−目のフレーム(以下フレームiと称す)の
LPCケプストラムをC0(i)乃至C15(i)で表
わすとすると、フレームiのLPCケプストラム距離D
CEP(i)は次式で表される。 DCEP(i)=(C−(i+ 1 )−Co(i−1
)”+2×Σ(Cn(i+ 1 )”−Cn(i −1
))21ml 第3図においで、このLPCケプストラム距離の変遷を
示す、同図は「Zi輸uinlと発音された音声の「i
閣ulの位置をねきだしたもので横軸は7レ一ム番号で
ある。そして図中に実線で示したものがLPCケプスト
ラム距離であり、破線で示したものが、音声のパワー(
フレーム内の各標本値の2釆和に比例する)である。 次にCPU17は、各検出区間の終端より時間的に前方
に順にDCEPの値を検索し、最初に見つかる極大のフ
レーム、即ち前記区間内の最後の極大をとるフレームを
検出する(S 11 )、この検出されたフレームを開
放点として出力する。このフレームは、若し前記区間の
音声が鼻子音であるとするならば、その鼻子音の開放点
の位置と略−致していることが、実験により確かめられ
ている。 以上のようにして開放点フレーム候補が決定すると、次
に実際の音素の認識を行なう、母音については、公知の
方法により充分実用になる認識率を得ることができる。 子音のBaについでは、上記フレームを用いて次のよう
にして行なう。実際の子音の認識において誤認識を生じ
やすいのは鼻子音であり、その鼻子音は口膣の開放点か
らやや後方にホルマント遷移をするといった特徴がある
ため、その部分を抽出可能であればバタンマツチングは
容扁である。そのため、前記開放点フレーム候補を始端
とした4フレームはバタンマツチングの対象とする(S
 12 )、これにより鼻子音の認識率は飛躍的に向上
する0次に上記4フレームを、ROM20に記憶された
リファレンスバタンとバタンマツチングする(13)、
このり7アレンスパタンは特に子音については、標準音
声の上記のようにしで決定された47レ一ム分のスペク
トルのデータである。*にこのマツチングにより得られ
た認識結果をデイスプレィ19に表示しく514)、本
処理を終了する。 以上のようにして認識された鼻子音の情報と他の公知の
アルゴリズムによって得られた認識結果とを参照して入
力音声の認識結果を得る。 [発明の効果J 以上詳述したように本発明では、簡単な方法により鼻子
音開放点を検出することが可能であるため、音声認識装
置の処理装置によy)容易に実現でき、それにより該音
声a!!識装置の認識率を飛躍的に上げることが可能で
ある。
【図面の簡単な説明】
第1図乃至第3図は本発明の一実施例を示すもので、第
1図は本発明の方法のプロセスを含む音声認識処理を実
行する構成を示す図、第2図は上記装置のCPUの作用
を示す70−チャートの図、第3図はLPCケプストラ
ム距離の遷都と開放点の関係を示す図である。 図中、17・・・は本−発明の処理を実行するCPU。 S7はLPCケプストラム距離を計算する処理ステップ
、S11はその極大値を求める処理ステップである。

Claims (1)

  1. 【特許請求の範囲】 1、鼻子音区間の近接する短時間フレームの各短時間ス
    ペクトルの距離の極大点を鼻子音開放点とすることを特
    徴とする鼻子音開放点検出方法。 2、請求項1記載の鼻子音開放点検出方法であって、 短時間フレームにより区切られた音声信号より母音フレ
    ームを除去した鼻子音開放点検出区間を設定し、 該区間の隣接フレーム間の短時間スペクトルの距離を計
    算し、 前記区間内の最も時間的後方に現れる前記距離の極大点
    を鼻子音開放点と認定することを特徴とする鼻子音開放
    点検出方法。
JP1141939A 1989-06-02 1989-06-02 鼻子音開放点検出方法 Pending JPH036599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1141939A JPH036599A (ja) 1989-06-02 1989-06-02 鼻子音開放点検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1141939A JPH036599A (ja) 1989-06-02 1989-06-02 鼻子音開放点検出方法

Publications (1)

Publication Number Publication Date
JPH036599A true JPH036599A (ja) 1991-01-14

Family

ID=15303659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1141939A Pending JPH036599A (ja) 1989-06-02 1989-06-02 鼻子音開放点検出方法

Country Status (1)

Country Link
JP (1) JPH036599A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统

Similar Documents

Publication Publication Date Title
US20150073794A1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
JPS58130393A (ja) 音声認識装置
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
JPH07146699A (ja) 音声認識方法
CN108682432B (zh) 语音情感识别装置
JP3354252B2 (ja) 音声認識装置
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
JPS6138479B2 (ja)
JPH0229232B2 (ja)
JPH036599A (ja) 鼻子音開放点検出方法
Sangeetha et al. Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation
JP2664136B2 (ja) 音声認識装置
JPH03114100A (ja) 音声区間検出装置
JP2798919B2 (ja) 音声区間検出方式
JP3049711B2 (ja) 音声処理装置
Nakano et al. Evaluation of various parameters in spoken digits recognition
Undhad et al. Exploiting speech source information for vowel landmark detection for low resource language
JPS61273599A (ja) 音声認識装置
Nara et al. Large-vocabulary spoken word recognition using simplified time-warping patterns
JPS62289895A (ja) 音声認識方法
JPH05108088A (ja) 音声区間検出装置
JP2008165113A (ja) 音声合成装置
JPS6227798A (ja) 音声認識装置
JPS5995597A (ja) 音声特徴パラメ−タ作成方式