JPH06110489A - 音声信号処理装置及びその方法 - Google Patents

音声信号処理装置及びその方法

Info

Publication number
JPH06110489A
JPH06110489A JP4279500A JP27950092A JPH06110489A JP H06110489 A JPH06110489 A JP H06110489A JP 4279500 A JP4279500 A JP 4279500A JP 27950092 A JP27950092 A JP 27950092A JP H06110489 A JPH06110489 A JP H06110489A
Authority
JP
Japan
Prior art keywords
sound
voice
voiced
parameter
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4279500A
Other languages
English (en)
Inventor
Takashi Shinohara
崇 篠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
Nitsuko Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nitsuko Corp filed Critical Nitsuko Corp
Priority to JP4279500A priority Critical patent/JPH06110489A/ja
Publication of JPH06110489A publication Critical patent/JPH06110489A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】音声認識の前処理として音声区間を検出する際
に、有声音・無声音・無音の状態の判定に与える影響力
が減少されて、正確に音声区間の検出が行えるようにす
ることを目的とする。 【構成】あらかじめ、音声の有声音・無声音・無音と推
定される期間を複数のパラメータについて分析し、該分
析結果の最小値を0、最大値が1になるよう変換を実施
し、音声の有声音・無声音・無音についての基準値を算
出手段7aで算出し、上記音声入力に応答して、所定の
区間について音声分析を行い、修正手段5で上記変換式
を適用してパラメータを修正し、該修正パラメータと上
記基準値との距離を合計手段7bで合計し、これらの合
計値から音声の有声音・無声音・無音の区間のそれぞれ
の識別を識別手段8で行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識の前処理とし
て音声区間検出を行うときに用いる音声信号処理装置及
びその方法に関するものである。
【0002】
【従来の技術】従来、音声信号処理装置及びその方法の
音声区間検出においては、音声をある短い時間で区切っ
て、その一期間(以下フレームと呼ぶ)が有声音V・無
声音U・無音Sのどの状態か判定し、その結果より音声
の区間検出を行っている。有声音V・無声音U・無音S
の判定のために、例えば、以下に示すパラメータについ
てそれぞれ分析を行う。以下の説明は、図3(A)〜図
6(A)を参照する。正規化自己相関関数が最大となる
ラグの相関値R1、正規化線形予測残差ERR、エネル
ギーレシオENGR、零交叉ZCRを用いてこれらのつ
いて分析する。
【0003】(1)基準値の算出 判定の基準となる値は、次のようにして求めている。有
声音V・無声音Uについては、あらかじめシミュレーシ
ョンを行ない求める。例えば、有声音Vの状態のフレー
ムから算出される各パラメータの代表的な値を統計的に
求め、有声音Vの基準値として保存する。上記R1、E
RR、ENGR、ZCRについての有声音Vの基準値を
それぞれThR1.V、ThERR.V 、ThENGR.V、Th
ZCR.V として図3(A)、図4(A)、図5(A)、図
6(A)のR1軸、ERR軸、ENGR軸及びZCR軸
上にそれぞれプロットする。これと同様に無声音Uにつ
いても基準値を求める。
【0004】上記R1、ERR、ENGR、ZCRにつ
いての無声音Uの基準値を、それぞれThR1.U、Th
ERR.U 、ThENGR.U、ThZCR.U として、図3(A)、
図4(A)、図5(A)、図6(A)のR1軸、ERR
軸、ENGR軸及びZCR軸上にそれぞれプロットす
る。上記無音Sについては、音声区間検出処理動作時に
音声が入力される直前の状態を無音S状態と仮定し、こ
の期間を分析して算出された各パラメータ値を無音Sの
基準値としている。また、上記R1、ERR、ENG
R、ZCRについての無音Sの基準値をそれぞれTh
R1.S、ThERR.S 、ThENGR.S、ThZCR.S として、図
3(A)、図4(A)、図5(A)、図6(A)のR1
軸、ERR軸、ENGR軸及びZCR軸上にそれぞれプ
ロットする。そして、これらのプロットした範囲を基準
に、それぞれ以下に説明するように2乗距離を求める。
【0005】(2)フレームの有声音V・無声音U・無
音Sの判定 音声区間検出においては、処理動作時に入力された音声
の、あるフレームが有声音V・無声音U・無音Sのどの
状態かを判定するには次の処理を行っている。判定の対
象となるフレームを分析して各パラメータ値を算出す
る。算出された正規化自己相関関数が最大となるラグの
相関値R1、正規化線形予測残差ERR、エネルギーレ
シオENGR、零交叉ZCRの値をそれぞれXR1、X
ERR 、XENGR、XZCR とする。この値と(1)で求めて
いる3状態、有声音V、無声音U、無音Sの基準値との
2乗距離を下記の数式により求めることができる。ここ
で、図3(A)に示すように、算出された正規化自己相
関関数が最大となるラグの相関値R1に関するB点での
有声音V、無声音U、無音Sの基準値ThR1.V、Th
R1.U、ThR1.Sとの差、つまり距離を求め、その2乗距
離をそれぞれDR1.V、DR1.U、DR1.Sとする。以下同様
に、図4(A)に示すように、正規化線形予測残差ER
Rに関するB点での有声音V、無声音U、無音Sの基準
値ThERR.V 、ThERR.U 、ThERR. S との差からその
2乗距離をDERR.V 、DERR.U 、DERR.S とする。ま
た、図5(A)に示すように、エネルギーレシオENG
Rに関するB点での有声音V、無声音U、無音Sの基準
値ThENGR.V、ThENGR.U、ThENGR.Sとの差からその
2乗距離を求め、DENGR.V、DENGR.U、DENGR.Sとす
る。図6(A)に示すように、零交叉ZCRに関するB
点での有声音V、無声音U、無音Sの基準値T
ZCR.V 、ThZCR.U 、ThZCR.S との2乗距離をD
ZCR.V、DZCR.U 、DZCR.S とする。図3(A)、図4
(A)、図5(A)、図6(A)より、以下の数式
(1)〜(12)より基準値との2乗距離を求める。
【0006】すなわち、 DR1.V=(XR1−ThR1.V2 ・・・・・(1) DR1.U=(XR1−ThR1.U2 ・・・・・(2) DR1.S=(XR1−ThR1.S2 ・・・・・(3) DERR.V =(XERR −ThERR.V 2 ・・・・・(4) DERR.U =(XERR −ThERR.U 2 ・・・・・(5) DERR.S =(XERR −ThERR.S 2 ・・・・・(6) DENGR.V=(XENGR−ThENGR.V2 ・・・・・(7) DENGR.U=(XENGR−ThENGR.U2 ・・・・・(8) DENGR.S=(XENGR−ThENGR.S2 ・・・・・(9) DZCR.V =(XZCR −ThZCR.V 2 ・・・・・(10) DZCR.U =(XZCR −ThZCR.U 2 ・・・・・(11) DZCR.S =(XZCR −ThZCR.S 2 ・・・・・(12) のように表わすことができる。
【0007】さらに、各状態毎に各パラメータについて
式(13)〜(15)のように合計した有声音V・無声
音U・無音Sの合計距離をそれぞれDV ・DU ・DS
すると、 DV =(DR1.V+DERR.V +DENGR.V+DZCR.V )・・・(13) DU =(DR1.u+DERR.u +DENGR.u+DZCR.u )・・・(14) DS =(DR1.s+DERR.s +DENGR.s+DZCR.s )・・・(15) となる。
【0008】上記有声音V・無声音U・無音Sの合計距
離DV 、DU 、DS である式(13)〜(15)を用い
て式(16)〜(18)によりフレームの状態を判定す
ると、有声音V・無声音U・無音Sの合計距離DV 、D
U 、DS のそれぞれの最小値を求め、有声音V・無声音
U・無音Sの合計距離DV が最小の場合、つまり、 DV =Min〔DV 、DU 、DS 〕・・・(16) ならば有声音Vになる。有声音V・無声音U・無音Sの
合計距離DU が最小の場合、つまり、 DU =Min〔DV 、DU 、DS 〕・・・(17) ならば無声音Uになる。有声音V・無声音U・無音Sの
合計距離DS が最小の場合、つまり、 DS =Min〔DV 、DU 、DS 〕・・・(18) ならば無音Sになる。以上のようにして、フレームの状
態から有声音V・無声音U・無音Sを判定していた。
【0009】
【発明が解決しようとする課題】上記分析の結果、算出
された各パラメータ値XR1、XERR 、XENGR、X
ZCR は、数式(1)〜(12)に示されるように、2乗
距離の計算に直接用いられている。これにより得られる
2乗距離はその絶対的な値が重要となる絶対2乗距離で
ある。仮に、有声音V・無声音U・無音Sの判定を1個
のパラメータで行う場合には、例えば、判定の対象とな
るフレームを分析して各パラメータ値を算出した正規化
自己相関関数が最大となるラグの相関値R1で行うと、
上記絶対2乗距離を用いても、図3(A)からわかるよ
うにDR1.V、DR1.u、DR1.sの相対関係が保たれている
限り、判定が行える。しかし、複数のパラメータより有
声音V・無声音U・無音Sの判定を行う場合には、図3
(A)〜図6(A)のように各パラメータ間の2乗距離
の相対関係も重要になるので、上記絶対2乗距離の和の
最小値のみを用いて、変動幅を考慮しない絶対的な判断
を行うと、状態判別が変動幅の大小のパラメータにより
算出される絶対2乗距離の値に対して影響を及ぼされた
り、影響が及ぼされなくなったり不均一になるおそれが
あった。
【0010】すなわち、上記絶対2乗距離で算出される
場合には、例えば有声音V・無声音U・無音Sの状態に
よる変動幅の大きなパラメータより算出される絶対2乗
距離の値が大きくなり、合計距離を求める式(13)〜
(15)の中で大きな影響力を持つことになり、状態判
定に大きな影響を及ぼすことになる。逆に、有声音V・
無声音U・無音Sの状態の変動幅が小さなパラメータか
ら算出される絶対2乗距離の値が小さくなり、式(1
3)〜(15)の中でもその影響力が小さい。従って、
状態判定には、あまり影響を及ぼさなくなる。それ故、
上記判定方法では、複数のパラメータにより状態判定を
行う場合に絶対2乗距離を用いているので、各パラメー
タがその変動幅により状態判定時に同等の影響力をもて
なくなり有声音V・無声音U・無音Sの状態判別が困難
になる不具合が生じる。
【0011】そこで、本発明は、音声認識の前処理とし
て音声区間を検出する際に、有声音・無声音・無音の状
態の判定に与える影響力が減少されて、正確に音声区間
の検出が行えるようにする音声信号処理装置及びその方
法を提供することを目的とする。
【0012】
【課題を解決するための手段】上記課題を解決するため
の手段として本発明は、音声を入力して有声音、無声音
及び無音を識別して音声区間の検出を行う音声信号処理
装置であつて、あらかじめ、音声の有声音・無声音・無
音と推定される期間を複数のパラメータについて分析
し、該分析結果の最小値を0とし、最大値が1になるよ
うな変換を実施して、音声の有声音・無声音・無音につ
いての基準値を算出する手段と、上記音声入力に応答し
て、所定の区間について音声分析を行ってパラメータを
算出し、該パラメータに上記基準値算出手段の変換式を
適用してパラメータを修正する手段と、該パラメータ修
正手段で上記変換式を適用してパラメータを修正し、該
修正パラメータと上記基準値との距離を算出する手段
と、該距離算出手段で算出された距離に基づいて音声の
有声音・無声音・無音のそれぞれの状態ごとに各パラメ
ータの距離を合計する手段と、該距離合計手段から出力
される合計値から上記音声の有声音・無声音・無音の区
間を識別を行なう手段とを設けた。
【0013】また、本発明では、音声を入力して有声
音、無声音及び無音を識別して音声区間の検出を行う音
声信号処理方法であつて、あらかじめ、音声の有声音・
無声音・無音と推定される期間を複数のパラメータにつ
いて分析し、該分析結果の最小値を0とし、最大値が1
になるような変換を実施して、音声の有声音・無声音・
無音についての基準値を算出し、上記音声入力に応答し
て、所定の区間について音声分析を行ってパラメータを
算出し、該パラメータに上記変換式を適用してパラメー
タを修正し、該修正パラメータと上記基準値との距離を
算出し、上記音声の有声音・無声音・無音のそれぞれの
状態ごとに各パラメータの距離を合計し、これらの合計
値から上記音声の有声音・無声音・無音の区間を識別を
行なうようにする。
【0014】
【作用】音声認識の前処理として音声区間を検出する際
には、あらかじめ、音声の有声音V・無声音U・無音S
と推定される期間を複数のパラメータについて分析し、
得られた値を有声音V・無声音U・無音Sの状態判定の
ための基準値として保存しておく。そして、各パラメー
タ毎に保存されている基準値の中で最小値を示すものが
0に、最大値を示すものが1になるような変換式を求
め、その変換式を用いて各基準値の設定をし直す。有声
音V・無声音U・無音Sの判定処理の段階で実際に音声
が入力されたならば、判定の対象となっている音声期間
について分析を行い、各パラメータ値を求める。ここ
で、上記各基準値の修正された修正値を正規化変換し、
変換された値と設定し直された各基準値との距離を求
め、有声音V・無声音U・無音Sの各状態毎に各パラメ
ータの距離を合計してその結果から有声音V・無声音U
・無音Sの各状態の判定をする。以上のようにして、各
パラメータの変動幅が正規化され、有声音V・無声音U
・無音Sの状態の判定に与える影響力が減少されるの
で、正確かつ迅速に音声区間の検出が行える。
【0015】
【実施例】本発明の音声信号処理装置及びその方法の一
実施例について図面を参照して説明する。図1は本発明
の音声信号処理装置及びその方法に適用する音声信号処
理部の要部構成を示すブロック図である。図1におい
て、音声認識の前処理として音声区間をデータ・シグナ
ル・プロセッサ(以下、DSPという)10内で検出す
る際には、音声の有声音V・無声音U・無音Sと推定さ
れる期間を複数のパラメータについて入力部4で分析
し、得られた値を有声音V・無声音U・無音Sの状態判
定のための基準値として記憶部6にあらかじめ保存して
おく。そして、各パラメータ毎に記憶部6に保存されて
いる基準値の中で最小値を示すものが0に、最大値を示
すものが1になるような変換式を基準値修正手段1で求
め、その変換式を用いて各基準値をパラメータ修正手段
5で修正し直す。
【0016】上記有声音V・無声音U・無音Sの判定処
理の段階で、実際に音声が電話機2からDSP10の入
力部4に入力されているならば、判定の対象となってい
る音声期間について分析を行い、各パラメータ値を求め
る。すなわち、基準値修正手段5で各基準値の設定が修
正された修正値を正規化変換し、変換された値と基準値
修正手段1で修正し直されたパラメータに基いて各基準
値との距離を距離算出手段7aで求め、有声音V・無声
音U・無音Sの各状態毎に各パラメータの距離を距離合
計手段7bで合計して、その結果から有声音V・無声音
U・無音Sの各状態の判定を音声区間識別手段8です
る。以上の音声信号処理部10では、音声認識の前処理
として音声区間を検出する際に、パラメータ修正手段5
でパラメータ値の変換を行い、演算部7で二乗距離及び
合計距離を求めて、有声音V・無声音U・無音Sの状態
の判定に与える影響力をなくし、正確な音声区間の検出
が行えるようになる。
【0017】図2は本発明の音声信号処理装置及びその
方法に適用する音声信号処理部の要部構成を示すブロッ
ク図である。図1を参照して以下の説明をする。音声認
識の前処理として音声区間をデータ・シグナル・プロセ
ッサ(以下、DSPという)10内で検出する際には、
音声の有声音V・無声音U・無音Sと推定される期間を
複数のパラメータについて入力部4で分析する(ステッ
プ1、以下ST1という)。そして、分析して得られた
値を有声音V・無声音U・無音Sの状態判定のための基
準値として記憶部6にあらかじめ保存しておく(ST
2)。
【0018】次に、有声音V・無声音U・無音Sの状態
判定のための基準値として記憶部6にあらかじめ保存さ
れているか否かを確認し、記憶部6にあらかじめ保存さ
れていると判断されるときには、各パラメータ毎に記憶
部6に保存されている基準値の中で最小値を示すものが
0に、最大値を示すものが1になるような変換式を基準
値修正手段1で求める(ST3,4)。そして、その変
換式を用いて各基準値のパラメータをパラメータ修正手
段5で修正し直す(ST5)。
【0019】上記パラメータ修正手段5で各基準値の設
定が修正された修正値を正規化変換し、変換された値と
基準値修正手段1で修正し直された各基準値との距離を
距離算出手段7aで求め、有声音V・無声音U・無音S
の各状態毎に各パラメータの距離を距離合計手段7bで
合計する(ST6,7)。上記フローチャートを経て得
られた結果から有声音V・無声音U・無音Sの各状態を
音声区間識別手段8で識別する(ST8)。そして、上
記音声区間識別手段8で識別が完了したのを確認して上
記フローチャートを終了する(ST9)。また、上記音
声区間識別手段8で音声の有声音・無声音・無音の区間
の識別が完了していないと判断する場合には、上記ST
8を再度実行する。以上のようにして、各パラメータの
変動幅が正規化され、有声音・無声音・無音の状態の判
定に与える影響力が減少されるので、正確かつ迅速に音
声区間の検出が行えるようにする。
【0020】次に、図3〜図6に基づいてその動作をさ
らに詳細に説明する。先ず、各パラメータについて有声
音V・無声音U・無音Sの判定の基準となる値が基準値
算出手段1で求められる。次に、パラメータ毎に基準値
の中で最小値を示すものが0に、最大値を示すものが1
になるような変換を実行する変換式を求める。
【0021】例として、算出された正規化自己相関関数
が最大となるラグの相関値R1について述べる。以下の
説明は、図3〜図6の図3(A)〜図6(A)を参照す
る。算出された正規化自己相関関数が最大となるラグの
相関値R1について求められた有声音・無声音・無音の
基準値をそれぞれThR1.V、ThR1.U、ThR1.Sとし、
それぞれ図3(A)のR軸、図4(A)のERR軸、図
5(A)のENGR軸及び図6(A)のZCR軸上にプ
ロットする。
【0022】このとき、下記の式(19)から上記変換
式に用いる係数αR1を求める。 ここでMax〔〕は〔〕中の値から最大となる値を選択
する関数である。次に、αR1を用いて式(20)〜(2
2)の変換式より各基準値をパラメータ修正手段5で設
定し直す。
【0023】上記パラメータ修正手段5で設定し直され
た基準値をそれぞれThkR1.V、ThkR1.U、Thk
R1.Sとして、図3(B)〜図6(B)のR1軸、ERR
軸、ENGR軸及びZCR軸上にプロットする。ここ
で、kは設定し直されたことを示すものである。 ThkR1.V=αR1(ThR1.V−Min[ThR1.V,Th R1.U,Th R1.S] )・・・(20) ThkR1.U=αR1(ThR1.U−Min[ThR1.V,Th R1.U,Th R1.S] )・・・(21) ThkR1.S=αR1(ThR1.S−Min[ThR1.V,Th R1.U,Th R1.S] )・・・(22) と表わすことができる。
【0024】以上の処理が済むと、フレームの有声音V
・無声音U・無音Sの判定の処理に移る。有声音V・無
声音U・無音S判定の対象となっているフレームから求
められたパラメータ値XkR1とすると、 XkR1=αR1(XR1−Min[ThR1.V,Th R1.U,Th R1.S] )・・・(23) のように表すことができる。ただし、XkR1>1ならX
R1=1、XkR1<0ならXkR1=0とする。
【0025】この値と、設定し直された基準値Thk
R1.V、ThkR1.U、ThkR1.Sとの2乗距離をそれぞれ
図3(B)の縦の矢印で示す範囲で規定し、DkR1.V
DkR1.U、DkR1.Sとすると、式(24)〜(26)の
演算を図1の距離算出手段7aで行う。 DkR1.V=(XkR1−ThkR1.V2 ・・・(24) DkR1.U=(XkR1−ThkR1.U2 ・・・(25) DkR1.S=(XkR1−ThkR1.S2 ・・・(26)
【0026】同様に、他のパラメータP2〜P4も変換
を行い、2乗距離をそれぞれ図4(B)〜図6(B)の
縦の矢印で示す範囲で求める。また、正規化線形予測残
差ERRを変換し求められた2乗距離をそれぞれ図4
(B)の縦の矢印で示す範囲で求め、これをDERR.V
ERR.U 、DERR.S とする。
【0027】以下、同様にエネルギーレシオENGRか
らの2乗距離をそれぞれ図5(B)の縦の矢印で示す範
囲で求め、これをDkENGR.V、DkENGR.U、DkENGR.S
とし、また零交叉ZCRからの2乗距離をそれぞれ図6
(B)の縦に矢印で示す範囲で求め、DkZCR.V 、Dk
ZCR.U 、DkZCR.S とする。
【0028】ここで、図3(A)のスケーリング前と図
3(B)のスケーリング後をそれぞれを比較すると、図
3(A)の波頂Aを上に引上げた図3(B)のようなス
ケーリング後の波形になり、図3(A)の絶対2乗距離
に比べて図3(B)の距離DR1.V、DR1.u、DR1.sの距
離を長くとることができるので、以下のフレームの状態
から有声音・無声音・無音の識別が容易に行えるように
なる。
【0029】以下同様に図3(A)と図3(B)、図4
(A)と図4(B)、図5(A)と図5(B)及び図6
(A)と図6(B)を比較すると、図3(A)と図3
(B)と同様の関係が得られる。
【0030】これらの値を用いて、下記の式(27)〜
(29)より、各状態毎の合計距離を図1の距離合計手
段7bで求める。上記有声音・無声音・無音の合計距離
をそれぞれDkV 、DkU 、DkS とすると、 DkV =(DkR1.V+DkERR.V +DkENGR.V+DkZCR.V )・・・(27) DkU =(DkR1.U+DkERR.U +DkENGR.U+DkZCR.U )・・・(28) DkS =(DkR1.S+DkERR.S +DkENGR.S+DkZCR.S )・・・(29) から有声音・無声音・無音の合計距離が距離合計手段7
bより求めることができる。
【0031】上記合計距離DkV 、DkU 、DkS を用
いて、下記の式(30)〜(32)によりフレームの状
態を図1の音声区間識別手段8で判定する。 DkV =Min〔DkV 、DkU 、DkS 〕・・・(30) ならば合計距離DkV が最小値であることから有声音V
であると判定する。また、 DkU =Min〔DkV 、DkU 、DkS 〕・・・(31) ならば合計距離DkV が最小値であることから無声音U
であると判定する。さらに、 DkS =Min〔DkV 、DkU 、DkS 〕・・・(32) ならば合計距離DkS が最小値であることから無音Sで
あると判定する。
【0032】以上の図1の音声区間識別手段8による判
断により、有声音V、無声音U及び無音Sの状態を迅速
かつ確実に判定することができる。従って、上記実施例
によれば、電話回線のような周波数特性を持つ線路では
有声音V・無声音U・無音Sの状態判定をする際に、特
性変化を受けた音声が、ある特定パラメータの特性変化
を受けて異常に変動しても、他のパラメータが特性変化
を受けないならば、各パラメータの状態判定に与える影
響力が同等であるので、多数決の原理により、異常変動
の影響を減少することができる。
【0033】なお、上記実施例で用いた有声音・無声音
・無音の判定用のパラメータの種類に限定されるもので
はなく、その他のパラメータを使用したものであっても
よいことは、言うまでもない。
【0034】
【発明の効果】上記のように本発明によれば、電話回線
のような周波数特性を持つ線路により特性変化を受けた
音声を有声音・無声音・無音の状態判定をする際に、あ
る特定パラメータが特性変化を受けて異常に変動して
も、他のパラメータが特性変化を受けなければ、各パラ
メータの状態判定に与える影響力は同等であるとみなせ
るので、多数決の原理により異常変動の影響が減少する
ことができるなどの優れた効果を奏することができる。
【図面の簡単な説明】
【図1】本発明の音声の有声音・無声音・無音の状態を
判定する方法において適用される状態判定装置の全体構
成を示すブロック図である。
【図2】本発明の音声信号処理装置及びその方法に適用
する音声信号処理部の要部構成を示すブロック図であ
る。
【図3】スケーリングする前と後の状態における正規化
自己相関関数が最大となるラグの相関値R1とフレーム
の関係を示す特性図で、図3(A)がスケーリングする
前のR1とフレームの関係を示す特性図、図3(B)が
がスケーリングした後のR1とフレームの関係を示す特
性図である。
【図4】スケーリングする前と後の状態における正規化
線形予測残差ERRとフレームの関係を示す特性図で、
図4(A)がスケーリングする前のERRとフレームの
関係を示す特性図、図4(B)がスケーリングした後の
ERRとフレームの関係を示す特性図である。
【図5】スケーリングする前の状態におけるエネルギー
レシオENGRとフレームの関係を示す特性図で、図5
(A)がスケーリングする前のENGRとフレームの関
係を示す特性図、図5(B)がスケーリングした後のE
NGRとフレームの関係を示す特性図である。
【図6】スケーリングする前の状態における零交叉ZC
Rとフレームの関係を示す特性図で、図6(A)がスケ
ーリングする前のZCRとフレームの関係を示す特性
図、図6(B)がスケーリングした後のZCRとフレー
ムの関係を示す特性図である。
【符号の説明】
1 基準値修正手段 2 電話機 3 DSP 4 入力部 5 パラメータ修正手段 7 演算手段 7a 距離算出手段 7b 距離合計手段 8 音声区間識別手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声を入力して有声音、無声音及び無音を
    識別して音声区間の検出を行う音声信号処理装置であつ
    て、 あらかじめ、音声の有声音・無声音・無音と推定される
    期間を複数のパラメータについて分析し、該分析結果の
    最小値を0とし、最大値が1になるような変換を実施し
    て、音声の有声音・無声音・無音についての基準値を算
    出する手段と、 上記音声入力に応答して、所定の区間について音声分析
    を行ってパラメータを規定し、該パラメータに上記基準
    値算出手段の変換式を適用してパラメータを修正する手
    段と、 該パラメータ修正手段で上記変換式を適用してパラメー
    タを修正し、該修正パラメータと上記基準値との距離を
    算出する手段と、 該距離算出手段で算出された距離に基づいて音声の有声
    音・無声音・無音のそれぞれの状態ごとに各パラメータ
    の距離を合計する手段と、 該距離合計手段から出力される合計値から上記音声の有
    声音・無声音・無音の区間の識別を行なう手段とを設け
    た音声信号処理装置。
  2. 【請求項2】音声を入力して有声音、無声音及び無音を
    識別して音声区間の識別を行う音声信号処理方法であつ
    て、 あらかじめ、音声の有声音・無声音・無音と推定される
    期間を複数のパラメータについて分析し、該分析結果の
    最小値を0とし、最大値が1になるような変換を実施し
    て、音声の有声音・無声音・無音についての基準値を算
    出し、 上記音声入力に応答して、所定の区間について音声分析
    を行ってパラメータを算出し、該パラメータに上記変換
    式を適用してパラメータを修正し、 該修正パラメータと上記基準値との距離を算出し、 上記音声の有声音・無声音・無音のそれぞれの状態ごと
    に各パラメータの距離を合計し、 これらの合計値から上記音声の有声音・無声音・無音の
    区間の識別を行なう音声信号処理方法。
JP4279500A 1992-09-24 1992-09-24 音声信号処理装置及びその方法 Pending JPH06110489A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4279500A JPH06110489A (ja) 1992-09-24 1992-09-24 音声信号処理装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4279500A JPH06110489A (ja) 1992-09-24 1992-09-24 音声信号処理装置及びその方法

Publications (1)

Publication Number Publication Date
JPH06110489A true JPH06110489A (ja) 1994-04-22

Family

ID=17611917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4279500A Pending JPH06110489A (ja) 1992-09-24 1992-09-24 音声信号処理装置及びその方法

Country Status (1)

Country Link
JP (1) JPH06110489A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定
US10347275B2 (en) 2013-09-09 2019-07-09 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing

Similar Documents

Publication Publication Date Title
US7877254B2 (en) Method and apparatus for enrollment and verification of speaker authentication
KR100438826B1 (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
US20060053009A1 (en) Distributed speech recognition system and method
US8086449B2 (en) Vocal fry detecting apparatus
US4937870A (en) Speech recognition arrangement
JP2969862B2 (ja) 音声認識装置
US6272460B1 (en) Method for implementing a speech verification system for use in a noisy environment
WO1997040491A1 (en) Method and recognizer for recognizing tonal acoustic sound signals
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
JP3119510B2 (ja) 音声認識装置
JPH06110489A (ja) 音声信号処理装置及びその方法
JPH03120598A (ja) 音声認識方法及び装置
US20060150805A1 (en) Method of automatically detecting vibrato in music
JPS60114900A (ja) 有音・無音判定法
JPH0792989A (ja) 音声認識方法
JP5151103B2 (ja) 音声認証装置、音声認証方法およびプログラム
WO1995020216A1 (en) Method and apparatus for indicating the emotional state of a person
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
JP3026855B2 (ja) 音声認識装置
EP0310636B1 (en) Distance measurement control of a multiple detector system
KR20050048214A (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
JPH05249987A (ja) 音声検出方法および音声検出装置
JPH0619491A (ja) 音声認識装置