JPH10177397A - 音声検出方法 - Google Patents

音声検出方法

Info

Publication number
JPH10177397A
JPH10177397A JP8354098A JP35409896A JPH10177397A JP H10177397 A JPH10177397 A JP H10177397A JP 8354098 A JP8354098 A JP 8354098A JP 35409896 A JP35409896 A JP 35409896A JP H10177397 A JPH10177397 A JP H10177397A
Authority
JP
Japan
Prior art keywords
spectrum
voice
noise
frequency
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8354098A
Other languages
English (en)
Other versions
JP3355473B2 (ja
Inventor
Takashi Matsumura
隆司 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP35409896A priority Critical patent/JP3355473B2/ja
Publication of JPH10177397A publication Critical patent/JPH10177397A/ja
Application granted granted Critical
Publication of JP3355473B2 publication Critical patent/JP3355473B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 子音で始まる音声でも話頭切れが生じない音
声検出方法を提供すること。 【解決手段】 FFT回路1−2を有し、入力音声信号
を周波数スペクトル領域に変換し、周波数スペクトルの
エネルギ−分布で雑音区間と音声区間を区別する音声検
出方法において、フレ−ム単位に求めた入力音声スペク
トルを各周波数毎に時間方向にロ−パスフィルタリング
又は平均して更新することにより雑音スペクトルを推定
する雑音推定回路1−3を設け、入力音声スペクトルの
振幅が推定雑音スペクトルの振幅を超える周波数帯域の
み両スペクトルのエネルギ−を求め、入力音声スペクト
ルと推定雑音スペクトルのエネルギ−の比率により音声
区間を判定する比較判定回路1−4を設けた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデジタル方式携帯電
話等で用いられるノイズキャンセラやVOX等に必要な
音声検出方法で、特に話頭切れの防止を図った音声検出
方法に関するものである。
【0002】
【従来の技術】デジタル方式携帯電話等で使用されるV
SELP(線形予測符号化)やPSI−CELP(ピッ
チ同期更新符号化)等の高能率音声符号化方式は人間の
音声の特徴を利用して符号化量を圧縮するため周囲雑音
や背景雑音があると復号化した際著しく音質が劣化する
性質があり、PSI−CELPでは雑音除去装置の使用
が推奨されている。また、電波の送出による電力消費を
削減し、バッテリ使用時間の延長を目的とする手法とし
て音声の存在する区間だけ送信するVOXと呼ばれる技
術がある。これらノイズキャンセラ及びVOXでは通話
中に話者音声の存在する区間を検出する必要がある。
【0003】話者音声の検出は、例えば入力音声のパワ
−を算出しパワ−の大きい部分を音声区間として扱うこ
ともあるが、通常の通話環境は周囲に雑音源(他の人の
会話、電車、車の騒音等)が存在する場合が多く、単純
なパワ−の比較だけでは誤検出が多くなる。この対策と
して音声のピッチ情報や周波数領域で音声検出を行う手
法も提案されている。
【0004】従来、この種の技術として特開平4−25
1299号公報及び特開平5−323996号公報に開
示されたものがある。特開平4−251299号公報に
開示された音声区間検出方法は入力音声を一定の時間フ
レ−ムでLPCスペクトル分析を行い、低周波数帯域の
スペクトルピ−クと高周波数帯域の平均スペクトルのレ
ベル差が閾値を超えたときを音声区間と判定する際に、
1つ過去のフレ−ムが音声区間でないと判定されると、
現在のフレ−ムから1フレ−ム過去のスペクトルを減算
し修正フレ−ムを作成し、その修正フレ−ムのスペクト
ルを用いて上記音声区間の判定を行う方法である。
【0005】また、特開平5−323996号公報に開
示された有音無音判定方法は音声信号のフレ−ム単位に
求めた音声電力平均値だけでなく、過去数フレ−ムにわ
たる各フレ−ムの音声電力平均値の最大値と最小値の
差、及び、各フレ−ムの音声信号を高能率符号化するの
に伴って得られる音声符号化パラメ−タを有音無音の判
定に用いる方法である。
【0006】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声区間検出方法は主に有声音の検出を行うも
のであって子音等無声音の検出能力は余り高くなく、そ
の音声検出結果に基づいたノイズキャンセラやVOX等
では子音で始まる音声に話頭切れが生じると云う問題が
あった。
【0007】本発明は上述の点に鑑みてなされたもので
上記問題点を除去し、子音で始まる音声でも話頭切れが
生じない音声検出方法を提供することを目的とする。
【0008】
【課題を解決するための手段】上記課題を解決するため
本発明は、FFT回路を有し、入力音声信号を周波数ス
ペクトル領域に変換し、周波数スペクトルのエネルギ−
分布で雑音区間と音声区間を区別する音声検出方法にお
いて、図1に示すように、フレ−ム単位に求めた入力音
声スペクトルを各周波数毎に時間方向にロ−パスフィル
タリング、または、平均して更新することにより雑音ス
ペクトルを推定する雑音推定回路1−3を設け、入力音
声スペクトルの振幅が推定雑音スペクトルの振幅を超え
る周波数帯域のみ両スペクトルのエネルギ−を求め、入
力音声スペクトルと推定雑音スペクトルのエネルギ−の
比率により音声区間を判定する比較判定回路1−4を設
けたことを特徴とする。
【0009】
【発明の実施の形態】以下、本発明の実施の形態例を図
面に基づいて詳細に説明する。図1は本発明の音声検出
方法を実施するデジタル方式携帯電話の送信処理部の構
成例を示す図である。送信処理部はマイクロホン2、A
/Dコンバ−タ3、音声符号化部4、送信制御部5、送
信部6及びアンテナ7を具備し、マイクロホン2で検出
した音声信号をA/Dコンバ−タ3でデジタル信号に変
換し、音声符号化部4、送信制御部5及び送信部6を経
てアンテナ7より送信する。
【0010】図示するように、音声検出部1はフレ−ム
化回路1−1、フレーム化回路1−1からのサンプリン
グデータを高速離散フーリエ変換するFFT回路1−
2、雑音推定回路1−3、比較判定回路1−4を具備す
る。音声検出部1はA/Dコンバ−タ3でデジタル信号
に変換された出力信号を周波数スペクトル領域に変換
し、音声区間と雑音区間を判定し(詳細後述)、音声区
間のみ送信部6のVOX6−1を作動させ音声区間のみ
信号をアンテナ7より出力するようになっている。同図
で信号a〜gの符号は図2〜図4の符号a〜gを示す。
図2〜図4は音声信号と雑音信号の各部の波形を表す。
【0011】マイクロホン2から入力された雑音を含む
音声は電気信号に変換され、A/Dコンバ−タ3で80
00サンプル/秒でサンプリングされ、VSELPの処
理フレ−ム長20msに相当する160サンプル毎に分
割され処理ブロックとして出力される(信号a+信号
b、但し、サンプリング処理の図示は省略)。なお、P
SI−CELPでは処理フレ−ム長が40ms、320
サンプルであるが160サンプル毎に処理を行えばよ
い。
【0012】フレ−ム化回路1−1はサンプリングデ−
タをFFT回路1−2で高速離散フ−リエ変換するため
の分析デ−タを得る回路である。高速離散フ−リエ変換
は処理サイズとしては2の累乗の場合が最も演算効率が
よいため、128サンプル毎に変換を行う。前記処理ブ
ロックの160サンプルから128サンプルを取り出す
方法としては、160サンプルを前半80サンプル、後
半80サンプルに分割し、それぞれ前後に24サンプ
ル、計48サンプルを付加して128サンプルの区間と
し、次式の窓関数w[i]を乗じて分析デ−タとする
(信号c)。 W[i] =0.5+cos(2πi/96)/2 i<48 =1.0 48≦i≦112 =0.5+cos(2π(128−i)/96)/2 i>112 この128サンプリング毎のデ−タはFFT回路1−2
へ入力され高速離散フ−リエ変換され、周波数領域で1
28点の振幅情報(信号f)及び位相情報が出力され
る。このうち振幅情報のみを利用する。
【0013】雑音スペクトルの推定は以下のように行
う。雑音推定回路1−3はFFT回路1−2で高速離散
フ−リエ変換された振幅情報から雑音スペクトルを抽出
し時間方向にロ−パスフィルタ(図では省略)により平
均化することで推定雑音振幅を得る。高速離散フ−リエ
変換された周波数領域での振幅情報(信号f)をG
[i]、推定雑音振幅をNg[i]、但し0<=i<1
28とするとき、推定雑音振幅(信号g)は Ng[i]=Ng[i]+(G[i]−Ng[i])×
μ によって高速離散フ−リエ変換ごとに更新される。更新
速度計数μは想定する雑音環境の変化速度によって調整
されるべきであるが、携帯電話等での使用ではμ=0.
2程度が適当である。
【0014】比較判定回路1−4は音声検出を以下の判
定基準により行う。図3(信号f)と図4(信号g)を
比較して現フレ−ムの音声スペクトルが推定雑音スペク
トルより大きい周波数成分を選びだし(図4(信号h)
及び図4(信号k))、両者のエネルギ−の和を比較し
て、現フレ−ムのエネルギ−が推定雑音スペクトルのエ
ネルギ−に対して所定数α倍以上であれば音声検出とす
る。
【0015】即ち、当該処理ブロックの振幅情報G
[i]及び推定雑音振幅情報Ng[i]の各周波数
(i)ごとの振幅を比較し、G[i]>Ng[i]の周
波数についてのみ振幅の自乗和(エネルギ−)を求め比
較する。 ΣG[i]2>ΣNg[i]2×α 但しG[i]>N
g[i]のiのみ。αは閾値であり、αが大きいと音声
の立上りを検出しやすく、αを小さくすると検出しにく
くなる。μ=0.2のときαの値として5.0程度が適
当である。
【0016】各周波数において、当該ブロックの振幅情
報が推定雑音振幅を上回る周波数だけの自乗和の比を採
る理由は、雑音スペクトルが帯域(電話音声帯域300
Hz〜3.4kHz)全体に高レベルで存在し、音声の
立上りが比較的狭帯域のときでも音声の立上りを検出し
やすくするためである(全体のパワ−だけで比較する
と、音声の立上りによるパワ−の変化は高レベルの雑音
に埋もれてしまう)。
【0017】上述したように、本実施形態例の音声検出
方法によれば現スペクトルが推定雑音より大きい周波数
だけに着目することにより、雑音環境の種類を問わず高
レベル雑音下でも音声の立上りの検出がしやすくなる。
本実施形態例では送信部6のVOX6−1を作動させ音
声区間のみ出力させることにより、バッテリ使用時間を
延ばすことができる。その他に雑音除去装置等に使用す
れば雑音の少ない良質な音声が得られる。
【0018】
【発明の効果】以上説明したように本発明によれば、下
記のような優れた効果が得られる。 (1)フレ−ム単位に求めた入力音声スペクトルを各周
波数毎に時間方向にロ−パスフィルタリング、または、
平均して更新することにより雑音スペクトルを推定する
雑音スペクトル推定手段を設け、入力音声スペクトルの
振幅が推定雑音スペクトルの振幅を超える周波数帯域の
み両スペクトルのエネルギ−を求め、入力音声スペクト
ルと推定雑音スペクトルのエネルギ−の比率により音声
区間を判定するので、雑音環境の種類を問わず音声の立
上りの検出が容易になる。
【0019】(2)また、推定雑音は常に更新されるの
で雑音環境の変化に追従し、現スペクトルが推定雑音よ
り大きい周波数だけに着目することにより高レベル雑音
下でも音声の検出が容易である。
【図面の簡単な説明】
【図1】本発明の音声検出方法を実施するデジタル方式
携帯電話機の送信処理部の構成例を示す図である。
【図2】入力信号の音声信号と雑音信号を示す図であ
る。
【図3】フ−リエ変換した音声信号と雑音信号のスペク
トルを示す図である。
【図4】推定雑音信号と音声信号の比較を示す図であ
る。
【符号の説明】
1 音声検出部 1−1 フレ−ム化回路 1−2 FFT回路 1−3 雑音推定回路 1−4 比較判定回路 2 マイクロホン 3 A/Dコンバ−タ 4 音声符号化部 5 送信制御部 6 送信部 6−1 VOX

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 高速離散フ−リエ変換手段を有し、入力
    音声信号を周波数スペクトル領域に変換し、周波数スペ
    クトルのエネルギ−分布から雑音区間と音声区間を区別
    する音声検出方法において、 フレ−ム単位に求めた入力音声スペクトルを各周波数毎
    に時間方向にロ−パスフィルタリング、または、平均し
    て更新することにより雑音スペクトルを推定する雑音ス
    ペクトル推定手段を設け、 入力音声スペクトルの振幅が推定雑音スペクトルの振幅
    を超える周波数帯域のみ両スペクトルのエネルギ−を求
    め、入力音声スペクトルと推定雑音スペクトルのエネル
    ギ−の比率により音声区間を判定することを特徴とする
    音声検出方法。
JP35409896A 1996-12-18 1996-12-18 音声検出方法 Expired - Fee Related JP3355473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35409896A JP3355473B2 (ja) 1996-12-18 1996-12-18 音声検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35409896A JP3355473B2 (ja) 1996-12-18 1996-12-18 音声検出方法

Publications (2)

Publication Number Publication Date
JPH10177397A true JPH10177397A (ja) 1998-06-30
JP3355473B2 JP3355473B2 (ja) 2002-12-09

Family

ID=18435289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35409896A Expired - Fee Related JP3355473B2 (ja) 1996-12-18 1996-12-18 音声検出方法

Country Status (1)

Country Link
JP (1) JP3355473B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217607A1 (en) * 1999-06-23 2002-06-26 NEC Corporation Voice/voiceless frame judging device and judging method therefor
JP2009122710A (ja) * 1998-08-21 2009-06-04 Panasonic Corp パラメータ抽出装置及びパラメータ抽出方法
CN102629470A (zh) * 2011-02-02 2012-08-08 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122710A (ja) * 1998-08-21 2009-06-04 Panasonic Corp パラメータ抽出装置及びパラメータ抽出方法
JP4527175B2 (ja) * 1998-08-21 2010-08-18 パナソニック株式会社 スペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法
JP2010186190A (ja) * 1998-08-21 2010-08-26 Panasonic Corp 量子化lspパラメータ動的特徴抽出器及び量子化lspパラメータ動的特徴抽出方法
EP1217607A1 (en) * 1999-06-23 2002-06-26 NEC Corporation Voice/voiceless frame judging device and judging method therefor
EP1217607A4 (en) * 1999-06-23 2005-05-04 Nec Corp DEVICE AND METHOD FOR DETERMINING VOIDED / NON-VOIDED FRAMES
CN102629470A (zh) * 2011-02-02 2012-08-08 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置

Also Published As

Publication number Publication date
JP3355473B2 (ja) 2002-12-09

Similar Documents

Publication Publication Date Title
JP3963850B2 (ja) 音声区間検出装置
US9047878B2 (en) Speech determination apparatus and speech determination method
US6023674A (en) Non-parametric voice activity detection
EP1982324B1 (en) A voice detector and a method for suppressing sub-bands in a voice detector
EP2517202B1 (en) Method and device for speech bandwidth extension
US5970441A (en) Detection of periodicity information from an audio signal
US20040138876A1 (en) Method and apparatus for artificial bandwidth expansion in speech processing
US20060116873A1 (en) Repetitive transient noise removal
WO2006119606A1 (en) System for suppressing passing tire hiss
EP1312075B1 (en) Method for noise robust classification in speech coding
US20160005420A1 (en) Voice emphasis device
JPS6245730B2 (ja)
US20120265526A1 (en) Apparatus and method for voice activity detection
JP3355473B2 (ja) 音声検出方法
EP1548703A1 (en) Apparatus and method for voice activity detection
JPH11338499A (ja) ノイズキャンセラ
US8788265B2 (en) System and method for babble noise detection
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
JPH08221097A (ja) 音声成分の検出法
JP2564821B2 (ja) 音声判定検出装置
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
JPH06282297A (ja) 音声符号化方式
JP3255077B2 (ja) 電話機
JP2002162982A (ja) 有音無音判定装置及び有音無音判定方法
WO2019035835A1 (en) DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071004

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081004

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees