JPH10177397A

JPH10177397A - 音声検出方法

Info

Publication number: JPH10177397A
Application number: JP8354098A
Authority: JP
Inventors: Takashi Matsumura; 隆司松村
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 1996-12-18
Filing date: 1996-12-18
Publication date: 1998-06-30
Anticipated expiration: 2016-12-18
Also published as: JP3355473B2

Abstract

(57)【要約】【課題】子音で始まる音声でも話頭切れが生じない音
声検出方法を提供すること。【解決手段】ＦＦＴ回路１−２を有し、入力音声信号
を周波数スペクトル領域に変換し、周波数スペクトルの
エネルギ−分布で雑音区間と音声区間を区別する音声検
出方法において、フレ−ム単位に求めた入力音声スペク
トルを各周波数毎に時間方向にロ−パスフィルタリング
又は平均して更新することにより雑音スペクトルを推定
する雑音推定回路１−３を設け、入力音声スペクトルの
振幅が推定雑音スペクトルの振幅を超える周波数帯域の
み両スペクトルのエネルギ−を求め、入力音声スペクト
ルと推定雑音スペクトルのエネルギ−の比率により音声
区間を判定する比較判定回路１−４を設けた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデジタル方式携帯電
話等で用いられるノイズキャンセラやＶＯＸ等に必要な
音声検出方法で、特に話頭切れの防止を図った音声検出
方法に関するものである。

【０００２】

【従来の技術】デジタル方式携帯電話等で使用されるＶ
ＳＥＬＰ（線形予測符号化）やＰＳＩ−ＣＥＬＰ（ピッ
チ同期更新符号化）等の高能率音声符号化方式は人間の
音声の特徴を利用して符号化量を圧縮するため周囲雑音
や背景雑音があると復号化した際著しく音質が劣化する
性質があり、ＰＳＩ−ＣＥＬＰでは雑音除去装置の使用
が推奨されている。また、電波の送出による電力消費を
削減し、バッテリ使用時間の延長を目的とする手法とし
て音声の存在する区間だけ送信するＶＯＸと呼ばれる技
術がある。これらノイズキャンセラ及びＶＯＸでは通話
中に話者音声の存在する区間を検出する必要がある。

【０００３】話者音声の検出は、例えば入力音声のパワ
−を算出しパワ−の大きい部分を音声区間として扱うこ
ともあるが、通常の通話環境は周囲に雑音源（他の人の
会話、電車、車の騒音等）が存在する場合が多く、単純
なパワ−の比較だけでは誤検出が多くなる。この対策と
して音声のピッチ情報や周波数領域で音声検出を行う手
法も提案されている。

【０００４】従来、この種の技術として特開平４−２５
１２９９号公報及び特開平５−３２３９９６号公報に開
示されたものがある。特開平４−２５１２９９号公報に
開示された音声区間検出方法は入力音声を一定の時間フ
レ−ムでＬＰＣスペクトル分析を行い、低周波数帯域の
スペクトルピ−クと高周波数帯域の平均スペクトルのレ
ベル差が閾値を超えたときを音声区間と判定する際に、
１つ過去のフレ−ムが音声区間でないと判定されると、
現在のフレ−ムから１フレ−ム過去のスペクトルを減算
し修正フレ−ムを作成し、その修正フレ−ムのスペクト
ルを用いて上記音声区間の判定を行う方法である。

【０００５】また、特開平５−３２３９９６号公報に開
示された有音無音判定方法は音声信号のフレ−ム単位に
求めた音声電力平均値だけでなく、過去数フレ−ムにわ
たる各フレ−ムの音声電力平均値の最大値と最小値の
差、及び、各フレ−ムの音声信号を高能率符号化するの
に伴って得られる音声符号化パラメ−タを有音無音の判
定に用いる方法である。

【０００６】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声区間検出方法は主に有声音の検出を行うも
のであって子音等無声音の検出能力は余り高くなく、そ
の音声検出結果に基づいたノイズキャンセラやＶＯＸ等
では子音で始まる音声に話頭切れが生じると云う問題が
あった。

【０００７】本発明は上述の点に鑑みてなされたもので
上記問題点を除去し、子音で始まる音声でも話頭切れが
生じない音声検出方法を提供することを目的とする。

【０００８】

【課題を解決するための手段】上記課題を解決するため
本発明は、ＦＦＴ回路を有し、入力音声信号を周波数ス
ペクトル領域に変換し、周波数スペクトルのエネルギ−
分布で雑音区間と音声区間を区別する音声検出方法にお
いて、図１に示すように、フレ−ム単位に求めた入力音
声スペクトルを各周波数毎に時間方向にロ−パスフィル
タリング、または、平均して更新することにより雑音ス
ペクトルを推定する雑音推定回路１−３を設け、入力音
声スペクトルの振幅が推定雑音スペクトルの振幅を超え
る周波数帯域のみ両スペクトルのエネルギ−を求め、入
力音声スペクトルと推定雑音スペクトルのエネルギ−の
比率により音声区間を判定する比較判定回路１−４を設
けたことを特徴とする。

【０００９】

【発明の実施の形態】以下、本発明の実施の形態例を図
面に基づいて詳細に説明する。図１は本発明の音声検出
方法を実施するデジタル方式携帯電話の送信処理部の構
成例を示す図である。送信処理部はマイクロホン２、Ａ
／Ｄコンバ−タ３、音声符号化部４、送信制御部５、送
信部６及びアンテナ７を具備し、マイクロホン２で検出
した音声信号をＡ／Ｄコンバ−タ３でデジタル信号に変
換し、音声符号化部４、送信制御部５及び送信部６を経
てアンテナ７より送信する。

【００１０】図示するように、音声検出部１はフレ−ム
化回路１−１、フレーム化回路１−１からのサンプリン
グデータを高速離散フーリエ変換するＦＦＴ回路１−
２、雑音推定回路１−３、比較判定回路１−４を具備す
る。音声検出部１はＡ／Ｄコンバ−タ３でデジタル信号
に変換された出力信号を周波数スペクトル領域に変換
し、音声区間と雑音区間を判定し（詳細後述）、音声区
間のみ送信部６のＶＯＸ６−１を作動させ音声区間のみ
信号をアンテナ７より出力するようになっている。同図
で信号ａ〜ｇの符号は図２〜図４の符号ａ〜ｇを示す。
図２〜図４は音声信号と雑音信号の各部の波形を表す。

【００１１】マイクロホン２から入力された雑音を含む
音声は電気信号に変換され、Ａ／Ｄコンバ−タ３で８０
００サンプル／秒でサンプリングされ、ＶＳＥＬＰの処
理フレ−ム長２０ｍｓに相当する１６０サンプル毎に分
割され処理ブロックとして出力される（信号ａ＋信号
ｂ、但し、サンプリング処理の図示は省略）。なお、Ｐ
ＳＩ−ＣＥＬＰでは処理フレ−ム長が４０ｍｓ、３２０
サンプルであるが１６０サンプル毎に処理を行えばよ
い。

【００１２】フレ−ム化回路１−１はサンプリングデ−
タをＦＦＴ回路１−２で高速離散フ−リエ変換するため
の分析デ−タを得る回路である。高速離散フ−リエ変換
は処理サイズとしては２の累乗の場合が最も演算効率が
よいため、１２８サンプル毎に変換を行う。前記処理ブ
ロックの１６０サンプルから１２８サンプルを取り出す
方法としては、１６０サンプルを前半８０サンプル、後
半８０サンプルに分割し、それぞれ前後に２４サンプ
ル、計４８サンプルを付加して１２８サンプルの区間と
し、次式の窓関数ｗ［ｉ］を乗じて分析デ−タとする
（信号ｃ）。Ｗ［ｉ］＝０．５＋ｃｏｓ（２πｉ／９６）／２ｉ＜４８＝１．０４８≦ｉ≦１１２＝０．５＋ｃｏｓ（２π（１２８−ｉ）／９６）／２ｉ＞１１２この１２８サンプリング毎のデ−タはＦＦＴ回路１−２
へ入力され高速離散フ−リエ変換され、周波数領域で１
２８点の振幅情報（信号ｆ）及び位相情報が出力され
る。このうち振幅情報のみを利用する。

【００１３】雑音スペクトルの推定は以下のように行
う。雑音推定回路１−３はＦＦＴ回路１−２で高速離散
フ−リエ変換された振幅情報から雑音スペクトルを抽出
し時間方向にロ−パスフィルタ（図では省略）により平
均化することで推定雑音振幅を得る。高速離散フ−リエ
変換された周波数領域での振幅情報（信号ｆ）をＧ
［ｉ］、推定雑音振幅をＮｇ［ｉ］、但し０＜＝ｉ＜１
２８とするとき、推定雑音振幅（信号ｇ）はＮｇ［ｉ］＝Ｎｇ［ｉ］＋（Ｇ［ｉ］−Ｎｇ［ｉ］）×
μ によって高速離散フ−リエ変換ごとに更新される。更新
速度計数μは想定する雑音環境の変化速度によって調整
されるべきであるが、携帯電話等での使用ではμ＝０．
２程度が適当である。

【００１４】比較判定回路１−４は音声検出を以下の判
定基準により行う。図３（信号ｆ）と図４（信号ｇ）を
比較して現フレ−ムの音声スペクトルが推定雑音スペク
トルより大きい周波数成分を選びだし（図４（信号ｈ）
及び図４（信号ｋ））、両者のエネルギ−の和を比較し
て、現フレ−ムのエネルギ−が推定雑音スペクトルのエ
ネルギ−に対して所定数α倍以上であれば音声検出とす
る。

【００１５】即ち、当該処理ブロックの振幅情報Ｇ
［ｉ］及び推定雑音振幅情報Ｎｇ［ｉ］の各周波数
（ｉ）ごとの振幅を比較し、Ｇ［ｉ］＞Ｎｇ［ｉ］の周
波数についてのみ振幅の自乗和（エネルギ−）を求め比
較する。 ΣＧ［ｉ］²＞ΣＮｇ［ｉ］²×α 但しＧ［ｉ］＞Ｎ
ｇ［ｉ］のｉのみ。αは閾値であり、αが大きいと音声
の立上りを検出しやすく、αを小さくすると検出しにく
くなる。μ＝０．２のときαの値として５．０程度が適
当である。

【００１６】各周波数において、当該ブロックの振幅情
報が推定雑音振幅を上回る周波数だけの自乗和の比を採
る理由は、雑音スペクトルが帯域（電話音声帯域３００
Ｈｚ〜３．４ｋＨｚ）全体に高レベルで存在し、音声の
立上りが比較的狭帯域のときでも音声の立上りを検出し
やすくするためである（全体のパワ−だけで比較する
と、音声の立上りによるパワ−の変化は高レベルの雑音
に埋もれてしまう）。

【００１７】上述したように、本実施形態例の音声検出
方法によれば現スペクトルが推定雑音より大きい周波数
だけに着目することにより、雑音環境の種類を問わず高
レベル雑音下でも音声の立上りの検出がしやすくなる。
本実施形態例では送信部６のＶＯＸ６−１を作動させ音
声区間のみ出力させることにより、バッテリ使用時間を
延ばすことができる。その他に雑音除去装置等に使用す
れば雑音の少ない良質な音声が得られる。

【００１８】

【発明の効果】以上説明したように本発明によれば、下
記のような優れた効果が得られる。（１）フレ−ム単位に求めた入力音声スペクトルを各周
波数毎に時間方向にロ−パスフィルタリング、または、
平均して更新することにより雑音スペクトルを推定する
雑音スペクトル推定手段を設け、入力音声スペクトルの
振幅が推定雑音スペクトルの振幅を超える周波数帯域の
み両スペクトルのエネルギ−を求め、入力音声スペクト
ルと推定雑音スペクトルのエネルギ−の比率により音声
区間を判定するので、雑音環境の種類を問わず音声の立
上りの検出が容易になる。

【００１９】（２）また、推定雑音は常に更新されるの
で雑音環境の変化に追従し、現スペクトルが推定雑音よ
り大きい周波数だけに着目することにより高レベル雑音
下でも音声の検出が容易である。

【図面の簡単な説明】

【図１】本発明の音声検出方法を実施するデジタル方式
携帯電話機の送信処理部の構成例を示す図である。

【図２】入力信号の音声信号と雑音信号を示す図であ
る。

【図３】フ−リエ変換した音声信号と雑音信号のスペク
トルを示す図である。

【図４】推定雑音信号と音声信号の比較を示す図であ
る。

【符号の説明】

１音声検出部１−１フレ−ム化回路１−２ＦＦＴ回路１−３雑音推定回路１−４比較判定回路２マイクロホン３Ａ／Ｄコンバ−タ４音声符号化部５送信制御部６送信部６−１ＶＯＸ

Claims

【特許請求の範囲】

【請求項１】高速離散フ−リエ変換手段を有し、入力
音声信号を周波数スペクトル領域に変換し、周波数スペ
クトルのエネルギ−分布から雑音区間と音声区間を区別
する音声検出方法において、フレ−ム単位に求めた入力音声スペクトルを各周波数毎
に時間方向にロ−パスフィルタリング、または、平均し
て更新することにより雑音スペクトルを推定する雑音ス
ペクトル推定手段を設け、入力音声スペクトルの振幅が推定雑音スペクトルの振幅
を超える周波数帯域のみ両スペクトルのエネルギ−を求
め、入力音声スペクトルと推定雑音スペクトルのエネル
ギ−の比率により音声区間を判定することを特徴とする
音声検出方法。