JPH06236195A

JPH06236195A - 音声区間検出方法

Info

Publication number: JPH06236195A
Application number: JP5024543A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-02-12
Filing date: 1993-02-12
Publication date: 1994-08-23
Anticipated expiration: 2018-06-09
Also published as: JP3413862B2

Abstract

(57)【要約】【構成】入力音声信号から処理すべき１フレーム分の
データを抽出し（Ｓ１）、該１フレームの実効値（ＲＭ
Ｓ値）Ｒを計算し（Ｓ２）する。また、音声区間の最新
の３０フレームのＲＭＳの平均値Ｒ_Vを計算しておき、
各フレーム毎のＲＭＳ値ＲをＲ_Vで除算した値Ｒ／Ｒ_V
を求める。音声区間中は、この値Ｒ／Ｒ_Vが所定の閾値
Ｋ_Vより小さくなることを検出し、これがｍ（例えば１
５）フレーム連続するか否かを判別して（Ｓ６）、ＹＥ
Ｓのときには無音声区間の開始点とする（Ｓ９）。【効果】雑音のある環境下でも音声区間の検出を確実
に行えるようにし、かつ演算量を少なくして電力消費を
低減することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号中の音声の有
る区間を無音声区間と区別して検出する音声区間検出方
法に関し、特に、音声符号化の前処理として音声区間を
検出して無音声区間をゼロマスクする処理等に適用可能
な音声区間検出方法に関する。

【０００２】

【従来の技術】入力された音声信号を所定の音声符号化
方式で符号化して伝送する場合（通信媒体を介して送信
したり記録媒体に記録する場合等）において、符号化に
先立って、入力信号中の音声が有る区間（有音声区間）
と無い区間（無音声区間）とを区別しておき、無音声区
間をゼロ信号でマスクする（ゼロマスクする）ような、
いわゆるＶｏｘ制御あるいはＶｏｘ処理が知られてい
る。

【０００３】上記音声信号の符号化の具体的な例として
は、ＭＢＥ（Multiband Excitation: マルチバンド励
起）符号化、ＳＢＥ（Singleband Excitation:シングル
バンド励起）符号化、ハーモニック（Harmonic）符号
化、ＳＢＣ（Sub-band Coding:帯域分割符号化）、ＬＰ
Ｃ（Linear Predictive Coding: 線形予測符号化）、あ
るいはＤＣＴ（離散コサイン変換）、ＭＤＣＴ（モデフ
ァイドＤＣＴ）、ＦＦＴ（高速フーリエ変換）等があ
る。

【０００４】

【発明が解決しようとする課題】ところで、音声信号に
は背景雑音が含まれていることが多く、このため音声区
間を切り出す際に、例えば無音声区間中に含まれたノイ
ズと音声を区別することが困難である。

【０００５】すなわち、例えば入力音声信号の実効値
（いわゆるＲＭＳ、２乗平均根）を用いて音声の有無を
検出する方法があるが、この場合、無音声区間であるに
もかかわらず、環境雑音等のノイズが含まれていること
によって有音声と判断してしまうという問題があり、音
声とノイズとの区別が困難である。

【０００６】また、信号に含まれている基本周期やピッ
チ等を検出したり、信号波形のゼロクロスの頻度を見た
り、周波数成分の分布を見ること等を併用することで、
音声区間検出の信頼性を高めることも考えられるが、処
理が複雑で計算量が増大するという問題がある。これ
は、音声符号化装置や電話装置等の消費電力の増加につ
ながり、電池駆動タイプの携帯用機器においては電池寿
命の短期化という欠点に結び付くことになる。

【０００７】本発明は、上記実情に鑑みてなされたもの
であり、音声の有無を雑音等に影響されることなく確実
に判別でき、しかも処理が簡単で計算量も比較的小さく
て済み、適用される機器の消費電力を節約することがで
きる音声区間検出方法の提供を目的とする。

【０００８】

【課題を解決するための手段】本発明に係る音声区間検
出方法は、上記課題を解決するために、入力された音声
信号を一定サンプル数のフレームを単位として分割し、
各フレーム毎に音声の有無を判別して音声の有る区間を
検出する音声区間検出方法において、音声区間とされた
複数フレームの平均パワーにより各フレームのパワーを
正規化する工程と、この正規化された値を所定の閾値と
比較して音声区間を検出する工程とを有することを特徴
としている。

【０００９】この場合、１つあるいは２つの閾値を用い
て音声区間から無音声区間への移行点（無音声区間の開
始点）及び無音声区間から音声区間への移行点（音声区
間の開始点）を求めるようにしてもよいが、この音声区
間の開始点については、無音声区間とされた複数フレー
ムの平均パワーと各フレームのパワーとの比をとり、こ
の比の値を他の所定の閾値と比較して検出することが好
ましい。

【００１０】また、上記無音声区間の開始点について
は、上記正規化された値が上記閾値以下となるフレーム
が所定数以上連続したとき上記音声区間が終了したこと
を検出することが好ましい。

【００１１】さらに、これらの音声区間の開始点検出及
び無音声区間の開始点検出が誤検出となることを避ける
ために、上記フレームのパワーが所定の無声音区間パワ
ー閾値より小さいとき当該フレームを無音声区間とした
り、上記フレームのパワーが所定の有音声区間パワー閾
値より大きいとき当該フレームを有音声区間とすること
が望ましい。

【００１２】

【作用】ノイズが含まれる入力音声信号に対しても音声
区間の検出が確実に行え、計算量も比較的少なくて済
む。

【００１３】

【実施例】以下、本発明に係る音声区間検出方法の好ま
しい実施例について、図面を参照しながら説明する。図
１は、本発明の第１の実施例となる音声区間検出方法を
説明するためのフローチャートである。

【００１４】この図１において、入力されたディジタル
音声信号に対して、ステップＳ１では処理すべき１フレ
ーム分のデータが抽出され、次のステップＳ２で１フレ
ームのパワーあるいは実効値、いわゆるＲＭＳ（２乗平
均根）の値Ｒが計算される。次のステップＳ３では、上
記実効値Ｒが所定の有音声区間パワー閾値Ｃ_V以上であ
るか否かを判別し、ＹＥＳのときはステップＳ８に進
み、ＮＯのときはステップＳ４に進む。ステップＳ４で
は、上記実効値Ｒが所定の無音声区間パワー閾値Ｃ_Nで
あるか否かを判別し、ＹＥＳのときはステップＳ９に進
み、ＮＯのときはステップＳ５に進む。ステップＳ５で
は、時間的に前のフレームが有音声フレームか否かを判
別し、ＹＥＳ（有音声）のときはステップＳ６に進み、
ＮＯ（無音声）のときはステップＳ７に進む。

【００１５】ステップＳ６では、音声区間と判別された
最新の一定ｎフレーム（例えば３０フレーム）のパワー
（例えばＲＭＳ値）の平均値Ｒ_Vを求めておき、音声フ
レーム毎のパワー（ＲＭＳ値）Ｒを上記音声区間のパワ
ー平均値Ｒ_Vで正規化した値Ｒ／Ｒ_Vを求め、この音声
区間パワー平均値によるフレーム毎のパワー正規化値Ｒ
／Ｒ_Vについて、一定フレーム数ｍ（例えば１５フレー
ム）以上続けて所定の閾値Ｋ_V（例えば０．１）よりも
小さくなっているか否かを判別している。このステップ
Ｓ６でＮＯと判別されたとき、すなわち上記正規化値Ｒ
／Ｒ_Vが上記閾値Ｋ_V（例えば０．１）以上であるとき
にはステップＳ８に進み、ＹＥＳと判別されたとき（Ｒ
／Ｒ_V＜Ｋ_Vのとき）にはステップＳ９に進む。

【００１６】ステップＳ７では、無音声区間と判別され
た最新の一定ｎフレーム（例えば３０フレーム）のパワ
ー（例えばＲＭＳ値）の平均値Ｒ_Nを求めておき、この
無音声区間のパワー平均値Ｒ_Nをフレーム毎のパワー
（ＲＭＳ値）Ｒで除算した（割り算した）値Ｒ_N／Ｒを
求め、この除算値Ｒ_N／Ｒが所定の閾値Ｋ_N（例えば
０．５）よりも小さいか否かを判別している。このステ
ップＳ７でＹＥＳと判別されたとき（Ｒ_N／Ｒ＜Ｋ_Nの
とき）にはステップＳ８に進み、ＮＯと判別されたとき
にはステップＳ９に進み、

【００１７】ステップＳ８では、現在のフレームが有音
声区間であると判断すると共に、上記音声区間のパワー
平均値であるＲ_Vを更新する。ステップＳ９では、現在
のフレームが無音声区間であると判断すると共に、上記
無音声区間のパワー平均値であるＲ_Nを更新する。これ
らのステップＳ８あるいはＳ９の処理後に上記ステップ
Ｓ１に戻る。

【００１８】以上のような音声区間検出方法の実施例に
よれば、音声信号にノイズが含まれていても、ＳＮ比が
ある程度大きい定常ノイズであれば、音声の有無を検出
でき、しかも計算量は比較的小さいものとなっている。
これにより、デジタル携帯電話等における音声信号の送
信において、送信パワーを節約することができる。

【００１９】次に、図２のＡに示すような入力音声信号
を、所定のサンプリング周波数ｆ_S（例えば８ｋHz）で
サンプリングし、図２のＢに示すように所定サンプル数
（例えば１６０サンプル）を単位として分割してそれぞ
れを１フレームとし、各フレームに音声が含まれるか含
まれないかを検出するための操作の具体例について説明
する。

【００２０】ここで、前述したようないわゆるＶｏｘ処
理を行うフレームを図２のＢに示すフレームとすると
き、この１フレーム１６０サンプルに時間的に連続する
６５サンプル先までの合計２２５サンプル（図２のＣ）
の内の、最新の１６０サンプル（図２のＤ）を用いて上
記有声音区間か無声音区間かの判定を行う。

【００２１】この図２のＤに示す判定フレーム（１６０
サンプル）のサンプル値ついて、上記ＲＭＳ（２乗平均
根）の値を求め、これをＲとする。図３は具体的な入力
音声信号に対する上記ＲＭＳ値の時間経過に伴う変化を
示しており、横軸に時間経過をフレーム数で表し、縦軸
に音声信号をパワーを上記ＲＭＳ値で表している。この
場合の入力音声信号は、音声レベルは標準的なレベル
で、背景雑音なしのものを第１の音声信号試料として用
いている。

【００２２】一方、音声区間の最新のｎ（例えば３０）
フレームのＲＭＳ値の平均値を求めておき、これをＲ_V
とする。同様に、無音声区間の最新のｎフレームのＲＭ
Ｓ平均値も求めておき、これをＲ_Nとする。

【００２３】次に、各フレーム毎に、比Ｒ／Ｒ_V、Ｒ_N
／Ｒを計算する。もし、背景雑音に比べて音声がある程
度大きく（例えば、音声区間のＲＭＳ平均値が背景雑音
のＲＭＳ平均値の１０倍以上）、しかも背景雑音が定常
であれば、 (1) 比Ｒ／Ｒ_Vは音声区間では１．０近傍を変化し、無
音声区間では０．０近傍を変化する。 (2) 比Ｒ_N／Ｒは無音声区間では１．０近傍を変化し、
音声区間になるとその定常性が崩れる。と考えられる。

【００２４】ここで図４及び図５は、上記図３に示した
フレーム毎のＲＭＳ値が得られるような上記第１の音声
信号試料が入力されるときの比Ｒ／Ｒ_Vの値及び比Ｒ_N
／Ｒの値の時間変化を示している。

【００２５】そこで音声区間中では上記比Ｒ／Ｒ_Vに着
目し、この比Ｒ／Ｒ_Vが１よりある程度小さくなり、か
つそれが一定区間続いたとき、例えば、Ｒ／Ｒ_V＜０．
１、という条件がｍ（例えば１５）フレーム以上続いた
とき、を無音声区間の始まりとみなす。この閾値Ｋ_V＝
０．１は、ＳＮ比２０ｄＢ以上の背景雑音が存在して
も、無音区間が検知できるようにするときの条件であ
る。図４の具体例では、点ａの時刻からＲ／Ｒ_Vが閾値
Ｋ_V＝０．１を下回るようになり、これがｍフレーム
（１５フレーム）続いた時点ｂが無音声区間の始まりと
なる。

【００２６】次に、無音声区間から音声区間への移行の
検知は、上記比Ｒ／Ｒ_Vを他の閾値で弁別して行うよう
にしてもよいが、本実施例では上記比Ｒ_N／Ｒの変化に
着目して行っている。すなわち、無音声区間中では、上
記比Ｒ_N／Ｒの定常性が崩れたとき、例えば、Ｒ_N／Ｒ
＜０．５（＝Ｋ_N）、となったとき（瞬間）を音声区間
の始まりとみなす。図５の具体例では、点ａの時刻から
Ｒ_N／Ｒが閾値Ｋ_N＝０．５を下回り、この時点ａが音
声区間の始まりとなる。

【００２７】さらに、これらの無音声区間の始まり検出
や音声区間の始まり検出が、誤った検出となるのを避け
るため、上記比Ｒ／Ｒ_V、Ｒ_N／Ｒの条件が満たされて
も、上記フレーム毎のＲＭＳ値がある閾値Ｃ_V（例えば
２００程度）より大きなフレームは有音声区間とみな
し、上記ＲＭＳ値が他のある閾値Ｃ_N（例えば、レベル
の小さな音声のＲＭＳ平均値の１／２０程度）より小さ
なフレームは無音声区間とみなす。

【００２８】ここで、上記Ｃ_Vは上記有音声区間パワー
閾値に相当し、従来において音声区間検出のために用い
られていた閾値より大きい値とすることができる。すな
わち本来の音声区間検出は上記Ｒ／Ｒ_Vを上記閾値Ｋ_V
で弁別することにより行われ、上記閾値Ｃ_Vは誤検出防
止のために設定されるものであって、確実に音声区間と
判断できる程度の大きさとすればよいからである。ま
た、上記Ｃ_Nは上記無声音区間パワー閾値に相当し、例
えば音声があったとしても人の耳に聴こえない程度の値
に設定すればよい。

【００２９】ところで上記図３〜図５は、入力音声信号
として、音声レベルが標準で、背景雑音なしの第１の音
声信号試料を用いた場合を示しているが、音声レベルが
小さい場合や、背景雑音がある場合でも、音声区間の検
出が確実に行える。

【００３０】すなわち、図６は、音声レベルが小さく
（−２０ｄＢ）、背景雑音なしの第２の音声信号試料を
入力信号としたときの各フレーム毎の上記ＲＭＳ値を破
線で示し、音声レベルは標準で、背景雑音あり（ＳＮ比
２６ｄＢ）の第３の音声信号試料を入力信号としたとき
の各フレーム毎のＲＭＳ値を実線で示している。この図
６から明らかなように、各フレーム毎のＲＭＳ値だけで
は上記第２の音声信号試料の音声区間と第３の音声信号
試料の無音声区間とを区別する閾値が得られず、例えば
第３の音声信号試料の無音声区間を音声区間と誤判定し
たり、第２の音声信号試料の音声区間を無音声区間と誤
判定するような不具合が生じる。

【００３１】これに対して、各信号の音声区間の最新の
ｎフレームのＲＭＳ平均値で除算して正規化すると、図
７、図８に示すようなグラフが得られる。すなわち、図
７は上記第２の音声信号試料のフレーム毎のＲＭＳ値Ｒ
を、音声区間の最新の３０フレームのＲＭＳ値の平均値
Ｒ_Vで除算することで正規化した値Ｒ／Ｒ_Vを示してお
り、図８は上記第３の音声信号試料について同様な手順
で正規化して得られた値Ｒ／Ｒ_Vを示している。

【００３２】これらの図７、図８においては、所定の閾
値Ｋ_V（例えば０．１）により音声区間と無音声区間と
を確実に区別することができる。ここで、上述した実施
例と同様に、このＲ／Ｒ_Vの値を音声区間から無音声区
間への移行点を検出するような用途に用いる場合には、
音声区間中にＲ／Ｒ_Vが上記閾値Ｋ_V＝０．１を下回り
かつこれが所定のｍ（例えば１５）フレーム連続する時
点を無音声区間の開始点とすればよい。図７の例では点
ａからｍフレーム後、点ｂからｍフレーム後、図８の例
では点ａからｍフレーム後、点ｂからｍフレーム後、等
が上記無音声区間の開始点になり得る。ただし、上記所
定数ｍを大きくとると各図の点ａからｍフレーム目は次
の音声区間内になってＲ／Ｒ_Vが閾値Ｋ_V＝０．１を超
えるため、無音声区間の開始点とはならなくなり、各図
の点ｂからｍフレーム目のみが無音声区間の開始点とな
る。

【００３３】音声区間の開始点は、上記図７、図８のＲ
／Ｒ_Vを他の所定の閾値で弁別して検出してもよいが、
上述したように、無音声区間の最新のｎフレーム（例え
ば３０フレーム）のＲＭＳ値の平均値Ｒ_Nを求めてお
き、各フレーム毎にＲ_N／Ｒを計算して、このＲ_N／Ｒ
の値が所定の閾値Ｋ_N（例えば０．５）を下回った時点
を音声区間の開始点とすればよい。さらに、上述したよ
うに誤検出を防止するために、フレーム毎のＲＭＳ値を
上記有音声区間パワー閾値Ｃ_Vや上記無声音区間パワー
閾値Ｃ_Nで弁別して、音声区間の始まりや無音声区間の
始まりを検出するようにしてもよいことは勿論である。

【００３４】このような実施例の音声区間の検出方法
は、例えばディジタル携帯電話の音声圧縮動作の前処理
に適用して好ましい。すなわち、一般に携帯電話装置
は、屋外等の雑音のある環境下で使用されることも多
く、音声区間の検出が重要とされるのみならず、本実施
例の検出方法は計算量も比較的少なく、電力消費が少な
くて済み、送信パワーを節約することができ、電池寿命
を長く保つことができる。

【００３５】なお、本発明は上記実施例のみに限定され
るものではなく、例えば、入力音声信号の１フレーム内
のサンプル数や、ＲＭＳ値の平均値（Ｒ_VやＲ_N）を得
るためのフレーム数ｎや、無音声区間の始まりを検出す
るときのフレーム数ｍ等は、上記具体的数値以外に任意
に設定することができる。また、各閾値Ｋ_V、Ｋ_N、Ｃ
_V、Ｃ_N等も上記具体例に限定されない。さらに、各フ
レームのパワーとしては、上記ＲＭＳ（２乗平均根）値
の代わりに、絶対値や、２乗値等を用いるようにしても
よい。

【００３６】

【発明の効果】本発明に係る音声区間検出方法によれ
ば、音声区間とされた複数フレームの平均パワーにより
各フレームのパワーを正規化し、この正規化された値を
所定の閾値と比較して音声区間を検出しているため、ノ
イズが含まれる入力音声信号に対しても音声区間の検出
が確実に行え、計算量も比較的少なくて済む。従って、
特にディジタル携帯電話装置等に適用した場合に、雑音
のある環境下でも送信パワーを節約することができ、電
池寿命を長く保つことができる。

【００３７】また、音声区間の開始点については、無音
声区間とされた複数フレームの平均パワーと各フレーム
のパワーとの比をとり、この比の値を他の所定の閾値と
比較して検出することが好ましい。無音声区間の開始点
については、上記正規化された値が上記閾値以下となる
フレームが所定数以上連続したとき上記音声区間が終了
したことを検出することが好ましい。さらに、これらの
音声区間の開始点検出及び無音声区間の開始点検出が誤
検出となることを避けるために、上記フレームのパワー
が所定の無声音区間パワー閾値より小さいとき当該フレ
ームを無音声区間としたり、上記フレームのパワーが所
定の有音声区間パワー閾値より大きいとき当該フレーム
を有音声区間とすることが好ましい。これらによって、
音声区間検出の精度及び信頼性をより高めることができ
る。

【図面の簡単な説明】

【図１】本発明に係る音声区間検出方法の一実施例を説
明するためのフローチャートである。

【図２】入力音声信号のフレーム区分を説明するための
図である。

【図３】第１の音声信号試料についてのフレーム毎のＲ
ＭＳ値を示すグラフである。

【図４】第１の音声信号試料についてのフレーム毎のＲ
ＭＳ値Ｒを音声区間の最新の３０フレームのＲＭＳの平
均値Ｒ_Vで除算した値Ｒ／Ｒ_Vを示すグラフである。

【図５】第１の音声信号試料についての無音声区間の最
新の３０フレームのＲＭＳの平均値Ｒ_Nをフレーム毎の
ＲＭＳ値Ｒで除算した値Ｒ_N／Ｒを示すグラフである。

【図６】第２の音声信号試料及び第３の音声信号試料に
ついてのフレーム毎のＲＭＳ値を示すグラフである。

【図７】第２の音声信号試料についてのフレーム毎のＲ
ＭＳ値Ｒを音声区間の最新の３０フレームのＲＭＳの平
均値Ｒ_Vで除算した値Ｒ／Ｒ_Vを示すグラフである。

【図８】第３の音声信号試料についてのフレーム毎のＲ
ＭＳ値Ｒを音声区間の最新の３０フレームのＲＭＳの平
均値Ｒ_Vで除算した値Ｒ／Ｒ_Vを示すグラフである。

Claims

【特許請求の範囲】

【請求項１】入力された音声信号を一定サンプル数の
フレームを単位として分割し、各フレーム毎に音声の有
無を判別して音声の有る区間を検出する音声区間検出方
法において、音声区間とされた複数フレームの平均パワーにより各フ
レームのパワーを正規化する工程と、この正規化された値を所定の閾値と比較して音声区間を
検出する工程とを有することを特徴とする音声区間検出
方法。
【請求項２】無音声区間とされた複数フレームの平均
パワーと各フレームのパワーとの比をとる工程と、この比の値を他の所定の閾値と比較して上記音声区間の
開始点を検出する工程とを有することを特徴とする請求
項１記載の音声区間検出方法。
【請求項３】上記閾値以下となるフレームが所定数以
上連続したとき上記音声区間が終了したことを検出する
ことを特徴とする請求項１又は２記載の音声区間検出方
法。
【請求項４】上記フレームのパワーが所定の無声音区
間パワー閾値より小さいとき、当該フレームを無音声区
間とする工程を有することを特徴とする請求項１、２又
は３記載の音声区間検出方法。
【請求項５】上記フレームのパワーが所定の有音声区
間パワー閾値より大きいとき、当該フレームを有音声区
間とする工程を有することを特徴とする請求項１、２、
３又は４記載の音声区間検出方法。