JP2004310047A

JP2004310047A - 音声区間検出装置および方法

Info

Publication number: JP2004310047A
Application number: JP2003401418A
Authority: JP
Inventors: Kwang-Cheol Oh; 光哲呉; Yong-Beom Lee; 榮範李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-11-30
Filing date: 2003-12-01
Publication date: 2004-11-04
Anticipated expiration: 2023-12-01
Also published as: KR100463657B1; DE60323319D1; KR20040047428A; US7630891B2; EP1424684A1; US20040172244A1; EP1424684B1; JP4102745B2

Abstract

【課題】有色ノイズのある音声信号においても音声区間を正確に検出できる音声区間検出装置および方法を提供すること。
【解決手段】音声信号が入力されると、入力された音声信号をフレーム単位に分割し、フレームに白色ノイズを混合して周辺ノイズを白色化し、白色化されたフレームからフレームのランダム性を表すランダムパラメータを抽出し、抽出されたランダムパラメータによってフレームを音声フレームとノイズフレームとに区分けした後、これらに基づいて音声の開始位置と終わりの位置を計算して音声区間を検出することにより、多くの有色ノイズが混入している音声信号においても正確に音声区間を検出できる音声区間検出装置１００を構成する。
【選択図】図２

Description

本発明は、入力された音声信号から音声区間を検出する音声区間検出装置および方法に関し、より詳しくは、有色ノイズのある音声信号においても音声区間を正確に検出できる音声区間検出装置および方法に関する。

音声区間の検出は、外部から入力された音声信号より、黙音またはノイズ区間を除いて、純粋な音声区間のみを検出するものである。代表的な音声区間検出方法としては、音声信号のエネルギーやゼロ交差率を用いて音声区間を検出する方法が考えられる。

しかし、前記音声区間検出方法では、周辺ノイズのエネルギーが大きい場合、無声音区間のように小さいエネルギーの音声信号は周辺ノイズに埋もれてしまうため、音声区間とノイズ区間とを区別することが非常に難しくなるという問題点があった。

また、前記音声区間検出方法では、マイクを近づけて音声を入力したり、任意にマイクの音量レベルを調節すると、音声信号の入力レベルが変わってしまうことから、正確な音声区間を検出するためには、入力装置および使用環境によって一々しきい値を手動で設定しなければならず、非常に煩わしいという問題があった。

このような問題点を解決するために、特許文献１に記載された音声認識システムの音声区間決定方法においては、図１（ａ）に示すように、音声区間の検出時に、音声の入力レベルに応じてしきい値を変更することにより、周辺ノイズおよび入力装置にかかわらず音声区間を検出できる方法が開示されている。

しかし、前記音声区間決定方法では、図１（ｂ）に示すように、周辺ノイズが白色ノイズ(white noise)である場合は、音声区間とノイズ区間とをはっきり区別できるが、図１（ｃ）に示すように、周辺ノイズが、エネルギーの大きい、その形が時間によって変わる有色ノイズ(color noise)である場合には、ノイズ区間と音声区間とが区別されにくく、周辺ノイズを音声区間と誤って検出するおそれがあった。

また、前記音声区間決定方法では、反復的な計算過程および比較過程を必要とするため、計算量が多くなってリアルタイムでの使用が難しい。それだけでなく、摩擦音のスペクトラムの形がノイズと類似していることから、摩擦音区間を正確に検出できない。そのため、音声認識の場合のように、より正確な音声区間検出が必要な場合には、不適合であるという限界があった。
韓国公開特許第２００２−００３０６９３号公報

本発明は、前記問題点に鑑みなされたものであり、多くの有色ノイズが混入している音声信号においても音声区間を正確に検出できる音声区間検出装置および方法を提供することを目的とする。

また、少ない計算量でも音声区間を正確に検出すると共に、音声信号において周辺ノイズと区別しにくく、比較的検出が難しかった摩擦音区間も検出することができる音声区間検出装置および方法を提供することを他の目的とする。

前記の目的を達成するために、本発明に係る音声区間検出装置は、入力された音声信号をフレーム単位に分割する前処理部と、前処理部から入力されたフレームに白色ノイズを混合する白色化部と、白色化部から入力されたフレームからフレームのランダム性を表すランダムパラメータを抽出するランダムパラメータ抽出部と、ランダムパラメータ抽出部を介して抽出されたランダムパラメータによってフレームを音声フレームとノイズフレームとに区分けするフレーム状態判断部と、フレーム状態判断部から入力された音声フレームとノイズフレームとに基づいて、音声の開示位置と終わりの位置を計算して、音声区間を検出する音声区間検出部とを備えることを特徴とする。

前記した音声区間検出装置においては、前記音声区間検出部を介して検出された音声区間から有色ノイズを除去する有色ノイズ除去部をさらに備えるのが望ましい。

本発明の音声区間検出装置および方法によると、多くの有色ノイズが混入している音声信号においても正確に音声区間を検出できると共に、ノイズと区別しにくく、相対的に検出が難しかった摩擦音も正確に検出することが可能となり、正確な音声区間の検出を必要とする音声認識、話者認識システムの性能を向上することができるという効果がある。

また、本発明によると、音声区間の検出のためのしきい値を環境によって変更することなく、音声区間を正確に検出することが可能となるため、不要な計算量を減らし得る効果もある。

さらに、本発明によると、無音区間およびノイズ区間を音声信号に見なして処理するに当たってのメモリ容量の増大を防ぐことができ、音声区間のみを抽出して処理することにより、処理時間を短縮することが可能となる。

以下、本発明の好ましい実施の形態を、添付図面に基づいて詳しく説明する。
図２は、本発明による音声区間検出装置１００の概略ブロック図である。図示のように、本発明による音声区間検出装置１００は、前処理部１０と、白色化部２０と、ランダムパラメータ抽出部３０と、フレーム状態判断部４０と、音声区間検出部５０と、有色ノイズ除去部６０とを備えている。

前記前処理部１０は、入力された音声信号を所定の周波数でサンプリングし、サンプリングされた音声信号を音声処理の基本単位のフレームに分割する。本発明では、８ｋＨｚでサンプリングされた音声信号に対し、１６０サンプル（２０ｍｓ）単位で一つのフレームを構成している。サンプリング比率およびフレーム当たりサンプル数は、適用分野によって変更が可能である。

このようにフレーム単位に分割された音声信号は、白色化部２０に入力される。白色化部２０は、白色ノイズ発生部２１と信号合成部２２を介して入力されたフレームに白色ノイズを混合して周辺ノイズを白色化(Whitening)することにより、フレーム内での周辺ノイズのランダム性を増加させる。

前記白色ノイズ発生部２１は、周辺ノイズ、すなわち、非音声区間のランダム性を強化するために、白色ノイズを発生する。この白色ノイズとは、例えば、３００Ｈｚ〜３５００Ｈｚのような音声領域内でその勾配が平坦な周波数スペクトラムを有する均一またはガウシアン分布信号から生成されるノイズである。ここで、白色ノイズ発生部２１で発生される白色ノイズの量は、周辺ノイズの大きさや量によって変えることもできる。本発明では、音声信号の初期フレームを分析して、白色ノイズの量を設定しており、このような設定過程は、音声区間検出装置１００の初期駆動時に行うことができる。

前記信号合成部２２は、白色ノイズ発生部２１で発生された白色ノイズと入力されたフレームとを混合している。信号合成部２２の構成および動作は、一般的な音声処理分野において、一般に使用される信号合成部と同様であり、これについての詳細は省略する。

前記白色化部２０を通過したフレームの一例を図３の（ａ）〜（ｃ）および図４の（ａ）〜（ｃ）に示している。図３（ａ）は、入力された音声信号、図３（ｂ）は、図３（ａ）の音声信号における有声音区間に該当するフレーム、図３（ｃ）は、図３（ｂ）のフレームに白色ノイズを混合した結果を示す図であり、図４（ａ）は、入力された音声信号、図４（ｂ）は、図４（ａ）の音声信号における有色ノイズ区間に該当するフレーム、図４（ｃ）は、図４（ｂ）のフレームに白色ノイズを混合した結果を示す図である。

図３（ａ）〜（ｃ）に示すように、有声音区間に該当するフレームに白色ノイズを混合しても、有声音信号は大きいためほとんど影響を受けない。一方、図４（ａ）〜（ｃ）に示すように、ノイズ区間に該当するフレームに白色ノイズを混合すると、ノイズが白色化してノイズ区間のランダム性が増加することが分かる。

一方、比較的に有色ノイズのない音声信号においては、従来の音声区間検出方法を用いても満足できる音声区間の検出結果を得られる。しかし、周波数スペクトラムの分布が一定でない有色ノイズの混入している音声信号においては、エネルギーやゼロ交差率などのパラメータによってノイズ区間と音声区間とを正確に区別することが難しい。

そこで、本発明では、有色ノイズの混入している音声信号においても音声区間を正確に検出できるように、音声区間の判別のためのパラメータとして、音声信号がどれほどランダムであるかを表すランダムパラメータを利用している。以下、このランダムパラメータについてより詳しく説明する。

本発明において、ランダムパラメータとは、フレームのランダム性を統計的方式によりテストした結果値をパラメータとして構成したものを意味する。より詳しくは、非音声区間では、音声信号がランダムな特性を示し、音声区間では、音声信号がランダムでないことを利用して、確率および統計において使用されるランテスト(run test)に基づいてフレームのランダム性を数値に表すものである。

前記ラン(run)とは、連続したシーケンス(sequence)において、同一の要素(elements)が連続的に並んだ副シーケンス(sub-sequence)、すなわち、同様な特性を有する信号の長さを意味している。例えば、シーケンス「T H H H T H H T T T 」でのランの数は５、シーケンス「S S S S S S S S S S R R R R R R R R R R」でのランの数は２、シーケンス「S R S R S R S R S R S R S R S R S R S R 」でのランの数は２０であり、このようなランの数をテスト統計量(test statistic)として、シーケンスのランダム性を判断することをランテスト(run test)という。

一方、シーケンス内でのランの数が多過ぎても少なく過ぎても、シーケンスはランダムでないと判断される。つまり、シーケンス「S S S S S S S S S S R R R R R R R R R R」でのように、シーケンス内でのランの数が少な過ぎると、「S」または「R」が連続して並んでいる確率が高いから、ランダムでないシーケンスと判断される。また、シーケンス「S R S R S R S R S R S R S R S R S R S R 」でのように、シーケンス内でのランの数が多過ぎても、「S」または「R」が所定の周期によって繰り返して変わる確率が高いため、ランダムでないシーケンスと判断される。

従って、このように、ランテスト概念をフレームに適用し、フレームでのランの数を検出し、検出されたランの数をテスト統計量としてパラメータを構成すると、このパラメータの値によって、ランダムな特性を有するノイズ区間と周期的な特性を有する音声区間とを区別できる。本発明において、フレームのランダム性を表すランダムパラメータは、次の式（１）のように定義される。

前記式（１）において、ＮＲは、ランダムパラメータ、ｎは、フレーム長さの１／２、Ｒは、フレーム内でのランの数(Number of Runs)である。

以下、統計的仮説検証方式を利用して、前記ランダムパラメータがフレームのランダム性を表すパラメータであるかを検証する。
統計的仮説検証(statistical hypothesis test)とは、帰無仮説(null hypothesis)／対立仮説(alternative hypothesis)が正しいという前提の下でテスト統計量(test statistic)の値を求めた後、この値が現れる可能性の大きさとして帰無仮説／対立仮説の合理性があるか否かを判断する仮説検証方式である。このような統計的仮説検証方式により、次のように、「ランダムパラメータは、フレームのランダム性を表すパラメータである」という帰無仮説を検証する。

先ず、フレームが量子化および符号化により「０」と「１」のみからなるビットストリーム(bit stream)から構成されており、フレームには、「０」と「１」がそれぞれｎ１個、ｎ２個存在し、「０」と「１」に対し、それぞれｙ１個、ｙ２個のランがあると仮定する。そうすると、ｙ１個の「０」ランとｙ２個の「１」ランとを配列する場合の数は、

となり、ｎ１個の「０」のうち、ｙ１個のランを発生させる場合の数は、

となる。同様に、ｎ２個の「１」のうち、ｙ２個のランを発生させる場合の数は、

となる。従って、一つのフレームにおいて、ｙ１個の「０」ランとｙ２個の「１」ランが発生する確率を示すと、次の（２）式のようになる。

一方、フレームがランダムであると仮定すると、フレーム内での「０」と「１」の数は、ほとんど同様であると見なされ、「０」と「１」に対するランの数もほとんど同様であると見なされる。

すなわち、計算の便宜上、

とすると、前記（１）式は、次の（３）式のようになる。

一方、ｎ個から任意のｒ個を選ぶ組合せの式（４）

により、前記（３）式を整理すると、前記（３）式は、次のような過程により次の（５）式のようになる。

従って、フレーム内に、「０」に対するランの数（ｙ１）と「１」に対するランの数（ｙ２）とを合わせて、全部でＲ（Ｒ＝ｙ１＋ｙ２）個のランがある確率Ｐ（Ｒ）は、次（６）式のようになる。

前記（６）式から分かるように、フレーム内に全部でＲ個のランがある確率Ｐ（Ｒ）は、「０」と「１」に対するランの数（ｙ）を変数とする関数であることから、ランの数（ｙ）をテスト統計量として設定することができる。

図５に示すように、フレームにおいて、ランの数がＲとなる確率Ｐ（Ｒ）をグラフに示すと、前記確率Ｐ（Ｒ）は、ｙ＝１またはｙ＝ｎのときに最小値、ｙ＝ｎ／２のときに最大値を示し、平均（Ｅ（Ｒ））と分散（Ｖ（Ｒ））とがそれぞれ
Ｅ（Ｒ）＝ｎ＋１
Ｖ（Ｒ）＝ｎ（ｎ−１）／（２ｎ−１）
の正規分布に従うことが分かる。

一方、正規分布に従う確率Ｐ（Ｒ）からエラー率を計算することが可能であるが、図５のような正規分布での確率は、曲線の下の部分の面積を求めることと同様である。すなわち、Ｒの平均（Ｅ（Ｒ））と分散（Ｖ（Ｒ））から次のような式（７）が考えられる。

すなわち、誤差率は、１−αと示されるが、（７）式のように、βによって調節することができる。例えば、ｎが４０のとき、βが１であると、αは、０．６８２６となり、βが２であると、αは、０．９５４４となり、βが３であると、αは、０．９９７３となる。つまり、標準偏差の２倍を超える部分に対してランダムでないと判断すると、４．５６％のエラーを含むことになる。

従って、「ランダムパラメータは、フレームのランダム性を表すパラメータである」という帰無仮説を否定することができず、ランダムパラメータがフレームのランダム性を表すパラメータであることが立証された。

図２を再度参照すると、ランダムパラメータ抽出部３０は、入力されたフレームからランの数を計算し、得られたランの数に基づいてランダムパラメータを抽出する。以下、図６を参照して、フレームからランダムパラメータを抽出する方法について説明する。

図６は、フレームからランダムパラメータを抽出する方法を説明するための図である。図示のように、先ず、入力されたフレーム内のサンプルデータを上位ビット側に１ビットずつシフトさせ、最下位ビットには、０を挿入した後、前記１ビットずつシフトさせて得られたフレームのサンプルデータと、元のフレームのサンプルデータを排他的論理和演算(exclusive OR operation)させる。その次に、排他的論理和演算による結果値から「１」の個数、すなわち、フレーム内でのランの数を計算し、これをフレーム長さの１／２で割ってランダムパラメータとして抽出する。

上記過程を経てランダムパラメータ抽出部３０によりランダムパラメータが抽出されると、フレーム状態判断部４０は、抽出されたランダムパラメータによってフレームの状態を判断して、音声成分を持つ音声フレームとノイズ成分を持つノイズフレームとにフレームを区分けする。抽出されたランダムパラメータによってフレームの状態を判断する方法については、図８の参照しながら後に詳しく説明する。

音声区間検出部５０は、フレーム状態判断部４０から入力された音声フレームとノイズフレームとに基づいて、音声の開始位置と終わりの位置を計算して音声区間を検出する。
一方、入力された音声信号に多くの有色ノイズが混入している場合、音声区間検出部５０を介して検出された音声区間には、有色ノイズが一部含まれることもある。これを防ぐために、本発明においては、音声区間検出部５０で検出された音声区間に有色ノイズが混入していると判断されると、有色ノイズ除去部６０を介して有色ノイズの特性を見つけて除去し、有色ノイズの除去された音声区間を再びランダムパラメータ抽出部３０に出力している。

ここで、ノイズ除去方法としては、単に、周辺ノイズと推定される区間からＬＰＣ係数を求め、音声区間に対し全体としてＬＰＣ逆フィルタリングする方法を用いることも可能である。

有色ノイズの除去された音声区間のフレームがランダムパラメータ抽出部３０に入力されると、再び、前述のように、ランダムパラメータ抽出、フレーム状態判断、音声区間検出過程を行うことにより、音声区間に有色ノイズが含まれる可能性を最小化することができる。

従って、有色ノイズ除去部６０を介して音声区間に混入している有色ノイズを除去することにより、多くの有色ノイズの混入している音声信号が入力されても、音声区間のみを正確に検出ことが可能となる。

一方、本発明による音声区間検出方法は、音声信号が入力されると、入力された音声信号をフレームに分割するステップと、フレームに白色ノイズを混合して周辺ノイズを白色化するステップと、白色化したフレームからフレームのランダム性を表すランダムパラメータを抽出するステップと、抽出されたランダムパラメータによってフレームを音声フレームとノイズフレームとに区分けするステップと、複数個の音声フレームとノイズフレームとに基づいて音声の開始位置と終わりの位置とを計算し、音声区間を検出するステップとを含む。

以下、本発明による音声区間検出方法について、添付図面を参照して詳しく説明する。
図７は、本発明による音声区間検出方法のフローチャートである。
先ず、音声信号が入力されると、前処理部１０を介して、入力された音声信号を所定の周波数でサンプリングし、サンプリングされた音声信号を音声処理の基本単位のフレームに分割する（Ｓ１０）。

ここで、フレーム間の間隔は、できるだけ狭くして、音素成分を正確に把握できるようにし、フレームは、互いに重なり合わせてフレーム間のデータ損失を防止できるようにすることが好ましい。

その次に、白色化部２０は、入力されたフレームに白色ノイズを混合して周辺ノイズを白色化する（Ｓ２０）。フレームに白色ノイズを混合すると、フレームに混ざっているノイズ成分のランダム性が増加して、音声区間の検出時、ランダムな特性を有するノイズ区間と周期的な特性を有する音声区間とがはっきり区別される。

その次に、ランダムパラメータ抽出部３０は、フレームからランの数を計算し、得られたランの数に基づいてランダムパラメータを抽出する（Ｓ３０）。このランダムパラメータを抽出する方法については、図６を参照して既に詳しく説明しており、これについての詳細は省略する。

その次に、フレーム状態判断部４０は、ランダムパラメータ抽出部３０を介して抽出されたランダムパラメータによってフレームの状態を判断し、フレームを音声フレームとノイズフレームとに区分けする（Ｓ４０）。以下、図８および図９を参照しながらフレーム状態判断ステップ（Ｓ４０）についてより詳しく説明する。

図８は、図７のフレーム状態判断ステップ（Ｓ４０）の詳細フローチャートであり、図９は、フレーム状態を判断するためのしきい値の設定を説明するための図である。
多くのフレームからランダムパラメータを抽出したところ、ランダムパラメータは、０〜２の間の値を有し、特に、ランダムな特性を有するノイズ区間では、１に近い値を、有声音を含む一般的な音声区間では、０．８以下の値を、摩擦音区間では、１．２以上の値を有する特性があることが分かった。

従って、本発明においては、このようなランダムパラメータの特性を利用して、図９に示すように、抽出されたランダムパラメータによってフレームの状態を判断し、音声成分を持つ音声フレームとノイズ成分を持つノイズフレームとにフレームを区分けする。特に、有声音または摩擦音であるかを判断できる基準値をそれぞれ第１のしきい値、第２のしきい値に予め設定しておき、フレームのランダムパラメータを前記第１、第２のしきい値と比較することにより、音声フレームにおいても、有声音フレームと摩擦音フレームとをそれぞれ区分けできるようにした。ここで、前記第１のしきい値は、０．８、第２のしきい値は、１．２であることが好ましい。

すなわち、フレーム状態判断部４０は、ランダムパラメータが第１のしきい値以下であると、該当のフレームを有声音フレームと判断し（Ｓ４１〜Ｓ４２）、ランダムパラメータが第２のしきい値以上であると、該当のフレームを摩擦音フレームと判断し（Ｓ４３〜Ｓ４４）、ランダムパラメータが第１のしきい値以上第２のしきい値以下であると、該当のフレームをノイズフレームと判断する（Ｓ４５）。

次に、入力された音声信号の全てのフレームに対してフレーム状態判断が終了しているかをチェックする（Ｓ５０）。全てのフレームに対してフレーム状態判断が終了していると、フレーム状態判断を行って検出された複数個の有声音フレーム、摩擦音フレーム、ノイズフレームに基づいて音声の開始位置と終わりの位置を計算することにより、音声区間を検出する（Ｓ６０）。フレーム状態判断が終了していないと、次のフレームに対し、上述したように、白色化、ランダムパラメータ抽出、およびフレーム状態判断過程を行う。

一方、入力された音声信号に多くの有色ノイズが混入している場合、前記音声区間検出ステップ（Ｓ６０）を経て検出された音声区間に有色ノイズが一部含まれる可能性がある。

従って、本発明においては、音声区間検出の信頼性を向上するために、検出された音声区間に有色ノイズが混入していると判断されると、音声区間に含まれた有色ノイズの特性を見つけて除去する（Ｓ７０〜Ｓ８０）。以下、図１０を参照して有色ノイズ除去ステップ（Ｓ７０〜Ｓ８０）についてより詳しく説明する。

図１０の（ａ）〜（ｃ）は、検出された音声区間から有色ノイズを除去する方法を説明するための図であり、図１０（ａ）は、有色ノイズが混入している音声信号、図１０（ｂ）は、図１０（ａ）の音声信号に対するランダムパラメータ、図１０（ｃ）は、図１０（ａ）の音声信号から有色ノイズを除去してから、ランダムパラメータを抽出した結果を示す図である。

図１０（ｂ）に示すように、有色ノイズが混入している音声信号からランダムパラメータを抽出して見ると、有色ノイズによりランダムパラメータが図１０（ｃ）と比較して全体として０．１〜０．２程度低いことが分かる。よって、このようなランダムパラメータの特性を利用すると、音声区間検出部５０を介して検出された音声区間に有色ノイズが混入しているか否かを判断することができる。

図９に示すように、有色ノイズによるランダムパラメータの減少量をΔｄとすると、検出された音声区間のランダムパラメータ平均値が第１のしきい値を基準として、Δｄ以下であるか、検出された音声区間のランダムパラメータ平均値が第２のしきい値を基準としてΔｄ以下である場合、音声区間に有色ノイズが混入していることと判断される。

すなわち、有色ノイズ除去部６０は、音声区間検出部５０を介して検出された音声区間でランダムパラメータの平均値を計算し、計算されたランダムパラメータの平均値が第１のしきい値−Δｄ以下であるか、あるいは計算されたランダムパラメータの平均値が第２のしきい値−Δｄ以下であると、検出された音声区間に有色ノイズが混入していると判断する。

ここで、前記第１のしきい値は、０．８、第２のしきい値は、１．２であることが好ましく、有色ノイズによるランダムパラメータの減少量Δｄは、０．１〜０．２であることが好ましい。

その次に、前述の過程を経て音声区間に有色ノイズが混入していると判断されると、有色ノイズ除去部６０は、音声区間に含まれた有色ノイズの特性を見つけて除去する（Ｓ８０）。ノイズ除去方法としては、単に、周辺ノイズと推定される区間からＬＰＣ係数を求め、音声区間に対して全体としてＬＰＣ逆フィルタリングする方法を使用するか、その他のノイズ除去方法を使用することが可能である。

その次に、有色ノイズの除去された音声区間のフレームは、さらにランダムパラメータ抽出部３０に入力されて、再び、前述のように、ランダムパラメータ抽出、フレーム状態判断、音声区間検出の過程が行われる。こうして、音声区間に有色ノイズが含まれる可能性を最小化することが可能となり、有色ノイズに混入している音声信号から音声区間のみを正確に検出することができる。

図１１の（ａ）〜（ｃ）は、本発明のランダムパラメータにより音声区間検出の性能が向上した一例を示す図であり、図１１（ａ）は、携帯電話の端末機で録音された音声信号「スプレッドシート」を示す図であり、図１１（ｂ）は、図１１（ａ）の音声信号に対する平均エネルギーを示す図であり、図１１（ｃ）は、図１１（ａ）の音声信号に対するランダムパラメータを示す図である。

図１１（ｂ）に示すように、従来のエネルギーパラメータを利用したとき、有色ノイズにより音声信号において「スパー」に対する区間がマスキングされて、音声区間の検出が正確に行われなくなる。一方、図１１（ｃ）に示すように、本発明によるランダムパラメータを利用すると、有色ノイズが混入している音声信号においても音声区間とノイズ区間とを正確に区分けすることが可能となる。

以上のように、前記実施の形態を参照して詳細に説明され図示されたが、本発明は、これに限定されるものでなく、このような本発明の基本的な技術的思想を逸脱しない範囲内で、当業界の通常の知識を有する者にとっては、他の多くの変更が可能であろう。また、本発明は、添付の特許請求の範囲により解釈されるべきであることは言うまでもない。

従来の音声区間検出装置の動作を説明するための図であり、（ａ）は、音声信号、（ｂ）は、周辺ノイズが白色ノイズである場合、（ｃ）は、周辺ノイズが有色ノイズである場合を示す。本発明に係る音声区間検出装置の概略ブロック図である。白色化部を通過したフレームの一例であり、（ａ）は、入力された音声信号、（ｂ）は、（ａ）の音声信号における有声音区間に該当するフレーム、（ｃ）は、（ｂ）のフレームに白色ノイズを混合した結果を示す図である。白色化部を通過したフレームの一例であり、（ａ）は、入力された音声信号、（ｂ）は、（ａ）の音声信号における有色ノイズ区間に該当するフレーム、（ｃ）は、（ｂ）のフレームに白色ノイズを混合した結果を示す図である。フレームにおいてランの数がＲとなる確率Ｐ（Ｒ）を示すグラフである。フレームからランダムパラメータを抽出する過程を説明するための図である。本発明に係る音声区間検出方法の全体のフローチャートである。図７のフレーム状態判断ステップの詳細フローチャートである。フレームの状態を判断する方法を説明するための図である。検出された音声区間から有色ノイズを除去する方法を説明するための図であり、（ａ）は、有色ノイズが混入している音声信号、（ｂ）は、（ａ）の音声信号に対するランダムパラメータ、（ｃ）は、（ａ）の音声信号から有色ノイズを除去してから、ランダムパラメータを抽出した結果を示す図である。本発明のランダムパラメータにより音声区間検出の性能が向上した一例を示す図であり、（ａ）は、携帯電話の端末機で録音された音声信号「スプレッドシート」を示す図であり、（ｂ）は、（ａ）の音声信号に対する平均エネルギーを示す図であり、（ｃ）は、（ａ）の音声信号に対するランダムパラメータを示す図である。

符号の説明

１０前処理部
２０白色化部
２１白色ノイズ発生部
２２信号合成部
３０ランダムパラメータ抽出部
４０フレーム状態判断部
５０音声区間検出部
６０有色ノイズ除去部
１００音声区間検出装置

Claims

入力された音声信号をフレーム単位に分割する前処理部と、
前記前処理部から入力されたフレームに白色ノイズを混合する白色化部と、
前記白色化部から入力されたフレームからフレームのランダム性を表すランダムパラメータを抽出するランダムパラメータ抽出部と、
前記ランダムパラメータ抽出部を介して抽出されたランダムパラメータによってフレームを音声フレームとノイズフレームとに区分けするフレーム状態判断部と、
前記フレーム状態判断部から入力された音声フレームとノイズフレームとに基づいて音声の開始位置と終わりの位置を計算することにより、音声区間を検出する音声区間検出部とを備えることを特徴とする音声区間検出装置。
前記前処理部は、前記入力された音声信号を所定の周波数でサンプリングし、サンプリングされた音声信号を複数のフレームに分けることを特徴とする請求項１に記載の音声区間検出装置。
前記複数のフレームは、互いに重なり合うことを特徴とする請求項２に記載の音声区間検出装置。
前記白色化部は、白色ノイズを発生する白色ノイズ発生部と、前記白色ノイズ発生部から発生された白色ノイズと、前記前処理部から入力されたフレームとを混合する信号合成部とを備えることを特徴とする請求項１に記載の音声区間検出装置。
前記ランダムパラメータ抽出部は、前記白色化部を介して白色化したフレームから同一の要素が連続して並んだランの数を計算し、計算されたランの数に基づいて、ランダムパラメータを抽出することを特徴とする請求項１〜４のいずれか１項に記載の音声区間検出装置。
前記ランダムパラメータは、下記式を満たすことを特徴とする請求項５に記載の音声区間検出装置。

（但し、ＮＲは、ランダムパラメータ、ｎは、フレームの長さの１／２、Ｒは、フレーム内でのランの数である）
前記音声フレームは、有声音フレームと摩擦音フレームとを含むことを特徴とする請求項１または６に記載の音声区間検出装置。
前記フレーム状態判断部は、前記ランダムパラメータ抽出部から抽出されたランダムパラメータが第１のしきい値以下であると、該当のフレームを有声音フレームと判断することを特徴とする請求項７に記載の音声区間検出装置。
前記第１のしきい値は、０．８であることを特徴とする請求項８に記載の音声区間検出装置。
前記フレーム状態判断部は、前記ランダムパラメータ抽出部から抽出されたランダムパラメータが第２のしきい値以上であると、該当のフレームを摩擦音フレームと判断することを特徴とする請求項８に記載の音声区間検出装置。
前記第２のしきい値は、１．２であることを特徴とする請求項１０に記載の音声区間検出装置。
前記フレーム状態判断部は、前記ランダムパラメータ抽出部から抽出されたランダムパラメータが前記第１のしきい値より大きく、前記第２のしきい値より小さいと、該当のフレームをノイズフレームと判断することを特徴とする請求項１０に記載の音声区間検出装置。
前記第１のしきい値は、０．８であり、前記第２のしきい値は、１．２であることを特徴とする請求項１２に記載の音声区間検出装置。
前記音声区間検出部を介して検出された音声区間から有色ノイズを除去する有色ノイズ除去部をさらに備えることを特徴とする請求項１に記載の音声区間検出装置。
前記音声区間検出部を介して検出された音声区間から有色ノイズを除去する有色ノイズ除去部をさらに備え、
前記有色ノイズ除去部は、前記音声区間検出部を介して検出された音声区間のランダムパラメータの平均値が所定のしきい値以下である場合、前記検出された音声区間から有色ノイズを除去することを特徴とする請求項１０に記載の音声区間検出装置。
前記所定のしきい値は、前記第１のしきい値から有色ノイズによるランダムパラメータの減少量を除いた値であることを特徴とする請求項１５に記載の音声区間検出装置。
前記所定のしきい値は、前記第２のしきい値から有色ノイズによるランダムパラメータの減少量を除いた値であることを特徴とする請求項１５に記載の音声区間検出装置。
音声信号が入力されると、入力された音声信号をフレームに分割するステップと、
前記フレームに白色ノイズを混合して周辺ノイズを白色化するステップと、
前記白色化したフレームからフレームのランダム性を表すランダムパラメータを抽出するステップと、
前記抽出されたランダムパラメータによってフレームを音声フレームとノイズフレームとに区分けするステップと、
前記音声フレームとノイズフレームとに基づいて音声の開始位置と終わりの位置とを計算することにより、音声区間を検出するステップとを含むことを特徴とする音声区間検出方法。
前記入力された音声信号をフレームに分割するステップは、前記入力された音声信号を所定の周波数でサンプリングし、サンプリングされた音声信号を複数のフレームに分割するステップを含むことを特徴とする請求項１８に記載の音声区間検出方法。
前記複数のフレームは、互いに重なり合うことを特徴とする請求項１９に記載の音声区間検出方法。
前記周辺ノイズを白色化するステップは、白色ノイズを発生するステップと、
前記発生された白色ノイズと前記フレームとを混合するステップとをさらに含むことを特徴とする請求項１８に記載の音声区間検出方法。
前記ランダムパラメータを抽出するステップは、前記白色化したフレームから同一の要素が連続して並んだランの数を計算するステップと、
前記計算されたランの数をフレームの長さで割り、これをランダムパラメータとして抽出するステップとを含むことを特徴とする請求項１８〜２１のいずれかに記載の音声区間検出方法。
前記ランダムパラメータは、下記式を満たすことを特徴とする請求項２２に記載の音声区間検出装置。

（但し、ＮＲは、ランダムパラメータ、ｎは、フレームの長さの１／２、Ｒは、フレーム内でのランの数である）
前記音声フレームは、有声音フレームと摩擦音フレームとを含むことを特徴とする請求項１８または２３に記載の音声区間検出方法。
前記抽出されたランダムパラメータが第１のしきい値以下であると、該当のフレームを有声音フレームと判断するステップを含むことを特徴とする請求項２４に記載の音声区間検出方法。
前記第１のしきい値は、０．８であることを特徴とする請求項２５に記載の音声区間検出方法。
前記抽出されたランダムパラメータが第２のしきい値以上であると、該当のフレームを摩擦音フレームと判断するステップを含むことを特徴とする請求項２５に記載の音声区間検出方法。
前記第２のしきい値は、１．２であることを特徴とする請求項２７に記載の音声区間検出方法。
前記抽出されたランダムパラメータが、前記第１のしきい値より大きく、前記第２のしきい値より小さいと、該当のフレームをノイズフレームと判断するステップを含むことを特徴とする請求項２７に記載の音声区間検出方法。
前記第１のしきい値は、０．８であり、前記第２のしきい値は、１．２であることを特徴とする請求項２９に記載の音声区間検出装置。
前記検出された音声区間のランダムパラメータの平均値が、所定のしきい値以下である場合、前記検出された音声区間から有色ノイズを除去するステップをさらに含むことを特徴とする請求項２７に記載の音声区間検出方法。
前記所定のしきい値は、前記第１のしきい値から有色ノイズによるランダムパラメータの減少量を除いた値であることを特徴とする請求項３１に記載の音声区間検出方法。
前記所定のしきい値は、前記第２のしきい値から有色ノイズによるランダムパラメータの減少量を除いた値であることを特徴とする請求項３１に記載の音声区間検出方法。