JP4740609B2

JP4740609B2 - 有声音および無声音の検出装置、並びにその方法

Info

Publication number: JP4740609B2
Application number: JP2005032916A
Authority: JP
Inventors: 光哲 ▼呉▲
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-02-10
Filing date: 2005-02-09
Publication date: 2011-08-03
Anticipated expiration: 2025-02-09
Also published as: KR101008022B1; US20050177363A1; US7809554B2; EP1564720A2; EP1564720A3; JP2005227782A; KR20050080649A

Description

本発明は、有声音および無声音の検出に関し、より詳細には、所定の帯域における音声信号のメルスケールフィルタバンクスペクトルから得られる平滑度および傾度を利用して、有声音帯域および無声音帯域を検出するための装置および方法に関する。

時間領域や周波数領域において、音声信号の属性と人間の聴覚特性とを利用して、信号圧縮を行う多様な符号化方法が提案されている。音声信号を符号化するために、入力された音声信号が有声音であるか無声音であるかの判定した情報が通常利用されている。入力された音声信号から有声音および無声音を検出する方法は、時間領域で行われる方法と周波数領域で行われる方法とに分類することができる。時間領域で行われる方法では、音声信号のフレーム平均エネルギーとゼロ交差率のうち、少なくとも一つを複合的に使用し、一方、周波数領域で行われる方法では、音声信号の低周波数成分および高周波数成分についての情報を利用するか、またはピッチ高調波情報を利用する。しかし、前記のような既存の方法を使用する場合、クリーン環境では良好な検出性能を保証できるが、白色ノイズが存在する環境では、検出性能が著しく劣化するという問題がある。

本発明が解決しようとする技術的課題は、音声信号処理のために提供される音声信号を一定のブロック単位に分割し、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、特に白色ノイズが存在する環境であっても、該当ブロックの音声信号の有声音帯域と無声音帯域とを高性能に検出するための装置および方法を提供することである。

前記課題を解決するために本発明による有声音および無声音の検出装置は、受信した音声信号をブロック単位に分割するためのブロッキング部と、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、有声音判別のための第１パラメータと無声音判別のための第２パラメータとを算出するパラメータ算出部と、前記第１および第２パラメータを所定の臨界値と比較し、比較結果によって前記ブロックで有声音帯域と無声音帯域とを判定する判定部と、を含む。

前記課題を解決するために本発明による有声音および無声音の検出方法は、（１）受信する音声信号をブロック単位に分割するステップと、（２）任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、有声音判別のための第１パラメータと無声音判別のための第２パラメータとを算出するステップと、（３）前記第１および第２パラメータを所定の臨界値と比較し、比較結果によって前記ブロックで有声音帯域と無声音帯域とを判定するステップと、を含む。

前記方法は、コンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体で実施されることが好ましい。

ここで、「臨界値」とは、有声音判別のための基準値である第１臨界値と、無声音判別のための基準値である第２臨海値とを含み、予め実験またはシミュレーションを通して求めた値である。

本発明によれば、音声信号を一定のブロック単位に分割し、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、該当ブロックの音声信号の有声音帯域と無声音帯域とを判定する装置および方法は、判別が正確なだけでなく、特に、白色ノイズの環境でその性能に優れるという利点がある。また、音声認識で使われるメルスケールフィルタバンクを利用して有声音帯域および無声音帯域を判定することによって、高価なハードウェアやソフトウェアを追加する必要がないので、実装コストが低いという利点がある。

以下、添付された図面を参照して、本発明の好適な実施形態について詳細に説明する。

図１は、黙音、有声音および無声音のメルスケールフィルタバンクスペクトルの特性を表すグラフである。本発明では、受信した音声データからメルスケールフィルタバンクスペクトルを取得し、メルスケールフィルタバンクスペクトルの平滑度と傾度のうち少なくとも１つを利用して、有声音帯域および無声音帯域を検出する。

図２は、本発明による有声音帯域および無声音帯域の検出装置の１実施形態の構成を表すブロック図であって、フィルタリング部２１０、ブロッキング部２２０、第１スペクトル獲得部２３０、第１パラメータ算出部２４０、第２スペクトル獲得部２５０、第２パラメータ算出部２６０および判定部２７０より構成される。ここで、第１スペクトル獲得部２３０、第１パラメータ算出部２４０、第２スペクトル獲得部２５０、および第２パラメータ算出部２６０によってパラメータ算出部が構成されている。

図２を参照して説明すると、フィルタリング部２１０は、ＩＩＲ（Infinite Impulse Response）またはＦＩＲ（Finite Impulse Response）デジタルフィルタで実装され、カットオフ周波数が、例えば、２３０Ｈｚの低域通過フィルタとして機能する。フィルタリング部２１０は、アナログ／デジタル（Ａ／Ｄ）変換で得られた音声データについて低域通過フィルタリングを行って不必要な高域成分を除去して、該音声データをブロッキング部２２０に提供する。

ブロッキング部２２０は、フィルタリング部２１０から提供された音声データを所定の単位時間に分割することにより、該音声データをフレーム単位で作成し、各フレームとそれから一定の期間、例えば、１５ｍｓｅｃ延長した期間を含むブロックを作成する。例えば、フレームサイズが１０ｍｓｅｃである場合、ブロックサイズは２５ｍｓｅｃとなる。

第１スペクトル獲得部２３０は、ブロッキング部２２０で作成されたブロック単位の音声データを受信し、受信した音声データのメルスケールフィルタバンクスペクトルを取得する。これを、図３Ａないし図３Ｄを参照して、さらに詳細に説明する。ブロッキング部２２０から提供される図３Ａに示す第ｎブロックの音声データに、例えば、高速フーリエ変換を行って、図３Ｂに示す線形スペクトルを取得する。図３Ｂの線形スペクトルについて、図３Ｃに示すＰ個、ここでは、１９個のメルスケールフィルタバンクを適用して、図３Ｄに示すメルスケールフィルタバンクスペクトル、すなわち、第１スペクトルＸ（ｋ）を取得する。

第１パラメータ算出部２４０は、第１スペクトル獲得部２３０から提供された第１スペクトルＸ（ｋ）の傾度を算出する。これを、図４を参照してさらに詳細に説明すれば、まず、第１スペクトルＸ（ｋ）の１次関数Ｙ（ｋ）を下記の数式１のように定義する。

前記のような１次関数について、ラインフィッティングを利用して傾度ａおよびｂを求める。ラインフィッティングに関する技術は、「Numerical Recipes in FORTRAN 77」（William H. Press著、Brian P. Flannery著、Saul A. Teukolsky著、William T. Vetterling著）に詳述されており、ここでは詳細な説明を省略する。求められた傾度ａが有声音に対して、通常負の値を示すため、−１を乗算して正の値を示すように調整した後、これを有声音判別のための第１パラメータｐ１と設定する。この時、第１パラメータｐ１を設定する第１の実施形態では、フィルタバンク帯域全体について求めた第１傾度を利用できる。また、第２の実施形態では、フィルタバンク帯域全体について求めた第１傾度、全体フィルタバンク帯域を低域周波数帯域と高域周波数帯域とに分割し、各帯域についてラインフィッティングを行って求めた第２および第３傾度を利用できる。これについては、図７ないし図９を参照して後述する。第２スペクトル獲得部２５０は、第１スペクトル獲得部２３０で提供される第１スペクトルＸ（ｋ）から傾度を除去して、図５のような第２スペクトルＺ（ｋ）を取得する。この時、第２スペクトルＺ（ｋ）は、下記の数式２で表すことができる。

ここで、Ｘ_m（ｋ）は、第１スペクトルＸ（ｋ）の平均を表す。
第２パラメータ算出部２６０は、第２スペクトル獲得部２５０から提供される第２スペクトルの平滑度（Spectral Flatness Measure、以下ＳＦＭとする）を算出する。この時、ＳＦＭは、下記の数式３で定義できる。

ここで、ＧＭ（Geometric Mean）は、第２スペクトルＺ（ｋ）の幾何平均を表し、ＡＭ（Arithmetic Mean）は、第２スペクトルＺ（ｋ）の算術平均をそれぞれ表し、下記の数式４のように定義され得る。

ここで、Ｐは、使われたフィルタバンクの数を表す。
前記のように算出されたＳＦＭおよび傾度を利用して、下記の数式５のように無声音算出のための第２パラメータｐ２を算出する。

ここで、λは、無声音パラメータで傾度の寄与度を表す任意の定数であり、その範囲は、１に近接した値であって、ここでは０.７５を使用する。

判定部２７０は、第１パラメータ算出部２４０から得られる有声音判別のための第１パラメータｐ１を第１臨界値θ₁と、第２パラメータ算出部２６０から得られる無声音判別のための第２パラメータｐ２を第２臨界値θ₂とそれぞれ比較する。比較結果によって、該当ブロックの音声信号について有声音帯域と無声音帯域とを判定する。ここで、第１臨界値θ₁および第２臨界値θ₂は、黙音帯域であらかじめ実験的に求められる。まず、第１パラメータｐ１が第１臨界値θ₁より大きい帯域は、有声音帯域と判断し、第１パラメータｐ１が第１臨界値θ₁より小さな帯域は、無声音または黙音帯域と判断する。すなわち、有声音帯域は、傾度ａが負の値を有し、無声音または黙音帯域は、傾度ａが正の値を有するか、またはゼロ（０）に近い値を示す。一方、第２パラメータが第２臨界値θ₂より大きい帯域は、無声音帯域と判断し、第２パラメータｐ２が第２臨界値θ₂より小さな帯域は、有声音または黙音帯域と判断する。すなわち、有声音帯域は、ＳＦＭが小さく、傾度ａが負（−）の値を有し、無声音帯域は、ＳＦＭおよび傾度ａが大きく、黙音帯域では、ＳＦＭが小さく、傾度が０に近い。

図６は、本発明の１実施形態による有声音および無声音の検出方法を説明するフローチャートである。図６を参照すれば、ステップ６１０では、ブロッキング部２２０から提供される所定ブロックの音声信号についてフーリエ変換を行うことにより、該音声信号を周波数領域の信号に変換する。ステップ６２０では、ステップ６１０で変換された所定ブロックの音声信号についてＰ個のメルスケールフィルタバンクを適用して第１スペクトルＸ（ｋ）を取得する。

ステップ６３０では、ラインフィッティングを適用して第１スペクトルを１次関数としてモデリングし、１次関数の傾度を有声音判別のための第１パラメータｐ１として算出する。ステップ６４０では、ステップ６２０で得られた第１スペクトルＸ（ｋ）で傾度が除去された第２スペクトルＺ（ｋ）を取得する。

ステップ６５０では、ステップ６４０で得られた第２スペクトルＺ（ｋ）の幾何平均および算出平均を利用してＳＦＭを求め、第１スペクトルの傾度と第２スペクトルＺ（ｋ）の平滑度とから無声音判別のための第２パラメータｐ２を算出する。

ステップ６６０では、該当ブロックの音声信号に第１パラメータを適用して得られた波形で、第１臨界値より大きい帯域を有声音帯域と判定し、ステップ６７０では、該当ブロックの音声信号に第２パラメータを適用して得られた波形で、第２臨界値より大きい帯域を無声音帯域と判定する。

図７は、図６におけるステップ６３０の第１の実施形態を表すフローチャートである。図７を参照して説明すると、ステップ７１０では、ステップ６２０で得られた第１スペクトルＸ（ｋ）の周波数帯域全体についての第１傾度ａ_tを算出する。ステップ７２０では、ステップ７１０で求めた第１傾度ａ_tに−１を乗算して第１パラメータｐ１と設定する。

図８は、図６におけるステップ６３０の第２の実施形態を表すフローチャートである。図８を参照して説明すると、ステップ８１０では、ステップ６２０で得られた第１スペクトルＸ（ｋ）の周波数帯域全体についての第１傾度ａ_tを算出する。ステップ８２０では、第１スペクトルＸ（ｋ）の周波数帯域全体を２つの帯域、すなわち、例えば、１９個のフィルタバンクのうち第１０フィルタバンクのメル周波数を基準として高周波数帯域と低周波数帯域とに分け、低周波数帯域についての第２傾度ａ_lを算出する。ステップ８３０では、ステップ８１０および８２０で求めた第１傾度ａ_tと第２傾度ａ_lとを合算した後、−１を乗算して第１パラメータｐ１と設定する。

図９は、図６におけるステップ６３０の第３の実施形態を表すフローチャートである。図９を参照して説明すると、ステップ９１０では、ステップ６２０で得られた第１スペクトルＸ（ｋ）の周波数帯域全体についての第１傾度ａ_tを算出する。ステップ９２０および９３０では、第１スペクトルＸ（ｋ）の全体周波数帯域を２つの帯域、すなわち、高周波数帯域と低周波数帯域とに分け、低周波数帯域についての第２傾度ａ_lと高周波数帯域についての第３傾度ａ_hとを算出する。ステップ９４０では、ステップ９１０ないし９３０で求めた第１傾度ａ_t、第２傾度ａ_lおよび第３傾度ａ_hを合算した後、−１を乗算することにより、第１パラメータｐ１を設定する。

図１０は、オリジナルの信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフであって、（ａ）に示すオリジナルの信号について、（ｂ）と（ｃ）には、それぞれフレーム平均エネルギーとゼロ交差率を適用することで得られる波形が示され、一方、（ｄ）と（ｅ）には、それぞれ本発明による第１パラメータｐ１と第２パラメータｐ２とを適用して得られる波形が示されている。これによれば、（ａ）に存在する無声音帯域Ｐ２と有声音帯域Ｐ１，Ｐ３，Ｐ４は、（ｄ）および（ｅ）にてより正確に区別されていることが分かる。

図１１（ａ）ないし図１１（ｅ）は、２０ｄＢの白色ノイズが混在する信号、図１２（ａ）ないし図１２（ｅ）は、１０ｄＢの白色ノイズが混在する信号、図１３（ａ）ないし図１３（ｅ）は、０ｄＢの白色ノイズが混在する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。これによれば、図１０の場合と同様に、（ａ）に存在する無声音帯域Ｐ２と有声音帯域Ｐ１，Ｐ３，Ｐ４とは、（ｄ）および（ｅ）にてより正確に区別されていることが分かる。

前記比較結果を要約すると、本発明による検出アルゴリズムを適用することにより、白色ノイズが混入されていない純粋な音声信号だけでなく、白色ノイズが混入された音声信号についてもより正確に有声音帯域および無声音帯域を検出することができる。
前記実施形態では、第１パラメータと第２パラメータによって得られる波形を互いに対比するために算出された傾度に、−１を乗算して第１パラメータと設定したが、算出された傾度自体を第１パラメータと設定しても良い。
本発明はまた、コンピュータ可読記録媒体のコンピュータ可読コードとして実装可能である。コンピュータ可読記録媒体は、コンピュータシステムによって読取り可能なデータが保存される全ての種類の記録媒体を含む。コンピュータ可読記録媒体の例としては、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光学式データ記録媒体があり、また搬送波（例えば、インターネットを介した伝送）として実装されるものも含む。また、コンピュータ可読記録媒体は、ネットワークに接続されたコンピュータシステムに分散され、配信方式でコンピュータ可読コードが保存され、かつ実行されることが可能である。更に、本発明を実施するための機能的なプログラム、コードおよびコードセグメントは、当業者によって容易に理解できるであろう。

本発明について、前記実施形態を参考として説明したが、これは例示的なものに過ぎず、当業者ならば、これから多様な変形および類似の他の実施形態が実施可能であることが理解できるであろう。したがって、本発明の技術範囲は、特許請求の範囲の技術的趣旨によって決定されなければならない。

本発明による有声音および無声音の検出方法および装置は、一般的な音声認識で音声を検出する用途、対話形音声認識のための韻律情報を抽出する用途、あるいは音声符号化および混入されたノイズ除去の用途など多様な用途に適用され得る。

黙音、有声音、および無声音のメルスケールフィルタバンクスペクトルの特性を表すグラフである。本発明の１実施形態による有声音および無声音の検出装置の構成を表すブロック図である。図２に示す第１スペクトル獲得部の動作を説明する波形図である。図２に示す第１スペクトル獲得部の動作を説明する波形図である。図２に示す第１スペクトル獲得部の動作を説明する波形図である。図２に示す第１スペクトル獲得部の動作を説明する波形図である。図２に示す第１パラメータ計算部の動作を説明する波形図である。図２に示す第２スペクトル獲得部の動作を説明する波形図である。本発明の１実施形態による有声音および無声音の検出方法を説明するフローチャートである。図６において、ステップ６３０の第１の実施形態を表すフローチャートである。図６において、ステップ６３０の第２の実施形態を表すフローチャートである。図６において、ステップ６３０の第３の実施形態を表すフローチャートである。原信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。２０ｄＢの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。１０ｄＢの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。０ｄＢの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。

符号の説明

２１０フィルタリング部
２２０ブロッキング部
２３０第１スペクトル獲得部
２４０第１パラメータ算出部
２５０第２スペクトル獲得部
２６０第２パラメータ算出部
２７０判定部

Claims

受信した音声信号をブロック単位に分割するステップと、
任意のブロックに存在する前記音声信号から得られるメルスケールフィルタバンクスペクトルの傾度を用いて有声音を決定する第１パラメータと、前記傾度と平滑度を用いて無声音を決定する第２パラメータとを算出するステップと、
前記第１パラメータを第１臨界値と比較して有声音区間を判定し、前記第２パラメータを第２臨界値と比較して無声音区間を判定するステップと、
を含むことを特徴とする有声音および無声音の検出方法。
前記第２のパラメータを算出するステップは、
前記メルスケールフィルタバンクスペクトルを１次関数でモデリングして前記傾度を算出するステップと、
前記メルスケールフィルタバンクスペクトルから前記傾度を除去して得られるスペクトルの算術平均および幾何平均を利用して、前記平滑度を算出するステップと、
を含むことを特徴とする請求項１に記載の有声音および無声音の検出方法。
前記有声音帯域と無声音帯域とを判定するステップは、
前記傾度から求めた前記第１パラメータを前記任意のブロックの音声信号に適用して得られた第１信号波形を第１臨界値と比較するステップと、
前記傾度および前記平滑度から求めた前記第２パラメータを前記任意のブロックの音声信号に適用して得られた第２信号波形を第２臨界値と比較するステップと、
前記第１臨界値と比較するステップでの結果から、前記第１信号波形で前記第１臨界値より大きい帯域を有声音帯域と判断するステップと、
前記第２臨界値と比較するステップでの結果から、前記第２信号波形で前記第２臨界値より大きい帯域を無声音帯域と判断するステップと、
を含むことを特徴とする請求項１に記載の有声音および無声音の検出方法。
前記第１パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第１傾度を利用して得られることを特徴とする請求項３に記載の有声音および無声音の検出方法。
前記第１パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第１傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出された第２傾度とを利用して得られることを特徴とする請求項３に記載の有声音および無声音の検出方法。
前記第１パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第１傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出された第２傾度と、前記周波数帯域全体のうち所定の高周波数帯域について算出された第３傾度と、を利用して得られることを特徴とする請求項３に記載の有声音および無声音の検出方法。
前記第２パラメータは、前記平滑度と前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された傾度との差によって得られることを特徴とする請求項３に記載の有声音および無声音の検出方法。
受信した音声信号をブロック単位に分割するためのブロッキング部と、
任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度を用いて有声音を決定する第１パラメータと、前記傾度と平滑度を用いて無声音を決定する第２パラメータとを算出するパラメータ算出部と、
前記第１パラメータを第１臨界値と比較して有声音区間を判定し、前記第２パラメータを第２臨界値と比較して無声音区間を判定する判定部と、
を備えることを特徴とする有声音および無声音の検出装置。
前記パラメータ算出部は、
前記ブロッキング部から提供される任意のブロックに存在する音声信号からメルスケールフィルタバンクスペクトルを獲得するための第１スペクトル獲得部と、
前記第１スペクトル獲得部から提供されるメルスケールフィルタバンクスペクトルの傾度を算出し、前記傾度を利用して有声音判別のための第１パラメータを算出するための第１パラメータ算出部と、
前記メルスケールフィルタバンクスペクトルから周波数帯域全体に対する前記傾度が除去されたスペクトルを獲得するための第２スペクトル獲得部と、
前記第２スペクトル獲得部から提供される第２スペクトルの平滑度を算出し、前記傾度および平滑度を利用して無声音判別のための第２パラメータを算出するための第２パラメータ算出部と、
を備えることを特徴とする請求項８に記載の有声音および無声音の検出装置。
前記第１パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第１傾度を前記第１パラメータと設定することを特徴とする請求項９に記載の有声音および無声音の検出装置。
前記第１パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第１傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出した第２傾度とを加算した後、加算結果を前記第１パラメータと設定することを特徴とする請求項９に記載の有声音および無声音の検出装置。
前記第１パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第１傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出した第２傾度と、前記周波数帯域全体のうち所定の高周波数帯域について算出した第３傾度と、を加算した後、加算結果を前記第１パラメータと設定することを特徴とする請求項９に記載の有声音および無声音の検出装置。
前記第２パラメータ算出部が、前記平滑度と前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された傾度との差を前記第２パラメータと設定することを特徴とする請求項９に記載の有声音および無声音の検出装置。
前記判定部は、前記第１パラメータを前記任意のブロックの音声信号に適用して得られた第１信号波形を第１臨界値と比較し、前記第１信号波形で前記第１臨界値より大きい帯域を有声音帯域と判断することを特徴とする請求項８に記載の有声音および無声音の検出装置。
前記判定部は、前記第２パラメータを前記任意のブロックの音声信号に適用して得られた第２信号波形を第２臨界値と比較し、前記第２信号波形で前記第２臨界値より大きい帯域を無声音帯域と判断することを特徴とする請求項８に記載の有声音および無声音の検出装置。