JP4652575B2

JP4652575B2 - バレーパーセンテージを使用した純粋音声の検出

Info

Publication number: JP4652575B2
Application number: JP2000585861A
Authority: JP
Inventors: グチゥアン; リーミン−チエフ; チェンウエイ−ジ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-11-30
Filing date: 1999-11-30
Publication date: 2011-03-16
Anticipated expiration: 2019-11-30
Also published as: ATE275750T1; DE69920047T2; JP2002531882A; WO2000033294A1; WO2000033294A9; EP1141938A1; DE69920047D1; US6205422B1; EP1141938B1

Description

【０００１】
（技術分野）
本発明は、コンピュータによる人間の音声の検出に関し、より詳細には、純粋音声（pure-speech）信号と混合音声（mixed-speech）信号または非音声（non-speech）信号の両方を含むオーディオ信号中の純粋音声信号の検出に関する。
【０００２】
（発明の背景）
音は一般に、音楽、雑音および／または人間の音声の混合物を含む。音の中から人間の音声を検出する能力は、ディジタルオーディオ信号の処理、分析および符号化など、多くの分野で重要な応用がある。例えば、音楽または音声のいずれか一方を含む純音を、より効率的に圧縮するための専用コーデック（圧縮／解凍アルゴリズム）が開発されている。したがって、大部分のディジタルオーディオ信号の応用では、保管、検索、処理または伝送のために、オーディオ信号をよりコンパクトに表現するため、専用コーデックを適用する前にある形式の音声検出を使用する。
【０００３】
しかし、音楽、雑音および音声の混合物を含む音によって生成されたオーディオ信号の中から、人間の音声をコンピュータによって正確に検出することは、容易な作業ではない。既存の大部分の音声検出法は、オーディオ信号によって生成された波形パターンのスペクトル解析および統計解析を使用する。課題は、非音声または混合音声信号から純粋音声信号を、高い信頼性で区別する波形パターンの特徴を識別することにある。
【０００４】
例えば、既存のいくつかの音声検出法は、ゼロ交差レート（zero-crossing rate: ZCR）として知られる特定の特徴を利用する。J.Saunders, 「Real-time Discrimination of Broadcast Speech/Music」, Proc. ICASSP'96, pp.993-996, 1996を参照されたい。ＺＣＲの特徴は、波形中のスペクトルエネルギー分布の重み付き平均を与える。人間の音声は一般に、ＺＣＲの高いオーディオ信号を生成し、雑音または音楽などのその他の音は、このような信号を生成しない。しかし、この特徴は、常に信頼できるとは限らない。人間の音声のＺＣＲとは区別がつかないＺＣＲを有するオーディオ信号を生み出す、非常に打撃性の音楽または構造化された雑音から成る音があるからである。
【０００５】
既存のその他の方法は、音声検出の正確度を高めようと、ＺＣＲの特徴を含むいくつかの特徴を、複雑な統計的特徴解析とともに使用する。J.D.Hoyt and H.Wechsler, 「Detection of Human Speech in Structured Noise」, Proc. ICASSP'94, Vol.II, 237-240, 1994およびE.Scheirer and M.Slaney, 「Construction and Evaluation of A Robust Multifeature Speech/Music Discriminator」, Proc.ICASSP'97, 1997を参照されたい。Scheirer文献に記載されている１つの特徴は、「低エネルギー」フレームのパーセンテージ、すなわちウィンドウ内の平均ＲＭＳパワーの５０％よりも小さいＲＭＳパワーを有するフレームの割合である。
【０００６】
多くの研究が人間の音声検出に向けられたが、これらの既存の方法はいずれも、現代のマルチメディア応用向け音声検出システムの望ましい特性、すなわち高い精度、ロバストネス、短い時間遅れおよび低い複雑さのうち、１または複数の特性を満たすことに失敗している。
【０００７】
ディジタルオーディオ信号の応用において精度が高いことが望ましいのは、音声の開始および停止の時刻または境界を１秒未満の正確さでほぼ「正確に」決定することが重要だからである。人間の介入なしに異なるレートで標本化される可能性がある雑音、音楽、歌、会話、コマーシャルなどを含む混合音を含むオーディオ信号を処理することができるよう、音声検出システムはロバストであることが望ましい。さらに、大部分のディジタルオーディオ信号の応用は、実時間利用である。したがって、合理的なコストでの実時間実行のためには、使用する音声検出法が、数秒のうちに、できるだけ単純に結果を生成できれば有益である。
【０００８】
（発明の概要）
本発明は、オーディオ信号の中から人間の音声を検出する改良方法を提供する。この方法は、バレーパーセンテージ（Valley Percentage: VP）という特徴として識別される、オーディオ信号の新規な特徴を使用する。これは、既存の周知の特徴よりも正確に非音声および混合音声信号から純粋音声信号を区別する。この方法は、ソフトウェアプログラムモジュールで実行されるが、ディジタルハードウェアロジック、またはハードウェアコンポーネントとソフトウェアコンポーネントを組み合わせの中でも実行することもできる。
【０００９】
この方法の一実施態様は、移動する時間ウィンドウを通して所定数の標本を見ることによって、標本のストリームから連続したオーディオの標本に作用する。特徴計算コンポーネントは、それぞれの時刻に、与えられたウィンドウの周囲のオーディオ標本に関して、特定のオーディオ標本について、オーディオ信号の低エネルギー部分（谷（Valley））をオーディオ信号の高エネルギー部分（山）との比較で測定することによって、ＶＰ値を計算する。直観的には、ＶＰは、山間の谷の領域のようなものである。人間の音声は、音楽、雑音などのその他の種類の音よりも高いＶＰを有する傾向があるため、ＶＰは、非音声または混合音声信号から純粋音声信号を検出するのに非常に有用である。
【００１０】
最初の標本ウィンドウを処理した後、ウィンドウは、ストリーム中の次のオーディオ標本に移動する（前進する）。特徴計算コンポーネントは、ＶＰの計算を、ストリーム中のオーディオ標本の次のウィンドウを使用して繰り返す。この移動および計算プロセスが、オーディオ信号中の各々の標本に対するＶＰが計算されるまで繰り返される。決定プロセッサコンポーネントは、計算されたＶＰ値をＶＰのしきい値と比較することによって、これらのオーディオ標本を純粋音声または非音声の分類に分類する。
【００１１】
実際には、実世界のディジタルオーディオデータの中で、人間の音声は通常、少なくとも数秒以上続く。したがって、音声検出の正確度は一般に、自身は純粋音声に分類され、近隣の標本が非音声に分類された孤立したオーディオ標本を除去することによって改善される。この逆も成り立つ。しかし同時に、音声セグメントと非音声セグメントの間の境界が、はっきりと維持されることが望ましい。
【００１２】
この実施態様では、決定プロセッサコンポーネントによって生成された（「１」と「０」のストリングを含む）２値音声決定マスクに、フィルタを適用することによって、ポスト決定プロセッサコンポーネントが達成される。具体的には、ポスト決定プロセッサコンポーネントは、２値決定マスク値に、形態素オープニングフィルタ（morphological opening filter）、次いで形態素クロージングフィルタ（morphological closing filter）を適用する。その結果、孤立した純粋音声または非音声マスク値が排除される（孤立した「１」および「０」の排除）。残るのは、オーディオ信号の純粋音声部分と非音声部分の境界を識別する所望の音声検出マスクである。
【００１３】
この方法の実施態様は、音声検出の正確度を高めるためにその他の特徴を含むことができる。例えば、音声検出法は、好ましくはプリプロセッサコンポーネントを含み、ＶＰの特徴を計算する前に、不要な雑音をフィルタリングしてオーディオ信号をきれいにする。一実施態様では、プリプロセッサコンポーネントは、まずオーディオ信号をエネルギー成分に変換し、次いでこのエネルギー成分を形態素クロージングフィルタに適用することによって、オーディオ信号をきれいにする。
【００１４】
この方法は、音楽、音声および雑音の混合物を含むオーディオ信号から人間の音声の検出を、サンプリングレートに関係なく効率的に実施する。しかし、より優れた結果を得るため、ウィンドウサイズおよびしきい値を支配するいくつかのパラメータをこの方法によって実装することができる。これらのパラメータを決定する実施態様には、監視されたディジタルオーディオ信号の応用など多くの代替態様があるが、この応用を演繹的にトレーニングすることによってパラメータが事前に決定される。サンプリングレートおよび音声境界が既知のトレーニングオーディオ標本を使用して、パラメータの最適値を固定する。監視の無い環境などの他の実施態様では、これらのパラメータの適応決定が可能である。
【００１５】
本発明のその他の利点および特徴は、以下の詳細な説明および添付図面から明らかとなろう。
【００１６】
（詳細な説明）
（人間の音声検出法の概要）
以下のセクションでは、オーディオ信号から人間の音声を検出する改良方法を説明する。この方法では、入力オーディオ信号が、サンプリングレートが固定された離散的なオーディオ標本の連続ストリームから成るものとする。この方法の目標は、入力オーディオ信号から純粋音声の存在およびスパンを検出することにある。
【００１７】
音は、音源に応じたある特徴的な特徴を持った波形パターンを有するオーディオ信号を生成する。大部分の音声検出法は、この性質を利用して、どの特徴が人間の音声音と高い信頼性で関連するかの識別を試みる。既存の周知の特徴を使用するその他の人間の音声検出法とは異なり、この人間の音声検出の改良方法は、人間の音声に高い信頼性で関連すると識別されるバレーパーセンテージ（ＶＰ）と呼ばれる新規な特徴を使用する。
【００１８】
音声検出法の一実施態様を説明する前に、残りの説明を通して使用される一連の定義を最初に説明する。
【００１９】
（定義１ウィンドウ：）
ウィンドウは、固定された数の離散的なオーディオ標本（またはこのようなオーディオ標本から導き出される値）から成る連続したストリームを指す。この方法は主に、ウィンドウの中間点の近くに位置する中央の標本について繰り返し作用するが、常に、特定の時刻にウィンドウを通して見られる周囲の標本との関係において検討される。ウィンドウが、次のオーディオ標本に移動する（前進する）と、ウィンドウの先頭のオーディオ標本は視界から排除され、新しいオーディオ標本がウィンドウの末尾に追加される。さまざまなサイズのウィンドウを使用して、いくつかの作業を達成する。例えば、第１のウィンドウは、プリプロセッサコンポーネントで、オーディオ標本から導き出されたエネルギーレベルに形態素フィルタを適用するのに使用される。第２のウィンドウは、特徴計算コンポーネントで、ウィンドウの所与の繰返しの中で、最大エネルギーレベルを識別するのに使用される。第３および第４のウィンドウは、ポスト決定プロセッサコンポーネントで、オーディオ標本から導き出された２値音声決定マスクに、対応する形態素フィルタを適用するのに使用される。
【００２０】
（定義２エネルギー成分およびエネルギーレベル）
エネルギー成分は、オーディオ信号の絶対値である。エネルギーレベルは、時刻ｔ_ｎにおける対応するオーディオ標本から導き出された時刻ｔ_ｎにおけるエネルギー成分の値を指す。したがって、オーディオ信号をＳ（ｔ）、時刻ｔ_ｎにおける標本をＳ（ｔ_ｎ）、エネルギー成分をＩ（ｔ）、時刻ｔ_ｎにおけるエネルギーレベルをＩ（ｔ_ｎ）で表し、ｔ＝（ｔ_１，ｔ_２，．．．，ｔ_ｎ）とすれば以下のようになる。
【００２１】
【数１】

【００２２】
（定義３２値決定マスク）
２値決定マスクは、値を２値の１または０に分類する分類体系である。したがって例えば、２値決定マスクをＢ（ｔ）、時刻ｔ_ｎにおけるこの２値をＢ（ｔ_ｎ）、バレーパーセンテージをＶＰ（ｔ）、時刻ｔ_ｎにおけるＶＰ値をＶＰ（ｔ_ｎ）、しきいＶＰ値をβで表し、ｔ＝（ｔ_１，ｔ_２．．．ｔ_ｎ）とすると、以下のようになる。
【００２３】
【数２】

【００２４】
（定義４形態フィルタ）
数学的な形態論は、境界情報を保存しながら入力データから望ましくない特性のフィルタリングに使用することができる強力な非線形信号処理ツールである。本発明の方法では、数学的形態論を効果的に使用して音声検出の正確度を、プリプロセッサコンポーネントではオーディオ信号から雑音をフィルタリングすることによって、ポスト決定プロセッサコンポーネントでは、衝撃的オーディオ標本から生じた独立の２値決定マスクをフィルタリングすることによって、向上させる。
【００２５】
具体的には、形態素クロージングフィルタは、ウィンドウＷを用いた形態素拡張演算子（morphological dilation operator）Ｄ（・）、およびこれに続く侵食演算子（erosion operator）Ｅ（・）から成る。入力データをＩ（ｔ）、時刻ｔ_ｎにおけるデータ値をＩ（ｔ_ｎ）で表し、ｔ＝（ｔ_１，ｔ_２．．．ｔ_ｎ）とすると、次のようになる。
【００２６】
【数３】

【００２７】
形態オープニングフィルタＯ（・）も、同じ演算子Ｄ（・）およびＥ（・）から成るが、これらが逆順で適用される。したがって、入力データをＩ（ｔ）、時刻ｔ_ｎにおけるデータ値をＩ（ｔ_ｎ）で表し、ｔ＝（ｔ_１，ｔ_２．．．ｔ_ｎ）とすると、次のようになる。
【００２８】
【数４】

【００２９】
（実施例）
以下のセクションでは、人間の音声検出法について特定の実施態様を詳細に説明する。図１は、以下に説明する実施態様の主要なコンポーネントを示すブロック図である。図１のそれぞれのブロックは、先に概要を説明した人間の音声検出法の各部分を実装するプログラムモジュールを表す。コスト、性能、設計の複雑さなど、さまざまな考慮事項に応じ、これらの各々モジュールは、それぞれディジタル論理回路で実行することもできる。
【００３０】
先に定義した表記を使用して説明する。図１に示した音声検出法は、入力としてオーディオ信号Ｓ（ｔ）１１０を得る。プリプロセッサコンポーネント１１４は、オーディオ信号Ｓ（ｔ）１１０をきれいにして、雑音を除去し、かつエネルギー成分Ｉ（ｔ）１１２に変換する。特徴計算コンポーネント１１６は、オーディオ信号Ｓ（ｔ）１１０のエネルギー成分Ｉ（ｔ）１１２からバレーパーセンテージＶＰ（ｔ）１１８を計算する。決定プロセッサコンポーネント１２０は、得られたバレーパーセンテージＶＰ（ｔ）１１８を、オーディオ信号Ｓ（ｔ）１１０を純粋音声または非音声のいずれかを識別する２値音声決定マスクＢ（ｔ）１２２に分類する。ポスト決定プロセッサコンポーネント１２４は、２値音声決定マスクＢ（ｔ）１２２の独立した値を排除する。ポスト決定プロセッサコンポーネントの結果が音声検出マスクＭ（ｔ）１２６である。
【００３１】
（プリプロセッサコンポーネント）
図２に、この方法のプリプロセッサコンポーネント１１４を詳細に示す。この実施態様では、プリプロセッサコンポーネント１１４が、オーディオ信号Ｓ（ｔ）１１０の処理を、後段の処理のためにオーディオ信号Ｓ（ｔ）１１０をきれいにして、準備することによって始まる。具体的には、この実施態様は、（先に定義１で定義した）ウィンドウ技法を使用して、オーディオ信号Ｓ（ｔ）１１０の標本のストリームから連続するオーディオ標本Ｓ（ｔ_ｎ）２１０に繰り返し作用する。プリプロセッサコンポーネント１１４は、エネルギー変換ステップ２１５の実行から開始する。この段階では、時刻ｔ_ｎにおけるそれぞれのオーディオ標本Ｓ（ｔ_ｎ）２１０が、時刻ｔ_ｎにおける対応するエネルギーレベルＩ（ｔ_ｎ）２２０に変換される。時刻ｔ_ｎにおけるエネルギーレベルＩ（ｔ_ｎ）２２０は、時刻ｔ_ｎにおけるオーディオ標本Ｓ（ｔ_ｎ）２１０の絶対値から構築され、ｔ＝ｔ_１，ｔ_２，．．．ｔ_ｎとすれば、次のようになる。
【００３２】
【数５】

【００３３】
プリプロセッサコンポーネント１１４は次に、後段の処理に備えてエネルギー成分Ｉ（ｔ）１１２をフィルタリングすることによってオーディオ信号Ｓ（ｔ）１１０をきれいにするクリーニングステップ２２５を実行する。プリプロセッサコンポーネントの設計では、スプリアスデータを導入しないクリーニング方法を選択することが好ましい。この実施態様は、形態素クロージングフィルタＣ（・）２３０を使用する。このフィルタは、（先に定義４で定義したとおり）形態素拡張演算子Ｄ（・）２３５とそれに続く侵食演算子Ｅ（・）２４０を組み合わせたものである。クリーニングステップ２２５では、Ｃ（・）２３０を入力オーディオ信号Ｓ（ｔ）１１０に適用する。これは、所定のサイズの第１のウィンドウＷ_１２４５を使用して、時刻ｔ_ｎにおけるそれぞれのオーディオ標本Ｓ（ｔ_ｎ）２１０に対応するそれぞれのエネルギーレベルＩ（ｔ_ｎ）２２０に対して作用することによってなされ、ｔ＝ｔ_１，ｔ_２，．．．ｔ_ｎとすれば、以下のようになる。
【００３４】
【数６】

【００３５】
見て分かるとおり、クロージングフィルタＣ（・）２３０は、フィルタリングされたエネルギー成分Ｉ’（ｔ_ｎ）２５０をそれぞれ計算する。これは、まず、時刻ｔ_ｎにおけるエネルギー成分Ｉ（ｔ_ｎ）２２０をそれぞれ、第１のウィンドウＷ_１２４５の最大周囲エネルギーレベルに拡張させ、次いで、拡張させたエネルギー成分を第１のウィンドウＷ_１２４５の最小周囲エネルギーレベルに侵食することによって、実施される。
【００３６】
形態素クロージングフィルタＣ（・）２３０は、異なるタイプのオーディオコンテント間の境界を不明瞭にすることなしに、不要な雑音を入力オーディオ信号Ｓ（ｔ）１１０から除去する。一実施態様では、第１のウィンドウＷ_１２４５のサイズを処理中の特定のオーディオ信号に合わせることによって、形態素クロージングフィルタＣ（・）２３０の適用を最適化することができる。一般的な実施態様では、音声特性が分かっているオーディオ信号を用いてこの方法を使用する特定の応用をトレーニングすることによって、第１のウィンドウＷ_１２４５の最適サイズが事前に決められる。その結果、この音声検出法が、オーディオ信号中の純粋音声と非音声の境界をより効果的に識別できるようになる。
【００３７】
（特徴計算）
この実施態様では、プリプロセッシングコンポーネントが入力オーディオ信号Ｓ（ｔ）１１０をきれいにした後に、特徴計算コンポーネントが弁別特徴を計算する。
【００３８】
非音声から純粋音声を高い信頼性で弁別するオーディオ信号の特徴を計算するコンポーネントの実行においては、言及すべきことが多々ある。第１に、オーディオ信号のどの成分が、非音声信号から純粋音声信号を弁別することができる信頼性の高い特性を表すかである。第２には、その成分をどのように操作して、弁別特性を定量化するかである。第３には、その操作をどのようにパラメータ化して、さまざまなオーディオ信号の結果を最適化するかである。
【００３９】
人間の音声検出に関する文献には、オーディオ信号から人間の音声を弁別するのに使用することができるさまざまな特徴が記載されている。例えば、既存の大部分の音声検出方法は、スペクトル解析、ケプストラム解析、前述のゼロ交差レート、統計解析、フォルマントトラッキングなどを、単独で、または組み合わせて使用している。
【００４０】
これらの既存の方法は、いくつかのディジタルオーディオ信号の応用において、満足のゆく結果を与えることがあるかもしれないが、これらは、人間の介入によって異なるレートで標本化される可能性がある雑音、音楽（構造化された雑音）、歌、会話、コマーシャルなどを含む混合音から構成されたさまざまなオーディオ信号に対して、正確な結果を保証しない。オーディオ信号を分類することの正確度は、特徴のロバストネスに依存するため、信頼性の高い特徴の識別は、決定的に重要である。
【００４１】
特徴計算コンポーネントおよび決定プロセッサコンポーネントを実行した後に、この音声検出法が、オーディオ信号源に関係なく全てのオーディオ標本を正確に分類していることが好ましい。オーディオ信号中の音声信号の開始および停止を識別する境界は、近隣の標本の正確な分類に依存し、正確な分類は、特徴の信頼性ならびにそれが計算される正確度に依存する。したがって特徴計算は、音声検出能力に直接に影響する。特徴が不正確である場合には、オーディオ標本の分類も不正確となる。したがって、この方法の特徴計算コンポーネントは、弁別特徴を正確に計算しなければならない。
【００４２】
以上のことを考慮すれば、複雑さのためばかりではなく、このような複雑さが必然的にもたらすオーディオ信号入力と音声の検出との間の、増加した時間遅れのため、実時間ディジタルオーディオ信号の応用では、既存の方法を実装することが非常に困難であることは明白である。さらに、既存の方法では、特定のオーディオ信号源に対して結果を最適化するために、使用される弁別特徴に限界があり、および／またはその実施態様をパラメータ化できないために、音声検出能力を微調整できない可能性がある。後に詳述するように、この特徴計算コンポーネントの実施態様１１６は、これらの欠点を解決する。
【００４３】
この特徴計算コンポーネントの実施態様１１６によって計算される特徴は、図１にＶＰ（ｔ）１１８として示したバレーパーセンテージ（ＶＰ）特徴である。人間の音声は、相対的に高いＶＰ値を有する傾向がある。したがって、ＶＰ特徴は、非音声信号から純粋音声信号を弁別する効果的な特徴である。さらに、ＶＰは比較的に計算しやすく、したがって実時間応用での実施が可能である。
【００４４】
この実施態様の特徴計算コンポーネント１１６を、図３に詳細に示す。入力オーディオ信号Ｓ（ｔ）１１０のＶＰ（ｔ）１１８の値を計算するため、特徴計算コンポーネント１１６は、時刻ｔ_ｎにおけるフィルタリングされたエネルギー成分Ｉ’（ｔ_ｎ）２５０が、第２のウィンドウＷ_２３２０のしきい値エネルギーレベル３３５よりも低い、オーディオ標本Ｓ（ｔ_ｎ）２１０のパーセンテージを計算する。
【００４５】
図３のブロック図に従い、特徴計算コンポーネントは最初に、最大エネルギーレベル識別ステップ３１０を実行して、時刻ｔ_ｎにおけるフィルタリングされたエネルギー成分Ｉ’（ｔ_ｎ）２５０の中から、第２ウィンドウＷ_２３２０に現れた最大エネルギーレベルＭａｘ３１５を識別する。しきい値エネルギー計算ステップ３３０では、識別された最大エネルギーレベルＭａｘ３１５に所定の小数α３２５を乗じることによって、しきい値エネルギーレベル３３５を計算する。
【００４６】
最後に、バレーパーセンテージ計算ステップ３４０で、第２ウィンドウＷ_２３２０に現れた時刻ｔ_ｎにおけるフィルタリングされたエネルギー成分Ｉ’（ｔ_ｎ）２５０のうちで、しきい値エネルギーレベル３３５よりも小さいもののパーセンテージを計算する。その結果得られた、時刻ｔ_ｎにおける各々のオーディオ標本Ｓ（ｔ_ｎ）２１０に対応するＶＰ値の結果ＶＰ（ｔ_ｎ）３４５を、対応するオーディオ信号Ｓ（ｔ）１１０のバレーパーセンテージ特徴ＶＰ（ｔ）１１８と呼ぶ。
【００４７】
バレーパーセンテージ特徴ＶＰ（ｔ）１１８の計算は、次の表記を使用して以下のようになる。
Ｉ’（ｔ）：フィルタリングされたエネルギー成分２６０
Ｗ_２：第２のウィンドウ３２０
Ｍａｘ：最大エネルギーレベル３１５
α：所定の分数３２５
Ｎ（ｉ）：しきい値よりも小さいエネルギーレベルの合計数を表す
ＶＰ（ｔ）：バレーパーセンテージ１１８
【００４８】
【数７】

【００４９】
特徴計算コンポーネントの各ステップ３１０、３３０および３４０は、時刻ｔ_ｎにおけるフィルタリングされたそれぞれのエネルギー成分Ｉ’（ｔ_ｎ）２５０に対して繰り返される。これは、第２のウィンドウＷ_２３２０を、入力オーディオ信号Ｓ（ｔ）１１０から時刻ｔ_ｎ＋１における次のオーディオ標本Ｓ（ｔ_ｎ＋１）２１０に（定義１で定義したように）進めることによって実施される。第２のウィンドウＷ_２３２０のサイズおよび分数α３２５の値を修正することによって、ＶＰ（ｔ）１１８の計算を、さまざまなオーディオ信号源に合うように最適化することができる。
【００５０】
（決定プロセッサコンポーネント）
決定プロセッサコンポーネントは、特徴計算コンポーネントによって計算されたＶＰ（ｔ）１１８に直接に作用する分類プロセスである。決定プロセッサコンポーネント１２０は、オーディオ信号Ｓ（ｔ）１１０に対応するＶＰ（ｔ）１１８の２値音声決定マスクＢ（ｔ）１２２を構築することによって（定義３の２値決定マスクの定義を参照されたい）、計算されたＶＰ（ｔ）１１８を純粋音声および非音声分類に分類する。
【００５１】
図４は、ＶＰ（ｔ）１１８からの音声決定マスクＢ（ｔ）１２２の構築を詳細に示すブロック図である。具体的には、決定プロセッサコンポーネント１２０は、時刻ｔ_ｎにおけるそれぞれのＶＰ値ＶＰ（ｔ_ｎ）３４５をしきい値バレーパーセンテージβ４１０と比較する２値分類ステップ４２０を実行する。時刻ｔ_ｎにおけるＶＰ値ＶＰ（ｔ_ｎ）３４５の１つが、しきい値バレーパーセンテージβ４１０よりも小さいか、またはこれに等しいとき、対応する時刻ｔ_ｎにおける音声決定マスクＢ（ｔ_ｎ）４３０の値が、２値「０」にセットされる。時刻ｔ_ｎにおけるＶＰ値ＶＰ（ｔ_ｎ）３４５の１つが、しきい値バレーパーセンテージβ４１０よりも大きいときには、対応する時刻ｔ_ｎにおける音声決定マスクＢ（ｔ_ｎ）４３０の値が、２値「１」にセットされる。
【００５２】
バレーパーセンテージ特徴ＶＰ（ｔ）１１８の２値音声決定マスクＢ（ｔ）１２２への分類は、次の表記を使用して以下のように表現される。
ＶＰ（ｔ）：バレーパーセンテージ１１８
Ｂ（ｔ）：２値音声決定マスク１２２
β：しきい値バレーパーセンテージ４１０
【００５３】
【数８】

【００５４】
決定プロセッサコンポーネント１２０は、時刻ｔ_ｎにおけるそれぞれのオーディオ標本Ｓ（ｔ_ｎ）２１０に対応するＶＰ値ＶＰ（ｔ_ｎ）３４５が全て純粋音声または非音声に分類されるまで、２値分類ステップ４２０を繰り返す。その結果、得られる時刻ｔ_ｎにおける２値決定マスクＢ（ｔ_ｎ）４３０の列を、オーディオ信号Ｓ（ｔ）１１０の音声決定マスクＢ（ｔ）１２２と呼ぶ。オーディオ信号Ｓ（ｔ）１１０のさまざまな信号源に合うようにしきい値バレーパーセンテージβ４１０を変更することによって、２値分類ステップ４２０を最適化することができる。
【００５５】
（ポスト決定プロセッサコンポーネント）
決定プロセッサコンポーネント１２０によって、オーディオ信号Ｓ（ｔ）１１０の２値音声決定マスクＢ（ｔ）１２２が生成されれば、他にすべきことはほとんどないように思える。しかし、先に述べたとおり、音声検出の正確度は、自身が純粋音声として分類され、近隣の標本が非音声として分類された独立したオーディオ標本を非音声に当てはめることによってさらに改善することができる。この逆も成り立つ。このことは、実世界において人間の音声は通常、少なくとも数秒以上連続するという前述の観察に基づく。
【００５６】
この実施態様のポスト決定プロセッサコンポーネント１２４は、決定プロセッサコンポーネント１２０によって生成された音声検出マスクにフィルタを適用することによって、この観察の利点を利用する。さもないと、得られる２値音声決定マスクＢ（ｔ）１２２中にはおそらく、入力オーディオ信号Ｓ（ｔ）１１０の品質に応じ、変則的な小さな孤立した「ギャップ」または「スパイク」が散在し、これによってその結果は、いくつかのディジタルオーディオ信号応用に対して潜在的に無用のものとなろう。
【００５７】
プリプロセッサコンポーネント１１４中に存在するクリーニングフィルタの実施態様で説明したのと同様に、ポスト決定プロセッサのこの実施態様でも、より優れた結果を達成するため、形態素フィルトレーションが使用される。具体的には、この実施態様は、２つの形態素フィルタを連続的に適用して、時刻ｔ_ｎにおける個々の音声決定マスク値Ｂ（ｔ_ｎ）４３０をその近隣の音声決定マスク値Ｂ（ｔ_ｎ±１）に一致させ（孤立した「１」および「０」を排除し）、同時に、純粋音声標本と非音声標本の間のシャープな境界を維持する。一方のフィルタは、プレプロセッサコンポーネント１１４で先に説明した（定義４でも定義した）クロージングフィルタ２３０と同様の形態素クロージングフィルタＣ（・）５６０である。もう一方のフィルタは、侵食および拡張演算子が逆順に適用される、すなわち（定義４で定義したように）まず最初に侵食演算子、次に拡張演算子が適用される以外は、クロージングフィルタ５６０と同様の形態素オープニングフィルタＯ（・）５２０である。
【００５８】
図５を参照する。ポスト決定プロセッサコンポーネントは、所定のサイズの第３のウィンドウＷ_３５４０を使用して、時刻ｔ_ｎにおけるそれぞれの２値音声決定マスク値Ｂ（ｔ_ｎ）４３０に形態オープニングフィルタＯ（・）５２０を適用する、オープニングフィルタ適用ステップ５１０を実行する。
【００５９】
【数９】

【００６０】
見て分かるとおり、形態オープニングフィルタＯ（・）５２０は、時刻ｔ_ｎにおける２値音声決定マスク値Ｂ（ｔ_ｎ）４３０にまず侵食演算子Ｅ５２５を、次いで拡張演算子Ｄ５３０を適用することによって、２値音声決定マスクＢ（ｔ）１２２の「開いた（opened）」値を計算する。侵食演算子Ｅ５３５は、時刻ｔ_ｎにおける２値決定マスク値Ｂ（ｔ_ｎ）４３０を、第３のウィンドウＷ_３５４０の最小周囲マスク値に侵食する。拡張演算子Ｄ５３０は、時刻ｔ_ｎにおける侵食された決定マスク値Ｂ（ｔ_ｎ）４３０を第３のウィンドウＷ_３５４０の最大周囲マスク値に拡張する。
【００６１】
ポスト決定プロセッサコンポーネントは次いで、所定のサイズの第４のウィンドウＷ_４５８０を使用して、時刻ｔ_ｎにおけるそれぞれの「開いた」２値音声決定マスク値Ｏ（Ｂ（ｔ_ｎ））に、形態素クロージングフィルタＣ（・）５６０を適用する。
【００６２】
【数１０】

【００６３】
見て分かるとおり、形態クロージングフィルタＣ（・）５６０は、まず拡張演算子Ｄ５３０を、次いで侵食演算子Ｄ５２５を、時刻ｔ_ｎにおける２値音声決定マスク値Ｂ（ｔ_ｎ）４３０に適用することによって、２値音声決定マスクＢ（ｔ）１２２の「閉じた（closed）」値を計算する。拡張演算子Ｄ５６５は、時刻ｔ_ｎにおける「開いた」２値決定マスク値Ｂ（ｔ_ｎ）４３０を、第４のウィンドウＷ_４５８０の最大周囲マスク値に拡張させる。侵食演算子Ｅ５７５は、時刻ｔ_ｎにおける「開いた」２値決定マスク値Ｂ（ｔ_ｎ）４３０を、第４ウィンドウＷ_４５８０の最小周囲マスク値に侵食する。
【００６４】
ポスト決定プロセッサコンポーネント１２４を実行した結果は、時刻ｔ_ｎにおけるそれぞれのオーディオ標本Ｓ（ｔ_ｎ）２１０に対応する２値音声検出マスク値Ｍ（ｔ_ｎ）５９０の最終的な推定であり、次のように表現される。
【００６５】
【数１１】

【００６６】
ポスト決定プロセッサコンポーネントで説明した形態フィルタを使用することによって、純粋音声と非音声の境界を不明瞭にすることなく、オーディオ信号Ｓ（ｔ）１１０の異常を、その信号の近隣部分に一致させることができる。その結果は、オーディオ信号Ｓ（ｔ）１１０から人間の音声の開始および停止境界を指示する正確な音声検出マスクＭ（ｔ）１２６である。さらに、第３のウィンドウＷ_３５４０および第４のウィンドウＷ_４５８０のサイズを、処理中の特定のオーディオ信号に合わせることによって、ポスト決定プロセッサコンポーネントが適用する形態素フィルタを最適化することができる。一般的な実施態様では、音声特性が分かっているオーディオ信号を用いて、この方法を使用する特定の応用をトレーニングすることによって、第３のウィンドウＷ_３５４０および第４のウィンドウＷ_４５８０の最適サイズが事前に決められる。その結果、この音声検出法が、オーディオ信号Ｓ（ｔ）１１０中の純粋音声と非音声の境界をより効果的に識別できるようになる。
【００６７】
（パラメータ設定）
背景セクションで述べたとおり、オーディオ信号は一般に、純粋音声信号と非音声または混合音声信号の両方を含むため、オーディオ信号から人間の音声の検出は、ディジタルオーディオ圧縮に関係する。専用音声コーデックは、非音声または混合音声信号よりも正確に純粋音声信号を圧縮するので、本発明は、前処理した、すなわちフィルタリングして雑音を除去したオーディオ信号中の人間の音声を、前処理していないオーディオ信号中の人間の音声よりも正確に検出する。本発明の目的上、オーディオ信号を前処理する、すなわちオーディオ信号から雑音をフィルタリングして除去する方法自体は、重要ではない。実際、冒頭で請求し、本明細書で説明したオーディオ信号中の人間の音声検出法は、雑音除去の特定の実施態様に比較的して独立している。本発明の文脈では、雑音の有無は、重要ではないが、雑音の有無によって、この方法中に実装されるパラメータの設定が変更される可能性がある。
【００６８】
背景セクションで述べたとおり、ウィンドウサイズおよびしきい値に対するパラメータの設定は、純粋音声の検出の正確度が最適化されるように選択しなければならない。優れた一実施態様では、純粋音声検出の正確度が少なくとも９５％である。
【００６９】
一実施態様では、これらのパラメータがトレーニングを通して決定される。トレーニング用オーディオ信号は、純粋音声および非音声標本の実際の境界が既知であり、ここではこれを理想出力と呼ぶ。したがって、これらのパラメータは理想出力に対して最適化される。
【００７０】
例えば、理想出力をＭ（ｔ）とすると、パラメータ空間（Ｗ_１，Ｗ_２，Ｗ_３，Ｗ_４，α，β）を完全に探索することによって、これらの値の設定が得られる。
【００７１】
【数１２】

【００７２】
さらに、特定の音源によって生成されたトレーニング用オーディオ信号のサンプリングレートがＦｋＨｚであるとすると、パラメータとサンプリングレートの最適な関係は以下のようになる。
Ｗ_１＝４０＊Ｆ／８
Ｗ_２＝２０００＊Ｆ／８
Ｗ_３＝２４０００＊Ｆ／８
Ｗ_４＝３２０００＊Ｆ／８
α＝１０％
β＝１０％
【００７３】
（コンピュータシステムの概説）
図６および以下の議論は、本発明を実装することができる適当なコンピューティング環境の短い全体的な説明を提供することを意図したものである。本発明または本発明の諸態様は、ハードウェアデバイス中に実装することができるが、先に説明したトラッキングシステムは、プログラムモジュールとして編成されたコンピュータ実行可能命令で実行される。これらのプログラムモジュールには、先に説明したタスクを実行し、データ型を実装するルーチン、プログラム、オブジェクト、コンポーネントおよびデータ構造が含まれる。
【００７４】
図６は、デスクトップコンピュータの一般的な構成を示すが、本発明を、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な民生用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含むその他のコンピュータシステム構成において実行することもできる。本発明を、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で使用することもできる。分散コンピューティング環境では、プログラムモジュールを、ローカルメモリ記憶装置とリモートメモリ記憶装置の両方に配置することができる。
【００７５】
図６は、本発明のオペレーティング環境として機能するコンピュータシステムの一例を示す。このコンピュータシステムは、処理装置６２１、システムメモリ６２２、ならびにシステムメモリを含むさまざまなシステム構成要素を処理装置６２１に相互接続するシステムバス６２３を含むパーソナルコンピュータ６２０を含む。システムバスは、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含む、ＰＣＩ、ＶＥＳＡ、Microchannel（ＭＣＡ）、ＩＳＡ、ＥＩＳＡなどのバスアーキテクチャを使用するいくつかの種類のバス構造を備えることができる。システムメモリは、リードオンリーメモリ（ＲＯＭ）６２４およびランダムアクセスメモリ（ＲＡＭ）６２５を含む。スタートアップ時などにパーソナルコンピュータ６２０内の要素間の情報転送を助ける基本ルーチンを含む基本入出力システム６２６（ＢＩＯＳ）が、ＲＯＭ６２４に記憶されている。パーソナルコンピュータ６２０はさらに、ハードディスクドライブ６２７、例えばリムーバブルディスク６２９に読み書きするための磁気ディスクドライブ６２８、および例えば、ＣＤ−ＲＯＭディスク６３１またはその他の光メディアに読み書きするための光ディスクドライブ６３０を含む。ハードディスクドライブ６２７、磁気ディスクドライブ６２８および光ディスクドライブ６３０はそれぞれ、ハードディスクドライブインタフェース６３２、磁気ディスクドライブインタフェース６３３および光ディスクドライブインタフェース６３４によって、システムバス６２３に接続される。これらのドライブおよびその関連コンピュータ可読媒体は、パーソナルコンピュータ６２０に対して、データ、データ構造、コンピュータ実行可能命令（ダイナミックリンクライブラリ、実行可能ファイルなどのプログラムコード）などの不揮発性記憶を提供する。上記のコンピュータ可読媒体は、ハードディスク、リムーバブル磁気ディスクおよびＣＤを指すが、これに、磁気カセット、フラッシュメモリカード、ディジタルビデオディスク、ベルヌーイカートリッジなど、コンピュータが読むことができるその他の種類の媒体を含めることもできる。
【００７６】
オペレーティングシステム６３５、１つまたは複数のアプリケーションプログラム６３６、その他のプログラムモジュール６３７およびプログラムデータ６３８を含むいくつかのプログラムモジュールを、ドライブおよびＲＡＭ６２５に記憶することができる。ユーザは、キーボード６４０およびマウス６４２などのポインティングデバイスを介して、パーソナルコンピュータ６２０にコマンドおよび情報を入力することができる。その他の入力装置（図示せず）には、マイク、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれる。これらの入力装置およびその他の入力装置はしばしば、システムバスに結合されたシリアルポートインタフェース６４６を介して処理装置６２１に接続される。ただし、これらを、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）などのその他のインタフェースによって接続することもできる。さらに、モニタ６４７またはその他の種類のディスプレイ装置が、ディスプレイコントローラ、ビデオアダプタ６４８などのインタフェースを介してシステムバス６２３に接続される。モニタの他に、パーソナルコンピュータは一般に、スピーカ、プリンタなどのその他の周辺出力装置（図示せず）を含む。
【００７７】
パーソナルコンピュータ６２０は、リモートコンピュータ６４９などの１台または数台のリモートコンピュータへの論理接続を使用して、ネットワーク化環境で動作することができる。リモートコンピュータ６４９は、サーバ、ルータ、ピア装置またはその他の一般的なネットワークノードとすることができ、図５にはメモリ記憶装置６５０だけしか示さなかったが、一般に、パーソナルコンピュータ６２０に関して記述した多くの、または全ての要素を含む。図５に示した論理接続には、ローカルエリアネットワーク（ＬＡＮ）６５１および広域ネットワーク（ＷＡＮ）６５２が含まれる。このようなネットワーキング環境は、オフィス、企業内コンピュータネットワーク、イントラネットおよびインターネットで普通に見られる。
【００７８】
ＬＡＮネットワーキング環境で使用されるとき、パーソナルコンピュータ６２０は、ネットワークインタフェースまたはアダプタ６５３を介してローカルネットワーク６５１に接続される。ＷＡＮネットワーキング環境で使用されるとき、パーソナルコンピュータ６２０は一般に、インターネットなどの広域ネットワーク６５２を介して通信を確立するモデム６５４またはその他の手段を含む。モデム６５４は、内部モデムでも、または外部モデムでもよく、シリアルポートインタフェース６４６を介してシステムバス６２３に接続される。ネットワーク化された環境では、パーソナルコンピュータ６２０に関して示したプログラムモジュールまたはその一部を、遠隔メモリ記憶装置に記憶することができる。図示のネットワーク接続は例に過ぎず、コンピュータ間の通信リンクを確立するその他の手段を使用することもできる。
【００７９】
本発明の原理を適用することができる多くの可能な実施態様があることから、これまでに説明した実施態様が本発明の例に過ぎず、これらの実施態様が本発明の範囲を限定するものと解釈すべきでないことを強調しておく。本発明の範囲は冒頭の請求項によって定義される。したがって、これらの特許請求の範囲および趣旨に含まれる全ての事柄を発明として請求するものである。
【図面の簡単な説明】
【図１】人間の音声検出システムの実施態様の概要を示す全体ブロック図である。
【図２】図１に示したシステムのプリプロセッサコンポーネントの一実施態様を示すブロック図である。
【図３】図１に示したシステムの特徴計算コンポーネントの一実施態様を示すブロック図である。
【図４】図１に示したシステムの決定プロセッサコンポーネントの一実施態様を示すブロック図である。
【図５】図１に示したシステムのポスト決定プロセッサコンポーネントの一実施態様を示すブロック図である。
【図６】本発明の一実施態様の動作環境として機能するコンピュータシステムのブロック図である。

Claims

純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から純粋音声信号を検出する方法であって、前記コンピュータの処理装置は、
前記コンピュータに入力された前記オーディオ信号を離散的なオーディオ標本のストリームに変換し、
前記オーディオ信号からウィンドウを用いてバレーパーセンテージを計算し、前記バレーパーセンテージの計算は、前記ストリームの所与のオーディオ標本に対し、
前記ウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定することと、
低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定することであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有することと
を含み、
前記バレーパーセンテージをバレーパーセンテージしきい値と比較して、前記所与のオーディオ標本および前記ストリームの１つまたは複数の他のオーディオ標本を純粋音声区分または非音声区分に分類し、
前記オーディオ信号の純粋音声として分類された部分と前記オーディオ信号の非音声として分類された部分との間の１つまたは複数の境界を決定することを特徴とする方法。
前記オーディオ標本のストリームは、前記バレーパーセンテージを計算する前にフィルタリングされ、雑音を除去することを特徴とする請求項１に記載の方法。
前記オーディオ信号の前記フィルタリングは、
前記オーディオ信号を、複数のエネルギーレベルを有するエネルギー成分に変換し、各々のエネルギーレベルは、前記オーディオ信号のオーディオ標本に対応して、
前記エネルギー成分の各々のエネルギーレベルに形態素クロージングフィルタを適用し、前記オーディオ信号のフィルタリングされたエネルギー成分を生成することを特徴とする請求項２に記載の方法。
前記オーディオ信号の前記エネルギー成分は、前記エネルギー成分の各々のエネルギーレベルに、前記オーディオ信号の対応するオーディオ標本の絶対値を割り当てることによって構築されることを特徴とする請求項３に記載の方法。
請求項１に記載の各ステップを実行するための命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から純粋音声信号を検出する方法であって、前記コンピュータの処理装置は、
(a) 前記コンピュータに入力された前記オーディオ信号をフィルタリングして雑音を除去することであって、前記フィルタリングは、
(a1) 前記オーディオ信号を、複数のエネルギーレベルを有するエネルギー成分に変換し、各々のエネルギーレベルは、前記オーディオ信号のオーディオ標本に対応して、
(a2) 前記エネルギー成分の各々のエネルギーレベルに形態素クロージングフィルタを適用することにより、前記オーディオ信号のフィルタリングされたエネルギー成分を生成し、前記形態素クロージングフィルタの前記適用は、
(a21) 複数のエネルギーレベルにわたる第１のウィンドウを配置し、特定の時刻におけるエネルギーレベルは、前記第１のウィンドウの中間点の近くに配置されて、
(a22) 前記特定の時刻におけるエネルギーレベルを、前記第１のウィンドウを通して見える周囲のエネルギーレベルの最大エネルギーレベルに拡張し、
(a23) 複数のエネルギーレベルにわたる前記第１のウィンドウを、次の時刻におけるエネルギーレベルに再配置し、前記次の時刻におけるエネルギーレベルは、前記第１のウィンドウの中間点の近くに配置されて、
(a24) 前記エネルギー成分の前記エネルギーレベルが全て拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、
(a25) 前記特定の時刻におけるエネルギーレベルにわたる前記第１のウィンドウを再配置し、
(a26) 前記特定の時刻におけるエネルギーレベルを、前記第１のウィンドウを通して見える周囲のエネルギーレベルの最小エネルギーレベルに侵食し、
(a27) 複数のエネルギーレベルにわたる前記第１のウィンドウを、前記次の時刻におけるエネルギーレベルに再配置し、
(a28) 前記エネルギー成分の全ての前記エネルギーレベルが侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、その結果、前記エネルギー成分のフィルタリングされた複数のエネルギーレベルを得ることを含み、
(b) 前記オーディオ信号からバレーパーセンテージを計算することであって、
(b1) 前記エネルギー成分のフィルタリングされた複数のエネルギーレベルの各々に対して前記バレーバーセンテージを計算するための第２のウィンドウを配置し、前記複数のフィルタリングされたエネルギーレベルのうちの前記特定の時刻におけるフィルタリングされたエネルギーレベルは、前記第２のウィンドウの中間点の近くに配置されて、
(b2) 前記第２のウィンドウを通して見える周囲のフィルタリングされたエネルギーレベルのしきい値エネルギーレベルよりも低いフィルタリングされたエネルギーレベルの数の、前記第２のウィンドウを通して見えるフィルタリングされたエネルギーレベルの総数に対するパーセンテージを、前記バレーパーセンテージとして割り当て、
(b3) 複数のフィルタリングされたエネルギーレベルにわたる前記第２のウィンドウを、前記次の時刻におけるフィルタリングされたエネルギーレベルに再配置し、前記次の時刻におけるフィルタリングされたエネルギーレベルは、前記第２のウィンドウの中間点の近くに配置されて、
(b4) 前記エネルギー成分の全ての前記フィルタリングされたエネルギーレベルに割り当てられるまで、前記割当てることおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号の前記バレーパーセンテージを得ることができ、
(c) 前記バレーパーセンテージに基づいて前記オーディオ信号を純粋音声区分または非音声区分に分類し、
(d) 前記オーディオ信号の純粋音声として分類された部分と前記オーディオ信号の非音声として分類された部分との間の境界を決定することを特徴とする方法。
前記第１のウィンドウは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項６に記載の方法。
前記しきい値エネルギーレベルは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項６に記載の方法。
前記第２のウィンドウは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項６に記載の方法。
非音声に対する純粋音声の前記分類は、前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスクに、
対応するバレーパーセンテージが所定のしきい値バレーパーセンテージに等しいかまたは小さいときに、非音声または混合音声信号の存在を意味する０を、または、
対応するバレーパーセンテージが前記所定のしきい値バレーパーセンテージよりも大きいときに、純粋音声の存在を意味する１のいずれかの２値を割り当てることによって決定されることを特徴とする請求項６に記載の方法。
前記純粋音声分類と非音声分類の間の境界は、
独立した音声決定マスクの値を捨てることであって、前記独立した値の近隣の値は、反対の値を有することと、
２値１に等しい前記音声決定マスクの残りの値と、２値０に等しい前記音声決定マスクの残りの値との間の境界をマークすることと
によって決定されることを特徴とする請求項１０に記載の方法。
前記純粋音声区分と非音声区分の間の境界は、形態素オープニングフィルタおよび形態素クロージングフィルタを音声決定マスクに適用し、連続する２値１を有するフィルタリングされた音声決定マスク部分と連続する２値０を有するフィルタリングされた音声決定マスク部分との間の境界をマークすることによって決定されることを特徴とする請求項１０に記載の方法。
前記形態素オープニングフィルタの前記適用は、
前記音声決定マスク中の値の連続したストリームにわたる第３のウィンドウを配置し、第１の値は、前記第３のウィンドウの中間点の近くに配置されて、
前記第１の値を、前記第３のウィンドウを通して見える周囲の値の最小の２値に侵食し、
前記音声決定マスク中の値の連続したストリームにわたる前記第３のウィンドウを次の連続する値に再配置し、前記次の連続する値は、前記第３のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスクの値を全て侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、
侵食された値の連続するストリームにわたる前記第３のウィンドウを配置し、第１の侵食された値は、前記第３のウィンドウの中間点の近くに配置され、
前記侵食された第１の値を、前記第３のウィンドウを通して見える周囲の侵食された値の最大の２値に拡張し、
前記音声決定マスク中の侵食された値の連続するストリームにわたる前記第３のウィンドウを次の連続する値に再配置し、前記次の連続する値は、前記第３のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスク中の全ての値が拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する開かれた音声決定マスクを得ることを特徴とする請求項１２に記載の方法。
前記形態素クロージングフィルタの前記適用は、
前記開かれた音声決定マスク中の値の連続するストリームにわたる第４のウィンドウを配置し、第１の開かれた値は、前記第４のウィンドウの中間点の近くに配置されて、
前記第１の開かれた値を、前記第４のウィンドウを通して見える周囲の開かれた値の最大の２値に拡張し、
前記開かれた音声決定マスク中の値の連続するストリームにわたる前記第４のウィンドウを、次の連続する開かれた値に再配置し、前記次の連続する開かれた値は、前記第４のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する開かれた音声決定マスク中の全ての値が拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する拡張された開かれた音声決定マスクを得て、
前記拡張された開かれた音声決定マスク中の値の連続するストリームにわたる前記第４のウィンドウを配置し、第１の拡張された開かれた値は、前記第４のウィンドウの中間点の近くに配置されて、
前記第１の拡張された開かれた値を、前記第４のウィンドウを通して見える拡張された開かれた周囲の値の最小の２値０に侵食し、
前記拡張された開かれた値の連続するストリームにわたる前記第４のウィンドウを再配置し、前記次の連続する拡張された開かれた値は、前記第４のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する拡張された開かれた音声決定マスク中の全ての値が侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する閉じた音声決定マスクを得ることを特徴とする請求項１３に記載の方法。
オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第１のウィンドウの第１のサイズ、第２のウィンドウの第２のサイズ、第３のウィンドウの第３のサイズ、および第４のウィンドウの第４のサイズを含むステップと、
(b) 前記第１のサイズを有する前記第１のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、前記バレーパーセンテージは、前記第２のサイズを有する第２のウィンドウにおいて複数のオーディオ標本から計算され、前記バレーパーセンテージは、オーディオ標本において、前記第２のウィンドウの全てのオーディオ標本の数と比較したしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第２のウィンドウにおけるオーディオ標本の数で表すステップと、
(d) 前記予め定めたパラメータの別の１つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第３のサイズを有する前記第３のウィンドウを用いてフィルタリングした後、前記第４のサイズを有する前記第４のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の１つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
前記オーディオ信号をきれいにするステップは、
前記第１のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するステップであって、前記エネルギーレベルは、エネルギー成分を含むステップと、
前記エネルギー成分にクロージングフィルタを適用し、その結果、きれいなオーディオ信号を得るステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有するステップと
を含むことを特徴とする請求項１５に記載のコンピュータ読み取り可能な記録媒体。
前記第１のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項１５に記載のコンピュータ読み取り可能な記録媒体。
オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第１のウィンドウの第１のサイズ、第２のウィンドウの第２のサイズ、第３のウィンドウの第３のサイズ、および第４のウィンドウの第４のサイズを含むステップと、
(b) 前記オーディオ信号をきれいにして、雑音を除去するステップであって、前記オーディオ信号をきれいにするステップは、前記第１のサイズを有する前記第１のウィンドウを用いて複数のオーディオ標本をフィルタリングするステップを含み、前記きれいにするステップは、
(b1) 前記第１のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するサブステップであって、前記エネルギーレベルは、エネルギー成分を含むサブステップと、
(b2) 前記エネルギー成分にクロージングフィルタを適用し、その結果、対応するきれいなオーディオ信号を得るサブステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有するサブステップと
を含むステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、前記バレーパーセンテージは、前記第２のサイズを有する前記第２のウィンドウにおいて複数のオーディオ標本から計算され、前記バレーパーセンテージの前記計算は、
(c1) 前記所定のパラメータの別の１つに基づいて、しきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第２のウィンドウ中のオーディオ標本の数を決定するサブステップと、
(c2) しきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第２のウィンドウ中のオーディオ標本の数の、前記第２のウィンドウ中のオーディオ標本の総数に対するパーセンテージに等しいバレーパーセンテージをセットするサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の１つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第３のサイズを有する前記第３のウィンドウを用いてフィルタリングした後、前記第４のサイズを有する前記第４のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の１つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
前記第２のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項１８に記載のコンピュータ読み取り可能な記録媒体。
前記しきい値エネルギーレベルは、
前記第２のウィンドウ中の最大エネルギーレベルを決定するステップと、
前記最大エネルギーレベルに、前記予め定めたパラメータの別の１つに等しい値を有する分数を乗じるステップと
を実行することによって計算されることを特徴とする請求項１８に記載のコンピュータ読み取り可能な記録媒体。
前記分数は、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項２０に記載のコンピュータ読み取り可能な記録媒体。
オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第１のウィンドウの第１のサイズ、第２のウィンドウの第２のサイズ、第３のウィンドウの第３のサイズ、および第４のウィンドウの第４のサイズを含むステップと、
(b) 前記第１のサイズを有する前記第１のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第２のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の１つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップであって、前記分類するステップは、
(d1) 前記バレーパーセンテージの値を、しきい値バレーパーセンテージと比較するサブステップであって、前記しきい値バレーパーセンテージは、前記予め定めたパラメータの別の１つに等しい値を有するサブステップと、
(d2) 前記バレーパーセンテージの値に対応する２値決定マスクの値を、
前記バレーパーセンテージが前記しきい値バレーパーセンテージに等しいか、または小さい場合には０の値に、
前記バレーパーセンテージが前記しきい値バレーパーセンテージよりも大きい場合には１の値にセットするサブステップと
を含むステップと、
(e) 前記第３のサイズを有する前記第３のウィンドウを用いてフィルタリングした後、前記第４のサイズを有する前記第４のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の１つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
前記所定のしきいバレーパーセンテージの値は、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項２２に記載のコンピュータ読み取り可能な記録媒体。
前記第３のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項２３に記載のコンピュータ読み取り可能な記録媒体。
前記第４のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項２３に記載のコンピュータ読み取り可能な記録媒体。
オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第１のウィンドウの第１のサイズ、第２のウィンドウの第２のサイズ、第３のウィンドウの第３のサイズ、および第４のウィンドウの第４のサイズを含むステップと、
(b) 前記オーディオ信号をきれいにして、雑音を除去するステップであって、前記オーディオ信号をきれいにするステップは、前記第１のサイズを有する前記第１のウィンドウを用いて複数のオーディオ標本をフィルタリングするステップ含み、前記きれいにするステップは、
(b1) 前記第１のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するサブステップであって、前記エネルギーレベルは、エネルギー成分を含むサブステップと、
(b2) 前記エネルギー成分にクロージングフィルタを適用し、その結果、対応するきれいなオーディオ信号を得るサブステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有し、前記適用は、
(b21) 前記第１のウィンドウ中の前記エネルギー成分の前記エネルギーレベルを拡張するサブステップと、
(b22) 前記第１のウィンドウ中の前記エネルギー成分の前記拡張されたエネルギーレベルを侵食するサブステップと
を含むステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第２のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の１つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第３のサイズを有する前記第３のウィンドウを用いてフィルタリングした後、前記第４のサイズを有する前記第４のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の１つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第１のウィンドウの第１のサイズ、第２のウィンドウの第２のサイズ、第３のウィンドウの第３のサイズ、および第４のウィンドウの第４のサイズを含むステップと、
(b) 前記第１のサイズを有する前記第１のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第２のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の１つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第３のサイズを有する前記第３のウィンドウを用いてフィルタリングした後、前記第４のサイズを有する前記第４のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の１つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含み、
(e1) 前記第３のウィンドウ中の前記複数の純粋音声区分および非音声区分に、形態素オープニングフィルタを適用するサブステップと、
(e2) 前記第４のウィンドウ中の前記複数の純粋音声部分および非音声分類に、形態素クロージングフィルタを適用するサブステップと
を含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
音声オーディオ標本と非音声オーディオ標本の混合物を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から音声検出特徴を抽出する方法であって、前記コンピュータの処理装置は、
オーディオ信号における複数のオーディオ標本の各々についてエネルギーレベルを決定し、
前記複数のオーディオ標本の各々について、
複数の周囲オーディオ標本の範囲内における最大エネルギーレベルを決定し、
前記最大エネルギーレベルの分数としてしきい値エネルギーレベルを計算し、
前記しきい値エネルギーレベルよりも低いエネルギーレベルを有する複数の周囲オーディオ標本のパーセンテージに基づいて音声検出特徴をセットすること
によって、音声検出特徴を抽出することを特徴とする方法。
抽出前に、前記オーディオ信号をフィルタリングして、前記オーディオ信号中の境界の明瞭さを維持しつつ前記オーディオ信号をきれいにすることをさらに備える方法であって、前記オーディオ信号をフィルタリングすることは、
第１のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換することであって、前記エネルギーレベルは、エネルギー成分を含むことと、
前記エネルギー成分に形態素クロージングフィルタを適用し、その結果、きれいなオーディオ信号を得ることと
を含むことを特徴とする請求項２８に記載の方法。
抽出後に、抽出された音声検出特徴と音声検出特徴しきい値との比較に基づいて、前記オーディオ信号の前記複数のオーディオ標本を音声または非音声に分類することを特徴とする請求項２８に記載の方法。
音声オーディオ部分と非音声オーディオ部分の混合物を有するオーディオ信号の音声検出特徴を抽出するためのソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、
オーディオ信号中における複数のオーディオ標本の各々についてエネルギーレベルを決定する命令と、
前記オーディオ信号をフィルタリングして、前記オーディオ信号中の境界の明瞭さを維持しつつ前記オーディオ信号をきれいにする命令であって、前記フィルタリングは、後に侵食演算子が続く拡張演算子から成るクロージングフィルタを使用する命令と、
前記フィルタリングされたオーディオ信号の複数のオーディオ標本の各々について、音声検出特徴を抽出する命令であって、各々の音声検出特徴は、周囲のオーディオ標本のしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記フィルタリングされたオーディオ信号の周囲のオーディオ標本のパーセンテージに基づく命令と
を備えることを特徴とするコンピュータ読み取り可能な記録媒体。
音声オーディオ部分と非音声オーディオ部分の混合物を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から音声検出特徴を抽出する方法であって、前記コンピュータの処理装置は、
オーディオ信号における複数のオーディオ標本の各々についてエネルギーレベルを決定し、
前記オーディオ信号の複数のオーディオ標本の各々について、音声検出特徴を抽出し、各々の音声検出特徴は、周囲のオーディオ標本のしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記オーディオ信号の周囲のオーディオ標本のパーセンテージに基づいて、
抽出された前記オーディオ標本の音声検出特徴と音声検出特徴しきい値との比較に基づいて、前記複数のオーディオ標本の各々を音声または非音声に分類し、
前記分類をフィルタリングして独立した分類を除去し、独立した分類は、周囲の分類の支配的な値とは異なる値を有し、前記フィルタリングは、１または複数の形態素フィルタを使用することを特徴とする方法。
前記フィルタリングは、オープニングフィルタ、続いてクロージングフィルタを使用することを特徴とする請求項３２に記載の方法。
Ｉ’（ｔ）をフィルタリングされたエネルギー成分、Ｗ_２をウィンドウのサイズ、Ｍａｘを最大エネルギーレベル、αを所定の分数、Ｎ（ｉ）をしきい値よりも小さいエネルギーレベルの合計数、およびＶＰ（ｔ）をバレーパーセンテージとしたとき、前記バレーパーセンテージは、

と表されることを特徴とする請求項１に記載の方法。