JP2017530409A

JP2017530409A - ランニング範囲正規化を利用したニューラルネットワーク音声活動検出

Info

Publication number: JP2017530409A
Application number: JP2017516763A
Authority: JP
Inventors: ヴィッカース，アール
Original assignee: サイファ，エルエルシー
Priority date: 2014-09-26
Filing date: 2015-09-26
Publication date: 2017-10-12
Anticipated expiration: 2035-09-26
Also published as: CN107004409B; KR20170060108A; EP3198592A4; US9953661B2; US20180240472A1; JP6694426B2; EP3198592A1; KR102410392B1; WO2016049611A1; US20160093313A1; CN107004409A

Abstract

「ランニング範囲正規化」法は、音声活動検出（ＶＡＤ）に有用な特徴の値の範囲のランニング推定値を演算するステップと、特徴を望ましい範囲にマッピングすることにより、特徴を正規化するステップと、を含む。ランニング範囲正規化は、ＶＡＤ特徴の最小及び最大値のランニング推定値の演算ステップと、オリジナルの範囲を望ましい範囲にマッピングすることにより、特徴を正規化するステップと、を含む。スムージング係数は、任意選択により、最小及び最大値のランニング推定値うちの少なくとも１つの推定値の変化レートを方向的にバイアスするように、選択されている。正規化済みのＶＡＤ特徴パラメータは、音声活動を検出し、且つ、トレーニングされた機械学習アルゴリズムを使用してオーディオデータの発話コンポーネントを隔離又は改善するように、機械学習アルゴリズムをトレーニングするべく、使用される。

Description

関連出願に対する相互参照
本出願は、いずれも「Neural Network Voice Activity Detection Employing Running Range Normalization」という名称を有する２０１４年９月２６日付けで出願された米国仮特許出願第６２／０５６，０４５号及び２０１５年９月２５日付けで出願された米国特許出願第１４／８６６，８２４号に対する優先権を主張するものであり、これらの特許文献は、引用により、そのすべてが本明細書に包含される。

技術分野
本開示は、一般に、オーディオ信号の出力の前に、音声データを隔離し、オーディオ信号からノイズを除去し、又は、その他の方法でオーディオ信号を改善する技法を含む、オーディオ信号を処理する技法に関する。更に詳しくは、本開示は、音声活動検出（ＶＡＤ：Voice Activity Detection）に関し、且つ、更に詳しくは、オーディオ信号から導出された１つ又は複数の音声活動検出特徴又は特徴パラメータを正規化する方法に関する。また、オーディオ信号を処理する装置及びシステムも開示されている。

背景
音声活動検出器は、オーディオ信号内の発話を改善するべく、且つ、発話認識又は特定の発話者の音声の認識を含む様々なその他の目的のために、長期にわたって使用されている。

従来、音声活動検出器は、オーディオ信号が発話を含むかどうかについての判定を実行するべく、エネルギーレベル及びゼロ交差レートなどの特徴との関連におけるファジー規則又は経験則に依存している。いくつかのケースにおいては、従来の音声活動検出器によって利用されている閾値は、オーディオ信号の信号対ノイズ比（ＳＮＲ：Signal-to Noise Ratio）に依存しており、その結果、適切な閾値の選択が困難になっている。これに加えて、従来の音声活動検出器は、オーディオ信号が高ＳＮＲを有するという条件下においては良好に動作するが、オーディオ信号のＳＮＲが小さい際には、その信頼性が低い。

いくつかの音声活動検出器は、ニューラルネットワークなどの機械学習技法を使用することによって改善されており、これらの機械学習技法は、通常、相対的に正確な音声活動推定値を提供するべく、いくつかのありふれた音声活動検出（ＶＡＤ）特徴を組み合わせている（本明細書において使用されている「ニューラルネットワーク」という用語は、サポートベクトル機械、決定木、ロジスティック回帰、統計的分類器などのようなその他の機械学習技法をも意味しうる）。これらの改善された音声活動検出器は、そのトレーニングに使用されるオーディオ信号によって良好に動作するが、通常、異なるタイプのノイズを含む、又は、音声活動検出器のトレーニングに使用されたオーディオ信号とは異なる量の残響を含む、異なる環境から取得されたオーディオ信号に適用された際には、信頼性が相対的に低下する。

安定性を改善するべく、「特徴正規化（feature normalization）」と呼称される技法が使用されており、これによれば、様々な異なる特性を有するオーディオ信号を評価する際に、音声活動検出器を使用することができる。例えば、平均−分散正規化（ＭＶＮ：Mean-Variance Normalization）においては、特徴ベクトルのそれぞれの要素の平均及び分散が、それぞれ、０及び１に正規化される。異なるデータセットに対する安定性の改善に加えて、特徴正規化は、現時点のフレームと以前のフレームの比較に関する情報を黙示的に提供する。例えば、所与の隔離されたデータフレーム内の正規化されていない特徴が０．１の値を有している場合には、これは、特に我々がＳＮＲについての知識を有していない場合には、このフレームが発話に対応しているかどうかに関する情報をほとんど提供することができない。但し、特徴が長期間の統計の記録に基づいて正規化されている場合には、このフレームと全体信号の比較に関する更なるコンテキストが提供される。

但し、ＭＶＮなどの従来の特徴正規化技法は、通常、発話に対応したオーディオ信号の百分率（即ち、人物が発話している時間の百分率）の影響を非常に受けやすい。ランタイムにおけるオンライン発話データが、ニューラルネットワークのトレーニングに使用されたデータと格段に異なる発話の百分率を有している場合には、ＶＡＤ特徴の平均値が相応してシフトすることになり、その結果、誤解の恐れのある結果が生成されることになる。従って、音声活動検出及び特徴正規化の改善が求められている。

発明の概要
本発明の一態様は、いくつかの実施形態においては、オーディオ信号から正規化済みの音声活動検出特徴を取得する方法を特徴としている。方法は、演算システムにおいて実行され、且つ、オーディオ信号を時間フレームのシーケンスに分割するステップと、時間フレームのそれぞれごとにオーディオ信号の１つ又は複数の音声活動検出特徴を演算するステップと、時間フレームのそれぞれごとにオーディオ信号の１つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、を含む。方法は、時間フレームのそれぞれごとのオーディオ信号の１つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を比較することにより、１つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、１つ又は複数の正規化された音声活動検出特徴を取得するべく、時間フレームのそれぞれごとのオーディオ信号の１つ又は複数の音声活動検出特徴を入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングするステップと、更に含む。

いくつかの実施形態においては、発話された音声データを示すオーディオ信号の１つ又は複数の特徴は、フル帯域エネルギー、低帯域エネルギー、第１及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートのうちの１つ又は複数を含む。

いくつかの実施形態においては、１つ又は複数の正規化された音声活動検出特徴は、発話された音声データの尤度の推定値を生成するべく、使用される。

いくつかの実施形態においては、方法は、発話／非発話２値識別子及び発話活動の尤度のうちの少なくとも１つを通知する音声活動検出推定値を生成するべく、１つ又は複数の正規化済みの音声活動検出特徴を機械学習アルゴリズムに適用するステップを更に含む。

いくつかの実施形態においては、方法は、１つ又は複数の適応フィルタの適応レートを制御するべく、音声活動検出推定値を使用するステップを更に含む。

いくつかの実施形態においては、時間フレームは、時間フレームのシーケンス内においてオーバーラップしている。

いくつかの実施形態においては、方法は、スムージング、量子化、及び閾値処理のうちの少なくとも１つを含む１つ又は複数の正規化済みの音声活動検出特徴を事後処理するステップを更に含む。

いくつかの実施形態においては、１つ又は複数の正規化済みの音声活動検出特徴は、ノイズ低減、適応フィルタリング、パワーレベル差の演算、及び非発話フレームの減衰のうちの１つ又は複数によってオーディオ信号を改善するべく、使用される。

いくつかの実施形態においては、方法は、非音声データを実質的に含んでいない発話された音声データを有する浄化されたオーディオ信号（clarified audio signal）を生成するステップを更に含む。

いくつかの実施形態においては、１つ又は複数の正規化済みの音声活動検出特徴は、発話を検出するための機械学習アルゴリズムをトレーニングするべく、使用される。

いくつかの実施形態においては、１つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップは、非対称指数平均化を１つ又は複数の音声活動検出特徴に対して適用するステップを含む。いくつかの実施形態においては、方法は、スムージングされた最小値推定値及びスムージングされた最大値推定値のうちの１つの推定値の漸進的な変化及び迅速な変化のうちの１つを生成するべく選択された時定数に対応するようにスムージング係数を設定するステップを更に含む。いくつかの実施形態においては、スムージング係数は、最大値推定値の連続的な更新が、相対的に大きな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に小さな音声活動検出特徴値に応答して相対的に低速で減衰するように、選択される。いくつかの実施形態においては、スムージング係数は、最小値推定値の連続的な更新が、相対的に小さな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に大きな音声活動検出特徴値に応答して低速で増大するように、選択される。

いくつかの実施形態においては、マッピングは、normalizedFeatureValue=2×(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)-1という式に従って実行される。

いくつかの実施形態においては、マッピングは、normalizedFeatureValue=(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)という式に従って実行される。

いくつかの実施形態においては、１つ又は複数の音声活動検出特徴の入力範囲を演算するステップは、最大値のランニング推定値から最小値のランニング推定値を減算することにより、実行される。

本発明の別の態様は、いくつかの実施形態において、音声活動検出特徴を正規化する方法を特徴としている。方法は、オーディオ信号を時間フレームのシーケンスにセグメント化するステップと、音声活動検出特徴のランニング最小及び最大値推定値を演算するステップと、ランニング最小及び最大値推定値を比較することにより、入力範囲を演算するステップと、音声活動検出特徴を入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングすることにより、音声活動検出特徴を正規化するステップと、を含む。

いくつかの実施形態においては、ランニング最小及び最大値推定値を演算するステップは、ランニング最小及び最大値推定値のうちの少なくとも１つの推定値の方向的にバイアスされた変化レートを確立するように、スムージング係数を選択するステップを有する。

いくつかの実施形態においては、スムージング係数は、ランニング最大値推定値が、相対的に大きな最大値に対しては、相対的に迅速に応答し、且つ、相対的に小さな最大値に対しては、相対的に低速で応答するように、選択される。

いくつかの実施形態においては、スムージング係数は、ランニング最小値推定値が、相対的に小さな最小値に対しては、相対的に迅速に応答し、且つ、相対的に大きな最小値に対しては、相対的に低速で応答するように、選択される。

本発明の別の態様は、いくつかの実施形態においては、オーディオ信号内の音声データを識別する方法を実行するコンピュータプログラムを保存したコンピュータ可読媒体を特徴としており、コンピュータ可読媒体は、コンピュータストレージ媒体と、コンピュータストレージ媒体上において保存されたコンピュータ実行可能命令と、を含み、コンピュータ実行可能命令は、演算システムによって実行された際に、演算システムが、複数の音声活動検出特徴を演算し、音声活動検出特徴の最小及び最大値のランニング推定値を演算し、最小及び最大値のランニング推定値を比較することにより、音声活動検出特徴の入力範囲を演算し、且つ、正規化された音声活動検出特徴を取得するべく、音声活動検出特徴を入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングするように構成される。

図面の簡単な説明
本発明については、添付図面との関連における検討において以下の詳細な説明を参照することにより、更に十分に理解することができる。

一実施形態によるランニング範囲正規化を利用した音声活動検出方法を示す。一実施形態によるＶＡＤ特徴を正規化するべくランニング範囲正規化を使用する方法のプロセスフローを示す。対応するフロア及びシーリング値、並びに、結果的に得られる正規化済みのＶＡＤ特徴と共に、代表的な正規化されていないＶＡＤ特徴の時間的な変化を示す。一実施形態による音声活動検出器をトレーニングする方法を示す。一実施形態による音声活動検出器を試験する方法のプロセスフローを示す。デジタルオーディオオーディオを分析するコンピュータアーキテクチャを示す。

詳細な説明
以下の説明は、本発明の例示用の実施例に関するものに過ぎず、且つ、本発明の範囲、適用可能性、又は構成を限定することを意図したものではない。むしろ、以下の説明は、本発明の様々な実施形態を実装するための便利な例示の提供を意図している。明らかになるように、本明細書において記述されている本発明の範囲を逸脱することなしに、これらの実施形態において記述されている要素の機能及び範囲の様々な変更が実施されてもよい。従って、本明細書における詳細な説明は、限定ではなく、例示を目的として提示されるものに過ぎない。

「一実施形態」又は「実施形態」に対する本明細書における参照は、その実施形態との関連において記述されている特定の特徴、構造、又は特性が、本発明の少なくとも１つの実施形態に含まれていることを示すことを意図したものである。本明細書の様々な場所における「一実施形態又は実施形態において」というフレーズの出現は、必ずしも、そのすべてが、同一の実施形態を参照しているものではない。

本発明は、デジタルデータを分析する方法、システム、及びコンピュータプログラムプロダクトに拡張される。分析対象のデジタルデータは、例えば、デジタルオーディオファイル、デジタルビデオファイル、リアルタイムオーディオストリーム、及びリアルタイムビデオ、ストリーム、並びに、これらに類似したものの形態を有していてもよい。本発明は、デジタルデータの供給源のパターンを識別し、且つ、識別されたパターンを使用することにより、例えば、音声データを隔離又は改善するべく、デジタルデータを分析、分類、及びフィルタリングする。本発明の特定の実施形態は、デジタルオーディオに関するものである。実施形態は、任意のオーディオ供給源からの非破壊的なオーディオの隔離及び分離を実行するように設計される。

一態様においては、オーディオ信号（例えば、電話機、携帯電話機、オーディオ記録機器、又はこれらに類似したものなどのようなオーディオ装置のマイクロフォンによって受信されたオーディオ信号）が、「音声活動検出」（ＶＡＤ）と当技術分野において呼称される人間の音声に対応したオーディオを含む尤度を判定するべく使用される１つ又は複数の特徴を、連続的に正規化する方法が開示される。この方法は、「ランニング範囲正規化」と本明細書において呼称されるプロセスを含み、このプロセスは、人間の音声の様々な側面を恐らくは記述しているオーディオ信号の特徴のパラメータを追跡し、且つ、任意選択により、連続的に変更するステップを含む。限定を伴うことなしに、ランニング範囲正規化は、人間の音声がオーディオ信号の少なくとも一部分を構成していることを通知しうるオーディオ信号の１つ又は複数の特徴の最小及び最大値のランニング推定値（即ち、それぞれ、特徴フロア推定値及び特徴シーリング推定値）の演算を含んでいてもよい。対象の特徴は、オーディオ信号が人間の音声を含んでいるかどうかを示していることから、これらの特徴は、「ＶＡＤ特徴」と呼称されてもよい。特定のＶＡＤ特徴のフロア及びシーリング推定値を追跡及び変更することにより、オーディオ信号の特定の特徴が、発話された音声の存在を示しているかどうかに関する信頼性のレベルを極大化させることができる。

ＶＡＤ特徴のいくつかの非限定的な例は、フル帯域エネルギー、低帯域エネルギー（例えば、＜１ｋＨｚ）を含む様々な帯域内のエネルギー、第１及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートを含む。

図１を参照すれば、ＶＡＤ方法１００の一実施形態が示されている。ＶＡＤ方法は、（任意選択により、オーバーラップしている）時間フレームのシーケンスに分割されうる１つ又は複数のオーディオ信号（「ノイズを有する発話」）を取得するステップを含んでいてもよい（ステップ１０２）。いくつかの実施形態においては、オーディオ信号には、オーディオ信号が音声活動を含んでいるかどうかについての判定が実施される前に、なんらかの改善処理が施されてもよい。それぞれの時間フレームにおいて、それぞれのオーディオ信号は、１つ又は複数のＶＡＤ特徴を判定又は演算するべく、評価されてもよい（「ＶＡＤ特徴の演算」）（ステップ１０４）。特定の時間フレームからの１つ又は複数のＶＡＤ特徴について、ランニング範囲正規化プロセスがこれらのＶＡＤ特徴に対して実行されてもよい（「ランニング範囲正規化」）（ステップ１０６）。ランニング範囲正規化プロセスは、その時間フレームの特徴フロア推定値及び特徴シーリング推定値を演算するステップを含んでいてもよい。特徴フロア推定値と特徴シーリング推定値との間の範囲に対してマッピングすることにより、対応するＶＡＤ特徴のパラメータが、複数の時間フレームにわたって、又は、時間に伴って、正規化されてもよい（「正規化されたＶＡＤ特徴」）（ステップ１０８）。

次いで、正規化されたＶＡＤ特徴は、オーディオ信号が音声信号を含んでいるかどうかについて判定するべく、（例えば、ニューラルネットワークなどによって）使用されてもよい。このプロセスは、オーディオ信号が処理される間に、音声活動検出器を連続的に更新するべく、反復されてもよい。

正規化されたＶＡＤ特徴のシーケンスが付与された場合に、ニューラルネットワークは、発話／非発話２値決定、発話活動の尤度、又は、発話／非発話２値決定を生成するべく任意選択によって閾値が適用されうる実数を通知するＶＡＤ推定値を生成してもよい（ステップ１１０）。ニューラルネットワークによって生成されたＶＡＤ推定値には、量子化、スムージング、閾値処理、「孤立除去（orphan removal）」などのような更なる処理が適用されてもよく、その結果、オーディオ信号の更なる処理を制御するべく使用されうる事後処理済みのＶＡＤ推定値が生成される（ステップ１１２）。例えば、音声活動がオーディオ信号又はオーディオ信号の一部分内において検出されない場合には、オーディオ信号内のオーディオのその他の供給源（例えば、ノイズや音楽など）は、オーディオ信号の関連する部分から除去されてもよく、この結果、無音のオーディオ信号が得られる。また、（任意選択の事後処理を伴う）ＶＡＤ推定値は、適応フィルタの適応レートを制御するべく、又は、その他の発話改善パラメータを制御するべく、使用されてもよい。

オーディオ信号は、マイクロフォンにより、取得されてもよく、レシーバにより、電気信号として取得されてもよく、又は、任意のその他の適切な方式によって取得されてもよい。オーディオ信号は、コンピュータプロセッサ、マイクロコントローラ、又は任意のその他の適切な処理要素に送信されてもよく、これらの装置は、適切なプログラミングの制御下において動作した際に、本明細書において提供される開示に従ってオーディオ信号を分析及び／又は処理してもよい。

非限定的な実施形態として、オーディオ信号は、電話機、携帯電話機、オーディオ記録機器、或いは、これらに類似したものなどのオーディオ装置の１つ又は複数のマイクロフォンによって受信されてもよい。オーディオ信号は、デジタルオーディオ信号に変換されてもよく、且つ、次いで、オーディオ装置の処理要素に送信されてもよい。処理要素は、本開示によるＶＡＤ方法をデジタルオーディオ信号に対して適用してもよく、且つ、いくつかの実施形態においては、デジタルオーディオ信号を更に浄化するか（clarify）又はこれからノイズを除去するべく、デジタルオーディオ信号に対してその他のプロセスを実行してもよい。次いで、処理要素は、浄化済みのオーディオ信号を保存してもよく、浄化済みのオーディオ信号を送信してもよく、且つ／又は、浄化済みのオーディオ信号を出力してもよい。

別の非限定的な実施形態においては、デジタルオーディオ信号は、電話機、携帯電話機、オーディオ記録機器、オーディオ再生機器、又は、これらに類似したものなどのオーディオ装置によって受信されてもよい。デジタルオーディオ信号は、オーディオ装置の処理要素に伝達されてもよく、この処理要素は、次いで、本開示によるＶＡＤ方法をデジタルオーディオ信号に対して実施するプログラムを実行してもよい。これに加えて、処理要素は、デジタルオーディオ信号の清浄性を更に改善する１つ又は複数のその他のプロセスを実行してもよい。次いで、処理要素は、浄化済みのデジタルオーディオ信号を保存してもよく、送信してもよく、且つ／又は、可聴方式によって出力してもよい。

図２を参照すれば、ランニング範囲正規化プロセス２００は、正規化されていないＶＡＤ特徴の組を正規化済みのＶＡＤ特徴の組に変換するべく、使用される。それぞれの時間フレームにおいて、それぞれの特徴ごとに、更新済みのフロア及びシーリング推定値が演算される（ステップ２０２、２０４）。次いで、それぞれの特徴は、フロア及びシーリング推定値に基づいて、所定の範囲に対してマッピングされており（ステップ２０６）、これにより、正規化済みのＶＡＤ特徴の組が生成される（ステップ２０８）。

特徴フロア推定値及び特徴シーリング推定値は、ゼロに初期化されてもよい。或いは、この代わりに、（例えば、リアルタイムで取得されたオーディオ信号に伴う）オーディオ信号の最初の数秒における性能を最適化するべく、特徴フロア推定値及び特徴シーリング推定値を（例えば、工場などにおいて）事前に判定された代表的な値に初期化することもできよう。（例えば、電話通話の過程において、オーディオ信号が、例えば、音声を検出するべく、且つ／又は、オーディオ信号を浄化するべく、その他の方法で受信又は処理されるとき）特徴フロア推定値及び特徴シーリング推定値の更なる演算は、複数の時間フレームにわたって、それぞれ、スムージングされた特徴フロア推定値及びスムージングされた特徴シーリング推定値を追跡するべく、非対称的指数平均化の適用を含んでいてもよい。非対称指数平均化の代わりに、フロア及び／又はシーリング推定値を追跡するその他の方法が使用されてもよい。例えば、最小統計アルゴリズムは、有限ウィンドウ内において（任意選択により、周波数の関数として）ノイズを有する発話パワーの最小値を追跡する。

特徴フロア推定値の文脈において、非対称指数平均化の使用は、オーディオ信号からの新しいＶＡＤ特徴の値を特徴フロア推定値と比較するステップと、新しいＶＡＤ特徴の値が特徴フロア推定値を超過している場合に、特徴フロア推定値を徐々に増大させるステップと、を含んでいてもよい。特徴フロア推定値の漸進的な増大は、５秒以上などの低速な時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。代替例においては、オーディオ信号からの新しいＶＡＤ特徴の値が特徴フロア推定値未満である場合には、特徴フロア推定値は、迅速に減少させられてもよい。特徴フロア推定値の迅速な減少は、１秒以下などの高速の時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。featureFloor_new=cFloor×featureFloor_previous+(1-cFloor)×newFeatureValueという式は、非対称指数平均化を特徴フロア推定値に対して適用するべく使用されうるアルゴリズムを表しており、この場合に、ｃＦｌｏｏｒは、現時点のフロアスムージング係数であり、featureFloor_previousは、以前のスムージング済みの特徴フロア推定値であり、newFeatureValueは、最も最近の正規化されていないＶＡＤ特徴であり、且つ、featureFloor_newは、新しいスムージング済みの特徴フロア推定値である。

特徴シーリング推定値の文脈において、非対称指数平均化の使用は、オーディオ信号からの新しいＶＡＤ特徴の値を特徴シーリング推定値と比較するステップを含んでいてもよい。新しいＶＡＤ特徴が特徴シーリング推定値未満の値を有している場合には、特徴シーリング推定値は、徐々に減少させられてもよい。特徴フロア推定値の漸進的な減少は、５秒以上などの低速時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。その代わりに、新しいＶＡＤ特徴が特徴シーリング推定値を上回っている場合には、特徴シーリング推定値は、迅速に増大させられてもよい。特徴シーリング推定値の迅速な増大は、１秒以下などの高速の時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。特定の一実施形態においては、非対称指数平均化を特徴シーリング推定値に対して適用するべく、featureCeil_new=cCeil*featureCeil_previous+(l-cCeil)*newFeatureValueというアルゴリズムが使用されてもよく、この場合に、cCeilは、現時点のシーリングスムージング係数であり、featureCeil_previousは、以前のスムージング済みの特徴シーリング推定値であり、newFeatureValueは、最も最近の正規化されていないＶＡＤ特徴であり、且つ、featureCeil_newは、新しいスムージング済みの特徴シーリング推定値である。

図３の上部のプロットには、代表的な一連の正規化されていないＶＡＤ特徴値及び対応するフロア及びシーリング値が示されている。実線は、フレームからフレームへと変化するのに伴う正規化されていないＶＡＤ特徴値を示しており、破線は、対応するシーリング値を示し、且つ、一点鎖線は、対応するフロア値を示している。特徴シーリング推定値は、新しいピークに対して迅速に応答しているが、小さな特徴値に応答して低速で減衰している。同様に、特徴フロア推定値は、小さな特徴値に対して迅速に応答しているが、大きな値に応答して低速で増大している。

通常は、０．２５秒のレベルの時定数を使用している高速の係数は、特徴フロア及びシーリング値が最小及び最大特徴値のランニング推定値において迅速に収束することを許容している一方で、低速の係数は、ＭＶＮなどの正規化技法の場合に実際的であるものよりも格段に長い時定数（１８秒など）を使用することができる。低速の時定数によれば、ランニング範囲正規化は、発話の百分率の影響を格段に受けなくなり、その理由は、featureCeil値が、長期の無音の際に、最大特徴値を記憶する傾向を有することになるからである。発話者が発話を再度始めた際に、高速の時定数は、featureCeilが新しい最大特徴値に迅速に接近することを支援することになる。これに加えて、ランニング範囲正規化は、ノイズフロアに対応した最小特徴値の明示的な推定値を生成する。ＶＡＤ閾値は、ノイズフロアに相対的に近接する傾向を有することから、これらの明示的な最小特徴推定値は、平均及び分散を追跡することによって実現される黙示的な推定値よりも有用であるものと考えらえる。いくつかの用途においては、例えば、シーリング推定値をフロア推定値よりも迅速に適応させるべく、フロア及びシーリング推定値について異なる時定数のペアを使用することが有利である場合があり、この逆も又真である。

特徴フロア推定値及び特徴シーリング推定値が特定のＶＡＤ特徴について算出されたら、特徴フロア推定値と特徴シーリング推定値との間の範囲を望ましいターゲット範囲にマッピングすることにより、ＶＡＤ特徴が正規化されてもよい。望ましいターゲット範囲は、任意選択により、−１から＋１まで延在していてもよい。特定の一実施形態においては、マッピングは、

という式を使用することにより、実行されてもよい。

図３の下部プロットには、結果的に得られる正規化済みの特徴値が示されており、これは、図３の上部プロットにおける正規化されていない特徴値に対応している。この例においては、正規化済みの特徴値は、−１から＋１までの望ましいターゲット範囲をほぼ占有する傾向を有している。これらの正規化済みの特徴値は、一般に、変化する環境条件に対して相対的に安定しており、且つ、ＶＡＤニューラルネットワークのトレーニング及び適用のために相対的に有用である。

同様に、望ましいターゲット範囲が０から＋１である場合には、マッピングは、

という式を使用することにより、実行されてもよい。同様に、様々な非線形マッピングが使用されてもよい。

一般に、正規化されていないＶＡＤ特徴値は、しばしば、スムージング済みのフロア及びシーリング推定値の遅延応答に起因して、現時点のフロア及びシーリング推定値の間の範囲外となり、その結果、正規化済みのＶＡＤ特徴値も、望ましいターゲット範囲外となる。これは、通常、ニューラルネットワークのトレーニング及び適用を目的とした場合には、問題とならないが、適宜、ターゲット範囲の最大値を上回る正規化済みの特徴値をターゲット範囲の最大値に設定することが可能であり、同様に、ターゲット範囲の最小値を下回る正規化済みの特徴をターゲット範囲の最小値に設定することもできる。

別の態様においては、先程開示したものなどのＶＡＤ方法は、音声活動検出器のトレーニングのために使用されてもよい。このようなトレーニング方法は、ノイズ信号及びクリーンな発話信号を含む複数のトレーニング信号の使用を含んでいてもよい。ノイズ信号とクリーンな発話信号は、ノイズを有する発話信号を生成するべく、様々な信号対ノイズ比において混合されてもよい。

音声活動検出器のトレーニングは、結果的に複数のＶＡＤ特徴を判定又は演算するべく、ノイズを有する発話信号を処理するステップを含んでいてもよい。正規化済みのＶＡＤ特徴を提供するべく、本明細書において先程開示したものなどのランニング範囲正規化プロセスがＶＡＤ特徴に適用されてもよい。

別個に、クリーンな発話のために最適化された音声活動検出器が、複数のノイズを有するオーディオ信号に対応した複数のクリーンなオーディオ信号に対して適用されてもよい。クリーンな発話のために最適化された音声活動検出器によってクリーンなオーディオ信号を処理することにより、ＶＡＤ特徴のグラウンドトルースデータを取得してもよい。

次いで、ノイズを有するオーディオ信号から導出されたグラウンドトルースデータ及び正規化されたＶＡＤ特徴は、ニューラルネットワークが、類似した正規化済みのＶＡＤ特徴の組を、対応したグラウンドトルースデータと関連付けることを「学習」しうるように、ニューラルネットワークのトレーニングのために使用されてもよい。

図４を参照すれば、音声活動検出器をトレーニングする方法４００の一実施形態が示されている。ＶＡＤをトレーニングする方法４００は、所与の信号対ノイズ比を有する「ノイズを有する発話」の例を生成するべく、クリーンな発話データ４０２をノイズデータ４０４と混合するステップを含んでいてもよい（ステップ４０６）。それぞれのノイズを有する発話信号は、それぞれの時間フレームごとに１つ又は複数のＶＡＤ特徴を判定又は演算するべく評価されてもよい（「VadFeaturesの演算」）（ステップ４０８）。最も最近の時間フレームからの１つ又は複数のＶＡＤ特徴と、任意選択により、１つ又は複数の以前の時間フレームから導出された特徴情報と、を使用することにより、ランニング範囲正規化プロセスがこれらのＶＡＤ特徴に対して実行されてもよい（「ランニング範囲正規化」）（ステップ４１０）。ランニング範囲正規化プロセスは、それぞれの時間フレームごとに特徴フロア推定値及び特徴シーリング推定値を演算するステップを含んでいてもよい。特徴フロア推定値及び特徴シーリング推定値の間の範囲を望ましいターゲット範囲に対してマッピングすることにより、対応したＶＡＤ特徴のパラメータが、複数の時間フレームにわたって、又は、時間に伴って、正規化されてもよい（「正規化済みのＶＡＤ特徴」）（ステップ４１２）。

「グラウンドトルースＶＡＤデータ」は、クリーンな発話データのハンドマーキングによって取得されてもよく、又は、その入力が、ノイズを有する発話及びＶＡＤ特徴が導出されたものと同一のクリーンな発話データである従来のＶＡＤから取得されてもよい（ステップ４１４）。次いで、ニューラルネットワークは、ニューラルネットワークが、正規化済みのＶＡＤ特徴の特定の組合せ及び／又はシーケンスが特定のタイプのグラウンドトルースＶＡＤデータに対応しているという事実から外挿（「学習」）しうるように、正規化済みのＶＡＤ特徴及びグラウンドトルースＶＡＤデータを使用することにより、トレーニングされる（ステップ４１６）。

音声活動検出器がトレーニングされたら、トレーニング済みの音声活動検出器、並びに、その最適化された正規化済みのＶＡＤ特徴が試験されてもよい。図５は、音声活動検出器を試験する方法５００の一実施形態のプロセスフローを示している。トレーニング済みの音声活動検出器の試験は、クリーンな発話データ５０２（例えば、更なるトレーニング信号）及びノイズデータ５０４のうちの１つ又は複数の更なる組を利用してもよく、これらの組は、ノイズを有する発話信号を生成するべく、様々な信号対ノイズ比において１つに混合されてもよい（ステップ５０６）。それぞれの時間フレームにおいて、ＶＡＤ特徴の組が、ノイズを有する発話から演算されており（ステップ５０８）、且つ、対応した正規化済みのＶＡＤ特徴の組を生成するべく、ランニング範囲正規化プロセスが使用される（ステップ２１０）。これらの正規化済みのＶＡＤ特徴は、ニューラルネットワークに対して適用される（ステップ５１２）。ニューラルネットワークは、任意選択により、スムージング、量子化、閾値処理、又はその他の事後処理が実行されうるＶＡＤ推定を生成するべく、構成及びトレーニングされる（ステップ５１４）。別個に、グラウンドトルースＶＡＤデータの組５１８を生成するべく、クリーンな発話データが、クリーンな発話のために最適化されたＶＡＤに対して適用されており（ステップ５１６）、グラウンドトルースＶＡＤデータの組には、任意選択により、スムージング、量子化、閾値処理、又はその他の事後処理が実施されてもよい（ステップ５２０）。ニューラルネットワークからの（任意選択によって事後処理済みの）ＶＡＤ推定値及び（任意選択によって事後処理済みの）グラウンドトルースＶＡＤデータを「精度」及び「リコール」などの正確性の尺度を演算するプロセスに適用することにより、開発者が最良の性能のためにアルゴリズムを微細チューニングできるようにしてもよい（ステップ５２２）。

また、本発明の実施形態は、デジタルデータを分析するコンピュータプログラムプロダクトに拡張されてもよい。このようなコンピュータプログラムプロダクトは、デジタルデータを分析する方法を実行するべく、コンピュータプロセッサ上においてコンピュータ実行可能命令を実行するように意図されたものであってもよい。このようなコンピュータプログラムプロダクトは、エンコードされたコンピュータ実行可能命令を有するコンピュータ可読媒体を有していてもよく、この場合に、コンピュータ実行可能命令は、適切なコンピュータ環境において適切なプロセッサにおいて実行された際に、本明細書において更に記述されているように、デジタルデータを分析する方法を実行する。

本発明の実施形態は、更に詳細に後述するように、例えば、１つ又は複数のコンピュータプロセッサ及びデータストレージ又はシステムメモリなどのコンピュータハードウェアを含む特殊目的又は汎用コンピュータを含んでいてもよく、或いは、利用していてもよい。また、本発明の範囲内の実施形態は、コンピュータ実行可能命令及び／又はデータ構造を担持又は保存する物理的な且つその他のコンピュータ可読媒体をも含んでいる。このようなコンピュータ可読媒体は、汎用又は特殊目的コンピュータシステムによってアクセスされうる任意の入手可能な媒体であってもよい。コンピュータ実行可能命令を保存するコンピュータ可読媒体は、コンピュータストレージ媒体である。コンピュータ実行可能命令を担持するコンピュータ可読媒体は、送信媒体である。従って、限定ではなく、例として、本発明の実施形態は、コンピュータストレージ媒体及び送信媒体という少なくとも２つの明確に異なる種類のコンピュータ可読媒体を含むことができる。

コンピュータストレージ媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ又はその他の光ディスクストレージ、磁気ディスクストレージ、又はその他の磁気ストレージ装置、或いは、コンピュータ実行可能命令又はデータ構造の形態を有する望ましいプログラムコード手段を保存するべく使用されうると共に汎用又は特殊目的コンピュータによってアクセスされうる任意のその他の物理媒体を含む。

「ネットワーク」は、コンピュータシステム及び／又はモジュール及び／又はその他の電子装置の間における電子データの搬送を可能にする１つ又は複数のデータリンクとして定義される。情報がネットワーク又は別の通信接続（有線、無線、又は有線又は無線の組合せ）上においてコンピュータに転送又は提供された際に、コンピュータは、接続を送信媒体として適切に見なす。送信媒体は、汎用又は特殊目的コンピュータによって受信又はアクセスされうるコンピュータ実行可能命令及び／又はデータ構造の形態を有する望ましいプログラムコード手段を担持又は送信するべく使用されうるネットワーク及び／又はデータリンクを含みうる。また、上述のものの組合せも、コンピュータ可読媒体の範囲に含まれている。

更には、様々なコンピュータシステムコンポーネントに到達した際に、コンピュータ実行可能命令又はデータ構造の形態を有するプログラムコード手段は、送信媒体からコンピュータストレージ媒体に自動的に転送することもできる（逆も又真である）。例えば、ネットワーク又はデータリンク上において受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェイスモジュール（例えば、「ＮＩＣ：Network Interface Module」）のＲＡＭ内においてバッファ保存することが可能であり、且つ、次いで、最終的に、コンピュータシステムのＲＡＭ及び／又はコンピュータシステムにおける相対的に低揮発性のコンピュータストレージ媒体に転送することもできる。従って、コンピュータストレージ媒体は、こちらも（又は、恐らくは、主に）送信媒体を利用しているコンピュータシステムコンポーネントに含まれうることを理解されたい。

コンピュータ実行可能命令は、例えば、プロセッサにおいて実行された際に、汎用コンピュータ、特殊目的コンピュータ、又は、特殊目的処理装置が、特定の機能又は機能のグループを実行するようにする命令及びデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上において直接的に実行されうるバイナリ、アセンブリ言語などの中間フォーマット命令、或いは、場合によっては、特定の機械又はプロセッサをターゲットとしたコンパイラによるコンパイルを必要としうる相対的にハイレベルなソースコードであってもよい。主題は、構造的な特徴及び／又は方法の動作に固有の言語において記述されているが、添付の請求項において定義されている主題は、必ずしも、記述されている特徴又は上述されている動作に限定されるものではないことを理解されたい。むしろ、記述されている特徴及び動作は、請求項を実装するための例示用の形態として開示されている。

当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサに基づいた又はプログラム可能な消費者電子装置、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、携帯電話機、ＰＤＡ、ページャ、ルーター、スイッチ、及びこれらに類似したものを含む多くのタイプのコンピュータシステム構成を有するネットワーク演算環境において実施されうることを理解するであろう。また、本発明は、ネットワークを通じて（有線データリンクにより、無線データリンクにより、又は、有線及び無線データリンクの組合せによって）リンクされたローカル及びリモートコンピュータシステムの両方がタスクを実行する分散システム環境において実施されてもよい。分散システム環境においては、プログラムモジュールは、ローカル及びリモートメモリストレージ装置内において配置されてもよい。

図６を参照すれば、デジタルオーディオデータを分析するための例示用のコンピュータアーキテクチャ６００が示されている。本明細書においてコンピュータシステム６００とも呼称されているコンピュータアーキテクチャ６００は、１つ又は複数のコンピュータプロセッサ６０２と、データストレージと、を含む。データストレージは、演算システム６００内のメモリ６０４であってもよく、且つ、揮発性又は不揮発性メモリであってもよい。また、演算システム６００は、データ又はその他の情報の表示のためのディスプレイ６１２を含んでいてもよい。また、演算システム６００は、演算システム６００が、例えば、（恐らくは、インターネット６１０などの）ネットワーク上において、その他の演算システム、装置、又はデータソースと通信することを許容する通信チャネル６０８を含んでいてもよい。また、演算システム６００は、デジタル又はアナログデータの供給源へのアクセスを許容するマイクロフォン６０６などの入力装置を含んでいてもよい。このようなデジタル又はアナログデータは、例えば、オーディオ又はビデオデータであってもよい。デジタル又はアナログデータは、動作中のマイクロフォンからのものなどのリアルタイムストリーミングデータの形態を有していてもよく、或いは、データストレージ６１４からアクセスされる保存データであってもよく、データストレージ６１４は、演算システム６００によって直接的にアクセスされることも可能であり、或いは、通信チャネル６０８を通じて又はインターネット６１０などのネットワークを介して、相対的に遠隔方式でアクセスされることも可能である。

通信チャネル６０８は、送信媒体の例である。送信媒体は、通常、搬送波又はその他の搬送メカニズムなどの変調されたデータ信号内において、コンピュータ可読命令、データ構造、プログラムモジュール、或いは、その他のデータを実施し、且つ、任意の情報供給媒体を含んでいる。限定ではなく、例として、送信媒体は、有線ネットワーク及び直接的な有線接続などの有線媒体と、音響、高周波、赤外線、及びその他の無線媒体などの無線媒体と、を含む。本明細書において使用されている「コンピュータ可読媒体」という用語は、コンピュータストレージ媒体と送信媒体との両方を含む。

また、本発明の範囲内の実施形態は、その上部において保存されたコンピュータ実行可能命令又はデータ構造を担持又は有するコンピュータ可読媒体をも含む。「コンピュータストレージ媒体」と呼称されるこのような物理的なコンピュータ可読媒体は、汎用又は特殊目的コンピュータによってアクセスされうる任意の入手可能な物理媒体であってもよい。限定ではなく、例として、このようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、又はその他の光ディスクストレージ、磁気ディスクストレージ、又はその他の磁気ストレージ装置、或いは、コンピュータ実行可能命令又はデータ構造の形態を有する望ましいプログラムコード手段を保存するべく使用されうると共に汎用又は特殊目的コンピュータによってアクセスされうる任意のその他の物理媒体などの物理的なストレージ及び／又はメモリ媒体を含みうる。

コンピュータシステムは、例えば、ローカルエリアネットワーク（「ＬＡＮ：Local Area Network」）、ワイドエリアネットワーク（「ＷＡＮ：Wide Area Network」）、無線ワイドエリアネットワーク（「ＷＷＡＮ：Wireless Wide Area Network」）、及び、場合によっては、インターネット１１０などのネットワーク上において互いに接続されていてもよい（又は、その一部分であってもよい）。従って、図示のコンピュータシステム、並びに、任意のその他の接続されたコンピュータシステムのそれぞれ及びそのコンポーネントは、メッセージに関係したデータを生成することが可能であり、且つ、メッセージに関係したデータ（例えば、インターネットプロトコル（「ＩＰ：Internet Protocol」）データグラム、並びに、送信制御プロトコル（「ＴＣＰ：Transmission Control Protocol」）、ハイパーテキスト転送プロトコル（「ＨＴＴＰ：Hipertext Transfer Protocol」）、シンプルメール転送プロトコル（「ＳＭＴＰ：Simple Mail Transfer Protocol」）などのようなＩＰデータグラムを利用したその他の相対的に高位の層プロトコル）をネットワーク上において交換することができる。

開示されている主題のその他の態様、並びに、様々な態様の特徴及び利点については、以上において提供されている開示、添付図面、及び添付の請求項の検討を通じて、当業者に明らかとなろう。

以上の開示は、多数の具体的な事項を提供しているが、これらは、添付の請求項のうちのいずれかの請求項の範囲を限定するものと解釈されてはならない。請求項の範囲を逸脱しないその他の実施形態が考案されてもよい。異なる実施形態の特徴が、組合せにおいて利用されてもよい。

最後に、様々な例示用の実施形態を参照し、本発明について上述したが、本発明の範囲を逸脱することなしに、これらの実施形態に対して、多くの変更、組合せ、及び変形が実施されてもよい。例えば、本発明は、発話検出において使用されるものとして記述されているが、本発明の態様は、その他のオーディオ、ビデオ、データ検出方式に対して容易に適用されうる。更には、様々な要素、コンポーネント、及び／又はプロセスは、代替方法によって実装されてもよい。これらの代替肢は、特定の用途に応じて、且つ、方法又はシステムの実装形態又は動作と関連した任意の数の要因を考慮することにより、適切に選択することができる。これに加えて、本明細書において記述されている技法は、その他のタイプの用途及びシステムと共に使用されるように、拡張又は変更されてもよい。これらの及びその他の変化又は変形は、本発明の範囲に含まれるものと解釈されたい。

Claims

オーディオ信号から正規化済みの音声活動検出特徴を取得する方法であって、
演算システムにおいて、オーディオ信号を時間フレームのシーケンスに分割するステップと、
前記時間フレームのそれぞれごとに前記オーディオ信号の１つ又は複数の音声活動検出特徴を演算するステップと、
前記時間フレームのそれぞれごとに前記オーディオ信号の前記１つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、
前記時間フレームのそれぞれごとの前記オーディオ信号の前記１つ又は複数の音声活動検出特徴の前記最小及び最大値の前記ランニング推定値を比較することにより、前記１つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、
１つ又は複数の正規化済みの音声活動検出特徴を取得するべく、前記時間フレームのそれぞれごとの前記オーディオ信号の前記１つ又は複数の音声活動検出特徴を前記入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングするステップと、
を含む方法。
発話された音声データを示す前記オーディオ信号の前記１つ又は複数の特徴は、フル帯域エネルギー、低帯域エネルギー、第１及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートのうちの１つ又は複数を含む請求項１に記載の方法。
前記１つ又は複数の正規化済みの音声活動検出特徴は、発話された音声データの尤度の推定値を生成するべく、使用される請求項１に記載の方法。
発話／非発話２値識別子及び発話活動の尤度のうちの少なくとも１つを示す音声活動検出推定値を生成するべく、前記１つ又は複数の正規化済みの音声活動検出特徴を機械学習アルゴリズムに対して適用するステップを更に含む請求項１に記載の方法。
１つ又は複数の適応フィルタの適応レートを制御するべく、前記音声活動検出推定値を使用するステップを更に含む請求項４に記載の方法。
前記時間フレームは、前記時間フレームのシーケンス内においてオーバーラップしている請求項１に記載の方法。
スムージング、量子化、及び閾値処理のうちの少なくとも１つを含む前記１つ又は複数の正規化済みの音声活動検出特徴を事後処理するステップを更に含む請求項１に記載の方法。
前記１つ又は複数の正規化済みの音声活動検出特徴は、ノイズ低減、適応フィルタリング、パワーレベル差の演算、及び非発話フレームの減衰のうちの１つ又は複数により、前記オーディオ信号を改善するべく使用される請求項１に記載の方法。
非音声データを実質的に含んでいない前記発話された音声データを有する浄化済みのオーディオ信号を生成するステップを更に含む請求項１に記載の方法。
前記１つ又は複数の正規化済みの音声活動検出特徴は、発話を検出するように機械学習アルゴリズムをトレーニングするべく使用される請求項１に記載の方法。
前記１つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップは、非対称指数平均化を前記１つ又は複数の音声活動検出特徴に対して適用するステップを含む請求項１に記載の方法。
スムージング済みの最小値推定値及びスムージング済みの最大値推定値のうちの１つの推定値の漸進的な変化及び迅速な変化のうちの１つを生成するべく選択された時定数に対応するようにスムージング係数を設定するステップを更に含む請求項１１に記載の方法。
前記スムージング係数は、最大値推定値の連続的な更新が、相対的に大きな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に小さな音声活動検出特徴値に応答して相対的に低速で減少するように、選択されている請求項１２に記載の方法。
前記スムージング係数は、最小値推定値の連続的な更新が、相対的に小さな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に大きな音声活動検出特徴値に応答して低速で増大するように、選択されている請求項１２に記載の方法。
前記マッピングステップは、normalizedFeatureValue=2×(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)-1という式に従って実行される請求項１に記載の方法。
前記マッピングステップは、normalizedFeatureValue=(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)という式に従って実行される請求項１に記載の方法。
前記１つ又は複数の音声活動検出特徴の入力範囲の前記演算は、前記最大値の前記ランニング推定値から前記最小値の前記ランニング推定値を減算することにより、実行される請求項１に記載の方法。
音声活動検出特徴を正規化する方法であって、
オーディオ信号を時間フレームのシーケンスにセグメント化するステップと、
音声活動検出特徴のランニング最小及び最大値推定値を演算するステップと、
前記ランニング最小及び最大値推定値を比較することにより、入力範囲を演算するステップと、
前記音声活動検出特徴を前記入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングすることにより、前記音声活動検出特徴を正規化するステップと、
を含む方法。
ランニング最小及び最大値推定値を演算するステップは、前記ランニング最小及び最大値推定値のうちの少なくとも１つの推定値の方向的にバイアスされた変化レートを確立するように、スムージング係数を選択するステップを含む請求項１８に記載の方法。
前記スムージング係数は、前記ランニング最大値推定値が、相対的に大きな最大値に対して相対的に迅速に応答し、且つ、相対的に小さな最大値に対して相対的に低速で応答するように、選択されている請求項１９に記載の方法。
前記スムージング係数は、前記ランニング最小値推定値が、相対的に小さな最小値に対して相対的に迅速に応答し、且つ、相対的に大きな最小値に対して相対的に低速で応答するように、選択されている請求項１９に記載の方法。
オーディオ信号内の音声データを識別する方法を実行するコンピュータプログラムを保存するコンピュータ可読媒体であって、前記コンピュータ可読媒体は、コンピュータストレージ媒体と、前記コンピュータストレージ媒体上において保存されたコンピュータ実行可能命令と、を含んでおり、前記コンピュータ実行可能命令は、演算システムによって実行された際に、前記演算システムが、
複数の音声活動検出特徴を演算し、
前記音声活動検出特徴の最小及び最大値のランニング推定値を演算し、
前記最小及び最大値の前記ランニング推定値を比較することにより、前記音声活動検出特徴の入力範囲を演算し、
正規化済みの音声活動検出特徴を取得するべく、前記音声活動検出特徴を前記入力範囲から１つ又は複数の望ましいターゲット範囲にマッピングする、
ように構成されている、コンピュータ可読媒体。