JP4652575B2 - バレーパーセンテージを使用した純粋音声の検出 - Google Patents
バレーパーセンテージを使用した純粋音声の検出 Download PDFInfo
- Publication number
- JP4652575B2 JP4652575B2 JP2000585861A JP2000585861A JP4652575B2 JP 4652575 B2 JP4652575 B2 JP 4652575B2 JP 2000585861 A JP2000585861 A JP 2000585861A JP 2000585861 A JP2000585861 A JP 2000585861A JP 4652575 B2 JP4652575 B2 JP 4652575B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- speech
- window
- audio
- pure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims abstract description 207
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000000877 morphologic effect Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 17
- 239000000203 mixture Substances 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000003628 erosive effect Effects 0.000 claims description 17
- 238000004140 cleaning Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims 2
- 230000008707 rearrangement Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000001594 aberrant effect Effects 0.000 abstract 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000182 glucono-delta-lactone Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- KWYUFKZDYYNOTN-UHFFFAOYSA-M potassium hydroxide Substances [OH-].[K+] KWYUFKZDYYNOTN-UHFFFAOYSA-M 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000264 sodium ferrocyanide Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Machine Translation (AREA)
Description
(技術分野)
本発明は、コンピュータによる人間の音声の検出に関し、より詳細には、純粋音声(pure-speech)信号と混合音声(mixed-speech)信号または非音声(non-speech)信号の両方を含むオーディオ信号中の純粋音声信号の検出に関する。
【0002】
(発明の背景)
音は一般に、音楽、雑音および/または人間の音声の混合物を含む。音の中から人間の音声を検出する能力は、ディジタルオーディオ信号の処理、分析および符号化など、多くの分野で重要な応用がある。例えば、音楽または音声のいずれか一方を含む純音を、より効率的に圧縮するための専用コーデック(圧縮/解凍アルゴリズム)が開発されている。したがって、大部分のディジタルオーディオ信号の応用では、保管、検索、処理または伝送のために、オーディオ信号をよりコンパクトに表現するため、専用コーデックを適用する前にある形式の音声検出を使用する。
【0003】
しかし、音楽、雑音および音声の混合物を含む音によって生成されたオーディオ信号の中から、人間の音声をコンピュータによって正確に検出することは、容易な作業ではない。既存の大部分の音声検出法は、オーディオ信号によって生成された波形パターンのスペクトル解析および統計解析を使用する。課題は、非音声または混合音声信号から純粋音声信号を、高い信頼性で区別する波形パターンの特徴を識別することにある。
【0004】
例えば、既存のいくつかの音声検出法は、ゼロ交差レート(zero-crossing rate: ZCR)として知られる特定の特徴を利用する。J.Saunders, 「Real-time Discrimination of Broadcast Speech/Music」, Proc. ICASSP'96, pp.993-996, 1996を参照されたい。ZCRの特徴は、波形中のスペクトルエネルギー分布の重み付き平均を与える。人間の音声は一般に、ZCRの高いオーディオ信号を生成し、雑音または音楽などのその他の音は、このような信号を生成しない。しかし、この特徴は、常に信頼できるとは限らない。人間の音声のZCRとは区別がつかないZCRを有するオーディオ信号を生み出す、非常に打撃性の音楽または構造化された雑音から成る音があるからである。
【0005】
既存のその他の方法は、音声検出の正確度を高めようと、ZCRの特徴を含むいくつかの特徴を、複雑な統計的特徴解析とともに使用する。J.D.Hoyt and H.Wechsler, 「Detection of Human Speech in Structured Noise」, Proc. ICASSP'94, Vol.II, 237-240, 1994およびE.Scheirer and M.Slaney, 「Construction and Evaluation of A Robust Multifeature Speech/Music Discriminator」, Proc.ICASSP'97, 1997を参照されたい。Scheirer文献に記載されている1つの特徴は、「低エネルギー」フレームのパーセンテージ、すなわちウィンドウ内の平均RMSパワーの50%よりも小さいRMSパワーを有するフレームの割合である。
【0006】
多くの研究が人間の音声検出に向けられたが、これらの既存の方法はいずれも、現代のマルチメディア応用向け音声検出システムの望ましい特性、すなわち高い精度、ロバストネス、短い時間遅れおよび低い複雑さのうち、1または複数の特性を満たすことに失敗している。
【0007】
ディジタルオーディオ信号の応用において精度が高いことが望ましいのは、音声の開始および停止の時刻または境界を1秒未満の正確さでほぼ「正確に」決定することが重要だからである。人間の介入なしに異なるレートで標本化される可能性がある雑音、音楽、歌、会話、コマーシャルなどを含む混合音を含むオーディオ信号を処理することができるよう、音声検出システムはロバストであることが望ましい。さらに、大部分のディジタルオーディオ信号の応用は、実時間利用である。したがって、合理的なコストでの実時間実行のためには、使用する音声検出法が、数秒のうちに、できるだけ単純に結果を生成できれば有益である。
【0008】
(発明の概要)
本発明は、オーディオ信号の中から人間の音声を検出する改良方法を提供する。この方法は、バレーパーセンテージ(Valley Percentage: VP)という特徴として識別される、オーディオ信号の新規な特徴を使用する。これは、既存の周知の特徴よりも正確に非音声および混合音声信号から純粋音声信号を区別する。この方法は、ソフトウェアプログラムモジュールで実行されるが、ディジタルハードウェアロジック、またはハードウェアコンポーネントとソフトウェアコンポーネントを組み合わせの中でも実行することもできる。
【0009】
この方法の一実施態様は、移動する時間ウィンドウを通して所定数の標本を見ることによって、標本のストリームから連続したオーディオの標本に作用する。特徴計算コンポーネントは、それぞれの時刻に、与えられたウィンドウの周囲のオーディオ標本に関して、特定のオーディオ標本について、オーディオ信号の低エネルギー部分(谷(Valley))をオーディオ信号の高エネルギー部分(山)との比較で測定することによって、VP値を計算する。直観的には、VPは、山間の谷の領域のようなものである。人間の音声は、音楽、雑音などのその他の種類の音よりも高いVPを有する傾向があるため、VPは、非音声または混合音声信号から純粋音声信号を検出するのに非常に有用である。
【0010】
最初の標本ウィンドウを処理した後、ウィンドウは、ストリーム中の次のオーディオ標本に移動する(前進する)。特徴計算コンポーネントは、VPの計算を、ストリーム中のオーディオ標本の次のウィンドウを使用して繰り返す。この移動および計算プロセスが、オーディオ信号中の各々の標本に対するVPが計算されるまで繰り返される。決定プロセッサコンポーネントは、計算されたVP値をVPのしきい値と比較することによって、これらのオーディオ標本を純粋音声または非音声の分類に分類する。
【0011】
実際には、実世界のディジタルオーディオデータの中で、人間の音声は通常、少なくとも数秒以上続く。したがって、音声検出の正確度は一般に、自身は純粋音声に分類され、近隣の標本が非音声に分類された孤立したオーディオ標本を除去することによって改善される。この逆も成り立つ。しかし同時に、音声セグメントと非音声セグメントの間の境界が、はっきりと維持されることが望ましい。
【0012】
この実施態様では、決定プロセッサコンポーネントによって生成された(「1」と「0」のストリングを含む)2値音声決定マスクに、フィルタを適用することによって、ポスト決定プロセッサコンポーネントが達成される。具体的には、ポスト決定プロセッサコンポーネントは、2値決定マスク値に、形態素オープニングフィルタ(morphological opening filter)、次いで形態素クロージングフィルタ(morphological closing filter)を適用する。その結果、孤立した純粋音声または非音声マスク値が排除される(孤立した「1」および「0」の排除)。残るのは、オーディオ信号の純粋音声部分と非音声部分の境界を識別する所望の音声検出マスクである。
【0013】
この方法の実施態様は、音声検出の正確度を高めるためにその他の特徴を含むことができる。例えば、音声検出法は、好ましくはプリプロセッサコンポーネントを含み、VPの特徴を計算する前に、不要な雑音をフィルタリングしてオーディオ信号をきれいにする。一実施態様では、プリプロセッサコンポーネントは、まずオーディオ信号をエネルギー成分に変換し、次いでこのエネルギー成分を形態素クロージングフィルタに適用することによって、オーディオ信号をきれいにする。
【0014】
この方法は、音楽、音声および雑音の混合物を含むオーディオ信号から人間の音声の検出を、サンプリングレートに関係なく効率的に実施する。しかし、より優れた結果を得るため、ウィンドウサイズおよびしきい値を支配するいくつかのパラメータをこの方法によって実装することができる。これらのパラメータを決定する実施態様には、監視されたディジタルオーディオ信号の応用など多くの代替態様があるが、この応用を演繹的にトレーニングすることによってパラメータが事前に決定される。サンプリングレートおよび音声境界が既知のトレーニングオーディオ標本を使用して、パラメータの最適値を固定する。監視の無い環境などの他の実施態様では、これらのパラメータの適応決定が可能である。
【0015】
本発明のその他の利点および特徴は、以下の詳細な説明および添付図面から明らかとなろう。
【0016】
(詳細な説明)
(人間の音声検出法の概要)
以下のセクションでは、オーディオ信号から人間の音声を検出する改良方法を説明する。この方法では、入力オーディオ信号が、サンプリングレートが固定された離散的なオーディオ標本の連続ストリームから成るものとする。この方法の目標は、入力オーディオ信号から純粋音声の存在およびスパンを検出することにある。
【0017】
音は、音源に応じたある特徴的な特徴を持った波形パターンを有するオーディオ信号を生成する。大部分の音声検出法は、この性質を利用して、どの特徴が人間の音声音と高い信頼性で関連するかの識別を試みる。既存の周知の特徴を使用するその他の人間の音声検出法とは異なり、この人間の音声検出の改良方法は、人間の音声に高い信頼性で関連すると識別されるバレーパーセンテージ(VP)と呼ばれる新規な特徴を使用する。
【0018】
音声検出法の一実施態様を説明する前に、残りの説明を通して使用される一連の定義を最初に説明する。
【0019】
(定義1 ウィンドウ:)
ウィンドウは、固定された数の離散的なオーディオ標本(またはこのようなオーディオ標本から導き出される値)から成る連続したストリームを指す。この方法は主に、ウィンドウの中間点の近くに位置する中央の標本について繰り返し作用するが、常に、特定の時刻にウィンドウを通して見られる周囲の標本との関係において検討される。ウィンドウが、次のオーディオ標本に移動する(前進する)と、ウィンドウの先頭のオーディオ標本は視界から排除され、新しいオーディオ標本がウィンドウの末尾に追加される。さまざまなサイズのウィンドウを使用して、いくつかの作業を達成する。例えば、第1のウィンドウは、プリプロセッサコンポーネントで、オーディオ標本から導き出されたエネルギーレベルに形態素フィルタを適用するのに使用される。第2のウィンドウは、特徴計算コンポーネントで、ウィンドウの所与の繰返しの中で、最大エネルギーレベルを識別するのに使用される。第3および第4のウィンドウは、ポスト決定プロセッサコンポーネントで、オーディオ標本から導き出された2値音声決定マスクに、対応する形態素フィルタを適用するのに使用される。
【0020】
(定義2 エネルギー成分およびエネルギーレベル)
エネルギー成分は、オーディオ信号の絶対値である。エネルギーレベルは、時刻tnにおける対応するオーディオ標本から導き出された時刻tnにおけるエネルギー成分の値を指す。したがって、オーディオ信号をS(t)、時刻tnにおける標本をS(tn)、エネルギー成分をI(t)、時刻tnにおけるエネルギーレベルをI(tn)で表し、t=(t1,t2,...,tn)とすれば以下のようになる。
【0021】
【数1】
【0022】
(定義3 2値決定マスク)
2値決定マスクは、値を2値の1または0に分類する分類体系である。したがって例えば、2値決定マスクをB(t)、時刻tnにおけるこの2値をB(tn)、バレーパーセンテージをVP(t)、時刻tnにおけるVP値をVP(tn)、しきいVP値をβで表し、t=(t1,t2...tn)とすると、以下のようになる。
【0023】
【数2】
【0024】
(定義4 形態フィルタ)
数学的な形態論は、境界情報を保存しながら入力データから望ましくない特性のフィルタリングに使用することができる強力な非線形信号処理ツールである。本発明の方法では、数学的形態論を効果的に使用して音声検出の正確度を、プリプロセッサコンポーネントではオーディオ信号から雑音をフィルタリングすることによって、ポスト決定プロセッサコンポーネントでは、衝撃的オーディオ標本から生じた独立の2値決定マスクをフィルタリングすることによって、向上させる。
【0025】
具体的には、形態素クロージングフィルタは、ウィンドウWを用いた形態素拡張演算子(morphological dilation operator)D(・)、およびこれに続く侵食演算子(erosion operator)E(・)から成る。入力データをI(t)、時刻tnにおけるデータ値をI(tn)で表し、t=(t1,t2...tn)とすると、次のようになる。
【0026】
【数3】
【0027】
形態オープニングフィルタO(・)も、同じ演算子D(・)およびE(・)から成るが、これらが逆順で適用される。したがって、入力データをI(t)、時刻tnにおけるデータ値をI(tn)で表し、t=(t1,t2...tn)とすると、次のようになる。
【0028】
【数4】
【0029】
(実施例)
以下のセクションでは、人間の音声検出法について特定の実施態様を詳細に説明する。図1は、以下に説明する実施態様の主要なコンポーネントを示すブロック図である。図1のそれぞれのブロックは、先に概要を説明した人間の音声検出法の各部分を実装するプログラムモジュールを表す。コスト、性能、設計の複雑さなど、さまざまな考慮事項に応じ、これらの各々モジュールは、それぞれディジタル論理回路で実行することもできる。
【0030】
先に定義した表記を使用して説明する。図1に示した音声検出法は、入力としてオーディオ信号S(t)110を得る。プリプロセッサコンポーネント114は、オーディオ信号S(t)110をきれいにして、雑音を除去し、かつエネルギー成分I(t)112に変換する。特徴計算コンポーネント116は、オーディオ信号S(t)110のエネルギー成分I(t)112からバレーパーセンテージVP(t)118を計算する。決定プロセッサコンポーネント120は、得られたバレーパーセンテージVP(t)118を、オーディオ信号S(t)110を純粋音声または非音声のいずれかを識別する2値音声決定マスクB(t)122に分類する。ポスト決定プロセッサコンポーネント124は、2値音声決定マスクB(t)122の独立した値を排除する。ポスト決定プロセッサコンポーネントの結果が音声検出マスクM(t)126である。
【0031】
(プリプロセッサコンポーネント)
図2に、この方法のプリプロセッサコンポーネント114を詳細に示す。この実施態様では、プリプロセッサコンポーネント114が、オーディオ信号S(t)110の処理を、後段の処理のためにオーディオ信号S(t)110をきれいにして、準備することによって始まる。具体的には、この実施態様は、(先に定義1で定義した)ウィンドウ技法を使用して、オーディオ信号S(t)110の標本のストリームから連続するオーディオ標本S(tn)210に繰り返し作用する。プリプロセッサコンポーネント114は、エネルギー変換ステップ215の実行から開始する。この段階では、時刻tnにおけるそれぞれのオーディオ標本S(tn)210が、時刻tnにおける対応するエネルギーレベルI(tn)220に変換される。時刻tnにおけるエネルギーレベルI(tn)220は、時刻tnにおけるオーディオ標本S(tn)210の絶対値から構築され、t=t1,t2,...tnとすれば、次のようになる。
【0032】
【数5】
【0033】
プリプロセッサコンポーネント114は次に、後段の処理に備えてエネルギー成分I(t)112をフィルタリングすることによってオーディオ信号S(t)110をきれいにするクリーニングステップ225を実行する。プリプロセッサコンポーネントの設計では、スプリアスデータを導入しないクリーニング方法を選択することが好ましい。この実施態様は、形態素クロージングフィルタC(・)230を使用する。このフィルタは、(先に定義4で定義したとおり)形態素拡張演算子D(・)235とそれに続く侵食演算子E(・)240を組み合わせたものである。クリーニングステップ225では、C(・)230を入力オーディオ信号S(t)110に適用する。これは、所定のサイズの第1のウィンドウW1245を使用して、時刻tnにおけるそれぞれのオーディオ標本S(tn)210に対応するそれぞれのエネルギーレベルI(tn)220に対して作用することによってなされ、t=t1,t2,...tnとすれば、以下のようになる。
【0034】
【数6】
【0035】
見て分かるとおり、クロージングフィルタC(・)230は、フィルタリングされたエネルギー成分I’(tn)250をそれぞれ計算する。これは、まず、時刻tnにおけるエネルギー成分I(tn)220をそれぞれ、第1のウィンドウW1245の最大周囲エネルギーレベルに拡張させ、次いで、拡張させたエネルギー成分を第1のウィンドウW1245の最小周囲エネルギーレベルに侵食することによって、実施される。
【0036】
形態素クロージングフィルタC(・)230は、異なるタイプのオーディオコンテント間の境界を不明瞭にすることなしに、不要な雑音を入力オーディオ信号S(t)110から除去する。一実施態様では、第1のウィンドウW1245のサイズを処理中の特定のオーディオ信号に合わせることによって、形態素クロージングフィルタC(・)230の適用を最適化することができる。一般的な実施態様では、音声特性が分かっているオーディオ信号を用いてこの方法を使用する特定の応用をトレーニングすることによって、第1のウィンドウW1245の最適サイズが事前に決められる。その結果、この音声検出法が、オーディオ信号中の純粋音声と非音声の境界をより効果的に識別できるようになる。
【0037】
(特徴計算)
この実施態様では、プリプロセッシングコンポーネントが入力オーディオ信号S(t)110をきれいにした後に、特徴計算コンポーネントが弁別特徴を計算する。
【0038】
非音声から純粋音声を高い信頼性で弁別するオーディオ信号の特徴を計算するコンポーネントの実行においては、言及すべきことが多々ある。第1に、オーディオ信号のどの成分が、非音声信号から純粋音声信号を弁別することができる信頼性の高い特性を表すかである。第2には、その成分をどのように操作して、弁別特性を定量化するかである。第3には、その操作をどのようにパラメータ化して、さまざまなオーディオ信号の結果を最適化するかである。
【0039】
人間の音声検出に関する文献には、オーディオ信号から人間の音声を弁別するのに使用することができるさまざまな特徴が記載されている。例えば、既存の大部分の音声検出方法は、スペクトル解析、ケプストラム解析、前述のゼロ交差レート、統計解析、フォルマントトラッキングなどを、単独で、または組み合わせて使用している。
【0040】
これらの既存の方法は、いくつかのディジタルオーディオ信号の応用において、満足のゆく結果を与えることがあるかもしれないが、これらは、人間の介入によって異なるレートで標本化される可能性がある雑音、音楽(構造化された雑音)、歌、会話、コマーシャルなどを含む混合音から構成されたさまざまなオーディオ信号に対して、正確な結果を保証しない。オーディオ信号を分類することの正確度は、特徴のロバストネスに依存するため、信頼性の高い特徴の識別は、決定的に重要である。
【0041】
特徴計算コンポーネントおよび決定プロセッサコンポーネントを実行した後に、この音声検出法が、オーディオ信号源に関係なく全てのオーディオ標本を正確に分類していることが好ましい。オーディオ信号中の音声信号の開始および停止を識別する境界は、近隣の標本の正確な分類に依存し、正確な分類は、特徴の信頼性ならびにそれが計算される正確度に依存する。したがって特徴計算は、音声検出能力に直接に影響する。特徴が不正確である場合には、オーディオ標本の分類も不正確となる。したがって、この方法の特徴計算コンポーネントは、弁別特徴を正確に計算しなければならない。
【0042】
以上のことを考慮すれば、複雑さのためばかりではなく、このような複雑さが必然的にもたらすオーディオ信号入力と音声の検出との間の、増加した時間遅れのため、実時間ディジタルオーディオ信号の応用では、既存の方法を実装することが非常に困難であることは明白である。さらに、既存の方法では、特定のオーディオ信号源に対して結果を最適化するために、使用される弁別特徴に限界があり、および/またはその実施態様をパラメータ化できないために、音声検出能力を微調整できない可能性がある。後に詳述するように、この特徴計算コンポーネントの実施態様116は、これらの欠点を解決する。
【0043】
この特徴計算コンポーネントの実施態様116によって計算される特徴は、図1にVP(t)118として示したバレーパーセンテージ(VP)特徴である。人間の音声は、相対的に高いVP値を有する傾向がある。したがって、VP特徴は、非音声信号から純粋音声信号を弁別する効果的な特徴である。さらに、VPは比較的に計算しやすく、したがって実時間応用での実施が可能である。
【0044】
この実施態様の特徴計算コンポーネント116を、図3に詳細に示す。入力オーディオ信号S(t)110のVP(t)118の値を計算するため、特徴計算コンポーネント116は、時刻tnにおけるフィルタリングされたエネルギー成分I’(tn)250が、第2のウィンドウW2320のしきい値エネルギーレベル335よりも低い、オーディオ標本S(tn)210のパーセンテージを計算する。
【0045】
図3のブロック図に従い、特徴計算コンポーネントは最初に、最大エネルギーレベル識別ステップ310を実行して、時刻tnにおけるフィルタリングされたエネルギー成分I’(tn)250の中から、第2ウィンドウW2320に現れた最大エネルギーレベルMax315を識別する。しきい値エネルギー計算ステップ330では、識別された最大エネルギーレベルMax315に所定の小数α325を乗じることによって、しきい値エネルギーレベル335を計算する。
【0046】
最後に、バレーパーセンテージ計算ステップ340で、第2ウィンドウW2320に現れた時刻tnにおけるフィルタリングされたエネルギー成分I’(tn)250のうちで、しきい値エネルギーレベル335よりも小さいもののパーセンテージを計算する。その結果得られた、時刻tnにおける各々のオーディオ標本S(tn)210に対応するVP値の結果VP(tn)345を、対応するオーディオ信号S(t)110のバレーパーセンテージ特徴VP(t)118と呼ぶ。
【0047】
バレーパーセンテージ特徴VP(t)118の計算は、次の表記を使用して以下のようになる。
I’(t):フィルタリングされたエネルギー成分260
W2:第2のウィンドウ320
Max:最大エネルギーレベル315
α:所定の分数325
N(i):しきい値よりも小さいエネルギーレベルの合計数を表す
VP(t):バレーパーセンテージ118
【0048】
【数7】
【0049】
特徴計算コンポーネントの各ステップ310、330および340は、時刻tnにおけるフィルタリングされたそれぞれのエネルギー成分I’(tn)250に対して繰り返される。これは、第2のウィンドウW2320を、入力オーディオ信号S(t)110から時刻tn+1における次のオーディオ標本S(tn+1)210に(定義1で定義したように)進めることによって実施される。第2のウィンドウW2320のサイズおよび分数α325の値を修正することによって、VP(t)118の計算を、さまざまなオーディオ信号源に合うように最適化することができる。
【0050】
(決定プロセッサコンポーネント)
決定プロセッサコンポーネントは、特徴計算コンポーネントによって計算されたVP(t)118に直接に作用する分類プロセスである。決定プロセッサコンポーネント120は、オーディオ信号S(t)110に対応するVP(t)118の2値音声決定マスクB(t)122を構築することによって(定義3の2値決定マスクの定義を参照されたい)、計算されたVP(t)118を純粋音声および非音声分類に分類する。
【0051】
図4は、VP(t)118からの音声決定マスクB(t)122の構築を詳細に示すブロック図である。具体的には、決定プロセッサコンポーネント120は、時刻tnにおけるそれぞれのVP値VP(tn)345をしきい値バレーパーセンテージβ410と比較する2値分類ステップ420を実行する。時刻tnにおけるVP値VP(tn)345の1つが、しきい値バレーパーセンテージβ410よりも小さいか、またはこれに等しいとき、対応する時刻tnにおける音声決定マスクB(tn)430の値が、2値「0」にセットされる。時刻tnにおけるVP値VP(tn)345の1つが、しきい値バレーパーセンテージβ410よりも大きいときには、対応する時刻tnにおける音声決定マスクB(tn)430の値が、2値「1」にセットされる。
【0052】
バレーパーセンテージ特徴VP(t)118の2値音声決定マスクB(t)122への分類は、次の表記を使用して以下のように表現される。
VP(t):バレーパーセンテージ118
B(t):2値音声決定マスク122
β:しきい値バレーパーセンテージ410
【0053】
【数8】
【0054】
決定プロセッサコンポーネント120は、時刻tnにおけるそれぞれのオーディオ標本S(tn)210に対応するVP値VP(tn)345が全て純粋音声または非音声に分類されるまで、2値分類ステップ420を繰り返す。その結果、得られる時刻tnにおける2値決定マスクB(tn)430の列を、オーディオ信号S(t)110の音声決定マスクB(t)122と呼ぶ。オーディオ信号S(t)110のさまざまな信号源に合うようにしきい値バレーパーセンテージβ410を変更することによって、2値分類ステップ420を最適化することができる。
【0055】
(ポスト決定プロセッサコンポーネント)
決定プロセッサコンポーネント120によって、オーディオ信号S(t)110の2値音声決定マスクB(t)122が生成されれば、他にすべきことはほとんどないように思える。しかし、先に述べたとおり、音声検出の正確度は、自身が純粋音声として分類され、近隣の標本が非音声として分類された独立したオーディオ標本を非音声に当てはめることによってさらに改善することができる。この逆も成り立つ。このことは、実世界において人間の音声は通常、少なくとも数秒以上連続するという前述の観察に基づく。
【0056】
この実施態様のポスト決定プロセッサコンポーネント124は、決定プロセッサコンポーネント120によって生成された音声検出マスクにフィルタを適用することによって、この観察の利点を利用する。さもないと、得られる2値音声決定マスクB(t)122中にはおそらく、入力オーディオ信号S(t)110の品質に応じ、変則的な小さな孤立した「ギャップ」または「スパイク」が散在し、これによってその結果は、いくつかのディジタルオーディオ信号応用に対して潜在的に無用のものとなろう。
【0057】
プリプロセッサコンポーネント114中に存在するクリーニングフィルタの実施態様で説明したのと同様に、ポスト決定プロセッサのこの実施態様でも、より優れた結果を達成するため、形態素フィルトレーションが使用される。具体的には、この実施態様は、2つの形態素フィルタを連続的に適用して、時刻tnにおける個々の音声決定マスク値B(tn)430をその近隣の音声決定マスク値B(tn±1)に一致させ(孤立した「1」および「0」を排除し)、同時に、純粋音声標本と非音声標本の間のシャープな境界を維持する。一方のフィルタは、プレプロセッサコンポーネント114で先に説明した(定義4でも定義した)クロージングフィルタ230と同様の形態素クロージングフィルタC(・)560である。もう一方のフィルタは、侵食および拡張演算子が逆順に適用される、すなわち(定義4で定義したように)まず最初に侵食演算子、次に拡張演算子が適用される以外は、クロージングフィルタ560と同様の形態素オープニングフィルタO(・)520である。
【0058】
図5を参照する。ポスト決定プロセッサコンポーネントは、所定のサイズの第3のウィンドウW3540を使用して、時刻tnにおけるそれぞれの2値音声決定マスク値B(tn)430に形態オープニングフィルタO(・)520を適用する、オープニングフィルタ適用ステップ510を実行する。
【0059】
【数9】
【0060】
見て分かるとおり、形態オープニングフィルタO(・)520は、時刻tnにおける2値音声決定マスク値B(tn)430にまず侵食演算子E525を、次いで拡張演算子D530を適用することによって、2値音声決定マスクB(t)122の「開いた(opened)」値を計算する。侵食演算子E535は、時刻tnにおける2値決定マスク値B(tn)430を、第3のウィンドウW3540の最小周囲マスク値に侵食する。拡張演算子D530は、時刻tnにおける侵食された決定マスク値B(tn)430を第3のウィンドウW3540の最大周囲マスク値に拡張する。
【0061】
ポスト決定プロセッサコンポーネントは次いで、所定のサイズの第4のウィンドウW4580を使用して、時刻tnにおけるそれぞれの「開いた」2値音声決定マスク値O(B(tn))に、形態素クロージングフィルタC(・)560を適用する。
【0062】
【数10】
【0063】
見て分かるとおり、形態クロージングフィルタC(・)560は、まず拡張演算子D530を、次いで侵食演算子D525を、時刻tnにおける2値音声決定マスク値B(tn)430に適用することによって、2値音声決定マスクB(t)122の「閉じた(closed)」値を計算する。拡張演算子D565は、時刻tnにおける「開いた」2値決定マスク値B(tn)430を、第4のウィンドウW4580の最大周囲マスク値に拡張させる。侵食演算子E575は、時刻tnにおける「開いた」2値決定マスク値B(tn)430を、第4ウィンドウW4580の最小周囲マスク値に侵食する。
【0064】
ポスト決定プロセッサコンポーネント124を実行した結果は、時刻tnにおけるそれぞれのオーディオ標本S(tn)210に対応する2値音声検出マスク値M(tn)590の最終的な推定であり、次のように表現される。
【0065】
【数11】
【0066】
ポスト決定プロセッサコンポーネントで説明した形態フィルタを使用することによって、純粋音声と非音声の境界を不明瞭にすることなく、オーディオ信号S(t)110の異常を、その信号の近隣部分に一致させることができる。その結果は、オーディオ信号S(t)110から人間の音声の開始および停止境界を指示する正確な音声検出マスクM(t)126である。さらに、第3のウィンドウW3540および第4のウィンドウW4580のサイズを、処理中の特定のオーディオ信号に合わせることによって、ポスト決定プロセッサコンポーネントが適用する形態素フィルタを最適化することができる。一般的な実施態様では、音声特性が分かっているオーディオ信号を用いて、この方法を使用する特定の応用をトレーニングすることによって、第3のウィンドウW3540および第4のウィンドウW4580の最適サイズが事前に決められる。その結果、この音声検出法が、オーディオ信号S(t)110中の純粋音声と非音声の境界をより効果的に識別できるようになる。
【0067】
(パラメータ設定)
背景セクションで述べたとおり、オーディオ信号は一般に、純粋音声信号と非音声または混合音声信号の両方を含むため、オーディオ信号から人間の音声の検出は、ディジタルオーディオ圧縮に関係する。専用音声コーデックは、非音声または混合音声信号よりも正確に純粋音声信号を圧縮するので、本発明は、前処理した、すなわちフィルタリングして雑音を除去したオーディオ信号中の人間の音声を、前処理していないオーディオ信号中の人間の音声よりも正確に検出する。本発明の目的上、オーディオ信号を前処理する、すなわちオーディオ信号から雑音をフィルタリングして除去する方法自体は、重要ではない。実際、冒頭で請求し、本明細書で説明したオーディオ信号中の人間の音声検出法は、雑音除去の特定の実施態様に比較的して独立している。本発明の文脈では、雑音の有無は、重要ではないが、雑音の有無によって、この方法中に実装されるパラメータの設定が変更される可能性がある。
【0068】
背景セクションで述べたとおり、ウィンドウサイズおよびしきい値に対するパラメータの設定は、純粋音声の検出の正確度が最適化されるように選択しなければならない。優れた一実施態様では、純粋音声検出の正確度が少なくとも95%である。
【0069】
一実施態様では、これらのパラメータがトレーニングを通して決定される。トレーニング用オーディオ信号は、純粋音声および非音声標本の実際の境界が既知であり、ここではこれを理想出力と呼ぶ。したがって、これらのパラメータは理想出力に対して最適化される。
【0070】
例えば、理想出力をM(t)とすると、パラメータ空間(W1,W2,W3,W4,α,β)を完全に探索することによって、これらの値の設定が得られる。
【0071】
【数12】
【0072】
さらに、特定の音源によって生成されたトレーニング用オーディオ信号のサンプリングレートがFkHzであるとすると、パラメータとサンプリングレートの最適な関係は以下のようになる。
W1=40*F/8
W2=2000*F/8
W3=24000*F/8
W4=32000*F/8
α=10%
β=10%
【0073】
(コンピュータシステムの概説)
図6および以下の議論は、本発明を実装することができる適当なコンピューティング環境の短い全体的な説明を提供することを意図したものである。本発明または本発明の諸態様は、ハードウェアデバイス中に実装することができるが、先に説明したトラッキングシステムは、プログラムモジュールとして編成されたコンピュータ実行可能命令で実行される。これらのプログラムモジュールには、先に説明したタスクを実行し、データ型を実装するルーチン、プログラム、オブジェクト、コンポーネントおよびデータ構造が含まれる。
【0074】
図6は、デスクトップコンピュータの一般的な構成を示すが、本発明を、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な民生用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含むその他のコンピュータシステム構成において実行することもできる。本発明を、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で使用することもできる。分散コンピューティング環境では、プログラムモジュールを、ローカルメモリ記憶装置とリモートメモリ記憶装置の両方に配置することができる。
【0075】
図6は、本発明のオペレーティング環境として機能するコンピュータシステムの一例を示す。このコンピュータシステムは、処理装置621、システムメモリ622、ならびにシステムメモリを含むさまざまなシステム構成要素を処理装置621に相互接続するシステムバス623を含むパーソナルコンピュータ620を含む。システムバスは、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含む、PCI、VESA、Microchannel(MCA)、ISA、EISAなどのバスアーキテクチャを使用するいくつかの種類のバス構造を備えることができる。システムメモリは、リードオンリーメモリ(ROM)624およびランダムアクセスメモリ(RAM)625を含む。スタートアップ時などにパーソナルコンピュータ620内の要素間の情報転送を助ける基本ルーチンを含む基本入出力システム626(BIOS)が、ROM624に記憶されている。パーソナルコンピュータ620はさらに、ハードディスクドライブ627、例えばリムーバブルディスク629に読み書きするための磁気ディスクドライブ628、および例えば、CD−ROMディスク631またはその他の光メディアに読み書きするための光ディスクドライブ630を含む。ハードディスクドライブ627、磁気ディスクドライブ628および光ディスクドライブ630はそれぞれ、ハードディスクドライブインタフェース632、磁気ディスクドライブインタフェース633および光ディスクドライブインタフェース634によって、システムバス623に接続される。これらのドライブおよびその関連コンピュータ可読媒体は、パーソナルコンピュータ620に対して、データ、データ構造、コンピュータ実行可能命令(ダイナミックリンクライブラリ、実行可能ファイルなどのプログラムコード)などの不揮発性記憶を提供する。上記のコンピュータ可読媒体は、ハードディスク、リムーバブル磁気ディスクおよびCDを指すが、これに、磁気カセット、フラッシュメモリカード、ディジタルビデオディスク、ベルヌーイカートリッジなど、コンピュータが読むことができるその他の種類の媒体を含めることもできる。
【0076】
オペレーティングシステム635、1つまたは複数のアプリケーションプログラム636、その他のプログラムモジュール637およびプログラムデータ638を含むいくつかのプログラムモジュールを、ドライブおよびRAM625に記憶することができる。ユーザは、キーボード640およびマウス642などのポインティングデバイスを介して、パーソナルコンピュータ620にコマンドおよび情報を入力することができる。その他の入力装置(図示せず)には、マイク、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれる。これらの入力装置およびその他の入力装置はしばしば、システムバスに結合されたシリアルポートインタフェース646を介して処理装置621に接続される。ただし、これらを、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)などのその他のインタフェースによって接続することもできる。さらに、モニタ647またはその他の種類のディスプレイ装置が、ディスプレイコントローラ、ビデオアダプタ648などのインタフェースを介してシステムバス623に接続される。モニタの他に、パーソナルコンピュータは一般に、スピーカ、プリンタなどのその他の周辺出力装置(図示せず)を含む。
【0077】
パーソナルコンピュータ620は、リモートコンピュータ649などの1台または数台のリモートコンピュータへの論理接続を使用して、ネットワーク化環境で動作することができる。リモートコンピュータ649は、サーバ、ルータ、ピア装置またはその他の一般的なネットワークノードとすることができ、図5にはメモリ記憶装置650だけしか示さなかったが、一般に、パーソナルコンピュータ620に関して記述した多くの、または全ての要素を含む。図5に示した論理接続には、ローカルエリアネットワーク(LAN)651および広域ネットワーク(WAN)652が含まれる。このようなネットワーキング環境は、オフィス、企業内コンピュータネットワーク、イントラネットおよびインターネットで普通に見られる。
【0078】
LANネットワーキング環境で使用されるとき、パーソナルコンピュータ620は、ネットワークインタフェースまたはアダプタ653を介してローカルネットワーク651に接続される。WANネットワーキング環境で使用されるとき、パーソナルコンピュータ620は一般に、インターネットなどの広域ネットワーク652を介して通信を確立するモデム654またはその他の手段を含む。モデム654は、内部モデムでも、または外部モデムでもよく、シリアルポートインタフェース646を介してシステムバス623に接続される。ネットワーク化された環境では、パーソナルコンピュータ620に関して示したプログラムモジュールまたはその一部を、遠隔メモリ記憶装置に記憶することができる。図示のネットワーク接続は例に過ぎず、コンピュータ間の通信リンクを確立するその他の手段を使用することもできる。
【0079】
本発明の原理を適用することができる多くの可能な実施態様があることから、これまでに説明した実施態様が本発明の例に過ぎず、これらの実施態様が本発明の範囲を限定するものと解釈すべきでないことを強調しておく。本発明の範囲は冒頭の請求項によって定義される。したがって、これらの特許請求の範囲および趣旨に含まれる全ての事柄を発明として請求するものである。
【図面の簡単な説明】
【図1】 人間の音声検出システムの実施態様の概要を示す全体ブロック図である。
【図2】 図1に示したシステムのプリプロセッサコンポーネントの一実施態様を示すブロック図である。
【図3】 図1に示したシステムの特徴計算コンポーネントの一実施態様を示すブロック図である。
【図4】 図1に示したシステムの決定プロセッサコンポーネントの一実施態様を示すブロック図である。
【図5】 図1に示したシステムのポスト決定プロセッサコンポーネントの一実施態様を示すブロック図である。
【図6】 本発明の一実施態様の動作環境として機能するコンピュータシステムのブロック図である。
Claims (34)
- 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から純粋音声信号を検出する方法であって、前記コンピュータの処理装置は、
前記コンピュータに入力された前記オーディオ信号を離散的なオーディオ標本のストリームに変換し、
前記オーディオ信号からウィンドウを用いてバレーパーセンテージを計算し、前記バレーパーセンテージの計算は、前記ストリームの所与のオーディオ標本に対し、
前記ウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定することと、
低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定することであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有することと
を含み、
前記バレーパーセンテージをバレーパーセンテージしきい値と比較して、前記所与のオーディオ標本および前記ストリームの1つまたは複数の他のオーディオ標本を純粋音声区分または非音声区分に分類し、
前記オーディオ信号の純粋音声として分類された部分と前記オーディオ信号の非音声として分類された部分との間の1つまたは複数の境界を決定することを特徴とする方法。 - 前記オーディオ標本のストリームは、前記バレーパーセンテージを計算する前にフィルタリングされ、雑音を除去することを特徴とする請求項1に記載の方法。
- 前記オーディオ信号の前記フィルタリングは、
前記オーディオ信号を、複数のエネルギーレベルを有するエネルギー成分に変換し、各々のエネルギーレベルは、前記オーディオ信号のオーディオ標本に対応して、
前記エネルギー成分の各々のエネルギーレベルに形態素クロージングフィルタを適用し、前記オーディオ信号のフィルタリングされたエネルギー成分を生成することを特徴とする請求項2に記載の方法。 - 前記オーディオ信号の前記エネルギー成分は、前記エネルギー成分の各々のエネルギーレベルに、前記オーディオ信号の対応するオーディオ標本の絶対値を割り当てることによって構築されることを特徴とする請求項3に記載の方法。
- 請求項1に記載の各ステップを実行するための命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
- 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から純粋音声信号を検出する方法であって、前記コンピュータの処理装置は、
(a) 前記コンピュータに入力された前記オーディオ信号をフィルタリングして雑音を除去することであって、前記フィルタリングは、
(a1) 前記オーディオ信号を、複数のエネルギーレベルを有するエネルギー成分に変換し、各々のエネルギーレベルは、前記オーディオ信号のオーディオ標本に対応して、
(a2) 前記エネルギー成分の各々のエネルギーレベルに形態素クロージングフィルタを適用することにより、前記オーディオ信号のフィルタリングされたエネルギー成分を生成し、前記形態素クロージングフィルタの前記適用は、
(a21) 複数のエネルギーレベルにわたる第1のウィンドウを配置し、特定の時刻におけるエネルギーレベルは、前記第1のウィンドウの中間点の近くに配置されて、
(a22) 前記特定の時刻におけるエネルギーレベルを、前記第1のウィンドウを通して見える周囲のエネルギーレベルの最大エネルギーレベルに拡張し、
(a23) 複数のエネルギーレベルにわたる前記第1のウィンドウを、次の時刻におけるエネルギーレベルに再配置し、前記次の時刻におけるエネルギーレベルは、前記第1のウィンドウの中間点の近くに配置されて、
(a24) 前記エネルギー成分の前記エネルギーレベルが全て拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、
(a25) 前記特定の時刻におけるエネルギーレベルにわたる前記第1のウィンドウを再配置し、
(a26) 前記特定の時刻におけるエネルギーレベルを、前記第1のウィンドウを通して見える周囲のエネルギーレベルの最小エネルギーレベルに侵食し、
(a27) 複数のエネルギーレベルにわたる前記第1のウィンドウを、前記次の時刻におけるエネルギーレベルに再配置し、
(a28) 前記エネルギー成分の全ての前記エネルギーレベルが侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、その結果、前記エネルギー成分のフィルタリングされた複数のエネルギーレベルを得ることを含み、
(b) 前記オーディオ信号からバレーパーセンテージを計算することであって、
(b1) 前記エネルギー成分のフィルタリングされた複数のエネルギーレベルの各々に対して前記バレーバーセンテージを計算するための第2のウィンドウを配置し、前記複数のフィルタリングされたエネルギーレベルのうちの前記特定の時刻におけるフィルタリングされたエネルギーレベルは、前記第2のウィンドウの中間点の近くに配置されて、
(b2) 前記第2のウィンドウを通して見える周囲のフィルタリングされたエネルギーレベルのしきい値エネルギーレベルよりも低いフィルタリングされたエネルギーレベルの数の、前記第2のウィンドウを通して見えるフィルタリングされたエネルギーレベルの総数に対するパーセンテージを、前記バレーパーセンテージとして割り当て、
(b3) 複数のフィルタリングされたエネルギーレベルにわたる前記第2のウィンドウを、前記次の時刻におけるフィルタリングされたエネルギーレベルに再配置し、前記次の時刻におけるフィルタリングされたエネルギーレベルは、前記第2のウィンドウの中間点の近くに配置されて、
(b4) 前記エネルギー成分の全ての前記フィルタリングされたエネルギーレベルに割り当てられるまで、前記割当てることおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号の前記バレーパーセンテージを得ることができ、
(c) 前記バレーパーセンテージに基づいて前記オーディオ信号を純粋音声区分または非音声区分に分類し、
(d) 前記オーディオ信号の純粋音声として分類された部分と前記オーディオ信号の非音声として分類された部分との間の境界を決定することを特徴とする方法。 - 前記第1のウィンドウは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項6に記載の方法。
- 前記しきい値エネルギーレベルは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項6に記載の方法。
- 前記第2のウィンドウは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項6に記載の方法。
- 非音声に対する純粋音声の前記分類は、前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスクに、
対応するバレーパーセンテージが所定のしきい値バレーパーセンテージに等しいかまたは小さいときに、非音声または混合音声信号の存在を意味する0を、または、
対応するバレーパーセンテージが前記所定のしきい値バレーパーセンテージよりも大きいときに、純粋音声の存在を意味する1のいずれかの2値を割り当てることによって決定されることを特徴とする請求項6に記載の方法。 - 前記純粋音声分類と非音声分類の間の境界は、
独立した音声決定マスクの値を捨てることであって、前記独立した値の近隣の値は、反対の値を有することと、
2値1に等しい前記音声決定マスクの残りの値と、2値0に等しい前記音声決定マスクの残りの値との間の境界をマークすることと
によって決定されることを特徴とする請求項10に記載の方法。 - 前記純粋音声区分と非音声区分の間の境界は、形態素オープニングフィルタおよび形態素クロージングフィルタを音声決定マスクに適用し、連続する2値1を有するフィルタリングされた音声決定マスク部分と連続する2値0を有するフィルタリングされた音声決定マスク部分との間の境界をマークすることによって決定されることを特徴とする請求項10に記載の方法。
- 前記形態素オープニングフィルタの前記適用は、
前記音声決定マスク中の値の連続したストリームにわたる第3のウィンドウを配置し、第1の値は、前記第3のウィンドウの中間点の近くに配置されて、
前記第1の値を、前記第3のウィンドウを通して見える周囲の値の最小の2値に侵食し、
前記音声決定マスク中の値の連続したストリームにわたる前記第3のウィンドウを次の連続する値に再配置し、前記次の連続する値は、前記第3のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスクの値を全て侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、
侵食された値の連続するストリームにわたる前記第3のウィンドウを配置し、第1の侵食された値は、前記第3のウィンドウの中間点の近くに配置され、
前記侵食された第1の値を、前記第3のウィンドウを通して見える周囲の侵食された値の最大の2値に拡張し、
前記音声決定マスク中の侵食された値の連続するストリームにわたる前記第3のウィンドウを次の連続する値に再配置し、前記次の連続する値は、前記第3のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する音声決定マスク中の全ての値が拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する開かれた音声決定マスクを得ることを特徴とする請求項12に記載の方法。 - 前記形態素クロージングフィルタの前記適用は、
前記開かれた音声決定マスク中の値の連続するストリームにわたる第4のウィンドウを配置し、第1の開かれた値は、前記第4のウィンドウの中間点の近くに配置されて、
前記第1の開かれた値を、前記第4のウィンドウを通して見える周囲の開かれた値の最大の2値に拡張し、
前記開かれた音声決定マスク中の値の連続するストリームにわたる前記第4のウィンドウを、次の連続する開かれた値に再配置し、前記次の連続する開かれた値は、前記第4のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する開かれた音声決定マスク中の全ての値が拡張されるまで、前記拡張することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する拡張された開かれた音声決定マスクを得て、
前記拡張された開かれた音声決定マスク中の値の連続するストリームにわたる前記第4のウィンドウを配置し、第1の拡張された開かれた値は、前記第4のウィンドウの中間点の近くに配置されて、
前記第1の拡張された開かれた値を、前記第4のウィンドウを通して見える拡張された開かれた周囲の値の最小の2値0に侵食し、
前記拡張された開かれた値の連続するストリームにわたる前記第4のウィンドウを再配置し、前記次の連続する拡張された開かれた値は、前記第4のウィンドウの中間点の近くに配置されて、
前記オーディオ信号の各々のオーディオ標本に対応する拡張された開かれた音声決定マスク中の全ての値が侵食されるまで、前記侵食することおよび再配置することを繰り返し実行し、その結果、前記オーディオ信号に対応する閉じた音声決定マスクを得ることを特徴とする請求項13に記載の方法。 - オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第1のウィンドウの第1のサイズ、第2のウィンドウの第2のサイズ、第3のウィンドウの第3のサイズ、および第4のウィンドウの第4のサイズを含むステップと、
(b) 前記第1のサイズを有する前記第1のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、前記バレーパーセンテージは、前記第2のサイズを有する第2のウィンドウにおいて複数のオーディオ標本から計算され、前記バレーパーセンテージは、オーディオ標本において、前記第2のウィンドウの全てのオーディオ標本の数と比較したしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第2のウィンドウにおけるオーディオ標本の数で表すステップと、
(d) 前記予め定めたパラメータの別の1つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第3のサイズを有する前記第3のウィンドウを用いてフィルタリングした後、前記第4のサイズを有する前記第4のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の1つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記オーディオ信号をきれいにするステップは、
前記第1のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するステップであって、前記エネルギーレベルは、エネルギー成分を含むステップと、
前記エネルギー成分にクロージングフィルタを適用し、その結果、きれいなオーディオ信号を得るステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有するステップと
を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記録媒体。 - 前記第1のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項15に記載のコンピュータ読み取り可能な記録媒体。
- オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第1のウィンドウの第1のサイズ、第2のウィンドウの第2のサイズ、第3のウィンドウの第3のサイズ、および第4のウィンドウの第4のサイズを含むステップと、
(b) 前記オーディオ信号をきれいにして、雑音を除去するステップであって、前記オーディオ信号をきれいにするステップは、前記第1のサイズを有する前記第1のウィンドウを用いて複数のオーディオ標本をフィルタリングするステップを含み、前記きれいにするステップは、
(b1) 前記第1のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するサブステップであって、前記エネルギーレベルは、エネルギー成分を含むサブステップと、
(b2) 前記エネルギー成分にクロージングフィルタを適用し、その結果、対応するきれいなオーディオ信号を得るサブステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有するサブステップと
を含むステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、前記バレーパーセンテージは、前記第2のサイズを有する前記第2のウィンドウにおいて複数のオーディオ標本から計算され、前記バレーパーセンテージの前記計算は、
(c1) 前記所定のパラメータの別の1つに基づいて、しきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第2のウィンドウ中のオーディオ標本の数を決定するサブステップと、
(c2) しきい値エネルギーレベルよりも低いエネルギーレベルを有する前記第2のウィンドウ中のオーディオ標本の数の、前記第2のウィンドウ中のオーディオ標本の総数に対するパーセンテージに等しいバレーパーセンテージをセットするサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の1つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第3のサイズを有する前記第3のウィンドウを用いてフィルタリングした後、前記第4のサイズを有する前記第4のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の1つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記第2のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項18に記載のコンピュータ読み取り可能な記録媒体。
- 前記しきい値エネルギーレベルは、
前記第2のウィンドウ中の最大エネルギーレベルを決定するステップと、
前記最大エネルギーレベルに、前記予め定めたパラメータの別の1つに等しい値を有する分数を乗じるステップと
を実行することによって計算されることを特徴とする請求項18に記載のコンピュータ読み取り可能な記録媒体。 - 前記分数は、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項20に記載のコンピュータ読み取り可能な記録媒体。
- オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第1のウィンドウの第1のサイズ、第2のウィンドウの第2のサイズ、第3のウィンドウの第3のサイズ、および第4のウィンドウの第4のサイズを含むステップと、
(b) 前記第1のサイズを有する前記第1のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第2のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の1つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップであって、前記分類するステップは、
(d1) 前記バレーパーセンテージの値を、しきい値バレーパーセンテージと比較するサブステップであって、前記しきい値バレーパーセンテージは、前記予め定めたパラメータの別の1つに等しい値を有するサブステップと、
(d2) 前記バレーパーセンテージの値に対応する2値決定マスクの値を、
前記バレーパーセンテージが前記しきい値バレーパーセンテージに等しいか、または小さい場合には0の値に、
前記バレーパーセンテージが前記しきい値バレーパーセンテージよりも大きい場合には1の値にセットするサブステップと
を含むステップと、
(e) 前記第3のサイズを有する前記第3のウィンドウを用いてフィルタリングした後、前記第4のサイズを有する前記第4のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の1つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記所定のしきいバレーパーセンテージの値は、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択されることを特徴とする請求項22に記載のコンピュータ読み取り可能な記録媒体。
- 前記第3のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項23に記載のコンピュータ読み取り可能な記録媒体。
- 前記第4のウィンドウのサイズは、トレーニング用オーディオ信号の純粋音声部分と非音声部分の既知の境界と、パラメータ空間にわたって決定されたテスト境界との差を最小化することによって選択された持続時間であることを特徴とする請求項23に記載のコンピュータ読み取り可能な記録媒体。
- オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第1のウィンドウの第1のサイズ、第2のウィンドウの第2のサイズ、第3のウィンドウの第3のサイズ、および第4のウィンドウの第4のサイズを含むステップと、
(b) 前記オーディオ信号をきれいにして、雑音を除去するステップであって、前記オーディオ信号をきれいにするステップは、前記第1のサイズを有する前記第1のウィンドウを用いて複数のオーディオ標本をフィルタリングするステップ含み、前記きれいにするステップは、
(b1) 前記第1のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換するサブステップであって、前記エネルギーレベルは、エネルギー成分を含むサブステップと、
(b2) 前記エネルギー成分にクロージングフィルタを適用し、その結果、対応するきれいなオーディオ信号を得るサブステップであって、前記きれいなオーディオ信号は、純粋音声部分と非音声部分との間の明瞭な境界を維持し、かつ、より少ない雑音を有し、前記適用は、
(b21) 前記第1のウィンドウ中の前記エネルギー成分の前記エネルギーレベルを拡張するサブステップと、
(b22) 前記第1のウィンドウ中の前記エネルギー成分の前記拡張されたエネルギーレベルを侵食するサブステップと
を含むステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第2のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の1つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第3のサイズを有する前記第3のウィンドウを用いてフィルタリングした後、前記第4のサイズを有する前記第4のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の1つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - オーディオ信号の音声検出を実行するソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、コンピュータによって実行されたときに、
(a) 純粋音声信号および非音声信号または混合音声信号を有するオーディオ信号から純粋音声信号を検出するための複数の予め定めたパラメータを記憶するステップであって、前記予め定めたパラメータは、第1のウィンドウの第1のサイズ、第2のウィンドウの第2のサイズ、第3のウィンドウの第3のサイズ、および第4のウィンドウの第4のサイズを含むステップと、
(b) 前記第1のサイズを有する前記第1のウィンドウを用いて複数のオーディオ標本をフィルタリングするサブステップを含む、前記オーディオ信号をきれいにして、雑音を除去するステップと、
(c) 前記きれいなオーディオ信号からバレーパーセンテージを計算するステップであって、該バレーパーセンテージを計算するステップは、所与のオーディオ標本に対し、
(c1) 前記第2のウィンドウを通して見える、前記所与のオーディオ標本の周囲の複数のオーディオ標本に対するしきい値エネルギーレベルを決定するサブステップと、
(c2) 低エネルギー成分である前記所与のオーディオ標本の周囲の複数のオーディオ標本の割合に基づいて、前記所与のオーディオ標本において、前記バレーパーセンテージを決定するサブステップであって、前記低エネルギー成分は、前記所与のオーディオ標本の周囲の前記複数のオーディオ標本に対する前記しきい値エネルギーレベルよりも低いエネルギーレベルを有するサブステップと
を含むステップと、
(d) 前記予め定めたパラメータの別の1つに基づいて、前記バレーパーセンテージの値を、前記純粋音声区分または非音声区分に分類するステップと、
(e) 前記第3のサイズを有する前記第3のウィンドウを用いてフィルタリングした後、前記第4のサイズを有する前記第4のウィンドウを用いてフィルタリングすることにより、複数の純粋音声区分と非音声区分との間の1つまたは複数の境界を決定するステップであって、前記複数の純粋音声区分と非音声区分との間の境界を決定するステップは、独立した純粋音声区分および非音声区分を排除するサブステップを含み、
(e1) 前記第3のウィンドウ中の前記複数の純粋音声区分および非音声区分に、形態素オープニングフィルタを適用するサブステップと、
(e2) 前記第4のウィンドウ中の前記複数の純粋音声部分および非音声分類に、形態素クロージングフィルタを適用するサブステップと
を含むステップと
を実行する命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 音声オーディオ標本と非音声オーディオ標本の混合物を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から音声検出特徴を抽出する方法であって、前記コンピュータの処理装置は、
オーディオ信号における複数のオーディオ標本の各々についてエネルギーレベルを決定し、
前記複数のオーディオ標本の各々について、
複数の周囲オーディオ標本の範囲内における最大エネルギーレベルを決定し、
前記最大エネルギーレベルの分数としてしきい値エネルギーレベルを計算し、
前記しきい値エネルギーレベルよりも低いエネルギーレベルを有する複数の周囲オーディオ標本のパーセンテージに基づいて音声検出特徴をセットすること
によって、音声検出特徴を抽出することを特徴とする方法。 - 抽出前に、前記オーディオ信号をフィルタリングして、前記オーディオ信号中の境界の明瞭さを維持しつつ前記オーディオ信号をきれいにすることをさらに備える方法であって、前記オーディオ信号をフィルタリングすることは、
第1のウィンドウ中の各々のオーディオ標本を、対応するエネルギーレベルに変換することであって、前記エネルギーレベルは、エネルギー成分を含むことと、
前記エネルギー成分に形態素クロージングフィルタを適用し、その結果、きれいなオーディオ信号を得ることと
を含むことを特徴とする請求項28に記載の方法。 - 抽出後に、抽出された音声検出特徴と音声検出特徴しきい値との比較に基づいて、前記オーディオ信号の前記複数のオーディオ標本を音声または非音声に分類することを特徴とする請求項28に記載の方法。
- 音声オーディオ部分と非音声オーディオ部分の混合物を有するオーディオ信号の音声検出特徴を抽出するためのソフトウェアが記憶されたコンピュータ読み取り可能な記録媒体であって、前記ソフトウェアは、
オーディオ信号中における複数のオーディオ標本の各々についてエネルギーレベルを決定する命令と、
前記オーディオ信号をフィルタリングして、前記オーディオ信号中の境界の明瞭さを維持しつつ前記オーディオ信号をきれいにする命令であって、前記フィルタリングは、後に侵食演算子が続く拡張演算子から成るクロージングフィルタを使用する命令と、
前記フィルタリングされたオーディオ信号の複数のオーディオ標本の各々について、音声検出特徴を抽出する命令であって、各々の音声検出特徴は、周囲のオーディオ標本のしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記フィルタリングされたオーディオ信号の周囲のオーディオ標本のパーセンテージに基づく命令と
を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 音声オーディオ部分と非音声オーディオ部分の混合物を有するオーディオ信号を入力したコンピュータにおいて、前記オーディオ信号から音声検出特徴を抽出する方法であって、前記コンピュータの処理装置は、
オーディオ信号における複数のオーディオ標本の各々についてエネルギーレベルを決定し、
前記オーディオ信号の複数のオーディオ標本の各々について、音声検出特徴を抽出し、各々の音声検出特徴は、周囲のオーディオ標本のしきい値エネルギーレベルよりも低いエネルギーレベルを有する前記オーディオ信号の周囲のオーディオ標本のパーセンテージに基づいて、
抽出された前記オーディオ標本の音声検出特徴と音声検出特徴しきい値との比較に基づいて、前記複数のオーディオ標本の各々を音声または非音声に分類し、
前記分類をフィルタリングして独立した分類を除去し、独立した分類は、周囲の分類の支配的な値とは異なる値を有し、前記フィルタリングは、1または複数の形態素フィルタを使用することを特徴とする方法。 - 前記フィルタリングは、オープニングフィルタ、続いてクロージングフィルタを使用することを特徴とする請求項32に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/201,705 | 1998-11-30 | ||
US09/201,705 US6205422B1 (en) | 1998-11-30 | 1998-11-30 | Morphological pure speech detection using valley percentage |
PCT/US1999/028401 WO2000033294A1 (en) | 1998-11-30 | 1999-11-30 | Pure speech detection using valley percentage |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002531882A JP2002531882A (ja) | 2002-09-24 |
JP2002531882A5 JP2002531882A5 (ja) | 2007-01-25 |
JP4652575B2 true JP4652575B2 (ja) | 2011-03-16 |
Family
ID=22746956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000585861A Expired - Fee Related JP4652575B2 (ja) | 1998-11-30 | 1999-11-30 | バレーパーセンテージを使用した純粋音声の検出 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6205422B1 (ja) |
EP (1) | EP1141938B1 (ja) |
JP (1) | JP4652575B2 (ja) |
AT (1) | ATE275750T1 (ja) |
DE (1) | DE69920047T2 (ja) |
WO (1) | WO2000033294A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6801895B1 (en) | 1998-12-07 | 2004-10-05 | At&T Corp. | Method and apparatus for segmenting a multi-media program based upon audio events |
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
WO2005124722A2 (en) * | 2004-06-12 | 2005-12-29 | Spl Development, Inc. | Aural rehabilitation system and method |
US20070011001A1 (en) * | 2005-07-11 | 2007-01-11 | Samsung Electronics Co., Ltd. | Apparatus for predicting the spectral information of voice signals and a method therefor |
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
KR100800873B1 (ko) * | 2005-10-28 | 2008-02-04 | 삼성전자주식회사 | 음성 신호 검출 시스템 및 방법 |
KR100790110B1 (ko) * | 2006-03-18 | 2008-01-02 | 삼성전자주식회사 | 모폴로지 기반의 음성 신호 코덱 방법 및 장치 |
KR100762596B1 (ko) * | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
KR100860830B1 (ko) * | 2006-12-13 | 2008-09-30 | 삼성전자주식회사 | 음성 신호의 스펙트럼 정보 추정 장치 및 방법 |
US8935158B2 (en) | 2006-12-13 | 2015-01-13 | Samsung Electronics Co., Ltd. | Apparatus and method for comparing frames using spectral information of audio signal |
US8355511B2 (en) * | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
CN103765511B (zh) * | 2011-07-07 | 2016-01-20 | 纽昂斯通讯公司 | 嘈杂语音信号中的脉冲干扰的单信道抑制 |
US9286907B2 (en) * | 2011-11-23 | 2016-03-15 | Creative Technology Ltd | Smart rejecter for keyboard click noise |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US20170264942A1 (en) * | 2016-03-11 | 2017-09-14 | Mediatek Inc. | Method and Apparatus for Aligning Multiple Audio and Video Tracks for 360-Degree Reconstruction |
US12016098B1 (en) | 2019-09-12 | 2024-06-18 | Renesas Electronics America | System and method for user presence detection based on audio events |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4063033A (en) * | 1975-12-30 | 1977-12-13 | Rca Corporation | Signal quality evaluator |
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
JPH01158499A (ja) * | 1987-12-16 | 1989-06-21 | Hitachi Ltd | 定常雑音除去方式 |
DE69011709T2 (de) * | 1989-03-10 | 1994-12-15 | Nippon Telegraph & Telephone | Einrichtung zur Feststellung eines akustischen Signals. |
US4975657A (en) * | 1989-11-02 | 1990-12-04 | Motorola Inc. | Speech detector for automatic level control systems |
US5323337A (en) * | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
US5479560A (en) * | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
EP0707763B1 (en) * | 1993-07-07 | 2001-08-29 | Picturetel Corporation | Reduction of background noise for speech enhancement |
KR100307065B1 (ko) | 1994-07-18 | 2001-11-30 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성검출장치 |
US6037988A (en) | 1996-03-22 | 2000-03-14 | Microsoft Corp | Method for generating sprites for object-based coding sytems using masks and rounding average |
US6075875A (en) | 1996-09-30 | 2000-06-13 | Microsoft Corporation | Segmentation of image features using hierarchical analysis of multi-valued image data and weighted averaging of segmentation results |
JP3607450B2 (ja) * | 1997-03-05 | 2005-01-05 | Kddi株式会社 | オーディオ情報分類装置 |
JP3160228B2 (ja) * | 1997-04-30 | 2001-04-25 | 日本放送協会 | 音声区間検出方法およびその装置 |
-
1998
- 1998-11-30 US US09/201,705 patent/US6205422B1/en not_active Expired - Lifetime
-
1999
- 1999-11-30 WO PCT/US1999/028401 patent/WO2000033294A1/en active IP Right Grant
- 1999-11-30 AT AT99968458T patent/ATE275750T1/de not_active IP Right Cessation
- 1999-11-30 JP JP2000585861A patent/JP4652575B2/ja not_active Expired - Fee Related
- 1999-11-30 DE DE69920047T patent/DE69920047T2/de not_active Expired - Lifetime
- 1999-11-30 EP EP99968458A patent/EP1141938B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE275750T1 (de) | 2004-09-15 |
DE69920047T2 (de) | 2005-01-20 |
JP2002531882A (ja) | 2002-09-24 |
WO2000033294A1 (en) | 2000-06-08 |
WO2000033294A9 (en) | 2001-07-05 |
EP1141938A1 (en) | 2001-10-10 |
DE69920047D1 (de) | 2004-10-14 |
US6205422B1 (en) | 2001-03-20 |
EP1141938B1 (en) | 2004-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4652575B2 (ja) | バレーパーセンテージを使用した純粋音声の検出 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
US7117148B2 (en) | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
JP2003177778A (ja) | 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 | |
Wang et al. | A fast and robust speech/music discrimination approach | |
CA2625378A1 (en) | Neural network classifier for separating audio sources from a monophonic audio signal | |
Rossignol et al. | Feature extraction and temporal segmentation of acoustic signals | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN116895288A (zh) | 基于伪Wigner-Ville分布的数字音频自适应复制粘贴检测方法及装置 | |
KR100714721B1 (ko) | 음성 구간 검출 방법 및 장치 | |
JP4201204B2 (ja) | オーディオ情報分類装置 | |
EP1531457B1 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
Wu et al. | Robust speech/non-speech detection in adverse conditions using the fuzzy polarity correlation method | |
JP3607450B2 (ja) | オーディオ情報分類装置 | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
CN112927700A (zh) | 一种盲音频水印嵌入和提取方法及系统 | |
Ntalampiras et al. | Speech/music discrimination based on discrete wavelet transform | |
Redelinghuys et al. | Evaluating audio features for speech/non-speech discrimination | |
Cai et al. | Wavelet-based multi-feature voiced/unvoiced speech classification algorithm | |
Thiruvengatanadhan et al. | Speech/music classification using SVM | |
AU2005252714B2 (en) | Effective audio segmentation and classification | |
Cai | A modified multi-feature voiced/unvoiced speech classification method | |
AU2003204588B2 (en) | Robust Detection and Classification of Objects in Audio Using Limited Training Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061130 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100224 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |