JP2013092792A - エンターテイメントオーディオにおける音声強調方法 - Google Patents
エンターテイメントオーディオにおける音声強調方法 Download PDFInfo
- Publication number
- JP2013092792A JP2013092792A JP2012283295A JP2012283295A JP2013092792A JP 2013092792 A JP2013092792 A JP 2013092792A JP 2012283295 A JP2012283295 A JP 2012283295A JP 2012283295 A JP2012283295 A JP 2012283295A JP 2013092792 A JP2013092792 A JP 2013092792A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- speech
- level
- voice
- entertainment audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Receiver Circuits (AREA)
Abstract
【課題】 片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
【解決手段】エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含む。
【選択図】図1a
【解決手段】エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含む。
【選択図】図1a
Description
本発明は、オーディオ信号処理に関するものである。より具体的には、本発明は、テレビオーディオのようなエンターテイメントオーディオ処理に関し、せりふや物語のオーディオのような音声の明瞭度と了解度を向上する。本発明は、方法、それらの方法を実行する装置、およびそれらの方法をコンピュータに実行させるコンピュータ可読媒体に保存されたソフトウェアに関する。
オーディオビジュアルエンターテイメントは、せりふ、物語、音楽および効果の速いペースのシーケンスに発展した。最新のエンターテイメントオーディオ技術と製造方法で達成可能な高度なリアリズムは、テレビでの会話のように話すスタイルの使用を促進し、そのスタイルは、これまでのはっきりと発表するステージでのプレゼンテーションとは本質的に異なる。この状況により、知覚と言語処理能力の低下した高齢の視聴者の人口増加だけではなく、通常の聴覚を有する人にも、たとえば低音響レベルで聞くときに、そのプログラミングに従うという負担をかけるという問題を生ずる。
音声がどのくらいよく理解されるかは、多くの因子に依存する。例として、発声の気配り(はっきりした、または、対話形式の音声)、話す速さ、音声の可聴性などがある。話し言葉は非常にしっかりしており、理想的な状態より劣っていても理解できる。たとえば、聴覚に障害のあるリスナーは、低下した聴力のために音声の一部を聞き取れなくても明確な音声を大概理解することができる。しかし、話す速さが速くなり、発声が正確さを欠くようになると、聞くことと理解することには、とくに音声スペクトルの一部が聞こえないと、より大きな努力が必要となる。
テレビの視聴者は、放送音声の明瞭度に影響を与えることは何もできないので、聴覚に障害のあるリスナーは聞き取りボリュームを大きくして不十分な可聴性を補おうとする。同じ部屋や近くにいる正常な聴力の人にとって不快であることは別として、この方法は部分的にしか効果がない。なぜならば聴力の低下のほとんどは、周波数の高低により一様ではないからであり、低周波数や中周波数より高周波数で大きな影響があるからである。たとえば、6kHzの音を聞く典型的な70歳の男性の能力は、若者の能力より約50dB悪いが、1kHzより下の周波数では高齢者の聴力の不都合は、10dBより小さい(ISO7092,オーディオ対年齢の関数としての聴力限界の統計的分布)。ボリュームを大きくすることは、低周波数および中周波数の音を、これらの周波数では可聴性はすでに十分であるので、了解度への寄与に大きく貢献することなくさらに大きくする。ボリュームを大きくすることはまた、高周波数での重度の聴力低下についてはあまり解決しない。より適切な是正は、グラフィックエコライザで得られるような音質のコントロールである。
ボリュームコントロールを単に大きくするよりはよい選択ではあるが、音質コントロールはほとんどの聴力低下にとっては、まだ不十分である。聴覚に障害のあるリスナーに穏やかな文節を聞こえるようにするのに必要な大きな高周波数ゲインは、高レベルの文節の間は不快なほどにうるさくなりがちであり、オーディオ再生鎖に負担をかけすぎたりもする。よりよい答は、信号のレベルにより増幅し、信号の低い部分には大きなゲインを、高レベルの部分には小さなゲイン(あるいはゲインなし)を提供することである。そのようなシステムは、オートマティックゲインコントロール(AGC)あるいはダイナミックレンジ圧縮器(コンプレッサ)(DRC)として知られているが、聴覚の補助に使われ、通信システムで障害のある聴覚の了解度を向上するのにそれらを使用することが提案されて
いる(たとえば、米国特許第5,388,185号、第5,539,806号、第6,061,431号)。
いる(たとえば、米国特許第5,388,185号、第5,539,806号、第6,061,431号)。
聴力低下は徐々に進行するのが普通なので、難聴のあるリスナーのほとんどは、聴力低下に慣れていく。その結果、エンターテイメントオーディオで彼らの聴覚障害を矯正する処理をされると、その音質を嫌うことが多い。聴覚障害のある聴衆は、せりふや物語の了解度が高まるとか矯正するための精神的苦痛が減るなどの、明白な利益を提供されると、矯正されたオーディオの音質を受け入れやすくなる。したがって、音声が主体のオーディオプログラムの部分への聴力低下矯正の適用を制限することは好都合である。そうすることは、片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
本発明の態様によれば、エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含み、そのような変化には時間断片より短い時間間隔内に応答し、応答する工程の判定基準は上記の特徴付ける工程によりコントロールされる。処理する工程と応答する工程とは、対応する複数の周波数帯域(バンド)でそれぞれ動作し、応答する工程は複数の周波数帯域のそれぞれの処理する工程のコントロールを提供する。
本発明の態様は、処理ポイントの前と後でエンターテイメントオーディオの経過時間のある時点へアクセスすることができ、コントロールを生成する工程は処理ポイントの後の少なくとも若干のオーディオ信号に応答するときのように、「先読み」方法で動作する。
本発明の態様は、処理、特徴付けおよび応答のいくつかが異なった時間あるいは異なった場所で行われるように、時間的および/または空間的分離を用いる。たとえば、特徴付けは第1の時間あるいは場所で行われ、処理と応答は第2の時間あるいは場所で行われ、時間断片の特徴に関する情報は応答の判定基準をコントロールするのに保存あるいは伝達される。
本発明の態様はまた、知覚符号化スキームあるいは無損失符号化スキームに従ってエンターテイメントオーディオをエンコードすることと、エンコードするのに用いたのと同じ符号化スキームにしたがってエンターテイメントオーディオをデコードすることを含み、処理、特徴付けおよび応答のいくつかはエンコードまたはデコードと一緒に行われる。特徴付けはエンコードと一緒に行われ、処理および/または応答はデコードと一緒に行われてもよい。
本発明の前述の態様によれば、処理は1つあるいは複数の処理パラメータにしたがって行われる。1つあるいは複数のパラメータの調整は、処理されたオーディオの音声了解度
メトリックが最大となるか所望の閾値レベル以上になされるかのいずれかとなるように、エンターテイメントオーディオに応答する。本発明の態様によれば、エンターテイメントオーディオは、複数のオーディオチャンネルを備え、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、音声了解度メトリックは音声チャンネルのレベルと1つ以上の他のチャンネルのレベルに基づく。音声了解度メトリックはまた、処理されたオーディオが再生される聴取環境のノイズのレベルにも基づく。1つ以上のパラメータの調整は、エンターテイメントオーディオの1つ以上の長期間の記述子に応答する。長期間の記述子の例には、エンターテイメントオーディオの平均的なせりふのレベルや、エンターテイメントオーディオに既に適用された処理の推定が含まれる。1つ以上のパラメータの調整は規定された式に従い、規定された式はリスナーまたはリスナーのグループの聴力を1つ以上のパラメータに関係付ける。代替または追加として、1つ以上のパラメータの調整は、1人以上のリスナーの好みに従ってもよい。
メトリックが最大となるか所望の閾値レベル以上になされるかのいずれかとなるように、エンターテイメントオーディオに応答する。本発明の態様によれば、エンターテイメントオーディオは、複数のオーディオチャンネルを備え、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、音声了解度メトリックは音声チャンネルのレベルと1つ以上の他のチャンネルのレベルに基づく。音声了解度メトリックはまた、処理されたオーディオが再生される聴取環境のノイズのレベルにも基づく。1つ以上のパラメータの調整は、エンターテイメントオーディオの1つ以上の長期間の記述子に応答する。長期間の記述子の例には、エンターテイメントオーディオの平均的なせりふのレベルや、エンターテイメントオーディオに既に適用された処理の推定が含まれる。1つ以上のパラメータの調整は規定された式に従い、規定された式はリスナーまたはリスナーのグループの聴力を1つ以上のパラメータに関係付ける。代替または追加として、1つ以上のパラメータの調整は、1人以上のリスナーの好みに従ってもよい。
本発明の前述の態様によれば、処理には並行して動作する複数の機能を含む。複数の機能のそれぞれは、複数の周波数帯域の1つで作動する。複数の機能のそれぞれは、個別にまたは集合的に、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは複数の圧縮/拡大機能あるいは装置により提供され、それぞれがオーディオ信号のある周波数領域を処理する。
処理に複数の機能が含まれるかどうかは別として、処理はダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能または装置により提供される。
本発明の態様は、聴力低下矯正に適した音声強調をコントロールすることで、理想的には、オーディオプログラムの音声部分にだけ作用し、残りの(非音声)プログラム部分には作用せず、よって、残りの(非音声)プログラム部分の音色(スペクトル分布)または知覚される音量を変えない傾向がある。
本発明の別の態様によれば、エンターテイメントオーディオで音声を強調することは、エンターテイメントオーディオを分析し、音声か他のオーディオのいずれかにオーディオの時間断片を分類し、音声と分類された時間断片の間のエンターテイメントオーディオの1つまたは複数の周波数帯域にダイナミックレンジ圧縮を適用することを含む。
オーディオを音声と非音声(音楽など)に分類する技術は当該技術分野で周知であり、音声対その他弁別器(SVO)として知られていることも多い。たとえば、米国特許第6,785,645号、第6,570,991号および米国特許出願第20040044525号並びにそれらに記載の参考文献を参照のこと。音声対その他のオーディオ弁別器は、オーディオ信号の時間断片を分析し、全ての時間断片から1つ以上の信号記述子(特徴)を抽出する。それらの特徴は、時間断片が音声である可能性を推定し、または、厳しく音声/非音声の判断をするプロセッサに送られる。特徴のほとんどは、信号の経時的変化を反映する。特徴の典型例は、信号スペクトルが時間とともに変化する割合であり、信号極性が変化する割合の分布のゆがみである。音声のはっきりした特徴を確実に反映するのに、時間断片は十分な長さでなければならない。多くの特徴は、隣接音節間の移行を反映する信号特徴に基づくので、時間断片は普通少なくとも2音節(すなわち、約250マイクロ秒)に及んでそのような移行を捕らえる。しかし、時間断片はより確実な推定を得るには長めであることが多い(たとえば、約10倍で)。動作においては比較的ゆっくりとしているが、SVOはオーディオを音声と非音声とに分類するのにそこそこ確実で正確である。しかし、本発明の態様に従ったオーディオプログラムで選択的に音声を強調するには、音声対その他弁別器で分析される時間断片の長さより細かな時間スケールで音声強調をコントロールすることが好ましい。
音声活動検出器(VAD)として知られることもある、別の類の技術は、比較的一定のノイズのバックグラウンドにおける音声の存在と不存在を示す。VADを、音声伝達用途でノイズ低減スキーマの一部として広範囲に用いる。音声対その他弁別器と違って、VADは、本発明の態様に従って音声強調をコントロールするのに十分な時間分解能を有するのが普通である。VADは信号パワーの急激な増大を音声サウンドの始まり、信号パワーの急激な低減を音声サウンドの終わりと解釈する。そうすることで、音声とバックグラウンドとの間の境界をほとんど瞬時に(すなわち、信号パワーを測定する時間集積のウィンドウ内、たとえば10ミリ秒)信号で伝える。しかし、VADは信号パワーの急激な変化に反応するため、音声と他の支配的信号、たとえば音楽、とを区別することができない。したがって、VADは、単独で用いると、本発明にしたがって選択的に音声を強調する音声強調をコントロールするのに適してはいない。
音声対その他(SVO)識別子の音声対非音声特性を音声活動検出器(VAD)と組み合わせて、従来技術の音声対その他弁別器に見られるより細かな時間分解能でオーディオ信号中の音声に選択的に応答する音声強調を容易にすることは本発明の一態様である。
原理的に本発明の態様はアナログおよび/またはデジタル分野で実行されるが、実際的な実行は、それぞれのオーディオ信号が個々のサンプリングあるいはデータブロック内のサンプリングで表されるデジタル分野で実行されることが多い。
ここで図1aを参照すると、本発明の態様を図示する模式的作用ブロック図が示され、オーディオ入力信号101が、コントロール信号103で有効にされるときに音声強調オーディオ出力信号104を生成する音声強調機能あるいは装置(「音声強調」)102に送信される。コントロール信号は、オーディオ入力信号101のバッファされた時間断片に作用するコントロール機能あるいは装置(「音声強調コントローラ」)105により生成される。音声強調コントローラ105は、音声対その他弁別機能あるいは装置(「SVO」)107と1組の1つ以上の音声活動検出器機能あるいは装置(「VAD」)108とを含む。SVO107は、VADで分析されたよりも長い時間スパンで信号を分析する。SVO107とVAD108とが異なる長さの時間スパンで作動するという事実は、単一バッファ機能あるいは装置(「バッファ」)106の広い領域(SVO107に関連し
て)を囲うブラケットと、狭い領域(VAD108に関連して)を囲うもう1つのブラケットで図に示される。広い領域と狭い領域とは模式的であり、寸法に意味はない。オーディオデータがブロックで送られるデジタルでの実施の場合には、バッファ106の各部分はオーディオデータの1ブロックを保存する。VADがアクセスする領域は、バッファ106で単一保存の最新の部分を含む。SVO107で判断された現在の信号部分が音声である可能性は、109がVAD108をコントロールするように作用する。たとえば、VAD108の判定基準をコントロールし、よって、VAD108の決定にバイアスをかける。
て)を囲うブラケットと、狭い領域(VAD108に関連して)を囲うもう1つのブラケットで図に示される。広い領域と狭い領域とは模式的であり、寸法に意味はない。オーディオデータがブロックで送られるデジタルでの実施の場合には、バッファ106の各部分はオーディオデータの1ブロックを保存する。VADがアクセスする領域は、バッファ106で単一保存の最新の部分を含む。SVO107で判断された現在の信号部分が音声である可能性は、109がVAD108をコントロールするように作用する。たとえば、VAD108の判定基準をコントロールし、よって、VAD108の決定にバイアスをかける。
バッファ106は、処理に特有のメモリを記号化し、直接的に実装されてもされなくてもよい。たとえば、ランダムアクセスメモリの媒体に記憶されたオーディオ信号について処理が行われると、その媒体はバッファとして作用する。同様に、オーディオ入力の履歴は、音声対その他弁別器107の内部状態および音声活動検出器の内部状態に反映され、その場合には、別のバッファは必要ではない。
音声強調102は音声を強調するのに並行して動作する複数のオーディオ処理装置あるいは機能からなる。各機能あるいは装置は、音声が強調されるべきオーディオ信号の周波数領域で作動する。たとえば、装置あるいは機能は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を、個別にあるいは全体として提供する。本発明の態様の詳細な例では、ダイナミックレンジコントロールは、オーディオ信号の周波数帯域で圧縮あるいは拡大を提供する。よって、たとえば、音声強調102は、ダイナミックレンジ圧縮器/拡大器あるいは圧縮/拡大機能のバンクであり、それぞれがある周波数領域のオーディオ信号を処理する(マルチ帯域圧縮器/拡大器あるいは圧縮/拡大機能)。マルチ帯域圧縮/拡大で利用可能となる周波数特性は、音声強調のパターンを与えられた聴力低下のパターンに合わせることができるからというだけではなく、どの瞬間でも音声はある周波数領域で存在し他では存在しないという事実に応答できるから、有用である。
マルチ帯域圧縮で提供される周波数特性の全ての利点を活用して、各圧縮/拡大帯域は、それ自身の音声活動検出器あるいは検出機能でコントロールされる。このような場合、各音声活動検出器あるいは検出機能は、それがコントロールする圧縮/拡大帯域に関連する周波数領域での音声活動を信号で送る。並行して動作するいくつかのオーディオ処理装置あるいは機能からなる音声強調102には利点があるが、本発明の態様の単純な実施の形態では1つだけのオーディオ処理装置あるいは機能からなる音声強調102を用いる。
多くの音声活動検出器があるときでも、存在する全ての音声活動検出器をコントロールする単一の出力109を生成する1つだけの音声対その他弁別器107があることでもよい。1つだけの音声対その他弁別器を使用するという選択は、2つの観察結果を反映する。1つは、音声活動の全帯域パターンが時間とともに変化する速さは、通常、音声対その他弁別器の時間分解能よりかなり速いということである。別の観察結果は、音声対その他弁別器で用いられる特徴が、ブロードバンド信号で最もよく観察できるスペクトルの特徴から通常導かれるということである。双方の観察結果は、帯域特有の音声対その他弁別器の使用を実際的ではないとする。
音声強調コントローラ105内に図示されるSVO107とVAD108の組み合わせはまた、音声を強調すること以外の目的、たとえば、オーディオプログラムの音声の大きさを推定したり、話す速さを測定したりするのに使われる。
説明したところの音声強調スキーマは多くの方法で配置される。たとえば、全スキーマは、テレビあるいはセットトップボックスの内側に実装され、テレビやテレビ放送の受信
オーディオ信号に作用する。あるいは、知覚オーディオコーダ(たとえば、AC−3またはAAC)と一体化され、あるいは、無損失オーディオコーダと一体化されてもよい。
オーディオ信号に作用する。あるいは、知覚オーディオコーダ(たとえば、AC−3またはAAC)と一体化され、あるいは、無損失オーディオコーダと一体化されてもよい。
本発明の態様に従った音声強調は、異なった時間に、あるいは、異なった場所で実行される。音声強調がオーディオコーダあるいはコーディングプロセスと一体化あるいは関連される例について考える。そのような場合、音声強調コントローラ105の音声対その他弁別器(SVO)107の部分は、計算コストが高いのが普通であるが、オーディオエンコーダあるいは符号化処理と一体化あるいは関連させる。たとえば音声の存在を示すフラグである、SVOの出力109は、符号化されたオーディオストリームに埋め込まれる。符号化されたオーディオストリームに埋め込まれたそのような情報は、メタデータと呼ばれることが多い。音声強調102と音声強調コントローラ105のVAD108は、オーディオデコーダと一体化あるいは関連され、前もってエンコードしたオーディオに作用する。1組の1つ以上の音声活動検出器(VAD)108はまた、音声対その他弁別器(SVO)107の出力109を用い、出力109は符号化されたオーディオストリームから抽出される。
図1bは、図1aの改変版の例示の実施を示す。図1aの装置あるいは機能に相当する図1bの装置あるいは機能は、同一の参照番号を有する。オーディオ入力信号101は、エンコーダあるいはエンコード機能(「エンコーダ」)110およびSVO107で必要な時間スパンに及ぶバッファ106へ送られる。エンコーダ110は、知覚または無損失コーディングシステムの一部である。エンコーダ110の出力はマルチプレクサあるいは多重送信機能(「マルチプレクサ」)112へ送られる。SVO出力(図1の109)は、エンコーダ110に適用される109a、あるいは、エンコーダ110の出力も受信するマルチプレクサ112に適用される109bとして示される。図1aでのフラグのような、SVO出力は、エンコーダ110のビットストリーム出力で(たとえば、メタデータとして)搬送され、あるいは、エンコーダ110の出力と多重送信され、保存または伝達用に圧縮しアセンブルしたビットストリーム114をデマルチプレクサあるいはデマルチプレクサ機能(「デマルチプレクサ」)116に提供し、デマルチプレクサ116は、デコーダあるいはデコード機能118に送るようにそのビットストリーム114を解凍する。SVO107の出力109bがマルチプレクサ112に送られるとすると、デマルチプレクサ116から109b’として受信され、VAD108に送られる。あるいは、SVO107の出力109aがエンコーダ110に送られるとすると、デコーダ118から109a’として受信される。図1aの例のように、VAD108は複数の音声活動機能あるいは装置を備える。VAD108で必要な時間スパンの範囲にわたるデコーダ118から入力される単一のバッファ機能あるいは装置(「バッファ」)120は、別のフィードをVAD108に供給する。VAD出力103は、強調された音声オーディオ出力を提供する音声強調102に、図1aのように送られる。説明の明瞭さのために分けて示されるが、SVO107および/またはバッファ106はエンコーダ110と一体化されてもよい。同様に、説明の明瞭さのために分けて示されるが、VAD108および/またはバッファ120はデコーダ118または音声強調102と一体化されてもよい。
処理されるオーディオ信号が予め記録されているならば、たとえば消費者の家庭でDVDから再生するときや放送の環境でオフライン処理するときなどであるが、音声対その他弁別器および/または音声活動検出器は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む信号部分に作用する。このことは図2に示され、記号信号バッファ201は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む(「先読み」)。信号が予め記録されていないとしても、オーディオエンコーダが実質的な特有の処理遅れを有するときには先読みは依然として使われる。
音声強調102の処理パラメータは、圧縮器のダイナミック応答速度より低い速度で、
処理されたオーディオ信号に応答してアップデートされる。処理パラメータをアップデートするときに追求するであろう多くの目的がある。たとえば、音声強調プロセッサのゲイン関数処理パラメータはプログラムの平均音声レベルに応じて調整され、長期平均音声スペクトルの変化が音声レベルと無関係になるようにする。そのような調整の効果と必要性とを理解するために、以下の例を考える。音声強調は信号の高周波数部分にだけ適用される。与えられた平均音声レベルで、高周波信号部分のパワー推定301はP1を平均し、ここでP1は、圧縮閾値出力304より大きい。このパワー推定に関連するゲインはG1であり、G1は、信号の高周波部分に適用される平均ゲインである。低周波数部分ではゲインがないので、平均音声スペクトルは、低周波数より高周波数でG1デシベル(dB)高い形となる。ここで、平均音声レベルがある値ΔLだけ増加したときに何が起きるかを考える。平均音声レベルのΔLdBの増加は、高周波信号部分の平均パワー推定301をP2=P1+ΔLに増大する。図3aから分かるように、高いパワー推定P2は、G1より小さなゲインG2を生じさせる。結果として、処理された信号の平均音声スペクトルは、入力の平均レベルが高いときに、低いときよりもより小さな高周波数の強調を示す。リスナーは、平均音声レベルの違いをボリューム調整で補正するので、平均高周波数強調のレベル依存状態は好ましくない。それは、図3a〜3cのゲイン曲線を平均音声レベルで修正することにより消去できる。図3a〜3cについて以下に説明する。
処理されたオーディオ信号に応答してアップデートされる。処理パラメータをアップデートするときに追求するであろう多くの目的がある。たとえば、音声強調プロセッサのゲイン関数処理パラメータはプログラムの平均音声レベルに応じて調整され、長期平均音声スペクトルの変化が音声レベルと無関係になるようにする。そのような調整の効果と必要性とを理解するために、以下の例を考える。音声強調は信号の高周波数部分にだけ適用される。与えられた平均音声レベルで、高周波信号部分のパワー推定301はP1を平均し、ここでP1は、圧縮閾値出力304より大きい。このパワー推定に関連するゲインはG1であり、G1は、信号の高周波部分に適用される平均ゲインである。低周波数部分ではゲインがないので、平均音声スペクトルは、低周波数より高周波数でG1デシベル(dB)高い形となる。ここで、平均音声レベルがある値ΔLだけ増加したときに何が起きるかを考える。平均音声レベルのΔLdBの増加は、高周波信号部分の平均パワー推定301をP2=P1+ΔLに増大する。図3aから分かるように、高いパワー推定P2は、G1より小さなゲインG2を生じさせる。結果として、処理された信号の平均音声スペクトルは、入力の平均レベルが高いときに、低いときよりもより小さな高周波数の強調を示す。リスナーは、平均音声レベルの違いをボリューム調整で補正するので、平均高周波数強調のレベル依存状態は好ましくない。それは、図3a〜3cのゲイン曲線を平均音声レベルで修正することにより消去できる。図3a〜3cについて以下に説明する。
音声強調102の処理パラメータはまた、音声了解度メトリックが最大となるか、あるいは、所望の閾値レベルより大きくなされるように調整される。音声了解度メトリックは、オーディオ信号の相対的レベルとリスニング環境の競合音(航空機内ノイズのような)とから計算される。オーディオ信号が、1チャンネルに音声信号で、残りのチャンネルに非音声信号の多チャンネルオーディオ信号であれば、音声了解度メトリックは、たとえば、全チャンネルの相対的レベルとそれらのスペクトルエネルギの分布とから計算される。適切な了解度メトリックは周知である[たとえば、ANSI S3.5−1997「音声了解度指数の計算方法(Method for Calculation of the
Speech Intelligibility Index)」米国規格協会1997年、あるいは、ミュッシュ、ブース(Musch、Buus)「音声了解度予知のための統計決定理論の使用 I.モデル構造(Using statistical decision theory to predict speech intelligibility. I Model Structure)」アメリカ音響学会誌(Journal of the Acoustical Society of America)、2001年、109巻、2896〜2909ページ]。
Speech Intelligibility Index)」米国規格協会1997年、あるいは、ミュッシュ、ブース(Musch、Buus)「音声了解度予知のための統計決定理論の使用 I.モデル構造(Using statistical decision theory to predict speech intelligibility. I Model Structure)」アメリカ音響学会誌(Journal of the Acoustical Society of America)、2001年、109巻、2896〜2909ページ]。
図1aと図1bの機能的ブロック図に示され、ここで説明した本発明の態様は、図3a〜3cおよび図4の例のように実行される。この例では、音声成分の周波数形状圧縮増幅と非音声成分処理からの解放は、圧縮および拡大特性双方を実装するマルチ帯域ダイナミックレンジプロセッサ(不図示)で実現される。そのようなプロセッサは、1組のゲイン関数で特徴付けられる。各ゲイン関数は、1周波数帯域の入力パワーを対応する帯域ゲインに関係付け、対応する帯域ゲインはその帯域の信号成分に適用される。そのような関係の1つを図3a〜3cに図示する。
図3aを参照して、帯域入力パワー301の推定はゲイン曲線により所望の帯域ゲイン302に関連付けられる。そのゲイン曲線は2成分の曲線の最小値とみなされる。実線で示される1成分の曲線は、圧縮閾値304より大きなパワー推定301の適切に選択された圧縮比(「CR」)303と圧縮閾値以下でのパワー推定の一定のゲインとの圧縮特性を有する。破線で示される、他の成分の曲線は、拡大閾値306より大きなパワー推定の適切に選択された拡大比(「ER」)305と、より小さいパワー推定のゼロのゲインとの拡大特性を有する。最終的なゲイン曲線はこれら2成分の曲線の最小値となる。
圧縮閾値304、圧縮比303および圧縮閾値でのゲインは、固定パラメータである。それらの選定は、特定の帯域で音声信号の包絡線とスペクトルがどのように処理されるかを決定する。理想的には、それらは規定された式に従って選定され、その式は、所与の聴力を有する1グループのリスナーに対しそれぞれの帯域で適切なゲインと圧縮比を決定する。そのような規定された式の例はNAL−NL1であり、NAL−NL1はオーストラリアの国立音響研究所(National Acoustics Laboratory)で開発され、エイチ・ディロン(H. Dillon)により「聴覚補助性能の規定(Prescribing hearing aid performance)」[エイチ・ディロン編集、聴覚補助(Hearing Aids)(249〜261ページ);シドニー;ブーメラン・プレス(Boomerang Press)、2001年]で説明される。しかし、それらも、単にリスナーの好みに基づいている。特定の帯域の圧縮閾値304と圧縮比303は、映画のサウンドトラックのせりふの平均レベルなど、所定のオーディオプログラムに特有のパラメータにさらに依存する。
圧縮閾値が固定されているのに対し、拡大閾値306は適応型で、入力信号に応じて変化するのが好ましい。拡大閾値は、圧縮閾値より大きな値を含めて、システムのダイナミックレンジ内の任意の値を仮定する。入力信号で音声が支配的であるときには、以下に説明するコントロール信号は拡大閾値を下方レベルに動かし、入力レベルを拡大が適用されるパワー推定のレンジより高くする(図3aと図3b参照)。その条件では、信号に適用されるゲインは、プロセッサの圧縮特性が支配的となる。図3bは、そのような条件を表すゲイン関数の例を示す。
入力信号で音声以外のオーディオが支配的なときには、コントロール信号は拡大閾値を高レベルに動かし、入力レベルは拡大閾値より低くなる傾向となる。その条件では、信号成分の大部分はゲインを受けない。図3cはそのような状況を表すゲイン関数の例を示す。
前記説明の帯域パワー推定は、フィルタバンクの出力あるいはDFT(離散フーリエ変換)、WDCT(修正離散コサイン変換)あるいはウェーブレット変換などのような時間−周波数ドメイン変換の出力を分析することにより導かれる。パワー推定はまた、信号の平均絶対値、Teagerエネルギのような信号の強さに関連する量、あるいは音量のような知覚の量により置き換えられる。さらに、帯域パワー推定は、時間について平滑化し、ゲインが変化する速さをコントロールする。
本発明の態様によれば、拡大閾値は理想的には、信号が音声のとき信号レベルがゲイン関数の拡大領域の上にあり、信号が音声以外のオーディオであるとき信号レベルがゲイン関数の下にあるように置かれる。以下に説明するように、このことは非音声オーディオのレベルを追跡し、そのレベルに関連して拡大閾値を置くことにより達成される。
ある従来技術のレベル追跡は、下方への拡大(あるいはスケルチ)がノイズ低減システムの一部として適用されるより低い閾値を設定し、ノイズ低減システムは好ましいオーディオと好ましくないノイズとを弁別しようとする。たとえば、米国特許第3803357号、第5263091号、第5774557号および第6005953号参照。対照的に、本発明の態様では、一方の音声と他方のたとえば音楽や効果音など残りの全てのオーディオ信号間の識別をすることが必要である。従来技術で追跡されたノイズは、好ましいオーディオの時間的空間的包絡線より遥かに小さく変動する時間的空間的包絡線により特徴付けられる。さらに、ノイズは、先験的に知られている独特なスペクトル形状を有する。そのような識別的な特徴は、従来技術のノイズ追跡により使用されている。対照的に、本発明の態様では非音声オーディオ信号のレベルを追跡する。多くの場合、そのような非音声オーディオ信号は、その包絡線とスペクトル形状にばらつきを示し、それらは少なくと
も音声オーディオ信号のものと同じ大きさである。したがって、本発明で用いられるレベル追跡には、音声とノイズの間よりも音声と非音声との間の識別に適した信号特徴を分析する必要がある。
も音声オーディオ信号のものと同じ大きさである。したがって、本発明で用いられるレベル追跡には、音声とノイズの間よりも音声と非音声との間の識別に適した信号特徴を分析する必要がある。
図4は、1周波数帯域の音声強調ゲインが、その帯域の信号パワー推定からどのように導かれるかを示す。ここで図4を参照して、帯域限定信号401を表すものがパワー推定器あるいは推定装置(「パワー推定」)402に送られ、パワー推定402はその周波数帯域の信号パワー403の推定を生成する。その信号パワー推定は、パワーゲイン変換あるいは変換機能(「ゲイン曲線」)404に送られ、ゲイン曲線404は図3a〜3cで示される例の形をしていてもよい。パワーゲイン変換あるいは変換機能404は、その帯域(不図示)の信号パワーを修正するのに用いられる帯域ゲイン405を生成する。
信号パワー推定403はまた、音声ではない帯域の全信号成分のレベルを追跡する装置または機能(「レベルトラッカ」)406に送られる。レベルトラッカ406は、適応漏洩率の漏洩最少保持回路あるいは機能(「最少保持」)407を含む。この漏洩率は時定数408にコントロールされ、時定数408は音声が主体の信号パワーの時には低く、音声以外のオーディオが主体の信号パワーの時には高くなる傾向がある。時定数408は、その帯域での信号パワー403の推定に含まれる情報から導かれる。具体的には、時定数は、4Hzと8Hzの間の周波数領域の帯域信号包絡線のエネルギに単調に関連する。その特徴は、適切に同調したバンドパスフィルタあるいはフィルタ機能(「バンドパス」)409により抽出される。バンドパス409の出力は、伝達機能(「パワー−時間定数」)410により時定数に関連付けられる。非音声成分のレベル推定411は、レベルトラッカ406により生成されるが、バックグラウンドレベルの推定を拡大閾値414に関連付ける変換あるいは変換機能(「パワー−拡大閾値」)412への入力である。レベルトラッカ406、変換412および下方への拡大(拡大率305により特徴付けられる)の組み合わせは、図1aおよび図1bのVAD108に相当する。
変換412は単なる追加であり、すなわち、拡大閾値306は非音声オーディオの推定レベル411より上の固定数値のデシベルである。あるいは、推定バックグラウンドレベル411を拡大閾値306に関連付ける変換412は、ブロードバンド信号が音声である可能性の独立した推定413に依存する。したがって、推定413が、信号が音声である高い可能性を示すときには、拡大閾値は下げられる。反対に、推定413が、信号が音声である低い可能性を示すときには、拡大閾値は増大される。音声可能性推定413は単一の信号特徴からあるいは音声を他の信号から識別した信号特徴の組み合わせから導かれる。それは、図1aおよび図1bのSVO107の出力109に対応する。音声可能性413の推定に由来するそれらを処理する適切な信号特徴と方法は、当業者に周知である。その例は米国特許第6,785,645号、第6,570,991号、および米国特許出願第20040044525号、並びにそれらに含まれる参考文献に説明されている。
[参照による組み込み]
下記の特許、特許出願および出版物は、それぞれの全体を参照して本明細書に組み込む。・米国特許第3,803,357号、サックス(Sacks)、1974年4月9日、ノイズ・フィルタ(Noise Filter)
・米国特許第5,263,091号、ウォーラー・ジュニア(Waller, Jr.)、1993年11月16日、インテリジェント自動閾値回路(Intelligent automatic threshold circuit)
・米国特許第5,388,185号、テリー(Terry)他、1995年2月7日、電話音声信号の適応処理用システム(System for adaptive processing of telephone voice signals)
・米国特許第5,539,806号、アレン(Allen)他、1996年7月23日、
電話音量強調の顧客選定のための方法(Method for customer selection of telephone sound enhancement)
・米国特許第5,774,557号、スレイター(Slater)、1998年6月30日、航空機内通話システム用オートトラッキング・マイクロフォン・スケルチ(Autotracking microphone squelch for aircraft
intercom systems)
・米国特許第6,005,953号、シュトゥールフェルナー(Stuhlfelner)、1999年12月21日、信号雑音比を改良するための回路配置(Circuit arrangement for improving the signal-to-noise ratio)
・米国特許第6,061,431号、クナッペ(Knappe)他、2000年5月9日、電話番号分解能に基づく電話技術システムにおける聴力低下矯正の方法(Method
for hearing loss compensation in telephony systems based on telephone number resolution)
・米国特許第6,570,991号、シャイラー(Scheirer)他、2003年5月27日、多特徴の音声/音楽識別システム(Multi-feature speec
h/music discrimination system)
・米国特許第6,785,645号、カリル(Khalil)他、2004年8月31日、リアルタイム音声および音楽分類器(Real-time speech and m
usic classifier)
・米国特許第6,914,988号、イワン(Irwan)他、2005年7月5日、オーディオ再生装置(Audio reproducing device)
・米国公開特許出願第2004/0044525号、ビントン(Vinton)、マーク・スチュアート(Mark Stuart)他、2004年3月4日、音声と他のタイプのオーディオ素材を含む信号における音声の音量の調整(controlling loudness of speech in signals that contain
speech and other types of audio material)
・チャールス・Q・ロビンソン(Charles Q. Robinson)、ケニス・ガンドリ(Kenneth Gundry)「メタデータを介してのダイナミックレンジコントロール(Dynamic Range Control via Metadata)」会議資料5028、第107回オーディオ工学会会議(Audio Engineering Society Convention)、ニューヨーク、1999年9月24−27日
[実施]
本発明は、ハードウェアまたはソフトウェアで、あるいは両方の組み合わせ(たとえば、プログラマブル・ロジック・アレイ)で実施できる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に特定のコンピュータや他の装置に関連することはない。特に、種々の汎用機を本書の教示に従って書かれたプログラムと用いてもよく、あるいは、必要な方法のステップを実行するための、さらに特化した装置(たとえば、集積回路)を構築すると、さらに使いやすくなる。よって、本発明は、1つ以上のプログラム可能なコンピュータシステム上で実行する1つ以上のコンピュータプログラムで実施され、それぞれのシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータ保存システム(揮発性および不揮発性メモリおよび/または保存要素を含む)、少なくとも1つの入力装置あるいはポート、および、少なくとも1つの出力装置あるいはポートを備える。プログラムコードは、本書で説明した機能を実行するのにデータを入力し、出力情報を生成するのに用いられる。出力情報は、周知のやり方で、1つ以上の出力装置に適用される。
下記の特許、特許出願および出版物は、それぞれの全体を参照して本明細書に組み込む。・米国特許第3,803,357号、サックス(Sacks)、1974年4月9日、ノイズ・フィルタ(Noise Filter)
・米国特許第5,263,091号、ウォーラー・ジュニア(Waller, Jr.)、1993年11月16日、インテリジェント自動閾値回路(Intelligent automatic threshold circuit)
・米国特許第5,388,185号、テリー(Terry)他、1995年2月7日、電話音声信号の適応処理用システム(System for adaptive processing of telephone voice signals)
・米国特許第5,539,806号、アレン(Allen)他、1996年7月23日、
電話音量強調の顧客選定のための方法(Method for customer selection of telephone sound enhancement)
・米国特許第5,774,557号、スレイター(Slater)、1998年6月30日、航空機内通話システム用オートトラッキング・マイクロフォン・スケルチ(Autotracking microphone squelch for aircraft
intercom systems)
・米国特許第6,005,953号、シュトゥールフェルナー(Stuhlfelner)、1999年12月21日、信号雑音比を改良するための回路配置(Circuit arrangement for improving the signal-to-noise ratio)
・米国特許第6,061,431号、クナッペ(Knappe)他、2000年5月9日、電話番号分解能に基づく電話技術システムにおける聴力低下矯正の方法(Method
for hearing loss compensation in telephony systems based on telephone number resolution)
・米国特許第6,570,991号、シャイラー(Scheirer)他、2003年5月27日、多特徴の音声/音楽識別システム(Multi-feature speec
h/music discrimination system)
・米国特許第6,785,645号、カリル(Khalil)他、2004年8月31日、リアルタイム音声および音楽分類器(Real-time speech and m
usic classifier)
・米国特許第6,914,988号、イワン(Irwan)他、2005年7月5日、オーディオ再生装置(Audio reproducing device)
・米国公開特許出願第2004/0044525号、ビントン(Vinton)、マーク・スチュアート(Mark Stuart)他、2004年3月4日、音声と他のタイプのオーディオ素材を含む信号における音声の音量の調整(controlling loudness of speech in signals that contain
speech and other types of audio material)
・チャールス・Q・ロビンソン(Charles Q. Robinson)、ケニス・ガンドリ(Kenneth Gundry)「メタデータを介してのダイナミックレンジコントロール(Dynamic Range Control via Metadata)」会議資料5028、第107回オーディオ工学会会議(Audio Engineering Society Convention)、ニューヨーク、1999年9月24−27日
[実施]
本発明は、ハードウェアまたはソフトウェアで、あるいは両方の組み合わせ(たとえば、プログラマブル・ロジック・アレイ)で実施できる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に特定のコンピュータや他の装置に関連することはない。特に、種々の汎用機を本書の教示に従って書かれたプログラムと用いてもよく、あるいは、必要な方法のステップを実行するための、さらに特化した装置(たとえば、集積回路)を構築すると、さらに使いやすくなる。よって、本発明は、1つ以上のプログラム可能なコンピュータシステム上で実行する1つ以上のコンピュータプログラムで実施され、それぞれのシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータ保存システム(揮発性および不揮発性メモリおよび/または保存要素を含む)、少なくとも1つの入力装置あるいはポート、および、少なくとも1つの出力装置あるいはポートを備える。プログラムコードは、本書で説明した機能を実行するのにデータを入力し、出力情報を生成するのに用いられる。出力情報は、周知のやり方で、1つ以上の出力装置に適用される。
そのようなプログラムのそれぞれは、コンピュータシステムとコミュニケーションするのにどのようなコンピュータ言語(機械語、アセンブリ、あるいは、高水準手続、論理あるいはオブジェクト指向プログラム言語を含む)で実行されてもよい。どのような場合であっても、言語はコンパイルされた言語またはインタープリットされた言語でよい。
各コンピュータプログラムは、汎用または専用プログラム可能コンピュータで可読な保存媒体または装置(たとえば、ソリッドステートメモリ若しくは媒体、または、磁気若しくは光学媒体)に保存され、あるいは、ダウンロードされるのが好ましく、保存媒体または装置がコンピュータシステムで読み取られて本書で説明した手順を実行するときに、コンピュータを構築し作動する。本発明のシステムは、コンピュータプログラムで構築されるコンピュータ可読保存媒体として実行されることも考えられ、そのように構築された保存媒体は、コンピュータシステムに特定の予め定めた方法で動作し、本書で説明した機能を実行させる。
多くの本発明の実施の形態を説明してきた。それでもなお、本発明の思想と範囲から離れることなしに種々の改変がなされうることは分かるであろう。たとえば、本書で説明したステップのいくつかは、順番が自由であり、よって、説明された順番とは異なる順番で実行することができる。
Claims (17)
- エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため、前記エンターテイメントオーディオを、1つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と;
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
前記エンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いとして特徴付ける工程であって、前記特徴付ける工程は、単一の広周波数帯域に作用する、特徴付ける工程と;
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と;
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と;
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と;
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。 - エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため前記エンターテイメントオーディオを1つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と;
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
(a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いという、前記エンターテイメントオーディオの時間断片の特徴を受信する工程であって、前記受信する工程は、単一の広周波数帯域に関連する、受信する工程と;
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と;
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と;
各周波数帯域の追跡された最小値を対応する適応閾値レベルに変換する工程と;
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と;
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各
対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。 - 処理するポイントの前と後で前記エンターテイメントオーディオの経過時間の或る時点にアクセスすることができ、
前記コントロール信号を生成する工程は、前記処理するポイントの後の少なくとも若干のオーディオに応答する、
請求項1または2記載の方法。 - 前記処理する工程は、1つあるいは複数の処理パラメータに従って動作する、
請求項1〜3いずれか1項記載の方法。 - 1つあるいは複数の前記処理パラメータの調整は、処理されたオーディオの音声了解度のメトリックが最大化されるか所定の閾値レベル以上になされるかするように、前記エンターテイメントオーディオに応答する、
請求項4記載の方法。 - 前記エンターテイメントオーディオは複数チャンネルのオーディオを備え、前記複数チャンネルのオーディオでは、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、
音声了解度のメトリックは、前記音声のチャンネルのレベルと前記1つ以上の他のチャンネルのレベルに基づく、
請求項5記載の方法。 - 前記音声了解度のメトリックは、前記処理されたオーディオが再生される聴取環境でのノイズのレベルにも基づく、
請求項5または6記載の方法。 - 1つあるいは複数の処理パラメータの調整は、前記エンターテイメントオーディオの1つ以上の長期間の記述子に応答する、
請求項4〜7いずれか1項記載の方法。 - 前記長期間の記述子は、前記エンターテイメントオーディオのせりふの平均レベルである、
請求項8記載の方法。 - 前記長期間の記述子は、予め記録された前記エンターテイメントオーディオの処理の推定である、
請求項8または9記載の方法。 - 1つあるいは複数のパラメータの調整は規定された式に従い、
前記規定された式は、1人のリスナーまたはグループのリスナーの聴力を前記1つあるいは複数の処理パラメータに関連付ける;
請求項4記載の方法。 - 1つあるいは複数のパラメータの調整は、1人または複数のリスナーの好みに従う、
請求項4記載の方法。 - 前記処理する工程は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する、
請求項1〜12のいずれか1項記載の方法。 - ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能により提供される、
請求項13記載の方法。 - 請求項1〜14のいずれか1項記載の方法を実行するのに用いられる手段を備える、装置。
- 請求項1〜14のいずれか1項記載の方法をコンピュータに実行させるためにコンピュータ可読媒体に保存された、コンピュータプログラム。
- 請求項1〜14のいずれか1項記載の方法をコンピュータに実行させるコンピュータプログラムを保存している、コンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US90339207P | 2007-02-26 | 2007-02-26 | |
US60/903,392 | 2007-02-26 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009551991A Division JP5530720B2 (ja) | 2007-02-26 | 2008-02-20 | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013092792A true JP2013092792A (ja) | 2013-05-16 |
Family
ID=39721787
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009551991A Active JP5530720B2 (ja) | 2007-02-26 | 2008-02-20 | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
JP2012283295A Pending JP2013092792A (ja) | 2007-02-26 | 2012-12-26 | エンターテイメントオーディオにおける音声強調方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009551991A Active JP5530720B2 (ja) | 2007-02-26 | 2008-02-20 | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
Country Status (8)
Country | Link |
---|---|
US (8) | US8195454B2 (ja) |
EP (1) | EP2118885B1 (ja) |
JP (2) | JP5530720B2 (ja) |
CN (1) | CN101647059B (ja) |
BR (1) | BRPI0807703B1 (ja) |
ES (1) | ES2391228T3 (ja) |
RU (1) | RU2440627C2 (ja) |
WO (1) | WO2008106036A2 (ja) |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789084B1 (ko) * | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법 |
JP5530720B2 (ja) | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
KR101597375B1 (ko) | 2007-12-21 | 2016-02-24 | 디티에스 엘엘씨 | 오디오 신호의 인지된 음량을 조절하기 위한 시스템 |
US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
JP5341983B2 (ja) * | 2008-04-18 | 2013-11-13 | ドルビー ラボラトリーズ ライセンシング コーポレイション | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 |
US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
CN102498514B (zh) * | 2009-08-04 | 2014-06-18 | 诺基亚公司 | 用于音频信号分类的方法和装置 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
CN102576562B (zh) | 2009-10-09 | 2015-07-08 | 杜比实验室特许公司 | 自动生成用于音频占优性效果的元数据 |
KR20120091068A (ko) | 2009-10-19 | 2012-08-17 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 음성 활성 검출을 위한 검출기 및 방법 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
DK2352312T3 (da) * | 2009-12-03 | 2013-10-21 | Oticon As | Fremgangsmåde til dynamisk undertrykkelse af omgivende akustisk støj, når der lyttes til elektriske input |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
CN104242853B (zh) | 2010-03-18 | 2017-05-17 | 杜比实验室特许公司 | 用于具有音质保护的失真减少多频带压缩器的技术 |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
JP5652642B2 (ja) * | 2010-08-02 | 2015-01-14 | ソニー株式会社 | データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法 |
KR101726738B1 (ko) * | 2010-12-01 | 2017-04-13 | 삼성전자주식회사 | 음성처리장치 및 그 방법 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
DK3067888T3 (en) | 2011-04-15 | 2017-07-10 | ERICSSON TELEFON AB L M (publ) | DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY |
US8918197B2 (en) | 2012-06-13 | 2014-12-23 | Avraham Suhami | Audio communication networks |
FR2981782B1 (fr) * | 2011-10-20 | 2015-12-25 | Esii | Procede d’envoi et de restitution sonore d’informations audio |
JP5565405B2 (ja) * | 2011-12-21 | 2014-08-06 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US20130253923A1 (en) * | 2012-03-21 | 2013-09-26 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry | Multichannel enhancement system for preserving spatial cues |
CN103325386B (zh) * | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
WO2013150340A1 (en) * | 2012-04-05 | 2013-10-10 | Nokia Corporation | Adaptive audio signal filtering |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US8843367B2 (en) * | 2012-05-04 | 2014-09-23 | 8758271 Canada Inc. | Adaptive equalization system |
EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
JP2014106247A (ja) * | 2012-11-22 | 2014-06-09 | Fujitsu Ltd | 信号処理装置、信号処理方法および信号処理プログラム |
DE13750900T1 (de) * | 2013-01-08 | 2016-02-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression |
JP6173484B2 (ja) * | 2013-01-08 | 2017-08-02 | ドルビー・インターナショナル・アーベー | 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測 |
CN103079258A (zh) * | 2013-01-09 | 2013-05-01 | 广东欧珀移动通信有限公司 | 一种提高语音识别准确性的方法及移动智能终端 |
US9933990B1 (en) | 2013-03-15 | 2018-04-03 | Sonitum Inc. | Topological mapping of control parameters |
US10506067B2 (en) | 2013-03-15 | 2019-12-10 | Sonitum Inc. | Dynamic personalization of a communication session in heterogeneous environments |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN104079247B (zh) | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
EP2992605B1 (en) | 2013-04-29 | 2017-06-07 | Dolby Laboratories Licensing Corporation | Frequency band compression with dynamic thresholds |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
EP3014609B1 (en) | 2013-06-27 | 2017-09-27 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
US9031838B1 (en) | 2013-07-15 | 2015-05-12 | Vail Systems, Inc. | Method and apparatus for voice clarity and speech intelligibility detection and correction |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN105493182B (zh) * | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
CN111580772B (zh) * | 2013-10-22 | 2023-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于音频设备的组合动态范围压缩和引导截断防止的构思 |
JP6361271B2 (ja) * | 2014-05-09 | 2018-07-25 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
CN105336341A (zh) | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
CN113257274A (zh) | 2014-10-01 | 2021-08-13 | 杜比国际公司 | 高效drc配置文件传输 |
US10163446B2 (en) | 2014-10-01 | 2018-12-25 | Dolby International Ab | Audio encoder and decoder |
US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
CN104409081B (zh) * | 2014-11-25 | 2017-12-22 | 广州酷狗计算机科技有限公司 | 语音信号处理方法和装置 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
RU2620569C1 (ru) * | 2016-05-17 | 2017-05-26 | Николай Александрович Иванов | Способ измерения разборчивости речи |
RU2676022C1 (ru) * | 2016-07-13 | 2018-12-25 | Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" | Способ повышения разборчивости речи |
US10362412B2 (en) * | 2016-12-22 | 2019-07-23 | Oticon A/S | Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device |
WO2018152034A1 (en) * | 2017-02-14 | 2018-08-23 | Knowles Electronics, Llc | Voice activity detector and methods therefor |
EP3662470B1 (en) | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
WO2019027812A1 (en) | 2017-08-01 | 2019-02-07 | Dolby Laboratories Licensing Corporation | CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA |
EP3477641A1 (en) * | 2017-10-26 | 2019-05-01 | Vestel Elektronik Sanayi ve Ticaret A.S. | Consumer electronics device and method of operation |
EP3827429A4 (en) * | 2018-07-25 | 2022-04-20 | Dolby Laboratories Licensing Corporation | COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
CN110875059B (zh) * | 2018-08-31 | 2022-08-05 | 深圳市优必选科技有限公司 | 收音结束的判断方法、装置以及储存装置 |
US10795638B2 (en) * | 2018-10-19 | 2020-10-06 | Bose Corporation | Conversation assistance audio device personalization |
US11164592B1 (en) * | 2019-05-09 | 2021-11-02 | Amazon Technologies, Inc. | Responsive automatic gain control |
US11146607B1 (en) * | 2019-05-31 | 2021-10-12 | Dialpad, Inc. | Smart noise cancellation |
CN114503197B (zh) * | 2019-08-27 | 2023-06-13 | 杜比实验室特许公司 | 使用自适应平滑的对话增强 |
RU2726326C1 (ru) * | 2019-11-26 | 2020-07-13 | Акционерное общество "ЗАСЛОН" | Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники |
KR20220108076A (ko) * | 2019-12-09 | 2022-08-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정 |
WO2021183916A1 (en) * | 2020-03-13 | 2021-09-16 | Immersion Networks, Inc. | Loudness equalization system |
WO2021195429A1 (en) * | 2020-03-27 | 2021-09-30 | Dolby Laboratories Licensing Corporation | Automatic leveling of speech content |
CN115699172A (zh) | 2020-05-29 | 2023-02-03 | 弗劳恩霍夫应用研究促进协会 | 用于处理初始音频信号的方法和装置 |
TW202226225A (zh) * | 2020-10-27 | 2022-07-01 | 美商恩倍科微電子股份有限公司 | 以零點交越檢測改進語音活動檢測之設備及方法 |
US11790931B2 (en) | 2020-10-27 | 2023-10-17 | Ambiq Micro, Inc. | Voice activity detection using zero crossing detection |
US11595730B2 (en) * | 2021-03-08 | 2023-02-28 | Tencent America LLC | Signaling loudness adjustment for an audio scene |
CN113113049A (zh) * | 2021-03-18 | 2021-07-13 | 西北工业大学 | 一种联合语音增强的语音活动检测方法 |
EP4134954B1 (de) * | 2021-08-09 | 2023-08-02 | OPTImic GmbH | Verfahren und vorrichtung zur audiosignalverbesserung |
KR102628500B1 (ko) * | 2021-09-29 | 2024-01-24 | 주식회사 케이티 | 대면녹취단말장치 및 이를 이용한 대면녹취방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010519601A (ja) * | 2007-02-26 | 2010-06-03 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | エンターテイメントオーディオにおける音声強調 |
Family Cites Families (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3803357A (en) | 1971-06-30 | 1974-04-09 | J Sacks | Noise filter |
US4661981A (en) | 1983-01-03 | 1987-04-28 | Henrickson Larry K | Method and means for processing speech |
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
US4628529A (en) | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4912767A (en) | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
EP0520068B1 (en) | 1991-01-08 | 1996-05-15 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
ATE222019T1 (de) | 1991-05-29 | 2002-08-15 | Pacific Microsonics Inc | Verbesserungen in systemen zum erreichen von grösserer frequenz-auflösung |
US5388185A (en) | 1991-09-30 | 1995-02-07 | U S West Advanced Technologies, Inc. | System for adaptive processing of telephone voice signals |
US5263091A (en) | 1992-03-10 | 1993-11-16 | Waller Jr James K | Intelligent automatic threshold circuit |
US5251263A (en) | 1992-05-22 | 1993-10-05 | Andrea Electronics Corporation | Adaptive noise cancellation and speech enhancement system and apparatus therefor |
US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5425106A (en) | 1993-06-25 | 1995-06-13 | Hda Entertainment, Inc. | Integrated circuit for audio enhancement system |
US5400405A (en) | 1993-07-02 | 1995-03-21 | Harman Electronics, Inc. | Audio image enhancement system |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US5539806A (en) | 1994-09-23 | 1996-07-23 | At&T Corp. | Method for customer selection of telephone sound enhancement |
US5623491A (en) | 1995-03-21 | 1997-04-22 | Dsc Communications Corporation | Device for adapting narrowband voice traffic of a local access network to allow transmission over a broadband asynchronous transfer mode network |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US5812969A (en) * | 1995-04-06 | 1998-09-22 | Adaptec, Inc. | Process for balancing the loudness of digitally sampled audio waveforms |
US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
US5661808A (en) | 1995-04-27 | 1997-08-26 | Srs Labs, Inc. | Stereo enhancement system |
JP3416331B2 (ja) | 1995-04-28 | 2003-06-16 | 松下電器産業株式会社 | 音声復号化装置 |
US5774557A (en) | 1995-07-24 | 1998-06-30 | Slater; Robert Winston | Autotracking microphone squelch for aircraft intercom systems |
FI102337B1 (fi) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi |
FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
DE19547093A1 (de) | 1995-12-16 | 1997-06-19 | Nokia Deutschland Gmbh | Schaltungsanordnung zur Verbesserung des Störabstandes |
US5689615A (en) | 1996-01-22 | 1997-11-18 | Rockwell International Corporation | Usage of voice activity detection for efficient coding of speech |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
DE19703228B4 (de) * | 1997-01-29 | 2006-08-03 | Siemens Audiologische Technik Gmbh | Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens |
JPH10257583A (ja) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
US5907822A (en) | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US6208637B1 (en) | 1997-04-14 | 2001-03-27 | Next Level Communications, L.L.P. | Method and apparatus for the generation of analog telephone signals in digital subscriber line access systems |
FR2768547B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
US6169971B1 (en) * | 1997-12-03 | 2001-01-02 | Glenayre Electronics, Inc. | Method to suppress noise in digital voice processing |
US6104994A (en) | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
ATE472193T1 (de) | 1998-04-14 | 2010-07-15 | Hearing Enhancement Co Llc | Vom benutzer einstellbare lautstärkensteuerung zur höranpassung |
US6122611A (en) | 1998-05-11 | 2000-09-19 | Conexant Systems, Inc. | Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6223154B1 (en) | 1998-07-31 | 2001-04-24 | Motorola, Inc. | Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds |
US6188981B1 (en) | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
US6061431A (en) | 1998-10-09 | 2000-05-09 | Cisco Technology, Inc. | Method for hearing loss compensation in telephony systems based on telephone number resolution |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6256606B1 (en) | 1998-11-30 | 2001-07-03 | Conexant Systems, Inc. | Silence description coding for multi-rate speech codecs |
US6208618B1 (en) | 1998-12-04 | 2001-03-27 | Tellabs Operations, Inc. | Method and apparatus for replacing lost PSTN data in a packet network |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6246345B1 (en) * | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6633841B1 (en) | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6813490B1 (en) * | 1999-12-17 | 2004-11-02 | Nokia Corporation | Mobile station with audio signal adaptation to hearing characteristics of the user |
US6449593B1 (en) | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7962326B2 (en) | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
US7246058B2 (en) | 2001-05-30 | 2007-07-17 | Aliph, Inc. | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
US7020605B2 (en) * | 2000-09-15 | 2006-03-28 | Mindspeed Technologies, Inc. | Speech coding system with time-domain noise attenuation |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
JP2002169599A (ja) * | 2000-11-30 | 2002-06-14 | Toshiba Corp | ノイズ抑制方法及び電子機器 |
US6631139B2 (en) | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
DK1251715T4 (da) | 2001-04-18 | 2011-01-10 | Sound Design Technologies Ltd | Flerkanalshøreapparat med kommunikation mellem kanalerne |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
DE60217522T2 (de) * | 2001-08-17 | 2007-10-18 | Broadcom Corp., Irvine | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung |
US20030046069A1 (en) * | 2001-08-28 | 2003-03-06 | Vergin Julien Rivarol | Noise reduction system and method |
JP2005502247A (ja) * | 2001-09-06 | 2005-01-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ再生装置 |
US6937980B2 (en) | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US7328151B2 (en) | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US7167568B2 (en) | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
US7072477B1 (en) * | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
WO2004008801A1 (en) * | 2002-07-12 | 2004-01-22 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
US7454331B2 (en) | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US7283956B2 (en) * | 2002-09-18 | 2007-10-16 | Motorola, Inc. | Noise suppression |
KR100711280B1 (ko) | 2002-10-11 | 2007-04-25 | 노키아 코포레이션 | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 |
US7174022B1 (en) * | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
DE10308483A1 (de) * | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
US7343284B1 (en) * | 2003-07-17 | 2008-03-11 | Nortel Networks Limited | Method and system for speech processing for enhancement and detection |
US7398207B2 (en) * | 2003-08-25 | 2008-07-08 | Time Warner Interactive Video Group, Inc. | Methods and systems for determining audio loudness levels in programming |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
US7539614B2 (en) * | 2003-11-14 | 2009-05-26 | Nxp B.V. | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes |
US7483831B2 (en) | 2003-11-21 | 2009-01-27 | Articulation Incorporated | Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
FI118834B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
ATE390683T1 (de) | 2004-03-01 | 2008-04-15 | Dolby Lab Licensing Corp | Mehrkanalige audiocodierung |
US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US7451093B2 (en) | 2004-04-29 | 2008-11-11 | Srs Labs, Inc. | Systems and methods of remotely enabling sound enhancement techniques |
WO2005117483A1 (en) | 2004-05-25 | 2005-12-08 | Huonlabs Pty Ltd | Audio apparatus and method |
US8788265B2 (en) | 2004-05-25 | 2014-07-22 | Nokia Solutions And Networks Oy | System and method for babble noise detection |
US7649988B2 (en) | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
WO2006026635A2 (en) | 2004-08-30 | 2006-03-09 | Qualcomm Incorporated | Adaptive de-jitter buffer for voice over ip |
FI20045315A (fi) | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
JP5166030B2 (ja) | 2004-09-06 | 2013-03-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号のエンハンスメント |
US7383179B2 (en) * | 2004-09-28 | 2008-06-03 | Clarity Technologies, Inc. | Method of cascading noise reduction algorithms to avoid speech distortion |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
KR20070109982A (ko) | 2004-11-09 | 2007-11-15 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 및 디코딩 |
RU2284585C1 (ru) | 2005-02-10 | 2006-09-27 | Владимир Кириллович Железняк | Способ измерения разборчивости речи |
US20060224381A1 (en) | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
TWI324336B (en) | 2005-04-22 | 2010-05-01 | Qualcomm Inc | Method of signal processing and apparatus for gain factor smoothing |
US8566086B2 (en) | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US20070078645A1 (en) | 2005-09-30 | 2007-04-05 | Nokia Corporation | Filterbank-based processing of speech signals |
EP1640972A1 (en) | 2005-12-23 | 2006-03-29 | Phonak AG | System and method for separation of a users voice from ambient sound |
US20070147635A1 (en) | 2005-12-23 | 2007-06-28 | Phonak Ag | System and method for separation of a user's voice from ambient sound |
US20070198251A1 (en) | 2006-02-07 | 2007-08-23 | Jaber Associates, L.L.C. | Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction |
ES2525427T3 (es) * | 2006-02-10 | 2014-12-22 | Telefonaktiebolaget L M Ericsson (Publ) | Un detector de voz y un método para suprimir sub-bandas en un detector de voz |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
CN100578622C (zh) * | 2006-05-30 | 2010-01-06 | 北京中星微电子有限公司 | 一种自适应麦克阵列系统及其语音信号处理方法 |
US20080071540A1 (en) | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
WO2007082579A2 (en) | 2006-12-18 | 2007-07-26 | Phonak Ag | Active hearing protection system |
KR101597375B1 (ko) * | 2007-12-21 | 2016-02-24 | 디티에스 엘엘씨 | 오디오 신호의 인지된 음량을 조절하기 위한 시스템 |
US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
SI3493205T1 (sl) * | 2010-12-24 | 2021-03-31 | Huawei Technologies Co., Ltd. | Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu |
CN102801861B (zh) * | 2012-08-07 | 2015-08-19 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
CN107195313B (zh) * | 2012-08-31 | 2021-02-09 | 瑞典爱立信有限公司 | 用于语音活动性检测的方法和设备 |
US20140126737A1 (en) * | 2012-11-05 | 2014-05-08 | Aliphcom, Inc. | Noise suppressing multi-microphone headset |
-
2008
- 2008-02-20 JP JP2009551991A patent/JP5530720B2/ja active Active
- 2008-02-20 CN CN2008800099293A patent/CN101647059B/zh active Active
- 2008-02-20 RU RU2009135829/08A patent/RU2440627C2/ru active
- 2008-02-20 EP EP08725831A patent/EP2118885B1/en active Active
- 2008-02-20 BR BRPI0807703-7A patent/BRPI0807703B1/pt active IP Right Grant
- 2008-02-20 ES ES08725831T patent/ES2391228T3/es active Active
- 2008-02-20 US US12/528,323 patent/US8195454B2/en active Active
- 2008-02-20 WO PCT/US2008/002238 patent/WO2008106036A2/en active Application Filing
-
2012
- 2012-05-03 US US13/463,600 patent/US8271276B1/en active Active
- 2012-08-10 US US13/571,344 patent/US8972250B2/en active Active
- 2012-12-26 JP JP2012283295A patent/JP2013092792A/ja active Pending
-
2015
- 2015-01-26 US US14/605,003 patent/US9368128B2/en active Active
- 2015-05-01 US US14/701,622 patent/US9418680B2/en active Active
-
2016
- 2016-07-11 US US15/207,155 patent/US9818433B2/en active Active
-
2017
- 2017-10-12 US US15/730,908 patent/US10418052B2/en active Active
-
2019
- 2019-07-19 US US16/516,634 patent/US10586557B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010519601A (ja) * | 2007-02-26 | 2010-06-03 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | エンターテイメントオーディオにおける音声強調 |
Also Published As
Publication number | Publication date |
---|---|
BRPI0807703B1 (pt) | 2020-09-24 |
US10586557B2 (en) | 2020-03-10 |
US20120310635A1 (en) | 2012-12-06 |
JP2010519601A (ja) | 2010-06-03 |
US8972250B2 (en) | 2015-03-03 |
CN101647059B (zh) | 2012-09-05 |
US20150142424A1 (en) | 2015-05-21 |
US20160322068A1 (en) | 2016-11-03 |
EP2118885B1 (en) | 2012-07-11 |
JP5530720B2 (ja) | 2014-06-25 |
CN101647059A (zh) | 2010-02-10 |
US10418052B2 (en) | 2019-09-17 |
US9818433B2 (en) | 2017-11-14 |
US20180033453A1 (en) | 2018-02-01 |
US20120221328A1 (en) | 2012-08-30 |
US20100121634A1 (en) | 2010-05-13 |
US8195454B2 (en) | 2012-06-05 |
US9368128B2 (en) | 2016-06-14 |
RU2009135829A (ru) | 2011-04-10 |
US9418680B2 (en) | 2016-08-16 |
US20190341069A1 (en) | 2019-11-07 |
ES2391228T3 (es) | 2012-11-22 |
EP2118885A2 (en) | 2009-11-18 |
WO2008106036A3 (en) | 2008-11-27 |
US20150243300A1 (en) | 2015-08-27 |
BRPI0807703A2 (pt) | 2014-05-27 |
WO2008106036A2 (en) | 2008-09-04 |
RU2440627C2 (ru) | 2012-01-20 |
US8271276B1 (en) | 2012-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5530720B2 (ja) | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 | |
JP6896135B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
JPWO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
JP2023530225A (ja) | 初期オーディオ信号を処理するための方法および装置 | |
US20050246170A1 (en) | Audio signal processing apparatus and method | |
JP6902049B2 (ja) | 発話信号を含むオーディオ信号のラウドネスレベル自動修正 | |
JP2011150143A (ja) | 音質補正装置及び音質補正方法 | |
Brouckxon et al. | Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments | |
US20230395079A1 (en) | Signal-adaptive Remixing of Separated Audio Sources | |
Chang et al. | Audio dynamic range control for set-top box |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130716 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130925 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140415 |