JP5530720B2 - エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 - Google Patents

エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 Download PDF

Info

Publication number
JP5530720B2
JP5530720B2 JP2009551991A JP2009551991A JP5530720B2 JP 5530720 B2 JP5530720 B2 JP 5530720B2 JP 2009551991 A JP2009551991 A JP 2009551991A JP 2009551991 A JP2009551991 A JP 2009551991A JP 5530720 B2 JP5530720 B2 JP 5530720B2
Authority
JP
Japan
Prior art keywords
audio
level
speech
voice
entertainment audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009551991A
Other languages
English (en)
Other versions
JP2010519601A (ja
Inventor
ミュッシュ、ハンネス
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2010519601A publication Critical patent/JP2010519601A/ja
Application granted granted Critical
Publication of JP5530720B2 publication Critical patent/JP5530720B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Description

本発明は、オーディオ信号処理に関するものである。より具体的には、本発明は、テレビオーディオのようなエンターテイメントオーディオ処理に関し、せりふや物語のオーディオのような音声の明瞭度と了解度を向上する。本発明は、方法、それらの方法を実行する装置、およびそれらの方法をコンピュータに実行させるコンピュータ可読媒体に保存されたソフトウェアに関する。
オーディオビジュアルエンターテイメントは、せりふ、物語、音楽および効果の速いペースのシーケンスに発展した。最新のエンターテイメントオーディオ技術と製造方法で達成可能な高度なリアリズムは、テレビでの会話のように話すスタイルの使用を促進し、そのスタイルは、これまでのはっきりと発表するステージでのプレゼンテーションとは本質的に異なる。この状況により、知覚と言語処理能力の低下した高齢の視聴者の人口増加だけではなく、通常の聴覚を有する人にも、たとえば低音響レベルで聞くときに、そのプログラミングに従うという負担をかけるという問題を生ずる。
音声がどのくらいよく理解されるかは、多くの因子に依存する。例として、発声の気配り(はっきりした、または、対話形式の音声)、話す速さ、音声の可聴性などがある。話し言葉は非常にしっかりしており、理想的な状態より劣っていても理解できる。たとえば、聴覚に障害のあるリスナーは、低下した聴力のために音声の一部を聞き取れなくても明確な音声を大概理解することができる。しかし、話す速さが速くなり、発声が正確さを欠くようになると、聞くことと理解することには、とくに音声スペクトルの一部が聞こえないと、より大きな努力が必要となる。
テレビの視聴者は、放送音声の明瞭度に影響を与えることは何もできないので、聴覚に障害のあるリスナーは聞き取りボリュームを大きくして不十分な可聴性を補おうとする。同じ部屋や近くにいる正常な聴力の人にとって不快であることは別として、この方法は部分的にしか効果がない。なぜならば聴力の低下のほとんどは、周波数の高低により一様ではないからであり、低周波数や中周波数より高周波数で大きな影響があるからである。たとえば、6kHzの音を聞く典型的な70歳の男性の能力は、若者の能力より約50dB悪いが、1kHzより下の周波数では高齢者の聴力の不都合は、10dBより小さい(ISO7092,オーディオ対年齢の関数としての聴力限界の統計的分布)。ボリュームを大きくすることは、低周波数および中周波数の音を、これらの周波数では可聴性はすでに十分であるので、了解度への寄与に大きく貢献することなくさらに大きくする。ボリュームを大きくすることはまた、高周波数での重度の聴力低下についてはあまり解決しない。より適切な是正は、グラフィックエコライザで得られるような音質のコントロールである。
ボリュームコントロールを単に大きくするよりはよい選択ではあるが、音質コントロールはほとんどの聴力低下にとっては、まだ不十分である。聴覚に障害のあるリスナーに穏やかな文節を聞こえるようにするのに必要な大きな高周波数ゲインは、高レベルの文節の間は不快なほどにうるさくなりがちであり、オーディオ再生鎖に負担をかけすぎたりもする。よりよい答は、信号のレベルにより増幅し、信号の低い部分には大きなゲインを、高レベルの部分には小さなゲイン(あるいはゲインなし)を提供することである。そのようなシステムは、オートマティックゲインコントロール(AGC)あるいはダイナミックレンジ圧縮器(コンプレッサ)(DRC)として知られているが、聴覚の補助に使われ、通信システムで障害のある聴覚の了解度を向上するのにそれらを使用することが提案されている(たとえば、米国特許第5,388,185号、第5,539,806号、第6,061,431号)。
聴力低下は徐々に進行するのが普通なので、難聴のあるリスナーのほとんどは、聴力低下に慣れていく。その結果、エンターテイメントオーディオで彼らの聴覚障害を矯正する処理をされると、その音質を嫌うことが多い。聴覚障害のある聴衆は、せりふや物語の了解度が高まるとか矯正するための精神的苦痛が減るなどの、明白な利益を提供されると、矯正されたオーディオの音質を受け入れやすくなる。したがって、音声が主体のオーディオプログラムの部分への聴力低下矯正の適用を制限することは好都合である。そうすることは、片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
本発明の態様によれば、エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含み、そのような変化には時間断片より短い時間間隔内に応答し、応答する工程の判定基準は上記の特徴付ける工程によりコントロールされる。処理する工程と応答する工程とは、対応する複数の周波数帯域(バンド)でそれぞれ動作し、応答する工程は複数の周波数帯域のそれぞれの処理する工程のコントロールを提供する。
本発明の態様は、処理ポイントの前と後でエンターテイメントオーディオの経過時間のある時点へアクセスすることができ、コントロールを生成する工程は処理ポイントの後の少なくとも若干のオーディオ信号に応答するときのように、「先読み」方法で動作する。
本発明の態様は、処理、特徴付けおよび応答のいくつかが異なった時間あるいは異なった場所で行われるように、時間的および/または空間的分離を用いる。たとえば、特徴付けは第1の時間あるいは場所で行われ、処理と応答は第2の時間あるいは場所で行われ、時間断片の特徴に関する情報は応答の判定基準をコントロールするのに保存あるいは伝達される。
本発明の態様はまた、知覚符号化スキームあるいは無損失符号化スキームに従ってエンターテイメントオーディオをエンコードすることと、エンコードするのに用いたのと同じ符号化スキームにしたがってエンターテイメントオーディオをデコードすることを含み、処理、特徴付けおよび応答のいくつかはエンコードまたはデコードと一緒に行われる。特徴付けはエンコードと一緒に行われ、処理および/または応答はデコードと一緒に行われてもよい。
本発明の前述の態様によれば、処理は1つあるいは複数の処理パラメータにしたがって行われる。1つあるいは複数のパラメータの調整は、処理されたオーディオの音声了解度メトリックが最大となるか所望の閾値レベル以上になされるかのいずれかとなるように、エンターテイメントオーディオに応答する。本発明の態様によれば、エンターテイメントオーディオは、複数のオーディオチャンネルを備え、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、音声了解度メトリックは音声チャンネルのレベルと1つ以上の他のチャンネルのレベルに基づく。音声了解度メトリックはまた、処理されたオーディオが再生される聴取環境のノイズのレベルにも基づく。1つ以上のパラメータの調整は、エンターテイメントオーディオの1つ以上の長期間の記述子に応答する。長期間の記述子の例には、エンターテイメントオーディオの平均的なせりふのレベルや、エンターテイメントオーディオに既に適用された処理の推定が含まれる。1つ以上のパラメータの調整は規定された式に従い、規定された式はリスナーまたはリスナーのグループの聴力を1つ以上のパラメータに関係付ける。代替または追加として、1つ以上のパラメータの調整は、1人以上のリスナーの好みに従ってもよい。
本発明の前述の態様によれば、処理には並行して動作する複数の機能を含む。複数の機能のそれぞれは、複数の周波数帯域の1つで作動する。複数の機能のそれぞれは、個別にまたは集合的に、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは複数の圧縮/拡大機能あるいは装置により提供され、それぞれがオーディオ信号のある周波数領域を処理する。
処理に複数の機能が含まれるかどうかは別として、処理はダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能または装置により提供される。
本発明の態様は、聴力低下矯正に適した音声強調をコントロールすることで、理想的には、オーディオプログラムの音声部分にだけ作用し、残りの(非音声)プログラム部分には作用せず、よって、残りの(非音声)プログラム部分の音色(スペクトル分布)または知覚される音量を変えない傾向がある。
本発明の別の態様によれば、エンターテイメントオーディオで音声を強調することは、エンターテイメントオーディオを分析し、音声か他のオーディオのいずれかにオーディオの時間断片を分類し、音声と分類された時間断片の間のエンターテイメントオーディオの1つまたは複数の周波数帯域にダイナミックレンジ圧縮を適用することを含む。
図1aは、本発明の態様の実施例を図解する模式的作用ブロック図である。 図1bは、図1aの修正版の実施例を図解する模式的作用ブロック図で、装置および/または機能は時間的および/または空間的に分離されている。 図2は図1aの修正版の実施例を示す模式的ブロック図で、音声強調コントロールは「先読み」方法で得られる。 図3aは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。 図3bは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。 図3cは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。 図4は、周波数帯域の音声強調ゲインがどのように本発明の態様にしたがってその帯域の信号パワー推定から導かれるかを示す模式的作用ブロック図である。
オーディオを音声と非音声(音楽など)に分類する技術は当該技術分野で周知であり、音声対その他弁別器(SVO)として知られていることも多い。たとえば、米国特許第6,785,645号、第6,570,991号および米国特許出願第20040044525号並びにそれらに記載の参考文献を参照のこと。音声対その他のオーディオ弁別器は、オーディオ信号の時間断片を分析し、全ての時間断片から1つ以上の信号記述子(特徴)を抽出する。それらの特徴は、時間断片が音声である可能性を推定し、または、厳しく音声/非音声の判断をするプロセッサに送られる。特徴のほとんどは、信号の経時的変化を反映する。特徴の典型例は、信号スペクトルが時間とともに変化する割合であり、信号極性が変化する割合の分布のゆがみである。音声のはっきりした特徴を確実に反映するのに、時間断片は十分な長さでなければならない。多くの特徴は、隣接音節間の移行を反映する信号特徴に基づくので、時間断片は普通少なくとも2音節(すなわち、約250マイクロ秒)に及んでそのような移行を捕らえる。しかし、時間断片はより確実な推定を得るには長めであることが多い(たとえば、約10倍で)。動作においては比較的ゆっくりとしているが、SVOはオーディオを音声と非音声とに分類するのにそこそこ確実で正確である。しかし、本発明の態様に従ったオーディオプログラムで選択的に音声を強調するには、音声対その他弁別器で分析される時間断片の長さより細かな時間スケールで音声強調をコントロールすることが好ましい。
音声活動検出器(VAD)として知られることもある、別の類の技術は、比較的一定のノイズのバックグラウンドにおける音声の存在と不存在を示す。VADを、音声伝達用途でノイズ低減スキーマの一部として広範囲に用いる。音声対その他弁別器と違って、VADは、本発明の態様に従って音声強調をコントロールするのに十分な時間分解能を有するのが普通である。VADは信号パワーの急激な増大を音声サウンドの始まり、信号パワーの急激な低減を音声サウンドの終わりと解釈する。そうすることで、音声とバックグラウンドとの間の境界をほとんど瞬時に(すなわち、信号パワーを測定する時間集積のウィンドウ内、たとえば10ミリ秒)信号で伝える。しかし、VADは信号パワーの急激な変化に反応するため、音声と他の支配的信号、たとえば音楽、とを区別することができない。したがって、VADは、単独で用いると、本発明にしたがって選択的に音声を強調する音声強調をコントロールするのに適してはいない。
音声対その他(SVO)識別子の音声対非音声特性を音声活動検出器(VAD)と組み合わせて、従来技術の音声対その他弁別器に見られるより細かな時間分解能でオーディオ信号中の音声に選択的に応答する音声強調を容易にすることは本発明の一態様である。
原理的に本発明の態様はアナログおよび/またはデジタル分野で実行されるが、実際的な実行は、それぞれのオーディオ信号が個々のサンプリングあるいはデータブロック内のサンプリングで表されるデジタル分野で実行されることが多い。
ここで図1aを参照すると、本発明の態様を図示する模式的作用ブロック図が示され、オーディオ入力信号101が、コントロール信号103で有効にされるときに音声強調オーディオ出力信号104を生成する音声強調機能あるいは装置(「音声強調」)102に送信される。コントロール信号は、オーディオ入力信号101のバッファされた時間断片に作用するコントロール機能あるいは装置(「音声強調コントローラ」)105により生成される。音声強調コントローラ105は、音声対その他弁別機能あるいは装置(「SVO」)107と1組の1つ以上の音声活動検出器機能あるいは装置(「VAD」)108とを含む。SVO107は、VADで分析されたよりも長い時間スパンで信号を分析する。SVO107とVAD108とが異なる長さの時間スパンで作動するという事実は、単一バッファ機能あるいは装置(「バッファ」)106の広い領域(SVO107に関連して)を囲うブラケットと、狭い領域(VAD108に関連して)を囲うもう1つのブラケットで図に示される。広い領域と狭い領域とは模式的であり、寸法に意味はない。オーディオデータがブロックで送られるデジタルでの実施の場合には、バッファ106の各部分はオーディオデータの1ブロックを保存する。VADがアクセスする領域は、バッファ106で単一保存の最新の部分を含む。SVO107で判断された現在の信号部分が音声である可能性は、109がVAD108をコントロールするように作用する。たとえば、VAD108の判定基準をコントロールし、よって、VAD108の決定にバイアスをかける。
バッファ106は、処理に特有のメモリを記号化し、直接的に実装されてもされなくてもよい。たとえば、ランダムアクセスメモリの媒体に記憶されたオーディオ信号について処理が行われると、その媒体はバッファとして作用する。同様に、オーディオ入力の履歴は、音声対その他弁別器107の内部状態および音声活動検出器の内部状態に反映され、その場合には、別のバッファは必要ではない。
音声強調102は音声を強調するのに並行して動作する複数のオーディオ処理装置あるいは機能からなる。各機能あるいは装置は、音声が強調されるべきオーディオ信号の周波数領域で作動する。たとえば、装置あるいは機能は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を、個別にあるいは全体として提供する。本発明の態様の詳細な例では、ダイナミックレンジコントロールは、オーディオ信号の周波数帯域で圧縮あるいは拡大を提供する。よって、たとえば、音声強調102は、ダイナミックレンジ圧縮器/拡大器あるいは圧縮/拡大機能のバンクであり、それぞれがある周波数領域のオーディオ信号を処理する(マルチ帯域圧縮器/拡大器あるいは圧縮/拡大機能)。マルチ帯域圧縮/拡大で利用可能となる周波数特性は、音声強調のパターンを与えられた聴力低下のパターンに合わせることができるからというだけではなく、どの瞬間でも音声はある周波数領域で存在し他では存在しないという事実に応答できるから、有用である。
マルチ帯域圧縮で提供される周波数特性の全ての利点を活用して、各圧縮/拡大帯域は、それ自身の音声活動検出器あるいは検出機能でコントロールされる。このような場合、各音声活動検出器あるいは検出機能は、それがコントロールする圧縮/拡大帯域に関連する周波数領域での音声活動を信号で送る。並行して動作するいくつかのオーディオ処理装置あるいは機能からなる音声強調102には利点があるが、本発明の態様の単純な実施の形態では1つだけのオーディオ処理装置あるいは機能からなる音声強調102を用いる。
多くの音声活動検出器があるときでも、存在する全ての音声活動検出器をコントロールする単一の出力109を生成する1つだけの音声対その他弁別器107があることでもよい。1つだけの音声対その他弁別器を使用するという選択は、2つの観察結果を反映する。1つは、音声活動の全帯域パターンが時間とともに変化する速さは、通常、音声対その他弁別器の時間分解能よりかなり速いということである。別の観察結果は、音声対その他弁別器で用いられる特徴が、ブロードバンド信号で最もよく観察できるスペクトルの特徴から通常導かれるということである。双方の観察結果は、帯域特有の音声対その他弁別器の使用を実際的ではないとする。
音声強調コントローラ105内に図示されるSVO107とVAD108の組み合わせはまた、音声を強調すること以外の目的、たとえば、オーディオプログラムの音声の大きさを推定したり、話す速さを測定したりするのに使われる。
説明したところの音声強調スキーマは多くの方法で配置される。たとえば、全スキーマは、テレビあるいはセットトップボックスの内側に実装され、テレビやテレビ放送の受信オーディオ信号に作用する。あるいは、知覚オーディオコーダ(たとえば、AC−3またはAAC)と一体化され、あるいは、無損失オーディオコーダと一体化されてもよい。
本発明の態様に従った音声強調は、異なった時間に、あるいは、異なった場所で実行される。音声強調がオーディオコーダあるいはコーディングプロセスと一体化あるいは関連される例について考える。そのような場合、音声強調コントローラ105の音声対その他弁別器(SVO)107の部分は、計算コストが高いのが普通であるが、オーディオエンコーダあるいは符号化処理と一体化あるいは関連させる。たとえば音声の存在を示すフラグである、SVOの出力109は、符号化されたオーディオストリームに埋め込まれる。符号化されたオーディオストリームに埋め込まれたそのような情報は、メタデータと呼ばれることが多い。音声強調102と音声強調コントローラ105のVAD108は、オーディオデコーダと一体化あるいは関連され、前もってエンコードしたオーディオに作用する。1組の1つ以上の音声活動検出器(VAD)108はまた、音声対その他弁別器(SVO)107の出力109を用い、出力109は符号化されたオーディオストリームから抽出される。
図1bは、図1aの改変版の例示の実施を示す。図1aの装置あるいは機能に相当する図1bの装置あるいは機能は、同一の参照番号を有する。オーディオ入力信号101は、エンコーダあるいはエンコード機能(「エンコーダ」)110およびSVO107で必要な時間スパンに及ぶバッファ106へ送られる。エンコーダ110は、知覚または無損失コーディングシステムの一部である。エンコーダ110の出力はマルチプレクサあるいは多重送信機能(「マルチプレクサ」)112へ送られる。SVO出力(図1の109)は、エンコーダ110に適用される109a、あるいは、エンコーダ110の出力も受信するマルチプレクサ112に適用される109bとして示される。図1aでのフラグのような、SVO出力は、エンコーダ110のビットストリーム出力で(たとえば、メタデータとして)搬送され、あるいは、エンコーダ110の出力と多重送信され、保存または伝達用に圧縮しアセンブルしたビットストリーム114をデマルチプレクサあるいはデマルチプレクサ機能(「デマルチプレクサ」)116に提供し、デマルチプレクサ116は、デコーダあるいはデコード機能118に送るようにそのビットストリーム114を解凍する。SVO107の出力109bがマルチプレクサ112に送られるとすると、デマルチプレクサ116から109b’として受信され、VAD108に送られる。あるいは、SVO107の出力109aがエンコーダ110に送られるとすると、デコーダ118から109a’として受信される。図1aの例のように、VAD108は複数の音声活動機能あるいは装置を備える。VAD108で必要な時間スパンの範囲にわたるデコーダ118から入力される単一のバッファ機能あるいは装置(「バッファ」)120は、別のフィードをVAD108に供給する。VAD出力103は、強調された音声オーディオ出力を提供する音声強調102に、図1aのように送られる。説明の明瞭さのために分けて示されるが、SVO107および/またはバッファ106はエンコーダ110と一体化されてもよい。同様に、説明の明瞭さのために分けて示されるが、VAD108および/またはバッファ120はデコーダ118または音声強調102と一体化されてもよい。
処理されるオーディオ信号が予め記録されているならば、たとえば消費者の家庭でDVDから再生するときや放送の環境でオフライン処理するときなどであるが、音声対その他弁別器および/または音声活動検出器は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む信号部分に作用する。このことは図2に示され、記号信号バッファ201は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む(「先読み」)。信号が予め記録されていないとしても、オーディオエンコーダが実質的な特有の処理遅れを有するときには先読みは依然として使われる。
音声強調102の処理パラメータは、圧縮器のダイナミック応答速度より低い速度で、処理されたオーディオ信号に応答してアップデートされる。処理パラメータをアップデートするときに追求するであろう多くの目的がある。たとえば、音声強調プロセッサのゲイン関数処理パラメータはプログラムの平均音声レベルに応じて調整され、長期平均音声スペクトルの変化が音声レベルと無関係になるようにする。そのような調整の効果と必要性とを理解するために、以下の例を考える。音声強調は信号の高周波数部分にだけ適用される。与えられた平均音声レベルで、高周波信号部分のパワー推定301はP1を平均し、ここでP1は、圧縮閾値出力304より大きい。このパワー推定に関連するゲインはG1であり、G1は、信号の高周波部分に適用される平均ゲインである。低周波数部分ではゲインがないので、平均音声スペクトルは、低周波数より高周波数でG1デシベル(dB)高い形となる。ここで、平均音声レベルがある値ΔLだけ増加したときに何が起きるかを考える。平均音声レベルのΔLdBの増加は、高周波信号部分の平均パワー推定301をP2=P1+ΔLに増大する。図3aから分かるように、高いパワー推定P2は、G1より小さなゲインG2を生じさせる。結果として、処理された信号の平均音声スペクトルは、入力の平均レベルが高いときに、低いときよりもより小さな高周波数の強調を示す。リスナーは、平均音声レベルの違いをボリューム調整で補正するので、平均高周波数強調のレベル依存状態は好ましくない。それは、図3a〜3cのゲイン曲線を平均音声レベルで修正することにより消去できる。図3a〜3cについて以下に説明する。
音声強調102の処理パラメータはまた、音声了解度メトリックが最大となるか、あるいは、所望の閾値レベルより大きくなされるように調整される。音声了解度メトリックは、オーディオ信号の相対的レベルとリスニング環境の競合音(航空機内ノイズのような)とから計算される。オーディオ信号が、1チャンネルに音声信号で、残りのチャンネルに非音声信号の多チャンネルオーディオ信号であれば、音声了解度メトリックは、たとえば、全チャンネルの相対的レベルとそれらのスペクトルエネルギの分布とから計算される。適切な了解度メトリックは周知である[たとえば、ANSI S3.5−1997「音声了解度指数の計算方法(Method for Calculation of the Speech Intelligibility Index)」米国規格協会1997年、あるいは、ミュッシュ、ブース(Musch、Buus)「音声了解度予知のための統計決定理論の使用 I.モデル構造(Using statistical decision theory to predict speech intelligibility. I Model Structure)」アメリカ音響学会誌(Journal of the Acoustical Society of America)、2001年、109巻、2896〜2909ページ]。
図1aと図1bの機能的ブロック図に示され、ここで説明した本発明の態様は、図3a〜3cおよび図4の例のように実行される。この例では、音声成分の周波数形状圧縮増幅と非音声成分処理からの解放は、圧縮および拡大特性双方を実装するマルチ帯域ダイナミックレンジプロセッサ(不図示)で実現される。そのようなプロセッサは、1組のゲイン関数で特徴付けられる。各ゲイン関数は、1周波数帯域の入力パワーを対応する帯域ゲインに関係付け、対応する帯域ゲインはその帯域の信号成分に適用される。そのような関係の1つを図3a〜3cに図示する。
図3aを参照して、帯域入力パワー301の推定はゲイン曲線により所望の帯域ゲイン302に関連付けられる。そのゲイン曲線は2成分の曲線の最小値とみなされる。実線で示される1成分の曲線は、圧縮閾値304より大きなパワー推定301の適切に選択された圧縮比(「CR」)303と圧縮閾値以下でのパワー推定の一定のゲインとの圧縮特性を有する。破線で示される、他の成分の曲線は、拡大閾値306より大きなパワー推定の適切に選択された拡大比(「ER」)305と、より小さいパワー推定のゼロのゲインとの拡大特性を有する。最終的なゲイン曲線はこれら2成分の曲線の最小値となる。
圧縮閾値304、圧縮比303および圧縮閾値でのゲインは、固定パラメータである。それらの選定は、特定の帯域で音声信号の包絡線とスペクトルがどのように処理されるかを決定する。理想的には、それらは規定された式に従って選定され、その式は、所与の聴力を有する1グループのリスナーに対しそれぞれの帯域で適切なゲインと圧縮比を決定する。そのような規定された式の例はNAL−NL1であり、NAL−NL1はオーストラリアの国立音響研究所(National Acoustics Laboratory)で開発され、エイチ・ディロン(H. Dillon)により「聴覚補助性能の規定(Prescribing hearing aid performance)」[エイチ・ディロン編集、聴覚補助(Hearing Aids)(249〜261ページ);シドニー;ブーメラン・プレス(Boomerang Press)、2001年]で説明される。しかし、それらも、単にリスナーの好みに基づいている。特定の帯域の圧縮閾値304と圧縮比303は、映画のサウンドトラックのせりふの平均レベルなど、所定のオーディオプログラムに特有のパラメータにさらに依存する。
圧縮閾値が固定されているのに対し、拡大閾値306は適応型で、入力信号に応じて変化するのが好ましい。拡大閾値は、圧縮閾値より大きな値を含めて、システムのダイナミックレンジ内の任意の値を仮定する。入力信号で音声が支配的であるときには、以下に説明するコントロール信号は拡大閾値を下方レベルに動かし、入力レベルを拡大が適用されるパワー推定のレンジより高くする(図3aと図3b参照)。その条件では、信号に適用されるゲインは、プロセッサの圧縮特性が支配的となる。図3bは、そのような条件を表すゲイン関数の例を示す。
入力信号で音声以外のオーディオが支配的なときには、コントロール信号は拡大閾値を高レベルに動かし、入力レベルは拡大閾値より低くなる傾向となる。その条件では、信号成分の大部分はゲインを受けない。図3cはそのような状況を表すゲイン関数の例を示す。
前記説明の帯域パワー推定は、フィルタバンクの出力あるいはDFT(離散フーリエ変換)、WDCT(修正離散コサイン変換)あるいはウェーブレット変換などのような時間−周波数ドメイン変換の出力を分析することにより導かれる。パワー推定はまた、信号の平均絶対値、Teagerエネルギのような信号の強さに関連する量、あるいは音量のような知覚の量により置き換えられる。さらに、帯域パワー推定は、時間について平滑化し、ゲインが変化する速さをコントロールする。
本発明の態様によれば、拡大閾値は理想的には、信号が音声のとき信号レベルがゲイン関数の拡大領域の上にあり、信号が音声以外のオーディオであるとき信号レベルがゲイン関数の下にあるように置かれる。以下に説明するように、このことは非音声オーディオのレベルを追跡し、そのレベルに関連して拡大閾値を置くことにより達成される。
ある従来技術のレベル追跡は、下方への拡大(あるいはスケルチ)がノイズ低減システムの一部として適用されるより低い閾値を設定し、ノイズ低減システムは好ましいオーディオと好ましくないノイズとを弁別しようとする。たとえば、米国特許第3803357号、第5263091号、第5774557号および第6005953号参照。対照的に、本発明の態様では、一方の音声と他方のたとえば音楽や効果音など残りの全てのオーディオ信号間の識別をすることが必要である。従来技術で追跡されたノイズは、好ましいオーディオの時間的空間的包絡線より遥かに小さく変動する時間的空間的包絡線により特徴付けられる。さらに、ノイズは、先験的に知られている独特なスペクトル形状を有する。そのような識別的な特徴は、従来技術のノイズ追跡により使用されている。対照的に、本発明の態様では非音声オーディオ信号のレベルを追跡する。多くの場合、そのような非音声オーディオ信号は、その包絡線とスペクトル形状にばらつきを示し、それらは少なくとも音声オーディオ信号のものと同じ大きさである。したがって、本発明で用いられるレベル追跡には、音声とノイズの間よりも音声と非音声との間の識別に適した信号特徴を分析する必要がある。
図4は、1周波数帯域の音声強調ゲインが、その帯域の信号パワー推定からどのように導かれるかを示す。ここで図4を参照して、帯域限定信号401を表すものがパワー推定器あるいは推定装置(「パワー推定」)402に送られ、パワー推定402はその周波数帯域の信号パワー403の推定を生成する。その信号パワー推定は、パワーゲイン変換あるいは変換機能(「ゲイン曲線」)404に送られ、ゲイン曲線404は図3a〜3cで示される例の形をしていてもよい。パワーゲイン変換あるいは変換機能404は、その帯域(不図示)の信号パワーを修正するのに用いられる帯域ゲイン405を生成する。
信号パワー推定403はまた、音声ではない帯域の全信号成分のレベルを追跡する装置または機能(「レベルトラッカ」)406に送られる。レベルトラッカ406は、適応漏洩率の漏洩最少保持回路あるいは機能(「最少保持」)407を含む。この漏洩率は時定数408にコントロールされ、時定数408は音声が主体の信号パワーの時には低く、音声以外のオーディオが主体の信号パワーの時には高くなる傾向がある。時定数408は、その帯域での信号パワー403の推定に含まれる情報から導かれる。具体的には、時定数は、4Hzと8Hzの間の周波数領域の帯域信号包絡線のエネルギに単調に関連する。その特徴は、適切に同調したバンドパスフィルタあるいはフィルタ機能(「バンドパス」)409により抽出される。バンドパス409の出力は、伝達機能(「パワー−時間定数」)410により時定数に関連付けられる。非音声成分のレベル推定411は、レベルトラッカ406により生成されるが、バックグラウンドレベルの推定を拡大閾値414に関連付ける変換あるいは変換機能(「パワー−拡大閾値」)412への入力である。レベルトラッカ406、変換412および下方への拡大(拡大率305により特徴付けられる)の組み合わせは、図1aおよび図1bのVAD108に相当する。
変換412は単なる追加であり、すなわち、拡大閾値306は非音声オーディオの推定レベル411より上の固定数値のデシベルである。あるいは、推定バックグラウンドレベル411を拡大閾値306に関連付ける変換412は、ブロードバンド信号が音声である可能性の独立した推定413に依存する。したがって、推定413が、信号が音声である高い可能性を示すときには、拡大閾値は下げられる。反対に、推定413が、信号が音声である低い可能性を示すときには、拡大閾値は増大される。音声可能性推定413は単一の信号特徴からあるいは音声を他の信号から識別した信号特徴の組み合わせから導かれる。それは、図1aおよび図1bのSVO107の出力109に対応する。音声可能性413の推定に由来するそれらを処理する適切な信号特徴と方法は、当業者に周知である。その例は米国特許第6,785,645号、第6,570,991号、および米国特許出願第20040044525号、並びにそれらに含まれる参考文献に説明されている。
[参照による組み込み]
下記の特許、特許出願および出版物は、それぞれの全体を参照して本明細書に組み込む。
・米国特許第3,803,357号、サックス(Sacks)、1974年4月9日、ノイズ・フィルタ(Noise Filter)
・米国特許第5,263,091号、ウォーラー・ジュニア(Waller, Jr.)、1993年11月16日、インテリジェント自動閾値回路(Intelligent automatic threshold circuit)
・米国特許第5,388,185号、テリー(Terry)他、1995年2月7日、電話音声信号の適応処理用システム(System for adaptive processing of telephone voice signals)
・米国特許第5,539,806号、アレン(Allen)他、1996年7月23日、電話音量強調の顧客選定のための方法(Method for customer selection of telephone sound enhancement)
・米国特許第5,774,557号、スレイター(Slater)、1998年6月30日、航空機内通話システム用オートトラッキング・マイクロフォン・スケルチ(Autotracking microphone squelch for aircraft intercom systems)
・米国特許第6,005,953号、シュトゥールフェルナー(Stuhlfelner)、1999年12月21日、信号雑音比を改良するための回路配置(Circuit arrangement for improving the signal-to-noise ratio)
・米国特許第6,061,431号、クナッペ(Knappe)他、2000年5月9日、電話番号分解能に基づく電話技術システムにおける聴力低下矯正の方法(Method for hearing loss compensation in telephony systems based on telephone number resolution)
・米国特許第6,570,991号、シャイラー(Scheirer)他、2003年5月27日、多特徴の音声/音楽識別システム(Multi-feature speech/music discrimination system)
・米国特許第6,785,645号、カリル(Khalil)他、2004年8月31日、リアルタイム音声および音楽分類器(Real-time speech and music classifier)
・米国特許第6,914,988号、イワン(Irwan)他、2005年7月5日、オーディオ再生装置(Audio reproducing device)
・米国公開特許出願第2004/0044525号、ビントン(Vinton)、マーク・スチュアート(Mark Stuart)他、2004年3月4日、音声と他のタイプのオーディオ素材を含む信号における音声の音量の調整(controlling loudness of speech in signals that contain speech and other types of audio material)
・チャールス・Q・ロビンソン(Charles Q. Robinson)、ケニス・ガンドリ(Kenneth Gundry)「メタデータを介してのダイナミックレンジコントロール(Dynamic Range Control via Metadata)」会議資料5028、第107回オーディオ工学会会議(Audio Engineering Society Convention)、ニューヨーク、1999年9月24−27日
[実施]
本発明は、ハードウェアまたはソフトウェアで、あるいは両方の組み合わせ(たとえば、プログラマブル・ロジック・アレイ)で実施できる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に特定のコンピュータや他の装置に関連することはない。特に、種々の汎用機を本書の教示に従って書かれたプログラムと用いてもよく、あるいは、必要な方法のステップを実行するための、さらに特化した装置(たとえば、集積回路)を構築すると、さらに使いやすくなる。よって、本発明は、1つ以上のプログラム可能なコンピュータシステム上で実行する1つ以上のコンピュータプログラムで実施され、それぞれのシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータ保存システム(揮発性および不揮発性メモリおよび/または保存要素を含む)、少なくとも1つの入力装置あるいはポート、および、少なくとも1つの出力装置あるいはポートを備える。プログラムコードは、本書で説明した機能を実行するのにデータを入力し、出力情報を生成するのに用いられる。出力情報は、周知のやり方で、1つ以上の出力装置に適用される。
そのようなプログラムのそれぞれは、コンピュータシステムとコミュニケーションするのにどのようなコンピュータ言語(機械語、アセンブリ、あるいは、高水準手続、論理あるいはオブジェクト指向プログラム言語を含む)で実行されてもよい。どのような場合であっても、言語はコンパイルされた言語またはインタープリットされた言語でよい。
各コンピュータプログラムは、汎用または専用プログラム可能コンピュータで可読な保存媒体または装置(たとえば、ソリッドステートメモリ若しくは媒体、または、磁気若しくは光学媒体)に保存され、あるいは、ダウンロードされるのが好ましく、保存媒体または装置がコンピュータシステムで読み取られて本書で説明した手順を実行するときに、コンピュータを構築し作動する。本発明のシステムは、コンピュータプログラムで構築されるコンピュータ可読保存媒体として実行されることも考えられ、そのように構築された保存媒体は、コンピュータシステムに特定の予め定めた方法で動作し、本書で説明した機能を実行させる。
多くの本発明の実施の形態を説明してきた。それでもなお、本発明の思想と範囲から離れることなしに種々の改変がなされうることは分かるであろう。たとえば、本書で説明したステップのいくつかは、順番が自由であり、よって、説明された順番とは異なる順番で実行することができる。

Claims (17)

  1. エンターテイメントオーディオの音声を強調する方法であって、
    前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため、前記エンターテイメントオーディオを、1以上のコントロール信号に応答して処理する工程を備え、
    前記処理する工程は、
    複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程であって、前記ゲイン特性は、2成分の曲線からなり、1成分の曲線は、圧縮閾値よりも大きなパワー推定ではパワー推定とともに減少する圧縮比と、前記圧縮閾値以下でのパワー推定では一定のゲインとからなる圧縮特性を有し、他の成分の曲線は、適応閾値としての拡大閾値よりも大きなパワー推定ではパワー推定とともに増加する拡大比と、前記拡大閾値よりも小さいパワー推定ではゼロのゲインとからなる拡大特性を有し、最終的なゲイン曲線は、これら2成分の曲線の最小値であることと;
    周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
    を含み、
    前記生成する工程は、
    前記エンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いとして特徴付ける工程と
    記複数の周波数帯域のそれぞれで、前記周波数帯域における前記エンターテイメントオーディオの非音声成分のレベルを追跡する工程であって、前記追跡することは、音声が主体の信号パワーの時には時定数を低くし、音声以外のオーディオが主体の信号パワーの時には時定数を高くする、追跡する工程と;
    前記エンターテイメントオーディオの非音声成分のレベルの推定であるレベル推定を、対応する前記適応閾値のレベルである拡大閾値レベルに変換する工程
    を含み、
    前記処理する工程はさらに、
    前記1以上のコントロール信号が、各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各対応する適応閾値レベルを動かす工
    を含み、
    前記時定数は、適応漏洩率を制御する、
    方法。
  2. エンターテイメントオーディオの音声を強調する方法であって、
    前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため前記エンターテイメントオーディオを1以上のコントロール信号に応答して処理する工程を備え、
    前記処理する工程は、
    複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程であって、前記ゲイン特性は、2成分の曲線からなり、1成分の曲線は、圧縮閾値よりも大きなパワー推定ではパワー推定とともに減少する圧縮比と、前記圧縮閾値以下でのパワー推定では一定のゲインとからなる圧縮特性を有し、他の成分の曲線は、適応閾値としての拡大閾値よりも大きなパワー推定ではパワー推定とともに増加する拡大比と、前記拡大閾値よりも小さいパワー推定ではゼロのゲインとからなる拡大特性を有し、最終的なゲイン曲線は、これら2成分の曲線の最小値であることと;
    周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
    を含み、
    前記生成する工程は、
    (a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いという、前記エンターテイメントオーディオの時間断片の特徴を受信する工程と;
    記複数の周波数帯域のそれぞれで、前記周波数帯域における前記エンターテイメントオーディオの非音声成分のレベルを追跡する工程であって、前記追跡することは、音声が主体の信号パワーの時には時定数を低くし、音声以外のオーディオが主体の信号パワーの時には時定数を高くする、追跡する工程と;
    前記エンターテイメントオーディオの非音声成分のレベルの推定であるレベル推定を、対応する拡大閾値レベルに変換する工程と
    を含み、
    前記処理する工程はさらに、
    前記1以上のコントロール信号が、各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各対応する前記適応閾値のレベルである拡大閾値レベルを動かす工
    を含み、
    前記時定数は、適応漏洩率を制御する、
    方法。
  3. 処理するポイントの前と後で前記エンターテイメントオーディオの経過時間の或る時点にアクセスすることができ、
    前記コントロール信号を生成する工程は、前記処理するポイントの後の少なくとも若干のオーディオに応答する、
    請求項または記載の方法。
  4. 前記処理する工程は、1つあるいは複数の処理パラメータは、前記エンターテイメントオーディオに応答してアップデートされる
    請求項1〜3いずれか1項記載の方法。
  5. 1つあるいは複数の前記処理パラメータの調整は、処理されたオーディオの音声了解度のメトリックが最大化されるか所定の閾値レベル以上になされるかするように、前記エンターテイメントオーディオに応答する、
    請求項記載の方法。
  6. 前記エンターテイメントオーディオは複数チャンネルのオーディオを備え、前記複数チャンネルのオーディオでは、1つのチャンネルは主として音声であり、1以上の他のチャンネルは主として非音声であり、
    音声了解度のメトリックは、前記音声のチャンネルのレベルと前記1以上の他のチャンネルのレベルに基づく、
    請求項記載の方法。
  7. 前記音声了解度のメトリックは、前記処理されたオーディオが再生される聴取環境でのノイズのレベルにも基づく、
    請求項または記載の方法。
  8. 前記1つあるいは複数の処理パラメータは、前記エンターテイメントオーディオの1以上の記述子に応答してアップデートされる、
    請求項4〜7いずれか1項記載の方法。
  9. 記記述子は、前記エンターテイメントオーディオのせりふの平均レベルである、
    請求項記載の方法。
  10. 記記述子は、予め記録された前記エンターテイメントオーディオの処理の推定である、
    請求項または記載の方法。
  11. 1つあるいは複数のパラメータの調整は規定された式に従い、
    前記規定された式は、1人のリスナーまたはグループのリスナーの聴力を前記1つあるいは複数の処理パラメータに関連付ける;
    請求項記載の方法。
  12. 1つあるいは複数のパラメータの調整は、1人または複数のリスナーの好みに従う、
    請求項記載の方法。
  13. 前記処理する工程は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する、
    請求項12のいずれか1項記載の方法。
  14. ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能により提供される、
    請求項13記載の方法。
  15. 請求項14のいずれか1項記載の方法を実行するのに用いられる手段を備える、装置。
  16. 請求項14のいずれか1項記載の方法をコンピュータに実行させるためにコンピュータ読取り可能な記録媒体に保存された、コンピュータプログラム。
  17. 請求項14のいずれか1項記載の方法をコンピュータに実行させるコンピュータプログラムを保存している、コンピュータ読取り可能な記録媒体。
JP2009551991A 2007-02-26 2008-02-20 エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 Active JP5530720B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US90339207P 2007-02-26 2007-02-26
US60/903,392 2007-02-26
PCT/US2008/002238 WO2008106036A2 (en) 2007-02-26 2008-02-20 Speech enhancement in entertainment audio

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012283295A Division JP2013092792A (ja) 2007-02-26 2012-12-26 エンターテイメントオーディオにおける音声強調方法

Publications (2)

Publication Number Publication Date
JP2010519601A JP2010519601A (ja) 2010-06-03
JP5530720B2 true JP5530720B2 (ja) 2014-06-25

Family

ID=39721787

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009551991A Active JP5530720B2 (ja) 2007-02-26 2008-02-20 エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
JP2012283295A Pending JP2013092792A (ja) 2007-02-26 2012-12-26 エンターテイメントオーディオにおける音声強調方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012283295A Pending JP2013092792A (ja) 2007-02-26 2012-12-26 エンターテイメントオーディオにおける音声強調方法

Country Status (8)

Country Link
US (8) US8195454B2 (ja)
EP (1) EP2118885B1 (ja)
JP (2) JP5530720B2 (ja)
CN (1) CN101647059B (ja)
BR (1) BRPI0807703B1 (ja)
ES (1) ES2391228T3 (ja)
RU (1) RU2440627C2 (ja)
WO (1) WO2008106036A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210233548A1 (en) * 2018-07-25 2021-07-29 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100789084B1 (ko) * 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
SG189747A1 (en) * 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9552845B2 (en) 2009-10-09 2017-01-24 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
WO2011049516A1 (en) 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP2352312B1 (en) * 2009-12-03 2013-07-31 Oticon A/S A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
CN104242853B (zh) 2010-03-18 2017-05-17 杜比实验室特许公司 用于具有音质保护的失真减少多频带压缩器的技术
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5652642B2 (ja) * 2010-08-02 2015-01-14 ソニー株式会社 データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US8706509B2 (en) 2011-04-15 2014-04-22 Telefonaktiebolaget L M Ericsson (Publ) Method and a decoder for attenuation of signal regions reconstructed with low accuracy
US8918197B2 (en) 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
FR2981782B1 (fr) * 2011-10-20 2015-12-25 Esii Procede d’envoi et de restitution sonore d’informations audio
JP5565405B2 (ja) * 2011-12-21 2014-08-06 ヤマハ株式会社 音響処理装置および音響処理方法
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
EP2834815A4 (en) * 2012-04-05 2015-10-28 Nokia Technologies Oy ADAPTIVE AUDIO SIGNAL FILTERING
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
EP3893240B1 (en) * 2013-01-08 2024-04-24 Dolby International AB Model based prediction in a critically sampled filterbank
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
CN103079258A (zh) * 2013-01-09 2013-05-01 广东欧珀移动通信有限公司 一种提高语音识别准确性的方法及移动智能终端
US10506067B2 (en) 2013-03-15 2019-12-10 Sonitum Inc. Dynamic personalization of a communication session in heterogeneous environments
US9933990B1 (en) 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN108365827B (zh) 2013-04-29 2021-10-26 杜比实验室特许公司 具有动态阈值的频带压缩
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP3014609B1 (en) 2013-06-27 2017-09-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US9031838B1 (en) 2013-07-15 2015-05-12 Vail Systems, Inc. Method and apparatus for voice clarity and speech intelligibility detection and correction
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103413553B (zh) 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
MX358483B (es) * 2013-10-22 2018-08-22 Fraunhofer Ges Forschung Concepto para la comprensión combinada del rango dinámico y prevención guiada de recortes para dispositivos de audio.
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
KR102482162B1 (ko) 2014-10-01 2022-12-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US10020001B2 (en) 2014-10-01 2018-07-10 Dolby International Ab Efficient DRC profile transmission
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN104409081B (zh) * 2014-11-25 2017-12-22 广州酷狗计算机科技有限公司 语音信号处理方法和装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
US10362412B2 (en) 2016-12-22 2019-07-23 Oticon A/S Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device
WO2018152034A1 (en) * 2017-02-14 2018-08-23 Knowles Electronics, Llc Voice activity detector and methods therefor
CN110998724B (zh) 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
WO2019027812A1 (en) 2017-08-01 2019-02-07 Dolby Laboratories Licensing Corporation CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA
EP3477641A1 (en) * 2017-10-26 2019-05-01 Vestel Elektronik Sanayi ve Ticaret A.S. Consumer electronics device and method of operation
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN110875059B (zh) * 2018-08-31 2022-08-05 深圳市优必选科技有限公司 收音结束的判断方法、装置以及储存装置
US10795638B2 (en) * 2018-10-19 2020-10-06 Bose Corporation Conversation assistance audio device personalization
US11164592B1 (en) * 2019-05-09 2021-11-02 Amazon Technologies, Inc. Responsive automatic gain control
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
EP3803861B1 (en) * 2019-08-27 2022-01-19 Dolby Laboratories Licensing Corporation Dialog enhancement using adaptive smoothing
RU2726326C1 (ru) * 2019-11-26 2020-07-13 Акционерное общество "ЗАСЛОН" Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники
US20230010466A1 (en) * 2019-12-09 2023-01-12 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
US20230113561A1 (en) * 2020-03-13 2023-04-13 Immersion Networks, Inc. Loudness equalization system
EP4128226A1 (en) * 2020-03-27 2023-02-08 Dolby Laboratories Licensing Corp. Automatic leveling of speech content
WO2021239255A1 (en) 2020-05-29 2021-12-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an initial audio signal
US11790931B2 (en) 2020-10-27 2023-10-17 Ambiq Micro, Inc. Voice activity detection using zero crossing detection
TW202226226A (zh) * 2020-10-27 2022-07-01 美商恩倍科微電子股份有限公司 具低複雜度語音活動檢測演算之設備及方法
US11595730B2 (en) * 2021-03-08 2023-02-28 Tencent America LLC Signaling loudness adjustment for an audio scene
CN113113049A (zh) * 2021-03-18 2021-07-13 西北工业大学 一种联合语音增强的语音活动检测方法
EP4134954B1 (de) * 2021-08-09 2023-08-02 OPTImic GmbH Verfahren und vorrichtung zur audiosignalverbesserung
KR102628500B1 (ko) * 2021-09-29 2024-01-24 주식회사 케이티 대면녹취단말장치 및 이를 이용한 대면녹취방법

Family Cites Families (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3803357A (en) * 1971-06-30 1974-04-09 J Sacks Noise filter
US4661981A (en) 1983-01-03 1987-04-28 Henrickson Larry K Method and means for processing speech
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
KR100228688B1 (ko) 1991-01-08 1999-11-01 쥬더 에드 에이. 다차원 음장용 인코우더/디코우더
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0810599B1 (en) 1991-05-29 2003-11-26 Pacific Microsonics, Inc. Improvements in signal encode/decode systems
US5388185A (en) * 1991-09-30 1995-02-07 U S West Advanced Technologies, Inc. System for adaptive processing of telephone voice signals
US5263091A (en) 1992-03-10 1993-11-16 Waller Jr James K Intelligent automatic threshold circuit
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5425106A (en) 1993-06-25 1995-06-13 Hda Entertainment, Inc. Integrated circuit for audio enhancement system
US5400405A (en) 1993-07-02 1995-03-21 Harman Electronics, Inc. Audio image enhancement system
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5539806A (en) * 1994-09-23 1996-07-23 At&T Corp. Method for customer selection of telephone sound enhancement
US5623491A (en) 1995-03-21 1997-04-22 Dsc Communications Corporation Device for adapting narrowband voice traffic of a local access network to allow transmission over a broadband asynchronous transfer mode network
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5812969A (en) * 1995-04-06 1998-09-22 Adaptec, Inc. Process for balancing the loudness of digitally sampled audio waveforms
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5661808A (en) 1995-04-27 1997-08-26 Srs Labs, Inc. Stereo enhancement system
JP3416331B2 (ja) 1995-04-28 2003-06-16 松下電器産業株式会社 音声復号化装置
US5774557A (en) 1995-07-24 1998-06-30 Slater; Robert Winston Autotracking microphone squelch for aircraft intercom systems
FI102337B (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE19547093A1 (de) 1995-12-16 1997-06-19 Nokia Deutschland Gmbh Schaltungsanordnung zur Verbesserung des Störabstandes
US5689615A (en) 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
DE19703228B4 (de) * 1997-01-29 2006-08-03 Siemens Audiologische Technik Gmbh Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US5907822A (en) 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6208637B1 (en) 1997-04-14 2001-03-27 Next Level Communications, L.L.P. Method and apparatus for the generation of analog telephone signals in digital subscriber line access systems
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6169971B1 (en) * 1997-12-03 2001-01-02 Glenayre Electronics, Inc. Method to suppress noise in digital voice processing
US6104994A (en) 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
CN1116737C (zh) 1998-04-14 2003-07-30 听觉增强有限公司 用户可调节的适应听力的音量控制
US6122611A (en) 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6223154B1 (en) 1998-07-31 2001-04-24 Motorola, Inc. Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds
US6188981B1 (en) 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6061431A (en) 1998-10-09 2000-05-09 Cisco Technology, Inc. Method for hearing loss compensation in telephony systems based on telephone number resolution
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6256606B1 (en) 1998-11-30 2001-07-03 Conexant Systems, Inc. Silence description coding for multi-rate speech codecs
US6208618B1 (en) 1998-12-04 2001-03-27 Tellabs Operations, Inc. Method and apparatus for replacing lost PSTN data in a packet network
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6922669B2 (en) 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6813490B1 (en) * 1999-12-17 2004-11-02 Nokia Corporation Mobile station with audio signal adaptation to hearing characteristics of the user
US6449593B1 (en) 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7962326B2 (en) 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US7246058B2 (en) 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
US6631139B2 (en) 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
DE60222445T2 (de) * 2001-08-17 2008-06-12 Broadcom Corp., Irvine Verfahren zum verbergen von bitfehlern für die sprachcodierung
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7328151B2 (en) 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US7167568B2 (en) 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
CA2492091C (en) * 2002-07-12 2009-04-28 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
AU2003278013A1 (en) 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
US7539614B2 (en) * 2003-11-14 2009-05-26 Nxp B.V. System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
US7483831B2 (en) 2003-11-21 2009-01-27 Articulation Incorporated Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7451093B2 (en) 2004-04-29 2008-11-11 Srs Labs, Inc. Systems and methods of remotely enabling sound enhancement techniques
WO2005117483A1 (en) 2004-05-25 2005-12-08 Huonlabs Pty Ltd Audio apparatus and method
US8788265B2 (en) 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
CA2691959C (en) 2004-08-30 2013-07-30 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
FI20045315A (fi) 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8135136B2 (en) 2004-09-06 2012-03-13 Koninklijke Philips Electronics N.V. Audio signal enhancement
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
EP1815462A1 (en) 2004-11-09 2007-08-08 Koninklijke Philips Electronics N.V. Audio coding and decoding
RU2284585C1 (ru) 2005-02-10 2006-09-27 Владимир Кириллович Железняк Способ измерения разборчивости речи
US20060224381A1 (en) 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
TWI317933B (en) 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US8566086B2 (en) 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US20070078645A1 (en) 2005-09-30 2007-04-05 Nokia Corporation Filterbank-based processing of speech signals
US20070147635A1 (en) 2005-12-23 2007-06-28 Phonak Ag System and method for separation of a user's voice from ambient sound
EP1640972A1 (en) 2005-12-23 2006-03-29 Phonak AG System and method for separation of a users voice from ambient sound
US20070198251A1 (en) 2006-02-07 2007-08-23 Jaber Associates, L.L.C. Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction
ES2525427T3 (es) * 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
CN100578622C (zh) * 2006-05-30 2010-01-06 北京中星微电子有限公司 一种自适应麦克阵列系统及其语音信号处理方法
US20080071540A1 (en) 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
EP2127467B1 (en) 2006-12-18 2015-10-28 Sonova AG Active hearing protection system
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2619753B1 (en) * 2010-12-24 2014-05-21 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
CN102801861B (zh) * 2012-08-07 2015-08-19 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
US20140126737A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Noise suppressing multi-microphone headset

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210233548A1 (en) * 2018-07-25 2021-07-29 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
US11894006B2 (en) * 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise

Also Published As

Publication number Publication date
CN101647059A (zh) 2010-02-10
US20180033453A1 (en) 2018-02-01
BRPI0807703B1 (pt) 2020-09-24
JP2010519601A (ja) 2010-06-03
WO2008106036A3 (en) 2008-11-27
EP2118885A2 (en) 2009-11-18
US20150142424A1 (en) 2015-05-21
US10418052B2 (en) 2019-09-17
BRPI0807703A2 (pt) 2014-05-27
JP2013092792A (ja) 2013-05-16
ES2391228T3 (es) 2012-11-22
US20160322068A1 (en) 2016-11-03
EP2118885B1 (en) 2012-07-11
US20120221328A1 (en) 2012-08-30
RU2440627C2 (ru) 2012-01-20
US20100121634A1 (en) 2010-05-13
RU2009135829A (ru) 2011-04-10
US9418680B2 (en) 2016-08-16
CN101647059B (zh) 2012-09-05
US9818433B2 (en) 2017-11-14
US20150243300A1 (en) 2015-08-27
US10586557B2 (en) 2020-03-10
US8972250B2 (en) 2015-03-03
US9368128B2 (en) 2016-06-14
WO2008106036A2 (en) 2008-09-04
US8271276B1 (en) 2012-09-18
US20190341069A1 (en) 2019-11-07
US8195454B2 (en) 2012-06-05
US20120310635A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5530720B2 (ja) エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
JP6896135B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
JP2009532739A (ja) オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整
US20050246170A1 (en) Audio signal processing apparatus and method
JP2023530225A (ja) 初期オーディオ信号を処理するための方法および装置
JP6902049B2 (ja) 発話信号を含むオーディオ信号のラウドネスレベル自動修正
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120514

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130619

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140421

R150 Certificate of patent or registration of utility model

Ref document number: 5530720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250