JP2011518520A - サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 - Google Patents

サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 Download PDF

Info

Publication number
JP2011518520A
JP2011518520A JP2011505219A JP2011505219A JP2011518520A JP 2011518520 A JP2011518520 A JP 2011518520A JP 2011505219 A JP2011505219 A JP 2011505219A JP 2011505219 A JP2011505219 A JP 2011505219A JP 2011518520 A JP2011518520 A JP 2011518520A
Authority
JP
Japan
Prior art keywords
channel
characteristic
speech
power spectrum
intelligibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011505219A
Other languages
English (en)
Other versions
JP5341983B2 (ja
Inventor
ミュシュ、ハンネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2011518520A publication Critical patent/JP2011518520A/ja
Application granted granted Critical
Publication of JP5341983B2 publication Critical patent/JP5341983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/041Adaptation of stereophonic signal reproduction for the hearing impaired

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

1つの実施の形態において、本発明はマルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法を具備する。該方法は、減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較するステップを含む。第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当する。本方法は、調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップをさらに含む。本方法は、前記調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させるステップをさらに含む。

Description

本出願は、2008年4月1日出願の米国暫定特許出願番号61/046,271に基づく優先権を主張し、この暫定特許出願のすべてを参照として本明細書に組み込むものとする。
本発明は、一般的にはオーディオ信号処理関し、特に、エンターテインメントオーディオに囲まれた状態での、会話や談話の明瞭度の改善に関する。
特記なき場合は、ここに記載の方法は、本出願の特許請求の範囲に対する先行技術ではなく、ここに記載されているという理由で先行技術であるとは認めない。
多数の、同時的なオーディオのチャンネル(サラウンドサウンド)をもつ現代的なエンターテインメントオーディオは、計り知れない娯楽的価値を持つ巨大でリアルなサウンド環境を聴衆に提供する。このような環境では、会話、音楽、効果音のような多くのサウンド要素が同時に出現し、リスナーの注意を得るために競い合う。聴衆によっては、特に、聴覚能力が衰えた又は認知処理が遅くなった聴衆には、会話や談話は、大きな競合サウンド要素が存在するプログラム部分では、聞こえにくいかもしれない。このような状況において、競合するサウンドのレベルが低下することは、リスナーには有益である。
音楽や効果音が会話を圧倒することがあるとの認識は新しいものではなく、そのような状況を改善する方法はいくつか提案されている。しかし、以下に説明するように、提案されている方法は現在の放送実務とは相容れないか、又は全体的なエンターテインメントに不必要に高い代価を求めるか、又はその両方となる。
映画やテレビジョンのサラウンドオーディオを生じさせるときに、会話や談話の大部分を1つのチャンネル(中央チャンネル、スピーチチャンネルと称される)だけに配分することに固執する習慣が一般的となっている。音楽、環境音、及び効果音は、通常スピーチチャンネルと残りすべてのチャンネル(例えば、左[L]、右[R]左サラウンド[rs]、及び右サラウンド[rs]、ノンスピーチチャンネルと称されることもある)に混入される。結果として、スピーチチャンネルがオーディオプログラムに含まれるスピーチの大部分とノンスピーチオーディオのかなりの部分を伝達する一方、ノンスピーチチャンネルがノンスピーチオーディオの大部分を伝達するが、少量のスピーチも伝達することがある。このような従来の構成における会話や談話の認知を助けるひとつの簡単な方法は、ノンスピーチチャンのレベルを、スピーチチャンネルに比べて、例えば6dBほど恒久的に減少させることである。この方法は簡単で効果的であり今日よく用いられている(SRS[サウンドリトリーバルシステム]による会話の明瞭化又はサラウンドデコーダーにおける修正したダウンミックス方程式)。しかし、この方法には少なくとも1つの欠点がある。すなわち、ノンスピーチチャンネルに一定の減衰を加えることで、スピーチの聴取を妨げないレベルの静かな環境音を聞こえないレベルにまで下げてしまうことがある。妨げとならない環境音を減衰させることにより、スピーチを理解するという付随的効果もなく、プログラムの審美的バランスを変えてしまう。
代替的な解決策が、Vaudrey及びSaundersによる一連の特許(米国特許番号7,266,501、米国特許番号6,772,127、米国特許番号6,912,501、及び米国特許番号6,650,755)に記載されている。周知のとおり、これらの方法は、コンテンツの生成と分配を修正するものである。この構成によれば、消費者は2つの別々のオーディオ信号を受け取る。これらの信号の第1番目は「プライマリーコンテンツ」オーディオを具備する。この信号は多くの場合スピーチが優勢であるが、コンテンツの製作者が望むなら、他の形式の信号も含むことができる。第2番目の信号は、「セカンダリーコンテンツ」オーディオを具備し、残りのすべてのサウンド要素により構成されている。ユーザーは、各信号のレベルを手動で調整することにより、又は、ユーザーが選択したパワー比率を自動的に維持することにより、これら2つの信号の相対的レベルの制御ができる。この構成は、妨害とはならない環境音を不必要に減衰させることを制限することができるが、従来の生成方法と分配方法には適用できないことが広く用いられることの妨げとなっている。
スピーチとノンスピーチオーディオとの相対的レベルを管理するための他の方法の例が、Bennettにより、米国特許出願番号20070027682中に提案されている。
背景技術のすべての例において、他の欠点の中でも、会話を強化することがコンテンツの創作者が意図するリスニング体験に影響を与えることを最小限にするための手段を提供しないという制限を有する点で共通している。従って、ノンスピーチオーディオ成分の可聴性を維持したまま、スピーチを理解できるようにするために、従来の混合がなされたマルチチャンネルエンターテインメントプログラム中のノンスピーチオーディオチャンネルのレベルを制限する方法を提供することが本発明の目的である。
従って、スピーチの可聴性を維持する方法を改善することが必要となる。本発明は、マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する装置及び方法を提供することによりこれらの問題を解決するものである。
本発明の実施の形態によりスピーチの可聴性が改善される。1つの実施の形態では、本発明はマルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法を含む。該方法は、減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較するステップを含む。第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当する。該方法は、調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップをさらに含む。該方法は、この調整済みの減衰係数を用いて前記第2番目のチャンネルを減数させるステップをさらに含む。
本発明の第1の特徴は、一般的なエンターテインメントプログラムのスピーチチャンネルが、プログラムの継続期間の実質的な部分にノンスピーチ信号を伝達することの観察に基づく。その結果、本発明の第1の特徴によれば、ノンスピーチオーディオによるスピーチオーディオのマスキングを、(a)スピーチチャンネルにおける信号パワーに対するノンスピーチチャンネルにおける信号パワーの比率が所定の閾値を越えないように制限するために必要な、ノンスピーチチャンネルにおける信号の減衰量を決定するステップ、(b)スピーチ中のスピーチチャンネルにおける信号の尤度に単調に関係する係数により減衰量を縮小拡大するステップ、及び(c)縮小拡大した減衰量を適用するステップにより、制御することができる。
本発明の第2の特徴は、スピーチ信号のパワーとマスキング信号のパワーとの比率は、スピーチの明瞭度を予測するためには貧弱な判断材料であるとの観察に基づく。その結果、本発明の第2の特徴によれば、所定のレベルの明瞭度を維持するために必要な、ノンスピーチチャンネルにおける信号の減衰量を、心理音響に基づく明瞭度の予測モデルによりノンスピーチ信号が存在するところでのスピーチ信号の明瞭度を予測することにより、計算する。
本発明の第3の特徴は、周波数全体にわたって減衰量を変化させることができるのなら、(a)明瞭度の所定のレベルが種々の減衰のパターンにより達成することができること、及び(b)異なる減衰のパターンにより異なる音量のレベル又は異なるノンスピーチオーディオの主要部をもたらすことができることの観察に基づく。その結果、本発明の第3の特徴によれば、予測したスピーチの明瞭度の所定のレベルを達成する制限の下で、音量を最大にするか又はノンスピーチオーディオの主要部の他の測度を最大にする減衰のパターンを見つけることにより、ノンスピーチオーディオによるスピーチオーディオのマスキングを制御する
本発明の実施の形態は方法又はプロセスとして実行することができる。この方法は、ハードウェア又はソフトウェア又はそれらの組み合わせとしての電子回路により実施することができる。このプロセスを実施するために用いられる回路は、(特定の作業のみ行う)専用回路であっても(1以上の特定の作業を行うようにプログラムされた)汎用回路であってもよい。
以下の詳細な説明と添付図により、本発明の本質及び利点をよく理解できる。
本発明の一実施の形態による、信号プロセッサを示す。 本発明の他の実施の形態による、信号プロセッサを示す。 本発明の他の実施の形態による、信号プロセッサを示す。 図1〜3の実施の形態のさらなる変形を示すブロック図である。 図1〜3の実施の形態のさらなる変形を示すブロック図である。
ここに記載したのは、スピーチの可聴性を維持するための技術である。以下の記載において、説明目的で、本発明を完全に理解してもらうために多くの実施例と具体的な詳細を述べる。しかしながら、当業者にとって、特許請求の範囲として定義される本発明は、以下に記載の実施例単独又は実施例の組み合わせにおける特徴のいくつか又はすべてを含み、さらに、ここに記載した特徴及び概念を修正したもの及び均等なものを含むことは自明である。
種々の方法とプロセスを以下に記載する。これらは、主として理解しやすくするような順序で記載する。特定のステップについては、様々な実施の形態において、違う順序又は必要に応じた平行して行うことができることは理解できよう。特定のステップが他のステップの前又は他のステップの後でなければならないときは、文脈から明らかでない場合、具体的にその旨を指摘する。
本発明の第1の形態についてその原理を図1に示す。図1を参照すると、スピーチチャンネル(101)及び2つのノンスピーチチャンネル(102及び103)からなるマルチチャンネル信号を受け取っている。これらのチャンネルの各々の信号のパワーは信号推定器(104,105,及び106)のバンクで測定し対数スケールで表現する。これらのパワー推定器は、漏れ積分回路のような平滑化機構を含むことができ、測定したパワーレベルが1つの文又は節全体にわたる平均化されたパワーレベルを反映することができる。スピーチチャンネル中の信号のパワーレベルを、(加算器107及び108により)ノンスピーチチャンネルの各々から減算し、2つの信号形式同士のパワーレベルの差異の測度を得る。比較回路109で、スピーチチャンネル中の信号のパワーレベルより少なくともθdB少ないパワーレベルがのこるようにノンスピーチチャンネルを減衰するようなdBの数値を、各ノンスピーチチャンネルに対して定める。(記号θは、変数であり、スクリプトθを意味する。)1つの実施の形態によれば、この実施例では、閾値θ(回路110に保存されている)をパワーレベルの差異に加え(この中間的な結果ははマージンと称される)、(リミッター111及び112により)その結果がゼロ以下になるように制限する。この結果は、パワーレベルをθdBだけスピーチチャンネルのパワーレベルより低くしておくために、ノンスピーチチャンネルに適用しなければならないdB単位で表したゲイン(又は否定減衰(negated attenuation))となる。θに適した値は15dBである。このθの値は他の実施形態において必要に応じて調整することができる。
対数スケール(dB)で表現した測度と線形スケールで表現した測度との間に一意的な関係があるので、図1と等価な回路は、パワー、ゲイン、及び閾値がすべて線形スケールで表現することができるように、構成することができる。この実施の形態では、すべてのレベルの差異を線形測度の比率で置き換えることができる。代替的実施の形態では、パワー測度を、信号の絶対値のような信号強度に対応する測度で置き換えることができる。 本発明の第1の形態において特筆すべき特徴は、実際にスピーチがなされたスピーチチャンネルにおける信号の尤度に単調に関連する値により導き出されたゲインを拡大縮小することである。さらに図1を参照して、制御信号(113)を受け取りゲインが(乗算器114及び115により)乗算される。拡大縮小されたゲインは、(増幅器116及び117により)対応するノンスピーチチャンネルに適用され、修正した信号L及びR(118及び119)を作る。制御信号(113)は、通常、スピーチがなされたスピーチチャンネルにおける信号の尤度の、自動的に導き出された測度となる。スピーチ信号となった信号の尤度を自動的に決定する様々な方法を用いることができる。1つの実施の形態によれば、スピーチ尤度130は、Cチャンネル101における情報からスピーチ尤度値p(113)を生成する。このような機構の1つの例は、Robinson及びVintonによる「Automated Speech/Other Discrimination for Loudness Monitoring」(2005年5月のAudio Engineering Society, Preprint number 6437 of Convention 118)に記載されている。あるいは、この制御信号(113)は、例えば、手動で作成し、コンテンツ制作者によりオーディオ信号と共にエンドユーザーに送信することができる。
本発明の属する技術の分野における通常の知識を有する者(当業者)はこの構成をどんな数の入力チャンネルにも拡張することができることを理解するであろう。
本発明の第2の形態の原理は、図2に示されている。図2を参照すると、1つのスピーチチャンネル(101)及び2つのノンスピーチチャンネル(102及び103)からなるマルチチャンネル信号を受け取っている。これらのチャンネルの各々の信号のパワーは信号推定器(201,202,及び203)のバンクで測定される。図1の対応する部分とは異なり、これらのパワー推定器は周波数全体にわたって信号パワーの分布を測定し、単数ではなくパワースペクトルを結果として生じさせる。このパワースペクトルの周波数分解能は、明瞭度予測モデル(205及び206、未説明)の周波数分解能と理想的にマッチする。
パワースペクトルは比較回路204に送られる。このブロックの目的は、各ノンスピーチチャンネルに適用する減衰量を定め、ノンスピーチチャンネルの信号がスピーチチャンネルの信号の明瞭度を所定の基準以下に下がらないようにすることである。この機能はスピーチ信号(201)とノンスピーチ信号(202及び203)のパワースペクトルから、スピーチの明瞭度を予測する明瞭度予測回路(205及び206)を採用することにより達成することができる。この明瞭度予測回路205及び206は、選択とトレードオフの設計に従い適切な明瞭度予測モデルを組み込むことができる。例として、ANSIS3.5−1997(スピーチ明瞭度指数の計算方法)に定められたスピーチ明瞭度指数及び、Muesch及びBuusによるスピーチ認識感度(「スピーチ明瞭度予測のための統計的決定理論の使用。Iモデル構造」Journal of the Acoustical Society of America,2001,Vol109,P2896−2909)がある。明瞭度予測モデルの出力は、スピーチチャンネル中のスピーチ以外の信号が平滑化されるとき、意味を持たないことは明らかである。それにもかかわらず、明瞭度予測モデルの出力に続くものは、予測スピーチ明瞭度と称される。このような誤りを理解することで、スピーチがなされた信号(113、未説明)の尤度に関するパラメータで、比較回路204からのゲイン出力を縮小拡大することによる、次の処理を行うことの説明とすることができる。
明瞭度予測モデルは一般に、ノンスピーチ信号のレベルを下げた結果として、上がるか又は変化しないスピーチ明瞭度の予測をおこなう。図2の処理フローを続けると、比較回路207及び208で、予測明瞭度を基準値と比較する。ノンスピーチ信号のレベルが低く予測明瞭度が基準を超えている場合、0dBに初期化されているゲインパラメータが回路209又は210から取り出され比較回路204の出力として回路211及び212に供給される。基準を満たさない場合は、ゲインパラメータを、ある定められた量だけ減少させ、明瞭度の予測を繰り返す。適切なステップサイズは1dBである。ここに記載したような繰り返しを予測明瞭度が基準値に一致するまで又は基準値を越えるまで続けられる。スピーチチャンネル中の信号は、ノンスピーチチャンネル中に信号がない場合でも明瞭度の基準に到達することができないようにすることも可能である。このような状態になる例として、スピーチ信号が非常に低レベルである場合、又は厳しく帯域幅が制限されている場合がある。このようなことが起こると、ノンスピーチチャンネルに適用するゲインをどれだけ減少させても予測スピーチ明瞭度に影響を与えることはなく、基準値を満たさないという状態になってしまう。このような状態では、(205,206),(207,208),及び(209,210)により形成されるループが永久に続くことなり、このようなループを中断させるためには付加的なロジック(不図示)を適用する必要がある。そのようなロジックの簡単な例は、繰り返しの数を数え、繰り返しが所定の数を越えたらループを抜け出すようにすることである。
図2の処理フローを続けて、制御信号(113)を受け取り、(乗算器113及び115により)ゲインを乗算する。制御信号(113)は、一般に、スピーチが行われたスピーチチャンネルにおける信号の自動的に導き出された尤度の測度となる。スピーチ信号となる信号の尤度を自動的に測定する方法は、自明であり、図1に関して既に説明したとおりである(スピーチ尤度プロセッサ130参照)。縮小拡大したゲインは(増幅器116及び117により)対応するノンスピーチチャンネルに適用され、修正した信号R’及びL’(118及び119)を生成する。
本発明の第3の形態の原理は、図3に示されている。ここで図3を参照すると、1つのスピーチチャンネル(101)と2つのノンスピーチチャンネル((102及び103)からなるマルチチャンネル信号を受け取っている。この3つの信号の各々は(フィルターバンク301,302,及び303により)スペクトル成分に分割される。スペクトル分析は時間領域Nチャンネルフィルターバンクにより実行することができる。1つの実施の形態によれば、フィルターバンクは周波数領域を1/3オクターブの帯域に区分するか、又は、人の内耳で生じるようなフィルタリングに似せる。ここで、信号はN個のサブ信号からなることを太線で示している。図3の処理はサイドブランチ処理として知られている。信号経路の後に、ノンスピーチチャンネルを形成するN個のサブ信号はそれぞれN個のゲイン値のセットの1要素により(増幅器116及び117により)縮小拡大される。これらのゲインの導出については後述する。次に、縮小拡大されたサブ信号は、再結合して単一のオーディオ信号となる。これは(回路313及び314による)単純な加算により行われる。代替的に、分析フィルターバンクに適合する合成フィルターバンクを用いることができる。この処理の結果として、修正したンスピーチ信号R’及びL’(118及び119)が得られる。
ここで、図3の処理におけるサイドブランチ経路について説明すると、各フィルターバンクの出力は、N個のパワー推定器の対応するバンク(304,305,及び306)で使用可能となる。結果として生じたスペクトルは、N次元のゲインベクトルを出力として有する、最適化回路(307及び308)の入力となる。この最適化では、明瞭度予測回路(309及び310)及び音量計算回路(311及び312)の両方を採用して、スピーチ信号の予測される明瞭度の所定のレベルを維持しながらノンスピーチチャンネルの音量を最大化するゲインベクトルを見つける。明瞭度を予測する適切なモデルは図2に関連して既に説明したとおりである。音量計算回路311及び312は、選択とトレードオフの設計に従い適切な音量予測モデルを組み込むことができる。適切なモデルの例として、米国規格ANSI S3 4−2007「Procedure for the Computation of Loudness of Steady Sounds」及びドイツ規格DIN 45631「Berechnung des Lautstaerkepegels und der Lautheit aus dem Geraeuschspektrum」がある。
利用可能な計算資源及び課せられた制約条件に応じて、最適化回路(307及び308)の形及び複雑さは大きく変化する。1つの実施の形態によれば、N個の自由パラメータの、繰り返し、多次元制約最適化を用いることができる。各パラメータは、ノンスピーチチャンネルの周波数帯域の1つに適用するゲインを表す。N次元検索スペースにおける最急勾配法のような標準的な技法を、最大値を見つけるために適用することができる。他の実施の形態においては、計算的に厳しくないアプローチではゲイン対周波数関数を、異なるスペクトル勾配のセット又はシェルフィルターのような、可能性のあるゲイン対周波数関数の小さなセットのメンバーに限定する。この追加の限定により、最適化の問題は、小さな数の1次元の最小化に縮減することができる。さらに他の実施の形態では、可能なゲインの非常に小さなセットに対して徹底検索を実行する。この後者のアプローチは、一定の計算負荷と検索速度が必要な場合に、実時間のアプリケーションで特に好ましいであろう。
当業者は、本発明の追加的な実施の形態による最適化に組み込むことのできる付加的な構成を容易に認識することができる。1つの実施例では、修正したノンスピーチチャンネルの音量が修正前の音量より大きくならないよう制限する。他の実施例では、再構成フィルターバンク(313,314)に時間的なエイリアシングが生じる潜在的可能性を制限するため又は好ましくない音色の変化が生じる可能性を減少させるために隣接する周波数帯域同士でのゲインの差の制限が組み込まれる。好ましい制約条件は、フィルターバンクの技術的な実施の形態と、明瞭度の完全と音色の変化との間のトレードオフをどのように選択するかとに左右される。説明を簡単にするために、これらの制約は図3から省略した。
図3の処理フローを続けると、制御信号p(113)を受け取り、(乗算器114及び115で)ゲイン関数を乗算する。制御信号(113)は、通常、自動的に導き出したスピーチが行われたスピーチチャンネルにおける信号の尤度の測度となる。スピーチが行われた信号の尤度の自動的な計算の方法については図1と関連して既に説明した(スピーチ尤度プロセッサ130参照)。縮小拡大させたゲインは、先に説明したように、(増幅器116及び117)により、対応するノンスピーチチャンネルに適用する。
図4A及び4Bは、図1〜3に示した形態の変形を示したものである。なお、当業者であれば、図1〜3に記載した発明の要素を組み合わせるいくつかの方法を考え付くであろう。
図4Aは、図1の構成を、L,C,及びRの1以上の周波数サブ帯域にも適用することができることを示している。具体的には、信号L,C,及びRは、それぞれフィルターバンク(441,442,及び443)を通過し、サブ帯域の3つのセット、すなわち{L,L,...,L}、(C,C,...,C)、及び(R,R,...,R)、を生じさせる。サブ帯域のマッチングは、図1に示すn個のインスタンスの回路125に送られ、処理されたサブ信号は(加算回路451及び452により)再結合される。個々の閾値θは、各サブ帯域で選択することができる。θが対応する周波数領域にあるスピーチのキューの平均値に比例するところ、すなわち、極端な周波数スペクトルにおける帯域が、対応する優勢なスピーチ周波数の帯域より低い閾値に割り当てられるところに良い選択が設定される。本発明のこの実施の形態により、コンピュータの複雑さとパフォーマンスとの間の良好なトレードオフがもたらされる。
図4Bは、もう1つの変形を示す。例えば、計算負荷を軽減するために、5チャンネル(C,L,R,Is,及びrs)を有する一般的なサラウンドサウンド信号を、図3に示した回路325によりL及びR信号を処理し、図1に示した回路125により、L及びR信号より一般にパワーの少ない、Is及びrsを処理することにより、改善することができる。
上記説明において、用語「スピーチ」(又はスピーチオーディオ又はスピーチチャンネル又はスピーチ信号)及び用語「ノンスピーチ」(又はノンスピーチオーディオ又はノンスピーチチャンネル又はノンスピーチ信号)が使われている。当業者であればこれらの用語は、相互に違っていることを示すために主として用い、チャンネルのコンテンツを完全に説明するためにほとんど用いないことを理解するであろう。例えば、映画のレストランのシーンで、スピーチチャンネルには主として1つのテーブルでの会話が含まれ、ノンスピーチチャンネルには、他のテーブルでの会話が含まれるであろう(つまり、両方とも、専門家でない人が使う用語としての「スピーチ」が含まれる)。他のテーブルでの会話であっても、本発明の実施の形態では、減衰させる。
(実施形態)
[実施形態]
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの(例えば、プログラマブルロジックアレー)で実施することができる。特に記載がない限り、本発明の一部として含まれているアルゴリズムは本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置(例えば、集積回路)を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも1つのプロセッサ、少なくとも1つの記憶システム(揮発性及び非揮発性メモリー及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートを具備する、1つ以上のプログラマブルコンピュータシステム上で実行される1つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、1以上の出力装置に適用される。
このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語(機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む)ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。
このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置(例えば、半導体メモリー又は半導体媒体、又は磁気媒体又は光学媒体)に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。
どのように本発明の形態を実施するかについての実施例と共に、本発明の多くの実施の形態について記載した。上記実施例及び実施の形態は、唯一の実施形態であるとみなしてはならず、以下の特許請求の範囲で定義した本発明の柔軟性と優位性を示すため記載したものである。上記記載と以下の特許請求の範囲の記述に基づき、他の構成、実施形態、実施例、及びその均等物は、当業者にとって自明であり、当業者であれば特許請求の範囲で定義した本発明の精神と技術範囲を逸脱することなく採用することができよう。

Claims (23)

  1. マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法であって、
    減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較するステップであって、前記第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、前記第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当することを特徴とするステップと、
    調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップと、
    前記調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させるステップと、
    を具備することを特徴とする方法。
  2. 前記第1の特性と前記第2の特性とを生成するために前記マルチチャンネルオーディオ信号を処理するステップをさらに具備することを特徴とする請求項1に記載の方法。
  3. 前記スピーチ尤度値を生成するために前記第1番目のチャンネルを処理するステップをさらに具備することを特徴とする請求項1に記載の方法。
  4. 前記第2番目のチャンネルは、複数の第2番目のチャンネルのうちの1つであり、前記第2の特性は、複数の第2の特性のうちの1つであり、前記減衰係数は、複数の減衰係数のうちの1つであり、前記調整済みの減衰係数は、複数の調整済みの減衰係数のうちの1つであり、
    前記複数の減衰係数を生成するために前記第1の特性と前記複数の第2の特性とを比較するステップと、
    前記複数の調整済みの減衰係数を生成するために前記スピーチ尤度値に従って前記複数の減衰係数を調整するステップと、
    前記複数の調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させるステップと、
    をさらに具備することを特徴とする請求項1に記載の方法。
  5. 前記マルチチャンネルオーディオ信号は第3番目のチャンネルを具備し、
    追加の減衰係数を生成するために前記第1の特性と第3の特性とを比較するステップであって、該第3の特性は前記第3番目のチャンネルに相当することを特徴とするステップと、
    調整済みの追加の減衰係数を生成するために、前記スピーチ尤度値に従って前記追加の減衰係数を調整するステップと、
    前記調整済みの減衰係数用いて前記第3番目のチャンネルを減衰させるステップと、
    をさらに具備することを特徴とする請求項1に記載の方法。
  6. 前記第1の特性は、前記第1番目のチャンネルにおける信号の強度に対応する第1の測度に相当し、前記第2の特性は、前記第2番目のチャンネルにおける信号の強度に対応する第2の測度に相当し、前記第1の特性と前記第2の特性とを比較するステップは、
    前記第1の測度と前記第2の測度との距離を測定するステップと、
    該距離と最小距離とに基づいて前記減衰係数を計算するステップと、
    を具備することを特徴とする請求項1に記載の方法。
  7. 前記第1の測度は、前記第1番目のチャンネルにおける信号の第1のパワーレベルであり、前記第2の測度は、前記第2番目のチャンネルにおける信号の第2のパワーレベルであり、前記距離は該第1のパワーレベルと該第2のパワーレベルとの差であることを特徴とする請求項6に記載の方法。
  8. 前記第1の測度は、前記第1番目のチャンネルにおける信号の第1のパワーであり、前記第2の測度は、前記第2番目のチャンネルにおける信号の第2のパワーであり、前記距離は該第1のパワーと該第2のパワーとの比であることを特徴とする請求項6に記載の方法。
  9. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、該第1のパワースペクトルと該第2のパワースペクトルとを比較するステップは、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行うステップと、
    前記予測明瞭度が基準を満たすまで前記第2のパワースペクトルに適用するゲインを調整するステップと、
    前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを用いるステップと、
    を具備することを特徴とする請求項1に記載の方法。
  10. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、前記第1特性と前記第2の特性とを比較するステップは、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行うステップと、
    計算音量を生成するために前記第2のパワースペクトルに基づいて音量の計算を行うステップと、
    前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第2のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整するステップと、
    前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを用いるステップと、
    を具備することを特徴とする請求項1に記載の方法。
  11. マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する回路を有する装置であって、
    減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較する比較回路であって、前記第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、前記第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当することを特徴とする比較回路と、
    調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整する乗算器と、
    前記調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させる増幅器と、
    を具備することを特徴とする装置。
  12. 前記第1の特性は、第1のパワーレベルに相当し、前記第2の特性は第2のパワーレベルに相当し、前記比較回路は、
    パワーレベルの差を生成するために、前記第2のパワーレベルから前記第1のパワーレベルを減算する第1の加算器と、
    マージンを生成するために、前記パワーレベルの差と閾値とを加算する第2の加算器と、
    前記マージンとゼロとのうちで大きいほうの値として前記減衰係数を計算するリミッター回路と、
    を具備することを特徴とする請求項11に記載の装置。
  13. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、前記比較回路は、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測回路と、
    前記予測明瞭度が基準を満たすまで前記第2のパワースペクトルに適用するゲインを調整するゲイン調整回路と、
    前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを選択するゲイン選択回路と、
    を具備することを特徴とする請求項11に記載の装置。
  14. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、前記比較回路は、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測回路と、
    計算音量を生成するために前記第2のパワースペクトルに基づいて音量の計算を行う音量計算回路と、
    前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第2のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整し、前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを使用する、最適化回路と、
    を具備することを特徴とする請求項11に記載の装置。
  15. 前記第1の特性は、第1のパワーレベルに相当し、前記第2の特性は第2のパワーレベルに相当し、
    前記第1番目のチャンネルの前記第1のパワーレベルを計算する第1のパワー推定器と、
    前記第2番目のチャンネルの前記第2のパワーレベルを計算する第2のパワー推定器と、
    をさらに具備することを特徴とする請求項11に記載の装置。
  16. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、
    前記第1番目のチャンネルの前記第1のパワースペクトルを計算する第1のパワースペクトル密度計算器と、
    前記第2番目のチャンネルの前記第2のパワースペクトルを計算する第2のパワースペクトル密度計算器と、
    をさらに具備することを特徴とする請求項11に記載の装置。
  17. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、
    前記第1番目のチャンネルを第1の複数のスペクトル成分に分割する第1のフィルターバンクと、
    前記第1の複数のスペクトル成分から前記第1のパワースペクトルを計算する第1のパワー推定器と、
    前記第2番目のチャンネルを第2の複数のスペクトル成分に分割する第2のフィルターバンクと、
    前記第2の複数のスペクトル成分から前記第2のパワースペクトルを計算する第2のパワー推定器バンクと、
    をさらに具備することを特徴とする請求項11に記載の装置。
  18. 前記スピーチ尤度値を生成するために前記第1番目のチャンネルを処理するスピーチ決定プロセッサをさらに具備することを特徴とする請求項11に記載の装置。
  19. 有形の記録媒体に組み込まれた、マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善するためのコンピュータプログラムであって、該コンピュータプログラムは、装置に、
    減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較するステップであって、前記第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、前記第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当することを特徴とするステップと、
    調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップと、
    前記調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させるステップと、
    を具備する処理を実行させることを特徴とするコンピュータプログラム。
  20. マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する装置であって、
    減衰係数を生成するためにマルチチャンネルオーディオ信号の第1の特性と第2の特性とを比較する比較手段であって、前記第1の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第1番目のチャンネルに相当し、前記第2の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第2番目のチャンネルに相当することを特徴とする比較手段と、
    調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整する調整手段と、
    前記調整済みの減衰係数を用いて前記第2番目のチャンネルを減衰させる減衰手段と、
    を具備することを特徴とする装置
  21. 前記第1の特性は、第1のパワーレベルに相当し、前記第2の特性は第2のパワーレベルに相当し、前記比較手段は、
    パワーレベルの差を生成するために、前記第2のパワーレベルから前記第1のパワーレベルを減算する減算手段と、
    前記パワーレベルの差と閾値の差とに基づいて前記減衰係数を計算する計算手段と
    を具備することを特徴とする請求項20に記載の装置。
  22. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、前記比較手段は、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測手段と、
    前記予測明瞭度が基準を満たすまで前記第2のパワースペクトルに適用するゲインを調整するゲイン調整手段と、
    前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを使用するゲイン使用手段と、
    を具備することを特徴とする請求項20に記載の装置。
  23. 前記第1の特性は、第1のパワースペクトルに相当し、前記第2の特性は第2のパワースペクトルに相当し、前記比較手段は、
    予測明瞭度を生成するために前記第1のパワースペクトルと前記第2のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測手段と、
    計算音量を生成するために前記第2のパワースペクトルに基づいて音量の計算を行う音量計算手段と、
    前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第2のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整する調整手段と、
    前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを使用いる、ゲイン使用手段と、
    を具備することを特徴とする請求項20に記載の装置。
JP2011505219A 2008-04-18 2009-04-17 サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 Active JP5341983B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US4627108P 2008-04-18 2008-04-18
US61/046,271 2008-04-18
PCT/US2009/040900 WO2010011377A2 (en) 2008-04-18 2009-04-17 Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011052503A Division JP5259759B2 (ja) 2008-04-18 2011-03-10 サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置

Publications (2)

Publication Number Publication Date
JP2011518520A true JP2011518520A (ja) 2011-06-23
JP5341983B2 JP5341983B2 (ja) 2013-11-13

Family

ID=41509059

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011505219A Active JP5341983B2 (ja) 2008-04-18 2009-04-17 サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
JP2011052503A Active JP5259759B2 (ja) 2008-04-18 2011-03-10 サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011052503A Active JP5259759B2 (ja) 2008-04-18 2011-03-10 サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置

Country Status (16)

Country Link
US (1) US8577676B2 (ja)
EP (2) EP2373067B1 (ja)
JP (2) JP5341983B2 (ja)
KR (2) KR101227876B1 (ja)
CN (2) CN102137326B (ja)
AU (2) AU2009274456B2 (ja)
BR (2) BRPI0911456B1 (ja)
CA (2) CA2720636C (ja)
HK (2) HK1153304A1 (ja)
IL (2) IL208436A (ja)
MX (1) MX2010011305A (ja)
MY (2) MY159890A (ja)
RU (2) RU2467406C2 (ja)
SG (1) SG189747A1 (ja)
UA (2) UA104424C2 (ja)
WO (1) WO2010011377A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114242A (ja) * 2011-12-01 2013-06-10 Yamaha Corp 音響処理装置
JP2013521541A (ja) * 2010-03-08 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP2016502139A (ja) * 2012-11-26 2016-01-21 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
US20230080683A1 (en) * 2021-09-08 2023-03-16 Minus Works LLC Readily biodegradable refrigerant gel for cold packs

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US8284955B2 (en) 2006-02-07 2012-10-09 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10069471B2 (en) * 2006-02-07 2018-09-04 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
EP2373067B1 (en) * 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
EP2619904B1 (en) * 2010-09-22 2014-07-30 Dolby Laboratories Licensing Corporation Audio stream mixing with dialog level normalization
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9363603B1 (en) * 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
EP2992605B1 (en) 2013-04-29 2017-06-07 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US10639000B2 (en) 2014-04-16 2020-05-05 Bongiovi Acoustics Llc Device for wide-band auscultation
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN105336341A (zh) * 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
WO2016019130A1 (en) * 2014-08-01 2016-02-04 Borne Steven Jay Audio device
JP6683618B2 (ja) * 2014-09-08 2020-04-22 日本放送協会 音声信号処理装置
KR20220066996A (ko) * 2014-10-01 2022-05-24 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
MX364166B (es) 2014-10-02 2019-04-15 Dolby Int Ab Método de decodificación y decodificador para mejora del diálogo.
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing
RU2673390C1 (ru) 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
KR102686742B1 (ko) 2015-10-28 2024-07-19 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
US9621994B1 (en) 2015-11-16 2017-04-11 Bongiovi Acoustics Llc Surface acoustic transducer
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
EP3457402B1 (en) * 2016-06-24 2021-09-15 Samsung Electronics Co., Ltd. Noise-adaptive voice signal processing method and terminal device employing said method
CA3096877A1 (en) 2018-04-11 2019-10-17 Bongiovi Acoustics Llc Audio enhanced hearing protection system
WO2020028833A1 (en) 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
KR20210151831A (ko) 2019-04-15 2021-12-14 돌비 인터네셔널 에이비 오디오 코덱에서의 대화 향상
WO2021239255A1 (en) 2020-05-29 2021-12-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an initial audio signal
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04359298A (ja) * 1991-06-06 1992-12-11 Matsushita Electric Ind Co Ltd 音楽音声判別装置
JPH0764598A (ja) * 1993-07-26 1995-03-10 Philips Electron Nv 音声信号弁別装置及びオーディオ装置
JPH0850499A (ja) * 1994-06-21 1996-02-20 At & T Corp 信号識別方法
JP2005502247A (ja) * 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
JP2005229544A (ja) * 2004-02-16 2005-08-25 Yamaha Corp 音量制御装置
JP2006072130A (ja) * 2004-09-03 2006-03-16 Canon Inc 情報処理装置及び情報処理方法
JP2007503796A (ja) * 2003-05-28 2007-02-22 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
WO2008032209A2 (en) * 2006-09-14 2008-03-20 Lg Electronics Inc. Controller and user interface for dialogue enhancement techniques

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046097A (en) * 1988-09-02 1991-09-03 Qsound Ltd. Sound imaging process
US5105462A (en) * 1989-08-28 1992-04-14 Qsound Ltd. Sound imaging method and apparatus
US5208860A (en) * 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
US5212733A (en) * 1990-02-28 1993-05-18 Voyager Sound, Inc. Sound mixing device
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5485522A (en) 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
JP3560087B2 (ja) * 1995-09-13 2004-09-02 株式会社デノン 音信号処理装置およびサラウンド再生方法
PL185513B1 (pl) 1995-09-14 2003-05-30 Ericsson Inc Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
CN1214690C (zh) 1997-09-05 2005-08-10 雷克西康公司 5-2-5矩阵编码器和解码器系统
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7260231B1 (en) * 1999-05-26 2007-08-21 Donald Scott Wedge Multi-channel audio panel
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
US7277767B2 (en) * 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
EP2066139A3 (en) * 2000-09-25 2010-06-23 Widex A/S A hearing aid
AU2002248431B2 (en) * 2001-04-13 2008-11-13 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002335490A (ja) * 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
TW569551B (en) 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
GR1004186B (el) * 2002-05-21 2003-03-12 Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του
RU2206960C1 (ru) * 2002-06-24 2003-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ подавления шума в информационном сигнале и устройство для его осуществления
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7251337B2 (en) * 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7680289B2 (en) * 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
DE602004008973T2 (de) * 2004-05-14 2008-05-15 Loquendo-Società per Azioni Rauschminderung für die automatische spracherkennung
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CN101151659B (zh) 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
US7567898B2 (en) 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US7912232B2 (en) * 2005-09-30 2011-03-22 Aaron Master Method and apparatus for removing or isolating voice or instruments on stereo recordings
JP2007142856A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2007158873A (ja) * 2005-12-07 2007-06-21 Funai Electric Co Ltd 音声補正装置
JP2007208755A (ja) * 2006-02-03 2007-08-16 Oki Electric Ind Co Ltd 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CA2648237C (en) * 2006-04-27 2013-02-05 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US8194889B2 (en) * 2007-01-03 2012-06-05 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
EP2373067B1 (en) * 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04359298A (ja) * 1991-06-06 1992-12-11 Matsushita Electric Ind Co Ltd 音楽音声判別装置
JPH0764598A (ja) * 1993-07-26 1995-03-10 Philips Electron Nv 音声信号弁別装置及びオーディオ装置
JPH0850499A (ja) * 1994-06-21 1996-02-20 At & T Corp 信号識別方法
JP2005502247A (ja) * 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
JP2007503796A (ja) * 2003-05-28 2007-02-22 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
JP2005229544A (ja) * 2004-02-16 2005-08-25 Yamaha Corp 音量制御装置
JP2006072130A (ja) * 2004-09-03 2006-03-16 Canon Inc 情報処理装置及び情報処理方法
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
WO2008032209A2 (en) * 2006-09-14 2008-03-20 Lg Electronics Inc. Controller and user interface for dialogue enhancement techniques
JP2010515290A (ja) * 2006-09-14 2010-05-06 エルジー エレクトロニクス インコーポレイティド ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013521541A (ja) * 2010-03-08 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP2013114242A (ja) * 2011-12-01 2013-06-10 Yamaha Corp 音響処理装置
JP2016502139A (ja) * 2012-11-26 2016-01-21 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
US9576584B2 (en) 2012-11-26 2017-02-21 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
KR101825507B1 (ko) * 2012-11-26 2018-02-05 하만인터내셔날인더스트리스인코포레이티드 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법
US10311880B2 (en) 2012-11-26 2019-06-04 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US20230080683A1 (en) * 2021-09-08 2023-03-16 Minus Works LLC Readily biodegradable refrigerant gel for cold packs

Also Published As

Publication number Publication date
WO2010011377A2 (en) 2010-01-28
BRPI0923669A2 (pt) 2013-07-30
CA2745842C (en) 2014-09-23
EP2373067A1 (en) 2011-10-05
BRPI0911456B1 (pt) 2021-04-27
KR20110052735A (ko) 2011-05-18
IL209095A (en) 2014-07-31
HK1153304A1 (en) 2012-03-23
RU2541183C2 (ru) 2015-02-10
JP5259759B2 (ja) 2013-08-07
RU2467406C2 (ru) 2012-11-20
SG189747A1 (en) 2013-05-31
IL209095A0 (en) 2011-01-31
CN102007535B (zh) 2013-01-16
EP2373067B1 (en) 2013-04-17
AU2010241387A1 (en) 2010-12-02
IL208436A0 (en) 2010-12-30
CN102137326A (zh) 2011-07-27
CA2745842A1 (en) 2010-01-28
KR101238731B1 (ko) 2013-03-06
US8577676B2 (en) 2013-11-05
RU2010150367A (ru) 2012-06-20
UA104424C2 (uk) 2014-02-10
JP2011172235A (ja) 2011-09-01
IL208436A (en) 2014-07-31
KR20110015558A (ko) 2011-02-16
CA2720636C (en) 2014-02-18
CN102137326B (zh) 2014-03-26
BRPI0911456A2 (pt) 2013-05-07
JP5341983B2 (ja) 2013-11-13
UA101974C2 (ru) 2013-05-27
CN102007535A (zh) 2011-04-06
US20110054887A1 (en) 2011-03-03
HK1161795A1 (en) 2012-08-03
EP2279509B1 (en) 2012-12-19
AU2009274456B2 (en) 2011-08-25
MY179314A (en) 2020-11-04
MX2010011305A (es) 2010-11-12
RU2010146924A (ru) 2012-06-10
WO2010011377A3 (en) 2010-03-25
CA2720636A1 (en) 2010-01-28
EP2279509A2 (en) 2011-02-02
KR101227876B1 (ko) 2013-01-31
AU2009274456A1 (en) 2010-01-28
AU2010241387B2 (en) 2015-08-20
MY159890A (en) 2017-02-15
BRPI0923669B1 (pt) 2021-05-11

Similar Documents

Publication Publication Date Title
JP5341983B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
CN101048935B (zh) 控制音频信号的单位响度或部分单位响度的方法和设备
KR20210020751A (ko) 복수의 소비자 장치에 개인화된 오디오 재생 기능을 제공하기 위한 시스템 및 방법
KR101989062B1 (ko) 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템
EP3896998A1 (en) Systems and methods for providing content-specific, personalized audio replay on customer devices
US12118970B2 (en) Compensating noise removal artifacts

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130808

R150 Certificate of patent or registration of utility model

Ref document number: 5341983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250