JP7019099B2 - シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー - Google Patents

シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー Download PDF

Info

Publication number
JP7019099B2
JP7019099B2 JP2021516933A JP2021516933A JP7019099B2 JP 7019099 B2 JP7019099 B2 JP 7019099B2 JP 2021516933 A JP2021516933 A JP 2021516933A JP 2021516933 A JP2021516933 A JP 2021516933A JP 7019099 B2 JP7019099 B2 JP 7019099B2
Authority
JP
Japan
Prior art keywords
scene switching
input audio
audio signal
occurred
power spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021516933A
Other languages
English (en)
Other versions
JP2021530933A (ja
Inventor
マー,ユエンシーン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2021530933A publication Critical patent/JP2021530933A/ja
Application granted granted Critical
Publication of JP7019099B2 publication Critical patent/JP7019099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • H03G9/18Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願への相互参照
本願は、2018年9月28日に出願された国際特許出願第PCT/CN2018/108287号、2019年1月29日に出願された米国仮特許出願第62/798,149号、および2019年2月4日に出願された欧州特許出願第19155298.3号の優先権の利益を主張するものであり、これらのすべては、その全体が参照により本明細書に組み込まれる。
技術分野
本願の開示は、概括的には、オーディオ提示に関し、特に、提示中の歪みの低減に関する。
多くのオーディオ再生システムは、限られた出力能力の増幅器およびスピーカーを含んでいる。携帯電話およびタブレットは、装置の寸法および電力要件によって設計が厳密に制限される2つの極端な例である。そのようなシステムでは、再生レベルが増加するにつれてオーディオが歪むことが一般的であり、この歪みの特性は周波数に依存することが多い。したがって、再生前にオーディオ信号にマルチバンド圧縮を適用して歪みを低減し、再生装置上での再生レベルを最大化しようとするのが一般的慣行である。信号の各周波数帯域について歪み閾値が指定され、各帯域における信号レベルが対応する歪み閾値を超えないことを保証するために、コンプレッサーが、各帯域に独立した利得を適用する。そのようなコンプレッサーの問題は、歪み低減の目的で適用される利得がコンテンツに依存することがあるということである。狭帯域信号についての知覚された歪みを除去するために設定される閾値は、しばしば広帯域信号について要求されるものよりも大きい。広帯域信号自体が、それが誘起する歪みの一部を有意にマスクしうるからである。狭帯域信号は、その誘起される歪みをマスクするのに、はるかに効果的でないことがありうる。この問題に対処するため、出願人は、図1に示されるように、最小限の知覚された歪みで最大の再生レベルを達成するためにコンプレッサーの閾値を動的に修正するために利用される、可聴性指標を与える歪み可聴性モデルで補強されたマルチバンド・コンプレッサーを提案した。
本願は、歪み可聴性モデルをガイドするために、入力オーディオ信号中にシーン切り換えが発生したかどうかを判定するシーン切り換え解析器を導入する。このシーン切り換え解析器は、コンプレッサー閾値の急激な変化はシーン切り換えと同時に起こるだけであることを確実にし、より自然な経験を与える。一般に、シーン切り換えは、コンテンツのあるパラグラフが狭帯域信号で構成され、次のパラグラフが広帯域信号で構成される、あるいはその逆の場合に発生する。たとえば、ピアノソロの後にボーカルが入る場合、それはシーン切り換えとみなされ、よって、歪みの可聴性指標が変化するので、コンプレッサー閾値は急速に変化しうる。シーン切り換えは、コンテンツのあるピースが狭帯域信号で構成され、プレイリスト内のコンテンツの次のピースが広帯域信号で構成される、あるいはその逆の場合にも発生する。たとえば、低品質の狭帯域ユーザー生成コンテンツ(user-generated content、UGC)に、プロの広帯域コンテンツが続く。
よって、入力オーディオ信号にシーン切り換えがない場合、動的コンプレッサー閾値がゆっくりと変化するよう、動的コンプレッサー閾値の緩慢な平滑化が適用される。これは、平滑化のために使用される一極平滑器の大きなアタック時定数および/またはリリース時定数を使用することによって得ることができる。シーン切り換えが検出されると、平滑器の、より小さなアタック時定数および/またはリリース時定数を使用することにより、コンプレッサー閾値の急速な変化を許容する、高速な平滑化が適用される。
いくつかの実装では、シーン切り換え解析器は、複数の周波数帯域成分を有する入力オーディオ信号を受領する。シーン切り換え解析器は、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する。入力オーディオ信号の周波数帯域成分が処理される。シーン切り換えが発生していないと判定することに応答して、歪み可聴性モデルは、周波数帯域成分のコンプレッサー閾値に対して緩慢な平滑化を適用する。シーン切り換えが発生したと判定することに応答して、歪み可聴性モデルは、周波数帯域成分のコンプレッサー閾値に対して高速平滑化または平滑化なしを適用する。
いくつかの実装では、シーン切り換えは、広帯域信号と狭帯域信号との間の、あるいはその逆の切り換えを含む。広帯域信号は、ボーカルサウンドまたはプロの映画コンテンツに対応し、狭帯域信号は、楽器音、たとえばピアノの音または低品質の狭帯域UGCコンテンツに対応する。
いくつかの実装では、シーン切り換えが入力オーディオ信号中に発生したかどうかを判定することは、入力オーディオ信号の全周波数帯域成分に基づく。たとえば、シーン切り換えが入力オーディオ信号に発生したかどうかを判定することは、各周波数帯域成分信号を平滑化することによって、信号パワースペクトルの重心の時間変動する推定または信号パワースペクトルのカットオフ帯域の推定に基づく。具体的には、シーン切り換え解析器は、信号パワースペクトル重心の時間変化する推定を計算する。これは、各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し、推定された信号パワースペクトルを用いて信号パワースペクトルの重心を決定することを含む動作を実行することによる。入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、次の動作を含むことができる:重心を平滑化し;重心と平滑化された重心との間の差を決定し;差が閾値を満たすかどうかに基づいてシーン切り換えが発生したかどうかを判定する。さらに、シーン切り換え解析器は、各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し、推定された信号パワースペクトルを用いて信号パワースペクトルのカットオフ帯域を決定することを含む動作を少なくとも実行することによって、信号パワースペクトルのカットオフ帯域の推定を計算する。入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、次の動作を含むことができる:カットオフ帯域を平滑化し;カットオフ帯域と平滑化されたカットオフ帯域との差を決定し;差が閾値を満たしているかどうかに基づいてシーン切り換えが発生したかどうかを判定する。
いくつかの実装では、シーン切り換え解析器は、シーン切り換えが発生したかどうかを判定した後、入力オーディオ信号の周波数帯域成分のコンプレッサー閾値に対する平滑化をガイドするために、歪み可聴性モデルに一つまたは複数の制御信号を提供する。加えて、いくつかの実装では、一つまたは複数の制御信号が、アタック時定数および/またはリリース時定数を含む時定数の変化をガイドする。いくつかの実装では、一つまたは複数の制御信号の関数は、ステップ関数またはシグモイド関数でありえ、範囲[0,1]にマッピングされる。
いくつかの実装では、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定するためのシーン切り換え解析器は、上述した動作の一部または全部を実行させるように動作可能な一つまたは複数の計算装置を含む。
いくつかの実装では、コンピュータ読み取り可能媒体が、一つまたは複数のプロセッサによって実行可能な命令を格納し、上述した動作の一部または全部を実行させる。
含まれる図は、説明のためのものであり、単に、開示される発明の方法、システムおよびコンピュータ読み取り可能媒体のための可能な動作の例を提供するためのものである。これらの図は、開示される実装の精神および範囲から逸脱することなく、当業者によってなされうる形および詳細の変更を決して制限しない。
入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整するための歪み可聴性モデル(DAM)を組み込んだ従来のコンプレッサーの概略図を示す。 いくつかの実装による、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する歪み可聴性モデル(DAM)をガイドするために、シーン切り換え解析器(SSA)を組み込んだコンプレッサー100の概略図を示す。 いくつかの実装に従って実行される、本明細書に開示されるコンプレッサー100によるオーディオ信号処理の方法200のフローチャートを示す。 いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法300の例を示す。 いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法400の別の例を示す。 AおよびBは、いくつかの実装による、一つまたは複数の制御信号の関数の2つの例、すなわち、ステップ関数およびシグモイド関数をそれぞれ示す。
上述したように、ここでは、歪み可聴性モデルで補強されたマルチバンド・コンプレッサーが可聴性指標を与えるために使用され、次いで、可聴性指標が、コンプレッサーの閾値を動的に修正し、最小限の知覚される歪みで最大の再生レベルを達成するために使用される。複数の動的(時間変化する)閾値が、複数の周波数帯域成分に従って決定され、各時間変化する閾値は、それぞれの周波数帯域成分に対応する。次いで、コンプレッサーは、各周波数帯域成分に対して圧縮演算を実行する。ここで、圧縮は、各周波数帯域成分についての利得を生成するための、対応する時間変化する閾値を有する。しかしながら、そのような歪み可聴性モデルで補強されたコンプレッサーの問題は、寸法が厳密に制限されているモバイル装置に適用された場合、狭帯域信号についての知覚される歪みをなくすのがより困難であり、よって狭帯域信号について設定された閾値は、しばしば広帯域信号について要求されるものよりもはるかに低いということである。このことは、歪み可聴性指標のわずかな変化が、大きな閾値変化を引き起こし、結果としてかなりの出力ボリューム変化をもたらすことを意味する。急激かつ顕著な変化が予期せぬ瞬間に起きる場合、それは聴取経験に対してマイナスの影響を与える。
この問題に対処するために、本願は、マルチバンド・コンプレッサーによって適用されうる動的(時間変化する)閾値を平滑化する歪み可聴性モデルをガイドするように構成されたシーン切り換え解析器を組み込む技術を開示する。入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整するための前記技術を実装する方法、システムおよびコンピュータ可読媒体のいくつかの例が、以下のように開示される。
図2は、いくつかの実装による、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する歪み可聴性モデル(distortion audibility model、DAM)をガイドするためにシーン切り換え解析器(scene switch analyzer、SSA)を組み込んだマルチバンド・コンプレッサー100を示す。図2において、フィルタバンク104の形のフィルタリング・モジュールは、入力信号x[n]を受領する。フィルタバンク104は、入力信号x[n]をフィルタリングして、入力信号x[n]を複数の周波数帯域成分x1[n]~xB[n]に分離するように構成される。
いくつかの実装では、フィルタバンク104は、B個の帯域通過フィルタとして実装されるマルチバンドフィルタとして構成され、各帯域通過フィルタは、それぞれの周波数帯域成分に対応する。たとえば、各帯域bの出力は、式(1)で表わされるように、入力信号x[n]を帯域通過フィルタ応答hb[n]と畳み込みしたものとして計算されうる:
Figure 0007019099000001
図2において、シーン切り換え解析器108は、フィルタバンク104から出力される周波数帯域成分x1[n]~xB[n]を受領し、その解析に基づいて、シーン切り換え解析器108は、一つまたは複数の制御信号Ck[n]を生成する。いくつかの実装では、Ck[n]は、潜在的に、式(2)に表わされるように、諸帯域b=1,…,Bを通じたすべての帯域信号xb[n]の関数として計算される。
Figure 0007019099000002
次に、一つまたは複数の制御信号Ck[n]が歪み可聴性モデル112に供給され、式(3)に表わされるように、諸帯域b=1,…,Bを通じたすべての周波数帯域成分x1[n]~xB[n]および固定された閾値Lbに基づいて、それぞれの時間変化する閾値Db[n]を計算するように歪み可聴性モデル112をガイドする。
Figure 0007019099000003
いくつかの実装では、シーン切り換え解析器108は、すべての周波数帯域成分x1[n]~xB[n]についてすべての時間変化する閾値Db[n]を計算することをガイドするために、1つの制御信号のみを生成することができる;いくつかの他の実装では、シーン切り換え解析器108は、1つの制御信号のみではなく、すべての周波数帯域成分x1[n]~xB[n]についてすべての時間変化する閾値Db[n]を計算することをガイドするために、複数の制御信号を生成することができ、たとえば、制御信号の数は、周波数帯域成分の数に対応する。次に、各周波数帯域成分は、式(4)で表わされるように、時間変化する利得gb[n]を生成するために、限界閾値Db[n]とともに圧縮関数116に渡される:
Figure 0007019099000004
最後に、処理された出力信号y[n]が、周波数帯域成分x1[n]~xB[n]すべての遅延されたバージョンに、それらの対応する利得g1[n]~gB[n]を乗算したものを総和することによって計算される。図2においては、複数のユニット120が、利得を遅延された周波数帯域成分に乗算して、処理された帯域成分y1[n]~yB[n]を生成するように構成されており、該処理された帯域成分が総和ユニット124において加算されて出力信号y[n]を生成する。たとえば、遅延dは、利得の計算に関連する任意の処理遅延を考慮に入れるように設計できる。式(5)は、処理された信号y[n]の生成の表現を示す。
Figure 0007019099000005
図3は、いくつかの実装に従って実行される、本明細書に開示されるコンプレッサー100によるオーディオ信号処理の方法200のフローチャートを示す。図3は、図2の例を用いて記載される。図3の204において、周波数帯域成分x1[n]~xB[n]が、上記で説明したようにSSA 108への入力として受領される。208では、SSA 108は、周波数帯域成分x1[n]~xB[n]すべてに基づいて一つまたは複数の制御信号Ck[n]を生成する。212では、DAM 112は、制御信号Ck[n]に従って、すべての周波数帯域成分x1[n]~xB[n]および諸帯域にわたる固定された諸閾値に基づいて、時間変化する閾値Db[n]を計算する。216では、各圧縮関数116は、対応する時間変化する閾値Db[n]を用いて対応する周波数帯域成分x1[n]~xB[n]に対して圧縮演算を実行し、利得g1[n]~gB[n]を生成するように構成される。220では、各利得gb[n]は、たとえば乗算器ユニット120を使用して、各対応する周波数帯域成分xb[n]の遅延されたバージョンに適用され、処理された帯域成分y1[n]~yB[n]を生成する。224では、処理された帯域成分y1[n]~yB[n]は、総和ユニット124において合計され、出力信号y[n]を生成する。
よって、DAMのみによって決定されるのではなく、SSAも周波数帯域成分x1[n]~xB[n]を受け、その解析に基づいて、Db[n]に対する平滑化をガイドするようDAMを制御するための一つまたは複数の制御信号Ck[n]を与える。たとえば、Ck[n]は、時定数の変化をガイドし、それにより、シーン切り換え中にはより小さな時定数を与えることができ、それにより急速な変化を許容し、シーン切り換えが存在しないときにはより大きな時定数を与え、それによりゆらぎを平滑化する。なぜなら、従来のコンプレッサーによって適用されるDb[n]についての典型的な高速アタック/緩慢リリース一極平滑器のアタックおよびリリース時定数は固定であろうからである。
図4は、いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法300の例を示す。好ましくは、信号パワースペクトルの重心は、特に、ピアノソロの後にボーカルが入ってくる、またはその逆のような場合、シーン切り換えケースの良好なインジケータでありうることが見出される。よって、この例示的な実施形態では、シーン切り換え解析器108は、信号パワースペクトル重心の時間変化する推定値を計算することによって動作する。304では、信号パワースペクトルsb[n]は、式(6)で表わされるように、高速アタック/緩慢リリース一極平滑器を用いて、帯域ごとの信号、すなわち各周波数帯域成分信号xb[n]を平滑化することによって推定されてもよい。
Figure 0007019099000006
ここで、αAはアタック時定数、αRは高速アタック/緩慢リリース一極平滑器のリリース時定数である。すると、この信号パワースペクトルsb[n]は、dBで、式(7)で表わされる。
Figure 0007019099000007
次に、308では、式(8)で表わされるように、信号パワースペクトルの重心C[n]が、推定された信号パワースペクトルによって決定される。
Figure 0007019099000008
ここで、fbは帯域の中心周波数であり、好ましくは、一般に-130dBよりも大きいすべての潜在的に可聴名信号が信号パワースペクトルに算入されるよう、固定されたオフセット130dBが選ばれる。次いで、312において、式(9)で表わされるように、信号パワースペクトルの重心も、高速アタック/緩慢リリース一極平滑器で平滑化されて、平滑化されたバージョンの重心Cs[n]を得る。
Figure 0007019099000009
次に、316では、重心C[n]と平滑化された重心Cs[n]との間の差が決定され、次いで閾値と比較される。好ましくは、シーン切り換えの発生を示すのに有効な500Hzの閾値が選ばれる。それにより、式(10)で表わされるように、一つまたは複数の制御信号Ck[n]を生成する。制御信号は範囲[0,1]にマッピングされることができる。
Figure 0007019099000010
320では、Ck[n]は、式(11)で表わされるように、アタック時定数αAのような時定数の変化をガイドする。
Figure 0007019099000011
ここで、αAfastおよびαAslowは、複数の異なる値に設定されることができ、たとえば、各帯域についてわずかに異なる値または同じ値に設定されることができる。ここで、好ましくは、αAfastは、αAslowの半分、またはさらに小さい値に設定され、劇的なシーン切り換えの間に、潜在的にはより自然な聴取経験を作り出す。
次に、324では、式(11)におけるアタック時定数αAのような時定数が適用されて、それぞれ式(12)および式(13)で表わされるように、Db[n]に対する平滑化をガイドする。
Figure 0007019099000012
Figure 0007019099000013
ここで、db[n]は、DAMにおいて生成された、平滑化されていない帯域当たりの限界閾値である。いくつかの実装では、式(12)は、Db[n]に対する通常の高速アタック/緩慢リリース平滑化を示している。さらに、最も急速な変更が必要な場合には、αAおよびαAfastはゼロに設定することもできる。この場合、DAMは、式(13)で表わされるように、db[n]のアタック中にシーン切り換えが検出されたときには、平滑化を適用しないようにガイドされる。
図4に表わされるように重心を利用することに加えて、またはその代わりに、入力信号スペクトルの他の特性も、シーン切り換えの検出を支援するために利用できる。図5は、いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法400の別の例を示している。この例示的な実施形態では、信号パワースペクトルのカットオフ帯域が、シーン切り換えケースの代替的なインジケータであることができ、好ましくは、カットオフ帯域は、種々の帯域幅を備える楽器の導入の良好なインジケータでありうる。
404では、信号パワースペクトルは、式(6)で表わされるのと同様にして、高速アタック/緩慢リリース一極平滑器で帯域ごとの信号を平滑化することによって推定され、次いで、dBで表わされてもよい。
次に、408において、信号パワースペクトルのカットオフ帯域bcutoff[n]は、推定された信号パワースペクトルによって、式(14)で表わされるように決定される。
Figure 0007019099000014
次いで、412では、式(9)で表わされるのと同様にして、信号パワースペクトルのカットオフ帯域も、高速アタック/緩慢リリース一極平滑器で平滑化されて、平滑化されたバージョンのカットオフ帯域bcutoff[n]を得る。次に、416では、カットオフ帯域と平滑化されたカットオフ帯域との間の差が決定され、次いで、閾値と比較され、式(10)で表わされるのと同様にして、一つまたは複数の制御信号Ck[n]を生成する。420では、式(11)で表わされるのと同様にして、Ck[n]は時定数の変化をガイドする。次に、424では、式(12)および(13)で表わされるのと同様にして、Db[n]に対する平滑化をガイドするために、それらの時定数が適用されることができる。
図6Aおよび図6Bは、いくつかの実装による、一つまたは複数の制御信号Ck[n]の関数の2つの例、すなわちステップ関数およびシグモイド関数をそれぞれ示す。一般に、制御信号Ck[n]の関数は、[0,1]の範囲にマッピングされることができる。図6Aに示されるある実施形態では、マッピング関数は、非常に単純な例、すなわち、式(15)に示されるようなステップ関数であろう。
Figure 0007019099000015
ここで、xThは閾値である。さらに、図6Bに示されるような他の好ましい実施形態では、マッピング関数は、式(16)に示されるようなシグモイド関数であろう。
Figure 0007019099000016
ここで、xThは閾値であり、f(・)はスケール因子である。図6Bはさらに、スケール因子がそれぞれ1、2および10に設定されたシグモイド関数の3つの具体的な実施形態を示す。シグモイド関数を使用することは、潜在的に、語長が異なる浮動小数点および固定小数点プラットフォームを通じて、より一貫性のあるオーディオ出力を生成することを支援できる。
アタック時定数をガイドする代わりに、ある代替では、上記の304/404~320/420の生成ステップに従うことによって、リリース時定数αRなどの他のパラメータをガイドするために一つまたは複数の制御信号Ck[n]が生成されることができる。ここで、304/404~320/420の諸ステップで使用されるパラメータのいくつかは変更されることができ、たとえば、312/412で信号パワースペクトルSb[n]の平滑化方式を、使用される時定数を変更することによって変更すること、または316/416でマッピング関数を変更することなどによる。
本明細書に記載されるシーン切り換え解析器の技術は、一つまたは複数の計算装置によって実装することができる。たとえば、特殊目的計算装置のコントローラが、開示された動作を実行するために、またはそのような動作を実行させるために、固定配線されてもよく、また、動作を実行するために、または動作を実行させるために永続的にプログラムされた、一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のようなデジタル電子回路を含んでいてもよい。いくつかの実装では、カスタムの固定配線の論理、ASICおよび/またはカスタムプログラミングを有するFPGAが組み合わされて、本技術が達成される。
いくつかの他の実装では、汎用計算装置は、ファームウェア、メモリ、他の記憶、またはそれらの組み合わせにおけるプログラム命令に従って、開示された動作の一つまたは複数を実行させるようにプログラムされた中央処理ユニット(CPU)を組み込んだコントローラを含むことができる。
本明細書で使用される用語「コンピュータ読み取り可能記憶媒体」は、コンピュータまたはタイプの機械を特定の仕方で動作させる命令および/またはデータを記憶する任意の媒体を指す。本明細書に記載されるモデル、解析器、および動作のいずれも、好適なコンピュータ言語を使用するコントローラのプロセッサによって実行可能なソフトウェア・コードとして実装されてもよく、または実装させられてもよい。ソフトウェア・コードは、一連の命令として、記憶のためのコンピュータ読み取り可能媒体に記憶されてもよい。好適なコンピュータ読み取り可能記憶媒体の例には、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気媒体、光学媒体、ソリッドステートドライブ、フラッシュメモリ、および任意の他のメモリチップまたはカートリッジを含む。コンピュータ読み取り可能記憶媒体は、そのような記憶装置の任意の組み合わせであってもよい。そのようなコンピュータ読み取り可能記憶媒体は、単一の計算装置またはコンピュータ・システム全体の上または内部に存在してもよく、システムまたはネットワーク内の他のコンピュータ読み取り可能記憶媒体のうちにあってもよい。
本願の主題は、その実装を参照して具体的に示され、説明されてきたが、本開示の精神または範囲から逸脱することなく、開示される実装の形態および詳細の変更ができることは、当業者には理解されるであろう。これらの実装のいくつかの例は、添付の図面に示されており、その十全な理解を提供するために、具体的な詳細が記載されている。実装が、これらの舞台的な詳細の一部または全部なしに実施されうることに注意しておくべきである。さらに、明確性を促進するために、周知の構成は詳細に記載されていないことがある。最後に、いくつかの実装を参照して利点が本明細書で論じられてきたが、そのような利点を参照することによって範囲が限定されるべきではないことが理解されるであろう。むしろ、範囲は添付の特許請求の範囲を参照して決定されるべきである。
本発明のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる。
〔EEE1〕
入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法であって:
シーン切り換え解析器によって、複数の周波数帯域成分を有する入力オーディオ信号を受領する段階と;
シーン切り換え解析器によって、前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する段階と;
前記入力オーディオ信号の周波数帯域成分を処理する段階であって:
シーン切り換えが発生していないと判定することに応答して、前記周波数帯域成分のコンプレッサー閾値に緩慢な平滑化を適用し;
シーン切り換えが発生したと判断することに応答して、前記周波数帯域成分のコンプレッサー閾値に高速平滑化を適用するまたは平滑化を適用しない、
段階とを含む、方法。
〔EEE2〕
前記シーン切り換えが、広帯域信号と狭帯域信号との間の、またはその逆の切り換えを含む、EEE1に記載の方法。
〔EEE3〕
前記広帯域信号がボーカル音に対応し、前記狭帯域信号が楽器音に対応する、EEE2に記載の方法。
〔EEE4〕
前記楽器音がピアノ音である、EEE3に記載の方法。
〔EEE5〕
前記広帯域信号がプロの映画コンテンツに対応し、前記狭帯域信号が低品質の狭帯域UGCコンテンツに対応する、EEE2に記載の方法。
〔EEE6〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、入力オーディオ信号のすべての周波数帯域成分に基づく、EEE1ないし5のうちいずれかに記載の方法。
〔EEE7〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、信号パワースペクトル重心の時間変化する推定に基づく、EEE6に記載の方法。
〔EEE8〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
推定された信号パワースペクトルを用いて該信号パワースペクトルの重心を決定する
ことを含む動作を実行することによって、前記信号パワースペクトル重心の時間変化する推定を計算する、EEE7に記載の方法:
〔EEE9〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することは:
前記重心を平滑化し;
前記重心と平滑化された重心との差を決定し;
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
EEE8に記載の方法。
〔EEE10〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、前記信号パワースペクトルのカットオフ帯域の推定に基づく、EEE6ないし9のうちいずれかの方法。
〔EEE11〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
推定された信号パワースペクトルを用いて前記信号パワースペクトルの前記カットオフ帯域を決定する
ことを含む動作を実行することによって、前記信号パワースペクトルのカットオフ帯域の推定を計算する、EEE10に記載の方法。
〔EEE12〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することが:
前記カットオフ帯域を平滑化し;
前記カットオフ帯域と平滑化されたカットオフ帯域との差を決定し;
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
EEE11に記載の方法。
〔EEE13〕
前記シーン切り換え解析器は、前記シーン切り換えが発生したかどうかを判定した後に、前記入力オーディオ信号の周波数帯域成分のコンプレッサー閾値に対する前記平滑化をガイドするために、前記歪み可聴性モデルに一つまたは複数の制御信号を提供する、EEE1ないし12のうちいずれかに記載の方法。
〔EEE14〕
一つまたは複数の制御信号が、アタック時定数および/またはリリース時定数を含む時定数の変化をガイドする、EEE13に記載の方法。
〔EEE15〕
一つまたは複数の制御信号の関数が[0,1]の範囲にマッピングされる、EEE13または14に記載の方法。
〔EEE16〕
前記マッピング関数がステップ関数またはシグモイド関数である、EEE15に記載の方法。
〔EEE17〕
一つまたは複数の計算装置と;
一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサにEEE1ないし16のうちいずれかに記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体とを有する、
シーン切り換え解析器。
〔EEE18〕
一つまたは複数の計算装置によって実行されると、該一つまたは複数の計算装置にEEE1ないし16のうちいずれかに記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体。
〔EEE19〕
計算装置またはシステムによって実行されると、該計算装置またはシステムにEEE1ないし16のうちいずれかに記載の方法を実行させる命令を有する、コンピュータ・プログラム製品。
いくつかの態様を記載しておく。
〔態様1〕
入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法であって:
シーン切り換え解析器によって、複数の周波数帯域成分を有する入力オーディオ信号を受領する段階と;
前記シーン切り換え解析器によって、前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する段階であって、前記入力オーディオ信号が広帯域信号であることから狭帯域信号であることに、またはその逆に遷移するときにシーン切り換えが発生したと判定される、段階と;
前記シーン切り換え解析器によって、平滑器のアタック時定数および/またはリリース時定数の変化をガイドすることによって前記周波数帯域成分のコンプレッサー閾値に対する平滑化をガイドするために、歪み可聴性モデルに一つまたは複数の制御信号を提供する段階と;
前記入力オーディオ信号の前記周波数帯域成分を処理する段階であって:
シーン切り換えが発生していないと判定することに応答して、前記制御信号は、大きな時定数を使用し、それにより前記周波数帯域成分のコンプレッサー閾値に緩慢な平滑化を適用することを指示し;
シーン切り換えが発生したと判断することに応答して、前記一つまたは複数の制御信号は、小さなまたは値がゼロの時定数を使用し、それにより前記周波数帯域成分の前記コンプレッサー閾値に高速平滑化を適用するまたは平滑化を適用しないことを指示することを含む、段階とを含む、
方法。
〔態様2〕
前記広帯域信号がボーカル音またはプロの映画コンテンツに対応し、前記狭帯域信号が楽器音または低品質の狭帯域ユーザー生成コンテンツ(UGC)に対応する、態様1に記載の方法。
〔態様3〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、入力オーディオ信号のすべての周波数帯域成分に基づく、態様1または2に記載の方法。
〔態様4〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、信号パワースペクトル重心の時間変化する推定に基づく、態様3に記載の方法。
〔態様5〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
推定された信号パワースペクトルを用いて該信号パワースペクトルの重心を決定する
ことを含む動作を実行することによって、
前記信号パワースペクトル重心の時間変化する推定を計算する、態様4に記載の方法。
〔態様6〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することは:
前記重心を平滑化し;
前記重心と平滑化された重心との差を決定し;
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
態様5に記載の方法。
〔態様7〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、前記信号パワースペクトルのカットオフ帯域の推定に基づく、態様3ないし6のうちいずれか一項に記載の方法。
〔態様8〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
推定された信号パワースペクトルを用いて前記信号パワースペクトルの前記カットオフ帯域を決定する
ことを含む動作を実行することによって、
前記信号パワースペクトルのカットオフ帯域の推定を計算する、態様7に記載の方法。
〔態様9〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することが:
前記カットオフ帯域を平滑化し;
前記カットオフ帯域と平滑化されたカットオフ帯域との差を決定し;
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
態様8に記載の方法。
〔態様10〕
前記アタック時定数および/または前記リリース時定数の変化をガイドするための一つまたは複数の制御信号の関数が、[0,1]の範囲にマッピングされ、前記アタック時定数および/または前記リリース時定数は前記関数を乗算されることによって変化させられる、態様1ないし9のうちいずれか一項に記載の方法。
〔態様11〕
前記コンプレッサーによって、各周波数帯域成分に対して、対応する閾値を有する圧縮演算を実行して複数の利得を生成する段階であって、各利得はそれぞれの周波数帯域成分に対応する、段階をさらに含む、
態様1ないし10のうちいずれか一項に記載の方法。
〔態様12〕
一つまたは複数の計算装置と;
一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに態様1ないし11のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体とを有する、
シーン切り換え解析器。
〔態様13〕
一つまたは複数の計算装置によって実行されると、該一つまたは複数の計算装置に態様1ないし11のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体。

Claims (13)

  1. 入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法であって:
    シーン切り換え解析器によって、複数の周波数帯域成分を有する入力オーディオ信号を受領する段階と;
    前記シーン切り換え解析器によって、前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する段階であって、前記入力オーディオ信号の帯域幅の変化が閾値を満たすときにシーン切り換えが発生したと判定される、段階と;
    前記シーン切り換え解析器によって、平滑器のアタック時定数および/またはリリース時定数の変化をガイドすることによって前記周波数帯域成分のコンプレッサー閾値に対する平滑化をガイドするために、歪み可聴性モデルに一つまたは複数の制御信号を提供する段階と;
    前記入力オーディオ信号の前記周波数帯域成分を処理する段階であって:
    シーン切り換えが発生していないと判定することに応答して、前記制御信号は、第一の時定数を使用することを指示し;
    シーン切り換えが発生したと判断することに応答して、前記一つまたは複数の制御信号は、第二の時定数を使用することを指示することを含む、段階とを含
    前記第二の時定数は前記第一の時定数より小さいまたはゼロの値であり、よって、シーン切り換えが発生していないと判定することに応答して、シーン切り換えが発生したと判断することに応答する場合よりも高速な平滑化が前記コンプレッサー閾値に適用される、または平滑化が適用されない、方法。
  2. 前記シーン切り換えがボーカル音から楽器音への遷移に対応する、請求項1に記載の方法。
  3. 前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、入力オーディオ信号のすべての周波数帯域成分に基づく、請求項1または2に記載の方法。
  4. 前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、信号パワースペクトル重心の時間変化する推定に基づき、前記信号パワースペクトル重心は、前記入力オーディオ信号の信号パワースペクトル内の周波数に前記信号パワースペクトルによって重み付けしたものから決定される、前記入力オーディオ信号の代表周波数を示す、請求項3に記載の方法。
  5. 前記シーン切り換え解析器は、少なくとも、
    各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
    推定された信号パワースペクトルを用いて該信号パワースペクトルの重心を決定する
    ことを含む動作を実行することによって、
    前記信号パワースペクトル重心の時間変化する推定を計算する、請求項4に記載の方法。
  6. 前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することは:
    前記重心を平滑化し;
    前記重心と平滑化された重心との差を決定し;
    前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
    請求項5に記載の方法。
  7. 前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、前記入力オーディオ信号のカットオフ帯域の推定に基づき、前記カットオフ帯域は、前記入力オーディオ信号の前記複数の周波数帯域成分のうち、信号パワースペクトルが閾値より小さい最低の帯域である、請求項3ないし6のうちいずれか一項に記載の方法。
  8. 前記シーン切り換え解析器は、少なくとも、
    各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し;
    推定された信号パワースペクトルを用いて前記信号パワースペクトルの前記カットオフ帯域を決定する
    ことを含む動作を実行することによって、
    前記信号パワースペクトルのカットオフ帯域の推定を計算する、請求項7に記載の方法。
  9. 前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することが:
    前記カットオフ帯域を平滑化し;
    前記カットオフ帯域と平滑化されたカットオフ帯域との差を決定し;
    前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
    請求項8に記載の方法。
  10. 前記アタック時定数および/または前記リリース時定数の変化をガイドするための一つまたは複数の制御信号の実数値の関数が、[0,1]の範囲にマッピングされ、前記アタック時定数および/または前記リリース時定数は前記関数を乗算されることによって変化させられる、請求項1ないし9のうちいずれか一項に記載の方法。
  11. 前記コンプレッサーによって、各周波数帯域成分に対して、対応する閾値を有する圧縮演算を実行して複数の利得を生成する段階であって、各利得はそれぞれの周波数帯域成分に対応する、段階をさらに含む、
    請求項1ないし10のうちいずれか一項に記載の方法。
  12. 一つまたは複数の計算装置と;
    一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに請求項1ないし11のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体とを有する、
    シーン切り換え解析器。
  13. 一つまたは複数の計算装置によって実行されると、該一つまたは複数の計算装置に請求項1ないし11のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体。
JP2021516933A 2018-09-28 2019-09-26 シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー Active JP7019099B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CNPCT/CN2018/108287 2018-09-28
CN2018108287 2018-09-28
US201962798149P 2019-01-29 2019-01-29
US62/798,149 2019-01-29
EP19155298 2019-02-04
EP19155298.3 2019-02-04
PCT/US2019/053142 WO2020069120A1 (en) 2018-09-28 2019-09-26 Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model

Publications (2)

Publication Number Publication Date
JP2021530933A JP2021530933A (ja) 2021-11-11
JP7019099B2 true JP7019099B2 (ja) 2022-02-14

Family

ID=68165875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021516933A Active JP7019099B2 (ja) 2018-09-28 2019-09-26 シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー

Country Status (5)

Country Link
US (1) US11282533B2 (ja)
EP (1) EP3662468B1 (ja)
JP (1) JP7019099B2 (ja)
CN (1) CN112640301B (ja)
WO (1) WO2020069120A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267382B (zh) * 2021-12-28 2024-02-13 深圳万兴软件有限公司 音乐音效处理的限制器控制方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191821A (ja) 2002-12-13 2004-07-08 Matsushita Electric Ind Co Ltd ゲイン制御装置及び方法
JP2010136173A (ja) 2008-12-05 2010-06-17 Sony Corp 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP2016518788A (ja) 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4099035A (en) * 1976-07-20 1978-07-04 Paul Yanick Hearing aid with recruitment compensation
US20040083094A1 (en) 2002-10-29 2004-04-29 Texas Instruments Incorporated Wavelet-based compression and decompression of audio sample sets
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
US8081772B2 (en) * 2008-11-20 2011-12-20 Gentex Corporation Vehicular microphone assembly using fractional power phase normalization
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
WO2011043020A1 (ja) 2009-10-07 2011-04-14 日本電気株式会社 マルチバンドコンプレッサ、その調整方法
WO2011115944A1 (en) * 2010-03-18 2011-09-22 Dolby Laboratories Licensing Corporation Techniques for distortion reducing multi-band compressor with timbre preservation
US9307340B2 (en) 2010-05-06 2016-04-05 Dolby Laboratories Licensing Corporation Audio system equalization for portable media playback devices
US8634578B2 (en) 2010-06-23 2014-01-21 Stmicroelectronics, Inc. Multiband dynamics compressor with spectral balance compensation
WO2014025542A1 (en) 2012-08-06 2014-02-13 Father Flanagan's Boys' Home Doing Business As Boys Town National Research Hospital Multiband audio compression system and method
JP6445460B2 (ja) * 2013-01-28 2018-12-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置
EP3039674B1 (en) 2013-08-28 2019-04-17 Landr Audio Inc. System and method for performing automatic audio production using semantic data
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
IN2014MU00290A (ja) 2014-01-27 2015-09-11 Indian Inst Technology Bombay
TWI543638B (zh) 2014-01-28 2016-07-21 宏達國際電子股份有限公司 聲音產生系統和其音頻放大的方法
CN110381421B (zh) 2014-02-18 2021-05-25 杜比国际公司 用于对频率相关衰减级进行调谐的设备和方法
EP3038106B1 (en) 2014-12-24 2017-10-18 Nxp B.V. Audio signal enhancement
DE102015203855B3 (de) 2015-03-04 2016-09-01 Carl Von Ossietzky Universität Oldenburg Vorrichtung und Verfahren zum Ansteuern des Dynamikkompressors und Verfahren zum Ermitteln von Verstärkungswerten für einen Dynamikkompressor
GB2594648B (en) 2015-05-22 2022-04-20 Cirrus Logic Int Semiconductor Ltd Adaptive receiver

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191821A (ja) 2002-12-13 2004-07-08 Matsushita Electric Ind Co Ltd ゲイン制御装置及び方法
JP2010136173A (ja) 2008-12-05 2010-06-17 Sony Corp 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP2016518788A (ja) 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮
JP2016195439A (ja) 2013-04-29 2016-11-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮

Also Published As

Publication number Publication date
US20210343308A1 (en) 2021-11-04
CN112640301A (zh) 2021-04-09
JP2021530933A (ja) 2021-11-11
CN112640301B (zh) 2022-03-29
WO2020069120A9 (en) 2021-03-25
EP3662468A1 (en) 2020-06-10
WO2020069120A1 (en) 2020-04-02
EP3662468B1 (en) 2020-11-04
US11282533B2 (en) 2022-03-22

Similar Documents

Publication Publication Date Title
JP5341983B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
US10748553B2 (en) Distortion sensing, prevention, and distortion-aware bass enhancement
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
EP2615736B1 (en) Signal processing device and method, program, and data recording medium
JP5632532B2 (ja) 入力オーディオ信号の修正装置及び修正方法
EP1987586B1 (en) Hierarchical control path with constraints for audio dynamics processing
JP5730881B2 (ja) 録音の適応的ダイナミックレンジ強化
EP2232700B1 (en) System for adjusting perceived loudness of audio signals
JP4486646B2 (ja) オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
NO20180272A1 (no) Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
TWI538393B (zh) 響應於頻譜局部化來控制音訊信號響度的技術
US20170133034A1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
EP3100353B1 (en) An audio compression system for compressing an audio signal
JP7019099B2 (ja) シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー
JP2009296298A (ja) 音声信号処理装置および方法
GB2611357A (en) Spatial audio filtering within spatial audio capture
JP4518817B2 (ja) 収音方法、収音装置、収音プログラム
WO2023172609A1 (en) Method and audio processing system for wind noise suppression
JP2017085562A (ja) 仮想低音(bass)のオーディオ信号への付加

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220201

R150 Certificate of patent or registration of utility model

Ref document number: 7019099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150