JP6573870B2 - オーディオ分類および処理のための装置および方法 - Google Patents
オーディオ分類および処理のための装置および方法 Download PDFInfo
- Publication number
- JP6573870B2 JP6573870B2 JP2016505531A JP2016505531A JP6573870B2 JP 6573870 B2 JP6573870 B2 JP 6573870B2 JP 2016505531 A JP2016505531 A JP 2016505531A JP 2016505531 A JP2016505531 A JP 2016505531A JP 6573870 B2 JP6573870 B2 JP 6573870B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- type
- term
- short
- voip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 150
- 238000000034 method Methods 0.000 title description 182
- 230000007774 longterm Effects 0.000 claims description 162
- 230000005236 sound signal Effects 0.000 claims description 155
- 238000003672 processing method Methods 0.000 claims description 88
- 239000003623 enhancer Substances 0.000 claims description 59
- 230000006872 improvement Effects 0.000 claims description 55
- 230000033764 rhythmic process Effects 0.000 claims description 17
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 description 60
- 230000007704 transition Effects 0.000 description 59
- 230000003595 spectral effect Effects 0.000 description 42
- 230000006870 function Effects 0.000 description 41
- 230000008569 process Effects 0.000 description 32
- 230000000875 corresponding effect Effects 0.000 description 22
- 230000000694 effects Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 17
- 230000002596 correlated effect Effects 0.000 description 15
- 230000001427 coherent effect Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 14
- 230000007423 decrease Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000004907 flux Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 206010019133 Hangover Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 description 1
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 1
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/46—Volume control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/036—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/265—Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
- G10H2210/295—Spatial effects, musical uses of multiple audio channels, e.g. stereo
- G10H2210/301—Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/081—Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuits Of Receivers In General (AREA)
Description
本願は2013年4月11日に出願された米国仮特許出願第61/811,062号および2013年3月26日に出願された中国特許出願第201310100367.6号の優先権を主張するものである。これら出願はここに参照によってその全体において組み込まれる。
本願は概括的にはオーディオ信号処理に関する。詳細には、本願の実施形態はオーディオ分類および処理、特にダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器の制御のための装置および方法に関する。
第一部:オーディオ処理装置および方法
1.1節 オーディオ型
1.2節 オーディオ型の信頼値および分類器の構成
1.3節 オーディオ型の信頼値の平滑化
1.4節 パラメータ調整
1.5節 パラメータ平滑化
1.6節 オーディオ型の遷移
1.7節 実施形態の組み合わせおよび応用シナリオ
1.8節 オーディオ処理方法
第二部:ダイアログ向上器コントローラおよび制御方法
2.1節 ダイアログ向上のレベル
2.2節 向上させるべき周波数帯域の決定のための閾値
2.3節 背景レベルへの調整
2.4節 実施形態の組み合わせおよび応用シナリオ
2.5節 ダイアログ向上器制御方法
第三部:サラウンド仮想化器コントローラおよび制御方法
3.1節 サラウンド・ブースト量
3.2節 開始周波数
3.3節 実施形態の組み合わせおよび応用シナリオ
3.4節 サラウンド仮想化器制御方法
第四部:ボリューム平準化器コントローラおよび制御方法
4.1節 情報性および干渉性のコンテンツ型
4.2節 種々のコンテキストにおけるコンテンツ型
4.3節 コンテキスト型
4.4節 実施形態の組み合わせおよび応用シナリオ
4.5節 ボリューム平準化器制御方法
第五部:等化器コントローラおよび制御方法
5.1節 コンテンツ型に基づく制御
5.2節 音楽における優勢な源の確からしさ
5.3節 等化器プリセット
5.4節 コンテキスト型に基づく制御
5.5節 実施形態の組み合わせおよび応用シナリオ
5.6節 等化器制御方法
第六部:オーディオ分類器および分類方法
6.1節 コンテンツ型分類に基づくコンテキスト分類器
6.2節 長期的特徴の抽出
6.3節 短期的特徴の抽出
6.4節 実施形態の組み合わせおよび応用シナリオ
6.5節 オーディオ分類方法
第七部:VoIP分類器および分類方法
7.1節 短期的セグメントに基づくコンテキスト分類
7.2節 VoIP発話およびVoIPノイズを使った分類
7.3節 平滑化ゆらぎ
7.4節 実施形態の組み合わせおよび応用シナリオ
7.5節 VoIP分類方法。
図1は、再生時にオーディオ・コンテンツに基づく改善されたパラメータでの少なくとも一つのオーディオ改善装置の自動的な構成設定をサポートするコンテンツ適応的なオーディオ処理装置100の概括的なフレームワークを示している。これは三つの主要なコンポーネントを有する:オーディオ分類器200、調整ユニット300、オーディオ改善装置400である。
さまざまな種類のオーディオ改善装置を適正に制御するために、本願はさらに、オーディオ型の新たな構成を提供する。ただし、従来技術におけるオーディオ型も本願で適用可能である。
オーディオ分類器200は、硬判定結果を出力してもよく、あるいは調整ユニット300はオーディオ分類器200の結果を硬判定結果と見なしてもよい。硬判定についてでも、複数のオーディオ型がオーディオ・セグメントに割り当てられることができる。たとえば、オーディオ・セグメントは、発話および短期的音楽の混合信号でありうるので、「発話」および「短期的音楽」の両方によってラベル付けされることができる。得られたラベルは、オーディオ改善装置(単数または複数)400を操縦するために直接使われることができる。簡単な例は、発話が存在するときにダイアログ向上器402を有効にし、発話が存在しないときにオフにするというものである。しかしながら、この硬判定方法は、注意深い平滑化方式(後述)なしの場合には、あるオーディオ型から別のオーディオ型への遷移点においていくらかの不自然さを導入することがある。
任意的に、各オーディオ・セグメントがあらかじめ定義されたオーディオ型に分類された後、追加的なステップは、ある型から別の型への急激なジャンプを避け、オーディオ改善装置におけるパラメータのよりなめらかな推定をするために、時間軸に沿って分類結果を平滑化するというものである。たとえば、長い抜粋が、VoIPとして分類された一つだけのセグメントを除いて映画的メディアと分類されると、急激なVoIP判定は、平滑化によって映画的メディアに修正されることができる。
ここで、tは現在の時間(現在のオーディオ・セグメント)、t−1は最後の時間(最後のオーディオ・セグメント)、βは重み、confおよびsmoothConfはそれぞれ平滑化の前および後の信頼値(confidence value)である。
調整ユニット300は、オーディオ分類器200からの得られた結果に基づいてオーディオ改善装置(単数または複数)400についての適正なパラメータを推定または調整するよう設計される。コンテンツ型またはコンテキスト型のいずれかをまたは合同判定のために両方を使って、異なるオーディオ改善装置について異なる調整アルゴリズムが設計されてもよい。たとえば、映画的メディアおよび長期的音楽のようなコンテキスト型情報では、上述したようなプリセットが自動的に選択され、対応するコンテンツに適用されることができる。利用可能なコンテンツ型情報を用いて、各オーディオ改善装置のパラメータは、後述する部において示されるように、より細かい仕方で調整されることができる。コンテンツ型情報およびコンテキスト情報はさらに、長期的および短期的情報をバランスさせるために、調整ユニット300において合同で使われることができる。特定のオーディオ改善装置についての特定の調整アルゴリズムは、別個の調整ユニットと見なされてもよい。あるいは、異なる調整アルゴリズムがまとめて連合した調整ユニットと見なされてもよい。
1.3節では、急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためにオーディオ型の信頼値を平滑化することを論じた。他の措置も可能である。一つは、オーディオ型に基づいて調整されるパラメータを平滑化することであり、本節で論じる。他方は、オーディオ分類器および/または調整ユニットを、オーディオ分類器の結果の変化を遅らせるよう構成することであり、これについては1.6節で論じる。
図9および図10を参照して、オーディオ型の急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためのもう一つの方式が記述される。
ここで、HangCntは残存継続時間または閾値であり、CおよびDは用途の要求に基づいて設定されることのできる二つのパラメータであり、通例、Cは負、Dは正の値である。
上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
上記の実施形態におけるオーディオ処理装置を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。ただし、これらの方法はオーディオ処理装置を記述する過程において開示されているものの、これらの方法は必ずしも記載されるコンポーネントを採用するものではなく、必ずしもそうしたコンポーネントによって実行されるのではない。たとえば、オーディオ処理装置の実施形態は、部分的または完全にハードウェアおよび/またはファームウェアを用いて実現されてもよく、一方、以下で論じるオーディオ処理方法は、オーディオ処理装置のハードウェアおよび/またはファームウェアを採用してもよいが、完全にコンピュータ実行可能プログラムによって実現されてもよい。
オーディオ改善装置の一例はダイアログ向上器(DE)である。これは、特に聴力が低下しつつある高齢者のために、再生時にオーディオを断続的にモニタリングし、ダイアログの存在を検出し、ダイアログの明瞭性および了解性を高める(ダイアログを聞いて理解しやすくする)ためにダイアログを向上させることをねらいとする。ダイアログが存在するかどうかを検出するほか、ダイアログが存在し、よって(動的スペクトル再均衡化(dynamic spectral rebalancing)を用いて)相応して向上される場合、了解性に最も重要な周波数も検出される。例示的なダイアログ向上方法が特許文献1に呈示されている。その全体はここに参照によって組み込まれる。
ダイアログ向上のレベルに関わるとき、調整ユニット300Aは、ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されていてもよい。追加的または代替的に、レベルは、他のコンテンツ型の信頼値に負に相関させられてもよい。こうして、ダイアログ向上のレベルは発話信頼度に(線形または非線形に)比例するように設定されることができる。よって、ダイアログ向上は、音楽および背景音(効果音)のような非発話信号についてはそれほど効果的ではない。
ダイアログ向上器の作動の間、各周波数帯域について、向上される必要があるかどうかを判定するための閾値(通例、エネルギーまたはラウドネス閾値)がある。すなわち、それぞれのエネルギー/ラウドネス閾値より上の周波数帯域が向上される。それらの閾値を調整するために、調整ユニット300Aは、閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または閾値を発話の信頼値と負に相関させるよう構成されていてもよい。たとえば、発話信頼度が高ければ、より信頼できる発話検出を想定して閾値を下げることができ、より多くの周波数帯域が向上されることを許容する。他方、音楽信頼値が高ければ、閾値を高くすることができ、より少数の周波数帯域が向上されるようにする(よってアーチファクトをより少なくする)。
ダイアログ向上器におけるもう一つのコンポーネントは、図15に示されるような最小追跡ユニット4022である。これは、(SNR推定および2.2節で述べた周波数帯域閾値推定のために)オーディオ信号における背景レベルを推定するために使われる。これは、オーディオ・コンテンツ型の信頼値に基づいて調整されることもできる。たとえば、発話信頼値が高い場合、最小追跡ユニットは、背景レベルを現在の最小に設定するのにより自信を持つことができる。音楽信頼度が高い場合には、背景レベルはその現在の最小よりはやや高く設定されることができ、あるいは別の仕方では現在の最小と現在フレームのエネルギーとの、現在の最小に大きな重みをかけた重み付き平均に設定されることができる。ノイズおよび背景信頼度が高い場合には、背景レベルは現在の最小値よりずっと高く設定されることができ、あるいは別の仕方では、現在の最小と現在フレームのエネルギーとの、現在の最小に小さな重みをかけた重み付き平均に設定されることができる。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるダイアログ向上器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
サラウンド仮想化器は、サラウンドサウンド信号(マルチチャネル5.1および7.1など)がPCの内部スピーカーを通じてまたはヘッドフォンを通じてレンダリングされることを可能にする。すなわち、内蔵ラップトップ・スピーカーまたはヘッドフォンのようなステレオ装置を用いて、仮想的にサラウンド効果を生成し、消費者のために映画館の体験を提供するのである。サラウンド仮想化器では、マルチチャネル・オーディオ信号に関連付けられたさまざまなスピーカー位置からくる音の耳への到来をシミュレートするために、通例、頭部伝達関数(HRTF: Head Related Transfer Function)が利用される。
サラウンド・ブースト量に関わるとき、調整ユニット300Bは、サラウンド仮想化器404のサラウンド・ブースト量を、ノイズおよび/または背景および/または発話の信頼値と正に相関させるおよび/またはサラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されていてもよい。
SB∝(1−Confmusic) (5)
ここで、SBはサラウンド・ブースト量、Confmusicは短期的音楽の信頼値である。
SB∝(1−Confmusic)*Confspeech α (6)
ここで、Confspeechは発話の信頼値であり、αは指数の形の重み付け係数であり、1〜2の範囲にあってもよい。この公式は、サラウンド・ブースト量は純粋な発話(高い発話信頼度および低い音楽信頼度)についてのみ高くなることを示す。
SB∝Confspeech (7)
さまざまな変形が同様にして設計できる。特に、ノイズまたは背景音について、公式(5)ないし(7)と同様の公式が構築されてもよい。さらに、それら四つのコンテンツ型の効果は任意の組み合わせにおいて一緒に考慮されてもよい。そのような状況において、ノイズおよび背景は周囲音であり、大きなブースト量をもってもより安全である。発話は、話者が通例はスクリーンの前方に座ると想定して、中程度のブースト量をもつことができる。したがって、調整ユニット300Bは、サラウンド・ブースト量を、コンテンツが型発話よりも、ノイズおよび/または背景の信頼値と、より正に相関させるよう構成されていてもよい。
他のパラメータも開始周波数のようなサラウンド仮想化器において修正されることができる。一般に、オーディオ信号中の高周波数成分は空間的にレンダリングされるのに、より好適である。たとえば、音楽では、ベースがより多くのサラウンド効果をもつようにレンダリングされると、おかしく聞こえる。よって、特定のオーディオ信号について、サラウンド仮想化器は、それより上の成分が空間的にレンダリングされ、それより下の成分が保持される周波数閾値を決定する必要がある。周波数閾値は開始周波数である。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるサラウンド仮想化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
異なるオーディオ源または同じオーディオ源の異なるピースのボリュームは時に大きく変化する。ユーザーがボリュームを頻繁に調整しなければならないので、これはわずらわしい。ボリューム平準化器(VL: Volume Leveler)は再生時のオーディオ・コンテンツのボリュームを調整し、ターゲット・ラウドネス値に基づいて時間軸上でほとんど一貫しているようにすることをねらいとする。例示的なボリューム平準化器は特許文献2、特許文献3、特許文献4に記載されている。これら三つの文書はここに全体において参照によって組み込まれる。
上述したように、ボリューム平準化器の制御との関連で、オーディオ・コンテンツ型は情報性のコンテンツ型および干渉性のコンテンツ型として分類されうる。
調整ユニット300Cは、ボリューム平準化器の動的利得をオーディオ信号の情報性コンテンツ型と正に相関させ、ボリューム平準化器の動的利得をオーディオ信号の干渉性コンテンツ型と負に相関させるよう構成されてもよい。
GainControl∝1−Confnoise (10)
のように、ノイズ信頼値(Confnoise)の減少関数に比例するよう設定されることができる。
GainControl∝(1−Confnoise)・(1−Confbkg) (11)
上記の公式においては、ノイズおよび背景音の両方が望まれないので、GainControlはノイズの信頼値および背景の信頼値によって等しく影響される。これは、ノイズおよび背景音が同じ重みをもつと見なしうる。状況に依存して、両者は異なる重みをもってもよい。たとえば、ノイズおよび背景音の信頼値(またはそれらの1との差)に異なる係数または異なる指数(αおよびγ)を与えてもよい。すなわち、公式(11)は
GainControl∝(1−Confnoise)α・(1−Confbkg)γ (12)
または
GainControl∝(1−Confnoise α)・(1−Confbkg γ) (13)
と書き直されてもよい。
GainControl∝1−max(Confnoise,Confbkg) (14)
公式(11)(およびその諸変形)および公式(14)の両方は、ノイズ信号および背景音信号についての小さな利得を示し、ボリューム平準化器のもとの挙動は、(発話および音楽信号におけるように)ノイズ信頼値および背景信頼値の両方が小さくGainControlが1に近いときにのみ保持される。
GainControl∝1−Confnoise・(1−Confspeech) (15)
として考慮することができる。この館数を用いると、小さなGainControlが得られるのは、高いノイズ信頼度および低い発話信頼度をもつ信号(たとえば純粋なノイズ)についてのみであり、発話信頼度が高い場合にはGainControlは1に近くなる(よってボリューム平準化器のもとの挙動を保持する)。より一般には、あるコンテンツ型(Confnoiseなど)の重みが少なくとも一つの他のコンテンツ型(Confspeechなど)をもって修正されうると見なされることができる。上記の公式(15)において、発話の信頼度はノイズの信頼度の重み係数を変化させると見なされることができる(公式(12)および(13)における重みに比べると別の種類の重み)。換言すれば、公式(10)ではConfnoiseの係数が1と見なされることができ、一方、公式(15)では、いくつかの他のオーディオ型(発話などだがそれに限られない)がノイズの信頼値の重要性に影響する。よって、Confnoiseの重みが発話の信頼値によって修正されると言うことができる。本開示のコンテキストにおいて、用語「重み」はこれを含むように解釈される。すなわち、値の重要性を示すが、必ずしも規格化されていない。1.4節が参照されてもよい。
ここで、αおよびγは二つの重みである。これらは、平準器パラメータを修正するためにより大きく反応することが期待される場合にはより小さく設定されることができる。
公式(10)〜(16)における上記の制御関数は、ノイズ、背景音、短期的音楽および発話のようなオーディオ・コンテンツ型の信頼値を考慮に入れるが、映画的メディアおよびVoIPなど、音がどこからくるかのオーディオ・コンテキストは考慮しない。同じオーディオ・コンテンツ型が、たとえば背景音について、異なるオーディオ・コンテキストでは異なる仕方で処理される必要があることがありうる。背景音は、自動車エンジン、爆発および拍手など、さまざまな音を含む。VoIPでは意味がないかもしれないが、映画的メディアでは重要であることがある。これは、関心のあるオーディオ・コンテキストが識別され、異なるオーディオ・コンテキストについて異なる制御関数が設計される必要があることを示している。
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise (17)
すなわち、VoIPコンテキストでは、ノイズおよび背景音は干渉性コンテンツ型と見なされ、一方、非VoIPコンテキストでは、背景音は情報性コンテンツ型と見なされる。
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise・(1−Confspeech) (18)
ここで、発話は情報性コンテンツ型として強調される。
GainControl∝1−Confnoise・(1−max(Confspeech,Confmusic) (19)
と拡張できる。
コンテキスト型は、ノイズのようなわずらわしい音がブーストされすぎるのを避けるようボリューム平準化器を制御するために直接使われることもできる。たとえば、VoIP信頼値が、ボリューム平準化器を、その信頼値が高いときに感度を低くするよう操縦するために使われることができる。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。たとえば、4.1節ないし4.3節において述べた解決策の任意の二つ以上が互いと組み合わされてもよい。そして、これらの組み合わせの任意のものが、第一部〜第三部および後述する他の部において記載または含意されている任意の実施形態とさらに組み合わされてもよい。
第一部と同様に、上記の実施形態におけるボリューム平準化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
等化は、通例、音楽信号に適用されて、「トーン」または「音色」として知られるそのスペクトル・バランスを調整または修正する。伝統的な等化器は、ある種の楽器を強調したりまたは望まれない音を除去したりするために、ユーザーが個々の周波数帯域における周波数応答(利得)の全体的なプロファイル(曲線または形状)を構成設定できるようにする。ウィンドウズ・メディア・プレーヤーのような一般的な音楽プレーヤーは、種々のジャンルの音楽の最良の聴取経験を得るために、各周波数帯域における利得を調整するためのグラフィック・イコライザーを提供し、ロック、ラップ、ジャズおよびフォークのような種々の音楽ジャンルについての等化器プリセットの集合をも提供する。ひとたびプリセットが選択され、プロファイルが設定されたら、プロファイルが手動で修正されるまで、同じ等化利得が信号に対して適用される。
一般に、音楽、発話、背景音およびノイズのような一般的なオーディオ・コンテンツ型について、等化器は異なるコンテンツ型に対して異なるように設定されるべきである。伝統的なセットアップと同様に、等化器は、自動的に音楽信号に対して有効にされるが、発話に対しては無効にされることができる。あるいはより連続的な仕方で、音楽信号に対しては高い等化レベルを、発話信号に対しては低い等化レベルを設定することができる。このようにして、等化器の等化レベルは異なるオーディオ・コンテンツについて自動的に設定されることができる。
Leq∝Confmusic (20)
または
Leq∝1−Confspeech (21)
として使用されることができる。ここで、Leqは等化レベルっであり、ConfmusicおよびConfspeechは音楽および発話の信頼値を表わす。
Leq=Confmusic(1−Confspeech α) (22)
ここで、発話信頼値は、頻繁に起こりうる、音楽信号における0でない発話信頼値を扱うために、α乗される。上記の公式を用いれば、等化は、発話成分のない純粋な音楽信号に対してはフルに適用される(1に等しいレベルで)。第一部で述べたように、αはコンテンツ型の重要性に基づく重み付け係数と見なされてもよく、典型的には1ないし2に設定されることができる。
優勢な源をもつ音楽が高い等化レベルを適用されることを避けるために、等化レベルはさらに、音楽片が優勢な源を含むかどうかを示す信頼値Confdomに相関させられてもよい。たとえば、
Leq=1−Confdom (23)。
Leq=Confmusic(1−Confspeech)(1−Confdom) (24)
とすることである。
オーディオ・コンテンツ型の信頼値に基づいて等化レベルを適応的に調整することのほか、種々のオーディオ・コンテンツについて、そのジャンル、楽器または他の特性に依存して、適切な等化プロファイルまたは所望されるスペクトル・バランス・プリセットが自動的に選ばれることもできる。同じジャンルをもつ、同じ楽器を含むまたは同じ音楽特性をもつ音楽は同じ等化プロファイルまたは所望されるスペクトル・バランス・プリセットを共有することができる。
Peq=Pc* (26)
として、最良のマッチしたクラスターの対応するプロファイルを割り当てることである。ここで、Peqは推定される等化プロファイルまたは所望されるスペクトル・バランス・プリセットであり、c*は最良のマッチした音楽クラスター(優勢なオーディオ型)のインデックスであり、これは最も高い信頼値をもつクラスターを拾うことによって得られる。
これまでの節では、さまざまなコンテンツ型に焦点を当てている。本節で論じるさらなる実施形態では、代替的または追加的にコンテキスト型が考慮されてもよい。
Leq∝ConfMUSIC (29)
または
Leq∝1−ConfMOVIE (30)
ここで、Leqは等化レベル、ConfMUSICおよびConfMOVIEは長期的音楽および映画的メディアの信頼値を表わす。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態における等化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
1.1節および1.2節で述べたように、さまざまな階層レベルのコンテンツ型およびコンテキスト型を含む本願で論じられるオーディオ型は、機械学習ベースの方法を含め何らかの既存の分類方式を用いて分類または識別されることができる。この部および次の部では、本願は、これまでの部で言及されたコンテキスト型を分類するための分類器および方法のいくつかの新規な側面を提案する。
これまでの部で述べたように、オーディオ分類器200は、オーディオ信号のコンテンツ型を識別するおよび/またはオーディオ信号のコンテキスト型を識別するために使われる。したがって、オーディオ分類器200は、オーディオ・コンテンツ分類器202および/またはオーディオ・コンテキスト分類器204を有していてもよい。オーディオ・コンテンツ分類器202および/またはオーディオ・コンテキスト分類器204を実装するための既存の技法を採用するとき、両分類器は互いから独立でありうるが、いくつかの特徴を共有していてもよく、よって該特徴を抽出するためのいくつかの方式を共有していてもよい。
図24に示されるように、ある実施形態では、統計量抽出器2042のみが、短期的分類器2024の結果から長期的特徴を抽出するために使用される。長期的特徴として、次のうちの少なくとも一つが統計量抽出器2042によって計算されてもよい:分類されるべき長期的セグメント内の短期的セグメントの短期的オーディオ型の信頼値の平均および分散、短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および分類されるべき長期的セグメント内の種々の短期的オーディオ型の間の遷移の頻度。
図24および図27に示されるように、短期的特徴抽出器2022は、短期的特徴として、次の特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されていてもよい:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴。
a)推定された背景ノイズ・レベル、スペクトル明瞭性などを含む静的なSNR特性
b)スペクトル・レベル偏差、スペクトル・レベル範囲、相対ノイズ・フロアなどを含むセグメントSNR特性
c)ピッチ平均、発話セクション・レベル変動、発話レベルなどを含む基本的発話記述子
d)ロボット化(robotization)、ピッチ・クロス・パワー(pitch cross power)などを含む声道特性。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるオーディオ分類器を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
第六部では、少なくとも部分的にはコンテンツ型分類の結果に基づいてオーディオ信号をオーディオ・コンテキスト型に分類するための新規なオーディオ分類器が提案されている。第六部で論じた実施形態において、長期的特徴は、数秒ないし数十秒の長さの長期的セグメントから抽出される。よって、オーディオ・コンテキスト分類は長いレイテンシーを引き起こしうる。オーディオ・コンテキストがリアルタイムでまたはほぼリアルタイムでたとえば短期的セグメント・レベルにおいて分類されうることが望まれる。
したがって、図34に示されるように、オーディオ信号の短期的セグメントのコンテンツ型を同定するためのオーディオ・コンテンツ分類器202Aと、少なくとも部分的には前記オーディオ・コンテンツ分類器によって識別されたコンテンツ型に基づいて短期的セグメントのコンテキスト型を識別するオーディオ・コンテキスト分類器204Aとを有するオーディオ分類器200Aが提供される。
本願のこの側面は、短い判断レイテンシーのために現在の短期的セグメントを分類することを要求されるVoIP/非VoIP分類システムにおいて特に有用である。
急速な揺動〔ゆらぎ〕を避けるために、もう一つの解決策は、オーディオ・コンテンツ分類器によって決定される信頼値を平滑化することである。したがって、図37に示されるように、型平滑化ユニット203Aがオーディオ分類器200Aに含まれてもよい。先に論じた四つのVoIP関係のコンテンツ型のそれぞれの信頼値について、1.3節で論じた平滑化方式が採用されてもよい。
ここで、v(t)は時刻tにおける平滑化されたVoIP発話信頼値であり、v(t−1)は最後の時点における平滑化されたVoIP発話信頼値であり、voipSpeechConfは平滑化前の現在時刻tにおけるVoIP発話信頼度であり、αは重み付け係数である。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるオーディオ分類器を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
いくつかの態様を記載しておく。
〔態様1〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置。
〔態様2〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様1記載のオーディオ処理装置。
〔態様3〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様1記載のオーディオ処理装置。
〔態様4〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様1記載のオーディオ処理装置。
〔態様5〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様3記載のオーディオ処理装置。
〔態様6〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様3記載のオーディオ処理装置。
〔態様7〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様1記載のオーディオ処理装置。
〔態様8〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様2記載のオーディオ処理装置。
〔態様9〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様10〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様11〕
前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様12〕
前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様13〕
前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様12記載のオーディオ処理装置。
〔態様14〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様15〕
前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様14記載のオーディオ処理装置。
〔態様16〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様17〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様18〕
前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様17記載のオーディオ処理装置。
〔態様19〕
前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様2記載のオーディオ処理装置。
〔態様20〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様19記載のオーディオ処理装置。
〔態様21〕
前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様22〕
前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様23〕
前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様22記載のオーディオ処理装置。
〔態様24〕
前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様25〕
前記調整ユニットによって調整される前記オーディオ改善装置のあるパラメータについて、現時点で前記調整ユニットによって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整ユニットによって決定されるパラメータ値を平滑化するパラメータ平滑化ユニットをさらに有する、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様26〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様27〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様28〕
前記重み付けされた和を計算するための重みが、前記調整ユニットによって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様29〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化する型平滑化ユニットをさらに有する、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様30〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様29記載のオーディオ処理装置。
〔態様31〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様29記載のオーディオ処理装置。
〔態様32〕
前記オーディオ分類器が同じ新しいオーディオ型を連続的に出力する継続時間を測定するタイマーをさらに有しており、前記調整ユニットは、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様33〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様32記載のオーディオ処理装置。
〔態様34〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様32記載のオーディオ処理装置。
〔態様35〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する短期的特徴抽出器と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する短期的分類器と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記短期的分類器の結果の統計量を長期的特徴として計算する統計抽出器と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する長期的分類器とを有する、
オーディオ分類器。
〔態様36〕
前記短期的分類器が、短期的セグメントの前記シーケンスの各短期的セグメントを、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類するよう構成されている、態様35記載のオーディオ分類器。
〔態様37〕
前記統計抽出器が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様35記載のオーディオ分類器。
〔態様38〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する長期的特徴抽出器をさらに有する、態様35記載のオーディオ分類器。
〔態様39〕
前記長期的特徴抽出器がさらに、前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様38記載のオーディオ分類器。
〔態様40〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器をさらに有しており、
前記短期的特徴抽出器は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算するよう構成される、
態様35ないし39のうちいずれか一項記載のオーディオ分類器。
〔態様41〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様40記載のオーディオ分類器。
〔態様42〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様41記載のオーディオ分類器。
〔態様43〕
前記短期的特徴抽出器が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算するよう構成されている、態様40記載のオーディオ分類器。
〔態様44〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様40記載のオーディオ分類器。
〔態様45〕
前記短期的特徴抽出器は、短期的特徴として、次の特徴、すなわち:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されている、態様40記載のオーディオ分類器。
〔態様46〕
オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類するフレーム・レベル分類器とを有しており、
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル分類器の結果に基づいて前記短期的特徴を計算するよう構成されている、
態様35ないし39のうちいずれか一項記載のオーディオ分類器。
〔態様47〕
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームに関する前記フレーム・レベル分類器の結果の両方に基づいて前記短期的特徴を計算するよう構成されている、態様46記載のオーディオ分類器。
〔態様48〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様49〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様50〕
前記フレーム・レベル分類器が前記シーケンスのオーディオ・フレームを、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様51〕
態様35ないし50のうちいずれか一項記載のオーディオ分類器を有するオーディオ処理装置。
〔態様52〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法。
〔態様53〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様52記載のオーディオ処理方法。
〔態様54〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様52記載のオーディオ処理方法。
〔態様55〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様52記載のオーディオ処理方法。
〔態様56〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様54記載のオーディオ処理方法。
〔態様57〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様54記載のオーディオ処理方法。
〔態様58〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様52記載のオーディオ処理方法。
〔態様59〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様53記載のオーディオ処理方法。
〔態様60〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、ダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させることを含む、態様53記載のオーディオ処理方法。
〔態様61〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、発話の信頼値と正に相関させることを含む、態様53記載のオーディオ処理方法。
〔態様62〕
それぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上処理することをさらに含み、前記調整する動作は、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様63〕
前記オーディオ信号における背景レベルを推定することをさらに含み、前記調整する動作は、推定される背景レベルに調整を割り当てるよう構成されており、前記調整する動作はさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様64〕
前記調整する動作は、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様63記載のオーディオ処理方法。
〔態様65〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様66〕
前記調整する動作が、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様65記載のオーディオ処理方法。
〔態様67〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様68〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様69〕
前記調整する動作が、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様68記載のオーディオ処理方法。
〔態様70〕
前記調整する動作が、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様53記載のオーディオ処理方法。
〔態様71〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様70記載のオーディオ処理方法。
〔態様72〕
前記調整する動作が、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様73〕
前記調整する動作が、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様74〕
前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様73記載のオーディオ処理方法。
〔態様75〕
前記調整する動作が、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様76〕
前記調整する動作によって調整されるあるパラメータについて、現時点で前記調整する動作によって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整する動作によって決定されるパラメータ値を平滑化することをさらに含む、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様77〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様78〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様79〕
前記重み付けされた和を計算するための重みが、前記調整する動作によって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様80〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化することをさらに含む、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様81〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様80記載のオーディオ処理方法。
〔態様82〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様80記載のオーディオ処理方法。
〔態様83〕
前記分類する動作が同じ新しいオーディオ型を連続的に出力する継続時間を測定することをさらに含み、前記調整する動作は、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様84〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様83記載のオーディオ処理方法。
〔態様85〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様83記載のオーディオ処理方法。
〔態様86〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを有する、
オーディオ分類方法。
〔態様87〕
短期的セグメントの前記シーケンスは、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類される、態様86記載のオーディオ分類方法。
〔態様88〕
前記計算する動作が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様86記載のオーディオ分類方法。
〔態様89〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する段階をさらに含む、態様86記載のオーディオ分類方法。
〔態様90〕
前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様89記載のオーディオ分類方法。
〔態様91〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出する段階をさらに含み、
前記短期的特徴を抽出する動作は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算することを含む、
態様86ないし90のうちいずれか一項記載のオーディオ分類方法。
〔態様92〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様91記載のオーディオ分類方法。
〔態様93〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様92記載のオーディオ分類方法。
〔態様94〕
前記短期的特徴を抽出する動作が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算することを含む、態様91記載のオーディオ分類方法。
〔態様95〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様91記載のオーディオ分類方法。
〔態様96〕
前記短期的特徴を抽出する動作は、短期的特徴として、次の特徴、すなわち:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出することを含む、態様91記載のオーディオ分類方法。
〔態様97〕
オーディオ・フレームからフレーム・レベル特徴を抽出する段階と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類する段階とを含み、
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル・オーディオ型に基づいて前記短期的特徴を計算することを含む、
態様86ないし90のうちいずれか一項記載のオーディオ分類方法。
〔態様98〕
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームの前記フレーム・レベル・オーディオ型の両方に基づいて前記短期的特徴を計算することを含む、態様97記載のオーディオ分類方法。
〔態様99〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様97または98記載のオーディオ分類方法。
〔態様100〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様97または98記載のオーディオ分類方法。
〔態様101〕
前記シーケンスのオーディオ・フレームのそれぞれが、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類される、態様97または98記載のオーディオ分類方法。
〔態様102〕
プロセッサによって実行されると該プロセッサがオーディオ処理方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ処理方法は、
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的な仕方で調整する段階とを含む、
コンピュータ可読媒体。
〔態様103〕
プロセッサによって実行されると該プロセッサがオーディオ分類方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ分類方法は、
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを含む、
コンピュータ可読媒体。
Claims (27)
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、
オーディオ処理装置。 - 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項1記載のオーディオ処理装置。
- 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項1記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、
オーディオ処理装置。 - 前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、請求項2記載のオーディオ処理装置。
- 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、
請求項1記載のオーディオ処理装置。 - 前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項1記載のオーディオ処理装置。
- 前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項2記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されている、
オーディオ処理装置。 - 前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、
オーディオ処理装置。 - リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、
オーディオ処理装置。 - 前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項12記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、
オーディオ処理装置。 - 前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項14記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、
オーディオ処理装置。 - リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、
オーディオ処理装置。 - 前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、請求項17記載のオーディオ処理装置。
- 前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、請求項2記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含み、
前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されており、
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、
オーディオ処理装置。 - リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、
オーディオ処理装置。 - リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、
オーディオ処理装置。 - 前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、請求項22記載のオーディオ処理装置。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置であって、
前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、
オーディオ処理装置。 - リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法であって、
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、
オーディオ処理方法。 - 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項25記載のオーディオ処理方法。
- リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法であって、
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、
オーディオ処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148802A JP6921907B2 (ja) | 2013-03-26 | 2019-08-14 | オーディオ分類および処理のための装置および方法 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310100367.6 | 2013-03-26 | ||
CN201310100367.6A CN104078050A (zh) | 2013-03-26 | 2013-03-26 | 用于音频分类和音频处理的设备和方法 |
US201361811062P | 2013-04-11 | 2013-04-11 | |
US61/811,062 | 2013-04-11 | ||
PCT/US2014/031671 WO2014160678A2 (en) | 2013-03-26 | 2014-03-25 | 1apparatuses and methods for audio classifying and processing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148802A Division JP6921907B2 (ja) | 2013-03-26 | 2019-08-14 | オーディオ分類および処理のための装置および方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016519784A JP2016519784A (ja) | 2016-07-07 |
JP2016519784A5 JP2016519784A5 (ja) | 2017-04-27 |
JP6573870B2 true JP6573870B2 (ja) | 2019-09-11 |
Family
ID=51599271
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016505531A Active JP6573870B2 (ja) | 2013-03-26 | 2014-03-25 | オーディオ分類および処理のための装置および方法 |
JP2019148802A Active JP6921907B2 (ja) | 2013-03-26 | 2019-08-14 | オーディオ分類および処理のための装置および方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148802A Active JP6921907B2 (ja) | 2013-03-26 | 2019-08-14 | オーディオ分類および処理のための装置および方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9842605B2 (ja) |
EP (2) | EP3598448B2 (ja) |
JP (2) | JP6573870B2 (ja) |
CN (3) | CN104078050A (ja) |
HK (1) | HK1212808A1 (ja) |
WO (1) | WO2014160678A2 (ja) |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN103413553B (zh) * | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN105335595A (zh) | 2014-06-30 | 2016-02-17 | 杜比实验室特许公司 | 基于感受的多媒体处理 |
US10163453B2 (en) * | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
US20160125891A1 (en) * | 2014-10-31 | 2016-05-05 | Intel Corporation | Environment-based complexity reduction for audio processing |
CN104618056A (zh) * | 2014-12-31 | 2015-05-13 | 电子科技大学 | 一种适用于显著波动的信道条件下的干扰抑制方法 |
KR101667557B1 (ko) * | 2015-01-19 | 2016-10-19 | 한국과학기술연구원 | 실시간 음원 분류 장치 및 방법 |
CN104978975B (zh) * | 2015-03-02 | 2017-10-24 | 广州酷狗计算机科技有限公司 | 一种音乐文件的音质检测方法及装置 |
CN104811864B (zh) * | 2015-04-20 | 2018-11-13 | 深圳市冠旭电子股份有限公司 | 一种自适应调节音效的方法及系统 |
CN106155470B (zh) * | 2015-04-21 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种音频文件生成方法及装置 |
CN106203460A (zh) | 2015-05-05 | 2016-12-07 | 杜比实验室特许公司 | 训练信号处理模型以用于信号处理系统中的部件替换 |
CN104867492B (zh) * | 2015-05-07 | 2019-09-03 | 科大讯飞股份有限公司 | 智能交互系统及方法 |
CN106303897A (zh) | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
EP3360136B1 (en) * | 2015-10-05 | 2020-12-23 | Widex A/S | Hearing aid system and a method of operating a hearing aid system |
EP3657822A1 (en) | 2015-10-09 | 2020-05-27 | Sony Corporation | Sound output device and sound generation method |
JP7001588B2 (ja) * | 2015-10-28 | 2022-01-19 | ジャン-マルク ジョット | オブジェクトベースのオーディオ信号バランシング法 |
US10306392B2 (en) | 2015-11-03 | 2019-05-28 | Dolby Laboratories Licensing Corporation | Content-adaptive surround sound virtualization |
CN106658340B (zh) * | 2015-11-03 | 2020-09-04 | 杜比实验室特许公司 | 内容自适应的环绕声虚拟化 |
CN105516451A (zh) * | 2015-11-23 | 2016-04-20 | 小米科技有限责任公司 | 音效调节方法及装置 |
US10134422B2 (en) * | 2015-12-01 | 2018-11-20 | Qualcomm Incorporated | Determining audio event based on location information |
CN112218229B (zh) | 2016-01-29 | 2022-04-01 | 杜比实验室特许公司 | 用于音频信号处理的系统、方法和计算机可读介质 |
CN105825864B (zh) * | 2016-05-19 | 2019-10-25 | 深圳永顺智信息科技有限公司 | 基于过零率指标的双端说话检测与回声消除方法 |
US10631101B2 (en) * | 2016-06-09 | 2020-04-21 | Cochlear Limited | Advanced scene classification for prosthesis |
CN106126177A (zh) * | 2016-06-21 | 2016-11-16 | 中国农业大学 | 一种目标声音的音量调节系统及方法 |
CN107564512B (zh) * | 2016-06-30 | 2020-12-25 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
CN109891504A (zh) | 2016-10-07 | 2019-06-14 | 索尼公司 | 信息处理设备和方法以及程序 |
CN106488311B (zh) * | 2016-11-09 | 2019-12-13 | 微鲸科技有限公司 | 音效调整方法及用户终端 |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
CN106792386B (zh) * | 2016-12-05 | 2020-03-10 | 青岛海信电器股份有限公司 | 一种终端音量调节方法及装置 |
US10606841B2 (en) * | 2017-02-22 | 2020-03-31 | Intel Corporation | Technologies for an n-ary data compression decision engine |
CN108965999A (zh) * | 2017-05-18 | 2018-12-07 | 深圳市中兴微电子技术有限公司 | 一种音量智能化调节的方法及装置 |
CN107248165A (zh) * | 2017-06-19 | 2017-10-13 | 太仓埃特奥数据科技有限公司 | 一种动态背景图像的更新方法 |
CN107331403B (zh) | 2017-06-27 | 2020-11-06 | 深圳创维-Rgb电子有限公司 | 一种基于算法的音频优化方法、智能终端及存储装置 |
CN107301297B (zh) * | 2017-06-28 | 2020-11-03 | 正升环境科技股份有限公司 | 噪声治理管理方法及装置 |
US10062367B1 (en) * | 2017-07-14 | 2018-08-28 | Music Tribe Global Brands Ltd. | Vocal effects control system |
WO2019027812A1 (en) | 2017-08-01 | 2019-02-07 | Dolby Laboratories Licensing Corporation | CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA |
CN110998724B (zh) | 2017-08-01 | 2021-05-21 | 杜比实验室特许公司 | 基于位置元数据的音频对象分类 |
CN107302721B (zh) * | 2017-08-03 | 2020-10-02 | 深圳Tcl数字技术有限公司 | 视频对白音轨频率的调节方法、电视机和可读存储介质 |
CN107705775A (zh) * | 2017-08-17 | 2018-02-16 | 广东工业大学 | 一种基于rbf神经网络的多种乐器调音方法 |
CN107506170A (zh) * | 2017-08-18 | 2017-12-22 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端设备及存储介质 |
CN107526568A (zh) * | 2017-08-18 | 2017-12-29 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端设备及存储介质 |
EP3677037A1 (en) | 2017-08-28 | 2020-07-08 | Dolby Laboratories Licensing Corporation | Media-aware navigation metadata |
CN107657956B (zh) * | 2017-10-23 | 2020-12-22 | 吴建伟 | 一种多媒体设备语音控制系统及方法 |
US10148241B1 (en) * | 2017-11-20 | 2018-12-04 | Dell Products, L.P. | Adaptive audio interface |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
CN108320756B (zh) * | 2018-02-07 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 一种检测音频是否是纯音乐音频的方法和装置 |
JP6812381B2 (ja) * | 2018-02-08 | 2021-01-13 | 日本電信電話株式会社 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
CN108388939B (zh) * | 2018-02-09 | 2021-10-12 | 杭州慧日永明文化传播有限公司 | 音频计数方法、系统、设备及存储介质 |
GB2571340A (en) * | 2018-02-26 | 2019-08-28 | Ai Music Ltd | Method of combining audio signals |
US10777217B2 (en) * | 2018-02-27 | 2020-09-15 | At&T Intellectual Property I, L.P. | Performance sensitive audio signal selection |
WO2019209930A1 (en) * | 2018-04-27 | 2019-10-31 | Dolby Laboratories Licensing Corporation | Blind detection of binauralized stereo content |
US11929091B2 (en) * | 2018-04-27 | 2024-03-12 | Dolby Laboratories Licensing Corporation | Blind detection of binauralized stereo content |
CN110446141A (zh) * | 2018-05-03 | 2019-11-12 | 塞舌尔商元鼎音讯股份有限公司 | 声音调整方法和系统 |
CN109119089B (zh) * | 2018-06-05 | 2021-07-27 | 安克创新科技股份有限公司 | 对音乐进行通透处理的方法及设备 |
CN109147807B (zh) * | 2018-06-05 | 2023-06-23 | 安克创新科技股份有限公司 | 一种基于深度学习的音域平衡方法、装置及系统 |
US11176960B2 (en) * | 2018-06-18 | 2021-11-16 | University Of Florida Research Foundation, Incorporated | Method and apparatus for differentiating between human and electronic speaker for voice interface security |
US10991379B2 (en) | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN109273010B (zh) * | 2018-08-21 | 2020-08-11 | 深圳市声扬科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
US10937443B2 (en) * | 2018-09-04 | 2021-03-02 | Babblelabs Llc | Data driven radio enhancement |
US11775250B2 (en) | 2018-09-07 | 2023-10-03 | Gracenote, Inc. | Methods and apparatus for dynamic volume adjustment via audio classification |
WO2020051544A1 (en) * | 2018-09-07 | 2020-03-12 | Gracenote, Inc. | Methods and apparatus for dynamic volume adjustment via audio classification |
US11947593B2 (en) * | 2018-09-28 | 2024-04-02 | Sony Interactive Entertainment Inc. | Sound categorization system |
WO2020086771A1 (en) * | 2018-10-24 | 2020-04-30 | Gracenote, Inc. | Methods and apparatus to adjust audio playback settings based on analysis of audio characteristics |
CN111225318A (zh) * | 2018-11-23 | 2020-06-02 | 北京小米移动软件有限公司 | 音频调节方法及装置、电子设备 |
CN109716432B (zh) * | 2018-11-30 | 2023-05-02 | 深圳市汇顶科技股份有限公司 | 增益处理方法及其装置、电子设备、信号采集方法及其系统 |
CN111259189B (zh) * | 2018-11-30 | 2023-04-18 | 马上消费金融股份有限公司 | 一种音乐分类方法及装置 |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
EP3847646B1 (en) | 2018-12-21 | 2023-10-04 | Huawei Technologies Co., Ltd. | An audio processing apparatus and method for audio scene classification |
JP7498560B2 (ja) | 2019-01-07 | 2024-06-12 | シナプティクス インコーポレイテッド | システム及び方法 |
CN109805954B (zh) * | 2019-01-23 | 2021-09-14 | 苏州美糯爱医疗科技有限公司 | 一种电子听诊器的摩擦音干扰自动消除方法 |
US11017774B2 (en) | 2019-02-04 | 2021-05-25 | International Business Machines Corporation | Cognitive audio classifier |
CN109947385A (zh) * | 2019-03-08 | 2019-06-28 | 广东小天才科技有限公司 | 动态调音方法、装置、可穿戴设备和存储介质 |
TWI693926B (zh) * | 2019-03-27 | 2020-05-21 | 美律實業股份有限公司 | 聽力測試系統的設定方法以及聽力測試系統 |
CN109981186B (zh) * | 2019-04-10 | 2021-07-27 | 成都华日通讯技术股份有限公司 | 超短波全频段信号分选方法 |
WO2020214541A1 (en) | 2019-04-18 | 2020-10-22 | Dolby Laboratories Licensing Corporation | A dialog detector |
US11062691B2 (en) * | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
CN110097895B (zh) * | 2019-05-14 | 2021-03-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种纯音乐检测方法、装置及存储介质 |
CN110136696B (zh) * | 2019-05-22 | 2021-05-18 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN110231087B (zh) * | 2019-06-06 | 2021-07-23 | 江苏省广播电视集团有限公司 | 一种高清电视音频响度分析报警及归一化制作方法和设备 |
CN110347366B (zh) * | 2019-07-15 | 2023-08-08 | 百度在线网络技术(北京)有限公司 | 音量调节方法、终端设备、存储介质及电子设备 |
WO2021041568A1 (en) * | 2019-08-27 | 2021-03-04 | Dolby Laboratories Licensing Corporation | Dialog enhancement using adaptive smoothing |
CN110910895B (zh) * | 2019-08-29 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种声音处理的方法、装置、设备和介质 |
CN110660408B (zh) * | 2019-09-11 | 2022-02-22 | 厦门亿联网络技术股份有限公司 | 一种数字自动控制增益的方法和装置 |
CN110718235B (zh) * | 2019-09-20 | 2022-07-01 | 精锐视觉智能科技(深圳)有限公司 | 异常声音检测的方法、电子设备及存储介质 |
CN110739006B (zh) * | 2019-10-16 | 2022-09-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN111145726B (zh) * | 2019-10-31 | 2022-09-23 | 南京励智心理大数据产业研究院有限公司 | 基于深度学习的声场景分类方法、系统、装置及存储介质 |
CN110933235B (zh) * | 2019-11-06 | 2021-07-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声识别方法 |
CN110910906A (zh) * | 2019-11-12 | 2020-03-24 | 国网山东省电力公司临沂供电公司 | 基于电力内网的音频端点检测及降噪方法 |
TWI731472B (zh) * | 2019-11-14 | 2021-06-21 | 宏碁股份有限公司 | 電子裝置與音量自動調整方法 |
KR20210072384A (ko) * | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11817114B2 (en) | 2019-12-09 | 2023-11-14 | Dolby Laboratories Licensing Corporation | Content and environmentally aware environmental noise compensation |
KR20210086086A (ko) | 2019-12-31 | 2021-07-08 | 삼성전자주식회사 | 음악 신호 이퀄라이저 및 이퀄라이징 방법 |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
CN111192594B (zh) * | 2020-01-10 | 2022-12-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN111369465B (zh) * | 2020-03-04 | 2024-03-08 | 东软医疗系统股份有限公司 | Ct动态图像增强方法及装置 |
CN111445899B (zh) * | 2020-03-09 | 2023-08-01 | 咪咕文化科技有限公司 | 语音情绪识别方法、装置及存储介质 |
CN111028841B (zh) * | 2020-03-10 | 2020-07-07 | 深圳市友杰智新科技有限公司 | 唤醒系统调节参数的方法、装置、计算机设备和存储介质 |
CN111429943B (zh) * | 2020-03-20 | 2022-05-10 | 四川大学 | 音频中音乐及音乐相对响度的联合检测方法 |
CN111462737B (zh) * | 2020-03-26 | 2023-08-08 | 中国科学院计算技术研究所 | 一种训练用于语音分组的分组模型的方法和语音降噪方法 |
CN111475634B (zh) * | 2020-04-10 | 2023-04-28 | 复旦大学 | 基于座席语音切分的代表性话术片段抽取装置及方法 |
US11574618B2 (en) | 2020-04-16 | 2023-02-07 | Gracenote, Inc. | Methods and apparatus for harmonic source enhancement |
CN113763972B (zh) * | 2020-06-02 | 2024-07-02 | 中国移动通信集团终端有限公司 | 音频参数调整的方法、装置、设备及计算机存储介质 |
CN111797708A (zh) * | 2020-06-12 | 2020-10-20 | 瑞声科技(新加坡)有限公司 | 气流杂音检测方法、装置、终端及存储介质 |
CN111724757A (zh) * | 2020-06-29 | 2020-09-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法及相关产品 |
CN111899760B (zh) * | 2020-07-17 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
US20240038258A1 (en) | 2020-08-18 | 2024-02-01 | Dolby Laboratories Licensing Corporation | Audio content identification |
CN112216304B (zh) * | 2020-09-22 | 2022-02-18 | 浙江大学 | 一种基于双麦克风系统检测和定位无声语音指令的方法 |
TWI744036B (zh) * | 2020-10-14 | 2021-10-21 | 緯創資通股份有限公司 | 聲音辨識模型訓練方法及系統與電腦可讀取媒體 |
CN112492073B (zh) * | 2020-11-24 | 2021-09-28 | 捷开通讯(深圳)有限公司 | 音频播放方法、装置、存储介质及移动终端 |
CN113539283B (zh) * | 2020-12-03 | 2024-07-16 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频处理方法、装置、电子设备及存储介质 |
CN112700792B (zh) * | 2020-12-24 | 2024-02-06 | 南京邮电大学 | 音频场景识别分类方法 |
CN112770227B (zh) * | 2020-12-30 | 2022-04-29 | 中国电影科学技术研究所 | 音频处理方法、装置、耳机和存储介质 |
CN112969115B (zh) * | 2021-01-22 | 2022-12-02 | 深圳市睿耳电子有限公司 | 一种无线耳机的音质优化方法和相关设备 |
CN112967732B (zh) * | 2021-02-25 | 2023-10-03 | 北京百度网讯科技有限公司 | 调整均衡器的方法、装置、设备和计算机可读存储介质 |
CN115134675A (zh) * | 2021-03-26 | 2022-09-30 | 北京小米移动软件有限公司 | 声音输出方法及装置、电子设备、存储介质 |
CN113421552A (zh) * | 2021-06-22 | 2021-09-21 | 中国联合网络通信集团有限公司 | 音频识别方法和装置 |
US11671753B2 (en) * | 2021-08-27 | 2023-06-06 | Cisco Technology, Inc. | Optimization of multi-microphone system for endpoint device |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
US12057138B2 (en) | 2022-01-10 | 2024-08-06 | Synaptics Incorporated | Cascade audio spotting system |
CN114417843A (zh) * | 2022-01-20 | 2022-04-29 | 上海喜马拉雅科技有限公司 | 音频信息质量衡量方法、装置和电子设备 |
US20230260531A1 (en) * | 2022-02-16 | 2023-08-17 | Sony Group Corporation | Intelligent audio procesing |
US20240038256A1 (en) * | 2022-08-01 | 2024-02-01 | Lucasfilm Entertainment Company Ltd. LLC | Optimization for technical targets in audio content |
CN115695902B (zh) * | 2022-11-07 | 2024-09-10 | 百视通网络电视技术发展有限责任公司 | 盲人无障碍电影音频处理方法、装置及存储介质 |
CN116758934B (zh) * | 2023-08-18 | 2023-11-07 | 深圳市微克科技有限公司 | 一种智能穿戴设备对讲功能的实现方法、系统及介质 |
CN118016059B (zh) * | 2023-11-28 | 2024-08-16 | 铭泰医疗生物科技集团有限公司 | 一种智慧病房护理交互系统 |
Family Cites Families (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3150739A (en) | 1962-09-04 | 1964-09-29 | Dones Raymon | Loud speaker enclosure |
US4887299A (en) | 1987-11-12 | 1989-12-12 | Nicolet Instrument Corporation | Adaptive, programmable signal processing hearing aid |
CA2056110C (en) | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
KR100324988B1 (ko) * | 1994-06-13 | 2002-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 신호해석장치 |
US5806025A (en) | 1996-08-07 | 1998-09-08 | U S West, Inc. | Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank |
DE69840583D1 (de) | 1997-04-16 | 2009-04-02 | Emma Mixed Signal Cv | Verfahren und Vorrichtung zur Rauschverminderung, insbesondere bei Hörhilfegeräten |
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US20010044719A1 (en) | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
KR100580166B1 (ko) * | 1999-11-04 | 2006-05-15 | 삼성전자주식회사 | 등화기의 필터 계수를 조절하여 재생 성능을 높이는 장치및 방법 |
DE60120949T2 (de) | 2000-04-04 | 2007-07-12 | Gn Resound A/S | Eine hörprothese mit automatischer hörumgebungsklassifizierung |
US6901362B1 (en) | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP2002215195A (ja) * | 2000-11-06 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 音楽信号処理装置 |
DE10124699C1 (de) | 2001-05-18 | 2002-12-19 | Micronas Gmbh | Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
AUPS270902A0 (en) | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
WO2004008801A1 (en) | 2002-07-12 | 2004-01-22 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
US7454331B2 (en) | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US7003096B2 (en) | 2002-09-12 | 2006-02-21 | Plantronics, Inc. | Full duplex telephone set using echo cancellation and side tone management for high gain stability |
JP2004133403A (ja) * | 2002-09-20 | 2004-04-30 | Kobe Steel Ltd | 音声信号処理装置 |
US6993482B2 (en) * | 2002-12-18 | 2006-01-31 | Motorola, Inc. | Method and apparatus for displaying speech recognition results |
JP4939935B2 (ja) | 2003-06-24 | 2012-05-30 | ジーエヌ リザウンド エー/エス | 整合された音響処理を備える両耳用補聴器システム |
WO2005038774A1 (en) | 2003-10-22 | 2005-04-28 | Auckland University Of Technology | Adaptive sound and image learning system and method |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
EP1542206A1 (en) | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Apparatus and method for automatic classification of audio signals |
JP4185866B2 (ja) * | 2004-01-14 | 2008-11-26 | 富士通株式会社 | 音響信号処理装置および音響信号処理方法 |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
GB2413745A (en) | 2004-04-30 | 2005-11-02 | Axeon Ltd | Classifying audio content by musical style/genre and generating an identification signal accordingly to adjust parameters of an audio system |
US20050251273A1 (en) * | 2004-05-05 | 2005-11-10 | Motorola, Inc. | Dynamic audio control circuit and method |
US7366260B2 (en) * | 2004-05-21 | 2008-04-29 | Benq Corporation | Efficient MLSE equalizer implementation |
CN100514446C (zh) * | 2004-09-16 | 2009-07-15 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
EP1805891B1 (en) * | 2004-10-26 | 2012-05-16 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
DE602005009244D1 (de) * | 2004-11-23 | 2008-10-02 | Koninkl Philips Electronics Nv | Einrichtung und verfahren zur verarbeitung von audiodaten, computerprogrammelement und computerlesbares medium |
US20060182295A1 (en) | 2005-02-11 | 2006-08-17 | Phonak Ag | Dynamic hearing assistance system and method therefore |
DE102005020316B3 (de) | 2005-05-02 | 2006-10-19 | Siemens Audiologische Technik Gmbh | Hörgerätsystem mit Monosignalerzeugung und entsprechendes Verfahren |
WO2006132596A1 (en) | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
ATE487337T1 (de) | 2005-08-02 | 2010-11-15 | Gn Resound As | Hörhilfegerät mit windgeräuschunterdrückung |
US7774078B2 (en) * | 2005-09-16 | 2010-08-10 | Sony Corporation | Method and apparatus for audio data analysis in an audio player |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US9351087B2 (en) | 2006-03-24 | 2016-05-24 | Gn Resound A/S | Learning control of hearing aid parameter settings |
AU2007243586B2 (en) * | 2006-04-27 | 2010-12-23 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US7809723B2 (en) * | 2006-06-26 | 2010-10-05 | Microsoft Corporation | Distributed hierarchical text classification framework |
DK2064918T3 (en) | 2006-09-05 | 2015-01-26 | Gn Resound As | A hearing-aid with histogram based lydmiljøklassifikation |
WO2008028484A1 (en) | 2006-09-05 | 2008-03-13 | Gn Resound A/S | A hearing aid with histogram based sound environment classification |
KR100832360B1 (ko) * | 2006-09-25 | 2008-05-26 | 삼성전자주식회사 | 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템 |
WO2008078232A1 (en) * | 2006-12-21 | 2008-07-03 | Koninklijke Philips Electronics N.V. | A system for processing audio data |
KR100883656B1 (ko) | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
KR101414233B1 (ko) | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
US8195454B2 (en) | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
US8630853B2 (en) | 2007-03-26 | 2014-01-14 | Nec Corporation | Speech classification apparatus, speech classification method, and speech classification program |
JP4851387B2 (ja) * | 2007-05-08 | 2012-01-11 | シャープ株式会社 | 音響再生装置および音響再生方法 |
CN101790758B (zh) * | 2007-07-13 | 2013-01-09 | 杜比实验室特许公司 | 用于控制音频信号的信号处理的设备和方法 |
US8891778B2 (en) | 2007-09-12 | 2014-11-18 | Dolby Laboratories Licensing Corporation | Speech enhancement |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
WO2009118044A1 (en) * | 2008-03-26 | 2009-10-01 | Nokia Corporation | An audio signal classifier |
US8645129B2 (en) | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
WO2009138936A1 (en) | 2008-05-15 | 2009-11-19 | Koninklijke Philips Electronics N.V. | A surround sound reproduction system |
US8428949B2 (en) | 2008-06-30 | 2013-04-23 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
CN101685446A (zh) * | 2008-09-25 | 2010-03-31 | 索尼(中国)有限公司 | 音频数据分析装置和方法 |
CN101727903B (zh) * | 2008-10-29 | 2011-10-19 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
JP2010118978A (ja) * | 2008-11-14 | 2010-05-27 | Victor Co Of Japan Ltd | 音像定位制御装置および音像定位制御方法 |
UA101542C2 (ru) * | 2008-12-15 | 2013-04-10 | Долби Лабораторис Лайсензин Корпорейшн | Виртуализатор окружающего звука с динамическим сжатием диапазона и способ |
CN101751920A (zh) * | 2008-12-19 | 2010-06-23 | 数维科技(北京)有限公司 | 基于再次分类的音频分类装置及其实现方法 |
JP4439579B1 (ja) * | 2008-12-24 | 2010-03-24 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
US8229125B2 (en) | 2009-02-06 | 2012-07-24 | Bose Corporation | Adjusting dynamic range of an audio system |
US8432919B2 (en) * | 2009-02-25 | 2013-04-30 | Cisco Technology, Inc. | Data stream classification |
US8675096B2 (en) * | 2009-03-31 | 2014-03-18 | Panasonic Corporation | Image capturing device for setting one or more setting values for an imaging mechanism based on acquired sound data that includes information reflecting an imaging environment |
US8320852B2 (en) * | 2009-04-21 | 2012-11-27 | Samsung Electronic Co., Ltd. | Method and apparatus to transmit signals in a communication system |
JP4621792B2 (ja) * | 2009-06-30 | 2011-01-26 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
EP2478444B1 (en) | 2009-09-14 | 2018-12-12 | DTS, Inc. | System for adaptive voice intelligibility processing |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
KR101253102B1 (ko) * | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
WO2011044064A1 (en) | 2009-10-05 | 2011-04-14 | Harman International Industries, Incorporated | System for spatial extraction of audio signals |
US9552845B2 (en) | 2009-10-09 | 2017-01-24 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
KR20110078091A (ko) | 2009-12-30 | 2011-07-07 | 삼성전자주식회사 | 이퀄라이저 조정 장치 및 방법 |
US20110190008A1 (en) * | 2010-01-29 | 2011-08-04 | Nokia Corporation | Systems, methods, and apparatuses for providing context-based navigation services |
CN102195581A (zh) * | 2010-03-18 | 2011-09-21 | 承景科技股份有限公司 | 数字音频信号的音量调整方法 |
US20120191231A1 (en) * | 2010-05-04 | 2012-07-26 | Shazam Entertainment Ltd. | Methods and Systems for Identifying Content in Data Stream by a Client Device |
US20110313762A1 (en) | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
CN102439660A (zh) * | 2010-06-29 | 2012-05-02 | 株式会社东芝 | 基于置信度得分的语音标签方法和装置 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
JP2012083746A (ja) * | 2010-09-17 | 2012-04-26 | Kinki Univ | 音処理装置 |
CN102446506B (zh) * | 2010-10-11 | 2013-06-05 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
US8521541B2 (en) * | 2010-11-02 | 2013-08-27 | Google Inc. | Adaptive audio transcoding |
TWI665659B (zh) | 2010-12-03 | 2019-07-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
CN102486920A (zh) | 2010-12-06 | 2012-06-06 | 索尼公司 | 音频事件检测方法和装置 |
US20120294457A1 (en) | 2011-05-17 | 2012-11-22 | Fender Musical Instruments Corporation | Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function |
JP5085769B1 (ja) * | 2011-06-24 | 2012-11-28 | 株式会社東芝 | 音響制御装置、音響補正装置、及び音響補正方法 |
JP4982617B1 (ja) * | 2011-06-24 | 2012-07-25 | 株式会社東芝 | 音響制御装置、音響補正装置、及び音響補正方法 |
US9160837B2 (en) | 2011-06-29 | 2015-10-13 | Gracenote, Inc. | Interactive streaming content apparatus, systems and methods |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US9524729B2 (en) * | 2012-02-16 | 2016-12-20 | 2236008 Ontario Inc. | System and method for noise estimation with music detection |
ES2770590T3 (es) * | 2012-02-24 | 2020-07-02 | Fraunhofer Ges Forschung | Aparato para proporcionar una señal de audio para reproducción mediante un transductor de sonido, sistema, método y programa informático |
US9685921B2 (en) * | 2012-07-12 | 2017-06-20 | Dts, Inc. | Loudness control with noise detection and loudness drop detection |
US9318092B2 (en) * | 2013-01-29 | 2016-04-19 | 2236008 Ontario Inc. | Noise estimation control system |
US9374629B2 (en) * | 2013-03-15 | 2016-06-21 | The Nielsen Company (Us), Llc | Methods and apparatus to classify audio |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
-
2013
- 2013-03-26 CN CN201310100367.6A patent/CN104078050A/zh active Pending
-
2014
- 2014-03-25 US US14/779,322 patent/US9842605B2/en active Active
- 2014-03-25 EP EP19190808.6A patent/EP3598448B2/en active Active
- 2014-03-25 EP EP14719176.1A patent/EP2979267B1/en active Active
- 2014-03-25 WO PCT/US2014/031671 patent/WO2014160678A2/en active Application Filing
- 2014-03-25 CN CN201910010064.2A patent/CN109616142B/zh active Active
- 2014-03-25 CN CN201480018590.9A patent/CN105074822B/zh active Active
- 2014-03-25 JP JP2016505531A patent/JP6573870B2/ja active Active
-
2016
- 2016-01-22 HK HK16100768.2A patent/HK1212808A1/zh unknown
-
2017
- 2017-11-09 US US15/808,576 patent/US10803879B2/en active Active
-
2019
- 2019-08-14 JP JP2019148802A patent/JP6921907B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20180068670A1 (en) | 2018-03-08 |
EP3598448A1 (en) | 2020-01-22 |
EP2979267B1 (en) | 2019-12-18 |
JP2019194742A (ja) | 2019-11-07 |
WO2014160678A2 (en) | 2014-10-02 |
CN109616142B (zh) | 2023-11-07 |
US10803879B2 (en) | 2020-10-13 |
CN105074822B (zh) | 2019-11-12 |
US9842605B2 (en) | 2017-12-12 |
WO2014160678A3 (en) | 2015-03-05 |
EP2979267A2 (en) | 2016-02-03 |
CN104078050A (zh) | 2014-10-01 |
EP3598448B1 (en) | 2020-08-26 |
US20160078879A1 (en) | 2016-03-17 |
EP3598448B2 (en) | 2023-08-23 |
JP2016519784A (ja) | 2016-07-07 |
CN105074822A (zh) | 2015-11-18 |
HK1212808A1 (zh) | 2016-06-17 |
JP6921907B2 (ja) | 2021-08-18 |
CN109616142A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896135B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
JP6325640B2 (ja) | 等化器コントローラおよび制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170322 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190814 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6573870 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |