JP2015534116A - マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 - Google Patents
マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 Download PDFInfo
- Publication number
- JP2015534116A JP2015534116A JP2015532079A JP2015532079A JP2015534116A JP 2015534116 A JP2015534116 A JP 2015534116A JP 2015532079 A JP2015532079 A JP 2015532079A JP 2015532079 A JP2015532079 A JP 2015532079A JP 2015534116 A JP2015534116 A JP 2015534116A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- channels
- audio signal
- content
- rank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 title claims description 73
- 230000005236 sound signal Effects 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000002156 mixing Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical group N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 101001099542 Aspergillus niger Pectin lyase A Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000003079 width control Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
Description
本稿に記載される例示的実施形態は、コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的検出に関する。二つ以上の個別チャネルをもつオーディオ信号から諸特徴集合が抽出される。抽出された諸特徴集合に基づいて、そのオーディオ信号がより少数のチャネルをもつオーディオ・コンテンツから上方混合されたものかどうかが判定される。この判定は、マルチチャネル・オーディオを生成する際に上方混合が関わっていたことの一般化された検出およびアクセスされたオーディオ信号を生成した特定の上方混合器の特定を許容する。上方混合判定は、統計的学習モデルに基づいて、前記抽出された特徴についてのスコアを計算することを含む。統計的学習モデルは、オフラインのトレーニング・セットに基づいて計算されてもよい。統計的学習モデルは、本稿では適応ブースト(Adaptive Boosting)(AdaBoost)との関係で記述されるが、実施形態はガウシアン混合モデル(GMM: Gaussian Mixture Model)、サポートベクターマシン(SVM: Support Vector Machine)および/または他の機械学習プロセスを使って実装されてもよい。
図1は、本発明のある実施形態に基づく、例示的な法科学的上方混合器素性検出システム100を描いている。法科学的上方混合器素性検出システム100は、上方混合器を用いて上方混合されたマルチチャネル・オーディオ・コンテンツの特性的な特徴に基づいてその特定の上方混合器を同定する。特性的な特徴は、その特定の上方混合器によって生成される多様なマルチチャネル・コンテンツを解析することから学習される。機械学習プロセッサ155(たとえばAdaBoost)は、システム100のリアルタイムの素性検出機能に関してオフラインで機能する。機械学習プロセスは、のちにもう少し詳細に記述する。一つまたは複数の特定の上方混合器型が所与の試験コンテンツ片に付与する特性的な特徴を学習すると、解析‐学習された特性的な特徴が記憶されてもよい。ある実施形態では、解析のためにオーディオ・コンテンツから抽出される特徴は、階数解析に基づく特徴、信号漏れ解析および伝達信号解析に基づく特徴を含む。
マルチチャネル・コンテンツを生成するために、上方混合器は、ステレオ・コンテンツから直接信号成分および周囲信号成分を推定する。一般に、ステレオからマルチチャネル・コンテンツを導出する上方混合器は、下記の式(1)に従って記述されることができる。
式(1)では、変数xは2×1の列ベクトルを表わし、これは入力LおよびRステレオ・チャネルからの信号成分を表わす。係数AはN×2行列を表わし、これは二つの信号成分を整数N(これは2より大きい)個の出力チャネルにルーティングする。積yはN×1の出力列ベクトルであり、これは上方混合器のN個の出力チャネルの信号成分を表わす。積yはxにおける二つの独立な信号の線形結合を含む。よって、積yの内在的な階数は2を超えない。
式(2)において、変数μiおよびμjはそれぞれチャネルiおよびチャネルjからのサンプル値の平均を表わし、kは1ないし最大chunk_lengthの当該チャンクの諸部分の継続時間の範囲を表わす:k=1,2,…,chunk_length。
rank_estimate=log10[(1/N−2)(Σkek)/(1/2(e1+e2))] (3)
式(3)において、kはk=3,4,…,Nの範囲である。分子(1/N−2)(Σkek)は3から始まってNまでの固有値における平均エネルギーの測定値を表わす。分母1/2(e1+e2)は、最初の二つの有意な固有値についての平均エネルギーの測定値を表わす。2に等しい階数については、比(1/N−2)(Σkek)/(1/2(e1+e2))は0に等しくなる。この比についての0より大きな値は、階数が2より大きいことを示す。
・時間領域サンプルから推定される共変行列に基づいてrank_estimate_1を計算し;
・左サラウンド・チャネルLsおよび右サラウンド・チャネルRsに対して逆脱相関処理を実行し;
・逆脱相関後の時間領域サンプルから推定される共変行列に基づいてrank_estimate_2を計算することによって行なう。
右チャネルRs脱相関器が逆脱相関のために使用されていれば、rank_estimate_1の値はrank_esimate_2の値を超える。しかしながら、上方混合の際にサラウンド・チャネルに対して脱相関が適用されていなければ、rank_estimate_2がrank_estimate_1を超える。
上方混合器が音源分離を実行するのに典型的には困難があることがある。実際、いくつかの上方混合器は音源を分離することができない。二チャネル・ステレオ入力信号を与えられて、上方混合器は典型的には、主要な音源に属するサブバンド・エネルギーの第一の群と、より周辺的な音に属するサブバンドの第二の群とを推定しようと試みる。この推定は、通例、LとRのステレオ・チャネルの間で帯域ごとに計算される相関値に基づいて実行される。たとえば、ある特定の帯域において相関が高い場合、その帯域は、主要な音源からのエネルギーをもつと想定される。
ある種の上方混合器(たとえばドルビー・プロロジック(商標))は、まず、ステレオ・コンテンツからサラウンド・チャネルを導出するための信号を推定するための参照チャネルを導出する。これらの上方混合器は、低域通過フィルタリングまたはシェルフ・フィルタリングを参照チャネルに対して適用して、サラウンド・チャネル信号を導出する。たとえば、プロロジック(商標)上方混合器におけるサラウンド・チャネルのための参照信号はmLin−nRinを含み、ここで、mおよびnは正の値を含み、LinおよびRinは入力の左および右のチャネル信号を含む。次いで、そこからサラウンド・チャネルに漏れうる高周波コンテンツを抑制するために、低域通過フィルタ(たとえば7kHz)またはシェルフ・フィルタが適用されてもよい。図5のAおよびBは、それぞれ、例示的な低域通過フィルタ応答51およびシェルフ・フィルタ周波数応答52を描いている。
式(4)において、P(l-r)Lsは、参照チャネル(入力)とサラウンド・チャネル(出力)との間の相互パワースペクトル密度(cross power spectral density)を表わし、P(l-r)(l-r)は参照チャネル(入力)のパワースペクトル密度を表わす。伝達関数Testは、最小平均二乗(LMS)アルゴリズムを使って推定されてもよい。推定された伝達関数Testは次いで、フィルタ応答51および/またはフィルタ応答52のようなテンプレート伝達関数と比較される。
プロロジック(商標)のような上方混合器は、サラウンド・チャネルを前方チャネルから脱相関させるよう、前方チャネルとサラウンド・チャネルとの間の時間遅延を導入することがある。ある実施形態は、一対のチャネル間の時間遅延を推定するよう機能し、それに基づいて特徴が導出できる。下記の表1は、L/R信号に対する前方/サラウンド・チャネル時間遅延オフセット(ms単位)についての情報を与える。
式(5)において、nは−Nから+Nまで変わり、wは1きざみで−Nから+Nまで変わる。X1,iとX2,iの間の時間遅延推定値は、相関シーケンスが最大値をもつシフトwである:
Ai=argmax(Ci)。
プロロジックII(商標)のようないくつかの上方混合器は、出力サラウンド・チャネルの間の位相関係を導入することがある。たとえば、プロロジックIIの「映画」モードではLsチャネルはRsチャネルと同位相であるが、プロロジックIIの「音楽」モードではこれら二つのチャネルは180度位相がずれている。映画モードでは、サラウンド・チャネルが同位相なのは、コンテンツ・クリエーターが、音響的に空間的な意味において、聴取者の背後にオブジェクトを定位させることを許容するためである。対照的に、音楽モードでは、位相がずれたサラウンド・チャネルはより大きな広がりを提供する。ある実施形態は、サラウンド・チャネル間の位相関係を捕捉する特徴を導出し、それにより、コンテンツを上方混合するのに使われた動作のモードを検出するよう機能する。図7および図8は、二つのそれぞれの動作モードにおける例示的な上方混合器についての相関値分布700および800を描いている。
表3:さまざまな源からのマルチチャネル・コンテンツを検出するためのモデルをトレーニングするAdaBoostフレームワークにおいて使われる特徴の例示的なリスト
1. rank_est: オーディオ・チャンクから計算される共変行列からの階数推定値
2. phase-rel: LsとRsの間の相関
3. mean_align_l-r_ls: L-RとLsの間の時間遅延推定値の平均
4. var_align_l-r_ls: L-RとLsの間の時間遅延推定値の分散
5. most_frequent l-r_ls: L-RとLsの間の最頻の時間遅延推定値
6. mean_align_l-r_rs: L-RとRsの間の時間遅延推定値の平均
7. var_align_l-r_rs: L-RとRsの間の時間遅延推定値の分散
8. most_frequent l-r_rs: L-RとRsの間の最頻の時間遅延推定値
9. mean_align_l_c: LとCの間の時間遅延推定値の平均
10. var_align_l_c: LとCの間の時間遅延推定値の分散
11. most_frequent l_c: LとCの間の最頻の時間遅延推定値
12. rank_est_aft_invdecorr: 逆脱相関後の階数推定値
13. phase-rel_aft_invdecorr: 逆脱相関後のLsとRsの間の相関
14. mean_align_l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の時間遅延推定値の平均
15. var_align_l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の時間遅延推定値の分散
16. most_frequent l-r_ls_aft_invdecorr: 逆脱相関後のL-RとLsの間の最頻の時間遅延推定値
17. mean_align_l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の時間遅延推定値の平均
18. var_align_l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の時間遅延推定値の分散
19. most_frequent l-r_rs_aft_invdecorr: 逆脱相関後のL-RとRsの間の最頻の時間遅延推定値
20. mean_align_l_c_aft_invdecorr: 逆脱相関後のLとCの間の時間遅延推定値の平均
21. var_align_l_c_aft_invdecorr: 逆脱相関後のLとCの間の時間遅延推定値の分散
22. most_frequent l_c_aft_invdecorr: 逆脱相関後のLとCの間の最頻の時間遅延推定値
23. leakage_to_left: 中央(C)から左(L)への発話の漏れ
24. leakage_to_right: 中央(C)から左(R)への発話の漏れ
25. mean_egy_ratio(left to center): 左と中央の間のエネルギー比
26. mean_corr_shelf_template: 伝達関数推定特徴(相関に関するシェルフ・フィルタ・テンプレートとの比較)
27. mean_corr_emulation_template: 伝達関数推定特徴(相関に関する7kHzフィルタ・テンプレートとの比較)
28. mean_euc_dist_shelf_template: 伝達関数推定特徴(ユークリッド距離に関するシェルフ・フィルタ・テンプレートとの比較)
29. mean_euc_dist_emulation_template: 伝達関数推定特徴(ユークリッド距離に関する7kHzフィルタ・テンプレートとの比較)
30. rank_est-rank_est_aft_invdecorr(1-12): 逆脱相関後の階数推定値における変化
31. var_align_l-r_ls-var_align_l-r_ls_aft_invdecorr(4-15): 逆脱相関後のL-RとLsの間の時間遅延推定値の分散における変化
32. var_align_l-r_rs-var_align_l-r_rs_aft_invdecorr(7-18): 逆脱相関後のL-RとRsの間の時間遅延推定値の分散における変化
33. var_align_l_c-var_align_l_c_aft_invdecorr(10-21): 逆脱相関後のLとCの間の時間遅延推定値の分散における変化
34. mean_align_l_ls: LとLsの間の時間遅延推定値の平均
35. var_align_l_ls: LとLsの間の時間遅延推定値の分散
36. most_frequent l_ls: LとLsの間の最頻の時間遅延推定値
37. mean_align_r_rs: RとRsの間の時間遅延推定値の平均
38. var_align_r_rs: RとRsの間の時間遅延推定値の分散
39. most_frequent r_rs: RとRsの間の最頻の時間遅延推定値
40. mean_align_l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の時間遅延推定値の平均
41. var_align_l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の時間遅延推定値の分散
42. most_frequent l_ls_aftinvdecorr: 逆脱相関後のLとLsの間の最頻の時間遅延推定値
43. mean_align_r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の時間遅延推定値の平均
44. var_align_r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の時間遅延推定値の分散
45. most_frequent r_rs_aftinvdecorr: 逆脱相関後のRとRsの間の最頻の時間遅延推定値
46. var_align_l_ls-var_align_l_ls_aftinvdecorr(35-41): 逆脱相関後のLとLsの間の時間遅延推定値の分散の変化
47. var_align_r_rs-var_align_r_rs_aftinvdecorr(38-44): 逆脱相関後のRとRsの間の時間遅延推定値の分散の変化
48. measure of CWC(corr_mat(1,2)+corr(2,3))*0.5: L,CとRの間の平均相関、すなわち0.5(corr(L,C)+corr(R,C))。これは、中央幅制御(CWC: Center Width Control)設定のインジケーターである。すなわち、中央信号がLおよびRに加えられる場合、この特徴値が大きくなると期待される。
49. measure of CWC(corr_mat(4,1)) (L and Ls corr): LとLsの間の相関
50. measure of CWC(corr_mat(5,3)) (R and Rs corr): RとRsの間の相関
51. measure of CWC(49+abs(50))*0.5/48: (Corr(L,Ls)+Corr(R,Rs))*0.5/Corr(L,Ls)+Corr(R,Rs))*0.5 中央幅制御(CWC)設定のもう一つの指標
52. relativeegy to center (left): db単位での中央チャネルに比べた左チャネルの相対エネルギー
53. relativeegy to center (right) : db単位での中央チャネルに比べた右チャネルの相対エネルギー
54. relativeegy to center (ls): db単位での中央チャネルに比べたLsチャネルの相対エネルギー
55. relativeegy to center (rs): db単位での中央チャネルに比べたRsチャネルの相対エネルギー。
本発明の実施形態は、コンピュータ・システム、電子回路およびコンポーネントにおいて構成されたシステム、マイクロコントローラ、フィールド・プログラム可能なゲート・アレイ(FPGA)または他の構成設定可能もしくはプログラム可能な論理デバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)のような集積回路(IC)装置および/またはそのようなシステム、デバイスまたはコンポーネントの一つまたは複数を含む装置を用いて実装されてもよい。コンピュータおよび/またはICは、本稿に記載したようなメディア処理履歴の法科学的検出に基づく適応的なオーディオ処理に関する命令を実行、制御または執行してもよい。コンピュータおよび/またはICは、たとえば本稿に記載したような、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出に関する多様なパラメータまたは値の任意のものを計算してもよい。コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的検出の実施形態はハードウェア、ソフトウェア、ファームウェアおよびそれらのさまざまな組み合わせにおいて実装されうる。
図10は、本発明のある実施形態が、本稿に記載されるような、コンテンツの解析に基づく、マルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出のために実装されうる例示的なICデバイス1000を描いている。ICデバイス1000は、エンコーダおよび/またはデコーダ装置のコンポーネントをなしていて、該コンポーネントが本稿に記載される向上に関係して機能するのでもよい。追加的または代替的に、ICデバイス1000は、表示管理、生産施設、インターネットもしくは電話網もしくは他のネットワークに付随する、上記エンコーダおよび/またはデコーダが機能する際に用いるエンティティ、装置もしくはシステムのコンポーネントをなしていて、該コンポーネントが本稿に記載される向上に関係して機能するのでもよい。
コンテンツの解析に基づくマルチチャネル・オーディオ・コンテンツにおける上方混合の法科学的な検出に関する例示的な諸実施形態がこのように記載されている。以上の明細書では、本発明の諸実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。
Claims (23)
- 二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する段階と;
アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する段階と;
抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する段階とを含む、
方法。 - 前記判定が、特定の上方混合器が前記アクセスされたオーディオ信号を生成したことを同定することを含む、請求項1記載の方法。
- 前記上方混合判定が、統計的学習モデルに基づいて前記抽出された特徴についてのスコアを計算することを含む、請求項1記載の方法。
- 前記統計的学習モデルが、オフライン・トレーニング・セットに基づいて計算される、請求項3記載の方法。
- 前記統計的学習モデルが:
・適応ブースト(AdaBoost)アルゴリズム;
・ガウシアン混合モデル(GMM);
・サポートベクターマシン(SVM);または
・機械学習プロセス
のうちの一つまたは複数を含む、請求項3記載の方法。 - 前記抽出された特徴がさらに:
前記アクセスされたオーディオ信号の階数解析;
前記アクセスされたオーディオ信号の前記二つ以上のチャネル上の信号の少なくとも一つの成分の漏れの解析;
前記二つ以上のチャネルの少なくとも一対の間の伝達関数の推定;
前記二つ以上のチャネルの少なくとも一対の間の位相関係の推定;または
前記二つ以上のチャネルの少なくとも一対の間の時間遅延関係の推定
のうちの一つまたは複数を含む、請求項1記載の方法。 - 前記時間遅延関係または前記位相関係の一つまたは複数の推定は、前記対のチャネルのそれぞれの間の相関を計算することによって推定される、請求項6記載の方法。
- 前記階数解析は:
広く時間領域における前記アクセスされたオーディオ信号;または
前記アクセスされたオーディオ信号の前記二つ以上のチャネルに対応する複数の周波数帯域のそれぞれ
において実行される、請求項6記載の方法。 - 時間領域における前記アクセスされたオーディオ信号に対して実行される前記階数解析が広帯域の階数解析を含み;
前記広帯域の時間領域ベースの階数解析および対応する周波数帯域のそれぞれにおける階数解析を実行したとき、当該方法は:
前記広帯域の時間領域の階数解析を、前記周波数帯域のそれぞれにおける階数解析と比較することを含み、
前記比較が、前記上方混合器が広帯域またはマルチバンド上方混合器のいずれを含むかを検出する、
請求項8記載の方法。 - 前記チャネル対のチャネルのそれぞれを時間的に整列させる段階をさらに含み、
前記階数解析は、時間的整列後に実行される、
請求項6記載の方法。 - 前記階数解析が初期階数付けを含み、当該方法がさらに:
前記初期階数解析を完了したときに、前記アクセスされたオーディオ信号の少なくとも一対のサラウンドサウンド・チャネルに対して逆脱相関を実行する段階と;
前記逆脱相関を実行したときに、少なくとも部分的にある特徴に基づいて前記階数解析を繰り返す段階であって、該特徴は、その後の階数付けにおいて該繰り返される階数解析をもって階数付けされる、段階とを含む、
請求項6記載の方法。 - 前記繰り返される階数解析からの前記その後の階数付けを、逆脱相関の前に実行された初期階数付けと比較する段階をさらに含む、請求項11記載の方法。
- 前記信号成分漏れ解析は、前記オーディオ信号の前記チャネルのうちの少なくとも二つのチャネルのそれぞれにおいて同時的に発話関係の信号成分を検出または分類することに関する、請求項6記載の方法。
- 前記少なくとも二つのチャネルのうちの一つまたは複数が、中央チャネル以外のチャネルである、請求項13記載の方法。
- 前記マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくともチャネルの相補的な対における音楽的な声の成分を含み、前記信号成分漏れ解析が、前記相補的なチャネル対以外の少なくとも一つのチャネルにおける前記音楽的な声に関係した成分を検出または分類することに関する、請求項6記載の方法。
- 前記マルチチャネル・オーディオ・コンテンツの離散的なインスタンスが、少なくとも一つの特定のチャネルにおける周囲のまたはシーンの音またはノイズのうちの一つまたは複数に関係する一つまたは複数の成分を含み、前記信号成分漏れ解析が、前記特定のチャネル以外の少なくとも一つのチャネルにおける前記周囲のまたはシーンの音またはノイズに関係した成分を検出または分類することに関する、請求項6記載の方法。
- 前記伝達関数推定が:
相互パワースペクトル密度;および
入力パワースペクトル密度
に基づいて実行される、請求項6記載の方法。 - 前記伝達関数推定が、最小平均二乗(LMS)アルゴリズムに基づいて実行される、請求項2記載の方法。
- 前記上方混合判定がさらに:
前記抽出された特徴をある継続時間にわたって解析する段階と;
解析された前記特徴に基づいて、前記抽出された特徴に対して計算される少なくとも平均値、分散値および最頻値を含む記述的な統計の集合を計算する段階とを含む、
請求項1記載の方法。 - コンピュータ・プロセッサを用いて実行されたときに法科学的な上方混合器検出プロセスを前記コンピュータ・プロセッサに実行させる、実行するよう前記コンピュータ・プロセッサを制御するまたは実行するよう前記コンピュータ・プロセッサをプログラムする命令がエンコードされ、記憶されている非一時的なコンピュータ可読記憶媒体であって、前記プロセスは:
二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する段階であって、前記オーディオ信号は属性の一つまたは複数の集合を有する、段階と;
アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する段階であって、抽出された特徴はそれぞれ属性の前記一つまたは複数の集合に対応する、段階と;
抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する段階とを含む、
非一時的なコンピュータ可読記憶媒体。 - 前記プロセスがさらに、特定の上方混合器が前記アクセスされたオーディオ信号を生成したことを同定することを含む、請求項20記載の非一時的なコンピュータ可読記憶媒体。
- 二つ以上の個別のチャネルを有するオーディオ信号にアクセスするまたは該オーディオ信号を受領する手段であって、前記オーディオ信号は属性の一つまたは複数の集合を有する、手段と;
アクセスされたオーディオ信号から一つまたは複数の特徴を抽出する手段であって、抽出された特徴はそれぞれ属性の前記一つまたは複数の集合に対応する、手段と;
抽出された特徴に基づいて、前記オーディオ信号が、アクセスされたまたは受領されたオーディオ信号より少数のチャネルをもつオーディオ・コンテンツから上方混合されたものであるかどうかを判定する手段とを有する、
システム。 - 前記アクセスされたオーディオ信号を生成した特定の上方混合器を同定する手段をさらに有する、請求項22記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261701535P | 2012-09-14 | 2012-09-14 | |
US61/701,535 | 2012-09-14 | ||
PCT/US2013/059670 WO2014043476A1 (en) | 2012-09-14 | 2013-09-13 | Multi-channel audio content analysis based upmix detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015534116A true JP2015534116A (ja) | 2015-11-26 |
Family
ID=49253430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015532079A Ceased JP2015534116A (ja) | 2012-09-14 | 2013-09-13 | マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150243289A1 (ja) |
EP (1) | EP2896040B1 (ja) |
JP (1) | JP2015534116A (ja) |
CN (1) | CN104704558A (ja) |
WO (1) | WO2014043476A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150025852A (ko) * | 2013-08-30 | 2015-03-11 | 한국전자통신연구원 | 멀티채널 오디오 분리 장치 및 방법 |
CN105336332A (zh) | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN105992120B (zh) | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
CN105321526B (zh) * | 2015-09-23 | 2020-07-24 | 联想(北京)有限公司 | 音频处理方法和电子设备 |
CN117238300A (zh) | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
CN112005210A (zh) * | 2018-08-30 | 2020-11-27 | 惠普发展公司,有限责任合伙企业 | 多通道源音频的空间特性 |
GB2586451B (en) * | 2019-08-12 | 2024-04-03 | Sony Interactive Entertainment Inc | Sound prioritisation system and method |
US10930301B1 (en) * | 2019-08-27 | 2021-02-23 | Nec Corporation | Sequence models for audio scene recognition |
CN112866896B (zh) * | 2021-01-27 | 2022-07-15 | 北京拓灵新声科技有限公司 | 一种沉浸式音频上混方法及系统 |
CN116828385A (zh) * | 2023-08-31 | 2023-09-29 | 深圳市广和通无线通信软件有限公司 | 一种基于人工智能分析的音频数据处理方法及相关装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04176279A (ja) * | 1990-11-09 | 1992-06-23 | Sony Corp | ステレオ/モノラル判別装置 |
JP2004272134A (ja) * | 2003-03-12 | 2004-09-30 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
US20060008100A1 (en) * | 2004-07-09 | 2006-01-12 | Emersys Co., Ltd | Apparatus and method for producing 3D sound |
JP2006245670A (ja) * | 2005-02-28 | 2006-09-14 | Yamaha Corp | 適応型音場支援装置 |
JP2010286586A (ja) * | 2009-06-10 | 2010-12-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP2011259298A (ja) * | 2010-06-10 | 2011-12-22 | Hitachi Consumer Electronics Co Ltd | 3次元音声出力装置 |
WO2012158705A1 (en) * | 2011-05-19 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US8345899B2 (en) * | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
US8077893B2 (en) * | 2007-05-31 | 2011-12-13 | Ecole Polytechnique Federale De Lausanne | Distributed audio coding for wireless hearing aids |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
EP2360681A1 (en) * | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
-
2013
- 2013-09-13 US US14/427,879 patent/US20150243289A1/en not_active Abandoned
- 2013-09-13 EP EP13767205.1A patent/EP2896040B1/en not_active Not-in-force
- 2013-09-13 WO PCT/US2013/059670 patent/WO2014043476A1/en active Application Filing
- 2013-09-13 CN CN201380047766.9A patent/CN104704558A/zh active Pending
- 2013-09-13 JP JP2015532079A patent/JP2015534116A/ja not_active Ceased
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04176279A (ja) * | 1990-11-09 | 1992-06-23 | Sony Corp | ステレオ/モノラル判別装置 |
JP2004272134A (ja) * | 2003-03-12 | 2004-09-30 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
US20060008100A1 (en) * | 2004-07-09 | 2006-01-12 | Emersys Co., Ltd | Apparatus and method for producing 3D sound |
JP2006245670A (ja) * | 2005-02-28 | 2006-09-14 | Yamaha Corp | 適応型音場支援装置 |
JP2010286586A (ja) * | 2009-06-10 | 2010-12-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP2011259298A (ja) * | 2010-06-10 | 2011-12-22 | Hitachi Consumer Electronics Co Ltd | 3次元音声出力装置 |
WO2012158705A1 (en) * | 2011-05-19 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
Non-Patent Citations (1)
Title |
---|
伏木 雅昭 MASAAKI FUSHIKI: "身近になったオーディオ符号化", 日本音響学会誌 第60巻 第1号 THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 第60巻、第1号, JPN6016020346, 25 December 2003 (2003-12-25), JP, pages 41 - 46, ISSN: 0003492252 * |
Also Published As
Publication number | Publication date |
---|---|
WO2014043476A1 (en) | 2014-03-20 |
US20150243289A1 (en) | 2015-08-27 |
CN104704558A (zh) | 2015-06-10 |
EP2896040A1 (en) | 2015-07-22 |
EP2896040B1 (en) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015534116A (ja) | マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 | |
US11877140B2 (en) | Processing object-based audio signals | |
CN110070882B (zh) | 语音分离方法、语音识别方法及电子设备 | |
US10607629B2 (en) | Methods and apparatus for decoding based on speech enhancement metadata | |
CN105074822B (zh) | 用于音频分类和处理的装置和方法 | |
RU2568926C2 (ru) | Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации | |
Seetharaman et al. | Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures | |
WO2012158705A1 (en) | Adaptive audio processing based on forensic detection of media processing history | |
JP2022177253A (ja) | 方向性音量マップベースのオーディオ処理 | |
Woodruff et al. | Sequential organization of speech in reverberant environments by integrating monaural grouping and binaural localization | |
Rachavarapu et al. | Localize to binauralize: Audio spatialization from visual sound source localization | |
US11463833B2 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
Spille et al. | Combining binaural and cortical features for robust speech recognition | |
US20220392461A1 (en) | Electronic device, method and computer program | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
JP2022545709A (ja) | マルチチャネル・オーディオ信号のチャネル識別 | |
Sutojo et al. | Segmentation of Multitalker Mixtures Based on Local Feature Contrasts and Auditory Glimpses | |
US20240021208A1 (en) | Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec | |
Yuan et al. | Exploring the Impacts of Scenario Variability on Speech Separation Tasks | |
Ibrahim | PRIMARY-AMBIENT SEPARATION OF AUDIO SIGNALS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20170627 |