JP2018508823A - オーディオ源の分離 - Google Patents
オーディオ源の分離 Download PDFInfo
- Publication number
- JP2018508823A JP2018508823A JP2017541932A JP2017541932A JP2018508823A JP 2018508823 A JP2018508823 A JP 2018508823A JP 2017541932 A JP2017541932 A JP 2017541932A JP 2017541932 A JP2017541932 A JP 2017541932A JP 2018508823 A JP2018508823 A JP 2018508823A
- Authority
- JP
- Japan
- Prior art keywords
- source
- parameters
- audio content
- components
- unit configured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002955 isolation Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 78
- 230000003595 spectral effect Effects 0.000 claims abstract description 51
- 238000000926 separation method Methods 0.000 claims abstract description 39
- 230000002123 temporal effect Effects 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims abstract description 15
- 238000002156 mixing Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 238000000513 principal component analysis Methods 0.000 claims description 18
- 239000000203 mixture Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000012880 independent component analysis Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/265—Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
- G10H2210/295—Spatial effects, musical uses of multiple audio channels, e.g. stereo
- G10H2210/305—Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本願は2015年2月16日に出願された中国特許出願第201510085195.9号および2015年2月26日に出願された米国仮特許出願第62/121,125号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
本稿に開示される実施形態は概括的にはオーディオ・コンテンツ処理に関し、より詳細には、マルチチャネル・フォーマットのオーディオ・コンテンツからの源を分離するための方法およびシステムに関する。
初期化段階:
1.各源のスペクトル・パラメータの式(3)における再構成されたSTFT
5.Σi|Aij,fn|2=1を課し、{Wj,Hj}をしかるべくスケーリングすることによって、混合およびスペクトラム・パラメータAfn、{Wj,Hj}を規格化する。この段階はトリビアルなスケール不定性を解消する。
6.次いで、逐次反復的なEM推定に進む。その一つの反復工程を下記に述べる。
3.オーディオ源の共分散行列〔^付きのRS,fn〕および相互共分散行列〔^付きのRXS,fn〕を下記のように計算する。
1.混合パラメータAfnを下記のように更新する:
3.Σi|Aij,fn|2=1を課し、{Wj,Hj}をしかるべくスケーリングすることによって、パラメータAfn、{Wj,Hj}を再規格化する。この段階はトリビアルなスケール不定性を解消する。
−−−−−−−−−−−−−−。
〔EEE1〕
複数のオーディオ・チャネル(少なくとも二つの異なるチャネル)で構成される混合信号から源を分離する方法であって:
・互いに弱く相関している/無相関の(あるいは弱く依存し合っている/独立な)一組の成分を取得する段階であって、該一組の成分は前記複数のオーディオ信号に基づいて生成される、段階と;
・前記成分の時間周波数タイルの部分集合をもつ一組の最も優勢な方向性の源を、前記成分のこれらのタイルの前記部分集合の空間的一貫性を活用することによって、構築する段階と;
・構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階であって、前記源パラメータは、空間的パラメータ(混合行列)および源スペクトル・パラメータを含み、これらのパラメータは、目標混合における前記源の統計的振る舞いを特化し(specializing)、それにより少なくとも記録および符号化可変性(variability)を含む可変性を考慮に入れる、段階と;
・収束速度を加速するよう、何らかのカオス的な初期値のために逐次反復が局所的な最大に収束することを防ぐよう、および/または特定の収束目標を強制するよう、源分離逐次反復のための源モデルを初期化する段階とを含む、
方法。
〔EEE2〕
前記一組の最も優勢な方向性の源を決定することが:
・前記一組の成分のTFタイルの空間的パラメータを推定し;
・前記空間的パラメータを用いて前記TFタイルをクラスタリングして、非常に近いクラスターどうしをマージし;
・時間を追って各クラスターを追跡し;
・前記空間的パラメータおよびスペクトル・パラメータを再規格化して、前記クラスターを用いて前記最も優勢な方向性の源を構築することを含む、
EEE1記載の方法。
〔EEE3〕
各成分におけるTFタイルの空間的パラメータを推定することが:
・前記複数のオーディオ信号の共分散行列の(PCAベースの方法のための)固有値分解を計算し、各PCA成分のTFタイルの固有ベクトルをその空間的パラメータとして割り当て、回転不定性を解消すること;
・各ICA成分の空間的パラメータとなる(ICAベースの方法のための)逆混合パラメータを推定し、回転不定性を解消すること、
のうちの少なくとも一方を含む、EEE2記載の方法。
〔EEE4〕
前記空間的パラメータを用いて前記TFタイルをクラスタリングすることが:
・最も優勢な成分について、TFタイルの距離をそれらの空間的パラメータを用いて計算し、タイルをクラスタリングし、クラスター重心を推定し;
・若干数の逐次反復工程にわたって:それほど優勢でない成分について、前に推定された重心を用いてタイルをクラスタリングすることを実行することを含み、異なる成分のTFタイルが常に異なるクラスターに属するという制約条件を加えることができる、
EEE2記載の方法。
〔EEE5〕
前記逐次反復工程が:
・いくつかの最も優勢な成分;
・直接音と周囲音の分離によって利得を適用された重み付けされた成分
のうちの少なくとも一方に対して実行される、EEE4記載の方法。
〔EEE6〕
前記空間的パラメータを用いて前記TFタイルをクラスタリングすることがさらに:
・重み付けK平均クラスタリング方法を使うことを含み、重み付け因子は、TFタイルのエネルギーと、直接音と周囲音の分離による方向性利得推定とによって、合同して決定される、
EEE2記載の方法。
〔EEE7〕
時間を追って各クラスターを追跡することは:
・現在のクラスタリングのための初期重心として、直前のフレームにおいて推定された重心を取ること;
・現在のクラスタリングのための初期重心として、前の諸フレームにおいて推定された重心の移動平均を取ること
のうちの少なくとも一方を含む、EEE2記載の方法。
〔EEE8〕
前記成分の時間周波数タイルの部分集合をもつ前記一組の最も優勢な方向性の源を構築する段階が:
・各源に、TFタイルの一つのクラスターを、それらの(重み付けされた)空間的パラメータとともに割り当てる段階であって、前記一つのクラスターは全タイルの非自明なパーティションである、段階と;
・前記源の空間的パラメータをその対応するクラスター重心となるよう推定する段階と;
・前記源スペクトラムを、その対応する空間的パラメータを前記複数のオーディオ信号の前記スペクトラムに適用することによって復元する段階とを含む、
EEE1記載の方法。
〔EEE9〕
構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階が:
・復元された源スペクトラムを使って、最尤(ML)基準を最適化することに基づいてGMMパラメータを計算すること;
・可能なGMM状態の数を減らすことによって前記計算を加速するよう別のML基準を最適化することに基づいて、各時間フレームにおける各源の最も確からしい状態を推定すること、
の少なくとも一方を含む、
EEE1記載の方法。
〔EEE10〕
構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階が:
・期待値段階の最初の反復工程について、復元された源スペクトラムを使って共分散行列を計算することであって、それにより前記源のパワー・スペクトログラムは前記行列の対角要素を含む、こと;
・最大化段階の最初の反復工程について、NMFを使って前記源のパワー・スペクトログラムをモデル化し、各源の非負行列を初期化し、前記重み付けされた固有ベクトルを使って前記混合行列を初期化すること;
・スケール不定性を解消するために前記源パラメータを規格化すること;
・NMFベースのBSSのために次のEM反復工程を上記の初期化されたモデル・パラメータを用いて続けること、
のうちの少なくとも一つを含む、EEE1記載の方法。
〔EEE11〕
特定の収束目標を強制するよう、源分離逐次反復のための源モデルを初期化する段階が:
・各源の再構成された音および位置(混合パラメータによって反映される)をグラフィカル・ユーザー・インターフェース(GUI)を通じて表現すること;
・ユーザーが一つまたは複数の目標源を選択するおよび/またはそのアクティブ化時間をマークした後に、意図される源スナップショットを前記GUIを通じて生成すること;
・前記意図された源スナップショットに基づいて、明示的な構造/位置/時間制約条件の少なくとも一つを用いて目標源をさらに洗練するために、情報を与えられての源分離逐次反復を適用すること
のうちの少なくとも一つを含む、EEE1記載の方法。
Claims (19)
- オーディオ・コンテンツから源を分離する方法であって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものであり、当該方法は:
前記複数のチャネルを使って各周波数帯域について前記オーディオ・コンテンツに対する主成分解析(PCA)を実行して、複数の成分を生成する段階であって、前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む、段階と;
前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成する段階と;
前記優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離する段階とを含み、
少なくとも一つの優勢源を生成することは:
複数の固有ベクトルを少なくとも一つのグループにクラスタリングする段階であって、各グループは複数の時間周波数タイルを含み、前記複数の固有ベクトルは前記複数のPCA成分から生成される、段階と;
時間を追って前記グループを追跡することによって前記優勢源を生成する段階とを含む、
方法。 - 前記固有ベクトルを少なくとも一つのグループにクラスタリングすることが:
前記成分のすべてにおいてあらかじめ定義されたクラスタリング閾値以内の、初期値に対する差をもつ固有ベクトルを前記グループにクラスタリングすることを含む、
請求項1記載の方法。 - 前記固有ベクトルを少なくとも一つのグループにクラスタリングすることが:
前記初期値と、前記複数の時間周波数タイルの直接性および前記複数の時間周波数タイルのエネルギー・レベルのうちの少なくとも一方とに基づいて、前記グループについての重心を推定することを含む、
請求項2記載の方法。 - 時間を追って前記グループを追跡することによって前記優勢源を生成することが:
現在の時間フレームについての初期値として、前の時間フレームについての推定された重心を割り当てること;または
現在の時間フレームについての初期値として、前の諸時間フレームにおいて推定された移動平均重心を割り当てること、
のうち少なくとも一方を含む、請求項3記載の方法。 - 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することが:
前記優勢源についての固有値の重心を推定し;
それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルの空間的パラメータを推定し;
それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルのスペクトル・パラメータを推定することを含む、
請求項1記載の方法。 - 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することがさらに:
前記スペクトル・パラメータに基づいてガウシアン混合モデル・パラメータを計算し;
前記ガウシアン混合モデル・パラメータ、前記空間的パラメータおよび前記スペクトル・パラメータに基づいて各時間フレームにおける各源について最も確からしい状態を推定することを含む、
請求項5記載の方法。 - 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することがさらに:
混合パラメータおよびスペクトラム・パラメータについて初期化プロセスを実行し;
EM逐次反復プロセスによって前記スペクトラム・パラメータおよび前記混合パラメータを更新することを含む、
請求項5記載の方法。 - 前記初期化プロセスを実行することが:
前記空間的パラメータに基づいて混合パラメータを初期化すること;または
前記スペクトル・パラメータに基づいてスペクトラム・パラメータを計算すること
のうちの少なくとも一方を含む、請求項7記載の方法。 - 当該方法がさらに:
前記優勢源についての前記スペクトル・パラメータおよび前記空間的パラメータに基づいて前記オーディオ・コンテンツの源を再構成する段階と;
再構成された源をグラフィカル・ユーザー・インターフェースを通じて表現する段階とを含む、
請求項1記載の方法。 - オーディオ・コンテンツから源を分離するシステムであって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものであり、当該システムは:
前記複数のチャネルを使って各周波数帯域について前記オーディオ・コンテンツに対する主成分解析(PCA)を実行して、複数の成分を生成するよう構成された成分解析ユニットであって、前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む、成分解析ユニットと;
前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成するよう構成された源生成ユニットと;
前記優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離するよう構成された源分離ユニットとを有しており、
前記源生成ユニットは:
複数の固有ベクトルを少なくとも一つのグループにクラスタリングするよう構成されたクラスタリング・ユニットであって、各グループは複数の時間周波数タイルを含み、前記複数の固有ベクトルは前記複数のPCA成分から生成される、クラスタリング・ユニットと;
時間を追って前記グループを追跡することによって前記優勢源を生成するよう構成された追跡ユニットとを有する、
システム。 - 前記クラスタリング・ユニットが、前記成分のすべてにおいてあらかじめ定義されたクラスタリング閾値以内の、初期値に対する差をもつ固有ベクトルを前記グループにクラスタリングするよう構成されている、請求項10記載のシステム。
- 前記クラスタリング・ユニットがさらに:
前記初期値と、前記複数の時間周波数タイルの直接性および前記複数の時間周波数タイルのエネルギー・レベルのうちの少なくとも一方とに基づいて、各クラスターについての重心を推定するよう構成されている、
請求項11記載のシステム。 - 前記追跡ユニットが:
現在の時間フレームについての初期値として、前の時間フレームについての推定された重心を割り当てるよう構成された前の重心割り当てユニット;または
現在の時間フレームについての初期値として、前の諸時間フレームにおいて推定された移動平均重心を割り当てるよう構成された移動平均重心割り当てユニット
の少なくとも一方を有する、請求項12記載のシステム。 - 前記源分離ユニットが:
前記優勢源についての固有値の重心を推定するよう構成された重心推定ユニットと;
それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルの空間的パラメータを推定するよう構成された空間的源分離ユニットと;
それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルのスペクトル・パラメータを推定するよう構成されたスペクトル源分離ユニットとを有する、
請求項10記載のシステム。 - 前記源分離ユニットがさらに:
前記スペクトル・パラメータに基づいてガウシアン混合モデル・パラメータを計算するよう構成されたガウシアン混合モデル・パラメータ計算ユニットと;
前記ガウシアン混合モデル・パラメータ、前記空間的パラメータおよび前記スペクトル・パラメータに基づいて各時間フレームにおける各源について最も確からしい状態を推定するよう構成された状態推定ユニットとを有する、
請求項14記載のシステム。 - 前記源分離ユニットがさらに:
混合パラメータおよびスペクトラム・パラメータについて初期化プロセスを実行するよう構成された初期化ユニットと;
EM逐次反復プロセスによって前記スペクトラム・パラメータおよび前記混合パラメータを更新するよう構成されたパラメータ更新ユニットとを有する、
請求項14記載のシステム。 - 前記初期化ユニットが:
前記空間的パラメータに基づいて混合パラメータを初期化するよう構成されたパラメータ初期化ユニット;または
前記スペクトル・パラメータに基づいてスペクトラム・パラメータを計算するよう構成されたスペクトラム・パラメータ計算ユニット
のうちの少なくとも一方を有する、請求項16記載のシステム。 - 当該システムがさらに:
前記優勢源についての前記スペクトル・パラメータおよび前記空間的パラメータに基づいて前記オーディオ・コンテンツの源を再構成するよう構成された源再構成ユニットと;
再構成された源をグラフィカル・ユーザー・インターフェースを通じて表現するよう構成された源表現ユニットとを有する、
請求項10記載のシステム。 - オーディオ・コンテンツから源を分離するためのコンピュータ・プログラム・プロダクトであって、当該コンピュータ・プログラム・プロダクトは非一時的なコンピュータ可読媒体上に有体に記憶されており、実行されたときに請求項1ないし9のうちいずれか一項記載の方法の段階を機械に実行させる機械実行可能命令を有する、コンピュータ・プログラム・プロダクト。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510085195.9A CN105989852A (zh) | 2015-02-16 | 2015-02-16 | 分离音频源 |
CN201510085195.9 | 2015-02-16 | ||
US201562121125P | 2015-02-26 | 2015-02-26 | |
US62/121,125 | 2015-02-26 | ||
PCT/US2016/017591 WO2016133785A1 (en) | 2015-02-16 | 2016-02-11 | Separating audio sources |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018508823A true JP2018508823A (ja) | 2018-03-29 |
JP6668366B2 JP6668366B2 (ja) | 2020-03-18 |
Family
ID=56692438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017541932A Active JP6668366B2 (ja) | 2015-02-16 | 2016-02-11 | オーディオ源の分離 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10176826B2 (ja) |
EP (1) | EP3259755B1 (ja) |
JP (1) | JP6668366B2 (ja) |
CN (2) | CN105989852A (ja) |
WO (1) | WO2016133785A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036526A (ja) * | 2016-08-31 | 2018-03-08 | 株式会社東芝 | 信号処理システム、信号処理方法およびプログラム |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3175456B1 (en) * | 2014-07-31 | 2020-06-17 | Koninklijke KPN N.V. | Noise suppression system and method |
CN109074818B (zh) * | 2016-04-08 | 2023-05-05 | 杜比实验室特许公司 | 音频源参数化 |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
US10410641B2 (en) * | 2016-04-08 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Audio source separation |
CN106409286A (zh) * | 2016-09-23 | 2017-02-15 | 努比亚技术有限公司 | 一种实现音频处理的方法及装置 |
US10349196B2 (en) * | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
JP6591477B2 (ja) * | 2017-03-21 | 2019-10-16 | 株式会社東芝 | 信号処理システム、信号処理方法及び信号処理プログラム |
CN110603587A (zh) * | 2017-05-08 | 2019-12-20 | 索尼公司 | 信息处理设备 |
WO2018208560A1 (en) * | 2017-05-09 | 2018-11-15 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
CN110800048B (zh) | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
KR102622714B1 (ko) * | 2018-04-08 | 2024-01-08 | 디티에스, 인코포레이티드 | 앰비소닉 깊이 추출 |
CN110827843B (zh) * | 2018-08-14 | 2023-06-20 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及电子设备 |
US11765536B2 (en) | 2018-11-13 | 2023-09-19 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
JP7245669B2 (ja) * | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
WO2020172831A1 (en) * | 2019-02-28 | 2020-09-03 | Beijing Didi Infinity Technology And Development Co., Ltd. | Concurrent multi-path processing of audio signals for automatic speech recognition systems |
US11347941B2 (en) * | 2019-04-30 | 2022-05-31 | Marvell Asia Pte, Ltd. | Methods and apparatus for compressing data streams |
CN110148422B (zh) * | 2019-06-11 | 2021-04-16 | 南京地平线集成电路有限公司 | 基于传声器阵列确定声源信息的方法、装置及电子设备 |
CN112185411B (zh) * | 2019-07-03 | 2024-08-06 | 南京人工智能高等研究院有限公司 | 语音分离方法、装置、介质和电子设备 |
BR112022000806A2 (pt) * | 2019-08-01 | 2022-03-08 | Dolby Laboratories Licensing Corp | Sistemas e métodos para atenuação de covariância |
CN110491409B (zh) * | 2019-08-09 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 混合语音信号的分离方法、装置、存储介质及电子装置 |
JP7450911B2 (ja) * | 2019-12-05 | 2024-03-18 | 国立大学法人 東京大学 | 音響解析装置、音響解析方法及び音響解析プログラム |
GB2590650A (en) * | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | The merging of spatial audio parameters |
JP7443823B2 (ja) * | 2020-02-28 | 2024-03-06 | ヤマハ株式会社 | 音響処理方法 |
EP3873112A1 (en) * | 2020-02-28 | 2021-09-01 | Nokia Technologies Oy | Spatial audio |
GB2595871A (en) * | 2020-06-09 | 2021-12-15 | Nokia Technologies Oy | The reduction of spatial audio parameters |
GB2598932A (en) * | 2020-09-18 | 2022-03-23 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
US11783847B2 (en) * | 2020-12-29 | 2023-10-10 | Lawrence Livermore National Security, Llc | Systems and methods for unsupervised audio source separation using generative priors |
CN113593597B (zh) * | 2021-08-27 | 2024-03-19 | 中国电信股份有限公司 | 语音噪声过滤方法、装置、电子设备和介质 |
CN113835068B (zh) * | 2021-09-22 | 2023-06-20 | 南京信息工程大学 | 一种基于独立成分分析的盲源分离实时抗主瓣干扰方法 |
CN116389970B (zh) * | 2021-12-22 | 2024-09-10 | 比亚迪股份有限公司 | 多类型音源独立声道输出方法、soc芯片及汽车 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008304555A (ja) * | 2007-06-05 | 2008-12-18 | Panasonic Electric Works Co Ltd | 音響入力装置 |
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2014215385A (ja) * | 2013-04-24 | 2014-11-17 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
WO2014204997A1 (en) * | 2013-06-18 | 2014-12-24 | Dolby Laboratories Licensing Corporation | Adaptive audio content generation |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
US7565213B2 (en) * | 2004-05-07 | 2009-07-21 | Gracenote, Inc. | Device and method for analyzing an information signal |
US8898056B2 (en) | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
EP2148321B1 (en) | 2007-04-13 | 2015-03-25 | National Institute of Advanced Industrial Science and Technology | Sound source separation system, sound source separation method, and computer program for sound source separation |
US8340437B2 (en) | 2007-05-29 | 2012-12-25 | University Of Iowa Research Foundation | Methods and systems for determining optimal features for classifying patterns or objects in images |
CN101981811B (zh) * | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | 音频信号的自适应主体-环境分解 |
JP5277887B2 (ja) | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US20100138010A1 (en) | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
US20100174389A1 (en) * | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
WO2011029048A2 (en) | 2009-09-04 | 2011-03-10 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5452158B2 (ja) | 2009-10-07 | 2014-03-26 | 株式会社日立製作所 | 音響監視システム、及び音声集音システム |
CN102194458B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 频带复制方法、装置及音频解码方法、系统 |
JP5706782B2 (ja) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
US9940546B2 (en) * | 2011-04-05 | 2018-04-10 | The Regents Of The University Of California | Apparatus and method for signal extraction and separation |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
US9462399B2 (en) | 2011-07-01 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Audio playback system monitoring |
EP2544466A1 (en) | 2011-07-05 | 2013-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor |
JP5942420B2 (ja) | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
CN102522093A (zh) * | 2012-01-09 | 2012-06-27 | 武汉大学 | 一种基于三维空间音频感知的音源分离方法 |
US9357293B2 (en) | 2012-05-16 | 2016-05-31 | Siemens Aktiengesellschaft | Methods and systems for Doppler recognition aided method (DREAM) for source localization and separation |
WO2014147442A1 (en) | 2013-03-20 | 2014-09-25 | Nokia Corporation | Spatial audio apparatus |
WO2014195132A1 (en) | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method of audio source separation and corresponding apparatus |
US20170178664A1 (en) * | 2014-04-11 | 2017-06-22 | Analog Devices, Inc. | Apparatus, systems and methods for providing cloud based blind source separation services |
CN105336332A (zh) | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
US10726326B2 (en) * | 2016-02-24 | 2020-07-28 | International Business Machines Corporation | Learning of neural network |
-
2015
- 2015-02-16 CN CN201510085195.9A patent/CN105989852A/zh active Pending
-
2016
- 2016-02-11 WO PCT/US2016/017591 patent/WO2016133785A1/en active Application Filing
- 2016-02-11 US US15/549,651 patent/US10176826B2/en active Active
- 2016-02-11 JP JP2017541932A patent/JP6668366B2/ja active Active
- 2016-02-11 EP EP16708026.6A patent/EP3259755B1/en active Active
- 2016-02-11 CN CN201680010459.7A patent/CN107251138B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008304555A (ja) * | 2007-06-05 | 2008-12-18 | Panasonic Electric Works Co Ltd | 音響入力装置 |
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2014215385A (ja) * | 2013-04-24 | 2014-11-17 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
WO2014204997A1 (en) * | 2013-06-18 | 2014-12-24 | Dolby Laboratories Licensing Corporation | Adaptive audio content generation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036526A (ja) * | 2016-08-31 | 2018-03-08 | 株式会社東芝 | 信号処理システム、信号処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20180240470A1 (en) | 2018-08-23 |
WO2016133785A1 (en) | 2016-08-25 |
CN105989852A (zh) | 2016-10-05 |
EP3259755B1 (en) | 2021-06-02 |
US10176826B2 (en) | 2019-01-08 |
CN107251138A (zh) | 2017-10-13 |
CN107251138B (zh) | 2020-09-04 |
JP6668366B2 (ja) | 2020-03-18 |
EP3259755A1 (en) | 2017-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6668366B2 (ja) | オーディオ源の分離 | |
US11470437B2 (en) | Processing object-based audio signals | |
JP6400218B2 (ja) | オーディオ源の分離 | |
JP6330034B2 (ja) | 適応的なオーディオ・コンテンツの生成 | |
US10200804B2 (en) | Video content assisted audio object extraction | |
US20240205631A1 (en) | Spatial Audio Processing | |
Seetharaman et al. | Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures | |
EP3074972A1 (en) | Audio object extraction | |
JP6654195B2 (ja) | オーディオ・コンテンツからの投影ベースのオーディオ・オブジェクト抽出 | |
Chowdhury et al. | Adverb: Visually guided audio dereverberation | |
CN106385660B (zh) | 处理基于对象的音频信号 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6668366 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |