JP6086923B2 - 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 - Google Patents
幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 Download PDFInfo
- Publication number
- JP6086923B2 JP6086923B2 JP2014543912A JP2014543912A JP6086923B2 JP 6086923 B2 JP6086923 B2 JP 6086923B2 JP 2014543912 A JP2014543912 A JP 2014543912A JP 2014543912 A JP2014543912 A JP 2014543912A JP 6086923 B2 JP6086923 B2 JP 6086923B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- sound
- layer
- data streams
- data stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 239000002356 single layer Substances 0.000 claims description 122
- 239000010410 layer Substances 0.000 claims description 102
- 230000010354 integration Effects 0.000 claims description 46
- 230000015572 biosynthetic process Effects 0.000 claims description 43
- 238000003786 synthesis reaction Methods 0.000 claims description 43
- 230000005236 sound signal Effects 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000009792 diffusion process Methods 0.000 claims description 28
- 230000007480 spreading Effects 0.000 claims description 12
- 238000003892 spreading Methods 0.000 claims description 12
- 238000002156 mixing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 37
- 238000012986 modification Methods 0.000 description 22
- 230000004048 modification Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000003491 array Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 17
- 238000012937 correction Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000001629 suppression Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 101100135888 Mus musculus Pdia5 gene Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
−重み付け平均、例えば、SNR、仮想マイクロフォンまでの距離、または現実の空間マイクロフォンによって推定された拡散性を考慮して。従来的な解法、例えば、最大比合成(MRC)または等ゲイン合成(EQC)を採用できる。
−合成信号を得るための修正オーディオ信号の一部または全部の線形合成。修正オーディオ信号が線形合成において重み付けされて合成信号を得ることができる。または、
−選択。例えば、SNR、距離または拡散性などに応じて、1つの信号のみが用いられる。
g(θ)=0.5+0.5cos(θ)
によって定義されたピックアップパターンを有していてもよい。なお、θは、仮想の空間マイクロフォンを見る方向と、仮想マイクロフォンの視点からの音のDOAとのなす角である。
・P(k,n):音源、例えば、IPLSの複素圧力。この信号は、潜在的に、直接音(IPLS自体から発生する音)および拡散音を含む。
・Q(k,n):音源、例えば、IPLSの位置(例えば、3Dにおけるカーテシアン座標):位置は、例えば、カーテシアン座標X(k,n)、Y(k,n)、Z(k,n)を含む。
・IPLSの拡散性:Ψ(k,n)。このパラメータは、P(k,n)で構成される拡散音に対する直接音のパワー比に関連する。P(k,n)=Pdir(k,n)+Pdiff(k,n)の場合、拡散性を表現する一つの可能性は、Ψ(k,n)=|Pdiff(k,n)|2/|P(k,n)|2となる。|P(k,n)|2が既知である場合、他の等価な表現、例えば、直接−拡散比(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2が可能となる。
として推定誤差を定義できる。なお、(i,j)∈{(1,2),(1’,2’)}であり(図5参照)、Pi,jは音源iからアレイrによって見られる補償された信号パワーの略である。誤差は、実際の音源対に対して最小である。対形成の問題が解消され、正しいDOA推定値が演算されると、これらは、対応する圧力信号および拡散性推定値とともにGACストリームにグループ化される。圧力信号および拡散推定値を、1つの音源に対するパラメータ推定について既に上述した同様の方法を用いて得ることができる。
1.サウンドシーンにおいて、空間/容積の任意の部分を拡大する(例えば、点状の音源を、それが視聴者に幅広にみえるようにするために拡大する)
2.サウンドシーンにおいて、空間/容積の選択部分を、空間/容積の他の何らかの任意の部分に変換する(変換された空間/容積は、例えば、新たな場所へ移動される必要がある音源を含む)
3.位置に基づくフィルタリング、ここでは、サウンドシーンの選択領域が強調され、または部分的に/完全に抑制される。
シーンにおける所定のエネルギーが、容積V内に位置するものとする。容積Vは、ある環境の所定の領域を示すものであればよい。Θは、対応の音源、例えば、IPLSが容積V内で局在化される時間−周波数ビン(k,n)のセットを示す。
容積拡張に加えて、GACストリームからの位置データを、音場内の空間/容積の部分を再配置するように修正することができる。この場合も、操作されるデータは、局在化されたエネルギーの空間座標からなる。
幾何に基づくフィルタリング(すなわち、位置に基づくフィルタリング)の概念は、サウンドシーンから空間/容積の部分を強調し、または完全に/部分的に除去する方法を与える。しかし、この場合、容積拡張および変換技術と比べて、適切なスカラー重み付けを適用することによって、GACストリームからの圧力データのみが修正される。
・残響。部屋の幾何状態を把握することによって、空間フィルタを、複数経路の伝搬によってもたらされる部屋境界外で局在確認されたエネルギーを抑制するのに使用することができる。このアプリケーションは、例えば、会議室および車内でのハンドフリー会話に利用できそうである。なお、遅い残響を抑制するためには、高い拡散性が場合、フィルタを閉じれば充分である。一方、早い反射を抑制するためには、位置依存型フィルタがより効果的である。この場合、既に述べたように、部屋の幾何状態が演繹的に把握される必要がある。
・背景ノイズ抑制。同様のコンセプトが背景ノイズを抑制するためにも使用できる。音源が位置し得る候補領域(例えば、会議室における参加者の椅子または車内の座席)が既知である場合には、これらの領域外に位置するエネルギーは背景ノイズに対応付けられ、したがって空間フィルタによって抑制される。このアプリケーションは、GACストリームにおける利用可能なデータに基づいて、音源のおおよその位置の演繹的情報または推定値を必要とする。
・点状干渉の抑制。干渉が空間においてはっきりと局在化される場合、干渉の位置において局在化されるエネルギーを減衰させるのに、拡散よりも、位置に基づくフィルタリングを適用できる。これは、干渉の位置の演繹的情報または推定値を必要とする。
・エコー制御。この場合、抑制されるべき干渉はスピーカの信号である。この目的のため、点状干渉の場合と同様に、スピーカ位置またはその近接位置に局在化されるエネルギーが抑制される。これは、スピーカ位置の演繹的情報または推定値を必要とする。
・増強された音声検出。幾何に基づくフィルタリングの発明に対応付けられる信号増強技術が、例えば、車内における従来的な音声アクティビティ検出システムの前処理ステップとして実施される。残響またはノイズ抑制がアドオンされて、システム性能を向上させることができる。
・調査監視。所定のエリアからのエネルギーのみを維持して残りを抑制することは、調査監視アプリケーションにおいて一般に使用される技術である。これは、対象となるエリアの幾何および位置についての演繹的情報を必要とする。
・音源分離。同時にアクティブとなる複数の音源がある環境において、幾何に基づく空間フィルタリングを音源分離に対して適用できる。音源の位置を中心として適切に設計された空間フィルタを配置することによって、同時にアクティブとなる他の音源の抑制/減衰がもたらされる。この技術革新は、例えば、SAOCにおけるフロントエンドとして使用される。音源位置の演繹的情報または推定値が必要となる。
・位置依存型自動ゲイン制御(AGC)。位置に依存する重み付けが使用されて、例えば、テレビ会議アプリケーションにおける異なる話者の声の大きさを等化することができる。
ベクトルrによって示されるLo番目の最も顕著な非拡散入力源を判定することによって、位置混合部1403は、1以上の単層オーディオデータストリームを備えるグルー
プを判定する。このグループの単層オーディオデータストリームの各々のコスト値は、このグループを構成しないいずれの単層オーディオデータストリームのコスト値よりも大きくてもよい。位置混合部1403は、グループの単層オーディオデータストリームの各々の各位置値が、統合オーディオデータストリームのレイヤの1層における1つの位置値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の位置値を選択/生成するように構成される。
ベクトルrによって示されるLo−1番目の最も顕著な非拡散入力源を判定することによって、拡散性統合部は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第1のグループを判定するとともに、複数の単層オーディオデータストリームのうちの1以上の異なる単層オーディオデータストリームを含む第2のグループ(ベクトルrにおける残余の入力源)を判定するように構成され、第1のグループの単層オーディオデータストリームの各々のコスト値は、第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きい。拡散性統合部は、第1のグループの単層オーディオデータストリームの各々の各拡散値が統合オーディオデータストリームのレイヤのうちの1層における拡散値となり、第2のグループの単層オーディオデータストリームの拡散値の合成値が統合オーディオデータストリームのレイヤのうちの1層における拡散値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の圧力値を生成するように構成される。
a.GACストリームP(k,n)の圧力信号に直接変換され(図32a参照)、
b.まず反響させられてから、GACストリームP(k,n)の圧力信号に変換される(図32b参照)。
1.M個の単層GACストリームがLO=1個のGACストリームに統合される必要がある場合には、単純化された実施形態を採用できる。結果として得られるGACストリームは以下によって特徴付けられる:
−圧力:圧力は、M個の圧力信号の合計となる
−位置:位置は、最も強い音源、例えば、最も強いIPLSの位置となる
−拡散性:拡散性は式(5)に従って演算される。
2.レイヤ数が入力における合計層数、すなわち、LO=Nに等しい場合には、出力ストリームを入力ストリームの連続とみることができる。
Claims (18)
- 統合オーディオデータストリームを生成する装置であって、
各々が1層以上のレイヤを含む1以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを得るデマルチプレクサ(180)と、
前記2以上の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成する統合モジュール(190)と
を備え、
前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音圧信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む
装置。 - 請求項1に記載の装置において、前記デマルチプレクサ(180)は、2以上の入力オーディオデータストリームを受け取り、2層以上のレイヤを含む各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを得る、装置。
- 請求項1または2に記載の装置において、前記オーディオデータが、複数の時間−周波数ビンのうちの1つの時間−周波数ビンについて定義される、装置。
- 請求項1から3のいずれか1項に記載の装置において、
前記統合モジュール(190)は、前記単層オーディオデータストリームの各々にサウンド合成の演算コストを示すコスト値を割り当てるコスト関数モジュール(1401)を備え、
前記統合モジュール(190)は、前記単層オーディオデータストリームに割り当てられた前記コスト値に基づいて、前記統合オーディオデータストリームを生成する、
装置。 - 請求項4に記載の装置において、前記コスト関数モジュール(1401)は、前記単層オーディオデータストリームの各々に、その単層オーディオデータストリームの音圧値または拡散値の少なくとも1つに応じてコスト値を割り当てる、装置。
- 請求項5に記載の装置において、前記コスト関数モジュール(1401)は、前記単層オーディオデータストリームの各オーディオデータストリームに対して、そのオーディオデータストリームが前記単層オーディオデータストリームのグループのi番目であるとするとき、そのオーディオデータのレイヤの音圧値Piおよび拡散値Ψ i として、数式:
fi(Ψi,Pi)=(1-Ψi)・|Pi|2
を適用することによって、前記コスト値を割り当てる、装置。 - 請求項4から6のいずれか1項に記載の装置において、
前記統合モジュール(190)は圧力統合部(1404)をさらに備え、
前記圧力統合部(1404)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第1のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の1以上の単層オーディオデータストリームを含む第2のグループを判定する構成であり、
前記第1のグループの単層オーディオデータストリームの各々のコスト値は、前記第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第1のグループの単層オーディオデータストリームの各々のコスト値が、前記第2のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
前記圧力統合部(1404)は、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の音圧値を、前記第1のグループの単層オーディオデータストリームの各々の各音圧値が前記統合オーディオデータストリームのレイヤのうちの1層における音圧値となり、前記第2のグループの単層オーディオデータストリームの音圧値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの1層における音圧値となる
ように、生成する、
装置。 - 請求項4から7のいずれか1項に記載の装置において、
前記統合モジュール(190)は拡散性統合部(1405)をさらに備え、
前記拡散性統合部(1405)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第3のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の1以上の単層オーディオデータストリームを含む第4のグループを判定する構成であり、
前記第3のグループの単層オーディオデータストリームの各々のコスト値が、前記第4のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第3のグループの単層オーディオデータストリームの各々のコスト値が、前記第4のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
前記拡散性統合部(1405)は、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の拡散値を、前記第3のグループの単層オーディオデータストリームの各々の各拡散値が前記統合オーディオデータストリームのレイヤのうちの1層における拡散値となり、前記第4のグループの単層オーディオデータストリームの拡散値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの1層における拡散値となるように、生成する、
装置。 - 請求項4から8のいずれか1項に記載の装置において、
前記統合モジュール(190)は位置混合部(1403)をさらに備え、
前記位置混合部(1403)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第5のグループを判定する構成であり、
前記第5のグループの単層オーディオデータストリームの各々のコスト値が、前記2以上の単層オーディオデータストリームの前記第5のグループを構成しない単層オーディオデータストリームのコスト値よりも大きく、または前記第5のグループの単層オーディオデータストリームの各々のコスト値が、前記2以上の単層オーディオデータストリームの前記第5のグループを構成しない単層オーディオデータストリームのコスト値よりも小さく、
前記位置混合部(1403)は、前記第5のグループの単層オーディオデータストリームの各々の各位置値が前記統合オーディオデータストリームのレイヤのうちの1層の位置値となるように、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の位置値を生成する
装置。 - 請求項3から9のいずれか1項に記載の装置において、前記統合モジュール(190)は、前記2以上の単層オーディオデータストリームの1以上について、その位置値を操作するサウンドシーン適応モジュール(1402)をさらに備える、装置。
- 請求項10に記載の装置において、前記サウンドシーン適応モジュール(1402)は、位置値の回転、平行移動または非線形転換を適用して、前記2以上の単層オーディオデータストリームの1以上の位置値を操作する、装置。
- 請求項1から11のいずれか1項に記載の装置において、前記デマルチプレクサ(180)は、前記多重分離オーディオデータストリームの1つについて、その音圧値の1つの大きさを、スカラー値を乗ずることによって修正する、装置。
- 請求項1から12のいずれか1項に記載の装置において、前記デマルチプレクサ(180)は複数の多重分離部(1201)を備え、この複数の多重分離部(1201)の各々が、1以上の入力オーディオデータストリームを多重分離する、装置。
- 請求項1から13のいずれか1項に記載の装置において、
1層だけのレイヤを含む人工データストリームを生成する人工音源生成器(1202)をさらに備え、
前記人工音源生成器(1202)は、時間ドメインで表されている音圧情報を受け取るとともに、位置情報を受け取る構成であり、
前記人工音源生成器(1202)は、前記位置情報を複製して複数の時間−周波数ビンについて位置情報を生成する構成である、
装置。 - 請求項14に記載の装置において、前記人工音源生成器(1202)は、時間ドメインで表現されている音圧情報を時間−周波数ドメインに変換する構成である、装置。
- 請求項14に記載の装置において、前記人工音源生成器(1202)は、残響を前記音圧情報に加える構成である、装置。
- デマルチプレクサが、1層以上のレイヤを含む1以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、
全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを取得し、
前記2以上の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成し、
前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音力信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む、
方法。 - コンピュータまたは信号プロセッサで実行されるときに請求項17の方法を実施するコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11191816.5A EP2600343A1 (en) | 2011-12-02 | 2011-12-02 | Apparatus and method for merging geometry - based spatial audio coding streams |
EP11191816.5 | 2011-12-02 | ||
US13/445,585 | 2012-04-12 | ||
US13/445,585 US9484038B2 (en) | 2011-12-02 | 2012-04-12 | Apparatus and method for merging geometry-based spatial audio coding streams |
PCT/EP2012/074097 WO2013079663A2 (en) | 2011-12-02 | 2012-11-30 | Apparatus and method for merging geometry-based spatial audio coding streams |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015502573A JP2015502573A (ja) | 2015-01-22 |
JP6086923B2 true JP6086923B2 (ja) | 2017-03-01 |
Family
ID=45047686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014543912A Active JP6086923B2 (ja) | 2011-12-02 | 2012-11-30 | 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 |
Country Status (18)
Country | Link |
---|---|
US (1) | US9484038B2 (ja) |
EP (2) | EP2600343A1 (ja) |
JP (1) | JP6086923B2 (ja) |
KR (1) | KR101666730B1 (ja) |
CN (1) | CN104185869B9 (ja) |
AR (1) | AR089053A1 (ja) |
AU (3) | AU2012343819C1 (ja) |
BR (1) | BR112014013336B1 (ja) |
CA (1) | CA2857614C (ja) |
HK (1) | HK1202181A1 (ja) |
IN (1) | IN2014KN01069A (ja) |
MX (1) | MX342794B (ja) |
MY (1) | MY167160A (ja) |
RU (1) | RU2609102C2 (ja) |
SG (1) | SG11201402777QA (ja) |
TW (1) | TWI555412B (ja) |
WO (1) | WO2013079663A2 (ja) |
ZA (1) | ZA201404823B (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152524B2 (en) * | 2012-07-30 | 2018-12-11 | Spatial Digital Systems, Inc. | Wavefront muxing and demuxing for cloud data storage and transport |
US10154361B2 (en) * | 2011-12-22 | 2018-12-11 | Nokia Technologies Oy | Spatial audio processing apparatus |
US9407992B2 (en) * | 2012-12-14 | 2016-08-02 | Conexant Systems, Inc. | Estimation of reverberation decay related applications |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
US10499176B2 (en) | 2013-05-29 | 2019-12-03 | Qualcomm Incorporated | Identifying codebooks to use when coding spatial components of a sound field |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
EP3028476B1 (en) * | 2013-07-30 | 2019-03-13 | Dolby International AB | Panning of audio objects to arbitrary speaker layouts |
CN104683933A (zh) | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
US10042037B2 (en) * | 2014-02-20 | 2018-08-07 | Nestwave Sas | System and method for estimating time of arrival (TOA) |
EP2942982A1 (en) * | 2014-05-05 | 2015-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering |
ES2833424T3 (es) | 2014-05-13 | 2021-06-15 | Fraunhofer Ges Forschung | Aparato y método para panoramización de amplitud de atenuación de bordes |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) * | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
US9984693B2 (en) | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
CN111866022B (zh) | 2015-02-03 | 2022-08-30 | 杜比实验室特许公司 | 感知质量比会议中原始听到的更高的后会议回放系统 |
EP3254456B1 (en) | 2015-02-03 | 2020-12-30 | Dolby Laboratories Licensing Corporation | Optimized virtual scene layout for spatial meeting playback |
WO2017004584A1 (en) | 2015-07-02 | 2017-01-05 | Dolby Laboratories Licensing Corporation | Determining azimuth and elevation angles from stereo recordings |
HK1255002A1 (zh) | 2015-07-02 | 2019-08-02 | 杜比實驗室特許公司 | 根據立體聲記錄確定方位角和俯仰角 |
EP3332557B1 (en) | 2015-08-07 | 2019-06-19 | Dolby Laboratories Licensing Corporation | Processing object-based audio signals |
CN105117111B (zh) * | 2015-09-23 | 2019-11-15 | 小米科技有限责任公司 | 虚拟现实交互画面的渲染方法和装置 |
TWI577194B (zh) * | 2015-10-22 | 2017-04-01 | 山衛科技股份有限公司 | 環境音源辨識系統及其環境音源辨識之方法 |
US10206040B2 (en) * | 2015-10-30 | 2019-02-12 | Essential Products, Inc. | Microphone array for generating virtual sound field |
CN107710323B (zh) | 2016-01-22 | 2022-07-19 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
US9949052B2 (en) | 2016-03-22 | 2018-04-17 | Dolby Laboratories Licensing Corporation | Adaptive panner of audio objects |
US20170293461A1 (en) * | 2016-04-07 | 2017-10-12 | VideoStitch Inc. | Graphical placement of immersive audio sources |
GB2551780A (en) | 2016-06-30 | 2018-01-03 | Nokia Technologies Oy | An apparatus, method and computer program for obtaining audio signals |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
US10820097B2 (en) * | 2016-09-29 | 2020-10-27 | Dolby Laboratories Licensing Corporation | Method, systems and apparatus for determining audio representation(s) of one or more audio sources |
WO2018090356A1 (en) * | 2016-11-21 | 2018-05-24 | Microsoft Technology Licensing, Llc | Automatic dubbing method and apparatus |
KR20180090022A (ko) * | 2017-02-02 | 2018-08-10 | 한국전자통신연구원 | 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치 |
GB2561595A (en) * | 2017-04-20 | 2018-10-24 | Nokia Technologies Oy | Ambience generation for spatial audio mixing featuring use of original and extended signal |
GB2563635A (en) | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
KR102568365B1 (ko) | 2017-07-14 | 2023-08-18 | 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 |
BR112020000759A2 (pt) * | 2017-07-14 | 2020-07-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro |
EP3652735A1 (en) * | 2017-07-14 | 2020-05-20 | Fraunhofer Gesellschaft zur Förderung der Angewand | Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description |
GB2566992A (en) | 2017-09-29 | 2019-04-03 | Nokia Technologies Oy | Recording and rendering spatial audio signals |
CA3076703C (en) * | 2017-10-04 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding |
TWI690921B (zh) * | 2018-08-24 | 2020-04-11 | 緯創資通股份有限公司 | 收音處理裝置及其收音處理方法 |
WO2021018378A1 (en) | 2019-07-29 | 2021-02-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain |
CN110853657B (zh) * | 2019-11-18 | 2022-05-13 | 北京小米智能科技有限公司 | 空间划分方法、装置及存储介质 |
GB2590650A (en) * | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | The merging of spatial audio parameters |
WO2022115803A1 (en) * | 2020-11-30 | 2022-06-02 | The Regents Of The University Of California | Systems and methods for sound-enhanced meeting platforms |
GB2602148A (en) * | 2020-12-21 | 2022-06-22 | Nokia Technologies Oy | Audio rendering with spatial metadata interpolation and source position information |
CN113708868B (zh) * | 2021-08-27 | 2023-06-27 | 国网安徽省电力有限公司池州供电公司 | 一种多拾音设备的调度系统及其调度方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0905933A3 (de) * | 1997-09-24 | 2004-03-24 | STUDER Professional Audio AG | Verfahren und Vorrichtung zum Mischen von Tonsignalen |
AUPR989802A0 (en) * | 2002-01-09 | 2002-01-31 | Lake Technology Limited | Interactive spatialized audiovisual system |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
EP1647010B1 (de) * | 2003-07-21 | 2017-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiodateiformatumwandlung |
EP1509065B1 (en) * | 2003-08-21 | 2006-04-26 | Bernafon Ag | Method for processing audio-signals |
US7483519B2 (en) * | 2003-12-23 | 2009-01-27 | At&T Intellectual Property I, L.P. | Caller controlled systems to suppress system to de-activate 911 indicator |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
BRPI0608753B1 (pt) | 2005-03-30 | 2019-12-24 | Koninl Philips Electronics Nv | codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento |
KR20070108302A (ko) | 2005-10-14 | 2007-11-09 | 삼성전자주식회사 | 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치 |
DE102005057406A1 (de) * | 2005-11-30 | 2007-06-06 | Valenzuela, Carlos Alberto, Dr.-Ing. | Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens |
EP2369836B1 (en) | 2006-05-19 | 2014-04-23 | Electronics and Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
ES2380059T3 (es) * | 2006-07-07 | 2012-05-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8131542B2 (en) * | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
EP2154910A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
JP5540492B2 (ja) | 2008-10-29 | 2014-07-02 | 富士通株式会社 | 通信装置、効果音出力制御プログラム及び効果音出力制御方法 |
ES2690164T3 (es) | 2009-06-25 | 2018-11-19 | Dts Licensing Limited | Dispositivo y método para convertir una señal de audio espacial |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
US8731923B2 (en) * | 2010-08-20 | 2014-05-20 | Adacel Systems, Inc. | System and method for merging audio data streams for use in speech recognition applications |
-
2011
- 2011-12-02 EP EP11191816.5A patent/EP2600343A1/en not_active Withdrawn
-
2012
- 2012-04-12 US US13/445,585 patent/US9484038B2/en active Active
- 2012-11-30 AU AU2012343819A patent/AU2012343819C1/en active Active
- 2012-11-30 RU RU2014126818A patent/RU2609102C2/ru active
- 2012-11-30 JP JP2014543912A patent/JP6086923B2/ja active Active
- 2012-11-30 EP EP12794963.4A patent/EP2786374B1/en active Active
- 2012-11-30 TW TW101145074A patent/TWI555412B/zh active
- 2012-11-30 WO PCT/EP2012/074097 patent/WO2013079663A2/en active Application Filing
- 2012-11-30 KR KR1020147018321A patent/KR101666730B1/ko active IP Right Grant
- 2012-11-30 MY MYPI2014001578A patent/MY167160A/en unknown
- 2012-11-30 CN CN201280067983.XA patent/CN104185869B9/zh active Active
- 2012-11-30 SG SG11201402777QA patent/SG11201402777QA/en unknown
- 2012-11-30 CA CA2857614A patent/CA2857614C/en active Active
- 2012-11-30 IN IN1069KON2014 patent/IN2014KN01069A/en unknown
- 2012-11-30 AR ARP120104513A patent/AR089053A1/es active IP Right Grant
- 2012-11-30 MX MX2014006199A patent/MX342794B/es active IP Right Grant
- 2012-11-30 BR BR112014013336-0A patent/BR112014013336B1/pt active IP Right Grant
-
2014
- 2014-06-30 ZA ZA2014/04823A patent/ZA201404823B/en unknown
-
2015
- 2015-03-16 HK HK15102679.7A patent/HK1202181A1/xx unknown
-
2016
- 2016-04-22 AU AU2016202604A patent/AU2016202604A1/en not_active Abandoned
-
2018
- 2018-01-25 AU AU2018200613A patent/AU2018200613A1/en not_active Withdrawn
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6086923B2 (ja) | 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 | |
JP5878549B2 (ja) | 幾何ベースの空間オーディオ符号化のための装置および方法 | |
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150616 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20150909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160531 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6086923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |