CN110751956A - 一种沉浸式音频渲染方法及系统 - Google Patents
一种沉浸式音频渲染方法及系统 Download PDFInfo
- Publication number
- CN110751956A CN110751956A CN201910876818.2A CN201910876818A CN110751956A CN 110751956 A CN110751956 A CN 110751956A CN 201910876818 A CN201910876818 A CN 201910876818A CN 110751956 A CN110751956 A CN 110751956A
- Authority
- CN
- China
- Prior art keywords
- audio
- gain
- mixing
- weight
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Abstract
本发明实施方式涉及一种沉浸式音频渲染方法及系统,其中,所述方法包括:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。本申请提供的技术方案,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。
Description
技术领域
本申请涉及音频数据处理技术领域,特别涉及一种沉浸式音频渲染方法及系统。
背景技术
近年来,随着高清视频的不断发展,从2K到4K,甚至8K,还有伴随着虚拟现实VR、AR的发展,人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声、5.1、7.1等音响效果,开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。目前,沉浸式音频处理主要基于通道(channel-based audio,CBA)、对象音频(object-based audio,OBA)和Ambisonics场景音频(scene-based audio,SBA)等技术进行处理,包含音频制作、编解码、打包以及渲染等技术。
具体地,Ambisonics利用球谐函数记录声场并驱动扬声器,具有严格的扬声器排布要求,能够在扬声器中心位置高质量重建原始声场。在渲染移动音源时,HOA(HigherOrder Ambisonics)会营造出更加流畅,平滑的听感。
此外,幅度矢量合成(Vector Based Amplitude Panning,VBAP)基于三维空间中的正弦法则,利用空间中3个临近的扬声器形成三维声音矢量,不会影响低频的双耳时间差(ITD)或者高频的频谱线索,对声音在三维空间中的定位更加精准。由于该算法简单,VBAP成为最常用的多声道三维音频处理技术。
然而,现有的沉浸式音频处理方法不能满足中小型场馆现场沉浸式制作与播放的需求,且HOA用一种中间格式来重建一个3D声场,但受限于采用的阶数,可能会带来高频线索的缺失,从而影响听者的定位的精准度;而VBAP在渲染移动音源时会产生跳跃,产生不连贯的空间声效果。
发明内容
本申请的目的在于提供一种沉浸式音频渲染方法及系统,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。
为实现上述目的,本申请提供一种沉浸式音频渲染方法,所述方法包括:
针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
进一步地,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:
将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
进一步地,各个所述扬声器的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
进一步地,为各路所述音频配置混合权重包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
进一步地,为各路所述音频配置混合权重包括:
获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
获取当前扬声器的输入音频,并提取所述输入音频的多声道语谱图;
将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
进一步地,所述多声道语谱图的横坐标为时间,纵坐标为频率,并且音频能量值通过颜色等级进行划分。
进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数,用于从所述多声道语谱图中提取特征信息,并且所述卷积神经网络中的卷积层和池化层用于响应所述特征信息的平移不变性。
进一步地,在对所述音频训练样本进行训练之后,所述方法还包括:
根据训练后的模型预测得到的估计权重与预先确定的实际权重,对训练过程中的模型参数进行调整,以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。
为实现上述目的,本申请还提供一种沉浸式音频渲染系统,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
进一步地,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
进一步地,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于获取输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
由上可见,本发明提出一种沉浸式音频渲染的方法和系统,基于HOA和对象音频技术,根据音频内容自适应选择最优的处理方式,对音频进行渲染处理,该方法可以在保持声音平滑运动的情况下更精准定位声源位置,从而满足中小型场馆现场沉浸式音频制作与播放的需求。
附图说明
图1为本申请实施方式中沉浸式音频渲染方法的步骤图;
图2为本申请实施方式中通过机器学习的方式确定混合权重的流程图;
图3为本申请实施方式中沉浸式音频渲染系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种沉浸式音频渲染方法,请参阅图1,所述方法包括:
S1:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益。
S2:为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数。
S3:根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
在一个实施方式中,可以将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
具体地,在一个实施方式中,可以基于对象音频技术和HOA技术进行沉浸式音频渲染处理,且基于规则的(rule-based)增益生成方式来设置权重。
假设有N个扬声器,对于第n个扬声器播放的音频而言,基于HOA的增益为gHOAn(t),基于VBAP的增益为gVBAPn(t),最后的混合模式增益为gmn(t)。
各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
在一个实施方式中,为各路所述音频配置混合权重时,可以判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式。其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。具体地,对于静止音源,wn(t)则设置为0;音源移动权重则根据移动速度来设置,比如速度需小于v,wn(t)则设置小于0.5。
该实施方式适用于混音处理,音源是否移动以及移动速度,可以预先知道或者由混音师自定义。
在另一个实施方式中,基于对象音频技术和HOA技术进行沉浸式音频渲染处理,且通过数据驱动的方式来确定权重。
同样地,假设有N个扬声器,对于第n个扬声器播放的音频而言,基于HOA的增益为gHOAn(t),基于VBAP的增益为gVBAPn(t),最后的混合模式增益为gmn(t)。
各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
其中,wn(t)可以通过数据驱动的方式来确定权重,比如通过机器学习,基于神经网络的深度学习方法。
具体地,构建神经网络方法包括:1)输入为不同channel的音频语谱图(spectrogram);2)隐层多层卷积神经网络和全连接层;3)输出为混合权重为wn(t)。
在根据神经网络进行预测时,可以包括:获取音频训练样本,并基于多层卷积神经网络和全连接层网络模型对所述音频训练样本进行训练;获取输入音频,并提取所述输入音频的多声道语谱图;将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
具体地,语谱图的横坐标是时间,纵坐标是频率,坐标点值为该频点的音频能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的音频能量越强。通过音频的语谱图,我们能分析出音频的频率分布。根据多声道的语谱图,能够分析得到音源的运动轨迹。
请参阅图2,卷积神经网络具有表征学习能力,能够从多声道的语谱图中提取高阶特征,其中,卷积神经网络中的卷积层和池化层能够响应输入特征的平移不变性,即能够识别位于空间不同位置的相近特征。神经网络一般包含训练和测试两部分,输入为多声道的语谱图,输出为对应的权重,训练时的损失函数根据实际权重(预先确定)和估计权重进行设置,不断调整神经网络参数。也就是说,可以将训练后的模型预测得到的估计权重与预先确定的实际权重进行对比,并根据所述估计权重和所述实际权重的差值,对训练过程中的参数进行调整,以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。
该实施方式使用于音源是否移动以及移动速度未知的情况,系统根据输入音频自动匹配混合权重,用于渲染处理。
请参阅图3,本申请还提供一种沉浸式音频渲染系统,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
在一个实施方式中,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
在一个实施方式中,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
在一个实施方式中,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
由上可见,本发明提出一种沉浸式音频渲染的方法和系统,基于HOA和对象音频技术,根据音频内容自适应选择最优的处理方式,对音频进行渲染处理,该方法可以在保持声音平滑运动的情况下更精准定位声源位置,从而满足中小型场馆现场沉浸式音频制作与播放的需求。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
Claims (10)
1.一种沉浸式音频渲染方法,其特征在于,所述方法包括:
针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
2.根据权利要求1所述的方法,其特征在于,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:
将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
3.根据权利要求1所述的方法,其特征在于,各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
4.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
5.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
获取输入音频,并提取所述输入音频的多声道语谱图;
将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为当前扬声器对应音频的混合权重。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
7.一种沉浸式音频渲染系统,其特征在于,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
8.根据权利要求7所述的系统,其特征在于,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
9.根据权利要求8所述的系统,其特征在于,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于获取输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
10.根据权利要求9所述的系统,其特征在于,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876818.2A CN110751956B (zh) | 2019-09-17 | 2019-09-17 | 一种沉浸式音频渲染方法及系统 |
PCT/CN2020/107157 WO2021052050A1 (zh) | 2019-09-17 | 2020-08-05 | 一种沉浸式音频渲染方法及系统 |
KR1020207026992A KR102300177B1 (ko) | 2019-09-17 | 2020-08-05 | 몰입형 오디오 렌더링 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876818.2A CN110751956B (zh) | 2019-09-17 | 2019-09-17 | 一种沉浸式音频渲染方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751956A true CN110751956A (zh) | 2020-02-04 |
CN110751956B CN110751956B (zh) | 2022-04-26 |
Family
ID=69276576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876818.2A Active CN110751956B (zh) | 2019-09-17 | 2019-09-17 | 一种沉浸式音频渲染方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110751956B (zh) |
WO (1) | WO2021052050A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046218A (zh) * | 2019-12-12 | 2020-04-21 | 洪泰智造(青岛)信息技术有限公司 | 一种基于锁屏状态的音频获取方法、装置和系统 |
CN112351379A (zh) * | 2020-10-28 | 2021-02-09 | 歌尔光学科技有限公司 | 音频组件的控制方法以及智能头戴设备 |
WO2021052050A1 (zh) * | 2019-09-17 | 2021-03-25 | 南京拓灵智能科技有限公司 | 一种沉浸式音频渲染方法及系统 |
CN112616110A (zh) * | 2020-12-01 | 2021-04-06 | 中国电影科学技术研究所 | 空间声渲染方法、装置和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101889307A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
US20130148812A1 (en) * | 2010-08-27 | 2013-06-13 | Etienne Corteel | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
WO2014013070A1 (en) * | 2012-07-19 | 2014-01-23 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
CN104967960A (zh) * | 2015-03-25 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、游戏直播中的语音数据处理方法和系统 |
CN104995926A (zh) * | 2013-02-08 | 2015-10-21 | 汤姆逊许可公司 | 用于确定在声场的高阶高保真立体声表示中不相关的声源的方向的方法和装置 |
CN105009207A (zh) * | 2013-01-15 | 2015-10-28 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
US20150312678A1 (en) * | 2012-11-29 | 2015-10-29 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
CN106960672A (zh) * | 2017-03-30 | 2017-07-18 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
WO2018059742A1 (fr) * | 2016-09-30 | 2018-04-05 | Benjamin Bernard | Procede de conversion, d'encodage stereophonique, de decodage et de transcodage d'un signal audio tridimensionnel |
CN109473117A (zh) * | 2018-12-18 | 2019-03-15 | 广州市百果园信息技术有限公司 | 音频特效叠加方法、装置及其终端 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188595B (zh) * | 2011-12-31 | 2015-05-27 | 展讯通信(上海)有限公司 | 处理多声道音频信号的方法和系统 |
US9913064B2 (en) * | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
CN104244164A (zh) * | 2013-06-18 | 2014-12-24 | 杜比实验室特许公司 | 生成环绕立体声声场 |
WO2016077320A1 (en) * | 2014-11-11 | 2016-05-19 | Google Inc. | 3d immersive spatial audio systems and methods |
CN107342092B (zh) * | 2017-05-08 | 2020-09-08 | 深圳市创锐智汇科技有限公司 | 一种自动分配增益的混音系统和方法 |
CN107920303B (zh) * | 2017-11-21 | 2019-12-24 | 北京时代拓灵科技有限公司 | 一种音频采集的方法及装置 |
US11395083B2 (en) * | 2018-02-01 | 2022-07-19 | Qualcomm Incorporated | Scalable unified audio renderer |
CN110751956B (zh) * | 2019-09-17 | 2022-04-26 | 北京时代拓灵科技有限公司 | 一种沉浸式音频渲染方法及系统 |
CN111046218A (zh) * | 2019-12-12 | 2020-04-21 | 洪泰智造(青岛)信息技术有限公司 | 一种基于锁屏状态的音频获取方法、装置和系统 |
-
2019
- 2019-09-17 CN CN201910876818.2A patent/CN110751956B/zh active Active
-
2020
- 2020-08-05 WO PCT/CN2020/107157 patent/WO2021052050A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101889307A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
US20130148812A1 (en) * | 2010-08-27 | 2013-06-13 | Etienne Corteel | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
WO2014013070A1 (en) * | 2012-07-19 | 2014-01-23 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
CN104471641A (zh) * | 2012-07-19 | 2015-03-25 | 汤姆逊许可公司 | 用于改善对多声道音频信号的呈现的方法和设备 |
US20170140764A1 (en) * | 2012-07-19 | 2017-05-18 | Dolby Laboratories Licensing Corporation | Method and device for improving the rendering of multi-channel audio signals |
US20150312678A1 (en) * | 2012-11-29 | 2015-10-29 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
CN105009207A (zh) * | 2013-01-15 | 2015-10-28 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
CN104995926A (zh) * | 2013-02-08 | 2015-10-21 | 汤姆逊许可公司 | 用于确定在声场的高阶高保真立体声表示中不相关的声源的方向的方法和装置 |
CN104967960A (zh) * | 2015-03-25 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、游戏直播中的语音数据处理方法和系统 |
WO2018059742A1 (fr) * | 2016-09-30 | 2018-04-05 | Benjamin Bernard | Procede de conversion, d'encodage stereophonique, de decodage et de transcodage d'un signal audio tridimensionnel |
CN106960672A (zh) * | 2017-03-30 | 2017-07-18 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
CN109473117A (zh) * | 2018-12-18 | 2019-03-15 | 广州市百果园信息技术有限公司 | 音频特效叠加方法、装置及其终端 |
Non-Patent Citations (2)
Title |
---|
THIBAUT CARPENTIER: "A versatile workstation for the diffusion, mixing, and post-production of spatial audio", 《LINUX AUDIO CONFERENCE》 * |
张阳等: "虚拟现实中三维音频关键技术现状及发展", 《电声技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021052050A1 (zh) * | 2019-09-17 | 2021-03-25 | 南京拓灵智能科技有限公司 | 一种沉浸式音频渲染方法及系统 |
CN111046218A (zh) * | 2019-12-12 | 2020-04-21 | 洪泰智造(青岛)信息技术有限公司 | 一种基于锁屏状态的音频获取方法、装置和系统 |
CN112351379A (zh) * | 2020-10-28 | 2021-02-09 | 歌尔光学科技有限公司 | 音频组件的控制方法以及智能头戴设备 |
CN112351379B (zh) * | 2020-10-28 | 2021-07-30 | 歌尔光学科技有限公司 | 音频组件的控制方法以及智能头戴设备 |
CN112616110A (zh) * | 2020-12-01 | 2021-04-06 | 中国电影科学技术研究所 | 空间声渲染方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110751956B (zh) | 2022-04-26 |
WO2021052050A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751956B (zh) | 一种沉浸式音频渲染方法及系统 | |
US11681490B2 (en) | Binaural rendering for headphones using metadata processing | |
US10349197B2 (en) | Method and device for generating and playing back audio signal | |
EP4121957A1 (en) | Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these | |
US11140507B2 (en) | Rendering of spatial audio content | |
US20220059123A1 (en) | Separating and rendering voice and ambience signals | |
US20160044432A1 (en) | Audio signal processing apparatus | |
KR102300177B1 (ko) | 몰입형 오디오 렌더링 방법 및 시스템 | |
US20230379648A1 (en) | Audio signal isolation related to audio sources within an audio environment | |
CN116614762B (zh) | 一种球幕影院的音效处理方法及系统 | |
Lv et al. | A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video | |
CN117528392A (zh) | 音频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |