CN110751956A - 一种沉浸式音频渲染方法及系统 - Google Patents

一种沉浸式音频渲染方法及系统 Download PDF

Info

Publication number
CN110751956A
CN110751956A CN201910876818.2A CN201910876818A CN110751956A CN 110751956 A CN110751956 A CN 110751956A CN 201910876818 A CN201910876818 A CN 201910876818A CN 110751956 A CN110751956 A CN 110751956A
Authority
CN
China
Prior art keywords
audio
gain
mixing
weight
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910876818.2A
Other languages
English (en)
Other versions
CN110751956B (zh
Inventor
孙学京
张兴涛
许春生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tuoling Intelligent Technology Co Ltd
Beijing Tuoling Inc
Original Assignee
Nanjing Tuoling Intelligent Technology Co Ltd
Beijing Tuoling Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tuoling Intelligent Technology Co Ltd, Beijing Tuoling Inc filed Critical Nanjing Tuoling Intelligent Technology Co Ltd
Priority to CN201910876818.2A priority Critical patent/CN110751956B/zh
Publication of CN110751956A publication Critical patent/CN110751956A/zh
Priority to PCT/CN2020/107157 priority patent/WO2021052050A1/zh
Priority to KR1020207026992A priority patent/KR102300177B1/ko
Application granted granted Critical
Publication of CN110751956B publication Critical patent/CN110751956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

本发明实施方式涉及一种沉浸式音频渲染方法及系统,其中,所述方法包括:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。本申请提供的技术方案,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。

Description

一种沉浸式音频渲染方法及系统
技术领域
本申请涉及音频数据处理技术领域,特别涉及一种沉浸式音频渲染方法及系统。
背景技术
近年来,随着高清视频的不断发展,从2K到4K,甚至8K,还有伴随着虚拟现实VR、AR的发展,人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声、5.1、7.1等音响效果,开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。目前,沉浸式音频处理主要基于通道(channel-based audio,CBA)、对象音频(object-based audio,OBA)和Ambisonics场景音频(scene-based audio,SBA)等技术进行处理,包含音频制作、编解码、打包以及渲染等技术。
具体地,Ambisonics利用球谐函数记录声场并驱动扬声器,具有严格的扬声器排布要求,能够在扬声器中心位置高质量重建原始声场。在渲染移动音源时,HOA(HigherOrder Ambisonics)会营造出更加流畅,平滑的听感。
此外,幅度矢量合成(Vector Based Amplitude Panning,VBAP)基于三维空间中的正弦法则,利用空间中3个临近的扬声器形成三维声音矢量,不会影响低频的双耳时间差(ITD)或者高频的频谱线索,对声音在三维空间中的定位更加精准。由于该算法简单,VBAP成为最常用的多声道三维音频处理技术。
然而,现有的沉浸式音频处理方法不能满足中小型场馆现场沉浸式制作与播放的需求,且HOA用一种中间格式来重建一个3D声场,但受限于采用的阶数,可能会带来高频线索的缺失,从而影响听者的定位的精准度;而VBAP在渲染移动音源时会产生跳跃,产生不连贯的空间声效果。
发明内容
本申请的目的在于提供一种沉浸式音频渲染方法及系统,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。
为实现上述目的,本申请提供一种沉浸式音频渲染方法,所述方法包括:
针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
进一步地,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:
将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
进一步地,各个所述扬声器的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
进一步地,为各路所述音频配置混合权重包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
进一步地,为各路所述音频配置混合权重包括:
获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
获取当前扬声器的输入音频,并提取所述输入音频的多声道语谱图;
将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
进一步地,所述多声道语谱图的横坐标为时间,纵坐标为频率,并且音频能量值通过颜色等级进行划分。
进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数,用于从所述多声道语谱图中提取特征信息,并且所述卷积神经网络中的卷积层和池化层用于响应所述特征信息的平移不变性。
进一步地,在对所述音频训练样本进行训练之后,所述方法还包括:
根据训练后的模型预测得到的估计权重与预先确定的实际权重,对训练过程中的模型参数进行调整,以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。
为实现上述目的,本申请还提供一种沉浸式音频渲染系统,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
进一步地,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
进一步地,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于获取输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
由上可见,本发明提出一种沉浸式音频渲染的方法和系统,基于HOA和对象音频技术,根据音频内容自适应选择最优的处理方式,对音频进行渲染处理,该方法可以在保持声音平滑运动的情况下更精准定位声源位置,从而满足中小型场馆现场沉浸式音频制作与播放的需求。
附图说明
图1为本申请实施方式中沉浸式音频渲染方法的步骤图;
图2为本申请实施方式中通过机器学习的方式确定混合权重的流程图;
图3为本申请实施方式中沉浸式音频渲染系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种沉浸式音频渲染方法,请参阅图1,所述方法包括:
S1:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益。
S2:为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数。
S3:根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
在一个实施方式中,可以将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
具体地,在一个实施方式中,可以基于对象音频技术和HOA技术进行沉浸式音频渲染处理,且基于规则的(rule-based)增益生成方式来设置权重。
假设有N个扬声器,对于第n个扬声器播放的音频而言,基于HOA的增益为gHOAn(t),基于VBAP的增益为gVBAPn(t),最后的混合模式增益为gmn(t)。
各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
在一个实施方式中,为各路所述音频配置混合权重时,可以判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式。其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。具体地,对于静止音源,wn(t)则设置为0;音源移动权重则根据移动速度来设置,比如速度需小于v,wn(t)则设置小于0.5。
该实施方式适用于混音处理,音源是否移动以及移动速度,可以预先知道或者由混音师自定义。
在另一个实施方式中,基于对象音频技术和HOA技术进行沉浸式音频渲染处理,且通过数据驱动的方式来确定权重。
同样地,假设有N个扬声器,对于第n个扬声器播放的音频而言,基于HOA的增益为gHOAn(t),基于VBAP的增益为gVBAPn(t),最后的混合模式增益为gmn(t)。
各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
其中,wn(t)可以通过数据驱动的方式来确定权重,比如通过机器学习,基于神经网络的深度学习方法。
具体地,构建神经网络方法包括:1)输入为不同channel的音频语谱图(spectrogram);2)隐层多层卷积神经网络和全连接层;3)输出为混合权重为wn(t)。
在根据神经网络进行预测时,可以包括:获取音频训练样本,并基于多层卷积神经网络和全连接层网络模型对所述音频训练样本进行训练;获取输入音频,并提取所述输入音频的多声道语谱图;将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
具体地,语谱图的横坐标是时间,纵坐标是频率,坐标点值为该频点的音频能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的音频能量越强。通过音频的语谱图,我们能分析出音频的频率分布。根据多声道的语谱图,能够分析得到音源的运动轨迹。
请参阅图2,卷积神经网络具有表征学习能力,能够从多声道的语谱图中提取高阶特征,其中,卷积神经网络中的卷积层和池化层能够响应输入特征的平移不变性,即能够识别位于空间不同位置的相近特征。神经网络一般包含训练和测试两部分,输入为多声道的语谱图,输出为对应的权重,训练时的损失函数根据实际权重(预先确定)和估计权重进行设置,不断调整神经网络参数。也就是说,可以将训练后的模型预测得到的估计权重与预先确定的实际权重进行对比,并根据所述估计权重和所述实际权重的差值,对训练过程中的参数进行调整,以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。
该实施方式使用于音源是否移动以及移动速度未知的情况,系统根据输入音频自动匹配混合权重,用于渲染处理。
请参阅图3,本申请还提供一种沉浸式音频渲染系统,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
在一个实施方式中,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
在一个实施方式中,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
在一个实施方式中,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
由上可见,本发明提出一种沉浸式音频渲染的方法和系统,基于HOA和对象音频技术,根据音频内容自适应选择最优的处理方式,对音频进行渲染处理,该方法可以在保持声音平滑运动的情况下更精准定位声源位置,从而满足中小型场馆现场沉浸式音频制作与播放的需求。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

Claims (10)

1.一种沉浸式音频渲染方法,其特征在于,所述方法包括:
针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
2.根据权利要求1所述的方法,其特征在于,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:
将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。
3.根据权利要求1所述的方法,其特征在于,各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。
4.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
5.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
获取输入音频,并提取所述输入音频的多声道语谱图;
将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为当前扬声器对应音频的混合权重。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
7.一种沉浸式音频渲染系统,其特征在于,所述系统包括:
增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。
8.根据权利要求7所述的系统,其特征在于,所述权重系数确定单元包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
9.根据权利要求8所述的系统,其特征在于,所述权重系数确定单元包括:
训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
提取模块,用于获取输入音频,并提取所述输入音频的多声道语谱图;
权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
10.根据权利要求9所述的系统,其特征在于,所述神经网络模型为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。
CN201910876818.2A 2019-09-17 2019-09-17 一种沉浸式音频渲染方法及系统 Active CN110751956B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910876818.2A CN110751956B (zh) 2019-09-17 2019-09-17 一种沉浸式音频渲染方法及系统
PCT/CN2020/107157 WO2021052050A1 (zh) 2019-09-17 2020-08-05 一种沉浸式音频渲染方法及系统
KR1020207026992A KR102300177B1 (ko) 2019-09-17 2020-08-05 몰입형 오디오 렌더링 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910876818.2A CN110751956B (zh) 2019-09-17 2019-09-17 一种沉浸式音频渲染方法及系统

Publications (2)

Publication Number Publication Date
CN110751956A true CN110751956A (zh) 2020-02-04
CN110751956B CN110751956B (zh) 2022-04-26

Family

ID=69276576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910876818.2A Active CN110751956B (zh) 2019-09-17 2019-09-17 一种沉浸式音频渲染方法及系统

Country Status (2)

Country Link
CN (1) CN110751956B (zh)
WO (1) WO2021052050A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046218A (zh) * 2019-12-12 2020-04-21 洪泰智造(青岛)信息技术有限公司 一种基于锁屏状态的音频获取方法、装置和系统
CN112351379A (zh) * 2020-10-28 2021-02-09 歌尔光学科技有限公司 音频组件的控制方法以及智能头戴设备
WO2021052050A1 (zh) * 2019-09-17 2021-03-25 南京拓灵智能科技有限公司 一种沉浸式音频渲染方法及系统
CN112616110A (zh) * 2020-12-01 2021-04-06 中国电影科学技术研究所 空间声渲染方法、装置和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
US20130148812A1 (en) * 2010-08-27 2013-06-13 Etienne Corteel Method and device for enhanced sound field reproduction of spatially encoded audio input signals
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
CN104967960A (zh) * 2015-03-25 2015-10-07 腾讯科技(深圳)有限公司 语音数据处理方法、游戏直播中的语音数据处理方法和系统
CN104995926A (zh) * 2013-02-08 2015-10-21 汤姆逊许可公司 用于确定在声场的高阶高保真立体声表示中不相关的声源的方向的方法和装置
CN105009207A (zh) * 2013-01-15 2015-10-28 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
US20150312678A1 (en) * 2012-11-29 2015-10-29 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
CN106960672A (zh) * 2017-03-30 2017-07-18 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
WO2018059742A1 (fr) * 2016-09-30 2018-04-05 Benjamin Bernard Procede de conversion, d'encodage stereophonique, de decodage et de transcodage d'un signal audio tridimensionnel
CN109473117A (zh) * 2018-12-18 2019-03-15 广州市百果园信息技术有限公司 音频特效叠加方法、装置及其终端

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188595B (zh) * 2011-12-31 2015-05-27 展讯通信(上海)有限公司 处理多声道音频信号的方法和系统
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
CN107342092B (zh) * 2017-05-08 2020-09-08 深圳市创锐智汇科技有限公司 一种自动分配增益的混音系统和方法
CN107920303B (zh) * 2017-11-21 2019-12-24 北京时代拓灵科技有限公司 一种音频采集的方法及装置
US11395083B2 (en) * 2018-02-01 2022-07-19 Qualcomm Incorporated Scalable unified audio renderer
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及系统
CN111046218A (zh) * 2019-12-12 2020-04-21 洪泰智造(青岛)信息技术有限公司 一种基于锁屏状态的音频获取方法、装置和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
US20130148812A1 (en) * 2010-08-27 2013-06-13 Etienne Corteel Method and device for enhanced sound field reproduction of spatially encoded audio input signals
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备
US20170140764A1 (en) * 2012-07-19 2017-05-18 Dolby Laboratories Licensing Corporation Method and device for improving the rendering of multi-channel audio signals
US20150312678A1 (en) * 2012-11-29 2015-10-29 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
CN105009207A (zh) * 2013-01-15 2015-10-28 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN104995926A (zh) * 2013-02-08 2015-10-21 汤姆逊许可公司 用于确定在声场的高阶高保真立体声表示中不相关的声源的方向的方法和装置
CN104967960A (zh) * 2015-03-25 2015-10-07 腾讯科技(深圳)有限公司 语音数据处理方法、游戏直播中的语音数据处理方法和系统
WO2018059742A1 (fr) * 2016-09-30 2018-04-05 Benjamin Bernard Procede de conversion, d'encodage stereophonique, de decodage et de transcodage d'un signal audio tridimensionnel
CN106960672A (zh) * 2017-03-30 2017-07-18 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
CN109473117A (zh) * 2018-12-18 2019-03-15 广州市百果园信息技术有限公司 音频特效叠加方法、装置及其终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THIBAUT CARPENTIER: "A versatile workstation for the diffusion, mixing, and post-production of spatial audio", 《LINUX AUDIO CONFERENCE》 *
张阳等: "虚拟现实中三维音频关键技术现状及发展", 《电声技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021052050A1 (zh) * 2019-09-17 2021-03-25 南京拓灵智能科技有限公司 一种沉浸式音频渲染方法及系统
CN111046218A (zh) * 2019-12-12 2020-04-21 洪泰智造(青岛)信息技术有限公司 一种基于锁屏状态的音频获取方法、装置和系统
CN112351379A (zh) * 2020-10-28 2021-02-09 歌尔光学科技有限公司 音频组件的控制方法以及智能头戴设备
CN112351379B (zh) * 2020-10-28 2021-07-30 歌尔光学科技有限公司 音频组件的控制方法以及智能头戴设备
CN112616110A (zh) * 2020-12-01 2021-04-06 中国电影科学技术研究所 空间声渲染方法、装置和电子设备

Also Published As

Publication number Publication date
CN110751956B (zh) 2022-04-26
WO2021052050A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
CN110751956B (zh) 一种沉浸式音频渲染方法及系统
US11681490B2 (en) Binaural rendering for headphones using metadata processing
US10349197B2 (en) Method and device for generating and playing back audio signal
EP4121957A1 (en) Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these
US11140507B2 (en) Rendering of spatial audio content
US20220059123A1 (en) Separating and rendering voice and ambience signals
US20160044432A1 (en) Audio signal processing apparatus
KR102300177B1 (ko) 몰입형 오디오 렌더링 방법 및 시스템
US20230379648A1 (en) Audio signal isolation related to audio sources within an audio environment
CN116614762B (zh) 一种球幕影院的音效处理方法及系统
Lv et al. A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video
CN117528392A (zh) 音频处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant