CN117793609A - 一种声场渲染方法和装置 - Google Patents
一种声场渲染方法和装置 Download PDFInfo
- Publication number
- CN117793609A CN117793609A CN202311851444.1A CN202311851444A CN117793609A CN 117793609 A CN117793609 A CN 117793609A CN 202311851444 A CN202311851444 A CN 202311851444A CN 117793609 A CN117793609 A CN 117793609A
- Authority
- CN
- China
- Prior art keywords
- user
- frequency signal
- low
- rendered
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000008030 elimination Effects 0.000 claims abstract description 19
- 238000003379 elimination reaction Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000004091 panning Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000013707 sensory perception of sound Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Stereophonic System (AREA)
Abstract
本发明提供一种声场渲染方法和装置,应用于音频数字信号处理技术领域,包括:根据选定坐标系,在选定时间段,获取用户的具体方位信息;获取待渲染音频,对所述待渲染音频进行分析,得到音频信号并分解为低频信号和高频信号,对所述低频信号进行串扰消除处理,对所述高频信号进行渲染,并基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。本发明能够保证在任何给定的环境中,无论扬声器的类型和布局如何,都能为用户提供一个准确的、定制化的听觉体验,确保用户在任何时刻都能听到最真实、最具沉浸感的声音。
Description
技术领域
本发明涉及音频数字信号处理技术领域,特别是指一种声场渲染方法和装置。
背景技术
空间音频的背景根植于人类对真实听觉体验的渴望,特别是随着数字媒体技术的进步,用户期待在家庭娱乐、虚拟现实和增强现实中得到更加身临其境的体验。立体声技术曾是家庭娱乐系统的标准配置,但它只提供了有限的方向感。进入数字时代,用户追求的是一个全方位的听觉环境,它可以精确地模拟声音在三维空间中的传播,包括高度和深度。
头戴式设备和外放扬声器阵列在提供空间音频体验方面有着本质的不同。头戴式设备,如耳机,通常利用头部相关传递函数(HRTF)和其他算法直接在听众的耳旁模拟声音来源的位置,可以非常精确地控制声音到达每只耳朵的时刻和方式,从而制造出一种虚拟的三维音频效果。这种个人化的体验非常适合单用户场景,如游戏和个人媒体播放。
相对于头戴式设备,外放扬声器阵列则是在一个开放的空间中创造三维声场,通过多个扬声器的精确放置和声音的合适处理,可以在不同的空间位置为多个用户同时提供三维音频体验。这需要考虑到房间的声学特性,扬声器的布局和听众的位置,是一种更加社交和共享的听觉体验。然而,这样的设置通常对环境有更高的要求,并且在渲染复杂声场时可能不如头戴式设备那样精确。
当前空间音频渲染方案主要使用头部相关传递函数(HRTF)来模拟人耳对于声音方向和距离的自然感知,它通过复杂的声学模型来重现声源在三维空间中的位置,这种技术在耳机和多声道扬声器系统中尤为常见。不过,HRTF的劣势在于它通常是基于平均化的人类耳朵和头部形状的测量数据,这意味着它不能完全适应每个独特的听众,因为个人间的生理差异可能会影响到最终的听觉体验,尤其是在精确定位声源位置时的准确性。
矢量基底振幅声相(Vector Base Amplitude Panning VBAP)技术广泛应用于扬声器阵列中以渲染空间音频,它使用矢量数学来控制不同扬声器间的声音强度,从而在二维或三维空间中模拟声源的方位。尽管VBAP能够在水平面或立体空间中有效地定位声源,但它在渲染声源远近,即声音深度的表现上并不突出。由于这一技术主要依赖于声音强度的变化来定位声源,而不是复杂的声学模型,它可能在传达声音源距离听众远近的感觉方面不如HRTF等更高级的三维音频处理技术。这个局限性在尝试创造一个全方位立体的声音场景时,可能会使得体验略显平面化,缺乏真实感。
波场合成(Wave Field Synthesis WFS)和高阶环绕声(Higher OrderAmbisonics HOA)属于高级空间音频渲染技术。WFS通过大量排列的扬声器阵列产生连续的声波前沿,模拟真实的声场,而HOA则采用麦克风阵列和扬声器阵列通过复杂的数学算法精确地重建和渲染声场。这两种技术在模拟精细的空间声音位置和运动方面都非常先进,能够提供高度真实的听觉体验。然而,它们的劣势在于布局和成本;WFS需要大量的扬声器来精确控制声波,而HOA则需要高阶的麦克风和扬声器配置,且在非理想的听众位置可能无法获得最佳效果,限制了它们在商业和家庭环境中的普及。
简而言之,现有空间音频渲染技术在非专业环境中的应用存在局限性,特别是在使用任意扬声器阵列时根据用户的具体位置和头部朝向实时调整音频输出的时候,存在一系列的问题。
发明内容
为了解决现有空间音频渲染技术在非专业环境中的应用局限性,特别是在使用任意扬声器阵列时根据用户的具体位置和头部朝向实时调整音频输出的问题,本发明实施例提供了一种声场渲染方法及装置。所述技术方案如下:
一方面,提供了一种声场渲染方法,该方法由声场渲染设备实现,该方法包括:
S1:根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
S2:基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
S3:获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
S4:基于分频算法将所述音频信号分解为低频信号和高频信号;
S5:基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
S6:对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
S7:基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
S8:将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
S9:基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
优选地,所述S1的基于所述选定坐标系,获取扬声器阵列各单元的位置信息,包括:
S11:选定坐标系;
S12:通过传感器持续监测用户的在选定坐标系的位置信息和用户的头部朝向信息,得到用户的具体方位的实时数据;
S13:基于选定时间段,从用户的具体方位的实时数据获取用户的在选定坐标系的位置信息和用户的头部朝向信息;
S14:将用户的在选定坐标系的位置信息和用户的头部朝向信息合并得到用户的具体方位信息。
优选地,所述S4的基于分频算法将所述音频信号分解为低频信号和高频信号,包括:
S41:基于低通滤波器,对所述音频信号进行滤波操作,得到低频信号;
S42:基于高通滤波器,对所述音频信号进行滤波操作,得到高频信号。
优选地,所述S5的基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号,包括:
S51:基于方向性滤波器,利用用户的在选定坐标系的位置信息建立空间滤波器模型;
S52:通过用户的在选定坐标系的位置信息和空间滤波器模型,估计用户引入的串扰信号,得到估计的串扰信号;
S53:采用串扰消除算法对估计的串扰信号进行消除,得到去串扰的低频信号。
优选地,所述S6的对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号,包括:
S61:获取去串扰的低频信号和用户的头部朝向信息;
S62:根据用户的头部朝向信息选择适当的HRTF滤波器,所述选择适当的HRTF滤波器是通过HRTF数据库获取对应用户的头部朝向信息的HRTF数据;
S63:基于HRTF数据对去串扰的低频信号进行滤波,得到滤波后的低频信号;
S64:对滤波后的低频信号进行交叉耳延迟处理,得到处理后的低频信号。
优选地,所述S7的基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音,包括:
S71:创建立体声轨道,得到立体声轨道,并将所述高频信号导入到所述立体声轨道中,得到所述高频信号的左右声道的波形显示;
S72:根据panning参数,调整左右声道的波形显示的振幅比例,得到调整后的左右声道音频数据;
S73:合并调整后的左右声道音频数据,得到渲染后的高频信号。
优选地,所述S8的基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号,包括:
S81:获取扬声器阵列各单元的位置信息;
S82:对渲染后的音频信号进行分析,确定目标音源的位置信息,并计算声源定位参数;
S83:根据声源定位参数,对渲染后的音频信号,进行声场增强处理得到待播放音源信号。
另一方面,提供了一种声场渲染装置,该装置应用于声场渲染方法,该装置包括:
具体方位模块:用于根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
位置信息模块:用于基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
音频信号模块:用于获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
信号分解模块:用于基于分频算法将所述音频信号分解为低频信号和高频信号;
串扰消除模块:用于基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
第一渲染模块:用于对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
第二渲染模块:用于基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
合成模块:用于将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
增强模块:用于基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
另一方面,提供一种声场渲染设备,所述声场渲染设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述声场渲染方法中的任一项所述的方法。
另一方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述声场渲染方法中的任一项所述的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例提供的技术方案能够实现高度逼真的声音渲染的系统,它能够动态地通过传感器识别和响应用户的位置变化,以及头部的朝向,从而在任何给定的环境中,无论扬声器的类型和布局如何,都能为用户提供一个准确的、定制化的听觉体验,确保用户在任何时刻都能听到最真实、最具沉浸感的声音。
具体来说,在音频渲染过程中,系统会实时跟踪用户的位置和头部朝向,并且考虑到扬声器的精确位置。系统首先对输入的音频进行分析。接着,音频信号通过分频器分解为低频和高频信号。低频信号利用其较长波长的优势,通过串扰消除技术和HRTF渲染进行处理,这样做因为低频信号较不受干扰,更易于控制。相对地,高频信号由于其方向性强,使用panning技术进行渲染,能够更精确地模拟声源位置的细微变化。在渲染过程中,系统通过传感器持续监测用户位置以及头部朝向以及扬声器布局的空间特性实时调整渲染算法。最后,综合低频和高频信号后,输出至扬声器,确保用户无论身处空间何处、头部如何朝向,都能享受到稳定一致的、高度真实和沉浸式的听觉体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种声场渲染方法流程图;
图2是本发明实施例提供的一种声场渲染装置框图;
图3是本发明实施例提供的一种声场渲染设备的结构示意图。
具体实施方式
下面结合附图,对本发明中的技术方案进行描述。
在本发明实施例中,“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。此外,在本发明实施例中,“和/或”所表达的含义可以是两者都有,或者可以是两者任选其一。
本发明实施例中,“图像”,“图片”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。“的(of)”,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本发明实施例中,有时候下标如W1可能会笔误为非下标的形式如W1,在不强调其区别时,其所要表达的含义是一致的。
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种声场渲染方法,该方法可以由声场渲染设备实现,该声场渲染设备可以是终端或服务器。如图1所示的声场渲染方法流程图,该方法的处理流程可以包括如下的步骤:
S1:根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
优选地,S1,包括:
S11:选定坐标系;
S12:通过传感器持续监测用户的在选定坐标系的位置信息和用户的头部朝向信息,得到用户的具体方位的实时数据;
S13:基于选定时间段,从用户的具体方位的实时数据获取用户的在选定坐标系的位置信息和用户的头部朝向信息;
S14:将用户的在选定坐标系的位置信息和用户的头部朝向信息合并得到用户的具体方位信息。
在一些实施例中,可以采用摄像头或深度相机实时捕捉用户的头部朝向和位置信息。具体来说是利用面部检测技术(如Haar级联分类器、人脸关键点检测)识别用户的面部。利用深度学习模型(如人脸关键点检测模型、3D人脸重建模型)对用户的面部进行关键点检测和3D重建,以获取头部姿态信息。
S2:基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
在一些实施例中,需要事先对扬声器阵列进行布局。首先需要确定扬声器阵列需要覆盖的声场范围,包括水平和垂直方向的范围。
需要说明的是,根据声场范围和声音传播特性,选择合适的扬声器位置策略。常见的布局方式包括:等间距布局:将扬声器等距地排列,以确保声音覆盖范围均匀;线阵列:将多个扬声器排成一条线,以实现水平方向的声音定位和分布;曲线阵列:将扬声器以曲线形式排列,以更好地匹配声场形状和提高声音覆盖的一致性;立体声/环绕声布局:根据震音效果要求,选择合适的左右声道或全方位环绕声布局。
S3:获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
在一些实施例中,首先对输入的音频进行分析,识别其是声道、对象音频还是HOA格式。
需要说明的是,声道音频是最常见的音频格式,它使用固定数量的声道来表达声音。例如,立体声音频使用左右两个声道来表达声音的方向。对象音频是一种基于对象的音频编码格式,它允许声音被视为独立的对象,并可以在三维空间中进行定位和移动。HOA音频是一种高级音频编码格式,用于在三维空间中精确地呈现声音,并通常使用球面谐波来实现。
需要进一步说明的是,这些格式之间的主要区别在于它们对声音的表达方式以及在三维环境中呈现和处理声音的能力。声道音频使用固定数量的声道表达声音方向,对象音频将声音视为独立的对象,而HOA音频使用更高级的编码方式实现更加精确和复杂的三维声音呈现。
S4:基于分频算法将所述音频信号分解为低频信号和高频信号;
优选地,S4,包括:
S41:基于低通滤波器,对所述音频信号进行滤波操作,得到低频信号;
S42:基于高通滤波器,对所述音频信号进行滤波操作,得到高频信号。
在一些实施例中,低通滤波器(Low-pass Filter)是一种信号处理器件,用来去除输入信号中高于一定频率的成分,保留低频成分。低通滤波器,通常采用数字滤波器或者模拟滤波器来实现。可以选择不同类型的滤波器,并设定截止频率,以滤除高频成分。同样的,高通滤波器是一种信号处理器件,用来去除输入信号中低于一定频率的成分,保留高频成分。最简单的高通滤波器是“一阶高通滤波器”,它的的特性一般用一阶线性微分方程表示,它的左边与一阶低通滤波器完全相同,仅右边是激励源的导数而不是激励源本身。当较低的频率通过该系统时,没有或几乎没有什么输出,而当较高的频率通过该系统时,将会受到较小的衰减。
S5:基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
优选地,S5,包括:
S51:基于方向性滤波器,利用用户的在选定坐标系的位置信息建立空间滤波器模型;
S52:通过用户的在选定坐标系的位置信息和空间滤波器模型,估计用户引入的串扰信号,得到估计的串扰信号;
S53:采用串扰消除算法对估计的串扰信号进行消除,得到去串扰的低频信号。
在一些实施例中,串扰消除(Crosstalk Cancellation),是一种音频处理技术,通过精确的声音调整消除左右声道间的干扰,提高立体声分离度,使得双耳听到的声音更加清晰分开。串扰信号是指在通信系统中,由其他信号或外部干扰引起的干扰信号。这些干扰信号可能来自于其他用户的信号、电磁干扰、设备故障等因素,导致接收端收到除了预期信号以外的额外信号。串扰信号会对通信系统的性能和可靠性造成影响,因此需要对其进行有效的估计和抑制。
需要说明的是,串扰消除算法通常使用自适应滤波器来对估计的串扰信号进行消除,得到去串扰的低频信号。常见的包括最小均方(LMS)算法和最小均方滤波器(RLS)算法。
S6:对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
优选地,S6,包括:
S61:获取去串扰的低频信号和用户的头部朝向信息;
S62:根据用户的头部朝向信息选择适当的HRTF滤波器,所述选择适当的HRTF滤波器是通过HRTF数据库获取对应用户的头部朝向信息的HRTF数据;
S63:基于HRTF数据对去串扰的低频信号进行滤波,得到滤波后的低频信号;
S64:对滤波后的低频信号进行交叉耳延迟处理,得到处理后的低频信号。
在一些实施例中,头部相关传递函数(Head Related Transfer Function HRTF),是一种描述个体耳朵接收来自任何方向声音的独特方式的测量,用于在听众的耳朵中重现真实世界的空间声音。头部相关传递函数通过延迟信号来模拟声音到达两只耳朵的时间差,通常采用交叉耳延迟的方式来模拟。
S7:基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
优选地,S7,包括:
S71:创建立体声轨道,得到立体声轨道,并将所述高频信号导入到所述立体声轨道中,得到所述高频信号的左右声道的波形显示;
S72:根据panning参数,调整左右声道的波形显示的振幅比例,得到调整后的左右声道音频数据;
S73:合并调整后的左右声道音频数据,得到渲染后的高频信号。
在一些实施例中,panning的取值在-1到1之间,-1表示完全向左声道,0表示中立(即声音均匀分布在左右声道),1表示完全向右声道。在实际应用中,通常将panning从-1到1的范围映射到0到100%的百分比范围来进行设置。
S8:将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
S9:基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
优选地,S9,包括:
S91:获取扬声器阵列各单元的位置信息;
S92:对渲染后的音频信号进行分析,确定目标音源的位置信息,并计算声源定位参数;
S93:根据声源定位参数,对渲染后的音频信号,进行声场增强处理得到待播放音源信号。
在一些实施例中,首先需要准确地获取扬声器阵列各单元的位置信息,包括水平和垂直方向上的位置以及与听众位置的相对距离。根据声源定位的参数,对渲染后的音频信号进行声场增强处理,通过加权叠加或者波束成形等方法,将不同扬声器的信号进行合成,以模拟出目标音源的位置。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图2是根据一示例性实施例示出的一种声场渲染装置框图,该装置用于声场渲染方法。参照图2,该装置包括具体方位模块、位置信息模块、音频信号模块、信号分解模块、串扰消除模块、第一渲染模块、第二渲染模块、合成模块和增强模块。
具体方位模块:用于根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
位置信息模块:用于基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
音频信号模块:用于获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
信号分解模块:用于基于分频算法将所述音频信号分解为低频信号和高频信号;
串扰消除模块:用于基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
第一渲染模块:用于对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
第二渲染模块:用于基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
合成模块:用于将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
增强模块:用于基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
本发明实施例提供了一种声场渲染设备,所述声场渲染设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述声场渲染方法中的任一项所述的方法。
本发明实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述声场渲染方法中的任一项所述的方法。
在一些实施例中,声场渲染装置可以提供全方位的听觉环境,它可以精确地模拟声音在三维空间中的传播,包括高度和深度,这就是空间音频的应用背景。
图3是本发明实施例提供的一种声场渲染设备的结构示意图,如图3所示,声场渲染设备可以包括上述图2所示的声场渲染装置。可选地,声场渲染设备310可以包括处理器2001。
可选地,声场渲染设备310还可以包括存储器2002和收发器2003。
其中,处理器2001与存储器2002以及收发器2003,如可以通过通信总线连接。
下面结合图3对声场渲染设备310的各个构成部件进行具体的介绍:
其中,处理器2001是声场渲染设备310的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器2001是一个或多个中央处理器(central processingunit,CPU),也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(fieldprogrammable gate array,FPGA)。
可选地,处理器2001可以通过运行或执行存储在存储器2002内的软件程序,以及调用存储在存储器2002内的数据,执行声场渲染设备310的各种功能。
在具体的实现中,作为一种实施例,处理器2001可以包括一个或多个CPU,例如图3中所示出的CPU0和CPU1。
在具体实现中,作为一种实施例,声场渲染设备310也可以包括多个处理器,例如图3中所示的处理器2001和处理器2004。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
其中,所述存储器2002用于存储执行本发明方案的软件程序,并由处理器2001来控制执行,具体实现方式可以参考上述方法实施例,此处不再赘述。
可选地,存储器2002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2002可以和处理器2001集成在一起,也可以独立存在,并通过声场渲染设备310的接口电路(图3中未示出)与处理器2001耦合,本发明实施例对此不作具体限定。
收发器2003,用于与网络设备通信,或者与终端设备通信。
可选地,收发器2003可以包括接收器和发送器(图3中未单独示出)。其中,接收器用于实现接收功能,发送器用于实现发送功能。
可选地,收发器2003可以和处理器2001集成在一起,也可以独立存在,并通过声场渲染设备310的接口电路(图3中未示出)与处理器2001耦合,本发明实施例对此不作具体限定。
需要说明的是,图3中示出的声场渲染设备310的结构并不构成对该路由器的限定,实际的知识结构识别设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,声场渲染设备310的技术效果可以参考上述方法实施例所述的声场渲染方法方法的技术效果,此处不再赘述。
应理解,在本发明实施例中的处理器2001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种声场渲染方法,其特征在于,包括:
S1:根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
S2:基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
S3:获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
S4:基于分频算法将所述音频信号分解为低频信号和高频信号;
S5:基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
S6:对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
S7:基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
S8:将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
S9:基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
2.根据权利要求1所述的声场渲染方法,其特征在于,所述S1的基于所述选定坐标系,获取扬声器阵列各单元的位置信息,包括:
S11:选定坐标系;
S12:通过传感器持续监测用户的在选定坐标系的位置信息和用户的头部朝向信息,得到用户的具体方位的实时数据;
S13:基于选定时间段,从用户的具体方位的实时数据获取用户的在选定坐标系的位置信息和用户的头部朝向信息;
S14:将用户的在选定坐标系的位置信息和用户的头部朝向信息合并得到用户的具体方位信息。
3.根据权利要求1所述的声场渲染方法,其特征在于,所述S4的基于分频算法将所述音频信号分解为低频信号和高频信号,包括:
S41:基于低通滤波器,对所述音频信号进行滤波操作,得到低频信号;
S42:基于高通滤波器,对所述音频信号进行滤波操作,得到高频信号。
4.根据权利要求1所述的声场渲染方法,其特征在于,所述S5的基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号,包括:
S51:基于方向性滤波器,利用用户的在选定坐标系的位置信息建立空间滤波器模型;
S52:通过用户的在选定坐标系的位置信息和空间滤波器模型,估计用户引入的串扰信号,得到估计的串扰信号;
S53:采用串扰消除算法对估计的串扰信号进行消除,得到去串扰的低频信号。
5.根据权利要求1所述的声场渲染方法,其特征在于,所述S6的对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号,包括:
S61:获取去串扰的低频信号和用户的头部朝向信息;
S62:根据用户的头部朝向信息选择适当的HRTF滤波器,所述选择适当的HRTF滤波器是通过HRTF数据库获取对应用户的头部朝向信息的HRTF数据;
S63:基于HRTF数据对去串扰的低频信号进行滤波,得到滤波后的低频信号;
S64:对滤波后的低频信号进行交叉耳延迟处理,得到处理后的低频信号。
6.根据权利要求1所述的声场渲染方法,其特征在于,所述S7的基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音,包括:
S71:创建立体声轨道,得到立体声轨道,并将所述高频信号导入到所述立体声轨道中,得到所述高频信号的左右声道的波形显示;
S72:根据panning参数,调整左右声道的波形显示的振幅比例,得到调整后的左右声道音频数据;
S73:合并调整后的左右声道音频数据,得到渲染后的高频信号。
7.根据权利要求1所述的声场渲染方法,其特征在于,所述S8的基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号,包括:
S81:获取扬声器阵列各单元的位置信息;
S82:对渲染后的音频信号进行分析,确定目标音源的位置信息,并计算声源定位参数;
S83:根据声源定位参数,对渲染后的音频信号,进行声场增强处理得到待播放音源信号。
8.一种声场渲染装置,其特征在于,所述装置适用于上述权利要求1-7中任意一项所述的方法,装置包括:
具体方位模块:用于根据选定坐标系,在选定时间段,获取用户的具体方位信息,所述用户的具体方位信息包含用户的在选定坐标系的具体位置信息和用户的头部朝向信息;
位置信息模块:用于基于所述选定坐标系,获取扬声器阵列各单元的位置信息;
音频信号模块:用于获取待渲染音频,对所述待渲染音频进行分析,得到音频信号;
信号分解模块:用于基于分频算法将所述音频信号分解为低频信号和高频信号;
串扰消除模块:用于基于用户的具体方位信息,对所述低频信号进行串扰消除处理,得到去串扰的低频信号;
第一渲染模块:用于对所述去串扰的低频信号进行HRTF渲染,得到处理后的低频信号;
第二渲染模块:用于基于用户的具体方位信息,利用panning技术对所述高频信号进行渲染,得到渲染后的高频音;
合成模块:用于将所述处理后的低频信号和所述渲染后的高频音进行合成处理,得到渲染后的音频信号;
增强模块:用于基于扬声器阵列各单元的位置信息,对渲染后的音频信号进行增强处理,得到待播放音源信号。
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311851444.1A CN117793609A (zh) | 2023-12-28 | 2023-12-28 | 一种声场渲染方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311851444.1A CN117793609A (zh) | 2023-12-28 | 2023-12-28 | 一种声场渲染方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117793609A true CN117793609A (zh) | 2024-03-29 |
Family
ID=90381437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311851444.1A Pending CN117793609A (zh) | 2023-12-28 | 2023-12-28 | 一种声场渲染方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117793609A (zh) |
-
2023
- 2023-12-28 CN CN202311851444.1A patent/CN117793609A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7529371B2 (ja) | 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 | |
US9131305B2 (en) | Configurable three-dimensional sound system | |
US10715945B2 (en) | Methods and systems for determining and/or using an audio filter based on head-tracking data | |
CN106797525B (zh) | 用于生成和回放音频信号的方法和设备 | |
US10251012B2 (en) | System and method for realistic rotation of stereo or binaural audio | |
US20120288114A1 (en) | Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images | |
US20050080616A1 (en) | Recording a three dimensional auditory scene and reproducing it for the individual listener | |
JP2019518373A (ja) | 没入型オーディオ再生システム | |
CN106537942A (zh) | 3d沉浸式空间音频系统和方法 | |
CN113170271B (zh) | 用于处理立体声信号的方法和装置 | |
US11122384B2 (en) | Devices and methods for binaural spatial processing and projection of audio signals | |
US11546703B2 (en) | Methods for obtaining and reproducing a binaural recording | |
EP3225039B1 (en) | System and method for producing head-externalized 3d audio through headphones | |
Johansson | VR for your ears: dynamic 3D audio is key to the immersive experience by mathias johansson· illustration by eddie guy | |
CN113632505A (zh) | 装置、方法、声音系统 | |
US11032660B2 (en) | System and method for realistic rotation of stereo or binaural audio | |
US11678111B1 (en) | Deep-learning based beam forming synthesis for spatial audio | |
US11917394B1 (en) | System and method for reducing noise in binaural or stereo audio | |
CN117793609A (zh) | 一种声场渲染方法和装置 | |
Yuan et al. | Externalization improvement in a real-time binaural sound image rendering system | |
US20240314509A1 (en) | Extracting Ambience From A Stereo Input | |
Tarzan et al. | Assessment of sound spatialisation algorithms for sonic rendering with headphones | |
Yao | Influence of Loudspeaker Configurations and Orientations on Sound Localization | |
Iwanaga et al. | Embedded implementation of acoustic field enhancement for stereo sound sources | |
CN118301536A (zh) | 音频的虚拟环绕处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |