CN113035209A - 三维音频获取方法和三维音频获取装置 - Google Patents

三维音频获取方法和三维音频获取装置 Download PDF

Info

Publication number
CN113035209A
CN113035209A CN202110214427.1A CN202110214427A CN113035209A CN 113035209 A CN113035209 A CN 113035209A CN 202110214427 A CN202110214427 A CN 202110214427A CN 113035209 A CN113035209 A CN 113035209A
Authority
CN
China
Prior art keywords
audio
richness
spectrum
track
audio track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110214427.1A
Other languages
English (en)
Other versions
CN113035209B (zh
Inventor
李楠
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110214427.1A priority Critical patent/CN113035209B/zh
Publication of CN113035209A publication Critical patent/CN113035209A/zh
Application granted granted Critical
Publication of CN113035209B publication Critical patent/CN113035209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本公开关于一种三维音频获取方法和三维音频获取装置。该三维音频获取方法包括:获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨;采用第一算法对预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,其他音轨为多路音轨中除预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;将经过处理的预定音轨和其他音轨进行混音处理,获取3D音频。

Description

三维音频获取方法和三维音频获取装置
技术领域
本公开涉及音频处理领域,尤其涉及一种三维音频获取方法和三维音频获取装置。
背景技术
随着智能设备性能的提升和互联网软件工程的进步,手机和个人计算机等智能终端上的游戏逐渐普及,游戏中音效的体验也收到广泛关注,其中能体现声音空间感的三维(Three Dimensional,简称为3D)音效尤其收到重视。一种高精度的实现3D音效的普遍方案是头相关传递函数(Head Related Transfer Function,简称为HRTF)滤波算法,但该算法具有实现高进度建模的同时具有极高的复杂度,低复杂度的声方位映射方法难以实现良好的体验。因此,一种实用且体验良好的3D音效技术成为关键。
因此,针对相关技术中3D音效处理处理过程中无法兼顾算法的低复杂度和用户的高体验度的问题,尚未有解决方案。
发明内容
本公开提供一种三维音频获取方法和三维音频获取装置,以至少解决相关技术中的三维音效处理过程中无法兼顾算法的低复杂度和用户的高体验度的问题。
根据本公开实施例的第一方面,提供一种三维音频获取方法,包括:获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨;采用第一算法对预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,其他音轨为多路音轨中除预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;将经过处理的预定音轨和其他音轨进行混音处理,获取三维音频。
可选地,根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨,包括:基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度;将重要度超过预定阈值的音轨确定为预定音轨。
可选地,基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度包括:获取用于划分频谱丰富度区间的划分阈值和与每个频谱丰富度区间对应的音量权重系数;根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度。
可选地,获取用于划分频谱丰富度区间的划分阈值包括:根据每个音轨的频谱丰富度确定最高频谱丰富度和最低频谱丰富度;根据最高频谱丰富度和最低频谱丰富度,确定L个划分阈值,其中L大于等于1。
可选地,获取与每个频谱丰富度区间对应的音量权重系数包括:根据最高频谱丰富度、最低频谱丰富度和L个划分阈值,将最高频谱丰富度和最低频谱丰富度之间的连续频谱丰富度划分为L+1个频谱丰富度区间;根据每个频谱丰富度区间的频谱丰富度,确定每个频谱丰富度区间对应的音量权重系数。
可选地,根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度包括:根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数;将每个音轨的音量和每个音轨对应的音量权重系数的乘积作为每个音轨的重要度。
可选地,根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数包括:比较划分阈值和每个音轨的频谱丰富度,确定每个音轨的频谱丰富度对应的频谱丰富度区间;将频谱丰富度区间对应的音量权重系数作为每个音轨对应的音量权重系数。
可选地,将重要度超过预定阈值的音轨确定为预定音轨包括:对每个音轨按重要度从高到低进行排序;将排名在预定阈值前的音轨确定为预定音轨。
可选地,第一算法包括头相关变换函数滤波算法,第二算法包括声方位映射算法。
根据本公开实施例的第二方面,提供一种三维获取装置,包括:第一获取单元,被配置为获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;确定单元,被配置为执行根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨;处理单元,被配置为执行采用第一算法对预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,其他音轨为多路音轨中除预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;第二获取单元,被配置为执行将经过处理的预定音轨和其他音轨进行混音处理,获取三维音频。
可选地,确定单元,还被配置为执行基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度;将重要度超过预定阈值的音轨确定为预定音轨。
可选地,确定单元,还被配置为执行获取用于划分频谱丰富度区间的划分阈值和与每个频谱丰富度区间对应的音量权重系数;根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度。
可选地,确定单元,还被配置为执行根据每个音轨的频谱丰富度确定最高频谱丰富度和最低频谱丰富度;根据最高频谱丰富度和最低频谱丰富度,确定L个划分阈值,其中L大于等于1。
可选地,确定单元,还被配置为执行根据最高频谱丰富度、最低频谱丰富度和L个划分阈值,将最高频谱丰富度和最低频谱丰富度之间的连续频谱丰富度划分为L+1个频谱丰富度区间;根据每个频谱丰富度区间的频谱丰富度,确定每个频谱丰富度区间对应的音量权重系数。
可选地,确定单元,还被配置为执行根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数;将每个音轨的音量和每个音轨对应的音量权重系数的乘积作为每个音轨的重要度。
可选地,确定单元,还被配置为执行比较划分阈值和每个音轨的频谱丰富度,确定每个音轨的频谱丰富度对应的频谱丰富度区间;将频谱丰富度区间对应的音量权重系数作为每个音轨对应的音量权重系数。
可选地,确定单元,还被配置为执行对每个音轨按重要度从高到低进行排序;将排名在预定阈值前的音轨确定为预定音轨。
可选地,第一算法包括头相关变换函数滤波算法,第二算法包括声方位映射算法。
根据本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的三维音频获取方法。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的三维音频获取方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的三维音频获取方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的3D音频获取方法、装置及电子设备、服务器,可以根据多路音轨中每个音轨的音量和频谱丰富度,确定出多路音轨中使用高精度算法的音轨,从而仅对确定出的音轨采用高精度算法。由于频谱更丰富、音量更大的信号在音频中具有更突出的被人耳感知能力,根据音量和频谱丰富度确定使用高精度的音轨,能够保证将有限的高精度计算量分配给感知度更高的音轨,使得在获得较高精度的3D音效的同时,实现较低的复杂度,从而解决了相关技术中的3D音效处理过程中无法兼顾算法的低复杂度和用户的高体验度的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的3D音频获取方法的实施场景示意图;
图2是根据一示例性实施例示出的一种3D音频获取方法的流程图;
图3是根据一示例性实施例示出的一种3D音频获取系统的示意图;
图4是根据一示例性实施例示出的一种3D音频获取装置框图;
图5是根据本公开实施例的一种电子设备50的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
随着智能设备性能的提升和互联网软件工程的进步,手机和个人计算机等智能终端上的游戏逐渐普及,游戏中音效的体验也收到广泛关注,其中能体现声音空间感的3D音效尤其收到重视。相关技术中,一般通过直接提供给用户高、低精度算法,用户主动选择确定终端使用高精度算法或低精度算法,或者,通过简单的设置最大支持的高精度算法音轨数目来限制复杂度,如,设置最大支持高精度算法音轨数目为5,则简单的按音轨输入的前后顺序确定前5个音轨采用高精度算法。前一种方法需要用户参与操作,自动化性能低,若用户在低性能终端中选择高精度算法,会出现终端卡顿等降低用户体验的问题;后一种方法可能导致较为突出的声音使用了低精度算法等问题,使得最终3D音效体验下降。一般来讲,高精度算法为运行时资源占用比例超过终端能承受的阈值的算法,低精度算法为运行时资源占用比例未超过上述阈值的算法。
本公开提供了一种3D音频获取方法,可以得到体验度非常好的3D音效,图1是示出根据本公开的示例性实施例的3D音频获取方法的实施场景示意图,如图1所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端包括并不限于手机、个人计算机等设备,用户终端可以安装游戏应用或者可以通过网页进行游戏体验,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
服务器100接收游戏音效所需的音轨1、音轨2…音轨M后,获取M路音轨中每个音轨的音量和频谱丰富度,根据所述每个音轨的音量和频谱丰富度,确定输入的M路音轨中的采用第一算法(也即上述高精度算法)的音轨,从而采用第一算法处理上述确定的音轨,采用第二算法(也即上述低精度算法)处理M路音轨中的其他音轨,最终将经过算法处理的音轨进行混音处理,获取最终的3D音频,即3D游戏音效,输出到用户终端110或用户终端120。通过上述3D音频获取方法,用户终端110和用户终端120可以得到良好的能体现声音空间感的3D音效。
下面,将参照图2至图4详细描述根据本公开的示例性实施例的3D音频获取方法、装置。
图2是根据一示例性实施例示出的一种3D音频获取方法的流程图,如图2所示,3D音频获取方法包括以下步骤:
在步骤S201中,获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度。
在步骤S202中,根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨。
根据本公开的示例性实施例,根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨,包括:基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度;将重要度超过预定阈值的音轨确定为预定音轨。通过本实施例将每个音轨的音量和频谱丰富度计算为重要度,通过计算重要度及设置预定阈值选择合适的音轨作为预定音轨,降低了确定预定音轨的复杂度。
根据本公开的示例性实施例,基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度包括:获取用于划分频谱丰富度区间的划分阈值和与每个频谱丰富度区间对应的音量权重系数;根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度。通过本实施例,可以快速获取每个音轨的重要度。
根据本公开的示例性实施例,获取用于划分频谱丰富度区间的划分阈值包括:根据每个音轨的频谱丰富度确定最高频谱丰富度和最低频谱丰富度;根据最高频谱丰富度和最低频谱丰富度,确定L个划分阈值,其中L大于等于1。需要说明的是,根据最高频谱丰富度和最低频谱丰富度确定L个划分阈值的过程中,可以结合本领域的历史经验和实际情况中用户需求共同确定。上述L个划分阈值中每一个阈值都是一个固定的频谱丰富度且L个划分阈值可以是递增的,上述L个划分阈值会形成L+1个间隔,每个间隔也就是频谱丰富度区间。
根据本公开的示例性实施例,获取与每个频谱丰富度区间对应的音量权重系数包括:根据最高频谱丰富度、最低频谱丰富度和L个划分阈值,将最高频谱丰富度和最低频谱丰富度之间的连续频谱丰富度划分为L+1个频谱丰富度区间;根据每个频谱丰富度区间的频谱丰富度,确定每个频谱丰富度区间对应的音量权重系数。需要说明的是,根据每个频谱丰富度区间的频谱丰富度确定每个频谱丰富度区间对应的音量权重系数的过程中,可以结合本领域的历史经验和实际情况中用户需求共同确定。上述音量权重系数随着对应的频谱丰富度区间代表的频谱丰富度增加而增加,也即频谱丰富度区间代表的频谱丰富度增越高,则频谱丰富度区间对应的音量权重系数越高,具体的音量权重系数根据实际情况确定。
根据本公开的示例性实施例,根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度包括:根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数;将每个音轨的音量和每个音轨对应的音量权重系数的乘积作为每个音轨的重要度。通过本实施例,可以快速、方便的获取每个音轨的重要度。
根据本公开的示例性实施例,根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数包括:比较划分阈值和每个音轨的频谱丰富度,确定每个音轨的频谱丰富度对应的频谱丰富度区间;将频谱丰富度区间对应的音量权重系数作为每个音轨对应的音量权重系数。根据本公开的示例性实施例,将重要度超过预定阈值的音轨确定为预定音轨包括:对每个音轨按重要度从高到低进行排序;将排名在预定阈值前的的音轨确定为预定音轨。通过本实施例,通过排序的手段可以快速、方便的选择出超过预定阈值的音轨。
在步骤S203中,采用第一算法对预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,其他音轨为多路音轨中除预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例。
需要说明的是,第一算法为运行时资源占用比例超过预定值的算法,第二算法为运行时资源占用比例未超过预定值的算法,其中,预定值根据运行设备的性能和用户需求设置。
根据本公开的示例性实施例,第一算法包括但不限于头相关变换函数滤波算法,第二算法包括但不限于声方位映射算法。
在步骤S204中,将经过处理的预定音轨和其他音轨进行混音处理,获取3D音频。
根据本公开的上述实施例中的3D音频获取方法可以根据多路音轨中每个音轨的音量和频谱丰富度,然后计算出每个音轨的重要度,根据重要度确定出多路音轨中使用第一算法的音轨,从而仅对确定出的音轨采用第一算法。上述实施例中计算重要度的原理是根据声掩蔽理论,同时考虑频谱丰富度和音量大小对声音突出性的影响,由于频谱更丰富、音量更大的信号在音频中具有更突出的被人耳感知能力,因此,根据音量和频谱丰富度计算重要度,从而确定使用高精度的音轨,能够保证将有限的高精度计算量分配给感知度更高的音轨,使得在获得较高精度的3D音效的同时,实现较低的复杂度,从而解决了相关技术中的3D音效处理过程中高精度算法和低精度算法分配不合理,导致用户体验度低的问题。
综上,本公开旨在提出一种基于动态规划的实用空间音效获取方法,能够根据当前的音轨数量和基于声掩蔽理论的重要程度判决来规划3D音效高、低算法精度算法的分配,在获得较高精度的3D音效的同时,实现较低的复杂度,从而保证实用性。
图3是根据一示例性实施例示出的一种3D音频获取系统的示意图,本公开的上述实施例可以应用在如图3所示的系统中,如图3所示,该系统可以包括如下模块:音量和频谱丰富度计算模块,音轨重要程度排序模块,3D音效处理模块,混音器模块。其中,音量和频谱丰富度计算模块计算各个收取到的音轨的音量和频谱丰富度;音轨重要程度排序模块根据各个音轨的音量和频谱丰富度信息对音轨重要程度进行排序;3D音效处理模块对各个音轨进行3D音效处理得到各个音轨的双通道3D音频输出;混音器模块对多路双通道音频进行混音。
系统中各模块功能如下;
音量和频谱丰富度计算模块:接收输入的多路音轨,多路音轨表示如下input1(n),input2(n),......,inputM(n),并根据接收的多路音轨计算得到各个音轨的音量loudness1(n),loudness2(n),......,loudnessM(n)和各个音轨的频谱丰富度richness1(n),richness2(n),......,richnessM(n)。其中,n为当前音频帧序数,M为总音轨数量,音轨数量随n为可变数值。需要说明的是,音量和频谱丰富度的计算均有较为成熟的方案,在此不做过多说明。
音轨重要程度排序模块:接收音量和频谱丰富度计算模块得到的各个音轨的音量loudness1(n),loudness2(n),......,loudnessM(n)和各个音轨的频谱丰富度richness1(n),richness2(n),......,richnessM(n),根据预先设置的划分阈值和各路信号的音量和频谱丰富度计算每个音轨的重要度,预先设置的L个划分阈值如下:richthre1,richthre2,......,richthreL。具体公式如下:
Figure BDA0002952615200000091
其中,X可以替代1,2,......,M;weight0,weight1,......,weightL代表在各个阈值划分的频谱丰富度区间对应的音量权重系数,频谱丰富度区间的频谱丰富度越高,其对应的音量权重系数值越高,对每一路音轨分别计算得到每一个音轨的重要度importance1(n),importance2(n),.....,importanceM(n)序列,最后对上述重要度序列进行排序,得到各个音轨的重要度排序序列importancesort[M],其中*[M]表示长度为M的序列,以上计算重要程度的原理是根据声掩蔽理论,同时考虑频谱丰富度和音量大小对声音突出性的影响,一般来讲,频谱更丰富、音量更大的信号在音频中具有更突出的被人耳感知能力,因此,上述重要度排序靠前的音轨,在后续处理时使用第一算法对其进行处理,能够保证将有限的第一算法计算量分配给感知度更高的信号。
音效处理模块:设定支持的第一算法处理最大音轨数量maxprecise,取一行重要度中第maxprecise个重要的阈值(对应上述实施例中的预定阈值),即threprecise(n)=importancesort(maxprecise),然后,根据每个音轨的重要度获得使用第一算法的音轨对应的开关序列:preciseenable(n)=[enable1(n),enable2(n),......,enableM(n)],其中:
Figure BDA0002952615200000092
3D音效处理模块:接收第一算法开关序列preciseenable(n)和多路音轨,决定各个音轨使用的3D音效处理算法,得到各个音轨的双通道3D音轨stereo1(n),stereo2(n),......,stereoM(n),其中,各个音轨的处理方法如下:
Figure BDA0002952615200000101
其中,hrtf[*]表示用第一算法HRTF处理输入信号,panning[*]表示用声方位映射方法处理输入信号。
混音器模块:接收stereo1(n),stereo2(n),......,stereoM(n),对多路双声道3D音轨进行混音处理,得到最终的双声道3D音频输出信号:
output(n)=limitation[stereo1(n)+stereo2(n)+……+stereoM(n)]
其中,limitation[*]表示对信号进行幅度限制,防止出现截波失真,目前已有多种成熟算法,不做过多说明。
上述实施例提出了一种多路音轨高、低精度3D音效算法混合的游戏空间音频算法,利用动态规划根据音轨数量和基于声掩蔽理论重要程度判断,规划使用高、低精度算法的分配方法,保证较高的音效体验的同时,降低系统计算复杂度,保证系统实用性。
图4是根据一示例性实施例示出的一种3D音频获取装置框图。参照图4,该装置包括第一获取单元40,确定单元42、处理单元44和第二获取单元46。
第一获取单元40,被配置为获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;
确定单元42,被配置为执行根据每个音轨的音量和频谱丰富度,确定多路音轨中的预定音轨;
处理单元44,被配置为执行采用第一算法对预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,其他音轨为多路音轨中除预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;
第二获取单元46,被配置为执行将经过处理的预定音轨和其他音轨进行混音处理,获取3D音频。
根据本公开的示例性实施例,确定单元42,还被配置为执行基于每个音轨的音量和频谱丰富度,确定每个音轨的重要度;将重要度超过预定阈值的音轨确定为预定音轨。
根据本公开的示例性实施例,确定单元42,还被配置为执行获取用于划分频谱丰富度区间的划分阈值和与每个频谱丰富度区间对应的音量权重系数;根据划分阈值、音量权重系数、每个音轨的音量和频谱丰富度获取每个音轨的重要度。
根据本公开的示例性实施例,确定单元42,还被配置为执行根据每个音轨的频谱丰富度确定最高频谱丰富度和最低频谱丰富度;根据最高频谱丰富度和最低频谱丰富度,确定L个划分阈值,其中L大于等于1。
根据本公开的示例性实施例,确定单元,还被配置为执行根据最高频谱丰富度、最低频谱丰富度和L个划分阈值,将最高频谱丰富度和最低频谱丰富度之间的连续频谱丰富度划分为L+1个频谱丰富度区间;根据每个频谱丰富度区间的频谱丰富度,确定每个频谱丰富度区间对应的音量权重系数。
根据本公开的示例性实施例,确定单元42,还被配置为执行根据划分阈值和每个音轨的频谱丰富度,确定每个音轨对应的音量权重系数;将每个音轨的音量和每个音轨对应的音量权重系数的乘积作为每个音轨的重要度。
根据本公开的示例性实施例,确定单元42,还被配置为执行比较划分阈值和每个音轨的频谱丰富度,确定每个音轨的频谱丰富度对应的频谱丰富度区间;将频谱丰富度区间对应的音量权重系数作为每个音轨对应的音量权重系数。
根据本公开的示例性实施例,确定单元42,还被配置为执行对每个音轨按重要度从高到低进行排序;将排名在预定阈值前的的音轨确定为预定音轨。
根据本公开的示例性实施例,第一算法包括头相关变换函数滤波算法,第二算法包括声方位映射算法。
根据本公开的实施例,可提供一种电子设备。图5是根据本公开实施例的一种电子设备500的框图,该电子设备包括至少一个存储器50和至少一个处理器52,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的3D音频获取方法。
作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。
此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的3D音频获取方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的3D音频获取方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种三维音频获取方法,其特征在于,包括:
获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;
根据所述每个音轨的音量和频谱丰富度,确定所述多路音轨中的预定音轨;
采用第一算法对所述预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,所述其他音轨为所述多路音轨中除所述预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;
将经过处理的所述预定音轨和所述其他音轨进行混音处理,获取三维音频。
2.如权利要求1所述的三维音频获取方法,其特征在于,根据所述每个音轨的音量和频谱丰富度,确定所述多路音轨中的预定音轨,包括:
基于所述每个音轨的音量和频谱丰富度,确定所述每个音轨的重要度;
将重要度超过预定阈值的音轨确定为所述预定音轨。
3.如权利要求2所述的三维音频获取方法,其特征在于,所述基于所述每个音轨的音量和频谱丰富度,确定每个音轨的重要度包括:
获取用于划分频谱丰富度区间的划分阈值和与每个频谱丰富度区间对应的音量权重系数;
根据划分阈值、音量权重系数、所述每个音轨的音量和频谱丰富度获取所述每个音轨的重要度。
4.如权利要求3所述的三维音频获取方法,其特征在于,所述获取用于划分频谱丰富度区间的划分阈值包括:
根据所述每个音轨的频谱丰富度确定最高频谱丰富度和最低频谱丰富度;
根据所述最高频谱丰富度和所述最低频谱丰富度,确定L个划分阈值,其中L大于等于1。
5.如权利要求3所述的三维音频获取方法,其特征在于,所述获取与每个频谱丰富度区间对应的音量权重系数包括:
根据最高频谱丰富度、最低频谱丰富度和L个划分阈值,将所述最高频谱丰富度和所述最低频谱丰富度之间的连续频谱丰富度划分为L+1个频谱丰富度区间;
根据每个频谱丰富度区间的频谱丰富度,确定所述每个频谱丰富度区间对应的音量权重系数。
6.如权利要求3所述的三维音频获取方法,其特征在于,所述根据划分阈值、音量权重系数、所述每个音轨的音量和频谱丰富度获取所述每个音轨的重要度包括:
根据所述划分阈值和所述每个音轨的频谱丰富度,确定所述每个音轨对应的音量权重系数;
将所述每个音轨的音量和所述每个音轨对应的音量权重系数的乘积作为所述每个音轨的重要度。
7.一种三维获取装置,其特征在于,包括:
第一获取单元,被配置为获取多路音轨中每个音轨的音量和频谱丰富度,其中,频谱丰富度是指音轨对应的音频信号在频域上的丰富程度;
确定单元,被配置为执行根据所述每个音轨的音量和频谱丰富度,确定所述多路音轨中的预定音轨;
处理单元,被配置为执行采用第一算法对所述预定音轨进行处理以及采用第二算法对其他音轨进行处理,其中,所述其他音轨为所述多路音轨中除所述预定音轨外的音轨,所述第一算法运行时的资源占用比例高于所述第二算法运行时的资源占用比例;
第二获取单元,被配置为执行将经过处理的所述预定音轨和所述其他音轨进行混音处理,获取三维音频。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至6中任一项所述的三维音频获取方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的三维音频获取方法。
CN202110214427.1A 2021-02-25 2021-02-25 三维音频获取方法和三维音频获取装置 Active CN113035209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110214427.1A CN113035209B (zh) 2021-02-25 2021-02-25 三维音频获取方法和三维音频获取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110214427.1A CN113035209B (zh) 2021-02-25 2021-02-25 三维音频获取方法和三维音频获取装置

Publications (2)

Publication Number Publication Date
CN113035209A true CN113035209A (zh) 2021-06-25
CN113035209B CN113035209B (zh) 2023-07-04

Family

ID=76461851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110214427.1A Active CN113035209B (zh) 2021-02-25 2021-02-25 三维音频获取方法和三维音频获取装置

Country Status (1)

Country Link
CN (1) CN113035209B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379554A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
CN103731795A (zh) * 2012-10-10 2014-04-16 蒂雅克股份有限公司 录音装置
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN106063297A (zh) * 2014-01-10 2016-10-26 三星电子株式会社 用于再现三维音频的方法和设备
CN108476366A (zh) * 2015-11-17 2018-08-31 杜比实验室特许公司 用于参数化双耳输出系统和方法的头部跟踪
US20200053461A1 (en) * 2017-03-24 2020-02-13 Sharp Kabushiki Kaisha Audio signal processing device and audio signal processing system
CN111833889A (zh) * 2020-06-08 2020-10-27 清华大学苏州汽车研究院(相城) 一种电动车行人警示音的多轨混音方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379554A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
CN103731795A (zh) * 2012-10-10 2014-04-16 蒂雅克股份有限公司 录音装置
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN106063297A (zh) * 2014-01-10 2016-10-26 三星电子株式会社 用于再现三维音频的方法和设备
CN108476366A (zh) * 2015-11-17 2018-08-31 杜比实验室特许公司 用于参数化双耳输出系统和方法的头部跟踪
US20200053461A1 (en) * 2017-03-24 2020-02-13 Sharp Kabushiki Kaisha Audio signal processing device and audio signal processing system
CN111833889A (zh) * 2020-06-08 2020-10-27 清华大学苏州汽车研究院(相城) 一种电动车行人警示音的多轨混音方法

Also Published As

Publication number Publication date
CN113035209B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US6999826B1 (en) Apparatus and method for improved PC audio quality
US11481424B2 (en) Systems and methods of media selection based on criteria thresholds
CN112163675A (zh) 一种模型的联合训练方法、设备及存储介质
CN108804383B (zh) 基于度量空间的支撑点并行枚举方法及装置
CN109348399B (zh) 终端及其立体声音效的控制方法
CN109085995A (zh) 数据动态分片的存储方法、装置和系统
US10037386B1 (en) Data replication optimization for online social network cloud computing
US20170236068A1 (en) Adjusting balance in culinary recipes
CN112967705A (zh) 一种混音歌曲生成方法、装置、设备及存储介质
CN105022807A (zh) 信息推荐方法及装置
CN108829370B (zh) 有声资源播放方法、装置、计算机设备及存储介质
CN114283833A (zh) 语音增强模型训练方法、语音增强方法、相关设备及介质
CN113035209B (zh) 三维音频获取方法和三维音频获取装置
US20200228597A1 (en) Hash data structure biasing
US11301436B2 (en) File storage method and storage apparatus
CN105045873A (zh) 一种数据文件的推送方法、装置及系统
CN107277640A (zh) 基于直播平台的互动方法、装置和存储介质
CN108416830B (zh) 动画显示控制方法、装置、设备及存储介质
US10779106B2 (en) Audio object clustering based on renderer-aware perceptual difference
US9892091B2 (en) Computing intersection cardinality
CN112799929B (zh) 报警日志的根因分析方法及系统
CN113347504B (zh) 图像防抖处理的方法、装置和系统
US9507829B1 (en) Storage optimization for social networks
CN112181577A (zh) 显示控制系统、方法及装置
CN110460663A (zh) 分布式节点间的数据分配方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant