CN112584300A - 音频上混方法、装置、电子设备和存储介质 - Google Patents
音频上混方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112584300A CN112584300A CN202011578902.5A CN202011578902A CN112584300A CN 112584300 A CN112584300 A CN 112584300A CN 202011578902 A CN202011578902 A CN 202011578902A CN 112584300 A CN112584300 A CN 112584300A
- Authority
- CN
- China
- Prior art keywords
- upmixing
- channel
- audio
- original
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000005236 sound signal Effects 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000013519 translation Methods 0.000 claims description 57
- 238000001914 filtration Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 18
- 238000007654 immersion Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供一种音频上混方法、装置、电子设备和存储介质,其中方法包括:确定待上混的原始音频信号;对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。本发明提供的音频上混方法、装置、电子设备和存储介质,将原始音频信号上混为多个通道对应的上混音频信号,能给听音者带来更具空间包围感和沉浸感的听音感受,优化了音频上混的效果,且提高了音频上混的效率。
Description
技术领域
本发明涉及信号处理技术领域,尤其涉及一种音频上混方法、装置、电子设备和存储介质。
背景技术
实际的音频信号多为单通道信号或者双通道立体声信号,利用信号去相关技术将单通道信号或者双通道信号上混成更多通道的立体声,能够合成环境声学信息的听觉感知,产生环绕感和空间包围感。
然而,现有的音频上混方法信号去相关效果有限,声场中的空间感和沉浸感不足,还可能导致信号失真,上混效果欠佳,且计算量大、效率较低。
发明内容
本发明提供一种音频上混方法、装置、电子设备和存储介质,用以解决现有技术中上混效果欠佳、效率较低的缺陷。
本发明提供一种音频上混方法,包括:
确定待上混的原始音频信号;
对所述原始音频信号的待平移频段进行针对各个上混通道的随机相位延迟处理,得到各个上混通道对应的上混频域信号;
将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
根据本发明提供的一种音频上混方法,所述对所述原始音频信号的待平移频段进行针对各个上混通道的随机相位延迟处理,具体包括:
分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波;
所述去相关滤波器用于对所述待平移频段中的每一平移频点进行随机相位延迟处理,使得各个上混通道对应的上混频域信号之间去相关。
根据本发明提供的一种音频上混方法,所述原始音频信号包括若干个原始通道的原始通道信号,每一原始通道信号对应若干个上混通道的去相关滤波器;
所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波,具体包括:
基于对应上混通道的去相关滤波器对各个原始通道信号进行随机相位延迟处理。
根据本发明提供的一种音频上混方法,所述去相关滤波器的滤波器系数包括滤波器幅度系数和传递函数;
其中,所述去相关滤波器的传递函数是基于如下步骤确定的:
确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位;
基于每一平移频点的频率及其随机延迟相位,确定对应所述任一原始通道信号的任一去相关滤波器的滤波器相位系数,并基于所述任一去相关滤波器的滤波器相位系数,确定所述任一去相关滤波器的传递函数;
基于所述任一上混通道的滤波器相位系数的反相,确定对应所述任一原始通道信号的另一去相关滤波器的传递函数。
根据本发明提供的一种音频上混方法,所述确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位,具体包括:
确定所述任一原始通道信号的每一平移频点的随机幅值;
基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位;
所述预设最大延迟用于将每一平移频点的随机延迟相位限制在预设最大延迟范围内。
根据本发明提供的一种音频上混方法,每一平移频点的随机幅值满足高斯分布,所述高斯分布的方差用于调整声场的宽度。
根据本发明提供的一种音频上混方法,任一原始通道信号中任一频点对应的各个去相关滤波器的滤波器幅度系数之和为1,或平方和为1。
根据本发明提供的一种音频上混方法,所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波,具体包括:
分别基于多组滤波器系数不同的去相关滤波器对所述原始音频信号的不同帧进行频域滤波,得到每一上混通道对应的上混频域信号;其中,任一组去相关滤波器包含对应每一上混通道的去相关滤波器。
本发明还提供一种音频上混装置,包括:
信号确定单元,用于确定待上混的原始音频信号;
音频上混单元,用于对所述原始音频信号的待平移频段进行针对各个上混通道的随机相位延迟处理,得到各个上混通道对应的上混频域信号;
时域变换单元,用于将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述音频上混方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述音频上混方法的步骤。
本发明提供的音频上混方法、装置、电子设备和存储介质,通过对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号,并将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号,将原始音频信号上混为多个通道对应的上混音频信号,能给听音者带来更具空间包围感和沉浸感的听音感受,优化了音频上混的效果,且提高了音频上混的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的音频上混方法的流程示意图;
图2为本发明提供的滤波器生成方法的流程示意图;
图3为本发明提供的随机延迟相位确定方法的流程示意图;
图4为本发明提供的音频上混装置的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
立体声技术是环绕声等系统的重要技术之一,能够给听者带来空间感和包围感,为听者提供一个有宽度的声场。然而,实际的音频信号多为单通道信号或者双通道信号,若将上述音频信号直接用于扬声器或者耳机重放,听感较单一,且可能会产生“头中效应”,甚至产生梳状滤波现象,无法满足更高的听音需求。为了提升声场的环绕感和空间包围感,可以利用信号去相关技术将将单通道信号或双通道信号上混成更多通道的信号,从而得以合成环境声学的听觉感知,产生类似于室内反射产生的空间感知或者非反射环境声下的包围感和环绕感。
现有的音频上混方法包括信号延迟法、子带延迟、和基于互易最大长度序列设计的全通滤波器等。其中,信号延迟法是将输入信号延迟多个采样点,使得延迟信号和原始输入信号形成一对去相关信号;子带延迟法是将信号分成不同的子带,对每个子带进行不同程度的延迟,如,中低频延迟长,高频延迟短,最后将延迟后的信号混合;而基于互易最大长度序列设计的全通滤波器中,互易最大长度序列由MLS(Maximum length sequence,最大长度序列)及其时逆序列所组成,类似一对随机相位滤波器。
然而,信号延迟法中,若延迟时间超过信号本身的自相关时间,可能会产生回声,因而最大延迟不能超过40ms。但若延迟时间过短,去相关效果有限,还可能产生梳状滤波器效益和低频潜在的相位变化。子带延迟法也同样存在上述缺点。而基于互易最大长度序列设计的全通滤波器,则可能产生信号失真,上混效果也欠佳。此外,上述上混方法通常是对原始音频信号的中高频或者全频段去相关,计算量较大,效率较低。
对此,本发明实施例提供了一种音频上混方法。图1为本发明实施例提供的音频上混方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待上混的原始音频信号;
步骤120,对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;
步骤130,将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
具体地,确定需要进行音频上混的原始音频信号。此处,原始音频信号可以为音乐信号,或者语音信号等,本发明实施例对此不作具体限定。然后,对原始音频信号进行频域转换,得到原始音频信号的频谱。其中,可以对原始音频信号进行分帧加窗处理,然后通过离散傅里叶变换(Discrete Fourier Transform,DFT)将原始音频信号从时域转换到频域。
为了将原始音频信号转换成更多通道上对应的音频信号,可以对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理。此处,原始音频信号的待平移频段是预先确定的频段,该频段属于原始音频信号的低频部分,例如1KHz以下的频段。在进行音频上混时,会对该频段内的频点进行相位随机化处理,使得每一频点的相位被随机改变。待平移频段可以在实际应用场景中根据听音感受进行调整,以达到更好的上混效果。基于原始音频信号的频谱,对原始音频信号的待平移频段进行一次相位随机化处理,即可得到一个上混通道对应的上混频域信号,若需要将原始音频信号上混成M个上混通道,则可以对原始音频信号的待平移频段进行M次幅值随机化处理,得到M个上混通道对应的上混频域信号,其中M大于原始音频信号的通道数。
利用逆傅里叶变换将每一上混通道对应的上混频域信号从频域转换回时域,即可得到每一上混通道对应的上混音频信号,以供对应的扬声器进行播放。此处,扬声器与上混通道一一对应,且各个扬声器与听音者之间的相对位置不同。例如,若上混通道为2个,则可以在听音者的左前方和右前方对称设置2个扬声器,2个扬声器与听音者之间的连线夹角可以为60°至150°;若上混通道为4个或以上,则可以以听音者为中心,将4个扬声器摆放为均匀排列的环形结构,本发明实施例对此不作具体限定。
本发明实施例对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到每一上混通道对应的上混频域信号之后,随机化处理使得每一上混频域信号中对应相同频点的相位各不相同,还使得同一上混频域信号中对应不同频点的相位也会随机变化,使得各个上混频域信号之间不再具备相关性,相应地,各个上混音频信号之间也实现了去相关。由于相位的变化会导致任一频点的信号传播到同一空间点的时间发生改变,故相位随机化处理可以实现音频信号的时间平移。而各个上混通道对应不同的扬声器位置,因此针对各个上混通道分别进行相位随机化处理后,可以实现不同方向的时间平移效果。因此,当利用位置不同的各个扬声器同时播放对应的上混音频信号时,对于听音者而言,来自各方位的声音的位置时远时近,扩宽了声场宽度,因此能给听音者带来更具空间包围感和混响感的听音感受,优化了音频上混的效果。
此外,由于低频信号的波长较长,对低频的待平移频段的频点进行随机相位延迟所带来的相位变化更明显,时间平移的效果更显著,因此带来的空间包围感和混响感更明显,且仅对低频段进行相位随机化处理,降低了计算量,可以提高音频上混的效率。
本发明实施例提供的方法,通过对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号,并将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号,将原始音频信号上混为多个通道对应的上混音频信号,能给听音者带来更具空间包围感和沉浸感的听音感受,优化了音频上混的效果,且提高了音频上混的效率。
基于上述实施例,步骤120包括:
分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波;
去相关滤波器用于对待平移频段中的每一平移频点进行相位随机化处理,使得各个上混通道对应的上混频域信号之间去相关。
具体地,可以为各个上混通道分别生成对应的去相关滤波器,利用各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,实现相位随机化处理。其中,各个上混通道对应的去相关滤波器的滤波器系数不相同。利用任一去相关滤波器对原始音频信号进行频域滤波时,该去相关滤波器可以基于原始音频信号的频谱,将待平移频段中每一平移频点的相位进行随机化处理,使得滤波后的上混频域信号中每一平移频点的相位被随机改变。
基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波后,可以得到各个上混通道对应的上混音频信号。虽然各个上混通道对应的上混音频信号均是由原始音频信号转换而来,但由于去相关滤波器使得滤波后的上混频域信号中每一平移频点的相位被随机改变,因此各个上混通道对应的上混频域信号之间可以实现去相关化。
本发明实施例提供的方法,分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,实现了各个上混通道对应的上混频域信号之间的去相关化。
基于上述任一实施例,原始音频信号包括若干个原始通道的原始通道信号,每一原始通道信号对应若干个上混通道的去相关滤波器;
分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,具体包括:
基于对应上混通道的去相关滤波器对各个原始通道信号的待平移频段进行相位随机化处理。
具体地,原始音频信号可以包括若干个原始通道的原始通道信号,例如,原始音频信号可以为单通道信号,也可以为双通道或者更高通道的信号。本发明实施例提供的音频上混方法可以将单通道信号上混为双通道以及双通道以上的信号,也可以将多通道信号转换为更多通道的信号。考虑到上混通道的数量大于原始音频信号包含的原始通道数量,可以设置每一原始通道信号对应若干个上混通道。
在进行音频上混时,可以对各个原始通道信号的待平移频段进行对应上混通道的相位随机化处理。即,可以对任一原始通道信号的待平移频段中的每一平移频点进行若干次相位随机化处理,得到该原始通道信号对应的各个上混通道的上混频域信号。例如,若原始音频信号为单通道信号,则直接对该原始音频信号进行分帧加窗以及频域转换等处理后,利用各个上混通道的去相关滤波器对该原始音频信号的待平移频段进行相位随机化处理,得到各个上混通道的上混频域信号;若原始音频信号为双通道信号,则分别对两个原始通道信号进行分帧加窗以及频域转换等处理,然后基于对应上混通道的去相关滤波器对其中一个原始通道信号的待平移频段进行相位随机化处理,同时基于对应上混通道的去相关滤波器对另一个原始通道信号的待平移频段进行相位随机化处理,得到两个原始通道信号分别对应的上混频域信号。
基于上述任一实施例,图2为本发明实施例提供的滤波器生成方法的流程示意图,如图2所示,去相关滤波器的滤波器系数是基于如下步骤确定的:
步骤210,确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位;
步骤220,基于每一平移频点的频率及其随机延迟相位,确定对应该原始通道信号的任一去相关滤波器的滤波器相位系数,并基于该去相关滤波器的滤波器相位系数,确定该去相关滤波器的滤波器系数;
步骤230,基于该去相关滤波器的滤波器相位系数的反相,确定对应该原始通道信号的另一去相关滤波器的滤波器系数。
具体地,本发明实施例中,任一原始通道信号可以对应两个上混通道的去相关滤波器,即可以将双通道信号上混为四通道信号,四通道信号上混为八通道信号,以此类推。为了确定各个去相关滤波器的滤波器系数,可以确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位。其中,任一平移频点的随机延迟相位为随机值,用于随机改变该平移频点的相位。并且该随机延迟相位可以为正值,也可以为负值。当该随机延迟相位为正值时,可以视作将信号波形向右移动,而当该随机延迟相位为负值时,可以视作将信号波形向左移动。基于每一平移频点的频率及其随机延迟相位,可以确定对应该原始通道信号的任一去相关滤波器的滤波器相位系数,并基于该去相关滤波器对应每一平移频点的滤波器相位系数,确定该去相关滤波器对应每一平移频点的滤波器系数。此处,基于每一平移频点的频率以及对应的随机延迟相位,利用波动方程的解析解,可以确定该去相关滤波器对应每一平移频点的滤波器相位系数。另外,为了避免去相关滤波器对原始通道信号进行频域滤波后,得到的信号波形变形,可以引入波形因子对滤波器相位系数进行加权,以规整滤波后的波形,使得滤波后得到的上混音频信号更符合人耳听感。例如,可以采用如下公式确定该去相关滤波器对应每一平移频点的滤波器相位系数:
PhaseL=(1-fbin/fc)0.7delay*2πfbin
其中,PhaseL为该去相关滤波器对应平移频点fbin的滤波器相位系数,fc为待平移频段的频率上限,0.7为波形因子,delay为平移频点fbin对应的随机延迟相位。
随后,将该去相关滤波器的滤波器相位系数代入到声音传播的传递函数中,可以确定得到该去相关滤波器的对应该平移频点的滤波器系数。例如,可以采用如下公式确定该去相关滤波器对应任一平移频点的滤波器系数:
其中,HL为该去相关滤波器对应平移频点fbin的滤波器系数,M为上混通道的数量,j为虚数,exp(-j*PhaseL)为传递函数。此处,在传递函数exp(-j*PhaseL)的基础上乘以了幅度系数可以使得基于对应上混通道的去相关滤波器对各个原始通道信号进行频域滤波,得到的各个上混音频信号叠加后,每一平移频点的能量响应不变,保证了信号叠加后能量响应的平坦性,从而在确保音色不发生明显变化的基础上,使得音频上混后信号更均衡、混响感更强。
为了使频域滤波后得到的各个上混频域信号之间去相关,在确定该原始通道信号对应的两个上混通道的去相关滤波器滤波器系数时,需要保证两个去相关滤波器的滤波器系数之间不相关。此时,可以通过消除两个去相关滤波器的滤波器相位系数之间的相关性实现。例如,可以利用随机数之间的去相关性,重复执行上述方法以生成另一去相关滤波器的滤波器相位系数,并代入到传递函数表达式中,得到该去相关滤波器的滤波器系数。为了提高滤波器系数的计算效率,还可以利用相反相位的信号之间完全不相关的特性,直接将上述步骤中计算得到的去相关滤波器的滤波器相位系数的反相,作为另一去相关滤波器的滤波器相位系数,从而确定得到另一去相关滤波器的滤波器系数。例如,可以采用如下公式确定另一去相关滤波器的滤波器相位系数和滤波器系数:
PhaseR=-1*PhaseL
基于上述任一实施例,图3为本发明实施例提供的随机延迟相位确定方法的流程示意图,如图3所示,步骤210具体包括:
步骤211,确定任一原始通道信号的每一平移频点的随机幅值;
步骤212,基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位;
其中,预设最大延迟用于将每一平移频点的随机延迟相位限制在预设最大延迟范围内。
具体地,可以通过随机数种子,针对任一原始通道信号的每一平移频点生成其对应的随机幅值。然后,基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位。其中,预设最大延迟用于将每一平移频点的随机延迟相位限制在预设最大延迟范围内,预设最大延迟范围为±1*预设最大延迟构成的数值范围。此处,若产生的随机延迟相位过大,原始通道信号的相位被改变后,信号的时间平移幅度会超过该信号本身的自相关时间,导致产生回声,影响音频信号的质量。因此,利用预设最大延迟将每一平移频点的随机延迟相位限制在预设最大延迟范围内,能够保证随机改变后的相位在人耳听觉范围之内,保障上混音频信号的信号质量。
其中,为了将随机延迟相位限制在预设最大延迟范围内,可以利用反正切函数的特性,对任一平移频点的随机幅值进行限缩后再与预设最大延迟相乘。例如,可以采用如下公式确定每一平移频点的随机延迟相位:
其中,delay为任一平移频点的随机延迟相位,maxDelay为预设最大延迟,N为该平移频点的随机幅值,p为可调整的参数,可以用于调整声场宽度,其值越大,对应的声场宽度越宽,arctan(p2*N)可以将随机幅值限缩到内,因此的取值范围可以限制到(-1,1)之间,从而得以将随机延迟相位限制在预设最大延迟范围内。
本发明实施例提供的方法,通过确定任一原始通道信号的每一平移频点的随机幅值,并基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位,可以将随机延迟相位限制在预设最大延迟范围内,避免产生回声,从而保障滤波后得到的上混音频信号的质量。
基于上述任一实施例,每一平移频点的随机幅值满足高斯分布,所述高斯分布的方差用于调整声场的宽度。
具体地,为了使生成的平移频点的随机幅值更符合音频信号的物理特性,可以针对每一平移频点生成满足高斯分布的随机幅值,使得每一平移频点的随机幅值符合音频信号的高斯概率模型。此外,随机幅值所满足的高斯分布的方差可以根据实际应用场景进行调整,以用于调整音频上混后的声场宽度。其中,高斯分布的方差越大,高斯分布的钟形曲线越宽,使得幅值较大的频率范围更宽,因此声场的主瓣宽度也越宽。通过调整该高斯分布的方差,可以拓宽音频上混所带来的声场,使得各个上混音频信号叠加后的声音更具备空间感和沉浸感。
本发明实施例提供的方法,通过生成满足高斯分布的每一平移频点的随机幅值,并利用高斯分布的方差调整声场的宽度,可以拓宽音频上混所带来的声场,使得各个上混音频信号叠加后的声音更具备空间感和沉浸感,进一步提升了音频上混的效果。
基于上述任一实施例,分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,具体包括:
分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波,得到每一上混通道对应的上混频域信号;其中,任一组去相关滤波器包含对应每一上混通道的去相关滤波器。
具体地,为了使得上混音频信号更具备音乐感和动态性,可以生成多组滤波器系数去相关滤波器对原始音频信号的不同帧进行频域滤波,以生成更具多样性、更丰富的上混频域信号。其中,任一组去相关滤波器包括对应每一上混通道的去相关滤波器,且任意两组去相关滤波器的滤波器系数不同。例如,可以生成N组去相关滤波器其中M为上混通道的数量。
此处,为了提高音频上混的实时性,可以预先离线生成上述多组去相关滤波器,任一组去相关滤波器中各个去相关滤波器可以采用如上述实施例提供的滤波器生成方法生成,在此不再赘述。由于上述实施例提供的滤波器生成方法中,确定滤波器系数所依据的随机延迟相位为各个去相关滤波器带来了随机性,因此可以多次执行上述滤波器生成方法,以生成多组滤波器系数不同的去相关滤波器。
基于生成的多组去相关滤波器,可以对原始音频信号的不同帧进行频域滤波,即原始音频信号的不同帧对应不同组去相关滤波器,以提高音频上混的动态性和音乐感。例如,可以用其中一组去相关滤波器对原始音频信号的当前帧进行频域滤波,得到当前帧对应的多个上混频域信号后,切换另一组去相关滤波器对原始音频信号的下一帧进行频域滤波,从而得到下一帧对应的多个上混频域信号。
本发明实施例提供的方法,通过分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波,提高了音频上混的动态性和音乐感,进一步优化了音频上混的效果。
基于上述任一实施例,本发明又一实施例提供了一种音频上混方法,以单通道信号上混为双通道信号为例,该方法包括:
对输入的单通道的原始音频信号进行分帧加窗处理,并通过离散傅里叶变换将原始音频信号从时域转换到频域。
然后进行参数初始化操作。此处,需要进行初始化的参数包括原始音频信号的待平移频段的频率上限、预设最大延迟和平移频点随机幅值所满足的高斯分布的方差q。其中,待平移频段可以在实际环境中根据主观听音感受调整,以提升上混音频信号的音质;方差q可用于控制声场的听音宽度,方差q越大,能够感受到的声场越宽,因此可以根据实际应用场景的需求对方差q进行调节。
初始化完毕后,可以开始生成各个上混通道对应的去相关滤波器。通过随机数种子,针对待平移频段内不同的平移频点生成方差为q的高斯随机数N,作为各平移频点的随机幅值。然后,基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位。基于每一平移频点的频率及其随机延迟相位,确定左上混通道的去相关滤波器的滤波器相位系数,并据此确定左上混通道的去相关滤波器的滤波器系数。然后,对左上混通道的去相关滤波器的滤波器相位系数求反相,并根据反相的结果确定右上混通道的去相关滤波器的滤波器系数,以简化运算。
为了使得上混的音频更加具有音乐感和动态性,可以以上述方式离线生成多组滤波器系数不同的去相关滤波器,对原始音频信号的不同帧使用不同组去相关滤波器进行频域滤波,也可以只生成一组去相关滤波器对原始音频信号进行频域滤波,本发明实施例对此不作具体限定。
最后,利用上述生成的各个上混通道的去相关滤波器对原始音频信号进行频域滤波,然后通过逆傅里叶变换转换为时域信号进行播放。
下面对本发明提供的音频上混装置进行描述,下文描述的音频上混装置与上文描述的音频上混方法可相互对应参照。
基于上述任一实施例,图4为本发明实施例提供的音频上混装置的结构示意图,如图4所示,该装置包括:信号确定单元410、音频上混单元420和时域变换单元430。
其中,信号确定单元410用于确定待上混的原始音频信号;
音频上混单元420用于对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;
时域变换单元430用于将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
本发明实施例提供的装置,通过对原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号,并将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号,将原始音频信号上混为多个通道对应的上混音频信号,能给听音者带来更具空间包围感和沉浸感的听音感受,优化了音频上混的效果,且提高了音频上混的效率。
基于上述任一实施例,音频上混单元420具体用于:
分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波;
去相关滤波器用于对待平移频段中的每一平移频点进行相位随机化处理,使得各个上混通道对应的上混频域信号之间去相关。
本发明实施例提供的装置,分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,实现了各个上混通道对应的上混频域信号之间的去相关化。
基于上述任一实施例,原始音频信号包括若干个原始通道的原始通道信号,每一原始通道信号对应若干个上混通道的去相关滤波器;
分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,具体包括:
基于对应上混通道的去相关滤波器对各个原始通道信号的待平移频段进行相位随机化处理。
基于上述任一实施例,该装置还包括滤波器生成单元,用于:
确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位;
基于每一平移频点的频率及其随机延迟相位,确定对应该原始通道信号的任一去相关滤波器的滤波器相位系数,并基于该去相关滤波器的滤波器相位系数,确定该去相关滤波器的滤波器系数;
基于该去相关滤波器的滤波器相位系数的反相,确定对应该原始通道信号的另一去相关滤波器的滤波器系数。
基于上述任一实施例,确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位,具体包括:
确定任一原始通道信号的每一平移频点的随机幅值;
基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位;
其中,预设最大延迟用于将每一平移频点的随机延迟相位限制在预设最大延迟范围内。
本发明实施例提供的装置,通过确定任一原始通道信号的每一平移频点的随机幅值,并基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位,可以将随机延迟相位限制在预设最大延迟范围内,避免产生回声,从而保障滤波后得到的上混音频信号的质量。
基于上述任一实施例,每一平移频点的随机幅值满足高斯分布,所述高斯分布的方差用于调整声场的宽度。
本发明实施例提供的装置,通过生成满足高斯分布的每一平移频点的随机幅值,并利用高斯分布的方差调整声场的宽度,可以拓宽音频上混所带来的声场,使得各个上混音频信号叠加后的声音更具备空间感和沉浸感,进一步提升了音频上混的效果。
基于上述任一实施例,分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波,具体包括:
分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波,得到每一上混通道对应的上混频域信号;其中,任一组去相关滤波器包含对应每一上混通道的去相关滤波器。
本发明实施例提供的装置,通过分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波,提高了音频上混的动态性和音乐感,进一步优化了音频上混的效果。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行音频上混方法,该方法包括:确定待上混的原始音频信号;对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的音频上混方法,该方法包括:确定待上混的原始音频信号;对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的音频上混方法,该方法包括:确定待上混的原始音频信号;对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种音频上混方法,其特征在于,包括:
确定待上混的原始音频信号;
对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;
将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
2.根据权利要求1所述的音频上混方法,其特征在于,所述对所述原始音频信号的待平移频段进行针对各个上混通道的随机相位延迟处理,具体包括:
分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波;
所述去相关滤波器用于对所述待平移频段中的每一平移频点进行相位随机化处理,使得各个上混通道对应的上混频域信号之间去相关。
3.根据权利要求2所述的音频上混方法,其特征在于,所述原始音频信号包括若干个原始通道的原始通道信号,每一原始通道信号对应若干个上混通道的去相关滤波器;
所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波,具体包括:
基于对应上混通道的去相关滤波器对各个原始通道信号进行相位随机化处理。
4.根据权利要求3所述的音频上混方法,其特征在于,所述去相关滤波器的滤波器系数是基于如下步骤确定的:
确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位;
基于每一平移频点的频率及其随机延迟相位,确定对应所述任一原始通道信号的任一去相关滤波器的滤波器相位系数,并基于所述任一去相关滤波器的滤波器相位系数,确定所述任一去相关滤波器的滤波器系数;
基于所述任一去相关滤波器的滤波器相位系数的反相,确定对应所述任一原始通道信号的另一去相关滤波器的滤波器系数。
5.根据权利要求4所述的音频上混方法,其特征在于,所述确定任一原始通道信号的待平移频段内每一平移频点的随机延迟相位,具体包括:
确定所述任一原始通道信号的每一平移频点的随机幅值;
基于预设最大延迟和每一平移频点的随机幅值,确定每一平移频点的随机延迟相位;
所述预设最大延迟用于将每一平移频点的随机延迟相位限制在预设最大延迟范围内。
6.根据权利要求5所述的音频上混方法,其特征在于,每一平移频点的随机幅值满足高斯分布,所述高斯分布的方差用于调整声场的宽度。
7.根据权利要求2至6任一项所述的音频上混方法,其特征在于,所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波,具体包括:
分别基于多组滤波器系数不同的去相关滤波器对所述原始音频信号的不同帧进行频域滤波,得到每一上混通道对应的上混频域信号;其中,任一组去相关滤波器包含对应每一上混通道的去相关滤波器。
8.一种音频上混装置,其特征在于,包括:
信号确定单元,用于确定待上混的原始音频信号;
音频上混单元,用于对所述原始音频信号的待平移频段进行针对各个上混通道的相位随机化处理,得到各个上混通道对应的上混频域信号;
时域变换单元,用于将每一上混通道对应的上混频域信号转换到时域,得到每一上混通道对应的上混音频信号。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述音频上混方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音频上混方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578902.5A CN112584300B (zh) | 2020-12-28 | 2020-12-28 | 音频上混方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578902.5A CN112584300B (zh) | 2020-12-28 | 2020-12-28 | 音频上混方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112584300A true CN112584300A (zh) | 2021-03-30 |
CN112584300B CN112584300B (zh) | 2023-05-30 |
Family
ID=75140306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011578902.5A Active CN112584300B (zh) | 2020-12-28 | 2020-12-28 | 音频上混方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112584300B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090147975A1 (en) * | 2007-12-06 | 2009-06-11 | Harman International Industries, Incorporated | Spatial processing stereo system |
CN102172046A (zh) * | 2008-10-01 | 2011-08-31 | 杜比实验室特许公司 | 用于上混系统的去相关器 |
CN102667918A (zh) * | 2009-10-21 | 2012-09-12 | 弗兰霍菲尔运输应用研究公司 | 用于使音频信号混响的混响器和方法 |
US20140185811A1 (en) * | 2012-12-27 | 2014-07-03 | Dts, Inc. | System and method for variable decorrelation of audio signals |
US20160241982A1 (en) * | 2013-10-03 | 2016-08-18 | Dolby Laboratories Licensing Corporation | Adaptive diffuse signal generation in an upmixer |
US20170148458A1 (en) * | 2004-03-01 | 2017-05-25 | Dolby Laboratories Licensing Corporation | Reconstructing Audio Signals with Multiple Decorrelation Techniques |
CN111128210A (zh) * | 2018-10-30 | 2020-05-08 | 哈曼贝克自动系统股份有限公司 | 具有声学回声消除的音频信号处理 |
CN111988726A (zh) * | 2019-05-06 | 2020-11-24 | 深圳市三诺数字科技有限公司 | 一种立体声合成单声道的方法和系统 |
-
2020
- 2020-12-28 CN CN202011578902.5A patent/CN112584300B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170148458A1 (en) * | 2004-03-01 | 2017-05-25 | Dolby Laboratories Licensing Corporation | Reconstructing Audio Signals with Multiple Decorrelation Techniques |
US20090147975A1 (en) * | 2007-12-06 | 2009-06-11 | Harman International Industries, Incorporated | Spatial processing stereo system |
CN102172046A (zh) * | 2008-10-01 | 2011-08-31 | 杜比实验室特许公司 | 用于上混系统的去相关器 |
CN102667918A (zh) * | 2009-10-21 | 2012-09-12 | 弗兰霍菲尔运输应用研究公司 | 用于使音频信号混响的混响器和方法 |
US20140185811A1 (en) * | 2012-12-27 | 2014-07-03 | Dts, Inc. | System and method for variable decorrelation of audio signals |
US20160241982A1 (en) * | 2013-10-03 | 2016-08-18 | Dolby Laboratories Licensing Corporation | Adaptive diffuse signal generation in an upmixer |
CN111128210A (zh) * | 2018-10-30 | 2020-05-08 | 哈曼贝克自动系统股份有限公司 | 具有声学回声消除的音频信号处理 |
CN111988726A (zh) * | 2019-05-06 | 2020-11-24 | 深圳市三诺数字科技有限公司 | 一种立体声合成单声道的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112584300B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6546351B2 (ja) | ヘッドマウントスピーカのためのオーディオエンハンスメント | |
JP5298199B2 (ja) | モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ | |
TW200810582A (en) | Stereophonic sound imaging | |
KR20190136940A (ko) | 음성 제어를 갖는 낮은 복잡도의 다중 채널 스마트 라우드스피커 | |
JPH11503882A (ja) | 複雑性を低減したイメージングフィルタを用いた3次元仮想オーディオ表現 | |
WO2018193163A1 (en) | Enhancing loudspeaker playback using a spatial extent processed audio signal | |
CN112566008A (zh) | 音频上混方法、装置、电子设备和存储介质 | |
JP6865885B2 (ja) | サブバンド空間オーディオエンハンスメント | |
CA2924833C (en) | Adaptive diffuse signal generation in an upmixer | |
US9794717B2 (en) | Audio signal processing apparatus and audio signal processing method | |
CN108966110B (zh) | 声音信号处理方法、装置及系统、终端及存储介质 | |
CN112584300B (zh) | 音频上混方法、装置、电子设备和存储介质 | |
CN109923877B (zh) | 对立体声音频信号进行加权的装置和方法 | |
CN111988726A (zh) | 一种立体声合成单声道的方法和系统 | |
Faller | Upmixing and beamforming in professional audio | |
US20240056735A1 (en) | Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same | |
CN116261086A (zh) | 声音信号处理方法、装置、设备及存储介质 | |
CN117678014A (zh) | 使用全通滤波器网络的仰角感知线索的无色生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |