CN113347551B - 一种单声道音频信号的处理方法、装置及可读存储介质 - Google Patents
一种单声道音频信号的处理方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN113347551B CN113347551B CN202110486603.7A CN202110486603A CN113347551B CN 113347551 B CN113347551 B CN 113347551B CN 202110486603 A CN202110486603 A CN 202110486603A CN 113347551 B CN113347551 B CN 113347551B
- Authority
- CN
- China
- Prior art keywords
- signal
- channel
- path
- music
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 250
- 238000012545 processing Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000000694 effects Effects 0.000 claims abstract description 81
- 238000000926 separation method Methods 0.000 claims abstract description 61
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 61
- 238000003786 synthesis reaction Methods 0.000 claims description 61
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 101100206166 Danio rerio tbx5a gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种单声道音频信号的处理方法、装置及可读存储介质,属于音视频增强领域。该方法通过对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;对所述第一通路信号进行去相关处理,生成第二通路信号;对所述音乐信号进行低音提取处理,生成低频效果通路信号;对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号,提高了信号分离度,增强了环绕声的模拟音效。
Description
技术领域
本发明属于音视频增强领域,特别是涉及一种单声道音频信号的处理方法、装置及可读存储介质。
背景技术
目前多通路环绕声已经被广泛应用,越来越多的用户希望在收看节目时接收多多通路环绕声,获得沉浸式体验。然而,由于各种原因,很多节目的音频信号都是单声道音频信号。单声道音频信号只有中置信号,不仅听起来干涩枯燥,还会造成头中效应,引起用户不适。因此,为了提高单声道音频信号的空间感和信号质量,需要对单声道音频信号进行上混处理,使之在音色不失真的前提下,具备一定的空间感。
单声道音频信号缺少强度差、相位差等信息,现有技术主要通过直接对单声道音频进行信号去相关处理来补充单声道音频信号的相位信息,以此来模拟环绕声信号的其他各个通路信号,但是采用直接去相关处理得到的环绕声信号中各个通路信号之间的差异不大,导致模拟的环绕声信号的空间感差,难以给听者身临其境的沉浸感。
发明内容
本发明提供一种单声道音频信号的处理方法、装置及可读存储介质,以便在一定程度上解决现有技术中通过单声道音频信号模拟环绕声信号时,得到的模拟音效差的问题。
依据本发明的第一方面,提供了一种单声道音频信号的处理执行方法,所述方法包括:
对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;
对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;
对所述第一通路信号进行去相关处理,生成第二通路信号;
对所述音乐信号进行低音提取处理,生成低频效果通路信号;
对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号。
依据本发明的第二方面,提供了一种单声道音频信号的处理装置,所述装置包括:
信号分离模块,用于对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;
信号合成模块,用于对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;
去相关处理模块,用于对所述第一通路信号进行去相关处理,生成第二通路信号;
低音提取模块,用于对所述音乐信号进行低音提取处理,生成低频效果通路信号;
目标音频信号生成模块,用于对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号。
依据本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一所述的单声道音频信号的处理方法。
依据本发明的第四方面,提供了一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的数据处理程序,以实现如第一方面中任一所述的单声道音频信号的处理方法。
针对在先技术,本发明具备如下优点:
本发明通过对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;对所述第一通路信号进行去相关处理,生成第二通路信号;对所述音乐信号进行低音提取处理,生成低频效果通路信号;对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号。相比于现有技术中直接对单声道音频信号进行去相关处理得到环绕声信号,本发明先将单声道音频信号中的对白信号和音乐信号分离出来,提高了信号分离度,然后基于待生成的目标音频信号中各个通路信号的不同信号特性,对分离得到的对白信号和音乐信号分别进行不同的信号处理,得到满足不同通路信号特征的通路信号,如此,增强了各个通路信号之间的差异,从而提高了生成的目标音频信号的空间感,增强了环绕声的模拟音效。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种单声道音频信号的处理方法的步骤流程图;
图2是本发明实施例提供的一种单声道音频信号的处理流程图;
图3是本发明实施例提供的另一种单声道音频信号的处理流程图;
图4是本发明实施例提供的一种单声道音频信号的处理装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
与环绕声相比,单声道信号只有一个中置通路信号,并不能呈现三维空间感,无法给听音者置身其中的现场感,因此,为了获得三维空间感,通常会将单声道音频信号模拟生成环绕声信号之后再输出。现有技术中,通常采用信号去相关等处理补充单声道音频信号的相位信息,以此来强制增大单声道音频信号的声场,但是采用去相关处理得到的音频信号往往提起来不自然,单声道音频信号的处理效果与多通路环绕声的效果相差较大。为了提高单声道音频信号模拟环绕声信号的模拟音效,本发明提供了一种单声道音频信号的处理方法,通过将单声道音频信号中的对白信号和音乐信号分离出来,对得到的对白信号和音乐信号进行处理得到环绕声信号,也即目标音频信号。
图1是本发明实施例提供的一种单声道音频信号的处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号。
步骤102、对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号。
步骤103、对所述第一通路信号进行去相关处理,生成第二通路信号。
步骤104、对所述音乐信号进行低音提取处理,生成低频效果通路信号。
步骤105、对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号。
本发明实施例中,所述对白信号也可以理解为单声道音频信号中的人声信号,所述音乐信号也可以理解为单声道音频信号中的背景信号,单声道音频信号可以理解为对白信号和音乐信号的混合音频信号。其中,所述单声道音频信号可以是电影、电视剧的音频信号,也可以是歌曲的音频信号。以电影的音频信号为例,对白信号就是电影角色说话时产生的人声信号,音乐信号就是电影的背景信号。
需要说明的是,本发明实施例提供的音频信号处理方法,可以通过单声道音频信号模拟环绕声信号,可应用于任意音频播放设备。其中,所述音频播放设备包括但不限于耳机、音箱、音响等、智能家居设备(包括智能音箱、电视、语音助手等),智能终端(包括:智能手机、可视电话、平板电脑、会议桌面智能终端等),以及影厅音频播放设备、车载设备、计算机等。
并且,当通过本发明实施例提供的方法生成目标音频信号时,可以在播放音频的过程中根据输入的单声道音频信号实时生成目标音频信号并输出,也可以先根据单声道音频信号生成目标音频信号并存储,在接收到音频播放指令的情况下,播放目标音频信号。
其中,目标音频信号至少包括四个通路信号,也即对应四道声源,分别为中置通路信号、第一通路信号、第二通路信号、和低频效果通路信号。若所述第一通信信号为左通路信号,则所述第二通路信号为右通路信号;若所述第一通路信号为右通路信号,则所述第二通路信号为左通路信号。
在环绕声信号的各个通路信号中,左通路信号和右通路信号提供立体声场,用来提供左侧和右侧的背景音乐,让人感觉置身于声场的中央,因此左通路信号和右通路信号中音乐信号的比例大于对白信号;中置通路信号包含大量的前方声场信息,作为左通路信号和右通路信号的补偿,提供更宽的声场和稳定的声像,中置通路信号主要用于提高环绕声中整体对白的语音清晰度,因此中置通路信号中对白信号的比例大于音乐信号;低频效果通路信号专门为音频信号中的120Hz以下的频段设计,用于加强听觉上的冲击力,提供逼真的低音感受,像马达声、轰炸机的声音,或者鼓声等震人心弦的重低音,主要就是由低频效果通路提供的。
基于环绕声信号的各个通路信号的特点,对分离出的对白信号和音乐信号进行相应的处理,就可以得到待模拟的环绕声信号的各个通路信号,再对得到的各个通路信号进行合成处理,就可以得到目标音频信号,也即环绕声信号。
参照图2,示出了本发明实施例中单声道音频信号的处理流程图。下面将结合图2说明本发明实施例中针对单声道音频信号的具体处理过程。其中,S_in为单声道音频信号。
首先,对单声道音频信号S_in进行信号分离,得到对白信号S_v和音乐信号S_m。在进行信号分离处理时,可以基于计算听觉场景分析对单声道音频信号中的对白信号和音乐信号进行分离。具体的,通过设计算法模拟人对声音的处理过程,让计算机具备从混合声音中分离声源的能力。还可以预先训练分离模型,并基于训练号的分离模型对单声道音频信号中的对白信号和音乐信号进行分离。具体的,将对白分离问题转换为监督学习问题,通过构建一个从混合信号映射到分离目标的特征函数实现对白分离。关于利用信号分离模型实现信号分离的详细处理过程在后文详述,本发明实施例在此不做进一步赘述。
然后,对分离出来的对白信号S_v和音乐信号S_m进行合成处理,分别生成中置通路信号和第一通路信号。其中,第一通路信号为左通路信号或右通路信号。
由于中置通路信号主要用于提高环绕声中整体对白的语音清晰度,需要包含大量的前方声场信息,作为左通路信号和右通路信号的补偿,以便提供更宽的声场和稳定的声像,因此生成中置通路信号中对白信号的比例大于音乐信号。
而对于第一通路信号,由于在目标音频信号的各个通路信号中,左通路信号和右通路信号提供立体声场,用来提供左侧和右侧的背景音乐,让人感觉置身于声场的中央,因此第一通路信号中,音乐信号的比例大于对白信号。
得到第一通路信号之后,对第一通路信号进行去相关处理,就可以得到第二通路信号。其中,第二通路信号为第一通路信号对侧的单通路信号。如果第一通路信号为左通路信号,则第二通路信号为右通路信号;如果第一通路信号为右通路信号,则第二通路信号为左通路信号。
由于单声道音频信号只有一个信号通路,没有左右声道之分,因此,单声道音频信号分离出的对白信号和音乐信号也没有左右声道之分,而环绕声信号的左通路信号和右通路信号中包含的对白信号和音乐信号的能量比例相同,若依然通过将对白信号和音乐信号进行合成处理,生成待模拟的环绕声信号的右通路信号,那么得到的右通路信号和左通路信号就会一致,也就不能产生立体音效。因此,为了使得第二通路信号与第一通路信号之间存在差异,本发明实施例通过对生成的第一通路信号进行去相关处理,得到第二通路信号。具体的,可以对第一通路信号进行频域相位处理,和/或,对第一通路信号进行时域延时处理,生成第二通路信号。后文在步骤S11中,详述了去相关处理的具体实现过程,此处不展开详述。
其中,对第一通路信号进行时域延时处理,可以将第一通路信号输入到延时处理器中,为第一通路信号增加延时因子,得到第二通路信号。
对第一通路信号进行频域相位处理,得到第二通路信号,可以先对第一通路信号进行傅里叶变换,得到第一通路信号的第一频域信号,然后获取该第一频域信号的初始相位和频段信息,根据初始相位和预设相位差,对第一频域信号进行频谱搬移,得到第二频域信号,对第二频域信号进行傅里叶逆变换,就可以得到第二通路信号。
需要说明的是,当同时对第一通路信号进行频域相位处理和时域延时处理时,没有先后顺序限定。可以先对第一通路信号进行频域相位处理,再进行时域延时处理;也可以先对第一通路信号进行时域延时处理,再对延时后的第一通路信号进行频域相位处理。
低频效果通路信号的信号频率在120Hz以下,而人声的基音频率区域为500Hz至1000Hz,人声的主要音区频率是300Hz至500Hz,当信号频率处于120Hz以下时,对白信号的成分已经变得非常少,因此,在本发明实施例中,可以直接对分离出来的音乐信号S_m进行低音提取处理,得到低频效果通路信号。具体的,可以采用滤波频率为120Hz的低通滤波器对音乐信号进行滤波处理,得到低频效果通路信号。
现有技术中直接对单声道音频信号进行低音提取处理得到低频效果通路信号,得到的低频效果通路信号中不仅包含音乐信号,还包含少量的对白信号,这部分对白信号会对中置通路中的对白信号造成干扰,降低最终生成的目标音频信号中的对白信号的清晰度。
而本发明实施例中生成的低频效果通路信号仅包含音乐信号中的低音部分,不存在对中置信号造成干扰的对白信号,从而提高了目标音频信号的对白清晰度。
最后,对生成的中置通路信号、第一通路信号、第二通路信号和低频效果通路信号进行合成处理,就可以生成目标音频信号。在对各个通路信号进行合成处理时,可以根据实际需求设置各个通路信号的合成比例,按照合成比例对各个通路信号进行合成处理,得到目标音频信号。
需要说明的是,在本发明实施例中,步骤102至步骤104之间不存在逻辑上的先后顺序,步骤102至步骤104只要在步骤101之后,以及步骤105之前执行即可。实际场景中,步骤102至步骤104可以按照自定义的次序顺序执行,也可以并行执行,本发明实施例对此并无特别限制。
可选地,步骤103所述对所述第一通路信号进行去相关处理,生成第二通路信号,包括:
步骤S11、对所述第一通路信号进行频域相位处理,和/或,对所述第一通路信号进行时域延时处理,生成第二通路信号。
其中,第二通路信号为第一通路信号对侧的单通路信号。如果第一通路信号为左通路信号,则第二通路信号为右通路信号;如果第一通路信号为右通路信号,则第二通路信号为左通路信号。
由于单声道音频信号只有一个信号通路,没有左右声道之分,因此,单声道音频信号分离出的对白信号和音乐信号也没有左右声道之分,而环绕声信号的左通路信号和右通路信号中包含的对白信号和音乐信号的能量比例相同,若依然通过将对白信号和音乐信号进行合成处理,生成待模拟的环绕声信号的右通路信号,那么得到的右通路信号和左通路信号就会一致,也就不能产生立体音效。因此,为了使得第二通路信号与第一通路信号之间存在差异,本发明实施例通过对生成的第一通路信号进行去相关处理,得到第二通路信号。具体的,可以对第一通路信号进行频域相位处理,和/或,对第一通路信号进行时域延时处理,生成第二通路信号。
可选地,步骤S11所述对所述第一通路信号进行频域相位处理,生成第二通路信号,包括:
子步骤S111、对所述第一通路信号进行傅里叶变换,得到所述第一通路信号的第一频域信号;
子步骤S112、获取所述第一频域信号的初始相位和频段信息;
子步骤S113、根据所述初始相位和预设相位差,对所述第一频域信号进行频谱搬移,得到第二频域信号;
子步骤S114、对所述第二频域信号进行傅里叶逆变换,生成所述第二通路信号。
在本发明实施例中,通过对第一通路信号进行频域相位处理,得到第二通路信号时,可以先对第一通路信号进行傅里叶变换,得到第一通路信号的第一频域信号,然后获取该第一频域信号的初始相位和频段信息,根据初始相位和预设相位差,对第一频域信号进行频谱搬移,得到第二频域信号,对第二频域信号进行傅里叶逆变换,就可以得到第二通路信号。
由于对于不同频段的信号,人耳的敏感程度不一样,因此,为了使得试生成的目标音频信号的音效更符合人耳的敏感度,产生更真实的立体音效,本发明实施例在对第一通路信号进行去相关处理时,可以针对不同的频段设置不同的预设相位差。具体的,人耳越敏感的频段,预设相位差越小,人耳越不敏感的频段,预设相位差越大。例如,对人耳比较敏感的2kHz至4kHz频段设置最小的相位差,对其他频段设置较大的相位差,然后按照确定的预设相位差,在初始相位的基础上对第一通路信号的每个频段进行频谱搬移,得到第二通路信号对应的第二频域信号。假设第一通路信号的初始相位为w1,预设相位差为w2,那么进行频谱搬移后,得到的第二通路信号对应的第二频域信号的初始相位为w1+w2,或w1-w2。这样不仅可以增加第三通路信号与第四通路信号之间的差异,提高生成的目标音频信号的立体感,也不会使收听目标音频信号的用户产生额外的不适感。
此外,为了进一步提高目标音频信号的立体感,还可以对生成的第二通路信号进行适当的延时处理。
可选地,步骤102所述对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号,包括:
步骤S21、按照第一合成比例对所述对白信号和所述音乐信号进行合成处理,得到中置通路信号,所述第一合成比例中所述对白信号的占比大于所述音乐信号的占比;
步骤S22、按照第二合成比例对所述对白信号和所述音乐信号进行合成处理,得到第一通路信号,所述第二合成比例中,所述对白信号的占比小于所述音乐信号的占比。
假设对单声道音频信号进行分离后,得到对白信号v、左声道音乐信号m,且待模拟的环绕声信号的中置通路信号中对白信号和音乐信号的第一合成比例为n1:n2,则中置通路信号C可以表示为:
C=(n1×v+n2×m)/(n1+n2) (1)
其中,n1大于n2,且n1+n2=1。
由于中置通路信号主要用于提高环绕声中整体对白的语音清晰度,需要包含大量的前方声场信息,作为左通路信号和右通路信号的补偿,以便提供更宽的声场和稳定的声像,因此中置通路信号中对白信号的比例大于音乐信号。
实际场景中,n1与n2之间可以尽可能差距较大,形成n1远大于n2的效果。例如,n1取值为95%,n2取值为5%。
对于第一通路信号,由于在目标音频信号的各个通路信号中,左通路信号和右通路信号提供立体声场,用来负责左侧和右侧的背景音乐,让人感觉置身于声场的中央,因此第一通路信号的第二合成比例中,音乐信号的比例大于对白信号。假设第一通路信号中对白信号和音乐信号的第二合成比例为s1:s2,则第一通路信号可以表示为:
S=(s1×v+s2×m)/(s1+s2) (2)
其中,s2大于s1,且s1+s2=1。
在本发明实施例中,左通路信号和右通路信号中包含的对白信号和音乐信号的第一合成比例可以相同,也可以不同,只要保证第一合成比例中对白信号的比例小于音乐信号即可。
实际场景中,s2与s1之间可以尽可能差距较大,形成s2远大于s1的效果,更有利于形成有空间感的声音效果。例如,s1取值为95%,s2取值为5%。
在本发明实施例中,通过先对单声道音频信号进行分离处理,得到对白信号和音乐信号,提高了单声道音频信号的分离度。然后,基于待生成的目标音频信号中各个通路信号的不同信号特性,可以按照不同的信号合成比例,对分离得到的对白信号和音乐信号分别进行不同的信号处理,得到满足不同通路信号特征的通路信号,增强了各个通路信号之间的差异,提高了生成的目标音频信号的空间感。
本发明实施例生成的目标音频信号包含的各个通路信号,除了中置通路信号、左通路信号、右通路信号和低频效果通路信号,还可以包括环绕效果通路信号,为目标音频信号提供更丰富的声场信息。例如,目前应用比较广泛的环绕声信号:5.1声道音频信号,就包含中置通路信号、左通路信号、右通路信号、低频效果通路信号、左环绕效果通路信号和右环绕效果通路信号。
因此,在本发明前述任意一种可选实施例的基础上,所述方法还可以包括:
步骤S31、对所述第一通路信号进行滤波处理,生成第三通路信号;所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。
其中,如果第一通路信号为左通路信号,则第三通路信号为左环绕效果通路信号;如果第一通路信号为右通路信号,则第三通路信号为右环绕效果通路信号。
参照图3,示出了本发明实施例中的另一种单声道音频信号的处理流程图。其中,左环绕效果通路信号和右环绕效果通路信号主要包含听音区域的环境声信息,提供有包围感的环绕声场和更丰富的声场信息。如图3所示,可以通过第一通路信号进行滤波处理得到第三通路信号,对第二通路信号进行滤波处理得到第四通路信号。其中,第四通路信号为第二通路信号同侧的环绕效果通路信号,也是第三通路信号对侧的环绕效果通路信号。如果第三通路信号为左环绕效果通路信号,则第四通路信号为右环绕效果通路信号;如果第三通路信号为右环绕效果通路信号,则第四通路信号为左环绕效果通路信号。
相比于中置通路信号、左通路信号、右通路信号和低频效果通路信号,环绕效果通路信号可以增强目标音频信号的环绕声场,提高目标音频信号的空间感,增强目标音频信号的环绕声音效。
可选地,步骤S31所述对所述第一通路信号进行滤波处理,生成第三通路信号,包括:
子步骤S311、提取所述第一通路信号中的环境音部分,得到环境音信号;
子步骤S312、对所述环境音信号进行延时处理,生成第三通路信号。
需要说明的是,所述环境音为所述第一通路信号中听者无法感受到声源确定方向的部分。并且,环境音信号与音乐信号并不相同。以歌手演唱会对应的单声道音频信号为例,对白信号为歌手的人声,音乐信号为歌曲的配乐,环境音为观众的欢呼声、掌声等。
在本发明实施例中,为了进一步增强生成的目标音频信号的空间感,可以在提取第一通路信号中的环境声部分,得到环境声信号之后,对环境声信号进行延时处理,得到第三通路信号,也即第一通路信号同侧的环绕效果通路信号,从而增大第三通路信号与第一通路信号之间的差异,提高了基于各个通路信号合成得到的目标音频信号的空间感,增强了目标音频信号的环绕声音效。需要说明的是,对环境声信号进行延时处理时,可以在保证生成的目标音频信号可以正常播放的情况下,根据实际需求确定具体的延长时间。
可选地,步骤S31所述对所述第一通路信号进行滤波处理,生成第三通路信号之后,所述方法还包括:
步骤S32、对所述第三通路信号进行去相关处理,生成第四通路信号;所述第四通路信号为第三通路信号对侧的环绕效果通路信号。
在本发明实施例中,生成第三通路信号之后,可以对得到的第三通路信号进行去相关处理,得到对侧的环绕效果通路信号。具体的,可以对第三通路信号进行频域相位处理,和/或,对第三通路信号进行时域延时处理,生成第四通路信号。去相关处理的具体实时过程,可以参照步骤S11中对第一通路信号进行去相关处理,得到第二通路信号的具体处理过程。
前述各实施例分别阐述了如何对各个通路信号进行生成,现对步骤105中合成步骤的实现方式进行说明。
在对各通路信号进行合成处理时,如果得到的各个通路信号中不包含环绕效果通路信号,也即不包含本发明实施例中的第三通路信号和第四通路信号,则确定中置通路信号、第一通路信号、第二通路信号和低频效果通路信号的第三合成比例,并根据第三合成比例对前述各通路信号进行合成处理,得到目标音频信号。
如果得到的各个通路信号中包含环绕效果通路信号,也即包含本发明实施例中的第三通路信号和第四通路信号,则确定中置通路信号、第一通路信号、第二通路信号、第三通路信号、第四通路信号和低频效果通路信号的第三合成比例,并根据第三合成比例对前述各通路信号进行合成处理,得到目标音频信号。
其中,第三合成比例可以根据想到达到的环绕声音效确定。例如,如果想要得到的目标音频信号的环绕音效明显,则可以为提供环绕声场的第三通路信号和第四通路信号在第三合成比例中的适当设置较大的占比。
示例性的一种实施例中,可以根据单声道音频信号的音频内容确定待生成的目标音频信号中各通路信号的信号能量增益,然后根据信号能量增益确定第三合成比例。
其中,各通路信号的信号能量增益用于表征信号强度,信号能量增益越大,该通路信号的信号强度越大。不同类型的音频内容目标音频信号中,各通路信号的信号能量增益不同。例如,在综艺类节目的音频信号中,对白信号的信号强度大,因而中置通路信号的信号能量增益比较大,根据信号能量增益,可以在第三合成比例中,为中置通路信号设置较大的比例;而在电视剧的音频信号中,音乐信号的信号强度较大,因而第一通路信号、第二通路信号的信号能量增益比较大,可以在第三合成比例中,为第一通路信号、第二通路信号设置较大的比例。
本发明实施例可以根据实际需求设置各个通路信号的信号合成比例,进而按照合成比例对各个通路信号进行合成处理,得到目标音频信号,提高了生成目标音频信号时,参数设置的灵活性,可以满足多种环绕声音效的模拟需求,提高了音频信号生成方法的适用性。
可选地,步骤105所述对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号,包括:
步骤S41、确定所述目标音频信号中各通路信号的第三合成比例;
步骤S42、根据所述第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
在本发明实施例中,除了可以在生成中置通路信号和第一通路信号时,设置对白信号和音乐信号的合成比例,还可以在对各个通路信号进行合成处理,生成目标音频信号时,设置各个通路信号的第三合成比例,然后根据第三合成比例对各个通路信号进行合成处理,得到目标音频信号。
可选地,步骤S42所述根据所述第三比例对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号,包括:
子步骤S421、根据所述单声道音频信号的音频内容确定待生成的目标音频信号中各个通路信号的信号能量增益;
子步骤S422、根据所述信号能量增益调整所述第三合成比例;
子步骤S423、根据调整后的第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
在本发明实施例中,在生成目标音频信号时,还可以进一步根据单声道音频信号的音频内容,对各个通路信号的第三合成进行调整,使得生成的目标音频信号更加符合实际音效需求。例如,当单声道音频信号的音频内容为综艺节目音频时,由于综艺节目的音频信号中,对白信号的比例本身比较高,为了避免生成的目标音频信号中对白信号的比例过高,影响目标音频信号的空间感,可以适当减小第三合成比例中,中置通路信号的占比,增大左右通路信号和左右环绕效果通路信号的占比。当单声道音频信号的音频内容为电影或电视剧的音频时,由于相比其他音频,电影或电视剧的音频信号中,音乐信号的比例较大,如果音乐信号过强,就会影响对白信号的清晰度,因此,可以适当增大中置通路信号的在第三合成比例中的占比。在实际应用中,可以根据单声道音频信号的音频内容确定第三合成比例的具体调整方式,对此本发明实施例不做具体限定。
本发明实施例可以根据单声道音频信号的音频内容调整各个通路信号的第三合成比例,然后根据调整后的第三合成比例对各个通路信号进行合成处理,得到目标音频信号,在保证目标音频信号的空间感的同时,使得目标音信号的音效更符合实际需求,能够满足多种单声道音频信号的处理需求,提高了单声道音频信号模拟环绕声信号的灵活性。
可选地,步骤101所述对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号,包括:
将单声道音频信号输入预先训练好的信号分离模型中,得到所述单声道音频信号对应的对白信号和音乐信号。
在本发明实施例中,可以预先建立并训练信号分离模型,通过将单声道音频信号直接输入到预先训练好的信号分类模型中,就可以得到单声道音频信号对应的对白信号和音乐信号。具体处理过程如下:
首先,建立信号分离模型,并对该信号分离模型进行训练。具体的,预先基于深度学习网络构建信号分离模型,然后获取信号分离模型的样本信号集。其中,所述样本信号集至少包括:单声道音频样本信号、所述单声道音频样本信号对应的对白样本信号和音乐样本信号。基于所述样本信号集中的单声道音频样本信号、所述单声道音频样本信号对应的对白样本信号和音乐样本信号训练所述信号分离模型。
在本发明实施例中,可以基于全连接神经网络的算法、基于SonyNet的算法、基于卷积降噪自编码器的算法、基于PritishNet的算法、基于循环神经网络的算法、基于wav-U-Net的算法等等,构建信号分离模型。对于构建信号分离模型的具体算法,本发明实施例不做具体限定。下面将以基于wav-U-Net的算法构建信号分离模型为例,说明本发明实施例中,针对单声道音频信号中的对白信号和音乐信号的分离处理过程。
由于系统的计算量直接与信号的采样率成正比,因此,为了减少系统的处理时间,提高分离效率,通常会先对输入的单声道音频信号进行降采样处理,也就是下采样处理,通过降低输入信号的采样率,也即减少输入信号的采样点,将输入信号的采样率转换为预设采样率。降采样之后的输入信号需要仍然满足奈奎斯特采样定理。其中,由于声音信号分布在高频的能量很小,因此,本发明实施例中,设置的预设采样频率通常处于中低频段,例如16kHz,这样即使对输入信号进行降采样也不会给人带来很大的感官影响。
此外,为了进一步提高分离效率,还可以对输入信号进行分割处理,将输入信号分割为多个音频信号段,分别对每一个音频信号段进行分离处理,得到各个音频信号段对应的对白信号段和音乐信号段,再对各个音频信号段对应的对白信号段和音乐信号段进行拼接处理,就可以得到输入信号对应的对白信号和音乐信号。
将降采样之后的输入信号输入到wav-U-Net网络中,得到输出的对白信号和音乐信号,再对输出的对白信号和音乐信号进行上采样,增加输出的对白信号和音乐信号的采样率,也即增加输出的对白信号和音乐信号的采样点,将对白信号和音乐信号的采样率恢复为输入信号的采样率,得到最终的对白信号和音乐信号。
需要说明的是,在本发明实施例中,也可以在将单声道音频信号输入到信号分离模型之前,先对单声道音频信号进行降采样、分割处理等预处理过程,然后将预处理之后的单声道音频信号作为输入信号,输入到信号分离模型中,由信号分离模型直接对预处理之后的单声道音频信号进行分离处理,得到单声道音频信号对应的对白信号和音乐信号。
在本发明实施例中,通过wav-U-Net网络对输入信号进行信号分离处理时,可以通过对输入信号预测掩膜实现对白分离,也可以通过对输入信号预测幅度实现对白分离。根据预测内容不同,wav-U-Net网络对输入信号的分离过程也不同。其中,预测掩膜是指通过将输入信号的时频图的幅度输入到wav-U-Net网络中预测时频掩膜,时频掩膜用于指示输入信号中对白信号和音乐信号的时频位置。预测幅度是指基于wav-U-Net网络直接预测输入信号的幅度时频图。
假设输入的单声道音频信号分别为对白信号和音乐信号的混合信号,则输入信号可以表示为:
y(t)=v(t)+m(t) (3)
其中,y(t)表示输入信号的时域信号,v(t)表示对自信号的离散时间序列,m(t)表示音乐信号的离散时间序列。
以预测掩膜为例,基于wav-U-Net网络构建信号分离模型,将单声道音频信号输入到该信号分离模型中,将依次经过以下模块的处理:
1、降采样模块:对输入信号进行降采样处理,使得降采样后的输入信号的采样率满足预设采样率。
2、短时傅里叶变换模块:通过短时傅里叶变换将降采样后的时域信号y(t)转换为频域信号Y(t,f)。
3、预测掩膜模块:将频域信号的幅度|Y(t,f)|输入到wav-U-Net网络预测时频掩膜W(t,f)。
4、时频掩膜处理模块:将预测的时频掩膜W(t,f)与输入信号的频域信号Y(t,f)相乘得到对自信号的频域信号和音乐信号的频域信号:
V(t,f)=Y(t,f)W(t,f) (4)
M(t,f)=Y(t,f)(1-M(t,f)) (5)
5、短时傅里叶逆变换模块:通过短时傅里叶逆变换将对自信号和音乐信号的频域信号转换时域信号,
6、上采样模块:对得到的对自信号的时域信号和音乐信号的时域信号进行上采样并输出,就得到了从输入的单声道音频信号中分离出来的对自信号和音乐信号。
构建信号分离模型之后,还需要对构建的模型进行进一步训练,以保证模型的准确性和处理效率。具体的,将所述单声道音频样本信号输入到预先构建的信号分离模型中,得到对白输出信号和音乐输出信号;根据所述对白样本信号和所述对白输出信号,以及所述音乐样本信号和所述音乐输出信号确定损失值;若所述损失值不满足预设条件,则调整所述信号分离模型的训练参数,直至所述损失值满足预设条件;根据所述损失值满足预设条件时对应的训练参数确定训练好的信号分离模型。
在训练信号分离模型时,首先需要构建训练所需的样本信号集,样本信号集包括输入数据单声道音频样本信号,以及单声道音频信号样本对应的对白样本信号和音乐样本信号。其中,本发明实施例在获取样本信号集时,可以分别获取独立的对白信号和音乐信号,然后将对白信号和音乐信号进行混合,得到单声道音频信号,将得到的单声道音频信号作为单声道音频样本信号,将混合该单声道音频信号时所用到的对白信号和音乐信号作为该单声道音频样本信号对应的对白样本信号和音乐样本信号。
训练时,将单声道音频信号输入到预先构建的信号分离模型中,得到输出信号:对白输出信号和音乐输出信号,根据对白样本信号和对白输出信号,以及音乐样本信号和音乐输出信号计算损失函数,得到损失值,以确定对白样本信号和对白输出信号,以及音乐样本信号和音乐输出信号之间的差异。损失值越小,对白输出信号越接近对白样本信号,音乐输出信号越接近音乐样本信号,说明分离结果越准确。因此,可以根据想到达到的准确度,预先确定损失值所需要满足的预设条件。当损失值满足预设条件时,说明信号分离模型的当前准确度已经符合预期,可以停止训练;当损失值不满足预设条件时,说明信号分离模型的当前准确度还未达到预取,可以通过调整信号分离模型的训练参数,如输入通道数、输出通道数、卷积核大小、卷积核移动步长等,或者调整信号分离模型的学习率,然后继续进行模型训练,直至损失值满足预设条件,就可以得到训练好的信号分离模型。将单声道音频信号直接输入到训练好的信号分离模型中,就可以得到单声道音频信号对应的对白信号和音乐信号,简化了信号分离的处理流程,提高了信号分离效率。
综上所述,本发明实施例提供的单声道音频信号的处理方法,通过先将单声道音频信号中的对白信号和音乐信号分离出来,提高了信号分离度,然后基于待生成的目标音频信号中各个通路信号的不同信号特性,对分离得到的对白信号和音乐信号分别进行不同的信号处理,得到满足不同通路信号特征的通路信号,如此,增强了各个通路信号之间的差异,从而提高了生成的目标音频信号的空间感,增强了环绕声的模拟音效。
图4是本发明实施例提供的一种单声道音频信号的处理装置的框图,如图4所示,该装置20可以包括:
信号分离模块201,用于对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;
信号合成模块202,用于对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;
去相关处理模块203,用于对所述第一通路信号进行去相关处理,生成第二通路信号;
低音提取模块204,用于对所述音乐信号进行低音提取处理,生成低频效果通路信号;
目标音频信号生成模块205,用于对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号。
可选地,所述装置20还包括:
第三通路信号生成模块,用于对所述第一通路信号进行滤波处理,生成第三通路信号;所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。
可选地,所述第三通路信号生成模块,包括:
环境音信号提取子模块,用于提取所述第一通路信号中的环境音部分,得到环境音信号;
第三通路信号生成子模块,用于对所述环境音信号进行延时处理,生成第三通路信号。
可选地,所述装置20还包括:
第四通路信号生成模块,用于对所述第三通路信号进行去相关处理,生成第四通路信号;所述第四通路信号为第三通路信号对侧的环绕效果通路信号;
所述目标音频信号生成模块205,包括:
目标音频信号生成子模块,用于对所述中置通路信号、所述第一通路信号、所述第二通路信号、所述低频效果通路信号、所述第三通路信号和所述第四通路信号进行合成处理,得到目标音频信号。
可选地,所述去相关处理模块203,包括:
第二通路信号生成子模块,用于对所述第一通路信号进行频域相位处理,和/或,对所述第一通路信号进行时域延时处理,生成第二通路信号。
可选地,所述第二通路信号生成子模块,包括:
第一频域信号生成单元,用于对所述第一通路信号进行傅里叶变换,得到所述第一通路信号的第一频域信号;
频域特征获取单元,用于获取所述第一频域信号的初始相位和频段信息;
第二频域信号生成单元,用于根据所述初始相位和预设相位差,对所述第一频域信号进行频谱搬移,得到第二频域信号;
第二通路信号生成单元,用于对所述第二频域信号进行傅里叶逆变换,生成所述第二通路信号。
可选地,所述信号合成模块202,包括:
中置通路信号生成子模块,用于按照第一合成比例对所述对白信号和所述音乐信号进行合成处理,得到中置通路信号,所述第一合成比例中所述对白信号的占比大于所述音乐信号的占比;
第一通路信号生成子模块,用于按照第二合成比例对所述对白信号和所述音乐信号进行合成处理,得到第一通路信号,所述第二合成比例中,所述对白信号的占比小于所述音乐信号的占比。
可选地,所述目标音频信号生成模块205,包括:
合成比例确定子模块,用于确定所述目标音频信号中各通路信号的第三合成比例;
合成处理子模块,用于根据所述第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
可选地,所述合成处理子模块,包括:
信号能量增益确定单元,用于根据所述单声道音频信号的音频内容确定待生成的目标音频信号中各个通路信号的信号能量增益;
合成比例确定单元,用于根据所述信号能量增益调整所述第三合成比例;
合成处理单元,用于根据调整后的第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
可选地,所述信号分离模块201,包括:
信号分离子模块,用于将单声道音频信号输入预先训练好的信号分离模型中,得到所述单声道音频信号对应的对白信号和音乐信号。
可选地,所述第一通路信号为左通路信号,所述第二通路信号为右通路信号;或者,所述第一通路信号为右通路信号,所述第二通路信号为左通路信号。
综上所述,本发明实施例提供的单声道音频信号的装置,通过先将单声道音频信号中的对白信号和音乐信号分离出来,提高了信号分离度,然后基于待生成的目标音频信号中各个通路信号的不同信号特性,对分离得到的对白信号和音乐信号分别进行不同的信号处理,得到满足不同通路信号特征的通路信号,如此,增强了各个通路信号之间的差异,从而提高了生成的目标音频信号的空间感,增强了环绕声的模拟音效。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述单声道音频信号的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述单声道音频信号的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的单声道音频信号的处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的操作执行方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种单声道音频信号的处理方法,其特征在于,所述方法包括:
对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;
对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;
对所述第一通路信号进行去相关处理,生成第二通路信号;
对所述音乐信号进行低音提取处理,生成低频效果通路信号;
对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号;
所述对所述第一通路信号进行去相关处理,生成第二通路信号,包括:
对所述第一通路信号进行傅里叶变换,得到所述第一通路信号的第一频域信号;
获取所述第一频域信号的初始相位和频段信息;
根据所述初始相位和预设相位差,对所述第一频域信号进行频谱搬移,得到第二频域信号;其中,所述预设相位差是根据所述频段信息设置的;
对所述第二频域信号进行傅里叶逆变换,生成所述第二通路信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号之后,所述方法还包括:
对所述第一通路信号进行滤波处理,生成第三通路信号;所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一通路信号进行滤波处理,生成第三通路信号,包括:
提取所述第一通路信号中的环境音部分,得到环境音信号;
对所述环境音信号进行延时处理,生成第三通路信号。
4.根据权利要求2所述的方法,其特征在于,所述对所述第一通路信号进行滤波处理,生成第三通路信号之后,所述方法还包括:
对所述第三通路信号进行去相关处理,生成第四通路信号;所述第四通路信号为第三通路信号对侧的环绕效果通路信号。
5.根据权利要求1所述的方法,其特征在于,所述对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号,包括:
按照第一合成比例对所述对白信号和所述音乐信号进行合成处理,得到中置通路信号,所述第一合成比例中所述对白信号的占比大于所述音乐信号的占比;
按照第二合成比例对所述对白信号和所述音乐信号进行合成处理,得到第一通路信号,所述第二合成比例中,所述对白信号的占比小于所述音乐信号的占比。
6.根据权利要求1至5任一所述的方法,其特征在于,所述对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号,包括:
确定所述目标音频信号中各通路信号的第三合成比例;;
根据所述第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第三合成比例对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,得到目标音频信号,包括::
根据所述单声道音频信号的音频内容确定待生成的目标音频信号中各个通路信号的信号能量增益;
根据所述信号能量增益调整所述第三合成比例;
根据调整后的第三合成比例,对各通路信号进行合成处理,得到目标音频信号。
8.根据权利要求1所述的方法,其特征在于,所述对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号,包括:
将单声道音频信号输入预先训练好的信号分离模型中,,得到所述单声道音频信号对应的对白信号和音乐信号。
9.根据权利要求1所述的方法,其特征在于,所述第一通路信号为左通路信号,所述第二通路信号为右通路信号;或者,所述第一通路信号为右通路信号,所述第二通路信号为左通路信号。
10.一种单声道音频信号的处理装置,其特征在于,所述装置包括:
信号分离模块,用于对单声道音频信号进行分离处理,得到所述单声道音频信号对应的对白信号和音乐信号;
信号合成模块,用于对所述对白信号和所述音乐信号进行合成处理,生成中置通路信号和第一通路信号;
去相关处理模块,用于对所述第一通路信号进行去相关处理,生成第二通路信号;
低音提取模块,用于对所述音乐信号进行低音提取处理,生成低频效果通路信号;
目标音频信号生成模块,用于对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理,,得到目标音频信号;
所述去相关处理模块,具体用于:对所述第一通路信号进行傅里叶变换,得到所述第一通路信号的第一频域信号;获取所述第一频域信号的初始相位和频段信息;根据所述初始相位和预设相位差,对所述第一频域信号进行频谱搬移,得到第二频域信号;其中,所述预设相位差是根据所述频段信息设置的;对所述第二频域信号进行傅里叶逆变换,生成所述第二通路信号。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一所述的单声道音频信号的处理方法。
12.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的数据处理程序,以实现权利要求1-9任一所述的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486603.7A CN113347551B (zh) | 2021-04-30 | 2021-04-30 | 一种单声道音频信号的处理方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486603.7A CN113347551B (zh) | 2021-04-30 | 2021-04-30 | 一种单声道音频信号的处理方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113347551A CN113347551A (zh) | 2021-09-03 |
CN113347551B true CN113347551B (zh) | 2022-12-20 |
Family
ID=77469566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110486603.7A Active CN113347551B (zh) | 2021-04-30 | 2021-04-30 | 一种单声道音频信号的处理方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113347551B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143699B (zh) * | 2021-10-29 | 2023-11-10 | 北京奇艺世纪科技有限公司 | 一种音频信号处理方法、装置及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6928169B1 (en) * | 1998-12-24 | 2005-08-09 | Bose Corporation | Audio signal processing |
CN110827843A (zh) * | 2018-08-14 | 2020-02-21 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001069597A (ja) * | 1999-06-22 | 2001-03-16 | Yamaha Corp | 音声処理方法及び装置 |
-
2021
- 2021-04-30 CN CN202110486603.7A patent/CN113347551B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6928169B1 (en) * | 1998-12-24 | 2005-08-09 | Bose Corporation | Audio signal processing |
CN110827843A (zh) * | 2018-08-14 | 2020-02-21 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113347551A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108989953B (zh) | 空间上回避通过波束形成扬声器阵列产生的音频 | |
JP6637014B2 (ja) | 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 | |
Blauert | Communication acoustics | |
Avendano et al. | A frequency-domain approach to multichannel upmix | |
KR101456640B1 (ko) | 공간적 출력 다채널 오디오 신호를 결정하기 위한 장치 | |
JP4921470B2 (ja) | 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置 | |
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
US9532156B2 (en) | Apparatus and method for sound stage enhancement | |
Avendano et al. | Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix | |
JP6377249B2 (ja) | オーディオ信号の強化のための装置と方法及び音響強化システム | |
CN105284133B (zh) | 基于信号下混比进行中心信号缩放和立体声增强的设备和方法 | |
JP2019506058A (ja) | 没入型オーディオ再生のための信号合成 | |
RU2601189C2 (ru) | Способ и устройство для разложения стереофонической записи с использованием обработки в частотной области, применяющей генератор спектральных весов | |
JP2001069597A (ja) | 音声処理方法及び装置 | |
Ziemer | Source width in music production. methods in stereo, ambisonics, and wave field synthesis | |
US11212631B2 (en) | Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor | |
CN113347552B (zh) | 一种音频信号处理方法、装置及计算机可读存储介质 | |
CN114067827A (zh) | 一种音频处理方法、装置及存储介质 | |
Politis et al. | Parametric spatial audio processing of spaced microphone array recordings for multichannel reproduction | |
CN113347551B (zh) | 一种单声道音频信号的处理方法、装置及可读存储介质 | |
WO2022014326A1 (ja) | 信号処理装置および方法、並びにプログラム | |
Negru et al. | Automatic Audio Upmixing Based on Source Separation and Ambient Extraction Algorithms | |
CN117998274B (zh) | 音频处理方法、装置及存储介质 | |
CN111919455B (zh) | 分配环境信号到多个环境信号通道的音频信号处理器、系统和方法 | |
Vilkamo et al. | Adaptive optimization of interchannel coherence with stereo and surround audio content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |