CN110827843B - 音频处理方法、装置、存储介质及电子设备 - Google Patents
音频处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110827843B CN110827843B CN201810922856.2A CN201810922856A CN110827843B CN 110827843 B CN110827843 B CN 110827843B CN 201810922856 A CN201810922856 A CN 201810922856A CN 110827843 B CN110827843 B CN 110827843B
- Authority
- CN
- China
- Prior art keywords
- signal
- preset
- processed
- channel signal
- right channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000000926 separation method Methods 0.000 claims abstract description 78
- 230000005236 sound signal Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000005315 distribution function Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频处理方法、装置、存储介质及电子设备。该方法包括:获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号;将预设的左声道信号以及右声道信号,分别与对应声道的人声信号与背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。本申请实施例通过盲源分离模型分离出人声信号与背景声信号,可以降低运算量,提高设备的数据处理速度,且利用分离出的人声信号、背景声信号与原信号进行结合,从而可以获得听觉效果更好的音频信号。
Description
技术领域
本申请属于数据处理领域,尤其涉及一种音频处理方法、装置、存储介质及电子设备。
背景技术
相关技术大多数为音乐的立体声音效算法,主要利用左右声道的差异性,进行简单的相加相减,实现立体声的效果,不能够有效的增加现场录制节目视频中的人声。相关技术的人声提取技术则主要利用了大多数歌曲中人声在左右两声道中基本相同的特点来提取人声,但是现场录制节目中人声的左右两个声道并没有准确对齐,存在一定的延迟,在这种情况下则不能有效的提取人声。而另一种方式是利用听觉场景分析(CASA)技术在对每个声道的信号进行分类,结合音频信号的多种特征(主音高、多次谐波等)来提取人声,但是这种方法提取算法复杂,计算量大。
发明内容
本申请实施例提供一种音频处理方法、装置、存储介质及电子设备,可以提高输出音频的听觉效果。
本申请实施例提供一种音频处理方法,所述方法包括:
获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;
将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号;
将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
本申请实施例提供一种音频处理装置,应用于电子设备,包括:
信号获取模块,用于获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;
信号分离模块,用于将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号;以及
信号合成模块,用于将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
本申请实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的音频处理方法中的步骤。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的音频处理方法中的步骤。
本申请实施例中,将待处理音频数据中的左声道信号以及右声道信号通过盲源分离模型分离出对应声道的人声信号与背景声信号,将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。本申请实施例通过盲源分离模型分离出人声信号与背景声信号,可以降低运算量,提高设备的数据处理速度,且利用分离出的人声信号、背景声信号与原信号进行结合,从而可以获得听觉效果更好的音频信号。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1是本申请实施例提供的音频处理方法的实现流程图。
图2是本申请实施例提供的音频处理方法的流程框架图。
图3是本申请实施例提供的分离信号的流程示意图。
图4是本申请实施例提供的合成信号的流程示意图。
图5是本申请实施例提供的音频处理装置的结构示意图。
图6是本申请实施例提供的信号分离模块的结构示意图。
图7是本申请实施例提供的电子设备的结构示意图。
图8是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。以下将分别进行详细说明。该电子设备可以是智能手机、平板电脑等设备。
本申请实施例中的电子设备,可以包括智能手机(Smart Phone),或者具有无线通信模块的便携式计算机,例如,平板电脑(Tablet Computer)、笔记本电脑(Laptop)等,还可以是穿戴式、手持式的计算机,如智能穿戴设备(Smart wearer)、个人数字助理(PersonalDigital Assistant,PDA)等设备,在此不作限定。
当该方法应用在该电子设备时,其中,该音频处理方法可运行在电子设备的操作系统中,可包括但不限于Windows操作系统、Mac OS操作系统、Android操作系统、IOS操作系统、Linux操作系统、Ubuntu操作系统、Windows Phone操作系统等等,本申请实施例不作限定。本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。以下将分别进行详细说明。
请参阅图1-2,图1是本申请实施例提供的音频处理方法的流程示意图;图2是本申请实施例提供的音频处理方法的流程框架图。
该音频处理方法可以应用于电子设备,该电子设备可以是上述实施例提及的电子设备。该音频处理方法可以包括:
101、获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号。
其中,该待处理音频数据可以是预先存储的数据,也可以是实时获取的数据。
其中,该左声道信号以及右声道信号经处理,可以通过扬声器进行音频播放。
在一些实施例中,该待处理音频数据可以是包含有预先分离好的左声道信号以及右声道信号,或者可以经一定方式将音频信号分离出左声道信号以及右声道信号,声道信号的具体获取方式可以根据实际情况而定。
102、将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号。
盲源分离(BSS:Blind Source Separation),又称为盲信号分离,是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道的混合矩阵。
该盲源分离是将待处理音频数据中的左声道信号以及右声道信号,根据人声和背景声的概率分布函数不同的特点进行最佳估计,使之分离出对应声道的人声信号以及背景声信号。
通过盲源分离的方式,相对于现有技术可以大大减少音频处理过程中产生的计算量,增加设备的处理效率。
103、将预设的左声道信号以及右声道信号,分别与对应声道的人声信号与背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
具体的,对于左声道信号,可以将待处理音频数据中预设的左声道信号,以及左声道信号经过盲源分离所获得的人声信号和背景声信号三种信号进行合成,获得处理后的左声道信号。对于右声道信号,可以参考左声道信号的合成方法,以获得处理后的右声道信号。
在一些实施例中,可以根据不同的权重值对各个参数的信号强度进行配比后再对信号进行合成,可以更好地适应不同的播放场景,使之根据不同需要对信号进行配比后合成以获得相应的效果。
由上可知,将待处理音频数据中的左声道信号以及右声道信号通过盲源分离模型分离出对应声道的人声信号与背景声信号,将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。本申请实施例通过盲源分离模型分离出人声信号与背景声信号,可以降低运算量,提高设备的数据处理速度,且利用分离出的人声信号、背景声信号与原信号进行结合,从而可以获得听觉效果更好的音频信号。
请参阅图3,图中示出了本申请实施例提供的分离信号的流程示意图。
所述将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号,包括:
201、获取左声道信号以及右声道信号的多个预设帧位置。
其中,预设帧位置可以是人工设置的帧位置,也可以是该待处理音频数据按照一定规则自动设定的帧位置,该帧位置的数量以及每两帧之间的间隔时间可以根据实际情况而定。
例如,若该待处理音频数据为一个包含10秒音频的音频文件,可以将每间隔10ms的位置处设置一个帧位置。当然,上述例子仅用于举例说明,还可以是其他设置方式。
在一些实施例中,若以公式表达,第n帧左、右声道信号可以分别为Ln=[l1,l2,l3,…lN]T和Rn=[r1,r2,r3,…rN]T,其中N为帧位置的数,T为转置运算。当然,具体的表达方式可以根据实际情况而定。
202、对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理。
在一些实施例中,对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理,可以使得该左声道信号以及右声道信号变换成频域信号。
在一些实施例中,若第n帧左、右声道信号为Ln=[l1,l2,l3,…lN]T和Rn=[r1,r2,r3,…rN]T,则可以对上述信号进行短时傅里叶变换,可以得到XLn=[xl1,xl2,xl3,…xlf]T和XRn=[xr1,xr2,xr3,…xrf]T,其中f为频点,T为转置运算。
203、将傅里叶变换后获得的信号参数进行分离,获得分离后对应声道的所述人声信号与背景声信号。
当将左声道信号以及右声道信号变换成频域信号后,可以针对该左声道信号以及右声道信号的频域特征,利用人声信号与背景声信号在频域中的概率分布函数不同进行最佳估计,并通过估计结果对人声信号与背景声信号进行分离,从而获得每一帧声道信号的人声信号以及背景声信号。
在一些实施例中,可以将分离的人声和背景声信号分别设为Pn=[p1,p2,p3,…pN]T和Dn=[d1,d2,d3,…dN]T。
由上可知,通过获取帧位置,并将每一帧位置的进行短时傅里叶变换后,将变换获得的频域信号进行分离,可以获得每一帧的较为准确的人声信号以及背景声信号。
在一些实施例中,所述将傅里叶变换后获得的信号参数进行分离,获得分离后对应声道的所述人声信号与背景声信号,包括:
将傅里叶变换后获得的信号参数通过分离矩阵进行分离,所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。
通过牛顿迭代模型所获得的分离矩阵对傅里叶变换后获得的信号参数进行分离,可以利用人声和背景音乐的概率分布函数不同的特点进行最佳估计,以获得更为准确的人声信号以及背景声信号。
在一些实施例中,具体的,分离的人声和背景声信号分别设为Pn=[p1,p2,p3,…pN]T和Dn=[d1,d2,d3,…dN]T,对上述信号做短时傅里叶变换,可以得到XPn=[xp1,xp2,xp3,…xpf]T以及XDn=[xd1,xd2,xd3,…xdf]T。
在一些实施例中,在将傅里叶变换后获得的信号参数通过分离矩阵进行分离之前,该牛顿迭代模型可以通过以下方式获得:
获取初始分离矩阵,将初始分离矩阵通过第一迭代公式计算,获得第一迭代参数,所述第一迭代公式为:
将第一迭代参数通过第二迭代公式计算,获得第二迭代参数,所述第二迭代参数为:Wi f=(Wi f(Wi f)H)1/2Wi f;
将第二迭代参数代入至第一迭代公式,以通过迭代运算获得预设帧位置的分离矩阵;
其中,f为频点,i为迭代次数,E为数学期望,G为非线性求导,H为共轭转置。
通过上述计算方式,可以获得本申请所述的牛顿迭代模型,以利用人声和背景音乐的概率分布函数不同的特点进行最佳估计。
请参阅图4,图中示出了本申请实施例提供的合成信号的流程示意图。
处理后的左声道信号以及右声道信号的合成方式,可以包括:
301、确定待处理音频数据所属的当前场景类别。
其中,通过当前场景类别可以确定特定的音频输出效果。
例如,当前场景类别可以是播放现场录制的节目,或者是播放电影文件,当然,具体当前场景类别是如何设置,均可以根据实际情况而定。
在一些实施例中,确定待处理音频数据所属的当前场景类别,可以提前在待处理音频数据的属性中添加与该数据所属的当前场景类别相关的标识,通过从待处理音频数据的属性中查看相关的标识,可以确定该待处理音频数据所属的当前场景类别。
在另一些实施例中,确定待处理音频数据所属的当前场景类别,还可以是后期人为进行定义。
可以理解的,具体的场景确定方式可以根据场景的不同而进行不同的设定。
302、获取与当前场景类别对应的信号权重值。
其中,信号权重值可以是针对预设的声道信号、该声道信号分离出的人声信号以及背景声信号的其中一个或多个信号进行加权,以调整上述信号在处理后的声道信号中的表现效果。
在一些实施例中,每一当前场景类别可以均有对应的信号权重值,以适应不同当前场景类别所需的音频表现方式。
例如,若当前场景类别是现场录制的节目,可以采用较大的人声信号来突出节目中的人声,使对白音效更加清晰;而在播放电影视频时,可以采用较大的背景声信号来突出背景声,使电影音效效果更加震撼。
303、根据预设的信号权重值对预设的左声道信号,以及左声道的人声信号与背景声信号进行合成,得到处理后的左声道信号。
304、根据预设的信号权重值对预设的右声道信号,以及右声道的人声信号与背景声信号进行合成,得到处理后的右声道信号。
其中,在303以及304中不同的信号可以通过叠加的方式进行合成,还可以是其他合成方式,具体的合成方式可以根据实际情况而定。
在一些实施例中,具体的,所述处理后的左声道信号可以通过以下公式获得:
L'=γ*L+α*D+β*P;
所述处理后的右声道信号可以通过以下公式获得:
R'=γ*R+α*D+β*P;
其中,L'为处理后的左声道信号,R'为处理后的右声道信号,L为预设的左声道信号;R为预设的右声道信号,D为对应声道的人声信号,P为对应声道的背景声信号,γ、α、β为预设的信号权重值,α和β的取值范围为[-1,1]。
由上可知,通过确定待处理音频数据所属的当前场景类别,并根据不同的当前场景类别设定不同信号的信号权重值,可以利用好分离出的人声信号以及背景声信号来合成获得更加符合场景需求的音效,进一步提高音频的听觉效果。
请参阅图5,图中示出了本申请实施例提供的音频处理装置的结构。
该音频处理装置400包括信号获取模块401、信号分离模块402以及信号合成模块403。
信号获取模块401,用于获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号。
其中,该待处理音频数据可以是预先存储的数据,也可以是实时获取的数据。
其中,该左声道信号以及右声道信号经处理,可以通过扬声器进行音频播放。
在一些实施例中,该待处理音频数据可以是包含有预先分离好的左声道信号以及右声道信号,或者可以经一定方式将音频信号分离出左声道信号以及右声道信号,声道信号的具体获取方式可以根据实际情况而定。
信号分离模块402,用于将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信。
盲源分离(BSS:Blind Source Separation),又称为盲信号分离,是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道的混合矩阵。
该盲源分离是将待处理音频数据中的左声道信号以及右声道信号,根据人声和背景声的概率分布函数不同的特点进行最佳估计,使之分离出对应声道的人声信号以及背景声信号。
通过盲源分离的方式,相对于现有技术可以大大减少音频处理过程中产生的计算量,增加设备的处理效率。
信号合成模块403,用于将预设的左声道信号以及右声道信号,分别与对应声道的人声信号与背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
具体的,对于左声道信号,可以将待处理音频数据中预设的左声道信号,以及左声道信号经过盲源分离所获得的人声信号和背景声信号三种信号进行合成,获得处理后的左声道信号。对于右声道信号,可以参考左声道信号的合成方法,以获得处理后的右声道信号。
在一些实施例中,可以根据不同的权重值对各个参数的信号强度进行配比后再对信号进行合成,可以更好地适应不同的播放场景,使之根据不同需要对信号进行配比后合成以获得相应的效果。
由上可知,将待处理音频数据中的左声道信号以及右声道信号通过盲源分离模型分离出对应声道的人声信号与背景声信号,将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。本申请实施例通过盲源分离模型分离出人声信号与背景声信号,可以降低运算量,提高设备的数据处理速度,且利用分离出的人声信号、背景声信号与原信号进行结合,从而可以获得听觉效果更好的音频信号。
请参阅图6,图中示出了本申请实施例提供的信号分离模块的结构。
所述信号分离模块402,包括位置获取子模块4021、信号处理子模块4022以及信号分离子模块4023。
位置获取子模块4021,用于获取左声道信号以及右声道信号的多个预设帧位置。
其中,预设帧位置可以是人工设置的帧位置,也可以是该待处理音频数据按照一定规则自动设定的帧位置,该帧位置的数量以及每两帧之间的间隔时间可以根据实际情况而定。
信号处理子模块4022,用于对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理。
在一些实施例中,对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理,可以使得该左声道信号以及右声道信号变换成频域信号。
信号分离子模块4023,用于将傅里叶变换后获得的信号参数进行分离,获得分离后对应声道的人声信号与背景声信号。
当将左声道信号以及右声道信号变换成频域信号后,可以针对该左声道信号以及右声道信号的频域特征,利用人声信号与背景声信号在频域中的概率分布函数不同进行最佳估计,并通过估计结果对人声信号与背景声信号进行分离,从而获得每一帧声道信号的人声信号以及背景声信号。
在一些实施例中,该信号分离模块402,具体还可以用于:
将傅里叶变换后获得的信号参数通过分离矩阵进行分离,所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。
通过牛顿迭代模型所获得的分离矩阵对傅里叶变换后获得的信号参数进行分离,可以利用人声和背景音乐的概率分布函数不同的特点进行最佳估计,以获得更为准确的人声信号以及背景声信号。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行如本实施例提供的音频处理方法中的步骤。
本申请实施例还提供一种电子设备,包括存储器以及处理器,所述处理器通过调用存储器中存储的计算机程序,用于执行本实施例提供的音频处理方法中的步骤。
例如,上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图7,图7为本申请实施例提供的电子设备的结构示意图。
该电子设备500可以包括处理器501以及存储器502。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器501通过运行存储在存储器502的应用程序,从而执行各种功能应用以及数据处理。
处理器501是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的应用程序,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现步骤:
获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;
将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号;
将所述预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
在一些实施例中,所述处理器501还用于:
获取所述左声道信号以及右声道信号的多个预设帧位置;
对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理;
将所述傅里叶变换后获得的信号参数进行分离,获得分离后对应声道的所述人声信号与背景声信号。
在一些实施例中,所述处理器501还用于:
将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离,所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。
在一些实施例中,所述处理器501还用于:
在一些实施例中,所述处理器501还用于:
获取初始分离矩阵,将所述初始分离矩阵通过第一迭代公式计算,获得第一迭代参数,所述第一迭代公式为:
将所述第一迭代参数通过第二迭代公式计算,获得第二迭代参数,所述第二迭代参数为:Wi f=(Wi f(Wi f)H)1/2Wi f;
将所述第二迭代参数代入至所述第一迭代公式,以通过迭代运算获得所述预设帧位置的分离矩阵;
其中,f为频点,i为迭代次数,E为数学期望,G为非线性求导,H为共轭转置。
在一些实施例中,所述处理器501还用于:
根据预设的信号权重值对所述预设的左声道信号,以及左声道的所述人声信号与所述背景声信号进行合成,得到处理后的左声道信号;
根据预设的信号权重值对所述预设的右声道信号,以及右声道的所述人声信号与所述背景声信号进行合成,得到处理后的右声道信号。
在一些实施例中,所述处理器501还用于:
确定所述待处理音频数据所属的当前场景类别;
获取与所述当前场景类别对应的信号权重值。
在一些实施例中,所述处理器501还用于:
所述处理后的左声道信号可以通过以下公式获得:
L'=γ*L+α*D+β*P;
所述处理后的右声道信号可以通过以下公式获得:
R'=γ*R+α*D+β*P;
其中,L'为处理后的左声道信号,R'为处理后的右声道信号,L为预设的左声道信号;R为预设的右声道信号,D为对应声道的人声信号,P为对应声道的背景声信号,γ、α、β为预设的信号权重值,α和β的取值范围为[-1,1]。
请一并参阅图8,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
该显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
该射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
该音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
该电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图8中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还提供一种存储介质,该存储介质存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行上述任一实施例中的音频处理方法,比如:
获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号;将所述预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的应用页面的启动方法而言,本领域普通测试人员可以理解实现本申请实施例的应用页面的启动方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用页面的启动方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的应用页面的启动装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
本申请实施例提供的所述音频处理装置与上文实施例中的音频处理方法属于同一构思,在所述音频处理装置上可以运行所述音频处理方法实施例中提供的任一方法,其具体实现过程详见所述音频处理方法实施例,此处不再赘述。
需要说明的是,对本申请实施例所述音频处理方法而言,本领域普通技术人员可以理解实现本申请实施例所述音频处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如所述音频处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述音频处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种音频处理方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种音频处理方法,其特征在于,所述方法包括:
获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;
获取所述左声道信号以及右声道信号的多个预设帧位置;
对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理;
将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离,获得分离后对应声道的人声信号与背景声信号,所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得;
确定待处理音频数据所属的当前场景类别,其中,一待处理音频数据对应一场景类别,不同的场景类别对应的信号权重值不同,场景类别包括现场录制的节目或电影文件;
获取与当前场景类别对应的信号权重值;
根据所述信号权重值对所述预设的左声道信号,以及左声道的人声信号与背景声信号进行合成,得到处理后的左声道信号;
根据所述信号权重值对所述预设的右声道信号,以及右声道的人声信号与背景声信号进行合成,得到处理后的右声道信号。
3.如权利要求1所述的音频处理方法,其特征在于,将预设的左声道信号以及右声道信号,分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成,以获得处理后的左声道信号以及右声道信号,包括:
根据预设的信号权重值对所述预设的左声道信号,以及左声道的所述人声信号与所述背景声信号进行合成,得到处理后的左声道信号;
根据预设的信号权重值对所述预设的右声道信号,以及右声道的所述人声信号与所述背景声信号进行合成,得到处理后的右声道信号。
4.如权利要求3所述的音频处理方法,其特征在于:
所述处理后的左声道信号可以通过以下公式获得:
L'=γ*L+α*D+β*P;
所述处理后的右声道信号可以通过以下公式获得:
R'=γ*R+α*D+β*P;
其中,L'为处理后的左声道信号,R'为处理后的右声道信号,L为预设的左声道信号;R为预设的右声道信号,D为对应声道的人声信号,P为对应声道的背景声信号,γ、α、β为预设的信号权重值,α和β的取值范围为[-1,1]。
5.一种音频处理装置,应用于电子设备,其特征在于,包括:
信号获取模块,用于获取待处理音频数据,所述待处理音频数据包括预设的左声道信号以及右声道信号;
信号分离模块,包括位置获取子模块,用于获取所述左声道信号以及右声道信号的多个预设帧位置;
信号处理子模块,用于对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理;以及
信号分离子模块,用于将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离,获得分离后对应声道的人声信号与背景声信号,所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得;以及
信号合成模块,用于确定待处理音频数据所属的当前场景类别,其中,一待处理音频数据对应一场景类别,不同的场景类别对应的信号权重值不同,场景类别包括现场录制的节目或电影文件;获取与当前场景类别对应的信号权重值;根据所述信号权重值对所述预设的左声道信号,以及左声道的人声信号与背景声信号进行合成,得到处理后的左声道信号;根据所述信号权重值对所述预设的右声道信号,以及右声道的人声信号与背景声信号进行合成,得到处理后的右声道信号。
6.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求1至4中任一项所述的方法。
7.一种电子设备,包括存储器及处理器,其特征在于,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至4中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810922856.2A CN110827843B (zh) | 2018-08-14 | 2018-08-14 | 音频处理方法、装置、存储介质及电子设备 |
PCT/CN2019/093850 WO2020034779A1 (zh) | 2018-08-14 | 2019-06-28 | 音频处理方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810922856.2A CN110827843B (zh) | 2018-08-14 | 2018-08-14 | 音频处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827843A CN110827843A (zh) | 2020-02-21 |
CN110827843B true CN110827843B (zh) | 2023-06-20 |
Family
ID=69525111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810922856.2A Active CN110827843B (zh) | 2018-08-14 | 2018-08-14 | 音频处理方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110827843B (zh) |
WO (1) | WO2020034779A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246285A (zh) * | 2020-03-24 | 2020-06-05 | 北京奇艺世纪科技有限公司 | 一种解说视频中声音的分离方法、音量调节方法及装置 |
CN113068056B (zh) * | 2021-03-18 | 2023-08-22 | 广州虎牙科技有限公司 | 音频播放方法、装置、电子设备和计算机可读存储介质 |
CN113347552B (zh) * | 2021-04-30 | 2022-12-20 | 北京奇艺世纪科技有限公司 | 一种音频信号处理方法、装置及计算机可读存储介质 |
CN113347551B (zh) * | 2021-04-30 | 2022-12-20 | 北京奇艺世纪科技有限公司 | 一种单声道音频信号的处理方法、装置及可读存储介质 |
CN114363512B (zh) * | 2021-09-30 | 2023-10-24 | 北京荣耀终端有限公司 | 一种视频处理的方法及相关电子设备 |
CN114615534A (zh) * | 2022-01-27 | 2022-06-10 | 海信视像科技股份有限公司 | 显示设备及音频处理方法 |
CN115394310B (zh) * | 2022-08-19 | 2023-04-07 | 中邮消费金融有限公司 | 一种基于神经网络的背景人声去除方法及系统 |
CN116367076A (zh) * | 2023-03-30 | 2023-06-30 | 潍坊歌尔丹拿电子科技有限公司 | 车辆内音频处理方法、设备及存储介质 |
CN116634350B (zh) * | 2023-07-24 | 2023-10-31 | 荣耀终端有限公司 | 一种音频处理方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104053120A (zh) * | 2014-06-13 | 2014-09-17 | 福建星网视易信息系统有限公司 | 一种立体声音频的处理方法和装置 |
WO2014207874A1 (ja) * | 2013-06-27 | 2014-12-31 | 株式会社東芝 | 電子機器、出力方法およびプログラム |
US9668081B1 (en) * | 2016-03-23 | 2017-05-30 | Htc Corporation | Frequency response compensation method, electronic device, and computer readable medium using the same |
CN107293305A (zh) * | 2017-06-21 | 2017-10-24 | 惠州Tcl移动通信有限公司 | 一种基于盲源分离算法改善录音质量的方法及其装置 |
WO2017219538A1 (zh) * | 2016-06-23 | 2017-12-28 | 乐视控股(北京)有限公司 | 声道数据匹配方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4675177B2 (ja) * | 2005-07-26 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
CN1924992A (zh) * | 2006-09-12 | 2007-03-07 | 东莞市步步高视听电子有限公司 | 一种卡拉ok人声播放方法 |
CN101166317A (zh) * | 2006-10-17 | 2008-04-23 | 智多微电子(上海)有限公司 | 一种为移动设备提供混音功能的方法以及相应装置 |
CN101202043B (zh) * | 2007-12-28 | 2011-06-15 | 清华大学 | 音频信号的编码方法和装置与解码方法和装置 |
JP5737808B2 (ja) * | 2011-08-31 | 2015-06-17 | 日本放送協会 | 音響処理装置およびそのプログラム |
CN104010264B (zh) * | 2013-02-21 | 2016-03-30 | 中兴通讯股份有限公司 | 双声道音频信号处理的方法和装置 |
FR3013885B1 (fr) * | 2013-11-28 | 2017-03-24 | Audionamix | Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange |
CN104409079A (zh) * | 2014-11-03 | 2015-03-11 | 北京有恒斯康通信技术有限公司 | 一种音频叠加的方法和装置 |
CN104408025A (zh) * | 2014-11-19 | 2015-03-11 | 天津大学 | 基于频谱校正的超定盲信号分离方法及其装置 |
CN105630336A (zh) * | 2014-11-28 | 2016-06-01 | 深圳市腾讯计算机系统有限公司 | 音量控制方法和装置 |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
CN104735528A (zh) * | 2015-03-02 | 2015-06-24 | 青岛海信电器股份有限公司 | 一种音效匹配方法及装置 |
CN104811864B (zh) * | 2015-04-20 | 2018-11-13 | 深圳市冠旭电子股份有限公司 | 一种自适应调节音效的方法及系统 |
CN106024005B (zh) * | 2016-07-01 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
CN106658219A (zh) * | 2016-12-29 | 2017-05-10 | 微鲸科技有限公司 | 一种音效设置方法及系统 |
CN107195288A (zh) * | 2017-07-19 | 2017-09-22 | 无锡冰河计算机科技发展有限公司 | 一种助唱方法及系统 |
CN107705778B (zh) * | 2017-08-23 | 2020-09-15 | 腾讯音乐娱乐(深圳)有限公司 | 音频处理方法、装置、存储介质以及终端 |
-
2018
- 2018-08-14 CN CN201810922856.2A patent/CN110827843B/zh active Active
-
2019
- 2019-06-28 WO PCT/CN2019/093850 patent/WO2020034779A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207874A1 (ja) * | 2013-06-27 | 2014-12-31 | 株式会社東芝 | 電子機器、出力方法およびプログラム |
CN104053120A (zh) * | 2014-06-13 | 2014-09-17 | 福建星网视易信息系统有限公司 | 一种立体声音频的处理方法和装置 |
US9668081B1 (en) * | 2016-03-23 | 2017-05-30 | Htc Corporation | Frequency response compensation method, electronic device, and computer readable medium using the same |
WO2017219538A1 (zh) * | 2016-06-23 | 2017-12-28 | 乐视控股(北京)有限公司 | 声道数据匹配方法及装置 |
CN107293305A (zh) * | 2017-06-21 | 2017-10-24 | 惠州Tcl移动通信有限公司 | 一种基于盲源分离算法改善录音质量的方法及其装置 |
Non-Patent Citations (2)
Title |
---|
Geometric multichannel common signal separation with application to music and effects extraction from film soundtracks;Burred;《2011 IEEE International Conference on Acoustics,Speech and Signal Processing》;第201-204页 * |
多应用场景聚合的视频会议系统设计与技术研究;王远丰;《中国优秀硕士学位论文全文数据库》;第15-37页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020034779A1 (zh) | 2020-02-20 |
CN110827843A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827843B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
EP3614383A1 (en) | Audio data processing method and apparatus, and storage medium | |
US20200258517A1 (en) | Electronic device for providing graphic data based on voice and operating method thereof | |
US20210350545A1 (en) | Image processing method and apparatus, and hardware apparatus | |
EP3839949A1 (en) | Audio signal processing method and device, terminal and storage medium | |
CN107871494B (zh) | 一种语音合成的方法、装置及电子设备 | |
CN106558314B (zh) | 一种混音处理方法和装置及设备 | |
US20190013020A1 (en) | Electronic device-awakening method and apparatus, device and computer-readable storage medium | |
CN113556604B (zh) | 音效调节方法、装置、计算机设备和存储介质 | |
EP4207195A1 (en) | Speech separation method, electronic device, chip and computer-readable storage medium | |
WO2022017006A1 (zh) | 视频处理方法、装置、终端设备及计算机可读存储介质 | |
WO2022148319A1 (zh) | 视频切换方法、装置、存储介质及设备 | |
CN117153181B (zh) | 语音降噪方法、设备及存储介质 | |
WO2022267468A1 (zh) | 一种声音处理方法及其装置 | |
CN114879929A (zh) | 多媒体文件播放方法及其装置 | |
CN111615045B (zh) | 音频处理方法、装置、设备及存储介质 | |
US20210191685A1 (en) | Spatial characteristics of multi-channel source audio | |
CN116668892B (zh) | 音频信号的处理方法、电子设备及可读存储介质 | |
CN105468196A (zh) | 拍照装置及方法 | |
CN109215688A (zh) | 同场景音频处理方法、装置、计算机可读存储介质及系统 | |
CN112863537B (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN114996515A (zh) | 视频特征提取模型的训练方法、文本生成方法及装置 | |
CN112307161B (zh) | 用于播放音频的方法和装置 | |
CN113056908B (zh) | 视频字幕合成方法、装置、存储介质及电子设备 | |
CN113056784A (zh) | 语音信息的处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |