CN117727311A - 音频处理方法及装置、电子设备及计算机可读存储介质 - Google Patents

音频处理方法及装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117727311A
CN117727311A CN202310456931.1A CN202310456931A CN117727311A CN 117727311 A CN117727311 A CN 117727311A CN 202310456931 A CN202310456931 A CN 202310456931A CN 117727311 A CN117727311 A CN 117727311A
Authority
CN
China
Prior art keywords
noise
audio
target
signal processing
gains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310456931.1A
Other languages
English (en)
Inventor
武倩平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuhang Technology Beijing Co ltd
Original Assignee
Shuhang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuhang Technology Beijing Co ltd filed Critical Shuhang Technology Beijing Co ltd
Priority to CN202310456931.1A priority Critical patent/CN117727311A/zh
Publication of CN117727311A publication Critical patent/CN117727311A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频处理方法及装置、电子设备及计算机可读存储介质。该方法包括:获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;获取所述第二非噪声信号的第二非噪声增益;基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。

Description

音频处理方法及装置、电子设备及计算机可读存储介质
技术领域
本申请涉及音频处理技术领域,尤其涉及一种音频处理方法及装置、电子设备及计算机可读存储介质。
背景技术
为提高音频的质量,通常需要使用信号处理算法对音频进行处理,这样信号处理算法对音频的处理效果将直接决定处理后的音频的质量。因此,评估信号处理算法对音频的处理效果具有非常重要的意义。
在目前的技术中,通常是直接根据信号处理算法处理前的音频的质量与经信号处理算法处理后的音频的质量,评估信号处理算法对音频的处理效果,如基于处理前的音频的信噪比和处理后的音频的信噪比的差异,评估音频处理算法的处理效果。但通过该种方法确定的评估结果的准确度低。
发明内容
本申请提供一种音频处理方法及装置、电子设备及计算机可读存储介质。
第一方面,提供了一种音频处理方法,所述方法包括:
获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;
根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;
获取所述第二非噪声信号的第二非噪声增益;
基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。
结合本申请任一实施方式,所述根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益,包括:
将所述目标音频分为n段第一音频帧;
根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,作为所述第一非噪声增益,所述第三非噪声增益与所述第一音频帧一一对应。
结合本申请任一实施方式,所述获取目标音频,包括:
获取所述目标信号处理算法、所述第二非噪声信号和原始噪声信号;
对所述第二非噪声信号和所述原始噪声信号进行融合,得到所述原始音频;
使用所述目标信号处理算法对所述原始音频进行处理,得到所述目标音频。
结合本申请任一实施方式,所述将所述目标音频分为n段第一音频帧,包括:
对所述目标音频与所述第二非噪声信号进行对齐,得到已对齐目标音频;
将所述已对齐目标音频分为n段音频帧,得到所述n段第一音频帧。
结合本申请任一实施方式,所述原始音频包括n段第二音频帧,所述第一音频帧与所述第二音频帧一一对应;所述第二非噪声增益包括n个第四非噪声增益,所述n个第四非噪声增益为所述n段第二音频帧中的非噪声信号的增益;
所述基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,包括:
分别确定所述n个第三非噪声增益与所述n个第四非噪声增益中相对应的两个增益的差值,得到n个第一差值;
根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标。
结合本申请任一实施方式,所述非噪声信号处理指标包括失真指标,所述失真指标越大,表征所述目标信号处理算法对音频中的非噪声信号的损伤越大;
所述根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标,包括:
根据所述n个第一差值确定所述失真指标。
结合本申请任一实施方式,所述目标音频还包括目标噪声信号;在所述将所述目标音频分为n段第一音频帧之后,所述方法还包括:
根据所述n段第一音频帧,确定所述n段第一音频帧中的所述目标噪声信号的增益,得到n个第一噪声增益,所述第一噪声增益与所述第一音频帧一一对应;
根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,所述降噪指标表征所述目标信号处理算法对音频中的噪声信号的去除效果。
结合本申请任一实施方式,所述原始音频还包括原始噪声信号,所述降噪指标包括噪声信号抑制指标,所述噪声信号抑制指标越大,表征所述目标信号处理算法对音频中的噪声信号的抑制越大;
所述根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,包括:
获取所述n段第二音频帧中的所述原始噪声信号的n个第二噪声增益,所述第二噪声增益与所述第二音频帧一一对应;
分别确定所述n个第一噪声增益与所述n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值;
根据所述n个第二差值,确定所述噪声信号抑制指标。
结合本申请任一实施方式,所述降噪指标包括噪声信号残留指标,所述噪声信号残留指标越大,表征经所述目标信号处理算法对音频处理后,音频中残留的噪声信号越多;
所述根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,包括:
根据所述n个第一噪声增益确定所述噪声信号残留指标。
结合本申请任一实施方式,在得到所述n个第二差值之后,所述方法还包括:
确定所述n个第二差值中时间戳相邻的两个差值的差得到第三差值;
根据所述第三差值确定所述目标信号处理算法的稳定性指标,所述第三差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,在得到n个第一差值之后,所述方法还包括:
确定所述n个第一差值中时间戳相邻的两个差值的差得到第四差值;
根据所述第四差值确定所述目标信号处理算法的稳定性指标,所述第四差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,在所述根据所述第三差值确定所述目标信号处理算法的稳定性之后,所述方法还包括:
对所述非噪声信号处理指标、所述降噪指标和所述稳定性指标进行融合,得到所述目标信号处理算法的目标评价指标;
获取目标映射关系,所述目标映射关系表征评价指标与音频的评价分数的映射;
根据所述目标映射关系和所述目标评价指标,确定所述目标音频的目标评价分数,所述目标评价分数表征所述目标音频的音质。
结合本申请任一实施方式,所述n段第一音频帧包括第三音频帧,所述n个第三非噪声增益包括与所述第三音频帧对应的第五非噪声增益;
所述根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,包括:
对所述第三音频帧进行傅里叶变换,得到m个频点;
确定m个频点的非噪声信号的增益得到m个第六非噪声增益,所述第六非噪声增益均与所述频点一一对应;
根据所述m个第六非噪声增益,得到所述第五非噪声增益。
结合本申请任一实施方式,所述目标信号处理算法包括:音频的降噪算法、音频的编解码算法。
第二方面,提供了一种音频处理装置,所述装置包括:
获取单元,用于获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;
处理单元,用于根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;
所述获取单元,还用于获取所述第二非噪声信号的第二非噪声增益;
确定单元,用于基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。
结合本申请任一实施方式,所述处理单元,用于:
将所述目标音频分为n段第一音频帧;
根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,作为所述第一非噪声增益,所述第三非噪声增益与所述第一音频帧一一对应。
结合本申请任一实施方式,所述获取单元,用于:
获取所述目标信号处理算法、所述第二非噪声信号和原始噪声信号;
对所述第二非噪声信号和所述原始噪声信号进行融合,得到所述原始音频;
使用所述目标信号处理算法对所述原始音频进行处理,得到所述目标音频。
结合本申请任一实施方式,所述处理单元,用于:
对所述目标音频与所述第二非噪声信号进行对齐,得到已对齐目标音频;
将所述已对齐目标音频分为n段音频帧,得到所述n段第一音频帧。
结合本申请任一实施方式,所述原始音频包括n段第二音频帧,所述第一音频帧与所述第二音频帧一一对应;所述第二非噪声增益包括n个第四非噪声增益,所述n个第四非噪声增益为所述n段第二音频帧中的非噪声信号的增益;
所述确定单元,用于:
分别确定所述n个第三非噪声增益与所述n个第四非噪声增益中相对应的两个增益的差值,得到n个第一差值;
根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标。
结合本申请任一实施方式,所述非噪声信号处理指标包括失真指标,所述失真指标越大,表征所述目标信号处理算法对音频中的非噪声信号的损伤越大;
所述确定单元,用于:
根据所述n个第一差值确定所述失真指标。
结合本申请任一实施方式,所述目标音频还包括目标噪声信号;所述确定单元,还用于:
根据所述n段第一音频帧,确定所述n段第一音频帧中的所述目标噪声信号的增益,得到n个第一噪声增益,所述第一噪声增益与所述第一音频帧一一对应;
根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,所述降噪指标表征所述目标信号处理算法对音频中的噪声信号的去除效果。
结合本申请任一实施方式,所述原始音频还包括原始噪声信号,所述降噪指标包括噪声信号抑制指标,所述噪声信号抑制指标越大,表征所述目标信号处理算法对音频中的噪声信号的抑制越大;
所述确定单元,用于:
获取所述n段第二音频帧中的所述原始噪声信号的n个第二噪声增益,所述第二噪声增益与所述第二音频帧一一对应;
分别确定所述n个第一噪声增益与所述n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值;
根据所述n个第二差值,确定所述噪声信号抑制指标。
结合本申请任一实施方式,所述降噪指标包括噪声信号残留指标,所述噪声信号残留指标越大,表征经所述目标信号处理算法对音频处理后,音频中残留的噪声信号越多;
所述确定单元,用于:
根据所述n个第一噪声增益确定所述噪声信号残留指标。
结合本申请任一实施方式,所述确定单元,还用于:
确定所述n个第二差值中时间戳相邻的两个差值的差得到第三差值;
根据所述第三差值确定所述目标信号处理算法的稳定性指标,所述第三差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,所述确定单元,还用于:
确定所述n个第一差值中时间戳相邻的两个差值的差得到第四差值;
根据所述第四差值确定所述目标信号处理算法的稳定性指标,所述第四差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,所述处理单元,还用于对所述非噪声信号处理指标、所述降噪指标和所述稳定性指标进行融合,得到所述目标信号处理算法的目标评价指标;
所述获取单元,还用于获取目标映射关系,所述目标映射关系表征评价指标与音频的评价分数的映射;
所述确定单元,还用于根据所述目标映射关系和所述目标评价指标,确定所述目标音频的目标评价分数,所述目标评价分数表征所述目标音频的音质。
结合本申请任一实施方式,所述n段第一音频帧包括第三音频帧,所述n个第三非噪声增益包括与所述第三音频帧对应的第五非噪声增益;
所述处理单元,用于:
对所述第三音频帧进行傅里叶变换,得到m个频点;
确定m个频点的非噪声信号的增益得到m个第六非噪声增益,所述第六非噪声增益均与所述频点一一对应;
根据所述m个第六非噪声增益,得到所述第五非噪声增益。
结合本申请任一实施方式,所述目标信号处理算法包括:音频的降噪算法、音频的编解码算法。
第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
因为目标音频为原始音频经过目标信号处理算法处理后的音频,目标音频包括第一非噪声信号,原始音频包括第二非噪声信号,所以第一非噪声信号是第二非噪声信号经过目标信号处理算法处理得到的。由于目标信号处理算法在对原始音频进行处理的过程中,可能会对原始音频中的第二非噪声信号进行处理,进而导致第二非噪声信号的增益发生变化,故第一非噪声增益与第二非噪声增益可能存在差异,而且该差异是由于目标信号处理算法的处理而产生的。因此,在本申请实施例中,音频处理装置在获取目标音频后,根据目标音频得到第一非噪声信号的第一非噪声增益,然后在获取第二非噪声信号的第二非噪声增益后,可基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标。
而且由于基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标,未涉及目标音频中的噪声信号和原始的噪声信号,通过该种方法确定目标信号处理算法的非噪声信号处理指标,可降低噪声信号的干扰,进而可提高非噪声信号处理指标的准确度,从而基于非噪声信号处理指标评估目标信号处理算法的处理效果,可提高评估结果的准确度。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种信号处理算法对音频进行处理的示意图;
图2为本申请实施例提供的一种音频处理方法的流程示意图;
图3为本申请实施例提供的另一种音频处理方法的流程示意图;
图4为本申请实施例提供的一种音频处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为提高音频的质量,通常需要使用信号处理算法对音频进行处理,这样信号处理算法对音频的处理效果将直接决定处理后的音频的质量。因此,评估信号处理算法对音频的处理效果具有非常重要的意义。
在目前的技术中,通常是直接根据信号处理算法处理前的音频的质量与经信号处理算法处理后的音频的质量,评估信号处理算法对音频的处理效果。但音频包括非噪声信号和噪声信号,而信号处理算法对音频进行处理,既会处理非噪声信号也会处理噪声信号,且目前的技术未分析音频中的组成,因此若基于目前的技术评估信号处理算法对音频的处理效果,将无法确定信号处理算法对非噪声信号的处理效果以及噪声信号的处理效果,进而导致评估结果的准确度低。
例如,在目前的技术中,常通过客观语音质量评估(perceptual evaluation ofspeech quality,PESQ)评估音频处理算法的处理效果。具体的,在获取非噪声信号和噪声信号后,通过将非噪声信号和噪声信号融合得到处理前的音频,使用信号处理算法对处理前的音频进行处理得到处理后的音频,最后根据处理后的音频与非噪声信号的差异确定信号处理算法的对处理前的音频的处理效果,显然,该种评估方式未分析音频中的成分,进而难以评估信号处理算法对处理前的音频中的噪声信号的去除效果以及信号处理算法对处理前的音频中的非噪声信号是否有损伤,从而导致评估结果的准确度低。
又例如,图1示出了信号处理算法对音频进行处理的示意图。如图1所示,合成音频由语音信号(即非噪声信号)和噪声信号组成,经信号处理算法对合成音频进行信号处理得到的结果音频(评估音频)也由非噪声信号(即语音信号)和噪声信号组成。
具体的,通过将语音信号与噪声信号融合可得到合成音频,其中,合成音频的信噪比为6dB,合成音频可表示为:y(合成音频)=2×S+N,其中,S表示非噪声信号,N表示噪声信号。经信号处理算法处理得到的结果音频的信噪比提升至12dB,结果音频可表示为:Y(合成音频)=2×S+0.5×N,其中,S表示非噪声信号,N表示噪声信号。
也就是说,信噪比的提升是由于将噪声的增益减小而产生的,而且信号处理算法对合成音频的处理未损伤合成音频中的非噪声信号(即语音信号)。若基于目前的技术评估信号处理算法的处理效果,只能确定信号处理算法可提升信噪比,但无法确定信号处理算法对非噪声信号的处理效果以及对噪声信号的处理效果。
基于此,本申请实施例提供了一种音频处理方法,以确定信号处理算法对非噪声信号的处理效果以及对噪声信号的处理效果。
本申请实施例的执行主体为音频处理装置,其中,音频处理装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的,音频处理装置可以是以下中的一种:计算机、服务器。
应理解,本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图2,图2是本申请实施例提供的一种音频处理方法的流程示意图。
201、获取目标音频。
本申请实施例中,目标音频为原始音频经过目标信号处理算法处理后得到的音频,其中,原始音频可以是任意一段音频。例如,原始音频为一段语音,又例如,原始音频为视频中的一段音频,再例如,原始音频为一段音乐。目标信号处理算法可以是任意用于对音频进行处理的算法,例如,目标信号处理算法为对音频进行降噪处理的算法,又例如,目标信号处理算法为音频的编解码算法,即目标信号处理算法可用于对音频进行编码和解码。
本申请实施例中,非噪声信号(包括下文将要提及的第一非噪声信号、第二非噪声信号和第二非噪声信号),为音频中除噪声信号之外的信号。目标音频包括第一非噪声信号,原始音频包括第二非噪声信号,即目标音频中除噪声信号之外的信号为第一非噪声信号,原始音频中除噪声信号之外的信号为第二非噪声信号。由于目标音频为使用目标信号处理算法对原始音频进行处理得到的音频,而目标信号处理算法在对原始音频进行处理的过程中,会对原始音频中的非噪声信号进行处理,故第一非噪声信号为第二非噪声信号经过目标信号处理算法处理得到的结果。
在一种可能实现的方式中,音频处理装置获取目标信号处理算法、第二非噪声信号和原始噪声信号。对第二非噪声信号和原始噪声信号进行融合,得到原始音频。可选的,音频处理装置根据目标信噪比,对第二非噪声信号和原始噪声信号进行融合得到原始音频。在原始音频中,第二非噪声信号的强度与原始噪声信号的强度的比值为目标信噪比,即第二非噪声信号的幅值与原始噪声信号的幅值的比值为目标信噪比。使用目标信号处理算法对原始音频进行处理,得到目标音频。
在另一种获取目标音频的实现方式中,音频处理装置接收用户通过输入组件输入的目标音频获取目标音频。上述输入组件包括以下至少一种:键盘、鼠标、触控屏、触控板、音频输入器。
在又一种获取目标音频的实现方式中,音频处理装置接收终端发送的目标音频获取目标音频。上述终端可以是以下任意一种:手机、计算机、平板电脑、服务器。
在又一种获取目标音频的实现方式中,音频处理装置在获取到原始音频和目标信号处理算法的情况下,使用目标信号处理算法对原始音频进行处理得到目标音频。
202、根据上述目标音频,得到上述第一非噪声信号的第一非噪声增益。
本申请实施例中,非噪声增益(包括上述第一非噪声增益,以及下文将要提及的第二非噪声增益、第三非噪声增益、第四非噪声增益、第五非噪声增益、第六非噪声增益)均为音频中的非噪声信号的幅值的增益。具体的,音频包括非噪声信号和噪声信号,且音频=a×非噪声信号+b×噪声信号,其中,a为非噪声增益,b为噪声信号的增益。
在一种可能实现的方式中,音频处理装置通过对目标音频进行傅里叶变换,得到目标音频的至少一个频点。根据目标音频的至少一个频点的幅值和目标音频的至少一个频点的相位,得到第一非噪声信号的第一非噪声增益。
203、获取上述第二非噪声信号的第二非噪声增益。
本申请实施例中,第二非噪声信号的增益称为第二非噪声增益。在一种获取第二非噪声增益的实现方式中,音频处理装置接收用户通过输入组件输入的第二非噪声增益获取第二非噪声增益。
在另一种获取第二非噪声增益的实现方式中,音频处理装置接收终端发送的第二非噪声增益获取第二非噪声增益。
在又一种获取第二非噪声增益的实现方式中,音频处理装置在获取到原始音频的情况下,根据原始音频,得到第二非噪声信号的第二非噪声增益。
204、基于上述第一非噪声增益和上述第二非噪声增益的差异,确定上述目标信号处理算法的非噪声信号处理指标。
本申请实施例中,非噪声信号处理指标表征目标信号处理算法对音频中的非噪声信号的处理效果。在一种可能实现的方式中,目标信号处理算法对音频中的非噪声信号的处理效果包括失真指标,其中,失真指标表征目标信号处理算法对音频中的非噪声信号的损伤,具体的,失真指标越大表征目标信号处理算法对音频中的非噪声信号的损伤越大。
由于目标信号处理算法对原始音频进行处理可能会损伤原始音频中的第二非噪声信号,进而导致第二非噪声信号的增益发生变化,而第一非噪声信号是第二非噪声信号经过目标信号处理算法处理得到的,故第一非噪声增益与第二非噪声增益可能存在差异,且该差异是由于目标信号处理算法的处理而产生的。因此,音频处理装置基于第一非噪声增益和第二非噪声增益的差异可确定失真指标。具体的,音频处理装置确定第一非噪声增益与第二非噪声增益的第五差值,在第五差值为负数的情况下确定目标信号处理算法会损伤音频中的非噪声信号,且第五差值越小表征目标信号处理算法对音频中的非噪声信号的损伤越大,因此音频处理装置可根据第五差值确定失真指标。
在另一种可能实现的方式中,目标信号处理算法对音频中的非噪声信号的处理效果包括增强指标,其中,增强指标表征目标信号处理算法对音频中的非噪声信号的增强,具体的,增强指标越大表征目标信号处理算法对音频中的非噪声信号的增强越大。具体的,音频处理装置确定第一非噪声增益与第二非噪声增益的第五差值,在第五差值为正数的情况下确定目标信号处理算法可增强音频中的非噪声信号,且第五差值越大表征目标信号处理算法对音频中的非噪声信号的增强的程度越大,因此音频处理装置可根据第五差值确定增强指标。
因为目标音频为原始音频经过目标信号处理算法处理后的音频,目标音频包括第一非噪声信号,原始音频包括第二非噪声信号,所以第一非噪声信号是第二非噪声信号经过目标信号处理算法处理得到的。由于目标信号处理算法在对原始音频进行处理的过程中,可能会对原始音频中的第二非噪声信号进行处理,进而导致第二非噪声信号的增益发生变化,故第一非噪声增益与第二非噪声增益可能存在差异,而且该差异是由于目标信号处理算法的处理而产生的。因此,在本申请实施例中,音频处理装置在获取目标音频后,根据目标音频得到第一非噪声信号的第一非噪声增益,然后在获取第二非噪声信号的第二非噪声增益后,可基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标。
而且由于基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标,未涉及目标音频中的噪声信号和原始的噪声信号,通过该种方法确定目标信号处理算法的非噪声信号处理指标,可降低噪声信号的干扰,进而可提高非噪声信号处理指标的准确度,从而基于非噪声信号处理指标评估目标信号处理算法的处理效果,可提高评估结果的准确度。
作为一种可选的实施方式,音频处理装置在执行步骤202的过程中执行以下步骤:
301、将上述目标音频分为n段第一音频帧。
本申请实施例中,n为大于1的整数。音频处理装置通过将目标音频分为n段,可得到段第一音频帧。
在一种可能实现的方式中,音频处理装置对目标音频与第二非噪声信号进行对齐,得到已对齐目标音频,这样可使目标音频与第二非噪声信号中的相同音素对齐。将已对齐目标音频分为n段音频帧,得到上述n段第一音频帧。
302、根据上述n段第一音频帧,得到上述n段第一音频帧中的非噪声信号的n个第三非噪声增益,作为上述第一非噪声增益。
本申请实施例中,第三非噪声增益为第一音频帧的非噪声增益,且第三非噪声增益与第一音频帧一一对应。在一种可能实现的方式中,音频处理装置通过对第一音频帧进行傅里叶变换,得到第一音频帧的至少一个频点。根据第一音频帧的至少一个频点的幅值和第一音频帧的至少一个频点的相位,得到第一音频帧的第三非噪声增益。音频处理装置可根据n段第一音频帧,分别得到各段第一音频帧的第三非噪声增益,进而得到n个第三非噪声增益。
具体的,n段第一音频帧包括第三音频帧,其中,第三音频帧为n段第一音频帧中的任意一个,n个第三非噪声增益包括与第三音频帧对应的第五非噪声增益。音频处理装置通过执行以下步骤确定第三音频帧的第五非噪声增益:对第三音频帧进行傅里叶变换,得到第三音频帧的m个频点,其中,m为正整数。确定m个频点的非噪声信号的增益得到m个第六非噪声增益,其中,第六非噪声增益均与第三音频帧的频点一一对应。根据m个第六非噪声增益,得到第五非噪声增益。
音频处理装置在得到n个第三非噪声增益后,将n个第三非噪声增益作为第一非噪声增益,即第一非噪声增益包括n个第三非噪声增益。
在该种实施方式中,音频处理装置首先将目标音频分为n段第一音频帧,然后分别确定每段第一音频帧的第三非噪声增益得到n个第三非噪声增益,最后将n个第三非噪声增益作为第一非噪声增益,由此可提高得到第一非噪声增益的速度。
作为一种可选的实施方式,原始音频包括n段第二音频帧,其中,第一音频帧与第二音频帧一一对应,即具有对应关系的第一音频帧与第二音频帧包括相同的音素。第二非噪声增益包括n个第四非噪声增益,其中,n个第四非噪声增益为n段第二音频帧中的非噪声信号的增益,且第四非噪声增益与第二音频帧一一对应。
在该种实施方式中,音频处理装置在执行步骤204的过程中执行以下步骤:
401、分别确定上述n个第三非噪声增益与上述n个第四非噪声增益中相对应的两个增益的差值,得到n个第一差值。
本申请实施例中,n个第三非噪声增益与n个第四非噪声增益中相对应的两个增益,指第三非噪声增益所对应的第一音频帧与第四非噪声增益所对应的第二音频帧对应。例如,n段第一音频帧包括第一音频帧a,n段第二音频帧中与第一音频帧a对应的音频帧为第二音频帧b,那么第一音频帧a的第三非噪声增益与第二音频帧b的第四非噪声增益为相对应的两个增益。
音频处理装置确定n个第三非噪声增益与n个第四非噪声增益中相对应的两个增益的差值可得到一个第一差值,即确定第三非噪声增益减去相对应的第四非噪声增益的结果得到一个第一差值。音频处理装置分别确定所有相对应的两个增益的差值可得到n个第一差值。
402、根据上述n个第一差值,确定上述目标信号处理算法的非噪声信号处理指标。
第一差值为相对应的两个非噪声增益的差值,即第一差值可表征目标音频中的非噪声信号与原始音频中的非噪声信号的差异。而如前文所述,目标音频中的非噪声信号与原始音频中的非噪声信号的差异是由于目标信号处理算法的处理而产生的,具体而言,该差异是由于目标信号处理算法对原始音频中的非噪声信号进行处理而产生的。因此,音频处理装置可根据n个第一差值,确定目标信号处理算法对原始音频中的非噪声信号的处理效果。
本申请实施例中,非噪声信号处理指标表征目标信号处理算法对原始音频中的非噪声信号的处理效果。在一种可能实现的方式中,非噪声信号处理指标包括失真指标,其中,失真指标越大,表征目标信号处理算法对音频中的非噪声信号的损伤越大。此时,若第三非噪声增益小于第四非噪声增益,说明目标信号处理算法对原始音频中的非噪声信号有损伤,即目标对音频中的非噪声信号有损伤,而且第一差值越大说明目标信号处理算法对音频中的非噪声信号的损伤越大。
音频处理装置通过对n个第一差值进行求平均得到第一平均值,在第一平均值小于0的情况下,根据第一平均值确定目标信号处理算法的非噪声信号处理指标,其中,第一平均值越小,非噪声信号处理指标表征目标信号处理算法对音频中的非噪声信号的损伤越大。
在该种实施方式中,音频处理装置在分别确定n个第三非噪声增益与n个第四非噪声增益中相对应的两个增益的差值得到n个第一差值后,根据n个第一差值确定目标信号处理算法的非噪声信号处理指标,可提高非噪声信号处理指标的准确度。
作为一种可选的实施方式,目标音频还包括目标噪声信号,音频处理装置在将目标音频分为n段第一音频帧之后,还执行以下步骤:
501、根据上述n段第一音频帧,确定上述n段第一音频帧中的噪声信号的增益,得到n个第一噪声增益。
本申请实施例中,第一噪声增益为第一音频帧的噪声增益,具体而言,第一噪声增益为每段第一音频帧中的目标噪声信号的增益,第一噪声增益与第一音频帧一一对应。在一种可能实现的方式中,音频处理装置通过对第一音频帧进行傅里叶变换,得到第一音频帧的至少一个频点。根据第一音频帧的至少一个频点的幅值和第一音频帧的至少一个频点的相位,得到第一音频帧的第一噪声增益。音频处理装置可根据n段第一音频帧,分别得到各段第一音频帧的第一噪声增益,进而得到n个第一噪声增益。
502、根据上述n个第一噪声增益,确定上述目标信号处理算法的降噪指标。
本申请实施例中,降噪指标表征目标信号处理算法对音频中的噪声信号的去除效果。在一种可能实现的方式中,降噪指标包括噪声残留指标,其中,噪声信号残留指标越大,表征经目标信号处理算法对音频处理后,音频中残留的噪声信号越多。
由于第一噪声增益可表征目标音频中的目标噪声信号的强度,而目标音频为经过目标信号处理算法得到的音频,故根据第一噪声增益可确定经目标信号处理算法处理得到的音频中的噪声信号的残留。因此,音频处理装置可根据n个第一噪声增益确定噪声信号残留指标,可选的,音频处理装置确定n个第一噪声增益的平均值得到第二平均值,根据第二平均值确定目标信号处理算法的噪声信号残留指标,其中,第二平均值与噪声信号残留指标呈正相关。
在另一种可能实现的方式中,降噪指标包括噪声信号抑制指标,其中,噪声信号抑制指标越大,表征目标信号处理算法对音频中的噪声信号的抑制越大。在该种实现方式中,原始音频还包括原始噪声信号,此时,每段第二音频帧均包括噪声信号。音频处理装置获取n段第二音频帧中的原始噪声信号的n个第二噪声增益,其中,第二噪声增益为每段第二音频帧中的原始噪声信号的增益,第二噪声增益与第二音频帧一一对应。可选的,音频处理装置通过对第二音频帧进行傅里叶变换,得到第二音频帧的至少一个频点。根据第二音频帧的至少一个频点的幅值和第二音频帧的至少一个频点的相位,得到第二音频帧中的噪声信号的第二噪声增益。
音频处理装置分别确定n个第一噪声增益与n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值。本申请实施例中,n个第一噪声增益与n个第二噪声增益中相对应的两个增益,指第一噪声增益所对应的第一音频帧与第二噪声增益所对应的第二音频帧对应。例如,n段第一音频帧包括第一音频帧a,n段第二音频帧中与第一音频帧a对应的音频帧为第二音频帧b,那么第一音频帧a的第一噪声增益与第二音频帧b的第二噪声增益为相对应的两个增益。音频处理装置确定n个第一噪声增益与n个第二噪声增益中相对应的两个增益的差值可得到一个第二差值,即确定第一非噪声增益减去相对应的第二噪声增益的结果得到一个第二差值。音频处理装置分别确定所有相对应的两个增益的差值可得到n个第二差值。
第二差值为相对应的两个噪声增益的差值,即第二差值可表征目标音频中的噪声信号与原始音频中的噪声信号的差异。而如前文所述,目标音频中的噪声信号与原始音频中的噪声信号的差异是由于目标信号处理算法的处理而产生的,具体而言,该差异是由于目标信号处理算法对原始音频中的噪声信号进行处理而产生的。因此,音频处理装置可根据n个第二差值,确定目标信号处理算法对原始音频中的噪声信号的抑制效果,即音频处理装置可根据n个第二差值,确定噪声信号抑制指标。
在一种可能实现的方式中,音频处理装置通过对n个第二差值进行求平均得到第三平均值,第三平均值越小,表征目标信号处理算法对原始音频中的噪声信号的抑制越小,相应的,噪声抑制指标的值就越小。
在该种实施方式中,根据n段第一音频帧,得到n段第一音频帧中的噪声信号的n个第一噪声增益后,根据n个第一噪声增益,确定目标信号处理算法的降噪指标,可提高降噪指标的准确度。
作为一种可选的实施方式,音频处理装置在分别确定n个第一噪声增益与n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值之后,还执行以下步骤:
601、确定上述n个第二差值中时间戳相邻的两个差值的差得到第三差值。
本申请实施例中,第二差值的时间戳为与第二差值对应的第一音频帧的时间戳。n个第二差值中时间戳相邻的两个差值,即为n个第二差值中所对应的第一音频帧的时间戳相邻的两个第二差值。
例如,n段第一音频帧包括第一音频帧a、第一音频帧b、第一音频帧c,n个第二差值包括第一音频帧a的第二差值d、第一音频帧b的第二差值e、第一音频帧c的第二差值f。若第一音频帧a的时间戳与第一音频帧b的时间戳相邻,第一音频帧b的时间戳与第一音频帧c的时间戳相邻,那么第二差值d与第二差值e为时间戳相邻的两个差值,第二差值e与第二差值f为时间戳相邻的两个差值。
在一种可能实现的方式中,音频处理装置计算时间戳相邻的两个第二差值中时间戳小的第二差值减去时间戳相邻的两个增益中时间戳大的第二差值,得到第三差值,例如,第二差值d与第二差值e为n个第二差值中时间戳相邻的两个增益,其中,第二差值d的时间戳比第二差值e的增益小。此时,第三差值为:第二差值d-第二差值e。
在一种可能实现的方式中,音频处理装置计算时间戳相邻的两个第二差值中时间戳大的第二差值减去时间戳相邻的两个增益中时间戳小第二差值,得到第三差值,例如,第二差值d与第二差值e为n个第二差值中时间戳相邻的两个增益,其中,第二差值d的时间戳比第二差值e的增益小。此时,第三差值为:第二差值e-第二差值d。
602、根据上述第三差值确定上述目标信号处理算法的稳定性指标。
本申请实施例中,稳定性指标越大表征目标信号处理算法的稳定性越好,具体而言,目标信号处理算法的稳定性好,说明目标信号处理算法对不同的第一音频帧的处理效果的差异小,即目标信号处理算法的降噪的稳定性好。因此,音频处理装置可根据第三差值确定目标信号处理算法的稳定性指标,具体的,第三差值与稳定性指标呈负相关,其中,稳定性指标越大表征目标信号处理算法的稳定性越好。
在该种实施方式中,音频处理装置确定n个第二差值中时间戳相邻的两个差值的第三差值。根据第三差值确定目标信号处理算法的稳定性指标,由此可根据稳定性指标确定目标信号处理算法的稳定性。
作为一种可选的实施方式,音频处理装置在得到n个第一差值之后,还可通过执行以下步骤确定目标信号处理算法的稳定性:
701、确定上述n个第一差值中时间戳相邻的两个差值的差得到第四差值。
本申请实施例中,第一差值的时间戳为与第一差值对应的第一音频帧的时间戳。n个第一差值中时间戳相邻的两个差值,即为n个第一差值中所对应的第一音频帧的时间戳相邻的两个第一差值。
例如,n段第一音频帧包括第一音频帧a、第一音频帧b、第一音频帧c,n个第一差值包括第一音频帧a的第一差值d、第一音频帧b的第一差值e、第一音频帧c的第一差值f。若第一音频帧a的时间戳与第一音频帧b的时间戳相邻,第一音频帧b的时间戳与第一音频帧c的时间戳相邻,那么第一差值d与第一差值e为时间戳相邻的两个差值,第一差值e与第一差值f为时间戳相邻的两个差值。
在一种可能实现的方式中,音频处理装置计算时间戳相邻的两个第一差值中时间戳小的第一差值减去时间戳相邻的两个增益中时间戳大的第一差值,得到第四差值,例如,第一差值d与第一差值e为n个第一差值中时间戳相邻的两个增益,其中,第一差值d的时间戳比第一差值e的增益小。此时,第四差值为:第一差值d-第一差值e。
在一种可能实现的方式中,音频处理装置计算时间戳相邻的两个第一差值中时间戳大的第一差值减去时间戳相邻的两个增益中时间戳小第一差值,得到第四差值,例如,第一差值d与第一差值e为n个第一差值中时间戳相邻的两个增益,其中,第一差值d的时间戳比第一差值e的增益小。此时,第四差值为:第一差值e-第一差值d。
702、根据上述第四差值确定上述目标信号处理算法的稳定性指标。
本申请实施例中,第四差值与稳定性指标呈负相关,其中,稳定性指标越大表征目标信号处理算法的稳定性越好。
在该种实施方式中,音频处理装置确定n个第一差值中时间戳相邻的两个差值的第四差值。根据第四差值确定目标信号处理算法的稳定性指标,由此可根据稳定性指标确定目标信号处理算法的稳定性。
作为一种可选的实施方式,音频处理装置在得到第三差值和第四差值后,根据第三差值和第四差值确定目标信号处理算法的稳定性指标,其中,稳定性指标与第三差值、第四差值均呈负相关。
作为一种可选的实施方式,音频处理装置在确定目标信号处理算法的稳定性之后,还执行以下步骤:
801、对上述非噪声信号处理指标、上述降噪指标和上述稳定性指标进行融合,得到上述目标信号处理算法的目标评价指标。
在一种可能实现的方式中,音频处理装置通过对非噪声信号处理指标、降噪指标和稳定性指标进行加权求和,得到目标信号处理算法的目标评价指标。
802、获取目标映射关系。
本申请实施例中,目标映射关系表征评价指标与评价分数的映射,其中,评价分数表征目标信号处理算法的处理效果,具体的,评价分数越高说明目标信号处理算法的处理效果越好。
803、根据上述目标映射关系和上述目标评价指标,确定上述目标音频的目标评价分数。
本申请实施例中,目标评价分数表征目标音频的音质,可选的,目标评价分数越大说明目标音频的音质越高。由于目标音频为经过目标信号处理算法处理后得到的音频,目标音频的音质越高,说明经过目标信号处理算法处理得到的音频的音质越高,也就说明目标信号处理算法的处理效果越好。
在该种实施方式中,音频处理装置在得到非噪声信号处理指标、降噪指标和稳定性指标后,通过对非噪声信号处理指标、降噪指标和稳定性指标进行融合,得到目标信号处理算法的目标评价指标。再在获取目标映射关系后,根据目标映射关系和目标评价指标,确定目标音频的目标评价分数,由此可通过目标评价分数评估目标信号处理算法的处理效果。
作为一种可选的实施的方式,音频处理装置获取统计模型,其中,该统计模型为已训练的深度学习模型,统计模型可根据非噪声信号处理指标、降噪指标和稳定性指标,确定音频的评价分数。音频处理装置使用统计模型,对非噪声信号处理指标、降噪指标和稳定性指标进行处理,得到目标音频的目标评价分数。
作为一种可选的实施方式,音频处理装置在得到目标音频之后,还执行以下步骤:
901、确定上述原始音频的第一信噪比和上述目标音频的第二信噪比。
902、基于上述第一信噪比和上述第二信噪比,确定上述目标信号处理算法的信噪比指标。
本申请实施例中,信噪比指标表征目标信号处理算法对音频的信噪比的提升效果。在一种可能实现的方式中,信噪比指标越大说明目标信号处理算法对音频的信噪比的提升越大,音频处理装置确定第二信噪比与第一信噪比的差得到第五差值,根据第五差值确定信噪比指标表征,其中,第五差值与信噪比指标呈正相关。
在该种实施方式中,音频处理装置在确定原始音频的第一信噪比和目标音频的第二信噪比后,基于第一信噪比和第二信噪比,确定目标信号处理算法的信噪比指标,这样可根据目标信噪比指标确定目标信号处理算法对音频的信噪比的提升效果。
请参阅图3,图3是本申请实施例提供的另一种音频处理方法的流程示意图。如图3所示,音频处理装置在获取语音信号和原始噪声信号后,根据目标信噪比对语音信号和原始噪声信号进行融合(即图3中的基于信噪比融合),可得到原始音频,应理解,此时语音信号相当于前文所述的第二非噪声信号。经目标信号处理算法对原始音频进行处理,可得到目标音频。计算目标音频与语音信号中相同音素的延迟时间,并根据该延迟时间对语音信号与目标音频进行对齐,得到已对齐目标音频。
通过对已对齐目标音频进行分帧,将已对齐目标音频分为n段第一音频帧。通过对语音信号进行分帧,将语音信号分为n段语音音频帧。通过原始噪声信号进行分帧,将原始噪声信号分为n段噪声音频帧。分别对每段第一音频帧、每段语音音频帧、每段噪声音频帧进行傅里叶变换,实现对n段第一音频帧、n段语音音频帧和n段噪声音频帧的频域变换,得到每段第一音频帧的m个频点、每段语音音频帧的m个频点和每段噪声音频帧的m个频点。
在通过频域变换得到每段第一音频帧的m个频点、每段语音音频帧的m个频点和每段噪声音频帧的m个频点后,音频处理装置根据每段第一音频帧的m个频点、每段语音音频帧的m个频点和每段噪声音频帧的m个频点,求解非噪声增益和噪声增益,获得非噪声增益和噪声增益。具体的,根据各个第一音频帧的m个频点,分别确定各个第一音频帧中的非噪声信号(即语音信号)的增益和各个第一音频帧中的噪声信号的增益,得到各个第一音频帧的第三非噪声增益和各个第一音频帧的第一噪声增益。
根据各个语音音频帧的m个频点、各个噪声音频帧的m个频点和目标信噪比,确定原始音频中的n段第二音频帧的非噪声信号(即语音信号)的n个第四非噪声增益以及n段第二音频帧的噪声信号的n个第二噪声增益,其中,n段第二音频帧与n段第一音频帧一一对应。
音频处理装置进而可根据各个第一音频帧的第三非噪声增益、各个第一音频帧的第一噪声增益、n个第四非噪声增益以及n个第二噪声增益,确定评价指标(该实现过程具体可参见前文所述的确定非噪声信号处理指标、降噪指标、稳定性指标的实现方式)。通过对各项评价指标进行指标统计,可确定目标音频的音质评分,可选的,通过对各项评价指标进行加权求和,得到目标信号处理算法的目标评价指标,再根据目标评价指标确定目标音频的目标评价分数。最后可根据目标评价分数评估目标信号处理算法的处理效果,以及根据目标评价分数优化目标信号处理算法,以提升目标信号处理算法对音频的处理效果。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图4,图4为本申请实施例提供的一种音频处理装置的结构示意图,该音频处理装置1包括:获取单元11、处理单元12、确定单元13,具体的:
获取单元11,用于获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;
处理单元12,用于根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;
所述获取单元11,还用于获取所述第二非噪声信号的第二非噪声增益;
确定单元13,用于基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。
结合本申请任一实施方式,所述处理单元12,用于:
将所述目标音频分为n段第一音频帧;
根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,作为所述第一非噪声增益,所述第三非噪声增益与所述第一音频帧一一对应。
结合本申请任一实施方式,所述获取单元11,用于:
获取所述目标信号处理算法、所述第二非噪声信号和原始噪声信号;
对所述第二非噪声信号和所述原始噪声信号进行融合,得到所述原始音频;
使用所述目标信号处理算法对所述原始音频进行处理,得到所述目标音频。
结合本申请任一实施方式,所述处理单元12,用于:
对所述目标音频与所述第二非噪声信号进行对齐,得到已对齐目标音频;
将所述已对齐目标音频分为n段音频帧,得到所述n段第一音频帧。
结合本申请任一实施方式,所述原始音频包括n段第二音频帧,所述第一音频帧与所述第二音频帧一一对应;所述第二非噪声增益包括n个第四非噪声增益,所述n个第四非噪声增益为所述n段第二音频帧中的非噪声信号的增益;
所述确定单元13,用于:
分别确定所述n个第三非噪声增益与所述n个第四非噪声增益中相对应的两个增益的差值,得到n个第一差值;
根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标。
结合本申请任一实施方式,所述非噪声信号处理指标包括失真指标,所述失真指标越大,表征所述目标信号处理算法对音频中的非噪声信号的损伤越大;
所述确定单元13,用于:
根据所述n个第一差值确定所述失真指标。
结合本申请任一实施方式,所述目标音频还包括目标噪声信号;所述确定单元13,还用于:
根据所述n段第一音频帧,确定所述n段第一音频帧中的所述目标噪声信号的增益,得到n个第一噪声增益,所述第一噪声增益与所述第一音频帧一一对应;
根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,所述降噪指标表征所述目标信号处理算法对音频中的噪声信号的去除效果。
结合本申请任一实施方式,所述原始音频还包括原始噪声信号,所述降噪指标包括噪声信号抑制指标,所述噪声信号抑制指标越大,表征所述目标信号处理算法对音频中的噪声信号的抑制越大;
所述确定单元13,用于:
获取所述n段第二音频帧中的所述原始噪声信号的n个第二噪声增益,所述第二噪声增益与所述第二音频帧一一对应;
分别确定所述n个第一噪声增益与所述n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值;
根据所述n个第二差值,确定所述噪声信号抑制指标。
结合本申请任一实施方式,所述降噪指标包括噪声信号残留指标,所述噪声信号残留指标越大,表征经所述目标信号处理算法对音频处理后,音频中残留的噪声信号越多;
所述确定单元13,用于:
根据所述n个第一噪声增益确定所述噪声信号残留指标。
结合本申请任一实施方式,所述确定单元13,还用于:
确定所述n个第二差值中时间戳相邻的两个差值的差得到第三差值;
根据所述第三差值确定所述目标信号处理算法的稳定性指标,所述第三差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,所述确定单元13,还用于:
确定所述n个第一差值中时间戳相邻的两个差值的差得到第四差值;
根据所述第四差值确定所述目标信号处理算法的稳定性指标,所述第四差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
结合本申请任一实施方式,所述处理单元12,还用于对所述非噪声信号处理指标、所述降噪指标和所述稳定性指标进行融合,得到所述目标信号处理算法的目标评价指标;
所述获取单元11,还用于获取目标映射关系,所述目标映射关系表征评价指标与音频的评价分数的映射;
所述确定单元13,还用于根据所述目标映射关系和所述目标评价指标,确定所述目标音频的目标评价分数,所述目标评价分数表征所述目标音频的音质。
结合本申请任一实施方式,所述n段第一音频帧包括第三音频帧,所述n个第三非噪声增益包括与所述第三音频帧对应的第五非噪声增益;
所述处理单元12,用于:
对所述第三音频帧进行傅里叶变换,得到m个频点;
确定m个频点的非噪声信号的增益得到m个第六非噪声增益,所述第六非噪声增益均与所述频点一一对应;
根据所述m个第六非噪声增益,得到所述第五非噪声增益。
结合本申请任一实施方式,所述目标信号处理算法包括:音频的降噪算法、音频的编解码算法。
因为目标音频为原始音频经过目标信号处理算法处理后的音频,目标音频包括第一非噪声信号,原始音频包括第二非噪声信号,所以第一非噪声信号是第二非噪声信号经过目标信号处理算法处理得到的。由于目标信号处理算法在对原始音频进行处理的过程中,可能会对原始音频中的第二非噪声信号进行处理,进而导致第二非噪声信号的增益发生变化,故第一非噪声增益与第二非噪声增益可能存在差异,而且该差异是由于目标信号处理算法的处理而产生的。因此,在本申请实施例中,音频处理装置在获取目标音频后,根据目标音频得到第一非噪声信号的第一非噪声增益,然后在获取第二非噪声信号的第二非噪声增益后,可基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标。
而且由于基于第一非噪声增益和第二非噪声增益的差异,确定目标信号处理算法的非噪声信号处理指标,未涉及目标音频中的噪声信号和原始的噪声信号,通过该种方法确定目标信号处理算法的非噪声信号处理指标,可降低噪声信号的干扰,进而可提高非噪声信号处理指标的准确度,从而基于非噪声信号处理指标评估目标信号处理算法的处理效果,可提高评估结果的准确度。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图5为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备2包括处理器21,存储器22。可选的,该电子设备2还包括输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。可选的,处理器21可以是多个CPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图5仅仅示出了一种电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (17)

1.一种音频处理方法,其特征在于,所述方法包括:
获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;
根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;
获取所述第二非噪声信号的第二非噪声增益;
基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益,包括:
将所述目标音频分为n段第一音频帧;
根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,作为所述第一非噪声增益,所述第三非噪声增益与所述第一音频帧一一对应。
3.根据权利要求2所述的方法,其特征在于,所述获取目标音频,包括:
获取所述目标信号处理算法、所述第二非噪声信号和原始噪声信号;
对所述第二非噪声信号和所述原始噪声信号进行融合,得到所述原始音频;
使用所述目标信号处理算法对所述原始音频进行处理,得到所述目标音频。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述目标音频分为n段第一音频帧,包括:
对所述目标音频与所述第二非噪声信号进行对齐,得到已对齐目标音频;
将所述已对齐目标音频分为n段音频帧,得到所述n段第一音频帧。
5.根据权利要求2或3所述的方法,其特征在于,所述原始音频包括n段第二音频帧,所述第一音频帧与所述第二音频帧一一对应;所述第二非噪声增益包括n个第四非噪声增益,所述n个第四非噪声增益为所述n段第二音频帧中的非噪声信号的增益;
所述基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,包括:
分别确定所述n个第三非噪声增益与所述n个第四非噪声增益中相对应的两个增益的差值,得到n个第一差值;
根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标。
6.根据权利要求5所述的方法,其特征在于,所述非噪声信号处理指标包括失真指标,所述失真指标越大,表征所述目标信号处理算法对音频中的非噪声信号的损伤越大;
所述根据所述n个第一差值,确定所述目标信号处理算法的非噪声信号处理指标,包括:
根据所述n个第一差值确定所述失真指标。
7.根据权利要求5所述的方法,其特征在于,所述目标音频还包括目标噪声信号;在所述将所述目标音频分为n段第一音频帧之后,所述方法还包括:
根据所述n段第一音频帧,确定所述n段第一音频帧中的所述目标噪声信号的增益,得到n个第一噪声增益,所述第一噪声增益与所述第一音频帧一一对应;
根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,所述降噪指标表征所述目标信号处理算法对音频中的噪声信号的去除效果。
8.根据权利要求7所述的方法,其特征在于,所述原始音频还包括原始噪声信号,所述降噪指标包括噪声信号抑制指标,所述噪声信号抑制指标越大,表征所述目标信号处理算法对音频中的噪声信号的抑制越大;
所述根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,包括:
获取所述n段第二音频帧中的所述原始噪声信号的n个第二噪声增益,所述第二噪声增益与所述第二音频帧一一对应;
分别确定所述n个第一噪声增益与所述n个第二噪声增益中相对应的两个增益的差值,得到n个第二差值;
根据所述n个第二差值,确定所述噪声信号抑制指标。
9.根据权利要求7所述的方法,其特征在于,所述降噪指标包括噪声信号残留指标,所述噪声信号残留指标越大,表征经所述目标信号处理算法对音频处理后,音频中残留的噪声信号越多;
所述根据所述n个第一噪声增益,确定所述目标信号处理算法的降噪指标,包括:
根据所述n个第一噪声增益确定所述噪声信号残留指标。
10.根据权利要求8所述的方法,其特征在于,在得到所述n个第二差值之后,所述方法还包括:
确定所述n个第二差值中时间戳相邻的两个差值的差得到第三差值;
根据所述第三差值确定所述目标信号处理算法的稳定性指标,所述第三差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
11.根据权利要求5所述的方法,其特征在于,在得到n个第一差值之后,所述方法还包括:
确定所述n个第一差值中时间戳相邻的两个差值的差得到第四差值;
根据所述第四差值确定所述目标信号处理算法的稳定性指标,所述第四差值与所述稳定性指标呈负相关,所述稳定性指标越大表征所述目标信号处理算法的稳定性越好。
12.根据权利要求10或11所述的方法,其特征在于,在所述根据所述第三差值确定所述目标信号处理算法的稳定性之后,所述方法还包括:
对所述非噪声信号处理指标、所述降噪指标和所述稳定性指标进行融合,得到所述目标信号处理算法的目标评价指标;
获取目标映射关系,所述目标映射关系表征评价指标与音频的评价分数的映射;
根据所述目标映射关系和所述目标评价指标,确定所述目标音频的目标评价分数,所述目标评价分数表征所述目标音频的音质。
13.根据权利要求2或3所述的方法,其特征在于,所述n段第一音频帧包括第三音频帧,所述n个第三非噪声增益包括与所述第三音频帧对应的第五非噪声增益;
所述根据所述n段第一音频帧,得到所述n段第一音频帧中的非噪声信号的n个第三非噪声增益,包括:
对所述第三音频帧进行傅里叶变换,得到m个频点;
确定m个频点的非噪声信号的增益得到m个第六非噪声增益,所述第六非噪声增益均与所述频点一一对应;
根据所述m个第六非噪声增益,得到所述第五非噪声增益。
14.根据权利要求1至3中任意一项所述的方法,其特征在于,所述目标信号处理算法包括:音频的降噪算法、音频的编解码算法。
15.一种音频处理装置,其特征在于,所述装置包括:
获取单元,用于获取目标音频,所述目标音频为原始音频经过目标信号处理算法处理后得到的音频,所述目标音频包括第一非噪声信号,所述原始音频包括第二非噪声信号;
处理单元,用于根据所述目标音频,得到所述第一非噪声信号的第一非噪声增益;
所述获取单元,还用于获取所述第二非噪声信号的第二非噪声增益;
确定单元,用于基于所述第一非噪声增益和所述第二非噪声增益的差异,确定所述目标信号处理算法的非噪声信号处理指标,所述非噪声信号处理指标表征所述目标信号处理算法对音频中的非噪声信号的处理效果。
16.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至14中任意一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至14中任意一项所述的方法。
CN202310456931.1A 2023-04-25 2023-04-25 音频处理方法及装置、电子设备及计算机可读存储介质 Pending CN117727311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310456931.1A CN117727311A (zh) 2023-04-25 2023-04-25 音频处理方法及装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310456931.1A CN117727311A (zh) 2023-04-25 2023-04-25 音频处理方法及装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117727311A true CN117727311A (zh) 2024-03-19

Family

ID=90207539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310456931.1A Pending CN117727311A (zh) 2023-04-25 2023-04-25 音频处理方法及装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117727311A (zh)

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN109473123B (zh) 语音活动检测方法及装置
JP6339187B2 (ja) 音声信号品質を測定するためのシステムおよび方法
KR20190045278A (ko) 음성 품질 평가 방법 및 음성 품질 평가 장치
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN112017687B (zh) 一种骨传导设备的语音处理方法、装置及介质
CN111868823B (zh) 一种声源分离方法、装置及设备
CN111653283A (zh) 一种跨场景声纹比对方法、装置、设备及存储介质
EP2572356A1 (en) Method and arrangement for processing of speech quality estimate
JP2001520764A (ja) スピーチ分析システム
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
CN117727311A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质
US11924368B2 (en) Data correction apparatus, data correction method, and program
CN115273880A (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN114222234A (zh) 麦克风阵列一致性的检测方法、电子设备和存储介质
JP5952252B2 (ja) 通話品質推定方法、通話品質推定装置、及びプログラム
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN117612566B (zh) 音频质量评估方法及相关产品
CN111951786A (zh) 声音识别模型的训练方法、装置、终端设备及介质
CN118038900A (zh) 语音质量评估方法、训练语音质量评估模型的方法及装置
WO2024082928A1 (zh) 语音处理方法、装置、设备和介质
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука
CN117711435A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质
CN117789761A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination