CN118038900A - 语音质量评估方法、训练语音质量评估模型的方法及装置 - Google Patents

语音质量评估方法、训练语音质量评估模型的方法及装置 Download PDF

Info

Publication number
CN118038900A
CN118038900A CN202410311773.5A CN202410311773A CN118038900A CN 118038900 A CN118038900 A CN 118038900A CN 202410311773 A CN202410311773 A CN 202410311773A CN 118038900 A CN118038900 A CN 118038900A
Authority
CN
China
Prior art keywords
voice signal
speech
voice
hidden
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410311773.5A
Other languages
English (en)
Inventor
郝一亚
叶军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingtalk China Information Technology Co Ltd
Original Assignee
Dingtalk China Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingtalk China Information Technology Co Ltd filed Critical Dingtalk China Information Technology Co Ltd
Priority to CN202410311773.5A priority Critical patent/CN118038900A/zh
Publication of CN118038900A publication Critical patent/CN118038900A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种语音质量评估方法、训练语音质量评估模型的方法及装置,涉及人工智能技术领域。其中方法包括:获取待评估语音信号及其对应的参考语音信号;利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果;其中,所述语音质量评估模型是利用神经网络预先训练得到的。本申请提供了一种基于神经网络的语音质量评估方法,提升了语音质量评估的效率和准确性。

Description

语音质量评估方法、训练语音质量评估模型的方法及装置
技术领域
本申请涉及人工智能技术领域,特别是涉及语音质量评估方法、训练语音质量评估模型的方法及装置。
背景技术
在当今通信、多媒体处理以及智能语音交互等领域,语音音质评估是确保用户体验和语音系统性能的关键环节。优良的语音质量不仅能提升语音通信的清晰度与效率,还能在语音识别、语音合成等技术中发挥至关重要的作用。
语音质量的评估是衡量音质的一个重要手段,然而,现有的语音音质评价模型多依赖于传统信号处理方法,这些方法往往受限于特定的噪声类型和环境,难以适应多变的实际应用场景。在复杂的语音处理场景下,面临着准确性不足和适应性差等问题,无法全面反映人耳对语音音质的真实感受。此外,这些模型往往需要手动调整参数,导致评价过程繁琐、效率低下。
发明内容
本申请提供了一种语音质量评估方法、训练语音质量评估模型的方法及装置,以便于提升语音质量评估的效率和准确率。
本申请提供了如下方案:
第一方面,提供了一种语音质量评估方法,所述方法包括:
获取待评估语音信号及其对应的参考语音信号;
利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果;
其中,所述语音质量评估模型是利用神经网络预先训练得到的。
根据本申请实施例中一可实现的方式,所述方法还包括:对所述参考语音信号和所述待评估语音信号分别进行特征提取,得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征;
所述利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示包括:利用所述语音质量评估模型对所述参考语音信号的频谱特征进行降采样,得到所述参考语音信号的隐特征表示,以及对所述待评估语音信号的频谱特征进行降采样,得到所述待评估语音信号的隐特征表示。
根据本申请实施例中一可实现的方式,所述频谱特征包括梅尔频谱特征;
对所述参考语音信号和所述待评估语音信号分别进行特征提取,得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征包括:
将所述参考语音信号和所述待评估语音信号分别转换为梅尔频谱;
将所述参考语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为所述参考语音信号的频谱特征;以及,
将所述待评估语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为所述待评估语音信号的频谱特征。
根据本申请实施例中一可实现的方式,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示包括:
对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行点乘;
将所述点乘得到的特征表示与所述待评估语音信号的隐特征表示进行拼接,得到所述融合特征表示。
根据本申请实施例中一可实现的方式,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果包括:
对所述融合特征表示进行池化处理,所述池化处理包括基于注意力机制的池化;
将所述池化处理得到的特征表示映射到语音质量评分空间得到所述待评估语音信号的语音质量评分,或者,将所述池化处理得到的特征表示映射到语音质量评级空间得到所述待评估语音信号的语音质量评级。
第二方面,提供了一种测试方法,所述方法包括:
获取参考语音信号;
将所述参考语音信号输入待测试系统,获取所述待测试系统输出的语音信号作为待评估语音信号;
利用如上任一项所述的方法得到所述待评估语音信号的语音质量评估结果;
利用所述语音质量评估结果确定所述待测试系统的测试结果。
第三方面,提供了一种训练语音质量评估模型的方法,所述方法包括:
获取包括多个训练样本的训练数据,所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签;
利用所述训练数据训练基于神经网络的语音质量评估模型,其中,所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果;所述训练的目标包括:最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
根据本申请实施例中一可实现的方式,所述方法还包括:对所述参考语音信号样本和所述受损语音信号样本分别进行特征提取,得到所述参考语音信号样本的频谱特征和所述受损语音信号样本的频谱特征,所述频谱特征包括梅尔频谱;
所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示包括:所述语音质量评估模型对所述参考语音信号样本的频谱特征进行降采样,得到所述参考语音信号样本的隐特征表示,以及对所述受损语音信号样本的频谱特征进行降采样,得到所述所述受损语音信号样本的隐特征表示。
根据本申请实施例中一可实现的方式,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示包括:
对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行点乘;
将所述点乘得到的特征表示与所述受损语音信号样本的隐特征表示进行拼接,得到所述融合特征表示。
根据本申请实施例中一可实现的方式,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果包括:
对所述融合特征表示进行池化处理,所述池化处理包括基于注意力机制的池化;
将所述池化处理得到的特征表示映射到语音质量评分空间得到所述受损语音信号样本的语音质量评分,或者,将所述池化处理得到的特征表示映射到语音质量评级空间得到所述受损语音信号样本的语音质量评级。
第四方面,提供了一种语音质量评估装置,所述装置包括:
信号获取单元,被配置为获取待评估语音信号及其对应的参考语音信号;
质量评估单元,被配置为利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果;
其中,所述语音质量评估模型是利用神经网络预先训练得到的。
第五方面,提供了一种训练语音质量评估模型的装置,所述装置包括:
样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签;
模型训练单元,被配置为利用所述训练数据训练基于神经网络的语音质量评估模型,其中,所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果;所述训练的目标包括:最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。
根据第七方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本发明利用由神经网络训练得到的语音质量评估模型进行语音质量评估,该模型提取待评估语音信号和参考语音信号的隐特征表示,并将隐特征表示进行融合,根据融合特征得到质量评估结果。该方法提取两种语音信号的在较低维度下的关键特征,降低了语音质量评估的复杂度,并将两种语音信号的关键特征进行融合,增加了特征之间的关联程度,从而提高了语音质量评估的效率和准确率。
2)本申请通过对语音信号进行特征提取得到频谱特征,频谱特征相比较时域特征而言,提高了语音信号特征的鲁棒性。对频谱特征进行降采样处理,在保留重要特征的前提下减少了数据的维度,降低了计算复杂度,提高了语音评估的效率。
3)本申请采用梅尔频谱特征作为频谱特征,梅尔频谱特征是一种更加符合人耳听觉特征的频域表示,因此,能够使得对语音质量的评估更加符合人耳的真实感知。
4)本申请对梅尔频谱进行切分得到预设长度的频谱片段,频谱片段更便于对频谱进行特征提取。同时,相邻频谱片段之间存在部分重叠,避免了频谱切分操作导致损失频谱信息。
5)本申请将参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行点乘得到的特征表示与待评估语音信号的隐特征表示进行拼接,得到所述融合特征表示。这种融合方法一方面简单高效,另一方面能够充分体现参考语音信号和待评估语音信号之间的差异,从而使得后续基于融合特征表示得到的语音质量评估结果更加准确。
6)本申请对融合特征表示进行池化处理,进一步降低了融合特征表示的维度,并提取出更有代表性的信息,降低了生成语音质量评分的复杂度和准确率。
7)本申请可以基于注意力机制进行池化处理,一方面可降低融合特征表示的维度,另一方面可充分考虑参考语音信号和待评估语音信号的特征之间的关联对语音质量评价的影响,提高了语音评估的效率和准确率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为是本申请实施例所适用的系统架构图;
图2为本申请实施例提供的语音质量评估方法的流程图;
图3a为本申请实施例提供的语音质量评估模型的原理性示意图;
图3b为本申请实施例提供的训练语音质量评估模型的原理性示意图;
图4为本申请实施例提供的对待测试系统进行测试的框架示意图;
图5为本申请实施例提供的语音质量评估装置的示意图;
图6为本申请实施例提供的训练语音质量评估模型的装置的示意图;
图7为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
目前的语音质量评估大多采用人耳主观听音的方式,该方式需要较高的人力成本。而现有的语音音质评价模型多依赖于传统信号处理方法,这些方法受限于特定的噪声类型和环境,难以适应多变的实际应用场景。
有鉴于此,本申请提供了一种新的思路。为了方便对本申请的理解,首先对本申请所基于的系统架构进行描述。图1示出了可以应用本申请实施例的示例性系统架构,如图1中所示,该系统架构可以包括户设备和位于服务器端的语音质量评估装置、语音质量评估模型和模型训练装置。
评估者可以通过用户设备将待评估语音信号和参考语音信号发送给服务器端的语音质量评估装置。
其中用户设备可以包括但不限于诸如:智能移动终端、智能家居设备、可穿戴式设备、PC(Personal Computer,个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant,个人数字助理)、互联网汽车等。智能家居设备可以包括智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。
语音质量评估装置可以采用本申请实施例中提供的方法,生成语音质量评估结果。其中,语音质量评估装置的评估过程中会涉及对语音质量评估模型的利用。
模型训练装置可以采用本申请实施例中提供的方法预先训练得到语音质量评估模型。
语音质量评估装置和模型训练装置可以设置为独立的服务器,也可以设置于服务器群组,还可以设置于云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual PrivateServer)服务中存在的管理难度大,服务扩展性弱的缺陷。除了图1所示架构之外,语音质量评估装置和模型训练装置还可以设置于具有较强计算能力的计算机终端。
作为其中一种可实现的方式,评估者可以通过用户设备输入待评估语音信号和参考语音信号,由用户设备将待评估语音信号和参考语音信号通过网络发送至服务器端的语音质量评估装置。语音质量评估装置针对该语音信号生成语音质量评估结果后,将该结果通过网络返回给用户设备。
应该理解,图1中的用户设备、语音质量评估装置、语音质量评估模型和模型训练装置仅仅是示意性的。根据实现需要,可以具有任意数目的用户设备、语音质量评估装置、语音质量评估模型和模型训练装置。
除了图1所示系统架构之外,上述语音质量评估装置也可以为位于用户设备的应用,或者还可以为设置于应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元。
图2为本申请实施例提供的语音质量评估方法流程图,该方法可以由图1所示系统中的语音质量评估装置执行。如图2中所示,该方法可以包括以下步骤:
步骤201:获取待评估语音信号及其对应的参考语音信号。
步骤202:利用语音质量评估模型提取参考语音信号的隐特征表示,以及提取待评估语音信号的隐特征表示,对参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用融合特征表示映射得到所述待评估语音信号的语音质量评估结果;其中,语音质量评估模型是利用神经网络预先训练得到的。
由上述流程可以看出,本发明利用由神经网络训练得到的语音质量评估模型进行语音质量评估,该模型提取待评估语音信号和参考语音信号的隐特征表示,并将隐特征表示进行融合,根据融合特征得到质量评估结果。该方法能通过提取两种语音信号的隐特征表示,获得了语音信号在较低维度下的关键特征,并将两种语音信号的关键特征进行融合,增加了特征之间的相关性,提高了语音评估的效率和准确率。
下面结合实施例分别对上述流程中的各步骤以及能够进一步产生的效果进行详细描述。
首先结合实施例对上述步骤201即“获取待评估语音信号及其对应的参考语音信号”进行详细描述。
本申请通过比较待评估语音信号和参考语音信号的差异,获得语音质量评估的结果。待评估语音信号和参考语音信号两两对应,参考语音信号为原始的未经处理的语音信号。待评估语音信号为需要进行语音质量评估的信号,该信号可以是参考语音信号经过通信系统、语音识别系统或其他语音处理系统处理后获取的语音信号,这种场景下,对于待评估语音信号的评估实际上可以看做是对通信系统、语音识别系统或其他语音处理系统等的测试或评估。其中,待评估语音信号和参考语音信号通常为时域语音信号。
本申请实施例中可以采用多种方式获取参考语音信号和待评估语音信号,包括但不限于以下方式:
方式一、参考语音信号和待评估语音信号可以通过实时录音获取,评估者可以使用收录机或其他录音设备录制参考语音信号和待评估语音信号,以便进行后续的质量评估比较。
例如,一个人实时发出语音,评估者通过收录机录制该语音作为参考语音信号。该参考语音信号经过一个助听器后,评估者采集并收录经过助听器后产生的语音作为待评估语音信号。这种方式常用以对助听器等设备进行测试的场景。
方式二、参考语音信号和待评估语音信号也可以是以音频文件的形式预先存储的信号,如评估者可以使用公开的语音数据集中的语音样本作为参考语音信号,同时从相同或不同的数据集中获取待评估语音信号,以进行质量评估比较。这种方式常用以对语音质量评估模型进行测试的场景。
方式三、评估者还可以使用已录制好的音频文件作为参考语音信号,同时实时获取待评估语音信号的音频文件,以便进行质量评估对比。
例如,播放已经录制好的音频文件,该音频文件中的语音信号作为参考语音信号。该参考语音信号经过一个助听器后,评估者采集并收录经过经过助听器后产生的语音作为待评估语音信号。这种方式常用以对助听器等设备进行测试的场景。
下面结合实施例对上述步骤202即“利用语音质量评估模型提取参考语音信号的隐特征表示,以及提取待评估语音信号的隐特征表示,对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行融合得到融合特征表示,利用融合特征表示映射得到待评估语音信号的语音质量评估结果;其中,语音质量评估模型是利用神经网络预先训练得到的。”进行详细描述。
本申请利用语音质量评估模型进行语音质量评估,图3a为本申请实施例提供的语音质量评估模型的原理性示意图,如图3a所示,语音质量评估模型包括分别针对参考语音信号和待评估语音信号设置隐特征提取模块,隐特征提取模块输出参考语音信号和待评估语音信号的隐特征表示。
作为其中一种可实现的方法,隐特征提取模块可以直接从参考语音信号和待评估语音信号中提取时域特征分别作为隐特征表示。但这种方式对于语音信号评估的鲁棒性而言,有待提高。
因此,本申请实施例提供了另一种更优选的方法,如图3a中所示,首先对参考语音信号和待评估语音信号进行特征提取,得到参考语音信号和待评估语音信号的频谱特征。频谱特征可由傅里叶变换、快速傅里叶变换等方式得到。然后利用语音质量评估模型中的隐特征提取模块对参考语音信号的频谱特征进行降采样,得到参考语音信号的隐特征表示,以及对待评估语音信号的频谱特征进行降采样,得到待评估语音信号的隐特征表示。
作为一种可实施的方式,本申请通过将参考语音信号和待评估语音信号转换为梅尔频谱图得到频谱特征。梅尔频谱(Mel-Spectrogram)是一种更加符合人耳听觉特征的频域表示,声音通过一组梅尔滤波器组映射到梅尔音阶上,滤波器在低频范围内分布密集,在高频范围内分布稀疏,因此,梅尔频谱是非线性的。这样使得梅尔刻度上等距离的两对频度,人耳的感知差异也是相同的,即人耳感知和梅尔尺度呈线性关系,因此基于梅尔频谱特征,能够模拟人类听觉系统对声音频谱的感知方式。具体地,先将输入的参考语音信号和待评估语音信号分别转换为梅尔频谱;将参考语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为参考语音信号的频谱特征;以及,将待评估语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为待评估语音信号的频谱特征。
其中,参考语音信号和待评估语音信号的频谱特征可以均表示为[B,L,T,F]的尺寸,B代表batchsize(批大小),指单次输入的参考语音信号和待评估语音信号的数量,在训练过程中B通常为大于1的正整数,B的具体值可根据经验值进行预先设定;在实际推理(即语音质量评估)过程中B为1。L为频谱片段个数,可根据语音信号的时间宽度和T值确定;T为频谱片段的时间宽度,可根据经验值进行预先设定,通常设置为100~300毫秒;F为频谱片段的高度,其取值根据信号的功率谱(或能量谱)在梅尔滤波器组中的能量加权和来确定的。
将上述频谱特征进行降采样处理,即对频谱特征进行进一步信息提取,得到高维隐层特征。降采样用于在保留重要特征的前提下,减少频谱特征的维度。降采样可采用平均池化、最大池化、降采样滤波等方式。作为一种可实施的方式,本申请的隐特征提取模块可采用卷积神经网络进行降采样处理。
隐特征提取模块还可进一步包括卷积、池化和归一化三个模块。其中,卷积模块用于识别参考语音信号和待评估语音信号频谱特征中的重要特征;池化模块用于降低频谱特征的维度,减少计算量,并提取关键信息;归一化模块可以帮助神经网络更好地学习数据的分布特征,从而提高模型的性能。将参考语音信号和待评估语音信号的频谱特征[B,L,T,F]输入隐特征提取模块后,通过卷积层提取频谱特征,池化层降低频谱特征维度,归一化层调整激活值的分布,输出两种语音信号的隐特征表示为[B,L,H]的尺寸。
在获得参考语音信号和待评估语音信号的隐特征表示后,可以利用语音质量评估模型中的特征融合模块对两种语音信号的隐特征表示进行融合,得到融合特征表示。在对参考语音信号和待评估语音信号的隐特征进行融合时,可以简单对两种隐特征进行拼接,也可通过对两种特征进行运算操作,使两种特征建立一种关系。
作为一种可实现的方式,可以对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行点乘;将点乘得到的特征表示与待评估语音信号的隐特征表示进行拼接,得到融合特征表示。
具体地,在待评估语音信号的隐特征表示[B,L,H]的基础上,新增拼接到H维度上。其中,D代表待评估语音信号中的隐特征表示,尺寸为[L,H];R代表参考语音信号的隐特征表示,尺寸也为[L,H];/>代表两个矩阵中的每个数的点乘,并归一化到[-1,1]的范围。最终,融合特征表示的尺寸为[B,L,Hx2]。
作为可替代的方案,上文中的对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行点乘的操作,还可以替换为对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行相加、相减、归一化等操作,也可实现对于隐特征进行融合的技术效果。
最后,利用融合特征表示映射得到待评估语音信号的语音质量评估结果。
语音质量评估模型利用神经网络预先训练得到,该模型通过预先训练可以将融合特征表示与语音质量评估结果建立映射关系,这种映射可以是线性或非线性映射。在模型推理阶段,通过语音质量评估模型即可由融合特征表示得到待评估语音信号的语音质量评估结果。
作为一种更优选的实施方案,本申请还可以对融合特征进行进一步池化处理,将池化处理得到的特征表示进行映射得到待评估语音信号的语音质量评估结果。如图3a,语音质量评估模型还包括池化处理模块。池化处理模块可采用常规的最大池化、平均池化、自适应池化等方式进行实现,作为其中一种更优选的方式,可采用基于注意力的池化处理方法对融合特征进行池化。基于注意力的池化处理方法结合了注意力机制和池化操作,旨在允许模型在特征池化过程中动态地关注输入特征的不同部分,从而更好地捕获输入数据的关键信息。基于注意力的池化处理方法通常包括以下步骤:首先,通过一个学习的注意力机制,计算每个输入的融合特征的注意力权重,这些权重表示了模型在进行特征池化时应该关注每个融合特征的程度。根据计算得到的注意力权重,对融合特征进行加权池化。具体来说,对每个融合特征向量,用其对应的注意力权重加权,然后将加权后的特征向量相加或取加权平均,得到最终的池化表示。
其中,可将池化处理得到的特征表示映射到语音质量评分空间得到待评估语音信号的语音质量评分,或者,将池化处理得到的特征表示映射到语音质量评级空间得到待评估语音信号的语音质量评级。
语音质量评分空间通常是指一种连续的、数值化的空间,用于表示不同语音信号的质量水平。在这个空间中,语音信号的质量通常通过一个连续的分数或得分来表示,例如从1到5的得分范围,其中1到5的得分对应质量依次更佳。评分空间通常用于主观质量评估,即通过人类听众对语音进行质量评分来判断其质量水平。在语音质量评分空间中,语音质量评估结果可采用语音质量分数(mean opinion score,MOS)进行表示,MOS代表人主观听感上对语音质量好坏的打分,5分为最高分,1分为最低分。
语音质量评级空间则是指一种离散的、分类化的空间,用于将语音信号分为不同的质量等级或类别。在这个空间中,语音信号通常被分为几个预定义的等级,每个等级代表一定的质量水平,例如“优秀”、“良好”、“一般”、“差”等。评级空间通常用于客观质量评估,即通过自动算法或模型对语音信号进行质量评级。
本申请还提供了一种训练语音质量评估模型的方法,该方法训练得到的语音质量评估模型可用于本申请中的语音质量评估方法。
图3b为本申请实施例提供的训练语音质量评估模型的原理性示意图,如图3b所示,训练语音质量评估模型的方法包括:获取包括多个训练样本的训练数据,训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签。
其中,训练样本可通过现有的语音数据集获得,也可通过进行主观主观评估实验,采用人工听取一段语音并给出质量评分的方式,评价各种语音样本的质量,获得标记好的训练数据。语音质量评估标签为用于表示语音质量的参数,可采用上文中提到的MOS分数或“优秀”、“良好”、“一般”、“差”等语音质量评级进行表示。
利用训练数据训练基于神经网络的语音质量评估模型,其中,语音质量评估模型提取参考语音信号样本的隐特征表示,以及提取受损语音信号样本的隐特征表示,对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用融合特征表示映射得到受损语音信号样本的语音质量评估结果。
对于训练样本的隐特征提取可采用多种方法,如图3b所示,语音质量评估模型包括分别针对参考语音信号样本和受损语音信号样本设置的隐特征提取模块,隐特征提取模块输出参考语音信号样本和受损语音信号样本的隐特征表示。
作为其中一种可实现的方法,隐特征提取模块可以直接从参考语音信号样本和受损语音信号样本中提取时域特征分别作为隐特征表示。但这种方式对于语音信号评估的鲁棒性而言,有待提高。
因此,本申请实施例提供了另一种更优选的方法,如图3b所示,首先对参考语音信号样本和受损语音信号样本进行特征提取,得到参考语音信号样本和受损语音信号样本的频谱特征。频谱特征可由傅里叶变换、快速傅里叶变换等方式得到。然后利用语音质量评估模型中的隐特征提取模块对参考语音信号样本的频谱特征进行降采样,得到参考语音信号样本的隐特征表示,以及对受损语音信号样本的频谱特征进行降采样,得到受损语音信号样本的隐特征表示。
作为一种可实施的方式,本申请通过将参考语音信号样本和受损语音信号样本转换为梅尔频谱图得到频谱特征。具体地,先将输入的参考语音信号样本和受损语音信号样本分别转换为梅尔频谱;将参考语音信号样本对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为参考语音信号样本的频谱特征;以及,将受损语音信号样本对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为受损语音信号样本的频谱特征。
其中,参考语音信号样本和受损语音信号样本的频谱特征均可以表示为[B,L,T,F]的尺寸,B代表batchsize(批大小),指单次输入的参考语音信号样本和受损语音信号样本的数量,在训练过程中B通常为大于1的正整数,B的具体值可根据经验值进行预先设定;L为频谱片段个数,可根据样本语音信号的时间宽度和T值确定;T为频谱片段的时间宽度,可根据经验值进行预先设定,也可在模型训练过程中进行实时修改,通常可设置为100~300毫秒;F为频谱片段的高度,其取值根据样本信号的功率谱(或能量谱)在Mel滤波器组中的能量加权和来确定的。
将上述频谱特征进行降采样处理,对频谱特征进行进一步信息提取,得到高维隐层特征。降采样可采用平均池化、最大池化、降采样滤波等方式。作为一种可实施的方式,本申请的隐特征提取模块可采用卷积神经网络进行降采样处理。
隐特征提取模块还可进一步包括卷积、池化和归一化三个模块。将参考语音信号样本和受损语音信号样本的频谱特征[B,L,T,F]输入隐特征提取模块后,通过卷积层提取频谱特征,池化层降低频谱特征维度,归一化层调整激活值的分布,输出隐特征表示为[B,L,H]的尺寸。
在获得参考语音信号样本和受损语音信号样本的隐特征表示后,可以利用语音质量评估模型中的特征融合模块对两种语音信号样本的隐特征表示进行融合,得到融合特征表示。在对参考语音信号样本和受损语音信号样本的隐特征进行融合时,可以简单对两种语音信号样本的隐特征进行拼接,也可通过对两种特征进行某些运算操作,使两种特征建立一种关系,从而实现融合。
作为一种可实现的方式,可以对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行点乘;将点乘得到的特征表示与受损语音信号样本的隐特征表示进行拼接,得到融合特征表示。具体地,在受损语音信号样本的隐特征表示[B,L,H]的基础上,新增拼接到H维度上。其中,D代表受损语音信号样本中的隐特征表示,尺寸为[L,H];R代表参考语音信号样本中的隐特征表示,尺寸也为[L,H];/>代表两个矩阵中的每个数的点乘,并归一化到[-1,1]的范围。最终,融合特征表示的尺寸为[B,L,Hx2]。
作为一种可替代的方案,上文中的对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行点乘的操作,还可以替换为对参考语音信号样本的隐特征表示和受损语音信号的隐特征表示进行相加、相减、归一化等操作,也可实现对于隐特征进行融合的技术效果。
最后,利用融合特征表示映射得到待评估语音信号的语音质量评估结果。模型通过训练将融合特征表示与语音质量评估结果建立映射关系,这种映射可以是线性或非线性映射。
作为一种更优选的实施方案,本申请还可以对融合特征表示进行进一步池化处理,将池化处理得到的特征表示进行映射。如图3b,语音质量评估模型还包括池化处理模块。池化处理模块可采用常规的最大池化、平均池化、自适应池化等方式进行实现,作为其中一种更优选的方式,可采用基于注意力的池化处理方法对融合特征进行池化。
其中,可将池化处理得到的特征表示映射到语音质量评分空间得到受损语音信号样本的语音质量评分,也可将池化处理得到的特征表示映射到语音质量评级空间得到受损语音信号样本的语音质量评级。
在上述训练语音质量评估模型的过程中,训练目标可以包括最小化受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数(即隐特征提取模块、特征融合模块和池化处理模块的参数),直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
更具体地,在模型训练阶段,通过注意力机制,让神经网络聚焦学习参考语音信号样本和受损语音信号样本之间的差异和音质之间的关系,最终输出MOS分。通过从模型预测的MOS和Label的差值计算得到Loss,并反向传播,从而更新模型参数以最小化损失函数。其中,模型参数可采用Adam optimizer进行更新,Adam optimizer利用Adam(AdaptiveMoment Estimation,自适应矩估计算法)优化算法进行参数优化,Adam优化算法是一种结合了动量(momentum)和自适应学习率的优化算法,常用于深度学习模型的参数优化。Adam算法利用动量的概念来加速优化过程,它可以帮助优化算法在参数更新时在当前梯度方向上获得一定的“惯性”,从而减少参数更新的震荡。Adam算法还引入了自适应学习率的概念,即对每个参数使用不同的学习率。它通过计算梯度的一阶矩估计(mean)和二阶矩估计(variance)来自适应地调整每个参数的学习率。这样可以使得对于不同参数,学习率能够根据其梯度的历史表现来自动调整,从而更有效地更新参数。
本申请提供的语音质量评估方法可用于待测系统的测试,待测系统为存在语音信号的输入和输出的装置或应用等。如:需要传输语音信号的通信链路、某种音频处理软件或可与用户进行语音交互的智能音箱等。
图4为本申请实施例提供的对待测试系统进行测试的框架示意图,如图4所示,在测试过程中,首先获取参考语音信号,参考语音信号的性质和来源与上文相同。将参考语音信号输入待测试系统,获取待测试系统输出的语音信号作为待评估语音信号。待评估语音信号为参考语音信号经过待测试系统处理得到的语音信号,相关处理可能包括传输或编解码等操作,待评估语音信号与参考语音信号的差异即可反映待测试系统对语音信号的干扰情况。
将参考语音信号和待评估语音信号输入语音质量评估装置中,利用上文实施例中的语音质量评估方法得到待评估语音信号的语音质量评估结果,利用语音质量评估结果确定待测试系统的测试结果。其中,可将语音质量评估结果,如MOS值,直接作为待测试系统的评估结果;也可以将语音质量评估结果进行某种映射后,得到待测试系统的评估结果,例如,当语音质量评估结果为MOS值大于等于3时,待测系统测试结果判定为合格。
本申请实施例提供的上述方法可以应用于多种应用场景。在通信领域中,可以应用于电话通信、视频通话、网络电话(VoIP)等领域,语音质量评估帮助评估通话质量,检测语音信号中可能存在的问题(如噪音、失真等),从而改善通信质量。在音频处理领域,语音质量评估方法可用于评估音频信号处理的效果,有助于音频处理算法的优化和改进。语音质量评估方法还可以应用于语音识别系统中,用于评估语音信号的质量和清晰度,帮助提高语音识别的准确性和稳定性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种语音质量评估装置。图5示出根据一个实施例的该语音质量评估装置的示意性框图,该装置设置于图1所示架构中的服务器端。如图5所示,该装置500包括:信号获取单元501和质量评估单元502。其中各组成单元的主要功能如下:
信号获取单元501,被配置为获取待评估语音信号及其对应的参考语音信号。
质量评估单元502,被配置为利用语音质量评估模型提取参考语音信号的隐特征表示,以及提取待评估语音信号的隐特征表示,对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行融合得到融合特征表示,利用融合特征表示映射得到待评估语音信号的语音质量评估结果;其中,语音质量评估模型是利用神经网络预先训练得到的。
作为其中一种可实现的方式,质量评估单元502可以被配置为:对参考语音信号和待评估语音信号分别进行特征提取,得到参考语音信号的频谱特征和待评估语音信号的频谱特征;利用语音质量评估模型提取参考语音信号的隐特征表示,以及提取待评估语音信号的隐特征表示包括:利用语音质量评估模型对参考语音信号的频谱特征进行降采样,得到参考语音信号的隐特征表示,以及对待评估语音信号的频谱特征进行降采样,得到待评估语音信号的隐特征表示。
作为其中一种可实现的方式,频谱特征包括梅尔频谱特征。
作为其中一种可实现的方式,质量评估单元502可以在对参考语音信号和待评估语音信号分别进行特征提取,得到参考语音信号的频谱特征和待评估语音信号的频谱特征时,可以具体被配置为:
将参考语音信号和待评估语音信号分别转换为梅尔频谱;将参考语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为参考语音信号的频谱特征;以及,将待评估语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为待评估语音信号的频谱特征。
作为其中一种可实现的方式,质量评估单元502在对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行融合得到融合特征表示时,可以具体被配置为:
对参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行点乘;将点乘得到的特征表示与待评估语音信号的隐特征表示进行拼接,得到融合特征表示。
作为其中一种可实现的方式,质量评估单元502在利用融合特征表示映射得到待评估语音信号的语音质量评估结果时,可以被具体配置为:
对融合特征表示进行池化处理;将池化处理得到的特征表示映射到语音质量评分空间得到待评估语音信号的语音质量评分,或者,将池化处理得到的特征表示映射到语音质量评级空间得到待评估语音信号的语音质量评级。
作为其中一种可实现的方式,质量评估单元502可以被配置为:采用基于注意力机制的池化。
根据另一方面的实施例,提供了一种训练语音质量评估模型的装置。图6示出根据一个实施例的该训练语音质量评估模型的装置的示意性框图,该装置设置于图1所示架构中的服务器端。如图6所示,该装置600包括:样本获取单元601和模型训练单元602。其中各组成单元的主要功能如下:
样本获取单元601,被配置为获取包括多个训练样本的训练数据,训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签。
模型训练单元602,被配置为利用训练数据训练基于神经网络的语音质量评估模型,其中,语音质量评估模型提取参考语音信号样本的隐特征表示,以及提取受损语音信号样本的隐特征表示,对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用融合特征表示映射得到受损语音信号样本的语音质量评估结果;训练的目标包括:最小化受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
作为其中一种可实现的方式,模型训练单元602可以被配置为:对参考语音信号样本和受损语音信号样本分别进行特征提取,得到参考语音信号样本的频谱特征和受损语音信号样本的频谱特征;语音质量评估模型提取参考语音信号样本的隐特征表示,以及提取受损语音信号样本的隐特征表示包括:语音质量评估模型对参考语音信号样本的频谱特征进行降采样,得到参考语音信号样本的隐特征表示,以及对受损语音信号样本的频谱特征进行降采样,得到受损语音信号样本的隐特征表示。
作为其中一种可实现的方式,频谱特征包括梅尔频谱特征。
作为其中一种可实现的方式,模型训练单元602在对参考语音信号样本和受损语音信号样本分别进行特征提取,得到参考语音信号样本的频谱特征和受损语音信号样本的频谱特征时,可以被具体配置为:
将参考语音信号样本和受损语音信号样本分别转换为梅尔频谱;将参考语音信号样本对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为参考语音信号样本的频谱特征;以及,将受损语音信号样本对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为受损语音信号样本的频谱特征。
作为其中一种可实现的方式,模型训练单元602在对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行融合得到融合特征表示时,可以具体被配置为:
对参考语音信号样本的隐特征表示和受损语音信号样本的隐特征表示进行点乘;将点乘得到的特征表示与受损语音信号样本的隐特征表示进行拼接,得到融合特征表示。
作为其中一种可实现的方式,模型训练单元602在利用融合特征表示映射得到受损语音信号样本的语音质量评估结果时,可以具体被配置为:
对融合特征表示进行池化处理;将池化处理得到的特征表示映射到语音质量评分空间得到受损语音信号样本的语音质量评分,或者,将池化处理得到的特征表示映射到语音质量评级空间得到受损语音信号样本的语音质量评级。
作为其中一种可实现的方式,模型训练单元602可以被配置为:采用基于注意力机制的池化。
作为其中一种可实现的方式,模型训练单元602可以被配置为:在训练过程中,基于与训练的目标对应的损失函数取值,利用Adam optimizer优化算法更新语音质量评估模型的模型参数。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图7示例性的展示出了电子设备的架构,具体可以包括处理器710,视频显示适配器711,磁盘驱动器712,输入/输出接口713,网络接口714,以及存储器720。上述处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714,与存储器720之间可以通过通信总线730进行通信连接。
其中,处理器710可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器720可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器720可以存储用于控制电子设备700运行的操作系统721,用于控制电子设备700的低级别操作的基本输入输出系统(BIOS)722。另外,还可以存储网页浏览器723,数据存储管理系统724,以及语音质量评估装置725等等。上述语音质量评估装置725就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器720中,并由处理器710来调用执行。
输入/输出接口713用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口714用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线730包括一通路,在设备的各个组件(例如处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714,与存储器720)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714,存储器720,总线730等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种语音质量评估方法,其特征在于,所述方法包括:
获取待评估语音信号及其对应的参考语音信号;
利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果;
其中,所述语音质量评估模型是利用神经网络预先训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述参考语音信号和所述待评估语音信号分别进行特征提取,得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征;
所述利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示包括:利用所述语音质量评估模型对所述参考语音信号的频谱特征进行降采样,得到所述参考语音信号的隐特征表示,以及对所述待评估语音信号的频谱特征进行降采样,得到所述待评估语音信号的隐特征表示。
3.根据权利要求2所述的方法,其特征在于,所述频谱特征包括梅尔频谱特征;
对所述参考语音信号和所述待评估语音信号分别进行特征提取,得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征包括:
将所述参考语音信号和所述待评估语音信号分别转换为梅尔频谱;
将所述参考语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为所述参考语音信号的频谱特征;以及,
将所述待评估语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段,相邻频谱片段之间部分重叠,将该一个以上预设长度的频谱片段作为所述待评估语音信号的频谱特征。
4.根据权利要求1至3中任一项所述的方法,其特征在于,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示包括:
对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行点乘;
将所述点乘得到的特征表示与所述待评估语音信号的隐特征表示进行拼接,得到所述融合特征表示。
5.根据权利要求1至3中任一项所述的方法,其特征在于,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果包括:
对所述融合特征表示进行池化处理,所述池化处理包括基于注意力机制的池化;
将所述池化处理得到的特征表示映射到语音质量评分空间得到所述待评估语音信号的语音质量评分,或者,将所述池化处理得到的特征表示映射到语音质量评级空间得到所述待评估语音信号的语音质量评级。
6.一种测试方法,其特征在于,所述方法包括:
获取参考语音信号;
将所述参考语音信号输入待测试系统,获取所述待测试系统输出的语音信号作为待评估语音信号;
利用如权利1至5中任一项所述的方法得到所述待评估语音信号的语音质量评估结果;
利用所述语音质量评估结果确定所述待测试系统的测试结果。
7.一种训练语音质量评估模型的方法,其特征在于,所述方法包括:
获取包括多个训练样本的训练数据,所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签;
利用所述训练数据训练基于神经网络的语音质量评估模型,其中,所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果;所述训练的目标包括:最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:对所述参考语音信号样本和所述受损语音信号样本分别进行特征提取,得到所述参考语音信号样本的频谱特征和所述受损语音信号样本的频谱特征,所述频谱特征包括梅尔频谱;
所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示包括:所述语音质量评估模型对所述参考语音信号样本的频谱特征进行降采样,得到所述参考语音信号样本的隐特征表示,以及对所述受损语音信号样本的频谱特征进行降采样,得到所述所述受损语音信号样本的隐特征表示。
9.根据权利要求7所述的方法,其特征在于,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示包括:
对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行点乘;
将所述点乘得到的特征表示与所述受损语音信号样本的隐特征表示进行拼接,得到所述融合特征表示。
10.根据权利要求7至9中任一项所述的方法,其特征在于,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果包括:
对所述融合特征表示进行池化处理,所述池化处理包括基于注意力机制的池化;
将所述池化处理得到的特征表示映射到语音质量评分空间得到所述受损语音信号样本的语音质量评分,或者,将所述池化处理得到的特征表示映射到语音质量评级空间得到所述受损语音信号样本的语音质量评级。
11.一种语音质量评估装置,其特征在于,所述装置包括:
信号获取单元,被配置为获取待评估语音信号及其对应的参考语音信号;
质量评估单元,被配置为利用语音质量评估模型提取所述参考语音信号的隐特征表示,以及提取所述待评估语音信号的隐特征表示,对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果;
其中,所述语音质量评估模型是利用神经网络预先训练得到的。
12.一种训练语音质量评估模型的装置,其特征在于,所述装置包括:
样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签;
模型训练单元,被配置为利用所述训练数据训练基于神经网络的语音质量评估模型,其中,所述语音质量评估模型提取所述参考语音信号样本的隐特征表示,以及提取所述受损语音信号样本的隐特征表示,对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示,利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果;所述训练的目标包括:最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
CN202410311773.5A 2024-03-18 2024-03-18 语音质量评估方法、训练语音质量评估模型的方法及装置 Pending CN118038900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410311773.5A CN118038900A (zh) 2024-03-18 2024-03-18 语音质量评估方法、训练语音质量评估模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410311773.5A CN118038900A (zh) 2024-03-18 2024-03-18 语音质量评估方法、训练语音质量评估模型的方法及装置

Publications (1)

Publication Number Publication Date
CN118038900A true CN118038900A (zh) 2024-05-14

Family

ID=90984154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410311773.5A Pending CN118038900A (zh) 2024-03-18 2024-03-18 语音质量评估方法、训练语音质量评估模型的方法及装置

Country Status (1)

Country Link
CN (1) CN118038900A (zh)

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
US10984818B2 (en) Devices and methods for evaluating speech quality
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN115798518B (zh) 一种模型训练方法、装置、设备及介质
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN112133289B (zh) 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质
CN118038900A (zh) 语音质量评估方法、训练语音质量评估模型的方法及装置
Shen et al. MSQAT: A multi-dimension non-intrusive speech quality assessment transformer utilizing self-supervised representations
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN111477248B (zh) 一种音频噪声检测方法及装置
Islam et al. Non-intrusive objective evaluation of speech quality in noisy condition
CN114333844A (zh) 声纹识别方法、装置、介质及设备
CN114302301A (zh) 频响校正方法及相关产品
CN111951786A (zh) 声音识别模型的训练方法、装置、终端设备及介质
CN116386611B (zh) 一种教学声场环境的去噪方法
CN111105813B (zh) 朗读评分方法、装置、设备及可读存储介质
CN118038897A (zh) 语音通信质量的评估方法、装置、服务器及存储介质
EP4350695A1 (en) Apparatus, methods and computer programs for audio signal enhancement using a dataset
CN117727311A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质
CN117558279A (zh) 说话人分割模型的训练方法、说话人分割方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination