CN112967735A - 语音质量检测模型的训练方法及语音质量的检测方法 - Google Patents

语音质量检测模型的训练方法及语音质量的检测方法 Download PDF

Info

Publication number
CN112967735A
CN112967735A CN202110202612.9A CN202110202612A CN112967735A CN 112967735 A CN112967735 A CN 112967735A CN 202110202612 A CN202110202612 A CN 202110202612A CN 112967735 A CN112967735 A CN 112967735A
Authority
CN
China
Prior art keywords
network
voice
detection model
speech
quality detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110202612.9A
Other languages
English (en)
Inventor
郑羲光
郑晓昊
邢文浩
罗必达
张晨
郭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110202612.9A priority Critical patent/CN112967735A/zh
Publication of CN112967735A publication Critical patent/CN112967735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开关于一种语音质量检测模型的训练方法及语音质量的检测方法,所述训练方法包括:获取语音信号样本和所述语音信号样本通过网络传输时的网络服务质量QoS数据样本;将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;基于确定的损失函数,对所述语音质量检测模型进行训练。

Description

语音质量检测模型的训练方法及语音质量的检测方法
技术领域
本公开涉及音频技术领域,更具体地说,涉及语音质量检测模型的训练方法和训练装置及语音质量的检测方法和检测装置。
背景技术
目前,音频信号客观质量评测可以分为两种方法,即完全参考方法和无参考方法。完全参考方法是将原始无损的语音信号和音质由于各种可能原因而降低的对应音频信号(即,被打分信号)作为输入信号,通过对比原始参考信号和对应的被打分信号,取得一个差距值,根据差距的大小来给定被打分信号的质量(即分数)。例如,PESQ和Polqa就是完全参考的语音质量评测方法。完全参考方法需要参考信号才能完成打分,无法应用于实时语音通信系统中的实时语音音质监控任务。另外,无参考方法是指不需要原始语音参考,直接对输入的音频信号进行打分。然而,相对于有参考打分方法,目前业界尚无广泛采纳的较成熟的无参考音频音质打分方法。
发明内容
本公开提供语音质量检测模型的训练方法和训练装置及语音质量的检测方法和检测装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种语音质量检测模型的训练方法,包括:获取语音信号样本和所述语音信号样本通过网络传输时的网络服务质量QoS数据样本;将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;基于确定的损失函数,对所述语音质量检测模型进行训练。
可选地,所述语音信号样本的音频特征可通过对所述语音信号样本进行时频变换而获得。
可选地,所述网络QoS数据可包括网络抖动率、网络丢包率、网络上下行带宽、网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层;其中,所述将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数,可包括:将所述语音信号样本的音频特征输入所述卷积层,获得卷积后的特征向量;将所述卷积后的特征向量与所述网络QoS数据样本串联,得到串联特征;将所述串联特征输入第一全连接层,得到变换特征;将所述变换特征输入所述门控循环单元层,得到时序特征;将所述时序特征输入第二全连接层,得到所述估计的语音质量分数。
可选地,所述真实语音质量分数可以是预先标注好的所述语音信号样本在通过相应所述网络QoS数据样本条件下的网络传输后的语音信号的主观感知相关的语音质量分数。
可选地,所述基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数,可包括:计算所述真实语音质量分数和所述估计的语音质量分数的均方误差,作为所述损失函数。
根据本公开实施例的第二方面,提供一种语音质量的检测方法,包括:获取待检测语音信号和所述待检测语音信号通过网络传输时的实时网络服务质量QoS数据;将所述待检测语音信号的音频特征和所述实时网络QoS数据输入根据本公开的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
可选地,所述待检测语音信号的音频特征可通过对所述待检测语音信号进行时频变换而获得。
可选地,所述实时网络QoS数据可包括实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层;其中,将所述待检测语音信号的音频特征和所述实时网络QoS数据输入根据本公开的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数,包括:将所述待检测语音信号的音频特征输入所述卷积层,获得卷积后的特征向量;将所述卷积后的特征向量与所述实时网络QoS数据串联,得到串联特征;将所述串联特征输入第一全连接层,得到变换特征;将所述变换特征输入所述门控循环单元层,得到时序特征;将所述时序特征输入第二全连接层,得到所述针对所述待检测语音信号的语音质量分数。
根据本公开实施例的第三方面,提供一种语音质量检测模型的训练方法,包括:获取语音信号样本通过网络传输时的网络服务质量QoS数据样本;将所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;基于语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;基于确定的损失函数,对所述语音质量检测模型进行训练。
可选地,所述网络QoS数据可包括网络抖动率、网络丢包率、网络上下行带宽、网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括:第一全连接层、门控循环单元层和第二全连接层;其中,所述将所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数,可包括:将所述网络QoS数据样本输入到第一全连接层,得到变换特征;将所述变换特征输入到所述门控循环单元层,得到时序特征;将所述时序特征输入到第二全连接层,得到所述估计的语音质量分数。
可选地,所述真实语音质量分数可以是预先标注好的所述语音信号样本在通过相应所述网络QoS数据样本条件下的网络传输后的语音信号的主观感知相关的语音质量分数。
可选地,所述基于语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数,可包括:计算所述真实语音质量分数和所述估计的语音质量分数的均方误差,作为所述损失函数。
根据本公开实施例的第四方面,提供一种语音质量的检测方法,包括:获取待检测语音信号通过网络传输时的实时网络服务质量QoS数据;将所述实时网络QoS数据输入根据本公开的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
可选地,所述实时网络QoS数据可包括实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括:第一全连接层、门控循环单元层和第二全连接层;其中,所述将所述实时网络QoS数据输入到所述语音质量检测模型,得到估计的语音质量分数,可包括:将所述实时网络QoS数据输入到第一全连接层,得到变换特征;将所述变换特征输入到所述门控循环单元层,得到时序特征;将所述时序特征输入到第二全连接层,得到针对所述待检测语音信号的语音质量分数。
根据本公开实施例的第五方面,提供一种语音质量的检测方法,包括:获取待检测语音信号通过网络传输时的实时处理负载信息;获取所述实时处理负载信息与第一负载阈值的比较结果;在所述实时处理负载信息小于第一负载阈值的情况下,执行第一模式的检测方法;在所述实时处理负载信息大于或等于第一负载阈值的情况下,执行第二模式的检测方法;其中,第一模式的检测方法包括完全模式的检测方法,第二模式的检测方法包括简化模式的检测方法。
可选地,所述检测方法还可包括:获取所述实时处理负载信息与第二负载阈值的比较结果,其中,第二负载阈值大于第一负载阈值;其中,在所述实时处理负载信息小于第一负载阈值的情况下,执行第一模式的检测方法,在所述实时处理负载信息大于或等于第一负载阈值且小于第二负载阈值的情况下,执行第二模式的检测方法,在所述实时处理负载信息大于第二负载阈值的情况下,终止执行所述语音质量的检测方法。
可选地,所述处理负载信息可包括待检测语音信号通过网络传输时对所述待检测语音信号的每一语音帧执行处理所花费的时长信息;第一负载阈值可为预设的第一时长阈值;第二负载阈值可为预设的第二时长阈值。
根据本公开实施例的第六方面,提供一种语音质量检测模型的训练装置,包括:获取单元,被配置为获取语音信号样本和所述语音信号样本通过网络传输时的网络服务质量QoS数据样本;估计单元,被配置为将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;计算单元,被配置为基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;训练单元,被配置为基于确定的损失函数,对所述语音质量检测模型进行训练。
可选地,所述语音信号样本的音频特征可通过对所述语音信号样本进行时频变换而获得。
可选地,所述网络QoS数据可包括网络抖动率、网络丢包率、网络上下行带宽、网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层;其中,估计单元可被配置为:将所述语音信号样本的音频特征输入所述卷积层,获得卷积后的特征向量;将所述卷积后的特征向量与所述网络QoS数据样本串联,得到串联特征;将所述串联特征输入第一全连接层,得到变换特征;将所述变换特征输入所述门控循环单元层,得到时序特征;将所述时序特征输入第二全连接层,得到所述估计的语音质量分数。
可选地,所述真实语音质量分数可以是预先标注好的所述语音信号样本在通过相应所述网络QoS数据样本条件下的网络传输后的语音信号的主观感知相关的语音质量分数。
可选地,计算单元可被配置为:计算所述真实语音质量分数和所述估计的语音质量分数的均方误差,作为所述损失函数。
根据本公开实施例的第七方面,提供一种语音质量的检测装置,包括:获取单元,被配置为获取待检测语音信号和所述待检测语音信号通过网络传输时的实时网络服务质量QoS数据;估计单元,被配置为将所述待检测语音信号的音频特征和所述实时网络QoS数据输入根据本公开的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
可选地,所述待检测语音信号的音频特征可通过对所述待检测语音信号进行时频变换而获得。
可选地,所述实时网络QoS数据可包括实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层;其中,估计单元可被配置为:将所述待检测语音信号的音频特征输入所述卷积层,获得卷积后的特征向量;将所述卷积后的特征向量与所述实时网络QoS数据串联,得到串联特征;将所述串联特征输入第一全连接层,得到变换特征;将所述变换特征输入所述门控循环单元层,得到时序特征;将所述时序特征输入第二全连接层,得到所述针对所述待检测语音信号的语音质量分数。
根据本公开实施例的第八方面,提供一种语音质量检测模型的训练装置,包括:获取单元,被配置为获取语音信号样本通过网络传输时的网络服务质量QoS数据样本;估计单元,被配置为将所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;计算单元,被配置为基于语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;训练单元,被配置为基于确定的损失函数,对所述语音质量检测模型进行训练。
可选地,所述网络QoS数据可包括网络抖动率、网络丢包率、网络上下行带宽、网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括:第一全连接层、门控循环单元层和第二全连接层;其中,估计单元可被配置为:将所述网络QoS数据样本输入到第一全连接层,得到变换特征;将所述变换特征输入到所述门控循环单元层,得到时序特征;将所述时序特征输入到第二全连接层,得到所述估计的语音质量分数。
可选地,所述真实语音质量分数可以是预先标注好的所述语音信号样本在通过相应所述网络QoS数据样本条件下的网络传输后的语音信号的主观感知相关的语音质量分数。
可选地,计算单元可被配置为:计算所述真实语音质量分数和所述估计的语音质量分数的均方误差,作为所述损失函数。
根据本公开实施例的第九方面,提供一种语音质量的检测装置,其特征在于,包括:获取单元,被配置为获取待检测语音信号通过网络传输时的实时网络服务质量QoS数据;估计单元,被配置为将所述实时网络QoS数据输入根据本公开的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
可选地,所述实时网络QoS数据可包括实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟中的至少一个。
可选地,所述语音质量检测模型可包括:第一全连接层、门控循环单元层和第二全连接层;其中,估计单元可被配置为:将所述实时网络QoS数据输入到第一全连接层,得到变换特征;将所述变换特征输入到所述门控循环单元层,得到时序特征;将所述时序特征输入到第二全连接层,得到针对所述待检测语音信号的语音质量分数。
根据本公开实施例的第十方面,提供一种语音质量的检测装置,包括:第一获取单元,被配置为获取待检测语音信号通过网络传输时的实时处理负载信息;第二获取单元,被配置为获取所述实时处理负载信息与第一负载阈值的比较结果;检测单元,被配置为,在所述实时处理负载信息小于第一负载阈值的情况下,执行第一模式的检测方法,在所述实时处理负载信息大于或等于第一负载阈值的情况下,执行第二模式的检测方法;其中,第一模式的检测方法包括完全模式的检测方法,第二模式的检测方法包括简化模式的检测方法。
可选地,第二获取单元还可被配置为:获取所述实时处理负载信息与第二负载阈值的比较结果,其中,第二负载阈值大于第一负载阈值;其中,检测单元可被配置为:在所述实时处理负载信息小于第一负载阈值的情况下,执行第一模式的检测方法,在所述实时处理负载信息大于或等于第一负载阈值且小于第二负载阈值的情况下,执行第二模式的检测方法,在所述实时处理负载信息大于第二负载阈值的情况下,终止执行所述语音质量的检测方法。
可选地,所述处理负载信息可包括待检测语音信号通过网络传输时对所述待检测语音信号的每一语音帧执行处理所花费的时长信息;第一负载阈值可为预设的第一时长阈值;第二负载阈值可为预设的第二时长阈值。
根据本公开实施例的第十一方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音质量检测模型的训练方法或语音质量的检测方法。
根据本公开实施例的第十二方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音质量检测模型的训练方法或语音质量的检测方法。
根据本公开实施例的第十三方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的语音质量检测模型的训练方法或语音质量的检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的语音质量检测模型的训练方法和训练装置及语音质量的检测方法和检测装置,可使用QoS数据等客观指标参与语音质量检测,可提高模型在实际场景下的准确性和鲁棒性,此外,提供在完全模式和简化模式之间进行切换的语音质量的检测方法,根据当前设备的处理能力灵活地调整语音质量检测的模式,能够应用于不同算力的终端设备,也可应用于实时语音通信系统中的语音音质监控任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的语音质量检测方法的构思示意图。
图2是示出根据本公开的示例性实施例的语音质量检测模型的训练方法的流程图。
图3是示出根据本公开的示例性实施例的语音质量检测模型的结构示意图。
图4是示出根据本公开的示例性实施例的语音质量的检测方法的流程图。
图5是示出根据本公开的另一示例性实施例的语音质量检测模型的训练方法的流程图。
图6是示出根据本公开的另一示例性实施例的语音质量检测模型的结构示意图。
图7是示出根据本公开的另一示例性实施例的语音质量的检测方法的流程图。
图8是示出根据本公开的另一示例性实施例的语音质量的检测方法的流程图。
图9是示出根据本公开的示例性实施例的语音质量的检测方法的流程图。
图10是示出根据本公开的示例性实施例的语音质量检测模型的训练装置的框图。
图11是示出根据本公开的示例性实施例的语音质量的检测装置的框图。
图12是示出根据本公开的另一示例性实施例的语音质量检测模型的训练装置的框图。
图13是示出根据本公开的另一示例性实施例的语音质量的检测装置的框图。
图14是示出根据本公开的另一示例性实施例的语音质量的检测装置的框图。
图15是根据本公开的示例性实施例的电子设备1500的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
通常,音频信号客观质量评测可包括完全参考方法和无参考方法。完全参考方法需要依赖于参考信号才能完成打分,有明显的缺陷,无法应用于实时语音音质的检测场景。而无参考方法无需依赖于参考信号就能完成打分,可应用于实时语音音质的检测场景。但是,通过可基于深度学习的方法来实现无参考方法,但是目前没有广泛采纳的成熟的方法。例如,现有的基于深度的方法可从通过超宽带语音通信网络传输的音频信号进行质量预测,但存在复杂度偏高,无法在移动端实现处理,且在实际使用场景下效果不稳定预测不准确的问题。
为了解决上述技术问题,本公开提出了新颖的语音质量的检测方法和语音质量检测模型的训练方法。具体地说,本公开提出了两种模式的语音质量检测模型,即,完全模式(fullmode)的语音质量检测模型和简化模式(lite mode)的语音质量检测模型,在完全模式下,可使用网络服务质量(Quality of Service,QoS)数据等客观指标辅助使用通过网络的语音信号的语音质量检测;在简化模式下,可直接使用QoS数据等客观指标执行语音质量检测。在使用QoS数据等客观指标参与语音质量检测可提高模型在实际场景下的准确性和鲁棒性。此外,使用QoS数据辅助语音质量检测的完全模式与直接使用QoS数据执行语音质量检测的简化模式相比,完全模式的评测效果将好于简化模式,而完全模式的复杂度高,其所需要的算力和处理时间要高于简化模式,因此,本公开提出一种可在完全模式和简化模式之间进行切换的语音质量的检测方法,根据当前设备的处理能力灵活地调整语音质量检测的模式,能够应用于不同算力的终端设备,也可应用于实时语音通信系统中的语音音质监控任务。
下面,将参照图1至图15来详细描述根据本公开的音质量检测模型的训练方法和训练装置以及语音质量的检测方法和检测装置。
图1是示出根据本公开的示例性实施例的语音质量检测方法的构思示意图。其中,图1(a)示出完全模式下的语音质量检测方法的示意图,图1(b)示出简化模式下的语音质量检测方法的示意图,图1(c)示出可在完全模式和简化模式之间切换的语音质量检测方法的示意图。
参照图1(a),在完全模式下,可对语音信号进行特征提取得到音频特征,例如,对语音信号进行时频变换(例如,短时傅立叶变换(STFT)或修正离散余弦变换(MDCT)等)以获得幅度谱和/或相位谱信息,作为音频特征。随后,可将语音信号的音频特征作为输入,并将网络相关的QoS数据(QoS序列)作为辅助输入,进入完全模式的语音质量检测模型(可称为完全语音质量检测模型),通过完全语音质量检测模型输出估计的语音质量分数。这样,完全语音质量检测模型利用语音信号的音频特征和网络QoS数据来估计语音质量分数,并利用预先标注好的主观感知相关的语音质量分数,来训练完全语音质量检测模型。
参照图1(b),在简化模式下,无需使用语音信号的音频特征,而仅将网络QoS数据(QoS序列)输入简化模式的语音质量检测模型(可称为简化语音质量检测模型),就可通过简化语音质量检测模型输出估计的语音质量分数。这样,简化语音质量检测模型利用网络QoS数据来估计语音质量分数,并利用预先标注好的主观感知相关的语音质量分数,来训练简化语音质量检测模型。
参照图1(c),可根据当前设备的处理能力在完全模式和简化模式之间进行切换。在当前设备的处理负载低或处理能力允许时,可利用语音信号和网络QoS数据(QoS序列),在完全模式下对语音信号执行语音质量检测,得到语音质量分数。在当前设备的处理负载高或处理能力差(例如,低端手机)时,可复用网络QoS数据,在简化模式下对语音信号执行语音质量检测,得到语音质量分数。此外,如果当前设备的处理负载过高或处理能力过差,不足以支持语音质量检测或者执行语音质量检测会影响于更高优先级的处理任务的执行或用户体验时,可终止执行语音质量检测。
图2是示出根据本公开的示例性实施例的语音质量检测模型的训练方法的流程图。图2所示的训练方法适用于根据本公开的完全模式的语音质量检测模型。
参照图2,在步骤201,可获取语音信号样本和语音信号样本通过网络传输时的网络QoS数据样本。
根据本公开的示例性实施例,语音信号样本可从用于训练语音质量检测模型的语音信号样本集中被获取。每个语音信号样本可具有预先标注好的真实语音质量分数的标签。例如,真实语音质量分数可以是人工质量标注的分数,即,将语音信号样本在相应网络QoS数据样本的网络条件下通过网络传输后的语音信号的主观感知相关的语音质量分数。这里,主观感知相关的语音质量分数可以是由打分者在听到语音信号样本在通过网络传输后的语音信号时根据主观感受到的语音质量而打出的分数。又例如,真实语音质量分数可以是使用完全参考评价系统基于语音信号样本和相应网络QoS数据样本进行打分得到的分数。
根据本公开的示例性实施例,网络QoS数据样本可以是语音信号样本通过网络传输时采集到的网络QoS数据样本。例如,网络QoS数据样本可以是将语音信号样本通过实际网络传输的情况下记录的实际网络传输中的QoS数据。又例如,网络QoS数据样本可以是将语音信号样本通过在模拟网损的模拟网络传输的情况下记录的实时QoS数据。例如,网络QoS数据可包括,但不限于,网络抖动率、网络丢包率、网络上下行带宽、网络延迟等中的至少一个。
在步骤202,可将语音信号样本的音频特征和网络QoS数据样本输入到语音质量检测模型,得到估计的语音质量分数。根据本公开的另一示例性实施例,也可对网络QoS数据样本进行特征提取,获得网络QoS数据样本的特征,并将语音信号样本的音频特征和网络QoS数据样本的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,语音信号样本的音频特征可通过时频变换(例如,短时傅立叶变换(STFT)或修正离散余弦变换(MDCT)等)以将语音信号从时域变换到时频域的方法而得到。
例如,将输入的语音信号S(t)使用STFT变换得到时频域(复数)信号S(n,k),可被表示为下面的公式(1):
S(n,k)=STFT(S(t))=A(n,k)*eiθ(n,k) (1)
其中,A(n,k)可表示信号幅度,θ(n,k)可表示信号相位。
根据本公开的示例性实施例,可将变换后得到的信号幅度和/或信号相位作为语音信号样本的音频特征。
根据本公开的另一示例性实施例,可对变换后得到的信号幅度和/或信号相位进行加工,得到其它音频特征(例如,梅尔频率倒谱系数(mel-frequency cepstrumcoefficient(mfcc))、梅尔频谱(melspectrogram)、音频频谱对比度(spectralcontrast)、音频频谱(spectrogram)等),作为语音信号样本的音频特征。由于这些音频特征由时频转换后信号加工得来,故具体算法可以跟据实际使用需要。例如,可将输入的语音信号S(t)使用MDCT变换得到实数结果,可被表示为下面的公式(2):
S(n,k)=MDCT(S(t))=M(n,k) (2)
根据本公开的示例性实施例,语音质量检测模型可具有,但不限于,卷积神经网络(CNN)和长短期记忆网络(LSTM)相结合的网络结构。例如,图3是示出根据本公开的示例性实施例的语音质量检测模型的结构示意图。参照图3,语音质量检测模型可包括卷积层、第一全连接层(Dense)、门控循环单元层和第二全连接层(Dense),其中,卷积层可由,但不限于,四个二维卷积层(2D Conv)构成,门控循环单元层可由,但不限于,两个门控循环单元层(GRU)构成。根据本公开的示例性实施例,可将音频特征(例如,梅尔频谱)输入卷积层,获得卷积后的特征向量。例如,音频特征可批量输入卷积层,批量大小(batch size)可为16。卷积层中的四个二维卷积层的卷积核数量(Filters)可依次为64、128、128、128,卷积核大小(Kernel)可均为3×3,激活函数(Activation)可为ELU,批归一化(Batch Normalization)可为Channel,池化大小可依次为(2,2)、(4,2)、(4,2)、(4,2)、Dropout可为0.1。随后,可将卷积层输出的卷积后的特征向量与网络QoS数据样本(或网络QoS数据样本的特征)串联,得到串联特征,并将串联特征输入第一全连接层,得到变换特征。例如,假设音频特征每帧具有k个频点,网络QoS数据样本具有j个参数,可将k个频点的音频特征和j个参数串联(拼接),获得维度为k+j的串联特征(拼接特征)。随后,可将第一全连接层输出的变换特征输入到门控循环单元层,得到时序特征。例如,两个GRU层可以是两个32单元的GRU,Dropout可为0.3。随后,可将门控循环单元层输出的时序特征输入第二全连接层,得到估计的语音质量分数。例如,第二全连接层可以是32单元的全连接层,激活函数(Activation)可为Softmax。此外,对所述语音质量检测模型进行训练时,可将损失函数设置为真值与估计值的均方误差,优化器选择Adam,学习率可设置为0.0001,Patience可设置为10。
当然,本公开的语音质量检测模型不限于上述模型,还可使用任何可能的模型来实现完全模式的语音质量检测。
返回参照图2,在步骤203,可基于语音信号样本的真实语音质量分数和估计的语音质量分数,确定语音质量检测模型的损失函数。
根据本公开的示例性实施例,语音信号样本的真实语音质量分数可以是人工质量标注的分数和/或使用完全参考评价系统进行打分的分数。这里,人工质量标注的分数可指将语音信号样本在相应网络QoS数据样本的网络条件下通过网络传输后的语音信号的主观感知相关的语音质量分数。使用完全参考评价系统进行打分的分数可以是使用完全参考评价系统基于语音信号样本和相应网络QoS数据样本进行打分得到的分数。
根据本公开的示例性实施例,可计算真实语音质量分数和估计的语音质量分数的均方误差(MSE),作为损失函数。当批量训练时,可获得多个估计的语音质量分数,因此,可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差,作为损失函数。
在步骤204,可基于确定的损失函数,对语音质量检测模型进行训练。可基于确定的损失函数,对语音质量检测模型的参数进行调整,以对语音质量检测模型进行训练。
图4是示出根据本公开的示例性实施例的语音质量的检测方法的流程图。如图4所示的语音质量的检测方法是基于根据本公开的完全模式的语音质量检测模型而执行的。
参照图4,在步骤401,可获取待检测语音信号和所述待检测语音信号通过网络传输时的实时网络QoS数据。例如,在需要对目标网络环境下的语音传输质量进行检测的情况下,可获取通过目标网络传输的语音信号以及在语音信号通过目标网络传输时的实时网络QoS数据。例如,实时网络QoS数据可包括,但不限于,实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟等中的至少一个。
在步骤402,可将待检测语音信号的音频特征和实时网络QoS数据输入如图2所述的训练方法训练得到语音质量检测模型,得到针对待检测语音信号的语音质量分数。根据本公开的另一示例性实施例,也可对实时网络QoS数据进行特征提取,获得实时网络QoS数据的特征,并将语音信号样本的音频特征和实时网络QoS数据的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,待检测语音信号的音频特征可通过对待检测语音信号进行时频变换而获得。待检测语音信号的音频特征的获得方式与上述的语音信号样本的音频特征的获得相同或相似,因此,在此不再赘述。
根据本公开的示例性实施例,语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层,对语音质量检测模型的具体描述可如上所述,在此不再赘述。例如,可将待检测语音信号的音频特征输入卷积层,获得卷积后的特征向量;将卷积后的特征向量与实时网络QoS数据(或实时网络QoS数据的特征)串联,得到串联特征;将串联特征输入第一全连接层,得到变换特征;将变换特征输入门控循环单元层,得到时序特征;将时序特征输入第二全连接层,得到针对所述待检测语音信号的语音质量分数。
图5是示出根据本公开的另一示例性实施例的语音质量检测模型的训练方法的流程图。图5所示的训练方法适用于根据本公开的简化模式的语音质量检测模型。
参照图5,在步骤501,可获取语音信号样本通过网络传输时的网络QoS数据样本。这里,语音信号样本和网络QoS数据样本的描述如上所述,在此不再赘述。
在步骤502,可将网络QoS数据样本输入到语音质量检测模型,得到估计的语音质量分数。根据本公开的另一示例性实施例,也可对网络QoS数据样本进行特征提取,将提出的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,语音质量检测模型可具有,但不限于,长短期记忆网络(LSTM)的网络结构。例如,图6是示出根据本公开的另一示例性实施例的语音质量检测模型的结构示意图。参照图6,语音质量检测模型可包括第一全连接层(Dense)、门控循环单元层(GRU)和第二全连接层(Dense),其中,门控循环单元层可由,但不限于,两个门控循环单元层(GRU)构成。根据本公开的示例性实施例,可将网络QoS数据样本(或网络QoS数据样本提取的特征)输入第一全连接层,得到变换特征。例如,第一全连接层可以是32单元的全连接层。随后,可将第一全连接层输出的变换特征输入到门控循环单元层,得到时序特征。例如,两个GRU层可以是两个32单元的GRU,Dropout可为0.3。随后,可将门控循环单元层输出的时序特征输入到第二全连接层,得到估计的语音质量分数。例如,第二全连接层可以是32单元的全连接层,激活函数(Activation)可为Softmax。此外,对所述语音质量检测模型进行训练时,可将损失函数设置为真值与估计值的均方误差,优化器选择Adam,学习率可设置为0.0001,Patience可设置为10。
当然,本公开的语音质量检测模型不限于上述模型,还可使用任何可能的模型来实现简化模式的语音质量检测。
返回参照图5,在步骤503,可基于语音信号样本的真实语音质量分数和估计的语音质量分数,确定语音质量检测模型的损失函数。
根据本公开的示例性实施例,语音信号样本的真实语音质量分数可如上所述,在此不再赘述。
根据本公开的示例性实施例,可计算真实语音质量分数和估计的语音质量分数的均方误差(MSE),作为损失函数。当批量训练时,可获得多个估计的语音质量分数,因此,可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差,作为损失函数。
在步骤504,可基于确定的损失函数,对语音质量检测模型进行训练。可基于确定的损失函数,对语音质量检测模型的参数进行调整,以对语音质量检测模型进行训练。
图7是示出根据本公开的另一示例性实施例的语音质量的检测方法的流程图。如图7所示的语音质量的检测方法是基于根据本公开的简化模式的语音质量检测模型而执行的。
参照图7,在步骤701,可获取待检测语音信号通过网络传输时的实时网络QoS数据。例如,在需要对目标网络环境下的语音传输质量进行检测的情况下,可获取在语音信号通过目标网络传输时的实时网络QoS数据。例如,实时网络QoS数据可包括,但不限于,实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟等中的至少一个。
在步骤702,可将待检测语音信号的音频特征和实时网络QoS数据输入如图5所述的训练方法训练得到语音质量检测模型,得到针对待检测语音信号的语音质量分数。根据本公开的另一示例性实施例,也可对实时网络QoS数据进行特征提取,获得实时网络QoS数据的特征,并将实时网络QoS数据的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,待检测语音信号的音频特征可通过对待检测语音信号进行时频变换而获得。待检测语音信号的音频特征的获得方式与上述的语音信号样本的音频特征的获得相同或相似,因此,在此不再赘述。
根据本公开的示例性实施例,语音质量检测模型可包括第一全连接层、门控循环单元层和第二全连接层,对语音质量检测模型的具体描述可如上所述,在此不再赘述。例如,可将实时网络QoS数据(或实时网络QoS数据提取的特征)输入到第一全连接层,得到变换特征;将变换特征输入到门控循环单元层,得到时序特征;将时序特征输入到第二全连接层,得到针对待检测语音信号的语音质量分数。
图8是示出根据本公开的另一示例性实施例的语音质量的检测方法的流程图。
参照图8,在步骤801,可获取待检测语音信号通过网络传输时的实时处理负载信息。这里,实时处理负载信息可指通过网络传输接收待检测语音信号的终端设备的实时处理负载信息。例如,处理负载信息可指待检测语音信号通过网络传输时对终端设备对待检测语音信号的每一语音帧执行处理所花费的时长信息(例如,5ms)。
在步骤802,可获取实时处理负载信息与第一负载阈值的比较结果。在处理负载信息是处理每一语音帧花费的时长信息的情况下,第一负载阈值可以是预设的第一时长阈值(例如,10ms)。
在步骤803,在实时处理负载信息小于第一负载阈值的情况下,可执行第一模式的检测方法。在步骤804,在实时处理负载信息大于或等于第一负载阈值的情况下,可执行第二模式的检测方法。这里,第一模式可指完全模式,即,第一模式的检测方法可指基于根据本公开的完全模式的语音质量检测模型而执行的检测方法。第二模式可指简化模式,即,第二模式的检测方法可指基于根据本公开的简化模式的语音质量检测模型而执行的检测方法。
例如,在第一负载阈值被预设为10ms的情况下,当实时帧处理时长为5ms,即,实时帧处理时长<第一负载阈值时,可执行完全模式的检测方法;当实时帧处理时长为12ms,即,实时帧处理时长>第一负载阈值时,可执行简化模式的检测方法。
此外,当终端设备在实时进行处理时,假设有两个任务,一个是实时语音降噪,另一个是实时音质打分。实时语音降噪的优先级比实时音质打分的优先级更高。因此,计算一次语音降噪推理的时间是否大于阈值(影响实时语音降噪的阈值)。如果连续n次大于此阈值则关闭实时音质打分。因此,根据本公开的示例性实施例的语音质量的检测方法还可包括:获取实时处理负载信息与第二负载阈值的比较结果,其中,第二负载阈值大于第一负载阈值。在处理负载信息是处理每一语音帧花费的时长信息的情况下,第一负载阈值可以是预设的第一时长阈值(例如,10ms),第二负载阈值以是预设的第二时长阈值(例如,15ms)。例如,图9是示出根据本公开的示例性实施例的语音质量的检测方法的流程图。参照图9,图9的步骤901与图8的步骤801相同,在此不再赘述。在步骤902,可获取实时处理负载信息与第一负载阈值和第二负载阈值的比较结果。在步骤903,在实时处理负载信息小于第一负载阈值的情况下,可执行第一模式的检测方法。在步骤904,在实时处理负载信息大于或等于第一负载阈值且小于第二负载阈值的情况下,执行第二模式的检测方法。在步骤905,在实时处理负载信息大于第二负载阈值的情况下,终止执行语音质量的检测方法。
例如,在第一负载阈值被预设为10ms且第二负载阈值被预设为15ms的情况下,当实时帧处理时长为5ms,即,实时帧处理时长<第一负载阈值时,可执行完全模式的检测方法;当实时帧处理时长为12ms,即,第一负载阈值<实时帧处理时长<第二负载阈值时,可执行简化模式的检测方法;当实时帧处理时长为18ms,即,实时帧处理时长>第二负载阈值时,可终止执行语音质量检测。
图10是示出根据本公开的示例性实施例的语音质量检测模型的训练装置的框图。图10所示的训练装置适用于根据本公开的完全模式的语音质量检测模型。
参照图10,根据本公开的示例性实施例的语音质量检测模型的训练装置1000可包括获取单元1001、估计单元1002、计算单元1003和训练单元1104。
获取单元1001可获取语音信号样本和所述语音信号样本通过网络传输时的网络QoS数据样本。
根据本公开的示例性实施例,语音信号样本可从用于训练语音质量检测模型的语音信号样本集中被获取。每个语音信号样本可具有预先标注好的真实语音质量分数的标签。例如,真实语音质量分数可以是人工质量标注的分数,即,将语音信号样本在相应网络QoS数据样本的网络条件下通过网络传输后的语音信号的主观感知相关的语音质量分数。这里,主观感知相关的语音质量分数可以是由打分者在听到语音信号样本在通过网络传输后的语音信号时根据主观感受到的语音质量而打出的分数。又例如,真实语音质量分数可以是使用完全参考评价系统基于语音信号样本和相应网络QoS数据样本进行打分得到的分数。
根据本公开的示例性实施例,网络QoS数据样本可以是语音信号样本通过网络传输时采集到的网络QoS数据样本。例如,网络QoS数据样本可以是将语音信号样本通过实际网络传输的情况下记录的实际网络传输中的QoS数据。又例如,网络QoS数据样本可以是将语音信号样本通过在模拟网损的模拟网络传输的情况下记录的实时QoS数据。例如,网络QoS数据可包括,但不限于,网络抖动率、网络丢包率、网络上下行带宽、网络延迟等中的至少一个。
估计单元1002可将语音信号样本的音频特征和网络QoS数据样本输入到语音质量检测模型,得到估计的语音质量分数。根据本公开的另一示例性实施例,也可对网络QoS数据样本进行特征提取,获得网络QoS数据样本的特征,并估计单元1002将语音信号样本的音频特征和网络QoS数据样本的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,语音信号样本的音频特征可通过时频变换(例如,短时傅立叶变换(STFT)或修正离散余弦变换(MDCT)等)以将语音信号从时域变换到时频域的方法而得到。
根据本公开的示例性实施例,可将变换后得到的信号幅度和/或信号相位作为语音信号样本的音频特征。
根据本公开的另一示例性实施例,可对变换后得到的信号幅度和/或信号相位进行加工,得到其它音频特征(例如,梅尔频率倒谱系数(mel-frequency cepstrumcoefficient(mfcc))、梅尔频谱(melspectrogram)、音频频谱对比度(spectralcontrast)、音频频谱(spectrogram)等),作为语音信号样本的音频特征。由于这些音频特征由时频转换后信号加工得来,故具体算法可以跟据实际使用需要。
根据本公开的示例性实施例,语音质量检测模型可具有,但不限于,卷积神经网络(CNN)和长短期记忆网络(LSTM)相结合的网络结构,例如,如图3所示的语音质量检测模型。语音质量检测模型可包括卷积层、第一全连接层(Dense)、门控循环单元层和第二全连接层(Dense),其中,卷积层可由,但不限于,四个二维卷积层(2D Conv)构成,门控循环单元层可由,但不限于,两个门控循环单元层(GRU)构成。根据本公开的示例性实施例,可将音频特征(例如,梅尔频谱)输入卷积层,获得卷积后的特征向量。随后,可将卷积层输出的卷积后的特征向量与网络QoS数据样本(或网络QoS数据样本的特征)串联,得到串联特征,并将串联特征输入第一全连接层,得到变换特征。随后,可将第一全连接层输出的变换特征输入到门控循环单元层,得到时序特征。随后,可将门控循环单元层输出的时序特征输入第二全连接层,得到估计的语音质量分数。
计算单元1003可基于语音信号样本的真实语音质量分数和估计的语音质量分数,确定语音质量检测模型的损失函数。
根据本公开的示例性实施例,语音信号样本的真实语音质量分数可以是人工质量标注的分数和/或使用完全参考评价系统进行打分的分数。这里,人工质量标注的分数可指将语音信号样本在相应网络QoS数据样本的网络条件下通过网络传输后的语音信号的主观感知相关的语音质量分数。使用完全参考评价系统进行打分的分数可以是使用完全参考评价系统基于语音信号样本和相应网络QoS数据样本进行打分得到的分数。
根据本公开的示例性实施例,计算单元1003可计算真实语音质量分数和估计的语音质量分数的均方误差(MSE),作为损失函数。当批量训练时,可获得多个估计的语音质量分数,因此,计算单元1003可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差,作为损失函数。
训练单元1004可基于确定的损失函数,对语音质量检测模型进行训练。训练单元1004可基于确定的损失函数,对语音质量检测模型的参数进行调整,以对语音质量检测模型进行训练。
图11是示出根据本公开的示例性实施例的语音质量的检测装置的框图。如图11所示的语音质量的检测装置是基于根据本公开的完全模式的语音质量检测模型而操作的。
参照图11,根据本公开的示例性实施例的语音质量的检测装置1100可包括获取单元1101和估计单元1102。
获取单元1101可获取待检测语音信号和所述待检测语音信号通过网络传输时的实时网络服务质量QoS数据。例如,在需要对目标网络环境下的语音传输质量进行检测的情况下,获取单元1101可获取通过目标网络传输的语音信号以及在语音信号通过目标网络传输时的实时网络QoS数据。例如,实时网络QoS数据可包括,但不限于,实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟等中的至少一个。
估计单元1102可将待检测语音信号的音频特征和实时网络QoS数据输入如图2所述的训练方法训练得到语音质量检测模型,得到针对待检测语音信号的语音质量分数。根据本公开的另一示例性实施例,也可对实时网络QoS数据进行特征提取,获得实时网络QoS数据的特征,并估计单元1102将语音信号样本的音频特征和实时网络QoS数据的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,待检测语音信号的音频特征可通过对待检测语音信号进行时频变换而获得。待检测语音信号的音频特征的获得方式与上述的语音信号样本的音频特征的获得相同或相似,因此,在此不再赘述。
根据本公开的示例性实施例,语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层,对语音质量检测模型的具体描述可如上所述,在此不再赘述。例如,估计单元1102可将待检测语音信号的音频特征输入卷积层,获得卷积后的特征向量;将卷积后的特征向量与实时网络QoS数据(或实时网络QoS数据的特征)串联,得到串联特征;将串联特征输入第一全连接层,得到变换特征;将变换特征输入门控循环单元层,得到时序特征;将时序特征输入第二全连接层,得到针对待检测语音信号的语音质量分数。
图12是示出根据本公开的另一示例性实施例的语音质量检测模型的训练装置的框图。图12所示的训练装置适用于根据本公开的简化模式的语音质量检测模型。
参照图12,根据本公开的另一示例性实施例的语音质量检测模型的训练装置1200可包括获取单元1201、估计单元1202、计算单元1203和训练单元1204。
获取单元1201可获取语音信号样本通过网络传输时的网络服务质量QoS数据样本。这里,语音信号样本和网络QoS数据样本的描述如上所述,在此不再赘述。
估计单元1202可将网络QoS数据样本输入到语音质量检测模型,得到估计的语音质量分数。根据本公开的另一示例性实施例,也可对网络QoS数据样本进行特征提取,估计单元1202将提出的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,语音质量检测模型可具有,但不限于,长短期记忆网络(LSTM)的网络结构,如图6所示的语音质量检测模型。语音质量检测模型可包括第一全连接层、门控循环单元层和第二全连接层,其中,门控循环单元层可由,但不限于,两个门控循环单元层(GRU)构成。根据本公开的示例性实施例,估计单元1202可将网络QoS数据样本(或网络QoS数据样本提取的特征)输入第一全连接层,得到变换特征。随后,可将第一全连接层输出的变换特征输入到门控循环单元层,得到时序特征。随后,可将门控循环单元层输出的时序特征输入到第二全连接层,得到估计的语音质量分数。此外,对所述语音质量检测模型进行训练时,可将损失函数设置为真值与估计值的均方误差,优化器选择Adam,学习率可设置为0.0001,Patience可设置为10。
当然,本公开的语音质量检测模型不限于上述模型,还可使用任何可能的模型来实现简化模式的语音质量检测。
计算单元1203可基于语音信号样本的真实语音质量分数和估计的语音质量分数,确定语音质量检测模型的损失函数。
根据本公开的示例性实施例,语音信号样本的真实语音质量分数可如上所述,在此不再赘述。
根据本公开的示例性实施例,计算单元1203可计算真实语音质量分数和估计的语音质量分数的均方误差(MSE),作为损失函数。当批量训练时,可获得多个估计的语音质量分数,因此,可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差,作为损失函数。
训练单元1204可基于确定的损失函数,对语音质量检测模型进行训练。可基于确定的损失函数,对语音质量检测模型的参数进行调整,以对语音质量检测模型进行训练。
图13是示出根据本公开的另一示例性实施例的语音质量的检测装置的框图。如图13所示的语音质量的检测装置是基于根据本公开的简化模式的语音质量检测模型而操作的。
参照图13,根据本公开的示例性实施例的语音质量的检测装置可包括获取单元1301和估计单元1302。
获取单元1301可获取待检测语音信号通过网络传输时的实时网络服务质量QoS数据。例如,在需要对目标网络环境下的语音传输质量进行检测的情况下,获取单元1301可获取在语音信号通过目标网络传输时的实时网络QoS数据。例如,实时网络QoS数据可包括,但不限于,实时网络抖动率、实时网络丢包率、实时网络上下行带宽、实时网络延迟等中的至少一个。
估计单元1302可将待检测语音信号的音频特征和实时网络QoS数据输入如图5所述的训练方法训练得到语音质量检测模型,得到针对待检测语音信号的语音质量分数。根据本公开的另一示例性实施例,也可对实时网络QoS数据进行特征提取,获得实时网络QoS数据的特征,并估计单元1302将实时网络QoS数据的特征输入到语音质量检测模型,得到估计的语音质量分数。
根据本公开的示例性实施例,待检测语音信号的音频特征可通过对待检测语音信号进行时频变换而获得。待检测语音信号的音频特征的获得方式与上述的语音信号样本的音频特征的获得相同或相似,因此,在此不再赘述。
根据本公开的示例性实施例,语音质量检测模型可包括第一全连接层、门控循环单元层和第二全连接层,对语音质量检测模型的具体描述可如上所述,在此不再赘述。例如,可将实时网络QoS数据(或实时网络QoS数据提取的特征)输入到第一全连接层,得到变换特征;将变换特征输入到门控循环单元层,得到时序特征;将时序特征输入到第二全连接层,得到针对待检测语音信号的语音质量分数。
图14是示出根据本公开的另一示例性实施例的语音质量的检测装置的框图。
参照图14,根据本公开的另一示例性实施例的语音质量的检测装置1400可包括第一获取单元1401、第二获取单元1402和检测单元1403。
第一获取单元1401可获取待检测语音信号通过网络传输时的实时处理负载信息。这里,实时处理负载信息可指通过网络传输接收待检测语音信号的终端设备的实时处理负载信息。例如,处理负载信息可指待检测语音信号通过网络传输时对终端设备对待检测语音信号的每一语音帧执行处理所花费的时长信息。
第二获取单元1402可获取实时处理负载信息与第一负载阈值的比较结果。在处理负载信息是处理每一语音帧花费的时长信息的情况下,第一负载阈值可以是预设的第一时长阈值。
在实时处理负载信息小于第一负载阈值的情况下,检测单元1403可执行第一模式的检测方法。在实时处理负载信息大于或等于第一负载阈值的情况下,检测单元1403可执行第二模式的检测方法。这里,第一模式可指完全模式,即,第一模式的检测方法可指基于根据本公开的完全模式的语音质量检测模型而执行的检测方法。第二模式可指简化模式,即,第二模式的检测方法可指基于根据本公开的简化模式的语音质量检测模型而执行的检测方法。
此外,当终端设备在实时进行处理时,假设有两个任务,一个是实时语音降噪,另一个是实时音质打分。实时语音降噪的优先级比实时音质打分的优先级更高。因此,计算一次语音降噪推理的时间是否大于阈值(影响实时语音降噪的阈值)。如果连续n次大于此阈值则关闭实时音质打分。因此,根据本公开的另一示例性实施例第二获取单元1402还可获取实时处理负载信息与第二负载阈值的比较结果,其中,第二负载阈值大于第一负载阈值。在处理负载信息是处理每一语音帧花费的时长信息的情况下,第一负载阈值可以是预设的第一时长阈值,第二负载阈值以是预设的第二时长阈值。在实时处理负载信息小于第一负载阈值的情况下,检测单元1403可执行第一模式的检测方法。在实时处理负载信息大于或等于第一负载阈值且小于第二负载阈值的情况下,检测单元1403可执行第二模式的检测方法。在实时处理负载信息大于第二负载阈值的情况下,检测单元1403终止执行语音质量的检测方法,即,检测单元1403终止操作,不再执行语音质量检测。
图15是根据本公开的示例性实施例的电子设备1500的框图。
参照图15,电子设备1500包括至少一个存储器1501和至少一个处理器1502,所述至少一个存储器1501中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器1502执行时,执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。
作为示例,电子设备1500可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1500并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1500还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1500中,处理器1502可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1502可运行存储在存储器1501中的指令或代码,其中,存储器1501还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1501可与处理器1502集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1501可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1501和处理器1502可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1502能够读取存储在存储器中的文件。
此外,电子设备1500还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备1500的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的语音质量检测模型的训练方法或语音质量的检测方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,包括计算机指令,该计算机指令可由至少一个处理器执行以完成根据本公开的示例性实施例的语音质量检测模型的训练方法或语音质量的检测方法。
根据本公开的语音质量检测模型的训练方法和训练装置及语音质量的检测方法和检测装置,可使用QoS数据等客观指标参与语音质量检测,可提高模型在实际场景下的准确性和鲁棒性,此外,提供在完全模式和简化模式之间进行切换的语音质量的检测方法,根据当前设备的处理能力灵活地调整语音质量检测的模式,能够应用于不同算力的终端设备,也可应用于实时语音通信系统中的语音音质监控任务。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种语音质量检测模型的训练方法,其特征在于,包括:
获取语音信号样本和所述语音信号样本通过网络传输时的网络服务质量QoS数据样本;
将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;
基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;
基于确定的损失函数,对所述语音质量检测模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述语音信号样本的音频特征是通过对所述语音信号样本进行时频变换而获得的。
3.如权利要求1所述的训练方法,其特征在于,所述网络QoS数据包括网络抖动率、网络丢包率、网络上下行带宽、网络延迟中的至少一个。
4.一种语音质量的检测方法,其特征在于,包括:
获取待检测语音信号和所述待检测语音信号通过网络传输时的实时网络服务质量QoS数据;
将所述待检测语音信号的音频特征和所述实时网络QoS数据输入如权利要求1至3中的任意一项权利要求所述的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
5.一种语音质量检测模型的训练方法,其特征在于,包括:
获取语音信号样本通过网络传输时的网络服务质量QoS数据样本;
将所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;
基于语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;
基于确定的损失函数,对所述语音质量检测模型进行训练。
6.一种语音质量的检测方法,其特征在于,包括:
获取待检测语音信号通过网络传输时的实时网络服务质量QoS数据;
将所述实时网络QoS数据输入如权利要求5所述的训练方法训练得到语音质量检测模型,得到针对所述待检测语音信号的语音质量分数。
7.一种语音质量的检测方法,其特征在于,包括:
获取待检测语音信号通过网络传输时的实时处理负载信息;
获取所述实时处理负载信息与第一负载阈值的比较结果;
在所述实时处理负载信息小于第一负载阈值的情况下,执行第一模式的检测方法;
在所述实时处理负载信息大于或等于第一负载阈值的情况下,执行第二模式的检测方法;
其中,第一模式的检测方法包括如权利要求4所述的检测方法,第二模式的检测方法包括如权利要求6所述的检测方法。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音质量检测模型的训练方法或如权利要求4所述的语音质量的检测方法或如权利要求5所述的语音质量检测模型的训练方法或如权利要求6所述的语音质量的检测方法或如权利要求7所述的语音质量的检测方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音质量检测模型的训练方法或如权利要求4所述的语音质量的检测方法或如权利要求5所述的语音质量检测模型的训练方法或如权利要求6所述的语音质量的检测方法或如权利要求7所述的语音质量的检测方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被至少一个处理器执行时实现如权利要求1到3中的任一权利要求所述的语音质量检测模型的训练方法或如权利要求4所述的语音质量的检测方法或如权利要求5所述的语音质量检测模型的训练方法或如权利要求6所述的语音质量的检测方法或如权利要求7所述的语音质量的检测方法。
CN202110202612.9A 2021-02-23 2021-02-23 语音质量检测模型的训练方法及语音质量的检测方法 Pending CN112967735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110202612.9A CN112967735A (zh) 2021-02-23 2021-02-23 语音质量检测模型的训练方法及语音质量的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110202612.9A CN112967735A (zh) 2021-02-23 2021-02-23 语音质量检测模型的训练方法及语音质量的检测方法

Publications (1)

Publication Number Publication Date
CN112967735A true CN112967735A (zh) 2021-06-15

Family

ID=76285742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110202612.9A Pending CN112967735A (zh) 2021-02-23 2021-02-23 语音质量检测模型的训练方法及语音质量的检测方法

Country Status (1)

Country Link
CN (1) CN112967735A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192520A (zh) * 2021-07-01 2021-07-30 腾讯科技(深圳)有限公司 一种音频信息处理方法、装置、电子设备及存储介质
CN113436644A (zh) * 2021-07-16 2021-09-24 北京达佳互联信息技术有限公司 音质评估方法、装置、电子设备及存储介质
CN114358089A (zh) * 2022-01-24 2022-04-15 北京蕴岚科技有限公司 基于脑电的语音评估模型的训练方法、装置及电子设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1985005000A1 (en) * 1984-04-18 1985-11-07 Golden Enterprises Telephone operator voice storage and retrieval system
US20020010580A1 (en) * 1999-02-12 2002-01-24 Dunling Li Signal dependent method for bandwith savings in voice over packet networks
JP2004088538A (ja) * 2002-08-28 2004-03-18 Kowa Co ネットワーク通話の品質評価設備
JP2008015443A (ja) * 2006-06-07 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧音声品質推定装置、方法およびプログラム
CN101273405A (zh) * 2005-09-30 2008-09-24 瑞尔视科技亚太有限公司 可选择性的编码系统和操作系统的方法
CN101437032A (zh) * 2008-12-19 2009-05-20 重庆邮电大学 基于sip协议的voip语音质量监测系统及检测方法
CN101552010A (zh) * 2009-04-30 2009-10-07 华为技术有限公司 音频处理方法和音频处理装置
CN101729196A (zh) * 2008-10-20 2010-06-09 上海华为技术有限公司 自适应调整语音编码速率的方法、装置及系统
CN102237091A (zh) * 2010-04-30 2011-11-09 爱立信(中国)通信有限公司 基于帧分复用的自适应语音业务承载方法和系统
CN103024219A (zh) * 2011-09-27 2013-04-03 深圳市普联技术有限公司 一种基于iad设备的语音处理方法、系统及iad设备
US20140358526A1 (en) * 2013-05-31 2014-12-04 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
CN105830031A (zh) * 2013-12-18 2016-08-03 瑞典爱立信有限公司 用于选择媒体处理单元的方法和网络节点
CN108389592A (zh) * 2018-02-27 2018-08-10 上海讯飞瑞元信息技术有限公司 一种语音质量评价方法及装置
CN109542249A (zh) * 2018-11-17 2019-03-29 北京智合大方科技有限公司 一种基于手机拼音输入法的智能对话引导系统
CN111522916A (zh) * 2020-04-20 2020-08-11 马上消费金融股份有限公司 一种语音服务质量检测方法、模型训练方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1985005000A1 (en) * 1984-04-18 1985-11-07 Golden Enterprises Telephone operator voice storage and retrieval system
US20020010580A1 (en) * 1999-02-12 2002-01-24 Dunling Li Signal dependent method for bandwith savings in voice over packet networks
JP2004088538A (ja) * 2002-08-28 2004-03-18 Kowa Co ネットワーク通話の品質評価設備
CN101273405A (zh) * 2005-09-30 2008-09-24 瑞尔视科技亚太有限公司 可选择性的编码系统和操作系统的方法
JP2008015443A (ja) * 2006-06-07 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧音声品質推定装置、方法およびプログラム
CN101729196A (zh) * 2008-10-20 2010-06-09 上海华为技术有限公司 自适应调整语音编码速率的方法、装置及系统
CN101437032A (zh) * 2008-12-19 2009-05-20 重庆邮电大学 基于sip协议的voip语音质量监测系统及检测方法
CN101552010A (zh) * 2009-04-30 2009-10-07 华为技术有限公司 音频处理方法和音频处理装置
CN102237091A (zh) * 2010-04-30 2011-11-09 爱立信(中国)通信有限公司 基于帧分复用的自适应语音业务承载方法和系统
CN103024219A (zh) * 2011-09-27 2013-04-03 深圳市普联技术有限公司 一种基于iad设备的语音处理方法、系统及iad设备
US20140358526A1 (en) * 2013-05-31 2014-12-04 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
CN105830031A (zh) * 2013-12-18 2016-08-03 瑞典爱立信有限公司 用于选择媒体处理单元的方法和网络节点
CN108389592A (zh) * 2018-02-27 2018-08-10 上海讯飞瑞元信息技术有限公司 一种语音质量评价方法及装置
CN109542249A (zh) * 2018-11-17 2019-03-29 北京智合大方科技有限公司 一种基于手机拼音输入法的智能对话引导系统
CN111522916A (zh) * 2020-04-20 2020-08-11 马上消费金融股份有限公司 一种语音服务质量检测方法、模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈明义;孙冬梅;何孝月;: "基于改进MFCC语音特征参数的语音质量评估的研究", 电路与系统学报, no. 03, 15 June 2009 (2009-06-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192520A (zh) * 2021-07-01 2021-07-30 腾讯科技(深圳)有限公司 一种音频信息处理方法、装置、电子设备及存储介质
CN113436644A (zh) * 2021-07-16 2021-09-24 北京达佳互联信息技术有限公司 音质评估方法、装置、电子设备及存储介质
CN113436644B (zh) * 2021-07-16 2023-09-01 北京达佳互联信息技术有限公司 音质评估方法、装置、电子设备及存储介质
CN114358089A (zh) * 2022-01-24 2022-04-15 北京蕴岚科技有限公司 基于脑电的语音评估模型的训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112967735A (zh) 语音质量检测模型的训练方法及语音质量的检测方法
KR102262686B1 (ko) 음성 품질 평가 방법 및 음성 품질 평가 장치
CN113192536B (zh) 语音质量检测模型的训练方法、语音质量检测方法及装置
US11190898B2 (en) Rendering scene-aware audio using neural network-based acoustic analysis
US20160210984A1 (en) Voice Quality Evaluation Method and Apparatus
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
US9396739B2 (en) Method and apparatus for detecting voice signal
CN110221979A (zh) 应用程序的性能测试方法、装置、设备及存储介质
CN111479105B (zh) 一种视频及音频联合质量评价方法和装置
CN107895571A (zh) 无损音频文件识别方法及装置
JP2020095258A (ja) 問題騒音の発音源を識別するための騒音データの人工知能装置および前処理方法
CN113241088B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN112735466B (zh) 一种音频检测方法及装置
CN112652290A (zh) 产生混响音频信号的方法及音频处理模型的训练方法
JP2021071586A (ja) 音抽出システム及び音抽出方法
CN113555031B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
CN115206294A (zh) 训练方法、声音事件检测方法、装置、设备和介质
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
CN114202224A (zh) 用于检测生产环境中焊接质量的方法、设备、介质及程序产品
JP4127511B2 (ja) 音源選択方法及び音源選択装置
CN114639390A (zh) 一种语音噪声分析方法及系统
CN112447183A (zh) 音频处理模型的训练、音频去噪方法、装置及电子设备
JP6257537B2 (ja) 顕著度推定方法、顕著度推定装置、プログラム
CN114694683A (zh) 语音增强评测方法、语音增强评测模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination