CN111161759B - 音频质量评价方法、装置、电子设备及计算机存储介质 - Google Patents

音频质量评价方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN111161759B
CN111161759B CN201911250828.1A CN201911250828A CN111161759B CN 111161759 B CN111161759 B CN 111161759B CN 201911250828 A CN201911250828 A CN 201911250828A CN 111161759 B CN111161759 B CN 111161759B
Authority
CN
China
Prior art keywords
audio
audio data
transmission
determining
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911250828.1A
Other languages
English (en)
Other versions
CN111161759A (zh
Inventor
顾成敏
吴明辉
方昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911250828.1A priority Critical patent/CN111161759B/zh
Publication of CN111161759A publication Critical patent/CN111161759A/zh
Application granted granted Critical
Publication of CN111161759B publication Critical patent/CN111161759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例提供了一种音频质量评价方法、装置、电子设备及计算机存储介质,通过获取传输音频数据;将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价,鲁棒性较好,且结合神经网络可以大大提升音频质量评价的准确性。

Description

音频质量评价方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及音频信号检测领域,特别是一种音频质量评价方法、装置、电子设备及计算机存储介质。
背景技术
随着技术的发展,声音作为人们沟通交流的重要媒介已经跨越了空间的限制,各种各样的音频传输技术层出不穷,当发送端发送音频后,由于音频在传输过程中可能会受到干扰等影响,最终接收端接收到的音频质量可能不是那么理想,为了保证用户的良好体验,对接收端接收到的音频质量进行监控必不可少。
现有的音频质量评价方法往往使用分类器,首先从不同人工的得分信号中提取出可区分的音频特征,如过零率、短时能量等,然后基于机器学习中的分类器,如高斯混合分类器、支持向量机等进行分类,上述方法在进行多类别打分时,鲁棒性较差,因此评价效果不理想。
发明内容
基于上述问题,本申请提出了一种音频质量评价方法、装置、电子设备及计算机存储介质,可以基于置信度对音频质量评价的结果进行再确认,大大提升了音频质量评价的准确性。
本申请实施例第一方面提供了一种音频质量评价方法,所述方法包括:
获取传输音频数据;
将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;
若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。
本申请实施例第二方面提供了一种音频质量评价装置,所述装置包括处理单元和通信单元,所述处理单元用于:获取传输音频数据;将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。
本申请实施例第三方面提供了一种电子设备,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如本申请实施例第一方面任一方项所描述的步骤的指令。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一项所描述的方法。
本申请实施例第五方面提供了一种计算机产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
通过实施上述申请实施例,可以得到以下有益效果:
上述音频质量评价方法、装置、电子设备及计算机存储介质,通过获取传输音频数据;将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价,鲁棒性较好,且结合神经网络可以大大提升音频质量评价的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的音频质量评价方法的系统架构图;
图2为本申请实施例提供的一种音频质量评价方法的流程示意图;
图3为本申请实施例提供的一种音频质量评价体系的示意图;
图4为本申请实施例提供的另一种音频质量评价方法的流程示意图;
图5为本申请实施例提供的一种电子设备的结构示意图;
图6为本申请实施例提供的一种音频质量评价装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
下面结合图1对本申请实施例中音频质量评价方法的系统架构作详细说明,图1为本申请实施例提供的音频质量评价方法的系统架构图,包括音频获取装置110、服务器120以及音频评价输出单元130,其中,上述音频获取装置110可以包括麦克风阵列等,用于获取音频数据,上述服务器120可以与上述音频获取装置110、上述音频质量评价单元130有线或无线连接,上述音频评价输出单元130可以包括以多种形式输出音频质量评价,如采用电子版文本显示,则上述音频评价输出单元130可以为具备显示功能的屏幕,如采用语音提示,则上述音频评价输出单元130可以为发声元件,在此不做具体限定。
具体的,上述音频获取装置110可以获取到接收终端接收到的传输音频以及发送终端发送的原始音频,并将上述传输音频和上述原始音频发送至上述服务器120,上述服务器可以根据内置的相关算法以及训练好的相关神经网络模型对上述传输音频的音频质量进行评价,得到上述传输音频的质量等级,并将上述质量等级的结果通过上述音频评价输出单元130来展示。
通过上述系统架构,可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价,鲁棒性较好,且结合神经网络可以大大提升音频质量评价的准确性。
下面结合图2对本申请实施例中的一种音频质量评价方法作详细说明,图2为本申请实施例提供的一种音频质量评价方法的流程示意图,具体包括以下步骤:
步骤201,获取传输音频数据。
其中,上述传输音频数据可以为接收终端接收到的音频数据,上述接收终端可以是任意具备音频信号接收功能的终端,举例来说,如果初始的发送的音频数据为广播音数据,那么上述传输音频数据可以为任意终端接收到的任意一段广播音数据,因为初始的发送的音频数据在传输过程中可能会出现损失或者干扰,所以对上述传输音频数据的质量评价十分重要。
步骤202,将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度。
其中,上述第一质量评价模型为预先训练好的整体质量评价模型,用于对上述传输音频数据的整体质量进行评价,需要说明的是,将上述传输音频数据输入第一质量评价模型之后,通过第一质量评价模型的输出得到该传输音频数据的每个质量分数对应的置信度并将其记为整体置信度,筛选出全部质量分数中置信度大于预设置信度阈值的质量分数作为上述第一质量分数,为了便于描述,在上述整体置信度大于或等于预设置信度阈值时,上述第一质量分数可以用于表示上述传输音频数据的整体质量,并将第一质量分数对应的置信度记为第一置信度,用于表示上述第一质量评价模型的判断结果的准确度。
具体地,上述预设置信度阈值可以用于表示上述整体置信度的可靠程度,若上述整体置信度大于或等于上述预设置信度阈值,则可以认为上述整体置信度是可靠的,可以直接执行步骤203;若上述整体置信度小于上述预设置信度阈值,则可以认为上述整体置信度并不可靠,需要进一步执行另外的方法步骤,在后续进行说明,此处不再赘述。举例来说,可以将上述预设置信度阈值设定为0.8,上述置信度可以表示可能性概率,在本申请的该例子中,整体置信度中值为0.8及以上就可以认为其准确率大于或等于80%,可以执行步骤203的方法。需要说明的是,上述预设置信度阈值可以根据情况灵活变动,在此不做具体限定。通过判断所述整体置信度是否大于或等于预设置信度阈值,可以将置信度比较高的音频质量评价直接输出,提升音频质量评价的效率。
需要说明的是,上述第一质量评价模型可以包括第一输入层、第一特征处理层、第一全连接层和第一输出层,上述“第一”仅用于从命名上进行区分,上述第一输入层可以提取上述传输音频数据的特征信息和信号与干扰加信噪比(Signal to Interference plusNoise Ratio,SINR)信息,上述特征信息可以包括64维的滤波器组(Filter Bank,FBank)特征信息,提取SINR和FBank之后可以将其拼接为输入向量,具体的,可以基于公式得到上述输入向量:
Vinput=[Vfb:SINR]
上述Vinput表示输入向量,上述Vfb表示FBank特征。
接着,将上述输入向量Vinput输入上述第一特征处理层,上述第一特征处理层可以根据上述输入向量Vinput得到特征向量fbvoice,具体的,上述第一特征处理层的结构可以包括双向长短期记忆网络(Long Short-Term Memory,LSTM)和注意力(Attention)层,首先可以通过双向LSTM对上述输入向量进行编码处理,获取到上述输入向量的前向隐层表示和后向隐层表示,并将上述前向隐层表示和后向隐层表示拼接以表示上述传输音频数据的整体特征,之后上述Attention层可以将上述整体特征融合生成上述特征向量fbvoice并输出到上述第一全连接层。
之后,上述第一全连接层可以根据上述特征向量fbvoice确定质量分数类别数据,上述质量分数类别数据可以包括全部质量分数的类别,以及每种类别对应的置信度,并将上述质量分数类别数据输入上述第一输出层。
最后,上述第一输出层可以根据上述质量分数类别数据确定上述整体质量分数以及上述整体置信度,具体的,上述第一输出层可以包括softmax分类器,通过该softmax分类器确定上述传输音频数据的全部质量分数类别以及对应的置信度,举例来说,该softmax分类器可以将质量分数设定为“1分、2分、3分、4分、5分”,若此时得到1分的置信度为0.9,2分的置信度为0.3,3分的置信度为0.1,4分的置信度为0.1,5分的置信度为0.1,预设置信度阈值为0.5,可以筛选出第一质量分数为1分,第一置信度为0.9。
通过将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度,再根据整体置信度确定第一质量分数,可以利用训练好的神经网络模型输出准确的整体质量评价,提升音频质量评价的效率。
步骤203,根据所述整体置信度确定所述传输音频数据的质量等级。
其中,若所述整体置信度大于或等于所述预设置信度阈值,执行本步骤。可以将上述第一质量分数转化为信号强度分数和干扰噪声分数,如第一质量分数为1分,则此时信号强度分数和干扰噪声分数也为1分,结合图3可以确定上述传输音频数据的质量等级,图3为本申请实施例提供的一种音频质量评价体系的示意图,该音频质量评价体系为SIO评价体系,S代表信号强度(signal strength),I代表干扰噪声(interference),O代表总评(overall rating),并且用五个等级来表示传输音频数据的质量等级:优良(5分)、较好(4分)、中等(3分)、较差(2分)、不能收听(1分)。需要说明的是,此处的评分仅仅是一种可能,并不构成对本申请的限定,可以根据情况设定不同的分数等级,在此不做具体限定。
通过上述方法,可以在第一质量评价模型输出的每个质量分数所对应的置信度大于预设置信度阈值时,直接得到质量等级,无需再进行其余的判定,大大提升了音频质量评价的效率。
下面结合图4对本申请实施例中的另一种音频质量评价方法作详细说明,图4为本申请实施例提供的另一种音频质量评价方法的流程示意图,具体包括以下步骤:
步骤401,获取传输音频数据。
步骤402,将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度。
其中,若上述整体置信度大于或等于上述预设置信度阈值,则执行步骤403;若上述整体置信度小于上述预设置信度阈值,则执行步骤404的方法。
步骤403,根据所述整体置信度确定所述传输音频数据的质量等级。
步骤404,获取原始音频数据。
其中,首先,可以根据上述传输音频数据得到原始音频数据,具体的,可以定位到上述传输音频数据的起始时间戳,若上述传输音频数据的时长为ta,则可以截取上述起始时间戳前的tb时长的片段作为原始音频数据,上述tb需要大于传输延迟,可以等于若干个ta,在此不做具体限定。
步骤405,根据传输音频指纹特征和原始音频指纹特征确定音频匹配数据。
其中,可以根据音频相似度匹配算法Shazam提取上述传输音频数据的传输音频指纹特征和上述原始音频数据的原始音频指纹特征,上述传输音频指纹特征和上述原始音频指纹特征可以为多个指纹哈希记录,具体的,可以对上述传输音频数据和上述原始音频数据进行快速傅里叶变换(Fast Fourier Transform,FFT),分别从上述传输音频数据和上述原始音频数据中各选取一个或多个频率峰值点作为传输基准峰值点和原始基准峰值点,每个传输基准峰值点可以对应上述传输音频数据的一个区域,每个原始基准峰值点也可以对应上述原始音频数据的一个区域,每个区域一般包括20~30个频率峰值点,上述传输音频数据和上述原始音频数据可以包括多个区域,上述每个传输基准峰值点和对应区域内的每个传输频率峰值点都构成一个传输音频点对,上述原始基准峰值点和对应区域内的每个原始频率峰值点都构成一个原始音频点对,根据上述传输音频点对和上述原始音频点对的频率和时间差,可以分别构成上述传输音频数据和上述原始音频数据的指纹哈希记录,以任意一个基准峰值点和对应区域内的任意一个频率峰值点构成的点对进行举例说明,假设一对点对为
Figure BDA0002308994160000081
Figure BDA0002308994160000082
上述
Figure BDA0002308994160000083
Figure BDA0002308994160000084
分别表示上述基准峰值点和对应区域的频率峰值点的时间和频率,可以根据
Figure BDA0002308994160000085
构建一个指纹哈希记录{hash_key}:(value),上述hash_key可以对L的字符串进行哈希编码来得到,上述value为基准峰值点的时间戳t1
进一步的,在获取到上述传输音频数据和上述原始音频数据的全部指纹哈希记录后,可以确定音频对特征,并根据上述音频对特征确定上述音频匹配数据,上述音频匹配数据可以包括匹配置信度和发送音频数据,上述匹配置信度包括在对应区域内的最大的音频指纹匹配数目,并将其记为匹配置信度,用于表示音频对相似程度的置信度,上述匹配步骤主要是根据上述指纹哈希记录来判断的,举例来说,若上述传输音频数据的一个指纹哈希记录为{hash_key1}:(value1),上述原始音频数据的一个指纹哈希记录为{hash_key2}:(value2),可以构建音频对特征:
{hash_key1}:(value1-value2),if hash_key1=hash_key2
将符合上述公式且满足时间差的对应区域内最多的音频指纹的数目作为上述匹配置信度,同时,可以将value2作为上述原始音频数据的起始时间戳,截取value2之后的ta时长的音频可以得到发送音频数据。
可见,根据传输音频指纹特征和原始音频指纹特征确定音频匹配数据,可以判断传输音频数据和原始音频数据是否是不同传输阶段的同一个音频数据,降低第一质量评价模型的判断出现错误导致无法进行音频质量评价的概率,并为整体置信度较低时的情况提供兜底方案,提升了音频质量评价的准确性。
步骤406,判断匹配置信度是否大于或等于所述预设置信度阈值。
其中,若所述匹配置信度大于或等于所述预设置信度阈值,则执行步骤407;若所述匹配置信度小于所述预设置信度阈值,则执行步骤408的方法。
步骤407,根据整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。
其中,上述匹配置信度大于或等于上述预设置信度阈值时,说明上述传输音频数据和上述原始音频数据为传输阶段不同的同一音频数据,可以直接根据上述整体置信度确定上述传输音频数据的质量等级,在此不再赘述。
步骤408,将所述传输音频数据、所述发送音频数据以及整体置信度输入第二质量评价模型,根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。
其中,上述第二质量评价模型为预先训练好的音频质量评价模型,用于对上述传输音频数据的质量进行综合评价,需要说明的是,可以根据上述传输音频数据、上述发送音频数据以及上述整体置信度得到该传输音频数据的每个质量分数对应的得分置信度,筛选出全部质量分数中得分置信度大于预设置信度阈值的质量分数作为第二质量分数,上述第二质量分数可以用于表示上述传输音频数据的综合质量。需要说明的是,这里的预设置信度阈值和第一质量评价模型中的并不一定是相同的值,具体大小可以根据需要分别自行设定。
其中,上述第二质量评价模型可以包括第二输入层、第二特征处理层、第二全连接层和第二输出层,上述“第二”仅用于从命名上进行区分,上述第二输入层可以提取上述传输音频数据和上述发送音频数据的64维的Fbnak特征Vfb、39维的梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,Mfcc)特征Vmfcc,以及归一化的主观语音质量(Perceptual evaluation of speech quality,PESQ)评分和归一化的整体置信度对应的整体质量分数SCOREsingle,将上述特征进行拼接得到向量化表示的语音帧数据:
Vinput=[Vfb:Vmfcc:PESQ:SCOREsingle]
上述PESQ=PESQ/4.5,上述SCOREsingle=SCOREsingle/5。
接着,将上述语音帧特征输入上述第二特征处理层,上述第二特征处理层的结构可以为孪生双向BI-LSTM网络和Attention层组成的深度网络模型,上述第二特征处理层可以对上述语音帧数据进行处理得到上述传输音频的整体特征fbsend和fbreceive,并对这两个整体特征进行合并,生成fbsend-concat和fbreceive-concat
之后,可以将上述fbsend-concat和上述fbreceive-concat输入第二全连接层,上述第二全连接层可以输出评价分数类别数据,具体的,上述第二全连接层可以将上述fbsend-concat和上述fbreceive-concat拼接为特征fbconcat,之后对上述fbconcat进行空间上的仿射变换,得到上述评价分数类别数据。
最后,上述第二输出层可以根据上述评价分数类别数据确定第二质量分数,并根据第二质量分数确定信号强度S分数以及干扰噪声I分数,之后可以确定上述传输音频数据的质量等级,在此不再赘述。
上述未详细说明的步骤可以参见图2中所描述的方法,在此不再赘述。
通过上述方法,可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价,鲁棒性较好,且结合神经网络可以大大提升音频质量评价的准确性。
下面结合图5对本申请实施例中一种电子设备500进行说明,图5为本申请实施例提供的一种电子设备500的结构示意图,包括应用处理器501、通信接口502和存储器503,所述应用处理器501、通信接口502和存储器503通过总线504相互连接,总线504可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,所述存储器503用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器501被配置用于调用所述程序指令,执行以下步骤的方法:
获取传输音频数据;
将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;
若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。
在一个可能的示例中,所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层,在所述将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定所述第一质量分数和所述整体置信度方面,所述程序中的指令具体用于执行以下操作:将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层,根据所述第一输入层的输出得到输入向量;
将所述输入向量输入所述第一特征处理层,根据所述第一特征处理层的输出确定特征向量;
将所述特征向量输入所述第一全连接层,根据所述第一全连接层的输出确定质量分数类别数据;
将所述质量等级类别数据输入所述第一输出层,根据所述第一输出层的输出确定所述整体置信度。
在一个可能的示例中,所述程序中的指令具体还用于执行以下操作:若所述整体置信度小于所述预设置信度阈值,则获取原始音频数据;
根据所述传输音频数据确定传输音频指纹特征,以及,根据所述原始音频数据确定原始音频指纹特征;
根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据,所述音频匹配数据包括匹配置信度和发送音频数据;
判断所述匹配置信度是否大于或等于所述预设置信度阈值;
若所述匹配置信度大于或等于所述预设置信度阈值,则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。
在一个可能的示例中,在所述传输音频数据包括起始时间戳,所述若所述第一置信度小于所述预设置信度阈值,则获取原始音频数据方面,所述程序中的指令具体用于执行以下操作:获取所述起始时间戳前预设时长的原始音频数据,所述预设时长大于传输延迟。
在一个可能的示例中,所述传输音频指纹特征包括传输频率特征,所述原始音频指纹特征包括原始频率特征;在所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据方面,所述程序中的指令具体用于执行以下操作:获取所述传输频率特征中每个传输频率峰值点的传输时间戳,以及,获取所述原始频率特征中每个原始频率峰值点的原始时间戳;
将所述传输频率峰值点与所述原始频率峰值点进行匹配,确定匹配音频指纹数,所述匹配音频指纹数用于表示所述匹配置信度;
根据所述匹配指纹数、所述传输时间戳和所述原始时间戳确定所述发送音频数据。
在一个可能的示例中,在所述判断所述匹配置信度是否大于或等于所述预设置信度阈值之后方面,所述程序中的指令具体还用于执行以下操作:若所述匹配置信度小于所述预设置信度阈值,则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。
在一个可能的示例中,所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层,在所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量模型的输出确定所述传输音频数据的质量等级方面,所述程序中的指令具体用于执行以下操作:将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层,根据所述第二输入层的输出得到语音帧数据;
将所述语音帧数据输入所述第二特征处理层,根据所述第二特征处理层的输出得到传输音频特征和发送音频特征;
将所述传输音频特征和所述发送音频特征输入所述第二全连接层,根据所述第二全连接层的输出得到评价分数类别数据;
将所述评价分数类别数据输入所述第二输出层,根据所述第二输出层的输出确定所述传输音频数据的质量等级。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6是本申请实施例提供的一种音频质量评价装置600的功能单元组成框图。所述音频质量评价装置600应用于电子设备,包括处理单元601、通信单元602和存储单元603,其中,所述处理单元601,用于执行如上述方法实施例中的任一步骤,且在执行诸如发送等数据传输时,可选择的调用所述通信单元602来完成相应操作。下面进行详细说明。
所述处理单元601,用于获取传输音频数据;
将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;
若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。
在一个可能的示例中,所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层,在所述将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定所述整体置信度方面,所述处理单元601具体用于:将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层,根据所述第一输入层的输出得到输入向量;
将所述输入向量输入所述第一特征处理层,根据所述第一特征处理层的输出确定特征向量;
将所述特征向量输入所述第一全连接层,根据所述第一全连接层的输出确定质量分数类别数据;
将所述质量等级类别数据输入所述第一输出层,根据所述第一输出层的输出确定所述整体置信度。
在一个可能的示例中,所述处理单元601具体还用于:若所述整体置信度小于所述预设置信度阈值,则获取原始音频数据;
根据所述传输音频数据确定传输音频指纹特征,以及,根据所述原始音频数据确定原始音频指纹特征;
根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据,所述音频匹配数据包括匹配置信度和发送音频数据;
判断所述匹配置信度是否大于或等于所述预设置信度阈值;
若所述匹配置信度大于或等于所述预设置信度阈值,则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。
在一个可能的示例中,在所述传输音频数据包括起始时间戳,所述若所述整体置信度小于所述预设置信度阈值,则获取原始音频数据方面,所述处理单元601具体用于:获取所述起始时间戳前预设时长的原始音频数据,所述预设时长大于传输延迟。
在一个可能的示例中,所述传输音频指纹特征包括传输频率特征,所述原始音频指纹特征包括原始频率特征;在所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据方面,所述处理单元601具体用于:获取所述传输频率特征中每个传输频率峰值点的传输时间戳,以及,获取所述原始频率特征中每个原始频率峰值点的原始时间戳;
将所述传输频率峰值点与所述原始频率峰值点进行匹配,确定匹配音频指纹数,所述匹配音频指纹数用于表示所述匹配置信度;
根据所述匹配指纹数、所述传输时间戳和所述原始时间戳确定所述发送音频数据。
在一个可能的示例中,在所述判断所述匹配置信度是否大于或等于所述预设置信度阈值之后方面,所述处理单元601具体还用于:若所述匹配置信度小于所述预设置信度阈值,则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。
在一个可能的示例中,所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层,在所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量模型的输出确定所述传输音频数据的质量等级方面,所述处理单元601具体用于:将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层,根据所述第二输入层的输出得到语音帧数据;
将所述语音帧数据输入所述第二特征处理层,根据所述第二特征处理层的输出得到传输音频特征和发送音频特征;
将所述传输音频特征和所述发送音频特征输入所述第二全连接层,根据所述第二全连接层的输出得到评价分数类别数据;
将所述评价分数类别数据输入所述第二输出层,根据所述第二输出层的输出的第二质量分数确定给所述传输音频数据的质量等级。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种音频质量评价方法,其特征在于,所述方法包括:
获取传输音频数据;
将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;
若所述整体置信度小于预设置信度阈值,则获取原始音频数据;
根据所述传输音频数据和所述原始音频数据确定音频匹配数据,所述音频匹配数据包括匹配置信度;
若所述匹配置信度大于或等于所述预设置信度阈值,则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。
2.根据权利要求1所述的方法,其特征在于,所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层,所述将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度,包括:
将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层,通过所述第一输入层对所述特征信息和所述信干噪比信息进行拼接得到输入向量;
将所述输入向量输入所述第一特征处理层,根据所述第一特征处理层的输出确定特征向量;
将所述特征向量输入所述第一全连接层,根据所述第一全连接层的输出确定质量分数类别数据;
将所述质量分数类别数据输入所述第一输出层,根据所述第一输出层的输出确定所述整体置信度。
3.根据权利要求1或2所述的方法,其特征在于,所述音频匹配数据还包括发送音频数据;所述根据所述传输音频数据和所述原始音频数据确定音频匹配数据,包括:
根据所述传输音频数据确定传输音频指纹特征,以及,根据所述原始音频数据确定原始音频指纹特征;
根据所述传输音频指纹特征和所述原始音频指纹特征确定所述匹配置信度和所述发送音频数据。
4.根据权利要求3所述的方法,其特征在于,所述传输音频数据包括起始时间戳,所述若所述整体置信度小于所述预设置信度阈值,则获取原始音频数据,包括:
获取所述起始时间戳前预设时长的原始音频数据,所述预设时长大于传输延迟。
5.根据权利要求3所述的方法,其特征在于,所述传输音频指纹特征包括传输频率特征,所述原始音频指纹特征包括原始频率特征;所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据,包括:
获取所述传输频率特征中每个传输频率峰值点的传输时间戳,以及,获取所述原始频率特征中每个原始频率峰值点的原始时间戳;
将所述传输频率峰值点与所述原始频率峰值点进行匹配,确定匹配音频指纹数,所述匹配音频指纹数用于表示所述匹配置信度;
根据所述匹配音频指纹数、所述传输时间戳和所述原始时间戳确定所述发送音频数据。
6.根据权利要求3所述的方法,其特征在于,所述根据所述传输音频数据和所述原始音频数据确定音频匹配数据之后,所述方法还包括:
若所述匹配置信度小于所述预设置信度阈值,则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。
7.根据权利要求6所述的方法,其特征在于,所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层,所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型,根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级,包括:
将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层,根据所述第二输入层的输出得到语音帧数据;
将所述语音帧数据输入所述第二特征处理层,根据所述第二特征处理层的输出得到传输音频特征和发送音频特征;
将所述传输音频特征和所述发送音频特征输入所述第二全连接层,根据所述第二全连接层的输出得到评价分数类别数据;
将所述评价分数类别数据输入所述第二输出层,根据所述第二输出层的输出确定所述传输音频数据的质量等级。
8.根据权利要求1所述的方法,其特征在于,所述将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度之后,所述方法还包括:
若所述整体置信度大于或等于所述预设置信度阈值,则根据所述整体置信度确定所述传输音频数据的质量等级。
9.一种音频质量评价装置,其特征在于,所述装置包括处理单元和通信单元,所述处理单元用于:获取传输音频数据;将所述传输音频数据输入第一质量评价模型,根据所述第一质量评价模型的输出确定整体置信度;若所述整体置信度小于预设置信度阈值,则获取原始音频数据;根据所述传输音频数据和所述原始音频数据确定音频匹配数据,所述音频匹配数据包括匹配置信度;若所述匹配置信度大于或等于所述预设置信度阈值,则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。
10.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1~8任一项所述的方法中的步骤的指令。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~8任一项所述的方法。
CN201911250828.1A 2019-12-09 2019-12-09 音频质量评价方法、装置、电子设备及计算机存储介质 Active CN111161759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911250828.1A CN111161759B (zh) 2019-12-09 2019-12-09 音频质量评价方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911250828.1A CN111161759B (zh) 2019-12-09 2019-12-09 音频质量评价方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111161759A CN111161759A (zh) 2020-05-15
CN111161759B true CN111161759B (zh) 2022-12-06

Family

ID=70556549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911250828.1A Active CN111161759B (zh) 2019-12-09 2019-12-09 音频质量评价方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111161759B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735464A (zh) * 2020-12-21 2021-04-30 招商局重庆交通科研设计院有限公司 一种隧道紧急广播音效信息检测方法
CN117457016A (zh) * 2023-11-02 2024-01-26 北京云上曲率科技有限公司 一种过滤无效语音识别数据的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN109308913A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 音乐质量评价方法、装置、计算机设备及存储介质
CN109359385A (zh) * 2018-10-17 2019-02-19 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10541894B2 (en) * 2016-10-20 2020-01-21 Netscout Systems, Inc. Method for assessing the perceived quality of adaptive video streaming

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN109308913A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 音乐质量评价方法、装置、计算机设备及存储介质
CN109359385A (zh) * 2018-10-17 2019-02-19 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
分组网络环境下的实时语音质量客观评价;张军等;《西安交通大学学报》;20060820(第08期);第936-939页 *

Also Published As

Publication number Publication date
CN111161759A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN107395352B (zh) 基于声纹的身份识别方法及装置
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN108564941A (zh) 语音识别方法、装置、设备及存储介质
CN105933272A (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
WO2016015687A1 (zh) 声纹验证方法及装置
CN107240405B (zh) 一种音箱及告警方法
CN106796785A (zh) 用于产生声音检测模型的声音样本验证
CN111161759B (zh) 音频质量评价方法、装置、电子设备及计算机存储介质
KR20150031984A (ko) 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법
CN102915740B (zh) 可实现篡改定位的语音感知哈希内容认证方法
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN111401906A (zh) 转账风险检测方法及系统
CN105047192A (zh) 基于隐马尔科夫模型的统计语音合成方法及装置
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN112397072B (zh) 语音检测方法、装置、电子设备及存储介质
CN107977187B (zh) 一种混响调节方法及电子设备
CN106710588A (zh) 语音数据句类识别方法和装置及系统
CN111343660B (zh) 一种应用程序的测试方法及设备
CN115116458B (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN107820251A (zh) 一种网络接入的方法、装置及系统
CN110556114A (zh) 基于注意力机制的通话人识别方法及装置
CN113593579B (zh) 一种声纹识别方法、装置和电子设备
JP7470336B2 (ja) オーディオデータ識別装置
CN108694939A (zh) 语音搜索优化方法、装置和系统
CN111081221B (zh) 训练数据选择方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant