CN109949829B - 音频数据的处理方法、装置及计算机程序产品和存储介质 - Google Patents

音频数据的处理方法、装置及计算机程序产品和存储介质 Download PDF

Info

Publication number
CN109949829B
CN109949829B CN201910108111.7A CN201910108111A CN109949829B CN 109949829 B CN109949829 B CN 109949829B CN 201910108111 A CN201910108111 A CN 201910108111A CN 109949829 B CN109949829 B CN 109949829B
Authority
CN
China
Prior art keywords
value
data
short
time
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910108111.7A
Other languages
English (en)
Other versions
CN109949829A (zh
Inventor
王锡磊
甘文东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910108111.7A priority Critical patent/CN109949829B/zh
Publication of CN109949829A publication Critical patent/CN109949829A/zh
Application granted granted Critical
Publication of CN109949829B publication Critical patent/CN109949829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种音频数据的处理方法、装置,及计算机程序产品,涉及多媒体技术领域,其中,所述方法包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。本发明是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。

Description

音频数据的处理方法、装置及计算机程序产品和存储介质
技术领域
本发明涉及多媒体技术领域,特别是涉及一种音频数据的处理方法、装置及计算机程序产品和存储介质。
背景技术
在语音合成领域中,常常需要对待合成的音频数据的质量进行评估。只有质量较高的音频数据才可以合成为清晰、无噪音的语音。目前,业界主流采用的是平均主观意见分(Mean Opinion Score,MOS),MOS是一种由多人进行主观评估,然后计算平均值的质量评估方法。
由于MOS评估方法是一种很强的主观评估方法,并且依赖于多人组成评估体系,因此,该方法存在执行效率低、评估结果欠缺客观准确性的问题。
发明内容
本发明提供一种音频数据的处理方法、装置及计算机程序产品和存储介质,以解决现有的音频数据的质量评估方案执行效率低、评估结果欠缺客观准确性的问题。
为了解决上述问题,本发明提供了一种音频数据的处理方法,包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。
可选地,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
可选地,所述利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,包括:根据
Figure BDA0001967183780000021
计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,
Figure BDA0001967183780000022
表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和 i均表示正整数,i大于1且小于n。
可选地,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
可选地,所述计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值,包括:根据
Figure BDA0001967183780000023
Figure BDA0001967183780000024
计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
可选地,所述计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值,包括:根据
Figure BDA0001967183780000031
计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
可选地,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
可选地,所述对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数,包括:根据
Figure BDA0001967183780000032
1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
可选地,所述计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值,包括:根据
Figure BDA0001967183780000033
计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,
Figure BDA0001967183780000034
表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
可选地,所述根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果,包括:对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
本发明还提供了一种音频数据的处理装置,包括:数据获取模块,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;数值分析模块,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;特征分析模块,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;结果获取模块,用于根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果;结果输出模块,用于输出所述质量评估结果。
可选地,所述数值分析模块,包括:滤波模块,用于对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;流畅度数值确定模块,用于利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
可选地,所述流畅度数值确定模块,用于根据
Figure BDA0001967183780000041
计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,
Figure BDA0001967183780000042
表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
可选地,所述数值分析模块,包括:计算模块,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;平稳度数值确定模块,用于计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
可选地,所述计算模块,用于根据
Figure BDA0001967183780000043
Figure BDA0001967183780000044
计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
可选地,所述平稳度数值确定模块,用于根据
Figure BDA0001967183780000051
计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
可选地,所述特征分析模块,包括:特征参数确定模块,用于对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;自然度数值确定模块,用于计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
可选地,所述特征参数确定模块,用于根据
Figure BDA0001967183780000052
1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(n)表示滤波器系统,p表示第p阶的滤波器系统, M表示滤波器阶数。
可选地,所述自然度数值确定模块,用于根据
Figure BDA0001967183780000053
计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,
Figure BDA0001967183780000054
表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
可选地,所述结果获取模块,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
本发明又提供了一种计算机程序产品,包括:当所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行上述任意音频数据的处理方法。
本发明也提供了一种非临时性计算机可读存储介质,包括:当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行上述任意音频数据的处理方法。
与背景技术相比,本发明包括以下优点:
首先,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。然后,对声谱数据进行数值分析得到流畅度数值和平稳度数值,对梅尔倒频谱数据进行特征分析得到自然度数值。最后,根据流畅度数值、平稳度数值和自然度数值获取音视数据的质量评估结果,并输出质量评估结果。
本发明实施例在待评估的音频数据的声谱数据和梅尔倒频谱数据的基础之上进行相关分析得到流畅度数值、平稳度数值和自然度数值,再根据流畅度数值、平稳度数值和自然度数值获取并输出质量评估结果。本发明实施例是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。
附图说明
图1是本发明实施例中一种音频数据的处理方法的步骤流程图;
图2是本发明实施例中一种音频数据的质量评估系统的结构框图;
图3是本发明实施例中一种音频数据的处理装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例中一种音频数据的处理方法的步骤流程图。本发明实施例中的音频数据可以为任意格式的音频流数据,如动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III, MP3)、乐器数字接口(MusicalInstrument Digital Interface,MIDI)、视窗媒体音频(Windows Media Audio,WMA)、高级音频编码(Advanced Audio Coding,ACC)、自适应多速率(Adaptive Multi-Rate,AMR)编码、无损音频压缩编码(Free Lossless Audio Codec,FLAC)等等,其最大带宽可以为20KHz,速率可以介于40至50KHz之间,本发明实施例对音频数据的格式、带宽、速率等属性信息不作具体限制。
本发明实施例提供的一种音频数据的处理方法可以包括如下步骤:
步骤101,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。
本发明实施例中,可以先对待评估的音频数据进行预处理操作,预处理操作可以包括去除噪声、傅里叶及相关数学变换,其中,可以对音频数据进行滤波操作以达到去除噪声的目的。预处理操作的目的在于获取待评估的音频数据的声谱数据和梅尔倒频谱数据。其中,声谱数据是用于描述音频数据中包含成份及音色中声学能量的分配模式的工具。声谱数据可以分为静态声谱数据和动态声谱数据。静态声谱数据可以反映音频数据在某一瞬间频率和振幅之间的关系。静态声谱数据的横坐标表示频率,纵坐标表示振幅。动态声谱数据可以反映音频数据在某一段时间内力度及音高随时间的变化情况。动态声谱数据的横坐标表示时间,纵坐标表示力度或音高。本发明实施例中的声谱数据可以为静态声谱数据。梅尔倒频谱(Mel-Frequency Cepstrum, MFC)数据表示了音频数据的短时功率谱。MFC数据是基于非线性梅尔刻度频率的对数功率谱的线性余弦变换所得。
在本发明的一种优选实施例中,可以对待评估的音频数据执行短时傅里叶变换得到声谱数据。短时傅里叶变换是经典的时频域分析方法,对短时的音频信号做傅里叶变换。其中,短时的音频信号由音频数据经过分帧(分帧即分段处理得到一个个连续或不连续的帧音频信号,每个帧音频信号的长度可以为20毫秒至50毫秒)得到。简单来说,短时傅里叶变换即将一段音频数据经过分帧、加窗(加窗即与窗函数相乘,加窗的目的是让一帧信号的幅度在两端渐变为0。窗函数即为避免音频数据的频谱能量泄露而对音频数据进行截断操作的截取函数),再对每一帧音频信号做傅里叶变换,最后把每一帧音频信号的傅里叶变换结果沿另一个维度(若窗函数为时域维度的窗函数,则另一个维度为频域维度;若窗函数为频域维度的窗函数,则另一个维度为时域维度)堆叠起来,得到类似于一幅图的二维信号,该二维信号即声谱数据。
在得到声谱数据之后,可以由声谱数据进一步进行相关处理得到梅尔倒频谱数据。在实际应用中,可以将声谱数据输入至梅尔标度滤波器组得到梅尔频谱数据,再对梅尔频谱数据进行倒谱分析(取对数和离线余弦变换等) 得到梅尔倒频谱数据。其中,梅尔标度滤波器组可以由多个等面积梅尔标度滤波器或者多个等高梅尔标度滤波器组成,本发明实施例对梅尔标度滤波器组包含的滤波器的类型和数量等不作具体限制。
步骤102,对声谱数据进行数值分析,得到流畅度数值和平稳度数值。
本步骤102中,可以在时域上对声谱数据进行数值分析。在时域上,音频数据具有“短时性”的特点,即音频数据的频率和振幅是随着时间而变化的。例如,某一时间段的频率较大,下一时间段的频率较小。
在实际应用中,可以对声谱数据在某一时间点或某一时间段的频率的数值,与下一时间点或下一时间段对应的频率的数值进行比较,若该某一时间点或该某一时间段的频率的数值,与该下一时间点或该下一时间段的对应的频率的数值相差较小,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较平滑,表示流畅度数值较高;若该某一时间点或该某一时间段的频率的数值,与该下一时间点或该下一时间段的对应的频率的数值相差较大,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较突兀,表示流畅度数值较低。
在本发明的一种优选实施例中,可以对声谱数据进行滑动均值滤波操作得到平滑波形数据,再利用平滑波形数据得到流畅度数值。在得到平滑波形数据之后,可以利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的声谱数据的差值,计算得到流畅度数值。其中,时间步数可以为声谱数据的时间轴的一种无量纲表示方式。
在实际应用中,可以按照如下公式计算得到流畅度数值:
Figure BDA0001967183780000091
其中,R表示流畅度数值,f(i)表示声谱数据,
Figure BDA0001967183780000092
表示平滑波形数据, n表示滑动均值滤波操作中的时间步数(采样点对应的时间数值)的数量,i表示第i个时间步数,n和i均表示正整数,i大于1且小于n。
本步骤102中,还可以对声谱数据在某一时间点或某一时间段的振幅的数值,与下一时间点或下一时间段对应的振幅的数值进行比较,若该某一时间点或该某一时间段的振幅的数值,与该下一时间点或该下一时间段的对应的振幅的数值相差较小,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较平稳,表示平稳度数值较高;若该某一时间点或该某一时间段的振幅的数值,与该下一时间点或该下一时间段的对应的振幅的数值相差较大,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形有突变,表示平稳度数值较低。
在本发明的一种优选实施例中,可以对声谱数据进行短时傅里叶变换操作得到短时平均幅度差数值,再利用短时平均幅度差数值得到平稳度数值。如计算声谱数据经过加窗后的短时音频信号,与声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到平稳度数值。
在实际应用中,可以按照如下公式计算得到短时平均幅度差数值:
Figure BDA0001967183780000101
其中,rt(k)表示短时平均幅度差数值,x(t)表示声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示声谱数据利用窗函数移动第k个短时窗口后得到的短时音频信号,k表示预设第一数量,N表示短时窗口的总数量,t、k和N均表示正整数。
在得到短时平均幅度差数值之后,可以利用如下公式计算得到平稳度数值:
Figure BDA0001967183780000102
其中,Rt表示平稳度数值,rt(k)表示短时平均幅度差数值,k表示预设第一数量,N表示短时窗口的总数量,N-1表示预设第二数量,t、k和N均表示正整数。
步骤103,对梅尔倒频谱数据进行特征分析,得到自然度数值。
本步骤103中,可以在频域上对梅尔倒频谱数据进行特征分析。梅尔倒频谱数据描述了音频数据的频率结构及频率与振幅之间的关系。在频域上,梅尔倒频谱数据的横轴是频率,纵轴是振幅。在实际应用中,可以从梅尔倒频谱数据中提取出梅尔倒频谱系数,利用梅尔倒频谱系数表示自然度数值。
在本发明的一种优选实施例中,可以对梅尔倒频谱数据进行特征分析得到梅尔倒频谱系数的特征参数,再利用梅尔倒频谱系数的特征参数得到自然度数值。其中,梅尔倒频谱系数为对梅尔倒频谱数据进行倒谱分析得到的系数,实际上可以采用离散余弦变换后的第2到第13个系数作为梅尔倒频谱系数。
在实际应用中,可以利用如下公式计算得到梅尔倒频谱系数的特征参数:
Figure BDA0001967183780000111
其中,c(m)表示梅尔倒频谱系数的第m维特征参数,m表示梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
在利用梅尔倒频谱系数的特征参数得到自然度数值时,可以计算梅尔倒频谱系数的特征参数和特征参数的均值的均方差,得到自然度数值。
在实际应用中,可以利用如下公式计算得到自然度数值:
Figure BDA0001967183780000112
其中,C表示自然度数值,c(m)表示梅尔倒频谱系数的第m维特征参数,
Figure BDA0001967183780000113
表示梅尔倒频谱系数的第m维特征参数的均值,m表示梅尔倒频谱系数的维度,M表示滤波器阶数。
步骤104,根据流畅度数值、平稳度数值和自然度数值获取音频数据的质量评估结果。
本发明实施例中,可以对流畅度数值、平稳度数值和自然度数值进行加权处理,得到音频数据的质量评估结果。
举例说明,利用如下公式计算得到质量评估结果:
Figure BDA0001967183780000114
其中,Score表示质量评估结果,R表示流畅度数值,Rt表示平稳度数值,C表示自然度数值。由于质量评估结果由流畅度数值、平稳度数值和自然度数值三者经过加权处理所得,因此可以将流畅度数值、平稳度数值和自然度数值三者之和,除以3得到质量评估结果。需要说明的是,上述计算质量评估结果的公式仅是一种示例性说明,在实际应用中可以根据实际情况对流畅度数值、平稳度数值和自然度数值进行加权处理,本发明实施例对加权处理的技术手段和具体过程等不作限制。
步骤105,输出质量评估结果。
得到质量评估结果之后,可以将质量评估结果输出,具体可以输出至展示终端,如显示器,还可以输出至服务器,在服务器对各音频数据的质量评估结果进行统计等。
基于上述关于一种音频数据的处理方法的相关说明,下面介绍一种音频数据的质量评估系统,如图2所示,该系统可以包括音频数据预处理模块和评估模块,其中,评估模块可以包括时域评分模块、频域评分模块和综合评分模块。音频数据预处理模块可以执行上述步骤101中的操作。时域评分模块可以执行上述步骤102中的操作。频域评分模块可以执行上述步骤103中的操作。综合评分模块可以执行上述步骤104中的操作。
综上所述,本发明实施例中的技术方案,首先,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。然后,对声谱数据进行数值分析得到流畅度数值和平稳度数值,对梅尔倒频谱数据进行特征分析得到自然度数值。最后,根据流畅度数值、平稳度数值和自然度数值获取音视数据的质量评估结果,并输出质量评估结果。
本发明实施例在待评估的音频数据的声谱数据和梅尔倒频谱数据的基础之上进行相关分析得到流畅度数值、平稳度数值和自然度数值,再根据流畅度数值、平稳度数值和自然度数值获取并输出得到质量评估结果。本发明实施例是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。
参照图3,示出了本发明实施例中一种音频数据的处理装置的结构示意图。所述装置可以包括:数据获取模块301,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;数值分析模块302,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;特征分析模块303,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;结果获取模块304,用于根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果;结果输出模块305,用于输出所述质量评估结果。
在本发明的一种优选实施例中,所述数值分析模块302,包括:滤波模块3021,用于对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;流畅度数值确定模块3022,用于利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
在本发明的一种优选实施例中,所述流畅度数值确定模块3022,用于根据
Figure BDA0001967183780000131
计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,
Figure BDA0001967183780000132
表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
在本发明的一种优选实施例中,所述数值分析模块302,包括:计算模块3023,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;平稳度数值确定模块3024,用于计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
在本发明的一种优选实施例中,所述计算模块3023,用于根据
Figure BDA0001967183780000141
计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
在本发明的一种优选实施例中,所述平稳度数值确定模块3024,用于根据
Figure BDA0001967183780000142
计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k) 表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
在本发明的一种优选实施例中,所述特征分析模块303,包括:特征参数确定模块3031,用于对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;自然度数值确定模块3032,用于计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
在本发明的一种优选实施例中,所述特征参数确定模块3031,用于根据
Figure BDA0001967183780000143
1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(n)表示滤波器系统,p表示第p阶的滤波器系统, M表示滤波器阶数。
在本发明的一种优选实施例中,所述自然度数值确定模块3032,用于根据
Figure BDA0001967183780000144
计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,
Figure BDA0001967183780000145
表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M 表示滤波器阶数。
在本发明的一种优选实施例中,所述结果获取模块304,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品的指令可以由电子设备的处理器执行,使得电子设备能够执行上述实施例中的音频数据的处理方法。
本发明实施例也提供了一种非临时性计算机可读存储介质,该存储介质中的指令可以由电子设备的处理器执行,使得电子设备执行上述实施例中的音频数据的处理方法。
需要说明的是,本发明实施例中的电子设备可以包括:个人计算机、服务器、移动终端等设备,本发明实施例对电子设备的类型、型号、配置等不作具体限制。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明实施例所提供的一种音频数据的处理方法、装置及计算机程序产品和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种音频数据的处理方法,其特征在于,包括:
响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;
对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;
对所述梅尔倒频谱数据进行特征分析,得到自然度数值;
对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的质量评估结果;
输出所述质量评估结果;
其中,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值;
其中,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到所述平稳度数值;
其中,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:计算梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
2.根据权利要求1所述的音频数据的处理方法,其特征在于,所述平滑波形数据是按照以下步骤得到的:
对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;
其中,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
3.根据权利要求1所述的音频数据的处理方法,其特征在于,所述利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,包括:
根据
Figure FDA0002910191530000021
计算得到所述流畅度数值;
其中,R表示所述流畅度数值,f(i)表示所述声谱数据,
Figure FDA0002910191530000022
表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
4.根据权利要求1所述的音频数据的处理方法,其特征在于,所述短时平均幅度差数值是按照以下步骤得到的:
计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到所述短时平均幅度差数值。
5.根据权利要求4所述的音频数据的处理方法,其特征在于,所述计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到所述短时平均幅度差数值,包括:
根据
Figure FDA0002910191530000031
计算得到所述短时平均幅度差数值;
其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
6.根据权利要求1所述的音频数据的处理方法,其特征在于,所述计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到所述平稳度数值,包括:
根据
Figure FDA0002910191530000032
计算所述平稳度数值;
其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
7.根据权利要求1所述的音频数据的处理方法,其特征在于,所述梅尔倒频谱系数的特征参数是按照以下步骤得到的:
对所述梅尔倒频谱数据进行特征分析,得到所述梅尔倒频谱系数的特征参数。
8.根据权利要求7所述的音频数据的处理方法,其特征在于,所述对所述梅尔倒频谱数据进行特征分析,得到所述梅尔倒频谱系数的特征参数,包括:
根据
Figure FDA0002910191530000041
计算所述梅尔倒频谱系数的特征参数;
其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
9.根据权利要求1所述的音频数据的处理方法,其特征在于,所述计算梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值,包括:
根据
Figure FDA0002910191530000042
计算得到所述自然度数值;
其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,
Figure FDA0002910191530000051
表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
10.一种音频数据的处理装置,其特征在于,包括:
数据获取模块,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;
数值分析模块,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;
特征分析模块,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;
结果获取模块,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的质量评估结果;
结果输出模块,用于输出所述质量评估结果;
其中,所述数值分析模块,包括:
流畅度数值确定模块,用于利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值;
平稳度数值确定模块,用于计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到所述平稳度数值;
其中,所述特征分析模块,包括:
自然度数值确定模块,用于计算梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
11.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
滤波模块,用于对所述声谱数据进行所述滑动均值滤波操作,得到所述平滑波形数据;
其中,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
12.根据权利要求10所述的音频数据的处理装置,其特征在于,所述流畅度数值确定模块,用于根据
Figure FDA0002910191530000061
计算得到所述流畅度数值;
其中,R表示所述流畅度数值,f(i)表示所述声谱数据,
Figure FDA0002910191530000062
表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
13.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
计算模块,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到所述短时平均幅度差数值。
14.根据权利要求13所述的音频数据的处理装置,其特征在于,所述计算模块,用于根据
Figure FDA0002910191530000071
计算得到所述短时平均幅度差数值;
其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
15.根据权利要求10所述的音频数据的处理装置,其特征在于,所述平稳度数值确定模块,用于根据
Figure FDA0002910191530000072
计算所述平稳度数值;
其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
16.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
特征参数确定模块,用于对所述梅尔倒频谱数据进行特征分析,得到所述梅尔倒频谱系数的特征参数。
17.根据权利要求16所述的音频数据的处理装置,其特征在于,所述特征参数确定模块,用于根据
Figure FDA0002910191530000081
计算所述梅尔倒频谱系数的特征参数;
其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(n)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
18.根据权利要求10所述的音频数据的处理装置,其特征在于,所述自然度数值确定模块,用于根据
Figure FDA0002910191530000082
计算得到所述自然度数值;
其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,
Figure FDA0002910191530000083
表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
19.一种非临时性计算机可读存储介质,其特征在于,包括:当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行权利要求1至9中任一项所述的音频数据的处理方法。
CN201910108111.7A 2019-02-02 2019-02-02 音频数据的处理方法、装置及计算机程序产品和存储介质 Active CN109949829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910108111.7A CN109949829B (zh) 2019-02-02 2019-02-02 音频数据的处理方法、装置及计算机程序产品和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910108111.7A CN109949829B (zh) 2019-02-02 2019-02-02 音频数据的处理方法、装置及计算机程序产品和存储介质

Publications (2)

Publication Number Publication Date
CN109949829A CN109949829A (zh) 2019-06-28
CN109949829B true CN109949829B (zh) 2021-03-12

Family

ID=67007536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910108111.7A Active CN109949829B (zh) 2019-02-02 2019-02-02 音频数据的处理方法、装置及计算机程序产品和存储介质

Country Status (1)

Country Link
CN (1) CN109949829B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077821A (zh) * 2021-03-23 2021-07-06 平安科技(深圳)有限公司 音频质量检测方法、装置、电子设备及存储介质
CN113178183B (zh) * 2021-04-30 2024-05-14 杭州网易云音乐科技有限公司 音效处理方法、装置、存储介质和计算设备
CN113409820B (zh) * 2021-06-09 2022-03-15 合肥群音信息服务有限公司 一种基于语音数据的质量评价方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376182B (zh) * 2010-08-26 2014-08-27 财团法人工业技术研究院 语言学习系统、语言学习方法及其程序产品
JP2015068897A (ja) * 2013-09-27 2015-04-13 国立大学法人 東京大学 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
CN104485115B (zh) * 2014-12-04 2019-05-03 上海流利说信息技术有限公司 发音评价设备、方法和系统
CN109036458A (zh) * 2018-08-22 2018-12-18 昆明理工大学 一种基于音频特征参数的多语种场景分析方法

Also Published As

Publication number Publication date
CN109949829A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
Dhingra et al. Isolated speech recognition using MFCC and DTW
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN109949829B (zh) 音频数据的处理方法、装置及计算机程序产品和存储介质
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
Das et al. Exploring different attributes of source information for speaker verification with limited test data
CN108108357B (zh) 口音转换方法及装置、电子设备
CN108682432B (zh) 语音情感识别装置
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
Magre et al. A comparative study on feature extraction techniques in speech recognition
Labied et al. Automatic speech recognition features extraction techniques: A multi-criteria comparison
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Claes et al. SNR-normalisation for robust speech recognition
KR20190125064A (ko) 음성 유사도 판단 장치 및 음성 유사도 판단 방법
KR20190125078A (ko) 음성 유사도 판단 장치 및 음성 유사도 판단 방법
Gu et al. A discrete-cepstrum based spectrum-envelope estimation scheme and its example application of voice transformation
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Hidayat et al. Improving Accuracy of Isolated Word Recognition System by using Syllable Number Characteristics.
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant