CN109949829B - 音频数据的处理方法、装置及计算机程序产品和存储介质 - Google Patents
音频数据的处理方法、装置及计算机程序产品和存储介质 Download PDFInfo
- Publication number
- CN109949829B CN109949829B CN201910108111.7A CN201910108111A CN109949829B CN 109949829 B CN109949829 B CN 109949829B CN 201910108111 A CN201910108111 A CN 201910108111A CN 109949829 B CN109949829 B CN 109949829B
- Authority
- CN
- China
- Prior art keywords
- value
- data
- short
- time
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种音频数据的处理方法、装置,及计算机程序产品,涉及多媒体技术领域,其中,所述方法包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。本发明是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。
Description
技术领域
本发明涉及多媒体技术领域,特别是涉及一种音频数据的处理方法、装置及计算机程序产品和存储介质。
背景技术
在语音合成领域中,常常需要对待合成的音频数据的质量进行评估。只有质量较高的音频数据才可以合成为清晰、无噪音的语音。目前,业界主流采用的是平均主观意见分(Mean Opinion Score,MOS),MOS是一种由多人进行主观评估,然后计算平均值的质量评估方法。
由于MOS评估方法是一种很强的主观评估方法,并且依赖于多人组成评估体系,因此,该方法存在执行效率低、评估结果欠缺客观准确性的问题。
发明内容
本发明提供一种音频数据的处理方法、装置及计算机程序产品和存储介质,以解决现有的音频数据的质量评估方案执行效率低、评估结果欠缺客观准确性的问题。
为了解决上述问题,本发明提供了一种音频数据的处理方法,包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。
可选地,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
可选地,所述利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,包括:根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和 i均表示正整数,i大于1且小于n。
可选地,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
可选地,所述计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值,包括:根据 计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
可选地,所述计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值,包括:根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
可选地,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
可选地,所述对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数,包括:根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
可选地,所述计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值,包括:根据计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
可选地,所述根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果,包括:对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
本发明还提供了一种音频数据的处理装置,包括:数据获取模块,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;数值分析模块,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;特征分析模块,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;结果获取模块,用于根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果;结果输出模块,用于输出所述质量评估结果。
可选地,所述数值分析模块,包括:滤波模块,用于对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;流畅度数值确定模块,用于利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
可选地,所述流畅度数值确定模块,用于根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
可选地,所述数值分析模块,包括:计算模块,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;平稳度数值确定模块,用于计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
可选地,所述计算模块,用于根据 计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
可选地,所述平稳度数值确定模块,用于根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
可选地,所述特征分析模块,包括:特征参数确定模块,用于对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;自然度数值确定模块,用于计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
可选地,所述特征参数确定模块,用于根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(n)表示滤波器系统,p表示第p阶的滤波器系统, M表示滤波器阶数。
可选地,所述自然度数值确定模块,用于根据计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。
可选地,所述结果获取模块,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
本发明又提供了一种计算机程序产品,包括:当所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行上述任意音频数据的处理方法。
本发明也提供了一种非临时性计算机可读存储介质,包括:当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行上述任意音频数据的处理方法。
与背景技术相比,本发明包括以下优点:
首先,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。然后,对声谱数据进行数值分析得到流畅度数值和平稳度数值,对梅尔倒频谱数据进行特征分析得到自然度数值。最后,根据流畅度数值、平稳度数值和自然度数值获取音视数据的质量评估结果,并输出质量评估结果。
本发明实施例在待评估的音频数据的声谱数据和梅尔倒频谱数据的基础之上进行相关分析得到流畅度数值、平稳度数值和自然度数值,再根据流畅度数值、平稳度数值和自然度数值获取并输出质量评估结果。本发明实施例是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。
附图说明
图1是本发明实施例中一种音频数据的处理方法的步骤流程图;
图2是本发明实施例中一种音频数据的质量评估系统的结构框图;
图3是本发明实施例中一种音频数据的处理装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例中一种音频数据的处理方法的步骤流程图。本发明实施例中的音频数据可以为任意格式的音频流数据,如动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III, MP3)、乐器数字接口(MusicalInstrument Digital Interface,MIDI)、视窗媒体音频(Windows Media Audio,WMA)、高级音频编码(Advanced Audio Coding,ACC)、自适应多速率(Adaptive Multi-Rate,AMR)编码、无损音频压缩编码(Free Lossless Audio Codec,FLAC)等等,其最大带宽可以为20KHz,速率可以介于40至50KHz之间,本发明实施例对音频数据的格式、带宽、速率等属性信息不作具体限制。
本发明实施例提供的一种音频数据的处理方法可以包括如下步骤:
步骤101,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。
本发明实施例中,可以先对待评估的音频数据进行预处理操作,预处理操作可以包括去除噪声、傅里叶及相关数学变换,其中,可以对音频数据进行滤波操作以达到去除噪声的目的。预处理操作的目的在于获取待评估的音频数据的声谱数据和梅尔倒频谱数据。其中,声谱数据是用于描述音频数据中包含成份及音色中声学能量的分配模式的工具。声谱数据可以分为静态声谱数据和动态声谱数据。静态声谱数据可以反映音频数据在某一瞬间频率和振幅之间的关系。静态声谱数据的横坐标表示频率,纵坐标表示振幅。动态声谱数据可以反映音频数据在某一段时间内力度及音高随时间的变化情况。动态声谱数据的横坐标表示时间,纵坐标表示力度或音高。本发明实施例中的声谱数据可以为静态声谱数据。梅尔倒频谱(Mel-Frequency Cepstrum, MFC)数据表示了音频数据的短时功率谱。MFC数据是基于非线性梅尔刻度频率的对数功率谱的线性余弦变换所得。
在本发明的一种优选实施例中,可以对待评估的音频数据执行短时傅里叶变换得到声谱数据。短时傅里叶变换是经典的时频域分析方法,对短时的音频信号做傅里叶变换。其中,短时的音频信号由音频数据经过分帧(分帧即分段处理得到一个个连续或不连续的帧音频信号,每个帧音频信号的长度可以为20毫秒至50毫秒)得到。简单来说,短时傅里叶变换即将一段音频数据经过分帧、加窗(加窗即与窗函数相乘,加窗的目的是让一帧信号的幅度在两端渐变为0。窗函数即为避免音频数据的频谱能量泄露而对音频数据进行截断操作的截取函数),再对每一帧音频信号做傅里叶变换,最后把每一帧音频信号的傅里叶变换结果沿另一个维度(若窗函数为时域维度的窗函数,则另一个维度为频域维度;若窗函数为频域维度的窗函数,则另一个维度为时域维度)堆叠起来,得到类似于一幅图的二维信号,该二维信号即声谱数据。
在得到声谱数据之后,可以由声谱数据进一步进行相关处理得到梅尔倒频谱数据。在实际应用中,可以将声谱数据输入至梅尔标度滤波器组得到梅尔频谱数据,再对梅尔频谱数据进行倒谱分析(取对数和离线余弦变换等) 得到梅尔倒频谱数据。其中,梅尔标度滤波器组可以由多个等面积梅尔标度滤波器或者多个等高梅尔标度滤波器组成,本发明实施例对梅尔标度滤波器组包含的滤波器的类型和数量等不作具体限制。
步骤102,对声谱数据进行数值分析,得到流畅度数值和平稳度数值。
本步骤102中,可以在时域上对声谱数据进行数值分析。在时域上,音频数据具有“短时性”的特点,即音频数据的频率和振幅是随着时间而变化的。例如,某一时间段的频率较大,下一时间段的频率较小。
在实际应用中,可以对声谱数据在某一时间点或某一时间段的频率的数值,与下一时间点或下一时间段对应的频率的数值进行比较,若该某一时间点或该某一时间段的频率的数值,与该下一时间点或该下一时间段的对应的频率的数值相差较小,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较平滑,表示流畅度数值较高;若该某一时间点或该某一时间段的频率的数值,与该下一时间点或该下一时间段的对应的频率的数值相差较大,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较突兀,表示流畅度数值较低。
在本发明的一种优选实施例中,可以对声谱数据进行滑动均值滤波操作得到平滑波形数据,再利用平滑波形数据得到流畅度数值。在得到平滑波形数据之后,可以利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的声谱数据的差值,计算得到流畅度数值。其中,时间步数可以为声谱数据的时间轴的一种无量纲表示方式。
在实际应用中,可以按照如下公式计算得到流畅度数值:
本步骤102中,还可以对声谱数据在某一时间点或某一时间段的振幅的数值,与下一时间点或下一时间段对应的振幅的数值进行比较,若该某一时间点或该某一时间段的振幅的数值,与该下一时间点或该下一时间段的对应的振幅的数值相差较小,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形较平稳,表示平稳度数值较高;若该某一时间点或该某一时间段的振幅的数值,与该下一时间点或该下一时间段的对应的振幅的数值相差较大,则表示该声谱数据在该某一时间点或该某一时间段至该下一时间点或该下一时间段之间的时间内波形有突变,表示平稳度数值较低。
在本发明的一种优选实施例中,可以对声谱数据进行短时傅里叶变换操作得到短时平均幅度差数值,再利用短时平均幅度差数值得到平稳度数值。如计算声谱数据经过加窗后的短时音频信号,与声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到平稳度数值。
在实际应用中,可以按照如下公式计算得到短时平均幅度差数值:
其中,rt(k)表示短时平均幅度差数值,x(t)表示声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示声谱数据利用窗函数移动第k个短时窗口后得到的短时音频信号,k表示预设第一数量,N表示短时窗口的总数量,t、k和N均表示正整数。
在得到短时平均幅度差数值之后,可以利用如下公式计算得到平稳度数值:
其中,Rt表示平稳度数值,rt(k)表示短时平均幅度差数值,k表示预设第一数量,N表示短时窗口的总数量,N-1表示预设第二数量,t、k和N均表示正整数。
步骤103,对梅尔倒频谱数据进行特征分析,得到自然度数值。
本步骤103中,可以在频域上对梅尔倒频谱数据进行特征分析。梅尔倒频谱数据描述了音频数据的频率结构及频率与振幅之间的关系。在频域上,梅尔倒频谱数据的横轴是频率,纵轴是振幅。在实际应用中,可以从梅尔倒频谱数据中提取出梅尔倒频谱系数,利用梅尔倒频谱系数表示自然度数值。
在本发明的一种优选实施例中,可以对梅尔倒频谱数据进行特征分析得到梅尔倒频谱系数的特征参数,再利用梅尔倒频谱系数的特征参数得到自然度数值。其中,梅尔倒频谱系数为对梅尔倒频谱数据进行倒谱分析得到的系数,实际上可以采用离散余弦变换后的第2到第13个系数作为梅尔倒频谱系数。
在实际应用中,可以利用如下公式计算得到梅尔倒频谱系数的特征参数:
其中,c(m)表示梅尔倒频谱系数的第m维特征参数,m表示梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。
在利用梅尔倒频谱系数的特征参数得到自然度数值时,可以计算梅尔倒频谱系数的特征参数和特征参数的均值的均方差,得到自然度数值。
在实际应用中,可以利用如下公式计算得到自然度数值:
步骤104,根据流畅度数值、平稳度数值和自然度数值获取音频数据的质量评估结果。
本发明实施例中,可以对流畅度数值、平稳度数值和自然度数值进行加权处理,得到音频数据的质量评估结果。
举例说明,利用如下公式计算得到质量评估结果:
其中,Score表示质量评估结果,R表示流畅度数值,Rt表示平稳度数值,C表示自然度数值。由于质量评估结果由流畅度数值、平稳度数值和自然度数值三者经过加权处理所得,因此可以将流畅度数值、平稳度数值和自然度数值三者之和,除以3得到质量评估结果。需要说明的是,上述计算质量评估结果的公式仅是一种示例性说明,在实际应用中可以根据实际情况对流畅度数值、平稳度数值和自然度数值进行加权处理,本发明实施例对加权处理的技术手段和具体过程等不作限制。
步骤105,输出质量评估结果。
得到质量评估结果之后,可以将质量评估结果输出,具体可以输出至展示终端,如显示器,还可以输出至服务器,在服务器对各音频数据的质量评估结果进行统计等。
基于上述关于一种音频数据的处理方法的相关说明,下面介绍一种音频数据的质量评估系统,如图2所示,该系统可以包括音频数据预处理模块和评估模块,其中,评估模块可以包括时域评分模块、频域评分模块和综合评分模块。音频数据预处理模块可以执行上述步骤101中的操作。时域评分模块可以执行上述步骤102中的操作。频域评分模块可以执行上述步骤103中的操作。综合评分模块可以执行上述步骤104中的操作。
综上所述,本发明实施例中的技术方案,首先,响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据。然后,对声谱数据进行数值分析得到流畅度数值和平稳度数值,对梅尔倒频谱数据进行特征分析得到自然度数值。最后,根据流畅度数值、平稳度数值和自然度数值获取音视数据的质量评估结果,并输出质量评估结果。
本发明实施例在待评估的音频数据的声谱数据和梅尔倒频谱数据的基础之上进行相关分析得到流畅度数值、平稳度数值和自然度数值,再根据流畅度数值、平稳度数值和自然度数值获取并输出得到质量评估结果。本发明实施例是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。
参照图3,示出了本发明实施例中一种音频数据的处理装置的结构示意图。所述装置可以包括:数据获取模块301,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;数值分析模块302,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;特征分析模块303,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;结果获取模块304,用于根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果;结果输出模块305,用于输出所述质量评估结果。
在本发明的一种优选实施例中,所述数值分析模块302,包括:滤波模块3021,用于对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;流畅度数值确定模块3022,用于利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
在本发明的一种优选实施例中,所述流畅度数值确定模块3022,用于根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。
在本发明的一种优选实施例中,所述数值分析模块302,包括:计算模块3023,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;平稳度数值确定模块3024,用于计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。
在本发明的一种优选实施例中,所述计算模块3023,用于根据计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。
在本发明的一种优选实施例中,所述平稳度数值确定模块3024,用于根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k) 表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。
在本发明的一种优选实施例中,所述特征分析模块303,包括:特征参数确定模块3031,用于对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;自然度数值确定模块3032,用于计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
在本发明的一种优选实施例中,所述特征参数确定模块3031,用于根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(n)表示滤波器系统,p表示第p阶的滤波器系统, M表示滤波器阶数。
在本发明的一种优选实施例中,所述自然度数值确定模块3032,用于根据计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M 表示滤波器阶数。
在本发明的一种优选实施例中,所述结果获取模块304,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品的指令可以由电子设备的处理器执行,使得电子设备能够执行上述实施例中的音频数据的处理方法。
本发明实施例也提供了一种非临时性计算机可读存储介质,该存储介质中的指令可以由电子设备的处理器执行,使得电子设备执行上述实施例中的音频数据的处理方法。
需要说明的是,本发明实施例中的电子设备可以包括:个人计算机、服务器、移动终端等设备,本发明实施例对电子设备的类型、型号、配置等不作具体限制。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明实施例所提供的一种音频数据的处理方法、装置及计算机程序产品和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种音频数据的处理方法,其特征在于,包括:
响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;
对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;
对所述梅尔倒频谱数据进行特征分析,得到自然度数值;
对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的质量评估结果;
输出所述质量评估结果;
其中,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值;
其中,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到所述平稳度数值;
其中,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:计算梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
2.根据权利要求1所述的音频数据的处理方法,其特征在于,所述平滑波形数据是按照以下步骤得到的:
对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;
其中,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
4.根据权利要求1所述的音频数据的处理方法,其特征在于,所述短时平均幅度差数值是按照以下步骤得到的:
计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到所述短时平均幅度差数值。
7.根据权利要求1所述的音频数据的处理方法,其特征在于,所述梅尔倒频谱系数的特征参数是按照以下步骤得到的:
对所述梅尔倒频谱数据进行特征分析,得到所述梅尔倒频谱系数的特征参数。
10.一种音频数据的处理装置,其特征在于,包括:
数据获取模块,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;
数值分析模块,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;
特征分析模块,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;
结果获取模块,用于对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的质量评估结果;
结果输出模块,用于输出所述质量评估结果;
其中,所述数值分析模块,包括:
流畅度数值确定模块,用于利用滑动均值滤波操作中相邻两个时间步数的平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值;
平稳度数值确定模块,用于计算预设第二数量的短时平均幅度差数值的平方和的平均数,得到所述平稳度数值;
其中,所述特征分析模块,包括:
自然度数值确定模块,用于计算梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。
11.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
滤波模块,用于对所述声谱数据进行所述滑动均值滤波操作,得到所述平滑波形数据;
其中,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。
13.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
计算模块,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到所述短时平均幅度差数值。
16.根据权利要求10所述的音频数据的处理装置,其特征在于,所述处理装置还包括:
特征参数确定模块,用于对所述梅尔倒频谱数据进行特征分析,得到所述梅尔倒频谱系数的特征参数。
19.一种非临时性计算机可读存储介质,其特征在于,包括:当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行权利要求1至9中任一项所述的音频数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910108111.7A CN109949829B (zh) | 2019-02-02 | 2019-02-02 | 音频数据的处理方法、装置及计算机程序产品和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910108111.7A CN109949829B (zh) | 2019-02-02 | 2019-02-02 | 音频数据的处理方法、装置及计算机程序产品和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109949829A CN109949829A (zh) | 2019-06-28 |
CN109949829B true CN109949829B (zh) | 2021-03-12 |
Family
ID=67007536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910108111.7A Active CN109949829B (zh) | 2019-02-02 | 2019-02-02 | 音频数据的处理方法、装置及计算机程序产品和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949829B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077821A (zh) * | 2021-03-23 | 2021-07-06 | 平安科技(深圳)有限公司 | 音频质量检测方法、装置、电子设备及存储介质 |
CN113178183B (zh) * | 2021-04-30 | 2024-05-14 | 杭州网易云音乐科技有限公司 | 音效处理方法、装置、存储介质和计算设备 |
CN113409820B (zh) * | 2021-06-09 | 2022-03-15 | 合肥群音信息服务有限公司 | 一种基于语音数据的质量评价方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376182B (zh) * | 2010-08-26 | 2014-08-27 | 财团法人工业技术研究院 | 语言学习系统、语言学习方法及其程序产品 |
JP2015068897A (ja) * | 2013-09-27 | 2015-04-13 | 国立大学法人 東京大学 | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム |
CN104485115B (zh) * | 2014-12-04 | 2019-05-03 | 上海流利说信息技术有限公司 | 发音评价设备、方法和系统 |
CN109036458A (zh) * | 2018-08-22 | 2018-12-18 | 昆明理工大学 | 一种基于音频特征参数的多语种场景分析方法 |
-
2019
- 2019-02-02 CN CN201910108111.7A patent/CN109949829B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109949829A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
Dhingra et al. | Isolated speech recognition using MFCC and DTW | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
CN109949829B (zh) | 音频数据的处理方法、装置及计算机程序产品和存储介质 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
Das et al. | Exploring different attributes of source information for speaker verification with limited test data | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Magre et al. | A comparative study on feature extraction techniques in speech recognition | |
Labied et al. | Automatic speech recognition features extraction techniques: A multi-criteria comparison | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
Jokinen et al. | Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Claes et al. | SNR-normalisation for robust speech recognition | |
KR20190125064A (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
KR20190125078A (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
Gu et al. | A discrete-cepstrum based spectrum-envelope estimation scheme and its example application of voice transformation | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
CN110634473A (zh) | 一种基于mfcc的语音数字识别方法 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Hidayat et al. | Improving Accuracy of Isolated Word Recognition System by using Syllable Number Characteristics. | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Bonifaco et al. | Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |