CN104681038A - 音频信号质量检测方法及装置 - Google Patents
音频信号质量检测方法及装置 Download PDFInfo
- Publication number
- CN104681038A CN104681038A CN201310632876.3A CN201310632876A CN104681038A CN 104681038 A CN104681038 A CN 104681038A CN 201310632876 A CN201310632876 A CN 201310632876A CN 104681038 A CN104681038 A CN 104681038A
- Authority
- CN
- China
- Prior art keywords
- mrow
- energy
- audio signal
- mfrac
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 325
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 131
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000003595 spectral effect Effects 0.000 claims description 114
- 238000001914 filtration Methods 0.000 claims description 29
- 238000009499 grossing Methods 0.000 claims description 19
- 238000009432 framing Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 abstract 1
- 238000007906 compression Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 57
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明实施例提供一种音频信号质量检测方法及装置,该方法包括:获取待检测音频信号的频谱能量序列,频谱能量序列为N维向量,其中,N为对待检测音频信号进行加窗处理的窗函数的窗长,频谱能量序列内各元素用于表征各采样点的频谱能量;根据频谱能量序列,确定待检测音频信号中的低能子带;根据低能子带,判别待检测音频信号是否存在频带丢失,若确定待检测音频信号存在频带丢失,则确定待检测音频信号质量失真。本发明实施例对待检测音频信号的频谱进行分析,判别待检测音频信号是否存在频带丢失,进而确定待检测音频信号质量是否失真,从而无需与源音频信号进行比较即可获知待检测音频是否失真,实现音频信号质量的高效检测。
Description
技术领域
本发明实施例涉及移动通信技术,尤其涉及一种音频信号质量检测方法及装置。
背景技术
目前运营商提供大量铃音给用户使用,在录制、编辑、存储和传输这些铃音的过程中,可能导致铃音的某一个或者几个频带被滤除(即频带丢失),从而低铃音的质量。另外,由于铃音的数据是海量的,对铃音质量进行人工检测是无法完成的,因此,铃音质量检测引起普遍关注。
现有技术通过用户终端拨打待检测的铃音,并录制该铃音的目标铃音文件;利用主观语音质量评估(Perceptual Evaluation of Speech Quality,以下简称:PESQ)算法对上述目标铃音文件和铃音平台上的源铃音文件进行对比,输出人为评估分数(Man Option Score,以下简称:MOS)值,获得该铃音的质量等级。
上述铃音质量检测方法的实施过程中,需要存在铃音的源文件,若是用户自制的铃音,则无法判别其音频质量。
发明内容
本发明实施例提供一种音频信号质量检测方法及装置,用于检测音频信号中是否存在频带丢失,以判别音频信号的质量。
第一方面,本发明实施例提供一种音频信号质量检测装置,包括:获取模块、确定模块和判断模块,其中,
所述获取模块,用于获取待检测音频信号的频谱能量序列,所述频谱能量序列为N维向量,其中,N为对所述待检测音频信号进行加窗处理的窗函数的窗长,所述频谱能量序列内各元素用于表征各采样点的频谱能量;所述确定模块,用于根据所述获取模块获取的所述频谱能量序列,确定所述待检测音频信号中的低能子带;所述判断模块,用于根据所述确定模块确定的所述低能子带,判别所述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
结合第一方面,在第一方面的第一种可能的实现方式中,所述获取模块包括:
加窗单元,用于加窗处理所述待检测音频信号,得到加窗后的信号;
转换单元,用于对所述加窗单元得到的所述加窗后的信号进行快速傅里叶变换FFT,得到频域信号;
运算单元,用于计算所述转换单元得到的所述频域信号的功率谱密度,得到所述频谱能量序列。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述获取模块还包括:
截取单元,用于截取所述转换单元得到的所述频域信号,得到短时频域信号,所述短时频域信号为所述频域信号的前半部分或后半部分;
则所述运算单元用于计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述运算单元具体用于:
根据如下公式计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列:
其中,S(j)为所述短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式得到所述频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述运算单元还用于:
根据如下公式对所述频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为所述预设平滑步长,SP(i)为所述频谱能量序列中的第i个点;
则所述确定模块用于根据所述平滑之后的频谱能量序列,确定所述待检测音频信号中的低能子带。
结合第一方面,在第一方面的第五种可能的实现方式中,所述确定模块包括:
第一确定单元,用于根据所述获取模块获取的所述频谱能量序列中的最大值和均值,确定低能判别阈值;
第二确定单元,用于根据所述第一确定单元确定的所述低能判别阈值,确定所述低能子带。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述第一确定单元具体用于:
根据如下公式确定所述低能判别阈值:
其中,σ为所述低能判别阈值,max为所述频谱能量序列中的最大值,mean为所述频谱能量序列中的均值。
结合第一方面的第五种或第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述确定模块还包括:
删除单元,用于若所述第二确定单元确定的所述低能子带的带宽小于第一预设带宽,则删除所述低能子带;和/或,
合并单元,用于若所述第二确定单元确定的相邻低能子带间的带宽间隔小于第二预设带宽,则合并所述相邻低能子带。
结合第一方面的第五种至第七种可能的实现方式中的任意一种,在第一方面的第八种可能的实现方式中,所述确定模块还包括:
第三确定单元,用于分别对所述第二确定单元确定的所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率;
将所述起始点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的起始点;
将所述结束点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的结束点。
结合第一方面的第八种可能的实现方式中的任意一种,在第一方面的第九种可能的实现方式中,所述第三确定单元具体用于:
根据如下公式计算所述拟合斜率:
其中,S为所述拟合斜率,M为所述邻域内所有点的个数,Xm为所述邻域内所有点的能量值。
结合第一方面,在第一方面的第十种可能的实现方式中,所述判断模块具体用于:
若所述确定模块确定的所述低能子带的带宽小于第三预设带宽,则确定所述待检测音频信号不存在频带丢失;或者,
若所述确定模块确定的所述低能子带的开始点大于预设界限值,则确定所述待检测音频信号不存在频带丢失;或者,
若采样率大于或等于预设采样率,且所述确定模块确定的所述低能子带的带宽大于第四预设带宽,则确定所述待检测音频信号存在频带丢失;或者,
若所述确定模块确定的所述低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定所述待检测音频信号存在频带丢失。
结合第一方面的第十种可能的实现方式,在第一方面的第十一种可能的实现方式中,若所述确定模块确定所述待检测音频信号存在频带丢失,则所述确定模块还用于:
计算丢失频带中所有点的平均能量;
若确定所述平均能量大于预设能量值,则判别所述待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,
若确定所述平均能量小于或等于所述预设能量值,则判别所述待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。
结合第一方面、第一方面的第一种至第十一种可能的实现方式中的任意一种,在第一方面的第十二种可能的实现方式中,所述装置还包括:
分帧模块,用于对所述待检测音频信号进行预设帧长的分帧处理,得到分帧后的音频信号;
则所述获取模块具体用于获取所述分帧模块得到的所述分帧后的音频信号中各帧音频信号的频谱向量,并计算所述各帧音频信号的频谱向量的均值序列;将所述均值序列作为所述待检测音频信号的频谱能量序列。
结合第一方面、第一方面的第一种至第十二种可能的实现方式中的任意一种,在第一方面的第十三种可能的实现方式中,所述装置还包括:
滤除模块,用于滤除所述待检测音频信号中直流分量,得到滤波后信号;
则所述获取模块用于获取所述滤波模块得到的所述滤波后信号的频谱能量序列。
结合第一方面的第十三种可能的实现方式,在第一方面的第十四种可能的实现方式中,所述滤除模块具体用于:
根据如下公式滤除所述待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为所述滤波后信号,X(k)为所述待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
第二方面,本发明实施例提供一种音频信号质量检测方法,包括:
获取待检测音频信号的频谱能量序列,所述频谱能量序列为N维向量,其中,N为对所述待检测音频信号进行加窗处理的窗函数的窗长,所述频谱能量序列内各元素用于表征各采样点的频谱能量;
根据所述频谱能量序列,确定所述待检测音频信号中的低能子带;
根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
结合第二方面,在第二方面的第一种可能的实现方式中,所述获取待检测音频信号的频谱能量序列,包括:
加窗处理所述待检测音频信号,得到加窗后的信号;
对所述加窗后的信号进行快速傅里叶变换FFT,得到频域信号;
计算所述频域信号的功率谱密度,得到所述频谱能量序列。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述对所述加窗后的信号进行FFT,得到频域信号之后,所述方法还包括:
获取短时频域信号,所述短时频域信号为所述频域信号的前半部分或后半部分;
则所述计算所述频域信号的功率谱密度,得到所述频谱能量序列,包括:
计算所述短时频域信号的功率谱密度,得到所述频谱能量序列。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述计算所述短时频域信号的功率谱密度,得到所述频谱能量序列,包括:
根据如下公式计算所述短时频域信号的功率谱密度,得到所述频谱能量序列:
其中,S(j)为所述短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式得到所述频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述计算所述短时频域信号的功率谱密度,得到所述频谱能量序列,还包括:
根据如下公式对所述频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为所述预设平滑步长,SP(i)为所述频谱能量序列中的第i个点;
则所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,包括:
根据所述平滑之后的频谱能量序列,确定所述待检测音频信号中的低能子带。
结合第二方面,在第二方面的第五种可能的实现方式中,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,包括:
根据所述频谱能量序列中的最大值和均值,确定低能判别阈值;
根据所述低能判别阈值,确定所述低能子带。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述根据所述频谱能量序列中的最大值和均值,确定低能判别阈值,包括:
根据如下公式确定所述低能判别阈值:
其中,σ为所述低能判别阈值,max为所述频谱能量序列中的最大值,mean为所述频谱能量序列中的均值。
结合第二方面的第五种或第六种可能的实现方式,在第二方面的第七种可能的实现方式中,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,还包括:
若所述低能子带的带宽小于第一预设带宽,则删除所述低能子带;和/或,
若相邻低能子带间的带宽间隔小于第二预设带宽,则合并所述相邻低能子带。
结合第二方面的第五种至第七种可能的实现方式中的任意一种,在第二方面的第八种可能的实现方式中,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,还包括:
分别对所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率;
将所述起始点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的起始点;
将所述结束点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的结束点。
结合第二方面的第八种可能的实现方式,在第二方面的第九种可能的实现方式中,所述分别对所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率,包括:
根据如下公式计算所述拟合斜率:
其中,S为所述拟合斜率,M为所述邻域内所有点的个数,Xm为所述邻域内所有点的能量值。
结合第二方面,在第二方面的第十种可能的实现方式中,所述根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,包括:
若所述低能子带的带宽小于第三预设带宽,则确定所述待检测音频信号不存在频带丢失;或者,
若所述低能子带的开始点大于预设界限值,则确定所述待检测音频信号不存在频带丢失;或者,
若采样率大于或等于预设采样率,且所述低能子带的带宽大于第四预设带宽,则确定所述待检测音频信号存在频带丢失;或者,
若所述低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定所述待检测音频信号存在频带丢失。
结合第二方面的第十种可能的实现方式,在第二方面的第十一种可能的实现方式中,若确定所述待检测音频信号存在频带丢失,则所述根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,还包括:
计算丢失频带中所有点的平均能量;
若确定所述平均能量大于预设能量值,则判别所述待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,
若确定所述平均能量小于或等于所述预设能量值,则判别所述待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。
结合第二方面、第二方面的第一种至第十一种可能的实现方式中的任意一种,在第二方面的第十二种可能的实现方式中,所述方法还包括:
对所述待检测音频信号进行预设帧长的分帧处理,得到分帧后的音频信号;
则所述获取待检测音频信号的频谱能量序列,包括:获取所述分帧后的音频信号中各帧音频信号的频谱向量,并计算所述各帧音频信号的频谱向量的均值序列;将所述均值序列作为所述待检测音频信号的频谱能量序列。
结合第二方面、第二方面的第一种至第十二种可能的实现方式中的任意一种,在第二方面的第十三种可能的实现方式中,所述获取待检测音频信号的频谱能量序列之前,所述方法还包括:
滤除所述待检测音频信号中直流分量,得到滤波后信号;
则所述获取待检测音频信号的频谱能量序列,包括:
获取所述滤波后信号的频谱能量序列。
结合第二方面的第十三种可能的实现方式,在第二方面的第十四种可能的实现方式中,所述滤除所述待检测音频信号中直流分量,得到滤波后信号,包括:
根据如下公式滤除所述待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为所述滤波后信号,X(k)为所述待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
本发明实施例直接对待检测音频信号的频谱进行分析,根据待检测音频信号的频谱能量序列,确定该待检测音频信号中包含的低能子带,并根据该些低能子带,判别待检测音频信号是否存在频带丢失,进而确定所述待检测音频信号质量是否失真,从而无需与源音频信号进行比较即可获知待检测音频是否失真,实现音频信号质量的高效检测,并降低频带丢失的误判概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明音频信号质量检测装置实施例一的结构示意图;
图2为四种窗函数的波形示例图;
图3为汉明窗函数在时域上的幅值变化示例图;
图4为汉明窗函数在频域上的频谱示例图;
图5为音频信号中所丢失的频带中存在能量残留的示例图;
图6为音频信号中所丢失的频带中不存在能量残留的示例图;
图7为本发明音频信号质量检测装置实施例二的结构示意图;
图8为本发明音频信号质量检测装置实施例三的结构示意图;
图9为切比雪夫窗函数在时域上的幅值变化示例图;
图10为切比雪夫窗函数在频域上的频谱示例图;
图11为本发明音频信号质量检测装置实施例四中待检测音频信号的波形示意图;
图12为本发明音频信号质量检测装置实施例四中待检测音频信号滤波之后的波形示意图;
图13为本发明音频信号质量检测装置实施例四中待检测音频信号滤波之后的频谱示意图;
图14为本发明音频信号质量检测装置实施例四中待检测音频信号滤波之后的频谱能量序列示意图;
图15为本发明音频信号质量检测方法实施例一的流程示意图;
图16为本发明音频信号质量检测方法实施例二的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明音频信号质量检测装置实施例一的结构示意图。本发明实施例提供了一种音频信号质量检测装置,该装置可以集成在终端设备中,其中,终端设备可以为个人电脑(Personal Computer,以下简称:PC)或平板电脑等任意终端设备。如图1所示,本实施例的装置包括:获取模块10、确定模块20和判断模块30。
其中,获取模块10用于获取待检测音频信号的频谱能量序列,该频谱能量序列为N维向量,其中,N为对上述待检测音频信号进行加窗处理的窗函数的窗长,该频谱能量序列内各元素用于表征各采样点的频谱能量;确定模块20用于根据获取模块10获取的上述频谱能量序列,确定上述待检测音频信号中的低能子带;判断模块30用于根据确定模块20确定的上述低能子带,判别上述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
上述待检测音频信号可以为一般的音频文件,也可以为运营商提供给用户的彩铃、振铃或全曲等特色音乐。另外,本发明不仅可以应用于一般音乐质量的检测,对于语音和其他传输数字信号都有着很好的扩展应用。
频谱是时域的信号在频域下表示方式,可以针对信号进行傅立叶变换而得。频谱可以表示一个信号是由哪些频率的弦波所组成,音频可以由许多不同频率的音频组成。
对音频信号进行加窗处理,也就是一次仅处理音频信号位于窗内的数据。因为实际场景中音频信号较长,本发明采用对待检测的音频信号加窗处理的方式进行分析,避免对长数据的一次性处理。通常情况下,音频信号没有明显的周期性,加窗处理后,音频信号的数据形状就会呈现周期性。在上述待检测的音频信号自身较短的场景中,可以不对其进行上述加窗处理,直接求得该待检测的音频信号的频谱能量序列,此时,N为该待检测音频信号的总采样点个数。
其中,窗函数类型可以为以下任意一种:矩型窗函数、汉明窗函数、汉宁窗函数或布莱克曼窗函数等。上述四种窗函数的波形图如图2所示:N表示一个周期内的采样点个数,ω(n)表示各窗函数对应的波形值,①表示矩形窗函数的波形;②表示汉宁窗函数的波形;③表示汉明窗函数的波形;④表示布莱克曼窗函数的波形。该四种窗函数的特征见表1。
表1窗函数特征
窗函数 | 主瓣宽度 | 旁瓣峰值衰减(dB) | 阻带最小衰减(dB) |
矩形窗函数 | 4π/N | -13 | -21 |
汉宁窗函数 | 8π/N | -31 | -44 |
汉明窗函数 | 8π/N | -41 | -53 |
布莱克曼窗函数 | 12π/N | -57 | -74 |
窗函数在某一数值区间内为非零值,而在其余数值区间内皆为0。以汉明窗函数为例进行说明,汉明窗函数主要部分的形状像sin(x)在0到π区间的形状,而其余部分都是0,这样,汉明窗函数与其他任何一个函数的乘积只有一部分有非零值。
本发明以汉明窗函数为例,说明该窗函数在一个周期内对应的时域波形和频域波形,其中,图3为汉明窗函数在时域上的幅值变化示例图,图4为汉明窗函数在频域上的频谱示例图。图4中,横轴表示采样点,纵轴表示各采样点对应的归一化幅值。图4中,横轴表示归一化频率,该归一化频率为每个采样点的实际频率与π相除获得;纵轴表示每个采样点对应的频谱能量,其单位为分贝。
加窗处理待检测音频信号之后,待检测音频信号位于窗函数中间的数据保留,位于窗函数两侧的数据丢失,因此,移动窗函数时,移动步长通常为1/3或1/2窗长,这样,被前一帧或二帧丢失的数据又重新得到了体现。对待检测音频信号自身或加窗处理后的待检测音频信号进行快速傅里叶变换(FastFourier Transformation,以下简称:FFT)即得到待检测音频信号的频域信息,求得该频域信息的功率谱密度作为待检测音频信号的频谱,并根据该频谱计算频谱能量,得到上述频谱能量序列。
对获得的频谱能量序列,若其中某一点的频谱能量低于预设的低能判别阈值,则将其标注为低能点。对于频谱能量序列上的第i,i+1点为低能点,且i-1点不为低能点,则将i标注为低能子带的开始点;若第i,i-1点为低能点,且i+1点不为低能点,则将i标注为低能子带的结束点,从而得到频谱能量序列中所有的低能子带及其边界特征,该边界特征包括边界点的位置及边界点的拟合斜率等。
根据上述低能子带,判别上述待检测音频信号是否存在频带丢失,例如,若低能子带的带宽小于第一预设数值,则认为待检测音频信号不存在频带丢失;若低能子带的带宽大于第二预设数值,则认为待检测音频信号存在频带丢失,其中,该第二预设数值大于该第一预设数值。若待检测音频信号存在频带丢失,则确定该待检测音频信号质量失真,并输出所丢失频带的起始频率和结束频率;对不存在频带丢失的待检测音频信号,则确定该待检测音频信号质量正常。
本发明实施例直接对待检测音频信号的频谱进行分析,根据待检测音频信号的频谱能量序列,确定该待检测音频信号中包含的低能子带,并根据该些低能子带,判别待检测音频信号是否存在频带丢失,进而确定所述待检测音频信号质量是否失真,从而无需与源音频信号进行比较即可获知待检测音频是否失真,实现音频信号质量的高效检测,并降低频带丢失的误判概率。
具体地,获取模块10可以包括:加窗单元,用于加窗处理所述待检测音频信号,得到加窗后的信号;转换单元,用于对所述加窗单元得到的所述加窗后的信号进行FFT,得到频域信号;运算单元,用于计算所述转换单元得到的所述频域信号的功率谱密度,得到所述频谱能量序列。
其中,对加窗后的信号,求得其FFT后的频域信号,该计算过程如下:
其中,X[m]为频域信号,x[k]为加窗后的信号。
由上述公式(1)可知,对所述加窗后的信号进行FFT,其中,FFT长度为上述待检测音频信号的长度,得到频域信号为对称序列,因此,取该频域信号的半边S(j),例如,S(j)采用如公式(2)或公式(3)所表达的频域信号,其中,即可表达该加窗后的信号的频域信息,得到该加窗后的信号对应的短时频域信号,从而减小上述运算单元的计算量。
因此,在上述基础上,获取模块10还可以包括截取单元,该截取单元用于截取所述转换单元得到的所述频域信号,得到短时频域信号,所述短时频域信号为所述频域信号的前半部分或后半部分;则所述运算单元用于计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列。
进一步地,运算单元可以具体用于根据如下公式(4)计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列:
其中,S(j)为所述短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式(5)得到所述频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。可以为一很小的数值,用于避免根据公式(5)计算频谱能量出现负无穷和很小的负值,保证计算结果的有效性。
对于采样率为FS的待检测音频信号,其频谱上频率范围为其中,SP(0)对应待检测音频信号的直流分量,SP(j)中的每一点对应待检测音频信号频谱上每一段的频谱能量,即SP(j)为待检测音频信号从至子带内的频谱能量。
上述运算单元还可以用于:根据如下公式(6)对所述频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为所述预设平滑步长,SP(i)为所述频谱能量序列中的第i个点。预设平滑步长可以根据实际需求进行设置,例如可以为40。
根据上述平滑处理后的频谱能量序列,确定模块20可以用于根据所述平滑之后的频谱能量序列,确定所述待检测音频信号中的低能子带。本发明实施例对频谱能量序列进行平滑处理,使得频谱能量序列的精细结构被平滑,使得频谱能量序列中的尖峰和峡谷都趋于圆滑。
确定模块20可以具体包括:第一确定单元和第二确定单元,该第一确定单元用于根据所述获取模块获取的所述频谱能量序列中的最大值和均值,确定低能判别阈值;该第二确定单元用于根据所述第一确定单元确定的所述低能判别阈值,确定所述低能子带。
其中,第一确定单元可以具体用于根据如下公式(7)确定所述低能判别阈值:
其中,σ为所述低能判别阈值,max为所述频谱能量序列中的最大值,mean为频谱能量序列中的均值。
由公式(7)可知,当max小于4时,σ取值为1;当max大于或等于4时,σ根据max和mean的上述大小关系进行取值,此处不再一一赘述。需要说明的是,公式(7)是依据大量的实验数据所得。
在上述实施例的基础上,确定模块20还可以包括:删除单元,该删除单元用于若所述第二确定单元确定的所述低能子带的带宽小于第一预设带宽,则删除所述低能子带;和/或,合并单元,用于若所述第二确定单元确定的相邻低能子带间的带宽间隔小于第二预设带宽,则合并所述相邻低能子带,以进一步减小计算复杂度及判断次数。其中,上述第一预设带宽和第二预设带宽可以根据实际需求进行设置,例如,第一预设带宽可以为200赫兹(Hz),第二预设带宽可以为400Hz,等等。
进一步地,确定模块20还可以包括:第三确定单元,该第三确定单元用于分别对所述第二确定单元确定的所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率;将所述起始点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的起始点;将所述结束点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的结束点。
具体地,第三确定单元可以具体用于根据如下公式(8)计算所述拟合斜率:
其中,S为所述拟合斜率,M为所述邻域内所有点的个数,Xm为所述邻域内所有点的能量值。
本发明实施例中,在合并单元和/或删除单元对上述低能子带进行过滤(该过滤可省略)之后,对于每个低能子带的开始点和结束点的附近的领域内的所有点,计算低能子带的边界点的拟合斜率,从而增加对上述待检测音频信号中是否存在频带丢失的判决条件,进而保证待检测音频信号中频带丢失判断的准确度。
在上述基础上,判断模块30可以具体用于:若确定模块20确定的所述低能子带的带宽小于第三预设带宽,则确定所述待检测音频信号不存在频带丢失;或者,若确定模块20确定的所述低能子带的开始点大于预设界限值,则确定所述待检测音频信号不存在频带丢失;或者,若采样率大于或等于预设采样率,且确定模块20确定的所述低能子带的带宽大于第四预设带宽,则确定所述待检测音频信号存在频带丢失;或者,若确定模块20确定的所述低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定所述待检测音频信号存在频带丢失。
其中,上述第三预设带宽可以为300Hz或上述待检测音频信号的频带(即采样率的一半)的二十分之一;上述预设界限值可以为19千赫兹(KHz);若上述采样率为22KHz,则上述第四预设带宽为上述待检测音频信号的频带的三分之一;上述预设值可以为0.08,即低能子带的边界处能量变化非常快,是被滤除的,所以应该为频带丢失。
另需说明的是,若确定模块20确定上述待检测音频信号存在频带丢失,则确定模块20还可以用于计算丢失频带中所有点的平均能量;若确定该平均能量大于预设能量值,则判别上述待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,若确定该平均能量小于或等于上述预设能量值,则判别上述待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。对于待检测音频信号中所丢失频带存在能量残留的情况,用户可以主观判断该待检测音频信号失真;对于待检测音频信号中所丢失频带不存在能量残留的情况,用户不能主观判断该待检测音频信号失真,需采用本发明实施例提供的音频质量检测方法进行判断。因此,本发明实施例提供的音频信号质量检测方法实现音频信号质量的高效检测,降低频带丢失的误判概率。
对于存在频带丢失的音频信号,计算丢失频带中所有点的平均能量,用于判别音频信号中所丢失的频带中是否有能量残留,保存判别结果。例如将判别结果保存在参数频带滤除判别结果freLostType中,若该平均能量大于1.2,则判别为存在能量残留freLostType=2,例如图5所示;否则,判别为不存在能量残留,freLostType=1,例如图6所示;对于不存在频带缺失的音频,freLostType=0。
还需说明的是,本发明任意实施例中,所有的预设数值均可以根据实际需求进行设置,本发明中出现的具体数值只为方便说明为准,不对其实际大小进行限制。
图7为本发明音频信号质量检测装置实施例二的结构示意图。该实施例在如图1所示的实施例的基础上,音频信号质量检测装置还可以包括:分帧模块40,用于对上述待检测音频信号进行预设帧长的分帧处理,得到分帧后的音频信号;则获取模块10可以具体用于获取分帧模块40得到的所述分帧后的音频信号中各帧音频信号的频谱向量,并计算所述各帧音频信号的频谱向量的均值序列;将所述均值序列作为所述待检测音频信号的频谱能量序列。
本实施例中,先将待检测音频信号分帧,预设帧长可以根据需求设置,在分帧过程中,若最后一帧信号的长度不满足预设帧长,则对其进行补零,使得每帧的长度达到预设帧长。例如,预设帧长可以为2048点,帧移为1024点,最后一帧若不满2048点,则补零至一个预设帧长。此时,获取模块10在获取频谱能量序列时,需计算所述分帧后的音频信号中各帧音频信号的频谱向量,并根据公式(9)计算所述各帧音频信号的频谱向量的均值序列:
其中,FP(t,j)表示第t帧音频信号的频谱向量,M1为时域上的帧数。
公式(9)是在根据公式(5)计算得到每一帧音频信号的频谱向量的基础上,对各帧音频信号的频谱向量在时域上求均值,得到频谱能量序列。可选地,还可以首先对分帧后的音频信号通过上述加窗单元进行加窗处理,然后再通过转换单元和运算单元得到频谱能量序列。
更进一步地,如图8所示,音频信号质量检测装置还可以包括:滤除模块50,用于滤除所述待检测音频信号中直流分量,得到滤波后信号;则获取模块10用于获取该滤波模块50得到的所述滤波后信号的频谱能量序列。
具体地,滤除模块可以具体用于根据如下公式(10)滤除所述待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为所述滤波后信号,X(k)为所述待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
音频信号在录制、存储和编辑过程均可能引入直流分量,而直流分量会干扰音频信号自身的短时能量和频谱的计算。因此,本发明实施例对待检测音频信号进行滤波处理,从而提高音频信号频谱和短时能量的精确度。另外,由于音频信号在50赫兹(Hz)以下的信息都极少,对听感几乎没有影响,且滤除后不干扰音频信号的质量,也不影响音频信号的进一步检测,因此,可选地,滤除50Hz以下的频带,以降低计算复杂度。
滤除模块采用切比雪夫窗函数滤波器(Chebyshev Window FunctionFilter),可以很好的滤除50Hz以下的子带,并且获得很窄的50HZ左右的过度频带。切比雪夫窗函数在时域和频域上的图形示例图如图9和图10所示。
以下通过几组实验数据说明采用本发明实施例提供的音频信号质量检测装置对音频信号质量的检测结果:
第一组:对中间子带缺失的音频信号进行检测,其中,在266个音频信号中有250正常的音频信号和16个含有中间频带缺失的音频信号,一共含有26个中间频带缺失。检测结果为96.3%的召回率,86.5%的准确率;
第二组:对于高频缺失的音频信号进行检测,在297个音频信号中有234个音频信号含有高频缺失,其他的为正常音频信号。检测结果为97.4%的召回率,100%的准确率;
第三组:对所有种类的频带缺失进行了检测,在2654个音频信号中,共包含各类子带缺失332个。检测结果为93.8%的召回率,96.3%的准确率。
综合上述实验结果可知,本发明实施例提供的音频信号质量检测装置可以有效的检测出待检测音频信号中存在的频带丢失,且具有较高的准确率和召回率。
采用如图8所示的音频信号质量检测装置,检测一时长为60秒的待检测音频信号,采样率为44.1KHz,待检测音频信号波形如图11所示,其中,横轴为时间,单位为秒;纵轴为各采样点的幅值大小。
由图11可见,波形中间存在较强的直流分量,且待检测音频波形整体向上偏移,因此,首先通过切比雪夫窗函数进行高通滤波,将直流分量滤除。滤波之后的结果如图12所示,其中,横轴为时间,单位为秒;纵轴为各采样点的幅值大小。由图12可见,直流分量被滤除,待检测音频信号波形整体以0值基准线上下对称;计算滤波后信号的频谱,所得频谱如图13所示。
然后,计算该频谱在时域上均值,得到频谱能量序列,如图14所示;根据确定模块20可以检测到该待检测音频信号中存在三个低能子带,参考图14,分别为:(2052Hz,4850Hz),(9560Hz,10050Hz)和(16000Hz,22050Hz),计算上述三个低能子带的起始点和结束点的拟合斜率,分别为(-1.25,2.25),(-0.75,056),(-0.15,0)。
最后,判断模块30根据上述三个低能子带,对该待检测音频信号是否存在频带丢失进行判别:对于第三个低能子带,由于是高频子带,所以只考虑其起始点的拟合斜率,其斜率为-0.15,小于低能判别阈值,因此,确定第三个低能子带为正常子带,即单独从第三个低能子带看,该待检测音频信号质量正常;第二个低能子带的带宽为490Hz,小于该待检测音频信号带宽的二十分之一(1000Hz),因此,确定第二个低能子带为正常子带,即单独从第二个低能子带看,该待检测音频信号质量正常;第一个低能子带的带宽为2850Hz,大于该待检测音频信号带宽的二十分之一,且该第一个低能子带为中间子带,另外,该第一个低能子带的起始点和结束点的拟合斜率绝对值之和大于低能判别阈值,因此,确定第一个低能子带为异常子带,即从第一个低能子带看,该待检测音频信号质量失真。
从上述分析结果可知,本发明实施例提供的音频信号质量检测装置可以有效的检测出待检测音频信号中存在的频带丢失。
图15为本发明音频信号质量检测方法实施例一的流程示意图。本发明实施例提供一种音频信号质量检测方法,该方法可以通过上述实施例中的音频信号质量检测装置执行。如图15所示,该方法包括:
S151、获取待检测音频信号的频谱能量序列。
具体地,该频谱能量序列为N维向量,其中,N为对上述待检测音频信号进行加窗处理的窗函数的窗长,该频谱能量序列内各元素用于表征各采样点的频谱能量。
S152、根据上述频谱能量序列,确定该待检测音频信号中的低能子带。
S153、根据上述低能子带,判别该待检测音频信号是否存在频带丢失,若确定该待检测音频信号存在频带丢失,则确定该待检测音频信号质量失真。
本实施例的方法,可以由图1所示的音频信号质量检测装置执行,各步骤作用可以参考上述音频信号质量检测装置实施例中对应部件的功能,其实现原理和技术效果类似,此处不再赘述。
其中,上述获取待检测音频信号的频谱能量序列可以具体包括:加窗处理上述待检测音频信号,得到加窗后的信号;对该加窗后的信号进行FFT,得到频域信号;计算该频域信号的功率谱密度,得到上述频谱能量序列。
在上述基础上,上述对加窗后的信号进行FFT,得到频域信号之后,音频信号质量检测方法还可以包括:获取短时频域信号,该短时频域信号为上述频域信号的前半部分或后半部分;则上述计算频域信号的功率谱密度,得到频谱能量序列,包括:计算该短时频域信号的功率谱密度,得到频谱能量序列。
其中,计算短时频域信号的功率谱密度,得到频谱能量序列可以具体包括:根据如下公式计算短时频域信号的功率谱密度,得到频谱能量序列:
其中,S(j)为短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式得到频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。
可选地,上述计算短时频域信号的功率谱密度,得到频谱能量序列,还可以包括:根据如下公式对频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为预设平滑步长,SP(i)为所述频谱能量序列中的第i个点。则根据所述频谱能量序列,确定待检测音频信号中的低能子带,包括:根据该平滑之后的频谱能量序列,确定上述待检测音频信号中的低能子带。
上述根据频谱能量序列,确定待检测音频信号中的低能子带具体可以包括:根据频谱能量序列中的最大值和均值,确定低能判别阈值;根据该低能判别阈值,确定低能子带。
具体地,根据频谱能量序列中的最大值和均值,确定低能判别阈值,包括:根据如下公式确定低能判别阈值:
其中,σ为低能判别阈值,max为频谱能量序列中的最大值,mean为频谱能量序列中的均值。
可选地,根据频谱能量序列,确定待检测音频信号中的低能子带,还可以包括:若低能子带的带宽小于第一预设带宽,则删除该低能子带;和/或,若相邻低能子带间的带宽间隔小于第二预设带宽,则合并该相邻低能子带。
进一步地,根据频谱能量序列,确定待检测音频信号中的低能子带,还可以包括:分别对低能子带的起始点和结束点的邻域内所有点,确定起始点和结束点的拟合斜率;将起始点的拟合斜率中的最大绝对值对应的点重新定位为低能子带的起始点;将结束点的拟合斜率中的最大绝对值对应的点重新定位为低能子带的结束点。
需要说明的是,分别对低能子带的起始点和结束点的邻域内所有点,确定起始点和结束点的拟合斜率,可以包括:根据如下公式计算拟合斜率:
其中,S为拟合斜率,M为邻域内所有点的个数,Xm为邻域内所有点的能量值。
上述根据低能子带,判别待检测音频信号是否存在频带丢失,具体可以包括:若低能子带的带宽小于第三预设带宽,则确定待检测音频信号不存在频带丢失;或者,若低能子带的开始点大于预设界限值,则确定待检测音频信号不存在频带丢失;或者,若采样率大于或等于预设采样率,且低能子带的带宽大于第四预设带宽,则确定待检测音频信号存在频带丢失;或者,若低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定待检测音频信号存在频带丢失。
在上述基础上,若确定待检测音频信号存在频带丢失,则根据低能子带,判别待检测音频信号是否存在频带丢失,还可以包括:计算丢失频带中所有点的平均能量;若确定该平均能量大于预设能量值,则判别待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,若确定该平均能量小于或等于预设能量值,则判别待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。
图16为本发明音频信号质量检测方法实施例二的流程示意图。如图16所示,本实施例在图15所示实施例的基础上,音频质量检测方法还可以包括:
S161、滤除待检测音频信号中直流分量,得到滤波后信号。
具体地,根据如下公式滤除待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为滤波后信号,X(k)为待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
S162、对滤波后信号进行预设帧长的分帧处理,得到分帧后的音频信号。
S163、获取分帧后的音频信号的频谱能量序列。
具体地,获取分帧后的音频信号中各帧音频信号的频谱向量,并计算各帧音频信号的频谱向量的均值序列;将该均值序列作为待检测音频信号的频谱能量序列。
该步骤的详细说明可参考S151,此处不再赘述。
S164和S165同上述实施例中S152和S153,此处不再赘述。
本发明实施例直接对待检测音频信号的频谱进行分析,根据待检测音频信号的频谱能量序列,确定该待检测音频信号中包含的低能子带,并根据该些低能子带的带宽或边界特征等属性,判别待检测音频信号是否存在频带丢失,进而确定所述待检测音频信号质量是否失真,从而无需与源音频信号进行比较即可获知待检测音频是否失真,实现音频信号质量的高效检测,并降低频带丢失的误判概率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (30)
1.一种音频信号质量检测装置,其特征在于,包括:获取模块、确定模块和判断模块,其中,
所述获取模块,用于获取待检测音频信号的频谱能量序列,所述频谱能量序列为N维向量,其中,N为对所述待检测音频信号进行加窗处理的窗函数的窗长,所述频谱能量序列内各元素用于表征各采样点的频谱能量;所述确定模块,用于根据所述获取模块获取的所述频谱能量序列,确定所述待检测音频信号中的低能子带;所述判断模块,用于根据所述确定模块确定的所述低能子带,判别所述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
2.根据权利要求1所述的装置,其特征在于,所述获取模块包括:
加窗单元,用于加窗处理所述待检测音频信号,得到加窗后的信号;
转换单元,用于对所述加窗单元得到的所述加窗后的信号进行快速傅里叶变换FFT,得到频域信号;
运算单元,用于计算所述转换单元得到的所述频域信号的功率谱密度,得到所述频谱能量序列。
3.根据权利要求2所述的装置,其特征在于,所述获取模块还包括:
截取单元,用于截取所述转换单元得到的所述频域信号,得到短时频域信号,所述短时频域信号为所述频域信号的前半部分或后半部分;
则所述运算单元用于计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列。
4.根据权利要求3所述的装置,其特征在于,所述运算单元具体用于:
根据如下公式计算所述截取单元得到的所述短时频域信号的功率谱密度,得到所述频谱能量序列:
其中,S(j)为所述短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式得到所述频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。
5.根据权利要求4所述的装置,其特征在于,所述运算单元还用于:
根据如下公式对所述频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为所述预设平滑步长,SP(i)为所述频谱能量序列中的第i个点;
则所述确定模块用于根据所述平滑之后的频谱能量序列,确定所述待检测音频信号中的低能子带。
6.根据权利要求1所述的装置,其特征在于,所述确定模块包括:
第一确定单元,用于根据所述获取模块获取的所述频谱能量序列中的最大值和均值,确定低能判别阈值;
第二确定单元,用于根据所述第一确定单元确定的所述低能判别阈值,确定所述低能子带。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元具体用于:
根据如下公式确定所述低能判别阈值:
其中,σ为所述低能判别阈值,max为所述频谱能量序列中的最大值,mean为所述频谱能量序列中的均值。
8.根据权利要求6或7所述的装置,其特征在于,所述确定模块还包括:
删除单元,用于若所述第二确定单元确定的所述低能子带的带宽小于第一预设带宽,则删除所述低能子带;和/或,
合并单元,用于若所述第二确定单元确定的相邻低能子带间的带宽间隔小于第二预设带宽,则合并所述相邻低能子带。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述确定模块还包括:
第三确定单元,用于分别对所述第二确定单元确定的所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率;
将所述起始点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的起始点;
将所述结束点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的结束点。
10.根据权利要求9所述的装置,其特征在于,所述第三确定单元具体用于:
根据如下公式计算所述拟合斜率:
其中,S为所述拟合斜率,M为所述邻域内所有点的个数,Xm为所述邻域内所有点的能量值。
11.根据权利要求1所述的装置,其特征在于,所述判断模块具体用于:
若所述确定模块确定的所述低能子带的带宽小于第三预设带宽,则确定所述待检测音频信号不存在频带丢失;或者,
若所述确定模块确定的所述低能子带的开始点大于预设界限值,则确定所述待检测音频信号不存在频带丢失;或者,
若采样率大于或等于预设采样率,且所述确定模块确定的所述低能子带的带宽大于第四预设带宽,则确定所述待检测音频信号存在频带丢失;或者,
若所述确定模块确定的所述低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定所述待检测音频信号存在频带丢失。
12.根据权利要求11所述的装置,其特征在于,若所述确定模块确定所述待检测音频信号存在频带丢失,则所述确定模块还用于:
计算丢失频带中所有点的平均能量;
若确定所述平均能量大于预设能量值,则判别所述待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,
若确定所述平均能量小于或等于所述预设能量值,则判别所述待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。
13.根据权利要求1-12任一项所述的装置,其特征在于,所述装置还包括:
分帧模块,用于对所述待检测音频信号进行预设帧长的分帧处理,得到分帧后的音频信号;
则所述获取模块具体用于获取所述分帧模块得到的所述分帧后的音频信号中各帧音频信号的频谱向量,并计算所述各帧音频信号的频谱向量的均值序列;将所述均值序列作为所述待检测音频信号的频谱能量序列。
14.根据权利要求1-13任一项所述的装置,其特征在于,所述装置还包括:
滤除模块,用于滤除所述待检测音频信号中直流分量,得到滤波后信号;
则所述获取模块用于获取所述滤波模块得到的所述滤波后信号的频谱能量序列。
15.根据权利要求14所述的装置,其特征在于,所述滤除模块具体用于:
根据如下公式滤除所述待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为所述滤波后信号,X(k)为所述待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
16.一种音频信号质量检测方法,其特征在于,包括:
获取待检测音频信号的频谱能量序列,所述频谱能量序列为N维向量,其中,N为对所述待检测音频信号进行加窗处理的窗函数的窗长,所述频谱能量序列内各元素用于表征各采样点的频谱能量;
根据所述频谱能量序列,确定所述待检测音频信号中的低能子带;
根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
17.根据权利要求16所述的方法,其特征在于,所述获取待检测音频信号的频谱能量序列,包括:
加窗处理所述待检测音频信号,得到加窗后的信号;
对所述加窗后的信号进行快速傅里叶变换FFT,得到频域信号;
计算所述频域信号的功率谱密度,得到所述频谱能量序列。
18.根据权利要求17所述的方法,其特征在于,所述对所述加窗后的信号进行FFT,得到频域信号之后,所述方法还包括:
获取短时频域信号,所述短时频域信号为所述频域信号的前半部分或后半部分;
则所述计算所述频域信号的功率谱密度,得到所述频谱能量序列,包括:
计算所述短时频域信号的功率谱密度,得到所述频谱能量序列。
19.根据权利要求18所述的方法,其特征在于,所述计算所述短时频域信号的功率谱密度,得到所述频谱能量序列,包括:
根据如下公式计算所述短时频域信号的功率谱密度,得到所述频谱能量序列:
其中,S(j)为所述短时频域信号中的第j个点,P(j)为S(j)对应的功率谱密度,K为窗函数参数,FS为信号采样率,ω(n)为窗函数;
并根据如下公式得到所述频谱能量序列:
其中,SP(j)为P(j)对应的频谱能量,为趋于零的正数。
20.根据权利要求19所述的方法,其特征在于,所述计算所述短时频域信号的功率谱密度,得到所述频谱能量序列,还包括:
根据如下公式对所述频谱能量序列进行预设平滑步长的平滑处理:
其中,SP*(j)为平滑之后的频谱能量序列中的第j个点,η为所述预设平滑步长,SP(i)为所述频谱能量序列中的第i个点;
则所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,包括:
根据所述平滑之后的频谱能量序列,确定所述待检测音频信号中的低能子带。
21.根据权利要求16所述的方法,其特征在于,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,包括:
根据所述频谱能量序列中的最大值和均值,确定低能判别阈值;
根据所述低能判别阈值,确定所述低能子带。
22.根据权利要求21所述的方法,其特征在于,所述根据所述频谱能量序列中的最大值和均值,确定低能判别阈值,包括:
根据如下公式确定所述低能判别阈值:
其中,σ为所述低能判别阈值,max为所述频谱能量序列中的最大值,mean为所述频谱能量序列中的均值。
23.根据权利要求21或22所述的方法,其特征在于,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,还包括:
若所述低能子带的带宽小于第一预设带宽,则删除所述低能子带;和/或,
若相邻低能子带间的带宽间隔小于第二预设带宽,则合并所述相邻低能子带。
24.根据权利要求21-23任一项所述的方法,其特征在于,所述根据所述频谱能量序列,确定所述待检测音频信号中的低能子带,还包括:
分别对所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率;
将所述起始点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的起始点;
将所述结束点的拟合斜率中的最大绝对值对应的点重新定位为所述低能子带的结束点。
25.根据权利要求24所述的方法,其特征在于,所述分别对所述低能子带的起始点和结束点的邻域内所有点,确定所述起始点和结束点的拟合斜率,包括:
根据如下公式计算所述拟合斜率:
其中,S为所述拟合斜率,M为所述邻域内所有点的个数,Xm为所述邻域内所有点的能量值。
26.根据权利要求16所述的方法,其特征在于,所述根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,包括:
若所述低能子带的带宽小于第三预设带宽,则确定所述待检测音频信号不存在频带丢失;或者,
若所述低能子带的开始点大于预设界限值,则确定所述待检测音频信号不存在频带丢失;或者,
若采样率大于或等于预设采样率,且所述低能子带的带宽大于第四预设带宽,则确定所述待检测音频信号存在频带丢失;或者,
若所述低能子带的起始点和结束点的拟合斜率的绝对值之和大于预设值,则确定所述待检测音频信号存在频带丢失。
27.根据权利要求26所述的方法,其特征在于,若确定所述待检测音频信号存在频带丢失,则所述根据所述低能子带,判别所述待检测音频信号是否存在频带丢失,还包括:
计算丢失频带中所有点的平均能量;
若确定所述平均能量大于预设能量值,则判别所述待检测音频信号中所丢失的频带中存在能量残留,并保存判别结果;或者,
若确定所述平均能量小于或等于所述预设能量值,则判别所述待检测音频信号中所丢失的频带中不存在能量残留,并保存判别结果。
28.根据权利要求16-27任一项所述的方法,其特征在于,所述方法还包括:
对所述待检测音频信号进行预设帧长的分帧处理,得到分帧后的音频信号;
则所述获取待检测音频信号的频谱能量序列,包括:获取所述分帧后的音频信号中各帧音频信号的频谱向量,并计算所述各帧音频信号的频谱向量的均值序列;将所述均值序列作为所述待检测音频信号的频谱能量序列。
29.根据权利要求16-28任一项所述的方法,其特征在于,所述获取待检测音频信号的频谱能量序列之前,所述方法还包括:
滤除所述待检测音频信号中直流分量,得到滤波后信号;
则所述获取待检测音频信号的频谱能量序列,包括:
获取所述滤波后信号的频谱能量序列。
30.根据权利要求29所述的方法,其特征在于,所述滤除所述待检测音频信号中直流分量,得到滤波后信号,包括:
根据如下公式滤除所述待检测音频信号中直流分量,得到滤波后信号:
其中,X*(k)为所述滤波后信号,X(k)为所述待检测音频信号,h(τ)为滤波器, ω1(τ)为切比雪夫窗函数,N1为ω1(τ)的窗长。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310632876.3A CN104681038B (zh) | 2013-11-29 | 2013-11-29 | 音频信号质量检测方法及装置 |
PCT/CN2014/074546 WO2015078121A1 (zh) | 2013-11-29 | 2014-04-01 | 音频信号质量检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310632876.3A CN104681038B (zh) | 2013-11-29 | 2013-11-29 | 音频信号质量检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104681038A true CN104681038A (zh) | 2015-06-03 |
CN104681038B CN104681038B (zh) | 2018-03-09 |
Family
ID=53198275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310632876.3A Active CN104681038B (zh) | 2013-11-29 | 2013-11-29 | 音频信号质量检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104681038B (zh) |
WO (1) | WO2015078121A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782614A (zh) * | 2016-12-26 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 音质检测方法及装置 |
CN107180640A (zh) * | 2017-04-13 | 2017-09-19 | 广东工业大学 | 一种相位相关的高密度叠窗频谱计算方法 |
CN107346665A (zh) * | 2017-06-29 | 2017-11-14 | 广州视源电子科技股份有限公司 | 音频检测的方法、装置、设备以及存储介质 |
CN108111908A (zh) * | 2017-12-25 | 2018-06-01 | 深圳Tcl新技术有限公司 | 音频品质确定方法、设备及计算机可读存储介质 |
CN108665905A (zh) * | 2018-05-18 | 2018-10-16 | 宁波大学 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
CN109871575A (zh) * | 2018-12-29 | 2019-06-11 | 陕西海泰电子有限责任公司 | 一种基于时域fft的电磁干扰接收机窗函数的设计方法 |
CN110070884A (zh) * | 2019-02-28 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN110111811A (zh) * | 2019-04-18 | 2019-08-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号检测方法、装置和存储介质 |
US10832700B2 (en) | 2016-06-01 | 2020-11-10 | Tencent Technology (Shenzhen) Company Limited | Sound file sound quality identification method and apparatus |
CN113841421A (zh) * | 2019-03-21 | 2021-12-24 | 舒尔获得控股公司 | 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置 |
WO2022073478A1 (zh) * | 2020-10-09 | 2022-04-14 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
CN117636909A (zh) * | 2024-01-26 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639225B (zh) * | 2020-05-22 | 2023-09-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信息的检测方法、装置及存储介质 |
CN112927715B (zh) * | 2021-02-26 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及计算机可读存储介质 |
CN113077821B (zh) * | 2021-03-23 | 2024-07-05 | 平安科技(深圳)有限公司 | 音频质量检测方法、装置、电子设备及存储介质 |
CN113257276B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005164870A (ja) * | 2003-12-02 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 帯域制限を考慮した音声品質客観評価装置 |
US20050143974A1 (en) * | 2002-01-24 | 2005-06-30 | Alexandre Joly | Method for qulitative evaluation of a digital audio signal |
CN101894560A (zh) * | 2010-06-29 | 2010-11-24 | 上海大学 | 一种无参考源的mp3音频清晰度客观评价方法 |
CN102496369A (zh) * | 2011-12-23 | 2012-06-13 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN103151049A (zh) * | 2013-01-29 | 2013-06-12 | 武汉大学 | 一种面向移动音频的服务质量保障方法及系统 |
-
2013
- 2013-11-29 CN CN201310632876.3A patent/CN104681038B/zh active Active
-
2014
- 2014-04-01 WO PCT/CN2014/074546 patent/WO2015078121A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143974A1 (en) * | 2002-01-24 | 2005-06-30 | Alexandre Joly | Method for qulitative evaluation of a digital audio signal |
JP2005164870A (ja) * | 2003-12-02 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 帯域制限を考慮した音声品質客観評価装置 |
CN101894560A (zh) * | 2010-06-29 | 2010-11-24 | 上海大学 | 一种无参考源的mp3音频清晰度客观评价方法 |
CN102496369A (zh) * | 2011-12-23 | 2012-06-13 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN103151049A (zh) * | 2013-01-29 | 2013-06-12 | 武汉大学 | 一种面向移动音频的服务质量保障方法及系统 |
Non-Patent Citations (1)
Title |
---|
尹淼: ""数字音频真实性检测方法的研究与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832700B2 (en) | 2016-06-01 | 2020-11-10 | Tencent Technology (Shenzhen) Company Limited | Sound file sound quality identification method and apparatus |
CN106782614A (zh) * | 2016-12-26 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 音质检测方法及装置 |
CN106782614B (zh) * | 2016-12-26 | 2020-08-18 | 广州酷狗计算机科技有限公司 | 音质检测方法及装置 |
CN107180640B (zh) * | 2017-04-13 | 2020-06-12 | 广东工业大学 | 一种相位相关的高密度叠窗频谱计算方法 |
CN107180640A (zh) * | 2017-04-13 | 2017-09-19 | 广东工业大学 | 一种相位相关的高密度叠窗频谱计算方法 |
CN107346665A (zh) * | 2017-06-29 | 2017-11-14 | 广州视源电子科技股份有限公司 | 音频检测的方法、装置、设备以及存储介质 |
CN108111908A (zh) * | 2017-12-25 | 2018-06-01 | 深圳Tcl新技术有限公司 | 音频品质确定方法、设备及计算机可读存储介质 |
CN108665905A (zh) * | 2018-05-18 | 2018-10-16 | 宁波大学 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
CN108665905B (zh) * | 2018-05-18 | 2021-06-15 | 宁波大学 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
CN109871575A (zh) * | 2018-12-29 | 2019-06-11 | 陕西海泰电子有限责任公司 | 一种基于时域fft的电磁干扰接收机窗函数的设计方法 |
CN109871575B (zh) * | 2018-12-29 | 2022-12-20 | 陕西海泰电子有限责任公司 | 一种基于时域fft的电磁干扰接收机窗函数的设计方法 |
CN110070884A (zh) * | 2019-02-28 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN110070884B (zh) * | 2019-02-28 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN113841421A (zh) * | 2019-03-21 | 2021-12-24 | 舒尔获得控股公司 | 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置 |
CN110111811A (zh) * | 2019-04-18 | 2019-08-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号检测方法、装置和存储介质 |
CN110111811B (zh) * | 2019-04-18 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号检测方法、装置和存储介质 |
WO2022073478A1 (zh) * | 2020-10-09 | 2022-04-14 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
CN117636909A (zh) * | 2024-01-26 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
CN117636909B (zh) * | 2024-01-26 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2015078121A1 (zh) | 2015-06-04 |
CN104681038B (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104681038B (zh) | 音频信号质量检测方法及装置 | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
CN110853664B (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
US8275154B2 (en) | Apparatus for processing an audio signal and method thereof | |
US9344822B2 (en) | Estimating nonlinear distortion and parameter tuning for boosting sound | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
EP2144232A2 (en) | Apparatus and methods for enhancement of speech | |
JP5453740B2 (ja) | 音声強調装置 | |
CN106663450B (zh) | 用于评估劣化语音信号的质量的方法及装置 | |
CN104919525B (zh) | 用于评估退化语音信号的可理解性的方法和装置 | |
CN103886865A (zh) | 声音处理装置、声音处理方法和程序 | |
CN103905656B (zh) | 残留回声的检测方法及装置 | |
CN107645696A (zh) | 一种啸叫检测方法和装置 | |
EP2465113A1 (en) | Method and system for determining a perceived quality of an audio system | |
JP2014513320A (ja) | オーディオ信号におけるドミナント周波数を減衰する方法及び装置 | |
Tsilfidis et al. | Blind single-channel suppression of late reverberation based on perceptual reverberation modeling | |
JP5774191B2 (ja) | オーディオ信号において卓越周波数を減衰させるための方法および装置 | |
Yegnanarayana et al. | Study of robustness of zero frequency resonator method for extraction of fundamental frequency | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
KR101547344B1 (ko) | 음성복원장치 및 그 방법 | |
KR101173980B1 (ko) | 음성통신 기반 잡음 제거 시스템 및 그 방법 | |
Wolfe et al. | Perceptually motivated approaches to music restoration | |
US9269370B2 (en) | Adaptive speech filter for attenuation of ambient noise | |
KR20160000680A (ko) | 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |