CN103632682A - 一种音频特征检测的方法 - Google Patents

一种音频特征检测的方法 Download PDF

Info

Publication number
CN103632682A
CN103632682A CN201310589888.2A CN201310589888A CN103632682A CN 103632682 A CN103632682 A CN 103632682A CN 201310589888 A CN201310589888 A CN 201310589888A CN 103632682 A CN103632682 A CN 103632682A
Authority
CN
China
Prior art keywords
fade
audio
volume
sound
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310589888.2A
Other languages
English (en)
Other versions
CN103632682B (zh
Inventor
杨溥
吴维昊
史峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Xunfei Artificial Intelligence Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310589888.2A priority Critical patent/CN103632682B/zh
Publication of CN103632682A publication Critical patent/CN103632682A/zh
Application granted granted Critical
Publication of CN103632682B publication Critical patent/CN103632682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种音频特征检测的方法,主要实现了以下功能:A、对音频提取包络,实现音量过大、过小、截幅检测功能;B、比对音频断音处前后能量值,实现断音检测功能;C、对音频首尾处的音量值进行一阶直线拟合处理,获取拟合后直线的斜率和垂直偏移,实现首尾淡入淡出效果的检测功能;D、典型的电流声语谱图上存在明显的亮直线特征,通过计算音频能量以及对应方差值,分析出这一特性,实现电流声检测的功能。本发明优点在于采用了提取包络的方法,进一步提升音量检测的准确性;能够很好的完成淡入淡出的检测,准确性较高;本方法对特定的电流声具有很好的检测效果。

Description

一种音频特征检测的方法
技术领域
本发明属于音频处理领域,尤其涉及一种用于音频特征检测的方法,其为对音频音量异常、断音、淡入淡出、电流声的检测方法。 
背景技术
随着现代人生活素质的不断提高,人们对音乐品质的追求也越来越迫切。高品质MP3、无损格式音乐以及诸如此类的音乐欣赏网站和软件也越来越多的介入到人们的日常生活之中。但是,在海量的音乐曲库中,音频的质量好坏层次不齐,采用人工对音质进行检测需要耗费巨大的工作量,不具有可持续性。因此,这就需要一个很好的措施来解决这个问题。 
发明内容
本发明的目的在于提供一种音频特征检测的方法,这些特征会在一定程度上影响听众的听觉效果,从而给人工检测音质好坏提供一定的参考。通过这个方法,可以自动化检测音频特征,降低人工检测所耗费的巨大工作量和人力风险,有效提升检测的效率。同时还可以减少人为因素导致的特征误检率,进一步保证了检测的准确性。 
本发明采用的技术方案为:一种音频特征检测方法,该方法包括了如下步骤: 
1)音量异常检测 
音量异常主要是由声音过大、过小以及静音导致,规定好音量过小、过大、静音的上下限,对音频提取包络,计算每个包络的平均音量大小,并统计分析结果,实现音量异常检测功能; 
2)截幅检测 
截幅主要是因为声音过大并超过了采样值所能表示的最大值范围导致,通过计算每一帧内音频的采样值,判断是否存在多个点以上的采样值越界问题, 实现截幅检测功能; 
3)断音检测 
断音主要是由于外界原因,使原始音频的连续性遭到破坏,听感上存在明显的不连贯,通过比对音频断音处前后能量值,实现断音检测功能; 
4)淡入淡出检测 
淡入淡出是人为在音频首尾所添加的一种效果,使声音有个过渡的作用,对音频首尾处的音量值进行一阶直线拟合处理,获取拟合后直线的斜率和垂直偏移,实现首尾淡入淡出效果的检测功能; 
5)电流声检测 
电流声是元器件中的电子的不规则热运动造成的很微弱的电信号被放大后的“声音”,一般主要由于环境、音频传输所导致,典型的电流声语谱图上存在明显的亮直线特征,通过计算音频能量以及对应方差值,分析出这一特性,实现电流声检测的功能。 
本发明的原理在于: 
A、对音频提取包络,实现音量过大、过小、截幅检测功能; 
B、比对音频断音处前后能量值,实现断音检测功能; 
C、对音频首尾处的音量值进行一阶直线拟合处理,获取拟合后直线的斜率和垂直偏移,实现首尾淡入淡出效果的检测功能; 
D、典型的电流声语谱图上存在明显的亮直线特征,通过计算音频能量以及对应方差值,分析出这一特性,实现电流声检测的功能。 
本发明与现有技术相比的优点在于: 
(1)、音量异常检测:采用了提取包络的方法,进一步提升检测的准确性; 
(2)、淡入淡出检测:目前业内普遍存在淡入淡出制作软件,但是还没有相应的检测方法,本检测算法能够很好的完成淡入淡出的检测,准确性较高; 
(3)、电流声检测:目前业内还没有电流声的具体检测方法,本方法对特定的电流声(语谱存在亮直线,如图6)具有很好的检测效果。 
附图说明
图1是音频音量过大的时域波形图。 
图2是音频音量过小的时域波形图。 
图3是音频存在爆音截幅的时域波形图。 
图4是音频存在断音的时域波形图。 
图5是音频首尾存在淡入淡出效果的时域波形图。 
图6是音频存在电流声干扰的语谱图。 
图7是本申请音量异常检测的活动图。 
图8是本申请截幅检测的活动图。 
图9是本申请断音检测的活动图。 
图10是本申请淡入淡出检测的活动图。 
图11是本申请电流声检测的活动图。 
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。 
一种音频特征检测的方法,检测内容如下: 
1.音量异常检测 
音量异常主要是由声音过大、过小以及静音导致,附图7是音量异常检测的活动图,具体步骤如下: 
步骤一:对音频进行转码; 
步骤二:对转码后的wav文件进行去直流分量处理,防止直流干扰; 
步骤三:将wav文件按时间片段划分成帧; 
步骤四:通常音量的计算是对音频中所有的点进行计算,分析可知,人耳感知音量大小的程度主要是由音频波形中包络的幅值所决定。包络指的是音频采样点中由极大值(采样值绝对值)点构成的点的集合,这些点能够更准确的反映音量的变化特征。故而对每一帧音频进行包络提取; 
步骤五:规定好音量过小、过大、静音的上下限,计算每个包络的平均音量大小,并统计结果,根据统计值判断音量是否正常。 
附图1、2分别展示了音量过大、过小的音频波形图。 
2.截幅检测 
由附图3可以知道,截幅主要是因为声音过大并超过了采样值所能表示的最大值范围。 
附图8是截幅检测的活动图,具体步骤如下: 
步骤一、二、三同音量检测步骤; 
步骤四:计算每一帧内音频的采样值,判断是否存在多个点以上的采样值 越界问题,若存在则检测为截幅; 
3.断音检测 
断音主要是由于外界原因,使原始音频的连续性遭到破坏,听感上存在明显的不连贯,附图9是断音检测的活动图,具体步骤如下: 
步骤一、二同音量检测步骤; 
步骤三:由附图4可知,断音位置后的一小段片段音量较小,故而对音频进行扫描,找到所有的音量较小的片段; 
步骤四:显然,断音位置前后的能量相差较大。根据上述特征,我们对片段起始位置前后的能量进行计算,若前后相差较大则判断为断音。 
4.淡入淡出检测 
淡入淡出是人为在音频首尾所添加的一种效果,开始时声音缓慢变大,结束时则缓慢变小。淡入淡出使声音有个过渡的作用,让人有准备适应下一首歌曲,不会因为曲风的突然变化而感到不适,附图10是淡入淡出检测的活动图,具体步骤如下: 
步骤一、二同音量检测 步骤; 
步骤三:由附图5的波形图可以看出,淡入淡出音频在首尾的趋势分别为斜向上和斜向下。故对音频首尾每帧音频的音量值进行一阶直线拟合处理,获取拟合后直线的斜率和垂直偏移,具体拟合公式如下: 
假设直线方程表达式为y=a+bx,对满足线性关系的一组等精度测量数据(xi,yi),根据最小二乘法线性拟合公式可知: 
a = y ‾ - b x ‾
b = xy ‾ - xy ‾ x 2 ‾ - x ‾ 2
其中: x ‾ = 1 n Σ i = 1 n x i ; y ‾ = 1 n Σ i = 1 n y i ; x 2 ‾ = 1 n Σ i = 1 n x i 2 ; xy ‾ = 1 n Σ i = 1 n x i y i
令x为时间轴数据,y为对应等精度时间内的音量大小值,即可获得a,b的值,也就是对应的斜率和垂直偏移。 
步骤四:根据大量测试数据确定好斜率和偏移的阈值,并根据直线的特征判断音频是否存在淡入淡出效果。 
5.电流声检测 
电流声是元器件中的电子的不规则热运动造成的很微弱的电信号被放大后 的“声音”,一般主要由于环境、音频传输所导致。 
语谱图的横坐标是时间,纵坐标是频率,能量值的大小是通过颜色来表示的,颜色越深,表示该点的语音能量越强。由附图6可以看出,常见电流声的特征是在语谱图上存在一条明亮的直线,即在语谱图的某一频带上语音的能量值较大并且能量值序列保持某一恒定值基本不变。本方法采用方差来度量这一特性,若在某一频带上能量序列的方差较小且能量值较大则可判定为电流声。 
附图11是电流声检测的活动图,具体步骤如下: 
步骤一、二、三同音量检测步骤; 
步骤四:对每一帧音频进行离散傅立叶变换(FFT)处理获取对应的语谱特征; 
步骤五:对FFT后的结果进行加窗,假定窗长为x,分析窗长内每一频带的能量值和对应能量序列的方差值,若能量较整体平均值偏大并且方差值较小,则判断为电流声,结束本步骤;反之按照指定窗移进行滑窗,重复上述过程直至语音结束处。 
6.效果测试 
对准备的大批量不合格音质效果测试集进行音质检测,音量异常、截幅、断音检测效果正确率达到98%以上,淡入淡出检测效果达到93%,电流声检测效果达到75%以上。 
同时,对合格音质效果测试集进行音质检测,音量异常、截幅、断音检测、电流声检测的误检率控制在2%以内,淡入淡出的误检率控制在7%以内。具体数据参见下表格: 
表1 
Figure BDA0000418364720000051
表2 
Figure BDA0000418364720000052
表3 
表4 
Figure BDA0000418364720000061
表5 
表6 
Figure BDA0000418364720000063
表7 
Figure BDA0000418364720000064
表8 
表9 
Figure BDA0000418364720000066

Claims (1)

1.一种音频特征检测的方法,其特征在于,该方法具体如下步骤:
1)音量异常检测
音量异常主要是由声音过大、过小以及静音导致,规定好音量过小、过大、静音的上下限,对音频提取包络,计算每个包络的平均音量大小,并统计分析结果,实现音量异常检测功能;
2)截幅检测
截幅主要是因为声音过大并超过了采样值所能表示的最大值范围导致,通过计算每一帧内音频的采样值,判断是否存在多个点以上的采样值越界问题,实现截幅检测功能;
3)断音检测
断音主要是由于外界原因,使原始音频的连续性遭到破坏,听感上存在明显的不连贯,通过比对音频断音处前后能量值,实现断音检测功能;
4)淡入淡出检测
淡入淡出是人为在音频首尾所添加的一种效果,使声音有个过渡的作用,对音频首尾处的音量值进行一阶直线拟合处理,获取拟合后直线的斜率和垂直偏移,实现首尾淡入淡出效果的检测功能;
5)电流声检测
电流声是元器件中的电子的不规则热运动造成的很微弱的电信号被放大后的“声音”,一般主要由于环境、音频传输所导致,典型的电流声语谱图上存在明显的亮直线特征,通过计算音频能量以及对应方差值,分析出这一特性,实现电流声检测的功能。
CN201310589888.2A 2013-11-20 2013-11-20 一种音频特征检测的方法 Active CN103632682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310589888.2A CN103632682B (zh) 2013-11-20 2013-11-20 一种音频特征检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310589888.2A CN103632682B (zh) 2013-11-20 2013-11-20 一种音频特征检测的方法

Publications (2)

Publication Number Publication Date
CN103632682A true CN103632682A (zh) 2014-03-12
CN103632682B CN103632682B (zh) 2019-11-15

Family

ID=50213656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310589888.2A Active CN103632682B (zh) 2013-11-20 2013-11-20 一种音频特征检测的方法

Country Status (1)

Country Link
CN (1) CN103632682B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796822A (zh) * 2015-01-16 2015-07-22 北京中电兴发科技有限公司 音频啸叫检测方法、使用该方法的视频监控方法及系统
WO2016015461A1 (zh) * 2014-07-29 2016-02-04 华为技术有限公司 异常帧检测方法和装置
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN107086039A (zh) * 2017-05-25 2017-08-22 北京小鱼在家科技有限公司 一种音频信号处理方法及装置
CN109346061A (zh) * 2018-09-28 2019-02-15 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN110796644A (zh) * 2019-10-23 2020-02-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备
WO2020102979A1 (zh) * 2018-11-20 2020-05-28 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN101819770A (zh) * 2010-01-27 2010-09-01 武汉大学 音频事件检测系统及方法
US20110246189A1 (en) * 2010-03-30 2011-10-06 Nvoq Incorporated Dictation client feedback to facilitate audio quality
CN102693720A (zh) * 2009-10-15 2012-09-26 华为技术有限公司 一种音频信号检测方法和装置
CN103077727A (zh) * 2013-01-04 2013-05-01 华为技术有限公司 一种用于语音质量监测和提示的方法和装置
CN103117063A (zh) * 2012-12-27 2013-05-22 安徽科大讯飞信息科技股份有限公司 一种基于软件实现的音乐内容截幅检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN102693720A (zh) * 2009-10-15 2012-09-26 华为技术有限公司 一种音频信号检测方法和装置
CN101819770A (zh) * 2010-01-27 2010-09-01 武汉大学 音频事件检测系统及方法
US20110246189A1 (en) * 2010-03-30 2011-10-06 Nvoq Incorporated Dictation client feedback to facilitate audio quality
CN103117063A (zh) * 2012-12-27 2013-05-22 安徽科大讯飞信息科技股份有限公司 一种基于软件实现的音乐内容截幅检测方法
CN103077727A (zh) * 2013-01-04 2013-05-01 华为技术有限公司 一种用于语音质量监测和提示的方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016015461A1 (zh) * 2014-07-29 2016-02-04 华为技术有限公司 异常帧检测方法和装置
US10026418B2 (en) 2014-07-29 2018-07-17 Huawei Technologies Co., Ltd. Abnormal frame detection method and apparatus
CN104796822B (zh) * 2015-01-16 2019-02-01 北京中电兴发科技有限公司 音频啸叫检测方法、使用该方法的视频监控方法及系统
CN104796822A (zh) * 2015-01-16 2015-07-22 北京中电兴发科技有限公司 音频啸叫检测方法、使用该方法的视频监控方法及系统
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN107086039B (zh) * 2017-05-25 2021-02-09 北京小鱼在家科技有限公司 一种音频信号处理方法及装置
CN107086039A (zh) * 2017-05-25 2017-08-22 北京小鱼在家科技有限公司 一种音频信号处理方法及装置
CN109346061A (zh) * 2018-09-28 2019-02-15 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN109346061B (zh) * 2018-09-28 2021-04-20 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
WO2020102979A1 (zh) * 2018-11-20 2020-05-28 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN112771608A (zh) * 2018-11-20 2021-05-07 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN110796644A (zh) * 2019-10-23 2020-02-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备
CN110796644B (zh) * 2019-10-23 2023-09-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备

Also Published As

Publication number Publication date
CN103632682B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN103632682A (zh) 一种音频特征检测的方法
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US9576584B2 (en) System for perceived enhancement and restoration of compressed audio signals
EP3166239B1 (en) Method and system for scoring human sound voice quality
Eaton et al. Noise-robust reverberation time estimation using spectral decay distributions with reduced computational cost
EP2413313B1 (en) Method and device for audio signal classification
US20150081287A1 (en) Adaptive noise reduction for high noise environments
US20220343898A1 (en) Speech recognition method and apparatus, and computer-readable storage medium
CN104143341B (zh) 爆音检测方法和装置
EP3057095B1 (en) Method and device for encoding stereo phase parameter
BR122017006632A2 (pt) Sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada
CN104409073A (zh) 一种变电设备声音与语音的识别方法
CN101290766A (zh) 安多藏语语音音节切分的方法
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
CN103674235B (zh) 基于短时傅里叶变换的单一频率报警声音特征检测方法
CN103578479A (zh) 基于听觉掩蔽效应的语音可懂度测量方法
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
Staudacher et al. Fast fundamental frequency determination via adaptive autocorrelation
US20230245671A1 (en) Methods, apparatus, and systems for detection and extraction of spatially-identifiable subband audio sources
CN103745726B (zh) 一种自适应的变采样率音频采样方法
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
Cabrera et al. PsySound3: a program for the analysis of sound recordings
US20230386492A1 (en) System and method for suppressing noise from audio signal
Hanna et al. Speech recognition using Hilbert-Huang transform based features
CN112017674B (zh) 一种基于音频特征检测广播音频信号中噪声的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Yalu

Inventor after: Wu Weihao

Inventor after: Shi Feng

Inventor before: Yang Bu

Inventor before: Wu Weihao

Inventor before: Shi Feng

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201015

Address after: 471000 second floor, building 1-1, science and Technology Park, Luoyang National University, No.2, Penglai Road, Jianxi District, Luoyang City, Henan Province

Patentee after: Henan iFLYTEK Zhiyuan Information Technology Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210825

Address after: 450000 building 4, Henan information security industry demonstration park, No. 115, Baorui Road, Jinshui District, Zhengzhou City, Henan Province

Patentee after: Henan Xunfei Artificial Intelligence Technology Co.,Ltd.

Address before: 2 / F, building 1-1, science and Technology Park, Luoyang National University, No.2, Penglai Road, Jianxi District, Luoyang area, China (Henan) pilot Free Trade Zone, Luoyang, Henan 471000

Patentee before: Henan iFLYTEK Zhiyuan Information Technology Co.,Ltd.

TR01 Transfer of patent right