CN108389590A - 一种时频联合的语音削顶检测方法 - Google Patents

一种时频联合的语音削顶检测方法 Download PDF

Info

Publication number
CN108389590A
CN108389590A CN201810118994.5A CN201810118994A CN108389590A CN 108389590 A CN108389590 A CN 108389590A CN 201810118994 A CN201810118994 A CN 201810118994A CN 108389590 A CN108389590 A CN 108389590A
Authority
CN
China
Prior art keywords
frequency
voice
time
cut
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810118994.5A
Other languages
English (en)
Other versions
CN108389590B (zh
Inventor
黄煜坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN201810118994.5A priority Critical patent/CN108389590B/zh
Publication of CN108389590A publication Critical patent/CN108389590A/zh
Application granted granted Critical
Publication of CN108389590B publication Critical patent/CN108389590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明涉及语音的技术领域,更具体地,涉及一种时频联合的语音削顶检测方法。一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法,使得检测更加鲁邦。

Description

一种时频联合的语音削顶检测方法
技术领域
本发明涉及语音的技术领域,更具体地,涉及一种时频联合的语音削顶检测方法。
背景技术
大型会议、客服系统通常会对重要发言人或者客户进行录音,以便后续转录。在会议系统中,由于考虑到听众人数众多以及会议空间较大等环境因素,往往会对麦克风录到的声音进行一定的处理,例如均衡器、自动增益控制、动态范围压缩等技术放大发言人的声音,增大响度,以便让更多人听清楚发言内容。由于上述算法大部分都是在数字域操作,数字语音信号的样本通常是16bit精度,过多地使用缩放操作会带来不可逆转的失真,其中削顶是最常见的一种情况。轻微的削顶有助于提升音量和主观响度,带来的失真人耳一般听不出来,尤其是本地听众距离喇叭一般比较远。所以,到达会议转录系统(i.e.语音识别)的数据,往往是经过多级数据处理,例如均衡、多级缩小和放大等操作。由于语音识别系统对语音失真比较敏感,需要检测出削顶的位置,之后做一些恢复操作(例如插值算法)或者其它处理。
削顶检测通常采用时域方式,通过搜索一段时域区域内的最大幅值,判断该幅值于数字信号的满量程之间的距离,如果距离小于预设的阈值,则返回削顶标志。
由于是和满量程比较,很难区分一种削顶:某些信号并不是按照满量程(例如32767)削顶,而是在中间(例如25000)就削顶了。造成这种情况主要是两种可能,一是自动增益控制或者动态范围调整本身控制的最大幅值,二是满量程削顶之后再经过一次或者若干次缩小操作。
由于存在多级缩放以及低通、高通操作,可能硬削顶变成软削顶(i.e.若干个样本点并非保持不变),数值发生一定的变化。
轻微的削顶在一个基因周期里面往往只有3-4个样本点被顶部截止。很多基于统计、频域(重叠率过少)的方法会失效。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种时频联合的语音削顶检测方法,主要结合时频特征进行多特征的削顶检测。
本发明的技术方案是:一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
本发明中,具体的,时域操作包括:
样本点差分模块。样本点差分模块作用是检测出可能的削顶区域,一般连续削顶会出现连续的相同幅值的点。差分一下就很小。假设输入信号是x(t),计算一阶差分x'(t)=x(t)-x(t-1)。一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零。由于不和满量程比较,避免了削顶在非满量程的情况。第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动。此外,还需要计算二阶差分x″(t)=x′(t)-x′(t-1),用于检测削顶时长较长的情况。
顶幅值估计模块。用于估计顶部的平均值。一般来说,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶。因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值。或者也可以考虑直接采用整帧的最大值。采用基因周期可以避免错误地估计到非语音(例如会议中挪动麦克风等操作带来的一些杂音)的顶端H。
异常点检测模块。异常点检测模块就是区分哪些是真正的削顶。在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
频域操作,由于语音(浊音部分)是一种准周期信号,类似于多种频率的正弦波的叠加,具有类似于正弦波的。而在削顶发生的区域,削顶越厉害,时域上变的越像方波。根据傅里叶变换的特性,越像方波,频率成分越弥散,倍频成分越重,越像正弦波,频率成分越集中,倍频成分越少,当完全是正弦波是,没有其它频率成分。所以,基于频域的分析也可以在一定程度上区分是否发生削顶。具体来说:
FFT模块,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
计算频谱的梯度。采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
本发明中,采用或操作综合时域和频域的操作,可以快速准确的定位削波发生的位置。
与现有技术相比,有益效果是:本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法,使得检测更加鲁邦。
附图说明
图1是本发明效果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
如图1所示,一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
本发明中,具体的,时域操作包括:
样本点差分模块。假设输入信号是x(t),计算一阶差分x′(t)=x(t)-x(t-1)。一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零。由于不和满量程比较,避免了削顶在非满量程的情况。第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动。此外,还需要计算二阶差分x″(t)=x′-t)-x′(t-1),用于检测削顶时长较长的情况。
顶幅值估计模块。用于估计顶部的平均值。一般来说,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶。因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值。或者也可以考虑直接采用整帧的最大值。采用基因周期可以避免错误地估计到非语音(例如会议中挪动麦克风等操作带来的一些杂音)的顶端H。
异常点检测模块。在一阶差分x'(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
频域操作,由于语音(浊音部分)是一种准周期信号,类似于多种频率的正弦波的叠加,具有类似于正弦波的。而在削顶发生的区域,削顶越厉害,时域上变的越像方波。根据傅里叶变换的特性,越像方波,频率成分越弥散,倍频成分越重,越像正弦波,频率成分越集中,倍频成分越少,当完全是正弦波是,没有其它频率成分。所以,基于频域的分析也可以在一定程度上区分是否发生削顶。具体来说:
FFT模块,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
计算频谱的梯度。采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
本发明中,采用或操作综合时域和频域的操作,可以快速准确的定位削波发生的位置。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种时频联合的语音削顶检测方法,其特征在于,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
2.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的样本点差分模块中,假设输入信号是x(t),计算一阶差分x′(t)=x(t)-x(t-1);一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零;由于不和满量程比较,避免了削顶在非满量程的情况;第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动;此外,还需要计算二阶差分x″(t)=x′(t)-x′(t-1),用于检测削顶时长较长的情况。
3.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的顶幅值估计模块中,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶;因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值;或者也可以考虑直接采用整帧的最大值;采用基因周期可以避免错误地估计到非语音的顶端H。
4.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的异常点检测模块中,在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
5.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的FFT模块中,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
6.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的计算频谱的梯度中,采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
CN201810118994.5A 2018-02-06 2018-02-06 一种时频联合的语音削顶检测方法 Active CN108389590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810118994.5A CN108389590B (zh) 2018-02-06 2018-02-06 一种时频联合的语音削顶检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810118994.5A CN108389590B (zh) 2018-02-06 2018-02-06 一种时频联合的语音削顶检测方法

Publications (2)

Publication Number Publication Date
CN108389590A true CN108389590A (zh) 2018-08-10
CN108389590B CN108389590B (zh) 2021-08-03

Family

ID=63075200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810118994.5A Active CN108389590B (zh) 2018-02-06 2018-02-06 一种时频联合的语音削顶检测方法

Country Status (1)

Country Link
CN (1) CN108389590B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110368020A (zh) * 2019-07-03 2019-10-25 北京必安必恒科技发展有限公司 一种心音信号预处理方法及装置
CN112333606A (zh) * 2020-10-21 2021-02-05 浙江华创视讯科技有限公司 一种麦克风增益异常的调整方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1825867A (zh) * 2005-12-16 2006-08-30 中国人民解放军信息工程大学 一种传输信道检测方法以及呼叫控制系统
CN101605111A (zh) * 2009-06-25 2009-12-16 华为技术有限公司 一种削波控制的方法和装置
EP2150002A2 (en) * 2008-07-30 2010-02-03 Fujitsu Limited Clipping detection device and method
CN104167209A (zh) * 2014-08-06 2014-11-26 华为软件技术有限公司 一种音频失真的检测方法及装置
US20160171985A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for dynamic equalization of audio data
US9412395B1 (en) * 2014-09-30 2016-08-09 Audible, Inc. Narrator selection by comparison to preferred recording features
CN106569183A (zh) * 2016-10-28 2017-04-19 南京航空航天大学 一种线性调频信号有源对消的延迟优化方法
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置
CN106847307A (zh) * 2016-12-21 2017-06-13 广州酷狗计算机科技有限公司 信号检测方法及装置
CN107005513A (zh) * 2014-12-31 2017-08-01 华为技术有限公司 一种信号的削波处理方法和设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1825867A (zh) * 2005-12-16 2006-08-30 中国人民解放军信息工程大学 一种传输信道检测方法以及呼叫控制系统
EP2150002A2 (en) * 2008-07-30 2010-02-03 Fujitsu Limited Clipping detection device and method
CN101605111A (zh) * 2009-06-25 2009-12-16 华为技术有限公司 一种削波控制的方法和装置
CN104167209A (zh) * 2014-08-06 2014-11-26 华为软件技术有限公司 一种音频失真的检测方法及装置
US9412395B1 (en) * 2014-09-30 2016-08-09 Audible, Inc. Narrator selection by comparison to preferred recording features
US20160171985A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for dynamic equalization of audio data
CN107005513A (zh) * 2014-12-31 2017-08-01 华为技术有限公司 一种信号的削波处理方法和设备
CN106569183A (zh) * 2016-10-28 2017-04-19 南京航空航天大学 一种线性调频信号有源对消的延迟优化方法
CN106847307A (zh) * 2016-12-21 2017-06-13 广州酷狗计算机科技有限公司 信号检测方法及装置
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHER LAGUNA, ALEXANDER LERCH: "An Efficient Algorithm for Clipping Detection and Declipping Audio", 《AUDIO ENGINEERING SOCIETY》 *
TOMLINSON HOLMAN: "《电影电视声音 录音技术与艺术创作》", 31 August 2004, 北京:华夏出版社 *
徐峰, 官伯然: "差分限幅器在接收机动态范围扩展中的应用", 《现代雷达》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110368020A (zh) * 2019-07-03 2019-10-25 北京必安必恒科技发展有限公司 一种心音信号预处理方法及装置
CN110368020B (zh) * 2019-07-03 2022-03-08 北京必安必恒科技发展有限公司 一种心音信号预处理方法及装置
CN112333606A (zh) * 2020-10-21 2021-02-05 浙江华创视讯科技有限公司 一种麦克风增益异常的调整方法及装置

Also Published As

Publication number Publication date
CN108389590B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
KR100873396B1 (ko) 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법
KR101519104B1 (ko) 목적음 검출 장치 및 방법
EP3172906B1 (en) Method and apparatus for wind noise detection
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
US9959886B2 (en) Spectral comb voice activity detection
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
EP2905780A1 (en) Voiced sound pattern detection
JP2012506073A (ja) オーディオ信号における雑音推定の方法および装置
KR20100053890A (ko) 잡음 제거 장치 및 잡음 제거 방법
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
EP3757993A1 (en) Pre-processing for automatic speech recognition
US9437213B2 (en) Voice signal enhancement
JP2014126856A (ja) 雑音除去装置及びその制御方法
US20160027438A1 (en) Concurrent Segmentation of Multiple Similar Vocalizations
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
CN108389590A (zh) 一种时频联合的语音削顶检测方法
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
KR100940629B1 (ko) 잡음 제거 장치 및 방법
Potamitis Estimation of speech presence probability in the field of microphone array
JPH08221097A (ja) 音声成分の検出法
Diether et al. Efficient blind estimation of subband reverberation time from speech in non-diffuse environments
Eaton et al. Noise-robust detection of peak-clipping in decoded speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant