CN108389590A - 一种时频联合的语音削顶检测方法 - Google Patents
一种时频联合的语音削顶检测方法 Download PDFInfo
- Publication number
- CN108389590A CN108389590A CN201810118994.5A CN201810118994A CN108389590A CN 108389590 A CN108389590 A CN 108389590A CN 201810118994 A CN201810118994 A CN 201810118994A CN 108389590 A CN108389590 A CN 108389590A
- Authority
- CN
- China
- Prior art keywords
- frequency
- voice
- time
- cut
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明涉及语音的技术领域,更具体地,涉及一种时频联合的语音削顶检测方法。一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法,使得检测更加鲁邦。
Description
技术领域
本发明涉及语音的技术领域,更具体地,涉及一种时频联合的语音削顶检测方法。
背景技术
大型会议、客服系统通常会对重要发言人或者客户进行录音,以便后续转录。在会议系统中,由于考虑到听众人数众多以及会议空间较大等环境因素,往往会对麦克风录到的声音进行一定的处理,例如均衡器、自动增益控制、动态范围压缩等技术放大发言人的声音,增大响度,以便让更多人听清楚发言内容。由于上述算法大部分都是在数字域操作,数字语音信号的样本通常是16bit精度,过多地使用缩放操作会带来不可逆转的失真,其中削顶是最常见的一种情况。轻微的削顶有助于提升音量和主观响度,带来的失真人耳一般听不出来,尤其是本地听众距离喇叭一般比较远。所以,到达会议转录系统(i.e.语音识别)的数据,往往是经过多级数据处理,例如均衡、多级缩小和放大等操作。由于语音识别系统对语音失真比较敏感,需要检测出削顶的位置,之后做一些恢复操作(例如插值算法)或者其它处理。
削顶检测通常采用时域方式,通过搜索一段时域区域内的最大幅值,判断该幅值于数字信号的满量程之间的距离,如果距离小于预设的阈值,则返回削顶标志。
由于是和满量程比较,很难区分一种削顶:某些信号并不是按照满量程(例如32767)削顶,而是在中间(例如25000)就削顶了。造成这种情况主要是两种可能,一是自动增益控制或者动态范围调整本身控制的最大幅值,二是满量程削顶之后再经过一次或者若干次缩小操作。
由于存在多级缩放以及低通、高通操作,可能硬削顶变成软削顶(i.e.若干个样本点并非保持不变),数值发生一定的变化。
轻微的削顶在一个基因周期里面往往只有3-4个样本点被顶部截止。很多基于统计、频域(重叠率过少)的方法会失效。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种时频联合的语音削顶检测方法,主要结合时频特征进行多特征的削顶检测。
本发明的技术方案是:一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
本发明中,具体的,时域操作包括:
样本点差分模块。样本点差分模块作用是检测出可能的削顶区域,一般连续削顶会出现连续的相同幅值的点。差分一下就很小。假设输入信号是x(t),计算一阶差分x'(t)=x(t)-x(t-1)。一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零。由于不和满量程比较,避免了削顶在非满量程的情况。第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动。此外,还需要计算二阶差分x″(t)=x′(t)-x′(t-1),用于检测削顶时长较长的情况。
顶幅值估计模块。用于估计顶部的平均值。一般来说,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶。因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值。或者也可以考虑直接采用整帧的最大值。采用基因周期可以避免错误地估计到非语音(例如会议中挪动麦克风等操作带来的一些杂音)的顶端H。
异常点检测模块。异常点检测模块就是区分哪些是真正的削顶。在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
频域操作,由于语音(浊音部分)是一种准周期信号,类似于多种频率的正弦波的叠加,具有类似于正弦波的。而在削顶发生的区域,削顶越厉害,时域上变的越像方波。根据傅里叶变换的特性,越像方波,频率成分越弥散,倍频成分越重,越像正弦波,频率成分越集中,倍频成分越少,当完全是正弦波是,没有其它频率成分。所以,基于频域的分析也可以在一定程度上区分是否发生削顶。具体来说:
FFT模块,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
计算频谱的梯度。采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
本发明中,采用或操作综合时域和频域的操作,可以快速准确的定位削波发生的位置。
与现有技术相比,有益效果是:本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法,使得检测更加鲁邦。
附图说明
图1是本发明效果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
如图1所示,一种时频联合的语音削顶检测方法,其中,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
本发明中,具体的,时域操作包括:
样本点差分模块。假设输入信号是x(t),计算一阶差分x′(t)=x(t)-x(t-1)。一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零。由于不和满量程比较,避免了削顶在非满量程的情况。第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动。此外,还需要计算二阶差分x″(t)=x′-t)-x′(t-1),用于检测削顶时长较长的情况。
顶幅值估计模块。用于估计顶部的平均值。一般来说,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶。因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值。或者也可以考虑直接采用整帧的最大值。采用基因周期可以避免错误地估计到非语音(例如会议中挪动麦克风等操作带来的一些杂音)的顶端H。
异常点检测模块。在一阶差分x'(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
频域操作,由于语音(浊音部分)是一种准周期信号,类似于多种频率的正弦波的叠加,具有类似于正弦波的。而在削顶发生的区域,削顶越厉害,时域上变的越像方波。根据傅里叶变换的特性,越像方波,频率成分越弥散,倍频成分越重,越像正弦波,频率成分越集中,倍频成分越少,当完全是正弦波是,没有其它频率成分。所以,基于频域的分析也可以在一定程度上区分是否发生削顶。具体来说:
FFT模块,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
计算频谱的梯度。采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
本发明中,采用或操作综合时域和频域的操作,可以快速准确的定位削波发生的位置。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种时频联合的语音削顶检测方法,其特征在于,包括时域操作和频域操作,时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块;
所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。
2.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的样本点差分模块中,假设输入信号是x(t),计算一阶差分x′(t)=x(t)-x(t-1);一般来说,如果发生硬削顶,由于样本点为x(t)被钳制在某个值上,所以x′(t)会等于零;由于不和满量程比较,避免了削顶在非满量程的情况;第二,即使经过一些处理,是的硬削顶变成软削顶之后,一阶差分依然是比较的小的浮动;此外,还需要计算二阶差分x″(t)=x′(t)-x′(t-1),用于检测削顶时长较长的情况。
3.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的顶幅值估计模块中,浊音通常比清音具有更大的响度,所以浊音更容易出现削顶;因此需要采用自相关函数来估计出一个基音周期,在该周期内,检测最大幅值,并记录最大幅值左右各两个数值,用于统计平均的顶幅值;或者也可以考虑直接采用整帧的最大值;采用基因周期可以避免错误地估计到非语音的顶端H。
4.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的异常点检测模块中,在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时,将削顶标志置1。
5.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的FFT模块中,采用重叠加窗的办法,对输入信号进行分帧,加窗变换到频率X(f)。
6.根据权利要求1所述的一种时频联合的语音削顶检测方法,其特征在于:所述的计算频谱的梯度中,采用一阶差分X′(f)=X(f+1)-X(f),或者当发生削顶时,梯度通常比较小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810118994.5A CN108389590B (zh) | 2018-02-06 | 2018-02-06 | 一种时频联合的语音削顶检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810118994.5A CN108389590B (zh) | 2018-02-06 | 2018-02-06 | 一种时频联合的语音削顶检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108389590A true CN108389590A (zh) | 2018-08-10 |
CN108389590B CN108389590B (zh) | 2021-08-03 |
Family
ID=63075200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810118994.5A Active CN108389590B (zh) | 2018-02-06 | 2018-02-06 | 一种时频联合的语音削顶检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108389590B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110368020A (zh) * | 2019-07-03 | 2019-10-25 | 北京必安必恒科技发展有限公司 | 一种心音信号预处理方法及装置 |
CN112333606A (zh) * | 2020-10-21 | 2021-02-05 | 浙江华创视讯科技有限公司 | 一种麦克风增益异常的调整方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1825867A (zh) * | 2005-12-16 | 2006-08-30 | 中国人民解放军信息工程大学 | 一种传输信道检测方法以及呼叫控制系统 |
CN101605111A (zh) * | 2009-06-25 | 2009-12-16 | 华为技术有限公司 | 一种削波控制的方法和装置 |
EP2150002A2 (en) * | 2008-07-30 | 2010-02-03 | Fujitsu Limited | Clipping detection device and method |
CN104167209A (zh) * | 2014-08-06 | 2014-11-26 | 华为软件技术有限公司 | 一种音频失真的检测方法及装置 |
US20160171985A1 (en) * | 2014-12-16 | 2016-06-16 | Psyx Research, Inc. | System and method for dynamic equalization of audio data |
US9412395B1 (en) * | 2014-09-30 | 2016-08-09 | Audible, Inc. | Narrator selection by comparison to preferred recording features |
CN106569183A (zh) * | 2016-10-28 | 2017-04-19 | 南京航空航天大学 | 一种线性调频信号有源对消的延迟优化方法 |
CN106782613A (zh) * | 2016-12-22 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
CN106847307A (zh) * | 2016-12-21 | 2017-06-13 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
CN107005513A (zh) * | 2014-12-31 | 2017-08-01 | 华为技术有限公司 | 一种信号的削波处理方法和设备 |
-
2018
- 2018-02-06 CN CN201810118994.5A patent/CN108389590B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1825867A (zh) * | 2005-12-16 | 2006-08-30 | 中国人民解放军信息工程大学 | 一种传输信道检测方法以及呼叫控制系统 |
EP2150002A2 (en) * | 2008-07-30 | 2010-02-03 | Fujitsu Limited | Clipping detection device and method |
CN101605111A (zh) * | 2009-06-25 | 2009-12-16 | 华为技术有限公司 | 一种削波控制的方法和装置 |
CN104167209A (zh) * | 2014-08-06 | 2014-11-26 | 华为软件技术有限公司 | 一种音频失真的检测方法及装置 |
US9412395B1 (en) * | 2014-09-30 | 2016-08-09 | Audible, Inc. | Narrator selection by comparison to preferred recording features |
US20160171985A1 (en) * | 2014-12-16 | 2016-06-16 | Psyx Research, Inc. | System and method for dynamic equalization of audio data |
CN107005513A (zh) * | 2014-12-31 | 2017-08-01 | 华为技术有限公司 | 一种信号的削波处理方法和设备 |
CN106569183A (zh) * | 2016-10-28 | 2017-04-19 | 南京航空航天大学 | 一种线性调频信号有源对消的延迟优化方法 |
CN106847307A (zh) * | 2016-12-21 | 2017-06-13 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
CN106782613A (zh) * | 2016-12-22 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
CHRISTOPHER LAGUNA, ALEXANDER LERCH: "An Efficient Algorithm for Clipping Detection and Declipping Audio", 《AUDIO ENGINEERING SOCIETY》 * |
TOMLINSON HOLMAN: "《电影电视声音 录音技术与艺术创作》", 31 August 2004, 北京:华夏出版社 * |
徐峰, 官伯然: "差分限幅器在接收机动态范围扩展中的应用", 《现代雷达》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110368020A (zh) * | 2019-07-03 | 2019-10-25 | 北京必安必恒科技发展有限公司 | 一种心音信号预处理方法及装置 |
CN110368020B (zh) * | 2019-07-03 | 2022-03-08 | 北京必安必恒科技发展有限公司 | 一种心音信号预处理方法及装置 |
CN112333606A (zh) * | 2020-10-21 | 2021-02-05 | 浙江华创视讯科技有限公司 | 一种麦克风增益异常的调整方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108389590B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4952698B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US8065115B2 (en) | Method and system for identifying audible noise as wind noise in a hearing aid apparatus | |
KR100873396B1 (ko) | 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법 | |
KR101519104B1 (ko) | 목적음 검출 장치 및 방법 | |
EP3172906B1 (en) | Method and apparatus for wind noise detection | |
CN102543063B (zh) | 基于说话人分割与聚类的多说话人语速估计方法 | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JP4816711B2 (ja) | 通話音声処理装置および通話音声処理方法 | |
EP2905780A1 (en) | Voiced sound pattern detection | |
JP2012506073A (ja) | オーディオ信号における雑音推定の方法および装置 | |
KR20100053890A (ko) | 잡음 제거 장치 및 잡음 제거 방법 | |
CN104021785A (zh) | 一种提取会议中最重要嘉宾语音的方法 | |
EP3757993A1 (en) | Pre-processing for automatic speech recognition | |
US9437213B2 (en) | Voice signal enhancement | |
JP2014126856A (ja) | 雑音除去装置及びその制御方法 | |
US20160027438A1 (en) | Concurrent Segmentation of Multiple Similar Vocalizations | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
CN108389590A (zh) | 一种时频联合的语音削顶检测方法 | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
KR100940629B1 (ko) | 잡음 제거 장치 및 방법 | |
Potamitis | Estimation of speech presence probability in the field of microphone array | |
JPH08221097A (ja) | 音声成分の検出法 | |
Diether et al. | Efficient blind estimation of subband reverberation time from speech in non-diffuse environments | |
Eaton et al. | Noise-robust detection of peak-clipping in decoded speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |