CN108389590A

CN108389590A - 一种时频联合的语音削顶检测方法

Info

Publication number: CN108389590A
Application number: CN201810118994.5A
Authority: CN
Inventors: 黄煜坤
Original assignee: Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Huizhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-08-10
Anticipated expiration: 2038-02-06
Also published as: CN108389590B

Abstract

本发明涉及语音的技术领域，更具体地，涉及一种时频联合的语音削顶检测方法。一种时频联合的语音削顶检测方法，其中，包括时域操作和频域操作，时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块；所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法，使得检测更加鲁邦。

Description

一种时频联合的语音削顶检测方法

技术领域

本发明涉及语音的技术领域，更具体地，涉及一种时频联合的语音削顶检测方法。

背景技术

大型会议、客服系统通常会对重要发言人或者客户进行录音，以便后续转录。在会议系统中，由于考虑到听众人数众多以及会议空间较大等环境因素，往往会对麦克风录到的声音进行一定的处理，例如均衡器、自动增益控制、动态范围压缩等技术放大发言人的声音，增大响度，以便让更多人听清楚发言内容。由于上述算法大部分都是在数字域操作，数字语音信号的样本通常是16bit精度，过多地使用缩放操作会带来不可逆转的失真，其中削顶是最常见的一种情况。轻微的削顶有助于提升音量和主观响度，带来的失真人耳一般听不出来，尤其是本地听众距离喇叭一般比较远。所以，到达会议转录系统(i.e.语音识别)的数据，往往是经过多级数据处理，例如均衡、多级缩小和放大等操作。由于语音识别系统对语音失真比较敏感，需要检测出削顶的位置，之后做一些恢复操作(例如插值算法)或者其它处理。

削顶检测通常采用时域方式，通过搜索一段时域区域内的最大幅值，判断该幅值于数字信号的满量程之间的距离，如果距离小于预设的阈值，则返回削顶标志。

由于是和满量程比较，很难区分一种削顶：某些信号并不是按照满量程(例如32767)削顶，而是在中间(例如25000)就削顶了。造成这种情况主要是两种可能，一是自动增益控制或者动态范围调整本身控制的最大幅值，二是满量程削顶之后再经过一次或者若干次缩小操作。

由于存在多级缩放以及低通、高通操作，可能硬削顶变成软削顶(i.e.若干个样本点并非保持不变)，数值发生一定的变化。

轻微的削顶在一个基因周期里面往往只有3-4个样本点被顶部截止。很多基于统计、频域(重叠率过少)的方法会失效。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种时频联合的语音削顶检测方法，主要结合时频特征进行多特征的削顶检测。

本发明的技术方案是：一种时频联合的语音削顶检测方法，其中，包括时域操作和频域操作，时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块；

所述的频域操作包括对输入信号进行分帧的FFT模块、计算频谱的梯度。

本发明中，具体的，时域操作包括：

样本点差分模块。样本点差分模块作用是检测出可能的削顶区域，一般连续削顶会出现连续的相同幅值的点。差分一下就很小。假设输入信号是x(t),计算一阶差分x＇(t)＝x(t)-x(t-1)。一般来说，如果发生硬削顶，由于样本点为x(t)被钳制在某个值上，所以x′(t)会等于零。由于不和满量程比较，避免了削顶在非满量程的情况。第二，即使经过一些处理，是的硬削顶变成软削顶之后，一阶差分依然是比较的小的浮动。此外，还需要计算二阶差分x″(t)＝x′(t)-x′(t-1)，用于检测削顶时长较长的情况。

顶幅值估计模块。用于估计顶部的平均值。一般来说，浊音通常比清音具有更大的响度，所以浊音更容易出现削顶。因此需要采用自相关函数来估计出一个基音周期，在该周期内，检测最大幅值，并记录最大幅值左右各两个数值，用于统计平均的顶幅值。或者也可以考虑直接采用整帧的最大值。采用基因周期可以避免错误地估计到非语音(例如会议中挪动麦克风等操作带来的一些杂音)的顶端H。

异常点检测模块。异常点检测模块就是区分哪些是真正的削顶。在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时，将削顶标志置1。

频域操作，由于语音(浊音部分)是一种准周期信号，类似于多种频率的正弦波的叠加，具有类似于正弦波的。而在削顶发生的区域，削顶越厉害，时域上变的越像方波。根据傅里叶变换的特性，越像方波，频率成分越弥散，倍频成分越重，越像正弦波，频率成分越集中，倍频成分越少，当完全是正弦波是，没有其它频率成分。所以，基于频域的分析也可以在一定程度上区分是否发生削顶。具体来说：

FFT模块，采用重叠加窗的办法，对输入信号进行分帧，加窗变换到频率X(f)。

计算频谱的梯度。采用一阶差分X′(f)＝X(f+1)-X(f)，或者当发生削顶时，梯度通常比较小。

本发明中，采用或操作综合时域和频域的操作，可以快速准确的定位削波发生的位置。

与现有技术相比，有益效果是：本发明采用了基于基音周期的方法计算顶部的大致数值。从而也能检测出不在满量程的削顶。结合频域的方法，使得检测更加鲁邦。

附图说明

图1是本发明效果示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

如图1所示，一种时频联合的语音削顶检测方法，其中，包括时域操作和频域操作，时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块；

本发明中，具体的，时域操作包括：

样本点差分模块。假设输入信号是x(t),计算一阶差分x′(t)＝x(t)-x(t-1)。一般来说，如果发生硬削顶，由于样本点为x(t)被钳制在某个值上，所以x′(t)会等于零。由于不和满量程比较，避免了削顶在非满量程的情况。第二，即使经过一些处理，是的硬削顶变成软削顶之后，一阶差分依然是比较的小的浮动。此外，还需要计算二阶差分x″(t)＝x′-t)-x′(t-1)，用于检测削顶时长较长的情况。

异常点检测模块。在一阶差分x＇(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时，将削顶标志置1。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种时频联合的语音削顶检测方法，其特征在于，包括时域操作和频域操作，时域操作包括用于检测出可能的削顶区域的样本点差分模块、用于估计顶部的平均值的顶幅值估计模块、用于区分哪些是真正的削顶的异常点检测模块；

2.根据权利要求1所述的一种时频联合的语音削顶检测方法，其特征在于：所述的样本点差分模块中，假设输入信号是x(t),计算一阶差分x′(t)＝x(t)-x(t-1)；一般来说，如果发生硬削顶，由于样本点为x(t)被钳制在某个值上，所以x′(t)会等于零；由于不和满量程比较，避免了削顶在非满量程的情况；第二，即使经过一些处理，是的硬削顶变成软削顶之后，一阶差分依然是比较的小的浮动；此外，还需要计算二阶差分x″(t)＝x′(t)-x′(t-1)，用于检测削顶时长较长的情况。

3.根据权利要求1所述的一种时频联合的语音削顶检测方法，其特征在于：所述的顶幅值估计模块中，浊音通常比清音具有更大的响度，所以浊音更容易出现削顶；因此需要采用自相关函数来估计出一个基音周期，在该周期内，检测最大幅值，并记录最大幅值左右各两个数值，用于统计平均的顶幅值；或者也可以考虑直接采用整帧的最大值；采用基因周期可以避免错误地估计到非语音的顶端H。

4.根据权利要求1所述的一种时频联合的语音削顶检测方法，其特征在于：所述的异常点检测模块中，在一阶差分x′(t)小于预设的阈值和|x(t)-H|小于预设的一个阈值时，将削顶标志置1。

5.根据权利要求1所述的一种时频联合的语音削顶检测方法，其特征在于：所述的FFT模块中，采用重叠加窗的办法，对输入信号进行分帧，加窗变换到频率X(f)。

6.根据权利要求1所述的一种时频联合的语音削顶检测方法，其特征在于：所述的计算频谱的梯度中，采用一阶差分X′(f)＝X(f+1)-X(f)，或者当发生削顶时，梯度通常比较小。