CN104409081B - 语音信号处理方法和装置 - Google Patents
语音信号处理方法和装置 Download PDFInfo
- Publication number
- CN104409081B CN104409081B CN201410692947.3A CN201410692947A CN104409081B CN 104409081 B CN104409081 B CN 104409081B CN 201410692947 A CN201410692947 A CN 201410692947A CN 104409081 B CN104409081 B CN 104409081B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- energy
- voice
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种语音信号处理方法和装置,属于音频处理技术领域。所述方法包括:获取麦克风采集的语音信号;检测语音信号是否属于清音信号,清音信号包括正常清音信号和喷麦信号,喷麦信号是指气流从发声者嘴巴喷至麦克风而产生的语音信号;若语音信号属于清音信号,则检测语音信号是否属于喷麦信号;若语音信号属于喷麦信号,则对语音信号进行抑制处理,该抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。本发明解决了相关技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
Description
技术领域
本发明涉及音频处理技术领域,特别涉及一种语音信号处理方法和装置。
背景技术
在人们的日常工作和生活中经常会用到麦克风。在使用麦克风说话或唱歌时,却常常会遇到喷麦的困扰。
针对喷麦,常用的处理方式包括如下两种:第一,人们在使用麦克风时,控制嘴巴和麦克风之间的距离、角度,以尽可能地减少喷麦情况的发生;第二,采用后期人工修复的方式,由技术人员从录制的音频中找出喷麦位置,并进行手动衰减处理。
在实现本发明的过程中,发明人发现上述技术至少存在以下问题:上述第一种方式无法完全避免喷麦情况的发生,而上述第二种方式在处理实时性和处理效率方面也存在很大不足。
发明内容
为了解决上述技术中针对喷麦的处理方式存在实时性差和效率低的问题,本发明实施例提供了一种语音信号处理方法和装置。所述技术方案如下:
第一方面,提供了一种语音信号处理方法,所述方法包括:
获取麦克风采集的语音信号;
检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号;
若所述语音信号属于所述清音信号,则检测所述语音信号是否属于所述喷麦信号;
若所述语音信号属于所述喷麦信号,则对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种;
所述对所述语音信号进行抑制处理,包括:
若所述语音信号的喷麦类型为带正常清音的喷麦信号,则根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段;计算所述衔接频段中每个子频带内各个频点的平均能量;根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减;
或者,
若所述语音信号的喷麦类型为不带正常清音的轻喷麦信号,则根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段;计算所述高频喷麦频段内各个频点的平均能量;根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减;
或者,
若所述语音信号的喷麦类型为不带正常清音的强喷麦信号,则根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
可选的,所述对所述语音信号进行抑制处理之前,还包括:
将所述语音信号的频带划分为N个子频带,N≥2且N为整数;
计算所述语音信号在所述N个子频带内的能量分布;
根据所述能量分布确定所述语音信号的喷麦类型。
可选的,所述检测所述语音信号是否属于所述喷麦信号,包括:
获取所述语音信号的频域分布特性;
根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
可选的,当所述频域分布特性为能量谱重心时,所述获取所述语音信号的频域分布特性,包括:
按照如下公式计算所述语音信号的能量谱重心WF(i):
其中,i表示所述语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示所述第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示所述第i帧语音信号中第k个频点的能量;
所述根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号,包括:
检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值;
若小于所述能量谱重心阈值,则确定所述语音信号属于所述喷麦信号。
可选的,所述检测所述语音信号是否属于清音信号,包括:
检测所述语音信号是否属于非浊音信号,所述非浊音信号包括所述清音信号和非人声信号;
若所述语音信号属于所述非浊音信号,则计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于所述清音信号。
可选的,所述检测所述语音信号是否属于非浊音信号,包括:
计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;根据所述第二特征值检测所述语音信号是否属于所述非浊音信号;
或者,
检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;若所述语音信号不存在所述预定特性,则确定所述语音信号属于所述非浊音信号。
可选的,所述检测所述语音信号是否属于清音信号,包括:
计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号;
若所述语音信号属于所述人声信号,则计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;
根据所述第二特征值检测所述语音信号是否属于所述清音信号。
可选的,所述检测所述语音信号是否属于清音信号,包括:
计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号;
若所述语音信号属于所述人声信号,则检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;
若所述语音信号不存在所述预定特性,则确定所述语音信号属于所述清音信号。
第二方面,提供了一种语音信号处理装置,所述装置包括:
语音获取模块,用于获取麦克风采集的语音信号;
清音检测模块,用于检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号;
喷麦检测模块,用于当所述语音信号属于所述清音信号时,检测所述语音信号是否属于所述喷麦信号;
喷麦抑制模块,用于当所述语音信号属于所述喷麦信号时,对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种;
所述喷麦抑制模块,包括:
第一频段划分单元,用于当所述语音信号的喷麦类型为带正常清音的喷麦信号时,根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段;第一能量计算单元,用于计算所述衔接频段中每个子频带内各个频点的平均能量;第一能量衰减单元,用于根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减;
或者,
第二频段划分单元,用于当所述语音信号的喷麦类型为不带正常清音的轻喷麦信号时,根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段;第二能量计算单元,用于计算所述高频喷麦频段内各个频点的平均能量;第二能量衰减单元,用于根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减;
或者,
第三能量衰减单元,用于当所述语音信号的喷麦类型为不带正常清音的强喷麦信号时,根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
可选的,所述装置还包括:
频带划分模块,用于将所述语音信号的频带划分为N个子频带,N≥2且N为整数;
能量计算模块,用于计算所述语音信号在所述N个子频带内的能量分布;
类型确定模块,用于根据所述能量分布确定所述语音信号的喷麦类型。
可选的,所述喷麦检测模块,包括:频域分布获取单元和喷麦检测单元;
所述频域分布获取单元,用于获取所述语音信号的频域分布特性;
所述喷麦检测单元,用于根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
可选的,所述频域分布获取单元,还用于当所述频域分布特性为能量谱重心时,按照如下公式计算所述语音信号的能量谱重心WF(i):
其中,i表示所述语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示所述第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示所述第i帧语音信号中第k个频点的能量;
所述喷麦检测单元,还包括:重心检测子单元和喷麦确定子单元;
所述重心检测子单元,用于检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值;
所述喷麦确定子单元,用于当所述语音信号的能量谱重心WF(i)小于所述能量谱重心阈值时,确定所述语音信号属于所述喷麦信号。
可选的,所述清音检测模块,包括:非浊音检测单元、第一特征值计算单元和第一清音检测单元;
所述非浊音检测单元,用于检测所述语音信号是否属于非浊音信号,所述非浊音信号包括所述清音信号和非人声信号;
所述第一特征值计算单元,用于当所述语音信号属于所述非浊音信号时,计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述第一清音检测单元,用于根据所述第一特征值检测所述语音信号是否属于所述清音信号。
可选的,所述非浊音检测单元,包括:
第二特征值计算子单元,用于计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;非浊音检测子单元,用于根据所述第二特征值检测所述语音信号是否属于所述非浊音信号;
或者,
特性检测子单元,用于检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;非浊音确定子单元,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述非浊音信号。
可选的,所述清音检测模块,包括:第一计算单元、人声检测单元、第二计算单元和第二清音检测单元;
所述第一计算单元,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述人声检测单元,用于根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号;
所述第二计算单元,用于当所述语音信号属于所述人声信号时,计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;
所述第二清音检测单元,用于根据所述第二特征值检测所述语音信号是否属于所述清音信号。
可选的,所述清音检测模块,包括:第一计算单元、人声检测单元、特性检测单元和清音确定单元;
所述第一计算单元,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述人声检测单元,用于根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号;
所述特性检测单元,用于当所述语音信号属于所述人声信号时,检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;
所述清音确定单元,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述清音信号。
本发明实施例提供的技术方案带来的有益效果是:
通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的语音信号处理方法的方法流程图;
图2是本发明另一实施例提供的语音信号处理方法的方法流程图;
图3是本发明再一实施例提供的语音信号处理方法的方法流程图;
图4是本发明一个实施例提供的语音信号处理装置的结构方框图;
图5是本发明另一实施例提供的语音信号处理装置的结构方框图;
图6是本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先,对本发明各个实施例中涉及的一些名词进行定义和说明:
1、浊音信号:是指麦克风采集到的因发声者声带振动而产生的语音信号。
2、清音信号:是指麦克风采集到的因发声者声带不振动而产生的语音信号。清音信号包括正常清音信号和喷麦信号。
3、喷麦信号:是指气流从发声者嘴巴喷至麦克风而产生的语音信号。
4、正常清音信号,是指清音信号中除喷麦信号之外的语音信号,是发声者处于说话、唱歌等发声状态时正常产生的清音信号。
在实现本发明实施例的过程中,发明人发现:喷麦信号属于清音信号,但喷麦信号和正常清音信号又存在区别。所以,通过对麦克风采集的语音信号进行实时检测,比如逐帧检测,当检测出该麦克风采集的语音信号属于清音信号时,根据喷麦信号和正常清音信号的区别,进一步检测该采集到的语音信号是否属于喷麦信号,进而在检测出属于喷麦信号的情况下,对该采集到的语音信号做实时的抑制处理。
请参考图1,其示出了本发明一个实施例提供的语音信号处理方法的方法流程图,本实施例以该语音信号处理方法应用于诸如手机、平板电脑、膝上型便携式计算机、台式计算机之类的电子设备中。该语音信号处理方法可以包括如下几个步骤:
步骤102,获取麦克风采集的语音信号。
步骤104,检测语音信号是否属于清音信号,清音信号包括正常清音信号和喷麦信号,喷麦信号是指气流从发声者嘴巴喷至麦克风而产生的语音信号。
步骤106,若语音信号属于清音信号,则检测语音信号是否属于喷麦信号。
步骤108,若语音信号属于喷麦信号,则对语音信号进行抑制处理,该抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
综上所述,本实施例提供的语音信号处理方法,通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
请参考图2,其示出了本发明另一实施例提供的语音信号处理方法的方法流程图,本实施例以该语音信号处理方法应用于诸如手机、平板电脑、膝上型便携式计算机、台式计算机之类的电子设备中。该语音信号处理方法可以包括如下几个步骤:
步骤201,获取麦克风采集的语音信号。
电子设备获取麦克风采集的语音信号。其中,麦克风可以是电动式、电容式、压电式、电磁式、碳粒式、半导体式等任意类型的麦克风,本实施例对此不作具体限定。麦克风采集发声者产生的语音信号后,以有线或无线的方式传输给电子设备。当然,在其它可能的实施方式中,麦克风可集成于电子设备中,成为电子设备的一部分。另外,为了提高处理的实时性,电子设备可以逐帧获取麦克风采集的语音信号,并后续对语音信号进行逐帧检测和处理。
步骤202,检测语音信号是否属于清音信号。
语音信号可划分为浊音信号、清音信号和非人声信号三种。其中,浊音信号是指麦克风采集到的因发声者声带振动而产生的语音信号;清音信号是指麦克风采集到的因发声者声带不振动而产生的语音信号;非人声信号是指非发声者产生的语音信号,如背景噪声或无声。另外,清音信号包括正常清音信号和喷麦信号。正常清音信号是指清音信号中除喷麦信号之外的语音信号,是发声者处于说话、唱歌等发声状态时正常产生的清音信号。
在本实施例中,本步骤可以包括如下两个子步骤:
第一,检测语音信号是否属于非浊音信号。
非浊音信号是指语音信号中除浊音信号之外的语音信号,包括清音信号和非人声信号。
在第一种可能的实施方式中,电子设备可通过如下两个步骤检测语音信号是否属于非浊音信号:
1、计算语音信号的第二特征值,第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种。
其中,谱熵值是指语音信号的能量谱的熵值,与语音信号在频域的能量谱密度分布有关。谱熵值越大,表明语音信号在频域的能量谱密度分布越均匀;反之,谱熵值越小,表明语音信号在频域的能量谱密度分布越不均匀。非浊音信号和浊音信号的谱熵值存在区别,非浊音信号的谱熵值较大,而浊音信号的谱熵值较小。通过谱熵值可对非浊音信号和浊音信号进行区分。
过零率(英文:Zero-crossing Rate;简称:ZCR)是指单位时间内信号值通过零值的次数,常用于语音信号分析中。非浊音信号和浊音信号的过零率存在区别,非浊音信号的过零率较大,而浊音信号的过零率较小。通过过零率可对非浊音信号和浊音信号进行区分。
另外,在其它可能的实施方式中,还可通过语音信号的相关性或者分形维数对非浊音信号和浊音信号进行区分。非浊音信号的相关性较小,而浊音信号的相关性较大。非浊音信号的分形维数较大,而浊音信号的分形维数较小。
在一个具体的例子中,以计算语音信号的谱熵值为例。电子设备按照下述公式计算语音信号的谱熵值H(i):
其中,i表示语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;P(k,i)表示归一化谱概率密度。
其中,电子设备可按照下述公式计算归一化谱概率密度P(k,i):
其中,|Y(k,i)|2表示第i帧语音信号中第k个频点的能量。
2、根据第二特征值检测语音信号是否属于非浊音信号。
当第一特征值为谱熵值时,检测语音信号的谱熵值是否大于预设谱熵值门限值;若大于预设谱熵值门限值,则确定该语音信号属于非浊音信号。否则,确定该语音信号属于浊音信号。其中,预设谱熵值门限值是根据实际需求预先设定的经验值。
当第二特征值为过零率时,检测语音信号的过零率是否大于预设过零率门限值;若大于预设过零率门限值,则确定该语音信号属于非浊音信号。否则,确定该语音信号属于浊音信号。其中,预设过零率门限值是根据实际需求预先设定的经验值。
当第二特征值为相关性时,检测语音信号的相关性是否小于预设相关性门限值;若小于预设相关性门限值,则确定该语音信号属于非浊音信号。否则,确定该语音信号属于浊音信号。其中,预设相关性门限值是根据实际需求预先设定的经验值。
当第二特征值为分形维数时,检测语音信号的分形维数是否大于预设分形维数门限值;若大于预设分形维数门限值,则确定该语音信号属于非浊音信号。否则,确定该语音信号属于浊音信号。其中,预设分形维数门限值是根据实际需求预先设定的经验值。
在第二种可能的实施方式中,电子设备可通过如下两个步骤检测语音信号是否属于非浊音信号:
1、检测语音信号是否存在预定特性,预定特性为基音周期、谐波、共振峰中的任意一种。
其中,基音周期是指发声者通过声带振动发出浊音时的声带振动周期。非浊音信号不存在基因周期,而浊音信号存在基音周期。因此,电子设备可通过检测语音信号是否存在基音周期以区分该语音信号属于非浊音信号还是浊音信号。另外,在其它可能的实施方式中,还可通过谐波检测或者共振峰检测对非浊音信号和浊音信号进行区分。非浊音信号不存在谐波,而浊音信号存在谐波。非浊音信号不存在共振峰,而浊音信号存在共振峰。
2、若语音信号不存在预定特性,则确定该语音信号属于非浊音信号。
当该语音信号不存在基音周期时,或者当语音信号不存在谐波时,或者当该语音信号不存在共振峰时,确定该语音信号属于非浊音信号。否则,确定该语音信号属于浊音信号。
第二,若语音信号属于非浊音信号,则计算语音信号的第一特征值,第一特征值为能量或者倒谱距离。
当检测出语音信号属于非浊音信号时,电子设备进一步检测该语音信号是否属于清音信号。非浊音信号包括清音信号和非人声信号,电子设备可根据语音信号的第一特征值对清音信号和非人声信号进行区分。
在一种可能的实施方式中,当第一特征值为能量时,电子设备可按照下述公式计算语音信号的能量:
其中,i表示语音信号在语音序列中的帧序号,i≥0且i为整数;E(i)表示第i帧语音信号的能量;L表示第i帧语音信号的帧长,L≥1且L为整数;l表示第i帧语音信号中第l个频点,l∈[0,L-1]且l为整数;|x(l,i)|2表示第i帧语音信号中第l个频点的能量。
清音信号和非人声信号的能量存在差别,清音信号的能量较大,而非人声信号的能量较小。通过语音信号的能量可对清音信号和非人声信号进行区分。
另外,在其它可能的实施方式中,电子设备还可通过计算语音信号的倒谱距离,以区分该语音信号属于清音信号还是非人声信号。倒谱距离的计算方式是本领域技术人员易于思及的部分,本实施例对此不再赘述。
第三,根据第一特征值检测语音信号是否属于清音信号。
当第一特征值为能量时,检测该语音信号的能量是否大于预设能量门限值;若大于预设能量门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于非人声信号。其中,预设能量门限值是根据实际需求预先设定的经验值。
当第二特征值为倒谱距离时,检测该语音信号的倒谱距离是否大于预设倒谱距离门限值;若大于预设倒谱距离门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于非人声信号。其中,预设倒谱距离门限值是根据实际需求预先设定的经验值。
步骤203,若语音信号属于清音信号,则检测语音信号是否属于喷麦信号。
喷麦信号是指气流从发声者嘴巴喷至麦克风而产生的语音信号。喷麦信号属于清音信号,但喷麦信号和正常清音信号又存在区别。电子设备可通过如下两个子步骤检测语音信号是否属于喷麦信号:
第一,获取语音信号的频域分布特性。
其中,频域分布特性可以是语音信号在频域上的幅值分布特性,也可以是语音信号在频域上的能量分布特性,还可以是两者的结合。
在一种可能的实施方式中,当频域分布特性为能量谱重心时,电子设备可按照如下公式计算语音信号的能量谱重心WF(i):
其中,i表示语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧清音信号的帧长,L≥1且L为整数;k表示第i帧清音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示第i帧清音信号中第k个频点的能量。
第二,根据频域分布特性检测语音信号是否属于喷麦信号。
电子设备可利用喷麦信号和正常清音信号在频域分布特性上的差异,对喷麦信号和正常清音信号进行区分。
在一种可能的实施方式中,当频域分布特性为能量谱重心时,电子设备检测语音信号的能量谱重心WF(i)是否小于能量谱重心阈值;若小于能量谱重心阈值,则确定该语音信号属于喷麦信号。因为喷麦信号在低频频段有很强的能量分布,故喷麦信号比正常清音信号的能量谱重心要小,也即能量谱重心偏向低频。因此,可根据实际需求预先设定能量谱重心阈值,当语音信号的能量谱重心小于能量谱重心阈值时,即可确定该语音信号属于喷麦信号。否则,确定该语音信号不属于喷麦信号,也即该语音信号属于正常清音信号。
在完成喷麦检测后,电子设备对属于喷麦信号的语音信号做抑制处理。可选的,在进行喷麦抑制处理之前,电子设备还可执行如下步骤204至步骤206以对语音信号的喷麦类型进行区分。
步骤204,将语音信号的频带划分为N个子频带,N≥2且N为整数。
语音信号的频带带宽为20kHz,电子设备可采用线性划分方式或者非线性划分方式进行频带划分。
1、线性划分方式:采用线性划分方式时,各个子频带的带宽相等。比如,当子频带个数N=10时,各个子频带的带宽为2kHz,各个子频带的频率分布依次如下:0~2kHz,2kHz~4kHz,4kHz~6kHz,6kHz~8kHz,8kHz~10kHz,10kHz~12kHz,12kHz~14kHz,14kHz~16kHz,16kHz~18kHz,18kHz~20kHz。
2、非线性划分方式:采用非线性划分时,各个子频带的带宽不相等。比如,以采用对数划分方式为例,当子频带个数N=8时,各个子频带的频率分布依次如下:0~100Hz,100Hz~200Hz,200Hz~400Hz,400Hz~1kHz,1kHz~2kHz,2kHz~4kHz,4kHz~10kHz,10kHz~20kHz。
步骤205,计算语音信号在N个子频带内的能量分布。
电子设备计算语音信号在每一个子频带内的能量。假设语音信号在语音序列中的帧序号为i,该第i帧语音信号在第q个子频带内的能量为E(q,i),则电子设备可按照下述公式计算E(q,i):
其中,aq、bq分别表示第q个子频带的频率分布上下边界对应快速傅里叶变换后的点序号,k∈[aq,bq]且k为整数;|Y(k,i)|2表示该第i帧喷麦信号中第k个频点的能量。
步骤206,根据能量分布确定语音信号的喷麦类型。
在本实施例中,以喷麦类型包括:带正常清音的喷麦信号、不带正常清音的轻喷麦信号、不带正常清音的强喷麦信号三种进行举例说明。
其中,带正常清音的喷麦信号在N个子频带内的能量分布状况为:在高频频段内能量分布较强,在低频频段内能量分布较强,而在中低频频段内能量分布较弱,该中低频频段也称为衔接频段。
不带正常清音的轻喷麦信号在N个子频带内的能量分布状况为:在低频频段内能量分布较强,而在高频频段内能量分布很弱。
不带正常清音的强喷麦信号在N个子频带内的能量分布状况为:在整个频段内能量分布都较强。
在确定语音信号的喷麦类型之后,电子设备可根据预设对应关系选择与该喷麦类型对应的抑制处理方式,并采用选取的抑制处理方式对该语音信号进行抑制处理。其中,预设对应关系包括不同喷麦类型和不同抑制处理方式之间的对应关系。另外,抑制处理方式包括但不限于能量衰减处理、删除处理和静默处理中的至少一种。可选的,针对能量衰减处理,还可根据衰减程度、衰减方式、衰减范围等细分为多种不同的能量衰减处理方式。
下面,以采用不同的能量衰减处理方式对不同喷麦类型的语音信号进行能量衰减处理为例,对几种不同的能量衰减处理方式进行具体介绍和说明。在步骤207至步骤209中,以对喷麦类型为带正常清音的喷麦信号进行能量衰减处理为例:
步骤207,若语音信号的喷麦类型为带正常清音的喷麦信号,则根据能量分布将N个子频带划分为清音频段、衔接频段和喷麦频段。
带正常清音的喷麦信号在高频频段内能量分布较强,该频段可划分为清音频段;在低频频段内能量分布较强,该频段可划分为喷麦频段;在中低频频段内能量分布较弱,该频段可划分为衔接频段。清音频段、衔接频段和喷麦频段分别包括至少一个子频带。
步骤208,计算衔接频段中每个子频带内各个频点的平均能量。
以对语音序列中的第i帧属于喷麦信号的语音信号进行处理为例,在上述步骤205中已经介绍,该第i帧语音信号在第q个子频带内的能量为则电子设备可按照下述公式计算衔接频段中每个子频带的平均能量Eave(q,i):
步骤209,根据平均能量的最小值对喷麦频段内各个频点的能量进行衰减。
电子设备计算衔接频段中每个子频带的平均能量后,选取平均能量的最小值。假设第q′个子频带内各个频点的平均能量最小,为Eave(q′,i),则对于喷麦频段中的每一个频点,电子设备可按照下述公式计算该频点的衰减后的能量:
其中,Eave(q,i)表示该第i帧语音信号在第q个子频带内的能量,q<q';Y(k,i)表示该第i帧语音信号中第k个频点的衰减前的能量;Y(k,i)′表示该第i帧语音信号中第k个频点的衰减后的能量。
在步骤210至步骤212中,以对喷麦类型为不带正常清音的轻喷麦信号进行能量衰减处理为例:
步骤210,若语音信号的喷麦类型为不带正常清音的轻喷麦信号,则根据能量分布将N个子频带划分为高频喷麦频段和低频喷麦频段。
不带正常清音的轻喷麦信号在低频频段内能量分布较强,该频段可划分为低频喷麦频段;在高频频段内能量分布很弱,该频段可划分为高频喷麦频段。高频喷麦频段和低频喷麦频段分别包括至少一个子频带。
步骤211,计算高频喷麦频段内各个频点的平均能量。
电子设备首先计算高频喷麦频段内各个频点的能量,然后将各个频段的能量和除以高频喷麦频段内频点个数得到高频喷麦频段内各个频点的平均能量Ehigh,ave。
步骤212,根据平均能量对低频喷麦频段内各个频点的能量进行衰减。
电子设备计算高频喷麦频段内各个频点的平均能量Ehigh,ave后,对于低频喷麦频段中的每一个频点,电子设备可按照下述公式计算该频点的衰减后的能量:
其中,Eave(q,i)表示该第i帧喷麦信号在第q个子频带内的能量;Y(k,i)表示该第i帧喷麦信号中第k个频点的衰减前的能量;Y(k,i)′表示该第i帧喷麦信号中第k个频点的衰减后的能量。
在步骤213中,以对喷麦类型为不带正常清音的强喷麦信号进行能量衰减处理为例:
步骤213,若语音信号的喷麦类型为不带正常清音的强喷麦信号,则根据预设衰减系数对语音信号中各个频点的能量进行衰减。
不带正常清音的强喷麦信号在整个频段内能量分布都较强,针对该类喷麦信号,可采用按比例衰减的方式进行能量衰减处理。预先根据实际需求设定预设衰减系数α,对于该类喷麦信号中的每一个频点,电子设备可按照下述公式计算该频点的衰减后的能量:
Y(k,i)′=α×Y(k,i);
其中,α表示预设衰减系数,0≤α<1;Y(k,i)表示该第i帧喷麦信号中第k个频点的衰减前的能量;Y(k,i)′表示该第i帧喷麦信号中第k个频点的衰减后的能量。
需要说明的一点是:本实施例仅以喷麦类型分为带正常清音的喷麦信号、不带正常清音的轻喷麦信号、不带正常清音的强喷麦信号三种进行举例说明。在其它可能的实施方式中,喷麦类型还可以是更为粗略的划分,比如仅分为带正常清音的喷麦信号、不带正常清音的喷麦信号两种。或者,喷麦类型还可以是更为细致的划分,比如对不带正常清音的轻喷麦信号根据低频喷麦频段的能量分布进行更为细致的划分。
另外,本实施例仅以对不同喷麦类型的语音信号均进行能量衰减处理进行举例说明。在其它可能的实施方式中,可对一部分喷麦类型的语音信号做删除处理,对另一部分喷麦类型的语音信号做静默处理,对再一部分喷麦类型的语音信号做能量衰减处理,等等。在实际应用中,可根据实际需求为不同喷麦类型的语音信号配置不同的抑制处理方式,本实施例对此不作具体限定。
另外,本实施例仅以上述步骤207至步骤213中提供的三种能量衰减方式进行举例说明。在其它可能的实施方式中,可根据实际需求设定不同的衰减程度、衰减方式或者衰减范围,本实施例对此也不作具体限定。
综上所述,本实施例提供的语音信号处理方法,通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
另外,还通过在对属于喷麦信号的语音信号进行喷麦抑制处理之前,将语音信号划分至不同的喷麦类型,并针对不同的喷麦类型选取不同的喷麦抑制处理方式进行处理,充分提高了喷麦抑制的准确性和效果。
请参考图3,其示出了本发明再一实施例提供的语音信号处理方法的方法流程图,本实施例以该语音信号处理方法应用于诸如手机、平板电脑、膝上型便携式计算机、台式计算机之类的电子设备中。该语音信号处理方法可以包括如下几个步骤:
步骤301,获取麦克风采集的语音信号。
步骤302,检测语音信号是否属于清音信号。
语音信号可划分为浊音信号、清音信号和非人声信号三种。其中,浊音信号是指麦克风采集到的因发声者声带振动而产生的语音信号;清音信号是指麦克风采集到的因发声者声带不振动而产生的语音信号;非人声信号是指非发声者产生的语音信号,如背景噪声或无声。另外,清音信号包括正常清音信号和喷麦信号。正常清音信号是指清音信号中除喷麦信号之外的语音信号,是发声者处于说话、唱歌等发声状态时正常产生的清音信号。
与图2所示实施例不同的是,在第一种可能的实施方式中,本步骤可以包括如下几个子步骤:
第一,计算语音信号的第一特征值,第一特征值为能量或者倒谱距离。
第二,根据第一特征值检测语音信号是否属于人声信号,人声信号包括清音信号和浊音信号。
人声信号是指语音信号中除非人声信号之外的语音信号。人声信号包括清音信号和浊音信号。电子设备可根据第一特征值对人声信号和非人声信号进行区分。
在一种可能的实施方式中,当第一特征值为能量时,电子设备可按照下述公式计算语音信号的能量:
其中,i表示语音信号在语音序列中的帧序号,i≥0且i为整数;E(i)表示第i帧语音信号的能量;L表示第i帧语音信号的帧长,L≥1且L为整数;l表示第i帧语音信号中第l个频点,l∈[0,L-1]且l为整数;|x(l,i)|2表示第i帧语音信号中第l个频点的能量。
人声信号和非人声信号的能量存在差别,人声信号的能量较大,而非人声信号的能量较小。通过语音信号的能量可对人声信号和非人声信号进行区分。
另外,在其它可能的实施方式中,电子设备还可通过计算语音信号的倒谱距离,以区分该语音信号属于人声信号还是非人声信号。倒谱距离的计算方式是本领域技术人员易于思及的部分,本实施例对此不再赘述。
当第一特征值为能量时,检测该语音信号的能量是否大于预设能量门限值;若大于预设能量门限值,则确定该语音信号属于人声信号。否则,确定该语音信号属于非人声信号。其中,预设能量门限值是根据实际需求预先设定的经验值。
当第一特征值为倒谱距离时,检测该语音信号的倒谱距离是否大于预设倒谱距离门限值;若大于预设倒谱距离门限值,则确定该帧语音信号属于人声信号。否则,确定该帧语音信号属于非人声信号。其中,预设倒谱距离门限值是根据实际需求预先设定的经验值。
第三,若语音信号属于人声信号,则计算语音信号的第二特征值,第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种。
第四,根据第二特征值检测语音信号是否属于清音信号。
当检测出语音信号属于人声信号时,电子设备进一步检测该语音信号是否属于清音信号。人声信号包括清音信号和浊音信号,电子设备可根据语音信号的第二特征值对清音信号和浊音信号进行区分。第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种。
其中,谱熵值是指语音信号的能量谱的熵值,与语音信号在频域的能量谱密度分布有关。谱熵值越大,表明语音信号在频域的能量谱密度分布越均匀;反之,谱熵值越小,表明语音信号在频域的能量谱密度分布越不均匀。清音信号和浊音信号的谱熵值存在区别,清音信号的谱熵值较大,而浊音信号的谱熵值较小。通过谱熵值可对清音信号和浊音信号进行区分。
过零率是指单位时间内信号值通过零值的次数,常用于语音信号分析中。清音信号和浊音信号的过零率存在区别,清音信号的过零率较大,而浊音信号的过零率较小。通过过零率可对清音信号和浊音信号进行区分。
另外,在其它可能的实施方式中,还可通过人声信号的相关性或者分形维数对清音信号和浊音信号进行区分。清音信号的相关性较小,而浊音信号的相关性较大。清音信号的分形维数较大,而浊音信号的分形维数较小。
在一个具体的例子中,以计算语音信号的谱熵值为例。电子设备按照下述公式计算语音信号的谱熵值H(i):
其中,i表示语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧人声信号的帧长,L≥1且L为整数;k表示第i帧人声信号中第k个频点,k∈[0,L-1]且k为整数;P(k,i)表示归一化谱概率密度。
其中,电子设备可按照下述公式计算归一化谱概率密度P(k,i):
其中,|Y(k,i)|2表示第i帧语音信号中第k个频点的能量。
当第二特征值为谱熵值时,检测语音信号的谱熵值是否大于预设谱熵值门限值;若大于预设谱熵值门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于浊音信号。其中,预设谱熵值门限值是根据实际需求预先设定的经验值。
当第二特征值为过零率时,检测语音信号的过零率是否大于预设过零率门限值;若大于预设过零率门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于浊音信号。其中,预设过零率门限值是根据实际需求预先设定的经验值。
当第二特征值为相关性时,检测语音信号的相关性是否小于预设相关性门限值;若小于预设相关性门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于浊音信号。其中,预设相关性门限值是根据实际需求预先设定的经验值。
当第二特征值为分形维数时,检测语音信号的分形维数是否大于预设分形维数门限值;若大于预设分形维数门限值,则确定该语音信号属于清音信号。否则,确定该语音信号属于浊音信号。其中,预设分形维数门限值是根据实际需求预先设定的经验值。
在第二种可能的实施方式中,步骤302可以包括如下几个子步骤:
第一,计算语音信号的第一特征值,第一特征值为能量或者倒谱距离。
第二,根据第一特征值检测语音信号是否属于人声信号,人声信号包括清音信号和浊音信号。
上述第一和第二个子步骤与上述步骤302的第一种可能的实施方式中的第一和第二个子步骤相同,不再赘述。
第三,若语音信号属于人声信号,则检测语音信号是否存在预定特性,预定特性为基音周期、谐波、共振峰中的任意一种。
第四,若语音信号不存在预定特性,则确定语音信号属于清音信号。
其中,基音周期是指发声者通过声带振动发出浊音时的声带振动周期。清音信号不存在基因周期,而浊音信号存在基音周期。因此,电子设备可通过检测语音信号是否存在基音周期以区分该语音信号属于清音信号还是浊音信号。另外,在其它可能的实施方式中,还可通过谐波检测或者共振峰检测对清音信号和浊音信号进行区分。清音信号不存在谐波,而浊音信号存在谐波。清音信号不存在共振峰,而浊音信号存在共振峰。
当该语音信号不存在基音周期时,或者当该语音信号不存在谐波时,或者当该语音信号不存在共振峰时,确定该语音信号属于清音信号。否则,确定该语音信号属于浊音信号。
步骤303,若语音信号属于清音信号,则检测语音信号是否属于喷麦信号。
步骤304,若语音信号属于喷麦信号,则对语音信号进行抑制处理,抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
上述步骤303至步骤304与图2所示实施例中的步骤203至步骤213相同或者类似,具体详见图2所示实施例中的介绍和说明,本实施例对此不再赘述。
综上所述,本实施例提供的语音信号处理方法,通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
另外,上述图2和图3两个实施例提供了两种检测语音信号是否属于清音信号的方式。在第一种方式中,首先将语音信号划分为非浊音信号和浊音信号,进而从非浊音信号中检测清音信号;在第二种方式中,首先将语音信号划分为人声信号和非人声信号,进而从人声信号中检测清音信号。在实际应用中,可根据实际需求选择任意一种方式,本发明实施例对此不作具体限定。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参考图4,其示出了本发明一个实施例提供的语音信号处理装置的结构方框图,该语音信号处理装置可以通过软件、硬件或者两者的结合实现成为诸如手机、平板电脑、膝上型便携式计算机、台式计算机之类的电子设备的部分或全部。该语音信号处理装置可以包括:语音获取模块410、清音检测模块420、喷麦检测模块430和喷麦抑制模块440。
语音获取模块410,用于获取麦克风采集的语音信号。
清音检测模块420,用于检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号。
喷麦检测模块430,用于当所述语音信号属于所述清音信号时,检测所述语音信号是否属于所述喷麦信号。
喷麦抑制模块440,用于当所述语音信号属于所述喷麦信号时,对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
综上所述,本实施例提供的语音信号处理装置,通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
请参考图5,其示出了本发明另一实施例提供的语音信号处理装置的结构方框图,该语音信号处理装置可以通过软件、硬件或者两者的结合实现成为诸如手机、平板电脑、膝上型便携式计算机、台式计算机之类的电子设备的部分或全部。该语音信号处理装置可以包括:语音获取模块410、清音检测模块420、喷麦检测模块430和喷麦抑制模块440。
语音获取模块410,用于获取麦克风采集的语音信号。
清音检测模块420,用于检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号。
在第一种可能的实施方式中,清音检测模块420,包括:非浊音检测单元420a、第一特征值计算单元420b和第一清音检测单元420c。
所述非浊音检测单元420a,用于检测所述语音信号是否属于非浊音信号,所述非浊音信号包括所述清音信号和非人声信号。
所述第一特征值计算单元420b,用于当所述语音信号属于所述非浊音信号时,计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离。
所述第一清音检测单元420c,用于根据所述第一特征值检测所述语音信号是否属于所述清音信号。
其中,所述非浊音检测单元420a,包括:第二特征值计算子单元420a1和非浊音检测子单元420a2。
第二特征值计算子单元420a1,用于计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;非浊音检测子单元420a2,用于根据所述第二特征值检测所述语音信号是否属于所述非浊音信号。
或者,所述非浊音检测单元420a,包括:特性检测子单元420a3和非浊音确定子单元420a4。
特性检测子单元420a3,用于检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;非浊音确定子单元420a4,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述非浊音信号。
在第二种可能的实施方式中,所述清音检测模块420,包括:第一计算单元420d、人声检测单元420e、第二计算单元420f和第二清音检测单元420g。
所述第一计算单元420d,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离。
所述人声检测单元420e,用于根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号。
所述第二计算单元420f,用于当所述语音信号属于所述人声信号时,计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种。
所述第二清音检测单元420g,用于根据所述第二特征值检测所述语音信号是否属于所述清音信号。
在第三种可能的实施方式中,所述清音检测模块420,包括:第一计算单元420d、人声检测单元420e、特性检测单元420h和清音确定单元420i。
所述第一计算单元420d,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离。
所述人声检测单元420e,用于根据所述第一特征值检测所述语音信号是否属于所述人声信号,所述人声信号包括所述清音信号和浊音信号。
所述特性检测单元420h,用于当所述语音信号属于所述人声信号时,检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种。
所述清音确定单元420i,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述清音信号。
喷麦检测模块430,用于当所述语音信号属于所述清音信号时,检测所述语音信号是否属于所述喷麦信号。
其中,所述喷麦检测模块430,包括:频域分布获取单元430a和喷麦检测单元430b。
所述频域分布获取单元430a,用于获取所述语音信号的频域分布特性。
所述喷麦检测单元430b,用于根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
在一种可能的实施方式中,所述频域分布获取单元430a,还用于当所述频域分布特性为能量谱重心时,按照如下公式计算所述语音信号的能量谱重心WF(i):
其中,i表示所述语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示所述第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示所述第i帧语音信号中第k个频点的能量。
所述喷麦检测单元430b,还包括:重心检测子单元430b1和喷麦确定子单元430b2。
所述重心检测子单元430b1,用于检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值。
所述喷麦确定子单元430b2,用于当所述语音信号的能量谱重心WF(i)小于所述能量谱重心阈值时,确定所述语音信号属于所述喷麦信号。
喷麦抑制模块440,用于当所述语音信号属于所述喷麦信号时,对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
可选的,所述装置还包括:频带划分模块432、能量计算模块434和类型确定模块436。
频带划分模块432,用于将所述语音信号的频带划分为N个子频带,N≥2且N为整数。
能量计算模块434,用于计算所述语音信号在所述N个子频带内的能量分布。
类型确定模块436,用于根据所述能量分布确定所述语音信号的喷麦类型。
对应的,所述喷麦抑制模块440,包括:
第一频段划分单元440a,用于当所述语音信号的喷麦类型为带正常清音的喷麦信号时,根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段;第一能量计算单元440b,用于计算所述衔接频段中每个子频带内各个频点的平均能量;第一能量衰减单元440c,用于根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减。或者,
第二频段划分单元440d,用于当所述语音信号的喷麦类型为不带正常清音的轻喷麦信号时,根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段;第二能量计算单元440e,用于计算所述高频喷麦频段内各个频点的平均能量;第二能量衰减单元440f,用于根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减。或者,
第三能量衰减单元440g,用于当所述语音信号的喷麦类型为不带正常清音的强喷麦信号时,根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
综上所述,本实施例提供的语音信号处理装置,通过对麦克风采集的语音信号进行实时检测,当检测出该语音信号属于喷麦信号时,对该语音信号进行抑制处理;解决了背景技术中针对喷麦的处理方式存在实时性差和效率低的问题;提高了喷麦处理的实时性和效率,且无需人工后期修复,达到了自动检测抑制喷麦的效果。
另外,还通过在对属于喷麦信号的语音信号进行喷麦抑制处理之前,将语音信号划分至不同的喷麦类型,并针对不同的喷麦类型选取不同的喷麦抑制处理方式进行处理,充分提高了喷麦抑制的准确性和效果。
另外,本实施例还提供了两种检测语音信号是否属于清音信号的方式。在第一种方式中,首先将语音信号划分为非浊音信号和浊音信号,进而从非浊音信号中检测清音信号;在第二种方式中,首先将语音信号划分为人声信号和非人声信号,进而从人声信号中检测清音信号。在实际应用中,可根据实际需求选择任意一种方式,本发明实施例对此不作具体限定。
需要说明的是:上述实施例提供的语音信号处理装置在对语音信号进行处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音信号处理装置与语音信号处理方法的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本发明一个实施例提供的电子设备的结构示意图。该电子设备可以是手机、平板电脑、膝上型便携式计算机、台式计算机等等。该电子设备用于实施上述图1、图2或图3所示实施例中提供的语音信号处理方法。具体来讲:
电子设备600可以包括RF(Radio Frequency,射频)电路610、包括有一个或一个以上计算机可读存储介质的存储器620、输入单元630、显示单元640、传感器650、音频电路660、WiFi(wireless fidelity,无线保真)模块670、包括有一个或者一个以上处理核心的处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器680处理;另外,将涉及上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备600的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器620还可以包括存储器控制器,以提供处理器680和输入单元630对存储器620的访问。
输入单元630可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元630可包括图像输入设备631以及其他输入设备632。图像输入设备631可以是摄像头,也可以是光电扫描设备。除了图像输入设备631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及电子设备600的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。
电子设备600还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在电子设备600移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备600还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与电子设备600之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一电子设备,或者将音频数据输出至存储器620以便进一步处理。音频电路660还可能包括耳塞插孔,以提供外设耳机与电子设备600的通信。
WiFi属于短距离无线传输技术,电子设备600通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于电子设备600的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是电子设备600的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行电子设备600的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理核心;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
电子设备600还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源690还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备600还可以包括蓝牙模块等,在此不再赘述。
具体在本实施例中,电子设备600还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行如上述图1、图2或图3所示实施例提供的语音信号处理方法的指令。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音信号处理方法,其特征在于,所述方法包括:
获取麦克风采集的语音信号;
检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号;
若所述语音信号属于所述清音信号,则检测所述语音信号是否属于所述喷麦信号;
若所述语音信号属于所述喷麦信号,将所述语音信号的频带划分为N个子频带,N≥2且N为整数;
计算所述语音信号在所述N个子频带内的能量分布;
根据所述能量分布确定所述语音信号的喷麦类型;
对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种;
所述对所述语音信号进行抑制处理,包括:
若所述语音信号的喷麦类型为带正常清音的喷麦信号,则根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段;计算所述衔接频段中每个子频带内各个频点的平均能量;根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减;
或者,
若所述语音信号的喷麦类型为不带正常清音的轻喷麦信号,则根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段;计算所述高频喷麦频段内各个频点的平均能量;根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减;
或者,
若所述语音信号的喷麦类型为不带正常清音的强喷麦信号,则根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
2.根据权利要求1所述的方法,其特征在于,所述检测所述语音信号是否属于所述喷麦信号,包括:
获取所述语音信号的频域分布特性;
根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
3.根据权利要求2所述的方法,其特征在于,当所述频域分布特性为能量谱重心时,所述获取所述语音信号的频域分布特性,包括:
按照如下公式计算所述语音信号的能量谱重心WF(i):
<mrow>
<msub>
<mi>W</mi>
<mi>F</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>L</mi>
<mo>/</mo>
<mn>2</mn>
</mrow>
</munderover>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>&times;</mo>
<mo>|</mo>
<mi>Y</mi>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
<mo>)</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>L</mi>
<mo>/</mo>
<mn>2</mn>
</mrow>
</munderover>
<mo>|</mo>
<mi>Y</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中,i表示所述语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示所述第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示所述第i帧语音信号中第k个频点的能量;
所述根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号,包括:
检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值;
若小于所述能量谱重心阈值,则确定所述语音信号属于所述喷麦信号。
4.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述语音信号是否属于清音信号,包括:
检测所述语音信号是否属于非浊音信号,所述非浊音信号包括所述清音信号和非人声信号;
若所述语音信号属于所述非浊音信号,则计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于所述清音信号。
5.根据权利要求4所述的方法,其特征在于,所述检测所述语音信号是否属于非浊音信号,包括:
计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;根据所述第二特征值检测所述语音信号是否属于所述非浊音信号;
或者,
检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;若所述语音信号不存在所述预定特性,则确定所述语音信号属于所述非浊音信号。
6.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述语音信号是否属于清音信号,包括:
计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于人声信号,所述人声信号包括所述清音信号和浊音信号;
若所述语音信号属于所述人声信号,则计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;
根据所述第二特征值检测所述语音信号是否属于所述清音信号。
7.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述语音信号是否属于清音信号,包括:
计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
根据所述第一特征值检测所述语音信号是否属于人声信号,所述人声信号包括所述清音信号和浊音信号;
若所述语音信号属于所述人声信号,则检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;
若所述语音信号不存在所述预定特性,则确定所述语音信号属于所述清音信号。
8.一种语音信号处理装置,其特征在于,所述装置包括:
语音获取模块,用于获取麦克风采集的语音信号;
清音检测模块,用于检测所述语音信号是否属于清音信号,所述清音信号包括正常清音信号和喷麦信号,所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号;
喷麦检测模块,用于当所述语音信号属于所述清音信号时,检测所述语音信号是否属于所述喷麦信号;
频带划分模块,用于将所述语音信号的频带划分为N个子频带,N≥2且N为整数;
能量计算模块,用于计算所述语音信号在所述N个子频带内的能量分布;
类型确定模块,用于根据所述能量分布确定所述语音信号的喷麦类型;
喷麦抑制模块,用于当所述语音信号属于所述喷麦信号时,对所述语音信号进行抑制处理,所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种;
所述喷麦抑制模块,包括:
第一频段划分单元,用于当所述语音信号的喷麦类型为带正常清音的喷麦信号时,根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段;第一能量计算单元,用于计算所述衔接频段中每个子频带内各个频点的平均能量;第一能量衰减单元,用于根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减;
或者,
第二频段划分单元,用于当所述语音信号的喷麦类型为不带正常清音的轻喷麦信号时,根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段;第二能量计算单元,用于计算所述高频喷麦频段内各个频点的平均能量;第二能量衰减单元,用于根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减;
或者,
第三能量衰减单元,用于当所述语音信号的喷麦类型为不带正常清音的强喷麦信号时,根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
9.根据权利要求8所述的装置,其特征在于,所述喷麦检测模块,包括:频域分布获取单元和喷麦检测单元;
所述频域分布获取单元,用于获取所述语音信号的频域分布特性;
所述喷麦检测单元,用于根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
10.根据权利要求9所述的装置,其特征在于,
所述频域分布获取单元,还用于当所述频域分布特性为能量谱重心时,按照如下公式计算所述语音信号的能量谱重心WF(i):
<mrow>
<msub>
<mi>W</mi>
<mi>F</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>L</mi>
<mo>/</mo>
<mn>2</mn>
</mrow>
</munderover>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>&times;</mo>
<mo>|</mo>
<mi>Y</mi>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
<mo>)</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>L</mi>
<mo>/</mo>
<mn>2</mn>
</mrow>
</munderover>
<mo>|</mo>
<mi>Y</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中,i表示所述语音信号在语音序列中的帧序号,i≥0且i为整数;L表示第i帧语音信号的帧长,L≥1且L为整数;k表示所述第i帧语音信号中第k个频点,k∈[0,L-1]且k为整数;|Y(k,i)|2表示所述第i帧语音信号中第k个频点的能量;
所述喷麦检测单元,还包括:重心检测子单元和喷麦确定子单元;
所述重心检测子单元,用于检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值;
所述喷麦确定子单元,用于当所述语音信号的能量谱重心WF(i)小于所述能量谱重心阈值时,确定所述语音信号属于所述喷麦信号。
11.根据权利要求8至10任一所述的装置,其特征在于,所述清音检测模块,包括:非浊音检测单元、第一特征值计算单元和第一清音检测单元;
所述非浊音检测单元,用于检测所述语音信号是否属于非浊音信号,所述非浊音信号包括所述清音信号和非人声信号;
所述第一特征值计算单元,用于当所述语音信号属于所述非浊音信号时,计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述第一清音检测单元,用于根据所述第一特征值检测所述语音信号是否属于所述清音信号。
12.根据权利要求11所述的装置,其特征在于,所述非浊音检测单元,包括:
第二特征值计算子单元,用于计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;非浊音检测子单元,用于根据所述第二特征值检测所述语音信号是否属于所述非浊音信号;
或者,
特性检测子单元,用于检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;非浊音确定子单元,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述非浊音信号。
13.根据权利要求8至10任一所述的装置,其特征在于,所述清音检测模块,包括:第一计算单元、人声检测单元、第二计算单元和第二清音检测单元;
所述第一计算单元,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述人声检测单元,用于根据所述第一特征值检测所述语音信号是否属于人声信号,所述人声信号包括所述清音信号和浊音信号;
所述第二计算单元,用于当所述语音信号属于所述人声信号时,计算所述语音信号的第二特征值,所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种;
所述第二清音检测单元,用于根据所述第二特征值检测所述语音信号是否属于所述清音信号。
14.根据权利要求8至10任一所述的装置,其特征在于,所述清音检测模块,包括:第一计算单元、人声检测单元、特性检测单元和清音确定单元;
所述第一计算单元,用于计算所述语音信号的第一特征值,所述第一特征值为能量或者倒谱距离;
所述人声检测单元,用于根据所述第一特征值检测所述语音信号是否属于人声信号,所述人声信号包括所述清音信号和浊音信号;
所述特性检测单元,用于当所述语音信号属于所述人声信号时,检测所述语音信号是否存在预定特性,所述预定特性为基音周期、谐波、共振峰中的任意一种;
所述清音确定单元,用于当所述语音信号不存在所述预定特性时,确定所述语音信号属于所述清音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410692947.3A CN104409081B (zh) | 2014-11-25 | 2014-11-25 | 语音信号处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410692947.3A CN104409081B (zh) | 2014-11-25 | 2014-11-25 | 语音信号处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104409081A CN104409081A (zh) | 2015-03-11 |
CN104409081B true CN104409081B (zh) | 2017-12-22 |
Family
ID=52646704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410692947.3A Active CN104409081B (zh) | 2014-11-25 | 2014-11-25 | 语音信号处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104409081B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971731B (zh) * | 2016-01-14 | 2020-10-23 | 芋头科技(杭州)有限公司 | 一种声纹识别的修正方法 |
CN107305774B (zh) * | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN106992003A (zh) * | 2017-03-24 | 2017-07-28 | 深圳北斗卫星信息科技有限公司 | 语音信号自动增益控制方法 |
EP3613206A4 (en) * | 2017-06-09 | 2020-10-21 | Microsoft Technology Licensing, LLC | SILENT VOICE INPUT |
CN109741758A (zh) * | 2019-01-14 | 2019-05-10 | 杭州微纳科技股份有限公司 | 一种双麦克风语音降噪方法 |
CN112289340B (zh) * | 2020-11-03 | 2024-05-07 | 北京猿力未来科技有限公司 | 音频检测方法及装置 |
CN112712816B (zh) * | 2020-12-23 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN113192524B (zh) * | 2021-04-28 | 2023-08-18 | 北京达佳互联信息技术有限公司 | 音频信号处理方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02220201A (ja) * | 1989-02-20 | 1990-09-03 | Sanyo Electric Co Ltd | テープレコーダ |
US6975984B2 (en) * | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
JP3744934B2 (ja) * | 2003-06-11 | 2006-02-15 | 松下電器産業株式会社 | 音響区間検出方法および装置 |
CN100365951C (zh) * | 2004-08-27 | 2008-01-30 | 华为技术有限公司 | 无线通信中的信道估计方法及系统 |
CN101193460B (zh) * | 2006-11-20 | 2011-09-28 | 松下电器产业株式会社 | 检测声音的装置及方法 |
ES2391228T3 (es) * | 2007-02-26 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Realce de voz en audio de entretenimiento |
US8352274B2 (en) * | 2007-09-11 | 2013-01-08 | Panasonic Corporation | Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound |
CN102750950B (zh) * | 2011-09-30 | 2014-04-16 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102638740B (zh) * | 2012-02-17 | 2015-06-10 | 合肥讯飞数码科技有限公司 | 呼吸面罩的差分双麦克降噪方法 |
CN102890120A (zh) * | 2012-09-29 | 2013-01-23 | 北京航空航天大学 | 基于功率谱重心的az31镁合金形变损伤状态表征与定量评估系统 |
CN103594092A (zh) * | 2013-11-25 | 2014-02-19 | 广东欧珀移动通信有限公司 | 一种单麦克风语音降噪方法和装置 |
CN103854662B (zh) * | 2014-03-04 | 2017-03-15 | 中央军委装备发展部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
-
2014
- 2014-11-25 CN CN201410692947.3A patent/CN104409081B/zh active Active
Non-Patent Citations (5)
Title |
---|
"Acoustic-Phonetic analysis of fricatives for classification using SVM Based Algorithm";Alex Fried ET AL;《IEEE》;20101231;全文 * |
"ELECTRONIC POP PROTECTION FOR MICROPHONES";Gary W Elko ET AL;《2007 IEEE Workshop on Application of Signal Processing to Audio and Acoustics》;20071024;第46-49页 * |
"一种基于功率谱重心的自适应特征信息提取方法";司全刚 等;《数据采集与处理》;20081130;第23卷(第6期);第691-693页 * |
"基于Seneff听觉谱特征的汉语连续语音声韵母边界检测";陈斌 等;《声学学报》;20120131;第37卷(第1期);全文 * |
"复杂情境下的说话人确认算法研究";李晋;《万方学术数据库》;20131129;第14-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104409081A (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104409081B (zh) | 语音信号处理方法和装置 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN105280195B (zh) | 语音信号的处理方法及装置 | |
CN103714824B (zh) | 一种音频处理方法、装置及终端设备 | |
CN109256146B (zh) | 音频检测方法、装置及存储介质 | |
CN109166593A (zh) | 音频数据处理方法、装置及存储介质 | |
CN106356070B (zh) | 一种音频信号处理方法,及装置 | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN107705778A (zh) | 音频处理方法、装置、存储介质以及终端 | |
CN104393848B (zh) | 音量调节方法及装置 | |
CN108470571A (zh) | 一种音频检测方法、装置及存储介质 | |
CN108684029A (zh) | 一种蓝牙配对连接方法及系统、蓝牙设备和终端 | |
CN111883091A (zh) | 音频降噪方法和音频降噪模型的训练方法 | |
CN108712566A (zh) | 一种语音助手唤醒方法及移动终端 | |
CN106384599B (zh) | 一种破音识别的方法和装置 | |
CN106384597A (zh) | 一种音频数据处理方法、及设备 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN107749302A (zh) | 音频处理方法、装置、存储介质及终端 | |
CN107798107A (zh) | 歌曲推荐的方法和移动设备 | |
CN108540660A (zh) | 语音信号处理方法和装置、可读存储介质、终端 | |
CN109872710A (zh) | 音效调制方法、装置及存储介质 | |
CN107862660A (zh) | 数据优化方法、装置及超声平台 | |
CN107886969A (zh) | 一种音频播放方法及音频播放装置 | |
CN112270913A (zh) | 音高调节方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17 Patentee after: Guangzhou KuGou Networks Co., Ltd. Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F Patentee before: Guangzhou KuGou Networks Co., Ltd. |
|
CP02 | Change in the address of a patent holder |