CN104143341A - 爆音检测方法和装置 - Google Patents

爆音检测方法和装置 Download PDF

Info

Publication number
CN104143341A
CN104143341A CN201310195080.6A CN201310195080A CN104143341A CN 104143341 A CN104143341 A CN 104143341A CN 201310195080 A CN201310195080 A CN 201310195080A CN 104143341 A CN104143341 A CN 104143341A
Authority
CN
China
Prior art keywords
energy value
frequency
speech frame
average energy
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310195080.6A
Other languages
English (en)
Other versions
CN104143341B (zh
Inventor
吴小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310195080.6A priority Critical patent/CN104143341B/zh
Priority to PCT/CN2013/087787 priority patent/WO2014187095A1/en
Priority to US14/162,300 priority patent/US20140350923A1/en
Publication of CN104143341A publication Critical patent/CN104143341A/zh
Application granted granted Critical
Publication of CN104143341B publication Critical patent/CN104143341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请提供了爆音检测方法和装置。该方法包括:将待检测的一段语音信号划分为多个语音帧,对每一语音帧进行快速傅里叶变换处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值,利用每一语音帧在每一频点下的频域能量值计算该语音帧的全频段平均能量值,计算每一语音帧的低频段平均能量值,对所有语音帧的低频段平均能量值进行聚类分析并根据聚类结果确定强能量数值范围,检测各个语音帧的全频段平均能量值是否在强能量数值范围,当至少一个语音帧的全频段平均能量值在强能量数值范围时确定待检测的一段语音信号为爆音,反之确定待检测的一段语音信号不为爆音,这能够在一段语音信号中自动检测爆音,节省人力资源。

Description

爆音检测方法和装置
技术领域
本申请涉及语音检测,特别涉及爆音检测方法和装置。
背景技术
下面为使本申请容易理解,先将本申请涉及的技术术语进行描述:
爆音:很刺耳的一种声音,从语谱图上看就是各频段能量值都很高的一段语音。
语谱图:横轴代表语音的时间,纵轴代表频率,用颜色代表每一时间点每一频率点的能量值,能量值越大颜色越深,能量值越小颜色越浅。
以上对本申请涉及的技术术语进行了描述。
目前,在语音中检测爆音大多数是人工完成的,主要是由人耳细听大量语音信号,从而找到爆音。但是,这种方法浪费大量的人力,且有时检测出来的爆音位置不是很准确。
发明内容
本申请提供了爆音检测方法和装置,以实现自动检测爆音。
本申请提供的技术方案包括:
一种爆音检测方法,包括:
将待检测的一段语音信号划分为多个语音帧;
对每一语音帧进行快速傅里叶变换处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值;
利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值;
计算每一语音帧的低频段平均能量值,并对所有语音帧的低频段平均能量值进行聚类分析,根据聚类结果确定强能量数值范围;
检测每一语音帧的全频段平均能量值是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
一种爆音检测装置,包括:
划分单元,用于将待检测的一段语音信号划分为多个语音帧;
处理单元,用于对每一语音帧进行快速傅里叶变换处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值;
计算单元,用于利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值,并计算每一语音帧的低频段平均能量值E1;
聚类单元,用于对所有语音帧的低频段平均能量值进行聚类分析,根据聚类结果确定强能量数值范围;
检测单元,用于检测每一语音帧的全频段平均能量值是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
由以上技术方案可以看出,本发明中,通过各个语音帧的全频段平均能量值大小来刻画待检测语音信号在整个全频段的强度,根据各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音,即实现了自动在语音信号中动态检测爆音的目的,无需像现有技术那样通过人耳测听从语音信号中检测爆音,相比现有人耳测听节省人力资源。
进一步地,由于爆音本身在各个频段的语音信号能量相对较高,从语谱图可以直观的看到一条“直亮柱”,而本发明通过各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音,这完全符合爆音本身的特点,验证了本发明根据各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音是合理的。
更进一步地,由于不同语音信号的强度分布各不相同,而本发明只是针对待检测的语音信号确定用于判定语音信号是否为爆音的强能量数值范围,使得确定的强能练数值范围与待检测的语音信号一一对应,这能够保证爆音的检测更加准确。
附图说明
图1为本发明实施例提供的爆音示意图;
图2为本发明实施例提供的方法流程图;
图3为本发明实施例提供的对语音帧的E1进行聚类分析的流程图;
图4为本发明实施例提供的装置结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在语音信号的语谱图中,假如在2.45秒到2.48秒的时间段内存在爆音。基于爆音的定义,可以知道,2.45秒到2.48秒内各个频段的语音信号能量相对较高,从语谱图可以直观的看到在2.45秒到2.48秒之间有一条“直亮柱”,如图1所示。
也就是说,在语音信号的语谱图中检测到有“直亮柱”的存在就可检测出有爆音。
基于上述思想,本发明提供了图2所示的方法流程:
参见图2,图2为本发明实施例提供的方法流程图。如图2所示,该流程可包括以下步骤:
步骤201,将待检测的一段语音信号划分为多个语音帧。
作为本发明的一个实施例,本发明中,将待检测的一段语音信号划分为多个语音帧可包括:
采用加窗方式将待检测的语音信号划分为多个语音帧,其中,在划分语音帧时按照从待检测的一段语音信号中每移动一个设定平移长度划分一个语音帧,且划分的语音帧的长度为设定加窗宽度。
以设定平移长度为5ms,设定加窗宽度为40ms为例,则对于一个待检测的一段100ms时长的语音信号,划分出的语音帧为:
第一个语音帧:0-40ms,
第二个语音帧:5ms-45ms;
第三个语音帧:10ms-50ms;
第四个语音帧:15ms-55ms;
依次类推,倒数第二个语音帧:55ms-95ms,最后一个语音帧:60ms-100ms。
步骤202,对每一语音帧进行快速傅里叶变换(fft)处理,计算该语音帧在完成fft处理后全频段内每一频点下的频域能量值。
本发明中,每一个语音帧内的样点数为:t*fs,t为帧长,fs为采样率。作为本发明的一个实施例,这里t可为0.04s(即40ms),fs为16000,如此,每一语音帧的样点数为0.04*16000=640。
基于此,优选地,本步骤202具体可为:对每一语音帧做大于640点比如1024点的fft处理,计算全频段内每一频点下幅度的对数值,将该语音帧在每一频点下幅度的对数值作为每一频点下的频域能量值。
步骤203,利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值E0。
作为本发明的一个实施例,步骤203可为:
将每一语音帧在全频段内每一频点下的频域能量值相加,得到第一计算结果;
将所述第一计算结果除以所述全频段内所有频点的数量,得到的结果作为该语音帧的全频段平均能量值E0。
以全频段为0-8kHz为例,则本步骤203就将将每一语音帧在0-8kHz内每一频点下的频域能量值相加,并除以0-8kHz内所有频点的数量,得到该语音帧的全频段平均能量值E0。
步骤204,计算每一语音帧的低频段平均能量值E1。
每一段语音信号的强度分布各不相同,因此每一段语音信号的能量强度的比较都只能相对于本段语音信号,能量的强弱分区和典型数值都只相对于本段语音信号有意义,并不能对所有语音信号定义出能量值大于某一数值就属于强能量,低于某一数值就是弱能量,只能在某一段特定的语音信号中定义出大于某一数值就属于该段语音信号的强能量范围,低于某一数值就属于该段语音信号的弱能量范围,根据语音的特点,不全是静音的语音(一段全静音的语音意义不大)中总是存在强弱两个分区,尤其在低频段表现非常明显,基于此,本发明通过计算语音帧的低频段平均能量值E1将语音分为强弱两个区域,具体见步骤205,以便后续检测爆音,具体见步骤206。
其中,步骤204中计算每一语音帧的低频段平均能量值E1可包括:
从每一语音帧在全频段内每一频点下的频域能量值中获取属于设定低频段的每一频点下的频域能量值;这里,所述设定低频段是基于全频段确定的,其具体为所述全频段内频率低的频段。比如,全频段为0-8kHz,设定低频段为50Hz-550Hz;
将获取的每一频点下的频域能量值相加,并除以所述设定低频段内所有频点的数量,得到的结果作为该语音帧的低频段平均能量值E1。
步骤205,对所有语音帧的低频段平均能量值E1进行聚类分析,根据聚类结果确定强能量数值范围。
聚类,是将所有语音帧的低频段平均能量值E1分成类或簇的过程,使同一类或簇的低频段平均能量值E1之间具有很高的相似度,而不同类或簇的低频段平均能量值E1相似度低。
作为本发明的一个实施例,本步骤205可采用K-均值(K-means)聚类方法对所有语音帧的低频段平均能量值E1进行聚类分析。下面进行具体描述:
参见图3,图3为本发明实施例提供的对语音帧的E1进行聚类分析的流程图。如图3所示,该流程可包括以下步骤:
步骤301,随机从所有语音帧的低频段平均能量值E1中选取两个低频段平均能量值E1分别作为当前聚类中心。
比如,所有语音帧的低频段平均能量值E1依次为1、2、3、4、5、101、102、103、104、105,则本步骤301可以随机选取1、2作为当前聚类中心,也可随机选取1、101作为当前聚类中心。
步骤302,针对每一低频段平均能量值E1,计算该低频段平均能量值E1到每一当前聚类中心的距离,将该低频段平均能量值E1归为距离其最短的当前聚类中心对应的类。
这里,该低频段平均能量值E1到当前聚类中心的距离具体为该低频段平均能量值E1与当前聚类中心差值的绝对值。
如此,通过步骤302就能将所有的低频段平均能量值E1分为两类,一类对应其中一个当前聚类中心,另一类对应另一个当前聚类中心。
步骤303,针对两个当前聚类中心对应的类,分别计算该类中所有低频段平均能量值E1的平均值,比较该计算的两个平均值是否与两个当前聚类中心相同,如果是,结束当前流程,将两个当前聚类中心对应的类作为最终的聚类结果,如果否,将计算的两个平均值作为当前聚类中心,返回步骤302。
比如,所有语音帧的低频段平均能量值E1依次为1、2、3、4、5、101、102、103、104、105,假如执行到步骤303时,1、2作为当前聚类中心,且存在两个类,一个类与作为当前聚类中心的1对应(记为类1),其包含1,另一个类与作为当前聚类中心的2对应(记为类2),包含2、3、4、5、101、102、103、104、105,计算类1中低频段平均能量值E1的平均值,因为类1中仅包含1,则类1的平均值也就为1,计算类2中所有低频段平均能量值E1的平均值,即(2+3+4+5+101+102+103+104+105)/9,发现类1中低频段平均能量值E1的平均值、类2中低频段平均能量值E1的平均值不与两个当前聚类中心1、2相同,则返回步骤302。
而假如执行到步骤303时,3、103作为当前聚类中心,且存在两个类,一个类与作为当前聚类中心的3对应(记为类3),其包含1、2、3、4、5,另一个类与作为当前聚类中心的103对应(记为类4),包含101、102、103、104、105,计算类3中低频段平均能量值E1的平均值,即(1+2+3+4+5)/5=3,计算类24中所有低频段平均能量值E1的平均值,即(101+102+103+104+105)/5=103,发现类3中低频段平均能量值E1的平均值、类4中低频段平均能量值E1的平均值与两个当前聚类中心3、103相同,结束当前流程,将此时的类3、类4作为最终的聚类结果。
至此,完成图3所示的流程。
需要说明的是,图3只是以K-均值聚类方法为例描述如何对所有语音帧的低频段平均能量值E1进行聚类分析。优选地,本发明在不改变本发明思想的前提下,也可以采用其他方式比如迭代自组织数据分析技术(ISODATA)聚类方法对所有语音帧的低频段平均能量值E1进行聚类分析,这里不再具体限定。
基于图3所示的聚类分析,步骤205中,根据聚类结果确定强能量数值范围可包括:
从作为聚类结果的两个类中选择出包含的低频段平均能量值E1较大的类,比如选择上述的类4,将该选择出的类中的所有低频段平均能量值E1或者部分低频段平均能量值E1作为强能量数值范围。
步骤206,检测每一语音帧的全频段平均能量值E0是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值E0在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值E0均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
以步骤205确定出的强能量数值范围为101至105为例,则本步骤206检测每一语音帧的全频段平均能量值E0是否在101至105之间,当检测出至少一个语音帧的全频段平均能量值E0在101至105之间时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值E0均不在101至105之间时,确定待检测的一段语音信号不为爆音。
至此,完成图2所示的流程。
基于爆音的定义可以知道,爆音在各个频段的语音信号能量相对较高,从语谱图可以直观的看到一条“直亮柱”,如图1所示在2.45秒到2.48秒之间的“直亮柱”,基于此,图2所示流程,本发明用各个语音帧在全频段的平均能量值大小来刻画整个全频段的强度,根据各个语音帧的平均能量值是否在强能量值区域来检查是否有爆音存在是合理的,其能够准确、快捷在一段语音信号中检测出爆音,不需要人耳测听,节省大量人力。
以上对本发明提供的方法进行了描述,下面对本发明提供的装置进行描述:
参见图4,图4为本发明实施例提供的装置结构图。如图4所示,该装置可包括:
划分单元,用于将待检测的一段语音信号划分为多个语音帧;
处理单元,用于对每一语音帧进行快速傅里叶变换fft处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值;
计算单元,用于利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值,并计算每一语音帧的低频段平均能量值E1;
聚类单元,用于对所有语音帧的低频段平均能量值进行聚类分析,根据聚类结果确定强能量数值范围;
检测单元,用于检测每一语音帧的全频段平均能量值是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
优选地,本发明中,所述划分单元可采用加窗方式将待检测的一段语音信号划分为多个语音帧,其中,在划分语音帧时按照从待检测的一段语音信号中每移动一个设定平移长度划分一个语音帧,且划分的语音帧的长度为设定加窗宽度。
优选地,本发明中,所述处理单元计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值包括:
计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下幅度的对数值;
将该语音帧在每一频点下幅度的对数值作为每一频点下的频域能量值。
优选地,本发明中,所述计算单元利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值E0可包括:
将每一语音帧在全频段内每一频点下的频域能量值相加,得到第一计算结果;将所述第一计算结果除以所述全频段内所有频点的数量,得到的结果作为该语音帧的全频段平均能量值E0;
优选地,本发明中,所述计算单元每一语音帧的低频段平均能量值E1包括:
从每一语音帧在全频段内每一频点下的频域能量值中获取属于设定低频段的每一频点下的频域能量值;
将获取的每一频点下的频域能量值相加,并除以所述设定低频段内所有频点的数量,得到的结果作为该语音帧的低频段平均能量值E1。
优选地,本发明中,所述聚类单元对所有语音帧的低频段平均能量值E1进行聚类分析可包括以下步骤:步骤1,随机从所有语音帧的低频段平均能量值E1中选取两个低频段平均能量值E1分别作为当前聚类中心;步骤2,针对每一低频段平均能量值E1,计算该低频段平均能量值E1到每一当前聚类中心的距离,将该低频段平均能量值E1归为距离其最短的当前聚类中心对应的类;步骤3,针对两个当前聚类中心对应的类,分别计算该类中所有低频段平均能量值E1的平均值,比较该计算的两个平均值是否与两个当前聚类中心相同,如果是,结束当前流程,将两个当前聚类中心对应的类作为聚类结果,如果否,将计算的两个平均值作为当前聚类中心,返回步骤2;
基于此,所述聚类单元根据聚类结果确定强能量数值范围包括:从作为聚类结果的两个类中选择出包含的低频段平均能量值E1较大的类,将该选择出的类中的所有低频段平均能量值E1或者部分低频段平均能量值E1作为强能量数值范围。
以上对本发明提供的装置进行了描述。
由以上技术方案可以看出,本发明中,通过各个语音帧的全频段平均能量值大小来刻画待检测语音信号在整个全频段的强度,根据各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音,即实现了自动在语音信号中动态检测爆音的目的,无需像现有技术那样通过人耳测听从语音信号中检测爆音,相比现有人耳测听节省人力资源。
进一步地,由于爆音本身在各个频段的语音信号能量相对较高,从语谱图可以直观的看到一条“直亮柱”,而本发明通过各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音,这完全符合爆音本身的特点,验证了本发明根据各个语音帧的全频段平均能量值是否在强能量值范围来检查待检测的语音信号是否有爆音是合理的。
更进一步地,由于不同语音信号的强度分布各不相同,而本发明只是针对待检测的语音信号确定用于判定语音信号是否为爆音的强能量数值范围,使得确定的强能练数值范围与待检测的语音信号一一对应,这能够保证爆音的检测更加准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种爆音检测方法,其特征在于,该方法包括:
将待检测的一段语音信号划分为多个语音帧;
对每一语音帧进行快速傅里叶变换处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值;
利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值;
计算每一语音帧的低频段平均能量值,并对所有语音帧的低频段平均能量值进行聚类分析,根据聚类结果确定强能量数值范围;
检测每一语音帧的全频段平均能量值是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
2.根据权利要求1所述的方法,其特征在于,将待检测的一段语音信号划分为多个语音帧包括:
采用加窗方式将待检测的一段语音信号划分为多个语音帧,其中,在划分语音帧时按照从待检测的一段语音信号中每移动一个设定平移长度划分一个语音帧,且划分的语音帧的长度为设定加窗宽度。
3.根据权利要求1所述的方法,其特征在于,所述计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值包括:
计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下幅度的对数值;
将该语音帧在每一频点下幅度的对数值作为每一频点下的频域能量值。
4.根据权利要求1所述的方法,其特征在于,所述利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值包括:
将每一语音帧在全频段内每一频点下的频域能量值相加,得到第一计算结果;
将所述第一计算结果除以所述全频段内所有频点的数量,得到的结果作为该语音帧的全频段平均能量值。
5.根据权利要求1所述的方法,其特征在于,所述计算每一语音帧的低频段平均能量值包括:
从每一语音帧在全频段内每一频点下的频域能量值中获取属于设定低频段的每一频点下的频域能量值;
将获取的每一频点下的频域能量值相加,并除以所述设定低频段内所有频点的数量,得到的结果作为该语音帧的低频段平均能量值。
6.根据权利要求1所述的方法,其特征在于,对所有语音帧的低频段平均能量值进行聚类分析包括:
步骤1,随机从所有语音帧的低频段平均能量值中选取两个低频段平均能量值分别作为当前聚类中心;
步骤2,针对每一个低频段平均能量值,计算该低频段平均能量值到每一当前聚类中心的距离,将该低频段平均能量值归为距离其最短的当前聚类中心对应的类;
步骤3,针对两个当前聚类中心对应的类,分别计算该类中所有低频段平均能量值的平均值,比较该计算的两个平均值是否与两个当前聚类中心相同,如果是,结束当前流程,将两个当前聚类中心对应的类作为聚类结果,如果否,将计算的两个平均值作为当前聚类中心,返回步骤2。
7.根据权利要求6所述的方法,其特征在于,所述根据聚类结果确定强能量数值范围包括:
从作为聚类结果的两个类中选择出包含的低频段平均能量值较大的类,将该选择出的类中的所有低频段平均能量值或者部分低频段平均能量值作为强能量数值范围。
8.一种爆音检测装置,其特征在于,该装置包括:
划分单元,用于将待检测的一段语音信号划分为多个语音帧;
处理单元,用于对每一语音帧进行快速傅里叶变换处理,计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值;
计算单元,用于利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值,并计算每一语音帧的低频段平均能量值E1;
聚类单元,用于对所有语音帧的低频段平均能量值进行聚类分析,根据聚类结果确定强能量数值范围;
检测单元,用于检测每一语音帧的全频段平均能量值是否在所述强能量数值范围,当检测出至少一个语音帧的全频段平均能量值在所述强能量数值范围时,确定待检测的一段语音信号为爆音,当检测出所有语音帧的全频段平均能量值均不在所述强能量数值范围时,确定待检测的一段语音信号不为爆音。
9.根据权利要求8所述的装置,其特征在于,所述划分单元将待检测的一段语音信号划分为多个语音帧包括:
采用加窗方式将待检测的一段语音信号划分为多个语音帧,其中,在划分语音帧时按照从待检测的一段语音信号中每移动一个设定平移长度划分一个语音帧,且划分的语音帧的长度为设定加窗宽度。
10.根据权利要求8所述的装置,其特征在于,所述处理单元计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下的频域能量值包括:
计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下幅度的对数值;
将该语音帧在每一频点下幅度的对数值作为每一频点下的频域能量值。
11.根据权利要求8所述的装置,其特征在于,所述计算单元利用每一语音帧在全频段内每一频点下的频域能量值计算该语音帧的全频段平均能量值包括:
将每一语音帧在全频段内每一频点下的频域能量值相加,得到第一计算结果;将所述第一计算结果除以所述全频段内所有频点的数量,得到的结果作为该语音帧的全频段平均能量值;
所述计算单元每一语音帧的低频段平均能量值包括:
从每一语音帧在全频段内每一频点下的频域能量值中获取属于设定低频段的每一频点下的频域能量值;
将获取的每一频点下的频域能量值相加,并除以所述设定低频段内所有频点的数量,得到的结果作为该语音帧的低频段平均能量值。
12.根据权利要求8所述的装置,其特征在于,所述聚类单元对所有语音帧的E1进行聚类分析包括:步骤1,随机从所有语音帧的低频段平均能量值中选取两个低频段平均能量值分别作为当前聚类中心;步骤2,针对每一低频段平均能量值,计算该低频段平均能量值到每一当前聚类中心的距离,将该低频段平均能量值归为距离其最短的当前聚类中心对应的类;步骤3,针对两个当前聚类中心对应的类,分别计算该类中所有低频段平均能量值的平均值,比较该计算的两个平均值是否与两个当前聚类中心相同,如果是,结束当前流程,将两个当前聚类中心对应的类作为聚类结果,如果否,将计算的两个平均值作为当前聚类中心,返回步骤2;
所述聚类单元根据聚类结果确定强能量数值范围包括:从作为聚类结果的两个类中选择出包含的低频段平均能量值较大的类,将该选择出的类中的所有低频段平均能量值或者部分低频段平均能量值作为强能量数值范围。
CN201310195080.6A 2013-05-23 2013-05-23 爆音检测方法和装置 Active CN104143341B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310195080.6A CN104143341B (zh) 2013-05-23 2013-05-23 爆音检测方法和装置
PCT/CN2013/087787 WO2014187095A1 (en) 2013-05-23 2013-11-25 Method and device for detecting noise bursts in speech signals
US14/162,300 US20140350923A1 (en) 2013-05-23 2014-01-23 Method and device for detecting noise bursts in speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310195080.6A CN104143341B (zh) 2013-05-23 2013-05-23 爆音检测方法和装置

Publications (2)

Publication Number Publication Date
CN104143341A true CN104143341A (zh) 2014-11-12
CN104143341B CN104143341B (zh) 2015-10-21

Family

ID=51852499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310195080.6A Active CN104143341B (zh) 2013-05-23 2013-05-23 爆音检测方法和装置

Country Status (3)

Country Link
US (1) US20140350923A1 (zh)
CN (1) CN104143341B (zh)
WO (1) WO2014187095A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置
CN107452399A (zh) * 2017-09-18 2017-12-08 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
CN108877814A (zh) * 2018-05-23 2018-11-23 中南林业科技大学 窨井盖盗损检测方法、智能终端及计算机可读存储介质
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109658955A (zh) * 2019-01-07 2019-04-19 环鸿电子(昆山)有限公司 爆音检测方法及装置
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN110580917A (zh) * 2019-09-16 2019-12-17 数据堂(北京)科技股份有限公司 一种语音数据质量检测方法、装置、服务器及存储介质
CN112735481A (zh) * 2020-12-18 2021-04-30 Oppo(重庆)智能科技有限公司 Pop音检测方法、装置、终端设备及存储介质
CN114299994A (zh) * 2022-01-04 2022-04-08 中南大学 激光多普勒远距离侦听语音的爆音检测方法、设备及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6851310B2 (ja) 2015-01-20 2021-03-31 ドルビー ラボラトリーズ ライセンシング コーポレイション ドローン推進システム・ノイズのモデル化および削減
JP7056340B2 (ja) * 2018-04-12 2022-04-19 富士通株式会社 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
CN110136735B (zh) * 2019-05-13 2021-09-28 腾讯音乐娱乐科技(深圳)有限公司 一种音频修复方法、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
CN101308651A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的检测方法
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
CN102280103A (zh) * 2011-08-02 2011-12-14 天津大学 基于方差的音频信号瞬态段检测方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US20040083110A1 (en) * 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
EP1435620A1 (en) * 2003-01-06 2004-07-07 Thomson Licensing S.A. Method for creating and accessing a menu for audio content without using a display
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
EP1672618B1 (en) * 2003-10-07 2010-12-15 Panasonic Corporation Method for deciding time boundary for encoding spectrum envelope and frequency resolution
ATE388599T1 (de) * 2004-04-16 2008-03-15 Dublin Inst Of Technology Verfahren und system zur schallquellen-trennung
US8143620B1 (en) * 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
US8560313B2 (en) * 2010-05-13 2013-10-15 General Motors Llc Transient noise rejection for speech recognition
CN101587710B (zh) * 2009-07-02 2011-12-14 北京理工大学 一种基于音频突发事件分类的多码本编码参数量化方法
US9008329B1 (en) * 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8248448B2 (en) * 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
CN101308651A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的检测方法
CN102280103A (zh) * 2011-08-02 2011-12-14 天津大学 基于方差的音频信号瞬态段检测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置
CN106782613B (zh) * 2016-12-22 2020-01-21 广州酷狗计算机科技有限公司 信号检测方法及装置
CN107452399A (zh) * 2017-09-18 2017-12-08 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN108877814A (zh) * 2018-05-23 2018-11-23 中南林业科技大学 窨井盖盗损检测方法、智能终端及计算机可读存储介质
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109658955A (zh) * 2019-01-07 2019-04-19 环鸿电子(昆山)有限公司 爆音检测方法及装置
CN109658955B (zh) * 2019-01-07 2021-03-09 环鸿电子(昆山)有限公司 爆音检测方法及装置
CN110580917A (zh) * 2019-09-16 2019-12-17 数据堂(北京)科技股份有限公司 一种语音数据质量检测方法、装置、服务器及存储介质
CN112735481A (zh) * 2020-12-18 2021-04-30 Oppo(重庆)智能科技有限公司 Pop音检测方法、装置、终端设备及存储介质
CN112735481B (zh) * 2020-12-18 2022-08-05 Oppo(重庆)智能科技有限公司 Pop音检测方法、装置、终端设备及存储介质
CN114299994A (zh) * 2022-01-04 2022-04-08 中南大学 激光多普勒远距离侦听语音的爆音检测方法、设备及介质

Also Published As

Publication number Publication date
WO2014187095A1 (en) 2014-11-27
US20140350923A1 (en) 2014-11-27
CN104143341B (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
CN104143341B (zh) 爆音检测方法和装置
CN106443203B (zh) 一种脉冲信号检测系统及方法
CN110335617A (zh) 一种变电站中的噪音分析方法
CN104464722B (zh) 基于时域和频域的语音活性检测方法和设备
RU2017103938A (ru) Способ и устройство обнаружения голосовой активности
CN103632681B (zh) 一种谱包络静音检测方法
CN103578479B (zh) 基于听觉掩蔽效应的语音可懂度测量方法
US20170296081A1 (en) Frame based spike detection module
CN106504760B (zh) 宽频带背景噪声与语音分离检测系统及方法
KR101847638B1 (ko) 음향 분석 방법 및 이를 이용한 비파괴 검사 장치
CN105210386B (zh) 用于增益校准的方法和设备
CN108900267B (zh) 基于特征值的单边右尾拟合优度检验频谱感知方法及装置
CN113642417B (zh) 一种基于改进小波算法的绝缘架空导线局部放电信号的去噪方法
CN106548786A (zh) 一种音频数据的检测方法及系统
CN105336344B (zh) 杂音检测方法和装置
CN111613243B (zh) 一种语音检测的方法及其装置
CN110231117A (zh) 一种基于s变换的拉索基频特征辨识方法
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN109389993A (zh) 一种语音数据采集方法、装置、设备及存储介质
CN106713574A (zh) 一种干扰测试方法及装置
CN103745726A (zh) 一种自适应的变采样率音频采样方法
CN105911153B (zh) 一种基于移动窗函数的信号分离与去噪方法及装置
FR3054362B1 (fr) Circuit et procede de reconnaissance de parole
CN104424954B (zh) 噪声估计方法与装置
CN102680080B (zh) 一种基于改进的自适应形态滤波的非稳态信号检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200828

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.