CN1835072A - 波三角变换及基于该变换的语音检测方法、装置及介质 - Google Patents

波三角变换及基于该变换的语音检测方法、装置及介质 Download PDF

Info

Publication number
CN1835072A
CN1835072A CNA2005100548360A CN200510054836A CN1835072A CN 1835072 A CN1835072 A CN 1835072A CN A2005100548360 A CNA2005100548360 A CN A2005100548360A CN 200510054836 A CN200510054836 A CN 200510054836A CN 1835072 A CN1835072 A CN 1835072A
Authority
CN
China
Prior art keywords
triangle
summit
waveform signal
width
predetermined power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100548360A
Other languages
English (en)
Other versions
CN1835072B (zh
Inventor
刘贺飞
杜世岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN2005100548360A priority Critical patent/CN1835072B/zh
Publication of CN1835072A publication Critical patent/CN1835072A/zh
Application granted granted Critical
Publication of CN1835072B publication Critical patent/CN1835072B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种波三角变换的方法及其装置、以及基于该波三角变换的语音检测方法及其装置。本发明所公开的用于分析波形顶点并提取的方法和装置能够满足实时语音识别应用中提出的低时延的要求。更进一步,本发明还提供一种采用音频信号的WTT变换的语音检测方法及其装置,其无需考虑音频信号或背景噪声的水平。根据本发明的方法及装置,由于逐帧提取顶点,并且当顶点提取到达帧的末尾时,该帧的结束信息自然累积给下一帧。此外,由于一个三角包括三个顶点,因此末端的两个顶点也自然累积给下一帧。顶点和三角的提取都是实时进行的,因此实时进行的WTT变换具有良好的性能和准确度,从而能够应用在许多领域。

Description

波三角变换及基于该变换 的语音检测方法、装置及介质
技术领域
本发明一般地涉及在包括各种固定和/或非固定噪声语音的真实生活环境的噪声条件下检测输入信号是否为语音信号的方法及其装置。更具体地说,本发明涉及一种基于波三角(WTT)变换方法和装置的语音检测方法和语音检测装置,用于在视频会议系统、语音识别设备等中检测周期性的语音。
背景技术
从原始波形数据中直接提取话音波形的特征相当困难,因此通常将WTT变换用作波形特征提取中一种非常重要和基本的方法。
语音的波形在形状上具有很大的差异,在与噪声重叠之后将变得更加复杂。因此,需要从语音波形中提取其一般的特征,使用该特征能够正确且有效地描述语音。当前,已经开发了多种分析波形的方法。其中之一请参见2001年12月31日提出的中国专利申请第01145305.2号。有些方法却需要用户的参与,这对于大多数用户来说是非常不方便的。而有些方法可能需要平滑处理,因此相当花费时间。另外,现有技术中这些方法的准确度也令人难以满意。
图13示出没有采用WTT变换用于检测音频信号中的语音段的传统语音检测装置的一个例子。
图13所示的该语音检测装置仅采用能量作为参数并且包括:输入端子130,用于输入音频信号;能量计算单元136,用于计算每一输入的帧信号的能量;阈值比较单元138,用于通过比较所计算的每一输入帧的能量和阈值,判断该输入帧是语音还是噪声;阈值更新单元137,用于更新阈值比较单元138所使用的阈值;以及输出端子135,用于根据阈值比较单元138所作的判断,输出表明输入帧是语音还是噪声的信号。
在图13的语音检测装置中,对于来自输入端子130的每一输入帧,能量计算单元136对其进行能量计算。
然后,阈值更新单元137更新阈值比较单元138所使用的阈值。如果能量大于当前阈值,则将输入帧识别为语音段。否则,将输入帧识别为噪声段。然后,将该阈值比较单元138获得的识别结果从输出端子135输出。这种传统的语音检测装置存在下述问题。即,在背景噪声非常大或语音能量非常小的环境下,语音段的参数会受到背景噪声的影响。更具体地,某些辅音会受到严重的影响,这是因为它们的能量比背景噪声的能量低很多。因此,在这种情形下,很难判断输入帧是语音还是噪声,并且判断错误时常发生。
发明内容
有鉴于此,本发明的目的是提供一种波形特征提取方法、波形特征提取装置、波三角变换方法、波三角变换装置、基于波三角变换检测语音的方法、基于波三角变换检测语音的装置、用于实施波形特征提取方法的计算机程序及其计算机可读记录介质、用于实施波三角变换方法的计算机程序及其计算机可读记录介质、以及用于实施基于波三角变换的语音检测方法的计算机程序及其计算机可读记录介质,能够在无论输入音频信号或背景噪声的水平高或低的情况下对于实时语音识别应用都满足时间延迟小的要求。
为了实现上述目的,根据本发明的一个方面,提供一种分析波形信号的方法,包括步骤:顶点检测步骤,用于检测波形信号的波形的一组顶点;顶点合并步骤,用于将在顶点检测步骤中所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取步骤,用于根据在顶点合并步骤中合并后的一组顶点提取一组三角。
为了实现上述目的,根据本发明的另一方面,提供一种分析波形信号的装置,包括:顶点检测部件,用于检测波形信号的波形的一组顶点;顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。
为了实现上述目的,根据本发明的再一方面,提供一种根据波三角变换检测语音的方法,包括步骤:波三角变换步骤,用于将语音的波形信号变换为一组三角;以及有效话音检测步骤,用于根据在波三角变换步骤中变换的三角的规律性检测包含在语音的波形信号中的语音段。其中,所述波三角变换步骤包括下列步骤:顶点检测步骤,用于检测波形信号的波形的一组顶点;顶点合并步骤,用于将在顶点检测步骤中所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取步骤,用于根据在顶点合并步骤中合并后的一组顶点提取一组三角。所述有效话音检测步骤包括下列步骤:从波三角变换步骤所变换的预定帧波形信号的三角中提取一个三角Tb作为用于搜索的基本三角;在预定帧波形信号的剩余三角中搜寻所有相似三角Ts;根据下式计算分数
Figure A20051005483600141
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度;以及如果所述分数小于预定分数值,则确定所述预定帧波形信号为语音信号。
为了实现上述目的,根据本发明的又一方面,提供一种根据波三角变换检测语音的装置,包括:波三角变换部件,用于将语音的波形信号变换为一组三角;以及有效话音检测部件,用于根据波三角变换部件变换的三角的规律性检测包含在语音的波形信号中的语音段。其中,所述波三角变换部件包括:顶点检测部件,用于检测波形信号的波形的一组顶点;顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。所述有效话音检测部件包括:三角获取部件,用于从波三角变换部件所变换的预定帧波形信号的三角中提取一个三角Tb作为用于搜索的基本三角;相似三角搜寻部件,用于在预定帧波形信号的剩余三角中搜寻所有相似三角Ts;分数计算部件,用于根据下式计算分数
Figure A20051005483600151
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度;以及语音信号确定部件,如果所述分数小于预定分数值,则确定所述预定帧波形信号为语音信号。
另外,本发明还提供用于实施上述分析信号波形的方法、以及基于波三角变换检测语音的方法的计算机程序。
此外,还提供其上记录有用于实施上述分析信号波形的方法、以及基于波三角变换检测语音的方法的计算机程序代码的至少一种计算机可读记录介质的计算机程序产品。
附图说明
从下面结合附图的详细描述中,本发明的特性、原理和应用将变得更加清楚。其中:
图1是在本发明中采用的计算机系统的方框图;
图2示出一段波形及其顶点的示例;
图3示出从一段波形中提取顶点的流程图;
图4示出提取顶点的示例图;
图5示出三角定义及其提取的示意图;
图6示出实时提取三角的示例;
图7示出基于WTT的语音检测处理装置的实施方案;
图8示出搜索相似三角链的流程图;
图9示出用于搜索相似三角链的图8的部分流程图;
图10示出用于说明三角Tb的选择的示例;
图11示出用于说明下一个三角Tb的选择的示例;
图12示出基于WTT的VAD工作的状态;以及
图13示出传统的语音检测装置的示意方框图。
具体实施方式
下面将参照附图描述根据本发明的优选实施例,以便更好地理解本发明。但是,应该指出的是,对于本领域的普通技术人员来说,本发明不仅限于这些具体的示例。
本发明实质上为一种基于WTT变换进行语音检测的方法和装置,以便满足多数实时语音检测应用中延迟小的要求。采用本发明,语音识别装置能够有效地利用顶点和三角信息并改善带音调的语言,例如汉语、日语等的语音识别性能。
计算机系统示例
本发明的方法能够在任何一种信息处理设备中实施,例如,个人计算机(PC)、笔记本电脑、或者嵌在照相机、视频摄像机、扫描仪等等中的单片微处理器(SCM)。对于本领域的普通技术人员来说,能够非常容易地通过软件、硬件、和/或固件实现本发明。还应该指出的是,为了实施本发明的方法的任意一个步骤或者这些步骤的组合、或者组件的任意组合,对于本领域的普通技术人员来说,显然可能会需要使用I/O设备、存储设备、诸如CPU的微处理器等等。在下面的描述以及本发明的方法中将不再重复提及这些设备,尽管实际上可能会用到它们。
作为上面提到的信息处理设备,图1中所示的方框图示出可能会在本发明中使用的典型计算机系统的一个具体示例。应该指出的是,尽管图1示出了计算机系统的各种组成部件,但是并不试图表示任何具体的结构或连接这些部件的具体方式,这是由于这些细节对于本发明来说并不重要。还应该指出的是,具有更少或更多部件的网络计算机及其它数据处理系统,也可以应用到本发明中。
如图1所示,作为数据处理系统形式的计算机系统包括总线101,与微处理器102、ROM 104、易失性RAM 105以及非易失性存储器106相连接。微处理器102可以是Intel公司的Pentium微处理器,连接到高速缓冲存储器103,如图1中的例子所示。总线101将这些各种部件互连,并且将这些部件高速缓冲存储器103、ROM 104、易失性RAM 105以及非易失性存储器106连接到显示控制器和显示设备107、以及诸如输入/输出(I/O)设备的外围设备,比如鼠标、键盘、调制解调器、网络接口、打印机,以及其它本领域公知的设备。通常输入/输出设备109通过输入/输出控制器108连接到系统上。易失性RAM 105典型地为动态RAM(DRAM),需要连续的电源以便刷新或保持存储器中的数据。非易失性存储器106典型地为硬盘驱动器、磁光盘驱动器、光盘驱动器、DVD RAM或其它类型的存储系统,能够在电源从系统中移除后也能保持数据。通常,非易失性存储器也可以是随机存取存储器,尽管这不是必须的。虽然图1示出非易失性存储器是直接连接到数据处理系统的其它部件上的本地设备,但是应该指出的是,本发明也可以使用远离系统的非易失性存储器,例如通过诸如调制解调器的网络接口或以太网接口连接到数据处理系统的网络存储设备。总线101可以包括各种桥接器、控制器、和/或适配器相互连接的一种或多种总线,这在本技术领域中是公知的。在一个实施例中,I/O控制器108包括用于控制USB(通用串行总线)外围设备的USB适配器。
WTT变换方法及其装置
图2示出一段波形及其顶点的示例。如图2所示,顶部顶点是波形凸起部分的中心点,底部顶点是凹槽部分的中心点。作为一个顶点,需要三个参数来定义。第一个参数是iTime,为所限定的顶点的时间参数。例如,T1为一个顶点,其时间是T1Time。
这里T1time=(O1+O2)/2,其中O1和O2是时间轴上的两个零点。
第二个参数是nType,为顶点的类型。在此一共定义两种类型的顶点,正向顶点和负向顶点。一段波形的正向顶点大于零点,即顶部顶点;而一段波形的负向顶点小于零点,即底部顶点。例如如图2所示,T1和T2是正向顶点,而B是负向顶点。
第三个参数是HeightK,为第K个顶点的高度。例如,图中顶点T1的高度为HeightT1,并且HeightT1=T1T’1。这里,T1T’1可以通过下式计算:
SΔO1T1O2=S⌒O1O2,以及
SΔO1T1O2=(T1T’1*O1O2)/2
其中,SΔO1T1O2为三角O1T1O2的面积,S⌒O1O2为曲线O1O2下的面积,O1O2为从零点O1到零点O2的距离,T1T’1为顶点T1的高度Height T1。
在定义了顶点之后,满足上述条件的顶点能够从原始波形中提取。图3示出由在下文中详细描述的WTT变换装置执行的提取波形顶点的示例流程图。
如图3所示,处理流程从步骤S301开始。
在步骤S301中,初始化语音波形的4个变量参数,并且定义语音波形的5个常量参数。也就是说,在开始顶点提取时,假定“Direction”=START,“Width”=0,“PossibleWidth”=0,以及K=0。5个常量参数包括ENERGY_FILTER(背景能量)、MIN_WIDTH以及用于变量参数“Direction”的语音波形的三个方向(UP_WARDS、DOWN_WARDS、以及START)。
这里,K表示第K个采样点。ENERGY_FILTER也称作背景能量,表示背景噪声振幅的绝对值的平均值。采样点K的采样值是变化的,而且可能大于ENERGY_FILTER或者小于(-1)*ENERGY_FILTER,也有可能在ENERGY_FILTER和(-1)*ENERGY_FILTER之间。
变量“Direction”表示采样点的变化方向。如果采样点K的采样值大于ENERGY_FILTER,则采样点K的方向定义为UP_WARDS。如果采样点K的采样值小于(-1)*ENERGY_FILTER,则采样点K的方向定义为DOWN_WARDS。而如果采样点K的采样值在ENERGY_FILTER和(-1)*ENERGY_FILTER之间,则采样点的方向保持上一采样点的方向不变,或者可能从UP_WARDS或DOWN_WARDS的方向变化为初始状态“Direction”=START。
此外,参数“Width”表示任意两个顶点之间的采样点的数量。MIN_WIDTH为根据语音信号的特性确定的预定阈值,以便消除语音信号中窄峰的影响。MIN_WIDTH一般取2至5之间的值,在本发明的优选
实施例中使用3。
另外,在本发明中定义了另一个变量“PossibleWidth”,用于表示采样点K的采样值在ENERGY_FILTER和(-1)*ENERGY_FILTER之间时连续采样点的数量,以便在合并同一方向上的连续顶点之前找出噪声环境下语音波形的顶点。
在步骤S301中初始化上述参数之后,处理流程前进到步骤S302。
在步骤S302中,判断波形的当前采样点K是否是最后一个采样点。如果确定当前采样点K是最后一个采样点,则处理流程前进到步骤S304结束处理。
否则,如果确定当前采样点K不是最后一个采样点,则根据预定的能量滤波(将在下面的语音检测部分详细描述)确定当前采样点K的采样值(或者能量状态)。如上所述,当前采样点K的采样值有三种状态:大于正向ENERGY_FILTER、小于负向ENERGY_FILTER、以及在正向ENERGY_FILTER和负向ENERGY_FILTER之间。
如果当前采样点K的采样值大于正向ENERGY_FILTER,则当前采样点K定义为大于零点(UP_WARDS)。如果当前采样点K的采样值小于负向ENERGY_FILTER,则当前采样点K定义为小于零点(DOWN_WARDS)。否则,如果当前采样点K的采样值在正向ENERGY_FILTER和负向ENERGY_FILTER之间,则将这种情况下的当前采样点K定义为靠近零点,并且采样点的方向保持上一采样点的方向不变,或者可能从UP_WARDS或DOWN_WARDS的方向变化为初始状态START。
根据上述标准,如果在步骤S302确定当前采样点K不是最后一个采样点,则首先在步骤S311确定当前采样点K的采样值是否大于正向ENERGY_FILTER。如果确定当前采样点K的采样值大于正向ENERGY_FILTER,则处理流程前进到步骤S312。
在步骤S312中,判断参数“Direction”的保存值是否等于DOWN_WARDS。如果确定参数“Direction”的保存值不等于DOWN_WARDS,则意味着方向没有发生变化并且不需要保存顶点,处理流程前进到步骤S316,在此宽度Width加1,处理流程前进到步骤S317。
在步骤S317中,将当前采样点K的方向“Direction”设置为UP_WARDS。也就是说,如图3中所示,Direction=UP_WARDS。在执行完成步骤S317之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
如果在步骤S312中确定参数“Direction”的保存值等于DOWN_WARDS,则意味着当前采样点K的方向从上一采样点的方向DOWN_WARDS变化为当前采样点的方向UP_WARDS,并且在从其宽度参数Width设置为1或0的采样点到紧接当前采样点之前的前一采样点之间的采样点中可能存在一个顶点(底部顶点)。然后,在步骤S313中,判断宽度Width的值是否大于预定MINI_WIDTH。如果宽度Width的值大于预定MINI_WIDTH,则一定存在一个底部顶点,并且在步骤S315中将相应于Width/2值处的点保存为底部顶点,将参数Width的值重设为1,并将参数PossibleWidth重设为0。然后,处理流程前进到步骤S317,将当前采样点K的方向“Direction”设置为UP_WARDS。也就是说,如图3中所示,Direction=UP_WARDS。在执行完成步骤S317之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
另一方面,如果在步骤S313中确定宽度Width的值不大于预定MINI_WIDTH,则不认为存在一个顶点,并且处理流程前进到步骤S314,将参数Width的值重设为1。然后,处理流程前进到步骤S317,将当前采样点K的方向“Direction”设置为UP_WARDS。也就是说,如图3中所示,Direction=UP_WARDS。在执行完成步骤S317之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
与上述处理过程相对应,如果在步骤S302确定当前采样点K不是最后一个采样点,并且在步骤S311中确定当前采样点K的采样值不大于正向ENERGY_FILTER,则处理流程前进到步骤S321,判断当前采样点K的采样值是否小于负向ENERGY_FILTER。如果确定当前采样点K的采样值小于负向ENERGY_FILTER,则处理流程前进到步骤S322。
在步骤S322中,判断参数“Direction”的保存值是否等于UP_WARDS。如果在步骤S322中确定参数“Direction”的保存值不等于UP_WARDS,则意味着方向没有发生变化并且不需要保存顶点,处理流程前进到步骤S326,在此宽度Width加1,处理流程前进到步骤S327。
在步骤S327中,将当前采样点K的方向“Direction”设置为DOWN_WARDS。也就是说,如图3中所示,Direction=DOWN_WARDS。在执行完成步骤S327之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
如果在步骤S322中确定参数“Direction”的保存值等于UP_WARDS,则意味着当前采样点K的方向从上一采样点的方向UP_WARDS变化为当前采样点的方向DOWN_WARDS,并且在从其宽度参数Width设置为1或0的采样点到紧接当前采样点之前的前一采样点之间的采样点中可能存在一个顶点(顶部顶点)。然后,在步骤S323中,判断宽度Width的值是否大于预定MINI_WIDTH。如果宽度Width的值大于预定MINI_WIDTH,则一定存在一个顶部顶点,并且在步骤S325中将相应于Width/2值处的点保存为顶部顶点,将参数Width的值重设为1,并将参数PossibleWidth重设为0。然后,处理流程前进到步骤S327,将当前采样点K的方向“Direction”设置为DOWN_WARDS。也就是说,如图3中所示,Direction=DOWN_WARDS。在执行完成步骤S327之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
另一方面,如果在步骤S323中确定宽度Width的值不大于预定MINI_WIDTH,则不认为存在一个顶点,并且处理流程前进到步骤S324,将参数Width的值重设为1。然后,处理流程前进到步骤S327,将当前采样点K的方向“Direction”设置为DOWN_WARDS。也就是说,如图3中所示,Direction=DOWN_WARDS。在执行完成步骤S327之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
此外,如果在步骤S302确定当前采样点K不是最后一个采样点,在步骤S311中确定当前采样点K的采样值不大于正向ENERGY_FILTER,并且在步骤S321中确定当前采样点K的采样值不小于负向ENERGY_FILTER,则处理流程前进到步骤S331,确定当前采样点K的采样值在正向ENERGY_FILTER和负向ENERGY_FILTER之间。
之后,在步骤S332中,判断参数Width的值是否大于预定MIN_WIDTH。如果确定宽度Width的值不大于预定MINI_WIDTH,则不认为存在一个顶点(顶部顶点或底部顶点),并且处理流程前进到步骤S336,将参数Width的值重设为0并将参数PossibleWidth的值也设置为0。然后,处理流程前进到步骤S337,将当前采样点K的方向“Direction”重新设置为START。也就是说,如图3中所示,Direction=START。在执行完成步骤S337之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
如果在步骤S332中确定宽度Width的值大于预定MINI_WIDTH,则在步骤S333中将参数PossibleWidth的值加1,并且在步骤S333中判断参数PossibleWidth的值是否大于预定MINI_WIDTH。
如果参数PossibleWidth的值不大于预定MINI_WIDTH,则不认为存在一个顶点(顶部顶点或底部顶点),并且处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
另一方面,如果参数PossibleWidth的值大于预定MINI_WIDTH,则应该保存一个顶点。然后,在步骤S335中,将相应于PossibleWidth/2值处的点保存为顶部顶点或底部顶点。如果累积的采样点的采样值大于0,则将相应于PossibleWidth/2值处的点保存为顶部顶点。否则,将相应于PossibleWidth/2值处的点保存为底部顶点。
之后,处理流程前进到步骤S337,将参数“Direction”的值重新设置为START。也就是说,如图3中所示,Direction=START。在执行完成步骤S337之后,处理流程前进到步骤S303,采样点K加1。之后,处理流程返回到步骤S302,继续处理下一采样点。
在处理完所有的采样点之后,也就是说,如果在步骤S302中判断当前采样点K是最后一个采样点,则处理流程前进到步骤S304,结束处理。
此外,应该指出的是,本发明还认同正向顶点和负向顶点应该相互间隔。也就是说,如果一个顶点为正向顶点,则其相邻顶点应该为负向顶点;反之,如果一个顶点为负向顶点,则其相邻顶点应该为正向顶点。在某些情况下,由于语音与噪声重叠在一起,如果在同一方向上提取出了连续的顶点,则将这些在同一方向上的连续顶点合并为一个顶点。
从上面所述的处理过程可以看出,能够从初始波形数据中得到所有的初始顶点。在得到所有的这些可能的初始顶点之后,将同一方向上的连续顶点合并为一个,从而使得正向顶点和负向顶点相互间隔。在进行如此合并之后,如果当前顶点为一个顶部顶点,则其相邻顶点一定为底部顶点;而如果当前顶点为一个底部顶点,则其相邻顶点一定为顶部顶点。
图4示出提取顶点的处理过程中的波形示例图。在采用上述方法和装置分析一段初始波形之后,将能够提取所有满足条件的顶点:顶部顶点(正向顶点)和底部顶点(负向顶点)。例如,点A、C、E和G为顶部顶点,而点B1、B2、D、F和H为底部顶点。底部顶点B1和B2为同一方向上的连续顶点,因此将它们合并为一个顶点B。如此,所保存的底部顶点仅为B、D、F和H,而不是B1、B2、D、F和H。
根据本发明的该实施例,能够按照如下方法从初始波形中直接提取顶点,即,通过判断当前采样点的采样值是大于ENERGY_FILTER还是小于(-1)*ENERGY_FILTER、亦或在ENERGY_FILTER和(-1)*ENERGY_FILTER之间,并对初始波形进行平滑以得到顶点,然后如果相邻的顶点在同一个方向上,则将它们合并为一个顶点,从而保存顶部顶点和底部顶点。
在一帧一帧地进行顶点提取处理时,当顶点提取到达帧的尾部时,该尾部累积给下一帧,由此能够实现实时的顶点提取。对于该实时处理过程,顶点提取能够应用到许多领域中。
在从初始波形提取顶点之后,所提取的顶点能够用于直接提取三角。
图5示出如何从一组顶点中提取三角。顶部顶点和底部顶点在时间上是严格相间的,因此三角的中心点与同一三角的其它两个顶点位于零点线的不同侧。
作为一个三角,需要4个参数定义。第一个参数是iTime,为所定义的三角的开始时间,即,所定义的三角的左顶点的iTime。例如如图5所示,顶点A为所定义的三角的左顶点,因此iTime为顶点A的时间。也就是iTime=A.iTime。
用于定义三角的第二个参数为iCenterTime,是三角的中心顶点时间,即,中心顶点的iTime。例如如图5所示,顶点B为所定义的三角中心顶点,因此iCenterTime为顶点B的时间。也就是iCenterTime=B.iTime。
用于定义三角的第三个参数为nWidth,是所定义的三角的时间长度。例如如图5所示,所定义的三角的nWidth为从C.iTime到A.iTime之差。也就是nWidth=C.iTime-A.iTime。
用于定义三角的第四个参数为nSwing,是所定义的三角的高度。例如如图5所示,所定义的三角nSwing可以按照下式计算:
nSwing=B.nRealY-(A.nRealY+C.nRealY)/2
其中,A.nRealY、B.nRealY和C.nRealY为顶点A、B和C的高度。
由于顶点为两种类型,即顶部顶点和底部顶点,因此从这些顶点中提取的三角也有两种类型,即向上三角和向下三角。它们通过其中间顶点的方向来划分。这些三角可以广泛应用在各个领域,特别是WTTVAD中。由于这两种类型的三角是对称的,因此本发明仅使用向上三角来进行波三角变换有效语音检测(WTT VAD)。
由于顶点提取实时进行,因此三角提取也能够实时进行。图6示出实时提取三角的示例。
由于三个顶点构成一个三角,因此一帧的最后两个顶点累积给下一帧,并且通过这种方法能够实时地获得一组三角。如图6所示,顶点T2和B2是最后的两个顶点,因此累积给下一帧。使用该两个累积的顶点,三角将得以连续。
还应该指出的是,本发明不仅能够通过上述处理过程实现,而且能够通过下述结构的硬件得以实现。
根据本发明的分析波形信号的装置包括:顶点检测部件,用于检测波形信号的波形的一组顶点;顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。
根据本发明的分析波形信号的装置还包括能量水平确定部件,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
根据本发明的一个优选实施例,所述预定能量滤波为波形信号的背景能量,并且根据下式计算所述背景能量:
其中i和M为整数,以及M大于等于5且小于等于10。
根据本发明的一个实施例,如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点。如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点。如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。所述预定值大于等于3且小于等于5。顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
根据本发明的一个优选实施例,为每一个顶点提取一个三角。所述三角具有平行于时间轴延伸的底边并具有高度。三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
根据本发明另一优选实施例的分析波形信号的装置还包括:检测部件,将波形信号检测为模拟信号;以及转换部件,将模拟波形信号转换为数字波形信号。
根据本发明另一优选实施例的分析波形信号的装置还包括再现部件,用于从记录介质中再现所述波形信号。
从上面的描述中可以看出,顶点提取和三角提取都是实时进行的,因此本发明能够应用在多个领域。在此,基于能量有效语音检测(VAD)模块进行WTT变换。WTT变换是音频特征提取领域的VAD中波形特征提取的基础工作,并且在将简单的能量VAD作为预处理之后,WTTVAD在没有规律的背景噪声情况下具有非常好的语音检测性能。该组合的VAD能够实现非常好的性能,这将在下面详细描述。
基于WTT变换检测语音的方法及其装置
下面将描述本发明的基于WTT变换用于检测音频信号或波形中的语音的方法及其装置。
图7示出用于执行下面将要描述的语音检测方法的基于WTT的语音检测处理装置的实施方案。该用于语音检测的装置包括下述用于执行语音检测方法的单元:预处理器单元701,用于执行语音检测方法的预处理步骤;WTT变换处理器单元702,用于执行上文中详细描述的语音检测方法的WTT变换步骤;WTT VAD处理器单元703,用于执行语音检测方法的WTT VAD处理步骤,将在下文中详细描述;以及最终状态存储单元704,用于执行语音检测方法的存储步骤以便保存语音检测结果。
预处理器单元701用于执行预处理步骤。在此,本发明首先定义背景能量、当前能量和能量比。
本发明使用头5帧直接作为开始时的背景能量,并且根据能量VAD状态更新随后的背景能量。这里,本发明使用10帧作为收集背景能量的宽度。
当前能量的宽度等于当前语音的宽度,用于收集当前能量并获取能量比。当前宽度比背景宽度小,这是由于较小的宽度能够响应语音的明显变化。在此,本发明使用2帧作为当前能量的宽度。
Figure A20051005483600272
那么,能量比为:
能量比=当前能量/背景能量
在预处理步骤中,本发明预先确定4个重要的参数(能量比的第一阈值、能量比的第二阈值、最小能量、以及最小宽度分数),以便确保能够正确并及时地更新背景能量。
能量比的第一阈值用于确定初始波形中语音的开始点,能量比的第二阈值用于确定能量VAD的状态,最小能量阈值用于在低背景噪声条件下滤波噪声干扰,最小宽度分数用于确定语音的周期性并通过测试或试验获得。如果所述分数较低,则意味着语音的周期性较好;反之,如果分数较大,则意味着语音的周期性较差。
在预处理步骤中,本发明还预先确定一些参数,例如,用于初始化VAD参数的开始长度,用在三角链检测中的三角缓冲区,作为三角链检测期间最大合并数量的最大合并数,作为在语音检测中客户能够接受的最大延迟帧的最大延迟,作为WTT VAD的输出延迟的VAD延迟,等等。
在预处理器单元701执行预处理步骤之后,本发明采用WTT变换处理器单元702执行上面详细描述的WTT变换方法。
WTT VAD处理器单元703执行根据本发明的WTT VAD处理步骤,图8为其一个优选实施例。
图8示出从初始波形所提取的三角中搜索相似三角链的流程图。从初始波形提取的每一个三角将被置于由5帧三角链构成的阵列中。
如图8所示,本发明在步骤801从最近的5帧中获取第一个三角Tb作为用于搜索的基本三角。三角Tb是用于进行搜索的基本三角。
此时,处理流程搜索第i帧到第i+1帧。首先将第一个三角设定为三角Tb,然后从第i帧到第i+1帧进行搜索。如果发现期望的与三角Tb的规律性,则Tb选择步骤停止并且停止搜索步骤,然后处理流程前进到步骤802。
在步骤802,比较三角的iTime与由采样比确定的采样预帧(samplepre-frame)。如果三角Tb的iTime小于采样预帧,则处理流程前进到步骤803。否则,结束处理流程。
在步骤803,获得与基本三角相似的下一个三角Ts。
图9示出用于搜索相似三角链的图8的部分流程图,并且示出如何得到下一个相似三角Ts。在步骤8031,获取下一个三角Ti,然后在步骤8032比较三角Ti的宽度nWidth与三角Tb的宽度nWidth。如果三角Ti的宽度nWidth小于三角Tb的宽度nWidth,则处理流程前进到步骤8033,否则处理流程前进到步骤8036。
在步骤8033,合并三角Ti与下一个三角Ti+1作为新的三角Ti’,然后在步骤8034比较三角Ti’的宽度nWidth与三角Tb的宽度nWidth。如果三角Ti’的宽度nWidth不大于三角Tb的宽度nWidth,则在步骤8035设置Ti=Ti’,并且重复步骤8033至8035的处理一直到三角Ti’的宽度nWidth大于三角Tb的宽度nWidth为止。如果三角Ti’的宽度nWidth大于三角Tb的宽度nWidth,则处理流程前进到步骤8036。
在步骤8036,判断下述控制条件是否满足:
|Ti.nWidth-Tb.nWidth|>|Ti′.nWidth-Tb.nWidth|
如果控制条件满足,则在步骤8037设置Ts=Ti’;如果控制条件不满足,则在步骤8038设置Ts=Ti。
当找到三角Ts时,从开始到Ts结束时间的搜索时间可以根据下式确定:
Ts.iTime+Ts.nWidth
在得到下一个相似三角Ts之后,处理流程前进到步骤804。
在步骤804,根据下式计算分数并累计:
Figure A20051005483600291
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度。
该分数用于表示所有选择的相似三角的相似度。
接下来,在步骤805判断三角Ts是否是5帧的最后一个三角。如果三角Ts不是5帧的最后一个三角,则重复步骤803至805一直到三角Ts是5帧的最后一个三角为止。如果三角Ts是5帧的最后一个三角,则处理流程前进到步骤806。
在步骤806,将所得到的分数与最佳分数进行比较,最佳分数为通过大量试验按照事先测试确定的阈值。如果所得到的分数大于最佳分数,则处理流程前进到步骤807,否则结束处理流程。这是由于分数值越小,语音的周期性就越好。当所得到的分数小于最佳分数时,意味着已经从初始波形或音频信号中找到了语音有规律的周期性。
在步骤807,将三角Tb与下一个三角Tb+1合并作为新的基本三角,并将分数设置为0,然后处理流程前进到步骤808,比较该新三角Tb的nWidth与最大三角宽度。如果该新三角Tb的nWidth不大于最大三角宽度,则在步骤809将该新三角Tb的下一个三角作为新的基本三角Tb,并且重复步骤802至809的处理。否则,如果该新三角Tb的nWidth大于最大三角宽度,则结束处理流程。
此外,三角Tb的下一个三角应该是紧接三角Tb之后的三角,这里“之后”表示的是其开始时间。如果Tb为合并后的三角,则三角Tb的下一个三角应该是合并的三角中的最后一个三角的下一个三角。否则,三角Tb的下一个三角仅指紧接的随后一个三角。
图10示出用于说明在图8描述的一次搜索处理过程中如何获取三角Tb的示例。
图11示出用于说明三角Tb的下一个三角的选择的示例。这里,本发明假定有4个初始三角T1、T2、T3和T4,如图10和11所示。如果三角Tb刚好等于三角T1,则选择三角T2作为三角Tb的下一个三角。如果三角Tb为合并三角T1和三角T2所得到,则选择T3作为三角Tb的下一个三角。如果三角Tb为合并三角T1、T2和三角T3所得到,则选择T4作为三角Tb的下一个三角。
由于在到达三角链的末尾时本发明比较所得到的分数与阈值,以便发现是否存在规律性。因此,本发明能够发现大多数条件下(静音或噪声)有规律的周期性。并且,本发明仅仅需要很短的元音段就能够发现有规律的周期性,从而本发明不仅能够用于汉语语音检测,而且能够用于日语和其它语言中。
在WTT VAD处理器单元703之后,在最终状态存储单元704中存储结果,然后处理结束。
根据本发明的基于WTT变换的语音检测装置可以按照下述结构实施。
总的来说,本发明的根据波三角变换检测语音的装置包括:波三角变换部件,用于将语音的波形信号变换为一组三角;以及有效话音检测部件,用于根据波三角变换部件变换的三角的规律性检测包含在语音的波形信号中的语音段。
根据上面所述的用于WTT的方法和装置,所述波三角变换部件可以包括:顶点检测部件,用于检测波形信号的波形的一组顶点;顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。
根据本发明的一个优选实施例,根据波三角变换检测语音的装置还包括能量水平确定部件,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
优选地,所述预定能量滤波为波形信号的背景能量,并且根据下式计算所述背景能量:
其中i和M为整数,以及M大于等于5且小于等于10。
如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点;如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点;以及如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。其中,所述预定值大于等于3且小于等于5。顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
根据本发明优选的根据波三角变换检测语音的装置,为每一个顶点提取一个三角。该三角具有平行于时间轴延伸的底边并具有高度。三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
根据本发明一个优选实施例的根据波三角变换检测语音的装置,所述有效话音检测部件包括:三角获取部件,用于从波三角变换部件所变换的预定帧波形信号的三角中提取一个三角Tb作为用于搜索的基本三角;相似三角搜寻部件,用于在预定帧波形信号的剩余三角中搜寻所有相似三角Ts;分数计算部件,用于根据下式计算分数
Figure A20051005483600311
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度;以及语音信号确定部件,如果所述分数小于预定分数值,则确定所述预定帧波形信号为语音信号。
优选地,预定帧波形信号为5帧。
根据本发明一个优选实施例的根据波三角变换检测语音的装置,其中相似三角搜寻部件:i)获取下一个三角Ti并比较下一个三角Ti的宽度nWidth与三角Tb的宽度nWidth;ii)如果下一个三角Ti的宽度nWidth比三角Tb的宽度nWidth小,则合并下一个三角Ti与紧随其后的下一个三角Ti+1作为新的三角Ti’;iii)比较新三角Ti’的宽度nWidth与三角Tb的宽度nWidth;iv)如果新三角Ti’的宽度nWidth不大于三角Tb的宽度nWidth,则设置Ti=Ti’并重复部件ii)至iv)一直到下一个三角Ti的宽度nWidth大于三角Tb的宽度nWidth为止;判断下述控制条件是否满足:
|Ti.nWidth-Tb.nWidth|>|Ti′.nWidth-Tb.nWidth|
如果控制条件满足,则设置Ts=Ti’;以及如果控制条件不满足,则设置Ts=Ti。
优选地,三角Tb是预定帧波形信号中任意连续三角的组合。
根据本发明一个优选实施例的根据波三角变换检测语音的装置还包括:检测部件,将波形信号检测为模拟信号;以及转换部件,将模拟波形信号转换为数字波形信号。
根据本发明另一个优选实施例的根据波三角变换检测语音的装置还包括再现部件,用于从记录介质中再现所述波形信号。
如上所述,本发明实现了基于WTT变换的VAD模块,并且VAD在人类语音处理方面是一种非常重要的模块。使用人类语音有规律的周期性通过上面详细描述的WTT结果来检测,并且使用语音能量作为参数进行。采用根据本发明的该结构,能够获得高性能且鲁棒性良好的VAD,在此称之为WTT VAD。WTT VAD与任何其它形式的VAD相比都具有良好的性能。
图12示出本发明的WTT VAD工作时的状态,可以看出比常规的能量VAD和纯粹的人类语音规律性VAD都优良。如图12所示,能量VAD在静音条件下和噪声稳定的条件下工作良好,但是在不稳定的噪声条件下不能正常工作。纯粹的人类语音规律性VAD能够从其它不规则的噪声中很好地区分强/弱人类语音,但是在某些有规律的噪声的情况下,例如迷惑噪声情况下,将始终认为是人类语音。
本发明将能量和规律性合并在一起为基于WTT变换的语音检测方法,并保持了两者的优点,同时摒弃了它们的缺点,从而在静音和噪声环境下都能够很好地工作。本发明同时提供了一种在噪声条件下比其它VAD都具有良好性能的有效的混合WTT VAD结构。
另外,下面的表格示出了在静音条件下和噪声条件下不同VAD的出错比率。从下述的评估中可以看出,本发明具有比其它VAD更加良好的性能。
  ENV  WTT VAD   能量VAD   规律性VAD
  静音   0.12%   0.30%   0.54%
  噪声   2.14%   13.16%   12.74%
此外,下面的表格示出了本发明的总出错评估。
  ENV   INC   LACK_E   LACK_S   PART   COR   TOO_F   TOO_L   INS   DEL   NO_EPD
  静音   257   203   159   60   1   0   0   0   0   0
  办公室   228   227   180   75   0   0   0   0   0   0
  大厅   203   273   176   92   0   0   0   0   0   0
  咖啡厅   172   303   177   104   0   10   0   0   2   0
  街道   192   283   176   104   1   5   0   0   7   0
  外界   221   223   178   78   0   14   0   0   2   0
此外,下面的表格示出了本发明的量化评估结果。
  ENV   GOOD   ALLOWABLE   BAD   ERROR
  静音   42.5   36.07   21.43   0
  办公室   42.68   37.5   19.82   0
  大厅   35.54   39.29   25.18   0
  咖啡厅   40.18   33.57   24.11   2.14
  街道   45   28.04   24.82   2.14
  外界   38.93   34.82   23.39   2.86
此外,下面的表格示出了本发明的偏离误差和RMSE。
  ENV   AVE_ST   AVE_ED   RMSE_ST   RMSE_ED
  静音   8.6   14.8   68.4   77.14
  办公室   6.47   18.46   69.95   73.64
  大厅   2.71   29.64   75.36   87.97
  咖啡厅   5.13   35.55   77.98   89.88
  街道   1.32   30.31   109.08   99.76
  外界   4.36   16.94   91.74   81.84
另外,还应该指出的是,本发明也能够通过在与语音检测及随之的处理装置通信的任何一种信息处理设备上运行程序或一系列程序来实现。所述信息处理设备、语音检测及随之的处理装置可以是本领域公知的任何一种通用设备。
因此,应该指出的是,本发明包括通过将实现前述实施例功能的软件程序(与各实施例中的所示流程图相对应的程序)直接或远端提供给一个系统或装置、并且由该系统或装置的计算机读出并执行所提供的程序码来实现本发明的情况。在该情况下,形式并不限于程序,只要可以提供程序功能即可。
因此,安装在计算机中以使用计算机实现本发明的功能处理的程序码本身实现本发明。也就是,本发明包括用于实现本发明的功能处理的计算机程序本身。
在这种情况下,程序的形式不受到特定的限制,并且可以使用目标码、由解释器执行的程序、提供给OS的脚本数据等,只要它们具有程序功能即可。
可以使用例如软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM、DVD-R)等作为用于提供程序的记录介质。
作为另一种程序提供方法,可以在客户计算机上使用浏览器建立与因特网上的给定主页的连接,并且可以将经过压缩且包括自动安装功能的本发明计算机程序本身或文件从该主页下载到记录介质如硬盘等,从而提供程序。另外,形成本发明程序的程序码可以分成多个文件,并且可以从不同主页下载这些文件。也就是,本发明还包括使多个用户下载用于使用计算机实现本发明的功能处理的程序文件的WWW服务器。
另外,存储本发明加密程序的存储介质如CD-ROM等可以交付给用户,已清除预定条件的用户可以允许通过因特网从网页下载对程序解密的密钥信息,并且可以使用该密钥信息执行加密程序以安装在计算机上,从而实现本发明。
前述实施例的功能可以不仅通过由计算机执行读出程序码而且通过根据该程序指令由运行在计算机上的OS等执行的一些或所有实际处理操作来实现。
而且,在从记录介质读出的程序写入在功能扩展板或单元的存储器中之后,前述实施例的功能可以通过安置在功能扩展板或功能扩展单元中的CPU等所执行的一些或所有实际处理来实现,其中,功能扩展板或功能扩展单元插入在计算机中或者连接到计算机。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (68)

1.一种分析波形信号的方法,包括步骤:
顶点检测步骤,用于检测波形信号的波形的一组顶点;
顶点合并步骤,用于将在顶点检测步骤中所检测到的同一方向上的连续顶点合并为一个新顶点;以及
三角提取步骤,用于根据在顶点合并步骤中合并后的一组顶点提取一组三角。
2.如权利要求1所述的分析波形信号的方法,还包括步骤:
能量水平确定步骤,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
3.如权利要求2所述的分析波形信号的方法,其中所述预定能量滤波为波形信号的背景能量。
4.如权利要求3所述的分析波形信号的方法,其中根据下式计算所述背景能量:
其中i和M为整数,以及M大于等于5且小于等于10。
5.如权利要求4所述的分析波形信号的方法,还包括步骤:
如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点;
如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点;以及
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
6.如权利要求5所述的分析波形信号的方法,其中如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。
7.如权利要求5所述的分析波形信号的方法,其中所述预定值大于等于3且小于等于5。
8.如权利要求7所述的分析波形信号的方法,其中顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
9.如权利要求1所述的分析波形信号的方法,其中为每一个顶点提取一个三角。
10.如权利要求9所述的分析波形信号的方法,其中三角具有平行于时间轴延伸的底边并具有高度。
11.如权利要求10所述的分析波形信号的方法,其中三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
12.如权利要求1至11任一所述的分析波形信号的方法,还包括步骤:
将波形信号检测为模拟信号;以及
将模拟波形信号转换为数字波形信号。
13.如权利要求1至11任一所述的分析波形信号的方法,其中实时执行所述顶点检测步骤、顶点合并步骤、以及三角提取步骤。
14.如权利要求1至11任一所述的分析波形信号的方法,还包括步骤:
从记录介质中再现所述波形信号。
15.一种分析波形信号的装置,包括:
顶点检测部件,用于检测波形信号的波形的一组顶点;
顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及
三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。
16.如权利要求15所述的分析波形信号的装置,还包括:
能量水平确定部件,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
17.如权利要求16所述的分析波形信号的装置,其中所述预定能量滤波为波形信号的背景能量。
18.如权利要求17所述的分析波形信号的装置,其中根据下式计算所述背景能量:
Figure A2005100548360004C1
其中i和M为整数,以及M大于等于5且小于等于10。
19.如权利要求18所述的分析波形信号的装置,其中:
如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点;
如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点;以及
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
20.如权利要求19所述的分析波形信号的装置,其中如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。
21.如权利要求19所述的分析波形信号的装置,其中所述预定值大于等于3且小于等于5。
22.如权利要求21所述的分析波形信号的装置,其中顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
23.如权利要求15所述的分析波形信号的装置,其中为每一个顶点提取一个三角。
24.如权利要求23所述的分析波形信号的装置,其中三角具有平行于时间轴延伸的底边并具有高度。
25.如权利要求24所述的分析波形信号的装置,其中三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
26.如权利要求15至25任一所述的分析波形信号的装置,还包括:
检测部件,将波形信号检测为模拟信号;以及
转换部件,将模拟波形信号转换为数字波形信号。
27.如权利要求15至25任一所述的分析波形信号的装置,还包括再现部件,用于从记录介质中再现所述波形信号。
28.一种根据波三角变换检测语音的方法,包括步骤:
波三角变换步骤,用于将语音的波形信号变换为一组三角;以及
有效话音检测步骤,用于根据在波三角变换步骤中变换的三角的规律性检测包含在语音的波形信号中的语音段。
29.如权利要求28所述的根据波三角变换检测语音的方法,其中所述波三角变换步骤包括下列步骤:
顶点检测步骤,用于检测波形信号的波形的一组顶点;
顶点合并步骤,用于将在顶点检测步骤中所检测到的同一方向上的连续顶点合并为一个新顶点;以及
三角提取步骤,用于根据在顶点合并步骤中合并后的一组顶点提取一组三角。
30.如权利要求29所述的根据波三角变换检测语音的方法,还包括步骤:
能量水平确定步骤,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
31.如权利要求30所述的根据波三角变换检测语音的方法,其中所述预定能量滤波为波形信号的背景能量。
32.如权利要求31所述的根据波三角变换检测语音的方法,其中根据下式计算所述背景能量:
Figure A2005100548360006C1
其中i和M为整数,以及M大于等于5且小于等于10。
33.如权利要求32所述的根据波三角变换检测语音的方法,还包括步骤:
如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点;
如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点;以及
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
34.如权利要求33所述的根据波三角变换检测语音的方法,其中如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。
35.如权利要求33所述的根据波三角变换检测语音的方法,其中所述预定值大于等于3且小于等于5。
36.如权利要求35所述的根据波三角变换检测语音的方法,其中顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
37.如权利要求29所述的根据波三角变换检测语音的方法,其中为每一个顶点提取一个三角。
38.如权利要求37所述的根据波三角变换检测语音的方法,其中三角具有平行于时间轴延伸的底边并具有高度。
39.如权利要求38所述的根据波三角变换检测语音的方法,其中三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
40.如权利要求28所述的根据波三角变换检测语音的方法,其中所述有效话音检测步骤包括下列步骤:
从波三角变换步骤所变换的预定帧波形信号的三角中提取一个三角Tb作为用于搜索的基本三角;
在预定帧波形信号的剩余三角中搜寻所有相似三角Ts;
根据下式计算分数
Figure A2005100548360007C1
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度;以及
如果所述分数小于预定分数值,则确定所述预定帧波形信号为语音信号。
41.如权利要求40所述的根据波三角变换检测语音的方法,其中预定帧波形信号为5帧。
42.如权利要求40所述的根据波三角变换检测语音的方法,其中搜寻相似三角的步骤包括下列步骤:
i)获取下一个三角Ti并比较下一个三角Ti的宽度nWidth与三角Tb的宽度nWidth;
ii)如果下一个三角Ti的宽度nWidth比三角Tb的宽度nWidth小,则合并下一个三角Ti与紧随其后的下一个三角Ti+1作为新的三角Ti’;
iii)比较新三角Ti’的宽度nWidth与三角Tb的宽度nWidth;
iv)如果新三角Ti’的宽度nWidth不大于三角Tb的宽度nWidth,则设置Ti=Ti’并重复步骤ii)至iv)一直到下一个三角Ti的宽度nWidth大于三角Tb的宽度nWidth为止;
判断下述控制条件是否满足:
|Ti.nWidth-Tb.nWidth|>|Ti′.nWidth-Tb.nWidth|
如果控制条件满足,则设置Ts=Ti’;以及
如果控制条件不满足,则设置Ts=Ti。
43.如权利要求42所述的根据波三角变换检测语音的方法,其中三角Tb是预定帧波形信号中任意连续三角的组合。
44.如权利要求28至43任一所述的根据波三角变换检测语音的方法,还包括步骤:
将波形信号检测为模拟信号;以及
将模拟波形信号转换为数字波形信号。
45.如权利要求28至43任一所述的根据波三角变换检测语音的方法,其中所有的步骤都是实时执行的。
46.如权利要求28至43任一所述的根据波三角变换检测语音的方法,还包括步骤:
从记录介质中再现所述波形信号。
47.一种根据波三角变换检测语音的装置,包括:
波三角变换部件,用于将语音的波形信号变换为一组三角;以及
有效话音检测部件,用于根据波三角变换部件变换的三角的规律性检测包含在语音的波形信号中的语音段。
48.如权利要求47所述的根据波三角变换检测语音的装置,其中所述波三角变换部件包括:
顶点检测部件,用于检测波形信号的波形的一组顶点;
顶点合并部件,用于将顶点检测部件所检测到的同一方向上的连续顶点合并为一个新顶点;以及
三角提取部件,用于根据顶点合并部件合并后的一组顶点提取一组三角。
49.如权利要求48所述的根据波三角变换检测语音的装置,还包括:
能量水平确定部件,用于确定当前采样点的能量水平是否大于预定能量滤波或小于负的预定能量滤波。
50.如权利要求49所述的根据波三角变换检测语音的装置,其中所述预定能量滤波为波形信号的背景能量。
51.如权利要求50所述的根据波三角变换检测语音的装置,其中根据下式计算所述背景能量:
其中i和M为整数,以及M大于等于5且小于等于10。
52.如权利要求51所述的根据波三角变换检测语音的装置,其中:
如果当前采样点的能量水平大于预定能量滤波,上一采样点的方向向下并且采样点的累积宽度大于预定值,则保存一个底部顶点;
如果当前采样点的能量水平小于负的预定能量滤波,上一采样点的方向向上并且采样点的累积宽度大于预定值,则保存一个顶部顶点;以及
如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,采样点的累积宽度以及其能量水平在预定能量滤波和负的预定能量滤波之间的采样点的累积可能宽度大于预定值,则保存一个顶部顶点或底部顶点。
53.如权利要求52所述的根据波三角变换检测语音的装置,其中如果当前采样点的能量水平在预定能量滤波和负的预定能量滤波之间,并且采样点的累积采样值大于0,则保存一个顶部顶点,否则保存一个底部顶点。
54.如权利要求52所述的根据波三角变换检测语音的装置,其中所述预定值大于等于3且小于等于5。
55.如权利要求54所述的根据波三角变换检测语音的装置,其中顶点在时间轴上的位置位于用于累积宽度的开始点和结束点之间的中间位置,以及该顶点的高度等于采样点的累积采样值除以采样点数。
56.如权利要求48所述的根据波三角变换检测语音的装置,其中为每一个顶点提取一个三角。
57.如权利要求56所述的根据波三角变换检测语音的装置,其中三角具有平行于时间轴延伸的底边并具有高度。
58.如权利要求57所述的根据波三角变换检测语音的装置,其中三角底边的左端点是时间上为其提取三角的当前顶点最接近的左邻顶点,右端点是时间上当前顶点最接近的右邻顶点,以及三角的高度等于从当前顶点到连接当前顶点的最接近的左邻顶点和右邻顶点的线段的投影线段长度的一半。
59.如权利要求47所述的根据波三角变换检测语音的装置,其中所述有效话音检测部件包括:
三角获取部件,用于从波三角变换部件所变换的预定帧波形信号的三角中提取一个三角Tb作为用于搜索的基本三角;
相似三角搜寻部件,用于在预定帧波形信号的剩余三角中搜寻所有相似三角Ts;
分数计算部件,用于根据下式计算分数
Figure A2005100548360010C1
其中Tb.nWidth为三角Tb的宽度,Ts[i].nWidth为第i个相似三角Ts的宽度;以及
语音信号确定部件,如果所述分数小于预定分数值,则确定所述预定帧波形信号为语音信号。
60.如权利要求59所述的根据波三角变换检测语音的装置,其中预定帧波形信号为5帧。
61.如权利要求59所述的根据波三角变换检测语音的装置,其中相似三角搜寻部件:i)获取下一个三角Ti并比较下一个三角Ti的宽度nWidth与三角Tb的宽度nWidth;ii)如果下一个三角Ti的宽度nWidth比三角Tb的宽度nWidth小,则合并下一个三角Ti与紧随其后的下一个三角Ti+1作为新的三角Ti’;iii)比较新三角Ti’的宽度nWidth与三角Tb的宽度nWidth;iv)如果新三角Ti’的宽度nWidth不大于三角Tb的宽度nWidth,则设置Ti=Ti’并重复部件ii)至iv)一直到下一个三角Ti的宽度nWidth大于三角Tb的宽度nWidth为止;判断下述控制条件是否满足:
|Ti.nWidth-Tb.nWidth|>|Ti′.nWidth-Tb.nWidth|如果控制条件满足,则设置Ts=Ti’;以及如果控制条件不满足,则设置Ts=Ti。
62.如权利要求61所述的根据波三角变换检测语音的装置,其中三角Tb是预定帧波形信号中任意连续三角的组合。
63.如权利要求47至62任一所述的根据波三角变换检测语音的装置,还包括:
检测部件,将波形信号检测为模拟信号;以及
转换部件,将模拟波形信号转换为数字波形信号。
64.如权利要求47至62任一所述的根据波三角变换检测语音的装置,还包括再现部件,用于从记录介质中再现所述波形信号。
65.一种计算机程序,当由计算机执行时能够使计算机执行权利要求1所述的各种动作。
66.一种计算机程序,当由计算机执行时能够使计算机执行权利要求28所述的各种动作。
67.一种记录在至少一种计算机可读介质中的计算机程序产品,包括当计算机使用时,使计算机执行权利要求1所述的方法步骤的功能性描述素材。
68.一种记录在至少一种计算机可读介质中的计算机程序产品,包括当计算机使用时,使计算机执行权利要求28所述的方法步骤的功能性描述素材。
CN2005100548360A 2005-03-17 2005-03-17 根据波三角变换检测语音的方法和装置 Expired - Fee Related CN1835072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2005100548360A CN1835072B (zh) 2005-03-17 2005-03-17 根据波三角变换检测语音的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2005100548360A CN1835072B (zh) 2005-03-17 2005-03-17 根据波三角变换检测语音的方法和装置

Publications (2)

Publication Number Publication Date
CN1835072A true CN1835072A (zh) 2006-09-20
CN1835072B CN1835072B (zh) 2010-04-28

Family

ID=37002787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100548360A Expired - Fee Related CN1835072B (zh) 2005-03-17 2005-03-17 根据波三角变换检测语音的方法和装置

Country Status (1)

Country Link
CN (1) CN1835072B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI462088B (zh) * 2012-12-14 2014-11-21 Hon Hai Prec Ind Co Ltd 音頻資訊檢測系統及方法
CN110085264A (zh) * 2019-04-30 2019-08-02 北京儒博科技有限公司 语音信号检测方法、装置、设备及存储介质
CN115132191A (zh) * 2022-06-30 2022-09-30 济南大学 基于机器学习的抗噪声语音识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
CN1430204A (zh) * 2001-12-31 2003-07-16 佳能株式会社 波形信号分析、基音探测以及句子探测的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI462088B (zh) * 2012-12-14 2014-11-21 Hon Hai Prec Ind Co Ltd 音頻資訊檢測系統及方法
CN110085264A (zh) * 2019-04-30 2019-08-02 北京儒博科技有限公司 语音信号检测方法、装置、设备及存储介质
CN110085264B (zh) * 2019-04-30 2021-10-15 北京如布科技有限公司 语音信号检测方法、装置、设备及存储介质
CN115132191A (zh) * 2022-06-30 2022-09-30 济南大学 基于机器学习的抗噪声语音识别方法及系统
CN115132191B (zh) * 2022-06-30 2024-05-28 济南大学 基于机器学习的抗噪声语音识别方法及系统

Also Published As

Publication number Publication date
CN1835072B (zh) 2010-04-28

Similar Documents

Publication Publication Date Title
CN1160699C (zh) 语音识别系统
CN1159702C (zh) 具有情感的语音-语音翻译系统和方法
CN1196103C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1213382C (zh) 用于从多值图象提取划线的设备
CN1577328A (zh) 基于视觉的文档分割
CN1652205A (zh) 音频信号处理设备和音频信号处理方法
CN1920948A (zh) 语音识别系统及语音处理系统
CN1752897A (zh) 把图形数据输入图形输入区的系统和方法
CN1542735A (zh) 识别有调语言的系统和方法
CN1908965A (zh) 信息处理装置及其方法和程序
CN1495644A (zh) 评估文件的特殊性
CN1599913A (zh) 虹膜识别系统和方法以及具有其程序的存储介质
CN1186287A (zh) 用于字符识别的方法和装置
RU2007149074A (ru) Грамматический разбор визуальных структур документа
CN1910651A (zh) 特定音响信号含有区间检测系统及其方法以及程序
CN101042866A (zh) 语音识别设备及方法,以及记录有计算机程序的记录介质
CN1461463A (zh) 语音合成设备
CN101038581A (zh) 用于评价理解文件的难度的系统和方法
CN101042867A (zh) 语音识别设备和方法
CN1397929A (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1177407A (zh) 基于速度的手写体识别方法和系统
CN1900933A (zh) 图像搜索系统、图像搜索方法和存储介质
CN1892811A (zh) 乐器的调音设备和其中使用的计算机程序
CN1251128C (zh) 文字列匹配装置和文字列匹配方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100428

Termination date: 20170317