CN103886871B - 语音端点的检测方法和装置 - Google Patents
语音端点的检测方法和装置 Download PDFInfo
- Publication number
- CN103886871B CN103886871B CN201410042094.9A CN201410042094A CN103886871B CN 103886871 B CN103886871 B CN 103886871B CN 201410042094 A CN201410042094 A CN 201410042094A CN 103886871 B CN103886871 B CN 103886871B
- Authority
- CN
- China
- Prior art keywords
- frame
- signal frame
- characteristic value
- signal
- judging characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音端点的检测方法和装置,所述方法包括:对待检测信号进行分帧处理得到信号帧序列;对于每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值;根据所有信号帧的起始点判断特征值设定起始点判决门限后确定语音起始帧;根据语音起始帧之前的噪音帧建立噪音模型,计算语音起始帧之后的每个信号帧与语音起始帧之前的噪音帧的差异度;对于每个语音起始帧之后的信号帧,根据其低频能量、中频能量以及计算获取的差异度,计算终止点判断特征值;根据语音起始帧之后信号帧的终止点判断特征值设定终止点判决门限后确定语音终止帧。使用本发明能提高语音端点检测的准确率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音端点的检测方法和装置。
背景技术
语音端点检测(Voice Activity Detection,VAD),其目的是从包含语音的信号中,分辨出语音信号和非语音信号,并准确地确定语音段的起始点和终止点。语音端点检测技术常用在语音识别系统中,用来排除非语音段对语音识别的干扰,提高识别效率和识别准确率。如果端点检测不准确,比如将非语音段判断为语音段,会造成语音识别系统将一些非语音段作为语音段进行处理,生成错误的识别结果;而另外一种情况,如果将某些语音段判断为非语音段,则会造成识别出的文字遗漏。
现有的语音端点检测方法中,首先将要检测的信号进行分帧处理,比如每30ms作为一帧,从而得到帧序列;然后对每帧信号提取特征值,该特征值可以是短时能量、即该帧信号的波形幅值大小,也可以是短时过零率、即该帧信号的波形穿过零电平的次数;根据该特征值计算出一个阈值,将每一帧的特征值与阈值进行比较,将其特征值超过阈值的帧标定为语音帧,而其特征值低于阈值的帧标定为非语音帧;根据所有帧的标定状态确定语音端点,例如,将帧序列中第一个标记为语音帧的信号帧确定为语音起始帧,最后一个标记为语音帧的信号帧确定为语音终止帧。
但是现有技术中,以短时能量或者短时过零率为特征值并设置阈值的方式,存在语音端点检测精确率低的问题。
发明内容
本发明的实施例提供的语音端点的检测方法和装置,能够解决现有技术中语音端点检测精确率低的问题。
第一方面,本发明实施例提供了语音端点的检测装置,所述装置包括:分帧单元,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;计算单元,用于对所述分帧单元得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;确定单元,用于根据计算单元计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;噪音模型建立单元,用于根据所述信号帧序列中在所述确定单元确定的所述语音起始帧之前的所有噪音帧建立噪音模型;所述计算单元,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;所述计算单元,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算单元计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量中的较大值成正比;所述确定单元,还用于根据所述计算单元计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
在第一方面的第一种可能的实现方式中,所述确定单元包括:第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;第一确定模块,用于在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;所述第一确定模块,还用于在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;所述第一计算模块,还用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限;所述第一确定模块,还用于在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
结合第一方面或第一方面的第一可能的实现方式,在第二种可能的实现方式中,所述噪音模型建立单元包括:获取模块,用于获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;构造模块,用于构造噪音模型描述函数;计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定单元包括:第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;第二确定模块,用于在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;所述第二确定模块,还用于在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;所述第二计算模块,还用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限;所述第二确定模块,还用于在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
第二方面,本发明实施例提供了语音端点的检测方法,所述方法包括:对接收到的待检测信号进行分帧处理,得到信号帧序列;对于所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,并根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比;根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
在第二方面的第一种可能的实现方式中,所述根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧具体为:根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限;在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
结合第二方面或第二方面的第一可能的实现方式,在第二种可能的实现方式中,所述根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型具体为:获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;构造噪音模型描述函数;利用所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧具体为:根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限;在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
由上述本发明的实施例提供的技术方案可以看出,本方案对接收到的待检测信号进行分帧处理得到信号帧序列;对于信号帧序列中每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值;根据信号帧序列中所有信号帧的起始点判断特征值设定起始点判决门限后确定语音起始帧;根据所述信号帧序列中在所述语音起始帧之前的噪音帧建立噪音模型后,计算在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;对于语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算获取的差异度,计算终止点判断特征值;根据语音起始帧之后的信号帧的终止点判断特征值设定终止点判决门限后确定语音终止帧。
使用本方案,通过语音起始帧的能量分布特性来确定语音起始帧,并且通过语音起始帧之前的噪音作为先验知识建立噪音模型,使得一段话结束部分的语音和噪音的特征得到明显区分,再结合语音终止帧的能量分布特性来确定语音终止帧,从而提高语音端点检测的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音端点的检测装置结构图;
图2为本发明另一实施例提供的语音端点的检测装置结构图;
图3为本发明再一个实施例提供的语音端点的检测装置结构图;
图4为本发明又一个实施例提供的语音端点的检测装置结构图;
图5为本发明实施例提供的语音端点的检测方法流程图;
图6为本发明另一实施例提供的语音端点的检测方法流程图;
图7为本发明实施例提供的基于计算机系统的语音端点检测装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,采用的特征值为短时能量或短时过零率,但是对于能量大的噪音和能量小的语音,经常具有相同的特征值,从而导致误判;而且,现有技术采用前后统一的阈值设定方式,但是对于一段话的结束部分,其特征值往往低于开始部分的特征值,假如阈值设高了会导致结束端点的判断很不精确,而阈值设低了会导致起始端点的判断很不精确,因此,现有技术存在语音端点检测精确率低的问题。本发明利用了语音初始位置以及终止位置具有不同的能量分布特性,分别构造起始点判决门限以及终止点判决门限作为端点检测的依据,并且在识别出语音初始帧后,利用语音初始帧之前的噪音作为先验知识对信号进行匹配,使得结束部分的语音和噪音的特征能得到明显区分,从而提高了语音端点检测的精确率。
本发明一个实施例提供了语音端点的检测装置,请参照图1,该装置100包括:
分帧单元101,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;
计算单元102,用于对分帧单元101得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;
确定单元103,用于根据计算单元102计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;
噪音模型建立单元104,用于根据所述信号帧序列中在确定单元103确定的所述语音起始帧之前的所有噪音帧建立噪音模型;
所述计算单元102,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;
所述计算单元102,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的最大值成正比;
所述确定单元103,还用于根据计算单元102计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
可选的,请参照图2,确定单元103,可以包括:
第一计算模块1031,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;
第一确定模块1032,用于在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;
所述第一确定模块1032,还用于在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;
所述第一计算模块1031,还用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限;
所述第一确定模块1032,还用于在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
可选的,所述第一计算模块1031,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值具体包括:所述第一计算模块1031,用于根据公式计算陡峭上升沿判断阈值,其中,ai为所述信号帧序列中第i个信号帧的起始点判断特征值,ai+1为所述信号帧序列中第i+1个信号帧的起始点判断特征值,n为所述信号帧序列包含的信号帧的个数,β为预设定的放大系数。
可选的,所述第一计算模块1031,用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限具体包括:所述第一计算模块1031,用于计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,根据公式c×st计算起始点判决门限,其中,c为预设定的放大系数。
可选的,请参照图3,噪音模型建立单元104,可以包括:
获取模块1041,用于获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;
构造模块1042,用于构造噪音模型描述函数;
计算模块1043,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
可选的,所述构造模块1042,用于构造噪音模型描述函数具体包括:所述构造模块,用于构造噪音模型描述函数其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差;所述计算模块1043,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数具体包括:所述计算模块,用于根据公式 计算常量参数和其中,aj为第j个头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。
可选的,请参照图4,确定单元103可以包括:
第二计算模块1033,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;
第二确定模块1034,用于在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;
所述第二确定模块1034,还用于在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;
所述第二计算模块1033,还用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限;
所述第二确定模块1034,还用于在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
可选的,所述第二计算模块1033,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值具体包括:所述第二计算模块,用于获得所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。
可选的,所述第二计算模块1033,用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限具体包括:所述第二计算模块,用于在计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值et后,根据公式b×et计算起始点判决门限,其中,b为预设定的放大系数。
本发明一个实施例提供了语音端点的检测方法,请参照图5,该方法包括:
步骤501:对接收到的待检测信号进行分帧处理,得到信号帧序列。
步骤502:对于所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比。
步骤503:根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧。
该步骤具体包括:根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限;在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
所述陡峭上升沿判断阈值的计算公式可以为其中,ai为所述信号帧序列中第i个信号帧的起始点判断特征值,ai+1为所述信号帧序列中第i+1个信号帧的起始点判断特征值,n为所述信号帧序列包含的信号帧的个数,β为预设定的放大系数。
所述根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限可以为:计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,设定起始点判决门限为c×st,其中,c为预设定的放大系数。
步骤504:根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,并根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度。
其中,根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型具体包括:获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;构造噪音模型描述函数;利用所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
例如,所述噪音模型描述函数可以为其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差;例如,所述噪音模型描述函数的参数的计算公式可以为: 其中,aj为第j个头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。
步骤505:对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比。
步骤506:根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
该步骤具体包括:根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限;在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
其中,所述根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值可以为:获得所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。
其中,所述根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限可以为:计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值et后,设定起始点判决门限为b×et,其中,b为预设定的放大系数。
在该实施例中,通过利用初始语音和结束语音的能量分布特性来计算特征值,并利用识别出的噪音作为先验知识进行匹配,从而提高语音端点检测的准确率。
本发明另一个实施例提供了语音端点的检测方法流程图,请参照图6,详细流程描述如下:
步骤601:接收到包含噪音和语音的待检测信号。
步骤602:对所述待检测信号进行分帧处理,以获得信号帧序列,具体的分帧处理过程包括:
步骤6021:对所述待检测信号预加重。
具体的,所述预加重可以是将待检测信号通过一个高通滤波器,例如:H(z)=1-a×z-1,0.9<a<1,预加重的目的就是为了消除声带和嘴唇的效应,以补偿语音信号的高频部分。该步骤为可选步骤,即步骤601直接进入步骤6022或者对待检测信号预加重后再进入步骤6022。
步骤6022:将所述待检测信号分成信号帧序列。
具体的,将所述待检测信号划分成相同长度的多个信号帧,这多个信号帧组成信号帧序列,其中,相邻信号帧之间有重叠。例如,每帧的长度为20~30ms,划分一帧后,向后移动半帧后划分下一帧。
步骤6023:对所述信号帧序列中每一个信号帧加窗。
例如,用汉明窗对每一个信号帧加窗,从而消除因为步骤6022的分帧操作对信号帧两端可能造成的信号不连续性。
该步骤为可选步骤,即步骤6022后可以直接进入步骤603或者步骤6023后才进入步骤603。
步骤603:对于所述信号帧序列中的每一个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;信号帧序列中所有信号帧的起始点判断特征值构成起始点判断特征值序列,所述起始点判断特征值序列用于确定语音起始帧。该步骤具体包括:
步骤6031:通过快速傅氏变换(Fast Fourier Transformation,FFT)运算,得到信号帧序列中每一个信号帧的频谱。
步骤6032:针对信号帧序列中每个信号帧,根据其频谱,计算该信号帧的全频能量E1、低频能量E2、中频能量E3。
例如,E1、E2、E3的计算公式分别如下:
其中,fs为信号帧的采样率,Fk为频率值k对应点的幅值。
步骤6033:根据所述E1、E2、E3计算所述信号帧序列中每一个信号帧的起始点判断特征值X,所述起始点判断特征值X与E2和E3的比值成正比、与E1成正比。
例如,起始点判断特征值的计算公式可以是或者
通常的,语音起始以浊辅音开头,而浊辅音的特点是低频能量高于中频能量,且语音的全频能量通常要大于噪音,以上公式既考虑了语音的普遍特性,也考虑了语音起始帧的频谱能量分布特性,因此通过该公式计算的起始点判断特征值能更好的将语音起始帧从噪音中区分出来。
步骤604:根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧。该步骤具体包括:
步骤6041:去除所述起始点判断特征值序列中的异常值,所述异常值为超过指定阈值的起始点判断特征值,或者和前后帧相比超过指定阈值的起始点判断特征值。
该步骤为可选步骤,具体的可以采用现有的去除冲激噪音技术以及平滑技术来去除异常值,用于去除冲激噪音以及突变点造成的结果误判。
步骤6042:根据所述起始点判断特征值序列计算陡峭上升沿判断阈值。
其中,计算陡峭上升沿判断阈值的公式为:其中,ai为信号帧序列中第i个信号帧的起始点判断特征值,ai+1为信号帧序列中第i+1个信号帧的起始点判断特征值,n为信号帧序列包含信号帧的个数,β为预设定的放大系数,例如β的值为2。
其中,通过所述公式计算陡峭上升沿判断阈值的步骤可以为:根据所述起始点判断特征值序列,从信号帧序列中第二个信号帧的起始点判断特征值开始,对于信号帧序列中每一个信号帧的起始点判断特征值,计算和前一个信号帧的起始点判断特征值的差值,所述差值记录为与所述信号帧对应的差分,这些差值组成了起始点判断特征值差分序列;根据所述起始点判断特征值差分序列,计算所有起始点判断特征值差分的绝对值均值该绝对值均值乘放大系数β,从而得到陡峭上升沿判断阈值。
步骤6043:在信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧。
其中,所述确定第一个陡峭上升帧的方法可以为:从信号帧序列的第一个信号帧开始向后遍历,当第一次找到一个信号帧,其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述陡峭上升沿判断阈值,则记录所述信号帧为第一个陡峭上升帧。
由于语音起始帧的能量往往要远高于其周边噪音帧的能量,因此语音起始帧的起始点判断特征值往往要远高于其周边噪音帧的起始点判断特征值,通过确定第一个陡峭上升帧可以确定出语音起始帧的粗略范围,通常语音起始帧在所述第一个陡峭上升帧之前或者就是所述第一陡峭上升帧。
步骤6044:在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧。
其中,所述确定第一坡底帧的方法可以为:从所述第一个陡峭上升帧开始向前遍历所述信号帧的序列,确定距离所述第一个陡峭上升帧最近的第一坡底帧,所述第一坡底帧的起始点判断特征值小于其前一帧和后一帧的起始点判断特征值。
由于噪音帧的能量往往小于语音帧的能量且围绕一个比较小的能量值上下波动,因此噪音帧的起始点判断特征值要小于语音帧的起始点判断特征值且围绕一个比较小的值上下波动,在本步骤中找到的第一坡底帧一定是噪音帧。通过该步骤,可以确定出头部噪音帧、即语音起始帧之前噪音帧的粗略范围。
步骤6045:根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限。
其中,所述设定起始点判决门限的方法可以为:计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,设定起始点判决门限为c×st,其中,c为预设定的放大系数。
其中,计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值可以是计算信号帧序列中在所述第一坡底帧之前所有信号帧的起始点判断特征值的平均值,或者计算信号帧序列中在所述第一坡底帧之前指定数目信号帧的起始点判断特征值的平均值,例如,指定数目为100帧。
其中,放大系数c是一个经验值,例如,c是1~10之间整数,且c×st不大于第一个陡峭上升帧的起始点判断特征值。
步骤6046:在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
通过以上步骤,首先根据语音起始帧的特点确定出语音起始帧为第一个陡峭上升帧或者在第一个陡峭上升帧之前,再根据噪音帧的特点确定出第一坡底帧之前为噪音帧,从而确定出语音起始帧的粗略范围(从第一坡底帧到第一个陡峭上升帧之间)以及头部噪音帧的粗略范围(第一坡底帧之前),再结合头部噪音帧的幅值特性,从而能更精确的确定语音起始帧。
步骤605:根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,具体的建立噪音模型过程包括:
步骤6051:获取所述信号帧序列中在所述语音起始帧之前的所有噪音帧、即头部噪音帧的倒谱特征系数值。
其中,所述倒谱特征系数可以是梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)、线性预测倒谱系数(linear prediction cepstrum coefficient,LPCC)或者感知线性预测系数(Perceptual Linear Predictive,PHP),优选的采用MFCC。
步骤6052:构造噪音模型描述函数。
所述构造噪音模型描述函数具体为:利用噪音样本点的概率密度分布函数构造噪音模型描述函数其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差。
步骤6053:利用所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
该步骤具体为,计算常量参数和其中, aj为第j个所述头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。
该步骤利用头部噪音帧作为先验知识,建立噪音模型,这样本步骤信号经过噪音模型的匹配过滤后,噪音帧输出的差异度小,而语音帧输出的差异度大,从而可以作为语音帧和噪音帧的区分依据。
步骤606:对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据噪音模型计算该信号帧与所述语音起始帧之前的噪音帧的差异度,然后根据该信号帧的低频能量、中频能量以及所述差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比;所述信号帧序列中在语音起始帧之后所有信号帧的终止点判断特征值构成终止点判断特征值序列,所述终止点判断特征值序列用于确定语音终止帧。
其中,对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据噪音模型计算该信号帧与所述语音起始帧之前的噪音帧的差异度具体为:对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,将所述信号帧的倒谱特征系数值作为噪音模型描述函数的输入参数,输出值为该信号帧与所述语音起始帧之前的噪音帧的差异度。
其中,所述计算终止点判断特征值Y的公式可以是Y=px(i)*MAX(E2,E3),其中px(i)为所述信号帧与所述语音起始帧之前的噪音帧的差异度,E2为所述信号帧的低频能量、E3为所述信号帧的中频能量。
通常的,语音的结束部分是元音或者是浊辅音,元音的特点是中频和低频能量占比高,且中频和低频占比接近,而浊辅音的特点也是中、低频能量占比高,且低频能量高于中频能量,相对的噪音一般具有高频占比高的特点。以上公式既采用了已知的噪音作为先验知识,又考虑了语音终止帧的频谱能量分布特性,因此通过该公式计算的终止点判断特征值能更好的将语音终止帧从噪音中区分出来。
步骤607:根据所述终止点判断特征值序列设定终止点判决门限,并根据所述终止点判断特征值序列以及所述终止点判决门限确定语音终止帧,该步骤具体包括:
步骤6071:去除所述终止点判断特征值序列中的异常值,所述异常值为超过指定阈值的终止点判断特征值,或者和前后帧相比超过指定阈值的终止点判断特征值。
该步骤为可选步骤,具体的可以采用现有的去除冲激噪音技术以及平滑技术来去除异常值,用于去除冲激噪音以及突变点造成的结果误判。
步骤6072:根据所述终止点判断特征值序列计算语音终止帧判断阈值。
该步骤具体为:根据所述终止点判断特征值序列获得所有终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。例如,k是0.3~0.5之间的值。
步骤6073:在信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧。
其中,所述确定备选语音终止帧的方法具体为:从信号帧序列的最后一个信号帧开始向前遍历,当找到一个信号帧,其对应的终止点判断特征值大于所述语音终止帧判断阈值后,记录所述信号帧的帧号。
因为说话的拖尾效应,语音尾部的能量是缓缓下降且稍微高于其后面的噪音能量,因此语音尾部信号帧的终止点判断特征值是逐渐下降,且稍微高于其后面噪音帧的终止点判断特征值。以上步骤中计算出终止点判断特征值序列中所有终止点判断特征值的平均值后,根据所述平均值设定语音终止帧判断阈值,通过确定其终止点判断特征值高于该语音终止帧判断阈值的备选语音终止帧可以确定出语音终止帧的粗略范围,即语音终止帧为所述备选语音终止帧或者在所述备选语音终止帧之后。
可选的,在所述信号帧序列中找到一个信号帧,其对应的终止点判断特征值大于所述语音终止帧判断阈值后,进一步的确定该信号帧之前连续指定数目信号帧的终止点判断特征值也大于所述语音终止帧判断阈值,才记录所述信号帧的帧号,否则继续向前遍历直到找到满足以上条件的信号帧。因为某些噪音帧的终止点判断特征值比较大,可能造成误判,但是这种噪音帧往往不会连续出现多帧,因此通过该操作可以减少某些噪音的终止点判断特征值大导致的误判。
步骤6074:在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧。
其中,所述确定第二坡底帧的方法可以为:从所述备选语音终止帧开始向后遍历所述信号帧序列,确定距离所述备选语音终止帧最近的第二坡底帧,所述第二坡底帧的终止点判断特征值小于其前一帧和后一帧的终止点判断特征值。
因为噪音帧的能量往往小于语音帧的能量且围绕一个比较小的能量值上下波动,因此噪音帧的终止点判断特征值要小于语音帧的终止点判断特征值且围绕一个比较小的值上下波动,在本步骤中找到的第二坡底帧一定是噪音帧。通过该步骤,确定出尾部噪音帧、即所述第二坡底帧之后的信号帧的粗略范围。
步骤6075:根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限。
其中,所述设定终止点判决门限的方法可以为:计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值et后,设定终止点判决门限为b×et,其中,b为预设定的放大系数。
其中,计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值可以是计算所述信号帧序列中在所述第二坡底帧之后所有信号帧的终止点判断特征值的平均值,或者计算所述信号帧序列中在所述第二坡底帧之后指定数目信号帧的终止点判断特征值的平均值,例如,指定数目为100帧。
其中,放大系数b是一个经验值,例如,b是1~10之间整数,且b×et不大于所述备选语音终止帧的终止点判断特征值。
步骤6076:在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
通过以上步骤,首先根据语音终止帧的特点确定出语音终止帧为备选语音终止帧或者在备选语音终止帧之后,再根据噪音帧的特点确定第二坡底帧之后为噪音帧,从而确定出语音终止帧的粗略范围(在备选语音终止帧和第二坡底帧之间)以及尾部噪音帧的粗略范围(第二坡底帧之后),再结合尾部噪音帧的幅值特性,从而能更精确的确定语音终止帧。
步骤608:输出检测的语音端点结果。
在该实施例中,通过语音起始帧的能量分布特性来确定语音起始帧,并且通过语音起始帧之前的噪音作为先验知识建立噪音模型,使得一段话结束部分的语音和噪音的特征得到明显区分,再结合语音终止帧的能量分布特性来确定语音终止帧,从而提高了语音端点的检测精确率。
本发明实施例中的语音端点检测装置可以基于计算机系统来实现,图5、图6所示的方法均可在基于计算机系统的检测装置来实现。图7示出了基于计算机系统来实现的语音端点检测装置的实施例。本实施例中语音端点检测装置可以包括:处理器701、存储器702和通信接口703,其中:
通信接口403,用于与语音接收装置通信。语音端点检测装置与语音接收装置之间交互的消息均通过通信接口703发送和接收。具体地,通信接口703用于接收语音接收装置采集的包含噪音和语音的声音信号;存储器702用于存储程序指令;处理器701用于通信接口703从语音接收装置接收到声音信号之后,调用存储器702中存储的程序指令,执行以下操作:对接收到的待检测信号进行分帧处理,得到信号帧序列;对于所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,并根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比;根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
其中,处理器701可以是中央处理器(central processing unit,CPU)、专用集成电路(application-specific integrated circuit,ASIC)等。其中,本实施例中的HostingCSE可以包括总线704。处理器701、存储器702以及通信接口703之间可通过总线704连接并通信。其中,存储器702可以包括:随机存取存储器(random access memory,RAM),只读存储器(read-only memory,ROM),磁盘等具有存储功能的实体。
处理器701还可以用于执行方法实施例中图5、图6描述的语音端点检测装置的各步骤,本发明实施例在此不再详述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (18)
1.一种语音端点的检测装置,其特征在于,所述装置包括:
分帧单元,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;
计算单元,用于对所述分帧单元得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;
确定单元,用于根据计算单元计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;
噪音模型建立单元,用于根据所述信号帧序列中在所述确定单元确定的所述语音起始帧之前的所有噪音帧建立噪音模型;
所述计算单元,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;
所述计算单元,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算单元计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量中的较大值成正比;
所述确定单元,还用于根据所述计算单元计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
2.根据权利要求1所述的装置,其特征在于,所述确定单元包括:
第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;
第一确定模块,用于在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;
所述第一确定模块,还用于在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;
所述第一计算模块,还用于根据所述信号帧序列中在所述第一坡底帧之前的信号帧的起始点判断特征值计算起始点判决门限;
所述第一确定模块,还用于在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
3.根据权利要求2所述的装置,其特征在于,所述第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值具体包括:
所述第一计算模块,用于根据公式计算陡峭上升沿判断阈值,其中,ai为所述信号帧序列中第i个信号帧的起始点判断特征值,ai+1为所述信号帧序列中第i+1个信号帧的起始点判断特征值,n为所述信号帧序列包含的信号帧的个数,β为预设定的放大系数。
4.根据权利要求2所述的装置,其特征在于,所述第一计算模块,用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限具体包括:
所述第一计算模块,用于计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,根据公式c×st计算起始点判决门限,其中,c为预设定的放大系数。
5.根据权利要求1-4任一所述的装置,其特征在于,所述噪音模型建立单元包括:
获取模块,用于获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;
构造模块,用于构造噪音模型描述函数;
计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
6.根据权利要求5所述的装置,其特征在于,所述构造模块,用于构造噪音模型描述函数具体包括:
所述构造模块,用于构造噪音模型描述函数其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差;
所述计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数具体包括:
所述计算模块,用于根据公式计算常量参数和其中,aj为第j个头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。
7.根据权利要求1所述的装置,其特征在于,所述确定单元包括:
第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;
第二确定模块,用于在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;
所述第二确定模块,还用于在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;
所述第二计算模块,还用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限;
所述第二确定模块,还用于在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
8.根据权利要求7所述的装置,其特征在于,所述第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值具体包括:所述第二计算模块,用于获得所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。
9.根据权利要求7所述的装置,其特征在于,所述第二计算模块,用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限具体包括:所述第二计算模块,用于在计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值et后,根据公式b×et计算起始点判决门限,其中,b为预设定的放大系数。
10.一种语音端点的检测方法,其特征在于,所述方法包括:
对接收到的待检测信号进行分帧处理,得到信号帧序列;
对于所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;
根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;
根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,并根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;
对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比;
根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。
11.根据权利要求10所述的方法,其特征在于,所述根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧具体为:
根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;
在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;
在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;
根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限;
在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。
12.根据权利要求11所述的方法,其特征在于,所述陡峭上升沿判断阈值的计算公式为其中,ai为所述信号帧序列中第i个信号帧的起始点判断特征值,ai+1为所述信号帧序列中第i+1个信号帧的起始点判断特征值,n为所述信号帧序列包含的信号帧的个数,β为预设定的放大系数。
13.根据权利要求11所述的方法,其特征在于,所述根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值设定起始点判决门限具体为:计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,设定起始点判决门限为c×st,其中,c为预设定的放大系数。
14.根据权利要求10-13任一所述的方法,其特征在于,所述根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型具体为:
获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;
构造噪音模型描述函数;
利用所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。
15.根据权利要求14所述的方法,其特征在于:
所述噪音模型描述函数具体为其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差;
所述噪音模型描述函数的参数的计算公式具体为: 其中,aj为第j个头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。
16.根据权利要求10所述的方法,其特征在于,所述根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧具体为:
根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;
在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;
在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;
根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限;
在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。
17.根据权利要求16所述的方法,其特征在于,所述根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值具体为:获得所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。
18.根据权利要求16所述的方法,其特征在于,所述根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值设定终止点判决门限具体为:计算所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值的平均值et后,设定起始点判决门限为b×et,其中,b为预设定的放大系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042094.9A CN103886871B (zh) | 2014-01-28 | 2014-01-28 | 语音端点的检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042094.9A CN103886871B (zh) | 2014-01-28 | 2014-01-28 | 语音端点的检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886871A CN103886871A (zh) | 2014-06-25 |
CN103886871B true CN103886871B (zh) | 2017-01-25 |
Family
ID=50955729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410042094.9A Expired - Fee Related CN103886871B (zh) | 2014-01-28 | 2014-01-28 | 语音端点的检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886871B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
CN107359959B (zh) * | 2016-05-09 | 2019-12-24 | 上海复旦微电子集团股份有限公司 | 数据帧的起始位置检测方法及接收机 |
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN107045870B (zh) * | 2017-05-23 | 2020-06-26 | 南京理工大学 | 一种基于特征值编码的语音信号端点检测方法 |
CN107331387A (zh) * | 2017-06-29 | 2017-11-07 | 上海青声网络科技有限公司 | 一种汉字语音片段的确定方法及装置 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN107452399B (zh) * | 2017-09-18 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取方法及装置 |
CN107527630B (zh) * | 2017-09-22 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN108877778B (zh) | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN108986844B (zh) * | 2018-08-06 | 2020-08-28 | 东北大学 | 一种基于说话人语音特征的语音端点检测方法 |
CN109087632B (zh) * | 2018-08-17 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110875059B (zh) * | 2018-08-31 | 2022-08-05 | 深圳市优必选科技有限公司 | 收音结束的判断方法、装置以及储存装置 |
CN109243498B (zh) * | 2018-11-20 | 2023-03-14 | 南京莱斯信息技术股份有限公司 | 一种基于fft语音信号的端点检测系统及检测方法 |
CN109616098B (zh) * | 2019-02-15 | 2022-04-01 | 嘉楠明芯(北京)科技有限公司 | 基于频域能量的语音端点检测方法和装置 |
CN110085214B (zh) * | 2019-02-28 | 2021-07-20 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN112863496B (zh) * | 2019-11-27 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 一种语音端点检测方法以及装置 |
CN111627453B (zh) * | 2020-05-13 | 2024-02-09 | 广州国音智能科技有限公司 | 公安语音信息管理方法、装置、设备及计算机存储介质 |
CN112820292B (zh) * | 2020-12-29 | 2023-07-18 | 平安银行股份有限公司 | 生成会议纪要的方法、装置、电子装置及存储介质 |
CN113365135B (zh) * | 2021-06-03 | 2022-12-06 | 网易(杭州)网络有限公司 | 虚拟奖励的显示的方法、装置和电子设备 |
CN113314153B (zh) * | 2021-06-22 | 2023-09-01 | 北京华捷艾米科技有限公司 | 语音端点检测的方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
CN1912992A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 一种基于谐波特征的浊音检测方法 |
EP2113908A1 (en) * | 2008-04-30 | 2009-11-04 | QNX Software Systems (Wavemakers), Inc. | Robust downlink speech and noise detector |
CN101841587A (zh) * | 2009-03-20 | 2010-09-22 | 联芯科技有限公司 | 信号音检测方法和装置以及移动终端噪声抑制方法 |
-
2014
- 2014-01-28 CN CN201410042094.9A patent/CN103886871B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
CN1912992A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 一种基于谐波特征的浊音检测方法 |
EP2113908A1 (en) * | 2008-04-30 | 2009-11-04 | QNX Software Systems (Wavemakers), Inc. | Robust downlink speech and noise detector |
CN101841587A (zh) * | 2009-03-20 | 2010-09-22 | 联芯科技有限公司 | 信号音检测方法和装置以及移动终端噪声抑制方法 |
Non-Patent Citations (2)
Title |
---|
"robust voice activity detection using long-term signal variability";Prasanta Kumar Ghosh等;《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》;20100614;第19卷(第3期);全文 * |
"小型语音身份验证系统的研究及DSP实现";戢琴;《中国优秀硕士学位论文全文数据库信息科技辑》;20120512(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103886871A (zh) | 2014-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103886871B (zh) | 语音端点的检测方法和装置 | |
CN105118502B (zh) | 语音识别系统的端点检测方法及系统 | |
CN105529028B (zh) | 语音解析方法和装置 | |
Li et al. | Robust endpoint detection and energy normalization for real-time speech and speaker recognition | |
CN109545188A (zh) | 一种实时语音端点检测方法及装置 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
US20200160839A1 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
US6721699B2 (en) | Method and system of Chinese speech pitch extraction | |
CN106601230B (zh) | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN101308653A (zh) | 一种应用于语音识别系统的端点检测方法 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN104103280B (zh) | 基于动态时间归整算法的离线语音端点检测的方法和装置 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN1342968A (zh) | 用于语音识别的高精度高分辨率基频提取方法 | |
Jiao et al. | Convex weighting criteria for speaking rate estimation | |
CN106531159A (zh) | 一种基于设备本底噪声频谱特征的手机来源识别方法 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN103366735A (zh) | 语音数据的映射方法和装置 | |
CN103021421A (zh) | 用于枪声的多级筛选检测识别方法 | |
US9899039B2 (en) | Method for determining alcohol consumption, and recording medium and terminal for carrying out same | |
CN109377982A (zh) | 一种有效语音获取方法 | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170125 Termination date: 20220128 |
|
CF01 | Termination of patent right due to non-payment of annual fee |