CN105070287B

CN105070287B - 一种自适应嘈杂环境下语音端点检测的方法和装置

Info

Publication number: CN105070287B
Application number: CN201510394437.2A
Authority: CN
Inventors: 郑战海
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2019-03-15
Anticipated expiration: 2035-07-03
Also published as: CN105070287A

Abstract

本发明公开了一种自适应嘈杂环境下语音端点检测的方法和装置。该方法，包括：录制多个连续的语音片；语音片中初始的若干语音片采集为样本语音；计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值；根据语音平均能量值和平均能量值的大小关系判断样本语音是否包含目标语音；当样本语音包含目标语音时，样本语音的起点检测为目标语音的起点；当样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；将第二特定语音片的起点检测为目标语音的终点。通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，自适应环境检测语音的端点。

Description

一种自适应嘈杂环境下语音端点检测的方法和装置

技术领域

本发明涉及语音处理领域，尤其涉及一种自适应嘈杂环境下语音端点检测的方法和装置。

背景技术

很多学习机和移动终端都有很多涉及到检测语音端点的应用，因为在嘈杂环境下和安静环境下的差异，经常无法判断准确，不能正确的截取有用的语音信息，有的做法就是让用户用手按住按键或屏幕，说完话就自动放开的形式，来代替自动语音端点的检测。还有一种做法是让用户自己设定当前环境模式为嘈杂环境还是安静环境。但在一些低龄的孩子学习类应用中，就显得对孩子比较约束，不能自然的实现与机器的对话。

发明内容

本发明提供了一种自适应嘈杂环境下语音端点检测的方法和装置，其通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。

为实现上述设计，本发明采用以下技术方案：

一方面采用一种自适应嘈杂环境下语音端点检测的方法，包括：

录制多个连续的语音片；所述语音片中初始的若干语音片采集为样本语音；

计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值；

根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音；

当所述样本语音包含目标语音时，所述样本语音的起点检测为目标语音的起点；

当所述样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值；

将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。

其中，所述根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音，包括：

若所述样本语音中语音片的语音平均能量值与所述平均能量值的差值超出第一阈值，将该语音片从样本语音中排除；

计算样本语音中剩余语音片的有效平均能量值；

若所述有效平均能量值低于能量阈值，判断所述样本语音不包含目标语音；否则判断所述样本语音包含目标语音。

其中，所述录制多个连续的语音片之前，还包括：

预设背景噪音能量值；

所述计算样本语音中剩余语音片的有效平均能量值之后，还包括：

将所述背景噪音能量值更新为所述有效平均能量值。

其中，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

其中，Q1为背景噪音能量值；W1为第一修正值；W2为第二修正值。

其中，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。

另一方面采用一种自适应嘈杂环境下语音端点检测的装置，包括：

语音片录制单元，用于录制多个连续的语音片；所述语音片中初始的若干语音片采集为样本语音；

能量值计算单元，用于计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值；

目标语音判断单元，用于根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音；

第一起点确定单元，用于当所述样本语音包含目标语音时，所述样本语音的起点检测为目标语音的起点；

第二起点确定单元，用于当所述样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值；

终点确定单元，用于将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。

其中，所述目标语音判断单元，包括：

样本清理模块，用于若所述样本语音中语音片的语音平均能量值与所述平均能量值的差值超出第一阈值，将该语音片从样本语音中排除；

能量值计算模块，用于计算样本语音中剩余语音片的有效平均能量值；

目标语音判断模块，用于若所述有效平均能量值低于能量阈值，判断所述样本语音不包含目标语音；否则判断所述样本语音包含目标语音。

其中，还包括：

参数预设单元，用于预设背景噪音能量值；

还包括：

参数更新单元，用于将所述背景噪音能量值更新为所述有效平均能量值。

其中，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

其中，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。

本发明的有益效果为：通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的方法的第一实施例的方法流程图。

图2是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的方法的第二实施例的方法流程图。

图3是本发明具体实施方式中提供的语音片的示意图。

图4是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的装置的第一实施例的结构方框图。

图5是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的装置的第二实施例的结构方框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的方法的第一实施例的方法流程图。如图所示，该方法，包括：

步骤S101：录制多个连续的语音片；所述语音片中初始的若干语音片采集为样本语音。

在本方案中，语音片仅仅是处理语音过程中对音频数据的组织方式，而不是录制的语音分成互相独立的音频文件。录制得到的其实是一个连续的音频文件，只是在判断过程中对数据逐段处理。对应的，样本语音也只是数据处理过程中的一种定义方式，而不是一个独立的音频文件。

步骤S102：计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值。

语音端点的检测基于语音的能量值实现，首先要计算单个语音片的语音平均能量值和所有语音片的平均能量值(每个语音片的语音平均能量值求和后除以语音片的个数)。

步骤S103：根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音。

步骤S104：当所述样本语音包含目标语音时，所述样本语音的起点检测为目标语音的起点。

步骤S105：当所述样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值。

起点溢出值相当于一参考值，当连续多个语音片的语音平均能量值超出起点溢出值时，认为外界的发声开始稳定，确认语音的起点。

步骤S106：将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。

终点溢出值相当于另一参考值，当连续多个语音片的语音平均能量值低于终点溢出值时，认为外界的发声结束，确认语音的终点。

综上所述，通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。

请参考图2，其是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的方法的第二实施例的方法流程图。如图所示，该方法，包括：

步骤S201：预设背景噪音能量值。

背景噪音能量值体现背景环境中声音的能量强度，一般而言室内静音状态下的能量值即可作为背景噪音能量值。

步骤S202：录制多个连续的语音片；所述语音片中初始的若干语音片采集为样本语音。

本实施例中的录制过程通过应用场景下的某一特定事件激发，例如检测到屏幕上的触摸操作或应用场景下互动过程中终端设备的动作完成之后。如图3所示，将连续10个语音片T1-T10采集为样本语音。

步骤S203：计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值。

步骤S204：若所述样本语音中语音片的语音平均能量值与所述平均能量值的差值超出第一阈值，将该语音片从样本语音中排除。

步骤S205：计算样本语音中剩余语音片的有效平均能量值。

有效平均能量值的计算相当于滤除了样本语音片中的干扰，运算结果更加精确。在图3中，T2和T10的语音平均能量值与平均能量值的差值超出第一阈值，此时计算T1、T3-T9共8个语音片的有效平均能量值。

步骤S206：将所述背景噪音能量值更新为所述有效平均能量值。

在不同的应用环境下，背景噪音能量值不同，而有效平均能量值可以作为实际的应用环境下的背景噪音能量值，所以将有效平均能量值替换为背景噪音能量值。

步骤S207：若所述有效平均能量值低于能量阈值，判断所述样本语音不包含目标语音；否则判断所述样本语音包含目标语音。

步骤S208：当所述样本语音包含目标语音时，所述样本语音的起点检测为目标语音的起点。

步骤S209：当所述样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值。

步骤S210：将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。

其中，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

其中，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。

起点溢出值和终点溢出值都是基于背景噪音能量值进行修正后的参考值，具体的修正大小可根据具体情况自行设定，但肯定都比背景噪音能量值大，可是也不会大出一倍。

综上所述，通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。同时，动态修正背景噪音能量值，让背景噪音能量值匹配终端设备所处的真实环境，判断更加精确。

以下为本方案一种自适应嘈杂环境下语音端点检测的装置的实施例，自适应嘈杂环境下语音端点检测的装置的实施例基于自适应嘈杂环境下语音端点检测的方法的实施例实现，在装置的实施例中未尽的描述，请参考方法的实施例。

请参考图4，其是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的装置的第一实施例的结构方框图。如图所示，该装置，包括：

语音片录制单元310，用于录制多个连续的语音片；所述语音片中初始的若干语音片采集为样本语音；

能量值计算单元320，用于计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值；

目标语音判断单元330，用于根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音；

第一起点确定单元340，用于当所述样本语音包含目标语音时，所述样本语音的起点检测为目标语音的起点；

第二起点确定单元350，用于当所述样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值；

终点确定单元360，用于将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。

综上所述，上述各单元的协同工作，通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。

请参考图5，其是本发明具体实施方式中提供的一种自适应嘈杂环境下语音端点检测的装置的第二实施例的结构方框图。如图所示，该装置，包括：

其中，所述目标语音判断单元330，包括：

样本清理模块331，用于若所述样本语音中语音片的语音平均能量值与所述平均能量值的差值超出第一阈值，将该语音片从样本语音中排除；

能量值计算模块332，用于计算样本语音中剩余语音片的有效平均能量值；

目标语音判断模块333，用于若所述有效平均能量值低于能量阈值，判断所述样本语音不包含目标语音；否则判断所述样本语音包含目标语音。

其中，还包括：

参数预设单元300，用于预设背景噪音能量值；

还包括：

参数更新单元370，用于将所述背景噪音能量值更新为所述有效平均能量值。

其中，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

其中，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。

综上所述，上述各单元的协同工作，通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，使之适应嘈杂环境和安静环境下的不同参数检测标准，从而自适应环境检测语音的端点。同时，动态修正背景噪音能量值，让背景噪音能量值匹配终端设备所处的真实环境，判断更加精确。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种自适应嘈杂环境下语音端点检测的方法，其特征在于，包括：

根据所述语音平均能量值和所有语音片的平均能量值的大小关系判断所述样本语音是否包含目标语音；

将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值；

其中，所述根据所述语音平均能量值和所有语音片的平均能量值的大小关系判断所述样本语音是否包含目标语音，包括：

若所述样本语音中语音片的语音平均能量值与所述所有语音片的平均能量值的差值超出第一阈值，将该语音片从样本语音中排除；

计算样本语音中剩余语音片的有效平均能量值；

2.根据权利要求1所述的方法，其特征在于，所述录制多个连续的语音片之前，还包括：

预设背景噪音能量值；

将所述背景噪音能量值更新为所述有效平均能量值。

3.根据权利要求2所述的方法，其特征在于，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

4.根据权利要求3所述的方法，其特征在于，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。

5.一种自适应嘈杂环境下语音端点检测的装置，其特征在于，包括：

目标语音判断单元，用于根据所述语音平均能量值和所有语音片的平均能量值的大小关系判断所述样本语音是否包含目标语音；

终点确定单元，用于将第二特定语音片的起点检测为目标语音的终点；所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值；

其中，所述目标语音判断单元，包括：

样本清理模块，用于若所述样本语音中语音片的语音平均能量值与所述所有语音片的平均能量值的差值超出第一阈值，将该语音片从样本语音中排除；

6.根据权利要求5所述的装置，其特征在于，还包括：

参数预设单元，用于预设背景噪音能量值；

还包括：

7.根据权利要求6所述的装置，其特征在于，所述起点溢出值S1＝Q1+W1；所述终点溢出值S2＝Q1+W2；

8.根据权利要求7所述的装置，其特征在于，W1＝Q1*K1(0＜K1＜1)；W2＝Q1*K2(0＜K2＜1)；

其中，K1为第一修正系数，K2为第二修正系数。