CN105609118A

CN105609118A - 语音检测方法及装置

Info

Publication number: CN105609118A
Application number: CN201511020926.8A
Authority: CN
Inventors: 邓省明; 吴辉; 沈锦祥
Original assignee: Shengdi Wisdom Technology Co Ltd
Current assignee: Shengdi Wisdom Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-05-25
Anticipated expiration: 2035-12-30
Also published as: CN105609118B; WO2017114166A1; US20180174602A1

Abstract

本发明提供一种语音检测方法及装置，根据预设的判断条件进行语音采集和语音提取，即可以通过软件算法判定是否有语音数据输入触发，当检测到语音数据输入出触发后，再通过软件算法判定语音输入的结束。该方法以软件的形式替代了传统硬件DSP芯片实现语音检测，在没有降低检测性能的同时可以有效降低硬件成本，系统功耗也会有一定程度的下降。

Description

语音检测方法及装置

技术领域

本发明涉及语音检测技术，尤其涉及一种语音检测方法及装置。

背景技术

随着智能家居技术的不断发展，语音控制越来越多地应用于人们的居家生活中，例如，通过语音控制家用电器。精确的语音检测是实现有效的语音控制的重要前提。

目前，普遍通过数字信号处理(DigitalSignalProcessing，简称DSP)芯片等硬件检测方式实现语音检测，这种硬件检测方式的实现成本较大，而且整个控制系统的系统功耗也比较大。

发明内容

本发明实施例提供一种语音检测方法及装置，通过软件的形式替代了传统硬件DSP芯片实现语音检测，在没有降低检测性能的同时可以有效降低硬件成本，系统功耗也会有一定程度的下降。

本发明实施例提供的语音检测方法，包括：

根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录触发模式运行参考时间T₁，并将非触发模式运行参考时间T₂置零，其中第一预设条件是根据T₂和非触发模式下的第二PCM数据设定的；

在触发模式下进行语音采集，获取第一脉冲编码调制PCM数据；

根据第二预设条件提取T₁内的第一PCM数据，其中第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的；

将T₁内的第一PCM数据与语音模型匹配，获取语音数据。

在本发明的一实施例中，上述根据第一预设条件判定语音采集系统由非触发模式进入触发模式之前，还包括：从零开始记录T₂，在非触发模式下进行语音采集，获取第二PCM数据。

在本发明的一实施例中，上述获取第一脉冲编码调制PCM数据之后，还包括：对第一PCM数据进行傅里叶变换，得到所述第一PCM数据的分贝值；上述获取第二PCM数据之后，还包括：对第二PCM数据进行傅里叶变换，得到所述第二PCM数据的分贝值。

在本发明的一实施例中，上述根据第一预设条件判定语音采集系统由非触发模式进入触发模式，具体包括：当T₂≥第一阈值，且最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值大于或等于第一预设值时，判定语音采集系统由非触发模式进入触发模式。

在本发明的一实施例中，上述第一阈值为最小语音突变检测时间。

在本发明的一实施例中，上述根据第二预设条件提取T₁内的第一PCM数据，具体包括：当第二阈值≤T₁＜第三阈值，且预设时间内的第一PCM数据的平均分贝值与第二PCM数据的平均分贝值之间的差值小于第二预设值时，提取T₁内的第一PCM数据。

在本发明的一实施例中，上述语音检测方法还包括：当T₁≥第三阈值时，或者根据第二预设条件提取T₁内的第一PCM数据之后，判定语音采集系统由触发模式进入非触发模式，从零开始记录T₂，并将T₁置零。

在本发明的一实施例中，上述第二阈值为有效语音输入起始分析时间，上述第三阈值为有效语音输入分析超时时间。

本发明实施例提供的语音检测装置，包括：

模式判定模块，用于根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录所述触发模式运行参考时间T₁，并将所述非触发模式运行参考时间T₂置零，其中第一预设条件是根据T₂和非触发模式下的第二PCM数据设定的；

语音采集模块，用于在触发模式下进行语音采集，获取第一脉冲编码调制PCM数据；

数据提取模块，用于根据第二预设条件提取T₁内的第一PCM数据，其中第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的；

数据匹配模块，用于将T₁内的第一PCM数据与语音模型匹配，获取语音数据。

本发明实施例提供的语音检测方法及装置，根据预设的判断条件进行语音采集和语音提取，即可以通过软件算法判定是否有语音数据输入触发，当检测到语音数据输入出触发后，再通过软件算法判定语音输入的结束。该方法以软件的形式替代了传统硬件DSP芯片实现语音检测，在没有降低检测性能的同时可以有效降低硬件成本，系统功耗也会有一定程度的下降。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音检测方法的流程图；

图2为本发明实施例提供的一种示例性的语音检测方法的流程图；

图3为本发明实施例提供的一种语音检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的下述实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在没有特别说明的情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

本发明实施例提供的语音检测方法具体可以通过语音检测装置来实现，该装置可以集成在控制终端中，该装置可以通过软件方式来实现，控制终端具体可以是智能手机、个人数字助理、个人电脑、家庭网关、无线调制解调器、机顶盒、数据卡或无线路由器。

图1为本发明实施例提供的一种语音检测方法的流程图，如图1所示，本实施例提供的语音检测方法包括以下步骤：

S11，根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录触发模式运行参考时间T₁，并将非触发模式运行参考时间T₂置零；

S12，在触发模式下进行语音采集，获取第一脉冲编码调制PCM数据；

S13，根据第二预设条件提取T₁内的第一PCM数据；

S14，将T₁内的第一PCM数据与语音模型匹配，获取语音数据。

具体的，在本实施例中，第一预设条件是根据T₂和非触发模式下的第二PCM数据设定的，第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的。

进一步的，在步骤S11之前，还可以从零开始记录T₂，并在非触发模式下进行语音采集，获取第二PCM数据。

作为本实施例一种可选的实施方式，可以为非触发模式的运行参考时间T₂设置时间门限为第一阈值，在根据第一预设条件判定语音采集系统由非触发模式进入触发模式的具体检测判定过程中，可以先根据记录的T₂的值，判断是否达到第一阈值，若没有达到(T₂＜第一阈值)，则判定当前仍为非触发模式，继续进行语音采集，获取第二PCM数据；若达到(T₂≥第一阈值)，则可以进一步判定是否有有效的语音输入。

优选的，可以根据最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值来判定是否有有效的语音输入。具体的，当最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值大于或等于第一预设值时，则认为有有效的语音输入。

也就是说，当满足第一预设条件为：T₂≥第一阈值，且最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值大于或等于第一预设值时，判定语音采集系统由非触发模式进入触发模式，同时从零开始记录T₁，并将T₂置零。

相反的，当T₂＜第一阈值，或者T₂≥第一阈值，但最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值小于第一预设值时，则判定语音采集系统仍然运行在非触发模式下。

作为本实施例一种可选的实施方式，可以为触发模式的运行参考时间T₁设置时间门限第二阈值和第三阈值，即第二阈值≤T₁＜第三阈值。在根据第二预设条件提取T₁内的第一PCM数据的具体检测判定过程中，可以先根据记录的T₁的值，判断是否满足设定的时间门限，若不满足(T₁＜第二阈值)，则判定当前仍为触发模式，继续进行语音采集，获取第一PCM数据；若满足(第二阈值≤T₁＜第三阈值)，则可以进一步判定有效的语音输入是否结束。

优选的，可以根据预设时间内的第一PCM数据的平均分贝值与所述第二PCM数据的平均分贝值之间的差值来判定有效的语音输入是否结束。具体的，当预设时间内的第一PCM数据的平均分贝值与非触发模式下的第二PCM数据的平均分贝值之间的差值小于第二预设值时，判定有效的语音输入结束，并提取T₁内的第一PCM数据。

也就是说，当满足第二预设条件为：第二阈值≤T₁＜第三阈值，且所述预设时间内的第一PCM数据的平均分贝值与所述第二PCM数据的平均分贝值之间的差值小于第二预设值时，提取T₁内的第一PCM数据。

进一步的，在根据第二预设条件提取T₁内的第一PCM数据之后，判定语音采集系统由触发模式进入非触发模式，同时从零开始记录T₂，并将T₁置零。

相反的，当T₁≥第三阈值时，则也会判定语音采集系统由触发模式进入非触发模式，同时从零开始记录T₂，并将T₁置零。

可以理解的是，为了获取各PCM数据的分贝值，还可以分别在获取第一PCM数据和第二PCM数据之后，对第一PCM数据和第二PCM数据进行傅里叶变换，以便获取相应的PCM数据的分贝值。

值得一提的是，作为本实施例一种优选的实施方式，可以选择最小语音突变检测时间作为第一阈值，选择有效语音输入起始分析时间作为第二阈值，以及选择有效语音输入分析超时时间作为第三阈值。

可以理解的是，在具体实施过程中，上述的预设时间、第一预设值和第二预设值可以根据实际的语音检测环境、语音拾取设备的灵敏度等来选择，本实施例对此不作任何限定。

本实施例提供的语音检测方法，根据预设的判断条件进行语音采集和语音提取，即可以通过软件算法判定是否有语音数据输入触发，当检测到语音数据输入出触发后，再通过软件算法判定语音输入的结束。该方法以软件的形式替代了传统硬件DSP芯片实现语音检测，在没有降低检测性能的同时可以有效降低硬件成本，系统功耗也会有一定程度的下降。

为了更清楚的解释说明本发明的技术方案，下面进一步通过图2所示的实施例进行示例性说明，图2为本发明实施例提供的一种示例性的语音检测方法的流程图，如图2所示，该语音检测方法具体可以包括以下步骤：

S21，初始化语音检测系统，进入非触发模式，T₂从零开始累计；

S22，进行语音采集，获取相应的PCM数据；

S23，对S22中获取的PCM数据进行傅里叶变换得到当前语音分贝值；

S24，判断当前是否为触发模式，若是，则执行S28，若否，则执行S25；

S25，判断T₂是否小于第一阈值，若是，则执行S22～S24，若否，则执行S26；

S26，判断最新得到的语音分贝值与当前模式下的平均语音分贝值之间的差值是否大于或等于10dB，若是，则执行S27，若否，则执行S22～S24；

S27，语音检测系统由非触发模式进入触发模式，T₁从零开始累计，T₂置零；

S28，判断T₁是否小于第二阈值，若是，则执行S22～S24，若否，则执行S29；

S29，判断T₁是否小于第三阈值，若是，则执行S210，若否，则执行S211；

S210，判断最新3秒的平均语音分贝值与非触发模式下的平均语音分贝值之间的差值是否小于2dB，若是，则执行S212～S213，若否，则执行S22～S24；

S211，语音检测系统由触发模式进入非触发模式，T₂从零开始累计，T₁置零；

S212，提取T₁内的PCM数据；

S213，将S212中提取的PCM数据与语音模型进行匹配，获取语音数据。

可选的，在S211和S213之后，还可能包括：S214，是否收到退出指令，若是，则结束检测，若否，则执行S22～S24。可以理解的是，也可能在其他步骤之后收到退出指令。

需要说明的是，本实施例仅用于对图1所示实施例进行进一步解释说明，而非用来限制本发明。具体的技术效果与图1所示实施例类似，此处不再赘述。

此外，本发明还提供一种语音检测装置，可以用来实现本发明图1或图2所示实施例提供的语音检测方法，此处不再赘述。该装置可以集成在控制终端中，该装置可以通过软件方式来实现。

图3为本发明实施例提供的一种语音检测装置的结构示意图，如图3所示，该装置包括：模式判定模块31，语音采集模块32，数据提取模块33和数据匹配模块34。其中，模式判定模块31用于根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录触发模式运行参考时间T₁，并将非触发模式运行参考时间T₂置零，其中第一预设条件是根据T₂和非触发模式下的第二PCM数据设定的；语音采集模块32用于在触发模式下进行语音采集，获取第一脉冲编码调制PCM数据；数据提取模块33用于根据第二预设条件提取T₁内的第一PCM数据，其中第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的；数据匹配模块34用于将所述T₁内的第一PCM数据与语音模型匹配，获取语音数据。

进一步的，模式判定模块31还用于在语音采集系统进入触发模式之前，从零开始记录T₂；语音采集模块32还用于在非触发模式下进行语音采集，获取第二PCM数据。

在实际应用中，语音采集模块32还可以对第一PCM数据进行傅里叶变换，得到第一PCM数据的分贝值；或者，对第二PCM数据进行傅里叶变换，得到第二PCM数据的分贝值。

在实际应用中，第一预设条件具体可以为：T₂≥第一阈值，且最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值大于或等于第一预设值。模式判定模块31具体可以用于：在满足第一预设条件时，判定语音采集系统由非触发模式进入触发模式。

可选的，第一阈值可以为最小语音突变检测时间。

在实际应用中，第二预设条件具体可以为：第二阈值≤T₁＜第三阈值，且所述预设时间内的第一PCM数据的平均分贝值与所述第二PCM数据的平均分贝值之间的差值小于第二预设值。数据提取模块31具体可以用于：在满足第二预设条件时，提取T₁内的第一PCM数据。

可选的，第二阈值可以为有效语音输入起始分析时间，第三阈值可以为有效语音输入分析超时时间。

另外，在实际应用中，作为一种可能的实施方式，模式判定模块31还可以用于，当T₁≥第三阈值时，或者根据第二预设条件提取T₁内的第一PCM数据之后，判定语音采集系统由触发模式进入非触发模式，从零开始记录T₂，并将T₁置零。

本实施例提供的语音检测装置，可以用来实现本发明图1或图2所示实施例提供的语音检测方法，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音检测方法，其特征在于，包括：

根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录触发模式运行参考时间T₁，并将非触发模式运行参考时间T₂置零，所述第一预设条件是根据T₂和非触发模式下的第二脉冲编码调制PCM数据设定的；

在所述触发模式下进行语音采集，获取第一PCM数据；

根据第二预设条件提取T₁内的第一PCM数据，所述第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的；

将所述T₁内的第一PCM数据与语音模型匹配，获取语音数据。

2.根据权利要求1所述的方法，其特征在于，所述根据第一预设条件判定语音采集系统由非触发模式进入触发模式之前，还包括：

从零开始记录T₂；

在所述非触发模式下进行语音采集，获取第二PCM数据。

3.根据权利要求2所述的方法，其特征在于，所述获取第一PCM数据之后，还包括：

对所述第一PCM数据进行傅里叶变换，得到所述第一PCM数据的分贝值；

所述获取第二PCM数据之后，还包括：

对所述第二PCM数据进行傅里叶变换，得到所述第二PCM数据的分贝值。

4.根据权利要求3所述的方法，其特征在于，所述根据第一预设条件判定语音采集系统由非触发模式进入触发模式，具体包括：

当T₂≥第一阈值，且最新获取的第二PCM数据的分贝值与T₂内的第二PCM数据的平均分贝值之间的差值大于或等于第一预设值时，判定语音采集系统由非触发模式进入触发模式。

5.根据权利要求4所述的方法，其特征在于，所述第一阈值为最小语音突变检测时间。

6.根据权利要求3所述的方法，其特征在于，所述根据第二预设条件提取T₁内的第一PCM数据，具体包括：

当第二阈值≤T₁＜第三阈值，且所述预设时间内的第一PCM数据的平均分贝值与所述第二PCM数据的平均分贝值之间的差值小于第二预设值时，提取T₁内的第一PCM数据。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当T₁≥第三阈值时，或者根据第二预设条件提取T₁内的第一PCM数据之后，判定所述语音采集系统由触发模式进入非触发模式，从零开始记录T₂，并将T₁置零。

8.根据权利要求6或7所述的方法，其特征在于，所述第二阈值为有效语音输入起始分析时间，所述第三阈值为有效语音输入分析超时时间。

9.一种语音检测装置，其特征在于，包括：

模式判定模块，用于根据第一预设条件判定语音采集系统由非触发模式进入触发模式，从零开始记录所述触发模式运行参考时间T₁，并将所述非触发模式运行参考时间T₂置零，所述第一预设条件是根据T₂和非触发模式下的第二脉冲编码调制PCM数据设定的；

语音采集模块，用于在所述触发模式下进行语音采集，获取第一脉冲编码调制PCM数据；

数据提取模块，用于根据第二预设条件提取T₁内的第一PCM数据，所述第二预设条件是根据T₁、预设时间内的第一PCM数据和所述第二PCM数据设定的；

数据匹配模块，用于将所述T₁内的第一PCM数据与语音模型匹配，获取语音数据。