CN110808030B

CN110808030B - 语音唤醒方法、系统、存储介质及电子设备

Info

Publication number: CN110808030B
Application number: CN201911158866.4A
Authority: CN
Inventors: 马金山; 徐彭飞
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-01-22
Anticipated expiration: 2039-11-22
Also published as: CN110808030A

Abstract

本发明公开了一种语音唤醒方法、系统、存储介质以及电子设备，涉及语音识别技术领域，该方法包括：获取语音信息；确定当前环境的场景类型；根据所述场景类型，从数据库中获取与所述场景类型对应的唤醒音源；将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作。本发明的有益效果是：不需要对用户输入的语音信息进行降噪，而是通过将输入的语音信息直接和对应场景类型的唤醒音源进行直接对比，减少了对用户语音信息的处理环节。不仅可以提高唤醒速度，还能提高唤醒成功率。

Description

语音唤醒方法、系统、存储介质及电子设备

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音唤醒方法、系统、存储介质及电子设备。

背景技术

随着物联网技术的高速发展，人们使用智能家居产品的频率越来越高，在智能家居产品上使用语音唤醒功能也越来越普遍。但是，目前使用的语音唤醒技术在噪声环境下很难成功唤醒设备，或者产生误唤醒。因此，如何提高语音唤醒在噪声环境下的识别正确率，成为越来越重要的技术问题。

发明内容

本发明正是基于上述技术问题，提出了一种能够在噪声环境下提高语音唤醒成功率的语音唤醒方法、系统、存储介质及电子设备。

第一方面，本发明实施例提供了一种语音唤醒方法，包括：

获取语音信息；

确定当前环境的场景类型；

根据所述场景类型，从数据库中获取与所述场景类型对应的唤醒音源；

将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作。

进一步，所述数据库通过以下步骤构建：

获取在安静环境下录制的唤醒词语音以及不同场景类型下的环境噪音；

将所述唤醒词语音分别与不同场景类型下的环境噪音进行合成，得到不同场景类型的唤醒音源，以构建所述数据库。

进一步，所述数据库通过以下步骤构建：

获取唤醒词文字，并将所述唤醒词文字转换成唤醒词语音；

获取不同场景类型下的环境噪音；

进一步，将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作，包括：

将所述语音信息的频谱波形与所述唤醒音源的频谱波形进行特征比对，当所述语音信息的频谱波形上存在与所述唤醒音源的频谱波形的相似度超过预设阈值的频谱波形段时，对目标设备执行语音唤醒操作。

进一步，所述方法还包括：

获取当前环境的环境噪音；

根据当前环境的环境噪音，确定所述预设阈值；其中，所述预设阈值的大小与当前环境的环境噪音的大小负相关。

进一步，确定当前环境的场景类型，包括：

获取当前环境的环境噪音；

根据当前环境的环境噪音，确定当前环境的场景类型。

进一步，根据当前环境的环境噪音，确定当前环境的场景类型，包括：

提取当前环境的环境噪音的频谱特征；

将所述频谱特征与预设的频谱特征进行对比，以根据对比结果确定当前环境的场景类型；其中，一个预设的频谱特征对应一个场景类型。

第二方面，本发明实施例还提供了一种语音唤醒系统，包括：

采集模块，用于获取语音信息；

确定模块，用于确定当前环境的场景类型；

音源获取模块，根据所述场景类型，从数据库中获取与所述场景类型对应的唤醒音源；

唤醒模块，用于将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作。

第三方面，本发明实施例还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例中任一项所述的语音唤醒方法。

第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例中任一项所述的语音唤醒方法。

在本发明实施例提供的一种语音唤醒方法、系统、存储介质及电子设备，通过将用户输入的语音信息与唤醒音源进行特征比对，根据比对结果判断是否对目标设备执行语音唤醒操作，即将用户输入的带有噪声的语音信息直接与唤醒词与对应的环境噪音合成的唤醒音源进行特征比对。可见，本发明实施例提供的语音唤醒方法，不需要对用户输入的语音信息进行降噪，而是通过将输入的语音信息直接和对应场景类型的唤醒音源进行直接对比，减少了对用户语音信息的处理环节。不仅可以提高唤醒速度，还能提高唤醒成功率。

附图说明

通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是：

图1示出了本发明实施例一提出的一种语音唤醒方法的流程示意图；

图2示出了本发明实施例二提出的一种语音唤醒方法的流程示意图；

图3示出了本发明实施例二提出的构建数据库的一种流程示意图；

图4示出了本发明实施例二提出的构建数据库的另一种流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将结合附图及实施例来详细说明本发明的实施方法，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

根据本发明的实施例，提供了一种语音唤醒方法，图1示出了本发明实施例一提出的一种语音唤醒方法的流程示意图，如图1所示，该语音唤醒方法可以包括：步骤110至步骤140。

在步骤110中，获取语音信息。

这里，可以通过电子设备的麦克风采集语音信息，该语音信息可以是用户说出的唤醒词或其他语音信息。

在步骤120中，确定当前环境的场景类型。

这里，当前环境指的是电子设备当前运行的环境，以手机为例，如果手机在车站环境下使用，则当前环境的场景类型为车站。

值得说明的是，在实际应用中，步骤120可以在步骤110之后执行，也可以在步骤110之前执行，也可以是同时执行。步骤120在步骤110之后执行的应用场景如下：用户输入语音信息之后，开始采集当前环境的噪声信号，从而确定当前环境的场景类型。步骤120在步骤110之前执行的应用场景如下：电子设备进入新的工作环境时，首先采集当前环境的噪声信号，从而确定当前环境的场景类型，然后待机准备接收用户输入的语音信息。

在步骤130中，根据所述场景类型，从数据库中获取与所述场景类型对应的唤醒音源。

这里，唤醒音源是指唤醒词语音和不同场景类型对应的环境噪音进行合成得到的一个音频。例如，唤醒词语音是“小明”，则将“小明”的音频与车站的环境噪音的音频进行合成，能够得到对应车站这一场景类型的唤醒音源。

在步骤140中，将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作。

这里，将用户输入的语音信息与对应场景类型的唤醒音源进行特征比对，当根据特征比对结果确定用户输入的语音信息中存在唤醒词，则对目标设备执行语音唤醒操作，当从用户输入的语音信息中无法确定到唤醒词，则继续检测用户输入的语音信息。

现有的唤醒技术一般通过对用户输入的语音信息进行降噪处理，再对经降噪处理后的语音信息进行关键词检测，判断用户输入的语音信息中是否存在唤醒词。在本实施例中，通过直接将用户输入的语音信息与唤醒音源进行特征比对，不需要对用户输入的语音信息中的噪音先进行降噪处理，而是直接将带有噪音的语音信息与对应的唤醒音源进行特征比对，以确认用户输入的语音信息能够唤醒目标设备。可见通过将输入的语音信直接和对应场景类型的唤醒音源进行直接对比，能够减少了对用户语音信息的处理环节。不仅可以提高唤醒速度，还能提高唤醒成功率。

实施例二

在上述实施例的基础上，本发明的实施例二还可以提供一种语音唤醒方法。图2示出了本发明实施例二提出的一种语音唤醒方法的流程示意图，如图2所示，该语音唤醒方法可以包括：步骤210至步骤240。

在步骤210中，获取语音信息。

在步骤220中，确定当前环境的场景类型。

值得说明的是，在实际应用中，步骤220可以在步骤210之后执行，也可以在步骤210之前执行，也可以是同时执行。步骤220在步骤210之后执行的应用场景如下：用户输入语音信息之后，开始采集当前环境的噪声信号，从而确定当前环境的场景类型。步骤220在步骤210之前执行的应用场景如下：电子设备进入新的工作环境时，首先采集当前环境的噪声信号，从而确定当前环境的场景类型，然后待机准备接收用户输入的语音信息。

在一个可选的实施方式中，步骤220中，确定当前环境的场景类型，包括：

获取当前环境的环境噪音；

根据当前环境的环境噪音，确定当前环境的场景类型。

这里，由于不同的环境下，产生的环境噪音是不一样的，因此，可以通过环境噪音来确定当前环境的场景类型。

在一个可选的实施方式中，根据当前环境的环境噪音，确定当前环境的场景类型，可以包括：

提取当前环境的环境噪音的频谱特征；

这里，频谱特征指的是反应环境噪音的类型的特征。该频谱特征可以是截取的一小段音频，也可以是对环境噪音进行分段，然后从每段中提取一个或多个特征，组成特征向量，以得到所述环境噪音的频谱特征。

其中，将所述频谱特征与预设的频谱特征进行对比，其中，一个预设的频谱特征对应一个场景类型。例如，预设的频谱特征A对应场景类型B，则提取到的频谱特征如果跟预设的频谱特征A一致或高度相似，则可以确定提取到的频谱特征对应场景类型B。

在步骤230中，根据所述场景类型，从数据库中获取与所述场景类型对应的唤醒音源。

在步骤240中，将所述语音信息的频谱波形与所述唤醒音源的频谱波形进行特征比对，当所述语音信息的频谱波形上存在与所述唤醒音源的频谱波形的相似度超过预设阈值的频谱波形段时，对目标设备执行语音唤醒操作。

这里，由于不同的文字对应不同的频谱波形特征，因此，用户输入的语音信息的频谱波形上存在与唤醒音源的频谱波形的相似度超过预设阈值的频谱波形段，即是可以确定用户输入的语音信息中存在唤醒词。

其中，唤醒音源是由唤醒词语音和环境噪音合成得到的，因此，用户输入的语音信息与唤醒音源进行特征比对，实际上是带有噪音的语音信息的音频波形与带有噪音的唤醒词语音进行比对。因此，在环境噪音一致、唤醒词一致的情况下，波形的相似度是极高的，因此，可以判断用户输入的带有噪音的语音信息中是否存在唤醒词。

值得说明的是，所述预设阈值可以通过以下步骤获得：

获取当前环境的环境噪音：

根据所述环境噪音，确定所述预设阈值；其中，所述预设阈值的大小与环境噪音的大小负相关。

这里，通过当前环境的环境噪音的大小确定该相似度的阈值，且预设阈值的大小与环境噪音的大小负相关。例如，噪声在70分贝时，对应的预设阈值在95％。噪音在100分贝时，对应的预设阈值为80％。

由此，通过当前环境的环境噪音实时对所述预设阈值进行调整，可以提高在强噪声环境下的唤醒成功率。

本实施例提供了两种数据库的构建方式，下面结合附图3以及附图4对这两种数据库的构建方式进行介绍。

请参照图3，构建所述数据库的步骤可以包括步骤201至步骤202。

在步骤201中，获取在安静环境下录制的唤醒词语音以及不同场景类型下的环境噪音。

这里，唤醒词语音是指用户在安静环境下喊出的唤醒词，该唤醒词语音可以是一个或多个。不同场景类型下的环境噪音指的是在不同环境下录制的噪音信号，例如在车站中录取的噪声信号作为对应车站场景类型的环境噪音。

在步骤202中，将所述唤醒词语音分别与不同场景类型下的环境噪音进行合成，得到不同场景类型的唤醒音源，以构建所述数据库。

这里，将所述唤醒词语音分别与不同场景类型下的环境噪音进行合成，是指将唤醒词语音的音频分别与不同场景类型下的环境噪音的音频进行融合，得到带有不同噪声信号的的唤醒词语音，作为所述唤醒音源。

请参照图4，构建所述数据库的步骤可以包括步骤203至步骤205。

在步骤203中，获取唤醒词文字，并将所述唤醒词文字转换成唤醒词语音。

这里，该唤醒词文字为用户输入的文字信息。通过获取用户输入的文字信息，将该文字信息转换成唤醒词语音，即将文本信息转换成标准语音音频。

在步骤204中，获取不同场景类型下的环境噪音。

这里，不同场景类型下的环境噪音指的是在不同环境下录制的噪音信号，例如在车站中录取的噪声信号作为对应车站场景类型的环境噪音。

在步骤205中，将所述唤醒词语音分别与不同场景类型下的环境噪音进行合成，得到不同场景类型的唤醒音源，以构建所述数据库。

实施例三

根据本发明的实施例，还提供了一种语音唤醒系统，包括：

采集模块，用于获取语音信息；

确定模块，用于确定当前环境的场景类型；

实施例四

根据本发明的实施例，还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例任一项所述的语音唤醒方法。

实施例五

根据本发明的实施例，还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例任一项所述的语音唤醒方法。

以上结合附图详细说明了本发明的技术方案，考虑到相关技术中，前使用的语音唤醒技术在噪声环境下很难成功唤醒设备，或者产生误唤醒。本发明的实施例提供一种语音唤醒方法、系统、存储介质以及电子设备，通过将用户输入的语音信息与唤醒音源进行特征比对，根据比对结果判断是否对目标设备执行语音唤醒操作，即将用户输入的带有噪声的语音信息直接与唤醒词与对应的环境噪音合成的唤醒音源进行特征比对。可见，本发明实施例提供的语音唤醒方法，不需要对用户输入的语音信息进行降噪，而是通过将输入的语音信息直接和对应场景类型的唤醒音源进行直接对比，减少了对用户语音信息的处理环节。不仅可以提高唤醒速度，还能提高唤醒成功率。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音唤醒方法，其特征在于，包括：

获取语音信息，所述语音信息为用户输入的唤醒词或其他语音信息；

确定当前环境的场景类型；

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述数据库通过以下步骤构建：

3.根据权利要求1所述的语音唤醒方法，其特征在于，所述数据库通过以下步骤构建：

获取唤醒词文字，并将所述唤醒词文字转换成唤醒词语音；

获取不同场景类型下的环境噪音；

4.根据权利要求1至3任一项所述的语音唤醒方法，其特征在于，将所述语音信息与所述唤醒音源进行特征比对，并根据比对结果判断是否对目标设备执行语音唤醒操作，包括：

5.根据权利要求4所述的语音唤醒方法，其特征在于，所述方法还包括：

获取当前环境的环境噪音；

6.根据权利要求1所述的语音唤醒方法，其特征在于，确定当前环境的场景类型，包括：

获取当前环境的环境噪音；

根据当前环境的环境噪音，确定当前环境的场景类型。

7.根据权利要求6所述的语音唤醒方法，其特征在于，根据当前环境的环境噪音，确定当前环境的场景类型，包括：

提取当前环境的环境噪音的频谱特征；

8.一种语音唤醒系统，其特征在于，包括：

采集模块，用于获取语音信息；

确定模块，用于确定当前环境的场景类型；

9.一种存储介质，所述存储介质上存储有程序代码，其特征在于，所述程序代码被处理器执行时，实现如权利要求1至7中任一项所述的语音唤醒方法。

10.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如权利要求1至7中任一项所述的语音唤醒方法。