CN106653031A

CN106653031A - 语音唤醒方法及语音交互装置

Info

Publication number: CN106653031A
Application number: CN201610902502.2A
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2017-05-10

Abstract

本发明实施例提供一种语音唤醒方法及语音交互装置，其中，该方法包括：接收语音输入信号；确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值；若超过，则将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果；接收所述云端服务器返回的所述语音输入信号对应的识别结果；确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值，其中所述第二预设阈值大于所述第一预设阈值；若超过，唤醒语音交互功能。本发明实施例提供的语音唤醒方法及语音交互装置能够兼顾低功耗和低误唤醒率的需求。

Description

语音唤醒方法及语音交互装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音唤醒方法及语音交互装置。

背景技术

随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能电视,智能车载,智能家居,智能机器人都是语音交互应用的主要应用场景,同时由于人机交互对于用户体验的要求越来越高,人机语音对话的距离也越来越不局限于近讲(50cm以内)。现在通过多麦克风技术,已经能够实现3-5米内的远距离语音交互。

与此同时,远距离语音交互还存在一个问题,就是什么时候开始触发语音收音并且开始识别。目前的技术方案有两种,一种是用一颗低功耗芯片,一直通过麦克风阵列收音,做相应的信号处理后(信号增强,噪声抑制,回声消除),然后再做语音识别,判断用户是否说出唤醒词,如果说了,则通知主模块,开始收音并进行语音识别,还有一种方式是前端的模块只做信号处理,由主模块来一直收音,并做语音识别来判断用户是否说出唤醒词,但是这两种方式都有弊端,前一种方式由于前端处理模块要求低功耗,所以识别性能相对来说会较低,同时误唤醒率也会较高；而后一种方案的问题是主芯片模块需要一直全速运行,功耗会比较大，并且由于对主芯片模块的要求比较高，方案的成本也比较高。目前尚无兼顾功耗和误唤醒率的方案。

发明内容

本发明实施例提供一种语音唤醒方法及语音交互装置，用以解决现有技术无法兼顾功耗和误唤醒率的问题。

本发明实施例第一方面提供一种语音唤醒方法，该方法包括：

接收语音输入信号；

确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值；

若超过，则将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果；

接收所述云端服务器返回的所述语音输入信号对应的识别结果；

确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值，其中所述第二预设阈值大于所述第一预设阈值；

若超过，唤醒语音交互功能。

本发明实施例第二方面提供一种语音交互装置，该装置包括：

第一接收模块，用于接收语音输入信号；

确定模块，用于确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值；

发送模块，用于在所述语音输入信号和预设的唤醒语音信号之间的相似度超过第一预设阈值时，将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果；

第二接收模块，用于接收所述云端服务器返回的所述语音输入信号对应的识别结果；

所述确定模块，还用于确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值，其中所述第二预设阈值大于所述第一预设阈值；

唤醒模块，用于当所述识别结果和所述预设的唤醒语音信号之间的相似度超过第二预设阈值时，唤醒语音交互功能。

本发明实施例，通过将接收到的语音输入信号与预设的唤醒语音信号进行第一次匹配，确定语音输入信号与预设的唤醒语音信号之间的相似度，从而初步确定语音输入信号为唤醒语音信号的可能性，进一步的，当语音输入信号为唤醒语音信号的可能性超过一定阈值时，再将接收到的语音输入信号发送至云端服务器进行精确识别，从而将云端服务器的识别结果与预设的唤醒语音信号进行第二次匹配，来最终确定是否唤醒语音交互功能。即本发明实施例通过初步识别和精确识别两次识别来确定语音输入信号是否是预设的唤醒语音信号，从而降低了语音交互功能的误唤醒率，并且由于本发明实施例中，精确识别是在云端服务器上进行的，因此能够降低语音交互装置本身的成本和功耗。从而能够兼顾低功耗功耗和低误唤醒率的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音唤醒方法的流程示意图；

图2为发明一实施例提供的步骤S103的执行方法流程示意图；

图3为本发明一实施例提供的语音交互装置的架构图；

图4为本发明一实施例提供的语音交互装置的结构示意图；

图5为本发明一实施例提供的发送模块13的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

图1为本发明一实施例提供的语音唤醒方法的流程示意图，该方法可以由诸如智能电视,智能车载,智能家居,智能机器人等具有语音交互功能的语音交互装置来执行。如图1所示，本实施例提供的方法包括如下步骤：

步骤S101、接收语音输入信号。

实际应用中，语音交互装置可以通过设置在其上的麦克风阵列来接收用户或终端设备输入的语音信号，并在接收到语音信号后通过时间延迟补偿来确保接收到的语音输入信号的完整性，避免由于漏掉部分语音信号，而对唤醒判断造成影响。

特别的，语音交互装置在获得完整的语音输入信号后，还可以将接收到的语音输入信号存储在数据库中，以便在后续唤醒判断中调取使用。

步骤S102、确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值，若超过，则执行步骤S103，否则结束唤醒操作。

特别的本实施例中提供的语音唤醒方法包括两次判别过程，其中，第一次判断过程，可以通过一DSP预处理模块来执行。在第一次判断过程中，首先对语音输入信号进行预处理，再根据预处理后的语音输入信号进行唤醒判断。具体的，在预处理过程中，至少要对语音输入信号进行噪声抑制处理、回声消除处理和声音增强处理，其中，上述处理与现有技术中语音处理过程类似，在这里不再赘述。进一步的，在唤醒判断之前，先从经过上述处理的语音输入信号中，提取特征信号。例如，可以通过提取语音输入信号的梅尔频率倒谱系数的方式来获取特征信号，此过程与现有技术相同，在这里不再赘述。

再进一步的，实际应用中，可以在DSP预处理模块中内置一个简单的声学模型，通过将该声学模型对上述获得的特征信号做解码处理，并采用最大似然比计算来判断特征信号和唤醒语音信号之间的相似度，其基本原理为，将特征信号中的每个特征点和声学模型里预设唤醒语音信号的每个特征点进行相似度比较，然后将所有的点综合得出一个极大似然值，公式为：

其中，x_i是特征信号中第i个特征点的样本值，μ为模型中的值，θ为需要计算得出的极大似然值，通过这个极大似然值来计算当前语音输入信号与预设的唤醒语音信号之间的相似度。其中，当计算获得的相似值大于预设第一阈值时，则开启第二次唤醒判断，否则结束唤醒操作。本实施例中，DSP预处理模块对语音输入信号进行第一次唤醒判断的过程与现有技术类似，这里不再赘述。

这里需要说明的是，由于第一次唤醒判断过程采用的是较简单的声学模型，因此，对DSP预处理模块的要求较低，DSP预处理模块的功耗较低。

步骤S103、将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果。

本实施例中，在第一次唤醒判断后，如果语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值，则将数据库中存储的语音输入信号发送至云端服务器，通过云端服务器对语音输入信号进行语音识别，并根据识别结果进行第二次唤醒判断。

图2为发明一实施例提供的步骤S103的执行方法流程示意图，如图2所示，步骤S103可以包括如下步骤：

步骤S11、获取所述语音输入信号。

实际应用中，若语音交互装置在接收到用户或终端设备输入的语音输入信号后，将接收到的语音输入信号存储在数据库中，则在进行第二次唤醒判断时，可以直接从数据库中获取所述语音输入信号，当然，若语音输入信号不存储在数据库中，也可以通过其他相应的手段获取语音输入信号，比如，语音交互装置在接收到用户或终端设备输入的语音输入信号后，也可以采用短时记忆存储的方式暂时记忆语音输入信号，当进行第二次唤醒判断时，直接调用该语音输入信号即可。当然，上述仅为示例说明，并不是对本发明的唯一限定。

步骤S12、对所述语音输入信号进行压缩编码，并将压缩编码后的语音输入信号发送给云端服务器，以使所述云端服务器根据所述压缩编码后的语音输入信号，进行语音识别，并将识别结果以拼音形式返回。

实际应用中，当第一唤醒判断的结果为：语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值时，则将步骤S11中获得的语音输入信号，经过语音压缩编码后发送给云端服务器，云端服务器在接收到语音输入信号后，先对语音输入信号进行语音解压缩处理，再对解压缩后的语音输入信号进行语音识别，并将识别结果返回给语音交互装置。这需要说明的是，云端服务器的语音识别方法与现有语音识别方法类似，在这里不再赘述。

特别的，由于此时云端服务器并不知道语音交互装置侧预设的唤醒语音信号对应的是那几个字符，优选的，云端服务器可以将识别结果以拼音的形式返回给语音交互装置，从而使得语音交互装置可以通过拼音匹配的方式对语音输入信号是否是唤醒语音信号进行判断。

步骤S104、根据所述云端服务器返回的识别结果，确定是否唤醒语音交互功能。

本实施例中，语音交互装置将预设的唤醒语音信号转换成拼音形式的语音文本。在云端服务器返回识别结果后，将上述语音文本与识别结果进行语音匹配，当二者的拼音匹配率超过第二预设阈值时，则唤醒语音交互功能，否则不唤醒。

例如，云端服务器返回的识别结果为“ni hao hai xin”，而预设的唤醒语音信号为“你好海信”，则其匹配率为100％，此时唤醒语音交互装置的语音交互功能。

这里需要说明的是，为了提高语音唤醒识别的准确率，本实施例中将第二预设阈值设置为大于第一预设阈值的值。

本实施例，通过将接收到的语音输入信号与预设的唤醒语音信号进行第一次匹配，确定语音输入信号与预设的唤醒语音信号之间的相似度，从而初步确定语音输入信号为唤醒语音信号的可能性，进一步的，当语音输入信号为唤醒语音信号的可能性超过一定阈值时，再将接收到的语音输入信号发送至云端服务器进行精确识别，从而将云端服务器的识别结果与预设的唤醒语音信号进行第二次匹配，来最终确定是否唤醒语音交互功能。即本实施例通过初步识别和精确识别两次识别来确定语音输入信号是否是预设的唤醒语音信号，从而降低了语音交互功能的误唤醒率，并且由于本发明实施例中，精确识别是在云端服务器上进行的，因此能够降低语音交互装置本身的成本和功耗。从而能够兼顾低功耗功耗和低误唤醒率的需求。

图3为本发明一实施例提供的语音交互装置的架构图，如图3所示，图3中语音交互装置包括DSP预处理模块和主芯片处理模块。其中主芯片处理模块与云端服务器连接。

当麦克风阵列接收到语音输入信号后,DSP预处理模块通过端点检测(voiceactivity detection,简称VAD)来判断是否有语音信号输入,比如可以采用现有的短时能量和短时过零率的算法，该算法在本实施例中的应用与在现有技术中的应用相同，这里不再赘述。端点检测完成后，需要进行一次时间延迟补偿，以确保语音输入信号的完整。在对语音输入信号进行信号处理之前，需要将这段语音输入信号完整保存下来，以备传送到云端服务器进行识别。信号处理部分至少包括噪声抑制处理、回声消除处理和声音增强处理。实际应用中，噪声抑制处理可以在多滤波器组合的基础上进行。回声消除处理和声音增强处理的执行方法与现有技术相同，在这里不再赘述。进一步的，在完成上述信号处理之后，先从语音输入信号中提取特征信号，再根据DSP预处理模块内的一个简单的声学模型，对提取获得的特征信号进行解码处理，并计算特征信号和预设的唤醒语音信号之间的相似度，当计算获得的相似度超过第一预设阈值时，则触发主芯片处理模块，进行再一次的唤醒判断，否则退出本次唤醒操作。这里需要说明的是，DSP预处理模块，只是通过简单的声学模型做初步的唤醒判断，因此，DSP预处理模块只要在低功耗的工作环境下即可。

进一步的，当主芯片处理模块被激活时，主芯片护理模块可以通过其与DSP预处理模块之间的数据接口，获取DSP预处理模块保存的语音输入信号，并在对语音输入信号进行语音压缩后，将语音输入信号发送给云端服务器进行语音识别。这里需要说明的是，云端服务器的语音识别方法采用类似于现有技术中的后台语音识别的方法对语音输入信号进行识别，其具有识别率较高的特点，这里的执行方式与现有技术类似在这里不再赘述。

云端服务器识别完成后，由于此时云端服务器并不知道语音交互装置侧预设的唤醒语音信号对应的哪几个字符，所以云端服务器优选以拼音的方式返回识别结果，以便于语音交互装置进行比较。语音交互装置在接收到云端服务器的识别结果后，将预设的唤醒语音信号转换成拼音形式的语音文本，然后用拼音匹配法，判断上述识别结果和语音文本之间的拼音匹配率，当拼音匹配率超过第二预设阈值时，则唤醒语音交互功能，否则不唤醒。比如云端服务器返回的识别结果为“ni hao hai xin”，而预设的唤醒语音信号为“你好海信”，则其匹配率为100％，此时唤醒语音交互装置的语音交互功能。

图3所示的架构，利用前端DSP预处理模块快速低功耗的特点，对语音输入信号进行初步的唤醒判断，而主芯片处理模块在没有接收到DSP预处理模块的触发信号之前，一直在低功耗模式运行，主芯片处理模块被触发后，则利用自身的网络传输性能，快速地将语音输入信号传输到云端服务器，充分利用云端服务器的计算性能，以非常高的识别率，对语音输入信号做精准唤醒识别，而主芯片处理模块不做任何信号处理和语音识别计算，只作判断，整个唤醒的识别速度就体现在网络传输上，而不依赖于主芯片处理模块的计算能力，尤其对于对网络环境依赖性较强的语音交互装置来说(如智能音箱)，能够很好地利用网络环境的优势因素，在语音交互装置的成本方面和性能方面，较现有技术而言，都有较大的提高。

图4为本发明一实施例提供的语音交互装置的结构示意图，如图4所示，本实施例提供的装置包括：

第一接收模块11，用于接收语音输入信号；

确定模块12，用于确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值；

发送模块13，用于在所述语音输入信号和预设的唤醒语音信号之间的相似度超过第一预设阈值时，将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果；

第二接收模块14，用于接收所述云端服务器返回的所述语音输入信号对应的识别结果；

所述确定模块12，还用于确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值，其中所述第二预设阈值大于所述第一预设阈值；

唤醒模块15，用于当所述识别结果和所述预设的唤醒语音信号之间的相似度超过第二预设阈值时，唤醒语音交互功能。

其中，所述第一接收模块11，具体用于：

确定是否有语音信号输入；

若有，则对输入的语音信号进行时间延迟补偿，获得完整的语音输入信号；

将所述完整的语音输入信号存储在数据库中。

所述确定模块12，包括：

提取子模块122，用于从所述语音输入信号中，提取特征信号；

确定子模块123，用于确定所述特征信号与预设的唤醒语音信号之间的相似度是否超过第一预设阈值。

所述确定模块12，具体用于：

将所述预设的唤醒语音信号转换成拼音形式的语音文本；

确定所述语音文本与所述识别结果之间的匹配率是否超过第二预设阈值。

本实施例提供的语音交互装置，能够用于执行如图1所示的方法，其具体的执行方式和有益效果与图1所示实施例类似，在这里不再赘述。

图5为本发明一实施例提供的发送模块13的结构示意图，如图5所示，本实施例在图4所示结构的基础上，发送模块13包括：

语音编码子模块131，用于对所述语音输入信号进行压缩编码；

发送子模块132，用于将压缩编码后的语音输入信号发送给云端服务器，以使所述云端服务器根据所述压缩编码后的语音输入信号，进行语音识别，并将识别结果以拼音形式返回。

本实施例提供的发送模块13，能够用于执行图2所示的方法，其具体的执行方式和有益效果与图2所示实施例类似，在这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

接收语音输入信号；

若超过，唤醒语音交互功能。

2.根据权利要求1所述的方法，其特征在于，所述接收语音输入信号，包括：

确定是否有语音信号输入；

若有，则对输入的语音信号进行时间延迟补偿，接收完整的语音输入信号；

将所述完整的语音输入信号存储在数据库中。

3.根据权利要求1所述的方法，其特征在于，所述确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值，包括：

从所述语音输入信号中，提取特征信号；

确定所述特征信号与预设的唤醒语音信号之间的相似度是否超过第一预设阈值。

4.根据权利要求1-3中任一项所述的方法，其特征在于，当所述语音输入信号和预设的唤醒语音信号之间的相似度超过第一预设阈值时，所述将所述语音输入信号发送至云端服务器，以使所述云端服务器对所述语音输入信号进行语音识别，并返回识别结果，包括：

对所述语音输入信号进行压缩编码，并将压缩编码后的语音输入信号发送给云端服务器，以使所述云端服务器根据所述压缩编码后的语音输入信号，进行语音识别，并将识别结果以拼音形式返回。

5.根据权利要求4所述的方法，其特征在于，所述确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值，包括：

将所述预设的唤醒语音信号转换成拼音形式的语音文本；

6.一种语音交互装置，其特征在于，包括：

第一接收模块，用于接收语音输入信号；

7.根据权利要求6所述的装置，其特征在于，所述第一接收模块，具体用于：

确定是否有语音信号输入；

将所述完整的语音输入信号存储在数据库中。

8.根据权利要求6所述的装置，其特征在于，所述确定模块，包括：

提取子模块，用于从所述语音输入信号中，提取特征信号；

确定子模块，用于确定所述特征信号与预设的唤醒语音信号之间的相似度是否超过第一预设阈值。

9.根据权利要求6-8中任一项所述的装置，其特征在于，所述发送模块，包括：

语音编码子模块，用于对所述语音输入信号进行压缩编码；

发送子模块，用于将压缩编码后的语音输入信号发送给云端服务器，以使所述云端服务器根据所述压缩编码后的语音输入信号，进行语音识别，并将识别结果以拼音形式返回。

10.根据权利要求9所述的装置，其特征在于，所述确定模块，具体用于：

将所述预设的唤醒语音信号转换成拼音形式的语音文本；