CN105931639A

CN105931639A - 一种支持多级命令词的语音交互方法

Info

Publication number: CN105931639A
Application number: CN201610373481.XA
Authority: CN
Inventors: 杨若冲
Original assignee: Individual
Current assignee: Nanjing Limiqing New Material Technology Co ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-09-07
Anticipated expiration: 2036-05-31
Also published as: CN105931639B

Abstract

本发明公开了一种支持多级命令词的语音交互方法，根据所需识别的场景将命令词设置为多个上下级关联的级别，对每级命令词分别对应建立识别模型；每个命令词还分类为属于控制词还是非控制词，其中控制词触发所需识别的场景中相应的控制模块，非控制词触发与之关联的下一级别命令词的识别过程；对输入的语音进行识别时，根据目标场景调用相应的识别模型并且针对目标场景的每一级别分别调用命令词识别模型，具体按照命令词级别的上下级的先后顺序分为多级进行。本发明使得在有限的资源下极大的扩展了命令词数量，从而应用领域大大增加，可应用于小家电及所有可加装声控模块的设备上。

Description

一种支持多级命令词的语音交互方法

技术领域

本发明涉及语音识别领域，特别一种离线语音识别。

背景技术

近年来，随着语音识别技术的进步，语音交互因其天然的便利性，在日常生活中应用越来越广泛。语音唤醒和命令词识别这两个最常用的技术点在车载系统、智能家居等领域里已经得到广泛的应用。但我们也发现，在目前大部分的应用方案中，语音交互采用的是在线识别的方式，这就要求设备在使用时需要连接互联网，将计算好的语音特征值上传到服务器，服务器再返回识别后的结果。这种方式的好处是识别在云端进行，识别的结果会很精确，但这种方式的用户体验与网络环境密切相关，在没有网络的时候就无法使用；而且因为要传回数据到服务器，这就牵涉到用户隐私和网络安全等因素，所以大大的影响了应用范围。

在这种情况下，业界开始采用离线的语音交互方式，相对于在云端服务器的识别方法，离线语音识别精简了语言和声学模型，所有的运算都在本地进行。但是受制于硬件条件限制，如计算能力、RAM和Flash大小以及功耗散热等因素，尤其是主频和RAM大小，这两项直接限制了模型的大小以及所支持的命令词数量，模型精简过度之后会严重影响识别的准确率。此外，这种离线识别方案中，不同的应用场景使用的是不同的命令词，需要提前将模型和代码写入硬件，这意味着即便是采用同一套元器件，不同的应用场景必须得使用不同的模块，这在实际使用中造成了极大的不便。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种新的离线语音识别方案，用于解决现有的离线语音识别受制于硬件条件限制导致模型大小及支持的命令词数量受限、影响识别率，并且采用同一套元器件时对不同场景需使用具有不同模型和代码的相应模块才能正常使用所带来的使用不便的技术问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种支持多级命令词的语音交互方法，根据所需识别的场景将命令词设置为i个级别，i取1至n，这里n为所需识别的场景数量，设定第i级命令词与第i+1级命令词之间为上下级关系；对每级命令词分别对应建立识别模型；每个命令词还分类为属于控制词还是非控制词，其中控制词触发所需识别的场景中相应的控制模块，非控制词触发与之关联的下一级别命令词的识别过程；

对输入的语音进行识别时，按照命令词级别的上下级的先后顺序分为多级进行，其中每一级的识别过程如下：

首先调入该级别的命令词的识别模型至RAM存储器中并将该级别的命令词作为侦听目标进行侦听：

若无法侦听到，则根据本次侦听目标按照下列规则重新侦听：若本次侦听目标为一级命令词，则重新侦听一级命令词，若本次侦听目标为其他级别命令词，则返回进行识别上一级别命令词；

若能侦听到，则继续判断该命令词为是否为控制词，若为控制词，则触发所需识别的场景中相应的控制模块，若为非控制词，则触发与之关联的下一级别命令词的识别过程并将当前级别的命令词的识别模型从RAM存储器中删除。

进一步的，在本发明中，将每级命令词的识别模型分别存储于FLASH存储器中，使用时根据需要从FLASH存储器中调入相应的识别模型至RAM存储器中。这样RAM存储器就不需要同时支持所有级别的命令词，只需要分别支持每一级命令词即可。

进一步的，在本发明中，对任意一个场景，将该场景所对应的命令词的识别模型所组成的集合存储于FLASH存储器中，使用时根据所需场景从FLASH存储器中调用该场景对应的识别模型所组成的集合至RAM存储器中。这样RAM存储器就不需要同时支持所有的场景对应的命令词，只需要在对某种场景有交互需求时相应的识别模型能够被调用使用即可。

现有技术中，典型的语音唤醒/命令词识别算法如下：通过实时语音采集，然后计算语音能量，如果一定时候这些能量没有超过一个阈值，我们认为没有声音，这个时候也就不需要进行语音算法处理处理。一旦检测到有声音，我们将会对其后的语音数据计算特征然后语音识别。从工程的角度，从检测到声音和声音结束，会有一段时间，如果时间太长或者太短，我们可以都认为不是我们期望的命令词语。考虑到识别率和嵌入式计算性能的平衡，我们通常采用基于隐马尔科夫模型的方法做语音识别。基于隐马尔科夫模型的语音识别算法是一种经典的、高效的、与说话人无关的一种语音识别算法。它通过使用大量语音语料对语音建模(比如中文可以对每个声母和韵母建模，或者对每个音节建模等)，然后使用这些模型搭建需要的识别网络。在命令词识别的时候，针对每个命令词，我们对连续提取语音特征和建模数据进行计算得到得分，最终我们以最高得分的命令词为识别结果。另外，为了识别排除一些不是属于这些命令词集的语音，我们提供一个通用的共有的模型来计算得分，通过比较这个得分和之前的命令词网络得分，以便于判断这段语音是否是属于命令词中的一种，这样子使得识别算法更有实用性。现有技术中，实现时可通过对编译器进行定点化代码实现隐马尔科夫模型中涉及到的各种浮点运算过程。

有益效果：本发明提供的多级命令词识别方案，在有限的资源下极大的扩展了命令词数量，从而应用领域大大增加，可应用于小家电及所有可加装声控模块的设备上。具体来说，本发明主要有以下优点:

1、可以大大的节省RAM，在同等硬件条件下，支持更多的命令词。

2、进行分级之后，同一时间需要识别的命令词大大缩小，这样可以提高识别准确率，同时降低误识别率。在上面电灯的例子中，普通方案需要同时识别6个命令词，分级之后，在同一时间同时识别的命令词变为3或4个，因而准确性和误识别率可以同时改进。

3、实现了同一套元器件可以适用于不同的应用场景，并且不必针对不同的场景中RAM中写入不同的代码，只需要在实施的时候接上不同的管脚即可，大大的节省了应用成本，提高经济效益。

附图说明

图1为本发明的框架图；

图2为本发明的硬件示意图；

图3为本发明的识别过程。

具体实施方式

具体实施方式1

在日常应用中，对于电灯的命令词有“打开灯光”、“关闭灯光”、“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”，按照现有的识别方案，有14个不同的字需要识别，这样就需要构建这14个字的模型，识别时RAM要支持14个字的模型，这对目前的单片机是很大的考验。

按照本发明的方法，可以把“打开灯光”、“关闭灯光”以及“电灯设置”作为一级命令词，剩下的“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”作为二级命令词。这样一级命令词是9个不同的字，二级命令词是10个不同的字，这样RAM存储器只需要支持10个字的模型就可以实现识别。举个例子：在具体的算法中，我们可以先侦听一级命令词，等到识别出“电灯设置”之后，我们再把二级命令的模型调入到RAM中，如果在规定的时间之内(比如说3秒)，没有侦听到“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”中任何一个，我们重新再把一级命令词调回到RAM存储器中。

具体实施方式2

在识别的时候根据需要从FLASH存储器中将不同场景对应的命令词的识别模型向RAM存储器中调用时，在硬件电路中也采用类似方案：对不同的管脚进行编码，例如：接高电压表示1，接地表示0，这样对于两个管脚，总共可以得到00、01、10、11共计四种编码，程序启动时，按照不同管脚的高低电平编码，调入不同的模型到RAM中，以适应不同的应用场景。这样在实际应用中，我们都只需要提供同一套电子元器件，里面的软件代码也都一样，只是在不同的应用场景的时候，硬件电路接通相应的管脚。例如：我们可以将00对应电灯的命令词，01对应空调的命令词，10对应冰箱的命令词，11对应风扇的命令词。在实现过程中，我们先检测编码，然后调入不同的命令词模型到RAM存储器中，这样就不需要同时支持电灯、空调、冰箱和风扇的命令词，实际应用只需要调入其中一个到RAM中即可。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种支持多级命令词的语音交互方法，其特征在于：根据所需识别的场景将命令词设置为i个级别，i取1至n，这里n为所需识别的场景数量，设定第i级命令词与第i+1级命令词之间为上下级关系；对每级命令词分别对应建立识别模型；每个命令词还分类为属于控制词还是非控制词，其中控制词触发所需识别的场景中相应的控制模块，非控制词触发与之关联的下一级别命令词的识别过程；

2.根据权利要求1所述的支持多级命令词的语音交互方法，其特征在于：将每级命令词的识别模型分别存储于FLASH存储器中，使用时根据需要从FLASH存储器中调入相应的识别模型至RAM存储器中。

3.根据权利要求1所述的支持多级命令词的语音交互方法，其特征在于：对任意一个场景，将该场景所对应的命令词的识别模型所组成的集合存储于FLASH存储器中，使用时根据所需场景从FLASH存储器中调用该场景对应的识别模型所组成的集合至RAM存储器中。