CN111477228A

CN111477228A - 基于命令词的语音控制方法及系统

Info

Publication number: CN111477228A
Application number: CN202010265876.4A
Authority: CN
Inventors: 文俊; 李昱兵; 陈峰峰; 刘皓
Original assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Current assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-31

Abstract

本发明提供了一种基于命令词的语音控制方法，该方法包括显示器根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系；根据修改后的语音命令词和控制功能的对应关系，更新语法文件；根据更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果；根据语音识别结果确定对应的控制功能，以对设备进行控制。本发明的方案能够避免因用户不能及时说出预制语音控制指令或者说出错误的语音控制质量导致的控制设备功能失效的问题，提高了语音控制效率。

Description

基于命令词的语音控制方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及基于命令词的语音控制方法及系统。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，因其交互方式具有响应速度快，控制简单等优点，逐渐成为智能产品时代非常重要的交互控制方式。

目前，语音控制功能的实现方式一般是设备厂家预先设置好了语音命令词，用户通过所设置的语音命令词对设备进行语音控制。为了满足用户体验，有一些已有技术采用了用户和智能家电进行语音交互实现用户自定义语音命令词的方式，但是这种方式下，用户在开始表达自定义命令词时，智能家电可能会认为用户是说错了预制的语音命令词，而不能及时响应用户自定义命令词的请求，且在确认用户需要自定义语音命令词之后，还需要用户不断和智能家电进行语音交互以确定自定义命令词以及智能家电对应的控制功能，步骤多，过程复杂。

发明内容

本发明实施例提供了一种基于命令词的语音控制方法及系统，该方法和系统使得用户可以根据自身的说话习惯在显示器上自定义语音命令词，能够直观且方便快捷地自定义语音命令词，进而可以根据自定义的语音命令词对设备进行语音控制，提高了语音控制效率以及设备响应效率的同时，避免了因用户不能及时说出预制语音控制指令或者说出错误的语音控制质量导致的控制设备功能失效的问题。

第一方面，本发明实施例提供了基于命令词的语音控制方法，所述方法包括：

显示器根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系；

根据所述修改后的语音命令词和控制功能的对应关系，更新语法文件；

根据所述更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果；

根据所述语音识别结果确定对应的控制功能，以对设备进行控制。

可选地，所述根据所述语音识别结果确定对应的控制功能，以对设备进行控制之前，进一步包括：

若所述语音识别结果的置信度分数大于或等于设定的门限值，则确定所述语音识别结果对应的控制功能；

若所述语音识别结果的置信度分数小于所述设定的门限值，则发出语音识别无效的提示信息。

可选地，所述根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果进一步包括：

将用户语音特征向量依次与所述语音识别模型文件中的语音特征向量比较，以从所述语音识别模型文件中得到置信度分数最大的语音特征向量；

将所述置信度分数最大的语音特征向量对应的语音命令词作为语音识别结果；

其中，所述用户语音特征向量为根据采集到的用户语音得到的语音特征向量。

可选地，所述根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系进一步包括：

若确定所述修改语音命令词的请求为新增请求，则根据新增的语音命令词和与新增语音命令词匹配的控制功能，确定修改后的语音命令词和控制功能的对应关系；

若确定所述修改语音命令词的请求为编辑请求，则将编辑后的语音命令词与控制功能对应；

若确定所述修改语音命令词的请求为删除请求，则将所删除的语音命令词和所述语音命令词对应的控制功能清空。

可选地，所述根据所述更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果之前进一步包括：

根据修改后的语音命令词和预制的语音命令词，确定门限值；

将根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量得到的置信度分数与所述门限值进行比较；

将置信度分数最大的语音特征向量对应的语音命令词作为语音识别结果。

第二方面，本发明实施例还提供了一种基于命令词的语音控制系统，所述系统包括显示器、存储单元、语音采集单元、数据处理单元、和设备控制单元，其特征在于，

所述语音采集单元用于采集用户语音信息；

所述显示器用于根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系，并将确定的所述对应关系发送到所述存储单元；

所述存储单元用于在接收到所述命令词自定义发送的所述对应关系后，更新其自身所存储的语音命令词和控制功能的对应关系，根据更新的对应关系表更新所存储的语法文件，并将更新后的语法文件发送到所述数据处理单元；

所述数据处理单元用于根据所述存储单元发送的语法文件生成语音识别模型文件，并根据语音采集单元采集到的用户语音信息中的语音特征向量和所述语音识别模型中的语音特征向量得到语音识别结果，并从所述存储单元中得到与所述语音识别结果对应的控制功能，并将所述控制功能发送到设备控制单元；

设备控制单元，用于根据所述数据处理单元发送的控制功能对设备进行控制。

可选地，所述数据处理单元进一步用于：

若所述语音识别结果的置信度分数大于或等于设定的门限值，则根据存储单元中存储的语音命令词和控制功能的关系确定所述语音识别结果对应的控制功能，并将所述控制功能发送到设备控制单元；

可选地，所述数据处理单元进一步用于：

将用户语音特征向量依次与所述语音识别模型文件中的各语音特征向量比较，以从所述语音识别模型文件中得到置信度分数最大的语音特征向量；

将置信度分数最大的语音特征向量对应的语音命令词作为语音识别结果；

可选地，所述显示器进一步用于：

可选地，所述数据处理单元进一步用于：

由上述可知，本发明提供的基于命令词的语音控制方法和系统，能够使得用户可以根据自身的说话习惯在显示器上自定义语音命令词，能够直观且方便快捷地自定义语音命令词，进而可以根据自定义的语音命令词对设备进行语音控制，提高了语音控制效率以及设备响应效率的同时，避免了因用户不能及时说出预制语音控制指令或者说出错误的语音控制质量导致的控制设备功能失效的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于命令词的语音控制方法的流程示意图；

图2是本发明一实施例提供的显示器的界面示意图；

图3是本发明一实施例提供的用户自定义语音命令词的方法流程示意图；

图4是本发明一实施例提供的基于命令词的语音控制系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前对设备进行语音控制的方式多为离线语音控制的方式，离线语音命令词一般是由设备生产厂商预置在设备本地，且语音命令词与设备功能一一对应。只有当用户说出的语音指令与预置的语音命令词相同时，语音识别才能成功，从而执行语音命令词对应的功能。但是，在实际的语音控制设备过程中，往往会出现用户记不住预置的语音命令词，或是预置的语音命令词不符合用户的说话习惯的情况，导致用户在运用语音控制设备的过程中不能及时说出控制命令词或者说出错误的控制命令词，从而导致语音识别过程错误或者识别超时甚至识别无效等问题，降低了语音识别的准确度以及语音控制设备的效率，同时也影响了设备的用户体验。

已有技术中，可以通过用户和设备之间语音交互的方式自定义命令词。即当语音识别结果表征用户想要自定义设备的控制功能时，设备提示用户说出想要自定义的控制功能，当确认用户说出的控制功能正确时，再提示用户说出自定义命令词，当识别结果表征用户说出的自定义命令词也正确时，将自定义命令词和控制功能存储起来，以供用户后续用自定义命令词控制设备的功能。但是根据整个过程可以看出，确定自定义命令词以及对应的控制功能的过程十分复杂，步骤繁琐，如果其中一个步骤出错，可能需要从头确认一遍，降低了自定义命令词的效率，同时也降低了用户体验。

基于以上技术问题，如图1所示，本发明实施例提供了一种基于命令词的语音控制方法，该方法可以包括以下步骤：

S100：显示器根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系；

S200：根据所述修改后的语音命令词和控制功能的对应关系，更新语法文件；

S300：根据所述更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果；

S400：根据所述语音识别结果确定对应的控制功能，以对设备进行控制。

在本发明实施例中，显示器用于用户和设备的存储数据之间进行交互，将语音命令词和控制功能的对应关系展示给用户，所以，用户可以在显示器界面上新增、编辑或者修改语音命令词等，并在显示器界面上选择与语音命令词相关联的设备控制功能。

如图2所示的显示器界面，显示器在展示语音命令词和控制功能对应关系的同时，还有新增、编辑、删除、保存等操作按钮。比如，通常设备厂商通常通过预制“增大音量”和“减小音量”来控制设备的喇叭音量大小，即“增大音量”关联了调节音量变大的控制功能，“减小音量”关联了调节音量变小的控制功能，但是有的用户会感觉设备预制的“增大音量”以及“减小音量”太拗口了，不适合平时的说话习惯，这时，如图3所示，用户就可以进入语音命令词编辑界面，发起修改语音命令词的请求，显示器接收到该请求后，进入语音命令词编辑页面新增或者编辑适合自己说话习惯的语音命令词，用户点击“新增”按钮，就可以在弹出的窗口中新增“大声一点”或者“大点声”等自定义命令词，在输入自定义命令词后，可以在显示器界面上选择与“大声一点”或者“大点声”关联的控制功能，或者在输入自定义命令词后，显示器弹出“是否选择控制功能”的提示，当用户选择的“是”时，显示器将控制功能列表弹出来供用户选择，显示器接收到用户选择的控制功能后，会将所选择的控制功能和用户新增或者编辑的语音命令词对应起来，更新到语音命令词和控制功能的对应表中。

在显示器对语音命令词和控制功能的对应关系表进行更新后，系统软件会根据最新的对应关系表更新anbf语法文件，该anbf语法文件标定了语音命令词的组合规则，并通过编译原理分析anbf语法文件，训练出与该更新后的语法文件相关的语音识别模型文件，该语音识别模型文件为更新后的语法文件中各语音命令词的语音特征向量的集合，将该语音识别模型文件覆盖用户编辑语音命令词之前的语音识别模型文件。在采集到用户语音后，就可以将用户语音信息中的语音特征向量和语音识别模型文件中的语音特征向量进行比较，并根据置信度分数得到语音识别结果。根据语音识别结果，结合语音命令词和控制功能之间的对应关系，可以匹配出与语音识别结果相关的控制功能，进而实现对设备的控制。

举个具体的例子，设备的一项控制功能一般为一段软件控制程序，设备为每项控制功能定义了一个标识id，如“增大音量”的id为1，此id对应了增大音量的软件控制程序；“减小音量”的id为2，此id对应了减小音量的控制功能，显示器在显示控制功能的时候，可以只显示控制功能的id号，也可以显示控制功能的id号和控制功能的名称，用户在自定义命令词时，可以在新增、编辑时选择控制功能的id。语音识别结果可以为文本文字，该文本文字包含在语音命令词和anbf语法文件中，根据这个文本文字以及语音命令词和控制功能之间的对应关系，可以匹配出控制功能的id，将该id发送到设备的控制单元中，就可以实现对设备的控制。

需要说明的是，用户可以新增、编辑或者删除语音命令词，但是并不改变命令词对应的控制功能。一个命令词只能对应一个控制功能，一个控制功能可以对应多个不同的命令词。如果用户在命令词编辑页面上，执行了删除操作，则同时解除与该删除的语音命令词对应的控制功能。用户新增或者编辑的语音命令词以4～6个汉字时，语音识别效果最佳。

还需要说明的是，用户也可以在显示器的命令词编辑页面上回复语音控制功能的出厂设置。

在上述实施例中，用户需要自定义命令词时，直接在显示器的命令词编辑页面中执行相关操作即可，无需不断和设备之间进行语音交互和确认，步骤简单且不易出错，提高了用户自定义命令词的效率和用户体验。

根据所述语音识别结果确定对应的控制功能，以对设备进行控制之前，进一步包括：

设备输出语音识别结果的同时还会输出置信度分数，当置信度分数大于或等于门限值时，确定语音识别对应的控制功能；当置信度分数小于门限值时，表征语音识别结果无效，设备发出语音识别无效的提示信息。

所述根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果进一步包括：

采集到用户语音后，对音频信号进行降噪和回声消除后通过编码运算可以得到一组特征向量，该特征向量就是用户语音特征向量。将用户语音特征向量和语音识别模型文件中的语音特征向量依次比较，得到置信度分数最大的语音特征向量，将置信度分数最大的语音特征向量对应的语音命令词作为语音识别结果。

当语音识别结果对应置信度分数大于或者等于设定的门限值时，说明语音识别结果有效，但是因为用户自定义语音命令词后，一项控制功能可能对应多个语音命令词，那么，置信度分数大于或者等于设定门限值的语音识别结果可能不止一个，从中选出置信度分数最大的语音特征向量作为语音识别结果，能够进一步提高语音识别的准确性。

所述根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系进一步包括：

进一步地，根据所述更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果之前进一步包括：

基于同样的发明构思，如图4所示，本发明实施例提供了一种基于命令词的语音控制系统400，该系统包括显示器401、存储单元403、语音采集单元402、数据处理单元404、和控制单元405，其中：

所述语音采集单元402用于采集用户语音信息；

所述显示器401用于根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系，并将确定的所述对应关系发送到所述存储单元401；

所述存储单元403用于在接收到所述命令词自定义发送的所述对应关系后，更新其自身所存储的语音命令词和控制功能的对应关系，根据更新的对应关系表更新所存储的语法文件，并将更新后的语法文件发送到所述数据处理单元404；

所述数据处理单元404用于根据所述存储单元401发送的语法文件生成语音识别模型文件，并根据语音采集单元402采集到的用户语音信息中的语音特征向量和所述语音识别模型中的语音特征向量得到语音识别结果，并从所述存储单元403中得到与所述语音识别结果对应的控制功能，并将所述控制功能发送到控制单元405；

控制单元405，用于根据所述数据处理单元404发送的控制功能对设备进行控制。

存储单元403可以为本地数据库存储，本地文件存储和软件常量存储，存储单元403存储有设备厂商预制的语音命令词，语音识别初始化阶段进行语法构建的命令词语法文件，以及语法构建后的语音识别模型文件、与控制功能相关联的控制程序以及语音命令词与控制程序之间的对应关系。

数据处理单元404进一步用于：

若所述语音识别结果的置信度分数大于或等于设定的门限值，则根据存储单元中存储的语音命令词和控制功能的关系确定所述语音识别结果对应的控制功能，并将所述控制功能发送到控制单元；

所述数据处理单元404进一步用于：

显示器401进一步用于：

数据处理单元404进一步用于：

可以理解的是，本发明实施例示意的结构并不构成对基于命令词的语音控制系统的具体限定。在本发明的另一些实施例中，基于命令词的语音控制系统可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的基于命令词的语音控制方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.基于命令词的语音控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别结果确定对应的控制功能，以对设备进行控制之前，进一步包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果进一步包括：

4.根据权利要求1所述的方法，其特征在于，所述根据接收到的修改语音命令词的请求，对语音命令词进行修改并确定修改后的语音命令词和控制功能的对应关系进一步包括：

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述更新后的语法文件生成语音识别模型文件，以根据用户语音信息中的语音特征向量和所述语音识别模型文件中的语音特征向量的置信度分数得到语音识别结果之前进一步包括：

6.基于命令词的语音控制系统，其特征在于，所述系统包括显示器、存储单元、语音采集单元、数据处理单元、和控制单元，其特征在于，

所述语音采集单元用于采集用户语音信息；

所述数据处理单元用于根据所述存储单元发送的语法文件生成语音识别模型文件，并根据语音采集单元采集到的用户语音信息中的语音特征向量和所述语音识别模型中的语音特征向量得到语音识别结果，并从所述存储单元中得到与所述语音识别结果对应的控制功能，并将所述控制功能发送到控制单元；

控制单元，用于根据所述数据处理单元发送的控制功能对设备进行控制。

7.根据权利要求6所述的系统，其特征在于，所述数据处理单元进一步用于：

8.根据权利要求6或7所述的系统，其特征在于，所述数据处理单元进一步用于：

9.根据权利要求6所述的系统，其特征在于，所述显示器进一步用于：

10.根据权利要求6或7所述的系统，其特征在于，所述数据处理单元进一步用于：