CN110706696A

CN110706696A - 一种语音控制方法及装置

Info

Publication number: CN110706696A
Application number: CN201910914019.XA
Authority: CN
Inventors: 胡志华; 贾巨涛; 谢俊杰; 胡天云; 魏德平
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-17

Abstract

本申请涉及一种语音数据控制方法及装置，包括：获取终端上传的语音数据；根据语音数据得到用户意图信息；根据知识图谱的图数据库中的管控词与用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端；在用户意图信息是用于管控终端的时候，将与用户意图信息表征的意图对应的管控指令下发至终端，使终端执行与管控指令相应的动作。本申请通过在云端服务器进行语义解析处理，得到用户意图信息，将其与知识图谱的图数据库中的管控词进行对比，如果命中，就执行唤醒设备操作；这种方法可以在知识图谱的图数据库中设置多个管控词，后期修改或更新管控词也比较方便，并且可以实现在线更换或更新管控词操作，提高对终端进行语音数据管控的命中率。

Description

一种语音控制方法及装置

技术领域

本申请涉及语音控制技术领域，尤其涉及一种语音控制方法及装置。

背景技术

随着语音数据识别技术的发展，越来越多的终端能够通过语音数据进行控制。但是，目前行业内普遍做法都是预防先在设备或软件中预置唤醒词，当用户发出该语音数据指令时，设备便从休眠状态中被唤醒。这种方法的好处就是便捷，响应速度快。但一般只能设置一个唤醒词，不支持多个唤醒词操作；即使能够支持多个唤醒词，也都是用户在对终端进行设置时，人工录入的，在其他用户想要进行语音数据唤醒时，由于可能存在不了解准确唤醒词的情况，即使语意相同，也无法实现准确识别，并实现唤醒功能。

针对相关技术中存在的诸多技术问题，目前尚未提供有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种语音控制方法及装置。

第一方面，本申请提供了一种语音控制方法，包括：

获取终端上传的语音数据；

根据所述语音数据得到用户意图信息；其中，所述用户意图信息为用于表征用户意图的文本信息；

根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端；其中，所述知识图谱的图数据库中至少包括一个所述管控词；

在所述用户意图信息是用于管控终端的时候，将与所述用户意图信息表征的意图对应的管控指令下发至所述终端，使终端执行与所述管控指令相应的动作；其中，所述管控指令为用于管控终端运行的指令。

进一步地，如前述的语音控制方法，所述根据所述语音数据得到用户意图信息，包括：

对所述语音数据进行语音识别得到音频文件；

根据所述音频文件得到文本信息；

对所述文本信息进行语义解析得到所述用户意图信息。

进一步地，如前述的语音控制方法，所述根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端，包括：

判断所述用户意图信息是否用于唤醒所述终端；

在所述用户意图信息用于唤醒所述终端时，将所述用户意图信息在所述知识图谱的图数据库中进行唤醒词匹配；其中，所述唤醒词为所述管控词中的一种，所述唤醒词为用于唤醒所述终端的词语；

确认所述用户意图信息是否在所述知识图谱的图数据库中匹配得到唤醒词，若匹配得到，则判定所述用户意图信息是用于唤醒所述终端。

获取所述用户意图信息与预设于所述知识图谱的图数据库中的唤醒词之间的相似度；其中，所述唤醒词为所述管控词中的一种，所述唤醒词为用于唤醒所述终端的词语；

在所述相似度高于预设的阈值时，则判定所述用户意图信息是用于唤醒所述终端。

第二方面，本申请提供了一种语音控制装置，包括：

语音数据获取模块，用于获取终端上传的语音数据；

意图模块，用于根据所述语音数据得到用户意图信息；其中，所述用户意图信息为用于表征用户意图的文本信息；

判断模块，用于根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端；其中，所述知识图谱的图数据库中至少包括一个所述管控词；

发送模块，用于在所述用户意图信息是用于管控终端的时候，将与所述用户意图信息表征的意图对应的管控指令下发至所述终端，使终端执行与所述管控指令相应的动作；其中，所述管控指令为用于管控终端运行的指令。

第三方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现如第一方面中任一项所述的控制方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面中任一项所述的控制方法。

第五方面，本申请提供了一种语音控制方法，包括：

获取用户的语音数据并上传至服务器；

接受服务器下发的管控指令；其中，所述管控指令为所述服务器根据所述语音数据得到用户意图信息，并判断所述用户意图信息是用于管控终端之后生成或调用得到；

执行与所述管控指令相应的动作。

第六方面，本申请提供了一种语音控制装置，包括：

语音处理模块，获取用户的语音数据并上传至服务器；

接受模块，用于接受服务器下发的管控指令；其中，所述管控指令为所述服务器根据所述语音数据得到用户意图信息，并判断所述用户意图信息是用于管控终端之后生成或调用得到；

执行模块，用于执行与所述管控指令相应的动作。

第七方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现如第五方面中所述的控制方法。

第八方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第五方面中所述的控制方法。

本申请实施例提供的一种语音数据控制方法及装置，包括：获取终端上传的语音数据；根据所述语音数据得到用户意图信息；其中，所述用户意图信息为用于表征用户意图的文本信息；根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端；其中，所述知识图谱的图数据库中至少包括一个所述管控词；在所述用户意图信息是用于管控终端的时候，将管控指令下发至所述终端，使终端执行与所述管控指令相应的动作；其中，所述管控指令为用于管控终端运行的指令。本申请通过在云端服务器进行语义解析处理，得到用户意图信息，将其与知识图谱的知识图谱的图数据库中的管控词进行对比，如果命中，就执行唤醒设备操作；这种方法可以在知识图谱的图数据库中设置多个管控词，后期修改或更新管控词也比较方便，并且可以实现在线更换或更新管控词操作，提高对终端进行语音数据管控的命中率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用于服务器端的语音控制方法的流程示意图；

图2为如图1所示步骤S3的一种实施例的方法流程示意图；

图3为如图1所示步骤S3的又一种实施例的方法流程示意图；

图4为本申请实施例提供的一种应用于服务器端的语音控制装置的功能模块结构示意图；

图5为本申请实施例提供的一种应用于服务器端的电子设备的结构示意图；

图6为本申请实施例提供的一种应用于终端的语音控制方法的流程示意图；

图7为本申请实施例提供的一种应用于终端的语音控制装置的功能模块结构示意图；

图8为本申请实施例提供的一种应用于终端的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种语音控制方法，应用于服务器端，包括如下所述的步骤S1至S4：

S1.获取终端上传的语音数据；

也就是说，语音的采集是由终端进行的，且一般采集的是模拟信号，会将其转换为数字信号后再上传至云端服务器中，举例来说：当用户对空调通过语音对话进行控制的时候，空调根据用户的对话得到对应的语音数据，并且将其通过网络上传至所述云端服务器中；

S2.根据语音数据得到用户意图信息；其中，用户意图信息为用于表征用户意图的文本信息；

具体的，云端服务器在得到语音数据之后，对其进行识别处理，进而得到能够表征用户意图的用户意图信息，且一般的，所述用户意图信息为通过文本的形式；举例来说，仍以空调为例：

S3.根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端；其中，知识图谱的图数据库中至少包括一个管控词；

具体的，知识图谱的图数据库为一种图形数据库，是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。知识图谱的图数据库是一种非关系型数据库，它应用图形理论存储实体之间的关系信息。图形数据库具有查询简单、速度快的特点；一般的，所述知识图谱的图数据库中的管控词可以是用户上传至云端服务器中的，因此用户可以随时进行自定义管控词的更新；且知识图谱的图数据库中的各个管控词之间可能会存在关系，代表其意义相近或相关联等信息；进一步的，判断管控词判断用户意图信息是否用于管控终端可以通过判断所述用户意图信息是否与所述管控词一致，或者用户意图信息是否是管控词的近义词等方式；

S4.在用户意图信息是用于管控终端的时候，将与用户意图信息表征的意图对应的管控指令下发至终端，使终端执行与管控指令相应的动作；其中，管控指令为用于管控终端运行的指令；

具体的，在用户意图信息是用于管控终端的时候，即为用户意图信息是用于诸如“开机”、“关机”以及“升高温度”等等用于对终端进行管控的信息时；与用户意图信息表征的意图对应的管控指令具体为，管控指令所执行的行为是与用户意图信息所表征的意图是一致的，例如：当用户意图信息为“关机”时；则管控指令为关机指令，当用户意图信息为“太热了”时，则管控指令为“降低温度”或“打开空调”等等。

在一些实施例中，如前述的语音控制方法，所述步骤S2.根据语音数据得到用户意图信息，包括如下步骤：

由于计算机并不能直接理解一个词的含义，而是通过将其与存储于计算机中的文本信息进行比较进而确定其含义，因此无法直接通过语音数据得到其含义，而需要通过将其转换为文本信息之后与知识图谱的图数据库中的词语或句子进行比较，以判断其意图；

对语音数据进行语音识别得到音频文件；

具体的，由于语音数据无法直接处理得到文本信息，而需要将其转换为音频文件后才能够进行处理，因此需要执行该步骤；且，进一步的，本步骤相当于将用户讲的话通过语音识别转化为音频文件，

根据音频文件得到文本信息；

也就是说，对音频文件进行识别，得到与音频文件对应的文本化的文本信息；

对文本信息进行语义解析得到用户意图信息；

具体的，所述语义解析为：对所述文本信息进行理解，获得其深层次概念，进而得到所述用户意图信息；通过对文本信息得到的用户意图信息可以是一个也可以是多个，且不同的用户意图信息之间可以是互为近义词，以提高在知识图谱的图数据库中匹配的命中率。

如图2所示，在一些实施例中，如前述的语音控制方法，所述步骤S3.根据知识图谱的图数据库中的管控词与用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端，包括如下所述步骤S311至S313：

S311.判断用户意图信息是否用于唤醒终端；

具体的，也就是说，在此实施例中，管控的动作是唤醒；并且通过对前述实施例中得到的用户意图信息进行语义解析，初步判断其是否是用于唤醒终端的；

S312.在用户意图信息用于唤醒终端时，将用户意图信息在知识图谱的图数据库中进行唤醒词匹配；其中，唤醒词为管控词中的一种，唤醒词为用于唤醒终端的词语；

具体的，唤醒终端可以是用于唤醒终端电子设备，也可以是或启动终端上某一软件，在实际使用时，可以根据唤醒的对象进行选择；由于通过语义解析得到的用户意图信息不是准确的，只能够得到用户的大致意图；而为了得到用户的准确意图，因此需要将所述用户意图信息在知识图谱的图数据库中的唤醒词进行比较，判断是否能够匹配得到对应的唤醒词；且优选的，采用正则匹配的方法将用户意图信息在知识图谱的图数据库中进行唤醒词匹配；

S313.确认用户意图信息是否在知识图谱的图数据库中匹配得到唤醒词，若匹配得到，则判定用户意图信息是用于唤醒终端；

也就是说，在上一步骤的基础上，得到相应的匹配结果，若匹配得到唤醒词，则能够判定用户意图信息表征的意图是唤醒终端的，反之，无法在知识图谱的图数据库中匹配得到唤醒词，则不将该用户意图信息判定为唤醒词；

举例来说：

(1)用户跟空调进行对话，说“格力空调”；

(2)用户跟空调进行对话，说“你好，格力空调”；

(3)用户跟空调进行对话，说“格力，格力”；

如果知识图谱的图数据库中的唤醒词包括：“格力”和“空调”；则上述对话均命中唤醒词，空调就执行唤醒操作，优选的，空调还可以响应“我在”；如果知识图谱的图数据库中的唤醒词只包括“空调”，则对话(1)和(2)命中了唤醒词，空调执行唤醒操作；而对话(3)未命中唤醒词，则不执行唤醒操作；进一步的，唤醒词可以是一个词语也可以是一个句子。

如图3所示，在一些实施例中，如前述的语音控制方法，所述步骤S3.根据知识图谱的图数据库中的管控词与用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端，包括：

S321.获取用户意图信息与预设于知识图谱的图数据库中的唤醒词之间的相似度；其中，唤醒词为所述管控词中的一种，唤醒词为用于唤醒终端的词语；

也就是说，本实施例中的方法并不是直接判断所述用户意图信息是否命中知识图谱的图数据库中的某一个唤醒词，而是判断用户意图信息与唤醒词之间是否是同义词，具体的，由于唤醒词会存在一个或多个，因此当存在多个时需要逐个进行相似度判断；

S322.在相似度高于预设的阈值时，则判定用户意图信息是用于唤醒终端；

具体的，阈值的设定可以根据人为设定的匹配精度进行选择，一般的，由于相似度值大于等于0小于等于1，且越接近于1则表征用户意图信息与唤醒词之间的相似度越高，因此阈值也在0～1的区间内，且阈值越高则代表匹配的精度也越高；

举一个例子来说明，计算两个文本的相似性的方法如下所述：

当用户意图信息为：今天天气温度很高，开一下空调。

唤醒词为：今天天气温度不低，开空调吧。

计算上述这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

用户意图信息为：今天/温度/很高，开/一下/空调。

唤醒词为：今天/温度/不低，开/空调/吧。

第二步，列出所有的词。

今天、温度、很高、不低、开、一下、空调、吧。

第三步，计算词频。

用户意图信息：今天1，温度1，很高1，不低0，开1，一下1，空调1，吧0；

唤醒词：今天1，温度1，很高0，不低1，开1，一下0，空调1，吧1；

第四步，写出词频向量。

用户意图信息：(1，1，1，0，1，1，1，0)；

唤醒词：(1，1，0，1，1，0，1，1)；

然后再通过计算上述两个向量之间的余弦值，来判断用户意图信息与唤醒词之间的相似程度。余弦值越大，就代表越相似。

具体使用的公式两个向量的相似度的公式如下所示：

用户意图信息对应的向量为：(1，1，1，0，1，1，1，0)；

唤醒词对应的向量为：(1，1，0，1，1，0，1，1)；

则用户意图信息与唤醒词之间向量余弦值来确定两个句子的相似度。

计算过程如下：

在预设的阈值为0.5时，由于得到的相似度

因此得到用户意图信息与唤醒词意思是相近的，则判定用户意图信息是用于唤醒终端的。

如图4所示，根据本申请的另一个实施例，还提供了一种语音控制装置，包括：

语音数据获取模块11，用于获取终端上传的语音数据；

意图模块12，用于根据语音数据得到用户意图信息；其中，用户意图信息为用于表征用户意图的文本信息；

判断模块13，用于根据知识图谱的图数据库中的管控词与用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端；其中，知识图谱的图数据库中至少包括一个所述管控词；

发送模块14，用于在用户意图信息是用于管控终端的时候，将与用户意图信息表征的意图对应的管控指令下发至终端，使终端执行与管控指令相应的动作；其中，管控指令为用于管控终端运行的指令。

具体的，本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述，此处不再赘述。

如图5所示，根据本申请的另一个实施例，还提供一种电子设备，设于服务器端，包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现上述应用于服务器端的方法实施例的步骤。

本申请实施例还提供一种计算机可读存储介质，设于服务器端，计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述应用于服务器端的方法实施例的步骤。

如图6所示，根据本申请的另一个实施例，还提供了一种语音控制方法，应用于终端，包括如下所述步骤Y1至Y3：

Y1.获取用户的语音数据并上传至服务器；

Y2.接受服务器下发的管控指令；其中，管控指令为服务器根据语音数据得到用户意图信息，并判断用户意图信息是用于管控终端之后生成或调用得到；

Y3.执行与管控指令相应的动作。

具体的，本发明实施例的方法中各步骤的具体实现过程可参见应用于服务器端的方法实施例中的相关描述，此处不再赘述。

如图7所示，根据本申请的另一个实施例，还提供了一种语音控制装置，应用于终端包括：

语音处理模块21，获取用户的语音数据并上传至服务器；

接受模块22，用于接受服务器下发的管控指令；其中，管控指令为服务器根据语音数据得到用户意图信息，并判断用户意图信息是用于管控终端之后生成或调用得到；

执行模块23，用于执行与管控指令相应的动作。

具体的，本发明实施例的方法中各步骤的具体实现过程与应用于终端的方法实施例中的内容一致，此处不再赘述。

根据本申请的另一个实施例，还提供一种电子设备，应用于终端，包括：如图8所示，电子设备可以包括：处理器1601、通信接口1602、存储器1603和通信总线1604，其中，处理器1601，通信接口1602，存储器1603通过通信总线1604完成相互间的通信。

存储器1603，用于存放计算机程序；

处理器1601，用于执行存储器1603上所存放的程序时，实现上述方法实施例的步骤。

本申请实施例还提供一种计算机可读存储介质，应用于终端，计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述方法实施例的步骤。

上述应用于服务器端或终端的电子设备提到的总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音控制方法，其特征在于，包括：

获取终端上传的语音数据；

2.根据权利要求1所述的语音控制方法，其特征在于，所述根据所述语音数据得到用户意图信息，包括：

对所述语音数据进行语音识别得到音频文件；

根据所述音频文件得到文本信息；

对所述文本信息进行语义解析得到所述用户意图信息。

3.根据权利要求1所述的语音控制方法，其特征在于，所述根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端，包括：

判断所述用户意图信息是否用于唤醒所述终端；

4.根据权利要求1所述的语音控制方法，其特征在于，所述根据知识图谱的图数据库中的管控词与所述用户意图信息之间的匹配情况判断所述用户意图信息是否用于管控终端，包括：

5.一种语音控制装置，其特征在于，包括：

语音数据获取模块，用于获取终端上传的语音数据；

6.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1-4任一项所述的控制方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-4任一项所述的控制方法。

8.一种语音控制方法，其特征在于，包括：

获取用户的语音数据并上传至服务器；

执行与所述管控指令相应的动作。

9.一种语音控制装置，其特征在于，包括：

语音处理模块，获取用户的语音数据并上传至服务器；

执行模块，用于执行与所述管控指令相应的动作。

10.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求8所述的控制方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求8所述的控制方法。