CN112017662A

CN112017662A - 控制指令确定方法、装置、电子设备和存储介质

Info

Publication number: CN112017662A
Application number: CN201910472446.7A
Authority: CN
Inventors: 雷京颢
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2020-12-01
Anticipated expiration: 2039-05-31
Also published as: CN112017662B

Abstract

本申请实施例提供了一种控制指令确定方法、装置、电子设备和存储介质，所述方法包括：接收输入的语音数据；按预设顺序从语音数据中提取音频特征；根据音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；有向图由多个候选词节点按照预设先后顺序构建。本申请在应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。并且由于有向图的逻辑性，本申请无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，提高识别控制指令的准确率。

Description

控制指令确定方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种控制指令确定方法和装置、一种电子设备和一种存储介质。

背景技术

在互联网市场中，通过语音交互实现人机交互的设备已经非常普及，如目前的一些通过语音进行控制的家电：音控台灯、音控冰箱等。

目前，通过语音交互实现人机交互的设备，通常可以接收用户发出的语音数据，并在确定了语音数据对应的控制指令后，执行该控制指令。具体的，语音人机交互设备的控制指令确定方式通常有两种。方案一，语音人机交互设备在收到语音数据后，通过与互联网的网络连接，将语音数据上传至云端服务器，由云端服务器根据NLU等复杂的语义识别算法实现对语音数据进行语义分析，从而确定得到语音数据对应的控制指令。方案二，语音人机交互设备在收到语音数据后，将整个语音数据与预设的固定语义模板进行正则匹配，获取控制指令。

但是，发明人在研究过程中发现，目前方案中，方案一，由于语义识别算法复杂，其依赖功能强大的云端服务器，存在较长多的数据传输过程，依赖于网络环境，导致控制指令的确定过程耗时较长，且由于复杂的语义识别算法对资源消耗较大，如果放在终端设备中，则需要占用大量终端设备的资源。方案二中需要将用户说出的整条语音数据遍历所有固定语义模板遍历时间长，导致控制指令识别耗时较长，且由于是整条语音数据与固定语义模板整体进行匹配，而因为语音识别本身的错误率随着语句的长度增长增多而增大，因此其准确率较低。。

发明内容

本申请实施例提供了一种控制指令确定方法，以使得控制指令的确定方法可以在应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时，并且由于有向图的逻辑性，本申请无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，提高识别控制指令的准确率。

相应的，本申请实施例还提供了一种控制指令确定装置、一种电子设备和一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种控制指令确定方法，所述的方法包括：

接收输入的语音数据；

按预设顺序从所述语音数据中提取音频特征；

根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

本申请实施例还公开了另一种控制指令确定方法，所述方法包括：

接收输入的语音数据；

从所述语音数据中提取音频特征；

根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点构建。

本申请实施例还公开了一种控制指令确定装置，所述的装置包括：

接收模块，用于接收输入的语音数据；

提取模块，用于按预设顺序从所述语音数据中提取音频特征；

处理模块，用于根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

接收模块，用于接收输入的语音数据；

提取模块，用于从所述语音数据中提取音频特征；

处理模块，用于根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点构建。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的控制指令确定方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的控制指令确定方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，由于采用了有向图参与了识别过程，该有向图由多个候选词节点按照预设先后顺序构建。首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在按预设顺序提取出音频特征的情况下，按照有向图中候选词节点具备有序性这一特点，在识别的时候能够基于有向图的有序性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。

附图说明

图1是本申请实施例的一种语音交互设备的示意图；

图2是本申请实施例的另一种语音交互设备的示意图；

图3是本申请实施例的一种控制指令确定方法的步骤流程图；

图4是本申请实施例的另一种控制指令确定方法的步骤流程图；

图5是本申请实施例的一种控制指令确定方法的具体步骤流程图；

图6是本申请实施例的另一种控制指令确定方法的具体步骤流程图；

图7是本申请实施例的一种控制指令确定装置的结构框图；

图8是本申请实施例的另一种控制指令确定装置的结构框图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请实施例的一种语音交互设备的示意图。本申请实施例提供的一种控制指令确定方法可以应用于所述语音交互设备10。

在本申请实施例中，语音交互设备10可以为音箱设备、移动终端、智能家居设备等设备，其中移动终端设备可以包括智能手机、平板电脑、手提电脑等设备，智能家居设备包括电视、冰箱、洗衣机、灯具、热水器等。语音交互设备10可以包括语音接收装置，如麦克风等，用以接收用户20发出的语音数据；语音交互设备10还可以包括语音播放装置，如扬声器等，用以播放音频；语音交互设备10还可以包括处理器、有线/无线网络模块，处理器用于对接收到的语音数据进行处理，得到语音数据对应的目标控制指令，语音交互设备10用于通过有线/无线网络模块接收或发送数据。并且，语音交互设备10中还可以预置有音频特征采集模型，用于提取语音数据中的多个音频特征。

另外，语音交互设备10中还可以预置有由多个有向图成的有向图，有向图中可以包括多个候选词节点，候选词节点分为三个分类：源点词、汇点词和中间词，其中，源点词可以作为自然语言控制指令的起始词，汇点词可以作为自然语言控制指令的结束词，而中间词是自然语言控制指令中除起始词、结束词之外的词。

源点词、汇点词和中间词可以组成有向图，一幅有向图是由多个图节点和多个有方向的边组成的，有向边由一个节点指出并指向另一个节点，其中，每个候选词节点可以作为图节点，候选词节点与候选词节点之间的指向关系为边，根据候选词节点的分类，对边也有限定，如，源点词只能指向其他词，而不能被指向；汇点词只能接收其他词的指向，而不能指向其他词；中间词可以接收源点词的指向，并可以指向汇点词或其他中间词。根据候选词节点与候选词节点之间边的指向关系，可以构成多条候选词节点路径，每条候选词节点路径包括具有多个具有先后顺序的候选词节点。候选词节点路径的各个候选词节点按照预设先后顺序可以构建得到一条自然语言控制指令，在对应关系表中，一条自然语言控制指令可以对应一条目标控制指令，在本发明实施例中，一条候选词节点路径可以为一条自然语言控制指令。

需要说明的是，一条目标控制指令可以为一条设备控制指令。具体的，若语音交互设备需要实现一个功能，则语音交互设备可以执行与该功能所对应的设备控制指令，设备控制指令可以是语音交互设备从事某一特殊运算的代码，语音交互设备的处理器可以执行该代码，通过触发特殊运算来实现相关功能。如在图1的对应关系表中，存在一个目标控制指令“A”，该目标控制指令“A”可以是一串由0和1组成的二进制代码，当然也可以是某种编程语言构建的代码，该编程语言可以是C语言、JAVA语言等机器编程语言，本申请实施例不对其加以限制。

另外，自然语言控制指令可以是能够被人类所理解的指令，比如图1中，“我想要听音乐”、“我想要打开卧室灯”、“我想要关闭卧室灯”、“我想要打开客厅灯”、“我想要关闭客厅灯”、“我想要休息”为自然语言控制指令，该自然语言控制指令与目标控制指令对应。比如用户说了一句“我想要听音乐”的语音数据，本申请的语音交互设备接收到该语言数据，然后在有向图中进行识别，匹配上了“我想要”、“听”、“音乐”几个候选词节点，然后该几个候选词节点对应的候选词节点路径“我想要听音乐”，再在如在图1的对应关系表中，查找到“我想要听音乐”对应的目标控制指令“A”，语音交互设备执行A，则可以实现打开播放器，并播放存储在播放器中的音乐的功能。同理，对“我想要休息”，识别到其对应的目标控制指令为F，在本申请实施例中可以对“我想要休息”用户需求定义为设备休眠或者关机，那么目标控制指令F则对应休眠指令或者关机指令，语音交互设备执行F，则可以实现设备休眠或者关机的操作。

具体的，语音交互设备可以执行步骤S1、接收输入的语音数据。在语音交互设备进行与用户20之间的语音交互时，可以通过语音接收装置接收用户20发出的语音数据。

语音交互设备可以执行步骤S2、按预设顺序从所述语音数据中提取音频特征。

一般来说，人在说一个句子的过程中，说出每一个完整的词语大概花费0.5秒的时间，因此，可以在接收到语音数据时，按照0.5秒的时间周期，从语音数据的起始点依次提取语音数据中的多个音频特征帧，将0.5秒内包括的多个音频特征帧成一个音频特征，使得音频特征可以表达一个词。音频特征可以为向量表达式的文本格式。

语音交互设备可以执行步骤S3、根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

具体的，有向图的实现包括：首先对自然语言控制指令进行分词，并根据每个分词的词意，对分词进行分类，确定分词属于源点词节点或汇点词节点或中间词节点，之后按照分词的节点分类，以及各个候选词节点之间边的指向关系，建立有向图。

例如，参照图1中的对应关系表，假设语音交互设备为灯具，支持6个自然语言控制指令，自然语言控制指令1：我想要听音乐，对应目标控制指令“A”。自然语言控制指令2：我想要打开卧室灯，对应目标控制指令“B”。自然语言控制指令3：我想要关闭客厅灯，对应目标控制指令“C”。自然语言控制指令4：我想要打开客厅灯，对应目标控制指令“D”。自然语言控制指令5：我想要关闭卧室灯，对应目标控制指令“E”。自然语言控制指令6：我想要休息，对应目标控制指令“F”。对上述6个自然语言控制指令进行分词处理后，可以得到“我想要”、“打开”、“关闭”、“客厅灯”、“卧室灯”、“听”、“音乐”、“休息”8个分词，其中根据这8个分词的词意及语言语法，可以将“我想要”确定为源点词，将“打开”、“关闭”、“听”确定为中间词，将“客厅灯”、“卧室灯”、“音乐”、“休息”确定为汇点词。并根据词与词之间的指向关系为边的定义，得到图1中的有向图。

需要说明的是，在一些情况下，若自然语言控制指令较为简单，也可以去除中间词，如，自然语言控制指令为：“我想要休息”，则有向图中可以仅包括源点词和汇点词，源点词为“我想要”，汇点词为“休息”。

进一步的，语音交互设备利用预设的有向图确定目标候选词节点路径、具体可以将表示一个词的音频特征与候选词节点包括的候选词的文本特征进行相似度计算，并根据计算结果确定候选词节点的相似度值。

具体的，由于一个音频特征对应语音数据的0.5秒内容，所以一个音频特征可以代表一个词，因此，可以将音频特征与有向图中的候选词节点包括的候选词的文本特征进行相似度计算，从而确定音频特征代表的词与候选词节点代表的词之间的相似程度。该过程的具体实现可以通过进一步提取候选词节点的文本特征，并计算候选词节点的文本特征与音频特征之间的余弦距离，将余弦距离的值作为该候选词节点的相似度值。

进一步的，假设语音数据按顺序提取得到了三个音频特征，再根据有向图中源点词节点、中间词节点和汇点词节点的划分，将第一组音频特征与源点词节点进行匹配，匹配成功后，将第二组音频特征与中间词节点进行匹配，匹配成功后，将第案组音频特征与汇点词节点进行匹配，匹配成功后，确定得到了目标候选词节点路径。

例如，参照图1，用户通过语音数据说出了：“我要开卧室的灯”。并提取得到了对应的音频特征1来代表“我要”，音频特征2来代表“开”，音频特征3来代表“卧室的灯”，将这三个音频特征分别与有向图中的每个候选词节点的文本特征进行相似度计算，最后统计到源点词(我想要)的最高相似度为90％，即相似度值为90。中间词(打开)的最高相似度为85％，即相似度值为85。中间词(关闭)的最高相似度为10％，即相似度值为10。汇点词(客厅灯)的最高相似度为15％，即相似度值为15。汇点词(卧室灯)的最高相似度为90％，即相似度值为90。

在确定候选词节点的相似度值之后，语音交互设备可以将相似度值最高的源点词的词尾与相似度值最高的汇点词的词头进行连接，得到目标候选词节点路径，即确定了一条自然语言控制指令。

在本发明实施例的一种实现方式中，在确定了一条自然语言控制指令之后，参照图1中的对应关系表，语音交互设备可以根据自然语言控制指令与目标控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令。

参照图1，最后提取相似度值最高的源点词(我想要)、相似度值最高的中间词(打开)、相似度值最高的汇点词(卧室灯)进行依次连接，得到目标候选词节点路径为自然语言控制指令：“我想要打开卧室灯”，根据目标候选词节点路径与目标控制指令“B”的匹配关系，可以得到目标控制指令为“B”，则语音交互设备可以根据目标控制指令，对应执行打开卧室的灯的操作。

另外，在本发明实施例的另一种实现方式中，参照图2，还可以将目标控制指令拆分为多个控制指令段，并将控制指令段对应添加至有向图中的对应候选词节点，如，假设语音交互设备为灯具，支持6个自然语言控制指令，自然语言控制指令1：我想要听音乐。自然语言控制指令2：我想要打开卧室灯。自然语言控制指令3：我想要关闭客厅灯。自然语言控制指令4：我想要打开客厅灯。自然语言控制指令5：我想要关闭卧室灯。自然语言控制指令6：我想要休息。根据这6个自然语言控制指令可以构建得到图2中的有向图。

其中，每个候选词节点包括对应控制指令段，如，候选词节点“我想要”可以包括控制指令段a。候选词节点“休息”可以包括控制指令段b。候选词节点“听”可以包括控制指令段c。候选词节点“打开”可以包括控制指令段d。候选词节点“关闭”可以包括控制指令段e。候选词节点“音乐”可以包括控制指令段f。候选词节点“客厅灯”可以包括控制指令段g。候选词节点“卧室灯”可以包括控制指令段h。

则自然语言控制指令1对应的目标控制指令为a+c+f。自然语言控制指令2对应的目标控制指令为a+d+h。自然语言控制指令3对应的目标控制指令为a+e+g。自然语言控制指令4对应的目标控制指令为a+d+g。自然语言控制指令5对应的目标控制指令为a+e+h。自然语言控制指令6对应的目标控制指令为a+b。

则在确定了一条自然语言控制指令之后，可以将其包括的各个候选词节点所包括的控制指令段进行组合，得到对应的目标控制指令，即确定了目标控制指令。

如，参照图2，最后提取相似度值最高的源点词(我想要)、相似度值最高的中间词(打开)、相似度值最高的汇点词(卧室灯)进行依次连接，得到目标候选词节点路径为自然语言控制指令：“我想要打开卧室灯”，将自然语言控制指令：“我想要打开卧室灯”包括的三个控制指令段a、d、h进行组合，可以得到目标控制指令为“a+d+h”，则语音交互设备可以根据目标控制指令，对应执行打开卧室的灯的操作。需要说明的是，将a、d、h进行组合时，并非仅限于按照固定顺序进行组合，本申请实施例对控制指令段的组合顺序不作限定。

因此，在本申请实施例中，由于采用了有向图参与了识别过程，该有向图由多个候选词节点按照预设先后顺序构建。首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在按预设顺序提取出音频特征的情况下，按照有向图中候选词节点具备有序性这一特点，在识别的时候能够基于有向图的有序性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。

基于上述语音交互设备，控制指令确定装置可执行如下的控制指令确定步骤：

参照图3，示出了本申请的一种控制指令确定方法实施例的步骤流程图。

步骤101，接收输入的语音数据。

在语音交互设备进行与用户之间的语音交互时，可以通过语音交互设备包括的语音接收装置接收用户发出的语音数据。

步骤102，按预设顺序从所述语音数据中提取音频特征。

在本申请实施例中，语音数据为维度较高的文件格式，为了降低对语音数据的处理难度，首先需要对语音数据进行音频特征提取，以降低语音数据的处理维度。

需要说明的是，特征是某一类对象区别于其他类对象的相应特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据，特征提取的主要目的是降维，且其主要思想是将原始样本投影到一个低维特征空间，得到最能反应样本本质或进行样本区分的低维样本特征。

另外，一般来说，人在说一个句子的过程中，说出每一个完整的词语大概花费0.5秒的时间，因此，可以在接收到语音数据时，按照0.5秒的时间周期，从语音数据的起始点依次提取语音数据中的多个音频特征帧，将0.5秒内包括的多个音频特征帧组成一个音频特征，使得音频特征可以表达一个词。音频特征可以为向量表达式的文本格式。音频特征可以为向量表达式的文本格式。提取得到的多个音频特征可以按照预设顺序排列。

步骤103，根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

在本申请实施例中，其中，所述有向图由多个候选词节点按照预设先后顺序构建，本申请实施例可以对自然语言控制指令进行分词，并根据每个分词的词意，对分词进行分类，之后按照分词的分类，建立有向图。

具体的，有向图中候选词节点的分类可以包括：源点词、中间词和汇点词，源点词可以作为自然语言控制指令的起始词，汇点词可以作为自然语言控制指令的结束词，而中间词是自然语言控制指令中除起始词、结束词之外的词。源点词、汇点词可以组成有向图，一幅有向图是由多个图节点和多个有方向的边组成的，有向边由一个节点指出并指向另一个节点，其中，每个候选词节点可以作为图节点，候选词节点与候选词节点之间的指向关系为边，根据候选词节点的分类，对边也有限定，如，源点词只能指向其他词，而不能被指向；汇点词只能接收其他词的指向，而不能指向其他词，中间词可以接收源点词的指向，并可以指向汇点词或其他中间词。

例如，若自然语言控制指令为：“开启热点”，则有向图中可以包括源点词和汇点词，源点词为“开启”，汇点词为“热点”。

进一步的，在本申请实施例中，由于一个音频特征一般可以对应语音数据的0.5秒内容，所以一个音频特征可以代表一个词，因此，可以将音频特征与有向图中的候选词节点包括的候选词的文本特征进行相似度计算，从而确定音频特征代表的词与候选词节点之间的相似程度。该过程的具体实现可以通过进一步提取候选词节点的文本特征，并计算候选词节点的文本特征与音频特征之间的余弦距离，将余弦距离的值作为该候选词节点的相似度值。

进一步的，假设，语音数据按顺序提取得到了三个音频特征，再根据有向图中源点词节点、中间词节点和汇点词节点的划分，将第一组音频特征与源点词节点进行匹配，匹配成功后，将第二组音频特征与中间词节点进行匹配，匹配成功后，将第案组音频特征与汇点词节点进行匹配，匹配成功后，确定得到了一条目标候选词节点路径，即得到了一条自然语言控制指令。

需要说明的是，在本申请实施例中，还可以设定一个预设阈值，使得可以从相似度值大于或等于所述预设阈值的候选词节点中，选出相似度值最高的候选词节点组成自然语言控制指令，这样可以避免相似度值过低的候选词节点被选入自然语言控制指令的组成词，导致自然语言控制指令与用户说的话含义相差太大的情况发生。

例如，该预设阈值可以选为80分，假设候选词节点中某个源点词或汇点词的最高相似度值小于该80分，则认为用户说出的语音不标准或含义不明确，可以提醒用户重新说出语音。

在本申请实施例中，当候选词节点库中的所有候选词节点都具有相应的相似度值后，提取相似度值最高的源点词的词尾与相似度值最高的汇点词的词头进行连接，得到目标候选词节点路径，在一种实现方式中，可以根据候选词节点路径与控制指令之间的对应关系，得到目标候选词节点路径对应的目标控制指令。

在另一种实现方式中，还可以将目标控制指令拆分为多个控制指令段，并将控制指令段对应添加至有向图中的对应候选词节点，则在确定了一条自然语言控制指令之后，可以将其包括的各个候选词节点所包括的控制指令段进行组合，得到对应的目标控制指令，即确定了目标控制指令。

综上所述，本申请提供的一种控制指令确定方法，由于采用了有向图参与了识别过程，该有向图由多个候选词节点按照预设先后顺序构建。首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在按预设顺序提取出音频特征的情况下，按照有向图中候选词节点具备有序性这一特点，在识别的时候能够基于有向图的有序性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。

参照图4，示出了本申请的一种控制指令确定方法实施例的步骤流程图。

步骤201，接收输入的语音数据。

步骤202，从所述语音数据中提取音频特征。

具体的，在本申请实施例中，可以在用户输入语音数据的同时，实时提取输入的语音数据的音频特征，直至用户输入语音数据结束，得到多个音频特征。另外，也可以在用户输入语音数据结束后，对得到的整个语音数据进行音频特征的提取，得到多个音频特征。

步骤203，根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点构建。

在本申请实施例中，其中，所述有向图由多个候选词节点构建，本申请实施例可以对自然语言控制指令进行分词，并根据每个分词的词意，对分词进行分类，之后按照分词的分类，建立有向图。

在建立有向图之后，可以基于步骤202得到的多个音频特征，可以确定每个音频特征与有向图中的所有候选词节点之间的相似度值，并确定一个与音频特征之间的相似度值最高的候选词节点，当每个音频特征都确定了一个对应的相似度值最高的候选词节点之后，从有向图中确定是否有相似度值最高的候选词节点组成的目标候选词节点路径，如果有，则将根据该目标候选词节点路径确定所述语音数据对应的目标控制指令。如果没有，则说明用户输入的语音数据有误，无法识别出控制指令，继续进入步骤201的过程。

当然，在实际应用中提取的音频特征跟其所在音频的播放时刻有关，那么可以将音频特征按照播放时刻排序，然后按该排序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径。

在一种实现方式中，可以根据候选词节点路径与控制指令之间的对应关系，得到目标候选词节点路径对应的目标控制指令。

在另一种实现方式中，还可以将目标控制指令拆分为多个控制指令段，并将控制指令段对应添加至有向图中的对应候选词节点，则在确定了一条自然语言控制指令之后，可以将其包括的各个候选词节点所包括的控制指令段进行组合，得到对应的目标控制指令，从而确定了目标控制指令。

综上所述，本申请提供的一种控制指令确定方法，由于采用了有向图参与了识别过程，该有向图由多个候选词节点构建。首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在提取出音频特征的情况下，可以将音频特征快速的与候选词节点进行匹配，在识别的时候能够基于有向图的指向性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。

参照图5，示出了本申请的一种控制指令确定方法实施例的步骤流程图。

步骤301，接收输入的语音数据。

在本申请实施例中，控制指令确定方法应用于一种语音交互设备，其中，语音交互设备可以具有语音接收装置，如麦克风等，用以接收用户说出的语音数据。

需要说明的是，语音交互设备也可以具备与互联网或其他设备的数据交互能力，以接收互联网或其他设备发送的语音数据。

步骤302，对所述语音数据进行去噪处理。

在本申请实施例中，为了提高语音数据的质量，使得提取得到的音频特征的精确度更高，可以对语音数据进行去噪处理，去除其中的噪音、环境音干扰，增强语音数据的质量。

可选的，在本申请实施例的一种实现方式中，步骤302具体可以包括：

子步骤3021，根据预设的环境语音数据，生成与所述环境语音数据的相位相反、振幅相同的去噪语音数据。

子步骤3022，将所述去噪语音数据与所述语音数据进行合成，得到消除了噪音后的语音数据。

具体的，在实际应用中，噪音是音高和音强变化混乱、听起来不谐和的声音，也可以是由发音体不规则的振动产生的声音，噪音妨碍人们正常休息，以及对用户要听的声音产生干扰。

在本申请实施例中，在语音交互设备接收语音数据的场景，若语音数据的录制环境较为嘈杂，会导致录制得到的语音数据中噪音较大，影响后续控制指令确定过程的准确度。一般来说，语音数据中的噪音通常是录制环境中的环境语音数据，为了达到更高的录制质量，可以对语音数据中的环境语音数据进行消除，达到大幅度降低录制音频中噪音的目的。

具体的，确定环境语音数据的具体实现方式可以有多种，在本申请实施例的一种实现方式中，语音交互设备可以实时采集环境语音数据，并将语音交互设备接收到语音数据的操作之前生成的一个环境语音数据确定目标环境语音数据。在本申请实施例的另一种实现方式中，也可以根据在创建环境语音数据时生成对应的环境标签，由用户根据环境标签自行选择一个环境语音数据确定目标环境语音数据，如，创建了多个环境语音数据与环境标签的对应关系：音频1—室内，音频2—礼堂，音频3—地下室，用户若想消除在礼堂录制音频时噪音的影响，则可以选择音频2为目标环境语音数据。

另外，在本发明实施例中，声音也是一种波，可以在各种介质中传播，因此，声波也能干涉，如果利用声波干涉的特征，就可以把一些噪音的声波用干涉抵消掉(或者至少减小幅度)。利用这一点，本申请实施例就可以使用抵消的办法来消除噪声。

具体的，噪音的消除可以包括：通过生成与环境语音数据的相位相反、振幅相同或相近的去噪语音数据，将去噪语音数据和语音数据进行中和，从而消除语音数据中的环境语音数据，实现降噪的效果。

步骤303，通过卷积神经网络模型，按序提取所述语音数据中的音频特征。

可选的，步骤303具体可以包括：

子步骤3031，按预设时间周期从所述语音输入中提取音频特征。

可选的，音频特征包括：Fbank特征、MFCC特征、频域特征中的任意一种。

在本申请实施例中，通过卷积神经网络(Convolutional Neural Networks,CNN)模型，可以实现提取语音数据中的多个音频特征的目的。

卷积神经网络模型仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络模型能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。

可选的，所述音频特征包括：滤波器组(Filter Bank)特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、频域特征中的任意一种。

具体的，人耳对声音频谱的响应是非线性的，经验表明：如果能够设计一种前端处理算法，以类似于人耳的方式对音频进行处理，则可以提高语音识别的性能。Fbank分析就是这样的一种算法，可以提取语音数据中的音频特征。FBank特征的提取要在对语音数据预处理之后进行，对语音数据预处理的过程是指对语音数据分帧，具体为将不定长的语音数据切分成固定长度的小段，一般取10-30毫秒为一帧，分帧之后，可以逐帧提取语音数据中的FBank特征。

另外，MFCC特征提取，整体是相似的，MFCC只是多了一步DCT(离散余弦变换)。简单地说，MFCC特征可以理解为音频信号的能量在不同频率范围的分布。

FBank特征和MFCC特征都为针对语音数据进行优化的特征，能够准确的反映语音数据的局部特征，以提高音频特征与候选词节点的文本特征之间的相似度计算的精确度。

进一步的，频域特征(frequency domain)则为较为通用的特征，是描述信号在频率方面特性时用到的一种坐标系，能应用至音频、视频、图像等领域。提取语音数据的频域特征，可以在保证特征精确度的基础上，提高特征提取过程的适用性，如，将提取的频域特征进一步应用至视频、图像等领域。

步骤304，根据所述音频特征，从所述有向图中确定目标候选词节点路径。

在本申请实施例中，由于一个音频特征一般可以对应语音数据的0.5秒内容，所以一个音频特征可以代表一个词，因此，可以将音频特征与有向图中的候选词节点包括的候选词的文本特征进行相似度计算，从而确定音频特征代表的词与候选词节点之间的相似程度。

可选的，步骤304具体可以包括：

子步骤3041，按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径；所述目标层级为与所述提取顺序对应的层级。

在本申请实施例中，针对一些含义较为复杂的控制指令，仅用源点词和汇点词无法准确表达控制指令的含义，并且，在语言语法中，用户说一句话通常可以包括主语、谓语、宾语，因此，在本申请实施例中，还可以在源点词和汇点词的基础上，进一步加上中间词，由源点词、中间词、汇点词分别对应主语、谓语、宾语，并且所有源点词可以组成一个层级、所有中间词可以组成另一个层级、所有汇点词可以组成另一个层级。而且，音频特征的提取也是按照主语、谓语、宾语实现的，因此，不同的音频特征可以与不同的层级相对应。

另外，对于一些含义更为复杂的控制指令，可以设定多个中间词，如，针对控制指令“我想要共享照片到互联网”，则可以设定“我想要”为源点词、设定“共享”为第一中间词，设定“照片”为第二中间词，设定“到互联网”为汇点词。

进一步的，在本申请实施例中，参照图1，语音数据按顺序提取得到了三个音频特征，分别表示语音数据中的三个分词“我要”、“开”、“卧室的灯”，再根据有向图中源点词节点、中间词节点和汇点词节点的划分，确定第一组音频特征与源点词所处的第一层级对应，第二组音频特征与中间词所处的第二层级对应，第三组音频特征与汇点词所处的第三层级对应。

之后，将第一组音频特征与源点词节点进行匹配，得到源点词“我想要”的相似度值为90分，则确定第一层级匹配成功，将第二组音频特征与中间词节点进行匹配，得到源点词“打开”的相似度值为85分，则确定第二层级匹配成功，第二层级匹配成功后，则根据有向图中各个节点指向的边的关系，确定第三层级需要匹配的多个汇点词节点为“客厅灯”和“卧室灯”，而其他的汇点词节点则不用被进行匹配，降低了控制指令确定过程的数据处理量，提升了处理速度。

最后，将第三组音频特征与第三层级确定的两个汇点词节点进行匹配，得到汇点词“卧室灯”的相似度值为90分，则确定得到了目标候选词节点路径为“我想要”-“打开”-“卧室灯”。则最后的自然语言控制指令为“我想要打开卧室灯”。

可选的，子步骤3041具体可以包括：

子步骤30411，对于任一目标层级的候选词节点，分别确定所述音频特征与所述候选词节点的相似度值。

在本申请实施例中，可以将源点词看作有向图中的起点节点，将汇点词看作有向图中的终点节点，使得音频特征与候选词节点的相似度计算过程，可以看作从有向图的起点节点遍历至终点节点的过程，因此，音频特征可以先与源点词进行相似度计算、之后再与中间词进行相似度计算、最后与汇点词进行相似度计算，得到音频特征与所述候选词节点的相似度值。

需要说明的是，子步骤30411可以具有两个具体实现过程：

实现过程1、从语音数据的起点开始，每实时提取到一个音频特征，即将该音频特征依次与源点词、中间词、汇点词进行相似度计算，对之后提取得到的音频特征，执行同样的操作，直至所有的音频特征都被进行过相似度计算。

实现过程2、从语音数据的起点开始，一次性提取语音数据的所有音频特征，并将每个音频特征依次与源点词、中间词、汇点词进行相似度计算，直至所有的音频特征都被进行过相似度计算。

子步骤30412，根据相似度值最高的候选词节点确定所述目标候选词节点路径。

一般来说，与候选词节点相似度值最高的候选词节点，与候选词节点的语义最接近，因此，可以选择与候选词节点相似度值最高的候选词节点，构成目标候选词节点路径。

子步骤3042，确定距离上一次将音频数据与候选词节点进行匹配的时间长度是否超过预设时间阈值。

在本申请实施例中，具体的，可以设定一个预设阈值，使得可以从相似度值大于或等于预设阈值的候选词中，选出相似度值最高的候选词组成目标候选词节点路径的节点，这样可以避免相似度值过低的候选词被选入目标候选词节点路径，导致目标控制指令与用户说的话含义相差太大的情况发生。在本申请实施例中，若相似度值最高的候选词的相似度值大于或等于预设阈值，则认为音频特征命中候选词节点。

另外，若一个层级的所有候选词节点的相似度值都小于该预设阈值，则认为音频特征未命中候选词节点，则该层级的匹配过程所花费的时间会大于预设时间阈值。

子步骤3043，如果所述时间长度超过预设阈值，则将再次提取到的音频特征作为第一个音频特征。

在该步骤中，若一个层级的匹配过程所花费的时间大于预设时间阈值。则认为出现了源点词、中间词、汇点词未被命中的情况，则可以确定用户说话不标准、含义不清楚或噪音较大，语音交互设备可以提醒用户重新录入语音数据，并在间隔预设时间后，进入重新接收新的语音数据的步骤。

需要说明的是，在源点词、中间词、汇点词未被命中的情况下，为了提供给用户反应的时间，一般可以间隔2秒后，再进行重新接收新的语音数据的操作，而不是在源点词、中间词、汇点词未被命中的情况下，立即进行重新接收新的语音数据的操作。当然，该预设阈值可以根据实际需求设置，在此不做限定。

另外，重新接收到新的语音数据后，对该新的语音数据提取的到的新的音频特征，可以按照顺序，重新依次与源点词、中间词、汇点词进行相似度计算，即设置与新的音频特征当前进行相似度计算的候选词节点为源点词。

可选的，步骤304具体可以包括：

子步骤3044，将所述音频特征与第一待选候选词节点路径中的目标层级的第一候选词节点匹配，确定第二待选候选词节点路径；其中，在所述第一候选词节点为末端节点的情况下，所述第二候选词节点路径为所述目标候选词节点路径；在所述第一候选词节点不为末端节点的情况下，所述第二待选候选词节点路径为下一次匹配的第一待候选词节点路径；所述目标层级为所述第一待选候选词节点路径中最后一个已匹配上的候选词节点的下一层级。

在该步骤中，参照图1，语音数据按顺序提取得到了三个音频特征，分别表示语音数据中的三个分词“我要”、“开”、“卧室的灯”，再根据有向图中源点词节点、中间词节点和汇点词节点的划分，确定第一组音频特征与源点词所处的第一层级对应，之后，将第一组音频特征与源点词节点进行匹配，得到源点词“我想要”的相似度值为90分，则确定第一层级匹配成功，根据有向图中各个节点指向的边的关系，确定第二层级需要匹配的多个中间词节点包括“听”、“打开”和“关闭”，以及第二层级可能匹配的一个汇点词“休息”，即确定了第一待选候选词节点路径为“我想要”分别连接三个中间词或一个汇点词。

需要说明的是，源点词节点为所述有向图中候选词节点路径的第一个节点，有向图中，也可能有多个源点词节点，所有源点词节点都属于同一个层级。汇点词节点为所述有向图中候选词节点路径的最后一个节点。并且，定义汇点词节点是该节点路径中的最后一个层级。

第二组音频特征与中间词所处的第二层级对应，根据第一待选候选词节点路径，将第二组音频特征与中间词节点进行匹配，得到源点词“打开”的相似度值为85分，则确定第二层级匹配成功，第二层级匹配成功后，则根据有向图中各个节点指向的边的关系，确定第三层级需要匹配的多个汇点词节点为“客厅灯”和“卧室灯”，即确定了第二待选候选词节点路径为“打开”分别连接两个汇点词。而其他的汇点词节点(“休息”)则不用被进行匹配，降低了控制指令确定过程的数据处理量，提升了处理速度。

第三组音频特征与汇点词所处的第三层级对应，根据第二待选候选词节点路径，将第三组音频特征与第三层级确定的两个汇点词节点进行匹配，得到汇点词“卧室灯”的相似度值为90分，且根据有向图的结构，汇点词为终点候选词节点，其之后再无节点，则认为有向图遍历过程结束，则确定得到了目标候选词节点路径为“我想要”-“打开”-“卧室灯”，则得到自然语言控制指令为“我想要打开卧室灯”。

步骤305，根据预设的候选词节点路径与控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令。

在确定了一条目标候选词节点路径之后，参照图1中的对应关系表，语音交互设备可以根据目标候选词节点路径对应的自然语言控制指令，与目标控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令。

在本申请的另一种实施例中，一个候选词节点路径对应的控制指令可以为多个控制指令，该多个控制指令中，不同的控制指令用于控制不同类型的设备执行相同的功能，因为不同类型的设备，其用于实现相同功能的指令不同。比如打开空调这一功能，其候选词节点路径“我要打开空调”可以对应A1、A2、A3三种，对于不同厂商的空调，可能由于其空调的控制系统不同，其实现各种功能的控制指令也不同，比如厂商1用于打开空调的控制指令为A1，厂商2用于打开空调的控制指令为A2，厂商3用于打开空调的控制指令为A3。那么，在确定所述语音数据对应的目标控制指令时，还可以获取该设备的目标设备类型，然后从目标候选节点路径对应的多个设备类型的控制指令中，选择与该目标设备类型对应的目标控制指令。比如设备的设备类型为厂商1，则可以从“我要打开空调”对应的A1、A2、A3中选择控制指令A1。如此，可以使控制指令的适应范围更强、兼容性更强。

综上所述，本申请提供的一种控制指令确定方法，由于采用了有向图参与了识别过程，该有向图由多个候选词节点按照预设先后顺序构建，首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在按预设顺序提取出音频特征的情况下，按照有向图中候选词节点具备有序性这一特点，在识别的时候能够基于有向图的有序性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。另外，本申请中采用音频特征与候选词节点进行相似度计算，并根据计算结果对候选词节点确定相似度值的方案，使得相似度值最高的候选词节点依次连接得到最终的目标候选词节点路径，并根据预设的候选词节点路径与控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令，使得与控制指令相似或相近的语音数据能够匹配到对应的指令，提高了控制指令的命中几率。并且，本申请采用候选词节点路径与控制指令之间设置对应关系的方式，构造简单，维护方便，也方便在实现某个功能的控制指令变更时，通过将对应关系中原有的控制指令替换为变更后的控制指令。

参照图6，示出了本申请的另一种控制指令确定方法实施例的步骤流程图。

步骤401，接收输入的语音数据。

在本申请实施例中，控制指令确定方法应用于一种语音交互设备，其中，语音交互设备可以为音箱设备，音箱设备可以包括语音接收装置，如麦克风等，用以接收用户发出的语音数据；音箱设备还可以包括语音播放装置，如扬声器等，用以播放音频；音箱设备还可以包括处理器、有线/无线网络模块，处理器用于对接收到的语音数据进行处理，得到语音数据对应的目标控制指令，音箱设备用于通过有线/无线网络模块接收或发送数据。。

步骤402，对所述语音数据进行去噪处理。

该步骤可以参照上述步骤302，此处不再赘述。

可选的，在本申请实施例的一种实现方式中，步骤402具体可以包括：

子步骤4021，根据预设的环境语音数据，生成与所述环境语音数据的相位相反、振幅相同的去噪语音数据。

子步骤4022，将所述去噪语音数据与所述语音数据进行合成，得到消除了噪音后的语音数据。

子步骤4021至子步骤4022可以参照上述子步骤4021至子步骤4022，此处不再赘述。

步骤403，通过卷积神经网络模型，按序提取所述语音数据中的音频特征。

该步骤可以参照上述步骤303，此处不再赘述。

可选的，步骤403具体可以包括：

子步骤4031，按预设时间周期从所述语音输入中提取音频特征。

该步骤可以参照上述步骤3031，此处不再赘述。

步骤404，根据所述音频特征，从所述有向图中确定目标候选词节点路径。

其中，有向图的候选词节点路径包括多个具有先后顺序的候选词节点，所述候选词节点包括控制指令段。

在本申请实施例中，参照图2，还可以将目标控制指令拆分为多个控制指令段，并将控制指令段对应添加至有向图中的对应候选词节点。

如，参照图2，假设语音交互设备为灯具，支持6个自然语言控制指令，自然语言控制指令1：我想要听音乐。自然语言控制指令2：我想要打开卧室灯。自然语言控制指令3：我想要关闭客厅灯。自然语言控制指令4：我想要打开客厅灯。自然语言控制指令5：我想要关闭卧室灯。自然语言控制指令6：我想要休息。根据这6个自然语言控制指令可以构建得到图2中的有向图。

若用户通过语音数据说出了：“我要开卧室的灯”。并提取得到了对应的音频特征1来代表“我要”，音频特征2来代表“开”，音频特征3来代表“卧室的灯”，将这三个音频特征分别与有向图中的每个候选词节点的文本特征进行相似度计算，最后统计到源点词(我想要)的最高相似度为90％，即相似度值为90。中间词(打开)的最高相似度为85％，即相似度值为85。中间词(关闭)的最高相似度为10％，即相似度值为10。汇点词(客厅灯)的最高相似度为15％，即相似度值为15。汇点词(卧室灯)的最高相似度为90％，即相似度值为90。

在确定候选词节点的相似度值之后，语音交互设备可以将相似度值最高的源点词的词尾与相似度值最高的汇点词的词头进行连接，得到目标候选词节点路径，即确定了一条自然语言控制指令“我想要打开卧室灯”。

可选的，步骤404具体可以包括：

子步骤4041，按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径；所述目标层级为与所述提取顺序对应的层级。

该步骤具体可以参照上述步骤3041，此处不再赘述。

可选的，子步骤4041具体可以包括：

子步骤40411，对于任一目标层级的候选词节点，分别确定所述音频特征与所述候选词节点的相似度值。

该步骤具体可以参照上述步骤30411，此处不再赘述。

子步骤40412，根据相似度值最高的候选词节点确定所述目标候选词节点路径。

该步骤具体可以参照上述步骤30412，此处不再赘述。

子步骤4042，确定距离上一次将音频数据与候选词节点进行匹配的时间长度是否超过预设时间阈值。

该步骤具体可以参照上述步骤3042，此处不再赘述。

子步骤4043，如果所述时间长度超过预设阈值，则将再次提取到的音频特征作为第一个音频特征。

该步骤具体可以参照上述步骤3043，此处不再赘述。

可选的，步骤404具体可以包括：

子步骤4044，将所述音频特征与第一待选候选词节点路径中的目标层级的第一候选词节点匹配，确定第二待选候选词节点路径；其中，在所述第一候选词节点为末端节点的情况下，所述第二候选词节点路径为所述目标候选词节点路径；在所述第一候选词节点不为末端节点的情况下，所述第二待选候选词节点路径为下一次匹配的第一待候选词节点路径；所述目标层级为所述第一待选候选词节点路径中最后一个已匹配上的候选词节点的下一层级。

该步骤具体可以参照上述步骤3044，此处不再赘述。

步骤405，将所述目标候选词节点路径中的目标候选词节点所包括的目标控制指令段进行拼接，获得所述目标控制指令。

需要说明的时，在本申请实施例中，可以在每确定一个目标候选词节点，将该目标候选词节点的目标控制指令段与之前获得的第一指令段进行拼接，其中，在目标候选词节点为第一个节点时，第一指令段为空；目标候选词节点为第二个节点时，第一指令段为第一个节点的控制指令段；目标候选词节点为第三个节点时，第一指令段为第一个节点的控制指令段和第二个节点的控制指令段拼接后的指令段，以此类推；可以理解，目标候选词节点为第二个节点之后的节点时，第一指令段为该目标候选词节点之前已拼接完的指令段。该种方式边确定候选词节点边进行拼接，效率更高。

在本申请的另一种实施例中，一个候选词节点包括的控制指令段可以为多个控制指令段，该多个控制指令段中，不同的控制指令段对应于控制不同类型的设备执行相同的功能，因为不同类型的设备，其用于实现相同功能的指令不同。比如打开空调这一功能，对于不同厂商的空调，可能由于其空调的控制系统不同，其实现各种功能的控制指令也不同，比如厂商1用于打开空调的控制指令为A1，厂商2用于打开空调的控制指令为A2，厂商3用于打开空调的控制指令为A3。那么，本申请将一个完整的控制指令拆分为控制指令段设置到候选词节点后，还会对将控制指令段与设备类型对应。然后在拼接目标控制指令时，还可以获取该设备的目标设备类型，然后从目标候选节点对应的多个设备类型的控制指令段中，选择与该目标设备类型对应的目标控制指令段，然后将该类型的控制指令段进行拼接。比如设备的设备类型为厂商1，则从目标候选词节点对应的多个设备类型的控制指令段中，选择与该设备类型对应的目标控制指令段，然后将各个目标候选词节点对应的目标控制指令段进行拼接。如此，可以使控制指令的兼容性更强。

综上所述，本申请提供的一种控制指令确定方法，由于采用了有向图参与了识别过程，该有向图由多个候选词节点按照预设先后顺序构建，首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在按预设顺序提取出音频特征的情况下，按照有向图中候选词节点具备有序性这一特点，在识别的时候能够基于有向图的有序性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。另外，本申请中有向图的候选词节点路径包括多个具有先后顺序的候选词节点，所述候选词节点包括控制指令段，采用音频特征与候选词节点进行相似度计算，并根据计算结果对候选词节点确定相似度值的方案，使得相似度值最高的候选词节点依次连接得到最终的目标候选词节点路径，并目标候选词节点路径中的目标候选词节点所包括的目标控制指令段进行拼接，获得所述目标控制指令，使得与控制指令相似或相近的语音数据能够匹配到对应的指令，提高了控制指令的命中几率。本申请实施例采用在候选词节点中设置控制指令段，然后在后续处理过程中，将匹配到的候选节点路径上的各个候选词节点的控制指令段进行拼接的方案，可以更充分的利用有向图的节点，不用额外设置候选词节点路径与控制指令之间的对应关系，节省空间。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种控制指令确定装置，应用于服务器(集群)、终端设备等电子设备中。

参照图7，示出了本申请一种控制指令确定装置实施例的结构框图，具体可以包括如下模块：

第一接收模块501，用于接收输入的语音数据；

第一提取模块502，用于按预设顺序从所述语音数据中提取音频特征；

可选的，所述音频特征包括：Fbank特征、MFCC特征、频域特征中的任意一种。

可选的，第一提取模块502，包括：

第一提取子模块，用于通过卷积神经网络模型，按序提取所述语音数据中的音频特征。

第二提取子模块，用于按预设时间周期从所述语音输入中提取音频特征。

第一处理模块503，根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

可选的，第一处理模块503，包括：

第一确定子模块，用于根据所述音频特征，从所述有向图中确定目标候选词节点路径；

可选的，第一确定子模块，包括：

确定单元，用于按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径；所述目标层级为与所述提取顺序对应的层级。

可选的，确定单元，包括：

第一确定子单元，用于对于任一目标层级的候选词节点，分别确定所述音频特征与所述候选词节点的相似度值；

第二确定子单元，用于根据相似度值最高的候选词节点确定所述目标候选词节点路径。

第三确定子单元，用于将所述音频特征与第一待选候选词节点路径中的目标层级的第一候选词节点匹配，确定第二待选候选词节点路径；其中，在所述第一候选词节点为末端节点的情况下，所述第二候选词节点路径为所述目标候选词节点路径；在所述第一候选词节点不为末端节点的情况下，所述第二待选候选词节点路径为下一次匹配的第一待候选词节点路径；所述目标层级为所述第一待选候选词节点路径中最后一个已匹配上的候选词节点的下一层级。

第四确定子单元，用于确定距离上一次将所述音频数据与所述候选词节点进行匹配的时间长度是否超过预设时间阈值；

第五确定子单元，用于如果所述时间长度超过预设阈值，则将再次提取到的音频特征作为第一个音频特征。

第二确定子模块，用于根据预设的候选词节点路径与控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令。

第三确定子模块，用于将所述目标候选词节点路径中的目标候选词节点所包括的目标控制指令段进行拼接，获得所述目标控制指令。

可选的，控制指令确定装置还包括：

去噪模块，用于对所述语音数据进行去噪处理。

综上所述，本申请提供的一种控制指令确定装置，包括：接收输入的语音数据；按预设顺序从语音数据中提取音频特征；根据音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；有向图由多个候选词节点按照预设先后顺序构建。本申请在应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。并且由于有向图的逻辑性，本申请无需直接将音频数据整体与长句进行匹配，而能够拆分成词语按序进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，提高识别控制指令的准确率。

参照图8，示出了本申请一种控制指令确定装置实施例的结构框图，具体可以包括如下模块：

第二接收模块601，用于接收输入的语音数据；

第二提取模块602，用于从所述语音数据中提取音频特征；

第二处理模块603，用于根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点构建。

综上所述，本申请提供的一种控制指令确定装置，由于采用了有向图参与了识别过程，该有向图由多个候选词节点构建。首先，由于有向图的节点是候选词节点，其将长句拆分成了各个候选词节点，然后各个候选词节点基于有向图的指向性，具备了前后逻辑关系。那么，对用于输入的语音数据，在提取出音频特征的情况下，可以将音频特征快速的与候选词节点进行匹配，在识别的时候能够基于有向图的指向性，减少识别的词语，因此将本申请实施例应用于终端设备的情况下，能够实现在降低终端设备的资源消耗的情况下，降低识别控制指令的耗时。再者，由于有向图中将长句拆分成了词语，匹配时是以词语级别进行匹配，并且由于有向图的逻辑性，其词语按序能够组成长句，因此，本发明实施例无需直接将音频数据整体与长句进行匹配，而能够拆分成词语进行匹配，能够避免因为语音识别本身的错误率随着语句的长度增长增多而增大，在保证终端设备资源效果较低的情况下，提高识别控制指令的准确率。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括服务器(集群)、移动设备、终端设备等。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、移动设备、终端设备等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置800。

对于一个实施例，图9示出了示例性装置800，该装置具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的控制模块(芯片组)804、被耦合到控制模块804的存储器806、被耦合到控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到控制模块804的一个或多个输入/输出设备810，以及被耦合到控制模块806的网络接口812。

处理器802可包括一个或多个单核或多核处理器，处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置800能够作为本申请实施例中所述服务器(集群)、移动设备、终端设备等设备。

在一些实施例中，装置800可包括具有指令814的一个或多个计算机可读介质(例如，存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令814以实现模块从而执行本公开中所述的动作的一个或多个处理器802。

对于一个实施例，控制模块804可包括任意适当的接口控制器，以向(一个或多个)处理器802中的至少一个和/或与控制模块804通信的任意适当的设备或组件提供任意适当的接口。

控制模块804可包括存储器控制器模块，以向存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器806可被用于例如为装置800加载和存储数据和/或指令814。对于一个实施例，存储器806可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块804可包括一个或多个输入/输出控制器，以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。

例如，NVM/存储设备808可被用于存储数据和/或指令814。NVM/存储设备808可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备808可包括在物理上作为装置800被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。

(一个或多个)输入/输出设备810可为装置800提供接口以与任意其他适当的设备通信，输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为装置800提供接口以通过一个或多个网络通信，装置800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置800可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置800可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

本申请实施例提供了一种服务器，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述服务器执行如本申请实施例中一个或多个所述的数据处理方法。

本申请实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行控制指令确定方法。

本申请实施例提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行控制指令确定方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种控制指令确定方法和装置、一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种控制指令确定方法，其特征在于，所述的方法包括：

接收输入的语音数据；

按预设顺序从所述语音数据中提取音频特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令的步骤，包括：

根据所述音频特征，从所述有向图中确定目标候选词节点路径；

根据预设的候选词节点路径与控制指令之间的对应关系，确定所述目标候选词节点路径对应的目标控制指令。

3.根据权利要求1所述的方法，其特征在于，所述有向图的候选词节点路径包括多个具有先后顺序的候选词节点，所述候选词节点包括控制指令段；所述根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令的步骤，包括：

将所述目标候选词节点路径中的目标候选词节点所包括的目标控制指令段进行拼接，获得所述目标控制指令。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述音频特征，从所述有向图中确定目标候选词节点路径的步骤，包括：

按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径；所述目标层级为与所述提取顺序对应的层级。

5.根据权利要求4所述的方法，其特征在于，所述按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径的步骤，包括：

对于任一目标层级的候选词节点，分别确定所述音频特征与所述候选词节点的相似度值；

根据相似度值最高的候选词节点确定所述目标候选词节点路径。

6.根据权利要求4所述的方法，其特征在于，所述按所述音频特征的提取顺序，将所述音频特征与所述有向图中的候选词节点路径中的目标层级的候选词节点进行匹配，确定目标候选词节点路径的步骤，包括：

将所述音频特征与第一待选候选词节点路径中的目标层级的第一候选词节点匹配，确定第二待选候选词节点路径；其中，在所述第一候选词节点为末端节点的情况下，所述第二候选词节点路径为所述目标候选词节点路径；在所述第一候选词节点不为末端节点的情况下，所述第二待选候选词节点路径为下一次匹配的第一待候选词节点路径；所述目标层级为所述第一待选候选词节点路径中最后一个已匹配上的候选词节点的下一层级。

7.根据权利要求4所述的方法，其特征在于，还包括：

确定距离上一次将所述音频数据与所述候选词节点进行匹配的时间长度是否超过预设时间阈值；

如果所述时间长度超过预设阈值，则将再次提取到的音频特征作为第一个音频特征。

8.根据权利要求1所述的方法，其特征在于，在按预设顺序从所述语音数据中提取音频特征的步骤之前，还包括：

对所述语音数据进行去噪处理。

9.根据权利要求1所述的方法，其特征在于，所述按预设顺序从所述语音数据中提取音频特征，包括：

通过卷积神经网络模型，按序提取所述语音数据中的音频特征。

10.根据权利要求9所述的方法，其特征在于，所述音频特征包括：Fbank特征、MFCC特征、频域特征中的任意一种。

11.根据权利要求1所述的方法，其特征在于，所述按序从所述语音输入中提取音频特征的步骤，包括：

按预设时间周期从所述语音输入中提取音频特征。

12.根据权利要求2、3、权利要求5至11中任一项所述的方法，其特征在于，所述方法应用于音箱设备。

13.一种控制指令确定方法，其特征在于，所述方法包括：

接收输入的语音数据；

从所述语音数据中提取音频特征；

14.一种控制指令确定装置，其特征在于，所述装置包括：

第一接收模块，用于接收输入的语音数据；

第一提取模块，用于按预设顺序从所述语音数据中提取音频特征；

第一处理模块，用于根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点按照预设先后顺序构建。

15.一种控制指令确定装置，其特征在于，所述装置包括：

第二接收模块，用于接收输入的语音数据；

第二提取模块，用于从所述语音数据中提取音频特征；

第二处理模块，用于根据所述音频特征和预设的有向图，确定所述语音数据对应的目标控制指令；所述有向图由多个候选词节点构建。

16.一种电子设备，其特征在于，包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中一个或多个所述的控制指令确定方法。

17.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12中一个或多个所述的控制指令确定方法。

18.一种电子设备，其特征在于，包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求13所述的控制指令确定方法。

19.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求13所述的控制指令确定方法。