CN108335695A

CN108335695A - 语音控制方法、装置、计算机设备和存储介质

Info

Publication number: CN108335695A
Application number: CN201710502262.1A
Authority: CN
Inventors: 王磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2018-07-27
Anticipated expiration: 2037-06-27
Also published as: CN108335695B

Abstract

本发明涉及一种语音控制方法、装置、计算机设备和存储介质，所述方法包括：获取语音数据；按照预设的多于一个的唤醒词中，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围；获取从所述语音数据中识别得到的命令词；在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。本申请的方案中，即使智能设备被触发获取语音数据，但若在获取的语音数据所对应的唤醒词的权限范围中，不存在执行该语音数据中的命令词所对应动作的权限，也不会执行该命令词所对应的动作，从而提高了安全性。

Description

语音控制方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音控制方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的飞速发展，智能设备已经越来越广泛的应用到了人们的生活中，各种智能设备给人们的生活带来了很大的便利。为了方便，用户可以通过语音方式对智能设备进行控制。

目前，智能设备是通过检测用户手动进行的一系列触发操作，来采集语音信息，并执行与该语音信息对应的控制命令，比如，智能设备在检测到点击或按压语音采集按钮等触发操作时，就会采集语音信息，并执行与所采集的语音信息对应的控制命令。这样一来，智能设备只要检测到触发操作，就会采集语音并执行对应的控制命令，导致任何人只要对智能设备进行相应的触发操作，就可以对智能设备进行对应的语音控制，从而使得安全性比较低。

发明内容

基于此，有必要针对目前智能设备在检测到触发操作就采集语音并执行相应控制命令导致安全性比较低的问题，提供一种语音控制方法、装置、计算机设备和存储介质。

一种语音控制方法，所述方法包括：

获取语音数据；

按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围；

获取从所述语音数据中识别得到的命令词；

在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

一种语音控制装置，所述装置包括：

获取模块，用于获取语音数据；

唤醒词确定模块，用于按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围；

命令词识别模块，用于获取从所述语音数据中识别得到的命令词；

动作执行模块，用于在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取语音数据；

获取从所述语音数据中识别得到的命令词；

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取语音数据；

获取从所述语音数据中识别得到的命令词；

上述语音控制方法、装置、计算机设备和存储介质，设置了多个对应于不同权限范围的唤醒词，在获取到语音数据后，需要将获取到的语音数据与多个预设的唤醒词进行匹配，当匹配到的唤醒词所对应的权限范围中存在执行语音数据中命令词所对应的动作的权限时，再执行命令词所对应的动作。这样一来，即使智能设备被触发获取语音数据，但若在获取的语音数据所对应的唤醒词的权限范围中，不存在执行该语音数据中的命令词所对应动作的权限，也不会执行该命令词所对应的动作，从而提高了安全性。

附图说明

图1为一个实施例中语音控制方法的应用环境图；

图2为一个实施例中计算机设备的内部结构示意图；

图3为一个实施例中语音控制方法的流程示意图；

图4为一个实施例中唤醒词确定步骤的流程示意图；

图5为一个实施例中选取不同长度的前缀词的示意图；

图6为一个实施例中动作执行步骤的流程示意图；

图7为另一个实施例中语音控制方法的流程示意图；

图8为一个实施例中语音控制方法的时序图；

图9为一个实施例中语音控制装置的结构框图；

图10为一个实施例中唤醒词确定模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中语音控制方法的应用环境图。参照图1，该语音控制方法的应用环境包括智能语音设备110和控制对象120，智能语音设备110和控制对象120可以通过网络连接。其中，智能语音设备110是具备语音识别能力的电子设备，可以是手机、平板电脑、个人数字助理、穿戴式设备或者智能音箱等。控制对象120可以是智能空调和智能冰箱等智能家居设备，控制对象也可以是服务器或终端等。

智能语音设备110可以获取语音数据，按照预设的多于一个的唤醒词中，确定与采集到的语音数据匹配的唤醒词，其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围。智能语音设备110可以获取从语音数据中识别得到的命令词，当与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限时，则执行命令词所对应的动作。具体地，智能语音设备110可以根据命令词生成相应的控制命令发送至控制对象120。

图2为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是图1中的智能语音设备110。参照图2，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行一种语音控制方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音控制方法。计算机设备的网络接口用于进行网络通信。

图3为一个实施例中语音控制方法的流程示意图。本实施例主要以该方法应用于上述图2中的计算机设备来举例说明。参照图3，该方法具体包括如下步骤：

S302，获取语音数据。

其中，语音数据是包含说话人的语音并可通过语音识别转化为文本的数据。

具体地，计算机设备可以直接获取已有的语音数据，也可以通过语音采集处理，采集语音数据。

在一个实施例中，计算机设备可在进入语音可识别状态后，采集语音数据。其中，语音可识别状态是计算机设备所处的具备语音识别能力时的状态。采集语音数据，具体可以是采集环境中的声波，再根据人声特征，从采集到的声波中提取出语音数据。

在一个实施例中，计算机设备可提供语音采集按钮，在检测到对该语音采集按钮的触发操作时，进入语音可识别状态。在一个实施例中，计算机设备也可以在开机后即进入语音可识别状态。计算机设备在处于低功耗状态时，也可以处于语音可识别状态。低功耗状态是关闭部分功能以降低功耗的状态。

S304，按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词，其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围。

其中，唤醒词，用于使计算机设备执行与语音数据相应的命令，即计算机设备在检测到唤醒词后才会进一步判断是否执行与语音数据相应的命令，如果计算机设备未检测到唤醒词，则不会执行语音数据所对应的任何命令。与语音数据匹配的唤醒词，是能够使计算机设备执行该语音数据相应的控制命令的唤醒词。

在一个实施例中，预设的多个唤醒词中，每个唤醒词所对应的不同的权限范围之间可以重叠也可以不重叠。比如，唤醒词“莉莉”对应的权限范围为权限1～9，唤醒词“露西”所对应的权限范围可以为权限2～8，则这两个不同权限范围间相互重叠。

具体地，计算机设备可以从预设的多于一个的唤醒词中，查找与获取到的语音数据匹配的唤醒词。计算机设备也可以从语音数据中识别到的词中，查找预设的多于一个的唤醒词。在一个实施例中，当查找到的唤醒词为多个时，计算机设备可以根据各查找到的唤醒词在语音数据中被识别出的先后顺序；或者，根据各查找到的唤醒词所对应的权限范围的大小，从查找到的多个唤醒词中确定与语音数据匹配的唤醒词。

在一个实施例中，计算机设备可以从各查找到的唤醒词中，选取在语音数据中的最后被识别出的唤醒词作为与语音数据匹配的唤醒词。比如，语音数据包括“莉莉露西，开空调”，则查找到的唤醒词有2个，为“莉莉”和“露西”，其中，“露西”在语音数据中要后于“莉莉”被识别出，则可以将“露西”作为最终与语音数据匹配的唤醒词。

在一个实施例中，计算机设备还可以从各查找到的唤醒词中，选取所对应的权限范围最大的唤醒词，作为最终于语音数据匹配的唤醒词。比如，查找到的唤醒词有2个，为“莉莉”和“露西”，其中，“莉莉”对应的权限范围为1～7，“露西”对应的权限范围为1～8，则可以将所对应的权限范围最大的“露西”作为最终与语音数据匹配的唤醒词。

S306，获取从语音数据中识别得到的命令词。

其中，命令词，是用于通过计算机设备执行相应动作的词。从语音数据中识别得到的命令词可以为一个或多个。

在一个实施例中，命令词中包括生成所对应的控制命令的要素信息。要素信息可以包括控制对象、时间、地点或动作等要素信息中的一种或多种。控制对象，是被计算机设备控制的、且用于执行命令词所对应的动作的对象。比如，语音数据为“露西，请在五点打开空调”中，经过识别得到命令词可以包括“五点”、“打开”和“空调”，其中命令词“五点”表示时间，命令词“打开”表示动作，命令词“空调”表示控制对象。具体地，计算机设备可以对语音数据进行解析，从中识别到命令词。在一个实施例中，计算机设备可以对语音数据进行语音识别，得到对应的文本，从得到的文本中获取命令词。

在一个实施例中，计算机设备可以对得到的文本进行分词处理，并根据预设的命令词模板从分词处理后的文本中识别命令词。在另一个实施例中，计算机设备也可以对得到的文本进行上下文语义分析，以识别到命令词。

S308，在匹配的唤醒词所对应的权限范围中，当存在执行命令词所对应动作的权限时，执行命令词所对应的动作。

其中，与命令词所对应的动作，是指执行该命令词所对应的控制命令所需要实施的动作。

比如，与语音数据匹配的唤醒词所对应的权限范围为权限1～9，命令词所对应的动作为“放音乐”，而执行“放音乐”的动作需要权限8，而权限8位于权限1～9中，则与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限，因此，计算机设备可以执行命令词所对应的动作“放音乐”。

可以理解，计算机设备可以自身来执行命令词所对应的动作，也可以根据命令词确定控制对象，然后控制所确定的控制对象来执行命令词所对应的动作。其中，控制对象，是被计算机设备控制的、且用于执行命令词所对应的动作的对象。

上述语音控制方法，设置了多个对应于不同权限范围的唤醒词，在获取到语音数据后，需要将获取到的语音数据与多个预设的唤醒词进行匹配，当匹配到的唤醒词所对应的权限范围中存在执行语音数据中命令词所对应的动作的权限时，再执行命令词所对应的动作。这样一来，即使智能设备被触发获取语音数据，但若在获取的语音数据所对应的唤醒词的权限范围中，不存在执行该语音数据中的命令词所对应动作的权限，也不会执行该命令词所对应的动作，从而提高了安全性。

在一个实施例中，按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词包括：对语音数据进行语音识别，得到文本；确定预设的多于一个的唤醒词中，包括于文本的唤醒词，得到与获取到的语音数据匹配的唤醒词。

其中，包括于文本的唤醒词，是指文本中所包括的唤醒词。比如，对语音数据进行语音识别，得到的文本为：“莉莉，打开空调”，则唤醒词“莉莉”就包括于该文本。

具体地，计算机设备可以从预设的多个唤醒词中，查找包括于文本的唤醒词，将查找到的唤醒词作为与获取到的语音数据匹配的唤醒词。

在一个实施例中，步骤S306包括：从对语音数据进行语音识别得到的文本中的除去查找到的唤醒词的内容中提取命令词。

具体地，计算机设备可以根据预设的命令词模板从语音识别得到的文本中除去查找到的唤醒词的内容中提取命令词，也可以对语音识别得到的文本中除去查找到的唤醒词的内容进行上下文语义分析，以从中识别出命令词。

上述实施例中，对语音数据进行语音识别后得到文本，而以文本形式表现的语音内容更加的具体、明确，因此基于该文本来从预设的多个唤醒词中确定与语音数据匹配的唤醒词，而不用以语音形式进行反复分析比对，处理起来更加的简便，节省了处理资源的消耗。

如图4所示，在一个实施例中，确定预设的多于一个的唤醒词中，包括于文本的唤醒词，得到与获取到的语音数据匹配的唤醒词(简称唤醒词确定步骤)，具体包括以下步骤：

S402，获取文本的不同长度的前缀词。

其中，前缀词，是从文本内容的头部起，依序选取的部分字符串，即前缀词属于文本内容的一部分。

在一个实施例中，计算机设备可以从文本内容的头部起，依序地逐步增加长度以从文本内容中选取字符串，直至达到预设长度阈值，以得到不同长度的前缀词。在一个实施例中，预设长度阈值可以与长度最长的预设唤醒词的长度相同。

如图5所示，比如，识别得到的文本502为“莉莉露西，把空调打开”，预设长度阈值为4，则计算机设备可以从该文本内容的头部起，依序地逐步增加长度从中选取字符串，直至达到预设长度阈值4，得到不同长度的前缀词，如图5所示的504所包括的内容即为得到的不同长度的前缀词,“莉”、“莉莉”、“莉莉露”和“莉莉露西”就属于不同长度的前缀词，可以理解，图5仅示意出所得到的不同长度的前缀词，并不限定所得到的不同长度的前缀词必须按照图5所示的格式或形式进行排列显示。

S404，将获取的前缀词与预设的多于一个的唤醒词分别进行匹配。

在一个实施例中，计算机设备可以将获取的不同长度的前缀词分别与预设的多于一个的唤醒词分别进行比对，当进行比对的前缀词与唤醒词间的相似度或匹配度达到预设阈值时，则判定进行比对的前缀词与唤醒词间匹配成功。

可以理解，与获取的前缀词匹配成功的预设唤醒词可以有一个或多个。

S406，当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与语音数据匹配的唤醒词。

可以理解，当匹配成功的唤醒词为一个时，则可以将该匹配成功的唤醒词作为与语音数据匹配的唤醒词。当匹配成功的唤醒词为多个时，则将匹配成功的唤醒词中长度最长的唤醒词作为与语音数据匹配的唤醒词。不同长度的唤醒词所对应的权限范围可以不同。在一个实施例中，唤醒词的长度与其所对应的权限范围正相关。

比如，获取的不同长度的前缀词有“莉”、“莉莉”、“莉莉露”以及“莉莉露西”，预设的唤醒词有“莉莉”以及“莉莉露西”，则与获取的前缀词匹配成功的唤醒词为“莉莉”和“莉莉露西”，则从匹配成功的这两个唤醒词中选取长度最长的唤醒词“莉莉露西”作为与语音数据匹配的唤醒词。其中，唤醒词“莉莉露西”所对应的权限范围比唤醒词“莉莉”所对应的权限范围大。

上述实施例中，不同长度的前缀词对应于不同的唤醒词，相当于设置的是组合式的唤醒词，相较于单个词组的唤醒词容易被窃听而言，组合式的唤醒词能够加大唤醒词被窃听的难度，提高了唤醒词的隐秘性，从而提高了语音控制过程中的安全性。此外，选取匹配成功的最长的唤醒词作为与语音数据匹配的唤醒词，相当于选取了最完整的唤醒词作为与语音数据匹配的唤醒词，能够使得所确定的与语音数据匹配的唤醒词更加的准确。

在一个实施例中，确定预设的多于一个的唤醒词中，包括于文本的唤醒词，得到与获取到的语音数据匹配的唤醒词，包括：从文本中识别预设的多于一个的唤醒词中所包括的字符；当识别到的字符按照在文本中的出现顺序，组合成多于一个的唤醒词所包括的唤醒词时，将组合成的唤醒词作为与语音数据匹配的唤醒词。

本实施例中，唤醒词可以不是单一的词，而可以是由多个词组合而成的唤醒词。

具体地，计算机设备可以从文本的头部起，逐步地将文本中的字符与预设的多于一个的唤醒词中的字符进行匹配，将匹配的字符作为识别到的字符。

比如，预设的唤醒词为“hello，莉莉”和“hello，露西”，用户在说话时，由于一时记不清全部的唤醒词，所以识别到的文本包括“hello，额，我想一下，哦，莉莉”，那么，则可以从该文本的头部起，逐步地将文本中的字符与预设的唤醒词中的字符进行匹配，得到识别到的字符为“hello”和“莉莉”。

计算机设备可以将识别到的字符按照其在文本中的出现顺序进行组合，将组合得到词与预设的多于一个的唤醒词进行匹配，如果多于一个的唤醒词中包括该组合得到的词时，则将该组合成的词作为与语音数据匹配的唤醒词。

比如，将“hello”和“莉莉”按照在文本中的出现顺序，得到“hello，莉莉”的组合词，并将组合的“hello，莉莉”与预设的唤醒词匹配，确定组合得到的“hello，莉莉”属于预设的唤醒词，则将定组合得到的“hello，莉莉”作为与语音数据匹配的唤醒词。

上述实施例中，当文本中识别到的预设的唤醒词所包括的字符，按照在文本中的出现顺序，能够组合成多于一个的唤醒词所包括的唤醒词时，将该组合的唤醒词作为与语音数据匹配的唤醒词，提高了唤醒词使用的灵活性，以免用户一时无法连续地、完整地说出全部唤醒词时导致唤醒词识别失败，而需要重新说唤醒词并重新进行识别所造成的系统资源浪费。

在一个实施例中，多于一个的唤醒词包括公开唤醒词和私密唤醒词；公开唤醒词对应的权限范围为公开权限范围；私密唤醒词对应的权限范围为私密权限范围；其中，私密权限范围包括且大于公开权限范围。

其中，公开权限，是开放的控制权限。公开权限范围，是开放的控制权限的集合。私密权限，包括开放的控制权限、且包括私密的未开放的控制权限。私密权限范围，是开放的控制权限和私密的未开放的控制权限的集合。私密权限范围包括且大于公开权限范围。

可以理解，公开唤醒词对应公开权限范围，则公开唤醒词可以用于通过计算机设备执行存在于公开权限范围中的权限所对应的动作，即公开唤醒词可以用于通过计算机设备执行属于开放的控制权限所对应的动作。在一个实施例中，步骤S308包括：当与采集到的语音数据匹配的唤醒词为公开唤醒词，且该公开唤醒词所对应的公开权限范围中存在执行语音数据中识别到的命令词所对应动作的权限时，执行该命令词所对应的动作。

私密唤醒词对应于私密权限范围，则私密唤醒词既可以用于通过计算机设备执行属于开放的控制权限所对应的动作，又可以用于通过计算机设备执行属于未开放的控制权限所对应的动作。

在一个实施例中，步骤S308包括：当与采集到的语音数据匹配的唤醒词为私密唤醒词，且该私密唤醒词所对应的私密权限范围中存在执行语音数据中识别到的命令词所对应动作的权限时，执行该命令词所对应的动作。

比如，公开唤醒词为“莉莉”，私密唤醒词为“露西”，则“莉莉”对应的权限范围为公开权限范围1～8(即权限1～8)，“莉莉”对应的权限范围为私密权限范围是1～20，执行打开或关闭空调的动作所对应的权限为权限7，执行调节空调温度这一动作所对应的权限为权限15，如果用户说“莉莉，打开空调”，则执行该打开空调的动作的权限为权限7，存在于唤醒词“莉莉”所对应的公开权限范围1～8内，则执行打开空调的动作。如果用户说“莉莉，空调温度调低2度”，则执行该调节空调温度的动作的权限为权限15，不存在于唤醒词“莉莉”所对应的公开权限范围1～8内，则不执行打开空调的动作。如果用户说“露西，空调温度调低2度”，则执行该调节空调温度的动作的权限为权限15，存在于唤醒词“露西”所对应的私密权限范围1～20内，则不执行打开空调的动作。

在一个实施例中，私密唤醒词可以为一个或多个。当私密唤醒词为一个时，则该私密唤醒词所对应的私密权限范围可以是所有未开放的控制权限的集合。当私密唤醒词为多个时，则每个私密唤醒词可以对应于不同的私密权限范围，每个私密唤醒词所对应的私密权限范围包括相应的部分未开放的控制权限的集合，且每个私密唤醒词所对应的私密权限范围包括且大于公开权限范围。

在一个实施例中，当查找到的唤醒词既包括私密唤醒词又包括公开唤醒词时，则根据预设规则从查找到的私密唤醒词和公开唤醒词中选取最终的与语音数据匹配的唤醒词。

其中，预设规则，可以是权限最大或者最小规则或者识别最后规则。权限最大或最小规则，是指从既包括私密唤醒词又包括公开唤醒词中选取所对应的权限范围最大或最小的唤醒词作为最终的唤醒词。识别最后规则，是在语音数据中被最后识别出的唤醒词作为最终的唤醒词。

上述实施例中，分别设置公开唤醒词和私密唤醒词，并为公开唤醒词赋予公开权限范围，为私密唤醒词赋予私密权限范围，以使用不同的唤醒词分别控制不同的操作控制权限，相较于使用单一通用的唤醒词会导致所有使用者都对任何操作或控制对象都具有权限而言，大大提过了安全性。

在一个实施例中，步骤S308包括：获取与语音数据对应的声纹特征；将获取的声纹特征和与语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配；当声纹特征匹配成功，且与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限时，执行命令词所对应的动作。

其中，声纹，用于体现每个人特有的声音特点，且可以用于区分出不同人的声波频谱。不同的人，声纹特征存在一定的差异。与语音数据对应的声纹特征，是对语音数据进行声纹分析和声纹特征提取，得到的声纹特征，即产生该语音数据的原始发声者的声纹特征。

可以理解，计算机设备可以在步骤S308中对语音数据进行声纹特征提取处理，以获取与语音数据对应的声纹特征。计算机设备还可以在步骤S308之前对语音数据进行声纹特征提取处理得到声纹特征，并在步骤S308中获取与语音数据对应的声纹特征。

在一个实施例中，计算机设备中存储了唤醒词与声纹特征之间的对应关系，根据该对应关系，计算机设备可以获取与语音数据匹配的唤醒词所对应的声纹特征。其中，一个唤醒词可以对应至少一个声纹特征，多个唤醒词也可以对应一个声纹特征。

计算机设备可以将从该语音数据中提取的声纹特征与匹配的唤醒词所对应的声纹特征进行匹配。在一个实施例中，计算机设备可以根据计算提取的声纹特征与匹配的唤醒词所对应的声纹特征间的匹配度，当匹配度高于预设阈值时，则判定两个声纹特征匹配成功。

进一步地，计算机设备可以判断与语音数据匹配的唤醒词所对应的权限范围中是否存在执行命令词所对应动作的权限，当声纹特征匹配成功，且与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限时，计算机设备再执行命令词所对应的动作。

可以理解，计算机设备判断与语音数据匹配的唤醒词所对应的权限范围中是否存在执行命令词所对应动作的权限，与进行声纹特征匹配的相关步骤(包括获取从语音数据中提取的声纹特征；将提取的声纹特征和与语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配)之间不分先后关系。

上述实施例中，将语音数据所对应的声纹特征与语音数据匹配的唤醒词所对应的声纹特征进行匹配，当声纹特征匹配时，且同时满足与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限时，再执行命令词所对应的动作，将声纹特征的验证与唤醒词的权限验证结合起来，即使唤醒词泄露，也可以通过声纹特征的识别来进行权限把关，进一步提高了安全性。

如图6所示，在一个实施例中，执行命令词所对应的动作(简称动作执行步骤)，具体包括以下步骤：

S602，根据命令词获取即时通信消息。

在一个实施例中，计算机设备可以根据命令词的内容获取即时通信消息内容，并根据获取的即时通信消息内容生成即时通信消息。

在一个实施例中，命令词的内容本身可以包含即时通信消息内容，计算机设备可以从该命令词的内容本身中提取即时通信消息内容，并生成相应的即时通信消息，比如，用户向计算机设备说“问微信好友杰克几点出发”，则提取的命令词就包括“微信”、“好友”、“杰克”、“几点”和“出发”，则该命令词本身就包括了即时通信消息内容“几点”和“出发”。

在另一个实施例中，命令词的内容本身也可以不包含即时通信消息内容，计算机设备也可以根据命令词的内容，确定该命令词所对应的动作，并执该行命令词所对应的动作来获取相应的信息，将获取的信息作为即时通信消息内容，以生成即时通信消息。比如，用户向计算机设备说“把今天的天气状况发送给杰克”，则计算机设备会执行对应的动作，获取今天的天气信息“晴，25°”，然后将今天的具体天气信息“晴，25°”作为即时通信消息内容，生成即时通信消息。

在又一个实施例中，计算机设备还可以根据命令词直接获取已有的即时通信消息。比如，用户说“把杰克刚才发的消息转发给约翰”，则就可以根据命令词获取杰克刚才发送的即时通信消息。

S604，确定与语音数据所对应的声纹特征对应的即时通信账号。

可以理解，计算机设备可以在步骤S504中对语音数据进行声纹特征提取处理，以获取语音数据所对应的声纹特征。计算机设备还可以在步骤S504之前对语音数据进行声纹特征提取处理得到声纹特征，并在步骤S504中获取语音数据所对应的声纹特征。

具体地，计算机设备中可以根据预先存储的声纹特征与即时通信账号之间的对应关系，确定与所确定的声纹特征对应的即时通信账号。声纹特征与即时通信账号之间的对应关系可以预先存储在计算机设备本身中，也可以预先存储在除该计算机设备以外的设备中，计算机设备可以从该设备中预先存储的声纹特征与即时通信账号之间的对应关系，确定与所确定的声纹特征对应的即时通信账号。

其中，一个声纹特征可以对应于至少一个即时通信账号。在一个实施例中，所确定的声纹特征对应于多个即时通信账号时，可以将最常使用的即时通信账号或最近一次使用的即时通信账号作为与该语音数据匹配的即时通信账号。

在一个实施例中，当计算机设备中有多个即时通信账号时，计算机设备可以根据确定的声纹特征，从多个账号中选取与该声纹特征对应的即时通信账号。比如，计算机设备中登录有亨利和约翰的即时通信账号，获取的声纹特征是约翰的声纹特征，则可以从多个即时通信账号中，确定与声纹特征所表征的约翰的即时通信账号。

S606，根据确定的即时通信账号，发送即时通信消息。

具体地，计算机设备可以根据确定的与语音数据所对应的声纹特征对应的即时通信账号，发送该获取的即时通信消息。在一个实施例中，计算机设备可以根据命令词确定即时通信消息接收对象标识，根据确定的即时通信账号和所确定的即时通信消息接收对象标识，发送即时通信消息。在一个实施例中，计算机设备可以从命令词中反映即时通信消息接收对象的内容，确定所对应的即时通信消息接收对象标识。

比如，玛丽对计算机设备说“莉莉，把今天的天气状况发送给汤姆”，则“莉莉”是唤醒词，则计算机设备会根据命令词获取今天的具体天气状况，并生成即时通信消息比如“今天天气晴，25°”，并提取说话人玛丽的声纹特征，然后根据玛丽的声纹特征确定玛丽的即时通信账号，以及，根据命令词确定即时通信信息接收对象为“汤姆”，计算机设备则可以根据玛丽的即时通信账号将“今天天气晴，25°”的即时通信消息向汤姆的即时通信账号进行发送。

可以理解，在所确定的即时通信账号处于未登录状态时，计算机设备可以对即时通信账号进行登录处理，具体地，计算机设备可以获取预存的与确定的即时通信账号对应的登录密码，或者，提示用户以文字或语音的方式输入即时通信账号的登录密码，并根据获取的登录密码登录该即时通信账号。在一个实施例中，计算机设备还可以接收返回的即时通信消息，并以语音形式播报该返回的即时通信消息。比如，汤姆回复玛丽“天气不错，去爬山吧”，则计算机设备可以接收该即时通信消息，并以语音形式播报“天气不错，去爬山吧”这一即时通信消息。

上述实施例中，在对计算机设备进行语音控制时，可以根据命令词自动生成即时通信信息，并可以根据语音数据中的声纹特征，自动的确定所对应的即时通信账号，并根据所确定的即时通信账号发送即时通信信息，节省了用户手动选取即时通信账号的操作步骤，提高了即时通信效率。此外，根据语音数据中的声纹特征确定即时通信账号，发送即时通信信息，使得即时通信信息的表达更加的准确。

在一个实施例中，步骤S308包括：根据命令词获取控制对象标识和控制动作标识；在匹配的唤醒词所对应的权限范围中，当存在针对控制对象标识进行控制的权限，和/或，当存在执行控制动作标识所表示的控制动作的权限时，则向控制对象标识所对应的控制对象，发送用于触发控制动作标识所表示控制动作的控制指令。

其中，控制对象，是被计算机设备控制的、且用于执行命令词所对应的动作的对象。控制对象可以是智能空调或智能电视等。控制动作，是控制相应的控制对象所要执行或实施的动作，比如，当需要控制智能空调打开时，则“打开”为控制动作。控制对象标识用于唯一标识控制对象，控制动作标识用于唯一标识控制动作。针对控制对象标识进行控制的权限，是指对控制对象标识所对应的控制对象进行控制的权限。

具体地，计算机设备可以获取命令词中反映控制对象和控制动作的词，根据获取的反映控制对象和控制动作的词，确定控制对象标识和控制动作标识。

在一个实施例中，计算机设备中可以预存词和控制对象标识以及预存词和控制动作标识之间的对应关系，根据该对应关系，计算机设备可以分别获取与该反映控制对象和控制动作的词所对应的控制对象标识和控制动作标识。比如，命令词中包括“打开空调”，则计算机设备可以识别到“打开”用于反映控制动作，而“空调”用于反映控制对象，则计算机设备可以获取与“打开”对应的控制动作标识，比如Action_001，以及获取与“空调”对应的控制对象标识，比如，E_001。

在一个实施例中，计算机设备可以将命令词中反映控制对象和控制动作的词，作为相应的控制对象标识和控制动作标识。比如，命令词中“空调”这个名称本身就可以是空调的唯一标识，控制动作标识也可以为命令词中控制动作的名称本身，比如命令词中的“打开”本身，就可以是动作“打开”的唯一标识。计算机设备则可以直接将命令词中的“空调”作为控制对象标识和将“打开”作为控制动作标识。

上述实施例中，在语音数据匹配的唤醒词所对应的权限范围中，当存在针对控制对象标识进行控制的权限，和/或，当存在执行控制动作标识所表示的控制动作的权限时，再向控制对象标识所对应的控制对象，发送用于触发控制动作标识所表示控制动作的控制指令。相较于在检测到唤醒词或者检测到触发操作就向控制对象发送控制指令而言，大大提高了安全性。

在一个实施例中，该方法还包括：获取对命令词所对应的动作的执行结果，并以语音形式播报该执行结果。

其中，执行结果，是对命令词所对应的动作进行执行得到反馈信息。

执行结果可以包括执行是否成功的结果信息，也可以包括执行命令词所对应的动作后，所获取的具体信息内容。比如，执行结果可以是“空调打开完毕”这一关于执行成功的结果汇报，则计算机设备可以以语音形式播报“空调打开完毕”这一执行成功的汇报信息，也可以是获取的具体的天气信息，比如“晴，25°，空气质量优”这一具体的信息，则计算机设备可以以语音形式播报“晴，25°，空气质量优”这一具体的信息。

如图7所示，在一个实施例中，提供了另一种语音控制方法，该方法具体包括以下步骤：

S702，获取语音数据，对获取到的语音数据进行语音识别，得到文本。

S704，获取文本的不同长度的前缀词，将获取的前缀词与预设的多于一个的唤醒词分别进行匹配。

其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围。

S706，当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与语音数据匹配的唤醒词。

S708，获取从语音数据中识别得到的命令词。

S710，获取从语音数据中提取的声纹特征。

S712，将提取的声纹特征和与语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配。

S714，当声纹特征匹配成功，且与语音数据匹配的唤醒词所对应的权限范围中存在执行命令词所对应动作的权限时，则根据命令词获取即时通信消息。

S716，确定与语音数据所对应的声纹特征对应的即时通信账号。

S718，根据确定的即时通信账号，发送即时通信消息。

上述语音控制方法，不同长度的前缀词对应于不同的唤醒词，相当于设置的是组合式的唤醒词，相较于单个词组的唤醒词容易被窃听而言，组合式的唤醒词能够加大唤醒词被窃听的难度，提高了唤醒词的隐秘性，从而提高了语音控制过程中的安全性。此外，选取匹配成功的最长的唤醒词作为与语音数据匹配的唤醒词，相当于选取了最完整的唤醒词作为与语音数据匹配的唤醒词，能够使得所确定的与语音数据匹配的唤醒词更加的准确。

其次，将声纹特征的验证与唤醒词的权限验证结合起来，即使唤醒词泄露，也可以通过声纹特征的识别来进行权限把关，进一步提高了安全性。

然后，在对计算机设备进行语音控制时，可以根据命令词自动生成即时通信信息，并可以根据语音数据中的声纹特征，自动的确定所对应的即时通信账号，并根据所确定的即时通信账号发送即时通信信息，节省了用户手动选取即时通信账号的操作步骤，提高了即时通信效率。此外，根据语音数据中的声纹特征确定即时通信账号，发送即时通信信息，使得即时通信信息的表达更加的准确。

如图8所示，在一个实施例中，提供了一种语音控制方法的时序图，本实施例中，计算机设备为施控设备，其中，施控设备为下发控制指令的设备，控制对象为控制对象，该时序图具体包括以下步骤：

1)施控设备获取语音数据，对语音数据进行语音识别，得到文本。

2)施控设备获取文本的不同长度的前缀词，将获取的前缀词与预设的多于一个的唤醒词分别进行匹配。

3)当匹配成功的唤醒词多于一个时，施控设备将匹配成功的唤醒词中长度最长的唤醒词作为与语音数据匹配的唤醒词。

4)施控设备获取从语音数据中识别得到的命令词。

5)施控设备根据命令词获取控制对象标识和控制动作标识。

6)施控设备获取与语音数据对应的声纹特征。

7)施控设备将获取的声纹特征和与语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配；

8)当声纹特征匹配成功，施控设备判断与语音数据匹配的唤醒词所对应的权限范围中是否存在针对控制对象标识进行控制的权限，和/或，是否存在执行控制动作标识所表示的控制动作的权限。

9)若存在，施控设备发送用于触发控制动作标识所表示控制动作的控制指令至控制对象标识所对应的控制对象。

10)控制对象根据该控制指令执行所对应的控制动作。

如图9所示，在一个实施例中，提供了一种语音控制装置900，该装置900包括获取模块902、唤醒词确定模块904、命令词识别模块906以及动作执行模块908，其中：

获取模块902，用于获取语音数据。

唤醒词确定模块904，用于按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围。

命令词识别模块906，用于获取从所述语音数据中识别得到的命令词。

动作执行模块908，用于在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

如图10所示，在一个实施例中，唤醒词确定模块904包括：

语音识别模块904a，用于对所述语音数据进行语音识别，得到文本。

唤醒词查找模块904b，用于确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词。

在一个实施例中，所述唤醒词查找模块904b还用于获取所述文本的不同长度的前缀词；将获取的前缀词与预设的多于一个的唤醒词分别进行匹配；当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与所述语音数据匹配的唤醒词。

在一个实施例中，唤醒词查找模块904b还用于从所述文本中识别预设的多于一个的唤醒词中所包括的字符；当识别到的字符按照在所述文本中的出现顺序，组合成多于一个的唤醒词所包括的唤醒词时，将组合成的唤醒词作为与所述语音数据匹配的唤醒词。

在一个实施例中，所述多于一个的唤醒词包括公开唤醒词和私密唤醒词；所述公开唤醒词对应的权限范围为公开权限范围；所述私密唤醒词对应的权限范围为私密权限范围；其中，所述私密权限范围包括且大于所述公开权限范围。

在一个实施例中，动作执行模块908还用于获取与所述语音数据对应的声纹特征；将获取的声纹特征和与所述语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配；当声纹特征匹配成功，且与所述语音数据匹配的唤醒词所对应的权限范围中存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

在一个实施例中，所述动作执行模块908还用于根据所述命令词获取即时通信消息；确定与所述语音数据所对应的声纹特征对应的即时通信账号；根据确定的所述即时通信账号，发送所述即时通信消息。

在一个实施例中，所述动作执行模块908还用于根据所述命令词获取控制对象标识和控制动作标识；在匹配的唤醒词所对应的权限范围中，当存在针对所述控制对象标识进行控制的权限，和/或，当存在执行所述控制动作标识所表示的控制动作的权限时，则向所述控制对象标识所对应的控制对象，发送用于触发所述控制动作标识所表示控制动作的控制指令。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如下步骤：获取语音数据；按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围；获取从所述语音数据中识别得到的命令词；在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

在一个实施例中，处理器所执行的所述按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词包括：对所述语音数据进行语音识别，得到文本；确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词。

在一个实施例中，处理器所执行的所述确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词，包括：获取所述文本的不同长度的前缀词；将获取的前缀词与预设的多于一个的唤醒词分别进行匹配；当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与所述语音数据匹配的唤醒词。

在一个实施例中，处理器所执行的所述确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词，包括：从所述文本中识别预设的多于一个的唤醒词中所包括的字符；当识别到的字符按照在所述文本中的出现顺序，组合成多于一个的唤醒词所包括的唤醒词时，将组合成的唤醒词作为与所述语音数据匹配的唤醒词。

在一个实施例中，处理器所执行的所述在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作，包括：获取与所述语音数据对应的声纹特征；将获取的声纹特征和与所述语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配；当声纹特征匹配成功，且与所述语音数据匹配的唤醒词所对应的权限范围中存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

在一个实施例中，处理器所执行的所述执行所述命令词所对应的动作包括：根据所述命令词获取即时通信消息；确定与所述语音数据所对应的声纹特征对应的即时通信账号；根据确定的所述即时通信账号，发送所述即时通信消息。

在一个实施例中，处理器所执行的所述在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作，包括：根据所述命令词获取控制对象标识和控制动作标识；在匹配的唤醒词所对应的权限范围中，当存在针对所述控制对象标识进行控制的权限，和/或，当存在执行所述控制动作标识所表示的控制动作的权限时，则向所述控制对象标识所对应的控制对象，发送用于触发所述控制动作标识所表示控制动作的控制指令。

在一个实施例中，提供了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：获取语音数据；按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词；其中，多于一个的唤醒词中的每个唤醒词分别对应不同的权限范围；获取从所述语音数据中识别得到的命令词；在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音控制方法，所述方法包括：

获取语音数据；

获取从所述语音数据中识别得到的命令词；

2.根据权利要求1所述的方法，其特征在于，所述按照预设的多于一个的唤醒词，确定与获取到的语音数据匹配的唤醒词包括：

对所述语音数据进行语音识别，得到文本；

确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词。

3.根据权利要求2所述的方法，其特征在于，所述确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词，包括：

获取所述文本的不同长度的前缀词；

将获取的前缀词与预设的多于一个的唤醒词分别进行匹配；

当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与所述语音数据匹配的唤醒词。

4.根据权利要求2所述的方法，其特征在于，所述确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词，包括：

从所述文本中识别预设的多于一个的唤醒词中所包括的字符；

当识别到的字符按照在所述文本中的出现顺序，组合成多于一个的唤醒词所包括的唤醒词时，将组合成的唤醒词作为与所述语音数据匹配的唤醒词。

5.根据权利要求1所述的方法，其特征在于，所述多于一个的唤醒词包括公开唤醒词和私密唤醒词；

所述公开唤醒词对应的权限范围为公开权限范围；

所述私密唤醒词对应的权限范围为私密权限范围；

其中，所述私密权限范围包括且大于所述公开权限范围。

6.根据权利要求1所述的方法，其特征在于，所述在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作，包括：

获取与所述语音数据对应的声纹特征；

将获取的声纹特征和与所述语音数据匹配的唤醒词所对应的声纹特征进行声纹特征匹配；

当声纹特征匹配成功，且与所述语音数据匹配的唤醒词所对应的权限范围中存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述执行所述命令词所对应的动作包括：

根据所述命令词获取即时通信消息；

确定与所述语音数据所对应的声纹特征对应的即时通信账号；

根据确定的所述即时通信账号，发送所述即时通信消息。

8.根据权利要求1所述的方法，其特征在于，所述在匹配的唤醒词所对应的权限范围中，当存在执行所述命令词所对应动作的权限时，执行所述命令词所对应的动作，包括：

根据所述命令词获取控制对象标识和控制动作标识；

在匹配的唤醒词所对应的权限范围中，当存在针对所述控制对象标识进行控制的权限，和/或，当存在执行所述控制动作标识所表示的控制动作的权限时，则

向所述控制对象标识所对应的控制对象，发送用于触发所述控制动作标识所表示控制动作的控制指令。

9.一种语音控制装置，其特征在于，所述装置包括：

获取模块，用于获取语音数据；

10.根据权利要求9所述的装置，其特征在于，所述唤醒词确定模块包括：

语音识别模块，用于对所述语音数据进行语音识别，得到文本；

唤醒词查找模块，用于确定预设的多于一个的唤醒词中，包括于所述文本的唤醒词，得到与获取到的语音数据匹配的唤醒词。

11.根据权利要求10所述的装置，其特征在于，所述唤醒词查找模块还用于获取所述文本的不同长度的前缀词；将获取的前缀词与预设的多于一个的唤醒词分别进行匹配；当匹配成功的唤醒词多于一个时，将匹配成功的唤醒词中长度最长的唤醒词作为与所述语音数据匹配的唤醒词。

12.根据权利要求9所述的装置，其特征在于，所述多于一个的唤醒词包括公开唤醒词和私密唤醒词；所述公开唤醒词对应的权限范围为公开权限范围；所述私密唤醒词对应的权限范围为私密权限范围；其中，所述私密权限范围包括且大于所述公开权限范围。

13.根据权利要求9至12中任一项所述的装置，其特征在于，所述动作执行模块还用于根据所述命令词获取即时通信消息；确定与所述语音数据所对应的声纹特征对应的即时通信账号；根据确定的所述即时通信账号，发送所述即时通信消息。

14.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

15.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项所述方法的步骤。