CN109074808B

CN109074808B - 语音控制方法、中控设备和存储介质

Info

Publication number: CN109074808B
Application number: CN201880000938.XA
Authority: CN
Inventors: 谢冠宏; 廖明进; 高铭坤
Original assignee: Shenzhen Moor Intelligent Acoustics Tech Co ltd
Current assignee: Shenzhen Moor Intelligent Acoustics Tech Co ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2023-05-09
Anticipated expiration: 2038-07-18
Also published as: WO2020014899A1; CN109074808A

Abstract

本申请涉及一种语音控制方法、中控设备和存储介质。该方法包括：接收各拾音设备采集的语音指令；对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果；接收云服务器返回的各识别结果；当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作。通过发送满足音量条件的语音指令进行识别，并对识别结果进行筛选，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作，使得最后所执行操作对应的识别结果能够有效表征语音指令的关键信息，进而提高了多点语音控制的准确率。

Description

语音控制方法、中控设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音控制方法、中控设备和存储介质。

背景技术

随着移动互联网、车联网和智能家居的发展，语音识别发挥了越来越重要的作用。特别是在多点语音识别技术中，比如智能家居系统，通常在相应空间内部署有多个拾音设备，以对用户发出的声音信号进行采集得到语音指令，而后由识别设备对多个语音指令进行识别，以控制对应设备执行指令对应的操作。然而，由于多个拾音设备部署于不同的空间位置，得到的语音指令存在差异，基于对语音指令的识别得到的控制指令也存在不同，从而难以实现对智能家居的准确控制。

因此，在多点语音控制技术中，如何从多个语音指令中有效识别出关键信息并进行准确的控制，成为当前语音控制技术发展所面临的重点及难点。

发明内容

根据本申请提供的各种实施例，提供一种语音控制方法、中控设备和存储介质。

一种语音控制方法，包括：

接收各拾音设备采集的语音指令；

对各所述语音指令进行分析，将满足音量条件的所述语音指令发送至云服务器，由所述云服务器对各所述语音指令进行识别得到各所述语音指令对应的识别结果；

接收所述云服务器返回的各所述识别结果；

当满足一致性条件的所述识别结果的数量达到预设阈值时，执行满足一致性条件的所述识别结果对应的操作。

一种中控设备，包括存储器和处理器，存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

接收各拾音设备采集的语音指令；

接收所述云服务器返回的各所述识别结果；

一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

接收各拾音设备采集的语音指令；

接收所述云服务器返回的各所述识别结果；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中语音控制方法的应用环境图；

图2为一个实施例中语音控制方法的流程示意图；

图3为一个实施例中语音指令选取并发送的步骤的流程示意图；

图4为一个实施例中语音控制方法的交互流程示意图；

图5为一个实施例中语音控制装置的结构框图；

图6为一个实施例中中控设备的结构框图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本申请，并不限定本申请的保护范围。

图1为一个实施例提供的语音控制方法的应用环境示意图。如图1所示，该应用环境包括拾音设备102、中控设备104和云服务器106。其中，各拾音设备102和中控设备104通过网络连接，中控设备104和云服务器106通过网络连接。中控设备104具体可以是终端设备，比如具有语音处理能力的网关设备、中心管理设备或智能家居设备等台式终端或移动终端。云服务器106为具有语音识别功能、能够实现复杂的语音识别的服务器或服务器集群。

具体地，拾音设备102用于接收用户发出的声音信号，并转换为对应的语音指令后发送至中控设备104。

其中，拾音设备是指通过接收声音震动，将声音转换成语音信号的电声学仪器。语音信号是指通过拾音设备采集用户发出的声音信号得到的携带有语音数据的信号，其中，语音数据是指用于表示声音信号的数据。面对不同的语音识别需求，由拾音设备采集当前环境下的声音信号得到语音信号，通过后续对语音信号识别并执行相应的功能。语音指令是指携带有控制指令的语音信号，通过语音指令可实现对智能家居系统中相关设备的控制。以智能家居系统为例，拾音设备采集的语音指令包括唤醒指令或是切换指令等。

在本实施例中，将多个拾音设备102部署于同一空间的不同位置，以从不同方位采集声音信号，确保用户或其他人员在不同位置发出声音信号时均能够被采集到。

中控设备104与各个拾音设备102通过网络连接，用于接收拾音设备102采集的语音指令，并对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器106。

其中，音量条件为根据对语音识别准确度的要求，预先设置的音量限制条件。比如，音量条件为音量最大的预设数量语音指令；又或者，音量条件为大于设定的音量阈值等。具体地，由中控设备对接收到的各语音指令进行分析，以判断各语音指令是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器106。

中控设备104通过音量条件对接收到的语音指令进行筛选，过滤掉的质量相对较差的语音指令，将筛选出的、符合音量条件的语音指令发送至云服务器106进行识别，避免因语音指令的质量较差，导致识别结果误差过大。同时，还能够减少云服务器的语音识别任务，进而加快获得识别结果的速度。

云服务器106接收中控设备104发送的语音指令，并对接收到语音指令进行识别，得到各语音指令对应的识别结果，并将各识别结果返回至中控设备104，以便中控设备104基于各识别结果确定需要执行的操作。

其中，识别结果是指云服务器106基于预设的语音识别模型对接收到的语音指令进行识别后，语音指令对应的输出结果。其中，语音识别模型为传统的语音识别模型，如基于神经网络的语音识别模型。

进一步地，中控设备104接收云服务器106返回的各识别结果，并判断各识别结果是否满足一致性条件，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作。

其中，一致性条件是指将进行比对的识别结果判断为一致时，所需要满足的条件。比如，该条件可以是比对的识别结果相同，也可以是比对的识别结果的相似度达到预设值等，具体可根据需求进行设定。

在一实施例中，各识别结果包括对语音指令进行识别得到的至少一个控制指令及各控制指令的相似度。可以理解，一个语音指令经语音识别模型识别后，输出结果中会包括多个与该语音指令匹配的控制指令，以及该语音指令与所匹配的控制指令之间的相似度。其中，云服务器106中预先存储有控制指令，通过云服务器106对语音指令进行识别，得到与语音指令匹配的多个控制指令及其相似度。

中控设备104接收云服务器返回的识别结果，根据控制指令的相似度，从各识别结果中确定执行指令。相似度可有效表征控制指令与语音指令之间的关联度，基于相似度最终确定执行指令，能够确保执行指令的准确性。其中，执行指令是指最终控制被控设备执行操作的指令。

在一实施例中，中控设备104还用于根据确定的执行指令，控制被控设备执行执行指令对应的操作。具体地，当中控设备104为被控设备时，当根据控制指令及其相似度确定执行指令后，中控设备104根据确定的执行指令，控制自身执行执行指令对应的操作。以中控设备104为智能家居设备为例，比如智能音箱、智能电视机等，当智能家居设备得到确定的执行指令时，控制执行该执行指令对应的操作。比如，当执行指令为“开启”指令时，则使智能家居设备执行开启操作等。

在另一实施例中，中控设备104还与被控设备连接，用于根据确定的执行指令，控制被控设备执行执行指令对应的操作。比如，中控设备104可以为网关设备或其他中央管理设备等。中控设备104根据确定的执行指令，确定待控制的被控设备，并根据执行指令控制确定的被控设备执行相关操作，或者将执行指令发送至确定的被控设备，由被控设备根据执行指令执行相关操作。

以智能家居系统为例，假设中控设备为中央管理设备，被控设备可以包括但不限于智能音箱、智能电视机、智能空调等。当确定的执行指令为“音箱开启”指令时，中控设备104确定当前待控制的被控设备为智能音箱，进而控制智能音箱开启；或者将“音箱开启”指令发送至智能音箱，由智能音箱内部的控制单元控制执行开启操作。

在一实施例中，拾音设备102还用于对采集到的语音指令进行降噪压缩处理，将降噪压缩处理后的语音指令发送至中控设备104。相应地，中控设备104对接收到的语音指令进行解压，对解压后的各语音指令进行分析，将满足音量条件的语音指令发送至云服务器106。

在另一实施例中，拾音设备102还用于对采集到的语音指令进行压缩处理，将压缩处理后的语音指令发送至中控设备104。相应地，中控设备104对接收到的语音指令进行解压以及降噪，对解压降噪处理后的各语音指令进行分析，将满足音量条件的语音指令发送至云服务器106。

通过由拾音设备或者中控设备对语音指令进行降噪，滤除噪声干扰，保留有用信号，以进一步提高语音识别准确性。

在一实施例中，中控设备104本身包括拾音设备，中控设备104通过自身的拾音设备自主采集语音指令，接收拾音设备102以及自身拾音设备采集的语音指令，并对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器106。

在一个实施例中，如图2所示，提供了一种语音控制方法，以该方法应用于图1中的中控设备104为例进行说明，该方法包括以下步骤：

S202，接收各拾音设备采集的语音指令。

在本实施例中，拾音设备包括独立于中控设备设置的拾音设备，以及中控设备本身具备的拾音设备。也就是说，中控设备接收到的各拾音设备采集的语音指令，包括独立设置的各拾音设备采集的语音指令，以及中控设备本身采集的语音指令。

S204，对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

具体地，由中控设备对接收到的各语音指令进行分析，以判断各语音指令是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器进行识别。语音指令通过云服务器的语音识别模型识别后，得到各语音指令对应的识别结果。

以智能家居系统为例，中控设备对接收到的各语音指令进行分析，以判断各语音指令是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器进行识别。云服务器中预先存储有控制指令，通过云服务器对语音指令进行识别，得到与语音指令匹配的控制指令，由匹配的控制指令及相关信息组成识别结果。

S206，接收云服务器返回的各识别结果。

云服务器分别将各语音指令的识别结果通过网络返回至中控设备。中控设备接收云服务器返回的各识别结果，以基于各识别结果确定的所需执行的操作。

S208，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作。

具体地，基于预设的一致性条件，对接收到的各识别结果进行判断，判断各识别结果是否满足一致性条件，以及满足一致性条件的识别结果的数量是否达到预设阈值，若满足一致性条件的识别结果的数量达到预设阈值，则根据满足一致性条件的识别结果执行其对应的操作。

上述语音控制方法，通过接收各拾音设备采集的语音指令，并对其进行分析，将满足音量条件的语音指令发送至云服务器，以使云服务器对接收到的相对清楚的语音指令进行识别，得到较为准确的识别结果。进一步对识别结果进行筛选，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作，使得最后所执行操作对应的识别结果能够有效表征语音指令的关键信息，进而提高了多点语音控制的准确率。

在一实施例中，对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果，包括：对各语音指令进行分析，得到各语音指令的音量系数；根据音量系数，确定满足音量条件的语音指令并发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

其中，音量系数是指用于表示音量大小的系数，也即表示声音的强弱，单位为“分贝(dB)”。由于声音产生的位置与各拾音设备的距离不同，因此，各拾音设备所采集到的声音信号的音量大小也不同。具体地，通过对语音指令的振动幅度参数进行分析，得到各语音指令的音量系数，判断各语音指令的音量系数是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器。

具体地，如图3所示，根据音量系数，确定满足音量条件的语音指令并发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果的步骤，包括：

S302，将各语音指令按照音量系数大小进行排序。

接收到的每一语音指令都对应有一个音量系数，将各语音指令按照音量系数大小进行排列，比如按照从大到小的顺序排列，或者按照从小到大的顺序排列。音量系数越大，所对应的语音指令越清楚、准确。

S304，根据排序结果，获取音量系数最大的预设数量的语音指令。

音量系数越小的语音指令，通常不够清楚，在语音识别过程中容易导致误识别，得到错误的识别结果。为保证识别结果的准确性，尽可能减少错误识别结果的干扰，根据音量系数排序结果，选取音量系数最大的预设数量的语音指令，以发送至云服务器进行识别。比如，选取音量系数最大的3条语音指令，或者选取音量系数最大的2条语音指令。预设数量可基于对识别结果准确度的要求自行进行设置。

S306，将预设数量的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

将选取的预设数量的语音指令发送至云服务器，由云服务器对该预设数量的语音指令进行识别，得到每条语音指令对应的识别结果。通过按照音量系数大小，选取音量系数最大的几组语音指令并发送至云服务器进行识别，一定程度上保证了所得识别结果的准确性。

进一步地，对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果之前，还包括：对接收的各语音指令进行完整性校验，判断各语音指令是否完整，若否，则删除非完整的语音指令。从而使得仅对完整的各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，进一步确保识别结果的准确性。

在一实施例中，拾音设备发送的语音指令中包括语音数据以及根据语音数据计算出的一个校验值。中控设备对接收到的语音指令进行解析，得到语音数据及校验值，并基于与拾音设备相同的校验值计算方法，根据解析得到的语音数据计算出一个校验值，判断计算出的校验值与解析得到的校验值是否相同，若是，则说明接收的语音指令是完整的，否则说明接收的语音指令是非完整的，发生了数据的丢失。通过进行完整性检验，保证进行识别的语音指令的准确性。

在一实施例中，各识别结果包括对语音指令进行识别得到的至少一个控制指令及各控制指令的相似度。当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作，包括：当至少两个识别结果中相似度最大的控制指令相同时，将相似度最大的相同控制指令确定为执行指令；根据执行指令，控制被控设备执行执行指令对应的操作。

具体地，分别取各识别结果中相似度最大的控制指令，将取出的控制指令进行比对，判断其是否相同，若相同，则将相同的控制指令作为最终确定的执行指令。可以理解为，识别结果中相似度最大的控制指令为与语音指令最为匹配的控制指令，若与语音指令最为匹配的控制指令一致，一定程度说明了该控制指令的准确性，则将该控制指令作为最终确定的执行指令。

假设发送至云服务器进行识别的语音指令包括语音指令I、II、III，通过识别分别得到识别结果I、II、III，识别结果I中包括控制指令A、B和C，其相似度分别为98％、90％和87％，可表示为I＝{A，B，C；98％，90％，87％}。根据同样的表述方式得到，II＝{A，C，B；90％，85％，80％}，III＝{B，D，C；90％，86％，70％}。分别取识别结果I、II、III中相似度最大的控制指令，可得A，A，B，将取出的三个控制指令进行比对可知，识别结果I和识别结果II中相似度最大的控制指令相同，均为A，因此，将控制指令A作为最终确定的执行指令。

在一实施例中，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作，包括：当至少三个识别结果中相似度最大的控制指令相同时，将相似度最大的相同控制指令确定为执行指令；根据执行指令，控制被控设备执行执行指令对应的操作。也就是说，在根据各识别结果中相似度最大的控制指令，确定执行指令时，相同控制指令的个数可根据需求进行设定。

上述语音控制方法，通过选取音量较大的预设数量的语音指令，并发送至云服务器进行识别，避免因语音指令较差，导致识别结果误差过大，进而影响语音识别的准确性。并且，通过对得到的多个控制指令进行比对分析，优先将各识别结果中相似度最大的相同控制指令作为执行指令，保证语音控制的准确性。

进一步地，语音控制方法还包括：当任意两个识别结果中相似度最大的控制指令不同时，获取全部识别结果中相似度最大的控制指令；将全部识别结果中相似度最大的控制指令确定为执行指令；根据执行指令，控制被控设备执行执行指令对应的操作。

具体地，比较各识别结果中相似度最大的控制指令，当不存在相同控制指令时，则将各识别结果中的控制指令进行合并，取合并后的控制指令集合中相似度最大的控制指令，作为最终确定的执行指令，并控制被控设备执行执行指令对应的操作。

可以理解为，当各语音指令的识别结果均不一致，或者满足一致性条件的识别结果的数量未达到预设阈值时，则将识别结果中的所有控制指令进行合并，将全部识别结果中相似度最大的控制指令作为执行指令，确保语音控制的准确性。

在一实施例中，被控设备为中控设备本身，则根据执行指令，控制被控设备执行执行指令对应的操作，包括：根据执行指令，执行执行指令对应的操作。

以中控设备为智能家居设备为例，比如智能音箱、智能电视机等，当智能家居设备得到确定的执行指令时，执行该执行指令对应的操作。比如，当执行指令为“开启”指令时，则使智能家居设备执行开启操作等。

在一实施例中，根据执行指令，控制被控设备执行执行指令对应的操作，包括：根据执行指令确定待控制的被控设备；控制确定的被控设备执行执行指令对应的操作。

在另一实施例中，根据执行指令，控制被控设备执行执行指令对应的操作，包括：根据执行指令确定待控制的被控设备；将执行指令发送至确定的被控设备，由被控设备根据执行指令执行相关操作。

以智能家居系统为例，假设中控设备为中央管理设备，被控设备可以包括但不限于智能音箱、智能电视机、智能空调等。当确定的执行指令为“音箱开启”指令时，确定当前待控制的被控设备为智能音箱，进而控制智能音箱开启；或者将“音箱开启”指令发送至智能音箱，由智能音箱内部的控制单元控制执行开启操作。

下面结合应用环境对本申请的语音控制方法进行说明。在一实施例中，如图4所示，各拾音设备采集用户发出的声音信号得到语音指令，并将语音指令压缩后发送至中控设备。中控设备接收各拾音设备发送的语音指令以及自身采集得到的语音指令，对语音指令进行解压及降噪处理，对解压及降噪处理后的语音指令进行分析，得到各语音指令的音量系数。而后按照音量系数大小对语音指令进行排序，选取音量系数最大的预设数量的语音指令，并发送至云服务器。云服务器分别对各语音指令进行识别，得到各语音指令对应的识别结果并返回至中控设备，各识别结果包括对语音指令进行识别得到的至少一个控制指令及各控制指令的相似度。中控设备接收各识别结果，判断是否存在至少两个识别结果中相似度最大的控制指令相同，若存在，则将相似度最大的相同控制指令确定为执行指令；否则，合并全部识别结果，将合并后的识别结果集合中相似度最大的控制指令确定为执行指令。中控设备根据执行指令确定待控制的被控设备，并控制确定的被控设备执行执行指令对应的操作。

上述语音控制方法，通过接收各拾音设备采集的语音指令，并对其进行分析，音量系数最大的预设数量的语音指令发送至云服务器，以使云服务器对接收到的相对清楚的语音指令进行识别，得到较为准确的识别结果，减少错误识别结果的干扰。进一步根据相似度对识别结果中的控制指令进行筛选，以确定执行指令。而基于对相似度的考虑，充分体现了控制指令与语音指令之间的关联度，使得最后确定的执行指令能够准确匹配语音指令，并有效表征语音指令的关键信息，提高了多点语音控制的准确率。

在一实施例中，如图5所示，提供一种语音控制装置，该装置包括：信号接收模块502、音量分析模块504、反馈接收模块506和执行模块508。其中：

信号接收模块502，用于接收各拾音设备采集的语音指令。具体地，接收各拾音设备采集的以及中控设备自身采集的语音指令。

音量分析模块504，用于对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器。使得由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

具体地，音量分析模块504对接收到的各语音指令进行分析，以判断各语音指令是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器进行识别。语音指令通过云服务器的语音识别模型识别后，得到各语音指令对应的识别结果。

反馈接收模块506，用于接收云服务器返回的各识别结果。

执行模块508，用于当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作。

本实施例中，执行模块508基于预设的一致性条件，对接收到的各识别结果进行判断，判断各识别结果是否满足一致性条件，以及满足一致性条件的识别结果的数量是否达到预设阈值，若满足一致性条件的识别结果的数量达到预设阈值，则根据满足一致性条件的识别结果执行其对应的操作。

上述语音控制装置，通过接收各拾音设备采集的语音指令，并对其进行分析，将满足音量条件的语音指令发送至云服务器，以使云服务器对接收到的相对清楚的语音指令进行识别，得到较为准确的识别结果。进一步对识别结果进行筛选，当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作，使得最后所执行操作对应的识别结果能够有效表征语音指令的关键信息，进而提高了多点语音控制的准确率。

进一步地，音量分析模块504还包括：音量系数获取模块和确定模块。其中，音量系数获取模块用于对各语音指令进行分析，得到各语音指令的音量系数；确定模块用于根据音量系数，确定满足音量条件的语音指令并发送至云服务器。

具体地，音量系数获取模块通过对语音指令的振动幅度参数进行分析，得到各语音指令的音量系数，进而由确定模块判断各语音指令的音量系数是否满足预设的音量条件，将满足音量条件的语音指令发送至云服务器。

在一实施例中，确定模块还包括：排序模块、指令获取模块和发送模块。其中：

排序模块用于将各语音指令按照音量系数大小进行排序。比如按照从大到小的顺序排列，或者按照从小到大的顺序排列。音量系数越大，所对应的语音指令越清楚、准确。

指令获取模块用于根据排序结果，获取音量系数最大的预设数量的语音指令。音量系数越小的语音指令，通常不够清楚，在语音识别过程中容易导致误识别，得到错误的识别结果。为保证识别结果的准确性，尽可能减少错误识别结果的干扰，指令获取模块根据音量系数排序结果，选取音量系数最大的预设数量的语音指令，以发送至云服务器进行识别。比如，选取音量系数最大的3条语音指令，或者选取音量系数最大的2条语音指令。预设数量可基于对识别结果准确度的要求自行进行设置。

发送模块用于将预设数量的语音指令发送至云服务器。通过将选取的预设数量的语音指令发送至云服务器，由云服务器对该预设数量的语音指令进行识别，得到每条语音指令对应的识别结果。通过按照音量系数大小，选取音量系数最大的几组语音指令并发送至云服务器进行识别，一定程度上保证了所得识别结果的准确性。

在一实施例中，执行模块包括执行指令确定模块和执行子模块。其中，执行指令确定模块用于当至少两个识别结果中相似度最大的控制指令相同时，将相似度最大的相同控制指令确定为执行指令；执行子模块用于根据执行指令，控制被控设备执行执行指令对应的操作。

具体地，执行指令确定模块用于分别取各识别结果中相似度最大的控制指令，将取出的控制指令进行比对，判断其是否相同，若相同，则将相同的控制指令作为最终确定的执行指令。可以理解为，识别结果中相似度最大的控制指令为与语音指令最为匹配的控制指令，若与语音指令最为匹配的控制指令一致，一定程度说明了该控制指令的准确性，则将该控制指令作为最终确定的执行指令。

进一步地，执行指令确定模块还用于当任意两个识别结果中相似度最大的控制指令不同时，获取全部识别结果中相似度最大的控制指令；将全部识别结果中相似度最大的控制指令确定为执行指令。

在一实施例中，执行子模块还用于根据执行指令，执行执行指令对应的操作。以中控设备为智能家居设备为例，比如智能音箱、智能电视机等，当智能家居设备得到确定的执行指令时，执行该执行指令对应的操作。比如，当执行指令为“开启”指令时，则使智能家居设备执行开启操作等。

在一实施例中，执行子模块还用于根据执行指令确定待控制的被控设备；控制确定的被控设备执行执行指令对应的操作。

在另一实施例中，执行子模块还用于根据执行指令确定待控制的被控设备；将执行指令发送至确定的被控设备，由被控设备根据执行指令执行相关操作。

以智能家居系统为例，假设中控设备为中央管理设备，被控设备可以包括但不限于智能音箱、智能电视机、智能空调等。当确定的执行指令为“音箱开启”指令时，执行子模块确定当前待控制的被控设备为智能音箱，进而控制智能音箱开启；或者将“音箱开启”指令发送至智能音箱，由智能音箱内部的控制单元控制执行开启操作。

上述语音控制装置，通过接收各拾音设备采集的语音指令，并对其进行分析，音量系数最大的预设数量的语音指令发送至云服务器，以使云服务器对接收到的相对清楚的语音指令进行识别，得到较为准确的识别结果，减少错误识别结果的干扰。进一步根据相似度对识别结果中的控制指令进行筛选，以确定执行指令。而基于对相似度的考虑，充分体现了控制指令与语音指令之间的关联度，使得最后确定的执行指令能够准确匹配语音指令，并有效表征语音指令的关键信息，提高了多点语音控制的准确率。

关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定，在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种中控设备，其内部结构图可以如图6所示。该中控设备包括通过系统总线连接的处理器、存储器、网络接口、和麦克风。其中，该中控设备的处理器用于提供计算和控制能力。该中控设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该中控设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音控制方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的中控设备的限定，具体的中控设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，提供一种中控设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如下步骤：

接收各拾音设备采集的语音指令；

对各语音指令进行分析，将满足音量条件的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果；

接收云服务器返回的各识别结果；

当满足一致性条件的识别结果的数量达到预设阈值时，执行满足一致性条件的识别结果对应的操作。

在一实施例中，计算机可读指令还使得处理器执行如下步骤：

对各语音指令进行分析，得到各语音指令的音量系数；

根据音量系数，确定满足音量条件的语音指令并发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

将各语音指令按照音量系数大小进行排序；

根据排序结果，获取音量系数最大的预设数量的语音指令；

将预设数量的语音指令发送至云服务器，由云服务器对各语音指令进行识别得到各语音指令对应的识别结果。

在一实施例中，各识别结果包括对语音指令进行识别得到的至少一个控制指令及各控制指令的相似度，计算机可读指令还使得处理器执行如下步骤：

当至少两个识别结果中相似度最大的控制指令相同时，将相似度最大的相同控制指令确定为执行指令；

根据执行指令，控制被控设备执行执行指令对应的操作。

当任意两个识别结果中相似度最大的控制指令不同时，获取全部识别结果中相似度最大的控制指令；

将全部识别结果中相似度最大的控制指令确定为执行指令；

根据执行指令，控制被控设备执行执行指令对应的操作。

根据执行指令确定待控制的被控设备；

控制确定的被控设备执行执行指令对应的操作。

根据执行指令确定待控制的被控设备；

将执行指令发送至确定的被控设备，由被控设备根据执行指令执行相关操作。

在一实施例中，提供一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

接收各拾音设备采集的语音指令；

接收云服务器返回的各识别结果；

在一实施例中，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

对各语音指令进行分析，得到各语音指令的音量系数；

将各语音指令按照音量系数大小进行排序；

根据排序结果，获取音量系数最大的预设数量的语音指令；

在一实施例中，各识别结果包括对语音指令进行识别得到的至少一个控制指令及各控制指令的相似度，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

根据执行指令，控制被控设备执行执行指令对应的操作。

将全部识别结果中相似度最大的控制指令确定为执行指令；

根据执行指令，控制被控设备执行执行指令对应的操作。

根据执行指令确定待控制的被控设备；

控制确定的被控设备执行执行指令对应的操作。

根据执行指令确定待控制的被控设备；

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音控制方法，其特征在于，应用于中控设备，各拾音设备分别与所述中控设备进行连接；所述语音控制方法包括：

接收各拾音设备采集的语音指令；

对各所述语音指令进行分析，得到各所述语音指令的音量系数；根据音量系数确定满足音量条件的所述语音指令，并将满足音量条件的所述语音指令发送至云服务器，由所述云服务器对各所述语音指令进行识别得到各所述语音指令对应的识别结果；

接收所述云服务器返回的各所述识别结果；

2.根据权利要求1所述的方法，其特征在于，所述根据音量系数，确定满足音量条件的所述语音指令并发送至云服务器，由所述云服务器对各所述语音指令进行识别得到各所述语音指令对应的识别结果，包括：

将各所述语音指令按照音量系数大小进行排序；

根据排序结果，获取音量系数最大的预设数量的所述语音指令；

将所述预设数量的所述语音指令发送至云服务器，由所述云服务器对各所述语音指令进行识别得到各所述语音指令对应的识别结果。

3.根据权利要求1所述的方法，其特征在于，各所述识别结果包括对所述语音指令进行识别得到的至少一个控制指令及各控制指令的相似度，所述当满足一致性条件的所述识别结果的数量达到预设阈值时，执行所述满足一致性条件的所述识别结果对应的操作，包括：

当至少两个所述识别结果中相似度最大的所述控制指令相同时，将相似度最大的相同控制指令确定为执行指令；

根据所述执行指令，控制被控设备执行所述执行指令对应的操作。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当任意两个所述识别结果中相似度最大的所述控制指令不同时，获取全部识别结果中相似度最大的所述控制指令；

将全部识别结果中相似度最大的所述控制指令确定为执行指令；

5.根据权利要求3所述的方法，其特征在于，所述根据所述执行指令，控制被控设备执行所述执行指令对应的操作，包括：

根据所述执行指令确定待控制的被控设备；

控制确定的所述被控设备执行所述执行指令对应的操作。

6.根据权利要求3所述的方法，其特征在于，所述根据所述执行指令，控制被控设备执行所述执行指令对应的操作，包括：

根据所述执行指令确定待控制的被控设备；

7.一种中控设备，包括存储器和处理器，存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

接收各拾音设备采集的语音指令；各拾音设备分别与所述中控设备进行连接；

接收所述云服务器返回的各所述识别结果；

8.根据权利要求7所述的中控设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

将各所述语音指令按照音量系数大小进行排序；

9.根据权利要求7所述的中控设备，其特征在于，各所述识别结果包括对所述语音指令进行识别得到的至少一个控制指令及各控制指令的相似度，所述计算机可读指令还使得所述处理器执行如下步骤：

10.根据权利要求9所述的中控设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

11.根据权利要求9所述的中控设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

根据所述执行指令确定待控制的被控设备；

控制确定的所述被控设备执行所述执行指令对应的操作。

12.根据权利要求9所述的中控设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

根据所述执行指令确定待控制的被控设备；

13.一种存储有计算机可读指令的非易失性存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

接收各拾音设备采集的语音指令；各拾音设备分别与中控设备进行连接；

接收所述云服务器返回的各所述识别结果；

14.根据权利要求13所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

将各所述语音指令按照音量系数大小进行排序；

15.根据权利要求13所述的存储介质，其特征在于，各所述识别结果包括对所述语音指令进行识别得到的至少一个控制指令及各控制指令的相似度，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

16.根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

17.根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

根据所述执行指令确定待控制的被控设备；

控制确定的所述被控设备执行所述执行指令对应的操作。