CN114694650A

CN114694650A - 智能设备的控制方法和装置、存储介质及电子设备

Info

Publication number: CN114694650A
Application number: CN202210319578.8A
Authority: CN
Inventors: 张卓博
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-01

Abstract

本发明公开了一种智能设备的控制方法和装置、存储介质及电子设备。涉及智能家居技术领域，该方法包括：获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量；确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别；在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别；获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作。本发明解决了需要进行个性化设置导致用户体验差的技术问题。

Description

智能设备的控制方法和装置、存储介质及电子设备

技术领域

本发明涉及智能家居领域，具体而言，涉及一种智能设备的控制方法和装置、存储介质及电子设备。

背景技术

当前智能家居设备在家庭中的使用越来越普及。很多家庭为方便与智能设备进行交互，通常会使用语音进行智能家居设备的操控，例如通过语音指令开启空调。

但是各个家庭成员对于智能设备的使用习惯不同，通常还需要在智能设备启动后，需要根据自己习惯进行调整。每次使用均需要进行调整使得使用操作重复且繁琐，对用户的使用体验不好。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种智能设备的控制方法和装置、存储介质及电子设备，以至少解决需要进行个性化设置导致用户体验差的技术问题。

根据本发明实施例的一个方面，提供了一种智能设备的控制方法，包括：获取历史音频段集合，并分别提取上述历史音频段集合中每个历史音频段的声纹特征，得到上述每个历史音频段的声纹特征向量，其中，上述历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；确定上述历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据上述每两个历史音频段的声纹特征向量的相似参数，对上述历史音频段进行聚类，得到多个音频组别，其中，每个上述音频组别对应于一个对象，每个上述音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；在接收到目标语音指令的情况下，从上述多个音频组别中确定与上述目标语音指令匹配的目标音频组别，其中，上述目标语音指令用于指示控制目标设备执行目标操作；获取上述目标音频组别与上述目标操作对应的目标设备参数，并控制上述目标设备按照上述目标设备参数执行上述目标操作，其中，上述目标设备参数用于指示上述目标设备的运行参数。

根据本发明实施例的另一方面，还提供了一种智能设备的控制装置，包括：获取单元，用于获取历史音频段集合，并分别提取上述历史音频段集合中每个历史音频段的声纹特征，得到上述每个历史音频段的声纹特征向量，其中，上述历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；聚类单元，用于确定上述历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据上述每两个历史音频段的声纹特征向量的相似参数，对上述历史音频段进行聚类，得到多个音频组别，其中，每个上述音频组别对应于一个对象，每个上述音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；确定单元，用于在接收到目标语音指令的情况下，从上述多个音频组别中确定与上述目标语音指令匹配的目标音频组别，其中，上述目标语音指令用于指示控制目标设备执行目标操作；控制单元，用于获取上述目标音频组别与上述目标操作对应的目标设备参数，并控制上述目标设备按照上述目标设备参数执行上述目标操作，其中，上述目标设备参数用于指示上述目标设备的运行参数。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述智能设备的控制方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的智能设备的控制方法。

在本发明实施例中，采用获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据，确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值，在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作；获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数的方式，通过获取历史音频段集合并对历史音频段聚类形成音频组别，通过确定与目标语音指令匹配的目标音频组别，从而利用与目标音频组别对应的目标设备参数，控制目标设备的运行，达到了在无需进行个性化设置的前提下，基于历史音频数据的聚类实现对于语音指令的对象匹配，从而基于对象对应的设备参数控制设备运行的目的，从而实现了无需进行个性化设置的前提下，实现用户无感的个性化运行控制的技术效果，进而解决了需要进行个性化设置导致用户体验差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的智能设备的控制方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的智能设备的控制方法的流程示意图；

图3是根据本发明实施例的一种可选的智能设备的控制方法的流程示意图；

图4是根据本发明实施例的一种可选的智能设备的控制方法的流程示意图；

图5是根据本发明实施例的一种可选的智能设备的控制方法的流程示意图；

图6是根据本发明实施例的一种可选的智能设备的控制方法的流程示意图；

图7是根据本发明实施例的一种可选的智能设备的控制装置的结构示意图；

图8是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种智能设备的控制方法，该智能设备的控制方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述智能设备的控制方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

终端设备102不限于通过网络将语音指令发送给服务器104，以通过服务器104确定出用于运行终端设备102的运行参数，并通过网络将运行参数返回给终端设备102，控制终端设备102按照运行参数运行。服务器104确定出与语音指令对应的运行参数不限于通过依次执行S102至S108实现。S102，获取声纹特征向量。获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据。S104，得到多个音频组别。确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值。S106，确定目标音频组别。在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作。S108，执行目标操作。获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数。

上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述智能设备的控制方法包括：

S202，获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；

S204，确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；

S206，在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作；

S208，获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数。

历史音频数据不限于为目标设备或目标设备所在设备网络采集到的或接收到的历史语音指令。目标设备所在的设备网络中不限于包括至少一个具备语音采集和语音控制功能的终端设备，用于采集或接收语音指令，以实现设备网络中的终端设备的语音控制功能。

获取历史音频数据不限于在历史音频数据的数据量积累到预设数量的情况下，开始对历史音频数据进行数据聚类，以确定出至少一个音频组别。在历史音频数据的数据量达到预设数量的情况下，不限于按照音频切分规则，对每个历史音频数据进行切分。

对每个历史音频数据的切分不限于按照预设长度或预设音频量或其他任意标准对音频进行切分，从而将每个历史音频数据划分为至少两个音频段。从而得到全部历史音频数据各自对应的至少两个历史音频段，在历史音频段集合中包括全部历史音频数据各自对应的历史音频段。

在提取音频数据的声纹特征时，分别提取历史音频段集合中每个历史音频段的声纹特征，不限于以向量形式表示每个历史音频段的声纹特征，从而基于每个历史音频段的声纹特征向量，在历史音频段集合中进行音频段聚类，通过音频段聚类构建多个音频组别。

根据声纹特征向量对历史音频段进行聚类，不限于是计算每两个历史音频段的声纹特征向量的相似参数，基于每两个历史音频段的声纹特征向量的相似参数进行音频段聚类，以得到多个音频组别。具体基于每两个历史音频段的声纹特征向量的相似参数进行音频段聚类不限于是，在每两个声纹特征向量的相似参数大于预设相似阈值的情况下，将两个声纹特征向量分别对应的历史音频段进行聚类，从而基于两个历史音频段聚类后的声纹特征向量继续执行音频段聚类。不限于是计算两个历史音频段聚类后得到的当前类的类声纹特征向量，从而基于每两个当前类的类声纹特征向量的相似参数继续执行聚类。也可以是基于每两个声纹特征向量的相似参数，在相似参数大于预设相似阈值的多个历史音频段进行聚类，在该方法中，同样不限于存在多次聚类，从而得到多个音频组别。

对历史音频聚类形成的多个音频组别中，每个音频组别对应一个对象，但音频组别对应的对象为执行音频聚类确定出的虚拟对象，位于一个音频组别中的音频数据为同一个虚拟对象的概率大于预设概率。而虚拟对象与历史音频数据所对应的真实对象对应。但需要说明的是，目标音频组别并不是在确定出对象之后，按照对象进行划分的音频数据的组别，而是基于多个对象的历史音频数据聚类形成的音频组别。

历史音频数据所对应的一组对象中包括的对象数量在此不做限定，不限于为使用目标设备或目标设备网络的一个或多个对象。目标语音指令用于通过语音指示目标设备执行目标操作，在得到多个音频组别的情况下，不限于在预设条件下利用目标语音指令对目标音频组别进行更新，例如在经过预设时长的情况下，分别利用与各个音频组别对应的语音指令对音频组别进行更新。

每个音频组别不限于对应有各自的设备参数，不限于包括各个操作各自对应的设备参数，从而基于音频组别确定出与音频组别对应的设备参数。作为一种可选的实施方式，如图3所示，获取目标音频组别与目标操作对应的目标设备参数包括：

S302，获取目标音频组别对应的目标参数组；

S304，在目标参数组中查找与目标操作对应的目标设备参数。

每个音频组别不限于分别对应各自的参数组，在参数组中包括与该音频组别对应的各个设备操作的设备参数。从目标音频组别对应的目标参数组中，查找与目标操作对应的目标设备参数。

与音频组别对应的参数组中的设备参数不限于是基于历史音频数据确定出的。不限于是从历史音频数据中提取出的设备操作以及设备操作对应的历史设备参数。在基于历史音频数据确定出各个音频组别的情况下，通过音频组别包括的各个历史音频数据确定出音频组别对应的参数组。

作为一种可选的实施方式，在接收目标语音指令之后，还包括：

S1，在未从多个音频组别中确定出目标音频组别的情况下，获取与目标操作对应的参考设备参数，其中，参考设备参数用于指示目标设备执行目标操作的历史运行参数；

S2，控制目标设备按照参考设备参数执行目标操作。

在未从多个音频组别中确定出目标音频组别的情况下，确定目标语音指令与当前各个音频组别均不对应，从而获取目标操作对应的参考设备参数，并控制目标设备按照参考设备参数执行目标操作。参考设备参数不限于为目标设备历史运行参数，或为目标设备预设的运行参数。

在本申请实施例中，采用获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据，确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值，在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作；获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数的方式，通过获取历史音频段集合并对历史音频段聚类形成音频组别，通过确定与目标语音指令匹配的目标音频组别，从而利用与目标音频组别对应的目标设备参数，控制目标设备的运行，达到了在无需进行个性化设置的前提下，基于历史音频数据的聚类实现对于语音指令的对象匹配，从而基于对象对应的设备参数控制设备运行的目的，从而实现了无需进行个性化设置的前提下，实现用户无感的个性化运行控制的技术效果，进而解决了需要进行个性化设置导致用户体验差的技术问题。

作为一种可选的实施方式，根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，包括：在目标聚类条件包括目标组别数量的情况下，在对历史音频段进行聚类得到的候选音频组别的数量与目标组别数量一致时，确定得到多个音频组别，其中，目标组别数量用于指示目标设备网络关联的一组对象的数量，目标设备网络包括目标设备。

在目标组别数量不限于是在聚类前获取到的、用于指示聚类形成的组别数量。例如设备网络输入的对象数量，以设备网络为家庭网络为例，对象数量不限于输入的家庭成员的数量。通过目标组别数量限定对音频段进行聚类所得到音频组别的数量，在聚类得到目标组别数量的多个音频组别的情况下，停止音频段的聚类，从而将聚类得到的多个音频组别看做分别与多个家庭成员各自对应组别，并按照音频组别获取参数组。

作为一种可选的实施方式，根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别包括：在目标聚类条件未包括目标组别数量的情况下，在候选音频组别的贝叶斯参数达到目标极值条件时，确定得到多个音频组别。

在目标聚类条件中并未包括目标组别数量的情况下，不限于基于音频组别的贝叶斯参数确定是否停止聚类。贝叶斯参数达到目标极值条件不限于是音频组别的贝叶斯错误率最小化。在当前音频组别的贝叶斯错误率小于任意一轮的音频组别的情况下，不限于将当前音频组别确定为聚类得到得到音频组别。任意一轮的音频组别既可以当前音频组别的历史轮次的音频组别，也可以是当前音频组别的下一次或下几次的音频组别。

作为一种可选的实施方式，如图4所示，上述在根据音频集合中的每个音频的声纹特征，对音频集合进行对象聚类，得到多个音频组别，之后还包括：

S402，对每个音频组别中包括的历史音频段进行音频采样，确定出历史音频段中的冗余音频数据，其中，冗余音频数据为历史音频段中音频特征未满足预设音频要求的音频数据；

S404，去除历史音频段中的冗余音频数据，得到参考音频段；

S406，基于音频组别中的参考音频段的参考声纹特征向量，计算音频组别的音频组别特征。

在聚类得到多个音频组别的情况下，对音频组别中所包括的每个历史音频段进行再次音频采样，确定出每个历史音频段中是否包括冗余音频数据。冗余音频数据为历史音频段中音频特征未满足预设音频要求的数据，预设音频要求不限于指示音频中对象数量。在音频中对象数量为1，也就是清楚的一个对象的语音的情况下，确定历史音频段中音频满足预设音频要求。在音频中对象数量大于1，也就是存在对象语音重叠的情况下，确定该音频为冗余音频数据，将冗余音频数据从历史音频段中去除。

在去除历史音频段中的冗余音频数据，得到参考音频段的情况下，基于参考音频段确定每个音频组别的音频组别特征。基于参考音频段确定音频组别组别，不限于基于参考音频段重新提取声纹特征向量，从而通过对音频组别中各个参考音频段的声纹特征向量确定音频组别的音频组别特征。还可以是基于参考音频段重新进行音频段聚类，从而得到多个音频组别。

作为一种可选的实施方式，如图5所示，上述从多个音频组别中确定与目标语音指令匹配的目标音频组别包括：

S502，对目标语音指令进行切分，得到目标语音指令对应的目标音频段集合；

S504，分别提取目标音频段集合中的每个目标音频段的声纹特征，得到每个目标音频段的目标声纹特征向量；

S506，基于每个目标音频段的目标声纹特征向量与多个音频组别各自的音频组别特征，确定出与目标语音指令匹配的目标音频组别。

在确定与目标语音指令匹配的目标音频组别的情况下，不限于对目标语音指令进行切分，得到目标音频段集合，提取每个目标音频段的声纹特征，得到每个目标音频段的目标声纹特征向量，从而基于每个目标声纹特征向量和多个语音组别特征确定出目标音频组别。

作为一种可选的实施方式，如图6所示，上述基于每个目标音频段的目标声纹特征向量与多个音频组别各自的音频组别特征，确定出与目标语音指令匹配的目标音频组别包括：

S602，计算每个目标音频段的目标声纹特征向量与每个音频组别特征的参考相似参数，其中，参考相似参数用于指示目标声纹特征向量与音频组别特征的相似度；

S604，基于参考相似参数确定每个音频组别特征的参考参数，其中，参考参数用于指示音频组别特征与目标语音指令的声纹特征的相似度；

S606，根据多个音频组别各自对应的参考参数，从多个音频组别中确定出目标音频组别。

分别计算目标语音指令切分得到的每个目标音频段的目标声纹特征向量与各个音频组别特征的参考相似参数，从而确定每个目标语音指令与各个音频组别特征的参考参数，基于多个参考参数从音频组别中确定出目标音频组别。每个目标语音指令与各个音频组别特征的参考参数不限于是对多个参考相似参数的统计参数，不限于是任意统计参数，例如均值、方差、均方差等。

作为一种可选的实施方式，根据多个音频组别各自对应的参考参数，从多个音频组别中确定出目标音频组别包括：在参考参数中存在大于目标阈值的目标参考参数的情况下，将目标参考参数对应的音频组别确定为目标音频组别；在多个参考参数均小于目标阈值的情况下，确定未从多个音频组别中确定出目标音频组别。

在多个参考参数中存在目标参考参数的情况下，不限于将参考参数中参数值最大的目标参考参数对应的音频组别确定为目标音频组别。在多个参考参数均小于目标阈值，则确定未从多个音频组别中确定出目标音频组别，从而使用参考运行参数控制目标设备运行。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述智能设备的控制方法的智能设备的控制装置。如图7所示，该装置包括：

获取单元702，用于获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；

聚类单元704，用于确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；

确定单元706，用于在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作；

控制单元708，用于获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数。

可选地，上述聚类单元中据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，包括：在目标聚类条件包括目标组别数量的情况下，在对历史音频段进行聚类得到的候选音频组别的数量与目标组别数量一致时，确定得到多个音频组别，其中，目标组别数量用于指示目标设备网络关联的一组对象的数量，目标设备网络包括目标设备。

可选地，上述提取单元中根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别包括：在目标聚类条件未包括目标组别数量的情况下，在候选音频组别的贝叶斯参数达到目标极值条件时，确定得到多个音频组别。

可选地，上述智能设备的控制装置还包括采样单元，用于在根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类之后，对每个音频组别中包括的历史音频段进行音频采样，确定出历史音频段中的冗余音频数据，其中，冗余音频数据为历史音频段中音频特征未满足预设音频要求的音频数据；去除历史音频段中的冗余音频数据，得到参考音频段；基于音频组别中的参考音频段的参考声纹特征向量，计算音频组别的音频组别特征。

可选地，上述确定单元706还用于对目标语音指令进行切分，得到目标语音指令对应的目标音频段集合；分别提取目标音频段集合中的每个目标音频段的声纹特征，得到每个目标音频段的目标声纹特征向量；基于每个目标音频段的目标声纹特征向量与多个音频组别各自的音频组别特征，确定出与目标语音指令匹配的目标音频组别。

可选地，上述确定单元706中基于每个目标音频段的目标声纹特征向量与多个音频组别各自的音频组别特征，确定出与目标语音指令匹配的目标音频组别包括：计算每个目标音频段的目标声纹特征向量与每个音频组别特征的参考相似参数，其中，参考相似参数用于指示目标声纹特征向量与音频组别特征的相似度；基于参考相似参数确定每个音频组别特征的参考参数，其中，参考参数用于指示音频组别特征与目标语音指令的声纹特征的相似度；根据多个音频组别各自对应的参考参数，从多个音频组别中确定出目标音频组别。

可选地，上述确定单元706中根据多个音频组别各自对应的参考参数，从多个音频组别中确定出目标音频组别包括：在参考参数中存在大于目标阈值的目标参考参数的情况下，将目标参考参数对应的音频组别确定为目标音频组别；在多个参考参数均小于目标阈值的情况下，确定未从多个音频组别中确定出目标音频组别。

可选地，上述控制单元708还用于获取目标音频组别对应的目标参数组；在目标参数组中查找与目标操作对应的目标设备参数。

可选的，上述智能设备的控制装置还包括参考单元，用于在未从多个音频组别中确定出目标音频组别的情况下，获取与目标操作对应的参考设备参数，其中，参考设备参数用于指示目标设备执行目标操作的历史运行参数；控制目标设备按照参考设备参数执行目标操作。

根据本发明实施例的又一个方面，还提供了一种用于实施上述智能设备的控制方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图8所示，该电子设备包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取历史音频段集合，并分别提取历史音频段集合中每个历史音频段的声纹特征，得到每个历史音频段的声纹特征向量，其中，历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；

S2，确定历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据每两个历史音频段的声纹特征向量的相似参数，对历史音频段进行聚类，得到多个音频组别，其中，每个音频组别对应于一个对象，每个音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；

S3，在接收到目标语音指令的情况下，从多个音频组别中确定与目标语音指令匹配的目标音频组别，其中，目标语音指令用于指示控制目标设备执行目标操作；

S4，获取目标音频组别与目标操作对应的目标设备参数，并控制目标设备按照目标设备参数执行目标操作，其中，目标设备参数用于指示目标设备的运行参数。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子设备也可以是任意终端设备。图8其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的智能设备的控制方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的智能设备的控制方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储历史音频段集合、目标语音指令、多个音频组别、目标设备参数等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述智能设备的控制装置中的获取单元702、聚类单元704、确定单元706和控制单元708。此外，还可以包括但不限于上述智能设备的控制装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器808，用于显示上述目标设备参数；和连接总线810，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述智能设备的控制方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种智能设备的控制方法，其特征在于，包括：

获取历史音频段集合，并分别提取所述历史音频段集合中每个历史音频段的声纹特征，得到所述每个历史音频段的声纹特征向量，其中，所述历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；

确定所述历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据所述每两个历史音频段的声纹特征向量的相似参数，对所述历史音频段进行聚类，得到多个音频组别，其中，每个所述音频组别对应于一个对象，每个所述音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；

在接收到目标语音指令的情况下，从所述多个音频组别中确定与所述目标语音指令匹配的目标音频组别，其中，所述目标语音指令用于指示控制目标设备执行目标操作；

获取所述目标音频组别与所述目标操作对应的目标设备参数，并控制所述目标设备按照所述目标设备参数执行所述目标操作，其中，所述目标设备参数用于指示所述目标设备的运行参数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述每两个历史音频段的声纹特征向量的相似参数，对所述历史音频段进行聚类，得到多个音频组别，包括：

在目标聚类条件包括目标组别数量的情况下，在对所述历史音频段进行聚类得到的候选音频组别的数量与所述目标组别数量一致时，确定得到所述多个音频组别，其中，所述目标组别数量用于指示目标设备网络关联的所述一组对象的数量，所述目标设备网络包括所述目标设备。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每两个历史音频段的声纹特征向量的相似参数，对所述历史音频段进行聚类，得到所述多个音频组别包括：

在所述目标聚类条件未包括目标组别数量的情况下，在所述候选音频组别的贝叶斯参数达到目标极值条件时，确定得到所述多个音频组别。

4.根据权利要求1所述的方法，其特征在于，在根据所述每两个历史音频段的声纹特征向量的相似参数，对所述历史音频段进行聚类之后，还包括：

对每个所述音频组别中包括的所述历史音频段进行音频采样，确定出所述历史音频段中的冗余音频数据，其中，所述冗余音频数据为所述历史音频段中音频特征未满足预设音频要求的音频数据；

去除所述历史音频段中的所述冗余音频数据，得到参考音频段；

基于所述音频组别中的所述参考音频段的参考声纹特征向量，计算所述音频组别的音频组别特征。

5.根据权利要求1所述的方法，其特征在于，所述从所述多个音频组别中确定与所述目标语音指令匹配的目标音频组别包括：

对所述目标语音指令进行切分，得到所述目标语音指令对应的目标音频段集合；

分别提取所述目标音频段集合中的每个目标音频段的声纹特征，得到所述每个目标音频段的目标声纹特征向量；

基于所述每个目标音频段的目标声纹特征向量与所述多个音频组别各自的所述音频组别特征，确定出与所述目标语音指令匹配的所述目标音频组别。

6.根据权利要求5所述的方法，其特征在于，所述基于所述每个目标音频段的目标声纹特征向量与所述多个音频组别各自的所述音频组别特征，确定出与所述目标语音指令匹配的所述目标音频组别包括：

计算所述每个目标音频段的目标声纹特征向量与每个所述音频组别特征的参考相似参数，其中，所述参考相似参数用于指示所述目标声纹特征向量与所述音频组别特征的相似度；

基于所述参考相似参数确定每个所述音频组别特征的参考参数，其中，所述参考参数用于指示所述音频组别特征与所述目标语音指令的声纹特征的相似度；

根据所述多个音频组别各自对应的所述参考参数，从所述多个音频组别中确定出所述目标音频组别。

7.根据权利要求6所述的方法，其特征在于，所述根据所述多个音频组别各自对应的所述参考参数，从所述多个音频组别中确定出所述目标音频组别包括：

在所述参考参数中存在大于目标阈值的目标参考参数的情况下，将所述目标参考参数对应的音频组别确定为所述目标音频组别；

在多个所述参考参数均小于所述目标阈值的情况下，确定未从所述多个音频组别中确定出所述目标音频组别。

8.根据权利要求1所述的方法，其特征在于，所述获取所述目标音频组别与所述目标操作对应的目标设备参数包括：

获取所述目标音频组别对应的目标参数组；

在所述目标参数组中查找与所述目标操作对应的所述目标设备参数。

9.根据权利要求1所述的方法，其特征在于：

在未从所述多个音频组别中确定出所述目标音频组别的情况下，获取与所述目标操作对应的参考设备参数，其中，所述参考设备参数用于指示所述目标设备执行所述目标操作的历史运行参数；

控制所述目标设备按照所述参考设备参数执行所述目标操作。

10.一种智能设备的控制装置，其特征在于，包括：

获取单元，用于获取历史音频段集合，并分别提取所述历史音频段集合中每个历史音频段的声纹特征，得到所述每个历史音频段的声纹特征向量，其中，所述历史音频段集合包括采集到的一组对象产生的历史音频数据进行切分得到的音频段数据；

聚类单元，用于确定所述历史音频段集合中每两个历史音频段的声纹特征向量的相似参数，并根据所述每两个历史音频段的声纹特征向量的相似参数，对所述历史音频段进行聚类，得到多个音频组别，其中，每个所述音频组别对应于一个对象，每个所述音频组别中的每个历史音频段的声纹特征向量与相同音频组别中的至少一个历史音频段的声纹特征向量的相似参数大于预设的相似度阈值；

确定单元，用于在接收到目标语音指令的情况下，从所述多个音频组别中确定与所述目标语音指令匹配的目标音频组别，其中，所述目标语音指令用于指示控制目标设备执行目标操作；

控制单元，用于获取所述目标音频组别与所述目标操作对应的目标设备参数，并控制所述目标设备按照所述目标设备参数执行所述目标操作，其中，所述目标设备参数用于指示所述目标设备的运行参数。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。