CN116612763A

CN116612763A - 声纹注册方法、存储介质及电子装置

Info

Publication number: CN116612763A
Application number: CN202211711789.2A
Authority: CN
Inventors: 朱文博; 王敏乐; 左伟国
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-08-18

Abstract

本申请公开了一种声纹注册方法、存储介质和电子装置，涉及智能家居/智慧家庭技术领域，该声纹注册方法包括：获取第一设备采集到的第一音频数据；在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。本申请解决了相关技术中存在无法兼顾声纹注册的效率与安全性的技术问题。

Description

声纹注册方法、存储介质及电子装置

技术领域

本申请涉及智能家居/智慧家庭技术领域，具体而言，涉及一种声纹注册方法、存储介质和电子装置。

背景技术

在智能语音对话系统中，面对不同家居智能设备，一种可行的方法是分别注册对应的声纹信息，然而该方法效果有限，耗时过久，效率低下。另一种可行的方法是统一注册对应的声纹信息，然而一方面不同家居智能设备在声纹信道不同的情况下，无法进行统一声纹信息注册；另一方面即使不考虑跨信道的技术壁垒，该方法也存在不同家居智能设备对应相同的声音数据与用户身份信息的映射关系，降低用户身份的隐私性，进而影响声纹注册的安全性。因此，相关技术中存在无法兼顾声纹注册效率与安全性的问题。

发明内容

本申请实施例提供了一种声纹注册方法、存储介质和电子装置，以至少解决相关技术中存在无法兼顾声纹注册效率与安全性的技术问题。

根据本申请实施例的一个方面，提供了一种声纹注册方法，包括：获取第一设备采集到的第一音频数据；在上述第一音频数据满足上述第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，上述第二设备为通过上述第二音频数据已进行上述声纹注册的设备；在上述第一音频数据满足上述第二音频数据对应的第二置信条件的情况下，基于上述第一音频数据对上述第一设备进行上述声纹注册。

根据本申请实施例的另一方面，还提供了一种声纹注册装置，包括：第一获取单元，用于获取第一设备采集到的第一音频数据；第二获取单元，用于在上述第一音频数据满足上述第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，上述第二设备为通过上述第二音频数据已进行上述声纹注册的设备；注册单元，用于在上述第一音频数据满足上述第二音频数据对应的第二置信条件的情况下，基于上述第一音频数据对上述第一设备进行上述声纹注册。

作为一种可选的方案，上述装置还包括：第一获取模块，用于在上述基于上述第一音频数据对上述第一设备进行上述声纹注册之前，获取上述第一音频数据对应的第一声纹对象、以及上述第二音频数据对应的至少一个声纹对象；确定模块，用于在上述基于上述第一音频数据对上述第一设备进行上述声纹注册之前，在上述第一声纹对象满足上述至少一个声纹对象对应的置信条件的情况下，确定上述第一音频数据满足上述第二置信条件。

作为一种可选的方案，上述确定模块包括：确定子模块，用于在从上述至少一个声纹对象中确定出与上述第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定上述第一音频数据满足上述第二置信条件。

作为一种可选的方案，上述第一获取单元包括：聚类模块，用于在获取到上述多个音频数据的情况下，对上述多个音频数据进行聚类处理，得到至少一个音频数据集合，其中，上述至少一个音频数据集合中的各个数据集合中记录各个相同类型的音频数据，上述第一音频数据为上述第一设备对采集到的多个音频数据进行上述聚类处理后得到的同类音频数据；第二获取模块，用于从上述至少一个音频数据集合中确定出上述目标音频数据集合，并获取上述目标音频数据集合中记录的音频数据，其中，上述目标音频数据集合中记录的音频数据包括上述第一音频数据。

作为一种可选的方案，上述装置还包括：第三获取模块，用于在上述目标音频数据集合中记录有新的音频数据的情况下，对上述新的音频数据进行音频质量计算，得到上述新的音频数据对应的质量置信度；置信模块，用于在上述质量置信度大于或等于预设质量阈值、且上述至少一个音频数据集合中包含与上述新的音频数据属于上述同类音频数据的音频数据的情况下，确定上述第一音频数据满足上述第一置信条件。

作为一种可选的方案，上述装置还包括：确定模块，用于在上述获取至少一个第二设备对应的第二音频数据之前，在上述第一音频数据的数据量大于或等于第一预设阈值的情况下，确定上述第一音频数据满足上述第一置信条件。

作为一种可选的方案，上述注册单元包括：注册模块，用于利用上述第一音频数据与上述第二音频数据对上述第一设备进行上述声纹注册。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上声纹注册方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的声纹注册方法。

在本申请实施例中，获取第一设备采集到的第一音频数据；在上述第一音频数据满足上述第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，上述第二设备为通过上述第二音频数据已进行上述声纹注册的设备；在上述第一音频数据满足上述第二音频数据对应的第二置信条件的情况下，基于上述第一音频数据对上述第一设备进行上述声纹注册；

一方面，在第一设备进行聚类处理之后，对于同类音频数据的第一音频数据依次自动判断是否满足第一置信条件、以及第二置信条件，在用户无感知的情况下，完成对第一设备的声纹注册，无需用户额外的声纹注册操作，进而提高了声纹注册效率；

另一方面，在第一音频数据满足第一置信条件的情况下，进一步判断第一音频数据是否满足已进行声纹注册的第二设备的第二置信条件，以确保在第一音频数据与第二设备的声纹信息对应的身份信息匹配的情况下，基于第一音频对第一设备进行声纹注册，进而保证了对第一设备的声纹注册的身份信息的准确性，达到了保障了声纹注册的安全性的目的；

如此，利用上述声纹注册方法，达到了在不同设备上筛选置信度高的音频对不同设备在后台针对已经注册过的用户进行用户无感知的注册的目的，实现了兼顾声纹注册的效率与安全性的技术效果，解决了相关技术中存在无法兼顾声纹注册效率与安全性的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种声纹注册方法的硬件环境示意图；

图2是根据本申请实施例的一种可选的声纹注册方法的流程的示意图；

图3是根据本申请实施例的一种可选的声纹注册方法的示意图；

图4是根据本申请实施例的另一种可选的声纹注册方法的示意图；

图5是根据本申请实施例的另一种可选的声纹注册方法的示意图；

图6是根据本发明实施例的一种可选的信息处理装置的示意图；

图7是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种智能家居设备的交互方法。该智能家居设备的交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(IntelligenceHouse)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述智能家居设备的交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

可选地，作为一种可选的实施方式，如图2所示，声纹注册方法包括：

S202，获取第一设备采集到的第一音频数据；

S204，在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；

S206，在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。

可选地，在本实施例中，上述声纹注册方法的执行主体可以但不限于为本地客户端或云服务器，进一步以云服务器举例说明，云服务器获取第一设备采集到的第一音频数据，并判断第一音频数据是否满足第一设备对应的第一置信条件，以及在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据；进一步判断第一音频数据是否满足第二音频数据对应的第二置信条件，并在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册；

此外，也可由第一设备执行第一音频数据是否满足第一设备对应的第一置信条件的判断，进而云服务器获取的为第一设备上报的注册请求，其中，所述注册请求用于表示所述第一设备采集到的第一音频数据满足第一置信条件、以及请求对第一设备进行声纹注册；进一步获取第二音频数据，并在第二音频数据满足第二置信条件的情况下，对第一设备进行声纹注册。

可选地，在本实施例中，上述声纹注册方法可以但不限于应用在智能家居环境下的智能对话系统中。在智能语音对话系统中，用户通过事先注册对应于控制智能家居设备执行操作的声纹信息，当再一次发出相同的已注册过的声纹信息时，智能家居设备自动执行对应的操作，便于用户操作，提高用户使用体验。

然而，在智能语音对话系统中，往往存在着多个不同的智能家居设备，例如智能热水器、智能电视、智能冰箱等。进一步，由于不同设备的前端信号处理方法以及设备本身的差异性，难以通过训练一种声纹注册模型以自适应全部型号设备的音频特性，更难以通过训练一种声纹注册模型以实现对多个不同的智能家居设备进行统一的声纹注册。

需要说明的是，对多个不同的智能家居设备实现统一的声纹注册，是不安全的。声纹信息，是携带言语信息的声波频谱，在说话人在不同的环境和不同的心态下，以及不同的语气、不同的健康状态都会引起语音的某些变异，如此，在用户统一声纹注册多个不同智能家居设备时，如果出现某一个声纹信息的错误时，则会导致所有的智能家居设备对应的声纹信息错误。

而如果是单独地对每一个智能家居设备分别进行声纹注册，则需要对每一个智能家居设备训练对应声纹注册模型，效果有限，耗时过久，效率低下。

对于上述统一的声纹注册的不安全性、以及单独的声纹注册的效率低下等技术缺陷，利用上述声纹注册方法，在未进行声纹注册的第一设备对采集到的多个音频数据进行聚类处理后，在获得的同类音频数据的第一音频数据满足第一设备对应的第一置信条件的情况下，自动判断第一音频数据与已进行声纹注册的第二设备对应的第二音频数据是否满足第二置信条件，进而决定是否基于第一音频数据对第一设备进行声纹注册；

如此，利用上述声纹注册方法，达到了在不同设备上筛选置信度高的音频对不同设备在后台针对已经注册过的用户进行用户无感知的注册的目的，实现了兼顾声纹注册的效率与安全性的技术效果。

可选地，在本实施例中，第一设备可以但不限于为未进行声纹注册的智能家居设备，可以但不限于包括未进行声纹注册的智能热水器、智能电视、智能冰箱等；第二设备可以但不限于为已进行声纹注册的客户端，可以但不限于包括已进行声纹注册的用户手机客户端，还可以但不限于包括已进行声纹注册的智能家居设备。

可选地，在本实施例中，在获取到未进行声纹注册的第一设备采集到的第一音频数据之前，第一设备基于采集到的多个音频数据进行聚类处理。

可选地，在本实施例中，聚类处理可以但不限于包括：第一设备积累预期数据量的各个类别的音频数据，基于聚类算法，得到不同音频下的模型，其中，每个模型用于指示一个用户的身份信息，每个模型下对应的音频数据类型相同。

可选地，在本实施例中，聚类算法可以但不限于用于将相同类型的音频数据聚合在同一个音频数据集合中，聚类算法可以但不限于包括kmeans算法、meanshift算法，其中，相同类型的音频数据可以但不限于用于指示同一个用户身份信息对应的音频数据。

可选地，在本实施例中，第一音频数据可以但不限于为第一设备对采集到的多个音频数据进行聚类处理后得到的同类音频数据，第一音频数据可以但不限于包括多个声纹对象，其中，多个声纹对象对应相同的一个用户的身份信息，每一个声纹对象对应该身份信息的用户的声纹指令，声纹指令用于控制第一设备执行对应操作。

可选地，在本实施例中，满足第一设备对应的第一置信条件可以但不限于用于指示第一音频数据的声纹对象的数据量大于或等于第一预设阈值。

可选地，在本实施例中，满足第一设备对应的第一置信条件还可以但不限于用于指示第一设备中出现新的音频数据，其中，新的音频数据可以但不限于用于指示对应第一设备的新的控制指令的音频数据。

需要说明的是，第一设备中的上述新的音频数据，对应的控制指令在第一设备中是第一次出现，但对应的身份信息在第一设备中可以是第一次出现，也可以不是第一次出现。

可选地，在本实施例种，在第一音频满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二音频数据可以但不限于为用于对第二设备进行声纹注册的音频数据。

可选地，在本实施例中，满足第二音频对应的第二置信条件可以但不限于用于指示第一音频数据对应的身份信息与第二音频数据对应的身份信息基本一致。

可选地，在本实施例中，基于第一音频数据对第一设备进行声纹注册可以但不限于利用第一音频数据与第二音频数据对第一设备进行声纹注册。

需要说明的是，在第一音频数据满嘴第二音频对应的第二置信条件的情况下，第一音频数据对应的身份信息与第二音频数据对应的身份信息基本一致，如此，第一音频数据与第二音频数据对应同一个用户，该用户用于注册第二设备的第二音频数据同样适用于第一设备，利用第一音频数据和第二音频数据对第一设备进行声纹注册。

进一步举例说明，如图3所示，一种声纹注册方法，具体包括如下步骤：

步骤S302，第一设备302基于采集到的多个音频数据进行聚类处理，得到多个音频数据集合，其中，每一个音频数据集合对应一个用户的身份信息，第一设备302为未进行声纹注册的设备；

步骤S304，获取到第一设备302采集得到的第一音频数据；

步骤S306，判断第一音频数据是否满足第一设备302对应的第一置信条件，若满足，则执行步骤S308，若不满足，则不做额外操作，其中，第一设备302对应的第一置信条件用于指示第一音频数据中的声纹对象的数量大于或等于第一预设阈值，或用于指示第一音频数据中包括第一设备302中新的音频数据；

步骤S308，在第一音频数据满足第一设备302对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；

步骤S310，判断第一音频数据是否满足第二音频数据对应的第二置信条件，若满足，则执行步骤S312，若不满足，则不做额外操作，其中，第二音频数据对应的第二置信条件用于指示第一音频数据对应的身份信息与第二音频数据对应的身份信息基本一致；

步骤S312，在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。

通过本申请提供的实施例，获取第一设备采集到的第一音频数据；在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。

作为一种可选的方案，在获取至少一个第二设备对应的第二音频数据之前，方法还包括：

S1，在第一音频数据的数据量大于或等于第一预设阈值的情况下，确定第一音频数据满足第一置信条件。

可选地，在本实施例中，第一音频数据的数据量可以但不限于用于指示第一音频数据下的声纹对象的数量，其中，第一音频数据可以但不限于包括多个声纹对象，多个声纹对象对应相同的音频数据类型，多个声纹对象对应相同的一个用户的身份信息，每一个声纹对象可以但不限于对应用户对第一设备的控制指令。

需要说明的是，在第一设备不断累积音频数据并完成聚类处理，得到对应多个身份信息的多个音频下的模型后，当获取到的用于指示某一个身份信息的第一音频数据的数据量大于或等于第一预设阈值的情况下，确定第一音频数据满足第一置信条件，自动验证第一音频数据对应的身份信息与已注册的第二设备对应的第二音频数据对应的身份信息是否基本一致，如果是，则自动基于第一音频数据对第一设备进行声纹注册，实现了在用户无感知的情况下，安全准确地完成对第一设备的声纹注册的技术效果。

通过本申请提供的实施例，在第一音频数据的数据量大于或等于第一预设阈值的情况下，确定第一音频数据满足第一置信条件。通过在第一设备采集到的某一类音频数据的数据量大于或等于一定数量的情况下，自动验证音频数据对应的身份信息与已注册的第二设备对应的音频数据对应的身份信息是否一致，若是，则基于采集到的该类音频数据进行声纹注册，进而达到了在用户无感知的情况下，提高声纹注册的效率和安全性的目的，从而实现了兼顾声纹注册的效率与安全性的技术效果。

作为一种可选的方案，在基于第一音频数据对第一设备进行声纹注册之前，方法还包括：

S1，获取第一音频数据对应的第一声纹对象、以及第二音频数据对应的至少一个声纹对象；

S2，在第一声纹对象满足至少一个声纹对象对应的置信条件的情况下，确定第一音频数据满足第二置信条件。

可选地，在本实施例中，第一音频数据可以但不限于包括多个声纹对象，其中，多个声纹对象包括第一声纹对象。

可选地，在本实施例中，第二音频数据可以但不限于包括至少一个声纹对象，其中，至少一个声纹对象可以但不限于用于第二设备进行声纹注册。

需要说明的是，在第一声纹对象满足至少一个声纹对象对应的置信条件的情况下，确定第一音频数据满足第二置信条件。

通过本申请提供的实施例，获取第一音频数据对应的第一声纹对象、以及第二音频数据对应的至少一个声纹对象；在第一声纹对象满足至少一个声纹对象对应的置信条件的情况下，确定第一音频数据满足第二置信条件。通过第一音频数据对应的声纹对象与第二音频数据对应的声纹对象之间是否满足置信条件的判断，确定第一音频数据是否满足第二置信条件，进而确定第一音频数据对应的身份信息与第二音频数据对应的身份信息是否基本一致，进而达到了在第一设备的第一音频数据与已注册的第二设备的身份信息基本一致的情况下，基于第一音频数据对第一设备进行声纹注册，保障了对第一设备的声纹注册的身份信息的准确性和安全性，实现了兼顾声纹注册的效率和安全性的技术效果。

作为一种可选的方案，在第一声纹对象满足至少一个声纹对象对应的置信条件的情况下，确定第一音频数据满足第二置信条件，包括：

S1，在从至少一个声纹对象中确定出与第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定第一音频数据满足第二置信条件。

需要说明的是，从已注册的第二设备中的第二音频数据中的至少一个声纹对象中确定出与第一设备的第一音频数据中的第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定第一音频数据满足第二置信条件。

可选地，在本实施例中，声纹对象之间的相似度可以但不限于用于指示声纹对象所指示的身份信息之间的相似度。

可选地，在本实施例中，可以但不限于通过第一声纹对象与第二音频数据中的包含了至少一个声纹对象的音频列表进行相互map比对，以确定第一声纹对象与第二视频数据中的音频列表中的各个声纹对象之间的相似度。

可选地，在本实施例中，还可以但不限于通过第一声纹对象与第二音频数据中的各个声纹对象各自对应的声纹特征向量(speaker embedding)，以确定第一声纹对象与第二音频数据中的各个声纹对象之间的相似度。

进一步举例说明，如图4所示，第一声纹对象402对应第一声纹特征向量404，第二声纹对象406对应第二声纹特征向量408，其中，第一声纹对象402与第二声纹对象406的长度可以相同，也可以不同；第一声纹特征向量404与第二声纹特征向量408的向量长度相同。进一步，基于对第一声纹特征向量404与第二声纹特征向量408之间的相似度比较，得到相似度结果410，用于标识第一声纹对象402与第二声纹对象406之间的相似度。

需要说明的是，本实施例并不对声纹特征向量之间的相似度比较方式进行限定，可以理解的是，包括使用欧式距离(Euclidean Distance)、余弦距离(Cosine Distance)等方式均是本实施例可选的声纹特征向量的相似度比较方式。

通过本申请提供的实施例，在从至少一个声纹对象中确定出与第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定第一音频数据满足第二置信条件。在第一音频数据满足第一置信条件的情况下，进一步基于第一音频数据中的第一声纹对象与第二音频数据中的至少一个声纹对象之间的相似度，以确定第一音频数据与第二音频数据之间的相似度是否满足第二置信条件，进而确定第一音频数据与第二音频数据对应的用户身份信息是否一致，从而在基于第一置信条件提高声纹注册的效率的基础上，通过第二置信条件保障声纹注册的身份信息的准确性而实现声纹注册的安全性保证。

作为一种可选的方案，获取第一设备采集到的第一音频数据，包括：

S1，在获取到多个音频数据的情况下，对多个音频数据进行聚类处理，得到至少一个音频数据集合，其中，至少一个音频数据集合中的各个数据集合中记录各个相同类型的音频数据，第一音频数据为第一设备对采集到的多个音频数据进行聚类处理后得到的同类音频数据；

S2，从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据，其中，目标音频数据集合中记录的音频数据包括第一音频数据。

可选地，在本实施例中，聚类处理可以但不限于包括：在第一设备获取到多个音频数据的情况下，基于聚类算法，基于多个音频数据确定得到至少一个音频数据集合，其中，相同的音频数据集合中的数据集合具有相同类型的音频数据，可以但不限于用于指示同一个用户对应的身份信息。

需要说明的是，聚类算法可以但不限于包括kmeans算法、meanshift算法，本实施例对此不做额外限制。

通过本申请提供的实施例，在获取到多个音频数据的情况下，对多个音频数据进行聚类处理，得到至少一个音频数据集合，其中，至少一个音频数据集合中的各个数据集合中记录各个相同类型的音频数据，第一音频数据为第一设备对采集到的多个音频数据进行聚类处理后得到的同类音频数据；从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据，其中，目标音频数据集合中记录的音频数据包括第一音频数据。

作为一种可选的方案，在从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据之后，方法还包括：

S1，在目标音频数据集合中记录有新的音频数据的情况下，对新的音频数据进行音频质量计算，得到新的音频数据对应的质量置信度；

S2，在质量置信度大于或等于预设质量阈值、且至少一个音频数据集合中包含与新的音频数据属于同类音频数据的音频数据的情况下，确定第一音频数据满足第一置信条件。

可选地，在本实施例中，新的音频数据可以但不限于目标音频数据集合中并未包括的对应新的设备控制指令的音频数据。

可选地，在本实施例中，在获取到多个音频数据的情况下，对多个音频数据进行聚类处理，得到至少一个音频数据集合，从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据之后，当第一设备中出现新的音频数据时，利用聚类处理得到的不同音频下的模型，以确定新的音频数据所对应的身份信息。

需要说明的是，在新的音频数据所对应的身份信息与第一音频数据对应的身份信息一致时，将新的音频数据加入目标音频数据集合中，确认在目标数据集合中记录由新的音频数据吗，以及确认第一音频数据满足第一置信条件。

可选地，在本实施例中，在利用聚类处理得到的不同音频下的模型，确定新的音频数据所对应的身份信息之后，还可以但不限于获得新的音频数据对应的身份验证分数，在身份验证分数大于预设的身份验证阈值的情况下，认定新的音频数据质量较好，身份验证准确性较高。

可选地，在本实施例中，在身份验证分数小于或等于预设的身份验证阈值的情况下，可以但不限于将新的音频数据剔除。

通过本申请提供的实施例，在目标音频数据集合中记录有新的音频数据的情况下，对新的音频数据进行音频质量计算，得到新的音频数据对应的质量置信度；在质量置信度大于或等于预设质量阈值、且至少一个音频数据集合中包含与新的音频数据属于同类音频数据的音频数据的情况下，确定第一音频数据满足第一置信条件，进而达到了在用户无感知的情况下，提高声纹注册的效率和安全性的目的，从而实现了兼顾声纹注册的效率与安全性的技术效果。

作为一种可选的方案，基于第一音频数据对第一设备进行声纹注册，包括：

S1，利用第一音频数据与第二音频数据对第一设备进行声纹注册。

需要说明的是，在第一音频数据满足第二音频数据对应的第二置信条件的情况下，第一音频数据对应的身份信息与第二音频数据对应的身份信息基本一致，如此，基于第一音频数据对第一设备进行声纹注册可以但不限于利用第一音频数据与第二音频数据对第一设备进行声纹注册。

通过本申请提供的实施例，利用第一音频数据与第二音频数据对第一设备进行声纹注册。通过未注册的第一设备的第一音频数据对应的声纹与已注册的第二设备的第二音频数据对应的声纹相结合的方式，达到了在不同设备上筛选置信度高的音频对不同设备在后台针对已经注册过的用户进行用户无感知的注册的目的，实现了兼顾声纹注册的效率与安全性的技术效果。

作为一种可选的方案，将上述声纹注册方法应用在一种非注册式声纹与注册式声纹结合进行智能家居设备的声纹注册的场景下，具体步骤如下：

步骤S502，智能家居设备累积预期数量的音频数据；

步骤S504，智能家居设备进行聚类算法，通过非注册式声纹的聚类算法，得到不同音频下的模型，每个模型代表一个说话人；

步骤S506，判断聚类是否成功；

步骤S508，在聚类失败的情况下，进一步积累音频达到新增的指定数据量(以30为例)；

步骤S510，判断是否已存在聚类后的模型；

步骤S512，在已存在聚类后的模型的情况下，将已聚类后的每个模型的前30个音频与新增的30个音频重新聚类；

步骤S514，在不存在聚类后的模型的情况下，将原始音频与新增的30条音频重新聚类；

步骤S516，当聚类成功后，新的音频预料输入；

步骤S518，使用非注册式声纹的聚类模型，验证新的音频属于哪一个说话人，并判断模型辨认是否成功；

步骤S520，在模型成功辨认出新的音频属于的说话人的情况下，获得该音频的score打分结果；

需要说明的是，通过事先给定的score阈值，如果超出阈值，认为该音频质量较好；

需要说明的是，在模型并未成功辨认出新的音频属于的说话人的情况下，跳转至步骤S508，继续聚类训练模型；

步骤S522，用户通过收集客户端进行注册式声纹注册；

步骤S524，注册式声纹判断是否为已注册的用户；

步骤S526，新音频再通过注册式声纹判断，是否是已经注册过的说话人，同时得到置信度，判断置信度是否超过指定阈值，如果超过阈值，同样认为该音频质量较好，比较契合该说话人；在满足非注册声纹的辨认，以及注册式声纹的验证后，判断该音频指向的非注册式声纹的speakerid与注册式声纹的说话人是否为同一个speaker；

步骤S528，在为同一个speaker的情况下，则记录并保存音频，将该音频放入更新音频的列表；

步骤S530，判断更新音频的列表中的音频数量是否到达指定数量；

步骤S532，在更新音频的列表中的音频数量到达指定数量的情况下，将更新音频的列表中的音频与原注册音频(步骤S522中的已注册的音频)拼接，作为新的注册音频；

步骤S534，在更新音频的列表中的音频数量未到达指定数量的情况下，退出；

步骤S536，在不为同一个speaker的情况下，退出；

步骤S538，注册式声纹判断不为已注册的用户的情况下，退出。

需要说明的是，利用上述声纹注册方法，一方面通过非注册式声纹与注册式声纹结合的方式，能够解决不同设备的跨信道识别的问题；另一方面通过非注册式声纹的加入，不同设备的说话人音频数据量是可以无限增加的，这有助于识别性能的提升。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述声纹注册方法的声纹注册装置。如图6所示，该装置包括：

第一获取单元602，用于获取第一设备采集到的第一音频数据，其中，第一音频数据为第一设备对采集到的多个音频数据进行聚类处理后得到的同类音频数据；

第二获取单元604，用于在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；

注册单元606，用于在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。

作为一种可选的方案，上述装置还包括：确定模块，用于在获取至少一个第二设备对应的第二音频数据之前，在第一音频数据的数据量大于或等于第一预设阈值的情况下，确定第一音频数据满足第一置信条件。

作为一种可选的方案，上述装置还包括：第一获取模块，用于在基于第一音频数据对第一设备进行声纹注册之前，获取第一音频数据对应的第一声纹对象、以及第二音频数据对应的至少一个声纹对象；确定模块，用于在基于第一音频数据对第一设备进行声纹注册之前，在第一声纹对象满足至少一个声纹对象对应的置信条件的情况下，确定第一音频数据满足第二置信条件。

作为一种可选的方案，上述确定模块包括：确定子模块，用于在从至少一个声纹对象中确定出与第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定第一音频数据满足第二置信条件。

作为一种可选的方案，上述第一获取单元602包括：聚类模块，用于在获取到多个音频数据的情况下，对多个音频数据进行聚类处理，得到至少一个音频数据集合，其中，至少一个音频数据集合中的各个数据集合中记录各个相同类型的音频数据；第二获取模块，用于从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据，其中，目标音频数据集合中记录的音频数据包括第一音频数据。

作为一种可选的方案，上述装置还包括：第三获取模块，用于在从至少一个音频数据集合中确定出目标音频数据集合，并获取目标音频数据集合中记录的音频数据之后，在目标音频数据集合中记录有新的音频数据的情况下，确定第一音频数据满足第一置信条件。

作为一种可选的方案，上述注册单元606包括：注册模块，用于利用第一音频数据与第二音频数据对第一设备进行声纹注册。

具体实施例可以参考上述声纹注册方法中所示示例，本示例中在此不再赘述。

根据本申请实施例的又一个方面，还提供了一种用于实施上述声纹注册方法的电子装置，如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一设备采集到的第一音频数据；

S2，在第一音频数据满足第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，第二设备为通过第二音频数据已进行声纹注册的设备；

S3，在第一音频数据满足第二音频数据对应的第二置信条件的情况下，基于第一音频数据对第一设备进行声纹注册。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的声纹注册方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声纹注册方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于存储第一置信条件、第二置信条件等信息。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述声纹注册装置中的第一获取单元602、第二获取单元604、注册单元606。此外，还可以包括但不限于上述声纹注册装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示上述第一置信条件、第二置信条件等信息；和连接总线710，用于连接上述电子装置中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(Peer To Peer，简称P2P)网络，任意形式的计算设备，比如服务器、终端等电子装置都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子装置的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-Only Memory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input/Output接口，即I/O接口)也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一设备采集到的第一音频数据；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种声纹注册方法，其特征在于，包括：

获取第一设备采集到的第一音频数据；

在所述第一音频数据满足所述第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，所述第二设备为通过所述第二音频数据已进行所述声纹注册的设备；

在所述第一音频数据满足所述第二音频数据对应的第二置信条件的情况下，基于所述第一音频数据对所述第一设备进行所述声纹注册。

2.根据权利要求1所述的方法，其特征在于，在所述基于所述第一音频数据对所述第一设备进行所述声纹注册之前，所述方法还包括：

获取所述第一音频数据对应的第一声纹对象、以及所述第二音频数据对应的至少一个声纹对象；

在所述第一声纹对象满足所述至少一个声纹对象对应的置信条件的情况下，确定所述第一音频数据满足所述第二置信条件。

3.根据权利要求2所述的方法，其特征在于，所述在所述第一声纹对象满足所述至少一个声纹对象对应的置信条件的情况下，确定所述第一音频数据满足所述第二置信条件，包括：

在从所述至少一个声纹对象中确定出与所述第一声纹对象之间的相似度大于第二预设阈值的第二声纹对象的情况下，确定所述第一音频数据满足所述第二置信条件。

4.根据权利要求1所述的方法，其特征在于，所述获取第一设备采集到的第一音频数据，包括：

在获取到所述多个音频数据的情况下，对所述多个音频数据进行聚类处理，得到至少一个音频数据集合，其中，所述至少一个音频数据集合中的各个数据集合中记录各个相同类型的音频数据，所述第一音频数据为所述第一设备对采集到的多个音频数据进行所述聚类处理后得到的同类音频数据；

从所述至少一个音频数据集合中确定出所述目标音频数据集合，并获取所述目标音频数据集合中记录的音频数据，其中，所述目标音频数据集合中记录的音频数据包括所述第一音频数据。

5.根据权利要求4所述的方法，其特征在于，在所述从所述至少一个音频数据集合中确定出所述目标音频数据集合，并获取所述目标音频数据集合中记录的音频数据之后，所述方法还包括：

在所述目标音频数据集合中记录有新的音频数据的情况下，对所述新的音频数据进行音频质量计算，得到所述新的音频数据对应的质量置信度；

在所述质量置信度大于或等于预设质量阈值、且所述至少一个音频数据集合中包含与所述新的音频数据属于所述同类音频数据的音频数据的情况下，确定所述第一音频数据满足所述第一置信条件。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在所述获取至少一个第二设备对应的第二音频数据之前，所述方法还包括：

在所述第一音频数据的数据量大于或等于第一预设阈值的情况下，确定所述第一音频数据满足所述第一置信条件。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述第一音频数据对所述第一设备进行所述声纹注册，包括：

利用所述第一音频数据与所述第二音频数据对所述第一设备进行所述声纹注册。

8.一种声纹注册装置，其特征在于，包括：

第一获取单元，用于获取第一设备采集到的第一音频数据；

第二获取单元，用于在所述第一音频数据满足所述第一设备对应的第一置信条件的情况下，获取至少一个第二设备对应的第二音频数据，其中，所述第二设备为通过所述第二音频数据已进行所述声纹注册的设备；

注册单元，用于在所述第一音频数据满足所述第二音频数据对应的第二置信条件的情况下，基于所述第一音频数据对所述第一设备进行所述声纹注册。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。