CN107978311A

CN107978311A - 一种语音数据处理方法、装置以及语音交互设备

Info

Publication number: CN107978311A
Application number: CN201711191651.3A
Authority: CN
Inventors: 马龙; 李俊; 张力
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-05-01
Anticipated expiration: 2037-11-24
Also published as: US20200043471A1; CN107978311B; US11189263B2; WO2019101083A1

Abstract

本发明实施例公开了一种语音数据处理方法、装置以及语音交互设备，其中方法包括：获取历史语音数据，并获取历史语音数据对应的历史语音特征向量，并对历史语音特征向量进行聚类，得到语音特征簇；语音特征簇包含至少一个特征相似的历史语音特征向量；若语音特征簇满足高频用户条件，则根据语音特征簇所包含的历史语音特征向量训练对应的用户语音模型；若检测到当前语音数据的当前语音特征向量与用户语音模型相匹配，则发起与当前语音数据相关联的用户身份关联请求；若接收到与用户身份关联请求对应的响应消息，则将响应消息中的用户身份信息与用户语音模型进行绑定。采用本发明，可提高语音注册效率，且可以提高语音注册的成功率。

Description

一种语音数据处理方法、装置以及语音交互设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音数据处理方法、装置以及语音交互设备。

背景技术

随着语音识别技术的发展，有越来越多的产品使用到了语音识别技术，例如可以音控的汽车、音箱、电视等等，即语音交互设备可以对说话人的语音进行识别并根据识别的内容实现自动化控制。

可进行语音识别的语音交互设备可以针对不同说话人的语音特征进行个性化服务，在此之前，说话人需要主动对语音交互设备进行语音注册，以注册该说话人的语音特征和该说话人的说话人信息之间的关系，从而在后续识别出某语音与该说话人的语音特征相匹配后，可以提供与该说话人的说话人信息对应的使用权限。但是目前的语音注册过程通常都需要说话人对着语音交互设备重复且清晰地说出许多遍的固定句子，以提取说话人的语音特征，由此可见，目前的语音注册方式是需要由说话人主动发起，且注册时间可能会花费较长时间，导致语音注册效率低下；而且在语音注册过程中，说话人很容易因一时粗心导致说话人的语音内容与系统提供的固定句子不同，进而导致语音注册失败，从而降低了语音注册的成功率。

发明内容

本发明实施例提供一种语音数据处理方法、装置以及语音交互设备，可提高语音注册效率，且可以提高语音注册的成功率。

本发明的一方面提供了一种语音数据处理方法，包括：

获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇；所述语音特征簇包含至少一个特征相似的历史语音特征向量；

若所述语音特征簇满足高频用户条件，则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型；

若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配，则发起与所述当前语音数据相关联的用户身份关联请求；

若接收到与所述用户身份关联请求对应的响应消息，则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。

其中，还包括：

获取所述语音特征簇所包含的所述历史语音特征向量的数量，并根据所述语音特征簇所包含的所述历史语音特征向量的数量，以及所述语音特征簇所包含的所述历史语音特征向量，计算所述语音特征簇对应的类内散度；

若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值，且所述类内散度小于系统类内散度阈值，则确定所述语音特征簇满足高频用户条件。

其中，所述获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇，包括：

获取所有历史语音数据，并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵；

根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间，生成每个历史语音数据分别对应的历史语音特征向量，并对所述历史语音特征向量进行降维；

根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇。

其中，所述目标聚类模型参数包括：密度领域半径和核心样本阈值；

所述根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇，包括：

以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集，并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点；

在所有核心点中确定任意一个核心点为出发点，并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点，作为可达样本点，并生成包含所述出发点和所有所述可达样本点的语音特征簇，并将所有核心点中的下一个核心点确定为所述出发点，重复执行本步骤，直至所有核心点均被确定为所述出发点。

其中，所述根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型，具体包括：

对所述语音特征簇所包含的所述历史语音特征向量进行均值计算或插值计算，得到目标历史语音特征向量，并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。

其中，还包括：

获取样本语音数据，并为所述样本语音数据设置对应的样本用户身份标签；

根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系，训练初始聚类模型参数，并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。

其中，还包括：

若聚类后所累计新增的历史语音数据的数量达到第一数量阈值，或聚类后所累计时长达到第一时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第一历史语音特征向量；

根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系，更新当前的聚类模型参数，得到所述目标聚类模型参数。

其中，还包括：

若聚类后所累计新增的历史语音数据的数量达到第二数量阈值，或聚类后所累计时长达到第二时长阈值，则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，以及与所有用户语音模型均不匹配的历史语音特征向量，作为第二历史语音特征向量，并对所述第二历史语音特征向量进行聚类，得到当前生成的语音特征簇；

根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，并对未满足所述高频用户条件的语音特征簇进行替换。

其中，还包括：

若聚类后所累计新增的历史语音数据的数量达到第三数量阈值，或聚类后所累计时长达到第三时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第三历史语音特征向量，并根据所述第三历史语音特征向量更新已绑定所述用户身份信息的用户语音模型；

获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第四历史语音特征向量，并根据所述第四历史语音特征向量更新未绑定所述用户身份信息的用户语音模型。

本发明的另一方面提供了一种语音数据处理装置，包括：

聚类模块，获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇；所述语音特征簇包含至少一个特征相似的历史语音特征向量；

第一训练模块，用于若所述语音特征簇满足高频用户条件，则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型；

请求发起模块，用于若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配，则发起与所述当前语音数据相关联的用户身份关联请求；

绑定模块，用于若接收到与所述用户身份关联请求对应的响应消息，则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。

其中，还包括：

获取计算模块，用于获取所述语音特征簇所包含的所述历史语音特征向量的数量，并根据所述语音特征簇所包含的所述历史语音特征向量的数量，以及所述语音特征簇所包含的所述历史语音特征向量，计算所述语音特征簇对应的类内散度；

条件确定模块，用于若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值，且所述类内散度小于系统类内散度阈值，则确定所述语音特征簇满足高频用户条件。

其中，所述聚类模块包括：

获取训练单元，用于获取所有历史语音数据，并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵；

向量处理单元，用于根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间，生成每个历史语音数据分别对应的历史语音特征向量，并对所述历史语音特征向量进行降维；

聚类单元，用于根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇。

所述聚类单元包括：

查找子单元，用于以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集，并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点；

聚类子单元，用于在所有核心点中确定任意一个核心点为出发点，并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点，作为可达样本点，并生成包含所述出发点和所有所述可达样本点的语音特征簇；

通知子单元，用于将所有核心点中的下一个核心点确定为所述出发点，并通知所述聚类子单元生成所述出发点对应的所述语音特征簇，直至所有核心点均被确定为所述出发点。

其中，所述第一训练模块，具体用于对所述语音特征簇所包含的所述历史语音特征向量进行均值计算或插值计算，得到目标历史语音特征向量，并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。

其中，还包括：

样本设置模块，用于获取样本语音数据，并为所述样本语音数据设置对应的样本用户身份标签；

第二训练模块，用于根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系，训练初始聚类模型参数，并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。

其中，还包括：

第一更新模块，用于若聚类后所累计新增的历史语音数据的数量达到第一数量阈值，或聚类后所累计时长达到第一时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第一历史语音特征向量，并根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系，更新当前的聚类模型参数，得到所述目标聚类模型参数。

其中，还包括：

第二更新模块，用于若聚类后所累计新增的历史语音数据的数量达到第二数量阈值，或聚类后所累计时长达到第二时长阈值，则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，以及与所有用户语音模型均不匹配的历史语音特征向量，作为第二历史语音特征向量，并对所述第二历史语音特征向量进行聚类，得到当前生成的语音特征簇，并根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，并对未满足所述高频用户条件的语音特征簇进行替换。

其中，还包括：

第三更新模块，用于若聚类后所累计新增的历史语音数据的数量达到第三数量阈值，或聚类后所累计时长达到第三时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第三历史语音特征向量，并根据所述第三历史语音特征向量更新已绑定所述用户身份信息的用户语音模型；

所述第三更新模块，还用于获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第四历史语音特征向量，并根据所述第四历史语音特征向量更新未绑定所述用户身份信息的用户语音模型。

本发明的另一方面提供了一种语音交互设备，包括：处理器、存储器；

所述处理器与存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行以下操作：

本发明的另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例通过获取历史语音数据，并获取历史语音数据对应的历史语音特征向量，并对历史语音特征向量进行聚类，得到语音特征簇，若语音特征簇满足高频用户条件，则根据语音特征簇所包含的历史语音特征向量训练对应的用户语音模型；若检测到当前语音数据的当前语音特征向量与用户语音模型相匹配，则发起与当前语音数据相关联的用户身份关联请求；若接收到与用户身份关联请求对应的响应消息，则将响应消息中的用户身份信息与用户语音模型进行绑定。由此可见，通过用户对语音交互设备进行语音控制的历史记录(即历史语音数据)即可自动在后台生成与该用户相匹配的用户语音模型，进而在后续的语音注册过程中，语音交互设备只需向该用户请求用户身份关联即可完成语音注册，从而可以避免用户需要重复多次发出固定句子的语音内容才能实现语音注册，从而大大缩短了语音注册时间，进而可提高语音注册效率；而且由于用户无需通过说出固定句子以完成语音注册，所以可以避免因用户的语音内容与固定句子不完全相同而导致语音注册失败，用户只需响应语音交互设备所发起的用户身份关联请求即可完成语音注册，进而可以提高语音注册的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种系统架构的示意图；

图2a是本发明实施例提供的一种语音数据处理方法的场景示意图；

图2b是本发明实施例提供的另一种语音数据处理方法的场景示意图；

图2c是本发明实施例提供的又一种语音数据处理方法的场景示意图；

图3是本发明实施例提供的一种语音数据处理方法的流程示意图；

图4是本发明实施例提供的另一种语音数据处理方法的流程示意图；

图5是本发明实施例提供的一种参数更新方法的场景示意图；

图6是本发明实施例提供的一种性能验证结果的示意图；

图7是本发明实施例提供的另一种性能验证结果的示意图；

图8是本发明实施例提供的一种语音数据处理装置的结构示意图；

图9是本发明实施例提供的一种语音交互设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种系统架构的示意图。如图1所示，该系统架构可以包括语音交互设备100a和后台服务器100b，语音交互设备100a可以通过互联网连接后台服务器100b；语音交互设备100a可以包括可进行语音识别的音箱、电脑、电视、空调等智能设备。语音交互设备100a可以接收用户的语音数据，并将语音数据发送到后台服务器100b，使得后台服务器100b可以对语音数据进行语音识别并根据识别出的语义生成控制指令，语音交互设备100a接收后台服务器100b发送的控制指令以执行对应的控制操作。例如，用户对着语音交互设备100a说“播放歌曲A”，则语音交互设备100a可以将语音数据“播放歌曲A”发送到后台服务器100b，后台服务器100b对语音数据“播放歌曲A”进行语音识别并生成对应的控制指令，语音交互设备100a接收该控制指令并根据该控制指令播放歌曲A。

其中，后台服务器100b还可以根据语音交互设备100a所发送的语音数据进行高频用户发现以及主动对高频用户发起身份注册，该过程可以一并参见图2a-图2c，均为本发明实施例提供的一种语音数据处理方法的场景示意图。如图2a所示，语音交互设备100a可以接收多个用户的语音数据，每个语音数据都可以转发到后台服务器100b(其中根据语音数据进行语音控制的过程请参见上述图1对应实施例)，因此，后台服务器100b可以存储大量语音数据，形成历史语音数据；如图2a所示，后台服务器100b可以对所有历史语音数据进行聚类，得到语音特征簇1、语音特征簇2、语音特征簇3、语音特征簇4，每个语音特征簇包含至少一个特征相似的历史语音特征向量，历史语音特征向量可以是指历史语音数据对应的i-Vector。如图2a所示，后台服务器100b可以进一步基于所有语音特征簇进行高频用户发现，具体可以通过分析每个语音特征簇中的历史语音特征向量的数量和历史语音特征向量的分布密度，来确定语音特征簇所对应的用户是否为高频用户，在图2a中，后台服务器100b分析出语音特征簇1和语音特征簇4所对应的用户属于高频用户(经常向语音交互设备100a发送语音数据的用户可以确定为高频用户)，后台服务器100b再进一步为语音特征簇1创建对应的用户语音模型1，并为语音特征簇4创建对应的用户语音模型4。其中，用户语音模型1和用户语音模型4均属于未绑定用户身份信息的用户语音模型，即未注册的用户语音模型。

进一步的，再请一并参见图2b，在图2b中，语音交互设备100a可以将当前时刻的用户1的语音数据转发至后台服务器100b(其中根据该语音数据进行语音控制的过程请参见上述图1对应实施例)，后台服务器100b可以对该语音数据进行模型匹配，具体是将该语音数据对应的i-Vector分别与图2a中的用户语音模型1和用户语音模型4进行比较，如图2b所示，用户语音模型1与该语音数据相匹配，此时，可以向语音交互设备100a发起与用户语音模型1对应的用户身份关联请求，语音交互设备100a中的身份关联模块可以向用户1发出用户注册提示音(例如，该提示音为“请输入您的身份信息”)，用户1根据该提示音可以通过语音或客户端的方式将用户1的身份信息发送给语音交互设备100a，语音交互设备100a再将用户1的身份信息转发给后台服务器100b，后台服务器100b可以对用户1的身份信息进行用户身份注册，该注册过程即为将用户语音模型1与用户1的身份信息进行绑定。其中，用户语音模型1属于已绑定用户身份信息的用户语音模型，即为已注册的用户语音模型；用户语音模型4仍属于未绑定用户身份信息的用户语音模型。由此可见，可以避免用户需要重复多次发出固定句子的语音内容才能实现语音注册，即用户只需响应语音交互设备所发起的用户身份关联请求即可完成语音注册，进而可以提高语音注册的效率。

在对用户语音模型1进行身份信息绑定后，再一并参见图2c，如图2c所示，后台服务器100b可以持续接收语音交互设备100a发送的语音数据，以形成更多的历史语音数据，为了保证后台服务器100b可以继续发现新的高频用户，后台服务器100b可以定时或定量的对历史语音数据进行重新聚类。在图2c中，后台服务器100b可以对所有历史语音数据中除了与用户语音模型1相匹配的历史语音数据以外的其他历史语音数据进行聚类(由于用户语音模型1已完成注册，所以无需再对与用户语音模型1相匹配的历史语音数据进行聚类)，得到语音特征簇2、语音特征簇3、语音特征簇4、语音特征簇5；图2c中的语音特征簇2可以包含图2a中的语音特征簇2，且还可以包含一些新增的历史语音特征向量；图2c中的语音特征簇3可以包含图2a中的语音特征簇3，且还可以包含一些新增的历史语音特征向量；图2c中的语音特征簇4可以包含图2a中的语音特征簇4，且还可以包含一些新增的历史语音特征向量；图2c中的语音特征簇5为新增加的语音特征簇。后台服务器100b进一步在语音特征簇2、语音特征簇3、语音特征簇4、语音特征簇5中进行高频用户发现，进而分析出语音特征簇3、语音特征簇4分别对应的用户属于高频用户，由于语音特征簇4已有对应的用户语音模型4，所以只需要创建语音特征簇3对应的用户语音模型3；其中，还可以通过图2c中的语音特征簇4中的所有历史语音特征向量对已有的用户语音模型4进行更新。如图2c所示，此时的后台服务器100b中的用户语音模型包括用户语音模型1、用户语音模型3、用户语音模型4，用户语音模型1属于已绑定用户身份信息的用户语音模型；用户语音模型3、用户语音模型4属于未绑定用户身份信息的用户语音模型，因此，后续在检测到语音数据与用户语音模型3或用户语音模型4相匹配时，可以发起用户身份注册。随着用户使用量的增加，可以增加更多的未绑定用户身份信息的用户语音模型，且基于用户身份自动注册的机制，可以逐渐将未绑定用户身份信息的用户语音模型转换为已绑定用户身份信息的用户语音模型，即逐渐完成每个高频用户的身份注册。

可选的，后台服务器100b的所有功能均可以集成到语音交互设备100a中，即语音交互设备100a可以直接对语音数据进行语音识别以实现语音控制，语音交互设备100a也可以直接根据所接收到的语音数据进行高频用户发现以及主动对高频用户发起身份注册。

以下图3-图9对应的实施例，以后台服务器100b集成到语音交互设备100a为例，对高频用户发现以及主动对高频用户发起身份注册的具体过程进行详细描述。

请参见图3，是本发明实施例提供的一种语音数据处理方法的流程示意图，所述方法可以包括：

S301，获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇；所述语音特征簇包含至少一个特征相似的历史语音特征向量；

具体的，在启动语音交互设备(该语音交互设备可以具体为上述图1对应实施例中的集成有后台服务器100b的所有功能的语音交互设备100a)后，语音交互设备可直接对所获取到的用户语音进行语义识别，进而执行与语义相关联的控制操作。其中，语音交互设备可以包括音响、电视、汽车、手机、VR(Virtual Reality，虚拟现实)设备等可进行语音交互识别和控制的智能设备。例如，用户对语音交互设备说“播下一首歌”，则语音交互设备在分析出该语义后，语音交互设备即可将当前歌曲切换到下一首歌进行播放。因此，语音交互设备可以无需等待用户完成语音注册后才能启动语音控制功能，即在将用户的语音特征与用户身份信息进行绑定之前，语音交互设备即可根据用户的语音内容执行相关联的控制操作。而且多个不同的用户均可以向该语音交互设备说出用户语音，使得语音交互设备可以根据各用户语音指令执行相关联的控制操作，语音交互设备还可以记录和保存各用户语音，并将所保存的每条用户语音均确定为历史语音数据。

当所保存的历史语音数据的数量达到第一数量阈值时，获取所有历史语音数据，并计算每个历史语音数据分别对应的历史语音特征向量。历史语音特征向量可以为i-vector(identity-vector)。其中获取i-vector的过程可以为：首先利用所有历史语音数据训练得到高阶的高斯混合模型(GMM，Gaussian Mixture Model)，GMM可以用于刻画说话人的语音特征空间，这个模型通常被称作通用背景模型(UBM，Universal BackgroundModel)，即GMM-UBM模型；再利用GMM-UBM模型对每条历史语音数据进行参数估计，以计算高斯混合模型各分量的混合权重、均值向量、方差矩阵分别对应的零阶、一阶和二阶Baum-Welch统计量，然后再利用EM(Expectation Maximization Algorithm，期望最大化算法)算法迭代得到全局差异矩阵T；通过矩阵T，可以把分别把每条历史语音数据中隐含在高维说话人语音空间中的说话人及通道相关特性，投影到低维空间中，从而获得每条历史语音数据的历史语音特征向量，也就是i-Vector。即计算i-Vector的具体公式可以为：M＝m+Tw，其中，M代表高斯混合模型的高维均值超矢量，m代表与说话人信息和信道信息无关的一个超矢量，T为全局差异空间，w是包含整段语音中的说话人信息和信道信息的一个全差异因子(即i-Vector)。可选的，全局差异矩阵T也可以基于深度神经网络训练而成。

语音交互设备可以进一步对历史语音特征向量进行降维，并根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到语音特征簇。其中，对历史语音特征向量进行降维的过程可以为：采用PCA(Principal Component Analysis，主成份分析)、tSNE(t-distributed stochastic neighbor embedding，t分布领域嵌入)及LDA(LinearDiscriminant Analysis，线性判别分析)等算法，对获取到的历史语音特征向量(即i-vector)进行数据降维处理，去除数据中冗余的多重共线成分，减小聚类的计算量。其中，利用PCA和tSNE的降维是非监督的，即毋须预先训练模型，可以直接应用于对i-vector进行降维；其中，利用LDA降维需要预先使用带实际标签的i-vector数据训练出最优的投影方向，然后将其应用于对i-vector进行降维。

其中，对所有历史语音特征向量进行聚类的具体过程可以为：采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的带噪声应用的空间聚类)聚类算法，使用欧式距离作为样本的距离度量，将降维后的历史语音特征向量聚类成簇(即语音特征簇)。DBSCAN聚类算法可以找出特征空间中形状不规则的簇，且聚类时毋须事先设定簇的数量，从而可以满足本发明实施例中说话人数量事先未知的场景需求。

S302，若所述语音特征簇满足高频用户条件，则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型；

具体的，在生成至少一个语音特征簇后，针对每一个语音特征簇，均可以根据语音特征簇中的历史语音特征的数量以及该语音特征簇中的历史语音特征的分布情况，确定该语音特征簇是否满足高频用户条件。例如，语音特征簇中的历史语音特征的数量超过预设的数量阈值以及该语音特征簇中的历史语音特征的分布密度也超过预设的密度阈值，则可以确定该语音特征簇满足高频用户条件，也即说明该语音特征簇所对应的说话人为经常与语音交互设备进行语音交互的用户。

在确定出某语音特征簇满足高频用户条件后，可以根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型。其中，训练用户语音模型的过程可以为：获取满足高频用户条件的语音特征簇中的所有历史语音特征向量，并对所获取的这些历史语音特征向量进行均值计算或插值计算，得到目标历史语音特征向量，并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。其中，对语音特征簇中的历史语音特征向量进行均值计算的方式可以为：将语音特征簇中的各历史语音特征向量进行相加，再除以该语音特征簇中的历史语音特征向量的数量，得到目标历史语音特征向量。或者，对语音特征簇中的历史语音特征向量进行均值计算的方式可以为：根据权重系数对语音特征簇中的各历史语音特征向量进行权重相加，再除以该语音特征簇中的历史语音特征向量的数量，得到目标历史语音特征向量。

S303，若检测到当前语音数据的语音特征向量与所述用户语音模型相匹配，则发起与所述当前语音数据相关联的用户身份关联请求；

具体的，语音交互设备每接收到一条语音数据，都会获取该语音数据的语音特征向量(即i-vector)，然后将该语音数据的语音特征向量与各个已创建的用户语音模型进行比较。如果当前接收到的一条语音数据(即当前语音数据)与某一个用户语音模型相匹配，且该用户语音模型未与用户身份信息进行绑定，则语音交互设备可以发起与当前语音数据相关联的用户身份关联请求，该用户身份关联请求的具体形式可以为：用于进行用户身份关联的语音提示(如语音交互设备发送语音“请绑定您的身份信息”)，或者是向用户终端发送的用于进行用户身份关联的注册界面(如该注册界面可以在用户手机上显示，用户通过在注册界面上填写自己的身份信息，或也可以在注册界面上与用户账号进行绑定，以完成语音注册)。其中，可以通过欧氏距离分别计算当前语音数据的i-vector与每个用户语音模型中的i-vector之间的向量距离，将向量距离小于距离阈值的用户语音模型确定为与当前语音数据相匹配的用户语音模型。

可选的，若与当前语音数据相匹配的用户语音模型为已绑定用户身份信息的用户语音模型，则将当前语音数据对应的语音特征向量保存至相匹配的用户语音模型对应的语音特征簇中，以便于用于后续更新该用户语音模型以提高该用户语音模型的准确性，同时，语音交互设备也可以根据该用户语音模型向当前语音数据对应的说话人提供相应的个性化服务，例如，若当前语音数据为“播放A歌曲”，则语音交互设备可以根据该用户语音模型所绑定的用户身份信息，获取与该用户身份信息对应的用户习惯参数(如该用户所喜欢的音调、音量等参数)，并根据用户习惯参数对A歌曲的音频参数进行调整和播放；或者，若该用户语音模型所绑定的用户身份信息为管理员身份信息，则语音交互设备可以向当前语音数据对应的说话人开放系统管理权限。

S304，若接收到与所述用户身份关联请求对应的响应消息，则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定；

具体的，语音交互设备发起用户身份关联请求后，当前语音数据对应的说话人可以通过语音反馈对应的响应消息以完成语音注册。例如，说话人可以说出响应消息“我的身份信息为XXXX”，则语音交互设备可以通过语音识别得知该响应消息中的用户身份信息为“XXXX”，进行将用户身份信息“XXXX”与当前语音数据相匹配的用户语音模型进行绑定。

或者，若用户身份关联请求的具体形式是向用户终端发送的用于进行用户身份关联的注册界面，则当前语音数据对应的说话人可以通过该注册界面输入对应的响应消息以完成语音注册。例如，注册界面中包含用户名称输入框、密码输入框、用户兴趣爱好输入框等等，说话人可以在注册界面中的各个输入框中输入相应的数据，并在点击提交后，用户终端可以将注册界面中所输入的数据封装为响应消息，并将该响应消息发送给语音交互设备，使得语音交互设备将响应消息中的用户身份信息(如包含注册界面中所输入的用户名称、密码、用户兴趣爱好等信息)与当前语音数据相匹配的用户语音模型进行绑定。

请参见图4，是本发明实施例提供的另一种语音数据处理方法的流程示意图，所述方法可以包括：

S401，获取所有历史语音数据，并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵；

S402，根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间，生成每个历史语音数据分别对应的历史语音特征向量，并对所述历史语音特征向量进行降维；

其中，S401-S402步骤的具体实现方式可以参见上述图3对应实施例中的S301，这里不再进行赘述。

S403，根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇；

具体的，语音交互设备(该语音交互设备可以具体为上述图1对应实施例中的集成有后台服务器100b的所有功能的语音交互设备100a)可以基于DBSCAN聚类算法对降维后的历史语音特征向量进行聚类，DBSCAN聚类算法可以假设聚类结构能够通过样本分布的紧密程度来确定，该紧密程度可由一对参数(Eps，MinPts)刻画，Eps为定义密度时的邻域半径，MinPts为定义核心样本时的阈值，即目标聚类模型参数可以包括：Eps(即密度领域半径)和MinPts(即核心样本阈值)。基于DBSCAN聚类算法可以以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集，并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点；在所有核心点中确定任意一个核心点为出发点，并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点，作为可达样本点(为了区别其他的样本点，所以这里将与所述出发点具有密度可达关系的样本点定义为可达样本点)，并生成包含所述出发点和所有所述可达样本点的语音特征簇，并将所有核心点中的下一个核心点确定为所述出发点，重复执行本步骤，直至所有核心点均被确定为所述出发点。

例如，假设将所有历史语音数据对应的历史语音特征向量确定为样本数据集D＝{x₁,x₂,...,x_m}，其中每个样本点x_j即为一条历史语音数据对应的历史语音特征向量，设任意两个样本点的距离函数为dist()。其中，Eps-邻域的定义为：对x_j∈D，其Eps-邻域包含D中与x_j的距离不大于Eps的样本点，即N_Eps(x_j)＝{x_i∈D|dist(x_i,x_j)≤Eps}。密度直达的定义为：若x_j位于x_i的Eps-邻域中，且x_i是核心点，则称x_j由x_i密度直达。密度可达的定义为：对x_i与x_j，若存在样本点序列p₁,p₂,...,p_n,其中p₁＝x_i，p_n＝x_j，且p_i+1由p_i密度直达，则称x_j由x_i密度可达。密度相连的定义为：对x_i与x_j，若存在x_k使得x_i与x_j均由x_k密度可达，则称x_i与x_j密度相连。基于上述概念，DBSCAN聚类算法可以将样本数据集D中的所有样本点分为三类：核心点、边界点以及噪声点；其中，核心点为：在半径Eps内含有不少于MinPts个样本点的样本点；边界点为：在半径Eps内样本点数量小于MinPts且落在某核心点邻域内的样本点；噪声点为：既非核心点也非边界点的样本点。因此，一个聚类簇定义为一个具有密度相连关系的核心点与边界点的集合。DBSCAN聚类算法首先根据参数(Eps，MinPts)找出样本数据集D中所有的核心点，然后以任意核心点为出发点找出所有由其密度可达的样本点，作为可达样本点，并生成包含出发点和所有可达样本点的语音特征簇，直到所有的核心点均被访问为止，即每个语音特征簇均可以包含至少一个特征相似的历史语音特征向量。生成语音特征簇的具体算法流程描述如下：

由上所述可知，DBSCAN聚类算法中两个关键参数Eps和MinPts直接决定着聚类的性能。

S404，获取所述语音特征簇所包含的所述历史语音特征向量的数量，并根据所述语音特征簇所包含的所述历史语音特征向量的数量，以及所述语音特征簇所包含的所述历史语音特征向量，计算所述语音特征簇对应的类内散度；

具体的，语音交互设备可以获取语音特征簇所包含的历史语音特征向量的数量，并根据该语音特征簇所包含的历史语音特征向量的数量，以及该语音特征簇所包含的历史语音特征向量，计算该语音特征簇对应的类内散度；若该语音特征簇所包含的历史语音特征向量的数量大于系统数量阈值，且类内散度小于系统类内散度阈值，则确定该语音特征簇满足高频用户条件，进而可以分析出哪些语音特征簇满足高频用户条件。其中，计算类内散度divergence的公式为：

其中，|C|表示某语音特征簇内的样本数量(即语音特征簇所包含的历史语音特征向量的数量)，x_i和x_j是该语音特征簇的两个样本点(即该语音特征簇中的两个历史语音特征向量)，∥·∥₂表示计算代数式的2-范数。其中，系统数量阈值可以为base_frequency，系统类内散度阈值可以为base_divergence，即若该语音特征簇内的样本数量大于base_frequency且该语音特征簇的类内散度小于base_divergence，则可以确定该语音特征簇满足高频用户条件。其中，base_frequency和base_divergence为由系统设置的超参数。

S405，若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值，且所述类内散度小于系统类内散度阈值，则确定所述语音特征簇满足高频用户条件，并根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型；

具体的，在确定出某语音特征簇满足高频用户条件后，可以根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型。其中，训练用户语音模型的过程可以为：获取满足高频用户条件的语音特征簇中的所有历史语音特征向量，并对所获取的这些历史语音特征向量进行均值计算或插值计算，得到目标历史语音特征向量，并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。其中，对语音特征簇中的历史语音特征向量进行均值计算的方式可以为：将语音特征簇中的各历史语音特征向量进行相加，再除以该语音特征簇中的历史语音特征向量的数量，得到目标历史语音特征向量。或者，对语音特征簇中的历史语音特征向量进行均值计算的方式可以为：根据权重系数对语音特征簇中的各历史语音特征向量进行权重相加，再除以该语音特征簇中的历史语音特征向量的数量，得到目标历史语音特征向量。

S406，若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配，则发起与所述当前语音数据相关联的用户身份关联请求；

S407，若接收到与所述用户身份关联请求对应的响应消息，则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定；

其中，S406-S407的具体实现方式可以参见上述图3对应实施例中的S303-S304，这里不再进行赘述。

S408，若聚类后所累计新增的历史语音数据的数量达到第一数量阈值，或聚类后所累计时长达到第一时长阈值，则更新当前的聚类模型参数，得到所述目标聚类模型参数；

具体的，由于随着历史语音数据的增加，可能会新增一些高频用户，因此，需要定时进行重新聚类，以划分出新的语音特征簇，并且在新的语音特征簇满足高频用户条件时可以进一步训练对应的用户语音模型以及绑定相应的用户身份信息。而DBSCAN聚类算法中两个关键参数Eps和MinPts直接决定着聚类的性能，为了逐步提高聚类算法的性能，可以定时对Eps和MinPts进行更新，即Eps和MinPts越准确，则聚类出的新的语音特征簇就越精确。因此，若聚类后所累计新增的历史语音数据的数量达到第一数量阈值，或聚类后所累计时长达到第一时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第一历史语音特征向量；根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系，更新当前的聚类模型参数，得到所述目标聚类模型参数。其中，聚类算法性能参数可以包括两个外部指标，即Jaccard系数(杰卡德系数，JC)和Rand指数(兰德指数，RI)，通过JC和RI可以衡量聚类算法的性能，即当聚类性能提升时，JC和RI也会随之增大；其中，聚类算法性能参数最大化条件可以是指JC最大化的条件。其中，JC＝SS/(SS+SD+DS)，RI＝(SS+DD)/(SS+SD+DS+DD)，其中，SS表示实际标签相同且聚类标签也相同的样本点对的数量，SD表示实际标签相同但聚类标签不同的样本点对的数量，DS表示实际标签不同但聚类标签相同的样本点对的数量，DD表示实际标签不同且聚类标签也不同的样本点对的数量(这里的标签可以是指说话人的身份信息)。

例如，更新当前的聚类模型参数的具体过程可以为：获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第一历史语音特征向量，并将70％的第一历史语音特征向量作为训练集，并将剩余的30％的第一历史语音特征向量作为验证集；使用训练集训练一个DBSCAN聚类模型，训练目标为最大化JC；为避免训练过拟合，在训练过程中计算该聚类模型在验证集上的JC，选择使验证集JC值最大的Eps和MinPts参数作为优化的模型参数(即目标聚类模型参数)。之后可以继续定时或定量的更新目标聚类模型参数，使得可以逐渐优化目标聚类模型参数。

可选的，也可以在生成目标聚类模型参数后累计新增的历史语音数据的数量，且该数量达到第一数量阈值时，执行S408步骤；或者，在生成目标聚类模型参数后开始累计时长，且该累计时长达到第一时长阈值时，执行S408步骤。

S409，若聚类后所累计新增的历史语音数据的数量达到第二数量阈值，或聚类后所累计时长达到第二时长阈值，则对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，并对未满足所述高频用户条件的语音特征簇进行替换；

具体的，由于随着历史语音数据的增加，可能会新增一些高频用户，因此，需要定时进行重新聚类，以划分出新的语音特征簇，进而可以通过新的语音特征簇来发现新的高频用户。因此，若聚类后所累计新增的历史语音数据的数量达到第二数量阈值，或聚类后所累计时长达到第二时长阈值，则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，以及与所有用户语音模型均不匹配的历史语音特征向量(即不属于高频用户的历史语音特征向量)，作为第二历史语音特征向量，并对所述第二历史语音特征向量进行聚类，得到当前生成的语音特征簇；其中，对第二历史语音特征向量进行聚类的过程可以参见上述步骤S403，这里不再进行赘述。其中，对第二历史语音特征向量进行聚类之前，可以先对还未降维的第二历史语音特征向量进行降维处理。

再根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，该更新过程可以具体为：检测每个当前生成的语音特征簇是否满足高频用户条件，并将当前生成的语音特征簇中满足高频用户条件的语音特征簇确定为待更新语音特征簇，训练待更新语音特征簇对应的用户语音模型，并将待更新语音特征簇对应的用户语音模型与重新聚类之前已存在的未绑定所述用户身份信息的用户语音模型进行比较，若存在某个待更新语音特征簇对应的用户语音模型与某个未绑定所述用户身份信息的用户语音模型相近似(如两个用户语音模型的i-Vector之间的向量距离小于预设距离阈值)，则可以将该待更新语音特征簇中的用户画像数据传导和继承到与之具有相近似的用户语音模型的语音特征簇中，以完成对该未绑定所述用户身份信息的用户语音模型所对应的语音特征簇的更新。

再根据所有当前生成的语音特征簇中除了已用于传导和继承用户画像数据的待更新语音特征簇以外的语音特征簇，对未满足所述高频用户条件的语音特征簇进行替换，即将重新聚类之前已存在的未满足所述高频用户条件的语音特征簇删除，并保留所有当前生成的语音特征簇中除了已用于传导和继承用户画像数据的待更新语音特征簇以外的语音特征簇。例如，若重新聚类之前存在语音特征簇a1(未满足高频用户条件)、语音特征簇a2(未满足高频用户条件)、语音特征簇a3(具有未绑定用户身份信息的用户语音模型)、语音特征簇a4(具有未绑定用户身份信息的用户语音模型)、语音特征簇a5(具有已绑定用户身份信息的用户语音模型)；重新聚类后，得到当前生成的语音特征簇b1、语音特征簇b2、语音特征簇b3、语音特征簇b4，其中，语音特征簇b1、语音特征簇b2均未满足高频用户条件，语音特征簇b3和语音特征簇b4均满足高频用户条件，并进一步训练语音特征簇b3对应的用户语音模型和语音特征簇b4对应的用户语音模型，其中，语音特征簇b3对应的用户语音模型与语音特征簇a4对应的用户语音模型相近似，因此，可以将语音特征簇b3中的用户画像数据传导和继承到语音特征簇a4中，以完成对语音特征簇a4的更新；其中，语音特征簇b4对应的用户语音模型与语音特征簇a4对应的用户语音模型、语音特征簇a3对应的用户语音模型均不相似，进而可以保留语音特征簇b4、语音特征簇b1、语音特征簇b2，并删除语音特征簇a1和语音特征簇a2，此时，语音交互设备中的所有语音特征簇包括：语音特征簇b4、语音特征簇b1、语音特征簇b2、更新后的语音特征簇a4、语音特征簇a3以及语音特征簇a5。

S410，若聚类后所累计新增的历史语音数据的数量达到第三数量阈值，或聚类后所累计时长达到第三时长阈值，则更新用户语音模型；

具体的，若聚类后所累计新增的历史语音数据的数量达到第三数量阈值，或聚类后所累计时长达到第三时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第三历史语音特征向量，并根据所述第三历史语音特征向量更新已绑定所述用户身份信息的用户语音模型；其中，某个已绑定所述用户身份信息的用户语音模型对应的第三历史语音特征向量可以包括：已有的历史语音特征向量和聚类后所累计新增的历史语音特征向量；该用户语音模型的模型参数(模型参数也为i-Vector)是根据已有的历史语音特征向量生成的，因此，更新该用户语音模型的过程可以为：对该用户语音模型的模型参数和聚类后所累计新增的历史语音特征向量进行均值计算或插值计算，得到更新后的历史语音特征向量，并用该更新后的历史语音特征向量替换该用户语音模型的模型参数，以完成对该用户语音模型的更新。以均值计算的方式更新用户语音模型为例，某个已绑定用户身份信息的用户语音模型A包含模型参数a1，且聚类后所新增的且与该用户语音模型A相匹配的历史语音特征向量包括：历史语音特征向量b1、历史语音特征向量b2、……、历史语音特征向量bn，则更新后的用户语音模型A所包含的模型参数＝(a*a1+b*(b1+b2+……+bn))/(n+1)，其中，a和b为权重值。

在更新已绑定所述用户身份信息的用户语音模型的同时，还可以获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第四历史语音特征向量，并根据所述第四历史语音特征向量更新未绑定所述用户身份信息的用户语音模型。其中，更新未绑定所述用户身份信息的用户语音模型的具体过程与更新已绑定所述用户身份信息的用户语音模型的过程相同，这里不再进行赘述。

可选的，还可以在更新某用户语音模型后累计与该用户语音模型相匹配的新增历史语音数据的数量，且该数量达到第三数量阈值时，执行S410步骤；或者，在更新某用户语音模型后开始累计时长，且该累计时长达到第三时长阈值时，执行S410步骤。

其中，S408的步骤可以在S401-S407之间的任一时刻或S401之前或S407之后执行，即每次聚类后均可以定时或定量的更新当前的聚类模型参数，因此，不对S408的步骤执行顺序进行限定。S409的步骤可以在S401-S407之间的任一时刻或S401之前或S407之后执行，即可以定时或定量的进行重新聚类，以更新或替换相应的语音特征簇，因此，不对S409的步骤执行顺序进行限定。S410的步骤可以在S401-S407之间的任一时刻或S401之前或S407之后执行，即每次聚类后均可以定时或定量的更新相应的用户语音模型，因此，不对S410的步骤执行顺序进行限定。

其中，第一数量阈值、第二数量阈值、第三数量阈值之间可以相同或不同，第一时长阈值、第二时长阈值、第三时长阈值之间也可以相同或不同，这里不对其进行限定。若为了保证语音交互设备的工作效率，可以设置第一数量阈值略小于第二数量阈值(两个数量阈值之间的差值很小)，或第一时长阈值略小于第二时长阈值(两个时长阈值之间的差值很小)，以保证在每次聚类之前都先更新目标聚类模型参数，使得每次聚类都可以基于更新后的目标聚类模型参数进行聚类，以提高每次聚类的准确性；且可以设置第一数量阈值和第二数量阈值均大于第三数量阈值，或设置第一时长阈值和第二时长阈值均大于第三时长阈值，以避免过于频繁的更新目标聚类模型参数和语音特征簇，因此，过于频繁的更新容易导致更新前后的两个目标聚类模型参数过于相似，进而导致系统资源的浪费，且过于频繁的更新也容易导致更新前后的语音特征簇没有太大的变化，进而导致系统资源的浪费；而对于用户语音模型，可以较为频繁的更新，以保证用户语音模型的准确性，使得用户的语音可以更快、更准确地匹配到正确的用户语音模型。

可选的，为了提高计算每个语音数据对应的i-vector的准确性，也可以定时或定量的更新GMM，随着时间的推移，所累计的历史语音数据越来越多，进而根据数量增加后的所有历史语音数据训练GMM，可以提高GMM的准确性，进而在更新GMM后，可以提高所计算出的i-vector的准确性。

可选的，在S401的步骤之前(如语音交互设备在出厂之前的阶段，即还未接到到任何用户的语音)，语音交互设备可以获取样本语音数据，并为所述样本语音数据设置对应的样本用户身份标签(即已知每一条样本语音数据对应的说话人信息)，再根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系，训练初始聚类模型参数，并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。训练初始聚类模型参数的具体过程可以参见上述S408步骤中对当前的聚类模型参数进行更新的过程，这里不再进行赘述。在得到初始聚类模型参数后，可以根据初始聚类模型参数进行第一次聚类，并将初始聚类模型参数确定为目标聚类模型参数，此后即可定时或定量地对目标聚类模型参数进行更新。例如，获取20组含说话人实际身份标签(即样本用户身份标签)的唤醒词语音数据(即样本语音数据)，每组包含10个说话人，每个说话人含10条唤醒词语音数据，从每组中随机选取7个说话人的唤醒词语音数据作为训练集，剩余3个说话人的唤醒词语音数据作为验证集；对于每组数据，提取唤醒词语音数据的i-vector并降维后，使用训练集训练一个DBSCAN聚类模型，训练目标为最大化JC；为避免训练过拟合，在训练过程中计算该聚类模型在验证集上的JC，选择使验证集JC值最大的Eps和MinPts参数作为初始聚类模型参数。

进一步的，请一并参见图5，是本发明实施例提供的一种参数更新方法的场景示意图。如图5所示，语音交互设备在首次聚类之前，可以先获取样本语音数据，并生成样本语音数据对应的i-vector(这里可以为降维后的i-vector)，并根据样本语音数据对应的i-vector训练一个DBSCAN聚类模型，训练目标为最大化JC；为避免训练过拟合，在训练过程中计算该聚类模型在验证集上的JC，选择使验证集JC值最大的Eps和MinPts参数作为初始聚类模型参数，即初始化的Eps和MinPts。如图5所示，语音交互设备在首次聚类之前，可以先生成历史语音数据对应的i-vector(这里可以为降维后的i-vector)，并根据初始化的Eps和MinPts对历史语音数据对应的i-vector进行DBSCAN聚类，进而可以根据聚类后所得到的语音特征簇进行高频用户发现和用户身份自动注册(具体可以参见上述图4对应实施例中的S401-S407)。如图5所示，语音交互设备所得到的已绑定用户身份信息的用户语音模型可以包括用户语音模型a、用户语音模型b、用户语音模型c。语音交互设备还可以定时或定量的根据已绑定用户身份信息的用户语音模型对应的语音特征簇(如图5中的语音特征簇a、语音特征簇b、语音特征簇c)，训练一个DBSCAN聚类模型，训练目标为最大化JC；为避免训练过拟合，在训练过程中计算该聚类模型在验证集上的JC，选择使验证集JC值最大的Eps和MinPts参数作为更新后的聚类模型参数，即更新后的Eps和MinPts(具体可以参见上述图4对应实施例中的S408)。进而语音交互设备在下一次聚类时，可以根据更新后的Eps和MinPts对历史语音数据(包含新增的历史语音数据)对应的i-vector进行DBSCAN聚类，得到如图5所示的语音特征簇1、语音特征簇2、……、语音特征簇n，并根据语音特征簇1、语音特征簇2、……、语音特征簇n，对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，并对未满足所述高频用户条件的语音特征簇进行替换(具体可以参见上述图4对应实施例中的S409)。此后，可以定时或定量根据已绑定用户身份信息的用户语音模型所对应的语音特征簇对Eps和MinPts进行更新，而且随着已绑定用户身份信息的用户语音模型的增加，可以逐步训练出更准确、合理的Eps和MinPts。其中，初始化的Eps和MinPts仅用于第一次聚类使用，此后的每一次聚类都使用最近一次更新后的Eps和MinPts。

本发明实施例通过获取历史语音数据，并获取历史语音数据对应的历史语音特征向量，并对历史语音特征向量进行聚类，得到语音特征簇，若语音特征簇满足高频用户条件，则根据语音特征簇所包含的历史语音特征向量训练对应的用户语音模型；若检测到当前语音数据的当前语音特征向量与用户语音模型相匹配，则发起与当前语音数据相关联的用户身份关联请求；若接收到与用户身份关联请求对应的响应消息，则将响应消息中的用户身份信息与用户语音模型进行绑定。由此可见，通过用户对语音交互设备进行语音控制的历史记录(即历史语音数据)即可自动在后台生成与该用户相匹配的用户语音模型，进而在后续的语音注册过程中，语音交互设备只需向该用户请求用户身份关联即可完成语音注册，从而可以避免用户需要重复多次发出固定句子的语音内容才能实现语音注册，从而大大缩短了语音注册时间，进而可提高语音注册效率；而且由于用户无需通过说出固定句子以完成语音注册，所以可以避免因用户的语音内容与固定句子不完全相同而导致语音注册失败，用户只需响应语音交互设备所发起的用户身份关联请求即可完成语音注册，进而可以提高语音注册的成功率。而且通过定时或定量的更新目标聚类模型参数可以提高每一次重新聚类的准确性，而且通过定时或定量的更新、替换语音特征簇不仅可以及时的发现新的高频用户，而且也提高了语音特征簇的准确性，而且通过定时或定量的更新用户语音模型也可以提高用户语音模型的准确性，进而提高说话人的语音所匹配到的用户语音模型的准确性，即本发明实施例中的语音交互设备具备自主学习的能力，使得高频用户的发现和用户语音模型的匹配可以随着语音数据的增加而变得越来越精确。

以语音交互设备为智能音箱为例，本发明实施例对上述方案作了技术可行性验证。智能音箱通常不归属于某个特定的用户，由多个用户共同使用，但是其用户规模又十分有限。比如在家庭中使用的音箱设备，用户数目通常不超过10人；且在家庭中的成员，由于年龄、性别等方面的差异，其声纹特征的区分性比较明显。

首先，利用大规模的数据集合，随机从600人中不重复地抽取10人作为一组，每人提供10句内容完全一样的唤醒词作为语音样本。本发明实施例组织了两组实验，分别用于验证上述的聚类方法的可行性以及高频用户发现的可行性。

其中，聚类方法的可行性验证过程可以为：随机生成10组数据(每一组数据包括不重复的10个人分别提供的10句内容完全一样的语音样本)作为训练集，每组中随机选取7人的语音数据用于训练模型参数(Eps,MinPts)，训练目标为最大化JC，其余3人的数据用于验证以减轻模型过拟合；随机生成10组数据作为测试集，测试训练得到的聚类模型的性能，具体基于JC和RI衡量聚类模型的性能。请一并参见图6，是本发明实施例提供的一种性能验证结果的示意图，如图6所示，10组测试集(如图6中的group1-group10)中的JC和RI都较高，即表明聚类模型具有较高的性能，因此，本发明实施例中的聚类方法具有可行性。

其中，高频用户发现的可行性验证过程可以为：首先，获取上述聚类方法的可行性验证过程中的10组测试集，对于每组测试集，在聚类及高频用户发现完成后，将发现到的高频用户所在的语音特征簇的类别设定为所在语音特征簇中出现次数最多的语音样本的类别。此时，对于每一组测试集，均可以计算该测试集中每一个发现的满足高频用户条件的语音特征簇的查准率(Precision)和查全率(Recall)，以所有满足高频用户条件的语音特征簇的查准率和查全率的均值来表示高频用户发现算法在该测试集上的性能；其中，查准率和查全率越高，表明所发现的高频簇越精确。请一并参见图7，是本发明实施例提供的另一种性能验证结果的示意图，如图7所示，10个测试集(如图7中的group1-group10)中的Precision和Recall都较高，即表明高频用户发现算法具有较高的性能，因此，本发明实施例中的高频用户发现具有可行性。

请参见图8，是本发明实施例提供的一种语音数据处理装置的结构示意图。如图8所示，该语音数据处理装置1可以应用于上述图3或图4对应实施例中的语音交互设备，该语音数据处理装置1可以包括：聚类模块10、第一训练模块20、请求发起模块30、绑定模块40；

聚类模块10，获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇；所述语音特征簇包含至少一个特征相似的历史语音特征向量；

第一训练模块20，用于若所述语音特征簇满足高频用户条件，则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型；

其中，所述第一训练模块20可以具体用于对所述语音特征簇所包含的所述历史语音特征向量进行均值计算或插值计算，得到目标历史语音特征向量，并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。

请求发起模块30，用于若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配，则发起与所述当前语音数据相关联的用户身份关联请求；

绑定模块40，用于若接收到与所述用户身份关联请求对应的响应消息，则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。

其中，聚类模块10、第一训练模块20、请求发起模块30、绑定模块40的具体功能实现方式可以参见上述图3对应实施例中的S301-S304，这里不再进行赘述。

如图8所示，聚类模块10可以包括：获取训练单元101、向量处理单元102、聚类单元103；

获取训练单元101，用于获取所有历史语音数据，并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵；

向量处理单元102，用于根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间，生成每个历史语音数据分别对应的历史语音特征向量，并对所述历史语音特征向量进行降维；

聚类单元103，用于根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇。

其中，所述目标聚类模型参数包括：密度领域半径和核心样本阈值。

其中，获取训练单元101、向量处理单元102、聚类单元103的具体功能实现方式可以参见上述图4对应实施例中的S401-S403，这里不再进行赘述。

进一步的，如图8所示，所述聚类单元103可以包括：查找子单元1031、聚类子单元1032、通知子单元1033；

查找子单元1031，用于以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集，并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点；

聚类子单元1032，用于在所有核心点中确定任意一个核心点为出发点，并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点，作为可达样本点，并生成包含所述出发点和所有所述可达样本点的语音特征簇；

通知子单元1033，用于将所有核心点中的下一个核心点确定为所述出发点，并通知所述聚类子单元1032生成所述出发点对应的所述语音特征簇，直至所有核心点均被确定为所述出发点。

其中，查找子单元1031、聚类子单元1032、通知子单元1033的具体功能实现方式可以参见上述图4对应实施例中的S403，这里不再进行赘述。

如图8所示，该语音数据处理装置1还可以包括：获取计算模块50、条件确定模块60、样本设置模块70、第二训练模块80、第一更新模块90、第二更新模块100、第三更新模块110；

获取计算模块50，用于获取所述语音特征簇所包含的所述历史语音特征向量的数量，并根据所述语音特征簇所包含的所述历史语音特征向量的数量，以及所述语音特征簇所包含的所述历史语音特征向量，计算所述语音特征簇对应的类内散度；

条件确定模块60，用于若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值，且所述类内散度小于系统类内散度阈值，则确定所述语音特征簇满足高频用户条件。

其中，获取计算模块50、条件确定模块60的具体功能实现方式可以参见上述图4对应实施例中的S404-S405，这里不再进行赘述。

样本设置模块70，用于获取样本语音数据，并为所述样本语音数据设置对应的样本用户身份标签；

第二训练模块80，用于根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系，训练初始聚类模型参数，并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。

其中，样本设置模块70、第二训练模块80的具体功能实现方式可以参见上述图4对应实施例中对初始化聚类模型参数的过程，这里不再进行赘述。

第一更新模块90，用于若聚类后所累计新增的历史语音数据的数量达到第一数量阈值，或聚类后所累计时长达到第一时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第一历史语音特征向量，并根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系，更新当前的聚类模型参数，得到所述目标聚类模型参数。

其中，第一更新模块90的具体功能实现方式可以参见上述图4对应实施例中的S408，这里不再进行赘述。

第二更新模块100，用于若聚类后所累计新增的历史语音数据的数量达到第二数量阈值，或聚类后所累计时长达到第二时长阈值，则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，以及与所有用户语音模型均不匹配的历史语音特征向量，作为第二历史语音特征向量，并对所述第二历史语音特征向量进行聚类，得到当前生成的语音特征簇，并根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新，并对未满足所述高频用户条件的语音特征簇进行替换。

其中，第二更新模块100的具体功能实现方式可以参见上述图4对应实施例中的S409，这里不再进行赘述。

第三更新模块110，用于若聚类后所累计新增的历史语音数据的数量达到第三数量阈值，或聚类后所累计时长达到第三时长阈值，则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第三历史语音特征向量，并根据所述第三历史语音特征向量更新已绑定所述用户身份信息的用户语音模型；

所述第三更新模块110，还用于获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量，作为第四历史语音特征向量，并根据所述第四历史语音特征向量更新未绑定所述用户身份信息的用户语音模型。

其中，第三更新模块110的具体功能实现方式可以参见上述图4对应实施例中的S410，这里不再进行赘述。

请参见图9，是本发明实施例提供的一种语音交互设备的结构示意图。如图9所示，所述语音交互设备1000可以为上述图3或图4对应实施例中的语音交互设备，所述语音交互设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述语音交互设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的语音交互设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1004中存储的设备控制应用程序，以实现：

在一个实施例中，处理器1001还可以执行以下步骤：

在一个实施例中，处理器1001在执行获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇时，具体执行以下步骤：

在一个实施例中，所述目标聚类模型参数包括：密度领域半径和核心样本阈值；

处理器1001在执行根据目标聚类模型参数对降维后的历史语音特征向量进行聚类，得到所述语音特征簇时，具体执行以下步骤：

在一个实施例中，处理器1001在执行根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型时，具体执行以下步骤：

在一个实施例中，处理器1001还可以执行以下步骤：

应当理解，本发明实施例中所描述的语音交互设备1000可执行前文图3到图4所对应实施例中对所述语音数据处理方法的描述，也可执行前文图8对应实施例中对所述语音数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的语音数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3到图4所对应实施例中对所述语音数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，所述获取历史语音数据，并获取所述历史语音数据对应的历史语音特征向量，并对所述历史语音特征向量进行聚类，得到语音特征簇，包括：

4.如权利要求3所述的方法，其特征在于，所述目标聚类模型参数包括：密度领域半径和核心样本阈值；

5.如权利要求1所述的方法，其特征在于，所述根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型，具体包括：

6.如权利要求3所述的方法，其特征在于，还包括：

7.如权利要求3所述的方法，其特征在于，还包括：

8.如权利要求3所述的方法，其特征在于，还包括：

9.如权利要求3所述的方法，其特征在于，还包括：

10.一种语音数据处理装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，还包括：

12.如权利要求10所述的装置，其特征在于，所述聚类模块包括：

13.如权利要求12所述的装置，其特征在于，所述目标聚类模型参数包括：密度领域半径和核心样本阈值；

所述聚类单元包括：

14.一种语音交互设备，其特征在于，包括：处理器、存储器；

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述处理器执行所述程序指令时执行如权利要求1-9任一项所述的方法。