CN105869645A

CN105869645A - 语音数据处理方法和装置

Info

Publication number: CN105869645A
Application number: CN201610178300.8A
Authority: CN
Inventors: 金星明; 李为; 郑昉劢; 吴富章; 朱碧磊; 钱柄桦; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-17
Anticipated expiration: 2036-03-25
Also published as: EP3435374A1; WO2017162017A1; CN105869645B; EP3435374B1; JP6668501B2; US10692503B2; US20180286410A1; EP3435374A4; JP2019509523A

Abstract

本发明公开了一种语音数据处理方法和装置。该方法包括：获取多个语音样本中每个语音样本的I‑Vector向量，并确定多个语音样本中的目标种子样本；分别计算目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，目标语音样本的I‑Vector向量与目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。本发明解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。

Description

语音数据处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种语音数据处理方法和装置。

背景技术

在人工智能的各个领域，数据是至关重要的，很多时候数据的质量起着决定性的作用。而实际情况中的数据质量多是参差不齐的，需要近一步对其进行处理。数据处理一般是指去除数据中的“噪声”，保留需要的真正数据。在声纹识别领域，通过互联网获取到的特定人的声纹语音样本多数情况下都是不纯的，除了包含非人声等噪声之外，往往还可能包含有其他人的说话语音。如何将噪声和其他人声清洗掉，只保留该特定人的声纹语音样本，是当今面临的主要问题。

目前，为了从包含有噪声和其他人声纹的语音数据中获取特定人的声纹语音样本，通常采用人工标注方法，人工辨识一段包含特定人的声纹、其他人声纹以及噪声的语音数据中具体哪段语音样本属于特定人的声纹，并将包含噪声和其他人声纹的语音样本手工剪掉。这种人工标注方法对语音数据进行清洗费时费力，且效率低下。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音数据处理方法和装置，以至少解决相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。

根据本发明实施例的一个方面，提供了一种语音数据处理方法，包括：获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；以及至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

根据本发明实施例的另一方面，还提供了一种语音数据处理装置，包括：获取模块，用于获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；计算模块，用于分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；以及过滤模块，用于至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

在本发明实施例中，利用I-Vector声纹识别技术采用自动聚类的方式对语音数据进行清洗，通过获取每个语音样本的I-Vector向量，从中确定目标种子样本；分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值，达到了无需人工参与自动对语音数据进行清洗的目的，从而实现了提高对语音数据清洗的效率的技术效果，进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音数据处理方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的语音数据处理方法的流程图；

图3是根据本发明实施例的I-Vector向量的获取过程的示意图；

图4是根据本发明实施例的从多个目标语音样本中确定目标种子样本的流程图；

图5是根据本发明实施例的一种优选的语音数据处理方法的流程图；

图6是根据本发明实施例的一种可选的语音数据处理装置的示意图；

图7是根据本发明实施例的一种可选的语音数据处理装置的示意图；

图8是根据本发明实施例的另一种可选的语音数据处理装置的示意图；

图9是根据本发明实施例的另一种可选的语音数据处理装置的示意图；

图10是根据本发明实施例的另一种可选的语音数据处理装置的示意图；

图11是根据本发明实施例的另一种可选的语音数据处理装置的示意图；

图12是根据本发明实施例的另一种可选的语音数据处理装置的示意图；以及

图13是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

I-Vector声纹识别技术，也成身份因子识别技术，它不尝试去强制分开说话人空间和信道空间，而是直接设置一个全局变化空间(TotalVariability Space)，它包含了语音数据中所有可能的信息。然后通过因子分析的方法，得到全局变化空间的载荷因子，这个就叫做I-Vector声纹识别技术。其维度远远低于高斯超向量。在这个因子上，用一个简单的区分说话人之间的方法，就是让不同说话人之间的距离变大，而同一个说话人受噪声影响的各个语句之间的距离变小。显然的，这就是现行鉴别分析方法的目标，将说话人之间的差异，视为类间矩阵，将噪声带来的差异，视为类内矩阵，然后应用概率化的现行鉴别分析方法估计得到I-vector矩阵，在这个I-vector矩阵上映射出来的就是反应说话人身份的信息向量的I-vector向量。

实施例1

根据本发明实施例，提供了一种语音数据处理方法的方法实施例。

可选地，在本实施例中，上述语音数据处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的语音数据处理方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的语音数据处理方法也可以是由安装在其上的客户端来执行。

图2是根据本发明实施例的一种可选的语音数据处理方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S22，获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；

步骤S24，分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；

步骤S26，至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

通过上述步骤S22至步骤S26，通过获取每个语音样本的I-Vector向量，从中确定目标种子样本；分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值，达到了无需人工参与自动对语音数据进行清洗的目的，进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题，实现了提高对语音数据清洗的效率的技术效果。

需要说明的是，对于一个语音数据中的任意一个语音样本，经过处理后均能得到一个该语音样本的I-Vector向量，其中，I-Vector向量为I-Vector矩阵中用于反映说话人身份的信息向量，各个语音样本之间的差异可以通过计算两个语音样本的I-Vector向量之间的余弦距离来表征，两者之间的余弦距离越接近1，则说明两者越接近，反之说明两者差异越大。对于同一个特定人的语音样本，每个语音样本的I-Vector向量之间的余弦距离应该接近1，差异很小。因此，本发明实施例采用基于语音样本的I-Vector向量之间的余弦距离来对各个语音样本进行聚类，以达到对语音数据进行清洗的目的。

为了便于理解如何利用本发明实施例的语音数据处理方法对语音数据进行清洗，此处首先对步骤S22提供的技术方案中如何获取多个语音样本中每个语音样本的I-Vector向量进行详细介绍，具体如下：

作为一种可选的实施例，步骤S22获取多个语音样本中每个语音样本的I-Vector向量可以包括以下步骤：

步骤S221，分别获取多个语音样本中每个语音样本的语音特征参数。

需要说明的是，一个语音数据中可以包括多个语音样本，每个语音样本可能对应特定人声纹、其他人声纹或者噪声，其中，特定人声纹、其他人声纹或者噪声的语音样本的语音特征参数均不相同，该语音特征参数可以用于表征该语音样本的声纹信息。可选地，该语音特征参数可以包括但不仅限于所包含的声纹类型以及每种类型声纹的频率和强度等信息。

作为一种可选的实施例，步骤S221可以包括以下步骤：

步骤S2211，将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号。

步骤S2212，从脉冲编码调制信号中提取语音特征参数。

步骤S2213，对语音特征参数进行能量检测和归一化处理。

需要说明的是，此处的第一采样率和第二采样率可以依据实际需求进行设定和调整，且第一采样率和第二采样率不同，该可选实施例并不对此做具体限定。该可选实施例通过将语音样本处理成采样率不同的脉冲编码调制信号并从该脉冲编码调制信号中提取用于标识该语音样本声纹信息的语音特征参数，可以达到提高提取到的语音特征参数的精确度的效果。在提取到语音特征参数之后通过对其进行能量检测和归一化处理，能够达到提高语音特征参数稳定性和准确性的效果。需要说明的是，从脉冲编码调制信号中提取的语音特征参数可以为对从脉冲编码调制信号中提取的MFCC特征取其一阶和二阶统计量拼接而成的特征。还需要说明的是，为了提高提取到的语音特征参数的稳定性和准确性，该可选实施例还可以对提取到的语音特征参数进行语音活性检测等，此处不再一一举例说明。

在实际应用场景中，该可选实施例可以利用ffmpeg软件将每个语音样本处理成采样率分别为8K和16bit的脉冲编码调制PCM文件，具体操作命令为：ffmpeg–y-loglevel quiet-i原始语音文件–acodec pam_s161e-ar 8000-ac 1目标语音文件名.pcm。然后从中提取MFCC特征，具体可以取帧长为20ms，两帧间10ms重叠，使用matlab的viocebox工具包或者HTK语音识别包等工具提取MFCC特征，一般取前20维。然后取这20维的MFCC特征的一阶和二阶统计量拼接起来作为该语音样本的语音特征参数。针对提取到的MFCC特征可以对其进行能量检测、语音活性检测和归一化处理。

步骤S222，利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量，其中，I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。

需要说明的是，在获取每个语音样本的语音特征参数之后，可以利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量。需要说明的是，I-Vector矩阵可以用于指示语音样本的语音特征参数对应的I-Vector向量。

作为一种可选的实施例，I-Vector矩阵可以通过以下步骤训练得到，具体如下：

步骤S2221，分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数。

需要说明的是，此处的获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数可以由步骤S2211至步骤S2213得到，此处不再对其进行详细描述。在实际应用场景中可以选取100个小时以上的语音数据作为I-Vector矩阵的训练数据，可以利用步骤S2211至步骤S2213分别获取每个语音样本的语音特征参数。

步骤S2222，依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型。

需要说明的是，高斯混合模型，也即GMM模型可以利用多个用于训练GMM模型的语音样本中每个语音样本的语音特征参数训练得到。在实际训练GMM模型时，可以随机选取50个小时左右的语音数据作为背景模型的训练数据。按照步骤S2211至步骤S2213获取上述语音数据中各个语音样本的语音特征参数之后，利用得到的语音特征参数训练GMM模型，其中，一般制定512个以上的组件。此处需要说明的是，统一背景模型(也即UBM模型)其实是一个大型的GMM模型，用来训练表示与说话人无关的特征分别。该UBM模型的训练数据是尽量包含各种信道下的所有人的语音数据，训练UBM模型也就是训练GMM模型，所采用的算法可以是EM算法，当EM算法不收敛时，即可以认为训练结束。

在获取到多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数之后，可以利用预先训练完成的GMM模型从中提取高斯超向量，高斯超向量也即各个GMM模型的均值拼接后形成的超高维度向量。

步骤S2223，利用高斯超向量训练I-Vector矩阵。

需要说明的是，I-Vector技术是基于单一空间的跨信道算法，它不区分说话人空间的信息和信道空间信息。对于任何一句单独的语音样本，都可以分解为背景模型m₀和反映每个说话人特征的Tw_s，高斯超向量GSV可表示如下M_s＝m₀+Tw_s，其中，M_s是C*F维的高斯超向量GSV；m₀是与说话者无关且信道无关的C*F维超向量，由UBM模型的均值向量拼接而成；w_s即总变化因子I-Vector，维数为N，是一组服从标准正态分布的随机向量；T是总变化空间矩阵，维数为CF*N。在对I-Vector训练阶段，根据大量语音数据训练集，利用因子分析算法，从中估计出总变化空间矩阵T；在得到总变化空间后，将高维的高斯超向量GSV在矩阵T所表示的总变化子空间中进行投影，最终得到低维的总体变化因子，即为I-Vector向量。

图3是根据本发明实施例的I-Vector向量的获取过程的示意图，如图3所示，图3只列举了两个语音样本的I-Vector向量的获取过程，应当理解对于多个语音样本中的其他语音样本也可以通过图3所示的获取过程得到其I-Vector向量。如图3所示，首先从语音样本中提取MFCC特征；然后利用预先训练完成的UBM模型从中提取高斯超向量GSV；然后利用预先训练得到的总变化空间矩阵T，也即I-Vector矩阵获取I-Vector向量，最后利用预先训练完成的线性鉴别模块PLDA模型依据获取到的I-Vector向量对语音样本进行过滤。

在步骤S22提供的技术方案中，获取到多个语音样本中每个语音样本的I-Vector向量之后，本发明实施例还需要从多个语音样本中确定目标种子样本，其中，目标种子样本可以有多个语音样本中的至少一个语音样本拼接而成，多个语音样本中拼接成目标种子样本所需的至少一个语音样本的个数可以依据目标种子样本实际需求的音频时长进行调整。

作为一种可选的实施例，从多个语音样本中确定目标种子样本可以由以下的迭代过程确定。需要说明的是，该迭代过程的初始化可以包括：当前种子样本被初始化为由多个语音样本中的至少一个语音样本拼接得到，上一轮种子样本和上一轮剩余语音样本被初始化为空。图4是根据本发明实施例的从多个目标语音样本中确定目标种子样本的流程图，如图4所示，确定多个语音样本中的目标种子样本可以包括：重复执行以下操作，直到确定出目标种子样本：

步骤S223，分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本。

需要说明的是，两个向量之间的余弦距离可以通过以下欧几里得点积公式推到：

a·b＝|a||b|cosθ

当给定两个I-Vector向量A和B时，其余弦相似性θ由点积和向量长度给出，如下式所示：

s i m i l a r i t y = \cos θ = \frac{A \cdot B}{| A | | B |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，A_i和B_i分别代表向量A和B的各个分量。有上式可知，相似性范围从-1至1，其中，-1代表两个向量指向的方向正好相反，1代表两个向量指向相同，0代表两个向量之间是独立的，在-1至1之间的值则代表两个向量之间的相似性或相异性。

需要说明的是，多个语音样本中除当前种子样本外的当前剩余语音样本的个数可以为多个，则当前种子样本的I-Vector向量和当前剩余语音样本的I-Vector向量之间的余弦距离也为多个，当前剩余语音样本中的每个语音样本的I-Vector向量与当前种子样本的I-Vector向量之间的余弦距离可以由上述公式计算得到。

步骤S224，判断第一平均值与第二平均值之间的差值是否小于第二预定阈值。

第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本。需要说明的是，上一轮种子样本的I-Vector向量与上一轮剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离也可以按照上述公式计算得到。该可选实施例每确定一次种子样本就会计算一次该种子样本的I-Vector向量与剩余语音样本的I-Vector向量之间的余弦距离的平均值。从初始化开始，每计算两次平均值之后，该可选实施例就会比较前后两次计算得到的平均值的差值是否小于第二预定阈值。需要说明的是，第二预定阈值可以依据实际需求设定或调整。

在判断第一平均值和第二平均值的差值小于第二预定阈值时，该可选实施例执行步骤S225，否则执行步骤S226。

步骤S225，若差值小于第二预定阈值，则确定当前种子样本为目标种子样本。

当第一平均值和第二平均值的差值小于第二预定阈值时，迭代过程终止，确定当前种子样本即为目标种子样本。在确定目标种子样本之后，即可利用该目标种子样本执行步骤S24和步骤S26，以达到按照余弦距离过滤语音样本，进而实现对语音数据进行清洗的目的。

步骤S226，若差值大于或等于第二预定阈值，则将当前种子样本作为上一轮种子样本，从当前剩余语音样本中选择语音样本，将选择出的语音样本拼接成当前种子样本，并将当前剩余语音样本作为上一轮剩余语音样本，返回执行步骤S223。

当第一平均值和第二平均值的差值大于或等于第二预定阈值时，说明迭需要继续迭代，则将当前种子样本作为上一轮种子样本，从当前剩余语音样本中选择语音样本并将选择出的语音样本拼接成当前种子样本，将当前剩余语音样本作为上一轮剩余语音样本，继续返回执行步骤S223，继续下次迭代过程，直至确定前后两次计算得到的余弦距离的平均值的差值小于第二预定阈值时结束该迭代过程。

上述步骤通过迭代过程从多个语音样本中确定目标种子样本，在迭代过程中按照I-Vector向量之间的余弦距离进行聚类，能够实现对多个语音样本进行差异性聚类的目的。

作为一种可选的实施例，步骤S226中从当前剩余语音样本中选择语音样本可以包括以下步骤：

步骤S2262，将当前剩余语音样本按照余弦距离从小到大的顺序进行排序。

步骤S2264，从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本，其中，靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。

需要说明的是，在计算得到当前种子样本的I-Vector向量与当前剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离后，且在不满足迭代过程终止的条件时，该可选实施例需要重新确定当前种子样本，在确定当前种子样本时，可以首先对这些余弦距离按照由小到大的顺序进行排序，排序的目的是为了方便快速地确定余弦距离较小的至少一个语音样本，以便于将这些余弦距离较小的语音样本拼接成当前种子样本。

还需要说明的是，在将余弦距离较小的至少一个语音样本拼接成当前种子样本时，需要考虑依据实际需求确定的种子样本的音频时长，并按照该音频时长确定拼接成当前种子样本所需的语音样本的个数。此处当前种子样本的音频时长的参考值为第三预定阈值，其中，第三预定阈值可以依据实际需求进行设定或调整，此处不做具体限定。

在步骤S24提供的技术方案中，在确定目标种子样本之后，多个语音样本中除目标种子样本之外的语音样本为目标剩余语音样本，其中，目标剩余语音样本的个数可以是一个，也可以是多个。需要说明的是，目标种子样本的I-Vector向量与目标剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离的计算方法与上述步骤S223介绍的方法相同，此处不再赘述。当目标剩余语音样本的个数为多个时，计算得到的目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离也为多个，这些余弦距离均在-1至1范围内，且其中有可能存在至少两个相同的余弦距离。

在步骤S26提供的技术方案中，可以按照步骤S24计算得到的余弦距离获取目标语音样本，其中，目标语音样本是从多个语音样本或目标剩余语音样本中过滤得到的语音样本。需要说明的是，对多个语音样本或目标剩余语音样本进行过滤所依据的条件为目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值，其中，第一预定阈值可以依据实际需求进行设定或调整，此处不做具体限定。依据过滤条件从多个语音样本或目标剩余语音样本进行过滤得到的目标语音样本的个数可以是一个，也可以是多个。

在实际应用场景中，通过上述步骤得到的目标语音样本即为对包含特定人声纹、其他人声纹以及噪声的语音数据进行清洗，获取到的特定人声纹的语音样本。通过上述步骤，能够解决相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题，进而达到提高对语音数据清洗的效率的技术效果。

作为一种可选的实施例，步骤S26至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本可以包括以下步骤：

步骤S262，判断目标剩余语音样本的数量是否大于等于第四预定阈值。

步骤S264，在目标剩余语音样本的数量大于等于第四预定阈值时，按照余弦距离从目标剩余语音样本中过滤得到目标语音样本。

步骤S266，在目标剩余语音样本的数量小于第四预定阈值时，按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。

需要说明的是，步骤S26得到的目标语音样本可以从多个语音样本中过滤得到，也可以从目标剩余语音样本中过滤得到。该可选实施例以目标剩余语音样本的数量作为依据确定是从多个语音样本中过滤，还是从目标剩余语音样本中过滤。具体地，当目标剩余语音样本的数量大于等于第四预定阈值时，该可选实施例可以按照目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离从目标剩余语音样本中过滤得到目标语音样本，从目标剩余语音样本中选择余弦距离高于第一预定阈值的语音样本作为目标语音样本。当目标剩余语音样本的数量小于第四预定阈值时，该可选实施例可以按照目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本，此处需要同时考虑目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离，从多个语音样本中选择余弦距离高于第一预定阈值的语音样本作为目标语音样本。

该可选实施例依据目标剩余语音样本的数量确定是从多个语音样本中过滤得到目标语音样本，还是从目标剩余语音样本中过滤得到目标语音样本，能够保证在目标剩余语音样本较少时亦能准确地过滤得到目标语音样本，达到了提高对语音数据进行清洗后得到的所需的语音样本的精确到的效果。

本发明还提供了一种优选实施例，图5是根据本发明实施例的一种优选的语音数据处理方法的流程图，如图5所示，该优选实施例可以包括以下步骤：

步骤S51，从多个语音样本中随机选取一定量的语音样本作为种子样本，并获取种子样本和剩余语音样本的I-Vector向量。

步骤S52，依次计算各个语音样本的I-Vector向量与种子样本的I-Vector向量之间的余弦距离。

步骤S53，判断是否收敛，即判断当前种子样本I-Vector向量与当前剩余语音样本I-Vector向量之间的余弦距离的平均值是否与上一轮计算得到的余弦距离的平均值的差值是否小于一定阈值，如果是，则执行步骤S54，否则执行步骤S55。

步骤S54，按一定距离阈值选取余弦距离大于等于该距离阈值的语音样本作为语音数据清洗后的结果，将余弦距离小于该距离阈值认为是噪声或者其他人声纹，并对其进行过滤掉。至此，对语音数据的清洗结束。

步骤S55，选取与种子样本的I-Vector向量的余弦距离较近的语音样本作为下一轮迭代的种子样本，返回执行步骤S52。

举例说明：

假如目标文件夹下面共有100个语音样本，其中有60个是A人的，剩下为其他人的样本或者各类噪声。随机从这100个语音样本中，选取5分钟的音频数据，首次选取的时候，尽量选取时长较短的文件，尽量包含较多的语音样本。根据概率分布，这样被选取的语音样本中属于A的样本占多数。将选取的语音样本拼接起来，如果超过5分钟，使用ffmpeg截取5分钟的数据作为种子样本，对种子样本提取I-Vector向量作为种子样本的特征。

假如本轮选取了10个语音样本作为种子样本，则对剩下的90个语音样本分别提取I-Vector向量，然后与种子样本的I-Vector向量计算之间的余弦距离，再对90个语音样本的余弦距离取平均值记为score_itN，N为迭代的轮数。

如果score_itN-score_it(N-1)的绝对值小于阈值(该阈值一般经统计得到)，停止迭代，转下一步；否则选取得分最高即与种子样本的余弦距离较近的语音样本，拼接成5分钟的音频作为下一轮迭代的种子样本，然后进行下一步迭代。

按一定距离阈值Th(该距离阈值Th也由经验得到)只选取距离大于Th的语音样本作为语音数据清洗后的结果，低于Th的语音样本可认为是噪声或者非本人，至此自动清洗结束。

在本发明实施例的语音数据处理方法中，语音数据自动清洗所采用的就是基于I-Vector向量余弦距离的自动聚类方法，只不过，在具体实施的过程中，不关注最终会聚出几个类别，而只关注包含样本最多的某一特定类，其他包含样本较少的类别，可以认为是噪声或者不是本人的样本而丢弃。本发明可以大量减小人力成本，同时也为海量高质量语音数据的产生提供了可能。本发明最终以样本间余弦距离的方式提供结果，具备一定的灵活性，可根据实际需要，灵活选取最终的过滤距离阈值，在样本质量和数量之间做权衡。本发明除了在训练UBM-GMM模型和I-Vector矩阵时比较费时外，其他步骤计算速度均非常迅速，而UBM-GMM模型和I-Vector矩阵只需要训练一次。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述语音数据处理方法的语音数据处理装置。图6是根据本发明实施例的一种可选的语音数据处理装置的示意图，如图6所示，该装置可以包括：

获取模块62，用于获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；计算模块64，用于分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；以及过滤模块66，用于至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

需要说明的是，该实施例中的获取模块62可以用于执行本申请实施例1中的步骤S22，该实施例中的计算模块64可以用于执行本申请实施例1中的步骤S24，该实施例中的过滤模块66可以用于执行本申请实施例1中的步骤S26。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，可以解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题，进而达到提高对语音数据清洗的效率的技术效果。

作为一种可选的实施例，图7是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图7所示，获取模块62可以包括：第一子获取模块621，用于分别获取多个语音样本中每个语音样本的语音特征参数；第二子获取模块622，用于利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量，其中，I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。

需要说明的是，该实施例中的第一子获取模块621可以用于执行本申请实施例1中的步骤S221，该实施例中的第二子获取模块622可以用于执行本申请实施例1中的步骤S222。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，图8是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图8所示，第一子获取模块621可以包括：采样模块6211，用于将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；第二提取模块6212，用于提取从脉冲编码调制信号中提取语音特征参数；以及处理模块6213，用于对语音特征参数进行能量检测和归一化处理。

需要说明的是，该实施例中的采样模块6211可以用于执行本申请实施例1中的步骤S2211，该实施例中的第二提取模块6212可以用于执行本申请实施例1中的步骤S2212，该实施例中的处理模块6213可以用于执行本申请实施例1中的步骤S2213。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，图9是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图9所示，I-Vector矩阵通过以下模块训练得到：第三子获取模块6221，用于分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数；第一提取模块6222，用于依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；训练模块6223，用于利用高斯超向量训练I-Vector矩阵。

需要说明的是，该实施例中的第三子获取模块6221可以用于执行本申请实施例1中的步骤S2221，该实施例中的第一提取模块6222可以用于执行本申请实施例1中的步骤S2222，该实施例中的训练模块6223可以用于执行本申请实施例1中的步骤S2223。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，图10是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图10所示，当前种子样本被初始化为由多个语音样本中的至少一个语音样本拼接得到，上一轮种子样本和上一轮剩余语音样本被初始化为空，其中，获取模块62可以包括：重复执行以下模块中的操作，直到确定出目标种子样本：第一子计算模块623，用于分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本；第一判断模块624，用于判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本；确定模块625，用于若差值小于第二预定阈值，则确定当前种子样本为目标种子样本；选择模块626，用于若差值大于或等于第二预定阈值，则将当前种子样本作为上一轮种子样本，从当前剩余语音样本中选择语音样本，将选择出的语音样本拼接成当前种子样本，并将当前剩余语音样本作为上一轮剩余语音样本。

需要说明的是，该实施例中的第一子计算模块623可以用于执行本申请实施例1中的步骤S223，该实施例中的第一判断模块624可以用于执行本申请实施例1中的步骤S224，该实施例中的确定模块625可以用于执行本申请实施例1中的步骤S225，该实施例中的选择模块626可以用于执行本申请实施例1中的步骤S226。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，图11是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图11所示，选择模块626可以包括：排序模块6262，用于将当前剩余语音样本按照余弦距离从小到大的顺序进行排序；第一子选择模块6264，用于从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本，其中，靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。

需要说明的是，该实施例中的排序模块6262可以用于执行本申请实施例1中的步骤S2262，该实施例中的第一子选择模块6264可以用于执行本申请实施例1中的步骤S2264。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，图12是根据本发明实施例的另一种可选的语音数据处理装置的示意图，如图12所示，过滤模块66可以包括：第二判断模块662，用于判断目标剩余语音样本的数量是否大于等于第四预定阈值；第一子过滤模块664，用于在目标剩余语音样本的数量大于等于第四预定阈值时，按照余弦距离从目标剩余语音样本中过滤得到目标语音样本；第二子过滤模块666，用于在目标剩余语音样本的数量小于第四预定阈值时，按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。

需要说明的是，该实施例中的第一子过滤模块664可以用于执行本申请实施例1中的步骤S262，该实施例中的第一子过滤模块664可以用于执行本申请实施例1中的步骤S262，该实施例中的第二子过滤模块666可以用于执行本申请实施例1中的步骤S262。此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

实施例3

根据本发明实施例，还提供了一种用于实施上述语音数据处理方法的服务器或终端。

图13是根据本发明实施例的一种终端的结构框图，如图13所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图13所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的语音数据处理方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音数据处理方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；以及至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

处理器201还用于执行下述步骤：重复执行以下操作，直到确定出目标种子样本：分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本；判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本；若差值小于第二预定阈值，则确定当前种子样本为目标种子样本；若差值大于或等于第二预定阈值，则将当前种子样本作为上一轮种子样本，从当前剩余语音样本中选择语音样本，将选择出的语音样本拼接成当前种子样本，并将当前剩余语音样本作为上一轮剩余语音样本。

处理器201还用于执行下述步骤：将当前剩余语音样本按照余弦距离从小到大的顺序进行排序；从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本，其中，靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。

处理器201还用于执行下述步骤：判断目标剩余语音样本的数量是否大于等于第四预定阈值；在目标剩余语音样本的数量大于等于第四预定阈值时，按照余弦距离从目标剩余语音样本中过滤得到目标语音样本；在目标剩余语音样本的数量小于第四预定阈值时，按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。

处理器201还用于执行下述步骤：分别获取多个语音样本中每个语音样本的语音特征参数；利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量，其中，I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。

处理器201还用于执行下述步骤：分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数；依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；利用高斯超向量训练I-Vector矩阵。

处理器201还用于执行下述步骤：将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；从脉冲编码调制信号中提取语音特征参数；以及对语音特征参数进行能量检测和归一化处理。

采用本发明实施例，提供了一种对语音数据自动清洗的方案。通过获取每个语音样本的I-Vector向量，从中确定目标种子样本；分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值，达到了无需人工参与自动对语音数据进行清洗的目的，进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题，实现了提高对语音数据清洗的效率的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图13所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行语音数据处理方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取多个语音样本中每个语音样本的I-Vector向量，并确定多个语音样本中的目标种子样本；

S2，分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；

S3，至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，其中，目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：重复执行以下操作，直到确定出目标种子样本：分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本；判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本；若差值小于第二预定阈值，则确定当前种子样本为目标种子样本；若差值大于或等于第二预定阈值，则将当前种子样本作为上一轮种子样本，从当前剩余语音样本中选择语音样本，将选择出的语音样本拼接成当前种子样本，并将当前剩余语音样本作为上一轮剩余语音样本。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将当前剩余语音样本按照余弦距离从小到大的顺序进行排序；从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本，其中，靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：判断目标剩余语音样本的数量是否大于等于第四预定阈值；在目标剩余语音样本的数量大于等于第四预定阈值时，按照余弦距离从目标剩余语音样本中过滤得到目标语音样本；在目标剩余语音样本的数量小于第四预定阈值时，按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：分别获取多个语音样本中每个语音样本的语音特征参数；利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量，其中，I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数；依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；利用高斯超向量训练I-Vector矩阵。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；从脉冲编码调制信号中提取语音特征参数；以及对语音特征参数进行能量检测和归一化处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取多个语音样本中每个语音样本的I-Vector向量，并确定所述多个语音样本中的目标种子样本；

分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本；以及

至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本，其中，所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

2.根据权利要求1所述的方法，其特征在于，当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到，上一轮种子样本和上一轮剩余语音样本被初始化为空，其中，确定所述多个语音样本中的目标种子样本包括：重复执行以下操作，直到确定出所述目标种子样本：

分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本；

判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本；

若所述差值小于所述第二预定阈值，则确定所述当前种子样本为所述目标种子样本；

若所述差值大于或等于所述第二预定阈值，则将所述当前种子样本作为所述上一轮种子样本，从所述当前剩余语音样本中选择语音样本，将选择出的所述语音样本拼接成所述当前种子样本，并将所述当前剩余语音样本作为所述上一轮剩余语音样本。

3.根据权利要求2所述的方法，其特征在于，从所述当前剩余语音样本中选择语音样本包括：

将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序；

从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本，其中，所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。

4.根据权利要求1所述的方法，其特征在于，至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本包括：

判断所述目标剩余语音样本的数量是否大于等于第四预定阈值；

在所述目标剩余语音样本的数量大于等于所述第四预定阈值时，按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本；

在所述目标剩余语音样本的数量小于所述第四预定阈值时，按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。

5.根据权利要求1所述的方法，其特征在于，获取多个语音样本中每个语音样本的I-Vector向量包括：

分别获取所述多个语音样本中每个语音样本的语音特征参数；

利用预先训练完成的I-Vector矩阵获取所述每个语音样本的I-Vector向量，其中，所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。

6.根据权利要求5所述的方法，其特征在于，所述I-Vector矩阵通过以下步骤训练得到：

分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数；

依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；

利用所述高斯超向量训练所述I-Vector矩阵。

7.根据权利要求5或6所述的方法，其特征在于，获取语音样本的语音特征参数包括：

将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；

从所述脉冲编码调制信号中提取语音特征参数；以及

对所述语音特征参数进行能量检测和归一化处理。

8.一种语音数据处理装置，其特征在于，包括：

获取模块，用于获取多个语音样本中每个语音样本的I-Vector向量，并确定所述多个语音样本中的目标种子样本；

计算模块，用于分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本；以及

过滤模块，用于至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本，其中，所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。

9.根据权利要求8所述的装置，其特征在于，当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到，上一轮种子样本和上一轮剩余语音样本被初始化为空，其中，所述获取模块包括：重复执行模块，用于重复执行以下模块中的操作，直到确定出所述目标种子样本：

第一子计算模块，用于分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本；

第一判断模块，用于判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本；

确定模块，用于若所述差值小于所述第二预定阈值，则确定所述当前种子样本为所述目标种子样本；

选择模块，用于若所述差值大于或等于所述第二预定阈值，则将所述当前种子样本作为所述上一轮种子样本，从所述当前剩余语音样本中选择语音样本，将选择出的所述语音样本拼接成所述当前种子样本，并将所述当前剩余语音样本作为所述上一轮剩余语音样本。

10.根据权利要求9所述的装置，其特征在于，所述选择模块包括：

排序模块，用于将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序；

第一子选择模块，用于从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本，其中，所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。

11.根据权利要求8所述的装置，其特征在于，所述过滤模块包括：

第二判断模块，用于判断所述目标剩余语音样本的数量是否大于等于第四预定阈值；

第一子过滤模块，用于在所述目标剩余语音样本的数量大于等于所述第四预定阈值时，按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本；

第二子过滤模块，用于在所述目标剩余语音样本的数量小于所述第四预定阈值时，按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。

12.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

第一子获取模块，用于分别获取所述多个语音样本中每个语音样本的语音特征参数；

第二子获取模块，用于利用预先训练完成的I-Vector矩阵获取所述每个语音样本的I-Vector向量，其中，所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。

13.根据权利要求12所述的装置，其特征在于，所述I-Vector矩阵通过以下模块训练得到：

第三子获取模块，用于分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数；

第一提取模块，用于依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；

训练模块，用于利用所述高斯超向量训练所述I-Vector矩阵。

14.根据权利要求12或13所述的装置，其特征在于，所述第一子获取模块包括：

采样模块，用于将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；

第二提取模块，用于提取从所述脉冲编码调制信号中提取语音特征参数；以及

处理模块，用于对所述语音特征参数进行能量检测和归一化处理。