CN105869645A - 语音数据处理方法和装置 - Google Patents
语音数据处理方法和装置 Download PDFInfo
- Publication number
- CN105869645A CN105869645A CN201610178300.8A CN201610178300A CN105869645A CN 105869645 A CN105869645 A CN 105869645A CN 201610178300 A CN201610178300 A CN 201610178300A CN 105869645 A CN105869645 A CN 105869645A
- Authority
- CN
- China
- Prior art keywords
- speech samples
- vector
- speech
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Abstract
本发明公开了一种语音数据处理方法和装置。该方法包括:获取多个语音样本中每个语音样本的I‑Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,目标语音样本的I‑Vector向量与目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。本发明解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种语音数据处理方法和装置。
背景技术
在人工智能的各个领域,数据是至关重要的,很多时候数据的质量起着决定性的作用。而实际情况中的数据质量多是参差不齐的,需要近一步对其进行处理。数据处理一般是指去除数据中的“噪声”,保留需要的真正数据。在声纹识别领域,通过互联网获取到的特定人的声纹语音样本多数情况下都是不纯的,除了包含非人声等噪声之外,往往还可能包含有其他人的说话语音。如何将噪声和其他人声清洗掉,只保留该特定人的声纹语音样本,是当今面临的主要问题。
目前,为了从包含有噪声和其他人声纹的语音数据中获取特定人的声纹语音样本,通常采用人工标注方法,人工辨识一段包含特定人的声纹、其他人声纹以及噪声的语音数据中具体哪段语音样本属于特定人的声纹,并将包含噪声和其他人声纹的语音样本手工剪掉。这种人工标注方法对语音数据进行清洗费时费力,且效率低下。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音数据处理方法和装置,以至少解决相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
根据本发明实施例的一个方面,提供了一种语音数据处理方法,包括:获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;以及至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
根据本发明实施例的另一方面,还提供了一种语音数据处理装置,包括:获取模块,用于获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;计算模块,用于分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;以及过滤模块,用于至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
在本发明实施例中,利用I-Vector声纹识别技术采用自动聚类的方式对语音数据进行清洗,通过获取每个语音样本的I-Vector向量,从中确定目标种子样本;分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值,达到了无需人工参与自动对语音数据进行清洗的目的,从而实现了提高对语音数据清洗的效率的技术效果,进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语音数据处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的语音数据处理方法的流程图;
图3是根据本发明实施例的I-Vector向量的获取过程的示意图;
图4是根据本发明实施例的从多个目标语音样本中确定目标种子样本的流程图;
图5是根据本发明实施例的一种优选的语音数据处理方法的流程图;
图6是根据本发明实施例的一种可选的语音数据处理装置的示意图;
图7是根据本发明实施例的一种可选的语音数据处理装置的示意图;
图8是根据本发明实施例的另一种可选的语音数据处理装置的示意图;
图9是根据本发明实施例的另一种可选的语音数据处理装置的示意图;
图10是根据本发明实施例的另一种可选的语音数据处理装置的示意图;
图11是根据本发明实施例的另一种可选的语音数据处理装置的示意图;
图12是根据本发明实施例的另一种可选的语音数据处理装置的示意图;以及
图13是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
I-Vector声纹识别技术,也成身份因子识别技术,它不尝试去强制分开说话人空间和信道空间,而是直接设置一个全局变化空间(TotalVariability Space),它包含了语音数据中所有可能的信息。然后通过因子分析的方法,得到全局变化空间的载荷因子,这个就叫做I-Vector声纹识别技术。其维度远远低于高斯超向量。在这个因子上,用一个简单的区分说话人之间的方法,就是让不同说话人之间的距离变大,而同一个说话人受噪声影响的各个语句之间的距离变小。显然的,这就是现行鉴别分析方法的目标,将说话人之间的差异,视为类间矩阵,将噪声带来的差异,视为类内矩阵,然后应用概率化的现行鉴别分析方法估计得到I-vector矩阵,在这个I-vector矩阵上映射出来的就是反应说话人身份的信息向量的I-vector向量。
实施例1
根据本发明实施例,提供了一种语音数据处理方法的方法实施例。
可选地,在本实施例中,上述语音数据处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的语音数据处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的语音数据处理方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种可选的语音数据处理方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S22,获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;
步骤S24,分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;
步骤S26,至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
通过上述步骤S22至步骤S26,通过获取每个语音样本的I-Vector向量,从中确定目标种子样本;分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值,达到了无需人工参与自动对语音数据进行清洗的目的,进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题,实现了提高对语音数据清洗的效率的技术效果。
需要说明的是,对于一个语音数据中的任意一个语音样本,经过处理后均能得到一个该语音样本的I-Vector向量,其中,I-Vector向量为I-Vector矩阵中用于反映说话人身份的信息向量,各个语音样本之间的差异可以通过计算两个语音样本的I-Vector向量之间的余弦距离来表征,两者之间的余弦距离越接近1,则说明两者越接近,反之说明两者差异越大。对于同一个特定人的语音样本,每个语音样本的I-Vector向量之间的余弦距离应该接近1,差异很小。因此,本发明实施例采用基于语音样本的I-Vector向量之间的余弦距离来对各个语音样本进行聚类,以达到对语音数据进行清洗的目的。
为了便于理解如何利用本发明实施例的语音数据处理方法对语音数据进行清洗,此处首先对步骤S22提供的技术方案中如何获取多个语音样本中每个语音样本的I-Vector向量进行详细介绍,具体如下:
作为一种可选的实施例,步骤S22获取多个语音样本中每个语音样本的I-Vector向量可以包括以下步骤:
步骤S221,分别获取多个语音样本中每个语音样本的语音特征参数。
需要说明的是,一个语音数据中可以包括多个语音样本,每个语音样本可能对应特定人声纹、其他人声纹或者噪声,其中,特定人声纹、其他人声纹或者噪声的语音样本的语音特征参数均不相同,该语音特征参数可以用于表征该语音样本的声纹信息。可选地,该语音特征参数可以包括但不仅限于所包含的声纹类型以及每种类型声纹的频率和强度等信息。
作为一种可选的实施例,步骤S221可以包括以下步骤:
步骤S2211,将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号。
步骤S2212,从脉冲编码调制信号中提取语音特征参数。
步骤S2213,对语音特征参数进行能量检测和归一化处理。
需要说明的是,此处的第一采样率和第二采样率可以依据实际需求进行设定和调整,且第一采样率和第二采样率不同,该可选实施例并不对此做具体限定。该可选实施例通过将语音样本处理成采样率不同的脉冲编码调制信号并从该脉冲编码调制信号中提取用于标识该语音样本声纹信息的语音特征参数,可以达到提高提取到的语音特征参数的精确度的效果。在提取到语音特征参数之后通过对其进行能量检测和归一化处理,能够达到提高语音特征参数稳定性和准确性的效果。需要说明的是,从脉冲编码调制信号中提取的语音特征参数可以为对从脉冲编码调制信号中提取的MFCC特征取其一阶和二阶统计量拼接而成的特征。还需要说明的是,为了提高提取到的语音特征参数的稳定性和准确性,该可选实施例还可以对提取到的语音特征参数进行语音活性检测等,此处不再一一举例说明。
在实际应用场景中,该可选实施例可以利用ffmpeg软件将每个语音样本处理成采样率分别为8K和16bit的脉冲编码调制PCM文件,具体操作命令为:ffmpeg–y-loglevel quiet-i原始语音文件–acodec pam_s161e-ar 8000-ac 1目标语音文件名.pcm。然后从中提取MFCC特征,具体可以取帧长为20ms,两帧间10ms重叠,使用matlab的viocebox工具包或者HTK语音识别包等工具提取MFCC特征,一般取前20维。然后取这20维的MFCC特征的一阶和二阶统计量拼接起来作为该语音样本的语音特征参数。针对提取到的MFCC特征可以对其进行能量检测、语音活性检测和归一化处理。
步骤S222,利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量,其中,I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。
需要说明的是,在获取每个语音样本的语音特征参数之后,可以利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量。需要说明的是,I-Vector矩阵可以用于指示语音样本的语音特征参数对应的I-Vector向量。
作为一种可选的实施例,I-Vector矩阵可以通过以下步骤训练得到,具体如下:
步骤S2221,分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数。
需要说明的是,此处的获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数可以由步骤S2211至步骤S2213得到,此处不再对其进行详细描述。在实际应用场景中可以选取100个小时以上的语音数据作为I-Vector矩阵的训练数据,可以利用步骤S2211至步骤S2213分别获取每个语音样本的语音特征参数。
步骤S2222,依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型。
需要说明的是,高斯混合模型,也即GMM模型可以利用多个用于训练GMM模型的语音样本中每个语音样本的语音特征参数训练得到。在实际训练GMM模型时,可以随机选取50个小时左右的语音数据作为背景模型的训练数据。按照步骤S2211至步骤S2213获取上述语音数据中各个语音样本的语音特征参数之后,利用得到的语音特征参数训练GMM模型,其中,一般制定512个以上的组件。此处需要说明的是,统一背景模型(也即UBM模型)其实是一个大型的GMM模型,用来训练表示与说话人无关的特征分别。该UBM模型的训练数据是尽量包含各种信道下的所有人的语音数据,训练UBM模型也就是训练GMM模型,所采用的算法可以是EM算法,当EM算法不收敛时,即可以认为训练结束。
在获取到多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数之后,可以利用预先训练完成的GMM模型从中提取高斯超向量,高斯超向量也即各个GMM模型的均值拼接后形成的超高维度向量。
步骤S2223,利用高斯超向量训练I-Vector矩阵。
需要说明的是,I-Vector技术是基于单一空间的跨信道算法,它不区分说话人空间的信息和信道空间信息。对于任何一句单独的语音样本,都可以分解为背景模型m0和反映每个说话人特征的Tws,高斯超向量GSV可表示如下Ms=m0+Tws,其中,Ms是C*F维的高斯超向量GSV;m0是与说话者无关且信道无关的C*F维超向量,由UBM模型的均值向量拼接而成;ws即总变化因子I-Vector,维数为N,是一组服从标准正态分布的随机向量;T是总变化空间矩阵,维数为CF*N。在对I-Vector训练阶段,根据大量语音数据训练集,利用因子分析算法,从中估计出总变化空间矩阵T;在得到总变化空间后,将高维的高斯超向量GSV在矩阵T所表示的总变化子空间中进行投影,最终得到低维的总体变化因子,即为I-Vector向量。
图3是根据本发明实施例的I-Vector向量的获取过程的示意图,如图3所示,图3只列举了两个语音样本的I-Vector向量的获取过程,应当理解对于多个语音样本中的其他语音样本也可以通过图3所示的获取过程得到其I-Vector向量。如图3所示,首先从语音样本中提取MFCC特征;然后利用预先训练完成的UBM模型从中提取高斯超向量GSV;然后利用预先训练得到的总变化空间矩阵T,也即I-Vector矩阵获取I-Vector向量,最后利用预先训练完成的线性鉴别模块PLDA模型依据获取到的I-Vector向量对语音样本进行过滤。
在步骤S22提供的技术方案中,获取到多个语音样本中每个语音样本的I-Vector向量之后,本发明实施例还需要从多个语音样本中确定目标种子样本,其中,目标种子样本可以有多个语音样本中的至少一个语音样本拼接而成,多个语音样本中拼接成目标种子样本所需的至少一个语音样本的个数可以依据目标种子样本实际需求的音频时长进行调整。
作为一种可选的实施例,从多个语音样本中确定目标种子样本可以由以下的迭代过程确定。需要说明的是,该迭代过程的初始化可以包括:当前种子样本被初始化为由多个语音样本中的至少一个语音样本拼接得到,上一轮种子样本和上一轮剩余语音样本被初始化为空。图4是根据本发明实施例的从多个目标语音样本中确定目标种子样本的流程图,如图4所示,确定多个语音样本中的目标种子样本可以包括:重复执行以下操作,直到确定出目标种子样本:
步骤S223,分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本。
需要说明的是,两个向量之间的余弦距离可以通过以下欧几里得点积公式推到:
a·b=|a||b|cosθ
当给定两个I-Vector向量A和B时,其余弦相似性θ由点积和向量长度给出,如下式所示:
其中,Ai和Bi分别代表向量A和B的各个分量。有上式可知,相似性范围从-1至1,其中,-1代表两个向量指向的方向正好相反,1代表两个向量指向相同,0代表两个向量之间是独立的,在-1至1之间的值则代表两个向量之间的相似性或相异性。
需要说明的是,多个语音样本中除当前种子样本外的当前剩余语音样本的个数可以为多个,则当前种子样本的I-Vector向量和当前剩余语音样本的I-Vector向量之间的余弦距离也为多个,当前剩余语音样本中的每个语音样本的I-Vector向量与当前种子样本的I-Vector向量之间的余弦距离可以由上述公式计算得到。
步骤S224,判断第一平均值与第二平均值之间的差值是否小于第二预定阈值。
第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本。需要说明的是,上一轮种子样本的I-Vector向量与上一轮剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离也可以按照上述公式计算得到。该可选实施例每确定一次种子样本就会计算一次该种子样本的I-Vector向量与剩余语音样本的I-Vector向量之间的余弦距离的平均值。从初始化开始,每计算两次平均值之后,该可选实施例就会比较前后两次计算得到的平均值的差值是否小于第二预定阈值。需要说明的是,第二预定阈值可以依据实际需求设定或调整。
在判断第一平均值和第二平均值的差值小于第二预定阈值时,该可选实施例执行步骤S225,否则执行步骤S226。
步骤S225,若差值小于第二预定阈值,则确定当前种子样本为目标种子样本。
当第一平均值和第二平均值的差值小于第二预定阈值时,迭代过程终止,确定当前种子样本即为目标种子样本。在确定目标种子样本之后,即可利用该目标种子样本执行步骤S24和步骤S26,以达到按照余弦距离过滤语音样本,进而实现对语音数据进行清洗的目的。
步骤S226,若差值大于或等于第二预定阈值,则将当前种子样本作为上一轮种子样本,从当前剩余语音样本中选择语音样本,将选择出的语音样本拼接成当前种子样本,并将当前剩余语音样本作为上一轮剩余语音样本,返回执行步骤S223。
当第一平均值和第二平均值的差值大于或等于第二预定阈值时,说明迭需要继续迭代,则将当前种子样本作为上一轮种子样本,从当前剩余语音样本中选择语音样本并将选择出的语音样本拼接成当前种子样本,将当前剩余语音样本作为上一轮剩余语音样本,继续返回执行步骤S223,继续下次迭代过程,直至确定前后两次计算得到的余弦距离的平均值的差值小于第二预定阈值时结束该迭代过程。
上述步骤通过迭代过程从多个语音样本中确定目标种子样本,在迭代过程中按照I-Vector向量之间的余弦距离进行聚类,能够实现对多个语音样本进行差异性聚类的目的。
作为一种可选的实施例,步骤S226中从当前剩余语音样本中选择语音样本可以包括以下步骤:
步骤S2262,将当前剩余语音样本按照余弦距离从小到大的顺序进行排序。
步骤S2264,从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本,其中,靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。
需要说明的是,在计算得到当前种子样本的I-Vector向量与当前剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离后,且在不满足迭代过程终止的条件时,该可选实施例需要重新确定当前种子样本,在确定当前种子样本时,可以首先对这些余弦距离按照由小到大的顺序进行排序,排序的目的是为了方便快速地确定余弦距离较小的至少一个语音样本,以便于将这些余弦距离较小的语音样本拼接成当前种子样本。
还需要说明的是,在将余弦距离较小的至少一个语音样本拼接成当前种子样本时,需要考虑依据实际需求确定的种子样本的音频时长,并按照该音频时长确定拼接成当前种子样本所需的语音样本的个数。此处当前种子样本的音频时长的参考值为第三预定阈值,其中,第三预定阈值可以依据实际需求进行设定或调整,此处不做具体限定。
在步骤S24提供的技术方案中,在确定目标种子样本之后,多个语音样本中除目标种子样本之外的语音样本为目标剩余语音样本,其中,目标剩余语音样本的个数可以是一个,也可以是多个。需要说明的是,目标种子样本的I-Vector向量与目标剩余语音样本中每个语音样本的I-Vector向量之间的余弦距离的计算方法与上述步骤S223介绍的方法相同,此处不再赘述。当目标剩余语音样本的个数为多个时,计算得到的目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离也为多个,这些余弦距离均在-1至1范围内,且其中有可能存在至少两个相同的余弦距离。
在步骤S26提供的技术方案中,可以按照步骤S24计算得到的余弦距离获取目标语音样本,其中,目标语音样本是从多个语音样本或目标剩余语音样本中过滤得到的语音样本。需要说明的是,对多个语音样本或目标剩余语音样本进行过滤所依据的条件为目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值,其中,第一预定阈值可以依据实际需求进行设定或调整,此处不做具体限定。依据过滤条件从多个语音样本或目标剩余语音样本进行过滤得到的目标语音样本的个数可以是一个,也可以是多个。
在实际应用场景中,通过上述步骤得到的目标语音样本即为对包含特定人声纹、其他人声纹以及噪声的语音数据进行清洗,获取到的特定人声纹的语音样本。通过上述步骤,能够解决相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题,进而达到提高对语音数据清洗的效率的技术效果。
作为一种可选的实施例,步骤S26至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本可以包括以下步骤:
步骤S262,判断目标剩余语音样本的数量是否大于等于第四预定阈值。
步骤S264,在目标剩余语音样本的数量大于等于第四预定阈值时,按照余弦距离从目标剩余语音样本中过滤得到目标语音样本。
步骤S266,在目标剩余语音样本的数量小于第四预定阈值时,按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。
需要说明的是,步骤S26得到的目标语音样本可以从多个语音样本中过滤得到,也可以从目标剩余语音样本中过滤得到。该可选实施例以目标剩余语音样本的数量作为依据确定是从多个语音样本中过滤,还是从目标剩余语音样本中过滤。具体地,当目标剩余语音样本的数量大于等于第四预定阈值时,该可选实施例可以按照目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离从目标剩余语音样本中过滤得到目标语音样本,从目标剩余语音样本中选择余弦距离高于第一预定阈值的语音样本作为目标语音样本。当目标剩余语音样本的数量小于第四预定阈值时,该可选实施例可以按照目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本,此处需要同时考虑目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离,从多个语音样本中选择余弦距离高于第一预定阈值的语音样本作为目标语音样本。
该可选实施例依据目标剩余语音样本的数量确定是从多个语音样本中过滤得到目标语音样本,还是从目标剩余语音样本中过滤得到目标语音样本,能够保证在目标剩余语音样本较少时亦能准确地过滤得到目标语音样本,达到了提高对语音数据进行清洗后得到的所需的语音样本的精确到的效果。
本发明还提供了一种优选实施例,图5是根据本发明实施例的一种优选的语音数据处理方法的流程图,如图5所示,该优选实施例可以包括以下步骤:
步骤S51,从多个语音样本中随机选取一定量的语音样本作为种子样本,并获取种子样本和剩余语音样本的I-Vector向量。
步骤S52,依次计算各个语音样本的I-Vector向量与种子样本的I-Vector向量之间的余弦距离。
步骤S53,判断是否收敛,即判断当前种子样本I-Vector向量与当前剩余语音样本I-Vector向量之间的余弦距离的平均值是否与上一轮计算得到的余弦距离的平均值的差值是否小于一定阈值,如果是,则执行步骤S54,否则执行步骤S55。
步骤S54,按一定距离阈值选取余弦距离大于等于该距离阈值的语音样本作为语音数据清洗后的结果,将余弦距离小于该距离阈值认为是噪声或者其他人声纹,并对其进行过滤掉。至此,对语音数据的清洗结束。
步骤S55,选取与种子样本的I-Vector向量的余弦距离较近的语音样本作为下一轮迭代的种子样本,返回执行步骤S52。
举例说明:
假如目标文件夹下面共有100个语音样本,其中有60个是A人的,剩下为其他人的样本或者各类噪声。随机从这100个语音样本中,选取5分钟的音频数据,首次选取的时候,尽量选取时长较短的文件,尽量包含较多的语音样本。根据概率分布,这样被选取的语音样本中属于A的样本占多数。将选取的语音样本拼接起来,如果超过5分钟,使用ffmpeg截取5分钟的数据作为种子样本,对种子样本提取I-Vector向量作为种子样本的特征。
假如本轮选取了10个语音样本作为种子样本,则对剩下的90个语音样本分别提取I-Vector向量,然后与种子样本的I-Vector向量计算之间的余弦距离,再对90个语音样本的余弦距离取平均值记为score_itN,N为迭代的轮数。
如果score_itN-score_it(N-1)的绝对值小于阈值(该阈值一般经统计得到),停止迭代,转下一步;否则选取得分最高即与种子样本的余弦距离较近的语音样本,拼接成5分钟的音频作为下一轮迭代的种子样本,然后进行下一步迭代。
按一定距离阈值Th(该距离阈值Th也由经验得到)只选取距离大于Th的语音样本作为语音数据清洗后的结果,低于Th的语音样本可认为是噪声或者非本人,至此自动清洗结束。
在本发明实施例的语音数据处理方法中,语音数据自动清洗所采用的就是基于I-Vector向量余弦距离的自动聚类方法,只不过,在具体实施的过程中,不关注最终会聚出几个类别,而只关注包含样本最多的某一特定类,其他包含样本较少的类别,可以认为是噪声或者不是本人的样本而丢弃。本发明可以大量减小人力成本,同时也为海量高质量语音数据的产生提供了可能。本发明最终以样本间余弦距离的方式提供结果,具备一定的灵活性,可根据实际需要,灵活选取最终的过滤距离阈值,在样本质量和数量之间做权衡。本发明除了在训练UBM-GMM模型和I-Vector矩阵时比较费时外,其他步骤计算速度均非常迅速,而UBM-GMM模型和I-Vector矩阵只需要训练一次。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述语音数据处理方法的语音数据处理装置。图6是根据本发明实施例的一种可选的语音数据处理装置的示意图,如图6所示,该装置可以包括:
获取模块62,用于获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;计算模块64,用于分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;以及过滤模块66,用于至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
需要说明的是,该实施例中的获取模块62可以用于执行本申请实施例1中的步骤S22,该实施例中的计算模块64可以用于执行本申请实施例1中的步骤S24,该实施例中的过滤模块66可以用于执行本申请实施例1中的步骤S26。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,可以解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题,进而达到提高对语音数据清洗的效率的技术效果。
作为一种可选的实施例,图7是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图7所示,获取模块62可以包括:第一子获取模块621,用于分别获取多个语音样本中每个语音样本的语音特征参数;第二子获取模块622,用于利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量,其中,I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。
需要说明的是,该实施例中的第一子获取模块621可以用于执行本申请实施例1中的步骤S221,该实施例中的第二子获取模块622可以用于执行本申请实施例1中的步骤S222。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,图8是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图8所示,第一子获取模块621可以包括:采样模块6211,用于将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;第二提取模块6212,用于提取从脉冲编码调制信号中提取语音特征参数;以及处理模块6213,用于对语音特征参数进行能量检测和归一化处理。
需要说明的是,该实施例中的采样模块6211可以用于执行本申请实施例1中的步骤S2211,该实施例中的第二提取模块6212可以用于执行本申请实施例1中的步骤S2212,该实施例中的处理模块6213可以用于执行本申请实施例1中的步骤S2213。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,图9是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图9所示,I-Vector矩阵通过以下模块训练得到:第三子获取模块6221,用于分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数;第一提取模块6222,用于依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;训练模块6223,用于利用高斯超向量训练I-Vector矩阵。
需要说明的是,该实施例中的第三子获取模块6221可以用于执行本申请实施例1中的步骤S2221,该实施例中的第一提取模块6222可以用于执行本申请实施例1中的步骤S2222,该实施例中的训练模块6223可以用于执行本申请实施例1中的步骤S2223。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,图10是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图10所示,当前种子样本被初始化为由多个语音样本中的至少一个语音样本拼接得到,上一轮种子样本和上一轮剩余语音样本被初始化为空,其中,获取模块62可以包括:重复执行以下模块中的操作,直到确定出目标种子样本:第一子计算模块623,用于分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本;第一判断模块624,用于判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本;确定模块625,用于若差值小于第二预定阈值,则确定当前种子样本为目标种子样本;选择模块626,用于若差值大于或等于第二预定阈值,则将当前种子样本作为上一轮种子样本,从当前剩余语音样本中选择语音样本,将选择出的语音样本拼接成当前种子样本,并将当前剩余语音样本作为上一轮剩余语音样本。
需要说明的是,该实施例中的第一子计算模块623可以用于执行本申请实施例1中的步骤S223,该实施例中的第一判断模块624可以用于执行本申请实施例1中的步骤S224,该实施例中的确定模块625可以用于执行本申请实施例1中的步骤S225,该实施例中的选择模块626可以用于执行本申请实施例1中的步骤S226。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,图11是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图11所示,选择模块626可以包括:排序模块6262,用于将当前剩余语音样本按照余弦距离从小到大的顺序进行排序;第一子选择模块6264,用于从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本,其中,靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。
需要说明的是,该实施例中的排序模块6262可以用于执行本申请实施例1中的步骤S2262,该实施例中的第一子选择模块6264可以用于执行本申请实施例1中的步骤S2264。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,图12是根据本发明实施例的另一种可选的语音数据处理装置的示意图,如图12所示,过滤模块66可以包括:第二判断模块662,用于判断目标剩余语音样本的数量是否大于等于第四预定阈值;第一子过滤模块664,用于在目标剩余语音样本的数量大于等于第四预定阈值时,按照余弦距离从目标剩余语音样本中过滤得到目标语音样本;第二子过滤模块666,用于在目标剩余语音样本的数量小于第四预定阈值时,按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。
需要说明的是,该实施例中的第一子过滤模块664可以用于执行本申请实施例1中的步骤S262,该实施例中的第一子过滤模块664可以用于执行本申请实施例1中的步骤S262,该实施例中的第二子过滤模块666可以用于执行本申请实施例1中的步骤S262。此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
实施例3
根据本发明实施例,还提供了一种用于实施上述语音数据处理方法的服务器或终端。
图13是根据本发明实施例的一种终端的结构框图,如图13所示,该终端可以包括:一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置),如图13所示,该终端还可以包括输入输出设备207。
其中,存储器203可用于存储软件程序以及模块,如本发明实施例中的语音数据处理方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音数据处理方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置205用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器203用于存储应用程序。
处理器201可以通过传输装置205调用存储器203存储的应用程序,以执行下述步骤:获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;以及至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
处理器201还用于执行下述步骤:重复执行以下操作,直到确定出目标种子样本:分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本;判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本;若差值小于第二预定阈值,则确定当前种子样本为目标种子样本;若差值大于或等于第二预定阈值,则将当前种子样本作为上一轮种子样本,从当前剩余语音样本中选择语音样本,将选择出的语音样本拼接成当前种子样本,并将当前剩余语音样本作为上一轮剩余语音样本。
处理器201还用于执行下述步骤:将当前剩余语音样本按照余弦距离从小到大的顺序进行排序;从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本,其中,靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。
处理器201还用于执行下述步骤:判断目标剩余语音样本的数量是否大于等于第四预定阈值;在目标剩余语音样本的数量大于等于第四预定阈值时,按照余弦距离从目标剩余语音样本中过滤得到目标语音样本;在目标剩余语音样本的数量小于第四预定阈值时,按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。
处理器201还用于执行下述步骤:分别获取多个语音样本中每个语音样本的语音特征参数;利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量,其中,I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。
处理器201还用于执行下述步骤:分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数;依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;利用高斯超向量训练I-Vector矩阵。
处理器201还用于执行下述步骤:将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;从脉冲编码调制信号中提取语音特征参数;以及对语音特征参数进行能量检测和归一化处理。
采用本发明实施例,提供了一种对语音数据自动清洗的方案。通过获取每个语音样本的I-Vector向量,从中确定目标种子样本;分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值,达到了无需人工参与自动对语音数据进行清洗的目的,进而解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题,实现了提高对语音数据清洗的效率的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图13所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图13所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行语音数据处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取多个语音样本中每个语音样本的I-Vector向量,并确定多个语音样本中的目标种子样本;
S2,分别计算目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;
S3,至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,其中,目标语音样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:重复执行以下操作,直到确定出目标种子样本:分别计算当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,当前剩余语音样本为多个语音样本中除当前种子样本之外的语音样本;判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,第一平均值为当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,第二平均值为上一轮种子样本的I-Vector向量与上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,上一轮剩余语音样本为多个语音样本中除上一轮种子样本之外的语音样本;若差值小于第二预定阈值,则确定当前种子样本为目标种子样本;若差值大于或等于第二预定阈值,则将当前种子样本作为上一轮种子样本,从当前剩余语音样本中选择语音样本,将选择出的语音样本拼接成当前种子样本,并将当前剩余语音样本作为上一轮剩余语音样本。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将当前剩余语音样本按照余弦距离从小到大的顺序进行排序;从排序后的当前剩余语音样本中选择靠前的一个或多个语音样本,其中,靠前的一个或多个语音样本拼接成的当前种子样本的音频时长为第三预定阈值。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:判断目标剩余语音样本的数量是否大于等于第四预定阈值;在目标剩余语音样本的数量大于等于第四预定阈值时,按照余弦距离从目标剩余语音样本中过滤得到目标语音样本;在目标剩余语音样本的数量小于第四预定阈值时,按照余弦距离以及目标种子样本的I-Vector向量与目标种子样本的I-Vector向量之间的余弦距离从多个语音样本中过滤得到目标语音样本。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:分别获取多个语音样本中每个语音样本的语音特征参数;利用预先训练完成的I-Vector矩阵获取每个语音样本的I-Vector向量,其中,I-Vector矩阵用于指示语音样本的语音特征参数对应的I-Vector向量。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:分别获取多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数;依据多个用于训练I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型为利用多个用于训练高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;利用高斯超向量训练I-Vector矩阵。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;从脉冲编码调制信号中提取语音特征参数;以及对语音特征参数进行能量检测和归一化处理。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种语音数据处理方法,其特征在于,包括:
获取多个语音样本中每个语音样本的I-Vector向量,并确定所述多个语音样本中的目标种子样本;
分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本;以及
至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本,其中,所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
2.根据权利要求1所述的方法,其特征在于,当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到,上一轮种子样本和上一轮剩余语音样本被初始化为空,其中,确定所述多个语音样本中的目标种子样本包括:重复执行以下操作,直到确定出所述目标种子样本:
分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本;
判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本;
若所述差值小于所述第二预定阈值,则确定所述当前种子样本为所述目标种子样本;
若所述差值大于或等于所述第二预定阈值,则将所述当前种子样本作为所述上一轮种子样本,从所述当前剩余语音样本中选择语音样本,将选择出的所述语音样本拼接成所述当前种子样本,并将所述当前剩余语音样本作为所述上一轮剩余语音样本。
3.根据权利要求2所述的方法,其特征在于,从所述当前剩余语音样本中选择语音样本包括:
将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序;
从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本,其中,所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。
4.根据权利要求1所述的方法,其特征在于,至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本包括:
判断所述目标剩余语音样本的数量是否大于等于第四预定阈值;
在所述目标剩余语音样本的数量大于等于所述第四预定阈值时,按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本;
在所述目标剩余语音样本的数量小于所述第四预定阈值时,按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。
5.根据权利要求1所述的方法,其特征在于,获取多个语音样本中每个语音样本的I-Vector向量包括:
分别获取所述多个语音样本中每个语音样本的语音特征参数;
利用预先训练完成的I-Vector矩阵获取所述每个语音样本的I-Vector向量,其中,所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。
6.根据权利要求5所述的方法,其特征在于,所述I-Vector矩阵通过以下步骤训练得到:
分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数;
依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;
利用所述高斯超向量训练所述I-Vector矩阵。
7.根据权利要求5或6所述的方法,其特征在于,获取语音样本的语音特征参数包括:
将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;
从所述脉冲编码调制信号中提取语音特征参数;以及
对所述语音特征参数进行能量检测和归一化处理。
8.一种语音数据处理装置,其特征在于,包括:
获取模块,用于获取多个语音样本中每个语音样本的I-Vector向量,并确定所述多个语音样本中的目标种子样本;
计算模块,用于分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本;以及
过滤模块,用于至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本,其中,所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。
9.根据权利要求8所述的装置,其特征在于,当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到,上一轮种子样本和上一轮剩余语音样本被初始化为空,其中,所述获取模块包括:重复执行模块,用于重复执行以下模块中的操作,直到确定出所述目标种子样本:
第一子计算模块,用于分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本;
第一判断模块,用于判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本;
确定模块,用于若所述差值小于所述第二预定阈值,则确定所述当前种子样本为所述目标种子样本;
选择模块,用于若所述差值大于或等于所述第二预定阈值,则将所述当前种子样本作为所述上一轮种子样本,从所述当前剩余语音样本中选择语音样本,将选择出的所述语音样本拼接成所述当前种子样本,并将所述当前剩余语音样本作为所述上一轮剩余语音样本。
10.根据权利要求9所述的装置,其特征在于,所述选择模块包括:
排序模块,用于将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序;
第一子选择模块,用于从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本,其中,所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。
11.根据权利要求8所述的装置,其特征在于,所述过滤模块包括:
第二判断模块,用于判断所述目标剩余语音样本的数量是否大于等于第四预定阈值;
第一子过滤模块,用于在所述目标剩余语音样本的数量大于等于所述第四预定阈值时,按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本;
第二子过滤模块,用于在所述目标剩余语音样本的数量小于所述第四预定阈值时,按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。
12.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
第一子获取模块,用于分别获取所述多个语音样本中每个语音样本的语音特征参数;
第二子获取模块,用于利用预先训练完成的I-Vector矩阵获取所述每个语音样本的I-Vector向量,其中,所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。
13.根据权利要求12所述的装置,其特征在于,所述I-Vector矩阵通过以下模块训练得到:
第三子获取模块,用于分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数;
第一提取模块,用于依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;
训练模块,用于利用所述高斯超向量训练所述I-Vector矩阵。
14.根据权利要求12或13所述的装置,其特征在于,所述第一子获取模块包括:
采样模块,用于将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;
第二提取模块,用于提取从所述脉冲编码调制信号中提取语音特征参数;以及
处理模块,用于对所述语音特征参数进行能量检测和归一化处理。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610178300.8A CN105869645B (zh) | 2016-03-25 | 2016-03-25 | 语音数据处理方法和装置 |
US15/764,573 US10692503B2 (en) | 2016-03-25 | 2017-03-03 | Voice data processing method, apparatus and storage medium |
EP17769294.4A EP3435374B1 (en) | 2016-03-25 | 2017-03-03 | Method and device for voice data processing and storage medium |
PCT/CN2017/075522 WO2017162017A1 (zh) | 2016-03-25 | 2017-03-03 | 语音数据处理方法、装置和存储介质 |
JP2018552112A JP6668501B2 (ja) | 2016-03-25 | 2017-03-03 | 音声データ処理方法、装置及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610178300.8A CN105869645B (zh) | 2016-03-25 | 2016-03-25 | 语音数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869645A true CN105869645A (zh) | 2016-08-17 |
CN105869645B CN105869645B (zh) | 2019-04-12 |
Family
ID=56625955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610178300.8A Active CN105869645B (zh) | 2016-03-25 | 2016-03-25 | 语音数据处理方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10692503B2 (zh) |
EP (1) | EP3435374B1 (zh) |
JP (1) | JP6668501B2 (zh) |
CN (1) | CN105869645B (zh) |
WO (1) | WO2017162017A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503181A (zh) * | 2016-10-25 | 2017-03-15 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频数据处理方法及装置 |
CN106649644A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌词文件生成方法及装置 |
WO2017162017A1 (zh) * | 2016-03-25 | 2017-09-28 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置和存储介质 |
CN107517207A (zh) * | 2017-03-13 | 2017-12-26 | 平安科技(深圳)有限公司 | 服务器、身份验证方法及计算机可读存储介质 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
CN109256137A (zh) * | 2018-10-09 | 2019-01-22 | 深圳市声扬科技有限公司 | 语音采集方法、装置、计算机设备和存储介质 |
CN109524026A (zh) * | 2018-10-26 | 2019-03-26 | 北京网众共创科技有限公司 | 提示音的确定方法及装置、存储介质、电子装置 |
WO2019101083A1 (zh) * | 2017-11-24 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、语音交互设备及存储介质 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN110390928A (zh) * | 2019-08-07 | 2019-10-29 | 广州多益网络股份有限公司 | 一种自动拓增语料的语音合成模型训练方法和系统 |
CN111199741A (zh) * | 2018-11-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法、声纹验证方法、装置、计算设备及介质 |
CN111599342A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 音色选择方法和选择系统 |
CN112036491A (zh) * | 2020-09-01 | 2020-12-04 | 北京推想科技有限公司 | 确定训练样本的方法及装置、训练深度学习模型的方法 |
WO2021051505A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
CN112614478A (zh) * | 2020-11-24 | 2021-04-06 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
WO2021072893A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN113516987A (zh) * | 2021-07-16 | 2021-10-19 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584893B (zh) * | 2018-12-26 | 2021-09-14 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换系统 |
CN111028847B (zh) * | 2019-12-17 | 2022-09-09 | 广东电网有限责任公司 | 一种基于后端模型的声纹识别优化方法和相关装置 |
CN111599346B (zh) * | 2020-05-19 | 2024-02-20 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
US11750984B2 (en) | 2020-09-25 | 2023-09-05 | Bose Corporation | Machine learning based self-speech removal |
CN112735382B (zh) * | 2020-12-22 | 2024-02-02 | 北京声智科技有限公司 | 音频数据处理方法、装置、电子设备及可读存储介质 |
CN113113044B (zh) * | 2021-03-23 | 2023-05-09 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
US20110208524A1 (en) * | 2010-02-25 | 2011-08-25 | Apple Inc. | User profiling for voice input processing |
US20150088509A1 (en) * | 2013-09-24 | 2015-03-26 | Agnitio, S.L. | Anti-spoofing |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007298876A (ja) | 2006-05-02 | 2007-11-15 | Yamaha Corp | 音声データ記録再生装置 |
CN101404160B (zh) | 2008-11-21 | 2011-05-04 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
CN102723081B (zh) * | 2012-05-30 | 2014-05-21 | 无锡百互科技有限公司 | 语音信号处理方法、语音和声纹识别方法及其装置 |
US9406298B2 (en) * | 2013-02-07 | 2016-08-02 | Nuance Communications, Inc. | Method and apparatus for efficient i-vector extraction |
US9865266B2 (en) * | 2013-02-25 | 2018-01-09 | Nuance Communications, Inc. | Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system |
CN103279581B (zh) * | 2013-06-25 | 2016-08-17 | 中国科学院自动化研究所 | 一种利用紧凑视频主题描述子进行视频检索的方法 |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
EP3373176B1 (en) * | 2014-01-17 | 2020-01-01 | Cirrus Logic International Semiconductor Limited | Tamper-resistant element for use in speaker recognition |
US9318112B2 (en) * | 2014-02-14 | 2016-04-19 | Google Inc. | Recognizing speech in the presence of additional audio |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
CN105139857B (zh) | 2015-09-02 | 2019-03-22 | 中山大学 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN105869645B (zh) * | 2016-03-25 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 语音数据处理方法和装置 |
CN106128466B (zh) * | 2016-07-15 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 身份向量处理方法和装置 |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
US10468032B2 (en) * | 2017-04-10 | 2019-11-05 | Intel Corporation | Method and system of speaker recognition using context aware confidence modeling |
-
2016
- 2016-03-25 CN CN201610178300.8A patent/CN105869645B/zh active Active
-
2017
- 2017-03-03 US US15/764,573 patent/US10692503B2/en active Active
- 2017-03-03 EP EP17769294.4A patent/EP3435374B1/en active Active
- 2017-03-03 WO PCT/CN2017/075522 patent/WO2017162017A1/zh active Application Filing
- 2017-03-03 JP JP2018552112A patent/JP6668501B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
US20110208524A1 (en) * | 2010-02-25 | 2011-08-25 | Apple Inc. | User profiling for voice input processing |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
US20150088509A1 (en) * | 2013-09-24 | 2015-03-26 | Agnitio, S.L. | Anti-spoofing |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017162017A1 (zh) * | 2016-03-25 | 2017-09-28 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置和存储介质 |
US10692503B2 (en) | 2016-03-25 | 2020-06-23 | Tencent Technology (Shenzhen) Company Limited | Voice data processing method, apparatus and storage medium |
CN106503181A (zh) * | 2016-10-25 | 2017-03-15 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频数据处理方法及装置 |
US10140984B2 (en) | 2016-11-18 | 2018-11-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for processing voice data |
US10825452B2 (en) | 2016-11-18 | 2020-11-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for processing voice data |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN106649644A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌词文件生成方法及装置 |
CN106649644B (zh) * | 2016-12-08 | 2020-02-07 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌词文件生成方法及装置 |
WO2018166187A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 服务器、身份验证方法、系统及计算机可读存储介质 |
CN107517207A (zh) * | 2017-03-13 | 2017-12-26 | 平安科技(深圳)有限公司 | 服务器、身份验证方法及计算机可读存储介质 |
WO2019101083A1 (zh) * | 2017-11-24 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、语音交互设备及存储介质 |
US11189263B2 (en) | 2017-11-24 | 2021-11-30 | Tencent Technology (Shenzhen) Company Limited | Voice data processing method, voice interaction device, and storage medium for binding user identity with user voice model |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
CN109256137B (zh) * | 2018-10-09 | 2021-11-12 | 深圳市声扬科技有限公司 | 语音采集方法、装置、计算机设备和存储介质 |
CN109256137A (zh) * | 2018-10-09 | 2019-01-22 | 深圳市声扬科技有限公司 | 语音采集方法、装置、计算机设备和存储介质 |
CN109524026B (zh) * | 2018-10-26 | 2022-04-26 | 北京网众共创科技有限公司 | 提示音的确定方法及装置、存储介质、电子装置 |
CN109524026A (zh) * | 2018-10-26 | 2019-03-26 | 北京网众共创科技有限公司 | 提示音的确定方法及装置、存储介质、电子装置 |
CN111199741A (zh) * | 2018-11-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法、声纹验证方法、装置、计算设备及介质 |
CN111599342A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 音色选择方法和选择系统 |
CN110390928B (zh) * | 2019-08-07 | 2022-01-11 | 广州多益网络股份有限公司 | 一种自动拓增语料的语音合成模型训练方法和系统 |
CN110390928A (zh) * | 2019-08-07 | 2019-10-29 | 广州多益网络股份有限公司 | 一种自动拓增语料的语音合成模型训练方法和系统 |
WO2021051505A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
WO2021072893A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN112036491A (zh) * | 2020-09-01 | 2020-12-04 | 北京推想科技有限公司 | 确定训练样本的方法及装置、训练深度学习模型的方法 |
CN112614478B (zh) * | 2020-11-24 | 2021-08-24 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN112614478A (zh) * | 2020-11-24 | 2021-04-06 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN113516987A (zh) * | 2021-07-16 | 2021-10-19 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
CN113516987B (zh) * | 2021-07-16 | 2024-04-12 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3435374A1 (en) | 2019-01-30 |
WO2017162017A1 (zh) | 2017-09-28 |
CN105869645B (zh) | 2019-04-12 |
EP3435374B1 (en) | 2020-05-20 |
JP6668501B2 (ja) | 2020-03-18 |
US10692503B2 (en) | 2020-06-23 |
US20180286410A1 (en) | 2018-10-04 |
EP3435374A4 (en) | 2019-04-03 |
JP2019509523A (ja) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869645A (zh) | 语音数据处理方法和装置 | |
CN110189769A (zh) | 基于多个卷积神经网络模型结合的异常声音检测方法 | |
McLaren et al. | Application of convolutional neural networks to speaker recognition in noisy conditions | |
CN108419091A (zh) | 一种基于机器学习的视频内容审核方法及装置 | |
CN105590625A (zh) | 声学模型自适应方法及系统 | |
CN106104674A (zh) | 混合语音识别 | |
CN106531190A (zh) | 语音质量评价方法和装置 | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN106157953A (zh) | 连续语音识别方法及系统 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN109242825A (zh) | 一种基于深度学习技术的钢铁表面缺陷识别方法和装置 | |
CN104077580A (zh) | 一种基于深信度网络的害虫图像自动识别方法 | |
CN106971724A (zh) | 一种防干扰声纹识别方法和系统 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN111382808A (zh) | 一种车辆检测处理方法及装置 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN106297765B (zh) | 语音合成方法及系统 | |
CN110210695A (zh) | 一种基于支持向量机的塔台管制模拟训练评估方法 | |
CN110738986B (zh) | 一种长语音标注装置及方法 | |
CN108831447A (zh) | 基于hmm和pnn的语音识别方法、装置及存储介质 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN103219008B (zh) | 基于基状态矢量加权的短语音说话人识别方法 | |
CN110427998A (zh) | 模型训练、目标检测方法及装置、电子设备、存储介质 | |
CN105895104A (zh) | 说话人自适应识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |