CN109243467B - 声纹模型构建方法、声纹识别方法及系统 - Google Patents

声纹模型构建方法、声纹识别方法及系统 Download PDF

Info

Publication number
CN109243467B
CN109243467B CN201811351279.2A CN201811351279A CN109243467B CN 109243467 B CN109243467 B CN 109243467B CN 201811351279 A CN201811351279 A CN 201811351279A CN 109243467 B CN109243467 B CN 109243467B
Authority
CN
China
Prior art keywords
audio file
training
vocal print
group
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811351279.2A
Other languages
English (en)
Other versions
CN109243467A (zh
Inventor
聂颖
徐泓洋
郑权
张峰
聂镭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longma Zhisheng (zhuhai) Technology Co Ltd
Original Assignee
Longma Zhisheng (zhuhai) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longma Zhisheng (zhuhai) Technology Co Ltd filed Critical Longma Zhisheng (zhuhai) Technology Co Ltd
Priority to CN201811351279.2A priority Critical patent/CN109243467B/zh
Publication of CN109243467A publication Critical patent/CN109243467A/zh
Application granted granted Critical
Publication of CN109243467B publication Critical patent/CN109243467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种声纹模型构建方法、声纹识别方法及系统,该声纹模型构建方法包括:步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块;步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练;步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型。本发明采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。

Description

声纹模型构建方法、声纹识别方法及系统
技术领域
本发明涉及声纹识别技术领域,特别是一种声纹模型构建方法、声纹识别方法及系统。
背景技术
声纹类似于指纹,是一个人特有的信息,一个人说的不同的话,其声纹应该是一致的,因此,通过声纹识别可以对说话人进行识别,在目前的语音处理中,“声纹识别”是一项重要的研究内容,如何提高声纹识别的准确率是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种声纹模型构建方法、声纹识别方法及系统,有利于提高声纹识别的准确率。
为达到上述目的,本发明的技术方案提供了一种声纹模型构建方法,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
进一步地,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述建立的孪生神经网络。
进一步地,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_2调整经过所述第一训练的孪生神经网络。
进一步地,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
为实现上述目的,本发明的技术方案还提供了一种声纹识别方法,包括:
将待识别的两个音频文件输入利用上述声纹模型构建方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算所述待识别的两个音频文件的声纹向量之间的相似度;
根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
为实现上述目的,本发明的技术方案还提供了一种声纹模型构建系统,包括:
建立模块,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块,用于利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
进一步地,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述建立的孪生神经网络。
进一步地,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
进一步地,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
为实现上述目的,本发明的技术方案还提供了一种声纹识别系统,包括:
输入模块,用于将待识别的两个音频文件输入利用上述声纹模型构建系统构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
本发明提供的声纹模型构建方法,采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种声纹模型构建方法的流程图;
图2是本发明实施例提供的一种孪生神经网络中子网的示意图;
图3是本发明实施例提供的对孪生神经网络进行第一训练的示意图;
图4是本发明实施例提供的对孪生神经网络进行第二训练的示意图;
图5是本发明实施例提供的一种声纹模型构建系统的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种声纹模型构建方法的流程图,该方法包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括用于特征提取的特征提取模块以及用于特征表达的特征表达模块,其中,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
例如,特征表达模块包括1、2或3个卷积层以及1、2或3个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
本发明实施例提供的声纹模型构建方法,采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
例如,本发明实施例提供的声纹模型构建方法可以具体包括:
步骤A:建立孪生神经网络,其中,该孪生神经网络包括两个相同的子网,子网采用SINCNET结构,如图2所示,每一个子网包括特征提取模块以及特征表达模块,每一个子网中的特征表达模块包括3个卷积层(CONV)和2个全连接层(FC)(包含一般的池化层、激活层、drop-out层等),每一个子网中的特征提取模块包括n个带通滤波器(g1,g2,…,gn),其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化可以选用梅尔刻度滤波器组的截止频率(cut-off frequency)来作为滤波器的初始频率;
SINCNET的核心思想是使用多个带通滤波器过滤出有用的信息(即特征信息),带通滤波器作为网络的一部分与特征表达过程一起参与训练,其参数由训练得到,在本实施例中,通过SINCNET结构的子网从音频文件(wav文件)中提取特征信息,并进行特征表达,从而将wav数据转化成向量形式,即实现声纹矢量化;
其中,在本实施例中,带通滤波器的数量n为预设值,可根据实际情况进行调整,带通滤波器过滤后得到的数据(即特征信息)输入至特征表达模块,在特征表达模块中利用3个卷积层进行三次卷积运算后,再通过两层全连接层(包含一般的池化层、激活层、drop-out层等)最后输出向量v(即为声纹向量);
步骤B:利用第一训练样本库、第一损失函数对步骤A创建的孪生神经网络进行第一训练(即预训练),其中,该第一训练样本库由同一人的多个音频文件构成;
即在该步骤中,使用每个说话人的多个音频对孪生神经网络进行单人预训练,将同一个人的两段不同语音输入创建的孪生神经网络,loss函数(即损失函数)采用loss_1,即最大化从同一个人的不同音频文件中抽取的声纹向量之间的相似度,具体地,参见图3,该步骤包括:
步骤B1:从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件,L为不小于2的正整数;
步骤B2:对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后(即通过孪生神经网络中的一个子网对每一组音频文件中的一个音频文件WAV1进行声纹矢量化,通过另一个子网对每一组音频文件中的另一个音频文件WAV2进行声纹矢量化),采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度(即从两个音频文件中抽取的声纹向量之间的相似度);
Cosine相似度是计算向量空间中两个向量方向差异大小的方法,在本发明中,假设一个人的声纹特征随着声音的大小、环境、身体健康状况、年龄、心情等情况会有一定的变化,进而反应到向量空间上即是向量长度和相位角度的变化,但是不管情况如何变化,属于同一个人的一些固有的声纹特征是不会变的,因此,声纹向量的这种变化幅度应该是非常小的,则可以认为两个相近的声纹向量即为同一个说话人,其中,Cosine相似度的计算公式如下:
其中,v1为两个音频文件中一个音频文件的声纹向量,v2为另一个音频文件的声纹向量;
步骤B3:利用所述第一损失函数计算损失值loss_1,其中,该第一损失函数的公式如下:
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
步骤B4:利用损失值loss_1调整所述建立的孪生神经网络。
步骤C:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练(即再训练),得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成;
即在该步骤中,在对孪生神经网络预训练完成后采用不同人的不同音频文件继续对孪生神经网络进行训练,在该步骤中,可从所有的说话人中随机抽取一个人作为目标人,将目标人的所有音频视为正样本,得到正样本集,非目标人的所有音频视为负样本,得到负样本集,每次训练时从正样本集中抽取P_n个正样本,从负样本集中随机抽取N_n个负样本,P_n与N_n可以不相等但是差距不应该过大,正负样本的比例不要超过1:5,以保证训练结果不受样本不均衡影响,Loss函数(即损失函数)采用loss_2,即最小化从不同人的不同音频中抽取的声纹向量之间的相似度,具体地,参见图4,该步骤具体包括:
步骤C1:从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件,M为不小于2的正整数;
步骤C2:对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后(即通过孪生神经网络中的一个子网对每一组音频文件中的一个音频文件WAV1'进行声纹矢量化,通过另一个子网对每一组音频文件中的另一个音频文件WAV2'进行声纹矢量化),采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
步骤C3:利用所述第二损失函数计算损失值loss_2,其中,该第二损失函数如下:
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
步骤C4:利用损失值loss_2调整经过所述第一训练的孪生神经网络,得到声纹模型。
本发明实施例提供的声纹模型构建方法在端对端的网络结构基础上结合孪生网络的思想,对声纹模型的网络结构进行了设计,并采取预训练和再训练两个步骤实现对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,能够判断不同音频是否来自同一个说话人,有利于提高声纹识别的准确率;且在本发明实施例中,通过两步训练和聚类,训练的过程清楚,结果可控性高,并且在使用SINECT结构模型的基础上进行设计,相对CNN等模型能够大大减少参数数量,训练速度更快。
通过上述声纹模型构建方法构建的声纹模型,其中每一个子网的特征提取模块可作为一个声纹特征提取器,再利用特征表达模块对提取的特征进行特征表达,从而实现对声纹的矢量化,得到声纹向量,可应用到声纹识别等场景任务中去。
本发明实施例还提供了一种音频文件矢量化方法,包括:利用上述声纹模型构建方法构建的声纹模型中的子网对待处理的音频文件进行声纹矢量化,得到所述待处理的音频文件的声纹向量。
通过上述声纹模型构建方法构建的声纹模型可对待识别的两个音频文件进行声纹矢量化,再通过待识别的两个音频文件的声纹向量之间的相似度可以判断两个音频文件是否来自同一个人;
本发明实施例还提供了一种声纹识别方法,包括:
步骤S101:将待识别的两个音频文件输入利用上述声纹模型构建方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
步骤S102:计算所述待识别的两个音频文件的声纹向量之间的相似度;
例如,可以采用Cosine相似度计算方式得到待识别的两个音频文件的声纹向量之间的相似度;
步骤S103:根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人;
例如,若待识别的两个音频文件的声纹向量之间的相似度大于预设值,则判断为同一个人,否则判断为不同的人。
参见图5,图5是本发明实施例提供的一种声纹模型构建系统的示意图,该系统包括:
建立模块1,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块2,用于利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块3,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
在一实施例中,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述建立的孪生神经网络。
在一实施例中,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
在一实施例中,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
本发明实施例还提供了一种音频文件矢量化系统,所述音频文件矢量化系统利用上述声纹模型构建系统构建的声纹模型中的子网对待处理的音频文件进行声纹矢量化,得到所述待处理的音频文件的声纹向量。
本发明实施例还提供了一种声纹识别系统,包括:
输入模块,用于将待识别的两个音频文件输入上述声纹模型构建系统构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

Claims (10)

1.一种声纹模型构建方法,其特征在于,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述建立的孪生神经网络。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_2调整经过所述第一训练的孪生神经网络。
4.根据权利要求1-3任一所述的方法,其特征在于,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
5.一种声纹识别方法,其特征在于,包括:
将待识别的两个音频文件输入利用权利要求1-4任一所述的方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算所述待识别的两个音频文件的声纹向量之间的相似度;
根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
6.一种声纹模型构建系统,其特征在于,包括:
建立模块,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块,用于利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
7.根据权利要求6所述的系统,其特征在于,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述建立的孪生神经网络。
8.根据权利要求6所述的系统,其特征在于,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
9.根据权利要求6-8任一所述的系统,其特征在于,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
10.一种声纹识别系统,其特征在于,包括:
输入模块,用于将待识别的两个音频文件输入利用权利要求6-9任一所述的系统构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
CN201811351279.2A 2018-11-14 2018-11-14 声纹模型构建方法、声纹识别方法及系统 Active CN109243467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811351279.2A CN109243467B (zh) 2018-11-14 2018-11-14 声纹模型构建方法、声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811351279.2A CN109243467B (zh) 2018-11-14 2018-11-14 声纹模型构建方法、声纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN109243467A CN109243467A (zh) 2019-01-18
CN109243467B true CN109243467B (zh) 2019-11-05

Family

ID=65074614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811351279.2A Active CN109243467B (zh) 2018-11-14 2018-11-14 声纹模型构建方法、声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN109243467B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223699B (zh) * 2019-05-15 2021-04-13 桂林电子科技大学 一种说话人身份确认方法、装置及存储介质
CN110309359B (zh) * 2019-05-20 2021-06-15 北京大学 视频相关性预测方法、装置、设备及存储介质
CN110211594B (zh) * 2019-06-06 2021-05-04 杭州电子科技大学 一种基于孪生网络模型和knn算法的说话人识别方法
CN110491413B (zh) * 2019-08-21 2022-01-04 中国传媒大学 一种基于孪生网络的音频内容一致性监测方法及系统
CN110570873B (zh) * 2019-09-12 2022-08-05 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN110619889B (zh) * 2019-09-19 2022-03-15 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110660399A (zh) * 2019-11-11 2020-01-07 广州国音智能科技有限公司 声纹识别的训练方法、装置、终端及计算机存储介质
CN111048097B (zh) * 2019-12-19 2022-11-29 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111145761B (zh) * 2019-12-27 2022-05-24 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质
CN111370003B (zh) * 2020-02-27 2023-05-30 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111223476B (zh) * 2020-04-23 2020-08-04 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111710340A (zh) * 2020-06-05 2020-09-25 深圳市卡牛科技有限公司 基于语音识别用户身份的方法、装置、服务器及存储介质
CN111583913B (zh) * 2020-06-15 2020-11-03 深圳市友杰智新科技有限公司 语音识别和语音合成的模型训练方法、装置和计算机设备
CN111429923B (zh) * 2020-06-15 2020-09-29 深圳市友杰智新科技有限公司 说话人信息提取模型的训练方法、装置和计算机设备
CN111785287B (zh) * 2020-07-06 2022-06-07 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112185357A (zh) * 2020-12-02 2021-01-05 成都启英泰伦科技有限公司 一种同时识别人声和非人声的装置及方法
CN112435673B (zh) * 2020-12-15 2024-05-14 北京声智科技有限公司 一种模型训练方法及电子终端
CN113421575B (zh) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
CN113744721B (zh) * 2021-09-07 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频处理方法、设备及可读存储介质
CN113763966B (zh) * 2021-09-09 2024-03-19 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN113793615B (zh) * 2021-09-15 2024-02-27 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN107610709B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统

Also Published As

Publication number Publication date
CN109243467A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109243467B (zh) 声纹模型构建方法、声纹识别方法及系统
CN109817246B (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
Peng et al. Efficient speech emotion recognition using multi-scale cnn and attention
Ding et al. Autospeech: Neural architecture search for speaker recognition
Variani et al. Deep neural networks for small footprint text-dependent speaker verification
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN108648759A (zh) 一种文本无关的声纹识别方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
Han et al. Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network
CN108364662A (zh) 基于成对鉴别任务的语音情感识别方法与系统
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN110544482B (zh) 一种单通道语音分离系统
CN109559755A (zh) 一种基于dnn噪声分类的语音增强方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
Yue et al. Acoustic modelling from raw source and filter components for dysarthric speech recognition
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
CN114882914A (zh) 混叠音处理方法、装置和存储介质
Mansour et al. Voice recognition Using back propagation algorithm in neural networks
Dewa Javanese vowels sound classification with convolutional neural network
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant