CN111370003B - 一种基于孪生神经网络的声纹比对方法 - Google Patents

一种基于孪生神经网络的声纹比对方法 Download PDF

Info

Publication number
CN111370003B
CN111370003B CN202010125816.2A CN202010125816A CN111370003B CN 111370003 B CN111370003 B CN 111370003B CN 202010125816 A CN202010125816 A CN 202010125816A CN 111370003 B CN111370003 B CN 111370003B
Authority
CN
China
Prior art keywords
voiceprint
neural network
twin neural
spectrogram
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010125816.2A
Other languages
English (en)
Other versions
CN111370003A (zh
Inventor
罗世操
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinmai Microelectronics Co ltd
Original Assignee
Hangzhou Xiongmai Integrated Circuit Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiongmai Integrated Circuit Technology Co Ltd filed Critical Hangzhou Xiongmai Integrated Circuit Technology Co Ltd
Priority to CN202010125816.2A priority Critical patent/CN111370003B/zh
Publication of CN111370003A publication Critical patent/CN111370003A/zh
Application granted granted Critical
Publication of CN111370003B publication Critical patent/CN111370003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于孪生神经网络的声纹比对方法,涉及声纹识别技术领域。本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。

Description

一种基于孪生神经网络的声纹比对方法
技术领域
本发明属于声纹识别技术领域,特别是涉及一种基于孪生神经网络的声纹比对方法。
背景技术
声纹特征是生物特征的一种,每个人具有固有的特征。声纹识别技术是仅次于指纹识别、人脸识别和掌纹的生物识别技术,在识别领域具有广泛的研究和应用。
之前研究者所提出的声纹特征大多是基于语音的韵律特征和音质特征,均为人工设计的特征,系统的鲁棒性不高,很容易受到环境的影响。
现提供一种基于孪生神经网络的声纹比对方法,提高声纹识别的准确率。
发明内容
本发明的目的在于提供一种基于孪生神经网络的声纹比对方法,通过基于孪生神经网络的声纹比对方法,提高声纹识别的准确率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于孪生神经网络的声纹比对方法,包括以下步骤:
SS01:利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;
SS02:组成样本对,并给样本对配上是否来自同一个人的标签;
SS03:以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;
SS04:在声纹比对系统中,验证说话人的身份,验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:所述语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:所述声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份。
进一步地,所述孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数为损失函数并计算损失;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
进一步地,所述步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
进一步地,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
进一步地,所述步骤S034中对比损失函数的定义如下:
Figure GDA0004136914030000031
其中,Loss为损失函数,Ew,i表示第i对样本对中两个声纹的欧氏距离相似度,Q是一个常量;y是第i对样本对的标签。
进一步地,所述的声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统均可训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端。
本发明具有以下有益效果:
本发明通过利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明孪生神经网络声纹比对模型的训练示意图;
图2为本发明的孪生神经网络声纹比对网络结构示意图;
图3为本发明实施的声纹比对工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明为一种基于孪生神经网络的声纹比对方法,如图1所示,孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数(ContrastiveLoss)为损失函数并计算损失,如图2所示;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
其中,步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数(Contrastive Loss)为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,验证说话人的身份,如图3所示验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份。
其中,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
其中,步骤S034中对比损失函数的定义如下:
Figure GDA0004136914030000061
其中,Loss为损失函数,Ew,i表示第i对样本对中两个声纹的欧氏距离相似度,Q是一个常量;y是第i对样本对的标签。
其中,声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统均可训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端或其他语言交互的终端。
本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种基于孪生神经网络的声纹比对方法,其特征在于,包括以下步骤:
SS01:利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;
SS02:组成样本对,并给样本对配上是否来自同一个人的标签;
SS03:以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;
SS04:在声纹比对系统中,验证说话人的身份,验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:所述语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:所述声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份;
所述孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数为损失函数并计算损失;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
2.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,所述步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
3.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
4.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,所述步骤S034中对比损失函数的定义如下:
Figure FDA0004136914020000021
其中,Loss为损失函数,Ew,i表示第i对样本对中两个声纹的欧氏距离相似度,Q是一个常量;y是第i对样本对的标签。
5.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,所述的声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统用于训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端。
CN202010125816.2A 2020-02-27 2020-02-27 一种基于孪生神经网络的声纹比对方法 Active CN111370003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125816.2A CN111370003B (zh) 2020-02-27 2020-02-27 一种基于孪生神经网络的声纹比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125816.2A CN111370003B (zh) 2020-02-27 2020-02-27 一种基于孪生神经网络的声纹比对方法

Publications (2)

Publication Number Publication Date
CN111370003A CN111370003A (zh) 2020-07-03
CN111370003B true CN111370003B (zh) 2023-05-30

Family

ID=71208280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125816.2A Active CN111370003B (zh) 2020-02-27 2020-02-27 一种基于孪生神经网络的声纹比对方法

Country Status (1)

Country Link
CN (1) CN111370003B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785287B (zh) 2020-07-06 2022-06-07 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN112270931B (zh) * 2020-10-22 2022-10-21 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112951242B (zh) * 2021-02-02 2022-10-25 华南理工大学 一种基于孪生神经网络的短语音说话人匹配方法
CN113077796A (zh) * 2021-03-17 2021-07-06 山东师范大学 说话人辨认方法及系统
CN113095269A (zh) * 2021-04-22 2021-07-09 云南中烟工业有限责任公司 一种基于孪生神经网络判别卷烟爆珠受潮程度的方法
CN113538814A (zh) * 2021-06-22 2021-10-22 华录智达科技股份有限公司 一种支持数字人民币支付的智能公交车车载终端
CN113643489B (zh) * 2021-06-22 2023-02-03 华录智达科技股份有限公司 一种基于人脸识别的公交pos机
CN113409794B (zh) * 2021-06-30 2023-05-23 平安科技(深圳)有限公司 声纹识别模型的优化方法、装置、计算机设备及存储介质
CN113793615B (zh) * 2021-09-15 2024-02-27 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN109243467B (zh) * 2018-11-14 2019-11-05 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法

Also Published As

Publication number Publication date
CN111370003A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111370003B (zh) 一种基于孪生神经网络的声纹比对方法
CN107104803B (zh) 一种基于数字口令与声纹联合确认的用户身份验证方法
US7529669B2 (en) Voice-based multimodal speaker authentication using adaptive training and applications thereof
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
CN100363938C (zh) 基于得分差加权融合的多模态身份识别方法
CN106128465A (zh) 一种声纹识别系统及方法
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN110299132B (zh) 一种语音数字识别方法和装置
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
CN109150538B (zh) 一种指纹与声纹融合身份认证方法
CN113886792A (zh) 一种声纹识别和人脸识别相结合的印控仪应用方法和系统
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN113470655A (zh) 一种基于音素对数似然比的时延神经网络的声纹识别方法
CN113241081A (zh) 一种基于梯度反转层的远场说话人认证方法及系统
Yuan et al. Overview of the development of speaker recognition
CN112992155A (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN115064175A (zh) 一种说话人识别方法
Piotrowski et al. Subscriber authentication using GMM and TMS320C6713DSP
CN113948093A (zh) 一种基于无监督场景适应的说话人识别方法及系统
CN106920557A (zh) 一种基于小波变换的分布声纹识别方法和装置
Komlen et al. Text independent speaker recognition using LBG vector quantization
Neiberg Text Independent speaker verification using adapted Gaussian mixture models
CN116129911B (zh) 一种基于概率球面判别分析信道补偿的说话人识别方法
Cheung et al. Multi-sample fusion with constrained feature transformation for robust speaker verification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 311422 4th floor, building 9, Yinhu innovation center, 9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Xinmai Microelectronics Co.,Ltd.

Address before: 311400 4th floor, building 9, Yinhu innovation center, No.9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou xiongmai integrated circuit technology Co.,Ltd.