CN111370003B - 一种基于孪生神经网络的声纹比对方法 - Google Patents
一种基于孪生神经网络的声纹比对方法 Download PDFInfo
- Publication number
- CN111370003B CN111370003B CN202010125816.2A CN202010125816A CN111370003B CN 111370003 B CN111370003 B CN 111370003B CN 202010125816 A CN202010125816 A CN 202010125816A CN 111370003 B CN111370003 B CN 111370003B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- neural network
- twin neural
- spectrogram
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000005259 measurement Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于孪生神经网络的声纹比对方法,涉及声纹识别技术领域。本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。
Description
技术领域
本发明属于声纹识别技术领域,特别是涉及一种基于孪生神经网络的声纹比对方法。
背景技术
声纹特征是生物特征的一种,每个人具有固有的特征。声纹识别技术是仅次于指纹识别、人脸识别和掌纹的生物识别技术,在识别领域具有广泛的研究和应用。
之前研究者所提出的声纹特征大多是基于语音的韵律特征和音质特征,均为人工设计的特征,系统的鲁棒性不高,很容易受到环境的影响。
现提供一种基于孪生神经网络的声纹比对方法,提高声纹识别的准确率。
发明内容
本发明的目的在于提供一种基于孪生神经网络的声纹比对方法,通过基于孪生神经网络的声纹比对方法,提高声纹识别的准确率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于孪生神经网络的声纹比对方法,包括以下步骤:
SS01:利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;
SS02:组成样本对,并给样本对配上是否来自同一个人的标签;
SS03:以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;
SS04:在声纹比对系统中,验证说话人的身份,验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:所述语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:所述声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份。
进一步地,所述孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数为损失函数并计算损失;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
进一步地,所述步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
进一步地,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
进一步地,所述步骤S034中对比损失函数的定义如下:
其中,Loss为损失函数,Ew,i表示第i对样本对中两个声纹的欧氏距离相似度,Q是一个常量;y是第i对样本对的标签。
进一步地,所述的声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统均可训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端。
本发明具有以下有益效果:
本发明通过利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明孪生神经网络声纹比对模型的训练示意图;
图2为本发明的孪生神经网络声纹比对网络结构示意图;
图3为本发明实施的声纹比对工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明为一种基于孪生神经网络的声纹比对方法,如图1所示,孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数(ContrastiveLoss)为损失函数并计算损失,如图2所示;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
其中,步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数(Contrastive Loss)为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,验证说话人的身份,如图3所示验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份。
其中,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
其中,步骤S034中对比损失函数的定义如下:
其中,Loss为损失函数,Ew,i表示第i对样本对中两个声纹的欧氏距离相似度,Q是一个常量;y是第i对样本对的标签。
其中,声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统均可训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端或其他语言交互的终端。
本发明利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;组成样本对,并给样本对配上是否来自同一个人的标签;以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;在声纹比对系统中,通过训练得到的孪生神经网络模型提取表示说话人身份的声纹特征向量,并和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份,降低环境的影响,提高声纹识别的准确率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.一种基于孪生神经网络的声纹比对方法,其特征在于,包括以下步骤:
SS01:利用已经标注过说话人身份的语音数据,进行快速傅里叶变换,得到对应语谱图作为孪生神经网络输入;
SS02:组成样本对,并给样本对配上是否来自同一个人的标签;
SS03:以对比损失函数为训练准则,训练孪生神经网络声纹比对模型;
SS04:在声纹比对系统中,验证说话人的身份,验证步骤如下:
S041:采集语音信号;
S042:进行快速傅里叶变换,得到语谱图;
S043:所述语谱图输入训练完成的孪生神经网络声纹比对模型中得到对应的声纹特征;
S044:所述声纹特征和数据库中注册的人的声纹特征向量进行相似度量,验证说话人的身份;
所述孪生神经网络声纹比对模型的训练包括如下步骤:
S031:对标注过说话人身份的语音数据进行快速傅里叶变换得到语谱图;
S032:语谱图组成样本对(x1,x2,y),并给样本对配上是否来自同一个人的标签;其中,y=1表示语谱图x1和x2来自同一个人,y=0表示语谱图x1和x2来自不同人;
S033:搭建孪生神经网络声纹比对模型,并初始化模型各层参数;其中,孪生神经网络为两个结构相同并共享网络参数的神经网络,每个网络分别接收语谱图样本对中的一个样本;
S034:随机采样训练样本对并进行前向运算,使用对比损失函数为损失函数并计算损失;
S035:采样随机梯度下降法误差反向传播算法对模型参数进行更新;
S036:模型收敛后保存训练好的孪生神经网络声纹比对模型的参数。
2.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,所述步骤S044中声纹特征和数据库中注册的人的声纹特征向量进行相似度量的函数定义如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示两个声纹的欧氏距离相似度,x1表示说话人语音的语谱图,Gw()表示孪生神经网络,Gw(x1)表示把x1从语谱图特征空间映射到孪生神经网络声纹特征所在的空间,即Gw(x1)为x1的声纹特征,Gw(x2)表示x2的声纹特征。
3.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,若两个语音段的声纹特征向量相似度小于阈值T,则说明这两个语音段来自同一人,声纹比对成功;反之则说明这两个语音段来自不同人,声纹比对失败。
5.根据权利要求1所述的一种基于孪生神经网络的声纹比对方法,其特征在于,所述的声纹比对方法应用于语言交互终端的声纹识别系统,语言交互终端的声纹识别系统用于训练孪生神经网络声纹比对模型和提取声纹特征,并配置在终端中,语言交互终端包括移动端、个人电脑终端、便携式终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125816.2A CN111370003B (zh) | 2020-02-27 | 2020-02-27 | 一种基于孪生神经网络的声纹比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125816.2A CN111370003B (zh) | 2020-02-27 | 2020-02-27 | 一种基于孪生神经网络的声纹比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370003A CN111370003A (zh) | 2020-07-03 |
CN111370003B true CN111370003B (zh) | 2023-05-30 |
Family
ID=71208280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010125816.2A Active CN111370003B (zh) | 2020-02-27 | 2020-02-27 | 一种基于孪生神经网络的声纹比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370003B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785287B (zh) | 2020-07-06 | 2022-06-07 | 北京世纪好未来教育科技有限公司 | 说话人识别方法、装置、电子设备及存储介质 |
CN112270931B (zh) * | 2020-10-22 | 2022-10-21 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
CN112951242B (zh) * | 2021-02-02 | 2022-10-25 | 华南理工大学 | 一种基于孪生神经网络的短语音说话人匹配方法 |
CN113077796A (zh) * | 2021-03-17 | 2021-07-06 | 山东师范大学 | 说话人辨认方法及系统 |
CN113095269A (zh) * | 2021-04-22 | 2021-07-09 | 云南中烟工业有限责任公司 | 一种基于孪生神经网络判别卷烟爆珠受潮程度的方法 |
CN113538814A (zh) * | 2021-06-22 | 2021-10-22 | 华录智达科技股份有限公司 | 一种支持数字人民币支付的智能公交车车载终端 |
CN113643489B (zh) * | 2021-06-22 | 2023-02-03 | 华录智达科技股份有限公司 | 一种基于人脸识别的公交pos机 |
CN113409794B (zh) * | 2021-06-30 | 2023-05-23 | 平安科技(深圳)有限公司 | 声纹识别模型的优化方法、装置、计算机设备及存储介质 |
CN113793615B (zh) * | 2021-09-15 | 2024-02-27 | 北京百度网讯科技有限公司 | 说话人识别方法、模型训练方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN109243467B (zh) * | 2018-11-14 | 2019-11-05 | 龙马智声(珠海)科技有限公司 | 声纹模型构建方法、声纹识别方法及系统 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
-
2020
- 2020-02-27 CN CN202010125816.2A patent/CN111370003B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111370003A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370003B (zh) | 一种基于孪生神经网络的声纹比对方法 | |
CN107104803B (zh) | 一种基于数字口令与声纹联合确认的用户身份验证方法 | |
US7529669B2 (en) | Voice-based multimodal speaker authentication using adaptive training and applications thereof | |
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
CN100363938C (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN106128465A (zh) | 一种声纹识别系统及方法 | |
CN111462729B (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN110299132B (zh) | 一种语音数字识别方法和装置 | |
US10909991B2 (en) | System for text-dependent speaker recognition and method thereof | |
CN109150538B (zh) | 一种指纹与声纹融合身份认证方法 | |
CN113886792A (zh) | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN113470655A (zh) | 一种基于音素对数似然比的时延神经网络的声纹识别方法 | |
CN113241081A (zh) | 一种基于梯度反转层的远场说话人认证方法及系统 | |
Yuan et al. | Overview of the development of speaker recognition | |
CN112992155A (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN115064175A (zh) | 一种说话人识别方法 | |
Piotrowski et al. | Subscriber authentication using GMM and TMS320C6713DSP | |
CN113948093A (zh) | 一种基于无监督场景适应的说话人识别方法及系统 | |
CN106920557A (zh) | 一种基于小波变换的分布声纹识别方法和装置 | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Neiberg | Text Independent speaker verification using adapted Gaussian mixture models | |
CN116129911B (zh) | 一种基于概率球面判别分析信道补偿的说话人识别方法 | |
Cheung et al. | Multi-sample fusion with constrained feature transformation for robust speaker verification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 311422 4th floor, building 9, Yinhu innovation center, 9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province Patentee after: Zhejiang Xinmai Microelectronics Co.,Ltd. Address before: 311400 4th floor, building 9, Yinhu innovation center, No.9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province Patentee before: Hangzhou xiongmai integrated circuit technology Co.,Ltd. |