CN113643709B - 一种基于mean-SAP池化模型的说话人识别方法及系统 - Google Patents

一种基于mean-SAP池化模型的说话人识别方法及系统 Download PDF

Info

Publication number
CN113643709B
CN113643709B CN202110894996.5A CN202110894996A CN113643709B CN 113643709 B CN113643709 B CN 113643709B CN 202110894996 A CN202110894996 A CN 202110894996A CN 113643709 B CN113643709 B CN 113643709B
Authority
CN
China
Prior art keywords
level features
frame
speech
weighted
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110894996.5A
Other languages
English (en)
Other versions
CN113643709A (zh
Inventor
邓飞
邓力洪
张葛祥
杨强
姚光乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Original Assignee
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Turing Zhiyang Information Technology Co ltd, Chengdu Univeristy of Technology filed Critical Chengdu Turing Zhiyang Information Technology Co ltd
Priority to CN202110894996.5A priority Critical patent/CN113643709B/zh
Publication of CN113643709A publication Critical patent/CN113643709A/zh
Application granted granted Critical
Publication of CN113643709B publication Critical patent/CN113643709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于mean‑SAP池化模型的说话人识别方法及系统,该方法及系统通过线性注意力机制产生每帧帧级特征的重要性权重,并通过产生的重要性权重生成统计向量,然后将帧级特征和统计向量的残差与重要性权重加权平均生成话语级特征。最后将话语级特征与数据库中的说话人特征进行欧式距离比较,以确定说话人身份。本发明通过线性注意力机制及引入统计向量的方式,弥补了Self‑attention pooling(SAP)池化模型捕捉有效帧不准确生成的话语级特征鲁棒性弱的问题,提高了说话人识别的准确率。

Description

一种基于mean-SAP池化模型的说话人识别方法及系统
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种基于mean-SAP池化模型的说话人识别方法及系统。
背景技术
基于卷积神经网络的端到端说话人识别系统中,一般采用平均时间池化模型(TAP)将变长的音频聚合为定长的话语级特征。TAP模型可以沿着时间轴进行简单的平均池化。然而,我们的声音有时会变化,甚至在说话时发生停顿。TAP池化模型无法捕捉到这些变化,因此聚合出的话语级特征差,识别准确率低。
近年来,一些学者对池化模型进行了研究。其中(作者)提出了Self-attentionpooling(SAP)池化模型,该方法解决了传统池化模型只能平等的聚合帧级特征的问题,它可自动计算卷积神经网络提取出的每帧帧级特征的重要性进行帧选择,再聚合为定长的话语级特征。但是该方法偶尔会表现出比TAP池化模型更低的识别准确率,说明该方法无法准确的进行帧选择,并且在有噪环境下聚合的话语级特征鲁棒性弱识别效果不理想。
发明内容
本发明针对现有技术存在的不足,提供了一种基于mean-SAP池化模型的说话人识别方法及系统,解决了现有技术中无法准确进行帧选择的问题,提取出的话语级特征鲁棒性弱,提升模型识别的准确率。通过使用本发明的方法可以实现提取出鲁棒性更强的话语级特征,取得更好的识别效果。
本发明的具体技术方案如下:
一种基于基于mean-SAP池化模型的说话人识别方法及系统,如图1所示,包括以下步骤:
步骤1:获取原始音频的线性谱图;
步骤2:使用梅尔滤波器滤波对线性谱图进行滤波得到梅尔谱图;
步骤3:将梅尔谱图放入训练网络中进行训练,提取训练网络中的最后一个卷积层的输出,得到帧级特征;
步骤4:根据帧级特征生成相应的每帧特征的重要性权重;
步骤5:通过神经网络生成与帧级特征同大小的统计向量,并训练出最优的统计向量;
步骤6:将帧级特征与重要性权重映射加权;
步骤7:将重要性权重沿着时间方向加和与统计向量加权;
步骤8:将加权后的帧级特征与加权后的统计向量的残差求和平均生成话语级特征;
步骤9:将话语级特征与数据库中的特征向量进行欧式距离计算,并与阈值比较,最终识别出说话人。
作为优选:步骤1中可以通过短时傅里叶变化获取原始音频的线性谱图,其表达式为:
式中x(m)为m时刻的信号,w(n-m)为窗函数,w为角频率的连续函数,n为关于时间的离散函数,j为大于0小于N-1的整数。
作为优选:步骤4中重要性权重根据线性注意力机制及softmax函数生成,其表达式为:
et=fSL(xt)=wTxt+b
式中,fSL(·)为线性注意力机制,w为线性注意力机制中的权重b为偏置,wt为生成的重要性权重。
作为优选:步骤6中帧级特征与重要性权重映射加权得到加权后的帧级特征,其表达式为:
Xt=wtxt
式中,Xt为加权后的帧级特征,xt为帧级特征,wt为相应的重要性权重。
作为优选:步骤7中重要性权重沿着时间方向加和与统计向量加权后得到加权的统计向量,其表达式为:
A=wa
式中,w为沿着时间方向加和后的重要性权重,wt为相应的重要性权重,a为统计向量,A为加权后的统计向量。
作为优选:步骤8中话语级特征由加权后的帧级特征与加权后的统计向量的残差求和平均,其表达式为:
ht=wtXt-wA
式中,ht为残差特征,wt为相应的重要性权重,A为加权后的统计向量,Xt为加权后的帧级特征,L为帧级特征的数量,w为沿着时间方向加和后的重要性权重,e为最终生成的话语级特征。
作为优选:步骤9中识别出说话人通过话语级特征与数据库中的特征向量进行欧式距离计算,并与阈值比较,其表达式为:
式中,xi为提取出的话语级特征,yi为库中已有的目标,L为话特征向量长度。
有益效果在于:
本发明可以适用于各种网络模型,能够直接嵌入到网络模型中,能够获得鲁棒性更强的话语级特征,提升识别准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明方法的总体结构图;
图2为池化模型示意图;
图3为训练损失曲线图;
图4为训练测试等错误率曲线图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
本发明实施例,如图1所示,本发明提供一种基于改进池化模型的说话人识别方法,包括一下步骤:
1.加载原始音频,从原始音频中提取出谱图,提取过程为:
A1:使用短时傅里叶变换得到线性谱图。其公式可表示为:
式中x(m)为m时刻的信号,w(n-m)为窗函数,w为角频率的连续函数,n为关于时间的离散函数,j为大于0小于N-1的整数。
A2:将A1中得到的线性图谱通过梅尔滤波器滤波得到梅尔谱图。
A3:将梅尔谱图放入ThinResNet-34网络提取出帧级特征,其中ThinResNet-34网络结构如表1所示:
表1 ThinResNet-34网络结构表
2.将提取出的帧级特征通过池化模型聚合为定长的话语级特征,具体步骤如下:
A1:使用线性注意力机制测试生成的帧级特征每帧的重要性,并通过softmax函数生成重要性权重。其表达式为:
et=fSL(xt)=wTxt+b (2)
A2:通过ThinResNet-34生成与帧级特征同大小的统计向量。
A3:帧级特征与重要性权重映射加权,如下公式所示:
Xt=wtxt (4)
其中xt为帧级特征,wt为相应的重要性权重。
A3:将重要性权重沿着时间方向加和后与统计向量加权,如下公式所示:
A=wa (6)
A4:将S6的帧级向量和S7的统计向量求和平均生成话语级特征如:
ht=wtXt-wA (7)
3.将话语级特征与说话人据库中已有的特征向量进行欧式距离计算。计算公式如下所示:
式中,xi为提取出的话语级特征,yi为库中已有的目标,L为话特征向量长度。
本方法使用的数据集为近年来国际通用的Voxceleb数据集。Voxceleb为一个大型的“在野外”收集的不依赖于文本的有噪语音数据集。训练集Voxceleb2数据集中共包含5994人的1092009条语音。测试集为Voxceleb1的测试集,包含40人的4874条语音,采用Voxceleb官方给出的测试列表共37720个测试对。网络模型选取ThinResNet-34网络进行帧级特征提取。训练过程中器损失曲线如图3所示,每隔五轮在验证集上进行一次测试等错误率变化曲线如图4所示。在模型训练好后,分别采用TAP池化模型、SAP池化模型、NetVLAD池化模型和mean-SAP池化模型在验证集上进行测试,结果如表2所示。使用本方法后的测试结果相对于使用SAP池化模型的准确率提高了。
表2
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种基于mean-SAP池化模型的说话人识别方法,其特征在于,包括以下步骤:
S1:获取原始音频的线性谱图;
S2:根据所述步骤S1得到的线性谱图通过梅尔滤波器得到梅尔谱图;
S3:所述步骤S2得到的梅尔谱图放入训练网络中进行训练,提取训练网络中的最后一个卷积层的输出,得到帧级特征;
S4:生成每帧特征的重要性权重;
S5:通过神经网络生成与帧级特征同大小的统计向量,并训练出最优的统计向量;
S6:将步骤S3的帧级特征与步骤S4的重要性权重映射加权;
S7:将步骤S4生成的重要性权重沿着时间方向加和与所述步骤S5的统计向量加权;
S8:步骤S6得到的加权后的帧级特征与步骤S7得到的加权后的统计向量的残差求和平均生成话语级特征;
S9:将步骤8的话语级特征与数据库中的特征向量进行欧式距离计算,并与阈值比较,最终识别出说话人;
所述步骤S4中,根据线性注意力机制测试所述步骤S3中得到的帧级特征每帧的重要性,并通过下式生成重要性权重:
et=fSL(xt)=wTxt+b
式中,fSL(·)为线性注意力机制,w为线性注意力机制中的权重b为偏置,wt为生成的重要性权重;
所述步骤S7中,重要性权重沿着时间方向加和后与统计向量加权,根据下式进行:
A=wa
式中,w为沿着时间方向加和后的重要性权重,wt为相应的重要性权重,a为统计向量,A为加权后的统计向量。
2.按照权利要求1所述的方法,其特征在于,所述步骤S1中,获取原始音频的线性谱图,包括根据短时傅里叶变换处理原始音频得到线性谱图。
3.按照权利要求2所述的方法,其特征在于,所述步骤S1中,
根据短时傅里叶变换得到线性谱图,其公式表示为:
式中x(m)为m时刻的信号,w(n-m)为窗函数,w为角频率的连续函数,n为关于时间的离散函数,k为大于0小于N-1的整数。
4.按照权利要求1所述的方法,其特征在于,所述步骤S6中:根据下式进行帧级特征与重要性权重映射加权:
Xt=wtxt
式中,Xt为加权后的帧级特征,xt为帧级特征,wt为相应的重要性权重。
5.按照权利要求1所述的方法,其特征在于,所述步骤S8:步骤S6得到的加权后的帧级特征与步骤S7得到的加权后的统计向量的残差求和平均生成话语级特征,按照下式进行:
ht=wtXt-wA
式中,ht为残差特征,wt为相应的重要性权重,A为加权后的统计向量,Xt为加权后的帧级特征,L为帧级特征的数量,w为沿着时间方向加和后的重要性权重,e为最终生成的话语级特征。
6.按照权利要求1所述的方法,其特征在于,所述步骤S9中,
话语级特征与说话人据库中已有的特征向量进行欧式距离计算,计算公式如下所示:
式中,xi为提取出的话语级特征,yi为库中已有的目标,L为话特征向量长度;
根据d与阈值的大小来判定说话人。
CN202110894996.5A 2021-08-03 2021-08-03 一种基于mean-SAP池化模型的说话人识别方法及系统 Active CN113643709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110894996.5A CN113643709B (zh) 2021-08-03 2021-08-03 一种基于mean-SAP池化模型的说话人识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110894996.5A CN113643709B (zh) 2021-08-03 2021-08-03 一种基于mean-SAP池化模型的说话人识别方法及系统

Publications (2)

Publication Number Publication Date
CN113643709A CN113643709A (zh) 2021-11-12
CN113643709B true CN113643709B (zh) 2023-07-18

Family

ID=78419733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110894996.5A Active CN113643709B (zh) 2021-08-03 2021-08-03 一种基于mean-SAP池化模型的说话人识别方法及系统

Country Status (1)

Country Link
CN (1) CN113643709B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038469B (zh) * 2021-08-03 2023-06-20 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
US10706857B1 (en) * 2020-04-20 2020-07-07 Kaizen Secure Voiz, Inc. Raw speech speaker-recognition
CN111445913A (zh) * 2020-03-24 2020-07-24 南开大学 基于神经网络的声纹特征提取方法和装置
CN111554305A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN111816167A (zh) * 2020-07-22 2020-10-23 苏州思必驰信息科技有限公司 说话者嵌入学习方法、说话者识别方法及系统
EP3783605A1 (en) * 2019-08-23 2021-02-24 SoundHound, Inc. Vehicle-mounted apparatus, method of processing utterance, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102655791B1 (ko) * 2018-08-27 2024-04-09 삼성전자주식회사 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
US10803875B2 (en) * 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3783605A1 (en) * 2019-08-23 2021-02-24 SoundHound, Inc. Vehicle-mounted apparatus, method of processing utterance, and program
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111445913A (zh) * 2020-03-24 2020-07-24 南开大学 基于神经网络的声纹特征提取方法和装置
US10706857B1 (en) * 2020-04-20 2020-07-07 Kaizen Secure Voiz, Inc. Raw speech speaker-recognition
CN111554305A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN111816167A (zh) * 2020-07-22 2020-10-23 苏州思必驰信息科技有限公司 说话者嵌入学习方法、说话者识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进LSTM的儿童语音情感识别模型;余莉萍;梁镇麟;梁瑞宇;;计算机工程(06);第40-49页 *

Also Published As

Publication number Publication date
CN113643709A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
US9536547B2 (en) Speaker change detection device and speaker change detection method
EP0691024B1 (en) A method and apparatus for speaker recognition
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US8543399B2 (en) Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
US6178399B1 (en) Time series signal recognition with signal variation proof learning
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
US5761639A (en) Method and apparatus for time series signal recognition with signal variation proof learning
CN108986824A (zh) 一种回放语音检测方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN111554305B (zh) 一种基于语谱图和注意力机制的声纹识别方法
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
CN112530407B (zh) 一种语种识别方法及系统
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN113643709B (zh) 一种基于mean-SAP池化模型的说话人识别方法及系统
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
CN111108551B (zh) 一种声纹鉴定方法和相关装置
JP2015516597A (ja) ピッチ周期の正確性を検出するための方法および装置
CN115659248A (zh) 一种电力设备缺陷识别方法、装置、设备及存储介质
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
CN113252323B (zh) 一种基于人耳听觉特性的断路器机械故障识别方法及系统
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
Wang et al. F0 estimation in noisy speech based on long-term harmonic feature analysis combined with neural network classification
CN114584230B (zh) 一种基于对抗网络与长短期记忆网络的预测信道建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant