CN116434759A - 一种基于srs-cl网络的说话人识别方法 - Google Patents
一种基于srs-cl网络的说话人识别方法 Download PDFInfo
- Publication number
- CN116434759A CN116434759A CN202310380703.0A CN202310380703A CN116434759A CN 116434759 A CN116434759 A CN 116434759A CN 202310380703 A CN202310380703 A CN 202310380703A CN 116434759 A CN116434759 A CN 116434759A
- Authority
- CN
- China
- Prior art keywords
- network
- srs
- confidence
- data
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SRS‑CL网络的说话人识别方法,属于说话人识别技术领域,包括步骤一:采集非约束场景下的带有高斯白噪声的说话人语音数据;步骤二:针对传统的Sup‑cl对比学习模型的不足,我们提出一种用于执行说话人识别任务的SRS‑CL模型;步骤三:使用步骤二中数据处理后得到的训练集对步骤二中构建的SRS‑CL模型进行训练;步骤四:将步骤二中数据处理后的测试集作为待识别说话人语音信号输入训练完成后的SRS‑CL模型,得到说话人识别结果。本发明采用小波变换和阈值去噪的方法对语音数据进行处理,将其转换为时频图,并通过对比学习网络进行语音信号的特征提取和训练,以提高网络在高噪声环境下的特征提取能力,并实现说话人识别功能。
Description
技术领域
本发明涉及说话人识别领域,特别涉及一种基于SRS-CL网络的说话人识别方法。
背景技术
说话人识别,也称为声纹识别,是一种利用说话人语音中提取所需声纹特征的技术,以建立模型识别说话人身份。声纹识别在各行各业中应用广泛,如银行证券、公安司法、军队国防和信息认证,对人们的日常生活产生着越来越大的影响。
在非约束场景下,采集到的说话人语音数据可能混入各种环境白噪音,从而影响现有的说话人识别技术。目前,解决这一问题的方法是进行人工标注,但标注同样会带来大量的人工成本。此外,传统数据处理方法很难捕捉语音中信号的突变,导致无法满足非稳态信号变化的频率需求,这种信号突变也会影响说话人识别系统。随着深度学习技术的不断进步,声纹识别技术从原先的统计学习方法扩充到深度学习方法。本发明采用小波变换和阈值去噪的方式对数据进行处理,将语音数据转换为时频图,并经过预处理,通过对比学习网络进行语音信号特征提取和训练,以解决上述问题。
发明内容
本发明目的就在于为了解决上述的问题,而提供一种基于SRS-CL网络的说话人识别方法。
为实现上述目的,本发明采取的技术方案为:包括利用Voxceleb2数据集采集非约束场景下的带有高斯白噪声的说话人语音数据,其特征在于,针对说话人语音数据的处理提出了新的SRS-CL模型,所述SRS-CL模型包含依次相连的数据增强模块、预处理模块、对比学习模块,其SRS-CL模型的构建方法包括:
S1:在模型的开始使用小波变化编码器结构,将输入的语音数据进行分解;
S2:使用改进的阈值处理模块对数据去噪并转化为声谱图;
S3:获取Sup-cl网络,将网络的预处理模块中的ResNet-152(3×SK)网络替换为ResNet-50网络,提升模型的训练速度。
S4:将Sup-cl网络中的交叉熵损失函数替换为三元组损失函数,以提升网络的识别率与效率。
进一步地,所述数据增强具体步骤为:
第一步:利用小波变换对输入的说话人语音数据进行N次分解,以便于之后对数据进行去噪处理;
第二步:使用改进的阈值函数对分解后的各层小波系数进行阈值处理,以达到去除噪声的目的;
第三步:获取估计的小波系数,并对其进行重构,将语音数据转化为声谱图,以便于后续的网络训练;
第四步:将数据集划分为训练集和测试集,用于训练和测试SRS-CL模型。
进一步地,所述预处理模块包括:
一个数据增强模块,其原理是通过定义图像翻转函数T,对每张声谱图进行多角度翻转,从而得到两张增强后的声谱图。
一个基础编码器模块,它则采用ResNet-50网络提取上述声谱图的特征值(zi,zj),作为后续对比网络模块的输入数据。
进一步地,所述预处理模块具体步骤为:
第一步,通过增强函数T对每一张声谱图进行多角度的翻转从而得到两张声谱图;
第二步,对增强过的图像通过ResNet-50网络来获得图像特征值(zi,zj),并输出一个2048维的向量作为后续对比网络的输入数据。
进一步地,所述对比学习模块包括:
一个特征输入层,该层的目的是获取预处理模块中的图像特征值(zi,zj),并将其作为后续层次的输入;
一个比较层,目的是通过计算特征向量之间的相似度来拉近相似的特征向量,使其分组聚合。相反,不同组之间的特征向量被分散开来,使所有特征分组以便后续比较;
一个预测层,该层以预测输入属于的类别,根据特征向量计算出每个类别的概率,选取概率最大的类别作为输出;
一个损失函数层,该层以计算一个损失值,该损失值用于指导特征提取的学习,以使比较层输出更具有分类性。
进一步地,由以下方程定义对比学习模块:
其中:
公式(1)为余弦相似函数,用于比对特征值(zi,zj),来确定自信例以及噪声例与噪声对;
公式(2)为Top-K损失函数,用于提高模型模型对误标记的鲁棒性;
公式(3)为三元组损失函数,用于识别自信样本并将相似的自信样本分组为自信例;
公式(4)为自信对函数,用于将已识别的自信例转化为一组相关的自信对;
公式(5)为自信对集函数,用于利用公式(3)的三元组损失函数得到自信对集。
进一步地,对比学习模块具体步骤为:
第一步:通过公式(1)(2)和(3)对低维特征进行比对,以确定与给定标签一致的自信例,并使用公式(4)将这些自信例组成相关自信对;
第二步:利用第一步的公式同时可以通过标签的一致性来确定噪声例(noisyexamples)以及噪声对(noisy pairs);
第三步:对于存在不正确标签的自信对,即将两个数据错误地分类为同一类的情况,它们的相似度标签仍然一致。因此,我们可以利用噪声对来获得更自信的对,使SRS-CL网络在面对环境白噪声时仍能获得较高的识别率。
第四步:将上述自信对和更自信的对融合形成自信对集。因此,SRS-CL网络可以在标记较少的情况下进行对比学习训练以获得特征。
与现有技术相比,本发明具有如下有益效果:
1、本发明针对传统Sup-cl对比学习模型在说话人识别任务中存在的不足,提出了一种名为SRS-CL模型的解决方案。该模型采用小波变换和阈值去噪的方法对语音数据进行处理,将其转换为时频图,并利用预处理后的数据进行对比学习网络的特征提取和训练。相比传统模型,SRS-CL模型在高噪声环境下能够更有效地提取特征,并实现更准确的说话人识别功能。
2、本发明通过对监督对比学习网络结构的创新和改进,既能利用监督对比学习网络对于特征提取的高性能特点进行特征提取,又通过数据去噪以及数据预处理提高了模型对于正常说话人语音的环境白噪声的适应鲁棒性,使其能够有效地提取声纹特征并实现分类。
3、声纹提取网络需要大量数据量以及数据标注才能发挥更好的特征提取效果。本发明采用对比网络的特性得到更多的说话人特征样本,有利于发挥改进网络在少量标签的情况下提取特征效果,解决了使用传统网络进行特征提取时泛化能力不强的问题。
4、传统数据处理方法很难捕捉语音中信号的突变,导致无法满足非稳态信号变化的频率需求,这种信号突变也会影响说话人识别系统。本发明利用小波变换将声学问题转化为语音问题,使得对比学习网络能够提取语音特征并将非稳态信号转化为稳态信号。
附图说明
图1为本发明中一种基于SRS-CL网络的说话人识别方法的流程示意图;
图2为本发明实施例中基于SRS-CL网络模型的总结构示意图;
图3为本发明实施例中预训练模块的结构示意图;
图4为本发明实施例中对比学习模块的结构示意图;
图5为本发明实施例中基于SRS-CL网络模型训练原理示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-5所示,一种基于SRS-CL网络的说话人识别方法,包括如下步骤:
步骤一,采集非约束场景下的带有高斯白噪声的说话人语音数据。
在具体实施中,我们使用了Voxceleb2数据集。该数据集是通过一套基于计算机视觉技术开发的全自动程序从开源视频网站中捕捉而得到的。该数据集包括超过6000个说话人的超过百万个语音句子。这些语音数据的采样率为16kHz,位深为16bit,单声道,格式为PCM-WAV。该数据集适用于噪声和非约束场景下的声纹识别任务。此外,该数据集属于自然环境下的真实场景,数据集是文本无关的,说话人范围广泛,并且带有真实噪声,而非人造白噪声。
步骤二,针对传统的Sup-cl对比学习模型的不足,我们提出一种用于执行说话人识别任务的SRS-CL模型;
进一步,所述模型包含依次相连的数据增强模块、预训练模块、对比学习模块。
进一步地,所述数据增强的具体步骤包括三个过程。
分解过程,即选定一种小波对输入的说话人语音数据进行N层小波分解。
阈值处理过程,即对分解的各层系数进行阈值处理,获得估计小波系数。
重构过程,根据去噪后的小波系数进行小波重构,获得去噪后的信号,并将其转化为声谱图,以便后续的网络训练使用。
具体实施过程中,阈值处理过程当中采用对高噪声数据鲁棒性较好的改进的软硬阈值法进行阈值降噪:
对于一组说话人语音信号:
f(t)=s(t)+n(t)
式中:f(t)是含有噪声的语音信号,s(t)是有效信号,n(t)是噪声信号。若有N个采样点,对语音信号f(t)的一维小波变化如下:
式中:Wj,k为小波系数,φ(t)为一个母小波。
进一步,本发明采用改进的软硬阈值法进行降噪,阈值降噪函数如下:
进一步,所述预处理模块包括:
一个数据增强模块,其原理是通过定义图像翻转函数T,对每张声谱图进行多角度翻转,从而得到两张增强后的声谱图。
一个基础编码器模块,它则采用ResNet-50网络提取上述声谱图的特征值(zi,zj),作为后续对比网络模块的输入数据。
进一步,所述预处理模块的步骤为:
第一步,通过增强函数T对每一张声谱图进行多角度的翻转从而得到两张声谱图;
第二步,对增强过的图像通过ResNet-50网络来获得图像特征值(zi,zj),并输出一个2048维的向量作为后续对比网络的输入数据。
进一步,所述对比学习模块包括:
一个特征输入层,该层的目的是获取预处理模块中的图像特征值(zi,zj),并将其作为后续层次的输入;
一个比较层,目的是通过计算特征向量之间的相似度来拉近相似的特征向量,使其分组聚合。相反,不同组之间的特征向量被分散开来,使所有特征分组以便后续比较;
一个预测层,该层以预测输入属于的类别,根据特征向量计算出每个类别的概率,选取概率最大的类别作为输出;
一个损失函数层,该层以计算一个损失值,该损失值用于指导特征提取的学习,以使比较层输出更具有分类性。
进一步,由以下方程定义对比学习模块:
其中:
公式(1)为余弦相似函数,用于比对特征值(zi,zj),来确定自信例以及噪声例与噪声对;
公式(2)为Top-K损失函数,用于提高模型模型对误标记的鲁棒性;
公式(3)为三元组损失函数,用于识别自信样本并将相似的自信样本分组为自信例;
公式(4)为自信对函数,用于将已识别的自信例转化为一组相关的自信对;
公式(5)为自信对集函数,用于利用公式(3)的三元组损失函数得到自信对集。
进一步,对比网络的模块的步骤为:
第一步:通过公式(1)(2)和(3)对低维特征进行比对,以确定与给定标签一致的自信例,并使用公式(4)将这些自信例组成相关自信对;
第二步:利用第一步的公式同时可以通过标签的一致性来确定噪声例(noisyexamples)以及噪声对(noisy pairs);
第三步:对于存在不正确标签的自信对,即将两个数据错误地分类为同一类的情况,它们的相似度标签仍然一致。因此,我们可以利用噪声对来获得更自信的对,使SRS-CL网络在面对环境白噪声时仍能获得较高的识别率。
第四步:将上述自信对和更自信的对融合形成自信对集。因此,SRS-CL网络可以在标记较少的情况下进行对比学习训练以获得特征。
步骤三,使用步骤二中数据处理后得到的训练集对步骤二中构建的SRS-CL模型进行训练;
步骤四,将步骤二中数据处理后的测试集作为待识别说话人语音信号输入训练完成后的SRS-CL模型,得到说话人识别结果。
上述步骤三与步骤四具体实施过程中,使用下述损失函数进行模型训练并得出结果:
该网络的对比损失函数为:
LaLL=LMIX+λLCLS+λLsIM
cs
其中:
其中λc和λs为权重系数,我们在所有实验中设为λc=0.1,λs=0.01。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于SRS-CL网络的说话人识别方法,包括利用Voxceleb2数据集采集非约束场景下的带有高斯白噪声的说话人语音数据,其特征在于,针对说话人语音数据的处理提出了新的SRS-CL模型,所述SRS-CL模型包含依次相连的数据增强模块、预处理模块、对比学习模块,其SRS-CL模型的构建方法包括:
S1:在模型的开始使用小波变化编码器结构,将输入的语音数据进行分解;
S2:使用改进的阈值处理模块对数据去噪并转化为声谱图;
S3:获取Sup-cl网络,将网络的预处理模块中的ResNet-152(3×SK)网络替换为ResNet-50网络,提升模型的训练速度;
S4:将Sup-cl网络中的交叉熵损失函数替换为三元组损失函数,以提升网络的识别率与效率。
2.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法,其特征在于,所述数据增强具体步骤为:
第一步:利用小波变换对输入的说话人语音数据进行N次分解,以便于之后对数据进行去噪处理;
第二步:使用改进的阈值函数对分解后的各层小波系数进行阈值处理,以达到去除噪声的目的;
第三步:获取估计的小波系数,并对其进行重构,将语音数据转化为声谱图,以便于后续的网络训练;
第四步:将数据集划分为训练集和测试集,用于训练和测试SRS-CL模型。
3.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法,其特征在于,所述预处理模块包括:
一个数据增强模块,其原理是通过定义图像翻转函数T,对每张声谱图进行多角度翻转,从而得到两张增强后的声谱图;
一个基础编码器模块,它则采用ResNet-50网络提取上述声谱图的特征值(zi,zj),作为后续对比网络模块的输入数据。
4.根据权利要求3所述的一种基于SRS-CL网络的说话人识别方法,其特征在于,所述预处理模块具体步骤为:
第一步,通过增强函数T对每一张声谱图进行多角度的翻转从而得到两张声谱图;
第二步,对增强过的图像通过ResNet-50网络来获得图像特征值(zi,zj),并输出一个2048维的向量作为后续对比网络的输入数据。
5.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法,其特征在于,所述对比学习模块包括:
一个特征输入层,该层的目的是获取预处理模块中的图像特征值(zi,zj),并将其作为后续层次的输入;
一个比较层,目的是通过计算特征向量之间的相似度来拉近相似的特征向量,使其分组聚合;相反,不同组之间的特征向量被分散开来,使所有特征分组以便后续比较;
一个预测层,该层以预测输入属于的类别,根据特征向量计算出每个类别的概率,选取概率最大的类别作为输出;
一个损失函数层,该层以计算一个损失值,该损失值用于指导特征提取的学习,以使比较层输出更具有分类性。
7.根据权利要求6所述的一种基于SRS-CL网络的说话人识别方法,其特征在于,对比学习模块具体步骤为:
第一步:通过公式(1)(2)和(3)对低维特征进行比对,以确定与给定标签一致的自信例,并使用公式(4)将这些自信例组成相关自信对;
第二步:利用第一步的公式同时可以通过标签的一致性来确定噪声例(noisyexamples)以及噪声对(noisy pairs);
第三步:对于存在不正确标签的自信对,即将两个数据错误地分类为同一类的情况,它们的相似度标签仍然一致;因此,我们可以利用噪声对来获得更自信的对,使SRS-CL网络在面对环境白噪声时仍能获得较高的识别率;
第四步:将上述自信对和更自信的对融合形成自信对集,因此,SRS-CL网络可以在标记较少的情况下进行对比学习训练以获得特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380703.0A CN116434759B (zh) | 2023-04-11 | 2023-04-11 | 一种基于srs-cl网络的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380703.0A CN116434759B (zh) | 2023-04-11 | 2023-04-11 | 一种基于srs-cl网络的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434759A true CN116434759A (zh) | 2023-07-14 |
CN116434759B CN116434759B (zh) | 2024-03-01 |
Family
ID=87088586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310380703.0A Active CN116434759B (zh) | 2023-04-11 | 2023-04-11 | 一种基于srs-cl网络的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434759B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631410A (zh) * | 2023-07-25 | 2023-08-22 | 北京安吉贝玛健康科技有限公司 | 一种基于深度学习的语音识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
CN115424621A (zh) * | 2022-10-31 | 2022-12-02 | 北京科技大学 | 声纹识别模型的训练方法、声纹识别方法、装置及设备 |
US20230104228A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Joint Unsupervised and Supervised Training for Multilingual ASR |
-
2023
- 2023-04-11 CN CN202310380703.0A patent/CN116434759B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
US20230104228A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Joint Unsupervised and Supervised Training for Multilingual ASR |
CN115424621A (zh) * | 2022-10-31 | 2022-12-02 | 北京科技大学 | 声纹识别模型的训练方法、声纹识别方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
WANG XIAO 等: "Contrastive Learning With Stronger Augmentations", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 45, no. 5, pages 5549 - 5560, XP011937777, DOI: 10.1109/TPAMI.2022.3203630 * |
ZHOU TIANYAN 等: "RESNEXT AND RES2NET STRUCTURES FOR SPEAKER VERIFICATION", 《 2021 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT)》, pages 301 - 307 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631410A (zh) * | 2023-07-25 | 2023-08-22 | 北京安吉贝玛健康科技有限公司 | 一种基于深度学习的语音识别方法 |
CN116631410B (zh) * | 2023-07-25 | 2023-10-24 | 陈志丰 | 一种基于深度学习的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116434759B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
WO2015180368A1 (zh) | 一种半监督语音特征可变因素分解方法 | |
CN108399395A (zh) | 基于端到端深度神经网络的语音和人脸复合身份认证方法 | |
CN103730121B (zh) | 一种伪装声音的识别方法及装置 | |
CN110570845A (zh) | 一种基于域不变特征的语音识别方法 | |
Khdier et al. | Deep learning algorithms based voiceprint recognition system in noisy environment | |
CN108962229A (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
Wang et al. | A network model of speaker identification with new feature extraction methods and asymmetric BLSTM | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN116230019A (zh) | 一种基于半监督语音情感识别框架的深度情感聚类方法 | |
Ahmad et al. | Speech enhancement for multimodal speaker diarization system | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
Zhang et al. | Knowledge Distillation from Multi-Modality to Single-Modality for Person Verification}} | |
CN108573711A (zh) | 一种基于nmf算法的单传声器语音分离方法 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN116883900A (zh) | 一种基于多维生物特征的视频真伪鉴别方法和系统 | |
Zhang et al. | Depthwise separable convolutions for short utterance speaker identification | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Zhang | The algorithm of voiceprint recognition model based DNN-RELIANCE | |
Lin et al. | Overlapping animal sound classification using sparse representation | |
Wu | Speaker recognition based on i-vector and improved local preserving projection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |