CN116631406A - 基于声学特征生成的身份特征提取方法、设备及存储介质 - Google Patents
基于声学特征生成的身份特征提取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116631406A CN116631406A CN202310896134.5A CN202310896134A CN116631406A CN 116631406 A CN116631406 A CN 116631406A CN 202310896134 A CN202310896134 A CN 202310896134A CN 116631406 A CN116631406 A CN 116631406A
- Authority
- CN
- China
- Prior art keywords
- acoustic
- identity
- feature
- layer
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 19
- 239000010410 layer Substances 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 7
- 230000004069 differentiation Effects 0.000 abstract description 3
- 238000012790 confirmation Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于说话人确认技术领域,公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中,长声学特征中包含的说话人特征信息多,因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征;然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。本发明利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。
Description
技术领域
本发明属于说话人确认技术领域,涉及一种基于声学特征生成的身份特征提取方法、设备及存储介质。
背景技术
说话人日志解决的是“谁在什么时候说话”的问题。说话人日志说话人日志通常分成语音活动检测、语音分割、身份特征提取、打分聚类等步骤。
语音活动检测就是检测静音片段并去除,语音分割就是将整段语音分割成小片段,当小片段足够短的时候可以认为该片段只包含一个说话人,身份特征提取就是使用身份特征提取模型提取小片段的身份特征,最后就是将所有的身份特征两两打分并聚类。
其中最影响结果的就是提取出来的身份特征的好坏,好的身份特征表现为较小的类内距离,较大的类间距离,相对应的同类的打分高,不同类的打分低。
可见,身份特征提取的质量决定了后续打分聚类的结果。
现今即使是最好的身份特征提取模型,虽然面对较长的语音时效果出色,然而在面对较短的语音时效果严重下降。所以通过语音分割的片段越长,提取出来的身份特征越好,打分越靠谱。但是小片段过长,则有很大概率包含多个人的声音,所以小片段不能过长。
如图1所示,为了保证分割出的语音片段中只包含一个人的语音,往往分割出的语音片段比较短。而短语音片段中包含的信息较少,提取出来的身份特征也没有很强的区分度。
因此,需要提出一个在短语音条件下更鲁棒的身份特征提取模型,以便针对短语音条件下的身份特征提取进行优化,从而改善整个说话人日志任务的效果。
发明内容
本发明的目的在于提出一种基于声学特征生成的身份特征提取方法,以实现在短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
本发明为了实现上述目的,采用如下技术方案:
一种基于声学特征生成的身份特征提取方法,包括如下步骤:
步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型;
生成模型包括上下文编码器、时间步编码器以及解码器;
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征;
身份特征提取模型采用预训练好的身份特征提取模型;
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;
步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数;
步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
在上述基于声学特征生成的身份特征提取方法的基础上,本发明还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的基于声学特征生成的身份特征提取方法的步骤。
在上述基于声学特征生成的身份特征提取方法的基础上,本发明还提出了一种计算机可读存储介质,在计算机可读存储介质上存储有程序。
该程序被处理器执行时用于实现上述基于声学特征生成的身份特征提取方法的步骤。
本发明具有如下优点:
如上所述,本发明述及了一种基于声学特征生成的身份特征提取方法,该身份特征提取方法设计并训练出一个生成模型,其能够根据短音频的声学特征生成更长的声学特征,从而使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征,实现了短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
附图说明
图1为现有技术中身份特征提取方法的流程图。
图2为本发明实施例中基于声学特征生成的身份特征提取方法的流程图。
图3为本发明实施例中上下文编码器的结构示意图。
图4为本发明实施例中时间步编码器的结构示意图。
图5为本发明实施例中解码器的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
实施例1
长声学特征中包含的说话人特征信息多,因此,身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征。然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。
针对该问题,本实施例利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型将利用更多的语音信息提取出具有更强区分性的身份特征,最终获得更加准确的打分。
如图2所示,本发明的核心就是训练出一个生成模型,输入较短的数据例如1.5秒的声学特征,输出生成的1.5秒的声学特征,再利用一共3秒的声学特征提取出身份特征,该身份特征相比于只利用1.5秒声学特征提取出的身份特征可区分性更强。
通过此种方式获得了在短语音条件下更鲁棒的身份特征提取。
如图2所示,本实施例中基于声学特征生成的身份特征提取方法,包括如下步骤:
步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型。
生成模型包括上下文编码器、时间步编码器以及解码器。
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征。
身份特征提取模型采用预训练好的身份特征提取模型。
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征(将获取到的短音频的声学特征)首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量。
本实施例中短音频是指小于或等于2秒的音频。
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征。
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征。
如图3所示,上下文编码器包括一维卷积层、池化层以及线性层。
定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C×T;则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1。
第一声学特征通过一维卷积层后输出尺寸为1500×T。
池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量。
最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息。
如图4所示,时间步编码器其包含单层双向GRU层以及线性层;
GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。
如图5所示,解码器包括GRU层以及线性层。
其中,GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来。
第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量。
第二步至第M步的计算过程为:
当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输入为上一步的隐藏层输出。
各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层,通过线性层输出一帧C个通道的声学特征。
经过M步计算得到M帧C个通道的声学特征,即第二声学特征。
步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数。
在对生成模型进行训练之前,首先要预先训练出一个身份特征提取模型。本实施例中选用ECAPA-TDNN模型作为身份特征提取模型。
由于身份特征提取模型比较常见,本实施例不作进一步详细描述。
假设一共有N条用于训练的语音,分别来自P个人,每个批次的训练过程如下:
步骤2.1. 从训练集中随机选择p个人,每人n条语音,将每个语音提取声学特征,获得p×n个完整的声学特征;其中,p、P均为自然数,且 p小于P。
步骤2.2. 从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征,若帧长不够截取,则通过复制原数据的方式来满足帧长。
步骤2.3. 将z帧的第一声学特征输入生成模型中,输出z帧的第二声学特征,将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征。
步骤2.4. 将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型F E (x,θ)中,输出第一身份特征向量e i l ;将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型F E (x,θ)中,输出第二身份特征向量e i s 。
步骤2.5. 从第二身份特征向量e i s 中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征,作为该身份特征的负样本e i sn 。
从第二身份特征向量e i s 中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征,作为该身份特征的正样本e i sp 。
步骤2.6. 利用正样本和负样本以及余弦距离计算三元组损失loss t ,公式如下:
;
利用第一身份特征向量和第二身份特征向量计算余弦距离损失loss c ,公式如下:
;
生成模型的损失函数为三元组损失loss t 与余弦距离损失loss c 之和。
步骤2.7. 反向传播,更新生成模型的参数。
步骤2.8. 返回步骤2.1,直至生成模型收敛或者达到训练轮次。
步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征。
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
本实施例通过所提生成模型,能够根据短音频的声学特征生成更长的声学特征,使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征,实现了短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
此外,本发明还给出了如下实验,以验证本发明所提身份特征提取方法的有效性。
1. 预训练身份特征提取模型。
本实施例中使用ECAPA-TDNN模型作为身份特征提取模型。
使用知名数据集VoxCeleb2中的开发集进行训练,批次大小为400,学习率为0.001,训练80轮,每轮学习率降低3%。训练使用Adam优化器。
2. 训练生成模型。
每批选8个人每人8条语音。使用RMSprop优化器。学习率初始为0.0001,每轮降低3%。一共训练40轮。使用150帧的短声学特征作为生成模型的输入进行训练。
3. 测试说话人日志任务。
测试数据使用知名的AMI数据集中的Full-corpus部分,该部分一共有24个会议音频,每个音频中有3至4个说话人。以1.5s为窗长0.75秒为窗移将整段语音分割成小片段,使用谱聚类,使用DER评估整个说话人日志任务的性能,DER越小越好。结果见表1。
表1
身份特征提取模型 | 已知说话人个数条件下的DER(%) | 未知说话人个数条件下的DER(%) |
ECAPA-TDNN | 2.32 | 2.13 |
ECAPA-TDNN + 生成模型 | 1.74 | 2.04 |
由表1不难看出,本发明使用生成模型对身份特征提取模型ECAPA-TDNN进行增强后,在表1中示出的两种条件下DER都得到降低,表明本发明方法针对短语音条件下的身份特征提取确实起到了优化效果,从而利于改善整个说话人日志任务的效果。
实施例2
本实施例2述及了一种计算机设备,该计算机设备用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。
该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码,当处理器执行可执行代码时,用于实现上述基于声学特征生成的身份特征提取方法的步骤。
本实施例中计算机设备为任意具备数据数据处理能力的设备或装置,此处不再赘述。
实施例3
本实施例3述及了一种计算机可读存储介质,该计算机可读存储介质用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。
本实施例3中的计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述基于声学特征生成的身份特征提取方法的步骤。
该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元,例如硬盘或内存,也可以是任意具备数据处理能力的设备的外部存储设备,例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.一种基于声学特征生成的身份特征提取方法,其特征在于,包括如下步骤:
步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型;
生成模型包括上下文编码器、时间步编码器以及解码器;
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征;
身份特征提取模型采用预训练好的身份特征提取模型;
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;
步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数;
步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
2.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
所述上下文编码器包括一维卷积层、池化层以及线性层;
定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C×T,则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1;
第一声学特征通过一维卷积层后输出尺寸为1500×T;
池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量;
最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息。
3.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
所述时间步编码器其包含单层双向GRU层以及线性层;
GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。
4.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
解码器包括GRU层以及线性层;
GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来;
第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量;
第二步至第M步的计算过程为:
当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输入为上一步的隐藏层输出;
各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层,通过线性层输出一帧C个通道的声学特征;
经过M步计算得到M帧C个通道的声学特征,即第二声学特征。
5.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
所述步骤2中,生成模型训练的过程如下:
假设一共有N条用于训练的语音,分别来自P个人,每个批次的训练过程如下:
步骤2.1. 从训练集中随机选择p个人,每人n条语音,将每个语音提取声学特征,获得p×n个完整的声学特征;其中,p、P均为自然数,且 p小于P;
步骤2.2. 从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征,若帧长不够截取,则通过复制原数据的方式来满足帧长;
步骤2.3. 将z帧的第一声学特征输入生成模型中,输出z帧的第二声学特征,将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征;
步骤2.4. 将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型F E (x, θ)中,输出第一身份特征向量e i l ;将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型F E (x, θ)中,输出第二身份特征向量e i s ;
步骤2.5. 从第二身份特征向量e i s 中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征,作为该身份特征的负样本e i sn ;
从第二身份特征向量e i s 中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征,作为该身份特征的正样本e i sp ;
步骤2.6. 利用正样本和负样本以及余弦距离计算三元组损失loss t ,公式如下:
;
利用第一身份特征向量和第二身份特征向量计算余弦距离损失loss c ,公式如下:
;
生成模型的损失函数为三元组损失loss t 与余弦距离损失loss c 之和;
步骤2.7. 反向传播,更新生成模型的参数;
步骤2.8. 返回步骤2.1,直至生成模型收敛或者达到训练轮次。
6.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,
实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896134.5A CN116631406B (zh) | 2023-07-21 | 2023-07-21 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896134.5A CN116631406B (zh) | 2023-07-21 | 2023-07-21 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631406A true CN116631406A (zh) | 2023-08-22 |
CN116631406B CN116631406B (zh) | 2023-10-13 |
Family
ID=87642098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310896134.5A Active CN116631406B (zh) | 2023-07-21 | 2023-07-21 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631406B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080312926A1 (en) * | 2005-05-24 | 2008-12-18 | Claudio Vair | Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
KR20190091837A (ko) * | 2018-01-29 | 2019-08-07 | 에스케이텔레콤 주식회사 | 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
US20200342857A1 (en) * | 2018-09-25 | 2020-10-29 | Goggle Llc | Speaker diarization using speaker embedding(s) and trained generative model |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN113763966A (zh) * | 2021-09-09 | 2021-12-07 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及系统 |
US20220130376A1 (en) * | 2019-08-30 | 2022-04-28 | Microsoft Technology Licensing, Llc | Speaker adaptation for attention-based encoder-decoder |
CN114530156A (zh) * | 2022-02-25 | 2022-05-24 | 国家电网有限公司 | 用于短语音说话人确认的生成对抗网络优化方法及系统 |
CN115547345A (zh) * | 2022-09-29 | 2022-12-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 声纹识别模型训练及相关识别方法、电子设备和存储介质 |
US11605388B1 (en) * | 2020-11-09 | 2023-03-14 | Electronic Arts Inc. | Speaker conversion for video games |
-
2023
- 2023-07-21 CN CN202310896134.5A patent/CN116631406B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080312926A1 (en) * | 2005-05-24 | 2008-12-18 | Claudio Vair | Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
KR20190091837A (ko) * | 2018-01-29 | 2019-08-07 | 에스케이텔레콤 주식회사 | 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
US20200342857A1 (en) * | 2018-09-25 | 2020-10-29 | Goggle Llc | Speaker diarization using speaker embedding(s) and trained generative model |
US20220130376A1 (en) * | 2019-08-30 | 2022-04-28 | Microsoft Technology Licensing, Llc | Speaker adaptation for attention-based encoder-decoder |
US11605388B1 (en) * | 2020-11-09 | 2023-03-14 | Electronic Arts Inc. | Speaker conversion for video games |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN113763966A (zh) * | 2021-09-09 | 2021-12-07 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及系统 |
CN114530156A (zh) * | 2022-02-25 | 2022-05-24 | 国家电网有限公司 | 用于短语音说话人确认的生成对抗网络优化方法及系统 |
CN115547345A (zh) * | 2022-09-29 | 2022-12-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 声纹识别模型训练及相关识别方法、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
HANG MIN ET AL: "Wavelet Packet Sub-band Cepstral Coefficient for Speaker Verification", 2022 IEEE 6TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC ) * |
ZHENG LI ET AL: "Multi-Feature Learning with Canonical Correlation Analysis Constraint for Text-Independent Speaker Verification", 2021 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT) * |
Also Published As
Publication number | Publication date |
---|---|
CN116631406B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN110047510A (zh) | 音频识别方法、装置、计算机设备及存储介质 | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN110634472A (zh) | 一种语音识别方法、服务器及计算机可读存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN109872720A (zh) | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 | |
Burgos | Gammatone and MFCC features in speaker recognition | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
CN111091809A (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN118135999A (zh) | 基于边缘设备的离线语音关键词识别方法及装置 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN110544472B (zh) | 提升使用cnn网络结构的语音任务的性能的方法 | |
CN116631406B (zh) | 基于声学特征生成的身份特征提取方法、设备及存储介质 | |
Le et al. | Personalized speech enhancement combining band-split rnn and speaker attentive module | |
Renisha et al. | Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |