CN116631406B - 基于声学特征生成的身份特征提取方法、设备及存储介质 - Google Patents

基于声学特征生成的身份特征提取方法、设备及存储介质 Download PDF

Info

Publication number
CN116631406B
CN116631406B CN202310896134.5A CN202310896134A CN116631406B CN 116631406 B CN116631406 B CN 116631406B CN 202310896134 A CN202310896134 A CN 202310896134A CN 116631406 B CN116631406 B CN 116631406B
Authority
CN
China
Prior art keywords
identity
acoustic
layer
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310896134.5A
Other languages
English (en)
Other versions
CN116631406A (zh
Inventor
魏光村
许云飞
张艳娜
闵航
潘志飞
方卿阁
孟春雨
郭泊言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202310896134.5A priority Critical patent/CN116631406B/zh
Publication of CN116631406A publication Critical patent/CN116631406A/zh
Application granted granted Critical
Publication of CN116631406B publication Critical patent/CN116631406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于说话人确认技术领域,公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中,长声学特征中包含的说话人特征信息多,因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征;然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。本发明利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。

Description

基于声学特征生成的身份特征提取方法、设备及存储介质
技术领域
本发明属于说话人确认技术领域,涉及一种基于声学特征生成的身份特征提取方法、设备及存储介质。
背景技术
说话人日志解决的是“谁在什么时候说话”的问题。说话人日志说话人日志通常分成语音活动检测、语音分割、身份特征提取、打分聚类等步骤。
语音活动检测就是检测静音片段并去除,语音分割就是将整段语音分割成小片段,当小片段足够短的时候可以认为该片段只包含一个说话人,身份特征提取就是使用身份特征提取模型提取小片段的身份特征,最后就是将所有的身份特征两两打分并聚类。
其中最影响结果的就是提取出来的身份特征的好坏,好的身份特征表现为较小的类内距离,较大的类间距离,相对应的同类的打分高,不同类的打分低。
可见,身份特征提取的质量决定了后续打分聚类的结果。
现今即使是最好的身份特征提取模型,虽然面对较长的语音时效果出色,然而在面对较短的语音时效果严重下降。所以通过语音分割的片段越长,提取出来的身份特征越好,打分越靠谱。但是小片段过长,则有很大概率包含多个人的声音,所以小片段不能过长。
如图1所示,为了保证分割出的语音片段中只包含一个人的语音,往往分割出的语音片段比较短。而短语音片段中包含的信息较少,提取出来的身份特征也没有很强的区分度。
因此,需要提出一个在短语音条件下更鲁棒的身份特征提取模型,以便针对短语音条件下的身份特征提取进行优化,从而改善整个说话人日志任务的效果。
发明内容
本发明的目的在于提出一种基于声学特征生成的身份特征提取方法,以实现在短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
本发明为了实现上述目的,采用如下技术方案:
一种基于声学特征生成的身份特征提取方法,包括如下步骤:
步骤1.搭建包括生成模型以及身份特征提取模型的网络模型;
生成模型包括上下文编码器、时间步编码器以及解码器;
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,解码器用于生成声学特征;
身份特征提取模型采用预训练好的身份特征提取模型;
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;
步骤2.利用训练集对生成模型进行训练,优化生成模型的网络参数;
步骤3.在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
在上述基于声学特征生成的身份特征提取方法的基础上,本发明还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的基于声学特征生成的身份特征提取方法的步骤。
在上述基于声学特征生成的身份特征提取方法的基础上,本发明还提出了一种计算机可读存储介质,在计算机可读存储介质上存储有程序。
该程序被处理器执行时用于实现上述基于声学特征生成的身份特征提取方法的步骤。
本发明具有如下优点:
如上所述,本发明述及了一种基于声学特征生成的身份特征提取方法,该身份特征提取方法设计并训练出一个生成模型,其能够根据短音频的声学特征生成更长的声学特征,从而使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征,实现了短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
附图说明
图1为现有技术中身份特征提取方法的流程图。
图2为本发明实施例中基于声学特征生成的身份特征提取方法的流程图。
图3为本发明实施例中上下文编码器的结构示意图。
图4为本发明实施例中时间步编码器的结构示意图。
图5为本发明实施例中解码器的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
实施例1
长声学特征中包含的说话人特征信息多,因此,身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征。然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。
针对该问题,本实施例利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型将利用更多的语音信息提取出具有更强区分性的身份特征,最终获得更加准确的打分。
如图2所示,本发明的核心就是训练出一个生成模型,输入较短的数据例如1.5秒的声学特征,输出生成的1.5秒的声学特征,再利用一共3秒的声学特征提取出身份特征,该身份特征相比于只利用1.5秒声学特征提取出的身份特征可区分性更强。
通过此种方式获得了在短语音条件下更鲁棒的身份特征提取。
如图2所示,本实施例中基于声学特征生成的身份特征提取方法,包括如下步骤:
步骤1.搭建包括生成模型以及身份特征提取模型的网络模型。
生成模型包括上下文编码器、时间步编码器以及解码器。
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,解码器用于生成声学特征。
身份特征提取模型采用预训练好的身份特征提取模型。
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征(将获取到的短音频的声学特征)首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量。
本实施例中短音频是指小于或等于2秒的音频。
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征。
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征。
如图3所示,上下文编码器包括一维卷积层、池化层以及线性层。
定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C×T;则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1。
第一声学特征通过一维卷积层后输出尺寸为1500×T。
池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量。
最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息。
如图4所示,时间步编码器其包含单层双向GRU层以及线性层;
GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。
如图5所示,解码器包括GRU层以及线性层。
其中,GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来。
第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量。
第二步至第M步的计算过程为:
当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输入为上一步的隐藏层输出。
各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层,通过线性层输出一帧C个通道的声学特征。
经过M步计算得到M帧C个通道的声学特征,即第二声学特征。
步骤2.利用训练集对生成模型进行训练,优化生成模型的网络参数。
在对生成模型进行训练之前,首先要预先训练出一个身份特征提取模型FE(x,θ)。本实施例中选用ECAPA-TDNN模型作为身份特征提取模型。
由于身份特征提取模型FE(x,θ)比较常见,本实施例不作进一步详细描述。
假设一共有N条用于训练的语音,分别来自P个人,每个批次的训练过程如下:
步骤2.1.从训练集中随机选择p个人,每人n条语音,将每个语音提取声学特征,获得p×n个完整的声学特征;其中,p、P均为自然数,且p小于P。
步骤2.2.从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征,若帧长不够截取,则通过复制原数据的方式来满足帧长。
步骤2.3.将z帧的第一声学特征输入生成模型中,输出z帧的第二声学特征,将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征。
步骤2.4.将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型FE(x,θ)中,输出第一身份特征向量ei l;将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型FE(x,θ)中,输出第二身份特征向量ei s
步骤2.5.从第二身份特征向量ei s中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征,作为该身份特征的负样本ei sn
从第二身份特征向量ei s中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征,作为该身份特征的正样本ei sp
步骤2.6.利用正样本和负样本以及余弦距离计算三元组损失losst,公式如下:
利用第一身份特征向量和第二身份特征向量计算余弦距离损失lossc,公式如下:
生成模型的损失函数为三元组损失losst与余弦距离损失lossc之和。
步骤2.7.反向传播,更新生成模型的参数。
步骤2.8.返回步骤2.1,直至生成模型收敛或者达到训练轮次。
步骤3.在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征。
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
本实施例通过所提生成模型,能够根据短音频的声学特征生成更长的声学特征,使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征,实现了短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
此外,本发明还给出了如下实验,以验证本发明所提身份特征提取方法的有效性。
1.预训练身份特征提取模型。
本实施例中使用ECAPA-TDNN模型作为身份特征提取模型。
使用知名数据集VoxCeleb2中的开发集进行训练,批次大小为400,学习率为0.001,训练80轮,每轮学习率降低3%。训练使用Adam优化器。
2.训练生成模型。
每批选8个人每人8条语音。使用RMSprop优化器。学习率初始为0.0001,每轮降低3%。一共训练40轮。使用150帧的短声学特征作为生成模型的输入进行训练。
3.测试说话人日志任务。
测试数据使用知名的AMI数据集中的Full-corpus部分,该部分一共有24个会议音频,每个音频中有3至4个说话人。以1.5s为窗长0.75秒为窗移将整段语音分割成小片段,使用谱聚类,使用DER评估整个说话人日志任务的性能,DER越小越好。结果见表1。
表1
由表1不难看出,本发明使用生成模型对身份特征提取模型ECAPA-TDNN进行增强后,在表1中示出的两种条件下DER都得到降低,表明本发明方法针对短语音条件下的身份特征提取确实起到了优化效果,从而利于改善整个说话人日志任务的效果。
实施例2
本实施例2述及了一种计算机设备,该计算机设备用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。
该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码,当处理器执行可执行代码时,用于实现上述基于声学特征生成的身份特征提取方法的步骤。
本实施例中计算机设备为任意具备数据数据处理能力的设备或装置,此处不再赘述。
实施例3
本实施例3述及了一种计算机可读存储介质,该计算机可读存储介质用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。
本实施例3中的计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述基于声学特征生成的身份特征提取方法的步骤。
该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元,例如硬盘或内存,也可以是任意具备数据处理能力的设备的外部存储设备,例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (5)

1.一种基于声学特征生成的身份特征提取方法,其特征在于,包括如下步骤:
步骤1.搭建包括生成模型以及身份特征提取模型的网络模型;
生成模型包括上下文编码器、时间步编码器以及解码器;
上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,解码器用于生成声学特征;
身份特征提取模型采用预训练好的身份特征提取模型;
其中,短音频在网络模型中的信号处理流程如下:
短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;
解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;
将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;
步骤2.利用训练集对生成模型进行训练,优化生成模型的网络参数;
步骤3.在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;
将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征;
所述上下文编码器包括一维卷积层、池化层以及线性层;
定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C×T,则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1;
第一声学特征通过一维卷积层后输出尺寸为1500×T;
池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量;
最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息;
所述时间步编码器其包含单层双向GRU层以及线性层;
GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。
2.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
解码器包括GRU层以及线性层;
GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来;
第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量;
第二步至第M步的计算过程为:
当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输入为上一步的隐藏层输出;
各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层,通过线性层输出一帧C个通道的声学特征;
经过M步计算得到M帧C个通道的声学特征,即第二声学特征。
3.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,
所述步骤2中,生成模型训练的过程如下:
假设一共有N条用于训练的语音,分别来自P个人,每个批次的训练过程如下:
步骤2.1.从训练集中随机选择p个人,每人n条语音,将每个语音提取声学特征,获得p×n个完整的声学特征;其中,p、P均为自然数,且p小于P;
步骤2.2.从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和2z帧的第四声学特征,若帧长不够截取,则通过复制原数据的方式来满足帧长;
步骤2.3.将z帧的第一声学特征输入生成模型中,输出z帧的第二声学特征,将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征;
步骤2.4.将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型FE(x,θ)中,输出第一身份特征向量ei l;将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型FE(x,θ)中,输出第二身份特征向量ei s
步骤2.5.从第二身份特征向量ei s中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征,作为该身份特征的负样本ei sn
从第二身份特征向量ei s中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征,作为该身份特征的正样本ei sp
步骤2.6.利用正样本和负样本以及余弦距离计算三元组损失losst,公式如下:
利用第一身份特征向量和第二身份特征向量计算余弦距离损失lossc,公式如下:
生成模型的损失函数为三元组损失losst与余弦距离损失lossc之和;
步骤2.7.反向传播,更新生成模型的参数;
步骤2.8.返回步骤2.1,直至生成模型收敛或者达到训练轮次。
4.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,
实现如权利要求1至3任一项所述的基于声学特征生成的身份特征提取方法。
5.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至3任一项所述的基于声学特征生成的身份特征提取方法。
CN202310896134.5A 2023-07-21 2023-07-21 基于声学特征生成的身份特征提取方法、设备及存储介质 Active CN116631406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310896134.5A CN116631406B (zh) 2023-07-21 2023-07-21 基于声学特征生成的身份特征提取方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310896134.5A CN116631406B (zh) 2023-07-21 2023-07-21 基于声学特征生成的身份特征提取方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116631406A CN116631406A (zh) 2023-08-22
CN116631406B true CN116631406B (zh) 2023-10-13

Family

ID=87642098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310896134.5A Active CN116631406B (zh) 2023-07-21 2023-07-21 基于声学特征生成的身份特征提取方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116631406B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
KR20190091837A (ko) * 2018-01-29 2019-08-07 에스케이텔레콤 주식회사 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN114530156A (zh) * 2022-02-25 2022-05-24 国家电网有限公司 用于短语音说话人确认的生成对抗网络优化方法及系统
CN115547345A (zh) * 2022-09-29 2022-12-30 阿里巴巴达摩院(杭州)科技有限公司 声纹识别模型训练及相关识别方法、电子设备和存储介质
US11605388B1 (en) * 2020-11-09 2023-03-14 Electronic Arts Inc. Speaker conversion for video games

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
CN112262431A (zh) * 2018-09-25 2021-01-22 谷歌有限责任公司 使用说话者嵌入和所训练的生成模型的说话者日志
US11232782B2 (en) * 2019-08-30 2022-01-25 Microsoft Technology Licensing, Llc Speaker adaptation for attention-based encoder-decoder

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
KR20190091837A (ko) * 2018-01-29 2019-08-07 에스케이텔레콤 주식회사 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
US11605388B1 (en) * 2020-11-09 2023-03-14 Electronic Arts Inc. Speaker conversion for video games
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN114530156A (zh) * 2022-02-25 2022-05-24 国家电网有限公司 用于短语音说话人确认的生成对抗网络优化方法及系统
CN115547345A (zh) * 2022-09-29 2022-12-30 阿里巴巴达摩院(杭州)科技有限公司 声纹识别模型训练及相关识别方法、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-Feature Learning with Canonical Correlation Analysis Constraint for Text-Independent Speaker Verification;Zheng Li et al;2021 IEEE Spoken Language Technology Workshop (SLT);全文 *
Wavelet Packet Sub-band Cepstral Coefficient for Speaker Verification;Hang Min et al;2022 IEEE 6th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC );全文 *
语音识别中神经网络声学模型的说话人自适应研究;金超;龚铖;李辉;;计算机应用与软件(02);全文 *

Also Published As

Publication number Publication date
CN116631406A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN110047510A (zh) 音频识别方法、装置、计算机设备及存储介质
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
WO2019237518A1 (zh) 模型库建立方法、语音识别方法、装置、设备及介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN109872720A (zh) 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
CN110544472B (zh) 提升使用cnn网络结构的语音任务的性能的方法
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN116631406B (zh) 基于声学特征生成的身份特征提取方法、设备及存储介质
Le et al. Personalized speech enhancement combining band-split rnn and speaker attentive module
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
Hizlisoy et al. Text independent speaker recognition based on MFCC and machine learning
Mardhotillah et al. Speaker recognition for digital forensic audio analysis using support vector machine
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
Renisha et al. Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant