CN111816167B - 说话者嵌入学习方法、说话者识别方法及系统 - Google Patents

说话者嵌入学习方法、说话者识别方法及系统 Download PDF

Info

Publication number
CN111816167B
CN111816167B CN202010710651.5A CN202010710651A CN111816167B CN 111816167 B CN111816167 B CN 111816167B CN 202010710651 A CN202010710651 A CN 202010710651A CN 111816167 B CN111816167 B CN 111816167B
Authority
CN
China
Prior art keywords
speaker
frame
level
segment
depth features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010710651.5A
Other languages
English (en)
Other versions
CN111816167A (zh
Inventor
俞凯
王帅
杨叶新
钱彦旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202010710651.5A priority Critical patent/CN111816167B/zh
Publication of CN111816167A publication Critical patent/CN111816167A/zh
Application granted granted Critical
Publication of CN111816167B publication Critical patent/CN111816167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种说话者嵌入学习方法,包括:对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;采用仿射层将所述段级别深度特征转换为段级别说话者嵌入。本发明实施例在将帧级别深度特征转化为段级别深度特征时采用了二阶池化处理的方式,从而不仅考虑了帧级别的说话者特征,同时还兼顾了语音片段中的动态信息,使得最终学习到的说话者嵌入能够更加准确的反应说话者特征,提升了说话者嵌入特征的质量,也将有助于基于此所进行的说话者识别任务的准确性与可靠性。

Description

说话者嵌入学习方法、说话者识别方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种说话者嵌入学习方法、说话者识别方法及系统。
背景技术
目前,深层说话者嵌入是说话者身份建模的主要方法。与浅层模型(例如,高斯混合模型(GMM)或因子分析)不同,深层神经网络(DNN)显示了对于复杂的数据分布的难以置信的非线性建模能力。因此,最热门的主题之一是使用DNN进行表示学习,其目的是学习高度紧凑且信息丰富的嵌入以表示原始输入。
在说话人识别领域,d向量范式是第一个基于嵌入学习框架的著名的DNN,其使用说话者区分DNN提取帧级深度特征,然后将其平均为单个说话者嵌入。但是,尽管有功能强大的DNN前端,d向量仍然没有比常规i向量系统更好的结果。从d-vector框架衍生而来的以下工作中,x-vector结构合并了一个统计池层,以沿时间轴将多个帧级深度特征聚合为段级表示,从而将深度说话者嵌入学习转化为段级优化问题。x向量系统在包括VoxCeleb和NIST SRE在内的多个流行数据集上表现出更好的性能。
x向量的成功有两个方面,一个更强大的学习机(TDNN)和段级训练。出于相同的想法,一方面,针对说话者嵌入学习任务研究了不同的体系结构,例如,ResNet和初始网络。另一方面,事实证明,这种段级优化策略对于学习高质量的说话人嵌入很有帮助。为了实现段级优化,需要一个池化层来将帧级特征聚合为单个表示。
发明内容
本发明实施例提供一种说话者嵌入学习方法、说话者识别方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种说话者嵌入学习方法,包括:
对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;
对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;
采用仿射层将所述段级别深度特征转换为段级别说话者嵌入。
第二方面,本发明实施例提供一种说话者识别方法,包括:采用本发明任一实施例所述的说话者嵌入学习方法得到说话者嵌入;基于所述说话者嵌入进行说话者识别。
第三方面,本发明实施例提供一种说话者嵌入学习系统,包括:
帧级别特征提取模块,用于对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;
二阶池化处理模块,用于对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;
仿射层模块,用于将所述段级别深度特征转换为段级别说话者嵌入。
第四方面,本发明实施例提供一种说话者识别系统,包括本发明任一实施例所述的说话者嵌入学习系统,用于执行本发明任一实施例所述的说话者嵌入学习方法,以实现说话者识别。
第五方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项说话者嵌入学习方法和/或说话者识别方法。
第六方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项说话者嵌入学习方法和/或说话者识别方法。
第七方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项说话者嵌入学习方法和/或说话者识别方法。
本发明实施例的有益效果在于:在将帧级别深度特征转化为段级别深度特征时采用了二阶池化处理的方式,从而不仅考虑了帧级别的说话者特征,同时还兼顾了语音片段中的动态信息,使得最终学习到的说话者嵌入能够更加准确的反应说话者特征,提升了说话者嵌入特征的质量,也将有助于基于此所进行的说话者识别任务的准确性与可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的说话者嵌入学习方法的一实施例的流程图;
图2为本发明的说话者嵌入学习系统的一实施例的原理框图;
图3为本发明一实施例中的深度说话者嵌入学习系统的结构示意图;
图4为为本发明中所进行的实验中在SRE16的粤语上ResNet系统的DET图;
图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先对下文中将要涉及的英文缩写注释如下:
TAP:Temporal average pooling,时间平均池化;
TSTP:Temporal statistics pooling,时间统计量池化;
LDE:Learnable dictionary encoding,字典学习编码;
SAP:Self-attentive pooling,自注意池化;
TSDP:Temporal standard deviation pooling,时间标准差池化;
GCP:Global covariance deviation pooling,全局协方差池化;
TLPP:Temporal LP-norm pooling,时间LP范数池化。
如图1所示,本发明的实施例提供一种说话者嵌入学习方法,包括:
S10、对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征。示例性地,对于说话者语音段O进行帧级别特征提取,得到T帧d维深度特征X={x1,…,xt,…,xT},其中xt为第t帧d维深度特征,t取值1至T。
S20、对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;示例性地,所采用的二阶池化处理可以是时间标准差池化处理或者全局协方差池化处理或者lp-范数池化处理。
S30、采用仿射层将所述段级别深度特征转换为段级别说话者嵌入。
本发明实施例在将帧级别深度特征转化为段级别深度特征时采用了二阶池化处理的方式,从而不仅考虑了帧级别的说话者特征,同时还兼顾了语音片段中的动态信息,使得最终学习到的说话者嵌入能够更加准确的反应说话者特征,提升了说话者嵌入特征的质量,也将有助于基于此所进行的说话者识别任务的准确性与可靠性。
示例性地,所述对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征包括:对所述多个帧级别深度特征进行时间标准差池化处理得到段级别深度特征:
Figure GDA0003655361040000051
其中,
Figure GDA0003655361040000052
示例性地,所述对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征包括:
对所述多个帧级别深度特征进行全局协方差池化处理得到段级别深度特征:
Figure GDA0003655361040000053
其中,vech是半向量化,它采用矩阵的上三角部分并将其展平为向量,Pgcp的最终输出向量的大小为
Figure GDA0003655361040000061
Figure GDA0003655361040000062
其中,U是特征向量的矩阵,∧是∑的特征值的对角矩阵;
Figure GDA0003655361040000063
其中,
Figure GDA0003655361040000064
I是T×T单位矩阵,1是全一矩阵。
本实施例中的说话者嵌入学习方法同时还考虑到了不同特征维度之间的关联性,从而使得最终得到的说话者嵌入更加准确。
示例性地,所述对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征包括:
对所述多个帧级别深度特征进行lp-范数池化处理得到段级别深度特征:
Figure GDA0003655361040000065
其中,p≥2。
如图2所示,为本发明的说话者嵌入学习系统的一实施例的原理框图,该系统200包括:
帧级别特征提取模块210,用于对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;示例性地,对于说话者语音段O进行帧级别特征提取,得到T帧d维深度特征X={x1,…,xt,…,xT},其中xt为第t帧d维深度特征,t取值1至T。
二阶池化处理模块220,用于对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;
仿射层模块230,用于将所述段级别深度特征转换为段级别说话者嵌入。
示例性地,所述二阶池化处理模块包括:时间标准差池化层,用于对所述多个帧级别深度特征进行时间标准差池化处理得到段级别深度特征:
Figure GDA0003655361040000071
其中,
Figure GDA0003655361040000072
示例性地,所述二阶池化处理模块包括:全局协方差池化层,用于对所述多个帧级别深度特征进行全局协方差池化处理得到段级别深度特征:
Figure GDA0003655361040000073
其中,vech是半向量化,它采用矩阵的上三角部分并将其展平为向量,Pgcp的最终输出向量的大小为
Figure GDA0003655361040000074
Figure GDA0003655361040000075
其中,U是特征向量的矩阵,∧是∑的特征值的对角矩阵;
Figure GDA0003655361040000076
其中,
Figure GDA0003655361040000077
I是T×T单位矩阵,1是全一矩阵。
示例性地,所述二阶池化处理模块包括:lp-范数池化层,用于对所述多个帧级别深度特征进行lp-范数池化处理得到段级别深度特征:
Figure GDA0003655361040000078
其中,p≥2。
本发明实施例还提供一种说话者识别方法,包括:采用本发明任一实施例所述的说话者嵌入学习方法得到说话者嵌入;基于所述说话者嵌入进行说话者识别。
本发明实施例还提供一种说话者识别系统,包括本发明任一实施例所述的说话者嵌入学习系统,用于执行本发明任一实施例所述的说话者嵌入学习方法,以实现说话者识别。
上述本发明实施例的系统可用于执行本发明实施例的相应的方法,并相应的达到上述本发明实施例的相应的方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项说话者嵌入学习方法和/或说话者识别方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项说话者嵌入学习方法和/或说话者识别方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行说话者嵌入学习方法和/或说话者识别方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现说话者嵌入学习方法和/或说话者识别方法。
为更加清楚的介绍本发明的技术方案,也为更直接地证明本发明的可实施性以及相对于现有技术的有益性,以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。
聚合操作(pooling function)在段级深度说话者嵌入学习框架中起着至关重要的作用。一种常用的方法是计算时间特征的统计量,而基于均值的时间平均池化(TAP)和结合均值和标准差的时间统计池化(TSTP)是两种典型的方法。根据经验,发明人观察到去除标准偏差后,x向量的性能会大大降低。基于这种观察,本文设计了一组实验来定量分析不同统计数据的有效性,包括对基于标准差,协方差和p范数的聚合操作的研究和比较。在VoxCeleb和SRE16上进行了实验,结果表明基于二阶统计量的聚合操作比TAP具有更好的性能,并且只有简单的标准差才能在所有评估条件下达到最佳性能。
1、介绍
相关文献中已经研究了不同的聚合操作,包括简单的时间平均池(TAP),时间统计池(TSTP和复杂的合并功能,例如,自注意合并(SAP),局部聚集描述符的向量(VLAD)和可学习的字典编码(LDE)。
在本发明中,我们将专注于基于统计的聚合操作,并对不同统计的影响进行定量分析。尽管TAP在说话人嵌入学习任务中被大量使用,特别是对于ResNet模型,但总是发现使用TSTP很有帮助,后者也考虑了标准偏差。但是,没有系统地比较和分析不同统计数据对深度说话者嵌入学习的影响。
我们首次提出了时间标准差池化(temporal standard deviation pooling,TSDP),该模型仅考虑输入特征序列的标准差,给出了令人难以置信的良好结果,其性能优于基于TAP甚至TSTP的模型。受此观察的激励,我们尝试了其他高阶统计量,例如,协方差和lp范数。使用两个不同的主干(即TDNN和ResNet),在两个数据集VoxCeleb和NIST SRE 2016上进行了实验,结果展示了二阶统计量对于一阶均值的优越性和用于说话者嵌入学习任务的简单标准差的令人难以置信的有效性。
2、深度说话者嵌入学习
如图3所示,为本发明一实施例中的深度说话者嵌入学习系统的结构示意图。在几个帧级特征学习层之后,一系列深层特征将被聚合为段级表示,然后通过一个或两个段级仿射层投影到说话人嵌入。整个网络针对softmax-CE损失进行了优化,目的是区分训练数据中的说话人。在这项工作中,我们将重点关注基于简单统计的聚合操作,并研究不同统计数据对说话人嵌入学习的影响。
2.1、时间平均池化
对于给定的语音段O,T帧d维深度特征X={x1,…,xt,…,xT}可以从最后一个帧级层获得,采用池化层P将X聚合为单个表示z(通常,z还并不是说话者嵌入,将用仿射层将z转换为嵌入e)。时间平均池化(TAP)只需沿时间轴计算X的均值向量即可:
Figure GDA0003655361040000101
2.2、统计池化
在x向量框架中,不是仅使用一阶统计量μ的TAP,而是将二阶统计量σ附加到均值向量并构造池函数Ptstp作为μ和σ的串联。
Figure GDA0003655361040000102
其中,
Figure GDA0003655361040000103
Figure GDA0003655361040000104
3、基于二阶统计的池化
3.1、时间标准差池化(Temporal standard deviation pooling,TSDP)
尽管在x-vector框架中TSTP表现出比TAP更好的性能,但是没有系统地分析标准差有多少帮助。为了更好地分析其效果,我们推导了时间标准差池化(TSDP)为:
Figure GDA0003655361040000105
3.2、全局协方差池化(Global covariance deviation pooling,GCP)
在图像处理社区和我们以前的工作中,对基于协方差的聚合进行了大量研究。与基于方差的池化不同,协方差考虑了不同特征维度的相关性,从而产生了更全面的数据描述。
Figure GDA0003655361040000111
其中,
Figure GDA0003655361040000112
I和1是T×T单位矩阵和全一矩阵(matrix of all ones)。代替原始公式,我们采用标准化版本iSQRT-COV,该版本应用迭代矩阵平方根标准化来提高性能。
Figure GDA0003655361040000113
其中,U是特征向量的矩阵,∧是∑的特征值的对角矩阵。
然后我们将全局协方差池化(GCP)定义为:
Figure GDA0003655361040000114
其中,vech是半向量化,它采用矩阵的上三角部分并将其展平为向量。因此,Pgcp的最终输出向量的大小为
Figure GDA0003655361040000115
3.3、lp-范数池化
在我们的实验中,我们观察到基于二阶中心矩标准差的TSDP的性能显着提高,我们想知道高阶非中心矩(例如,功率平均)是否也有帮助。因此,还研究了时间lp-范数池化,其说明如下:
Figure GDA0003655361040000116
当p设置为1时,lp-范数等于平均运算,Ptlpp与Ptap相同。在这项工作中,我们主要通过设置p=2来研究l2-范数的用法。
4、实验
所有实验均在两个数据集上进行:VoxCeleb和NIST SRE。除了使用的数据不同外,两组实验还共享其他设置,例如,特征准备、神经网络架构和优化策略。
4.1、实验设置
4.1.1、数据准备
遵循Kaldi的方法将训练数据切分为2至4s的随机持续时间片段,但是,在大多数设置中,我们并未使用任何数据增强功能,而是使用40维Fbank作为输入特征。应用基于能量的VAD去除无声帧,并使用倒谱均值归一化(CMN)处理所有特征。
4.1.2、模型结构
对于这两个数据集的实验,研究了两种不同的流行说话者嵌入前端:从一维卷积TDNN提取的x矢量和从二维卷积ResNet提取的r矢量。细节描述如下。
表1:基于TDNN的说话者嵌入提取器的体系结构。T表示序列长度,N表示说话者数量。
Figure GDA0003655361040000121
表2:基于ResNet34的说话者嵌入提取器的体系结构。T表示序列长度,N表示说话者人数。
Figure GDA0003655361040000122
表1中描述了TDNN结构,其遵循标准x矢量系统,并在Kaldi食谱中使用,不同之处在于与聚合相关的层根据不同的聚合函数而变化。x矢量是从表1的“segment1”层中提取的。
表2中描述了ResNet结构,本发明使用34层版本。r向量是从表2中的“密集”层中提取的。
对于TDNN和ResNet系统,与聚合相关的层均经过定制以适合不同的统计信息。此外,相关层的宽度可以不同。表3列出了TDNN和ResNet中用于不同统计的Npool。对于所有基于TLPP的系统,p设置为2,而lp范数本质上是2范数。
表3:TDNN(表1)和ResNet(表2)中用于不同聚合操作的Npool
Figure GDA0003655361040000131
4.1.3、神经网络优化
本发明中使用的所有模型的优化均具有相同的设置,并且使用动量为1e-4的SGD作为网络优化器。学习率最初设置为0.1,然后随着训练过程逐渐降低为1e-6。训练在4个GPU上并行进行,每个GPU上的批处理大小为64,因此批处理总数为256。
4.1.4、评估指标
我们以等错误率(EER)和最小检测成本函数(minDCF)报告性能,其中,ptarget设置为0.01。
4.2、在VoxCeleb上进行实验
4.2.1、数据集
VoxCeleb由牛津大学发行,已经成为最受欢迎的说话者识别数据集之一。其中包括VoxCeleb1和VoxCeleb2两部分。在这项工作中,将VoxCeleb2的DEV集用作训练数据,其中包含5994位说话者和1092009条话语。第一部分VoxCeleb1用作评估集,所有三个正式测试列表(原始版本)VoxCeleb O,VoxCeleb E和VoxCeleb H均用于评估。
4.2.2、结果
VoxCeleb的结果可以在表4中找到。如TDNN和ResNet系统的前两行所示,附加标准差始终优于原始的基于均值的系统。所有基于二阶统计量的系统均胜于基于均值的系统,展现了高阶统计量的有效性。仅使用标准偏差即可获得最佳结果,甚至比使用TSTP的系统还高,三个评估集的EER为1.56%、1.78%和3.07%。此观察结果表明,简单的串联可能不是整合均值和标准差编码信息的正确方法。
4.3、在SRE16上进行实验
4.3.1、数据集
训练集由两部分数据组成:SRE部分和SWBD部分。前者包含选自NIST SRE2004-2010的数据,后者包含选自Switchboard数据集的数据。为了进行更快的实验,我们采用了更积极的数据过滤策略,最终的训练清单包括来自3419位说话者的62949条录音。系统在SRE16评估集上进行评估,包括粤语和他加禄语子集。SRE16的未标记部分在评分阶段用于PLDA适应。
4.3.2、结果
SRE16数据集上的实验结果显示在表5中,该表还包含TDNN和ResNet系统。与表4中的VoxCeleb结果一致,标准差池化使用TDNN和ResNet在广东话和他加禄语上均达到最佳性能。
如表4和表5所示,TSDP令人惊讶地实现了最佳性能,并且始终优于常规TSTP。尽管在VoxCeleb上可以观察到非常好的结果,但SRE16上的结果仍无法与现有技术中的结果相提并论,现有技术中使用数据增强来提高系统性能。因此,基于标准差池化的系统也可以通过Kaldi式数据增强进行评估,该系统更具竞争力,如表5的最后两行所示。
表4:使用不同统计信息进行合并的Voxceleb数据集的结果
Figure GDA0003655361040000151
表5:SRE 2016评估集的结果,无监督PLDA适应
Figure GDA0003655361040000152
如图4所示为本发明中所进行的实验中在SRE16的粤语上ResNet系统的DET图。为了更直观地比较不同的聚合操作,我们绘制了在SRE16的粤语上的ResNet结果的DET图,其中横坐标为误警率(%),纵坐标为拒识率(%),并且分别绘制了五条曲线1-cov,2-lp-norm,3-mean,4-stddev,5-mean+stddev。
4.4、高阶统计研究
除了上述的二阶统计量外,我们还研究了几种类型的高阶统计量,尽管没有获得更好的结果,但我们想在此简单地进行总结。
1.对于p=3或p=4的lp范数,与p=2相比,获得的结果稍差。
2.p=3或p=4的高阶偏差
Figure GDA0003655361040000161
在p=2时也不如标准差。
3.三阶偏度
Figure GDA0003655361040000162
和四阶峰度
Figure GDA0003655361040000163
的结果甚至比简单的一阶TAP更差。
5、结论和今后的工作
在本发明中,我们展示了不同统计数据对段级说话者嵌入学习的影响。基于平均值,标准差,协方差和lp范数等不同统计数据,对TDNN和ResNet等不同主干进行评估和比较,并对VoxCeleb和SRE16数据集进行实验。与基于时间的平均池相比,使用二阶统计数据可以获得一致的性能改进,而基于标准偏差的池可以实现最佳性能。看到高阶统计数据(尤其是标准偏差)的有效性令人感到惊讶。标准差描述了数据的波动,而传统上,我们认为平均值代表整个序列中存在的信息,包括说话者身份。实际上,在我们先前关于文本相关任务的工作中,基于差异的聚合在d矢量和j矢量框架中也都优于基于均值的聚合。观察表明,以标准差编码的动态信息不仅包含语音信息,而且还提供说话者相关的信息。在未来的工作中,我们将继续研究1)整合不同统计数据的更好策略2)更加先进的利用方式语音序列中编码的动态说话者身份信息和新特征调查。
图5是本申请另一实施例提供的执行说话者嵌入学习方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
执行说话者嵌入学习方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的说话者嵌入学习方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例说话者嵌入学习方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据说话者嵌入学习装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至说话者嵌入学习装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与说话者嵌入学习装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的说话者嵌入学习方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种说话者嵌入学习方法,包括:
对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;
对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;
采用仿射层将所述段级别深度特征转换为段级别说话者嵌入,其中,对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征包括:
对于说话者语音段O进行帧级别特征提取,得到T帧d维深度特征X={x1,…,xt,…,xT},其中xt为第t帧d维深度特征,t取值1至T,
其中,所述对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征包括:
1)对所述多个帧级别深度特征进行时间标准差池化处理得到段级别深度特征:
Figure FDA0003724419120000011
其中,
Figure FDA0003724419120000012
或者
2)对所述多个帧级别深度特征进行全局协方差池化处理得到段级别深度特征:
Figure FDA0003724419120000013
其中,vech是半向量化,它采用矩阵的上三角部分并将其展平为向量,Pgcp的最终输出向量的大小为
Figure FDA0003724419120000014
Figure FDA0003724419120000015
其中,U是特征向量的矩阵,∧是∑的特征值的对角矩阵;
Figure FDA0003724419120000016
其中,
Figure FDA0003724419120000017
I是T×T单位矩阵,1是全一矩阵;或者
3)对所述多个帧级别深度特征进行lp-范数池化处理得到段级别深度特征:
Figure FDA0003724419120000018
其中,p≥2。
2.一种说话者识别方法,包括:采用权利要求1所述的说话者嵌入学习方法得到说话者嵌入;基于所述说话者嵌入进行说话者识别。
3.一种说话者嵌入学习系统,包括:
帧级别特征提取模块,用于对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;
二阶池化处理模块,用于对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;
仿射层模块,用于将所述段级别深度特征转换为段级别说话者嵌入,
其中,帧级别特征提取模块用于:
对于说话者语音段O进行帧级别特征提取,得到T帧d维深度特征X={x1,…,xt,…,xT},其中xt为第t帧d维深度特征,t取值1至T,
其中,所述二阶池化处理模块用于以下三项中的任一项:
1)对所述多个帧级别深度特征进行时间标准差池化处理得到段级别深度特征:
Figure FDA0003724419120000021
其中,
Figure FDA0003724419120000022
或者
2)对所述多个帧级别深度特征进行全局协方差池化处理得到段级别深度特征:
Figure FDA0003724419120000023
其中,vech是半向量化,它采用矩阵的上三角部分并将其展平为向量,Pgcp的最终输出向量的大小为
Figure FDA0003724419120000024
Figure FDA0003724419120000025
其中,U是特征向量的矩阵,∧是∑的特征值的对角矩阵;
Figure FDA0003724419120000026
其中,
Figure FDA0003724419120000027
I是T×T单位矩阵,1是全一矩阵;或者
3)对所述多个帧级别深度特征进行lp-范数池化处理得到段级别深度特征:
Figure FDA0003724419120000031
其中,p≥2。
4.一种说话者识别系统,包括权利要求3所述的说话者嵌入学习系统,用于执行权利要求1所述的说话者嵌入学习方法,以实现说话者识别。
5.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1或2所述方法的步骤。
6.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1或2所述方法的步骤。
CN202010710651.5A 2020-07-22 2020-07-22 说话者嵌入学习方法、说话者识别方法及系统 Active CN111816167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010710651.5A CN111816167B (zh) 2020-07-22 2020-07-22 说话者嵌入学习方法、说话者识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710651.5A CN111816167B (zh) 2020-07-22 2020-07-22 说话者嵌入学习方法、说话者识别方法及系统

Publications (2)

Publication Number Publication Date
CN111816167A CN111816167A (zh) 2020-10-23
CN111816167B true CN111816167B (zh) 2022-08-26

Family

ID=72861868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710651.5A Active CN111816167B (zh) 2020-07-22 2020-07-22 说话者嵌入学习方法、说话者识别方法及系统

Country Status (1)

Country Link
CN (1) CN111816167B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643709B (zh) * 2021-08-03 2023-07-18 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN116994602B (zh) * 2023-08-14 2024-10-11 大连海洋大学 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165726A (zh) * 2018-08-17 2019-01-08 联智科技(天津)有限责任公司 一种用于无需说话人确认文本的神经网络嵌入系统
CN111191787A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 提取说话人嵌入特征的神经网络的训练方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165726A (zh) * 2018-08-17 2019-01-08 联智科技(天津)有限责任公司 一种用于无需说话人确认文本的神经网络嵌入系统
CN111191787A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 提取说话人嵌入特征的神经网络的训练方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attentive Statistics Pooling for Deep Speaker Embedding;Koji Okabe 等;《Proc. Interspeech 2018》;20191231;第2252-2256页 *
Deep Neural Network Embeddings for Text-Independent Speaker Verification;D.Snyder 等;《Proc. Interspeech 2017》;20171231;第999-1003页 *

Also Published As

Publication number Publication date
CN111816167A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN108417217B (zh) 说话人识别网络模型训练方法、说话人识别方法及系统
Deng et al. Deep convex net: A scalable architecture for speech pattern classification
Shon et al. Frame-level speaker embeddings for text-independent speaker recognition and analysis of end-to-end model
Deng et al. Ensemble deep learning for speech recognition
EP3435374B1 (en) Method and device for voice data processing and storage medium
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
US9653093B1 (en) Generative modeling of speech using neural networks
US7245767B2 (en) Method and apparatus for object identification, classification or verification
CN105976812A (zh) 一种语音识别方法及其设备
US20150279351A1 (en) Keyword detection based on acoustic alignment
CN110222841A (zh) 基于间距损失函数的神经网络训练方法和装置
CN111816167B (zh) 说话者嵌入学习方法、说话者识别方法及系统
CN108417207B (zh) 一种深度混合生成网络自适应方法及系统
Huang et al. Recurrent poisson process unit for speech recognition
CN109559749B (zh) 用于语音识别系统的联合解码方法及系统
Yu et al. Cam: Context-aware masking for robust speaker verification
WO2017117412A1 (en) System and method for neural network based feature extraction for acoustic model development
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
Gosztolya et al. Building context-dependent DNN acoustic models using Kullback-Leibler divergence-based state tying
CN112669836B (zh) 命令的识别方法、装置及计算机可读存储介质
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置
Hou et al. The npu system for the 2020 personalized voice trigger challenge
Liu et al. Distilling multi-level x-vector knowledge for small-footprint speaker verification
CN115050373B (zh) 双路径嵌入学习方法、电子设备和存储介质
Li et al. Speaker embedding extraction with multi-feature integration structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant