CN116052689A - 一种声纹识别方法 - Google Patents

一种声纹识别方法 Download PDF

Info

Publication number
CN116052689A
CN116052689A CN202111262103.1A CN202111262103A CN116052689A CN 116052689 A CN116052689 A CN 116052689A CN 202111262103 A CN202111262103 A CN 202111262103A CN 116052689 A CN116052689 A CN 116052689A
Authority
CN
China
Prior art keywords
network
domain
voice signal
features
frame level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111262103.1A
Other languages
English (en)
Inventor
李琎
堵梦杰
王岚
燕楠
苏荣锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202111262103.1A priority Critical patent/CN116052689A/zh
Priority to PCT/CN2021/138048 priority patent/WO2023070874A1/zh
Publication of CN116052689A publication Critical patent/CN116052689A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种声纹识别方法,该方法包括:预处理待识别语音信号,得到有效语音信号;基于有限差分网络,根据有效语音信号,确定句子级别声纹特征;有限差分网络包括时频变换子网络和相位变换子网络,其中,时频变换子网络用于对有效语音信号在频域谱进行多尺度滤波,得到频谱域语音信号表征;相位变换子网络用于提取有效语音信号在相位域语音信号表征;根据句子级别声纹特征,进行声纹识别。该方案使用原始音频作为输入,从频谱域和相位域获取说话人身份描述信息并融合,可以避免说话人身份信息丢失的问题,提高声纹识别的精度。

Description

一种声纹识别方法
技术领域
本发明属于语音信息处理技术领域,特别涉及一种声纹识别方法。
背景技术
声纹和指纹、虹膜等特征一样,能够作为每个人独有的生物身份信息,且具有非接触性采集的优点。
声纹识别也称说话人识别,包括声纹辨认和声纹确认等任务,按是否依赖固定语音语义信息,可分为文本相关和文本无关两种。声纹辨认指识别未知身份信息的说话人的语音,通过提取声纹特征,与声纹数据库中注册录入的声纹信息比对得到身份信息,是“一对多”的任务。声纹确认指已知身份信息的说话人的检测语音,与数据库中对应说话人保存的信息比对,判断声明的身份是否为真,是“一对一”的任务。
现有声纹识别技术中,使用基于频域能量谱的声学特征,缺失语音信号的相位信息,而研究表明,说话人的共振峰表现为短时相位谱上的过渡,不使用相位信息意味着使用失真的语音信号,抹除了部分说话人相关的发音信息,最终使得声纹识别的精度低。
发明内容
本说明书实施例的目的是提供一种声纹识别方法。
为解决上述技术问题,本申请实施例通过以下方式实现的:
本申请提供一种声纹识别方法,该方法包括:
预处理待识别语音信号,得到有效语音信号;
基于有限差分网络,根据有效语音信号,确定句子级别声纹特征;有限差分网络包括时频变换子网络和相位变换子网络,其中,时频变换子网络用于对有效语音信号在频域谱进行多尺度滤波,得到频谱域语音信号表征;相位变换子网络用于提取有效语音信号在相位域语音信号表征;
根据句子级别声纹特征,进行声纹识别。
在其中一个实施例中,时域变换子网络包括堆叠一维卷积和激活函数;
堆叠一维卷积中第一层卷积层对有效语音信号相邻的频带滤波,将时域的有效语音信号映射为频域的频率响应信息;
堆叠一维卷积中其他卷积层,随着感受野的放大,在放宽的频带中得到第一语音信号表征;
第一语音信号表征经过激活函数,得到频谱域语音信号表征。
在其中一个实施例中,相位变换子网络采用与相位谱相关的群延迟表征有效语音信号在相位域语音信号表征。
在其中一个实施例中,相位变换子网络包括第一一维卷积、倍乘单元、第二一维卷积和平滑单元;
有效语音信号的一支经过第一一维卷积做短时傅里叶变换,得到第一频域信号;
有效语音信号的一支经过倍乘单元倍乘后,再通过第二一维卷积做短时傅里叶变换,得到第二频域信号;
第一频域信号和第二频域信号通过平滑单元,确定群延迟。
在其中一个实施例中,有限差分网络还包括堆叠第一时序差分子网络和堆叠第二时序差分子网络;
基于有限差分网络,根据有效语音信号,确定句子级别声纹特征;
基于堆叠第一时序差分子网络,根据频谱域语音信号表征,得到频谱域帧级别特征;
基于堆叠第二时序差分子网络,根据相位域语音信号表征,得到相位域帧级别特征;
根据频谱域帧级别特征和相位域帧级别特征,确定句子级别声纹特征。
在其中一个实施例中,时序差分子网络包括第一时序差分子网络和第二时序差分子网络;
时序差分子网络包括级连的第一时序差分模块和第一静态特征提取网络;
基于第一时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第一注意力权重;语音信号特征包括频谱域语音信号特征或相位域语音信号特征;
每个通道的第一注意力权重与语音信号特征按通道分块的每个元素做哈达玛积,得到第一动态帧级别特征;
第一动态帧级别特征输入第一静态特征提取网络,得到帧级别特征;帧级别特别包括频谱域帧级别特征和相位域帧级别特征。
在其中一个实施例中,时序差分子网络包括第一时序差分子网络和第二时序差分子网络;
时序差分子网络包括层级连接的第二时序差分模块、第三时序差分模块和第二静态特征提取网络;
基于第二时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第二注意力权重;语音信号特征包括频谱域语音信号特征或相位域语音信号特征;
基于第三时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第三注意力权重;
每个通道的第二注意力权重和每个通道的第三注意力权重求平均,得到每个通道的平均注意力权重;
每个通道的平均注意力权重与语音信号特征按通道分块的每个元素做哈达玛积,得到第二动态帧级别特征;
第二动态帧级别特征输入第二静态特征提取网络,得到帧级别特征;帧级别特别包括频谱域帧级别特征和相位域帧级别特征。
在其中一个实施例中,时序差分模块包括第一时序差分模块、第二时序差分模块和第三时序差分模块;注意力权重包括第一注意力权重、第二注意力权重和第三注意力权重;
时序差分模块通过以下步骤得到语音信号特征的每个通道的注意力权重:
根据语音信号特征,确定截取信号特征;
对截取信号特征的元素矩阵和相邻元素矩阵,分别进行时间平均,分别得到第一一维列向量和第二一维列向量;
采用降采样卷积,分别对第一一维列向量和第二一维列向量进行降维,得到第一降维向量和第二降维向量;
根据第一降维向量和第二降维向量,确定差分值;
差分值通过升采样卷积及激活函数,得到语音信号特征的每个通道的注意力权重。
在其中一个实施例中,根据频谱域帧级别特征和相位域帧级别特征,确定句子级别声纹特征,包括:
基于句子级别特征聚合,频谱域帧级别特征和相位域帧级别特征聚合为句子级别声纹特征。
在其中一个实施例中,预处理待识别语音信号包括:端点检测、时长规整、预加重处理。
由以上本说明书实施例提供的技术方案可见,该方案:
使用原始音频作为输入,从频谱域和相位域获取说话人身份描述信息并融合,可以避免说话人身份信息丢失的问题,提高声纹识别的精度。
利用基于语速增强算子的时序差分子网络,能够有效捕捉到短时间内区分不同说话人包括语调变化、节奏、强度等韵律变化信息,提取具有高区分度的声纹信息,对说话人身份进行有效表征,以用于高精度声纹辨认和声纹确认等声纹识别任务。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的声纹识别方法的流程示意图;
图2为本申请提供的预处理待识别语音信号的流程示意图;
图3为本申请提供的有限差分网络的结构示意图;
图4为本申请提供的时域变换子网络和相位变换子网络的结构示意图;
图5为本申请提供的语速增强算子的原理示意图;
图6为本申请提供的时序差分子网络的结构示意图一;
图7为本申请提供的时序差分子网络的结构示意图二;
图8为本申请提供的句子级别特征融合的流程示意图;
图9为本申请提供的声纹辨认的流程示意图;
图10为本申请提供的声纹确认的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
在不背离本申请的范围或精神的情况下,可对本申请说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本申请中的“份”如无特别说明,均按质量份计。
相关技术中,使用基于频域能量谱的声学特征,缺失语音信号的相位信息,而研究表明,说话人的共振峰表现为短时相位谱上的过渡,不使用相位信息意味着使用失真的语音信号,抹除了部分说话人相关的发音信息,最终使得声纹识别的精度低。
基于上述缺陷,本申请实施例提出一种声纹识别方法,直接使用原始音频作为系统输入,基于有限差分网络,从频域谱和相位谱获取说话人身份描述信息并进行融合,避免说话人身份信息丢失的问题。
下面结合附图和实施例对本发明进一步详细说明。
参照图1,其示出了适用于本申请实施例提供的声纹识别方法的流程示意图。
如图1所示,声纹识别方法,可以包括:
S110、预处理待识别语音信号,得到有效语音信号。
具体的,待识别语音信号是指获取的原始音频信号。由于原始音频信号中包含静音信号、噪声信号、音乐片段信号等非语音段信号,因此,需要对原始音频信号进行预处理,去除原始音频信号中的非语音段信号,保留原始音频信号中的语音段信号,即人声段的语音信号,作为有效语音信号,供后续使用。
可选的,预处理待识别语音信号可以包括:端点检测、时长规整、预加重处理等,如图2所示。
具体的,端点检测的方法可以包括短时能量、过零率检测、谱熵等。
其中,短时能量:由于语音段信号和非语音段信号在能量上存在明显差异,因此,可以设置能量阈值(可以根据实际需求进行设定),通过比较短时能量与能量阈值,判断语音段信号和非语言段信号。短时能量大于或等于能量阈值时,判定为语音段信号,短时能量小于能量阈值时,判定为非语音段信号。
其中,短时能量En通过下式计算得到:
Figure BDA0003325823810000061
其中,x为待识别语音信号采样点,N为每次检测的采样点数量。
过零率检测:由于一段时间内的待识别语音信号中的语音值可能为正可能为负,语音值跳变次数(即过零率)多时是非语言段信号,跳变次数少时是语音段信号,因此,可以设置跳变阈值,通过比较跳变阈值与过零率,判断语音段信号和非语音段信号。过零率大于或等于跳变阈值时,判定为非语音段信号,过零率小于跳变阈值时,判定为语音段信号。
其中,过零率Zn通过下式计算得到:
Figure BDA0003325823810000062
Figure BDA0003325823810000063
其中,x为待识别语音信号采样点,sgn(x)为符号函数。
谱熵:由于语音段信号的谱熵较大,而非语音段信号的谱熵较小,因此,可以设置谱熵阈值,通过比较谱熵与谱熵阈值,判断语音段信号和非语音段信号。即谱熵大于或等于谱熵阈值时,判定为语音段信号,谱熵小于谱熵阈值时,判定为非语音段信号。
其中,谱熵H(s)通过下式计算得到:
Figure BDA0003325823810000071
其中,P为归一化后的信号功率谱密度。
为了能够有效训练整个系统,可以对端点检测后的语音段信号进行时长规整,即每批次训练的语音段信号限制时间长度,超出限长的语音段信号截断,不足长度的语音段信号补0值,长度规整后的语音段信号做预加重处理。
预加重处理:用于补偿高频信号在传输过程中的衰减,有效提高输出信号信噪比。
时长规整后的语音段信号为X={x1,x2,...,xn},经过预加重处理后输出有效语音信号为{x(1),x(2),...,x(n)}。
x(i)=xi+1-αxi,i=1,2,…,n   (5)
其中,α一般取0.97。
一个信号频域的幅度谱与相位谱都已知的情况下,才能够从频域还原时域的信号。研究发现,圆周卷积与离散傅里叶变换具有形式上的对偶,卷积运算相当于滤波,因此卷积核能够从原始音频中提取丰富的频率响应。堆叠卷积层,层与层之间通过特定的连接,能够模仿人工提取声学特征的过程,例如模仿MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数)三角滤波组;并且,能够根据任务灵活调整结构,而不会使系统受限于固定的声学特征形式,避免信息丢失。
S120、基于有限差分网络,根据有效语音信号,得到句子级别声纹特征;有限差分网络包括时频变换子网络和相位变换子网络,其中,时频变换子网络用于对有效语音信号在频域谱进行多尺度滤波,得到频谱域语音信号表征;相位变换子网络用于提取有效语音信号在相位域语音信号表征。如图3所示。
在一个实施例中,如图4所示,时域变换子网络包括堆叠一维卷积和激活函数;
堆叠一维卷积中第一层卷积层对有效语音信号相邻的频带滤波,将时域的有效语音信号映射为频域的频率响应信息;
堆叠一维卷积中其他卷积层,随着感受野的放大,在放宽的频带中得到第一语音信号表征;
第一语音信号表征经过激活函数,得到频谱域语音信号表征;频谱域语音信号表征包括时长和卷积核数量两个维度。
具体的,时域变换子网络可为卷积神经网络、时延神经网络等前馈网络。
通过堆叠一维卷积,模拟短时傅里叶变换,提取频域信息。有效语音信号做卷积运算时,第一层卷积层仅处理相邻的频带。经第一层卷积层滤波后,时域的有效语音信号映射为频域的频率响应信号。后续的卷积层,随着感受野的放大,逐渐能在放宽的频带中观察到更为抽象的频谱域语音信号表征。根据具体任务类型,学习到与任务相适应的卷积核参数,即滤波参数,产生对于特定任务来说充分的频率响应信息。
由于相位折叠的存在,相位谱相比幅度谱,呈现类似噪声的形状,导致提取特征与建模变得困难。
在一个实施例中,相位变换子网络采用与相位谱相关的群延迟表征有效语音信号在相位域语音信号表征(即有效语音信号的相位信息)。群延迟描述了所有频率分量通过时延系统的整体性时延,具有频率分辨率高与频率泄漏少的特点,包含说话人相关的发音信息。群迟延包括时长和卷积核数量两个维度。
继续参照图4,相位变换子网络包括第一一维卷积、倍乘单元、第二一维卷积和平滑单元;
有效语音信号的一支经过第一一维卷积做短时傅里叶变换,得到第一频域信号;
有效语音信号的一支经过倍乘单元倍乘后,再通过第二一维卷积做短时傅里叶变换,得到第二频域信号;
第一频域信号和第二频域信号通过平滑单元,确定群延迟。
具体的,有效语音信号x(n),一支经过第一以为卷积做短时傅里叶变换,得到第一频域信号Xn(ω):
Figure BDA0003325823810000091
一支经过倍乘单元倍乘后得到nx(n),再通过第二一维卷积做短时傅里叶变换,得到第二频域信号Yn(ω):
Figure BDA0003325823810000092
平滑单元使用Xn(ω)和Yn(ω)计算群延迟。由群延迟定义,即相位谱θn(ω)关于角频率的负导数:
Figure BDA0003325823810000093
在离散信号上群延迟可以写成:
Figure BDA0003325823810000094
其中下标R,I分别表示实部和虚部。
由原始音频信号提取而来的声学信息,信息更丰富,使得神经网络在更小细粒度上动态提取说话人微弱韵律变化、节奏、强度成为可能。图5是本申请提出的一种基于神经网络的时序差分模块,称为语速增强算子(Speed Enhancement Operator,SEO),用以动态获取韵律信息,并且组合SEO与说话人静态特征提取网络,融合动态的韵律信息与静态特征构成多尺度说话人特征,提出了轻量级(Light)连接与层级(Hierarchical)连接的两种连接结构的时间差分网络块(Time Difference Network Block,TDN-Block)(即时序差分子网络),如图6、图7所示。通过堆叠适用不同的精度要求,来平衡性能和特征质量要求。
在一个实施例中,有限差分网络还包括堆叠第一时序差分子网络和堆叠第二时序差分子网络;
基于有限差分网络,根据有效语音信号,确定句子级别声纹特征;
基于堆叠第一时序差分子网络,根据频谱域语音信号表征,得到频谱域帧级别特征;
基于堆叠第二时序差分子网络,根据相位域语音信号表征,得到相位域帧级别特征;
根据频谱域帧级别特征和相位域帧级别特征,确定句子级别声纹特征。
需要说明的是,上述第一时序差分子网络和第二时序差分子网络的结构一样,下述实施例中以时序差分子网络进行统一说明。
在一个实施例中,如图6所示,时序差分子网络包括级连的第一时序差分模块(即图中语速增强算子SEO)和第一静态特征提取网络(即图中静态特征提取网络);
基于第一时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第一注意力权重;语音信号特征包括频谱域语音信号特征或相位域语音信号特征;
每个通道的第一注意力权重与语音信号特征按通道分块的每个元素做哈达玛积,得到第一动态帧级别特征;
第一动态帧级别特征输入第一静态特征提取网络,得到帧级别特征;帧级别特别包括频谱域帧级别特征和相位域帧级别特征。
在一个实施例中,如图7所示,时序差分子网络包括第一时序差分子网络和第二时序差分子网络;
时序差分子网络包括层级连接的第二时序差分模块、第三时序差分模块和第二静态特征提取网络;
基于第二时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第二注意力权重;语音信号特征包括频谱域语音信号特征或相位域语音信号特征;
基于第三时序差分模块,根据语音信号特征,得到语音信号特征的每个通道的第三注意力权重;
每个通道的第二注意力权重和每个通道的第三注意力权重求平均,得到每个通道的平均注意力权重;
每个通道的平均注意力权重与语音信号特征按通道分块的每个元素做哈达玛积,得到第二动态帧级别特征;
第二动态帧级别特征输入第二静态特征提取网络,得到帧级别特征;帧级别特别包括频谱域帧级别特征和相位域帧级别特征。
下述实施例中时序差分模块包括第一时序差分模块、第二时序差分模块和第三时序差分模块;注意力权重包括第一注意力权重、第二注意力权重和第三注意力权重。
在一个实施例中,时序差分模块通过以下步骤得到语音信号特征的每个通道的注意力权重:
根据语音信号特征,确定截取信号特征;
对截取信号特征的元素矩阵和相邻元素矩阵,分别进行时间平均,分别得到第一一维列向量和第二一维列向量;
采用降采样卷积,分别对第一一维列向量和第二一维列向量进行降维,得到第一降维向量和第二降维向量;
根据第一降维向量和第二降维向量,确定差分值;
差分值通过升采样卷积及激活函数,得到语音信号特征的每个通道的注意力权重。
具体的,对于输入的声学特征(即语音信号特征)
Figure BDA0003325823810000111
其中,
Figure BDA0003325823810000112
T代表原始音频信号提取声学特征后的长度,C代表声学特征模块的通道数,用一长度为t,窗移为p的滑动窗,沿时间维度截取声学特征F,得到截取声学特征(即截取信号特征)
Figure BDA0003325823810000113
对X的每一元素矩阵xi与其之后一个元素矩阵(即相邻元素矩阵)xi+1,时间平均指矩阵沿时间轴求平均,即每个行向量求平均,得到一维列向量(即第一一维列向量和第二一维列向量)
Figure BDA0003325823810000114
Figure BDA0003325823810000115
Figure BDA0003325823810000116
经过降采样卷积,
Figure BDA0003325823810000117
Figure BDA0003325823810000118
Figure BDA0003325823810000119
空间映射到
Figure BDA00033258238100001110
空间,即维数从维数C减少到C/α,得到第一降维向量和第二降维向量:
Figure BDA00033258238100001111
Figure BDA00033258238100001112
其中,
Figure BDA00033258238100001113
Figure BDA00033258238100001114
表示两个降采样卷积的函数,各自权重为W1,W2
Figure BDA00033258238100001115
Figure BDA00033258238100001116
相减得到差分值
Figure BDA00033258238100001117
Figure BDA00033258238100001118
差分值
Figure BDA0003325823810000121
通过升采样卷积,其函数表示为
Figure BDA0003325823810000122
其权重为W3,将si恢复成C维向量,并且通过激活函数σ得到语音信号特征的每个通道的注意力权重
Figure BDA0003325823810000123
Figure BDA0003325823810000124
其中,每个通道的注意力权重包含有说话人的韵律信息。
对于图6所示的时序差分子网络,将式(14)得到的注意力权重(即第一注意力权重)与原始声学特征做哈达玛积以突出变化的韵律信息:
x′i=s′i⊙xi   (15)
其中,⊙表示s′i中每个通道的元素与xi按通道分块的每个元素的哈达玛积。
对于图7所示的时序差分子网络,对每个xi会得到两个不同的注意力权重(即第二注意力权重和第三注意力权重),将每个通道的第二注意力权重和每个通道的第三注意力权重求平均,得到每个通道的平均注意力权重。将每个通道的平均注意力权重与原始声学特征做哈达玛积。
上述实施例中静态特征提取网络,可以是任意神经网络结构,例如残差网络、时延神经网络、长短期记忆网络等。
在一个实施例中,根据频谱域帧级别特征和相位域帧级别特征,确定句子级别声纹特征,包括:
基于句子级别特征聚合,频谱域帧级别特征和相位域帧级别特征聚合为句子级别声纹特征。
句子级别特征聚合,又称为时序池化,将帧级别的说话人声纹特征整合到句子级别,如图8所示,得到鲁棒性较好的说话人全局特征。池化方式主要有平均池化、统计池化、自注意力池化方式、基于神经网络的池化方式。
对于句子级别特征聚合的输入
Figure BDA0003325823810000125
ht表示帧级别隐藏层输出的第t帧说话人特征,T为总帧数,u表示时序池化层句子级别输出。
(1)平均池化(Average pooling)
Figure BDA0003325823810000126
(2)统计池化(Statistics pooling)
m表示
Figure BDA0003325823810000131
的统计平均,d表示
Figure BDA0003325823810000132
的标准差,则
Figure BDA0003325823810000133
Figure BDA0003325823810000134
统计池化的输出为m与d的拼接:
u=[mT,dT]   (19)
(3)基于自注意力的池化(Self-attention-based pooling)
平均池化与统计池化均假设每一帧的说话人特征对句子级别特征的贡献是相等的,但是实际情况是每帧并不能提供相等的说话人区分信息。为解决这个问题,研究者引入注意力机制。基于自注意力的池化,本质上是权重统计池化,它使得神经网络更关注输入的某些重要帧。
定义自注意力分数
Figure BDA0003325823810000135
Figure BDA0003325823810000136
表示第k个自注意力头,K为头的总数。当K≥2时,称为多头注意力机制,多头注意力机制能够兼顾不同表征子空间的信息。
实现注意力机制的方式有很多,一般产生权重的注意力函数可按下式表示:
Figure BDA0003325823810000137
其中,v、W、g、b均为第k个注意力函数
Figure BDA0003325823810000138
的可学习参数。
Figure BDA0003325823810000139
则帧级别特征ht的权重为
Figure BDA00033258238100001310
其中,
Figure BDA00033258238100001311
满足
Figure BDA00033258238100001312
并且
Figure BDA00033258238100001313
经第k个注意力函数修正过的对应均值与标准差为:
Figure BDA00033258238100001314
Figure BDA0003325823810000141
自注意力的池化的输出为均值和标准差的拼接。
(4)基于神经网络的池化
使用基于词典的NetVLAD层进行帧级别特征的时序聚类,在这种可训练的判别聚类中,每个帧级别的特征描述都被划分到不同的类中,最后得到一个句子级别的紧凑表征。比较了NetVLAD的一个变种,称为GhostVLAD。GhostVLAD与NetVLAD的区别在于,GhostVLAD聚类结果中有一类不会参与到最后的统计中,而噪声与不期望的帧级别特征都将被分在这个类中,使得噪声对说话人特征的影响被大大降权。
S130、根据句子级别声纹特征,进行声纹识别。
具体的,在进行声纹识别任务时,对由语音产生的声纹特征以打分方式评判,打分标准包括余弦相似度等。
如图9所示,当声纹识别任务为进行声纹辨认时,身份未知的语音片段产生的声纹特征,通过与声纹数据库中所有声纹比对,相似度判别得到,未知语音所属的,在声纹数据库中最有可能的说话人身份。
如图10所示,当声纹识别为进行声纹确认时,身份未知的语音片段产生的声纹特征,与其声称所属说话人数据库中注册的声纹特征,通过相似度评判,根据设置的阈值判断,未知语音段是否确实所属其声称的说话人。
相似度判别一般以余弦相似度或概率线性判别分析(Probabilistic LinearDiscriminant Analysis,PLDA)作为判别依据。
对于两个向量
Figure BDA0003325823810000142
其余弦相似度被定义为两个向量夹角的余弦值:
Figure BDA0003325823810000143
本申请实施例使用原始音频作为输入,从频谱域和相位域获取说话人身份描述信息并融合,可以避免说话人身份信息丢失的问题,提高声纹识别的精度。
本申请实施例利用基于语速增强算子的时序差分子网络,能够有效捕捉到短时间内区分不同说话人包括语调变化、节奏、强度等韵律变化信息,提取具有高区分度的声纹信息,对说话人身份进行有效表征,以用于高精度声纹辨认和声纹确认等声纹识别任务。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种声纹识别方法,其特征在于,所述方法包括:
预处理待识别语音信号,得到有效语音信号;
基于有限差分网络,根据所述有效语音信号,确定句子级别声纹特征;所述有限差分网络包括时频变换子网络和相位变换子网络,其中,所述时频变换子网络用于对所述有效语音信号在频域谱进行多尺度滤波,得到频谱域语音信号表征;所述相位变换子网络用于提取所述有效语音信号在相位域语音信号表征;
根据所述句子级别声纹特征,进行声纹识别。
2.根据权利要求1所述的方法,其特征在于,所述时域变换子网络包括堆叠一维卷积和激活函数;
所述堆叠一维卷积中第一层卷积层对所述有效语音信号相邻的频带滤波,将时域的所述有效语音信号映射为频域的频率响应信息;
所述堆叠一维卷积中其他卷积层,随着感受野的放大,在放宽的频带中得到第一语音信号表征;
所述第一语音信号表征经过所述激活函数,得到所述频谱域语音信号表征。
3.根据权利要求1所述的方法,其特征在于,所述相位变换子网络采用与相位谱相关的群延迟表征所述有效语音信号在相位域语音信号表征。
4.根据权利要求3所述的方法,其特征在于,所述相位变换子网络包括第一一维卷积、倍乘单元、第二一维卷积和平滑单元;
所述有效语音信号的一支经过所述第一一维卷积做短时傅里叶变换,得到第一频域信号;
所述有效语音信号的一支经过所述倍乘单元倍乘后,再通过所述第二一维卷积做短时傅里叶变换,得到第二频域信号;
所述第一频域信号和所述第二频域信号通过所述平滑单元,确定所述群延迟。
5.根据权利要求1所述的方法,其特征在于,所述有限差分网络还包括堆叠第一时序差分子网络和堆叠第二时序差分子网络;
所述基于有限差分网络,根据所述有效语音信号,确定句子级别声纹特征;
基于所述堆叠第一时序差分子网络,根据所述频谱域语音信号表征,得到频谱域帧级别特征;
基于所述堆叠第二时序差分子网络,根据所述相位域语音信号表征,得到相位域帧级别特征;
根据所述频谱域帧级别特征和所述相位域帧级别特征,确定所述句子级别声纹特征。
6.根据权利要求5所述的方法,其特征在于,所述时序差分子网络包括所述第一时序差分子网络和所述第二时序差分子网络;
所述时序差分子网络包括级连的第一时序差分模块和第一静态特征提取网络;
基于所述第一时序差分模块,根据语音信号特征,得到所述语音信号特征的每个通道的第一注意力权重;所述语音信号特征包括所述频谱域语音信号特征或所述相位域语音信号特征;
所述每个通道的第一注意力权重与所述语音信号特征按通道分块的每个元素做哈达玛积,得到第一动态帧级别特征;
所述第一动态帧级别特征输入所述第一静态特征提取网络,得到帧级别特征;所述帧级别特别包括所述频谱域帧级别特征和所述相位域帧级别特征。
7.根据权利要求5所述的方法,其特征在于,所述时序差分子网络包括所述第一时序差分子网络和所述第二时序差分子网络;
所述时序差分子网络包括层级连接的第二时序差分模块、第三时序差分模块和第二静态特征提取网络;
基于所述第二时序差分模块,根据语音信号特征,得到所述语音信号特征的每个通道的第二注意力权重;所述语音信号特征包括所述频谱域语音信号特征或所述相位域语音信号特征;
基于所述第三时序差分模块,根据所述语音信号特征,得到所述语音信号特征的每个通道的第三注意力权重;
所述每个通道的第二注意力权重和所述每个通道的第三注意力权重求平均,得到每个通道的平均注意力权重;
所述每个通道的平均注意力权重与所述语音信号特征按通道分块的每个元素做哈达玛积,得到第二动态帧级别特征;
所述第二动态帧级别特征输入所述第二静态特征提取网络,得到帧级别特征;所述帧级别特别包括所述频谱域帧级别特征和所述相位域帧级别特征。
8.根据权利要求6或7所述的方法,其特征在于,所述时序差分模块包括所述第一时序差分模块、所述第二时序差分模块和所述第三时序差分模块;所述注意力权重包括所述第一注意力权重、所述第二注意力权重和所述第三注意力权重;
所述时序差分模块通过以下步骤得到所述语音信号特征的每个通道的注意力权重:
根据所述语音信号特征,确定截取信号特征;
对所述截取信号特征的元素矩阵和相邻元素矩阵,分别进行时间平均,分别得到第一一维列向量和第二一维列向量;
采用降采样卷积,分别对所述第一一维列向量和所述第二一维列向量进行降维,得到第一降维向量和第二降维向量;
根据所述第一降维向量和所述第二降维向量,确定差分值;
所述差分值通过升采样卷积及激活函数,得到所述语音信号特征的每个通道的注意力权重。
9.根据权利要求5所述的方法,其特征在于,所述根据所述频谱域帧级别特征和所述相位域帧级别特征,确定所述句子级别声纹特征,包括:
基于句子级别特征聚合,所述频谱域帧级别特征和所述相位域帧级别特征聚合为所述句子级别声纹特征。
10.根据权利要求1-7任一项所述的方法,其特征在于,所述预处理待识别语音信号包括:端点检测、时长规整、预加重处理。
CN202111262103.1A 2021-10-28 2021-10-28 一种声纹识别方法 Pending CN116052689A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111262103.1A CN116052689A (zh) 2021-10-28 2021-10-28 一种声纹识别方法
PCT/CN2021/138048 WO2023070874A1 (zh) 2021-10-28 2021-12-14 一种声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111262103.1A CN116052689A (zh) 2021-10-28 2021-10-28 一种声纹识别方法

Publications (1)

Publication Number Publication Date
CN116052689A true CN116052689A (zh) 2023-05-02

Family

ID=86131806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111262103.1A Pending CN116052689A (zh) 2021-10-28 2021-10-28 一种声纹识别方法

Country Status (2)

Country Link
CN (1) CN116052689A (zh)
WO (1) WO2023070874A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386647B (zh) * 2023-05-26 2023-08-22 北京瑞莱智慧科技有限公司 音频验证方法、相关装置、存储介质及程序产品
CN117953914B (zh) * 2024-03-27 2024-06-18 深圳市西昊智能家具有限公司 用于智能办公的语音数据增强优化方法
CN117995178B (zh) * 2024-04-07 2024-06-18 深圳市西昊智能家具有限公司 基于声音识别的智能办公语音控制方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210197A (ja) * 1994-01-14 1995-08-11 Nippondenso Co Ltd 話者識別方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN110349588A (zh) * 2019-07-16 2019-10-18 重庆理工大学 一种基于词嵌入的lstm网络声纹识别方法
CN111508504B (zh) * 2020-04-08 2022-06-07 郑州大学 基于听觉中枢感知机理的说话人识别方法
CN112053694A (zh) * 2020-07-23 2020-12-08 哈尔滨理工大学 一种基于cnn与gru网络融合的声纹识别方法
CN111968651A (zh) * 2020-08-25 2020-11-20 汪金玲 一种基于wt的声纹识别方法及系统
CN113488060B (zh) * 2021-06-25 2022-07-19 武汉理工大学 一种基于变分信息瓶颈的声纹识别方法及系统

Also Published As

Publication number Publication date
WO2023070874A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102968990B (zh) 说话人识别方法和系统
CN116052689A (zh) 一种声纹识别方法
CN111816218A (zh) 语音端点检测方法、装置、设备及存储介质
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Naini et al. Formant-gaps features for speaker verification using whispered speech
CN111508504A (zh) 基于听觉中枢感知机理的说话人识别方法
Kumar et al. Speaker identification system using Gaussian Mixture Model and Support Vector Machines (GMM-SVM) under noisy conditions
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Bhukya et al. Robust methods for text-dependent speaker verification
Pati et al. A comparative study of explicit and implicit modelling of subsegmental speaker-specific excitation source information
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Dhineshkumar et al. Speaker identification system using gaussian mixture model and support vector machines (GMM-SVM) under noisy conditions
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
Ahmad et al. The impact of low-pass filter in speaker identification
Zouhir et al. Robust speaker recognition based on biologically inspired features
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
Sakka et al. A new method for speech denoising and speaker verification using subband architecture
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion
Bouziane et al. Towards an objective comparison of feature extraction techniques for automatic speaker recognition systems
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Curelaru Evaluation of the standard i-vectors based speaker verification systems on limited data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination