CN113077795A - 一种通道注意力传播与聚合下的声纹识别方法 - Google Patents

一种通道注意力传播与聚合下的声纹识别方法 Download PDF

Info

Publication number
CN113077795A
CN113077795A CN202110368665.8A CN202110368665A CN113077795A CN 113077795 A CN113077795 A CN 113077795A CN 202110368665 A CN202110368665 A CN 202110368665A CN 113077795 A CN113077795 A CN 113077795A
Authority
CN
China
Prior art keywords
voiceprint
wavelet
voiceprint recognition
features
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110368665.8A
Other languages
English (en)
Other versions
CN113077795B (zh
Inventor
李鹏华
田鹏
刘行谋
陈旭赢
李祖栋
卢楠
王宁
鲁鑫
高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110368665.8A priority Critical patent/CN113077795B/zh
Publication of CN113077795A publication Critical patent/CN113077795A/zh
Application granted granted Critical
Publication of CN113077795B publication Critical patent/CN113077795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种通道注意力传播与聚合下的声纹识别方法,属于信号处理领域。该方法包括以下步骤:S1:原始语音离散信号的二阶小波散射变换;S2:多尺度特征的声纹映射编码;S3:声纹编码的相似度评估。本发明通过小波散射变换获取多尺度的短时语音特征,采用基于通道注意力传播和聚合的时延神经网络对多尺度特征进行映射得到声纹编码,以提高声纹识别的准确性与鲁棒性。本研究兼顾了长时与短时语音的处理,为含有短时语音数据的声纹识别,提供了新的技术手段,亦可迁移到其他语音处理领域,作为声纹编码的获取方法之一。

Description

一种通道注意力传播与聚合下的声纹识别方法
技术领域
本发明属于信号处理领域,涉及一种通道注意力传播与聚合下的声纹识别方法。
背景技术
声纹识别作为一种生物识别技术,相较于人脸识别,指纹识别等技术具有以下优点:(1)获取方便;(2)成本低;(3)用户接受程度高;(4)普适性广。近几年来,使用神经网络隐层输出为声纹编码的研究取得了显著进展。但由于对包含短时语音的声纹数据提取的声纹特征较少、声纹特征鲁棒性差,声纹识别系统的可靠运行依然面临重大挑战。
许多研究工作都采用Voxceleb或Librispeech等数据集进行建模和验证,这些数据集的音频平均时长为8.2秒,属于长语音,时长3秒以下的短时语音占比只有1%,并且仅利用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或者对数滤波器组特征(log-Filter Banks,fbanks)提取高维语音特征,使得研究人员放弃使用这部分数据,单一尺度的语音特征降低了声纹识别模型对短时语音声纹特征的建模能力与性能。现有模型都只针对网络最后一层的帧级特征提取说话者声纹的各种属性特征,并没有注意到其他网络层所提取的帧级特征与各个通道中所包含的丰富信息,即,未捕获并强调声纹特征的有用信息,使得网络输出的声纹编码的鲁棒性不足,降低了声纹识别的性能。
发明内容
有鉴于此,本发明的目的在于提供一种通道注意力传播与聚合下的声纹识别方法。
为达到上述目的,本发明提供如下技术方案:
一种通道注意力传播与聚合下的声纹识别方法,该方法包括以下步骤:
S1:原始语音离散信号的二阶小波散射变换;
S2:多尺度特征的声纹映射编码;
S3:声纹编码的相似度评估。
可选的,所述S1具体为:
小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的,记小波f(t)为中心频率归一化为1的带通滤波器,通过扩张小波f(t)得到小波滤波器组fλ(t):
fλ(t)=λf(λt) (1)
Figure BDA0003008424160000021
Q是每个尺度的小波数量,小波f(t)的带宽是
Figure BDA0003008424160000022
滤波器组由带通滤波器组成,这些带通滤波器以λ的频域为中心,并且带宽为
Figure BDA0003008424160000023
在零阶,由式(2)计算小波系数,该系数对于音频信号接近于零;在计算一阶小波系数时,设置Q1=8,相当于定义具有与梅尔频率滤波器组相同频率尺度的小波;同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数:
S0x(t)=x*φ(t) (2)
Figure BDA0003008424160000029
由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数:
Figure BDA0003008424160000024
小波
Figure BDA0003008424160000025
具有的尺度Q2与Q1不同,设置Q2=1,定义具有更短时间支持的小波,用于表征瞬态特征;得到一个稀疏的表示,将信号的信息集中在尽可能少的小波系数中;这些小波系数由低通滤波器φ对小波系数的模求平均得到,与一阶系数相同,低通滤波器保证时移的局部不变性;
级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征S:
S=concatnate(S1x(t,λ1),S2x(t,λ12)) (5)
该特征为相同信号提供了不同尺度特征;该散射特征包括了对数梅尔特征以及更高阶特征,保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。
可选的,所述S2具体为:
设计残差连接下的平均分组交替规则,实现声纹特征的全局信息复用,构建适用于不同组别的小尺度卷积核,获取声纹特征的局部信息,降低残差网络参数量;采用“压缩-扩张”操作进一步筛选声纹特征的有用信息,提高声纹特征的可分性;
在残差连接交替卷积和注意力模块ResA2Net模块模块中,以倒谱系数表征的单个声纹特征通过点卷积运算,转换成n组特征子集,表示为
Figure BDA0003008424160000026
每个特征子集
Figure BDA0003008424160000027
的分辨率与输入的声纹特征保持一致,通道数降低为输入特征的1/n;针对每个
Figure BDA0003008424160000028
构建不同尺寸的卷积核Ki(·),并采用级联交替的方式依次计算相应的特征映射;相应的特征映射Yi表示为:
Figure BDA0003008424160000031
原始X-Vector系统中的帧级特征的时间上下文限制为15帧,引入一维“压缩-扩张”模块与扩张卷积级联,对全局的通道相互依赖性建模,将全局空间信息转换至通道描述中,学习通道间的非线性相互作用与非互斥关系;
一维“压缩-扩张”模块的第一部分是对输入yt的“压缩”操作:
Figure BDA0003008424160000032
在“扩张”阶段,使用s中的描述计算每个通道的权重:
d=σ(W2f(W1s+b1)+b2) (8)
其中σ(·)表示sigmoid函数,f(·)表示Mish激活函数,
Figure BDA0003008424160000033
一维“压缩-扩张”的操作充当一次残差连接,C和R分别表示输入通道的数量和降低后的尺寸大小,得到的向量d包含每个通道的权值dc∈(0,1),该权值通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出:
Figure BDA0003008424160000034
原始X-Vector系统使用最后一层的帧级特征层映射计算汇总统计信息,对于每一个帧级特征层,利用所提出的系统将其聚合连接;
C和T分别对应中间特征映射的通道数和时间维度,d为扩张卷积的扩张空间,S为训练集说话人数量;在多层特征聚合MFA后,将聚合后的帧级特征送入统计池化层,经过该层的输出即为声纹编码;
在网络权值初始化时,在全连接层的权重上引入正则性约束:
Figure BDA0003008424160000035
其中W是网络最后一层的权重,z为一个n维的向量
Figure BDA0003008424160000036
δw∈(0,1)并且是一个常量,||·||表示Frobenius范数;
提高以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。
可选的,所述S3具体为:
根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码,按式(11)对不同声纹编码δk与δh进行相似度计算,以完成声纹识别:
Figure BDA0003008424160000041
本发明的有益效果在于:
本发明通过小波散射变换获取多尺度的短时语音特征,采用基于通道注意力传播和聚合的时延神经网络对多尺度特征进行映射得到声纹编码,以提高声纹识别的准确性与鲁棒性。本发明兼顾了长时与短时语音的处理,为含有短时语音数据的声纹识别,提供了新的技术手段,亦可迁移到其他语音处理领域,作为声纹编码的获取方法之一。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为ResA2Net模块结构;
图2为通道注意力传播和聚合的时延神经网络结构。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
针对含有短时语音的音频数据的声纹识别准确性不高问题,研究多尺度描述下包含短时语音数据的声纹识别方法。以原始语音的离散信号为对象,设计二阶小波散射变换从多个尺度获取声纹帧级特征;以多尺度的高维声纹帧级特征为对象,研究所有帧级特征层在个模型中的传播与聚合方式、全局上下文信息的通道注意力机制以及在正交约束下的声纹编码映射方法,实现包含短时语音数据的声纹识别。
一种通道注意力传播与聚合下的声纹识别方法,包括对语音原始数据的二阶小波散射变换、声纹编码映射、相似度评估计算三个步骤。
1)原始语音离散信号的二阶小波散射变换
小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的,记小波f(t)为中心频率归一化为1的带通滤波器,通过扩张小波f(t)得到小波滤波器组fλ(t):
fλ(t)=λf(λt) (1)
此处的
Figure BDA0003008424160000051
Q是每个尺度的小波数量,小波f(t)的带宽是
Figure BDA0003008424160000052
滤波器组由带通滤波器组成,这些带通滤波器以λ的频域为中心,并且带宽为
Figure BDA0003008424160000053
在零阶,由式(2)计算小波系数,该系数对于音频信号接近于零。在计算一阶小波系数时,设置Q1=8,相当于定义了具有与梅尔频率滤波器组相同频率尺度的小波。同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数:
S0x(t)=x*φ(t) (2)
Figure BDA0003008424160000056
由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数:
Figure BDA0003008424160000054
小波
Figure BDA0003008424160000055
具有的尺度Q2与Q1不同,这里设置Q2=1,定义了具有更短时间支持的小波,更适合表征瞬态特征。由此,得到了一个稀疏的表示,这意味着将信号的信息集中在了尽可能少的小波系数中。这些系数由低通滤波器φ对小波系数的模求平均得到,与一阶系数相同,低通滤波器保证了时移的局部不变性。
级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征S:
S=concatnate(S1x(t,λ1),S2x(t,λ12)) (5)
该特征为相同信号提供了不同尺度特征。该散射特征包括了对数梅尔特征以及更高阶特征,保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。
2)多尺度特征的声纹映射编码
设计残差连接下的平均分组交替规则,实现声纹特征的全局信息复用,构建适用于不同组别的小尺度卷积核,获取声纹特征的局部信息,降低残差网络参数量;采用“压缩-扩张”操作进一步筛选声纹特征的有用信息,提高声纹特征的可分性。残差连接交替卷积和注意力模块(Residual Alternate Convolution and Attention Network,ResA2Net)模块的结构如图1所示:
其中C为通道拼接操作,
Figure BDA0003008424160000061
为逐元素相加。在该模块中,以倒谱系数表征的单个声纹特征通过点卷积运算,转换成n组特征子集(表示为
Figure BDA0003008424160000062
(i=1,2,...,n)),每个特征子集
Figure BDA0003008424160000063
的分辨率与输入的声纹特征保持一致,通道数降低为输入特征的1/n。针对每个
Figure BDA0003008424160000064
构建不同尺寸的卷积核Ki(·),并采用级联交替的方式依次计算相应的特征映射。相应的特征映射Yi可表示为:
Figure BDA0003008424160000065
原始X-Vector系统中的帧级特征的时间上下文限制为15帧,由于网络明显受益于更加宽泛的时间上下文,所以引入一维“压缩-扩张”模块与扩张卷积级联,对全局的通道相互依赖性建模,将全局空间信息转换至通道描述中,学习通道间的非线性相互作用与非互斥关系。
一维“压缩-扩张”模块的第一部分是对输入yt的“压缩”操作:
Figure BDA0003008424160000066
在“扩张”阶段,使用s中的描述计算每个通道的权重:
d=σ(W2f(W1s+b1)+b2) (8)
其中σ(·)表示sigmoid函数,f(·)表示Mish激活函数,
Figure BDA0003008424160000067
一维“压缩-扩张”的操作充当一次残差连接,C和R分别表示输入通道的数量和降低后的尺寸大小。该操作得到的向量d包含了每个通道的权值dc∈(0,1),该权重通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出:
Figure BDA0003008424160000071
原始X-Vector系统仅仅使用最后一层的帧级特征层映射计算汇总统计信息,由于到TDNN的层次结构性质,更深层次的网络层的特征包含了更为复杂的与说话者身份相关的信息,但是较浅的网络层包含的信息也能增强声纹编码的鲁棒性。所以对于每一个帧级特征层,都利用所提出的系统将其聚合连接,如图2所示。
其中C和T分别对应中间特征映射的通道数和时间维度,d为扩张卷积的扩张空间,S为训练集说话人数量。在多层特征聚合(Multi-layer Feature Aggregation,MFA)后,将聚合后的帧级特征送入统计池化层(Statistics Pooling Layer),经过该层的输出即为声纹编码。
在网络权值初始化时,在全连接层的权重上引入正则性约束:
Figure BDA0003008424160000072
其中W是网络最后一层的权重,z为一个n维的向量
Figure BDA0003008424160000073
δw∈(0,1)并且是一个常量,||·||表示Frobenius范数。提高了以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。
3)声纹编码的相似度评估
根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码,按下式对不同声纹编码(δk与δh)进行相似度计算,以完成声纹识别。
Figure BDA0003008424160000074
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种通道注意力传播与聚合下的声纹识别方法,其特征在于:该方法包括以下步骤:
S1:原始语音离散信号的二阶小波散射变换;
S2:多尺度特征的声纹映射编码;
S3:声纹编码的相似度评估。
2.根据权利要求1所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S1具体为:
小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的,记小波f(t)为中心频率归一化为1的带通滤波器,通过扩张小波f(t)得到小波滤波器组fλ(t):
fλ(t)=λf(λt) (1)
Figure FDA0003008424150000011
Q是每个尺度的小波数量,小波f(t)的带宽是
Figure FDA0003008424150000012
滤波器组由带通滤波器组成,这些带通滤波器以λ的频域为中心,并且带宽为
Figure FDA0003008424150000013
在零阶,由式(2)计算小波系数,该系数对于音频信号接近于零;在计算一阶小波系数时,设置Q1=8,相当于定义具有与梅尔频率滤波器组相同频率尺度的小波;同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数:
S0x(t)=x*φ(t) (2)
Figure FDA0003008424150000014
由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数:
Figure FDA0003008424150000015
小波
Figure FDA0003008424150000016
具有的尺度Q2与Q1不同,设置Q2=1,定义具有更短时间支持的小波,用于表征瞬态特征;得到一个稀疏的表示,将信号的信息集中在尽可能少的小波系数中;这些小波系数由低通滤波器φ对小波系数的模求平均得到,与一阶系数相同,低通滤波器保证时移的局部不变性;
级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征S:
S=concatnate(S1x(t,λ1),S2x(t,λ12)) (5)
该特征为相同信号提供了不同尺度特征;该散射特征包括了对数梅尔特征以及更高阶特征,保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。
3.根据权利要求2所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S2具体为:
设计残差连接下的平均分组交替规则,实现声纹特征的全局信息复用,构建适用于不同组别的小尺度卷积核,获取声纹特征的局部信息,降低残差网络参数量;采用“压缩-扩张”操作进一步筛选声纹特征的有用信息,提高声纹特征的可分性;
在残差连接交替卷积和注意力模块ResA2Net模块模块中,以倒谱系数表征的单个声纹特征通过点卷积运算,转换成n组特征子集,表示为
Figure FDA0003008424150000021
每个特征子集
Figure FDA0003008424150000022
的分辨率与输入的声纹特征保持一致,通道数降低为输入特征的1/n;针对每个
Figure FDA0003008424150000023
构建不同尺寸的卷积核Ki(·),并采用级联交替的方式依次计算相应的特征映射;相应的特征映射Yi表示为:
Figure FDA0003008424150000024
原始X-Vector系统中的帧级特征的时间上下文限制为15帧,引入一维“压缩-扩张”模块与扩张卷积级联,对全局的通道相互依赖性建模,将全局空间信息转换至通道描述中,学习通道间的非线性相互作用与非互斥关系;
一维“压缩-扩张”模块的第一部分是对输入yt的“压缩”操作:
Figure FDA0003008424150000025
在“扩张”阶段,使用s中的描述计算每个通道的权重:
d=σ(W2f(W1s+b1)+b2) (8)
其中σ(·)表示sigmoid函数,f(·)表示Mish激活函数,
Figure FDA0003008424150000026
一维“压缩-扩张”的操作充当一次残差连接,C和R分别表示输入通道的数量和降低后的尺寸大小,得到的向量d包含每个通道的权值dc∈(0,1),该权值通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出:
Figure FDA0003008424150000027
原始X-Vector系统使用最后一层的帧级特征层映射计算汇总统计信息,对于每一个帧级特征层,利用所提出的系统将其聚合连接;
C和T分别对应中间特征映射的通道数和时间维度,d为扩张卷积的扩张空间,S为训练集说话人数量;在多层特征聚合MFA后,将聚合后的帧级特征送入统计池化层,经过该层的输出即为声纹编码;
在网络权值初始化时,在全连接层的权重上引入正则性约束:
Figure FDA0003008424150000031
其中W是网络最后一层的权重,z为一个n维的向量
Figure FDA0003008424150000032
δw∈(0,1)并且是一个常量,||·||表示Frobenius范数;
提高以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。
4.根据权利要求3所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S3具体为:
根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码,按式(11)对不同声纹编码δk与δh进行相似度计算,以完成声纹识别:
Figure FDA0003008424150000033
CN202110368665.8A 2021-04-06 2021-04-06 一种通道注意力传播与聚合下的声纹识别方法 Active CN113077795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110368665.8A CN113077795B (zh) 2021-04-06 2021-04-06 一种通道注意力传播与聚合下的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110368665.8A CN113077795B (zh) 2021-04-06 2021-04-06 一种通道注意力传播与聚合下的声纹识别方法

Publications (2)

Publication Number Publication Date
CN113077795A true CN113077795A (zh) 2021-07-06
CN113077795B CN113077795B (zh) 2022-07-15

Family

ID=76615156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110368665.8A Active CN113077795B (zh) 2021-04-06 2021-04-06 一种通道注意力传播与聚合下的声纹识别方法

Country Status (1)

Country Link
CN (1) CN113077795B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724713A (zh) * 2021-09-07 2021-11-30 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN113903344A (zh) * 2021-12-07 2022-01-07 杭州兆华电子有限公司 基于多通道小波分解共同降噪的深度学习声纹识别方法
CN114081462A (zh) * 2021-11-19 2022-02-25 齐齐哈尔大学 一种基于多维度生理信息的心脏健康监护系统
CN114609668A (zh) * 2022-03-11 2022-06-10 西安交通大学 一种基于散射变换和神经网络的优质储层识别方法、装置、设备及存储介质
CN116825114A (zh) * 2023-08-31 2023-09-29 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质
CN117727329A (zh) * 2024-02-07 2024-03-19 深圳市科荣软件股份有限公司 一种用于智慧监管的多目标监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016018488A2 (en) * 2014-05-09 2016-02-04 Eyefluence, Inc. Systems and methods for discerning eye signals and continuous biometric identification
CN110349593A (zh) * 2019-07-25 2019-10-18 江门市华恩电子研究院有限公司 基于波形时频域分析的语义和声纹双重识别的方法及系统
CN110930983A (zh) * 2019-11-08 2020-03-27 广州大学 用于语音信号的小波特征提取方法、系统和存储介质
CN111312259A (zh) * 2020-02-17 2020-06-19 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN111508504A (zh) * 2020-04-08 2020-08-07 郑州大学 基于听觉中枢感知机理的说话人识别方法
CN111956221A (zh) * 2020-09-07 2020-11-20 南京医科大学 一种基于小波散射因子与lstm神经网络模型的颞叶癫痫分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016018488A2 (en) * 2014-05-09 2016-02-04 Eyefluence, Inc. Systems and methods for discerning eye signals and continuous biometric identification
CN110349593A (zh) * 2019-07-25 2019-10-18 江门市华恩电子研究院有限公司 基于波形时频域分析的语义和声纹双重识别的方法及系统
CN110930983A (zh) * 2019-11-08 2020-03-27 广州大学 用于语音信号的小波特征提取方法、系统和存储介质
CN111312259A (zh) * 2020-02-17 2020-06-19 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN111508504A (zh) * 2020-04-08 2020-08-07 郑州大学 基于听觉中枢感知机理的说话人识别方法
CN111956221A (zh) * 2020-09-07 2020-11-20 南京医科大学 一种基于小波散射因子与lstm神经网络模型的颞叶癫痫分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XINMAN ZHANG: "Voice Biometric Identity Authentication System Based on Android Smart Phone", <2018 IEEE 4TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)> *
YANFENG KONG: "Research on Voice print Recognition Based on Wavelet Analysis and BP-GA", 《COPMPUTER SCIENCE AND ENGINEERING》 *
孙林慧: "基于自适应多尺度压缩感知的语音压缩与重构", 《电子学报》 *
高铭: "基于改进MFCC的说话人特征参数提取算法", 《青岛大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724713A (zh) * 2021-09-07 2021-11-30 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN114081462A (zh) * 2021-11-19 2022-02-25 齐齐哈尔大学 一种基于多维度生理信息的心脏健康监护系统
CN114081462B (zh) * 2021-11-19 2023-06-09 齐齐哈尔大学 一种基于多维度生理信息的心脏健康监护系统
CN113903344A (zh) * 2021-12-07 2022-01-07 杭州兆华电子有限公司 基于多通道小波分解共同降噪的深度学习声纹识别方法
CN114609668A (zh) * 2022-03-11 2022-06-10 西安交通大学 一种基于散射变换和神经网络的优质储层识别方法、装置、设备及存储介质
CN114609668B (zh) * 2022-03-11 2023-09-19 西安交通大学 一种基于散射变换和神经网络的优质储层识别方法、装置、设备及存储介质
CN116825114A (zh) * 2023-08-31 2023-09-29 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质
CN116825114B (zh) * 2023-08-31 2023-11-10 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质
CN117727329A (zh) * 2024-02-07 2024-03-19 深圳市科荣软件股份有限公司 一种用于智慧监管的多目标监测方法
CN117727329B (zh) * 2024-02-07 2024-04-26 深圳市科荣软件股份有限公司 一种用于智慧监管的多目标监测方法

Also Published As

Publication number Publication date
CN113077795B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN113077795B (zh) 一种通道注意力传播与聚合下的声纹识别方法
Lin et al. Audio classification and categorization based on wavelets and support vector machine
CN103403710B (zh) 对来自音频信号的特征指纹的提取和匹配
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
Tiwari MFCC and its applications in speaker recognition
US7082394B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN113312989B (zh) 一种基于聚合描述子与注意力的指静脉特征提取网络
CN103794207A (zh) 一种双模语音身份识别方法
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
CN104887263A (zh) 一种基于心音多维特征提取的身份识别算法及其系统
CN111785286A (zh) 面向家居cnn分类与特征匹配联合的声纹识别方法
Shi et al. Music genre classification based on chroma features and deep learning
Kamaruddin et al. Features extraction for speech emotion
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Zi et al. Joint filter combination-based central difference feature extraction and attention-enhanced Dense-Res2Block network for short-utterance speaker recognition
CN114220438B (zh) 基于bottleneck和通道切分的轻量级说话人识别方法及系统
Kim et al. Light-Weight Speaker Verification with Global Context Information.
Al-Dulaimi et al. Speaker Identification System Employing Multi-resolution Analysis in Conjunction with CNN.
KR101094763B1 (ko) 사용자 인증을 위한 특징벡터 추출장치 및 방법
Li et al. Model Compression for DNN-based Speaker Verification Using Weight Quantization
CN111274989A (zh) 一种基于深度学习的野外车辆识别方法
RU2364957C1 (ru) Способ определения параметров линейчатых спектров вокализованных звуков и система для его реализации
CN113506583B (zh) 利用残差网络的伪装语音检测方法
CN118230722B (zh) 基于ai的智能语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant