CN117496980B - 一种基于局部和全局跨通道融合的声纹识别方法 - Google Patents

一种基于局部和全局跨通道融合的声纹识别方法 Download PDF

Info

Publication number
CN117496980B
CN117496980B CN202311845138.7A CN202311845138A CN117496980B CN 117496980 B CN117496980 B CN 117496980B CN 202311845138 A CN202311845138 A CN 202311845138A CN 117496980 B CN117496980 B CN 117496980B
Authority
CN
China
Prior art keywords
data
layer
global
block
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311845138.7A
Other languages
English (en)
Other versions
CN117496980A (zh
Inventor
陈丹伟
马云琪
纪翀
罗圣美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202311845138.7A priority Critical patent/CN117496980B/zh
Publication of CN117496980A publication Critical patent/CN117496980A/zh
Application granted granted Critical
Publication of CN117496980B publication Critical patent/CN117496980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于局部和全局跨通道融合的声纹识别方法,属于数字信号处理和语音识别技术领域,该方法引入了局部和全局跨通道融合的设计,通过将一个整理的信息划分为两个部分,分别对其进行局部和全局特征提取,接着将局部和全局特征进行融合,让信息更加丰富增加模型识别的泛化能力。该方法在声纹识别中具有较高的准确率和实时性,并行的设计在没有加宽模型的宽度前提下,进一步加快了运算速度,弥补了传统的声纹识别技术在准确性和运算速度方面存在的不足,在语音助手唤醒、身份证和信用卡识别等相关应用场景具有较大的应用潜力。

Description

一种基于局部和全局跨通道融合的声纹识别方法
技术领域
本发明涉及数字信号处理和语音识别技术领域,尤其涉及一种基于局部和全局跨通道融合的声纹识别方法。
背景技术
随着信息技术的不断发展,指纹、虹膜和人脸等生物识别技术在近年来逐渐融入我们的生活,改变了我们的日常。与此同时,声纹识别作为另一种生物识别技术,通过分析和识别人的声音来验证身份,也逐渐引起人们的关注。声纹识别技术广泛应用于刑侦破案、罪犯追踪、国防监控、证券和银行交易、公安取证、个人电脑和汽车的声控锁、语音助手唤醒,身份证和信用卡识别等多个领域。局部和全局跨通道融合的声纹识别用于语音助手唤醒、身份证和信用卡识别等场景。当下,硬件技术的突破带来了更多更快的计算资源,资源丰富也不能铺张浪费,为了利用少的资源并且实现更快的运算处理速度,局部和全局这种多路设计显得尤为重要。局部和全局设计目标是在保持测试准确率的情况下,通过并行运算加快运算速度。当然为了进一步提高准确率,跨通道融合也相当必要,跨通道融合的设计是在增加极少量的浮点运算(可忽略不计),局部和全局分别融合对方的生成的信息,增加测试的准确率。当前,国内外声纹识别领域大多注重准确性,因此设计这些模型时,网络的深度较深,使得模型训练时间过长。主流的模型有TDNN、ResNet、X-Vector、ECAPA-TDNN。
发明内容
本发明的目的是克服背景技术中存在的上述缺陷,提供一种基于局部和全局跨通道融合的声纹识别方法,在加快模型运算速度的同时,在增加可忽略不计的浮点运算的基础上提高准确率。
本发明为解决上述技术问题采用以下技术方案:
一种基于局部和全局跨通道融合的声纹识别方法,包括:
通过神经网络模型提取音频的特征,输出的特征向量是对应说话人的身份ID的语音片段特征,将语音片段特征进行存储,以便后续的音频检索;所述神经网络模型,包含两个卷积层、三个全局块和三个局部块、注意力池化层、全连接层、加性角余量损失归一化层;所述全局块和局部块是典型的残差结构,所述残差结构用来进行跨尺度信息提取;全局块和局部块通过跨通道进行连接;所述注意力池化层将所述全局块和局部块的信息进行拼接提取特征,经过全连接层和加性角余量损失归一化层用于后续的声纹识别。
进一步的,所述方法具体包含以下步骤:
步骤A:首先对单通道的音频文件进行预处理,得到梅尔频谱数据,并使用频谱增强,得到最后的频谱数据,具体包括:
根据预设的批量大小,获取此批量大小的单通道的音频文件信息,对于所得到的音频数据,加入混响和噪声,得到新的音频数据,按照预设的时间间隔对语音信号数据进行采样处理,将其转换为一维的语音信号;对一维语音信号滑动加窗,从而实现分帧;设置帧长25ms,帧移10ms,以保证帧内信号的平稳性,并使帧之间有交叠;接着对每一帧做快速傅立叶变换,并计算功率谱;对功率谱应用梅尔滤波器组,获取每个滤波器内的对数能量作为系数,得到频谱数据;对得到的频谱数据进行频谱增强,得到最后的频谱数据;
步骤B:结合卷积层、全局块、局部块、跨通道融合、注意力池化层,基于频谱数据对模型进行训练,得到训练后的声纹识别模型,具体步骤如下:
步骤B1:首先数据进入卷积层得到特征数据,第一层设计的输入通道是80,输出通道是512,卷积核大小为5,填充的方式是相同模式;对于特征数据进行批量归一化和ReLU激活,得到处理后的特征数据;
步骤B2:将输出的512个通道对半划分,作为全局块和局部块输入通道个数;将数据分别输入到全局层和局部层;在全局层中对数据进行一维卷积,将通道数放大到原来的2倍;再进行归一化和激活操作;卷积默认加上归一化和激活操作;接着进入残差结构,将输入划分为8个组,第一组就是直接当作输出值;第二组开始,每组进行卷积操作,卷积核大小为3,将卷积后的结果复制两份,一部分作为输出,一部分用作下一组做信息融合;后面3~8组的操作相同;这八组计算完后,将八组的结果拼接在一起;最后再将拼接的结果经由一维卷积,将通道数还原为原来的大小;步骤B2能用下列公式表示:
其中,表示的是输入的数据,/>是一维卷积操作,/>是将/>划分为8份,/>是将输入的每个通道进行拼接,/>是最后的输出结果;
将输出的结果再经过全局块操作,也即全局通道注意力操作:
其中,表示的是输入的数据,/>是一维卷积操作,/>函数对输入进行指数化,然后进行归一化;/>为层归一化操作,对网络中每个样本的特征进行归一化;/>是修正线性单元用于提高网络训练精度;
局部块使用的是通道注意力操作:
其中,表示的是输入的数据,/>是一维卷积操作,/>表示的是全局平均池化;Sigmoid函数是一种非线性激活函数,它的输出范围是[0,1];/>是修正线性单元用于提高网络训练精度;
步骤C:全局通道注意力块和通道注意力块操作完后得到的结果进行跨通道融合得到特征数据:
其中,分别是上面经过局部块和全局块得到的结果,/>是批量归一化,/>是修正线性单元用于提高网络训练精度;/>分别是局部块和全局块对于信息的提取结果,/>是通过相加的操作实现跨通道融合对应局部块和全局块的结果;局部块和全局块分别都有三层,除去对通道进行放缩的卷积的卷积核大小为1外,其他每一层卷积的卷积核大小都为3,除去放缩的通道数,每个块的通道数都是512;接着将三层的结果拼接在一起,经过一个卷积层,得到结果;
步骤D:基于注意力池化层,将特征数据赋予不同的权重,得到新的特征数据:
其中,表示的是上一层的输入,/>是一维卷积操作,/>是批量归一化,/>是修正线性单元用于提高网络训练精度;/>也是一个非线性的激活函数,它的输出范围是[-1, 1];/>函数对输入进行指数化,然后进行归一化;
步骤E:基于全连接层,对特征数据进行全连接处理,得到分布式特征:
其中,表示的是上一层的输出的结果,/>是批量归一化,是线性操作,用于将输入数据与权重矩阵相乘,并添加偏置向量,以生成输出;
步骤F:基于加性角余量损失归一化层,对分布式特征表示进行处理,得到音频数据嵌入码,以此得到训练后的模型;基于加性角余量损失归一化层的损失函数的表达式如下:
其中,表示第i个样本的深度特征,属于第/>类,/>表示全连接层权重/>的第j列,/>是偏置项;N和n分别代表批量大小和说话人的类别数;
步骤G:基于训练后的声纹识别模型进行声纹识别处理,得到最后比对结果;其具体步骤包括:
每次识别取两段语音数据,将待识别的语音数据输入到训练后的声纹识别模型中,获得每段音频所对应的语音数据嵌入码,根据语音数据嵌入提取的特征码计算它们的余弦相似度,并根据计算结果判断这两段音频是否来自同一个说话人,最终输出识别结果;其中余弦相似度的计算公式具体如下所示:
其中,表示第一段音频数据的第i个向量单位,/>表示第二段音频数据的第i个向量;n表示的是向量的维度。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明采用的并行的设计在没有加宽模型的宽度前提下,进一步加快了运算速度;
(2)本发明在声纹识别中具有较高的准确率和实时性,弥补了传统的声纹识别技术在准确性和运算速度方面存在的不足,在语音助手唤醒、身份证和信用卡识别等相关应用场景具有较大的应用潜力。
附图说明
图1是本发明一种基于局部和全局跨通道融合的声纹识别方法的整体框架图;
图2是本发明全局块的结构示意图;
图3是本发明局部块的结构示意图;
图4是本发明残差的结构示意图;
图5是本发明全局通道注意力的结构示意图;
图6是本发明通道注意力的结构示意图。
具体实施方式
下面将结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
数据集:VoxCeleb1是由牛津大学计算机科学系创建的数据集,涵盖了来自世界各地的1,251名名人的音频片段。这些音频片段是从名人在社交媒体、访谈和其他公开来源中获取的,每个名人都有多个不同的音频片段。VoxCeleb1的目标是通过比较声音数据的相似性来进行声纹识别,即通过分析声音的特征来识别不同个体之间的差异。VoxCeleb2是VoxCeleb1的扩展版本,也由牛津大学计算机科学系创建。VoxCeleb2增加了更多的名人音频片段,涵盖了从社交媒体、新闻和其他公开数据中收集的超过6,000名名人的音频片段。与VoxCeleb1一样,VoxCeleb2的目标是用于声纹识别研究,提供更大规模和更多样化的数据集。
数据预处理:在输入到模型前,对音频数据进行预处理,得到语音梅尔频谱数据;具体地,是将原来的音频进行裁剪,裁剪出三秒的语音,本发明使用的语音采样率是16Khz,通道个数为单通道,处理好后,再对音频输入加入噪声、混响。语音信号是从传感器中按一定时间间隔对物理声音进行采样,最终得到的一维时间信号,一维的语音信号经过预加重、分帧、加窗一系列处理,再经过短时傅里叶变换(STFT),再取功率谱,取对数后得到语谱图,最后经过Mel频谱滤波器计算得到梅尔频谱,本发明采用的是80维的梅尔频谱,其尺寸为(Batch为批量大小)。计算得到的梅尔频谱再进行频谱增强,得到最后的输入数据。
数据增强:本发明对每个音频加入了环境音、混响,用到是MUSAN和RIR数据集。MUSAN(音乐、语音、噪声)数据集是一个多种声音类型的混合数据集,包括音乐、人类语音和噪声。RIRS(逆回声和真实声音)数据集是一个进行混响和干净语音组合的数据集。
本发明提供了一种基于局部和全局跨通道融合的声纹识别方法,如图1所示,该方法包括以下步骤:
对预处理完的数据经过卷积层,得到的结果,这里数据维度为[B, 1024, T]再传入下一层之前划分成两部分,这个两个部分分别经由全局块(Global Block)和局部块(Local Block)处理,具体的,如图2和图3所示,前面几层处理的方式相同,最后信息融合的部分不同,处理方式相同的部分就是残差(Res2Net)结构,如图4所示,这里数据经过卷积层,再进行ReLU激活函数,再进行批量归一化(BatchNorm),得到数据,这里图中只是划分了4组,本发明划分了8组,第一组的数据不需要操作,从2~4组就需要对其进行卷积操作,每一组的结果需要跟下一组的输入进行合并,作为新的输入。4组处理完之后,合并经由卷积,再进行ReLU激活函数,再进行批量归一化得到数据,这里用到残差连接,对刚刚得到的数据相加得到新的数据。处理方式不同的部分,如图5和图6所示,全局通道注意力块(GCSE-Block),需要对输入的数据复制三份,第一份经过卷积、Softmax,得到的结果和第二份数据相乘,新得到的数据经过卷积、层归一化、ReLU激活、卷积,最后第三份数据再跟刚刚得到的结果相加。通道注意力块(SE-Block),只需要将输入的数复制两份,第一份数据经过全局平均池化(Global Average pooling)、卷积、ReLU激活、卷积,第二份数据跟刚刚处理过的数据相乘。在每一层全局块和局部块处理完之后都有一个跨通道融合,三层的全局块和局部块处理完之后,合并起来,处理完的维度是[B, 3072, T]。上面全局块和局部块中的数据维度都为[B, 512, T]经过卷积、ReLU激活,数据维度变更为[B,1536,T],后面维度变更图上的数字所示,再经过注意力池化(Attention Stat Pooling),全连接层,得到最后192位的嵌入码。嵌入码作为这段音频所对应说话人的身份id,用于音频检索、语音唤醒工作。最后的加性角余量损失归一化(AAM-Softmax)层主要用于训练部分。

Claims (1)

1.一种基于局部和全局跨通道融合的声纹识别方法,其特征在于,包括:
通过神经网络模型提取音频的特征,输出的特征向量是对应说话人身份ID的语音片段特征,将语音片段特征进行存储,以便后续的音频检索;所述神经网络模型,包含两个卷积层、三个全局块和三个局部块、注意力池化层、全连接层、加性角余量损失归一化层;所述全局块和局部块是典型的残差结构,所述残差结构用来进行跨尺度信息提取;全局块和局部块通过跨通道进行连接;所述注意力池化层将所述全局块和局部块的信息进行拼接提取特征,经过全连接层和加性角余量损失归一化层用于后续的声纹识别;
所述方法具体包含以下步骤:
步骤A:首先对单通道的音频文件进行预处理,得到梅尔频谱数据,并使用频谱增强,得到最后的频谱数据,具体包括:
根据预设的批量大小,获取此批量大小的单通道的音频文件信息,对于所得到的音频数据,加入混响和噪声,得到新的音频数据,按照预设的时间间隔对语音信号数据进行采样处理,将其转换为一维的语音信号;对一维语音信号滑动加窗,从而实现分帧;设置帧长25ms,帧移10ms,以保证帧内信号的平稳性,并使帧之间有交叠;接着对每一帧做快速傅立叶变换,并计算功率谱;对功率谱应用梅尔滤波器组,获取每个滤波器内的对数能量作为系数,得到频谱数据;对得到的频谱数据进行频谱增强,得到最后的频谱数据;
步骤B:结合卷积层、全局块、局部块、跨通道融合、注意力池化层,基于频谱数据对模型进行训练,得到训练后的声纹识别模型,具体步骤如下:
步骤B1:首先数据进入卷积层得到特征数据,第一层设计的输入通道是80,输出通道是512,卷积核大小为5,填充的方式为相同模式;对于特征数据进行批量归一化和ReLU激活,得到处理后的特征数据;
步骤B2:将输出的512个通道对半划分,作为全局块和局部块输入通道个数;将数据分别输入到全局层和局部层;在全局层中对数据进行一维卷积,将通道数放大到原来的2倍;再进行归一化和激活操作;卷积默认加上归一化和激活操作;接着进入残差结构,将输入划分为8个组,第一组就是直接当作输出值;第二组开始,每组进行卷积操作,每组的卷积核大小为3,将卷积后的结果复制两份,一部分作为输出,一部分用作下一组做信息融合;后面3~8组的操作相同;这八组计算完后,将八组的结果拼接在一起;最后再将拼接的结果经由一维卷积,将通道数还原为原来的大小;步骤B2能用下列公式表示:
x′=Conv(x)
x′1,x′2,...,x′8=split(x′)
y′=Concat(y1,y2,...,y8)
out=Conv(y′)
其中,x表示的是输入的数据,Conv是一维卷积操作,split(x′)是将x′划分为8份,Concat是将输入的每个通道进行拼接,out是最后的输出结果;
将输出的结果再经过全局块操作,也即全局通道注意力操作:
y=x+Conv(ReLU(LayerNorm(conv(x·softmax(Conv(x)))))),
其中,x表示的是输入的数据,Conv是一维卷积操作,Softmax函数对输入进行指数化,然后进行归一化;LayerNorm为层归一化,对网络中每个样本的特征进行归一化;ReLU是修正线性单元用于提高网络训练精度;
局部块使用的是通道注意力操作:
y=x·Sigmoid(Conv(ReLU(Conv(pool(x))))),
其中,x表示的是输入的数据,Conv是一维卷积操作,pool表示的是全局平均池化操作;Sigmoid函数是一种非线性激活函数,它的输出范围是[0,1];ReLU是修正线性单元用于提高网络训练精度;
步骤C:全局通道注意力块和通道注意力块操作完后得到的结果进行跨通道融合得到特征数据:
yl=ReLU(BatchNorm(Conv(xl)))
yg=ReLU(BatchNorm(conv(xg))),
y′l=xl+yg
y′g=xg+yl
其中,xl,xg分别是上面经过局部块和全局块得到的结果,BatchNorm是批量归一化,ReLU是修正线性单元用于提高网络训练精度;yl,yg分别是局部块和全局块对于信息的提取结果,y′l,y′g是通过相加的操作实现跨通道融合对应局部块和全局块的结果;局部块和全局块分别都有三层,除去对通道进行放缩的卷积的卷积核大小为1外,其他每一层卷积的卷积核大小都为3,除去放缩的通道数,每个块的通道数都是512;接着将三层的结果拼接在一起,经过一个卷积层,得到结果;
步骤D:基于注意力池化层,将特征数据赋予不同的权重,得到新的特征数据:
y=softmax(Conv(Tanh(ReLu(BatchNorm(Conv(x)))))),
其中,x表示的是上一层的输入,Conv是一维卷积操作,BatchNorm是批量归一化,ReLU是修正线性单元用于提高网络训练精度,Tanh也是一个非线性的激活函数,它的输出范围是[-1,1];Softmax函数对输入进行指数化,然后进行归一化;
步骤E:基于全连接层,对特征数据进行全连接处理,得到分布式特征表示:
y=BatchNorm(Linear(BatchNorm(x))),
其中,x表示的是上一层的输出的结果,BatchNorm是批量归一化,Linear是线性操作,用于将输入数据与权重矩阵相乘,并添加偏置向量,以生成输出;
步骤F:基于加性角余量损失归一化层,对分布式特征表示进行处理,得到音频数据嵌入码,以此得到训练后的模型;加性角余量损失归一化层的损失函数的表达式如下:
其中,xi∈Rd表示第i个样本的深度特征,属于第yi类,Wj∈Rd表示全连接层权重Wj∈Rd×n的第j列,bj∈Rn是偏置项;N和n分别代表批量大小和说话人的类别数;
步骤G:基于训练后的声纹识别模型进行声纹识别处理,得到最后比对结果;其具体步骤包括:
每次识别取两段语音数据,将待识别的语音数据输入到训练后的声纹识别模型中,获得每段音频所对应的语音数据嵌入码,根据语音数据嵌入提取的特征码计算它们的余弦相似度,并根据计算结果判断这两段音频是否来自同一个说话人,最终输出识别结果;其中余弦相似度的计算公式具体如下所示:
其中,xi表示第一段音频数据的第i个向量单位,yi表示第二段音频数据的第i个向量;n表示的是向量的维度。
CN202311845138.7A 2023-12-29 2023-12-29 一种基于局部和全局跨通道融合的声纹识别方法 Active CN117496980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311845138.7A CN117496980B (zh) 2023-12-29 2023-12-29 一种基于局部和全局跨通道融合的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311845138.7A CN117496980B (zh) 2023-12-29 2023-12-29 一种基于局部和全局跨通道融合的声纹识别方法

Publications (2)

Publication Number Publication Date
CN117496980A CN117496980A (zh) 2024-02-02
CN117496980B true CN117496980B (zh) 2024-03-26

Family

ID=89669354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311845138.7A Active CN117496980B (zh) 2023-12-29 2023-12-29 一种基于局部和全局跨通道融合的声纹识别方法

Country Status (1)

Country Link
CN (1) CN117496980B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN113889081A (zh) * 2021-10-12 2022-01-04 杭州网易智企科技有限公司 语音识别方法、介质、装置和计算设备
CN114913859A (zh) * 2022-05-17 2022-08-16 北京百度网讯科技有限公司 声纹识别方法、装置、电子设备和存储介质
CN116383791A (zh) * 2023-03-28 2023-07-04 平安银行股份有限公司 一种客户身份认证方法、装置、电子设备及介质
CN116705034A (zh) * 2023-05-18 2023-09-05 阿里巴巴(中国)有限公司 声纹特征提取方法、说话人识别方法、模型训练方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230115271A1 (en) * 2021-10-13 2023-04-13 Hithink Royalflush Information Network Co., Ltd. Systems and methods for speech recognition
US20230386476A1 (en) * 2022-05-26 2023-11-30 Vail Systems, Inc. A system and a method for low latency speaker detection and recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN113889081A (zh) * 2021-10-12 2022-01-04 杭州网易智企科技有限公司 语音识别方法、介质、装置和计算设备
CN114913859A (zh) * 2022-05-17 2022-08-16 北京百度网讯科技有限公司 声纹识别方法、装置、电子设备和存储介质
CN116383791A (zh) * 2023-03-28 2023-07-04 平安银行股份有限公司 一种客户身份认证方法、装置、电子设备及介质
CN116705034A (zh) * 2023-05-18 2023-09-05 阿里巴巴(中国)有限公司 声纹特征提取方法、说话人识别方法、模型训练方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Chen ; Y..An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification.《arXiv:2305.12838v2》.2023,1-5. *
Xie, F ; .Global-Local Self-Attention Based Transformer for Speaker Verification.《Applied Sciences》.2022,1-10. *
基于全局注意力机制的CNN-LSTM说话人识别研究;楚宪腾;《电声技术》;20220228;38-45 *
基于深度卷积神经网络的声纹识别算法研究;戚敏惠;《中国优秀硕士学位论文全文数据库信息科技辑》;20220115;全文 *
基于深度学习的音视频应用两阶段识别方法研究;徐忠武;《计算机应用与软件》;20231201;156-162 *

Also Published As

Publication number Publication date
CN117496980A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
Samizade et al. Adversarial example detection by classification for deep speech recognition
CN113488058B (zh) 一种基于短语音的声纹识别方法
AU2020102038A4 (en) A speaker identification method based on deep learning
Passricha et al. A comparative analysis of pooling strategies for convolutional neural network based Hindi ASR
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
Zhang et al. An efficient perceptual hashing based on improved spectral entropy for speech authentication
Wei et al. EdgeCRNN: an edge-computing oriented model of acoustic feature enhancement for keyword spotting
Mu et al. Voice activity detection optimized by adaptive attention span transformer
Yang et al. Speech recognition of command words based on convolutional neural network
Almekhlafi et al. A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks
Zhao et al. Research on end-to-end voiceprint recognition model based on convolutional neural network
Zhang et al. Content-based encrypted speech retrieval scheme with deep hashing
Altalbe RETRACTED ARTICLE: Audio fingerprint analysis for speech processing using deep learning method
Liu et al. Keyword spotting techniques to improve the recognition accuracy of user-defined keywords
Ren Research on a software architecture of speech recognition and detection based on interactive reconstruction model
CN117496980B (zh) 一种基于局部和全局跨通道融合的声纹识别方法
AU2018102038A4 (en) A Speaker Identification Method Based on DTW Algorithm
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Nguyen et al. Vietnamese speaker authentication using deep models
Li et al. Fdn: Finite difference network with hierarchical convolutional features for text-independent speaker verification
Jiang et al. Coal-gangue recognition via multi-branch convolutional neural network based on MFCC in noisy environment
Li et al. Research on voiceprint recognition technology based on deep neural network
Zi et al. BSML: Bidirectional Sampling Aggregation-based Metric Learning for Low-resource Uyghur Few-shot Speaker Verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant