CN111833886B - 全连接多尺度的残差网络及其进行声纹识别的方法 - Google Patents

全连接多尺度的残差网络及其进行声纹识别的方法 Download PDF

Info

Publication number
CN111833886B
CN111833886B CN202010731632.0A CN202010731632A CN111833886B CN 111833886 B CN111833886 B CN 111833886B CN 202010731632 A CN202010731632 A CN 202010731632A CN 111833886 B CN111833886 B CN 111833886B
Authority
CN
China
Prior art keywords
feature map
convolution
convolution kernel
layer
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010731632.0A
Other languages
English (en)
Other versions
CN111833886A (zh
Inventor
王文超
方策
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN202010731632.0A priority Critical patent/CN111833886B/zh
Publication of CN111833886A publication Critical patent/CN111833886A/zh
Application granted granted Critical
Publication of CN111833886B publication Critical patent/CN111833886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。

Description

全连接多尺度的残差网络及其进行声纹识别的方法
技术领域
本发明涉及人工智能领域,更具体的说,涉及一种全连接多尺度的残差网络及其进行声纹识别的方法。
背景技术
在得益于深度学习的帮助,声纹识别技术得到了快速的发展。由于深度神经网络(Deep Neural Network,DNN)具有较强的抽象表示能力,因而在各种模式识别任务中都有显著的表现。可以把DNN的最后一个隐藏层的输出称为d-vector。类似d-vector的思想,接收时延神经网络(Time Delay Neural Network,TDNN)最后一个隐藏层的输出并且计算其统计量,称为x-vector,d-vector和x-vector可以作为输入语音帧的说话人身份的表示。
另外,由于卷积神经网络(Convolutional Neural Network,CNN)具有多尺度描述图像或者语音特征的能力,在一定程度上优于DNN和TDNN,CNN在声纹识别中的应用也逐渐得到推广。
为了克服因CNN的网络层的数量过多而造成的梯度消失的问题,可以通过由多个残差模块堆叠形成的残差网络(Residual Network,ResNet)实现声纹识别。ResNet的每个残差模块中,输入层和输出层之间直接连接。与传统的单向连接的神经网络相比,残差模块的输入层与输出层之间的直接连接,避免了深层网络梯度消失的问题。
希望有一种新的技术方案,以期实现更好的提取声纹特征,从而实现更为准确的声纹识别。
发明内容
本发明的目的是为了解决现有技术中存在的技术问题,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。
第一方面,本发明提供了一种用于声纹识别的全连接多尺度的残差网络,包括输入层,卷积层,N个依次连接的残差模块,以及全连接层;其中,
所述输入层,用于接收待识别的语音信息对应的特征向量;
所述卷积层,用于对特征向量进行卷积处理以得到第一特征图;
对于N个残差模块中的第i个残差模块,用于:
接收当前特征图,其中,当前特征图为第一特征图,或者为第i-1个残差模块输出的第六特征图,N为大于1的整数,i大于0且不大于N;以及,
根据长度和宽度均为1的第一卷积核,对当前特征图进行卷积处理以得到第二特征图;
将第二特征图划分为至少两个第三特征图,其中所述至少两个第三特征图与存在顺序关系的至少两个第二卷积核一一对应;
针对至少两个第二卷积核中任意的第j个第二卷积核,确定出第j个第二卷积核对应的至少一个第四特征图,并根据第j个卷积核对所述至少一个第四特征图进行卷积处理以得到第五特征图;其中,第j个第二卷积核对应的至少一个第四特征图,包括第j个卷积核对应的第三特征图,以及包括位于第j个第二卷积核之前的每个第二卷积核各自对应的第五特征图;根据长度和宽度均为1的第三卷积核,对所述至少两个第二卷积核各自对应的第五特征图进行卷积处理,得到并输出第六特征图;
所述全连接层,用于根据第N个残差模块输出的第六特征图,预测并输出所述声音信息对应的分类信息,所述分类信息用于指示发出所述声音信息的说话人。
优选地,所述残差网络还包括第一池化层,用于接收来自所述卷积层的第一特征图,对其接收的第一特征图进行最大池化,并将进行最大池化后的第一特征图输出至第一个残差模块。
优选地,所述残差网络还包括第二池化层,用于接收来自第N个残差模块的第六特征图,对其接收的第六特征图进行均值池化,并将进行均值池化后的第六特征图输出至所述全连接层。
另一方面,本发明提供了一种利用全连接多尺度的残差网络进行声纹识别的方法,所述残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层;所述方法包括:
利用所述输入层接收待识别的语音信息对应的特征向量;
利用所述卷积层对特征向量进行卷积处理以得到第一特征图;
依次利用N个残差模块中的第i个残差模块,执行:
接收当前特征图,其中,当前特征图为第一特征图,或者为第i-1个残差模块输出的第六特征图,N为大于1的整数,i大于0且不大于N;以及,
根据长度和宽度均为1的第一卷积核,对当前特征图进行卷积处理以得到第二特征图;
将第二特征图划分为至少两个第三特征图,其中所述至少两个第三特征图与存在顺序关系的至少两个第二卷积核一一对应;
针对至少两个第二卷积核中任意的第j个第二卷积核,确定出第j个第二卷积核对应的至少一个第四特征图,并根据第j个卷积核对所述至少一个第四特征图进行卷积处理以得到第五特征图;其中,第j个第二卷积核对应的至少一个第四特征图,包括第j个卷积核对应的第三特征图,以及包括位于第j个第二卷积核之前的每个第二卷积核各自对应的第五特征图;根据长度和宽度均为1的第三卷积核,对所述至少两个第二卷积核各自对应的第五特征图进行卷积处理,得到并输出第六特征图;
利用所述全连接层根据第N个残差模块输出的第六特征图,预测并输出所述声音信息对应的分类信息,所述分类信息用于指示发出所述声音信息的说话人。
优选地,所述残差网络还包括第一池化层;所述方法还包括:
利用所述第一池化层接收来自所述卷积层的第一特征图,对其接收的第一特征图进行最大池化,并将进行最大池化后的第一特征图输出至第一个残差模块。
优选地,所述残差网络还包括第二池化层;所述方法还包括:
利用所述第二池化层接收来自第N个残差模块的第六特征图,对其接收的第六特征图进行均值池化,并将进行均值池化后的第六特征图输出至所述全连接层。
根据本申请的技术方案,在残差模块中利用包括至少两个第二卷积的卷积核组,替代单个长度和宽度均为3的卷积核,可以更好的提取多尺度的特征。在每个残差模块中,可以将输入的特征图经过长度和宽度均为1的第一卷积核的卷积处理后的输出分成多组(即分成多个第三特征图),连接到后面所有的第二卷积核的输入,最后将经过多个第二卷积核输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度信息的融合。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中提供的一种用于声纹识别的全连接多尺度的残差网络的示意图;
图2为本申请实施例中提取语音信息的声学特征的过程示意图;
图3为本申请实施例中残差网络的残差模块处理特征图的过程示意图。
具体实施方式
下面结合附图和实施例,对本发明所提供的技术方案做进一步的详细描述。
图1为本申请实施例中提供的一种用于声纹识别的全连接多尺度的残差网络。如图1所示,该残差网络可以包括输入层,卷积层,N个依次连接的残差模块(也可以被表述为卷积模块),以及全连接层。可选地,该残差网络还可以包括:第一池化层,和/或,第二池化层。其中,为了方便描述,将第一个残差模块表述为残差模块M1,将第N个残差模块表述为残差模块M2,N为大于1的整数。在实际业务场景中,残差模块M1和残差模块M2之间还可以连接一个或多个残差模块。示例性的,该残差网络可以包括50个网络层,每个残差模块包括3个网络层,残差模块M1和残差模块M2之间还可以包括14个依次连接的残差模块。
本申请实施例中,可以按照如下过程训练得到如图1所示的用于声纹识别的全连接多尺度的残差网络。
首先,可以对训练集中的每条语音信息分别进行加噪处理,对未进行加噪处理的语音信息和进行加噪处理后的语音信息,均提取其64维声学特征Filter bank(Fbank)。
具体地,请参考图2,提取Fbank的过程可以包括:
接收输入语音,输入语音可以是训练集中的未进行加噪处理的语音信息,也可以是进行加噪处理后的语音信息。
对输入语音进行预加重,加强高频。
对预加重后的输入语音进行分帧,将不定长度的输入语音切分成固定长度的小段语音帧。
对固定长度的小段语音进行加窗。由于语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧语音代入窗函数,窗外的值设定为0,其目的是消除各帧语音两端可能会造成的信号不连续性。这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱。
进行快速傅里叶变换(FFT),由于进行分帧及加窗后的小段语音信息仍然是时域信号,需要将其转变为频域信号,傅里叶变换将信号转为频域可以将复杂声波分成各种频率的声波,方便神经网络进行学习。最终结果是个频率范围内的重要程度(能量)。
FFT后的频域信号进到梅尔滤波器,在Mel频谱上进行倒谱分析,获得Mel频率倒谱系数MFCC。
对数功率,取Mel频率倒谱系数MFCC的对数。
Mel频率倒谱系数MFCC的对数提取Fbank特征。
接着,统计训练集中所有语音信息的帧长,然后选取(min(1/2max(帧长),min(帧长)),max(1/2max(帧长),min(帧长)))的区间作为块的大小,对每一批大小的语音信息进行特征图输入大小的统一。
接着,在远场场景下,对每一条语音信息的64维声学特征Fbank进行随机的特征掩蔽,掩蔽的方法为,对输入特征的数值进行5%到15%范围的随机置零。
接着,搭建初始化的全连接多尺度的残差网络,比如搭建50层的全连接多尺度残差网络(FC-Res2Net)。
接着,可以根据各语音信息的64维声学特征,采用交叉熵函数(cross entropy)作为损失函数,用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度反向传播,更新残差网络的参数。
Figure BDA0002603387950000061
Figure BDA0002603387950000071
表1
如上表1所示,50层FC-Res2Net的结构可以包含[3,4,6,3]一共16个残差模块。训练过程中,输入层可以将经过随机特征掩蔽过的64维声学特征Fbank的特征向量,传入到卷积层进行卷积处理,其中,卷积层的卷积核为长宽尺寸都为7,通道数为16,步长为2的卷积核。卷积处理后得到的特征图进入到第一池化层,进行最大池化处理,其中,最大池化使用的卷积核为长宽尺寸都为3,通道数为16的卷积核。接着,最大池化后的特征图进入第一个残差模块,从第一个残差模块的输入开始,到最后一个残差模块结束,再经过一个二维的第二池化层,这样,一个批(batch)大小的语音信息的所有声学特征被表示成了一个维度是(batchsize)×512维的特征向量。再经过一个全连接的分类层,得到预测的分类信息。
初始化的全连接多尺度的残差网络在经过多次迭代更新之后,即可得到用于进行声纹识别的全连接多尺度的残差网络。
在得到用于进行声纹识别的全连接多尺度的残差网络之后,即可利用该残差网络进行声纹识别。请参考图1,其具体过程可以包括:
首先,对于待识别的语音信息,可以获取该语音信息的64维的特征向量。
接着,可以利用输入层接收待识别的语音信息对应的特征向量,并将特征向量传输至卷积层。
接着,可以利用卷积层对特征向量进行卷积处理以得到第一特征图,并将第一特征图输出至其连接的第一池化层。
接着,可以利用接收来自卷积层的第一特征图,对其接收的第一特征图进行最大池化,并将进行最大池化后的第一特征图输出至第一个残差模块。请参考图1,第一特征图可以被输出至残差模块M1。
接着,请参考图3,利用N个残差模块中的第i个残差模块,执行A1和A2:
A1:接收当前特征图,其中,当前特征图为第一特征图,或者为第i-1个残差模块输出的第六特征图,N为大于1的整数,i大于0且不大于N。示例性的,执行A1的残差模块为残差模块M1,则当前特征图为来自第一池化层的第一特征图;执行A1的残差模块为残差模块M2,则当前特征图为来自第N-1个残差模块的第六特征图。
A2:根据长度和宽度均为1的第一卷积核,对当前特征图进行卷积处理以得到第二特征图。
A3,将第二特征图划分为至少两个第三特征图,其中所述至少两个第三特征图与存在顺序关系的至少两个第二卷积核一一对应。
可以理解,第二卷积核的数量为至少两个,这里并不对第二卷积核的具体数量以及每个第二卷积核的尺寸进行限制。示例性的,第二卷积核的数量可以为4个,每个第二卷积核的长度和宽度均为3。
以存在顺序关系的至少两个第二卷积核依次为第二卷积核F1、F2、F3、F4共4个卷积核为例,可以将第二特征图依次划分为4组,或者说将第二特征图划分为4个第三特征图。这样,可以得到F1对应的第三特征图X1,F2对应的第三特征图X2,F3对应的第三特征图X3,F4对应的第三特征图X4。
A4:针对至少两个第二卷积核中任意的第j个第二卷积核,确定出第j个第二卷积核对应的至少一个第四特征图,并根据第j个卷积核对所述至少一个第四特征图进行卷积处理以得到第五特征图;其中,第j个第二卷积核对应的至少一个第四特征图,包括第j个卷积核对应的第三特征图,以及包括位于第j个第二卷积核之前的每个第二卷积核各自对应的第五特征图。
请参考图3,对于第一个第二卷积核F1,其对应的至少一个第四特征图可以包括其自身对应的第三特征图X1;根据F1对X1进行卷积处理,可以得到F1对应的第五特征图y1。对于第二个第二卷积核F2,其对应的至少一个第四特征图可以包括其自身对应的第三特征图X2,以及F1对应的第五特征图y1;根据F2对X2和y1进行卷积处理,可以得到F2对应的第五特征图y2。对于第三个第二卷积核F3,其对应的至少一个第四特征图可以包括其自身对应的第三特征图X3,以及F1对应的第五特征图y1、F2对应的第五特征图y2;根据F3对X3、y1和y2进行卷积处理,可以得到F3对应的第五特征图y3。对于第四个第二卷积核F4,其对应的至少一个第四特征图可以包括其自身对应的第三特征图X4,以及F1对应的第五特征图y1、F2对应的第五特征图y2、F3对应的第五特征图y3;根据F4对X4、y1、y2和y3进行卷积处理,可以得到F4对应的第五特征图y4。
A5:根据长度和宽度均为1的第三卷积核,对所述至少两个第二卷积核各自对应的第五特征图进行卷积处理,得到并输出第六特征图。示例性的,可以对第二卷积核X1对应的第五特征图y1、第二卷积核X2对应的第五特征图y2、第二卷积核X3对应的第五特征图y3以及第二卷积核X4对应的第五特征图y4进行卷积处理,得到并输出第六特征图。
接着,利用第二池化层接收来自第N个残差模块的第六特征图,对其接收的第六特征图进行均值池化,并将进行均值池化后的第六特征图输出至所述全连接层。
最后,利用所述全连接层根据第N个残差模块输出的第六特征图,预测并输出所述声音信息对应的分类信息,所述分类信息用于指示发出所述声音信息的说话人。
在此处所提供的说明书中,说明了大量的具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种用于声纹识别的全连接多尺度的残差网络,其特征在于,包括输入层,卷积层,N个依次连接的残差模块,以及全连接层;其中:
所述输入层,用于接收待识别的语音信息对应的特征向量;
所述卷积层,用于对特征向量进行卷积处理以得到第一特征图;
所述N个依次连接的残差模块,每个残差模块得到并输出第六特征图;其中对于N个残差模块中的第i个残差模块,用于:
接收当前特征图,其中,当i为1时,所述当前特征图为第一特征图,当i大于1且不大于N时,所述当前特征图为第i-1个残差模块输出的第六特征图,N为大于1的整数;以及,根据长度和宽度均为1的第一卷积核,对当前特征图进行卷积处理以得到第二特征图;将第二特征图划分为至少两个第三特征图,其中所述至少两个第三特征图与存在顺序关系的至少两个第二卷积核一一对应;针对至少两个第二卷积核中任意的第j个第二卷积核,确定出第j个第二卷积核对应的第四特征图,并根据第j个卷积核对所述第四特征图进行卷积处理以得到第五特征图;其中,当j为1时,第二卷积核对应的第四特征图为第三特征图;当j大于1时,第j个第二卷积核对应的第四特征图,包括第j个卷积核对应的第三特征图,以及包括位于第j个第二卷积核之前的每个第二卷积核各自对应的第五特征图;根据长度和宽度均为1的第三卷积核,对所述至少两个第二卷积核各自对应的第五特征图进行卷积处理,得到并输出第六特征图;
所述全连接层,用于根据第N个残差模块输出的第六特征图,预测并输出所述语音信息对应的分类信息,所述分类信息用于指示发出所述语音信息的说话人。
2.根据权利要求1所述的残差网络,其特征在于,
所述残差网络还包括第一池化层,用于接收来自所述卷积层的第一特征图,对其接收的第一特征图进行最大池化,并将进行最大池化后的第一特征图输出至第一个残差模块。
3.根据权利要求1所述的残差网络,其特征在于,
所述残差网络还包括第二池化层,用于接收来自第N个残差模块的第六特征图,对其接收的第六特征图进行均值池化,并将进行均值池化后的第六特征图输出至所述全连接层。
4.一种利用全连接多尺度的残差网络进行声纹识别的方法,其特征在于,所述残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层;所述方法包括:
利用所述输入层接收待识别的语音信息对应的特征向量;
利用所述卷积层对特征向量进行卷积处理以得到第一特征图;
利用所述N个依次连接的残差模块,每个残差模块得到并输出第六特征图;其中,依次利用N个残差模块中的第i个残差模块,执行:
接收当前特征图,其中,当i为1时,所述当前特征图为第一特征图,当i大于1且不大于N时,所述当前特征图为第i-1个残差模块输出的第六特征图,N为大于1的整数;以及,根据长度和宽度均为1的第一卷积核,对当前特征图进行卷积处理以得到第二特征图;将第二特征图划分为至少两个第三特征图,其中所述至少两个第三特征图与存在顺序关系的至少两个第二卷积核一一对应;针对至少两个第二卷积核中任意的第j个第二卷积核,确定出第j个第二卷积核对应的第四特征图,并根据第j个卷积核对所述第四特征图进行卷积处理以得到第五特征图;其中,当j为1时,第二卷积核对应的第四特征图为第三特征图;当j大于1时,第j个第二卷积核对应的第四特征图,包括第j个卷积核对应的第三特征图,以及包括位于第j个第二卷积核之前的每个第二卷积核各自对应的第五特征图;根据长度和宽度均为1的第三卷积核,对所述至少两个第二卷积核各自对应的第五特征图进行卷积处理,得到并输出第六特征图;
利用所述全连接层根据第N个残差模块输出的第六特征图,预测并输出所述语音信息对应的分类信息,所述分类信息用于指示发出所述语音信息的说话人。
5.根据权利要求4所述的方法,其特征在于,所述残差网络还包括第一池化层;所述方法还包括:
利用所述第一池化层接收来自所述卷积层的第一特征图,对其接收的第一特征图进行最大池化,并将进行最大池化后的第一特征图输出至第一个残差模块。
6.根据权利要求4所述的方法,其特征在于,所述残差网络还包括第二池化层;所述方法还包括:
利用所述第二池化层接收来自第N个残差模块的第六特征图,对其接收的第六特征图进行均值池化,并将进行均值池化后的第六特征图输出至所述全连接层。
CN202010731632.0A 2020-07-27 2020-07-27 全连接多尺度的残差网络及其进行声纹识别的方法 Active CN111833886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010731632.0A CN111833886B (zh) 2020-07-27 2020-07-27 全连接多尺度的残差网络及其进行声纹识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010731632.0A CN111833886B (zh) 2020-07-27 2020-07-27 全连接多尺度的残差网络及其进行声纹识别的方法

Publications (2)

Publication Number Publication Date
CN111833886A CN111833886A (zh) 2020-10-27
CN111833886B true CN111833886B (zh) 2021-03-23

Family

ID=72924959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010731632.0A Active CN111833886B (zh) 2020-07-27 2020-07-27 全连接多尺度的残差网络及其进行声纹识别的方法

Country Status (1)

Country Link
CN (1) CN111833886B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221673B (zh) * 2021-04-25 2024-03-19 华南理工大学 基于多尺度特征聚集的说话人认证方法及系统
CN113299298B (zh) * 2021-05-06 2022-09-13 成都数联云算科技有限公司 残差单元及网络及目标识别方法及系统及装置及介质
CN113724713B (zh) * 2021-09-07 2024-07-05 中国科学技术大学 一种语音识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
JP7109771B2 (ja) * 2018-03-12 2022-08-01 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル
CN108848507A (zh) * 2018-05-31 2018-11-20 厦门快商通信息技术有限公司 一种不良电信用户信息采集方法
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110991633B (zh) * 2019-12-04 2022-11-08 电子科技大学 一种基于忆阻网络的残差神经网络模型及其应用方法
US10699715B1 (en) * 2019-12-27 2020-06-30 Alphonso Inc. Text independent speaker-verification on a media operating system using deep learning on raw waveforms
CN111128191B (zh) * 2019-12-31 2023-03-28 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111243602B (zh) * 2020-01-06 2023-06-06 天津大学 基于性别、国籍和情感信息的声纹识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型

Also Published As

Publication number Publication date
CN111833886A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111833886B (zh) 全连接多尺度的残差网络及其进行声纹识别的方法
CN107393526B (zh) 语音静音检测方法、装置、计算机设备和存储介质
US11948552B2 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
Sainath et al. Convolutional neural networks for small-footprint keyword spotting.
KR102002681B1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
CN111276125B (zh) 一种面向边缘计算的轻量级语音关键词识别方法
CN110164472A (zh) 基于卷积神经网络的噪声分类方法
CN109272988A (zh) 基于多路卷积神经网络的语音识别方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN112183107A (zh) 音频的处理方法和装置
Hong et al. Statistics pooling time delay neural network based on x-vector for speaker verification
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
KR102204975B1 (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
KR102241364B1 (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
Singh et al. Low-complexity CNNs for acoustic scene classification
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN116030824A (zh) 一种基于深度神经网络的定向语音分离方法
CN112989106B (zh) 音频分类方法、电子设备以及存储介质
Tsai et al. Reduced model size deep convolutional neural networks for small-footprint keyword spotting
CN110648668A (zh) 关键词检测装置和方法
Ollerenshaw et al. Dynamic kernels and channel attention for low resource speaker verification
Gehani et al. A Study of Sample Size Requirement and Effectiveness of Mel-Scaled Features for Small-Footprint Keyword Spotting in a Limited Dataset Environment
CN115035897B (zh) 一种关键词检测方法及系统
CN113409775B (zh) 关键词识别方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241014

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: BEIJING KEXIN TECHNOLOGY Co.,Ltd.