CN111048097B - 一种基于3d卷积的孪生网络声纹识别方法 - Google Patents
一种基于3d卷积的孪生网络声纹识别方法 Download PDFInfo
- Publication number
- CN111048097B CN111048097B CN201911318077.2A CN201911318077A CN111048097B CN 111048097 B CN111048097 B CN 111048097B CN 201911318077 A CN201911318077 A CN 201911318077A CN 111048097 B CN111048097 B CN 111048097B
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- data
- mflc
- sia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000004904 shortening Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia‑Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
Description
【技术领域】
本发明属于声纹识别技术领域,尤其涉及一种基于3D卷积的孪生网络声纹识别方法。
【背景技术】
声纹识别(Speaker Verification)是通过分析录音设备记录的说话人的语音特点来鉴别说话人身份的一种算法。声纹识别可进一步的分为文本相关声纹识别和文本无关声纹识别,文本相关声纹识别需要说话人说出预先指定的内容,而文本无关声纹识别对说话人的语音内容不作要求。
现在声纹识别领域应用最多的框架是无监督高斯混合模型(GMM),GMM模型是一种统计模型,在数据不足的情况下,GMM模型很难建立说话人的空间分布,因此后来有学者提出基于GMM的高斯混合通用背景模型(GMM-UBM),GMM-UBM引入了背景模型,进一步提高了识别精度。一些基于GMM-UBM的方法包括i向量(i-vector)已经在声纹识别领域展现出了自己的高效性。尽管现有的方法可以高效的完成声纹识别的任务,但目前的算法仍有自己的缺点,其中最主要的是现有算法无法有效的利用说话人的独特的语音特点,这主要是因为GMM模型本身是非监督模型。当前,一些算法开始采用监督的模型来改进GMM等非监督算法,例如基于GMM-UBMs的SVM分类模型,PLDA i-vectors模型。还有一些学者收到深度学习的启发,讲DNNs网络从语义识别领域迁移到声纹识别领域,并取得了不错的效果。但是这些算法都没有考虑不同说话人可能存在相似语音,同一说话人也可能在不同状态下说话差异较大的情况。而在基于深度学习的声纹识别方法中,虽然卷积神经网络CNNs已经作为主要的特征提取的网络被广泛的应用,但是目前的CNNs特征提取网络知识利用的为一维卷积和二维卷积的方法。但是一维卷积和二维卷积的方法忽略语音信息的空域和时域特征,识别率不高。
【发明内容】
本发明的目的是提供一种用于声纹识别的基于3D卷积的孪生网络,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
本发明采用以下技术方案:一种用于声纹识别的基于3D卷积的孪生网络,包括:
特征提取单元:用于将音频数据转化为三维张量,三维张量即为MFLC特征。
Sia-Net网络:用于处理MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。
CNN网络:用于建立每一个说话人的模型库。
预测单元:用于测试音频数据的说话人身份。
进一步地,该Sia-Net网络:为两个,每一个Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层、一个池化层、一个Flatten层和一个全连接层。
进一步地,该CNN网络包括依次相连接的三个全连接层和一个Softmax层。
进一步地,该距离为欧氏距离。
本发明还公开了上述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;
对所述三维张量进行随机两两配对组合,产生的配对组合共有C2m个,其中:m为三维张量的个数;
步骤1.2、搭建Sia-Net网络;
步骤1.3、将所述步骤1.1中的配对组合输入Sia-Net网络,得到与之对应的第一S特征,多个所述第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;
步骤1.4、构建CNN卷积网络;
步骤1.5、将步骤1.3中的所述第一S特征输入到所述CNN卷积网络;
步骤1.6、提取所述CNN卷积网络的倒数第二层输出的样本的第一D特征,多个所述样本的第一D特征组成的集合即为语音模型匹配数据库;然后,选择去除Softmax层的CNN卷积网络,并固定参数,得训练后的CNN卷积网络;
步骤1.7、即得训练后的用于声纹识别的基于3D卷积的孪生网络。
本发明还公开了一种基于3D卷积的孪生网络声纹识别方法,采用上述的Sia-Net网络和训练方法,包括如下步骤:
步骤2.1、采集音频数据,提取出MFLC特征;
步骤2.2、将所述MFLC特征输入到训练后的基于3D卷积的孪生网络中,由训练后的Sia-Net网络提取第二S特征,将第二S特征输入训练后的所述CNN卷积网络中,提取出第二D特征;
步骤2.3、将所述第二D特征与所述语音模型匹配数据库中的样本的第一D特征进行匹配,确定并输出匹配结果。
进一步地,步骤2.1的具体过程为:
对音频数据进行频域变化:对输入的音频数据进行傅里叶变换,得到对应的矩阵数据。
频域滤波:采用MEL滤波器组对所述矩阵数据进行频域滤波,得滤波后的数据。
对滤波后的数据进行对数运算,得MFLC特征。
进一步地,上述第二D特征和第一D特征均为余弦距离。
本发明的有益效果是:MFLC特征通过舍弃DCT变换加强了特征之间的相关性,更有利于深度学习网络模型的处理。既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
【附图说明】
图1为本发明中CNN网络的结构图;
图2为本发明中的声纹识别方法的流程图。
【具体实施方式】
下面结合附图和具体实施方式对本发明进行详细说明。
本发明实施例公开了一种用于声纹识别的基于3D卷积的孪生网络,Siamese-Net网络简写为Sia-Net网络,包括:特征提取单元:用于将音频数据转化为三维张量,三维张量即为MFLC特征。
Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。该距离为欧氏距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试确定音频数据的说话人身份。
该Sia-Net网络:为两个,每一个所述Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层、一个池化层、一个Flatten层和一个全连接层。该CNN网络包括依次相连接的三个全连接层和一个Softmax层。
本发明还公开了上述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;对三维张量进行随机两两配对组合,产生的配对组合共有个,其中:m为三维张量的个数。
步骤1.2、搭建Sia-Net网络。
步骤1.3、将步骤1.1中的配对组合输入Sia-Net网络,得到与之对应的第一S特征,多个第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;
步骤1.4、构建CNN卷积网络;
步骤1.5、将步骤1.3中的第一S特征输入到CNN卷积网络;
步骤1.6、提取所述CNN卷积网络的倒数第二层输出的样本的第一D特征,多个所述样本的第一D特征组成的集合即为语音模型匹配数据库;然后,选择去除Softmax层的CNN卷积网络,并固定参数,得训练后的CNN卷积网络;
步骤1.7、即得训练后的用于声纹识别的基于3D卷积的孪生网络。
本发明还公开了一种基于3D卷积的孪生网络声纹识别方法,采用上述的Sia-Net网络和训练方法,如图2所示,包括如下步骤:
步骤2.1、采集音频数据,提取出MFLC特征;
步骤2.2、将MFLC特征输入到训练后的基于3D卷积的孪生网络中,由训练后的Sia-Net网络提取第二S特征,S特征为欧氏距离;将第二S特征输入训练后的所述CNN卷积网络中,提取出第二D特征;D特征为余弦距离。
步骤2.3、将所述第二D特征与所述语音模型匹配数据库中的样本的第一D特征进行匹配,确定并输出匹配结果第二D特征和第一D特征均为余弦距离。通过比较余弦距离的大小,进行匹配,余弦距离越小,匹配度越高。
MFCC特征是声纹识别领域最为常用的数据表示方式之一,然而由于MFCC最后的DCT变化,使得MFCC并不包含语音信息的局部特征。本发明中的方法,舍弃了MFCC的DCT操作,使特征更加适合卷积网络学习。
其中:x(n)表示音频数据,N是傅里叶变换的长度。
频域滤波:采用MEL滤波器组对矩阵数据进行频域滤波,得滤波后的数据;滤波器的个数可根据需求选择,通常设置为24个左右,本实施例中采用的为25。其中每个三角滤波器的频率响应定义为:
其中f(m)是三角滤波器的中心频率;
Mel(f(m+1))-Mel(f(m))=Mel(f(m))-Mel(f(m-1));
Mel(f)=2595×lg(1+f/700);f为频率,单位Hz。
对滤波后的数据进行对数运算,得到MFLC特征:
MFLC特征通过舍弃DCT变换加强了特征之间的相关性,更有利于深度学习网络模型的处理。
在时域维度上,本实施例采用的是20ms,步长设置为10ms,即每段语音信息会有10ms的交叠。以一个1秒的语音信号为例,该信号会被分为100个20ms的小的时域信号,每一个小的时域信号通过声谱转换提取MFLC特征,在本发明中我们采取的MFLC的长度为40,一个时域信号会被转化成一个80*40的特征矩阵,最终通过数据的堆叠可以得到一个n*80*40的数据立方体,n为堆叠的维度,在本实施例中设置n的值为20。
本发明中,建立每个说话人独一无二的d-vector特征,从而保证声纹识别的准确率,在该部分的难点主要有两点:一是如何尽可能的减小同一个说话人不同语音内容的影响,不同的语音内容会很大程度的影响语音的数据内容;另一个难点是如何尽可能的区分不同的说话人的语音,当不同的说话人说相同的语音信息时语音的数据特征可能很相似,这对后续的处理、识别产生很大的影响。本发明中,一方面通过建立MFLC三维特征张量的形式减小两种情况的影响,另一方面建立了Siamese-Net的网络的结构,来保证声纹识别的准确率。语音信息数据经过Sia-net处理后,同组数据的相似性和不同组数据的差别性会大大提高,可以很大程度上提高后续语音识别的准确率。然后通过损失函数起到评价网络输出相似性的目的,使得属于同一说话人语音的数据组尽可能的相似,不同说话人语音的数据组尽可能的增大差别。在该部分选择的损失函数为:
在公式(2)中x1和x2表示同一对数据中的两组数据,y表示同一组的两个数据是否来同一个说话人,若是其值为1,否则为0。margin表示边界值,当数据来自不同说话人时,为了保证损失函数的适用性,采用相减的形式,在本实施例中margin设置为10。
Sia-Net网络中,采用了PReLU激活函数来代替ReLU激活函数,PReLU激活函数比ReLU在训练过程中有更高的稳定性。可以进一步提高网络的性能。如下:
其中:a为调节参数。
Sia-Net网络:为两个,每一个Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层,一个池化层、一个Flatten层和一个全连接层。
CNN网络的结构如图1所示,由三个全连接层和一个softmax层,softmax层的前一特征作为数据库模型。三个全连接层的参数设置为,110,80,64。
预测阶段:该部分的主要功能就是对输入的语音信息进行评测,通过将输入的语音信息和建立的各个说话人的语音模型对比,得出该语音信息与各个说话人的相似分数,从而来确定说话人身份。
衡量特征相似性的最常用的方式之一就是计算输入数据与模型数据的余弦距离,本发明中通过计算第二D特征和第一D特征之间的余弦距离,得到与第二D特征距离最小的第一D特征,从而得到说话人的身份。
本实施例中,各Sia-Net网络的组成顺序均为依次相连接的三个3D卷积层,卷积核大小全部设置为【3x3x3】,卷积核个数分别设置为【128,64,64】,步长设置为{【1x1x1】,【1x2x1】,【1x2x1】一个连接层、一个3D卷积层,卷积核大小设置为【3x3x5】,卷积核个数设置为128,步长设置为【2x2x2】,1个池化层,4个3D卷积层,卷积核大小全部设置为【3x3x3】,卷积核个数设置为64,前两个步长设置为【1x1x1】,后两个步长设置为【1x2x2】,一个连接层,一个池化层,卷积核大小设置为【1x1x3】,步长设置为【1x1x2】,一个Flatten层,最后为一个全连接层,卷积核个数设置为128。如表1所示:
表1 Sia-Net网络结构
为验证本发明中的方法,进行如下实验,本实施例中,根据军事指挥战斗指令进行了音频信息的录制,录制人员一共有8名,每人建立100条纯净语音数据,纯净语音数据指的是在实验室环境录制,无外界噪音,然后根据采用常用的噪声数据对纯净语音数据进行加噪,信噪比依次设置为5db,10db,20db。处理完毕后,每个人对应的语音数据共有400条,含纯净语音。将所有的语音数据转化为MFLC三维张量。
在每个人的数据库中随机抽取20%的张量作为训练数据集,共640个张量数据,80%的数据集进行测试。将所有的20%的训练数据集还需要进行两两匹配,在本发明中一共会有204480对训练数据集。
利用204480对数据训练Sia-Net网络,硬件平台为4张1080Ti显卡,内存100G。训练8h。训练完毕后,固定Sia-Net参数,舍弃其中一个Sia-Net网络。
利用Sia-Net网络,将MFLC三维张量变换为S特征,利用640个S特征训练CNN网络。本发明中硬件平台为4张1080Ti显卡,内存100G。训练2h。训练完毕后,舍弃SoftMax层。
8个人中,每个人都有80个S特征,将每个人的80个特征输入到CNN网络中,得到每个人对应的80个D特征,将每个人的80个特征,取均值,得到8个模板,作为数据库。
将余下的所有MFLC三维张量一次通过训练后的Sia-Net网络,CNN网络得到D特征。将这些D特征一一与8个模板进行匹配,即计算余弦距离,输出距离最近的模板所代表的身份,得到结果。
同时,还采用现有技术中的GMM算法对验证试验中的数据进行计算。GMM阶数设置50,训练数据集和测试数据集与验证试验一致,即640个MFLC三维张量作为训练,其余作为测试。最终得出,采用本发明中的方法进行声纹识别比GMM算法的正确率高出3%。
Claims (4)
1.一种用于声纹识别的基于3D卷积的孪生网络的训练方法,其特征在于,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;
步骤1.2、搭建Sia-Net网络;
步骤1.3、将所述步骤1.1中的配对组合输入所述Sia-Net网络,得到与之对应的第一S特征,多个所述第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;
步骤1.4、构建CNN卷积网络;
步骤1.5、将步骤1.3中的所述第一S特征输入到所述CNN卷积网络;
步骤1.6、提取所述CNN卷积网络的倒数第二层输出的样本的第一D特征,多个所述样本的第一D特征组成的集合即为语音模型匹配数据库;然后,选择去除Softmax层的CNN卷积网络,并固定参数,得训练后的CNN卷积网络;
步骤1.7、即得训练后的用于声纹识别的基于3D卷积的孪生网络;
所述一种用于声纹识别的基于3D卷积的孪生网络包括:
特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征;
Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离;
CNN网络:用于建立每一个说话人的模型库;
预测单元:用于测试音频数据的说话人身份;
所述Sia-Net网络:为两个,每一个所述Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层,一个池化层、一个Flatten层和一个全连接层;
所述CNN网络包括依次相连接的三个全连接层和一个Softmax层;
所述距离为欧氏距离。
2.一种基于3D卷积的孪生网络声纹识别方法,采用权利要求1所述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,其特征在于,包括如下步骤:
步骤2.1、采集音频数据,提取出MFLC特征;
步骤2.2、将所述MFLC特征输入到训练后的基于3D卷积的孪生网络中,由训练后的Sia-Net网络提取第二S特征,将第二S特征输入训练后的所述CNN卷积网络中,提取出第二D特征;
步骤2.3、将所述第二D特征与所述语音模型匹配数据库中的样本的第一D特征进行匹配,确定并输出匹配结果。
3.根据权利要求2所述的一种基于3D卷积的孪生网络声纹识别方法,其特征在于,所述步骤2.1的具体过程为:
对音频数据进行频域变化:对输入的音频数据进行傅里叶变换,得到对应的矩阵数据;
频域滤波:采用MEL滤波器组对所述矩阵数据进行频域滤波,得滤波后的数据;
对滤波后的数据进行对数运算,得MFLC特征。
4.根据权利要求2或3所述的一种基于3D卷积的孪生网络声纹识别方法,其特征在于,所述第二D特征和第一D特征均为余弦距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318077.2A CN111048097B (zh) | 2019-12-19 | 2019-12-19 | 一种基于3d卷积的孪生网络声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318077.2A CN111048097B (zh) | 2019-12-19 | 2019-12-19 | 一种基于3d卷积的孪生网络声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111048097A CN111048097A (zh) | 2020-04-21 |
CN111048097B true CN111048097B (zh) | 2022-11-29 |
Family
ID=70237830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911318077.2A Active CN111048097B (zh) | 2019-12-19 | 2019-12-19 | 一种基于3d卷积的孪生网络声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048097B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882128B (zh) * | 2020-07-28 | 2021-09-28 | 中原工学院 | 基于tcn的汛期气候趋势预测方法 |
CN112270931B (zh) * | 2020-10-22 | 2022-10-21 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
CN113077796A (zh) * | 2021-03-17 | 2021-07-06 | 山东师范大学 | 说话人辨认方法及系统 |
CN113140220B (zh) * | 2021-04-12 | 2023-04-18 | 西北工业大学 | 基于卷积自注意力变换网络的轻量级端到端语音识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
CN105869644A (zh) * | 2016-05-25 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 基于深度学习的声纹认证方法和装置 |
CN107146624B (zh) * | 2017-04-01 | 2019-11-22 | 清华大学 | 一种说话人确认方法及装置 |
CN108597523B (zh) * | 2018-03-23 | 2019-05-17 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109243467B (zh) * | 2018-11-14 | 2019-11-05 | 龙马智声(珠海)科技有限公司 | 声纹模型构建方法、声纹识别方法及系统 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN110211594B (zh) * | 2019-06-06 | 2021-05-04 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
-
2019
- 2019-12-19 CN CN201911318077.2A patent/CN111048097B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111048097A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN108766419A (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN113221673A (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
Sukhwal et al. | Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
Loina | Speaker identification using small artificial neural network on small dataset | |
CN113963718B (zh) | 一种基于深度学习的语音会话分割方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN106373576A (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
Naveen et al. | Speaker Identification and Verification using Deep Learning | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
Hu et al. | Speaker Recognition Based on 3DCNN-LSTM. | |
Abdiche et al. | Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks | |
Sukhwal et al. | Comparative study between different classifiers based speaker recognition system using MFCC for noisy environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |