CN112151040B - 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 - Google Patents
一种基于端到端联合优化及决策的鲁棒性说话人识别方法 Download PDFInfo
- Publication number
- CN112151040B CN112151040B CN202011035890.1A CN202011035890A CN112151040B CN 112151040 B CN112151040 B CN 112151040B CN 202011035890 A CN202011035890 A CN 202011035890A CN 112151040 B CN112151040 B CN 112151040B
- Authority
- CN
- China
- Prior art keywords
- decision
- model
- self
- filter
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005457 optimization Methods 0.000 title claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于端到端联合优化及决策的鲁棒性说话人识别方法,采用卷积网络对语音信号进行特征提取和后端分类,旨在将原始的音频信号输入决策分析模型后直接输出识别结果,省略中间步骤,实现完全自动化的效果。其中使用参数化带通滤波器完成特征提取。后端分类决策则使用基于自注意力机制的深度残差网络,目的是更有效利用声学特征的深层次信息。本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。
Description
技术领域
本发明属于说话人识别技术领域,特别指一种基于端到端联合优化及决策的鲁棒性说话人识别方法。
背景技术
说话人识别,是一种基于语音信息实现的特殊生物识别技术。在说话人识别的研究工作中,一般是单独研究稳定且可靠的特征,或者寻找合适的模型。这样的研究思路导致特征和模型的分离,可能引起特征和模型之间的不匹配。并且说话人识别的流程中每一步均包含大量手工设置的超参数,因此很难找到一套相适应的超参数值。为了解决这一问题,本发明把说话人识别的特征提取和模型匹配过程统一到深度模型里面,构建完整的基于深度学习模型的端到端说话人识别架构。
发明内容
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于端到端联合优化及决策的鲁棒性说话人识别方法,其特征在于,包括
步骤1、采集语音信号x[n]并进行特征提取归一化后,按短样本的长度为l将其分割为M段短音频信号xM[l],其中x[n]={x1[l],x2[l],…,xM[l]},M取决于语音信号的长度,并将语音信号分为训练集和测试集;
步骤2、将训练集输入到自适应神经网络模型中,进行基于参数化滤波器的自适应特征提取和基于自注意力机制的深度残差网络的模型训练,得到训练后的端到端模型;
步骤3、测试集依次被输入到已训练好的端到端模型中进行决策,并得到M个样本的判决结果;假设模型库中有R个说话人,统计同一语音信号的单一决策结果中每一类别出现的概率y={y1,y2,…,yR},将决策结果中出现频率最高的作为该语音信号的最终识别结果;
Y=max(yi),i=1,2,…,R (11)。
在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法,步骤2中,基于参数化带通滤波函数的自适应特征学习提取出特征,步骤下:
A、CNN中最关键的部分之一是卷积层,尤其是第一层卷积层;为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息,本发明对卷积层中的卷积核(或称滤波器)进行调整,即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核;其中sinc函数:
(A-1)CNN网络中每个卷积定义如下:
其中:y[n]表示卷积后的输出,x[n]表示原始语音信号,h[n]表示长度为L的滤波器;通常我们使用的卷积核中的参数都是需要从训练之中学习得到的,而本文采用的方法是使用函数g代替h执行卷积
y[n]=x[n]*g[n,θ] (3)
其中:g[n,θ]=2f2sinc(2πf2n)-2f1sinc(2πf1n)
有上公式可见,滤波器的参数仅仅是低截止频率和高截止频率(CutoffFrequency);这一自定义卷积核操作不仅减少了参数,同时加速了模型的收敛速度;
(A-2)理想的带通滤波器的特点是应该有一个完全平坦的通带,在通带内没有放大或者衰减,并且在通带之外所有频率都被完全衰减掉,另外,通带外的转换在极小的频率范围完成;为了使得该滤波器近似理想状态,加窗操作是一种很好的选择;将函数g与窗口函数w相乘来执行窗口化,使得函数g更加平滑:
gw[n,f1,f2]=g[n,f1,f2]·w[n] (4)
在参数化滤波器中,f1和f2是两个需要优化的参数,它们满足以下三个约束条件:
1)f1≥0,可引入新参数f1 abs=|f1|来实现这一约束;
2)f2≥f1,可引入新参数f2 abs=f1+|f2-f1|来实现这一约束,
3)f1还需要满足小于奈奎斯特频率,训练发现这个约束会被自然的满足;
这样设计的滤波器是可微分的,则可以联合后端模型的其它参数实现同时优化。
在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法,步骤2中,基于自注意力机制的深度残差网络的后端建模对提取的特征进行学习,步骤如下:
A、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元,用不同的卷积核提取特征,然后通过每个分支引导的不同信息构成的softmax进行融合;SK单元包括三个方面:分离(split),融合(Fuse),调整(Select);具体如下:
(A-2)Fuse操作是进行特征融合,通过门控机制将上一层的输出进行有选择的筛选,使每一个分支都携带不同的信息流进入下一个神经元;
a)对不同分支的输出进行融合,即逐元素进行相加;
b)对两个输出进行全局平均池化(global average pooling,Fgp)操作,获得每一个通道上的全局信息;
c)对输出s做全连接,目的是找到每一个通道占的比重大小;其中Ffc为先降维再升维的两层全连接层,δ表示ReLU激活函数,BN表示Batch Noramlization,W维度是d*C;
z=Ffc(s)+δ(BN(Ws)) (7)
为了研究d对模型效率的影响,引入衰减率r,C表示通道数;
d=max(C/r,L) (8)
(A-3)Select操作是通过两个softmax计算出通道之间的权重信息;然后把这个权重信息与原先的和相乘,最后进行特征叠加得到V;这个过程可以看做是一个softattention;由于ac和bc的函数值相加等于1,因此能够实现对分支中的特征图设置权重,因为不同的分支卷积核尺寸不同,因此实现了让网络自己选择合适的卷积核;
B、将训练集输入到端到端网络中训练,对参数化滤波器中f1和f2是两个参数和自注意力机制的深度残差网络参数进行学习,得到端到端模型。
在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法,步骤3中,采用投票法联合决策,步骤如下:
当输入语音信号x[n]经归一化后,按短样本的长度为l将被分割为M段短音频信号xM[l],其中x[n]={x1[l],x2[l],…,xM[l]},M取决于语音信号的长度;随后依次被输入到已训练好的端到端模型中进行决策,并得到M个样本的判决结果;假设模型库中有R个说话人,统计同一语音信号的单一决策结果中每一类别出现的概率y={y1,y2,…,yR},将决策结果中出现频率最高的作为该语音信号的最终识别结果;
Y=max(yi),i=1,2,…,R (11)。
因此,本发明具有如下优点:本发明把说话人识别的特征提取和模型匹配过程统一到深度模型里面,提出了基于参数化带通滤波函数的自适应特征提取和基于自注意力机制的深度残差网络方法的端到端网络模型,联合优化特征提取和模型匹配的参数,取得了较好的实验效果。同时为了更好地利用特征块之间的关联性,在决策过程加入“投票法”决策机制,进一步提升本方法的泛化性。本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。
附图说明
图1为基于深浅层特征融合的鲁棒性说话人识别方法原理示意图。
图2为基于自注意力机制的深度残差网络示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明是一种基于端到端联合优化及决策的鲁棒性说话人识别方法,本发明的算法流程图如图1所示,可以分为四部分:1)基于参数化带通滤波函数的自适应特征学习;2)基于自注意力机制的深度残差网络的后端建模;3)“投票法”联合判决。
步骤一:基于参数化带通滤波函数的自适应特征学习,步骤如下:
A、CNN中最关键的部分之一是卷积层,尤其是第一层卷积层。为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息,本发明对卷积层中的卷积核(或称滤波器)进行调整,即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核。其中sinc函数:
(A-1)CNN网络中每个卷积定义如下:
其中:y[n]表示卷积后的输出,x[n]表示原始语音信号,h[n]表示长度为L的滤波器。通常我们使用的卷积核中的参数都是需要从训练之中学习得到的,而本文采用的方法是使用函数g代替h执行卷积
y[n]=x[n]*g[n,θ] (3)
其中:g[n,θ]=2f2sinc(2πf2n)-2f1sinc(2πf1n)
有上公式可见,滤波器的参数仅仅是低截止频率和高截止频率(CutoffFrequency)。这一自定义卷积核操作不仅减少了参数,同时加速了模型的收敛速度。
(A-2)理想的带通滤波器的特点是应该有一个完全平坦的通带,在通带内没有放大或者衰减,并且在通带之外所有频率都被完全衰减掉,另外,通带外的转换在极小的频率范围完成。为了使得该滤波器近似理想状态,加窗操作是一种很好的选择。将函数g与窗口函数w相乘来执行窗口化,使得函数g更加平滑:
gw[n,f1,f2]=g[n,f1,f2]·w[n] (4)
在参数化滤波器中,f1和f2是两个需要优化的参数,它们满足以下三个约束条件:
1)f1≥0,可引入新参数f1 abs=|f1|来实现这一约束;
2)f2≥f1,可引入新参数f2 abs=f1+|f2-f1|来实现这一约束,
3)f1还需要满足小于奈奎斯特频率,训练发现这个约束会被自然的满足。
这样设计的滤波器是可微分的,则可以联合后端模型的其它参数实现同时优化。
步骤二:基于自注意力机制的深度残差网络的后端建模,步骤如下:
A、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元,用不同的卷积核提取特征,然后通过每个分支引导的不同信息构成的softmax进行融合。SK单元包括三个方面:分离(split),融合(Fuse),调整(Select)。具体如下:
(A-2)Fuse操作是进行特征融合,通过门控机制将上一层的输出进行有选择的筛选,使每一个分支都携带不同的信息流进入下一个神经元。
a)对不同分支的输出进行融合,即逐元素进行相加。
b)对两个输出进行全局平均池化(global average pooling,Fgp)操作,获得每一个通道上的全局信息。
c)对输出s做全连接,目的是找到每一个通道占的比重大小。其中Ffc为先降维再升维的两层全连接层,δ表示ReLU激活函数,BN表示Batch Noramlization,W维度是d*C。
z=Ffc(s)+δ(BN(Ws)) (7)
为了研究d对模型效率的影响,引入衰减率r,C表示通道数。
d=max(C/r,L) (8)
(A-3)Select操作是通过两个softmax计算出通道之间的权重信息。然后把这个权重信息与原先的和相乘,最后进行特征叠加得到V。这个过程可以看做是一个softattention。由于ac和bc的函数值相加等于1,因此能够实现对分支中的特征图设置权重,因为不同的分支卷积核尺寸不同,因此实现了让网络自己选择合适的卷积核。
B、将训练集输入到端到端网络中训练,对参数化滤波器中f1和f2是两个参数和自注意力机制的深度残差网络参数进行学习,得到端到端模型。
步骤三:“投票法”联合决策,步骤如下:
A、当输入语音信号x[n]经归一化后,按短样本的长度为l将被分割为M段短音频信号xM[l],其中x[n]={x1[l],x2[l],…,xM[l]},M取决于语音信号的长度。随后依次被输入到已训练好的端到端模型中进行决策,并得到M个样本的判决结果。假设模型库中有R个说话人,统计同一语音信号的单一决策结果中每一类别出现的概率y={y1,y2,…,yR},将决策结果中出现频率最高的作为该语音信号的最终识别结果。
Y=max(yi),i=1,2,…,R (11)
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于端到端联合优化及决策的鲁棒性说话人识别方法,其特征在于,包括
步骤1、采集语音信号x[n]并进行特征提取归一化后,按短样本的长度为l将其分割为M段短音频信号xM[l],其中x[n]={x1[l],x2[l],…,xM[l]},M取决于语音信号的长度,并将语音信号分为训练集和测试集;
步骤2、将训练集输入到自适应神经网络模型中,进行基于参数化滤波器的自适应特征提取和基于自注意力机制的深度残差网络的模型训练,得到训练后的端到端模型;
步骤3、测试集依次被输入到已训练好的端到端模型中进行决策,并得到M个样本的判决结果;假设模型库中有R个说话人,统计同一语音信号的单一决策结果中每一类别出现的概率y={y1,y2,…,yR},将决策结果中出现频率最高的作为该语音信号的最终识别结果;
Y=max(yi),i=1,2,…,R (11);
步骤2中,基于参数化带通滤波函数的自适应特征学习提取出特征,步骤如下:
A、为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息,对卷积层中的卷积核进行调整,即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核;其中sinc函数:
(A-1)CNN网络中每个卷积定义如下:
其中:y[n]表示卷积后的输出,x[n]表示原始语音信号,h[n]表示长度为L的滤波器;使用函数g代替h执行卷积
y[n]=x[n]*g[n,θ] (3)
其中:g[n,θ]=2f2sinc(2πf2n)-2f1sinc(2πf1n)
由上公式可见,滤波器的参数仅仅是低截止频率和高截止频率Cutoff Frequency;这一自定义卷积核操作不仅减少了参数,同时加速了模型的收敛速度;
(A-2)为了使得该滤波器近似理想状态,将函数g与窗口函数w相乘来执行窗口化,使得函数g更加平滑:
gw[n,f1,f2]=g[n,f1,f2]·w[n] (4)
其中:
在参数化滤波器中,f1和f2是两个需要优化的参数,它们满足以下三个约束条件:
1)f1≥0,引入新参数f1 abs=|f1|来实现这一约束;
2)f2≥f1,引入新参数来实现这一约束,
3)f1还需要满足小于奈奎斯特频率,训练发现这个约束会被自然的满足;
这样设计的滤波器是可微分的,则可以联合后端模型的其它参数实现同时优化。
2.根据权利要求1所述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法,其特征在于,步骤2中,基于自注意力机制的深度残差网络的后端建模对提取的特征进行学习,步骤如下:
步骤2.1、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元,用不同的卷积核提取特征,然后通过每个分支引导的不同信息构成的softmax进行融合;SK单元包括三个方面:分离split,融合Fuse,调整Select;具体如下:
(A1)Split操作是将原特征图X∈RH′*W′*C′分别通过3*3的卷积核和5*5的卷积核生成两个特征图:和
(A2)Fuse操作是进行特征融合,通过门控机制将上一层的输出进行有选择的筛选,使每一个分支都携带不同的信息流进入下一个神经元;
a)对不同分支的输出进行融合,即逐元素进行相加;
b)对两个输出进行全局平均池化Fgp操作,获得每一个通道上的全局信息;
c)对输出s做全连接,目的是找到每一个通道占的比重大小;其中Ffc为先降维再升维的两层全连接层,δ表示ReLU激活函数,BN表示Batch Noramlization,Ws维度是d*C;
z=Ffc(s)+δ(BN(Ws)) (7)
为了研究d对模型效率的影响,引入衰减率r,C表示通道数;
d=max(C/r,L) (8)
(A3)Select操作是通过两个softmax计算出通道之间的权重信息;然后把这个权重信息与原先的和相乘,最后进行特征叠加得到V;这个过程看做是一个softattention;由于ac和bc的函数值相加等于1,因此能够实现对分支中的特征图设置权重,因为不同的分支卷积核尺寸不同,因此实现了让网络自己选择合适的卷积核;
其中:
步骤2.2、将训练集输入到端到端网络中训练,对参数化滤波器中f1和f2两个参数和自注意力机制的深度残差网络参数进行学习,得到端到端模型。
3.根据权利要求1所述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法,其特征在于,步骤3中,采用投票法联合决策,步骤如下:
当输入语音信号x[n]经归一化后,按短样本的长度为l将被分割为M段短音频信号xM[l],其中x[n]={x1[l],x2[l],…,xM[l]},M取决于语音信号的长度;随后依次被输入到已训练好的端到端模型中进行决策,并得到M个样本的判决结果;假设模型库中有R个说话人,统计同一语音信号的单一决策结果中每一类别出现的概率y={y1,y2,…,yR},将决策结果中出现频率最高的作为该语音信号的最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035890.1A CN112151040B (zh) | 2020-09-27 | 2020-09-27 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035890.1A CN112151040B (zh) | 2020-09-27 | 2020-09-27 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151040A CN112151040A (zh) | 2020-12-29 |
CN112151040B true CN112151040B (zh) | 2023-04-28 |
Family
ID=73895528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035890.1A Active CN112151040B (zh) | 2020-09-27 | 2020-09-27 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151040B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767952A (zh) * | 2020-12-31 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN112992155B (zh) * | 2021-03-02 | 2022-10-14 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN113763965B (zh) * | 2021-08-26 | 2023-12-19 | 江苏大学 | 一种多重注意力特征融合的说话人识别方法 |
CN113763966B (zh) * | 2021-09-09 | 2024-03-19 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及系统 |
CN113963718B (zh) * | 2021-10-26 | 2024-04-16 | 合肥工业大学 | 一种基于深度学习的语音会话分割方法 |
CN114970694B (zh) * | 2022-05-12 | 2023-04-07 | 河北师范大学 | 一种网络安全态势评估方法及其模型训练方法 |
CN116403599B (zh) * | 2023-06-07 | 2023-08-15 | 中国海洋大学 | 一种高效的语音分离方法及其模型搭建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066951A (zh) * | 2017-03-15 | 2017-08-18 | 中国地质大学(武汉) | 一种人脸自发表情的识别方法及系统 |
CN109256135A (zh) * | 2018-08-28 | 2019-01-22 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109492529A (zh) * | 2018-10-08 | 2019-03-19 | 中国矿业大学 | 一种多尺度特征提取及全局特征融合的人脸表情识别方法 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
-
2020
- 2020-09-27 CN CN202011035890.1A patent/CN112151040B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066951A (zh) * | 2017-03-15 | 2017-08-18 | 中国地质大学(武汉) | 一种人脸自发表情的识别方法及系统 |
CN109256135A (zh) * | 2018-08-28 | 2019-01-22 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109492529A (zh) * | 2018-10-08 | 2019-03-19 | 中国矿业大学 | 一种多尺度特征提取及全局特征融合的人脸表情识别方法 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
Non-Patent Citations (3)
Title |
---|
An end-to-end deep source recording device identification system for Web media forensics;Chunyan Zeng et al.;《International Journal of Web Information Systems》;20200806;全文 * |
Selective Kernel Networks;Xiang Li et al.;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;510-519页 * |
残差神经网络及其在医学图像处理中的应用研究;周涛等;《电子学报》;20200715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151040A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112151040B (zh) | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN107680611B (zh) | 基于卷积神经网络的单通道声音分离方法 | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
CN109410917B (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN112259080B (zh) | 一种基于神经网络模型的语音识别方法 | |
CN106328123B (zh) | 小数据库条件下正常语音流中耳语音的识别方法 | |
CN111275165A (zh) | 一种基于改进卷积神经网络的网络入侵检测方法 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN113053407A (zh) | 一种针对多说话人的单通道语音分离方法及系统 | |
CN105304078A (zh) | 目标声数据训练装置和目标声数据训练方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN111524530A (zh) | 一种基于膨胀因果卷积的语音降噪方法 | |
CN111583957B (zh) | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 | |
CN110867178B (zh) | 一种多通道远场语音识别方法 | |
CN116405100B (zh) | 一种基于先验知识的失真信号还原方法 | |
Paturi et al. | Directed speech separation for automatic speech recognition of long form conversational speech | |
CN116230020A (zh) | 一种语音情感识别分类方法 | |
CN113393858B (zh) | 语音分离方法和系统、电子设备及可读存储介质 | |
CN112397044B (zh) | 一种基于深度学习的自动音乐转录方法 | |
Bi et al. | Acoustic Scene Classification for Bone-Conducted Sound Using Transfer Learning and Feature Fusion | |
CN116030824A (zh) | 一种基于深度神经网络的定向语音分离方法 | |
Jiang et al. | Research on high-precision lightweight speech recognition model with small training set in Multi-person conversation scenario |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |