CN109256135A - 一种端到端说话人确认方法、装置及存储介质 - Google Patents
一种端到端说话人确认方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109256135A CN109256135A CN201810988567.2A CN201810988567A CN109256135A CN 109256135 A CN109256135 A CN 109256135A CN 201810988567 A CN201810988567 A CN 201810988567A CN 109256135 A CN109256135 A CN 109256135A
- Authority
- CN
- China
- Prior art keywords
- level characteristics
- feature
- voice
- frame level
- speaker verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012795 verification Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种端到端说话人确认方法、装置及存储介质,其方法包括构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的,ResCNN残差卷积神经网络模型用于提取语音帧级别特征,阈值再加权注意力模型对语音帧级别特征转化为句子级别特征,从而完成对所述说话人确认端到端网络的训练;通过训练得到的说话人确认端到端网络,以确定测试语音的注册人;本发明实现了端到端处理,阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征,将非关键语音帧级别特征筛除,再进行加权平均处理来放大关键语音帧级别特征,从帧级别特征转化为句子级别特征,极大的提高了语音识别度。
Description
技术领域
本发明主要涉及声纹识别技术处理领域,具体涉及一种端到端说话人确认方法、装置及存储介质。
背景技术
声纹识别,又称为说话人识别,是一种生物识别的技术,是从一段语音中提取分析和提取出说话人的个性特征,自动确定说话人的过程。说话人识别包括说话人确认技术和说话人辨认技术,“说话人确认”是指判断一段话是否为某人所说,为“一对一”问题,“说话人辨认”是指在n个已知样本中选择一个与未知音频样本最像的一个音频,是“多选一”问题;而目前“说话人确认”技术中,通常都是将提取的语音帧级别特征取平均值进行处理,将语音特征中一些非重要帧一并处理,导致处理结果不精确、识别效果不佳的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种端到端说话人确认方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种端到端说话人确认方法,包括如下步骤:
构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
对所述说话人确认端到端网络进行训练,包括:
将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,从而完成对所述说话人确认端到端网络的训练;
将测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
本发明解决上述技术问题的另一技术方案如下:一种端到端说话人确认装置,包括:
网络构建模块,用于构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
训练模块,用于对所述说话人确认端到端网络进行训练:将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,完成对所述说话人确认端到端网络的训练;
确定模块,用于将测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
本发明解决上述技术问题的另一技术方案如下:一种端到端说话人确认装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述方法的步骤。
本发明的有益效果是:通过说话人确认端到端网络整体化实现了特征提取及特征处理,前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理,ResCNN残差卷积神经网络模型进行特征提取,特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征,将非关键语音帧级别特征筛除,再进行加权平均处理来放大关键语音帧级别特征,从帧级别特征得到句子级别特征,实现了端到端处理,极大的提高了语音识别度。
附图说明
图1为本发明一实施例提供的端到端说话人确认方法的方法流程图;
图2为本发明一实施例提供的端到端说话人确认方法的方法流程图;
图3为本发明另一实施例提供的端到端说话人确认方法的方法流程图;
图4为本发明一实施例提供的帧特征转换为句子级别特征的示意性流程图;
图5为本发明一实施例提供的端到端说话人确认装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的端到端说话人确认方法的方法流程图;
图2为本发明一实施例提供的端到端说话人确认方法的方法流程图;
如图1-2所示,一种端到端说话人确认方法,包括如下步骤:
构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
对所述说话人确认端到端网络进行训练,包括:
将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,完成对所述说话人确认端到端网络的训练;
将测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
具体的,ResCNN残差卷积神经网络模型由堆叠残差块和卷积神经网络融合而成,堆叠残差卷积神经网络包含了12个残差块,每个残差块包含两个卷积层,其中每3个残差块堆叠在一起称为堆叠块,总共含有4个堆叠块;当每个堆叠块通道数增加的时候,使用单个卷积层做连接。每个堆叠块分别采用64,128,256,512通道,且其残差块中采用的步长为1x1,而连接各个堆叠块的卷积层采用卷积核为5x5,步长为2x2。
上述实施例中,通过说话人确认端到端网络整体化实现了特征提取及特征处理,前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理,ResCNN残差卷积神经网络模型进行特征提取,特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征,将非关键语音帧级别特征筛除,再进行加权平均处理来放大关键语音帧级别特征,从帧级别特征得到句子级别特征,实现了端到端处理,极大的提高了语音识别度。
图3为本发明另一实施例提供的端到端说话人确认方法的方法流程图;
可选的,作为本发明的一个实施例,在图2的基础上进行改进,如图3所示,所述将多个语音训练样本输入所述ResCNN残差卷积神经网络模型,包括:
根据预设分帧参数对多个语音训练样本分别进行分帧处理,得到多个语句,其中,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到多个二维语音信息,将所述多个二维语音信息作为预处理后的所述多个语音训练样本输入所述ResCNN残差卷积神经网络模型。
具体的,帧时长为25ms,帧数为240帧,即每个语音训练样本为以240帧定长进行分帧处理,前后帧重复时长为10ms;对每一帧提取64维的Fbank特征,形成240x64的二维语音信息。
上述实施例中,以短语音的形式,从一维语音信息转化为二维语音信息使数据更适应于ResCNN残差卷积神经网络模型,利于快速的提取特征向量。
图4为本发明一实施例提供的帧特征转换为句子级别特征的示意性流程图;
可选的,作为本发明的一个实施例,如图4所示,所述对多个目标语音帧级别特征加以权重,包括:
设属于同一语音训练样本的所述多个目标语音帧级别特征的序列为:
F=[f(x1),f(x2),...,f(xT)]=ft=[f1,f2,...,fT],
通过非线性全连接神经子网络对所述多个目标语音帧级别特征进行非归一化打分,得到score=[g(f1),g(f2),...,g(fT)]=gt=[g1,g2,...,gT],其中,gt=[g1,g2,...,gT]为所述多个目标语音帧级别特征的分值;
根据经打分后的所述多个目标语音帧级别特征,结合下式计算所述多个语音帧级别特征的归一化权重αt:
其中,αt∈[0,1]。
具体的,所述非线性全连接神经子网络由单层线性全连接网络加ReLU激活函数构成。如果权重较小的,通常说明此帧含有较少的说话人信息,因此若将对说话人区分作用较小的帧去除,放大对说话人区分作用较大的帧的权重,则能得到更优的说话人句子级别特征。
上述实施例中,通过非归一化打分的方式,能够对各个目标语音帧级别特征赋予权重,区分出权重高的和权重低的目标语音帧级别特征。
可选的,作为本发明的一个实施例,如图4所示,所述得到多个关键语音帧级别特征,包括:
将所述归一化权重αt中小于或等于预设权重平均值的权重系数置零,得到新的归一化权重系数βt,对经置零的权重系数所对应的多个目标语音帧级别特征进行剔除处理,从而得到多个关键语音帧级别特征。
上述实施例中,将小于或等于预设权重平均值的权重系数置零,能够将权重低的目标语音帧级别特征筛选出来,剔除目标语音帧级别特征中非关键的语音帧级别特征,例如一些空语音帧,从而得到多个关键语音帧级别特征,提高识别的精确度。
可选的,作为本发明的一个实施例,如图4所示,所述得到句子级别特征,包括:
对属于同一语音训练样本的所述多个关键语音帧级别特征再次加以权重,得到新的归一化权重系数γt:
通过公式进行加权平均处理,得到句子级别特征,其中,ft为属于同一语音训练样本的所述多个目标语音帧级别特征的序列。
上述实施例中,再次加以权重的处理方式能够放大关键语音帧级别特征,提高识别的精确度,通过加权平均处理,使帧级别特征过渡为句子级别特征,更有利于最终的说话人确认。
可选的,作为本发明的一个实施例,所述得到句子级别特征后,还包括:
使用三重损失函数(triplet loss)对所述说话人确认端到端网络进行收敛的步骤。
上述实施例中,通过三重损失函数对说话人确认端到端网络进行收敛,提高说话人确认端到端网络处理特征的精确度。
图5为本发明另一实施例提供的端到端说话人确认装置的模块框图;
可选的,作为本发明的另一个实施例,如图5所示,一种端到端说话人确认装置,包括:
网络构建模块,用于构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
训练模块,用于对所述说话人确认端到端网络进行训练:将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,完成对所述说话人确认端到端网络的训练;
确定模块,用于测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
可选的,作为本发明的一个实施例,所述训练模块具体用于:
根据预设分帧参数对多个语音训练样本分别进行分帧处理,得到多个语句,其中,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到多个二维语音信息,将所述多个二维语音信息作为所述ResCNN残差卷积神经网络模型。
可选的,作为本发明的一个实施例,所述训练模块具体用于:
设属于同一语音训练样本的所述多个目标语音帧级别特征的序列为:
F=[f(x1),f(x1),...,f(xT)]=ft=[f1,f2,...,fT],
通过非线性全连接神经子网络对所述多个目标语音帧级别特征进行非归一化打分,得到score=[g(f1),g(f2),...,g(fT)]=gt=[g1,g2,...,gT],其中,gt=[g1,g2,...,gT]为所述多个目标语音帧级别特征的分值;
根据经打分后的所述多个目标语音帧级别特征,结合下式计算所述多个语音帧级别特征的归一化权重αt:
其中,αt∈[0,1]。
具体的,所述非线性全连接神经子网络由单层线性全连接网络加ReLU激活函数构成。
上述实施例中,通过非归一化打分的方式,能够对各个目标语音帧级别特征赋予权重,区分出权重高的和权重低的目标语音帧级别特征。
可选的,作为本发明的一个实施例,所述训练模块还具体用于:
将所述归一化权重αt中小于或等于预设权重平均值的权重系数置零,得到新的归一化权重系数βt,对经置零的权重系数所对应的多个目标语音帧级别特征进行剔除处理,从而得到多个关键语音帧级别特征。
上述实施例中,将小于或等于预设权重平均值的权重系数置零,能够将权重低的目标语音帧级别特征筛选出来,剔除目标语音帧级别特征中非关键的语音帧级别特征,例如一些空语音帧,从而得到多个关键语音帧级别特征,提高识别的精确度。
可选的,作为本发明的一个实施例,所述训练模块还具体用于:
对属于同一语音训练样本的所述多个关键语音帧级别特征再次加以权重,得到新的归一化权重系数γt:
通过公式进行加权平均处理,得到句子级别特征,其中,ft为属于同一语音训练样本的所述多个目标语音帧级别特征的序列。
上述实施例中,再次加以权重的处理方式能够放大关键语音帧级别特征,提高识别的精确度,通过加权平均处理,使帧级别特征过渡为句子级别特征,更有利于最终的说话人确认。
可选的,作为本发明的另一个实施例,一种端到端说话人确认装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
可选的,作为本发明的另一个实施例,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述方法的步骤。
本发明通过说话人确认端到端网络整体化实现了特征提取及特征处理,前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理,ResCNN残差卷积神经网络模型进行特征提取,特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征,将非关键语音帧级别特征筛除,再进行加权平均处理来放大关键语音帧级别特征,从帧级别特征得到句子级别特征,实现了端到端处理,极大的提高了语音识别度。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种端到端说话人确认方法,其特征在于,包括如下步骤:
构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
对所述说话人确认端到端网络进行训练,包括:
将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,完成对所述说话人确认端到端网络的训练;
将测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
2.根据权利要求1所述的端到端说话人确认方法,其特征在于,所述将多个语音训练样本输入所述ResCNN残差卷积神经网络模型,包括:
根据预设分帧参数对多个语音训练样本分别进行分帧处理,得到多个语句,其中,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到多个二维语音信息,将所述多个二维语音信息作为预处理后的所述多个语音训练样本输入所述ResCNN残差卷积神经网络模型。
3.根据权利要求2所述的端到端说话人确认方法,其特征在于,所述对多个目标语音帧级别特征加以权重,包括:
设属于同一语音训练样本的所述多个目标语音帧级别特征的序列为:
F=[f(x1),f(x2),...,f(xT)]=ft=[f1,f2,...,fT],
对所述多个目标语音帧级别特征进行非归一化打分,得到score=[g(f1),g(f2),...,g(fT)]=gt=[g1,g2,...,gT],其中,gt=[g1,g2,...,gT]为所述多个目标语音帧级别特征的分值;
根据经打分后的所述多个目标语音帧级别特征结合下式计算所述多个语音帧级别特征的归一化权重αt:
其中,αt∈[0,1]。
4.根据权利要求3所述的端到端说话人确认方法,其特征在于,所述得到多个关键语音帧级别特征,包括:
将所述归一化权重αt中小于或等于预设权重平均值的权重系数置零,得到新的归一化权重系数βt,对经置零的权重系数所对应的多个目标语音帧级别特征进行剔除处理,从而得到多个关键语音帧级别特征。
5.根据权利要求4所述的端到端说话人确认方法,其特征在于,所述得到句子级别特征,包括:
对属于同一语音训练样本的所述多个关键语音帧级别特征再次加以权重,得到新的归一化权重系数γt:
通过公式进行加权平均处理,得到句子级别特征,其中,ft为属于同一语音训练样本的所述多个目标语音帧级别特征的序列。
6.根据权利要求1至5任一项所述的端到端说话人确认方法,其特征在于,所述得到句子级别特征后,还包括:
使用三重损失函数对所述说话人确认端到端网络进行收敛的步骤。
7.一种端到端说话人确认装置,其特征在于,包括:
网络构建模块,用于构建说话人确认端到端网络,所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型;
训练模块,用于对所述说话人确认端到端网络进行训练:将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中,得到每个语音训练样本的多个语音帧级别特征;
通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征,并对所述多个目标语音帧级别特征加以权重;
从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征,从而得到多个关键语音帧级别特征;
分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理,得到句子级别特征,完成对所述说话人确认端到端网络的训练;
确定模块,用于测试语音输入经训练后的说话人确认端到端网络中,得到测试语音句子级别特征,并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征,根据比较结果以确定所述测试语音的注册人,其中,所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。
8.根据权利要求7所述的端到端说话人确认装置,其特征在于,所述训练模块具体用于:
根据预设分帧参数对多个语音训练样本分别进行分帧处理,得到多个语句,其中,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到多个二维语音信息,将所述多个二维语音信息作为预处理后的所述多个语音训练样本输入所述ResCNN残差卷积神经网络模型。
9.一种端到端说话人确认装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810988567.2A CN109256135B (zh) | 2018-08-28 | 2018-08-28 | 一种端到端说话人确认方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810988567.2A CN109256135B (zh) | 2018-08-28 | 2018-08-28 | 一种端到端说话人确认方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109256135A true CN109256135A (zh) | 2019-01-22 |
CN109256135B CN109256135B (zh) | 2021-05-18 |
Family
ID=65050395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810988567.2A Active CN109256135B (zh) | 2018-08-28 | 2018-08-28 | 一种端到端说话人确认方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256135B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
CN109887491A (zh) * | 2019-03-18 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法和装置、电子设备、计算机可读介质 |
CN110136749A (zh) * | 2019-06-14 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 说话人相关的端到端语音端点检测方法和装置 |
CN110188361A (zh) * | 2019-06-10 | 2019-08-30 | 北京智合大方科技有限公司 | 结合文本、语音与情绪特征的语音意图识别方法及装置 |
CN110223699A (zh) * | 2019-05-15 | 2019-09-10 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110428809A (zh) * | 2019-06-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110556114A (zh) * | 2019-07-26 | 2019-12-10 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN111445913A (zh) * | 2020-03-24 | 2020-07-24 | 南开大学 | 基于神经网络的声纹特征提取方法和装置 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN112329835A (zh) * | 2020-10-30 | 2021-02-05 | 天河超级计算淮海分中心 | 图像处理方法、电子设备和存储介质 |
CN112634880A (zh) * | 2020-12-22 | 2021-04-09 | 北京百度网讯科技有限公司 | 话者识别的方法、装置、设备、存储介质以及程序产品 |
CN113380233A (zh) * | 2021-06-17 | 2021-09-10 | 北京百度网讯科技有限公司 | 音频识别方法、装置、训练方法、训练装置、设备及存储介质 |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN113557567A (zh) * | 2019-02-08 | 2021-10-26 | 日本电气株式会社 | 说话者识别系统及其使用方法 |
CN114678030A (zh) * | 2022-03-17 | 2022-06-28 | 重庆邮电大学 | 基于深度残差网络和注意力机制的声纹识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108399395A (zh) * | 2018-03-13 | 2018-08-14 | 成都数智凌云科技有限公司 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
-
2018
- 2018-08-28 CN CN201810988567.2A patent/CN109256135B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108269569A (zh) * | 2017-01-04 | 2018-07-10 | 三星电子株式会社 | 语音识别方法和设备 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108399395A (zh) * | 2018-03-13 | 2018-08-14 | 成都数智凌云科技有限公司 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
Non-Patent Citations (1)
Title |
---|
KOJI OKABE ET.AL: "Attention Statistics Pooling for Deep Speaker Embedding", 《ARXIV》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
CN113557567A (zh) * | 2019-02-08 | 2021-10-26 | 日本电气株式会社 | 说话者识别系统及其使用方法 |
CN109887491A (zh) * | 2019-03-18 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法和装置、电子设备、计算机可读介质 |
CN110223699B (zh) * | 2019-05-15 | 2021-04-13 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110223699A (zh) * | 2019-05-15 | 2019-09-10 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110188361A (zh) * | 2019-06-10 | 2019-08-30 | 北京智合大方科技有限公司 | 结合文本、语音与情绪特征的语音意图识别方法及装置 |
CN110136749A (zh) * | 2019-06-14 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 说话人相关的端到端语音端点检测方法和装置 |
CN110428809B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110534092A (zh) * | 2019-06-28 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110473518B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110428809A (zh) * | 2019-06-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110534092B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110473518A (zh) * | 2019-06-28 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110556114B (zh) * | 2019-07-26 | 2022-06-17 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN110556114A (zh) * | 2019-07-26 | 2019-12-10 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN111445913A (zh) * | 2020-03-24 | 2020-07-24 | 南开大学 | 基于神经网络的声纹特征提取方法和装置 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN112151040B (zh) * | 2020-09-27 | 2023-04-28 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN112329835A (zh) * | 2020-10-30 | 2021-02-05 | 天河超级计算淮海分中心 | 图像处理方法、电子设备和存储介质 |
CN112634880A (zh) * | 2020-12-22 | 2021-04-09 | 北京百度网讯科技有限公司 | 话者识别的方法、装置、设备、存储介质以及程序产品 |
CN113380233A (zh) * | 2021-06-17 | 2021-09-10 | 北京百度网讯科技有限公司 | 音频识别方法、装置、训练方法、训练装置、设备及存储介质 |
CN113380233B (zh) * | 2021-06-17 | 2023-01-31 | 北京百度网讯科技有限公司 | 音频识别方法、装置、训练方法、训练装置、设备及存储介质 |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN114678030A (zh) * | 2022-03-17 | 2022-06-28 | 重庆邮电大学 | 基于深度残差网络和注意力机制的声纹识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109256135B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256135A (zh) | 一种端到端说话人确认方法、装置及存储介质 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN105096941B (zh) | 语音识别方法以及装置 | |
CN106057206B (zh) | 声纹模型训练方法、声纹识别方法及装置 | |
CN108766418A (zh) | 语音端点识别方法、装置及设备 | |
CN108417201B (zh) | 单信道多说话人身份识别方法及系统 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN106683661A (zh) | 基于语音的角色分离方法及装置 | |
US9595260B2 (en) | Modeling device and method for speaker recognition, and speaker recognition system | |
CN108766417B (zh) | 一种基于音素自动检索的身份同一性检验方法及装置 | |
CN107578771A (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
CN108648759A (zh) | 一种文本无关的声纹识别方法 | |
US9799325B1 (en) | Methods and systems for identifying keywords in speech signal | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN108922521A (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN108648769A (zh) | 语音活性检测方法、装置及设备 | |
CN112017694B (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
CN109192224A (zh) | 一种语音评测方法、装置、设备及可读存储介质 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN105869628A (zh) | 语音端点检测方法及装置 | |
CN109003600B (zh) | 消息处理方法及装置 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |