CN108564954A - 深度神经网络模型、电子装置、身份验证方法和存储介质 - Google Patents
深度神经网络模型、电子装置、身份验证方法和存储介质 Download PDFInfo
- Publication number
- CN108564954A CN108564954A CN201810225142.6A CN201810225142A CN108564954A CN 108564954 A CN108564954 A CN 108564954A CN 201810225142 A CN201810225142 A CN 201810225142A CN 108564954 A CN108564954 A CN 108564954A
- Authority
- CN
- China
- Prior art keywords
- voice data
- preset
- current speech
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000012795 verification Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000009432 framing Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 241001269238 Data Species 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 3
- 239000012535 impurity Substances 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开一种深度神经网络模型、电子装置、身份验证方法和存储介质,该方法包括:在收到待进行身份验证的目标用户的当前语音数据后,获取待验证的身份对应的标准语音数据,将这两个标准语音数据分别分帧处理,以得到当前语音帧组和标准语音帧组;利用预设滤波器分别提取出两个语音帧组中的各个语音帧的预设类型声学特征;将提取出的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到当前语音数据和标准语音数据各自对应的预设长度的特征矢量;计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果。本发明技术方案提升了说话人身份验证的准确性。
Description
技术领域
本发明涉及声纹识别技术领域,特别涉及一种深度神经网络模型、电子装置、身份验证方法和存储介质。
背景技术
说话人识别通常称为声纹识别,是生物识别技术的一种,常被用来确认某段语音是否是指定的某个人所说,是“一对一判别”问题。说话人识别广泛应用于诸多领域,例如,在金融、证券、社保、公安、军队及其他民用安全认证等领域都有着广泛的应用需求。
说话人识别包括文本相关识别和文本无关识别两种方式,近年来文本无关说话人识别技术不断突破,其准确性较之以往有了极大的提升。然而在某些受限情况下,比如采集到的说话人有效语音较短(时长小于5秒的语音)的情况下,现有的文本无关说话人识别技术的准确性不高,很容易出错。
发明内容
本发明的主要目的是提供一种深度神经网络模型、电子装置、身份验证方法和存储介质,旨在旨在提升说话人身份验证的准确性。
为实现上述目的,本发明提出的深度神经网络模型,包括:
第一层结构:是由多层堆叠的有相同预设结构的神经网络层,每个预设结构的神经网络层包括:两个串联的CNN卷积层,两个修正线性单元ReLU,及一个将两个串联的CNN卷积层跨层直连的直连操作X,其中,各个ReLU与各个CNN卷积层一一对应,且各个ReLU分别串联在对应的CNN卷积层后,所述直连操作X将两个串联的CNN卷积层的第一个CNN卷积层的卷积操作的输入与第二个CNN卷积层的卷积操作的输出相加,并将结果送入到第二个CNN卷积层对应的ReLU操作中;
第二层结构:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将第一层结构输出的二维矢量序列进行平均化;
第三层结构:是DNN全连接层;
第四层结构:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;
第五层结构:是损失层,损失函数L的公式为:其中α是取值范围在0.05~0.2之间的常量,代表属于同一说话人的两个特征矢量的余弦相似度,代表不属于同一说话人的两个特征矢量的余弦相似度。
优选地,所述深度神经网络模型的训练过程为:
S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;
S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;
S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;
S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;
S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述深度神经网络模型中进行迭代训练,并在所述深度神经网络模型训练完成后,采用验证集对所述深度神经网络模型的准确率进行验证;
S6、若验证得到的准确率大于预设阈值,则模型训练结束;
S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。
优选地,所述预设滤波器为梅尔滤波器,所述预设类型声学特征为梅尔频率倒谱系数MFCC。
优选地,所述深度神经网络模型迭代训练的过程包括:
根据模型的当前参数将当前输入每个语音帧组对应的预设类型声学特征转化为对应的一个预设长度的特征矢量;
从各个特征矢量中进行随机选取以获得多个三元组,第i个三元组(xi1,xi2,xi3)由三个不同的特征矢量xi1、xi2和xi3组成,其中,xi1和xi2对应同一个说话人,xi1和xi3对应不同的说话人,i为正整数;
采用预先确定的计算公式计算xi1和xi2之间的余弦相似度并计算xi1和xi3之间的余弦相似度
根据余弦相似度及预先确定的损失函数L更新模型的参数,所述预先确定的损失函数L的公式为:其中α是取值范围在0.05~0.2之间常量,N是获得的三元组的个数。
本发明还提出一种电子装置,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的身份验证系统,所述身份验证系统被所述处理器执行时实现如下步骤:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为上述任一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
优选地,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
本发明还提出一种身份验证方法,该身份验证方法包括:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为上述任一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
优选地,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,所述身份验证方法还包括步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有身份验证系统,所述身份验证系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为上述任一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
优选地,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
本发明技术方案,通过将接收到待验证身份的目标用户的当前语音数据和待验证身份的标准语音数据先进行分帧处理,利用预设滤波器提取分帧处理得到的各个语音帧的提取出预设类型声学特征,再将提取出的预设类型声学特征输入到预先训练好的预设结构深度神经网络模型,预设结构深度神经网络模型分别将当前语音数据对应的预设类型声学特征和标准语音数据对应的预设类型声学特征转化为对应的特征向量后,计算两个特征向量的余弦相似度,根据余弦相似度大小确认验证结果。本实施例技术方案,通过将语音数据先分帧处理为多个语音帧并根据语音帧提取预设类型声学特征,使得即使在采集到的有效语音数据很短时,也能提取根据采集到的语音数据提取得到足够多的声学特征,再采用本发明的深度神经网络模型根据提取出得到声学特征进行处理,能够显著增强模型对输入数据的特征提取能力,减轻网络层次加深时性能降低的风险,提高输出验证结果的正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明深度神经网络模型较佳实施例中第一层结构的一个预设结构的神经网络层的结构示意图;
图2为本发明深度神经网络模型训练过程的流程示意图;
图3为本发明身份验证方法一实施例的流程示意图;
图4为本发明身份验证系统一实施例的运行环境示意图;
图5为本发明身份验证系统一实施例的程序模块图;
图6为本发明身份验证系统二实施例的程序模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出一种深度神经网络模型,用于说话人身份识别验证。
本实施例的深度神经网络模型的结构包括:
第一层结构:是由多层堆叠(例如9~12层堆叠)的有相同预设结构的神经网络层,如图1所示,每个预设结构的神经网络层包括:两个串联的CNN卷积层100(例如,所述CNN卷积层100可以采用:3*3的卷积核,步长为1*1,通道数为64),两个修正线性单元ReLU200,及一个将两个串联的CNN卷积层100跨层直连的直连操作X,其中,各个ReLU200与各个CNN卷积层100一一对应,且各个ReLU200分别串联在对应的CNN卷积层100后,所述直连操作X将两个串联的CNN卷积层100的第一个CNN卷积层100的卷积操作的输入与第二个CNN卷积层100的卷积操作的输出相加,并将结果送入到第二个CNN卷积层100对应的ReLU200操作中;
第二层结构:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将第一层结构输出的二维矢量序列进行平均化;
第三层结构:是DNN全连接层;
第四层结构:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;
第五层结构:是损失层,损失函数L的公式为:其中α是取值范围在0.05~0.2之间的常量,代表属于同一说话人的两个特征矢量的余弦相似度,代表不属于同一说话人的两个特征矢量的余弦相似度。
采用本实施例的深度神经网络模型,能够显著增强模型对输入数据的特征提取能力,减轻网络层次加深时性能降低的风险。
本实施例中的深度神经网络模型的训练过程为:
S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;
先准备好预设数量(例如,10000个)语音数据样本,各个语音数据样本都是已知说话人身份的语音数据;这些语音数据样本中,每一个说话人身份或部分的说话人身份对应有多个语音数据样本,将各个语音数据样本标注上代表对应的说话人身份的标签。
S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;
对语音数据样本进行活动端点检测,以检测出每个语音数据样本中的非说话人的语音(例如,静音或噪音)并删除,避免语音数据样本中存在与对应的说话人身份的声纹特征无关的语音数据,而影响对模型的训练效果。
S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;
例如,将得到的标准语音数据样本的70%作为训练集,30%作为验证集。
S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;
其中,预设的分帧参数例如,每隔25毫秒分帧,帧移10毫秒;该预设滤波器例如为梅尔滤波器,通过梅尔滤波器提取出的预设类型声学特征为MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)频谱特征,例如,36维MFCC频谱特征。
S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述深度神经网络模型中进行迭代训练,并在所述深度神经网络模型训练完成后,采用验证集对所述深度神经网络模型的准确率进行验证;
对训练集中的预设类型声学特征进行分批处理,划分成M(例如30)批,分批方式可按照语音帧组为分配单位,每一批中分配等量或不等量的语音帧组对应的预设类型声学特征;将训练集中的各个语音帧组对应的预设类型声学特征按照分成的批次逐一的输入深度神经网络模型中进行迭代训练,每一批预设类型声学特征使所述预设结构胜读神经网络模型迭代一次,每次迭代都会更新得到新的模型参数,通过多次迭代训练完成后,该深度神经网络模型已经更新为较佳的模型参数;迭代训练完成后,则利用验证集对该深度神经网络模型的准确率进行验证,即将验证集中的标准语音数据两两分组,每次输入一个分组中的标准语音数据样本对应的预设类型声学特征到该深度神经网络模型,根据输入的两个标准语音数据的身份标签,确认输出的验证结构是否正确,在完成对各个分组的验证后,根据验证结果正确次数计算准确率,例如对100个分组进行验证,最终得到验证结果正确的有99组,则准确率就为99%。
S6、若验证得到的准确率大于预设阈值,则模型训练结束;
系统中预先设置了准确率的验证阈值(即所述预设阈值,例如98.5%),用于对所述深度神经网络模型的训练效果进行检验;若通过所述验证集对所述深度神经网络模型验证得到的准确率大于所述预设阈值,那么说明该深度神经网络模型的训练达到了标准,此时则结束模型训练。
S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。
若是通过所述验证集对所述深度神经网络模型验证得到的准确率小于或等于所述预设阈值,那么说明该深度神经网络模型的训练还没有达到了预期标准,可能是训练集数量不够或验证集数量不够,所以,在这种情况时,则增加获取的语音数据样本的数量(例如,每次增加固定数量或每次增加随机数量),然后在这基础上,重新执行上述步骤S1-S5,如此循环执行,直至达到了步骤S6的要求,则结束模型训练。
本实施例中,所述深度神经网络模型迭代训练的过程包括:
根据模型的当前参数将当前输入每个语音帧组对应的预设类型声学特征转化为对应的一个预设长度的特征矢量;
从各个特征矢量中进行随机选取以获得多个三元组,第i个三元组(xi1,xi2,xi3)由三个不同的特征矢量xi1、xi2和xi3组成,其中,xi1和xi2对应同一个说话人,xi1和xi3对应不同的说话人,i为正整数;
采用预先确定的计算公式计算xi1和xi2之间的余弦相似度并计算xi1和xi3之间的余弦相似度
根据余弦相似度及预先确定的损失函数L更新模型的参数,所述预先确定的损失函数L的公式为:其中α是取值范围在0.05~0.2之间常量,N是获得的三元组的个数。
其中,模型参数更新步骤为:1.采用反向传播算法计算该深度神经网络的梯度;2.采用mini-batch-SGD(即小批量随机梯度下降)方法更新该深度神经网络的参数。
本发明还提出一种身份验证方法,该身份验证方法基于上述实施例任一项所述的深度神经网络模型。
如图3所示,图3为本发明身份验证方法一实施例的流程示意图。
本实施例中,该身份验证方法包括:
步骤S10,在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
身份验证系统的数据库中预先存储有每个身份的标准语音数据,在收到待进行身份验证的目标用户的当前语音数据后,根据目标用户要求验证的身份(待验证的身份),身份验证系统在数据库中获取该待验证的身份对应的标准语音数据,然后再分别对接收到的当前语音数据和获取到的标准语音数据按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组(包括当前语音数据经分帧得到的多个语音帧)和所述标准语音数据对应的标准语音帧组(包括标准语音数据经分帧得到的多个语音帧)。其中,所述预设的分帧参数例如,每隔25毫秒分帧,帧移10毫秒。
步骤S20,利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
在得到当前语音帧组和标准语音帧组后,身份验证系统在利用预设滤波器分别对当前语音帧组和标准语音帧组中的各个语音帧进行特征提取,以提取出当前语音帧组中的各个语音帧对应的预设类型声学特征和标准语音帧组中的各个语音帧对应的预设类型声学特征。例如,该预设滤波器为梅尔(Mel)滤波器,提取出的预设类型声学特征为36维MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)频谱特征。
步骤S30,将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,该预设结构深度神经网络模型为上述实施例所述的深度神经网络模型;
步骤S40,计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
身份验证系统中具有预先训练好的预设结构深度神经网络模型,该模型为采用样本语音数据的对应的预设类型声学特征迭代训练的模型;身份验证系统在对当前语音帧组和标准语音帧组中的语音帧进行特征提取后,将当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入该预先训练好的预设结构深度神经网络模型中,模型将当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征分别转化为一个预设长度的特征矢量(例如,长度为1的特征矢量),再计算得到的两个特征矢量的余弦相似度,根据计算出的余弦相似度的大小确定身份验证结果,即将该余弦相似度与预设阈值(例如0.95)比较,若该余弦相似度大于预设阈值,则确定身份验证通过,反之,则确定身份验证失败。其中,余弦相似度计算公式为:cos(xi,xj)=xi Txj,xi和xj代表两个特征矢量,T为预先确定值。
本实施例技术方案,通过将接收到待验证身份的目标用户的当前语音数据和待验证身份的标准语音数据先进行分帧处理,利用预设滤波器提取分帧处理得到的各个语音帧的提取出预设类型声学特征,再将提取出的预设类型声学特征输入到预先训练好的预设结构深度神经网络模型,预设结构深度神经网络模型分别将当前语音数据对应的预设类型声学特征和标准语音数据对应的预设类型声学特征转化为对应的特征向量后,计算两个特征向量的余弦相似度,根据余弦相似度大小确认验证结果。本实施例技术方案,通过将语音数据先分帧处理为多个语音帧并根据语音帧提取预设类型声学特征,使得即使在采集到的有效语音数据很短时,也能提取根据采集到的语音数据提取得到足够多的声学特征,再采用本发明的深度神经网络模型根据提取出得到声学特征进行处理,能够显著增强模型对输入数据的特征提取能力,减轻网络层次加深时性能降低的风险,提高输出验证结果的正确率。
进一步地,本实施例在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,所述身份验证方法还包括步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
在采集的当前语音数据和预先存储的标准语音数据中都包含一些非说话人语音部分(例如,静音或噪音),如果这些部分不删除掉,则对当前语音数据或标准对语音数据进行分帧处理后得到的语音帧组中,会出现包含非说话人语音部分的语音帧(甚至个别语音帧中全为非说话人语音),这样,利用预设滤波器根据这些包含非说话人语音部分的语音帧提取出的预设类型声学特征属于杂质特征,会降低预设结构深度神经网络模型得出结果的准确性;故本实施例在对语音数据分帧处理之前,先检测当前语音数据和标准语音数据中的非说话人语音部分,并将检测到的非说话人语音部分删除,本实施例采用的非说话人语音部分的检测方式为活动端点检测(Voice Activity Detection,VAD)。
此外,本发明还提出一种身份验证系统。
请参阅图4,是本发明身份验证系统10较佳实施例的运行环境示意图。
在本实施例中,身份验证系统10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图4仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如身份验证系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行身份验证系统10等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。电子装置1的部件11-13通过系统总线相互通信。
请参阅图5,是本发明身份验证系统10较佳实施例的程序模块图。在本实施例中,身份验证系统10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图5中,身份验证系统10可以被分割成分帧模块101、提取模块102、计算模块103及结果确定模块104。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述身份验证系统10在电子装置1中的执行过程,其中:
分帧模块101,用于在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
身份验证系统的数据库中预先存储有每个身份的标准语音数据,在收到待进行身份验证的目标用户的当前语音数据后,根据目标用户要求验证的身份(待验证的身份),身份验证系统在数据库中获取该待验证的身份对应的标准语音数据,然后再分别对接收到的当前语音数据和获取到的标准语音数据按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组(包括当前语音数据经分帧得到的多个语音帧)和所述标准语音数据对应的标准语音帧组(包括标准语音数据经分帧得到的多个语音帧)。其中,所述预设的分帧参数例如,每隔25毫秒分帧,帧移10毫秒。
提取模块102,用于利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
在得到当前语音帧组和标准语音帧组后,身份验证系统在利用预设滤波器分别对当前语音帧组和标准语音帧组中的各个语音帧进行特征提取,以提取出当前语音帧组中的各个语音帧对应的预设类型声学特征和标准语音帧组中的各个语音帧对应的预设类型声学特征。例如,该预设滤波器为梅尔(Mel)滤波器,提取出的预设类型声学特征为36维MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)频谱特征。
计算模块103,用于将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,该预设结构深度神经网络模型为上述实施例所述的深度神经网络模型;
结果确定模块104,用于计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
身份验证系统中具有预先训练好的预设结构深度神经网络模型,该模型为采用样本语音数据的对应的预设类型声学特征迭代训练的模型;身份验证系统在对当前语音帧组和标准语音帧组中的语音帧进行特征提取后,将当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入该预先训练好的预设结构深度神经网络模型中,模型将当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征分别转化为一个预设长度的特征矢量(例如,长度为1的特征矢量),再计算得到的两个特征矢量的余弦相似度,根据计算出的余弦相似度的大小确定身份验证结果,即将该余弦相似度与预设阈值(例如0.95)比较,若该余弦相似度大于预设阈值,则确定身份验证通过,反之,则确定身份验证失败。其中,余弦相似度计算公式为:cos(xi,xj)=xi Txj,xi和xj代表两个特征矢量,T为预先确定值。
本实施例技术方案,通过将接收到待验证身份的目标用户的当前语音数据和待验证身份的标准语音数据先进行分帧处理,利用预设滤波器提取分帧处理得到的各个语音帧的提取出预设类型声学特征,再将提取出的预设类型声学特征输入到预先训练好的预设结构深度神经网络模型,预设结构深度神经网络模型分别将当前语音数据对应的预设类型声学特征和标准语音数据对应的预设类型声学特征转化为对应的特征向量后,计算两个特征向量的余弦相似度,根据余弦相似度大小确认验证结果。本实施例技术方案,通过将语音数据先分帧处理为多个语音帧并根据语音帧提取预设类型声学特征,使得即使在采集到的有效语音数据很短时,也能提取根据采集到的语音数据提取得到足够多的声学特征,再采用本发明的深度神经网络模型根据提取出得到声学特征进行处理,能够显著增强模型对输入数据的特征提取能力,减轻网络层次加深时性能降低的风险,提高输出验证结果的正确率。
如图6所示,图6为本发明身份验证系统二实施例的程序模块图。
本实施例中,身份验证系统还包括:
检测模块105,用于在将当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理之前,分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
在采集的当前语音数据和预先存储的标准语音数据中都包含一些非说话人语音部分(例如,静音或噪音),如果这些部分不删除掉,则对当前语音数据或标准对语音数据进行分帧处理后得到的语音帧组中,会出现包含非说话人语音部分的语音帧(甚至个别语音帧中全为非说话人语音),这样,利用预设滤波器根据这些包含非说话人语音部分的语音帧提取出的预设类型声学特征属于杂质特征,会降低预设结构深度神经网络模型得出结果的准确性;故本实施例在对语音数据分帧处理之前,先检测当前语音数据和标准语音数据中的非说话人语音部分,并将检测到的非说话人语音部分删除,本实施例采用的非说话人语音部分的检测方式为活动端点检测(Voice Activity Detection,VAD)。
进一步地,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有身份验证系统,所述身份验证系统可被至少一个处理器执行,以使所述至少一个处理器执行上述任一实施例中的身份验证方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种深度神经网络模型,其特征在于,该深度神经网络模型包括:
第一层结构:是由多层堆叠的有相同预设结构的神经网络层,每个预设结构的神经网络层包括:两个串联的CNN卷积层,两个修正线性单元ReLU,及一个将两个串联的CNN卷积层跨层直连的直连操作X,其中,各个ReLU与各个CNN卷积层一一对应,且各个ReLU分别串联在对应的CNN卷积层后,所述直连操作X将两个串联的CNN卷积层的第一个CNN卷积层的卷积操作的输入与第二个CNN卷积层的卷积操作的输出相加,并将结果送入到第二个CNN卷积层对应的ReLU操作中;
第二层结构:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将第一层结构输出的二维矢量序列进行平均化;
第三层结构:是DNN全连接层;
第四层结构:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;
第五层结构:是损失层,损失函数L的公式为:其中α是取值范围在0.05~0.2之间的常量,代表属于同一说话人的两个特征矢量的余弦相似度,代表不属于同一说话人的两个特征矢量的余弦相似度。
2.如权利要求1所述的深度神经网络模型,其特征在于,所述深度神经网络模型的训练过程为:
S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;
S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;
S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;
S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;
S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述深度神经网络模型中进行迭代训练,并在所述深度神经网络模型训练完成后,采用验证集对所述深度神经网络模型的准确率进行验证;
S6、若验证得到的准确率大于预设阈值,则模型训练结束;
S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。
3.如权利要求2所述的深度神经网络模型,其特征在于,所述预设滤波器为梅尔滤波器,所述预设类型声学特征为梅尔频率倒谱系数MFCC。
4.如权利要求2所述的深度神经网络模型,其特征在于,所述深度神经网络模型迭代训练的过程包括:
根据模型的当前参数将当前输入每个语音帧组对应的预设类型声学特征转化为对应的一个预设长度的特征矢量;
从各个特征矢量中进行随机选取以获得多个三元组,第i个三元组(xi1,xi2,xi3)由三个不同的特征矢量xi1、xi2和xi3组成,其中,xi1和xi2对应同一个说话人,xi1和xi3对应不同的说话人,i为正整数;
采用预先确定的计算公式计算xi1和xi2之间的余弦相似度并计算xi1和xi3之间的余弦相似度
根据余弦相似度及预先确定的损失函数L更新模型的参数,所述预先确定的损失函数L的公式为:其中α是取值范围在0.05~0.2之间常量,N是获得的三元组的个数。
5.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的身份验证系统,所述身份验证系统被所述处理器执行时实现如下步骤:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1至4中任意一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
6.如权利要求5所述的电子装置,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
7.一种身份验证方法,其特征在于,该身份验证方法包括:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1至4中任意一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
8.如权利要求7所述的身份验证方法,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,所述身份验证方法还包括步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有身份验证系统,所述身份验证系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1至4中任意一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
10.如权利要求9所述的计算机可读存储介质,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:
分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225142.6A CN108564954B (zh) | 2018-03-19 | 2018-03-19 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
PCT/CN2018/102218 WO2019179036A1 (zh) | 2018-03-19 | 2018-08-24 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225142.6A CN108564954B (zh) | 2018-03-19 | 2018-03-19 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564954A true CN108564954A (zh) | 2018-09-21 |
CN108564954B CN108564954B (zh) | 2020-01-10 |
Family
ID=63531700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810225142.6A Active CN108564954B (zh) | 2018-03-19 | 2018-03-19 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108564954B (zh) |
WO (1) | WO2019179036A1 (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109408626A (zh) * | 2018-11-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 对自然语言进行处理的方法及装置 |
CN109473105A (zh) * | 2018-10-26 | 2019-03-15 | 平安科技(深圳)有限公司 | 与文本无关的声纹验证方法、装置和计算机设备 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110197657A (zh) * | 2019-05-22 | 2019-09-03 | 大连海事大学 | 一种基于余弦相似度的动态音声特征提取方法 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110992940A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机可读存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN112071322A (zh) * | 2020-10-30 | 2020-12-11 | 北京快鱼电子股份公司 | 一种端到端的声纹识别方法、装置、存储介质及设备 |
CN112309365A (zh) * | 2020-10-21 | 2021-02-02 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
WO2021051608A1 (zh) * | 2019-09-20 | 2021-03-25 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113705671A (zh) * | 2021-08-27 | 2021-11-26 | 厦门大学 | 一种基于文本相关信息感知的说话人识别方法与系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11899765B2 (en) | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
CN111402130B (zh) * | 2020-02-21 | 2023-07-18 | 华为技术有限公司 | 数据处理方法和数据处理装置 |
US12086558B2 (en) | 2020-03-09 | 2024-09-10 | Warner Bros. Entertainment Inc. | Systems and methods for generating multi-language media content with automatic selection of matching voices |
CN113160850A (zh) * | 2021-04-27 | 2021-07-23 | 广州国音智能科技有限公司 | 一种基于重参数化的解耦方式的音频特征提取方法及装置 |
CN118380098B (zh) * | 2024-06-21 | 2024-08-16 | 绵阳市第三人民医院 | 一种术后护理方案生成方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060025995A1 (en) * | 2004-07-29 | 2006-02-02 | Erhart George W | Method and apparatus for natural language call routing using confidence scores |
CN105261358A (zh) * | 2014-07-17 | 2016-01-20 | 中国科学院声学研究所 | 用于语音识别的n元文法模型构造方法及语音识别系统 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108564955A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 电子装置、身份验证方法和计算机可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106340309B (zh) * | 2016-08-23 | 2019-11-12 | 上海索洛信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
CN106782602B (zh) * | 2016-12-01 | 2020-03-17 | 南京邮电大学 | 基于深度神经网络的语音情感识别方法 |
CN106816147A (zh) * | 2017-01-25 | 2017-06-09 | 上海交通大学 | 基于二值神经网络声学模型的语音识别系统 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
CN106991999B (zh) * | 2017-03-29 | 2020-06-02 | 北京小米移动软件有限公司 | 语音识别方法及装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108461085A (zh) * | 2018-03-13 | 2018-08-28 | 南京邮电大学 | 一种短时语音条件下的说话人识别方法 |
-
2018
- 2018-03-19 CN CN201810225142.6A patent/CN108564954B/zh active Active
- 2018-08-24 WO PCT/CN2018/102218 patent/WO2019179036A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060025995A1 (en) * | 2004-07-29 | 2006-02-02 | Erhart George W | Method and apparatus for natural language call routing using confidence scores |
CN105261358A (zh) * | 2014-07-17 | 2016-01-20 | 中国科学院声学研究所 | 用于语音识别的n元文法模型构造方法及语音识别系统 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108564955A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 电子装置、身份验证方法和计算机可读存储介质 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN110289003B (zh) * | 2018-10-10 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109473105A (zh) * | 2018-10-26 | 2019-03-15 | 平安科技(深圳)有限公司 | 与文本无关的声纹验证方法、装置和计算机设备 |
CN109408626A (zh) * | 2018-11-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 对自然语言进行处理的方法及装置 |
CN109408626B (zh) * | 2018-11-09 | 2021-09-21 | 思必驰科技股份有限公司 | 对自然语言进行处理的方法及装置 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110265065B (zh) * | 2019-05-13 | 2021-08-03 | 厦门亿联网络技术股份有限公司 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN110197657B (zh) * | 2019-05-22 | 2022-03-11 | 大连海事大学 | 一种基于余弦相似度的动态音声特征提取方法 |
CN110197657A (zh) * | 2019-05-22 | 2019-09-03 | 大连海事大学 | 一种基于余弦相似度的动态音声特征提取方法 |
US11189287B2 (en) | 2019-06-27 | 2021-11-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Optimization method, apparatus, device for wake-up model, and storage medium |
CN110310628B (zh) * | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
WO2021051608A1 (zh) * | 2019-09-20 | 2021-03-25 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
US11250854B2 (en) | 2019-11-25 | 2022-02-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice interaction, device and computer-readable storage medium |
CN110992940A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机可读存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN111933153B (zh) * | 2020-07-07 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN112309365A (zh) * | 2020-10-21 | 2021-02-02 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN112309365B (zh) * | 2020-10-21 | 2024-05-10 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN112071322A (zh) * | 2020-10-30 | 2020-12-11 | 北京快鱼电子股份公司 | 一种端到端的声纹识别方法、装置、存储介质及设备 |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
WO2022227223A1 (zh) * | 2021-04-27 | 2022-11-03 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113178197B (zh) * | 2021-04-27 | 2024-01-09 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113705671A (zh) * | 2021-08-27 | 2021-11-26 | 厦门大学 | 一种基于文本相关信息感知的说话人识别方法与系统 |
CN113705671B (zh) * | 2021-08-27 | 2023-08-29 | 厦门大学 | 一种基于文本相关信息感知的说话人识别方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019179036A1 (zh) | 2019-09-26 |
CN108564954B (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564954A (zh) | 深度神经网络模型、电子装置、身份验证方法和存储介质 | |
CN108564955B (zh) | 电子装置、身份验证方法和计算机可读存储介质 | |
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN107068154A (zh) | 基于声纹识别的身份验证的方法及系统 | |
US20160293167A1 (en) | Speaker recognition using neural networks | |
CN107564511A (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
CN103971690A (zh) | 一种声纹识别方法和装置 | |
WO2020238046A1 (zh) | 人声智能检测方法、装置及计算机可读存储介质 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN110277088A (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN110058699A (zh) | 一种基于智能移动设备传感器的用户行为识别方法 | |
CN113807103B (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN110929243B (zh) | 一种基于手机惯性传感器的行人身份识别方法 | |
CN112148997A (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
CN113343898A (zh) | 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备 | |
CN109545226A (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
Chen et al. | PhoneyTalker: An out-of-the-box toolkit for adversarial example attack on speaker recognition | |
Zhao et al. | Research on end-to-end voiceprint recognition model based on convolutional neural network | |
Mansour et al. | Voice recognition Using back propagation algorithm in neural networks | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Le Lan et al. | Securing smartphone handwritten pin codes with recurrent neural networks | |
Nelus et al. | Privacy-preserving audio classification using variational information feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |