CN113314126A - 知识蒸馏方法、语音识别处理方法及相关设备 - Google Patents

知识蒸馏方法、语音识别处理方法及相关设备 Download PDF

Info

Publication number
CN113314126A
CN113314126A CN202110727239.9A CN202110727239A CN113314126A CN 113314126 A CN113314126 A CN 113314126A CN 202110727239 A CN202110727239 A CN 202110727239A CN 113314126 A CN113314126 A CN 113314126A
Authority
CN
China
Prior art keywords
network
target
feature
knowledge distillation
distillation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110727239.9A
Other languages
English (en)
Inventor
孟庆林
蒋宁
吴海英
王洪斌
陈燕丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202110727239.9A priority Critical patent/CN113314126A/zh
Publication of CN113314126A publication Critical patent/CN113314126A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本申请提供一种知识蒸馏方法、语音识别处理方法及相关设备,该方法包括:对知识蒸馏教师网络进行训练,获得目标教师网络;根据目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,目标教师网络和知识蒸馏学生网络均包括N个特征提取网络层;其中,在蒸馏训练过程中,每一特征提取网络层输出的特征向量包括M个第一特征值,M个第一特征值基于一一对应的M个第二特征值获得,M个第二特征值为特征提取网络层中进行特征映射后获得的特征值,在第二特征值大于或等于第一预设值的情况下,与第二特征值对应的第一特征值置为第二特征值,第一预设值为负数。采用本申请实施例可提升模型进行声纹识别的速度。

Description

知识蒸馏方法、语音识别处理方法及相关设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种知识蒸馏方法、语音识别处理方法及相关设备。
背景技术
随着人工智能的发展,声纹认证获得了广泛的应用。然而,在声纹系统的应用时,由于声纹特征的复杂性,通常需要设计复杂的深度学习网络模型,通过训练深度学习网络模型实现声纹特征的识别。目前,由于深度学习网络模型大而冗余,导致识别速度较慢,难以满足实时性要求。
发明内容
本申请实施例提供一种知识蒸馏方法、语音识别处理方法及相关设备,用于提升模型进行声纹识别的速度。
第一方面,本申请实施例提供了一种知识蒸馏方法,包括:
对知识蒸馏教师网络进行训练,获得目标教师网络;
根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,所述目标教师网络和所述知识蒸馏学生网络均包括N个特征提取网络层;
其中,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值置为所述第二特征值,所述第一预设值为负数,所述N和所述M均为大于1的整数。
可以看出,本申请实施例中,由于利用预先训练获得的目标教师网络训练知识蒸馏学生网络,从而使得知识蒸馏学生网络可以学习到目标教师网络中其主要正向作用的参数,这样可以使得知识蒸馏学生网络能够效仿目标教师网络的声纹识别能力。在利用目标学生网络进行声纹识别时,可以保证声纹识别的准确度,与此同时可以减少计算量,提升声纹识别的速度。
另外,在第二特征值大于或等于第一预设值的情况下,与第二特征值对应的第一特征值置为第二特征值,第一预设值为负数,即当反馈的负值在一定范围区间内时,仍然按照原始的负值进行反馈。这样,可以有效避免了出现负反馈时,直接导致反馈信息不在学生网络中传递,使得反馈信息被抑制的现象,从而可以使得知识蒸馏学生网络可以更好的学习到目标教师网络的参数。
第二方面,本申请实施例提供了一种语音识别处理方法,包括:
将待识别的语音数据输入到目标学生网络,输出所述语音数据对应的待比对声纹特征向量;
将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用第一方面提供的知识蒸馏方法进行蒸馏训练获得。
可以看出,本申请实施例中,由于采用了第一方面提供的知识蒸馏方法进行蒸馏训练获得的目标学生网络进行声纹识别,从而可以在声纹识别的过程中保证声纹识别的准确度,与此同时可以减少计算量,提升声纹识别的速度。
第三方面,本申请实施例还提供了一种知识蒸馏装置,包括:
第一训练模块,用于对知识蒸馏教师网络进行训练,获得目标教师网络;
第二训练模块,用于根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络;
其中,所述目标教师网络和知识蒸馏学生网络均包括N个特征提取网络层,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值等于所述第二特征值,所述第一预设值为负数,N和M均为大于1的整数。
第四方面,本申请实施例还提供了一种语音识别处理装置,其特征在于,包括:
输入模块,将待识别的语音数据输入到目标学生网络,所述语音数据对应的待比对声纹特征向量;
确定模块,用于将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用第一方面提供的知识蒸馏方法进行蒸馏训练获得。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤,或者所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。
第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤,或者所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的知识蒸馏方法的流程图;
图2是本申请实施例提供的知识蒸馏方法中目标教师网络和知识蒸馏学生网络的网络模型示意图;
图3是本申请实施例提供的语音识别处理方法的流程图;
图4是本申请实施例提供的知识蒸馏装置的结构图;
图5是本申请实施例提供的语音识别处理装置的结构图;
图6是本申请实施例提供的电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的一种知识蒸馏方法的流程图,如图1所示,包括以下步骤:
步骤101,对知识蒸馏教师网络进行训练,获得目标教师网络。
本申请实施例中,上述目标教师网络可以理解为深度学习卷积神经网络,具体可以用于声纹识别或图像识别等,以下各实施例中以目标教师网络用于声纹识别为例进行说明。
可选地,可以首先对待训练的样本数据进行人工标注,然后利用标注的样本数据对知识蒸馏教师网络进行训练,该训练过程可以理解为预训练过程。在训练的过程中,可以利用知识蒸馏教师网络的损失函数计算知识蒸馏教师网络的实际输出与标注结果之间的损失值,根据损失值进行反向传播训练,至损失收敛,得到目标教师网络。例如,上述目标教师网络用于声纹识别,目标教师网络的实际输出可以为声纹特征向量。
需要说明的是,本申请实施例中,上述待训练的样本数据可以为是对录音数据进行预处理后得到的数据。例如,可以将声纹标注完成的4000小时的客服录音数据通过加噪声、加快语速和增加数据扰动等方式进行数据扩增,获得数据集,并按照训练集和测试集为8:2的比例进行数据划分,划分同时充分考虑说话人信息,做到训练集与测试集的说话人语音分开。读取训练集中的录音文件形成数据标签(data-label)的特征数据组合。该特征数据组合可以理解为待训练的样本数据。
步骤102,根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,所述目标教师网络和所述知识蒸馏学生网络均包括N个特征提取网络层。
其中,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值置为所述第二特征值,所述第一预设值为负数,所述N和所述M均为大于1的整数。
可选地,上述目标教师网络和知识蒸馏学生网络均包括全连接层,该全连接层用于对输入的特征向量进行特征映射,并可以将输出的结果输出到分类器中进行声纹分类识别。
在本申请实施例中,上述目标教师网络为较大的网络,例如目标教师网络可以基于残差网络ResNet34构建;上述知识蒸馏学生网络为较小的网络,例如知识蒸馏学生网络可以基于ResNet10构建。由于较大的网络往往面临着深度学习网络模型大而冗余,识别速度难以满足实时性要求的问题,而小网络非常容易会因为参数量较小,模型特征表示能力不足,导致模型准确性能低下,带来的问题就是虽然满足线上应用的实时性要求,但却无法满足准确性要求。因此,通过预先训练的目标教师网络对知识蒸馏学生网络进行蒸馏训练,从而可以使得知识蒸馏学生网络学习大网络中的起主要正向作用的参数,使得知识蒸馏学生网络能够获得较优的拟合参数,进而提升知识蒸馏学生网络识别的准确度。
需要说明的是,上述特征值可以理解为特征向量对应的矩阵中每一个元素对应的值,即用于表征特征向量中每一个通道维度的信息表征值。例如,上述特征提取网络层可以理解为声纹特征提取网络层,每一特征提取网络层用于对输入的特征向量进行声纹特征提取,然后对提取的声纹特征进行特征映射获得输出到下一网络层的特征向量。其中,特征向量中的每一特征值表示每一通道维度对应的声纹特征。
通常的,激活函数往往采用线性整流函数(Rectified Linear Unit,ReLU),在此函数的作用下,若目标教师网络的特征向量的特征值(或者说反馈信息)为正时,可较好的传递信息,但当目标教师网络的特征向量的为负值时,则直接被ReLU激活函数置为0,这样导致的问题就是当目标教师网络出现一次负值后,直接导致该反馈信息不再在知识蒸馏学生网络中传递,导致蒸馏训练的目标学生网络对声纹识别的准确度较低。
然而,在本申请实施例中,由于设置在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值置为所述第二特征值,所述第一预设值为负数,即当反馈的负值在一定范围区间内时,仍然按照原始的负值进行反馈。这样,可以有效避免了出现负反馈时,直接导致反馈信息不在学生网络中传递,使得反馈信息被抑制的现象,从而可以使得知识蒸馏学生网络可以更好的学习到目标教师网络的参数。
另外,在本申请实施例中,由于利用预先训练获得的目标教师网络训练知识蒸馏学生网络,从而使得知识蒸馏学生网络可以学习到目标教师网络中其主要正向作用的参数,这样可以使得知识蒸馏学生网络能够效仿目标教师网络的声纹识别能力。在利用目标学生网络进行声纹识别时,可以保证声纹识别的准确度,与此同时可以减少计算量,提升声纹识别的速度。
进一步的,在一些实施例中,所述根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络包括:
将待训练的样本数据输入到所述目标教师网络和知识蒸馏学生网络进行蒸馏训练;
其中,在蒸馏训练的过程中,利用所述知识蒸馏损失函数对所述目标教师网络和所述知识蒸馏学生网络中每一所述特征提取网络层输出的特征向量进行计算,获得每一所述特征提取网络层对应的损失值,以及基于所述损失值调整所述知识蒸馏学生网络中对应特征提取网络层的网络参数,直至所述知识蒸馏学生网络收敛。
本申请实施例中,上述目标教师网络包括N个特征提取网络层,知识蒸馏学生网络包括N个特征提取网络层,其中,目标教师网络中的N个特征提取网络层与知识蒸馏学生网络中的N个特征提取网络一一对应。
可选地,可以将待训练的样本数据同时输入到目标教师网络和知识蒸馏学生网络中分别由目标教师网络和知识蒸馏学生网络进行声纹特征提取,与此同时通过知识蒸馏损失函数对目标教师网络中第i个特征提取网络层输出的特征向量和知识蒸馏网络中第i个特征提取网络层输出的特征向量进行计算,获得第i个特征提取网络层对应的损失值,基于该损失值调整知识蒸馏学生网络第i个特征提取网络层的网络参数,以减小目标教师网络和知识蒸馏网络中第i个特征提取网络层输出的特征向量之间的差距,该差距可以理解为目标教师网络和知识蒸馏网络中第i个特征提取网络层的信息间隔。
本申请实施例中,由于基于每一特征提取网络层对应输出的特征向量进行损失计算,并调整该特征提取网络层的输出,从而可以使得各特征提取网络层可以很好的学习到目标教师网络中各特征提取网络层的参数,加快知识蒸馏学生网络的收敛。
可选地,在一些实施例中,在所述第二特征值小于所述第一预设值的情况下,所述第一特征值置为第二预设值,所述第二预设值为负数。
其中,上述第二预设值的大小可以根据实际需要进行设置。例如,在一些实施例中,可以设置第二预设值等于第一预设值,当然在其他实施例中,还可以将第二预设值设置小于第一预设值或大于第一预设值。
在本申请实施例中,由于在第二特征值小于第一预设值的情况下,将对应的第一特征值置为第二预设值,这样可以避免负的特征值过大,导致知识蒸馏学生网络的损失出现明显震荡,因此可以提高知识蒸馏学生网络训练的稳定性。
需要说明的是,上述特征提取网络层的数量根据实际需要进行设置。如图2所示,在本申请实施例中,上述特征提取网络层为4层,即4个残差块,该残差块用于进行声纹特征提取。本申请实施例中,目标教师网络的第一个残差块和第四个残差块可以为3个残差网络堆叠形成,目标教师网络的第二个残差块可以由4个残差网络堆叠形成,目标教师网络的第三个残差块可以由6个残差网络堆叠形成。知识蒸馏学生网络中的每一残差块为一个残差网络。
可选地,在一些实施例中,每一所述特征提取网络层包括卷积块和软间隔线性整流激活函数ReLU,其中,所述软间隔ReLU连接于所述卷积块之后,所述软间隔ReLU的输入为所述卷积块的输出,所述软间隔ReLU的输出为所述特征向量。
本申请实施例中,将软间隔ReLU设置在卷积块之后,这样使得蒸馏的位置位于卷积块和软间隔ReLU之间。这样,使得知识蒸馏学生网络可以更好的捕捉时域和频域信息,与软间隔ReLU相结合,相比于将蒸馏位置放在卷积块之前的思想,有效避免了教师网络在蒸馏时因为一次负向反馈(即第一特征值中存在负数)就直接被抑制的情况,使得学生网络更好的学习到教师网络的较好参数。
可选地,在一些实施例中,所述知识蒸馏损失函数包括每一所述特征提取网络层对应的子损失函数,所述N个特征提取网络层中任一个目标特征提取网络层对应的目标子损失函数满足:
在所述目标特征提取网络层输出的特征向量中存在至少一个第一特征值值小于0的情况下,所述目标子损失函数为均方误差损失函数;
在所述目标网络层输出的特征向量中所有的所述第一特征值均大于或等于0的情况下,所述目标损子失函数为L1损失函数或L2损失函数。
本申请实施例中,上述目标特征提取网络层为一个特征提取网络层,上述目标子损失函数可以理解为基于响应关系的损失函数。在训练过程中,如果目标教师网络输出的特征向量包含的特征值均为正值,则直接传递给学生网络,如果目标教师网络输出的特征向量包含的特征值存在负数的情况下,则通过计算目标教师网络与知识蒸馏学生网络的均方误差的方式减小知识蒸馏学生网络与目标教师网络输出的特征向量之间的差距,从而减少L1损失或L2损失逐渐弥散,网络无法学习。
本申请实施例可以按照上述方案中所提出的蒸馏方法,采用梯度下降方法对知识蒸馏学生网络进行蒸馏训练,直至损失收敛,包括知识蒸馏学生网络的收敛和知识蒸馏损失函数计算的损失的收敛。
需要说明的是,本申请实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本申请实施例不作限定。
进一步地,参照图3,本申请实施例还提供一种语音识别处理方法,包括:
步骤301,将待识别的语音数据输入到目标学生网络,输出所述语音数据对应的待比对声纹特征向量;
步骤302,将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用上述知识蒸馏方法进行蒸馏训练获得。
可选地,上述声纹特征向量可以理解为基于N个特征提取网络对输入的语音数据进行声纹特征提取后,输入到全连接层进行特征映射得到的输出结果。然后将该输出结果与注册阶段所获特征使用余弦cos相似度进行度量分类,判断是否为同一人。
应理解,上述目标学生网络可以理解为x-vector提取网络,例如,将80维Fbank语音特征向量输入到目标学生网络,得到待辨认语音x-vector。
由于本身实施例中,采用了上述知识蒸馏方法进行蒸馏训练获得的目标学生网络进行声纹识别,从而可以在声纹识别的过程中保证声纹识别的准确度,与此同时可以减少计算量,提升声纹识别的速度。
为了更好的理解本申请,以下通过一些具体实例进行详细说明。
假设知识蒸馏教师网络和知识蒸馏学生网络均用于声纹识别。可以将声纹标注完成的4000小时的客服录音数据通过加噪声、加快语速和增加数据扰动等方式进行数据扩增,获得数据集,并按照训练集和测试集为8:2的比例进行数据划分,划分同时充分考虑说话人信息,做到训练集与测试集的说话人语音分开。
首先,可以对知识蒸馏教师网络进行预训练,过程如下:
步骤1,分批次读取训练集中的录音文件形成数据标签(data-label)的特征数据组合,该特殊数据组合可以为80维Fbank特征组合。
步骤2,分批次将特征数据组合输入知识蒸馏教师网络进行x-vector特征提取,将经过知识蒸馏教师网络输出的特征信息输入至Softmax分类器,以此完成特征映射网络前向传播过程。随后使用aamsoftmax损失进行反向传播训练,至损失收敛,保存模型,获得目标教师网络。
然后对知识蒸馏学生网络进行蒸馏训练。过程如下:
将输入特征数据同时输入到经过预训练的目标教师网络和未经过预训练的学知识蒸馏生网络中,输入特征数据同时经过目标教师网络和知识蒸馏学生网络,最小化每一层输出的特征向量的间隔。
按照上述蒸馏方法,采用梯度下降方法对知识蒸馏学生网络进行蒸馏训练,直至损失收敛,获得目标学生网络。
接着,可以利用上述测试集对目标学生网络进行测试,测试目标学生网络的模型性能。
最后,可以利用训练好的目标学生网络进行语音识别。具体包括以下流程:
步骤1,当某用户在进行声纹确认前,首先使用户声音录制一条注册语音,进行用户声纹注册,经过上述所训练收敛的目标学生网络,提取x-vector特征,存入注册库内。
步骤2,获取客服与用户的对话录音,声道分离,分离出客服与用户声道。
步骤3,对用户声道录音提取80维Fbank特征,将所得特征送入x-vector提取网络,得到待辨认语音x-vector,将该x-vector与注册阶段所获特征使用余弦cos相似度进行度量分类,判断是否为同一人。
参见图4,图4是本申请实施例提供的知识蒸馏装置的结构图,如图4所示,知识蒸馏装置400包括:
第一训练模块401,用于对知识蒸馏教师网络进行训练,获得目标教师网络;
第二训练模块402,用于根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络;
其中,所述目标教师网络和知识蒸馏学生网络均包括N个特征提取网络层,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值等于所述第二特征值,所述第一预设值为负数,N和M均为大于1的整数。
可选地,所述第二训练模块402具体用于:将待训练的样本数据输入到所述目标教师网络和知识蒸馏学生网络进行蒸馏训练;
其中,在蒸馏训练的过程中,利用所述知识蒸馏损失函数对所述目标教师网络和所述知识蒸馏学生网络中每一所述特征提取网络层输出的特征向量进行计算,获得每一所述特征提取网络层对应的损失值,以及基于所述损失值调整所述知识蒸馏学生网络中对应特征提取网络层的网络参数,直至所述知识蒸馏学生网络收敛。
可选地,在所述第二特征值小于所述第一预设值的情况下,所述第一特征值置为第二预设值,所述第二预设值为负数。
可选地,每一所述特征提取网络层包括卷积块和软间隔线性整流激活函数ReLU;
其中,所述软间隔ReLU连接于所述卷积块之后,所述软间隔ReLU的输入为所述卷积块的输出,所述软间隔ReLU的输出为所述特征向量。
可选地,所述知识蒸馏损失函数包括每一所述特征提取网络层对应的子损失函数,所述N个特征提取网络层中任一个目标特征提取网络层对应的目标子损失函数满足:
在所述目标特征提取网络层输出的特征向量中存在至少一个第一特征值值小于0的情况下,所述目标子损失函数为均方误差损失函数;
在所述目标网络层输出的特征向量中所有的所述第一特征值均大于或等于0的情况下,所述目标子损失函数为L1损失函数或L2损失函数。
本申请实施例提供的知识蒸馏装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
参见图5,图5是本申请实施例提供的语音识别处理装置的结构图,如图5所示,语音识别处理装置500包括:
输入模块501,将待识别的语音数据输入到目标学生网络,所述语音数据对应的待比对声纹特征向量;
确定模块502,用于将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用上述知识蒸馏方法进行蒸馏训练获得。
本申请实施例提供的知识蒸馏装置能够实现图3的方法实施例实现的各个过程,为避免重复,这里不再赘述。
图6为实现本申请各个实施例的一种电子设备的硬件结构示意图。
该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器610,用于执行以下操作:
对知识蒸馏教师网络进行训练,获得目标教师网络;
根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,所述目标教师网络和所述知识蒸馏学生网络均包括N个特征提取网络层;
其中,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值置为所述第二特征值,所述第一预设值为负数,所述N和所述M均为大于1的整数。
或者,处理器610,用于执行以下操作:
将待识别的语音数据输入到目标学生网络,输出所述语音数据对应的待比对声纹特征向量;
将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用上述知识蒸馏方法进行蒸馏训练获得。
应理解的是,本申请实施例中,射频单元601可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器610处理;另外,将上行的数据发送给基站。通常,射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元601还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块602为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。
输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。
电子设备600还包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度,接近传感器可在电子设备600移动到耳边时,关闭显示面板6061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。
用户输入单元607可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器610,接收处理器610发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071,用户输入单元607还可以包括其他输入设备6072。具体地,其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板6071可覆盖在显示面板6061上,当触控面板6071检测到在其上或附近的触摸操作后,传送给处理器610以确定触摸事件的类型,随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中,触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元608为外部装置与电子设备600连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。
存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器610是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器609内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元;优选的,处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
电子设备600还可以包括给各个部件供电的电源611(比如电池),优选的,电源611可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备600包括一些未示出的功能模块,在此不再赘述。
优选的,本申请实施例还提供一种电子设备,包括处理器610,存储器609,存储在存储器609上并可在所述处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述知识蒸馏方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述知识蒸馏方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种知识蒸馏方法,其特征在于,包括:
对知识蒸馏教师网络进行训练,获得目标教师网络;
根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,所述目标教师网络和所述知识蒸馏学生网络均包括N个特征提取网络层;
其中,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值置为所述第二特征值,所述第一预设值为负数,所述N和所述M均为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络包括:
将待训练的样本数据输入到所述目标教师网络和知识蒸馏学生网络进行蒸馏训练;
其中,在蒸馏训练的过程中,利用所述知识蒸馏损失函数对所述目标教师网络和所述知识蒸馏学生网络中每一所述特征提取网络层输出的特征向量进行计算,获得每一所述特征提取网络层对应的损失值,以及基于所述损失值调整所述知识蒸馏学生网络中对应特征提取网络层的网络参数,直至所述知识蒸馏学生网络收敛。
3.根据权利要求1所述的方法,其特征在于,在所述第二特征值小于所述第一预设值的情况下,所述第一特征值置为第二预设值,所述第二预设值为负数。
4.根据权利要求1至3中任一项所述的方法,其特征在于,每一所述特征提取网络层包括卷积块和软间隔线性整流激活函数ReLU;
其中,所述软间隔ReLU连接于所述卷积块之后,所述软间隔ReLU的输入为所述卷积块的输出,所述软间隔ReLU的输出为所述特征向量。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述知识蒸馏损失函数包括每一所述特征提取网络层对应的子损失函数,所述N个特征提取网络层中任一个目标特征提取网络层对应的目标子损失函数满足:
在所述目标特征提取网络层输出的特征向量中存在至少一个第一特征值值小于0的情况下,所述目标子损失函数为均方误差损失函数;
在所述目标网络层输出的特征向量中所有的所述第一特征值均大于或等于0的情况下,所述目标子损失函数为L1损失函数或L2损失函数。
6.一种语音识别处理方法,其特征在于,包括:
将待识别的语音数据输入到目标学生网络,输出所述语音数据对应的待比对声纹特征向量;
将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用权利要求1至5中任一项所述的知识蒸馏方法进行蒸馏训练获得。
7.一种知识蒸馏装置,其特征在于,包括:
第一训练模块,用于对知识蒸馏教师网络进行训练,获得目标教师网络;
第二训练模块,用于根据所述目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络;
其中,所述目标教师网络和知识蒸馏学生网络均包括N个特征提取网络层,在蒸馏训练过程中,每一所述特征提取网络层输出的特征向量包括M个第一特征值,所述M个第一特征值基于一一对应的M个第二特征值获得,所述M个第二特征值为所述特征提取网络层中进行特征映射后获得的特征值,在所述第二特征值大于或等于第一预设值的情况下,与所述第二特征值对应的所述第一特征值等于所述第二特征值,所述第一预设值为负数,N和M均为大于1的整数。
8.一种语音识别处理装置,其特征在于,包括:
输入模块,将待识别的语音数据输入到目标学生网络,所述语音数据对应的待比对声纹特征向量;
确定模块,用于将所述待比对声纹特征向量与目标用户对应的预存声纹特征向量进行度量分类,确定所述语音数据是否为所述目标用户的语音数据;
其中,所述目标学生网络利用权利要求1至5中任一项所述的知识蒸馏方法进行蒸馏训练获得。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的知识蒸馏方法的步骤,或者所述计算机程序被所述处理器执行时实现如权利要求6所述的语音识别处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的知识蒸馏方法的步骤,或者所述计算机程序被所述处理器执行时实现如权利要求6所述的语音识别处理方法的步骤。
CN202110727239.9A 2021-06-29 2021-06-29 知识蒸馏方法、语音识别处理方法及相关设备 Withdrawn CN113314126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110727239.9A CN113314126A (zh) 2021-06-29 2021-06-29 知识蒸馏方法、语音识别处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727239.9A CN113314126A (zh) 2021-06-29 2021-06-29 知识蒸馏方法、语音识别处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN113314126A true CN113314126A (zh) 2021-08-27

Family

ID=77380919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727239.9A Withdrawn CN113314126A (zh) 2021-06-29 2021-06-29 知识蒸馏方法、语音识别处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN113314126A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283819A (zh) * 2021-12-27 2022-04-05 思必驰科技股份有限公司 自知识蒸馏的说话人验证模型的训练方法及系统
CN116883459A (zh) * 2023-09-07 2023-10-13 南昌工程学院 基于双重知识蒸馏的教师与学生网络目标跟踪方法与系统
WO2024114303A1 (zh) * 2022-11-30 2024-06-06 腾讯科技(深圳)有限公司 音素识别方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283819A (zh) * 2021-12-27 2022-04-05 思必驰科技股份有限公司 自知识蒸馏的说话人验证模型的训练方法及系统
WO2024114303A1 (zh) * 2022-11-30 2024-06-06 腾讯科技(深圳)有限公司 音素识别方法、装置、电子设备及存储介质
CN116883459A (zh) * 2023-09-07 2023-10-13 南昌工程学院 基于双重知识蒸馏的教师与学生网络目标跟踪方法与系统
CN116883459B (zh) * 2023-09-07 2023-11-07 南昌工程学院 基于双重知识蒸馏的教师与学生网络目标跟踪方法与系统

Similar Documents

Publication Publication Date Title
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
CN113314126A (zh) 知识蒸馏方法、语音识别处理方法及相关设备
CN108427873B (zh) 一种生物特征识别方法及移动终端
CN112735388B (zh) 网络模型训练方法、语音识别处理方法及相关设备
CN109065060B (zh) 一种语音唤醒方法及终端
CN108668024B (zh) 一种语音处理方法及终端
CN109885162B (zh) 振动方法及移动终端
CN111402866A (zh) 语义识别方法、装置及电子设备
CN108962187B (zh) 屏幕亮度调节方法及移动终端
CN109920309B (zh) 手语转换方法、装置、存储介质和终端
CN111401463A (zh) 检测结果输出的方法、电子设备及介质
CN111182118B (zh) 一种音量调节方法及电子设备
CN111835522A (zh) 一种音频处理方法及装置
CN110456923B (zh) 一种姿态传感数据处理方法及电子设备
CN110062281B (zh) 一种播放进度调节方法及其终端设备
CN113870862A (zh) 声纹识别模型训练方法、声纹识别方法及相关设备
CN112464831B (zh) 视频分类方法、视频分类模型的训练方法及相关设备
CN112382282B (zh) 一种语音去噪处理方法、装置、电子设备及存储介质
CN108520760B (zh) 一种语音信号处理方法及终端
CN108093119B (zh) 一种陌生来电号码的标记方法及移动终端
CN111292727B (zh) 一种语音识别方法及电子设备
CN108632465A (zh) 一种语音输入的方法及移动终端
CN109274814B (zh) 一种消息提示方法、装置及终端设备
CN110674294A (zh) 一种相似度确定方法及电子设备
CN113112011A (zh) 一种数据预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210827

WW01 Invention patent application withdrawn after publication