CN113361396A - 多模态的知识蒸馏方法及系统 - Google Patents
多模态的知识蒸馏方法及系统 Download PDFInfo
- Publication number
- CN113361396A CN113361396A CN202110624603.9A CN202110624603A CN113361396A CN 113361396 A CN113361396 A CN 113361396A CN 202110624603 A CN202110624603 A CN 202110624603A CN 113361396 A CN113361396 A CN 113361396A
- Authority
- CN
- China
- Prior art keywords
- mode
- knowledge distillation
- embedding
- face
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000009826 distribution Methods 0.000 claims abstract description 20
- 230000005012 migration Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012546 transfer Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013508 migration Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 238000004821 distillation Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种多模态的知识蒸馏方法。该方法包括:搭建单模态声纹识别系统和单模态人脸识别系统,得到单模态声纹嵌入以及得到单模态人脸嵌入;将同一组声音‑人脸数据得到的单模态声音嵌入和单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;利用教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。本发明实施例还提供一种多模态的知识蒸馏系统。本发明实施例将知识从多模态系统提炼至单模态系统,将教师模型的优势迁移至单模态学生模型中,从而利用知识迁移后的学生模型可以获得更好的识别效果。
Description
技术领域
本发明涉及知识蒸馏领域,尤其涉及一种多模态的知识蒸馏方法及系统。
背景技术
为了提高声纹识别的效果,现有技术中使用了多种技术:
1、教师-学生知识蒸馏技术:“教师-学生”模型的知识蒸馏领域受到了学术界和工业界的广泛关注。使用这种方法,相对较小的网络在更复杂的模型的指导下也可以获得良好的识别结果。
2、多模态融合技术:决策级别融合和深度说话人嵌入级别的融合。两种融合系统都可以提高验证系统的性能。决策级别的融合。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
1、教师-学生蒸馏技术被广泛应用,例如用于自然语言处理的多语言表示模型BERT,有着卓越的性能,但极为复杂。知识蒸馏也被广泛用于深度模型压缩和加速。在语音识别领域,深层神经声学模型由于其强大的性能而引起了人们的关注和兴趣。但是,越来越多的实时语音识别系统被部署在具有有限计算资源和快速响应时间的嵌入式平台中。这使得训练的学生模型在有限计算资源和快速响应时间的嵌入式平台中效果不佳。
2、多模态融合系统,特别是深度说话人嵌入的融合更受到关注。深度说话人嵌入层面的融合能带来更加卓越的性能提升。然而这些技术主要基于跨模态系统,而非多模态系统与单模态系统之间的关系。上述技术局限于利用人脸的深度说话人嵌入直接迁移到声纹系统,或是从语音模态直接迁移到文本模态,是单模态之间的跨越和知识迁移,而不是多模态与单模态之间的知识迁移,从而使得效果提升不佳。
发明内容
为了至少解决现有技术中在教师系统选择了单一模态系统作为教师系统,在蒸馏阶段中,局限于某领域的技术和方法,从而使得声纹识别效果提升不佳。
第一方面,本发明实施例提供一种多模态的知识蒸馏方法,包括:
搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
第二方面,本发明实施例提供一种多模态的知识蒸馏系统,包括:
单模态嵌入确定程序模块,用于搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
多模态嵌入确定程序模块,用于将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
知识蒸馏迁移程序模块,用于利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的多模态的知识蒸馏方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的多模态的知识蒸馏方法的步骤。
本发明实施例的有益效果在于:将知识蒸馏从多模态系统提炼为单模态系统,将教师模型的优势迁移至单模态学生模型的系统中,从而利用知识迁移后的学生模型可以获得更好的识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种多模态的知识蒸馏方法的流程图;
图2是本发明一实施例提供的一种多模态的知识蒸馏方法的多模态-单模态知识蒸馏系统的流程图;
图3是本发明一实施例提供的一种多模态的知识蒸馏方法的单模态和多模态系统的结果(EER%)数据图;
图4是本发明一实施例提供的一种多模态的知识蒸馏方法的使用不同损失的视觉系统的结果(EER%)比较数据图;
图5是本发明一实施例提供的一种多模态的知识蒸馏方法的基于Vox1-E的视觉系统的试验对结果分布Venn示意图;
图6是本发明一实施例提供的一种多模态的知识蒸馏方法的使用不同损失的音频系统的结果(EER%)比较数据图;
图7是本发明一实施例提供的一种多模态的知识蒸馏系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种多模态的知识蒸馏方法的流程图,包括如下步骤:
S11:搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
S12:将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
S13:利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
在本实施方式中,多模态系统融合的研究是一项较为复杂的工作,系统也相对于单一模态系统较为复杂和困难。其次,常用的知识蒸馏方式还局限在标签层面,并且方式方法也比较单一,本方法以多模态的知识蒸馏为基础,探索了三个层面不同的知识蒸馏方法对于教师模型、学生模型内两个系统的性能影响。
对于步骤S11,本方法搭建了单模态声纹系统和单模态人脸系统,对于这两个系统,输入的为准备好的声音-人脸数据,它包含了来自C个说话人的N组声音-人脸数据,在输入中,单模态声纹系统的输入为xa,单模态人脸系统的输入为xv。
对于步骤S12,本方法选定了将同时可以访问面部和语音的声音-人脸多模态融合系统选做为多模态的教师模型,训练数据也选用了声纹和人脸相对应的数据集。如图2所示,声音-人脸多模态融合系统是预先训练的。使其可以接收声音-人脸数据得到对应的多模态的深度说话人嵌入
此时,定义声纹系统的深度说话人嵌入提取器为Fa,人脸系统的深度说话人嵌入提取器为Fv,他们可以作为两个映射,从而使得ea=Fa(xa),ev=Fv(xv)。根据上述步骤中训练的声音-人脸融合系统Fav,将用于声纹和人脸系统地深度说话人嵌入融合为多模态的深度说话人嵌入
对于步骤S13,利用教师模型对作为学生模型的单模态系统进行知识蒸馏,也就是知识迁移。在蒸馏时,作为一种实施方式,所述利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏还包括:
基于加法角余量损失对所述教师模型以及所述学生模型进行处理,用于优化知识蒸馏后所述学生模型的音视频分类界限。
在本实施方式中,单模态和多模态系统均使用AAM(additive angular margin,加法角余量)损失函数进行了优化。为了计算该损失函数,引入了一个投影矩阵C是说话人分类的总数,d是深度说话人嵌入的维度.这个投影矩阵W中的每一列都代表着每一个说话人的深度说话人嵌入。使用来表示深度说话人嵌入xi和投影矩阵W的第jth列之间的夹角。
上述公式1中,m和s是AAM损失的余量和比例超参数,yi是第ith个样本的groundtruth标签。通过AAM损失可以最大化模型的分类界限。
从而利用得到的AAM损失作为多模态的知识蒸馏的基础,后续步骤中,分别针对三个层面进行不同方向的知识蒸馏,包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
通过该实施方式可以看出,将知识蒸馏从多模态系统提炼为单模态系统,将教师模型的优势迁移至单模态学生模型的系统中,从而解决,现实生活中的某些特定场景中,始终很难同时访问一个人的面部和语音信息。例如,在戴着口罩的人的情况下,面部识别系统会失败,而在强烈的背景噪音的情况下,说话者验证系统将无法验证身份,从而利用知识迁移后的学生模型可以获得更好的识别效果。同时考虑了多个层面,使得知识迁移后的学生模型可以获得更好的识别效果。
作为一种实施方式所述标签层面的知识蒸馏包括:
利用所述教师模型以及所述学生模型确定的相对熵散度,将所述相对熵散度用作为所述单模态系统的辅助标签对所述学生模型进行知识蒸馏。
所述利用所述教师模型以及所述学生模型确定的相对熵散度包括:
基于所述教师模型以及所述学生模型确定的多模态说话人嵌入、单模态声纹嵌入、单模态人脸嵌入、预设知识蒸馏温度,利用投影矩阵确定单模态以及多模态的后验概率;
利用单模态以及多模态的后验概率确定对应的相对熵散度。
在本实施方式中,在教师模型至单模态学生模型的知识迁移中,还考虑到了标签层面的知识蒸馏。
根据上述步骤说明的AAM投影矩阵,每个输入的说话人嵌入e的身份后验概率可以被定义如下,σ是softmax函数,并且T是知识蒸馏的温度。在实验中,该温度是恒定的。
上述公式2使用单模态和多模态系统的后验人,基于Kullback-Leibler散度和损失进行标签级知识蒸馏。KL散度的公式3可以表示为:
以实现由视听系统预测的人类后验用作单模态系统训练的辅助标签。KL散度(KLDivergence,Kullback-Leibler Divergence)用于计算损失。
通过该实施方式可以看出,考虑了标签层面的知识蒸馏对于教师模型向单模态学生模型知识蒸馏(迁移)的影响。进一步提高知识蒸馏后学生模型的性能。
作为一种实施方式,所述深度说话人嵌入层面的知识蒸馏包括:
基于所述多模态说话人嵌入、单模态声纹嵌入、单模态人脸嵌入确定所述教师模型与所述学生模型的余弦距离,利用所述余弦距离指导所述学生模型的相似度度量的优化。
在本实施方式中,进一步考虑了深度说话人嵌入层面的知识蒸馏。
将探索深度说话人嵌入级别的知识蒸馏。余弦距离可以是来自教师和学生系统的嵌入之间的合理相似度度量。基于余弦距离(Cosine Distance)的知识蒸馏损失的公式4可以被写为:
通过该实施方式可以看出,考虑了模型相似度度量层面的知识蒸馏对于教师模型向单模态学生模型知识蒸馏(迁移)的影响。进一步提高知识蒸馏后学生模型的性能。
作为一种实施方式,所述分布层面的知识蒸馏包括:
使用基于预设的高斯核确定的最大均值差异来限制所述教师模型和所述学生模型之间的说话人嵌入分布。
在本实施方式中,进一步考虑了分布层面的知识蒸馏。
标签层面和深度说话人嵌入层面的知识蒸馏在教师和学生模型的深度说话人嵌入和后验概率之间强加了约束。直观地,尽管一个人的面部信息和语音信息之间存在某种关联,但是确实存在着不同模态之间的差距。在这里,在进行师生知识提炼时引入了一个较弱的约束,它指导学生模型从老师那里学习深度说话人嵌入分布。使用5个高斯核的最大均值差异(MMD,Maximum Mean Discrepancy)来实现此目标。
MMD是概率测度空间上的距离,该距离在转移学习中广泛使用,但在知识提炼中也很有效。通过将样本分布投影到“再生内核希尔伯特空间”上,它有助于分析和比较分布,从而确定是否从不同的分布中提取了两个样本。让是两个观测值,令k(x,y)是核函数。通过应用无偏经验估计,可以得出公式5中无偏MMD。
在方法中,使用如下公式6定义高斯核:
没有强制教师和学生模型的输出后验和嵌入完全匹配。使用最大均值差异(MMD,Maximum Mean Discrepancy)来限制多模态系统和单模态系统之间的深度说话人指征分。
通过该实施方式可以看出,约束了知识蒸馏对于教师模型向单模态学生模型知识蒸馏(迁移)的影响,以防止过拟合,进一步提高知识蒸馏后学生模型的性能。
从而整体上的通过上述三个层面的知识蒸馏,从多模式到单模式的知识蒸馏的最终优化目标显示为如下公式。将不同水平的蒸馏损失与主要的AAM优化目标进行加权求和。将通过在下述公式7更改超参数α,β和γ来探讨它们的单独影响和组合影响。
通过该实施方式可以看出,至少考虑了将考虑到的多个层面通过进行知识蒸馏。从而整体提高知识蒸馏后学生模型的性能。
对本方法进行实验,在实验中,使用来自VoxCeleb(开源说话人识别语料集)的音频和视频数据,其中包括VoxCeleb1和VoxCeleb2两部分。在训练过程中,将使用VoxCeleb2的开发部分,其中包括5994位演讲者。整个VoxCeleb1数据集都用于评估。VoxCeleb1的三个官方试验Vox1-O,Vox1-E和Vox1-H用于报告结果。
在系统配置中,特征提取方面,对于声纹单模态系统,选择25ms的窗长和10ms的帧移对每一段音频提取FBank特征。用来输入声纹系统的FBank特征的维度为40维。在训练过程中,从每条音频中随机选择长度为200到400帧之间的片段参与到模型训练中。所有参与训练的音频数据不进行任何加噪处理。对于每一段音视频数据,每1秒抽取其中一帧图像,然后通过多任务级联卷积网络进行人脸检测。该网络包括三个阶段的多任务深度卷积网络。首先,输入的图像通过Fast Proposal Network(P-Net)产生候选窗口。然后,Refinement Network(R-Net)进一步完善这些候选窗口。在第三阶段,OutputNetwork(O-Net)输出最终的人脸边界和面部标识的位置。此后,使用一个相似性变换将人脸区域投影到一个维度一致的区域,大小为3×112×96。最后,将每一张图片的像素值正则化至0与1之间,并且减去0.5,使得最后图像中每一个像素点的值都在-0.5至+0.5之间。不对提取的人脸数据进行任何数据增强。由于一段音视频可能会长于一秒,对于同一段视频可以按上述方法可能会获取多张人脸图片,因此,在训练过程中,最终的每一段音视频的深度说话人指征是由每一张图片所提取的人脸深度说话人指征进行平均后得出的,是唯一的。
模型部分,对于声纹识别系统,使用ResNet34作为声纹单模态网络。该网络使用二维特征作为输入,并使用二维卷积神经网络层进行处理。受x-vector结构的启发,平均数和标准差都被用来作为统计数据。对于人脸系统,使用ResNet34(标准的残差网络)作为训练模型。
在实验中,对人脸和声纹两个网络所选取的深度说话人指征的维度均为512维。在进行多模态融合前,用于优化两种单模态系统的损失函数是AAM-softmax,其中margin和scale分别被设置为0.2和32。
为了训练多模态融合系统,人脸和声纹两种模态分别的深度说话人指征将作为输入进入到融合系统中,它们是针对每条音视频样例通过上述人脸单模态系统和声纹单模态系统分别预先提取的。选择使用门控多模态融合系统(GATE)作为教师系统。与单模态系统训练时一样,选择了加法余角量作为损失函数,在该系统的训练过程中,margin和scale分别设置为0.7和32。为了避免过拟合,对融合系统只进行5轮训练。对门控多模态融合系统提取融合后的深度说话人指征,并将其作为教师系统产生的软标签输入至学生系统中。
两个单模态基线系统中提取的深度说话人指征将通过声音-人脸多模态融合系统输出一个同样维度的深度说话人指征。这些指征将作为教师系统产生的伪标签重新输入到学生系统,参与到三个层面的损失函数计算中,从而帮助学生进行训练。
知识蒸馏中的学生系统的结构与融合前的单模态基线系统保持一致,且对于用到的加法余角量损失函数,其超参数也保持不变。特别的,对于标签层面的知识蒸馏,引入声音-人脸多模态系统中产生的的映射矩阵来计算教师系统的说话人身份后验概率。此外,在使用KL散度作为标签层面的知识蒸馏损失函数时,温度T被固定为0.03125。
为了将多模态系统的知识分别传递到声纹识别系统和人脸识别系统中,在实验中研究并比较了不同的提取策略。
图3中显示了单模态基线系统和多模态融合系统(教师系统)的结果。实验进一步优化了人脸系统的训练策略,如在实验中动态地进行学习率地调整,也因此获得了人脸系统更优异的性能,得到了更为强大的融合系统。
首先,对人脸识别系统的知识蒸馏进行结果分析,结果如图4所示。与基线系统相比,从声音-人脸教师系统中进行知识迁移后,所有的人脸系统都得到了进一步的改进,获得了一定的性能提升。(上述的所有公式都预先经过训练)
通过比较不同层面的知识蒸馏方法,发现使用最大均值差异损失函数在特征分布层面将教师和学生的深度说话人指征分布进行批之间的相互匹配,可以达到实验中人脸系统知识蒸馏的最佳性能。最后,本方法探索了将不同的知识蒸馏策略结合在一起的方法,然而实验结果并未显示出结合的知识蒸馏策略可以导致更好的性能改进,这进一步证实了强约束条件不适用于多模态知识蒸馏过程。
为了进一步证明人脸系统经过多模态知识蒸馏后的效果,基于Vox1-E上不同系统对于每一个说话人样例的分数分析了人脸系统从教师系统学到的知识。如图5中所示,起初,共有5737个试验对(trial pair)被单模态人脸基线系统误判,然后通过知识蒸馏被校正回来(即基线系统判断错误,而知识蒸馏后的人脸系统判断正确)。令人惊讶的是,通过进一步的分析,发现声纹模态的基线系统在融合前就已正确预测了其中的4877个试验对(占5737%的85%),这表明融合后的人脸系统通过知识蒸馏获取的知识极大可能就是从声纹系统已经学到的知识中转移过来的。教师系统正是利用了多模态中的声纹信息来帮助人脸系统进行说话人身份的识别。
其次,对声纹识别系统的知识蒸馏进行结果分析,结果如图6所示。与单模态声纹基线系统在Vox1-O上的测试性能相比,在多个层次进行过知识蒸馏的声纹系统都实现了很大的性能改善。当使用KL散度进行标签层面的知识蒸馏时,Vox1-O测试集的性能有约7%的提升。而在部分测试集,如Vox1-E和Vox1-H上,声纹系统的性能提高并不那么明显。
通过多次实验,发现了在所有知识蒸馏策略中,基于余弦相似度的深度说话人指征级别的知识蒸馏性能最差,这与在人脸系统中的发现是一致的,因为这一强约束力的指标不能强制要求单模态学生系统模仿与其差异巨大的多模态教师系统。
此外,尽管人脸和声纹这两种模态的学生模型都是在同一位教师的指导下进行的,但根据上述结果,声纹模型的学习能力和学习成果与人脸模型相比较差一些。为了进一步说明,同样以上述提到的对说话人样例的分数分析方法来评估声纹学生系统学到的知识。在融合前,Vox1-E测试集上有1945个试验对被单模态声纹基线系统错误判断(误拒或误识),在知识蒸馏后,系统对这些实验对的判断又被校正回正确的选择。与图5中所示的情况一致,在知识蒸馏前,人脸基线系统也正确地预测了其中的1862个试验对,这也一定程度说明,声纹系统从教师系统中学到了一些知识,且这些知识很大一部分来源于人脸系统。
但是,声纹系统学习到的1862对与上文人脸系统学习到的4877对相比数量更少,这意味着声纹单模态学生系统所学的知识总量远少于人脸学生系统所学的知识量。
随着知识蒸馏方法蓬勃发展,发现了如果教师和学生模型之间的性能差距太大,即便教师系统有非常卓越的性能,但它并不一定可以作为一名好老师,在它的指导下的学生系统并不一定更性能卓越。
为了进一步探讨在上述实验中所使用的多模态教师系统和单模态学生系统之间的关系,使用了皮尔逊积矩相关系数来测量各系统之间的相关性。皮尔逊积矩相关系数越大意味着相关性越强,值为0表示变量之间没有线性相关性。融合之前的视觉深度说话人指征与声音-人脸系统深度说话人指征之间的皮尔逊积矩相关系数等于0.079,融合之前的音频深度说话人指征与声音-人脸系统深度说话人指征之间的皮尔逊积矩相关系数等于0.007。这两个系数都较小,说明多模态系统的确与两个单模态系统相差甚远,知识迁移起来较为困难。此外,人脸系统与多模态系统的相似度是声纹系统的十倍,这说明人脸系统与教师系统更为相似,因此更容易接纳新的知识,而声纹系统则由于与多模态系统较大的差异,无法完全将知识迁移过来。
此外,在利用余弦相似度进行“教师-学生”知识蒸馏同等轮数的训练后,人脸学生系统与教师系统深度说话人指征之间的余弦距离损失降至0.4217,而声纹系统与教师系统深度说话人指征之间的余弦距离损失则为0.583,高于人脸系统。这意味着声纹系统与人脸系统相比更难以模仿教师系统中的深度说话人指征,知识更难得到迁移。综上,可以看出上述实验中应用到的多模态融合系统性能十分优异。
如图7所示为本发明一实施例提供的一种多模态的知识蒸馏系统的结构示意图,该系统可执行上述任意实施例所述的多模态的知识蒸馏方法,并配置在终端中。
本实施例提供的一种多模态的知识蒸馏系统10包括:单模态嵌入确定程序模块11、多模态嵌入确定程序模块12和知识蒸馏迁移程序模块13。
其中,单模态嵌入确定程序模块11用于搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;多模态嵌入确定程序模块12用于将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;知识蒸馏迁移程序模块13用于利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的多模态的知识蒸馏方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的多模态的知识蒸馏方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的多模态的知识蒸馏方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多模态的知识蒸馏方法,包括:
搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
2.根据权利要求1所述的方法,其中,所述利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏还包括:
基于加法角余量损失对所述教师模型以及所述学生模型进行处理,用于优化知识蒸馏后所述学生模型的音视频分类界限。
3.根据权利要求1所述的方法,其中,所述标签层面的知识蒸馏包括:
利用所述教师模型以及所述学生模型确定的相对熵散度,将所述相对熵散度用作为所述单模态系统的辅助标签对所述学生模型进行知识蒸馏。
4.根据权利要求3所述的方法,其中,所述利用所述教师模型以及所述学生模型确定的相对熵散度包括:
基于所述教师模型以及所述学生模型确定的多模态说话人嵌入、单模态声纹嵌入、单模态人脸嵌入、预设知识蒸馏温度,利用投影矩阵确定单模态以及多模态的后验概率;
利用单模态以及多模态的后验概率确定对应的相对熵散度。
5.根据权利要求1所述的方法,其中,所述深度说话人嵌入层面的知识蒸馏包括:
基于所述多模态说话人嵌入、单模态声纹嵌入、单模态人脸嵌入确定所述教师模型与所述学生模型的余弦距离,利用所述余弦距离指导所述学生模型的相似度度量的优化。
6.根据权利要求1所述的方法,其中,所述分布层面的知识蒸馏包括:
使用基于预设的高斯核确定的最大均值差异来限制所述教师模型和所述学生模型之间的说话人嵌入分布。
7.一种多模态的知识蒸馏系统,包括:
单模态嵌入确定程序模块,用于搭建单模态声纹识别系统和单模态人脸识别系统,向所述单模态声纹识别系统中输入同一组声音-人脸数据中的声音数据并提取得到单模态声纹嵌入,向所述单模态人脸识别系统中输入所述同一组声音-人脸数据中的人脸数据并提取得到单模态人脸嵌入;
多模态嵌入确定程序模块,用于将所述同一组声音-人脸数据得到的所述单模态声音嵌入和所述单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中,得到多模态说话人嵌入;
知识蒸馏迁移程序模块,用于利用所述教师模型对作为学生模型的单模态系统进行知识蒸馏,其中,所述知识蒸馏的方式包括:标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。
8.根据权利要求7所述的系统,其中,所述知识蒸馏迁移程序模块用于:
基于加法角余量损失对所述教师模型以及所述学生模型进行处理,用于优化知识蒸馏后所述学生模型的音视频分类界限。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624603.9A CN113361396B (zh) | 2021-06-04 | 2021-06-04 | 多模态的知识蒸馏方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624603.9A CN113361396B (zh) | 2021-06-04 | 2021-06-04 | 多模态的知识蒸馏方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361396A true CN113361396A (zh) | 2021-09-07 |
CN113361396B CN113361396B (zh) | 2023-12-26 |
Family
ID=77532381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110624603.9A Active CN113361396B (zh) | 2021-06-04 | 2021-06-04 | 多模态的知识蒸馏方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361396B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN117315617A (zh) * | 2023-09-06 | 2023-12-29 | 武汉理工大学 | 基于师徒模式的网络优化方法、系统、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CN111639744A (zh) * | 2020-04-15 | 2020-09-08 | 北京迈格威科技有限公司 | 学生模型的训练方法、装置及电子设备 |
US20210073526A1 (en) * | 2019-09-10 | 2021-03-11 | Blue Planet Training, Inc. | System and Method for Visual Analysis of Emotional Coherence in Videos |
CN112712099A (zh) * | 2020-10-10 | 2021-04-27 | 江苏清微智能科技有限公司 | 一种基于双层知识蒸馏说话人模型压缩系统和方法 |
-
2021
- 2021-06-04 CN CN202110624603.9A patent/CN113361396B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
US20210073526A1 (en) * | 2019-09-10 | 2021-03-11 | Blue Planet Training, Inc. | System and Method for Visual Analysis of Emotional Coherence in Videos |
CN111639744A (zh) * | 2020-04-15 | 2020-09-08 | 北京迈格威科技有限公司 | 学生模型的训练方法、装置及电子设备 |
CN112712099A (zh) * | 2020-10-10 | 2021-04-27 | 江苏清微智能科技有限公司 | 一种基于双层知识蒸馏说话人模型压缩系统和方法 |
Non-Patent Citations (1)
Title |
---|
杜鹏飞: "多模态视觉语言表征学习研究综述", 《软件学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116205290B (zh) * | 2023-05-06 | 2023-09-15 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN117315617A (zh) * | 2023-09-06 | 2023-12-29 | 武汉理工大学 | 基于师徒模式的网络优化方法、系统、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113361396B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109637546B (zh) | 知识蒸馏方法和装置 | |
US20220014807A1 (en) | Method, apparatus, device and medium for generating captioning information of multimedia data | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
US11144800B2 (en) | Image disambiguation method and apparatus, storage medium, and electronic device | |
JP2017091525A (ja) | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 | |
US20230082605A1 (en) | Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN108766415B (zh) | 一种语音测评方法 | |
Laraba et al. | Dance performance evaluation using hidden Markov models | |
CN113361396B (zh) | 多模态的知识蒸馏方法及系统 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN111428448A (zh) | 文本生成方法、装置、计算机设备及可读存储介质 | |
Li et al. | Multi-stream deep learning framework for automated presentation assessment | |
CN113822125A (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN116484885A (zh) | 基于对比学习和词粒度权重的视觉语言翻译方法和系统 | |
CN112800191B (zh) | 一种基于图片的问答方法、设备及计算机可读存储介质 | |
CN112905748A (zh) | 一种演讲效果评估系统 | |
CN109582971B (zh) | 一种基于句法分析的批改方法及批改系统 | |
Zhan et al. | Application of machine learning and image target recognition in English learning task | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN114969291B (zh) | 一种自动问答方法及装置 | |
US20230316729A1 (en) | Training neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |