CN115064155A - 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 - Google Patents

一种基于知识蒸馏的端到端语音识别增量学习方法及系统 Download PDF

Info

Publication number
CN115064155A
CN115064155A CN202210652586.4A CN202210652586A CN115064155A CN 115064155 A CN115064155 A CN 115064155A CN 202210652586 A CN202210652586 A CN 202210652586A CN 115064155 A CN115064155 A CN 115064155A
Authority
CN
China
Prior art keywords
model
student model
student
old data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210652586.4A
Other languages
English (en)
Inventor
林志贤
刘皓轩
林珊玲
郭太良
林坚普
徐万颜
肖智阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210652586.4A priority Critical patent/CN115064155A/zh
Publication of CN115064155A publication Critical patent/CN115064155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于知识蒸馏的端到端语音识别增量学习方法及系统,该方法首先将语音识别模型初始化为教师模型和学生模型;编码器的目标函数的第一部分是对教师、学生模型的编码器的输出概率分布做KL散度,第二部分是利用Grad‑cam++方法由教师、学生模型的编码器的输出生成各自的注意力图,并对注意力图做转移;同理,计算解码器的目标函数,然后将产生的loss进行线性组合并在原有训练策略的配合下训练学生模型;同时基于文本聚类思想对旧数据集的标签聚类,在每个类中抽取少量旧数据加入新数据集中训练学生模型。该方法及系统有利于在不接触或仅少量接触旧数据集的前提下解决灾难性遗忘的问题,实现模型在小数据集上快速微调收敛进而节约时间和计算成本。

Description

一种基于知识蒸馏的端到端语音识别增量学习方法及系统
技术领域
本发明属于语音识别技术领域,具体涉及一种基于知识蒸馏的端到端语音识别增量学习方法及系统。
背景技术
端到端语音识别作为多分类问题,将声学模型和语言模型统一建模,目前该方法逐步达到甚至超越了传统的机器学习方法。但是多分类的端到端语音识别方法在新任务的fine-tune训练存在灾难性遗忘问题,因此,需要一种有效的训练策略在能够快速降低新场景数据错误率的前提下尽可能降低对旧数据集的遗忘。
常见的fine-tune训练方法在不加限制的条件下直接在新数据集上训练,由于新数据集的分布不一致等问题往往导致灾难性遗忘,即旧数据集的错误率急剧增大。基于知识蒸馏的增量学习方法一般需要接触较多旧数据集或者与旧数据集一起联合训练,但这在实际应用中往往受限且消耗的时间和计算成本很大。通过有效的目标函数的约束实现注意力转移进而在不接触或仅少量接触旧数据的前提下实现基于知识蒸馏的增量学习在实际中有广阔的应用前景。
发明内容
本发明的目的在于提供一种基于知识蒸馏的端到端语音识别增量学习方法及系统,该方法及系统有利于在不接触或仅少量接触旧数据集的前提下解决灾难性遗忘的问题,实现模型在小数据集上快速微调收敛进而节约时间和计算成本。
为实现上述目的,本发明采用的技术方案是:一种基于知识蒸馏的端到端语音识别增量学习方法,利用知识蒸馏框架并设计多任务目标函数实现增量学习;首先将端到端的语音识别模型初始化为教师模型和学生模型;编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度,以使在训练过程中学生模型的输出概率分布尽可能接近教师模型,第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图,并对教师模型和学生模型的注意力图做转移;采用同样的方法计算解码器的目标函数的第一部分和第二部分,然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型,以使学生模型快速适应新场景数据且遗忘较少;同时基于文本聚类思想对旧数据集的标签聚类,在每个类中抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。
进一步地,使教师模型和学生模型的编码器或解码器的输出概率分布尽可能接近的具体方法为:
对教师模型和学生模型的编码器或解码器的输出概率分布做KL散度,计算两者分布差异,得到增量学习的多任务目标函数的第一部分,产生的loss在训练过程中使学生模型的输出概率分布尽可能接近教师模型,控制学生模型对旧数据集的遗忘。
进一步地,采用Grad-cam++方法生成教师模型和学生模型各自的注意力图的具体方法为:
选择编码器的输出作为特征图,利用Grad-cam++思想计算特征图的权重矩阵,将所述权重矩阵与特征图逐元素再相乘,经过ReLU函数去除负类的影响,最终得到教师模型和学生模型各自的注意力图;教师模型和学生模型的解码器以同样的方法处理得到其各自的注意力图。
进一步地,对教师模型和学生模型的注意力图做转移的具体方法为:
将生成的注意力图进行全局归一化之后,经过ReLU函数过滤掉负类的影响,对教师模型和学生模型生成的注意力图计算L_2范数,这部分的计算结果为增量学习的多任务目标函数的第二部分;编码器或解码器的目标函数均为各自的第一部分和第二部分的线性组合。
进一步地,在原有训练策略的配合下训练学生模型的具体方法为:
原有训练策略为训练端到端的语音识别学生模型的时序分类CTC、交叉熵CE目标函数,本方法总的目标函数为知识蒸馏产生的目标函数与原有训练策略产生的线性组合,以加速原有训练策略的目标函数的快速收敛,并控制遗忘。
进一步地,基于文本聚类思想抽取旧数据加入训练的具体方法为:
首先利用text-to-vec对旧数据集的标签做句嵌入,具体为采用CoSENT模型将标签统一为固定长度的矢量;然后利用k-means方法对标签矢量聚类,聚类中心大于预设值以消除text-to-vec的高语义相关性,使聚类的类别尽可能从不同的文本及发音信息涵盖旧数据集;在每个类中从类中心到边缘依次递减抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。
本发明还提供了一种端到端语音识别的增量学习系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:本发明能够在不接触旧数据集或少量接触旧数据集的前提下快速适应新场景的数据集且对旧数据集几乎没有遗忘,而新场景数据集的wer/cer快速下降。本发明有效的解决了灾难性遗忘的问题,使得在新场景的业务数据下不再需要重新训练,极大地节约了时间和计算成本。
附图说明
图1为本发明实施例的方法实现流程图。
图2为本发明实施例的模型架构图。
图3为本发明与其他方法的测试对比结果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于知识蒸馏的端到端语音识别增量学习方法,该方法利用知识蒸馏框架并设计多任务目标函数实现增量学习。该方法针对的端到端的语音识别模型包括Conformer等sequence-to-sequence结构和非sequence-to-sequence结构。首先将端到端的语音识别模型初始化为教师模型和学生模型;编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度,以使在训练过程中学生模型的输出概率分布尽可能接近教师模型,第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图,并对教师模型和学生模型的注意力图做转移。采用同样的方法计算解码器的目标函数的第一部分和第二部分。然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型,以使学生模型快速适应新场景数据且遗忘较少。同时基于文本聚类思想对旧数据集的标签聚类,在每个类中抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。本实施例的模型结构如图2所示。
在本实施例中,对教师模型和学生模型的输出概率分布的具体处理方法为:
利用KL散度的线性组合来衡量两者的分布,具体而言,对应图2中的sequence-to-sequence模型,教师模型和学生模型的编码器的输出经过全连接层和softmax后,输出为多分类任务的输出概率分布矩阵。利用KL散度计算两个模型输出概率矩阵的差异,得到增量学习的多任务目标函数的第一部分,产生的loss在训练过程中使得教师模型和学生模型的输出分布尽可能接近。教学模型和学生模型的解码器做同样的操作。这一部分的目标函数主要是为了控制遗忘,并不会直接作用在新数据集的拟合上。
Figure BDA0003686746580000041
其中,p和q分别表示学生模型和教师模型的输出概率分布,这部分计算出的目标函数为增量学习的多任务目标函数的第一部分,对应于图2中的RBKD部分。
在本实施例中,生成教师模型和学生模型各自的注意力图并对注意力做转移的具体方法为:
首先利用Grad-cam++思想从特征图生成注意力图,以编码器的输出作为特征图,表示为
Figure BDA0003686746580000042
其中dh为维数,K是序列长度。特征图经过全连接层和softmax输出的概率矩阵表示为
Figure BDA0003686746580000043
M为字典长度。利用CTC greedy search计算模型的得分,即为:
Figure BDA0003686746580000044
可以假设类别C获得的得分YC是对特征图Aυ的全局线性加权,即
Figure BDA0003686746580000045
权重矩阵
Figure BDA0003686746580000046
一般为CTC greedy search YC得分对特征图Aυ的一阶导数,因为梯度可以一定程度反应信息的重要程度,如果再增加一个额外的权重对一阶梯度进行加权,
Figure BDA0003686746580000047
变为:
Figure BDA0003686746580000048
其中
Figure BDA0003686746580000049
如下:
Figure BDA0003686746580000051
生成的注意力图表示为:
Figure BDA0003686746580000052
其中Qv即为生成的注意力图,在本方法中,注意力图为模型的最可能预测提供了与高层次感兴趣特征相关的推理,这被证明对学生模型学习教师模型的行为非常有用。
教师模型和学生模型的解码器以同样的方法处理得到其各自的注意力图。
对注意力图做转移,注意力转移的计算过程为:
Figure BDA0003686746580000053
这部分计算出的目标函数为增量学习的多任务目标函数的第二部分,对应于图2中的SBKD部分。
基于知识蒸馏的增量学习的loss为:Lst=α·LRBKD+β·LSBKD,即编码器或解码器的目标函数均为各自的第一部分和第二部分的线性组合。
需要说明的是,本方法还是需要在原有训练策略的配合下训练学生模型,原有训练策略为训练端到端的语音识别模型的学生模型的CTC(Connectionist temporalclassification,时序分类)、CE(交叉熵)目标函数,本方法总的目标函数为知识蒸馏产生的目标函数与原有训练策略产生的线性组合,以加速原有训练策略的目标函数的快速收敛,并控制遗忘。
以Conformer模型为例,学生网络还是需要加持基于编码器输出的CTC loss和基于解码器输出的CE loss来训练,这两部分loss表示为Lctc+ce。因此训练学生网络的loss表示为:Loss=γ·Lctc+ce+δ·Lst。同时,基于教师-学生网络的解码器经过同样的处理,即Lst=μ·Lst-encoder+(1-μ)·Lst-decoder。整个训练过程基于教师模型的训练配置,新数据集和训练教师模型的旧数据集没有交集。
在本实施例中,基于文本聚类思想抽取旧数据加入训练的具体方法为:
首先利用text-to-vec对旧数据集的标签做句嵌入,本实施例中采用的是CoSENT模型将标签统一为固定长度的矢量;然后利用k-means方法对标签矢量聚类,聚类中心大于预设值以消除text-to-vec的高语义相关性,使聚类的类别尽可能从不同的文本及发音信息涵盖旧数据集;在每个类中从类中心到边缘依次递减抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。
图3示出了几种增量学习方法的测试结果,其中Dataset1,2,3分别表示aishell、aidatatang、方言数据集,新数据集统一训练7轮。其中New training栏下可以很想比较几种方法在新数据集的测试错误率,Old training和New training的第二栏可以比较旧数据集的遗忘。从图3中可以看出,与其他先进的增量学习方法相比,此方法能够较为明显的控制遗忘,也能保证新数据集的错误率快速降低,可以很好地解决灾难性遗忘的问题,同时利用文本聚类抽取旧数据加入训练效果是最好的,因为抽取的旧数据一般控制在0.5%左右,因此不会耗费更多资源。
当仅在新场景数据集上增量学习遗忘较大,如新场景数据是特殊方言时,需要抽取一部分旧数据和新场景数据联合训练。接触旧数据的策略是利用CoSENT等模型对旧数据集的标签做句嵌入,输出统一为768维的特征矢量。之后利用k-means聚类,在每个类中抽取一部分旧数据加入新数据集中训练学生模型。在每个簇中抽取数据具体操作为从簇中心到边缘依次递减抽取,抽取的数据总量约为旧数据集的0.5%左右。将抽取的数据和新场景数据联合在本发明提出的目标函数和训练策略下训练学生模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,利用知识蒸馏框架并设计多任务目标函数实现增量学习;首先将端到端的语音识别模型初始化为教师模型和学生模型;编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度,以使在训练过程中学生模型的输出概率分布尽可能接近教师模型,第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图,并对教师模型和学生模型的注意力图做转移;采用同样的方法计算解码器的目标函数的第一部分和第二部分,然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型,以使学生模型快速适应新场景数据且遗忘较少;同时基于文本聚类思想对旧数据集的标签聚类,在每个类中抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。
2.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,使教师模型和学生模型的编码器或解码器的输出概率分布尽可能接近的具体方法为:
对教师模型和学生模型的编码器或解码器的输出概率分布做KL散度,计算两者分布差异,得到增量学习的多任务目标函数的第一部分,产生的loss在训练过程中使学生模型的输出概率分布尽可能接近教师模型,控制学生模型对旧数据集的遗忘。
3.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,采用Grad-cam++方法生成教师模型和学生模型各自的注意力图的具体方法为:
选择编码器的输出作为特征图,利用Grad-cam++思想计算特征图的权重矩阵,将所述权重矩阵与特征图逐元素再相乘,经过ReLU函数去除负类的影响,最终得到教师模型和学生模型各自的注意力图;教师模型和学生模型的解码器以同样的方法处理得到其各自的注意力图。
4.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,对教师模型和学生模型的注意力图做转移的具体方法为:
将生成的注意力图进行全局归一化之后,经过ReLU函数过滤掉负类的影响,对教师模型和学生模型生成的注意力图计算L_2范数,这部分的计算结果为增量学习的多任务目标函数的第二部分;编码器或解码器的目标函数均为各自的第一部分和第二部分的线性组合。
5.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,在原有训练策略的配合下训练学生模型的具体方法为:
原有训练策略为训练端到端的语音识别学生模型的时序分类CTC、交叉熵CE目标函数,本方法总的目标函数为知识蒸馏产生的目标函数与原有训练策略产生的线性组合,以加速原有训练策略的目标函数的快速收敛,并控制遗忘。
6.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法,其特征在于,基于文本聚类思想抽取旧数据加入训练的具体方法为:
首先利用text-to-vec对旧数据集的标签做句嵌入,具体为采用CoSENT模型将标签统一为固定长度的矢量;然后利用k-means方法对标签矢量聚类,聚类中心大于预设值以消除text-to-vec的高语义相关性,使聚类的类别尽可能从不同的文本及发音信息涵盖旧数据集;在每个类中从类中心到边缘依次递减抽取少量旧数据加入新数据集中训练学生模型,进一步确保学生模型不会遗忘旧数据集。
7.一种基于知识蒸馏的端到端语音识别增量学习系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6任一项所述的方法步骤。
CN202210652586.4A 2022-06-09 2022-06-09 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 Pending CN115064155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210652586.4A CN115064155A (zh) 2022-06-09 2022-06-09 一种基于知识蒸馏的端到端语音识别增量学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210652586.4A CN115064155A (zh) 2022-06-09 2022-06-09 一种基于知识蒸馏的端到端语音识别增量学习方法及系统

Publications (1)

Publication Number Publication Date
CN115064155A true CN115064155A (zh) 2022-09-16

Family

ID=83201272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210652586.4A Pending CN115064155A (zh) 2022-06-09 2022-06-09 一种基于知识蒸馏的端到端语音识别增量学习方法及系统

Country Status (1)

Country Link
CN (1) CN115064155A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564292A (zh) * 2023-06-27 2023-08-08 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN116863278A (zh) * 2023-08-25 2023-10-10 摩尔线程智能科技(北京)有限责任公司 模型训练方法、图像分类方法、装置、设备及存储介质
CN117493889A (zh) * 2023-12-27 2024-02-02 中国科学院自动化研究所 增量式持续学习方法、装置、存储介质和电子设备
CN117558264A (zh) * 2024-01-12 2024-02-13 联通(广东)产业互联网有限公司 一种基于自知识蒸馏的方言语音识别训练方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN113255822A (zh) * 2021-06-15 2021-08-13 中国人民解放军国防科技大学 一种用于图像检索的双重知识蒸馏方法
WO2022073285A1 (zh) * 2020-10-09 2022-04-14 深圳大学 基于知识蒸馏的肺音分类方法、系统、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
WO2022073285A1 (zh) * 2020-10-09 2022-04-14 深圳大学 基于知识蒸馏的肺音分类方法、系统、终端及存储介质
CN113255822A (zh) * 2021-06-15 2021-08-13 中国人民解放军国防科技大学 一种用于图像检索的双重知识蒸馏方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
葛仕明;赵胜伟;刘文瑜;李晨钰;: "基于深度特征蒸馏的人脸识别", 北京交通大学学报, no. 06, 15 December 2017 (2017-12-15), pages 32 - 38 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564292A (zh) * 2023-06-27 2023-08-08 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN116564292B (zh) * 2023-06-27 2024-02-13 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN116863278A (zh) * 2023-08-25 2023-10-10 摩尔线程智能科技(北京)有限责任公司 模型训练方法、图像分类方法、装置、设备及存储介质
CN116863278B (zh) * 2023-08-25 2024-01-26 摩尔线程智能科技(北京)有限责任公司 模型训练方法、图像分类方法、装置、设备及存储介质
CN117493889A (zh) * 2023-12-27 2024-02-02 中国科学院自动化研究所 增量式持续学习方法、装置、存储介质和电子设备
CN117558264A (zh) * 2024-01-12 2024-02-13 联通(广东)产业互联网有限公司 一种基于自知识蒸馏的方言语音识别训练方法及系统

Similar Documents

Publication Publication Date Title
CN115064155A (zh) 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN110556100B (zh) 端到端语音识别模型的训练方法及系统
CN107408111A (zh) 端对端语音识别
CN110459208B (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
CN107844481B (zh) 识别文本检错方法及装置
CN113468877A (zh) 语言模型的微调方法、装置、计算设备和存储介质
US11501168B2 (en) Learning longer-term dependencies in neural network using auxiliary losses
CN113688244A (zh) 基于神经网络的文本分类方法、系统、设备及存储介质
CN111627428B (zh) 构建压缩的语音识别模型的方法
CN113784199B (zh) 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
Yang et al. Online continual learning of end-to-end speech recognition models
Cao et al. Improving streaming transformer based asr under a framework of self-supervised learning
CN111540345A (zh) 一种弱监督语音识别模型训练方法及装置
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN115809464A (zh) 基于知识蒸馏的轻量级源代码漏洞检测方法
Gao et al. Distilling knowledge from ensembles of acoustic models for joint CTC-attention end-to-end speech recognition
US20210073645A1 (en) Learning apparatus and method, and program
Gao et al. Self-supervised pre-training for attention-based encoder-decoder asr model
CN114048290A (zh) 一种文本分类方法及装置
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN110287999B (zh) 基于隐变量模型的故事生成方法及装置
Baas et al. Transfusion: Transcribing speech with multinomial diffusion
CN112364990B (zh) 通过元学习实现语法改错少样本领域适应的方法及系统
Fu et al. DistillW2V2: A Small and Streaming Wav2vec 2.0 Based ASR Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination