CN113486185A - 一种基于联合训练的知识蒸馏方法、处理器及存储介质 - Google Patents
一种基于联合训练的知识蒸馏方法、处理器及存储介质 Download PDFInfo
- Publication number
- CN113486185A CN113486185A CN202111043005.9A CN202111043005A CN113486185A CN 113486185 A CN113486185 A CN 113486185A CN 202111043005 A CN202111043005 A CN 202111043005A CN 113486185 A CN113486185 A CN 113486185A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- output
- loss function
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于联合训练的知识蒸馏方法、处理器及存储介质,该方法包括:获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;使用所述训练数据集分别训练第一模型和第二模型;使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;其中,联合训练是将第一模型或第二模型的权重与输出进行交换,在模型训练过程中,将所述第二模型的输出送入到所述第一模型中,所述第一模型再继续基于知识蒸馏训练所述第二模型;使用训练好的第二模型对新输入的数据进行意图识别预测,并根据预测的结果判断是否还需对第二模型进行训练;采用本方法能够有效的降低训练的成本,并且增强模型的可扩展能力。
Description
技术领域
本发明涉及知识蒸馏技术领域,具体而言,涉及一种基于联合训练的知识蒸馏方法、处理器及存储介质。
背景技术
语言模型预训练(如BERT)显著提高了许多自然语言处理任务的性能,例如:BERT-base模型能够包含一亿个参数,较大的 BERT-large甚至包含3.4亿个参数。显然,很难将这种规模的模型部署到资源有限的环境(例如移动设备或嵌入式系统)当中。
知识蒸馏是基于教师-学生的模型压缩方式,通过引入大规模教师(teacher)模型以诱导小规模学生(student)模型的训练,实现知识迁移。做法是先训练一个教师模型,然后使用教师模型的输出和数据的标注标签去训练学生模型,使得学生模型不仅可以从标注数据中学习如何判断正确样本的类别。
目前的中文预训练模型使用了大型的训练语料(例如:中文维基百科语料等),模型参数量巨大,训练周期通常是几周。预训练模型通常采用的是语言模型任务,而对于自然语言处理中常见的序列标注任务,分类任务,生成式任务等并不适用。通常采用基于预训练模型微调的方式解决上述任务,微调是指网络参数初始化加载预训练学习好的参数,其他高层特定任务相关的参数随机初始化来训练网络。然而通过微调得到的任务模型参数量仍然巨大,部署线上推理服务延迟性能等不满足要求。所以目前业界主流的方法是采用上面提出的知识蒸馏方法,目前知识蒸馏作用于预训练模型阶段,教师模型指导学生模型在预训练阶段的时候适应模型压缩后的场景(TinyBert, PKD-Bert),下游任务采用学生模型进行微调。然而这样两阶段的模型训练成本较高,尤其是预训练模型的知识蒸馏部分,可扩展能力也较差;针对这一问题,本发明提出一种新的技术方案,以期在一定程度上解决训练成本高问题。
发明内容
本发明的目的在于提供一种基于联合训练的知识蒸馏方法、处理器及存储介质,其通过第一模型与第二模型的联合训练,降低模型训练的成本,并且增强模型的可扩展能力。
本发明的实施例通过以下技术方案实现:
第一方面,提供一种基于联合训练的知识蒸馏方法,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;
使用所述训练数据集分别训练第一模型和第二模型,其中第一模型为教师模型,第二模型为学生模型;
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
进一步的,所述训练数据集由已人工标注的数据组成,所述标注的内容至少包括场景和意图。
进一步的,所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
进一步的,所述联合训练,获取损失函数之前还包括:
获取所述第一模型和第二模型的输出;定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,x∈X,q∈Q,Q为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,p∈P,P为第二模型的输出集。
进一步的,所述联合训练,获取损失函数包括:
将所述第二模型的输出送入到所述第一模型中,作为第一模型计算损失函数的输入,再结合所述第一模型的输出和第二模型的输出计算获得所述第一模型的第一损失函数;
同时将所述第一模型的输出送入到所述第二模型中,作为第二模型计算损失函数的输入,结合所述第一模型的输出和第二模型的输出计算获得所述第二模型的第二损失函数;
以及第一模型与第二模型在同一神经网络中联合训练,基于第一模型的损失函数与第二模型的损失函数计算获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和。
进一步的,所述第一损失函数具体为,其中CE表示交叉损失熵,y∈Y,,为输出p的特殊概率化表示,为输出集P中的输出特殊概率化表示后的集合,为所述第二模型中输出p特殊概率化表示后的交叉损失熵,q i ∈Q, ,i表示对应集合中的第i个样本;
所述第三损失函数具体为Loss=αLoss 1 +βLoss 2 ,其中α、β均为调节系数。
进一步的,所述特殊概率化具体为,在概率化的过程中增加知识蒸馏的温度T对概率化的影响。进一步的,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
第二方面,提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的基于联合训练的知识蒸馏方法。
第三方面,提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明通过联合蒸馏的方法,在达到同样预测准确率的基础上,本发明所提出的方法,具有更高效率,并且不需要过多的标注数据,能够减少模型训练的成本;其次本发明的方法还能够带来较好的模型可扩展能力。
附图说明
图1为本发明提供的基于联合训练的知识蒸馏方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
本发明提供一种基于联合训练的知识蒸馏方法,如图1所示,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;并且所述训练数据集由已人工标注的数据组成,所述标注的内容包括场景、意图、业务和实体名等。
本发明主要应用场景之一包括电商客服平台,在电商客服平台中,智能客服需要识别客户所发送的语句,该场景下,通常需要识别语料的场景,如购买前了解商品的参数性能或购买后了解如何退换货等,因此其需要准确的了解对话所处的场景;当然对话的具体意图同样十分重要,如客户是需要了解具体哪个方面的商品性能等;同样,还需要识别对话中的实体名等,便能够准确地获取客户是在针对哪款商品进行咨询。
使用所述训练数据集分别训练第一模型和第二模型;所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
此处的第一模型相当于教师模型,第二模型相当于学生模型,一般情况下,线上部署推理服务需要采用效率高的学生模型,因此第二模型通过需要具有更少的复杂度或是其只需对某一具体类别的语料进行预测识别,所以在预训练时,我们仅需使用一个类别的语料来对其进行训练,这样可以使第二模型对具体任务有较好的结果,并且便于在下一阶段中用更少的复杂度与第一模型进行联合训练。
在联合训练,获取损失函数之前,为了获取所述第一模型和第二模型的输出;本方案定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,x∈X,q∈Q,Q为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,p∈P,P为第二模型的输出集。
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;其中,联合训练,获取损失函数包括:
将第一模型或第二模型的输出进行交换,在模型训练过程中,将所述第二模型的输出送入到所述第一模型中,结合所述第一模型和第二模型的输出计算获得所述第一模型的第一损失函数;所述第一损失函数具体为,其中CE表示交叉损失熵,y∈Y,,为输出p的特殊概率化表示,为输出集P中的输出特殊概率化表示后的集合,为所述第二模型中输出p特殊概率化表示后的交叉损失熵,q i ∈Q, ,i表示对应集合中的第i个样本;需要说明的是,由于在训练过程中,输出集以及特殊概率化后的输出集均为训练数据集相关,因此各个数据集中的数据的排列具有相关性,所以在输出集中的第i个样本与特殊概率化后输出集的第i个样本存在对应的关系,因此此处均有第i个进行表示说明。
同时将所述第一模型的输出送入到所述第二模型中,结合所述第一模型和第二模型的输出计算获得所述第二模型的第二损失函数;所述第二损失函数具体为,其中,为输出q的特殊概率化表示,为输出集Q中的输出特殊概率化表示后的集合,为第一模型中输出q特殊概率化表示后的交叉损失熵,p i ∈P, ;
以及第一模型与第二模型在同一神经网络中联合训练,获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和,具体为Loss=αLoss 1 +βLoss 2 ,其中α、β均为调节系数,在本方案中α、β通常默认为1.0。
可以知晓的是,本方案中的概率化与常规的概率化存在一定的差异,其本方案中的概率化是一种特殊的概率化,其通过引入知识蒸馏时温度T对概率化的影响,进而取得更为准确的概率化结果,从而有助于提升第一模型和第二模型的模型泛化能力。
即在联合训练的过程中,在训练第二模型的时候,增加复杂第一模型来辅助第二模型,两者同时进行训练,是一种训练过程中的辅导。从网络结构来说,第一模型比第二模型神经元更多,所有训练数据,会同时训练第一模型和第二模型网络,对于两个模型来说,抛弃常规的训练过程,损失函数由两个部分构成,一个子项是交叉熵,这是常规的损失函数,它促使网络去拟合真实标签数据;另外一个CE soft 子项则迫使网络输出去拟合另一个模型的输出,通过联合训练可以增强第一模型和第二模型的模型泛化能力。
这里需要说明的是,联合蒸馏训练是分别利用教师模型和学生模型输出的软标签来辅助真实标签来进一步训练学生模型和教师模型,这是因为除了真实标签以外,教师模型的输出软标签也带有教师模型归纳推理的大量信息,比如某些软标签对应的概率远远大于其他的软标签,则代表教师模型再推理时认为该数据样本与该软标签有一定的相似性,同样对于学生模型输出的软标签也是相同的原理。
基于这种联合蒸馏训练的方法,本发明在第二模型(即学生模型)的训练中不仅能够获取更好的预测精度,同时在达到同样精度的情况下,其训练效率更高,需要的人工标注的标签较少,可以通过第一模型和第二模型再训练时输出的软标签进一步强化模型预测的精度,因此可以具有更低的成本,同时也兼顾了第二模型的可扩展能力。
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
其中,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
当然,当第一模型也无法给出一个准确的预测时,此时可以有使用者进行人工判断,并录入进行标记输出。
为了验证本方法的有效性,我们将本方法与现有的主流方法进行了效果对比,结果如表1所示。
表1 多种知识蒸馏方法的性能对比
模型 | 准确率 | 推理时间(毫秒) | 模型大小(显存) |
TinyBert | 86.43% | 103ms | 60MB |
PKD-Bert | 85.71% | 258ms | 142MB |
MiniLM | 86.80% | 162ms | 188MB |
本申请方法 | 87.31% | 79ms | 39MB |
根据表1的内容可以看出,本方法的准确率较高,推理所用时间较少,并且模型更轻量化。
基于以上的方法,本申请还给出了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的基于联合训练的知识蒸馏方法。
另本申请还提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于联合训练的知识蒸馏方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;
使用所述训练数据集分别训练第一模型和第二模型,其中第一模型为教师模型,第二模型为学生模型;
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
2.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述训练数据集由已人工标注的数据组成,所述标注的内容至少包括场景和意图。
3.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
4.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述联合训练,获取损失函数之前还包括:
获取所述第一模型和第二模型的输出;定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,x∈X,q∈Q,Q为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,p∈P,P为第二模型的输出集。
5.根据权利要求4所述的基于联合训练的知识蒸馏方法,其特征在于,所述联合训练,获取损失函数包括:
将所述第二模型的输出送入到所述第一模型中,作为第一模型计算损失函数的输入,再结合所述第一模型的输出和第二模型的输出计算获得所述第一模型的第一损失函数;
同时将所述第一模型的输出送入到所述第二模型中,作为第二模型计算损失函数的输入,结合所述第一模型的输出和第二模型的输出计算获得所述第二模型的第二损失函数;
以及第一模型与第二模型在同一神经网络中联合训练,基于第一模型的损失函数与第二模型的损失函数计算获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和。
7.根据权利要求6所述的基于联合训练的知识蒸馏方法,其特征在于,所述特殊概率化具体为,在概率化的过程中增加知识蒸馏的温度T对概率化的影响。
8.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-8中任意一项所述的基于联合训练的知识蒸馏方法。
10.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-8中任意一项所述的基于联合训练的知识蒸馏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043005.9A CN113486185B (zh) | 2021-09-07 | 2021-09-07 | 一种基于联合训练的知识蒸馏方法、处理器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043005.9A CN113486185B (zh) | 2021-09-07 | 2021-09-07 | 一种基于联合训练的知识蒸馏方法、处理器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486185A true CN113486185A (zh) | 2021-10-08 |
CN113486185B CN113486185B (zh) | 2021-11-23 |
Family
ID=77946537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111043005.9A Active CN113486185B (zh) | 2021-09-07 | 2021-09-07 | 一种基于联合训练的知识蒸馏方法、处理器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486185B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115687914A (zh) * | 2022-09-07 | 2023-02-03 | 中国电信股份有限公司 | 模型蒸馏方法、装置、电子设备及计算机可读介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
CN108898168A (zh) * | 2018-06-19 | 2018-11-27 | 清华大学 | 用于目标检测的卷积神经网络模型的压缩方法和系统 |
CN110223281A (zh) * | 2019-06-06 | 2019-09-10 | 东北大学 | 一种数据集中含有不确定数据时的肺结节图像分类方法 |
CN110674880A (zh) * | 2019-09-27 | 2020-01-10 | 北京迈格威科技有限公司 | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 |
US10635950B2 (en) * | 2017-03-17 | 2020-04-28 | Nec Corporation | Surveillance system for recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN111369535A (zh) * | 2020-03-05 | 2020-07-03 | 四川大学华西医院 | 一种细胞检测方法 |
US20200302295A1 (en) * | 2019-03-22 | 2020-09-24 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
CN111985620A (zh) * | 2020-08-21 | 2020-11-24 | 苏州浪潮智能科技有限公司 | 一种神经网络模型知识蒸馏方法、系统、设备及介质 |
CN112308211A (zh) * | 2020-10-29 | 2021-02-02 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于元学习的领域增量方法 |
-
2021
- 2021-09-07 CN CN202111043005.9A patent/CN113486185B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635950B2 (en) * | 2017-03-17 | 2020-04-28 | Nec Corporation | Surveillance system for recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
CN108898168A (zh) * | 2018-06-19 | 2018-11-27 | 清华大学 | 用于目标检测的卷积神经网络模型的压缩方法和系统 |
US20200302295A1 (en) * | 2019-03-22 | 2020-09-24 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
CN110223281A (zh) * | 2019-06-06 | 2019-09-10 | 东北大学 | 一种数据集中含有不确定数据时的肺结节图像分类方法 |
CN110674880A (zh) * | 2019-09-27 | 2020-01-10 | 北京迈格威科技有限公司 | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 |
CN111369535A (zh) * | 2020-03-05 | 2020-07-03 | 四川大学华西医院 | 一种细胞检测方法 |
CN111985620A (zh) * | 2020-08-21 | 2020-11-24 | 苏州浪潮智能科技有限公司 | 一种神经网络模型知识蒸馏方法、系统、设备及介质 |
CN112308211A (zh) * | 2020-10-29 | 2021-02-02 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于元学习的领域增量方法 |
Non-Patent Citations (7)
Title |
---|
HENG ZHAO 等: "JDNet: A Joint-Learning Distilled Network for Mobile Visual Food Recognition", 《SELECTED TOPICS IN SIGNAL PROCESSING》 * |
ZHENGWU YUA 等: "Research of Weibo Text Classification based on Knowledge Distillation and Joint Model", 《 2021 IEEE 5TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE》 * |
叶楠 等: "多语言机器人深度学习模型构建", 《信息与控制》 * |
孙红 等: "基于知识蒸馏的短文本分类方法", 《软件导刊》 * |
廖胜兰: "面向服务机器人自然语言交互的语义解析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张睿东: "基于BERT和知识蒸馏的自然语言理解研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
李舟军 等: "面向自然语言处理的预训练技术研究综述", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115687914A (zh) * | 2022-09-07 | 2023-02-03 | 中国电信股份有限公司 | 模型蒸馏方法、装置、电子设备及计算机可读介质 |
CN115687914B (zh) * | 2022-09-07 | 2024-01-30 | 中国电信股份有限公司 | 模型蒸馏方法、装置、电子设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113486185B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200394509A1 (en) | Classification Of Sparsely Labeled Text Documents While Preserving Semantics | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN110222188A (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
US11481552B2 (en) | Generative-discriminative language modeling for controllable text generation | |
Ko et al. | Domain agnostic real-valued specificity prediction | |
CN111339415A (zh) | 一种基于多交互式注意力网络的点击率预测方法与装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
US20210042476A1 (en) | Intelligent Routing Services and Systems | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN112069320B (zh) | 一种基于跨度的细粒度情感分析方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN110390110B (zh) | 用于语义匹配的预训练生成句子向量的方法和装置 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113486185B (zh) | 一种基于联合训练的知识蒸馏方法、处理器及存储介质 | |
CN114936290A (zh) | 数据处理方法及装置、存储介质及电子设备 | |
CN115470354A (zh) | 基于多标签分类识别嵌套和重叠风险点的方法及系统 | |
CN115270797A (zh) | 一种基于自训练半监督学习的文本实体抽取方法及系统 | |
CN111078881A (zh) | 细粒度情感分析方法、系统、电子设备和存储介质 | |
CN112199505B (zh) | 一种基于特征表示学习的跨领域情感分类方法及系统 | |
CN112561530A (zh) | 一种基于多模型融合的交易流水处理方法及系统 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Day et al. | A study of deep learning to sentiment analysis on word of mouth of smart bracelet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20211008 Assignee: Yunzhu Information Technology (Chengdu) Co.,Ltd. Assignor: China Construction e-commerce Co.,Ltd. Contract record no.: X2023980032450 Denomination of invention: A knowledge distillation method, processor and storage medium based on joint training Granted publication date: 20211123 License type: Common License Record date: 20230220 |