CN112699678A - 一种结合动态词汇增强的模型蒸馏方法 - Google Patents

一种结合动态词汇增强的模型蒸馏方法 Download PDF

Info

Publication number
CN112699678A
CN112699678A CN202110309962.5A CN202110309962A CN112699678A CN 112699678 A CN112699678 A CN 112699678A CN 202110309962 A CN202110309962 A CN 202110309962A CN 112699678 A CN112699678 A CN 112699678A
Authority
CN
China
Prior art keywords
model
teacher
fine
dynamic vocabulary
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110309962.5A
Other languages
English (en)
Other versions
CN112699678B (zh
Inventor
顾嘉晟
李瀚清
岳小龙
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Chengdu Co ltd
Original Assignee
Daguan Data Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguan Data Chengdu Co ltd filed Critical Daguan Data Chengdu Co ltd
Priority to CN202110309962.5A priority Critical patent/CN112699678B/zh
Publication of CN112699678A publication Critical patent/CN112699678A/zh
Application granted granted Critical
Publication of CN112699678B publication Critical patent/CN112699678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能领域中的自然语言处理技术领域,公开了一种结合动态词汇增强的模型蒸馏方法,包括:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调;微调结束后,对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。本发明提供的模型蒸馏方法,通过引入词典信息作为关键信息,使得模型在大幅缩减尺寸的情况下仍然可以捕获词典信息作为特征,从而达到在不牺牲抽取准确性的情况下大幅降低模型尺寸、加快推断速度的目的。

Description

一种结合动态词汇增强的模型蒸馏方法
技术领域
本发明涉及人工智能领域中的自然语言处理技术领域,尤其涉及一种结合动态词汇增强的模型蒸馏方法。
背景技术
文本关键信息抽取是自然语言处理领域中最常见的一项任务。近些年自从Bert出现后,基于Transformer机制的模型层出不穷,从Bert到RoBERTa,再到XLNet、GPT-3等模型不断刷新着关键信息提取任务的准确率。然而在NLP任务实际落地时,企业考虑到成本、效率等因素,往往会使用高并发模型部署的技术架构,而大尺寸的模型在多副本的体系中意味着占用大量的GPU资源。企业追求的往往不是最高的准确率,而是在准确率和推断速度中得到最好的权衡。这使得这些在学术界一再刷新纪录的模型在工业落地中确面临着极大的问题:模型尺寸过大,参数过多,从而导致模型训练过程太过耗费资源,同时模型推断也过于依赖高配置设备,推断速度过慢等。
近些年逐渐有企业意识到模型落地难,成本高昂的问题,也在尝试使用各种方法尝试降低模型尺寸。例如华为在今年10月发布的TinyBert[1],通过对Bert模型实现蒸馏,模型缩小了7.5倍,实现了9.4倍的推断提速,然而模型准确率却下降了3.2%,其原因是在迁移学习过程中,丢失了一定的语义信息。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种结合动态词汇增强的模型蒸馏方法,该方法在模型微调的过程中通过增加词典信息来降低模型尺寸并提升模型准确率,结合动态词汇增强技术实现模型蒸馏。
本发明采用的技术方案如下:一种结合动态词汇增强的模型蒸馏方法,包括以下步骤:
步骤1:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;
其中,动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现;而所述词典信息为针对不同的专业领域而收集的相应的专业信息构成的信息集合。
在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调。
步骤2:对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。
在该过程中,首先将语言模型的输出特征与词典信息的特征合并为embedding向量,再将embedding向量输入至教师模型的全连接层,通过该全连接层对embedding向量进行降维操作,然后再连接进条件随机场,通过条件随机场对教师模型中的原句的每个token做出预测,将该预测结果作为学生模型的训练依据。
进一步的,在对教师模型进行蒸馏的过程中,还包括计算蒸馏过程中的损失值,其具体过程如下:通过计算教师模型和学生模型之间预测值的差,将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值,从而实现蒸馏过程中损失值的梯度更新。
与现有技术相比,采用上述技术方案的有益效果为:
1.通过在模型结构中引入词典信息,可以弥补无监督语言模型语义理解不够精准的问题。该种方式无需对语料分词,只需通过匹配信息讲词语的embedding合并进Bert语言模型的输出即可,在为模型增加语义信息的同时也不会增加模型计算的负担。
2.通过使用模型蒸馏的方式,在训练教师模型的基础上训练了更小型的学生模型,虽然小程度上增加了训练过程的复杂度,但是由于学生模型的结构更简单,且语义信息都是从教师模型通过迁移学习的方式蒸馏过来,因此可以大幅降低模型推断的时间。
3.当为专有业务领域文本训练模型时,可以通过配置中增加专有领域词典来提升模型在该领域内的语义理解度。
4.该方法可以使得最终训练生成的学生模型大小远远小于常规模型的大小,同时由于其推断速度快,占用资源少,十分方便被部署在微服务架构的系统中。
5.由于大大减少了模型尺寸,该方法在推断过程中可以摆脱对GPU的依赖,可以在较为低配的小型设备上进行使用。
附图说明
图1是本方法的工作流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
为了使本实施例给出的技术方案清楚明白,下面对本实施例中提到的专业用语进行解释:
Encode:表示编码。
Token:表示令牌。
CRF:表示条件随机场。
GPU:表示显卡。
本实施例提供一种结合动态词汇增强的模型蒸馏方法,该方法采取模型蒸馏和在微调过程中增加词典信息来降低学生模型尺寸并提升学生模型准确率,整体的工作流程如图1所示,具体步骤如下:
首先,针对ALBert语言模型,对其进行微调,不同于常规的微调逻辑,在对ALBert语言模型进行微调的过程中,将微调技术和动态词汇增强技术进行结合,这样可以弥补无监督语言模型语义理解不够精准的问题;将微调后ALBert语言模型作为教师模型,进行下一步的模型蒸馏。
在常规的对ALBert语言模型进行微调的过程中,下游模型通常使用基准预训练模型得到的参数进行初始化,然后使用来自下游具体任务的标签数据对模型中所有参数进行微调。
而在本实施例中的微调过程中,动态词汇增强技术要求在进行参数初始化过程中使用基准预训练模型对词典中的所有匹配词语都进行encode,并叠加在原始语料上进行相应地升维操作。例如设置768维的原始文字在输入层中的权重维度为1,该字所在的所有词汇中高频词汇权重为0.2,低频词汇为0.1,以此将文本中的每个token定义为1000维的向量,以此提升下游模型对专有领域语义的理解能力。
其中,动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现;而所述词典信息为针对相应的专业领域而收集的专业信息构成的信息集合。
然后,对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。
在该过程中,将已经合并的ALBert语言模型的输出特征与词典信息的特征作为embedding向量,然后将embedding向量输入至教师模型的全连接层,通过该全连接层对embedding向量进行降维操作,然后再连接进CRF,通过CRF对教师模型中的原句的每个token做出预测,将该预测结果作为学生模型的训练依据。
在对教师模型进行蒸馏的过程中,还包括计算蒸馏过程中的损失值;在计算蒸馏过程的损失值时,可以通过计算教师模型和学生模型之间预测值的差,将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值,从而实现蒸馏过程中损失值的梯度更新,以此方式来获得一个更高性能和精度的学生模型。
在本方法中,通过在模型微调过程中加入词典信息,为每个位置的token都叠加以该token为结尾的所有词语的embedding信息。这样设计的好处有两个:一是很大程度上为模型后续的处理人为地注入语义信息,二是在不同领域预料的任务下可以通过人为地控制专有语料词典来达到不同领域语料微调的效果。
例如,在医疗领域有大量的专有词汇,在医疗领域文本抽取任务中,如果模型没有充足的领域词汇的积累往往会导致模型准确率不高。使用该发明方法,可以使用通用词典+医疗领域专有词典构成一份特定的词典。在获取输入层向量时,使用ALBert模型的输出叠加词典匹配的embedding信息构成输入层,再将输出连入全连接层进行降维,再接入CRF进行标签解码得出最终结果。而这一过程中学生模型可以学到教师模型中的泛化能力。
这样训练出来的推断模型甚至可以摆脱对GPU的限制,及时是在医生普通的办公电脑上都可以实现快速的推断,医生可以通过本机部署该服务后,快速抽取病例或其他医学文献中的关键信息。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

Claims (5)

1.一种结合动态词汇增强的模型蒸馏方法,其特征在于,包括:
步骤1:在ALBert语言模型的基础上,通过微调技术以及动态词汇增强技术对该语言模型进行微调,得到微调后的语言模型,将其作为教师模型;
步骤2:对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。
2.根据权利要求1所述的一种结合动态词汇增强的模型蒸馏方法,其特征在于,所述动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现;其中,所述词典信息为针对不同的专业领域而收集的相应的专业信息构成的信息集合。
3.根据权利要求2所述的一种结合动态词汇增强的蒸馏模型方法,其特征在于,所述通过微调技术以及动态词汇增强技术对该语言模型进行微调的过程包括:将词典信息的特征与语言模型的输出特征进行合并后,再对语言模型进行微调。
4.根据权利要求3所述的一种结合动态词汇增强的模型蒸馏方法,其特征在于,所述步骤2具体包括:将语言模型的输出特征与词典信息的特征合并为embedding向量,再将embedding向量输入至教师模型的全连接层,通过该全连接层对embedding向量进行降维操作,然后再连接进条件随机场,通过条件随机场对教师模型中的原句的每个token做出预测,将该预测结果作为学生模型的训练依据。
5.根据权利要求2或4所述的一种结合动态词汇增强的模型蒸馏方法,其特征在于,在对教师模型进行蒸馏的过程中还包括:
计算蒸馏过程中的损失值,其具体过程如下:通过计算教师模型和学生模型之间预测值的差,将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值,从而实现蒸馏过程中损失值的梯度更新。
CN202110309962.5A 2021-03-24 2021-03-24 一种结合动态词汇增强的模型蒸馏方法 Active CN112699678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110309962.5A CN112699678B (zh) 2021-03-24 2021-03-24 一种结合动态词汇增强的模型蒸馏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110309962.5A CN112699678B (zh) 2021-03-24 2021-03-24 一种结合动态词汇增强的模型蒸馏方法

Publications (2)

Publication Number Publication Date
CN112699678A true CN112699678A (zh) 2021-04-23
CN112699678B CN112699678B (zh) 2021-06-18

Family

ID=75515506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110309962.5A Active CN112699678B (zh) 2021-03-24 2021-03-24 一种结合动态词汇增强的模型蒸馏方法

Country Status (1)

Country Link
CN (1) CN112699678B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522912A (zh) * 2023-07-05 2023-08-01 大家智合(北京)网络科技股份有限公司 一种包装设计语言模型的训练方法、装置、介质及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354883A1 (en) * 2016-09-22 2019-11-21 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN110837761A (zh) * 2018-08-17 2020-02-25 北京市商汤科技开发有限公司 多模型知识蒸馏方法及装置、电子设备和存储介质
CN111062489A (zh) * 2019-12-11 2020-04-24 北京知道智慧信息技术有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置
CN111242297A (zh) * 2019-12-19 2020-06-05 北京迈格威科技有限公司 基于知识蒸馏的模型训练方法、图像处理方法及装置
CN111506702A (zh) * 2020-03-25 2020-08-07 北京万里红科技股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
CN112199592A (zh) * 2020-10-10 2021-01-08 信雅达系统工程股份有限公司 基于知识蒸馏进行模型压缩的银行舆情风控系统
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354883A1 (en) * 2016-09-22 2019-11-21 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN110837761A (zh) * 2018-08-17 2020-02-25 北京市商汤科技开发有限公司 多模型知识蒸馏方法及装置、电子设备和存储介质
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
CN111062489A (zh) * 2019-12-11 2020-04-24 北京知道智慧信息技术有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置
CN111242297A (zh) * 2019-12-19 2020-06-05 北京迈格威科技有限公司 基于知识蒸馏的模型训练方法、图像处理方法及装置
CN111506702A (zh) * 2020-03-25 2020-08-07 北京万里红科技股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112199592A (zh) * 2020-10-10 2021-01-08 信雅达系统工程股份有限公司 基于知识蒸馏进行模型压缩的银行舆情风控系统
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAIFENG LV: "Albert-Based Chinese Named Entity Recognition", 《COGNITIVE COMPUTING-ICCC 2020》 *
张文正: "基于Transformer的中文文本情感分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张睿东: "基于BERT和知识蒸馏的自然语言理解研究", 《HTTPS://WWW.DOC88.COM/P-89699809348785.HTML》 *
张雨石: "ALBert:轻量级Bert", 《ZHUANLAN.ZHIHU.COM/P/91501094》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522912A (zh) * 2023-07-05 2023-08-01 大家智合(北京)网络科技股份有限公司 一种包装设计语言模型的训练方法、装置、介质及设备
CN116522912B (zh) * 2023-07-05 2023-12-08 大家智合(北京)网络科技股份有限公司 一种包装设计语言模型的训练方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112699678B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN113987209B (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN115064155B (zh) 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN114048290A (zh) 一种文本分类方法及装置
CN112699678B (zh) 一种结合动态词汇增强的模型蒸馏方法
CN117252957A (zh) 根据文字描述生成带精确文字图片的方法、装置及存储介质
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN116522142A (zh) 用于训练特征提取模型的方法、特征提取方法和装置
CN114218921A (zh) 一种优化bert的问题语义匹配方法
US11941360B2 (en) Acronym definition network
CN118069857A (zh) 基于Transfomer和渐进式蒸馏的知识图谱补全方法、系统、装置
CN117271740A (zh) 一种基于句粒度提示的大语言模型时序知识问答方法
CN112287641A (zh) 一种同义句生成方法、系统、终端及存储介质
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
WO2024045318A1 (zh) 自然语言预训练模型训练方法、装置、设备及存储介质
CN112131879A (zh) 一种关系抽取系统、方法和装置
Zhang A study on the intelligent translation model for English incorporating neural network migration learning
CN115858736A (zh) 一种基于情感提示微调的情感文本生成方法
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
Chen et al. LDAnet: a discriminant subspace for metric-based few-shot learning
Yomie et al. Application of the multilingual acoustic representation model XLSR-53 for the transcription of Ewondo
Lv et al. ASKCC-DCNN-CTC: A Multi-Core Two Dimensional Causal Convolution Fusion Network with Attention Mechanism for End-to-End Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant