CN115293168A - 基于预训练模型语义理解的多语言缩写消歧义算法 - Google Patents

基于预训练模型语义理解的多语言缩写消歧义算法 Download PDF

Info

Publication number
CN115293168A
CN115293168A CN202210888947.5A CN202210888947A CN115293168A CN 115293168 A CN115293168 A CN 115293168A CN 202210888947 A CN202210888947 A CN 202210888947A CN 115293168 A CN115293168 A CN 115293168A
Authority
CN
China
Prior art keywords
model
abbreviation
training
disambiguation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210888947.5A
Other languages
English (en)
Inventor
何攀
张彦如
洪峰
庄岩
黄承浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Baobei Technology Co ltd
Original Assignee
Chengdu Baobei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Baobei Technology Co ltd filed Critical Chengdu Baobei Technology Co ltd
Priority to CN202210888947.5A priority Critical patent/CN115293168A/zh
Publication of CN115293168A publication Critical patent/CN115293168A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于预训练模型语义理解的多语言缩写消歧义算法,包括如下步骤:S1:在知识语料上进行持续预训练,学习其文本的语义关系和背景知识;S2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;S3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释。该方法基于具备强大的先验知识的预训练语言模型完成对于专业领域复杂缩写词的消歧义,有效地促进了科研人员及语言模型对于复杂文本的正确理解。

Description

基于预训练模型语义理解的多语言缩写消歧义算法
技术领域
本发明具体涉及一种基于预训练模型语义理解的多语言缩写消歧义算法。
背景技术
缩写在专业领域如科学、法律、自然等更为频繁。随着知识量的指数倍增长,相同的缩写词可能代表着很多不同的含义,然而理解缩写词需要较强的专业背景和知识储备,这对于很多刚刚踏入对应领域的学者是个非常大的困难。目前在这方面,研究十分欠缺,主要分为传统的频率统计和神经网络方法。传统的基于词频统计的方法能达到的效果十分有限并且效果波动较大。其不足在于单调的使用字或词在句子中的出现的频率,忽略了句子语义的重要性,不符合人类在进行判断的直观感觉。在理解缩写时,需要结合上下文信息及一定的背景知识进而确定缩写的真正含义。神经网络则基于网络的深度去高纬度理解语义信息,但是在利用神经网络时,需要对字或词语进行合适的向量表示,而向量的表示也存在较大的适用性争议。并且神经网络天然的不具备其背景知识,这在缩写消歧义过程当中却至关重要。因而以上的两种方式均无法达到较为满意的效果,本质上是均不同时具备语义理解和背景知识。
针对现有方法在缩写消歧义存在的不足,拟基于预训练语言模型的迁移学习方法实现真正意义上的缩写消歧义。预训练语言模型是基于超级规模的公共领域语料而获得的语义理解或语义生成模型,在进行语言遮蔽模型(MLM)和语句预测(NSP)任务中,MLM自监督的学习字或词的语义关系,NSP则学习句子之间的关系。在预训练过程当中,相当于对语言进行初步的语义理解。在面对专业领域的文本时,首先把通用领域的预训练语言模型迁移到其专业语料进行持续预训练,得到在特有领域内文本之间的语义关系和进行背景知识的学习,自此解决了现有方法不能以合适的方法同时满足背景知识学习和语义理解的不足之处。然后再进行微调或提示微调,对于文本中的缩写的真正含义进行识别。整个过程中包含了背景知识的学习和语义的理解,更加符合人类的思维逻辑,较现有的方法更具备合理性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于预训练模型语义理解的多语言缩写消歧义算法,该基于预训练模型语义理解的多语言缩写消歧义算法可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于预训练模型语义理解的多语言缩写消歧义算法,该基于预训练模型语义理解的多语言缩写消歧义算法包括如下步骤:
S1:在知识语料上进行持续预训练,学习其文本的语义关系和背景知识;
S2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;
S3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释。
该基于预训练模型语义理解的多语言缩写消歧义算法具有的优点如下:
(1)基于具备强大的先验知识的预训练语言模型完成对于专业领域复杂缩写词的消歧义,有效地促进了科研人员及语言模型对于复杂文本的正确理解。
(2)利用Prompt Tuning算法,设计针对缩写消歧义任务的提示模板,在自然语言生成模型上对缩写词的含义进行生成。并提出了一种新的Protum算法增强对缩写词的理解,在保证消歧义效果的同时,又增加了模型的训练和预测速度,促进大语言模型在轻量设备的上的部署和应用。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于预训练模型语义理解的多语言缩写消歧义算法的微调模型结构图。
图2示意性地示出了根据本申请一个实施例的基于预训练模型语义理解的多语言缩写消歧义算法的基于Protum的缩写词语义消歧模型结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种基于预训练模型语义理解的多语言缩写消歧义算法,如图1-2所示,该方案的具体阐述如下:
首先,需要针对缩写消歧义任务构造合适的方法设计为自然语言处理的基本下游任务。针对相同缩写代表的不同解释,本发明采取的是替换的方法,即将同一个缩写的不同解释替换语句中的缩写词构造为二分类的任务,正确的解释进行替换则标签为真,否则为假。
上述构造下游任务的方法天然的能够增加数据样本的数量,但是带来的缺点就是正负样本的分布不均。本发明在进行预测时也是同样的数据构造方法,将预测为真的那个替换解释作为结果输出,前后维持了样本构造的一致性,所以构造方法是合理的。
为了实现基于背景知识的学习和语义理解的缩写消歧义,本发明进行了一下几个步骤:
步骤S1:在特定领域知识语料上进行持续预训练,学习其文本的语义关系和背景知识;
步骤S2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;
步骤S3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释;
在步骤S1当中,面向消歧义任务的语义特征学习分为数据构造、筛选和预训练:
原始的语句为x={w1,w2…wi-1,ai,wi+1…wn},wi表示语句的词语,ai表示句子中的缩写词。将该对应缩写词的解释插入到语句单中得到替换后的语句
Figure BDA0003766683780000041
其中ei表示缩写的可能的解释的单词。筛选出那些使用正确解释进行替换的语句,因为错误的替换会造成语义学习的错误,故舍去。
得到替换后的句子
Figure BDA0003766683780000042
按照一定的概率随机选取一定数量的词语进行遮盖,基于MLM预测遮盖处的正确词语。在此过程中,模型自主学习上下文知识(语义理解、背景知识)以达到正确预测被遮盖住的词汇。
进一步的,所示步骤S2包括:
经过步骤S1获得了充分学习背景知识和语义的持续预训练语言模型,基于该模型利用构造好的二分类任务数据进行微调。该过程旨在寻找目标函数
Figure BDA0003766683780000051
其中y∈{Ture,False},优化的目标为
Figure BDA0003766683780000052
其中yi表示真实标签,而P(yi)表示模型预测的值。
为了充分利用预训练模型的语义信息,本发明取出模型的最后四层对消歧义模型进行增强,具体的做法是(以bert-base-uncased为例):
取出
Figure BDA0003766683780000053
其中i∈{9,10,11,12},然后取Hidden_states[i]的CLS head即Hidden_states[i][0]进行拼接,接着对拼接的结果进行池化操作,即
Average_pooler_output=AVG(concatenate([Hidden_states[i][0]]))
Max_pooler_output=MAX(concatenate([Hidden_states[i][0]]))
Last_layer_average_pooler=AVG(concatenate([Hidden_states[12]]))
其中i∈[9,12],i∈Z.
将上诉对于Hidden_states进行各项池化操作所得到的结果与模型本身的输出结果pooler_output拼接在一起,然后将拼接好的向量输入到分类器当中对结果进行预测,从而达到对于缩写词正确含义的识别效果。在测试集上进行推断时,设置一定的阈值,如果判断为True的概率大于阈值,则推断该替换词为该缩写词的正确释义。
在上述微调技术方法基础上,本发明又结合了自然语言处理领域学术前沿的研究Prompt Tuning来对缩写词消歧义任务准确度进行增强。
微调方法有两个缺点,第一是时间复杂度为O(n2),预训练和微调消耗的时间非常大,第二是面对多语言时需要多次复制模型造成空间冗余。这两点限制模型在应用场景中的部署。针对该问题,本发明继续提出Protum,通过设计多个提示模板,在冻结预训练模型参数的情况下,基于持续预训练模型的先验知识通过遮盖语言模型(MLM)进行缩写消歧义。Protum的结构示意图如图二所示。
步骤s1:手工设计多个语言提示模板将原来文本x转化为Ti,将缩写词消歧义转为模型预测MLM问题。
步骤s2:在带有提示模板的文本数据上,对预训练模型进行持续预训练,同上述微调方法一致,目的是为了模型能够在特定领域上理解文本语义。同时该预训练的操作也能够让模型学习消歧义这个高级任务。
步骤s3:鉴于目前的PT算法对于预训练模型hidden states的利用不够,本发明借助残差网络的思想,在模型当中加入残差单元,并设置了超参数S,K,其中S表示残差单元插入的位置,K表示残差单元跨越的隐藏层数。通过调节这两个超参数,能够控制对隐藏层的利用以及模型参数量的大小。
Figure BDA0003766683780000061
j∈[1,12],j∈Z,
Figure BDA0003766683780000062
表示预训练模型各层的hidden states,而
Figure BDA0003766683780000063
表示当前残差单元的输入,Ti表示加入提示模板后文本中的<mask>所在位置,FC表示线性层,ReLU表示在残差模块中的激活函数。
步骤s4:通过直接把MASK位置的hidden states直接送入分类器映射到标签,以替换现有PT方法把hidden states转为具体的词再利用Verbalizer映射到标签。这样做的好处在与直接进行高纬空间分类,从而不受答案词的长度影响,并且提升模型的预测精度。
人类的语言组成极其的复杂,随着各领域的发展,越来越多的名词术语被创造出来,为了方便记录,人们对很多词语进行了简写,这就造成了很多专业术语的简写在没有注释的情况下需要很丰富的知识背景才能进行解释。本发明基于现在前沿的预训练语言理解模型和生成模型对缩写词消歧义设计合适的NLP下游任务,来实现对于缩写词的真正含义的理解。本发明是首次将Prompt Tuning算法应用到缩写词的消歧义任务当中,并且提出了一种新的Protum模型增强对于缩写词的解释。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims (7)

1.一种基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,包括如下步骤:
S1:在知识语料上进行持续预训练,学习其文本的语义关系和背景知识;
S2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;
S3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释。
2.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,在步骤S1中:面向消歧义任务的语义特征学习分为数据构造、筛选和预训练:
原始的语句为x={w1,w2…wi-1,ai,wi+1…wn},wi表示语句的词语,ai表示句子中的缩写词;
将该对应缩写词的解释插入到语句单中得到替换后的语句
Figure FDA0003766683770000013
其中ei表示缩写的可能的解释的单词;
筛选出那些使用正确解释进行替换的语句,因为错误的替换会造成语义学习的错误,故舍去;
得到替换后的句子
Figure FDA0003766683770000011
按照一定的概率随机选取一定数量的词语进行遮盖,基于MLM预测遮盖处的正确词语;
在此过程中,模型自主学习上下文知识以达到正确预测被遮盖住的词汇。
3.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,所述步骤S2包括:
经过步骤S1获得了充分学习背景知识和语义的持续预训练语言模型,基于该模型利用构造好的二分类任务数据进行微调;
该过程旨在寻找目标函数
Figure FDA0003766683770000012
其中y∈{Ture,False},优化的目标为
Figure FDA0003766683770000021
其中yi表示真实标签,而P(yi)表示模型预测的值。
4.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤S1具体包括:手工设计多个语言提示模板将原来文本x转化为Ti,将缩写词消歧义转为模型预测MLM问题。
5.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s2具体包括:在带有提示模板的文本数据上,对预训练模型进行持续预训练,目的是为了模型能够在特定领域上理解文本语义,同时该预训练的操作也能够让模型学习消歧义这个高级任务。
6.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s3具体包括:在模型当中加入残差单元,并设置了超参数S,K,其中S表示残差单元插入的位置,K表示残差单元跨越的隐藏层数;
通过调节这两个超参数,能够控制对隐藏层的利用以及模型参数量的大小;
Figure FDA0003766683770000022
Figure FDA0003766683770000023
表示预训练模型各层的hidden states,而
Figure FDA0003766683770000024
表示当前残差单元的输入,Ti表示加入提示模板后文本中的<mask>所在位置,FC表示线性层,ReLU表示在残差模块中的激活函数。
7.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s4具体包括:通过直接把MASK位置的hidden states直接送入分类器映射到标签,以替换PT方法把hidden states转为具体的词再利用Verbalizer映射到标签。
CN202210888947.5A 2022-07-27 2022-07-27 基于预训练模型语义理解的多语言缩写消歧义算法 Pending CN115293168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210888947.5A CN115293168A (zh) 2022-07-27 2022-07-27 基于预训练模型语义理解的多语言缩写消歧义算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210888947.5A CN115293168A (zh) 2022-07-27 2022-07-27 基于预训练模型语义理解的多语言缩写消歧义算法

Publications (1)

Publication Number Publication Date
CN115293168A true CN115293168A (zh) 2022-11-04

Family

ID=83823997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210888947.5A Pending CN115293168A (zh) 2022-07-27 2022-07-27 基于预训练模型语义理解的多语言缩写消歧义算法

Country Status (1)

Country Link
CN (1) CN115293168A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303980A (zh) * 2023-05-19 2023-06-23 无码科技(杭州)有限公司 一种大语言模型知识增强方法、系统、电子设备及介质
CN117056518A (zh) * 2023-08-17 2023-11-14 天津大学 基于任务难度评估和级联优化的立法意见审查系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303980A (zh) * 2023-05-19 2023-06-23 无码科技(杭州)有限公司 一种大语言模型知识增强方法、系统、电子设备及介质
CN116303980B (zh) * 2023-05-19 2023-08-15 无码科技(杭州)有限公司 一种大语言模型知识增强方法、系统、电子设备及介质
CN117056518A (zh) * 2023-08-17 2023-11-14 天津大学 基于任务难度评估和级联优化的立法意见审查系统及方法

Similar Documents

Publication Publication Date Title
CN110334354B (zh) 一种中文关系抽取方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN108287822B (zh) 一种中文相似问题生成系统与方法
Yao et al. An improved LSTM structure for natural language processing
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN115293168A (zh) 基于预训练模型语义理解的多语言缩写消歧义算法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Diao et al. Heterographic pun recognition via pronunciation and spelling understanding gated attention network
Simske et al. Functional Applications of Text Analytics Systems
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Jiang et al. Gatsum: graph-based topic-aware abstract text summarization
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Guo RETRACTED: An automatic scoring method for Chinese-English spoken translation based on attention LSTM [EAI Endorsed Scal Inf Syst (2022), Online First]
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Li Analysis of semantic comprehension algorithms of natural language based on robot’s questions and answers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination