CN114238644B - 一种降低语义识别计算量的方法、系统及存储介质 - Google Patents

一种降低语义识别计算量的方法、系统及存储介质 Download PDF

Info

Publication number
CN114238644B
CN114238644B CN202210160086.9A CN202210160086A CN114238644B CN 114238644 B CN114238644 B CN 114238644B CN 202210160086 A CN202210160086 A CN 202210160086A CN 114238644 B CN114238644 B CN 114238644B
Authority
CN
China
Prior art keywords
training
model
target
sub
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210160086.9A
Other languages
English (en)
Other versions
CN114238644A (zh
Inventor
王宇龙
张倬胜
华菁云
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanzhou Technology Co ltd
Original Assignee
Beijing Lanzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanzhou Technology Co ltd filed Critical Beijing Lanzhou Technology Co ltd
Priority to CN202210160086.9A priority Critical patent/CN114238644B/zh
Publication of CN114238644A publication Critical patent/CN114238644A/zh
Application granted granted Critical
Publication of CN114238644B publication Critical patent/CN114238644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,特别涉及一种降低语义识别计算量的方法、系统及存储介质。本发明的降低语义识别计算量的方法包括如下步骤:获取预训练模型;对预训练模型增加语言学训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。通过增加语言学训练目标的设计,使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。

Description

一种降低语义识别计算量的方法、系统及存储介质
技术领域
本发明涉及自然语言处理领域,特别涉及一种降低语义识别计算量的方法、系统及存储介质。
背景技术
近年来,预训练模型成为了自然语言处理(NLP)领域的新范式。预训练模型是一种迁移学习的应用,通过自监督学习从大规模数据中训练得到与具体任务无关的预训练模型,利用几乎无限的文本,学习输入句子的每一个词语单元的上下文相关的表示,从而隐式地学习通用的语法语义知识,并可通过微调的方式用在任何的下游任务上。
语言建模的核心是从大规模数据中自动捕获知识。知识分为显性知识和隐性知识。显性知识是能用文字和数字表达出来的,容易以硬数据的形式交流和共享,并且经编辑整理的程序或者普遍原则。隐性知识是高度个性而且难于格式化的知识,包括主观的理解、直觉和预感。传统NLP研究常常采用语言标注信息作为显性知识来增强语言表示,进而更好地在模型隐层中挖掘隐性知识,如向词嵌入表示(Word Embedding)中融合词性标注(POS)和命名实体(NER)的标注信息。在预训练模型时代,已有研究表明预训练模型依然处于欠拟合状态,有效地引入人类先验知识或常识有助于提升模型的语言理解和推理能力。
现有的一些方案通过语言学相关的任务来引导模型学习人类语言结构,包括语言表示层面和注意力架构层面。具体而言,前者将标注的词性标签、实体标签或语言角色标签等语言学信息通过词嵌入的方式融合到词语表示中,作为语言学标签的增强;后者通过句法结构解析,得到词和词之间的关系,构建关系矩阵,融合到注意力机制的权重里面。这两类方法均需要对模型架构进行修改,导致模型的计算量过大的问题。
发明内容
为解决现有模型的计算量过大的问题,本发明提供了一种降低语义识别计算量的方法、系统及存储介质。
本发明解决技术问题的方案是提供一种降低语义识别计算量的方法,包括以下步骤:
将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本,输入拓展句子样本至预设语言模型中,得到编码后的上下文表示,并基于预设第一训练目标训练语言模型以获取预训练模型,所述第一训练目标为解析被覆盖的子词序列;
将训练句子样本标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标,即增加第二训练目标成为最终训练模型,也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型,所述语言学训练目标为根据上下文表示,预测相应的词性标签概率和实体标签概率;
将待识别文本输入最终训练模型;
输出待识别文本语义。
优选地,通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。
优选地,所述第一训练目标设置为
Figure 142016DEST_PATH_IMAGE001
;所述第二训练目标设置为
Figure 524587DEST_PATH_IMAGE002
Figure 330869DEST_PATH_IMAGE003
,所述最终训练模型的训练目标设置为
Figure 239919DEST_PATH_IMAGE004
,其中
Figure 716031DEST_PATH_IMAGE005
为预训练模型的损失函数,
Figure 710532DEST_PATH_IMAGE006
Figure 320504DEST_PATH_IMAGE007
为词性标签和实体标签的预测损失函数,
Figure 959427DEST_PATH_IMAGE008
为第k个输入的句子,
Figure 731074DEST_PATH_IMAGE009
为拓展句子样本,
Figure 212871DEST_PATH_IMAGE010
为第i个词性标签,
Figure 360956DEST_PATH_IMAGE011
为第i个实体标签,
Figure 358780DEST_PATH_IMAGE012
Figure 566907DEST_PATH_IMAGE013
为预测其对应的语言学标签的概率。
优选地,通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。
优选地,切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。
本发明为解决上述技术问题还提供一种降低语义识别计算量的系统,其特征在于:包括:
训练模块:将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本,输入拓展句子样本至预设语言模型中,得到编码后的上下文表示,并基于预设第一训练目标训练语言模型以获取预训练模型;所述第一训练目标为解析被覆盖的子词序列;将训练句子样本标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标,即增加第二训练目标成为最终训练模型;也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型,所述语言学训练目标为根据上下文表示,预测相应的词性标签概率和实体标签概率;
输入模块,用于将待识别文本输入最终训练模型;
输出模块,用于输出待识别文本语义。
本发明为解决上述技术问题还提供一种储存介质,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的一种降低语义识别计算量的方法、系统及存储介质,具有以下优点:
1、本发明的降低语义识别计算量的方法先获取预训练模型;对预训练模型增加语言学训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。通过增加语言学训练目标的设计,使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。
2、本发明的降低语义识别计算量的方法的获取预训练模型的具体步骤包括:获取训练句子样本W,设立第一训练目标,将训练句子样本W拆分成子词序列,对训练句子样本W的子词序列进行随机覆盖以生成拓展句子样本W’,将所述拓展句子样本W’输入语言模型,得到编码后的上下文表示H,并通过第一训练目标训练模型获得预训练模型。通过覆盖子词序列来训练模型,使得模型初步获得还原语义的能力。
3、本发明的降低语义识别计算量的方法对预训练模型增加语言学训练目标成为最终训练模型的具体步骤包括:将训练句子样本W标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标即第二训练目标,将第一训练目标与第二训练目标结合对模型进行增强训练,获得最终训练模型。通过给训练模型增加第二训练目标的设计,使得不需要改变模型本身结构即可提升训练模型的准确性,从而降低了模型的计算量。
4、本发明的降低语义识别计算量的方法的第一训练目标为解析被覆盖的子词序列,第二训练目标为让模型根据句子的上下文的表示H,预测相应的词性标签和实体标签概率。通过在解析被覆盖的子词序列的基础上,再增加分析词性、实体标签等训练目标,从而使得同等资源的情况下训练出来的模型的精确性更高。
5、本发明的降低语义识别计算量的方法通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。对训练句子样本W进行词性标签和实体标签的标注,再通过训练模型解析被遮盖的子词序列词性标签和实体标签,使得模型获得更多的功能性。
6、本发明的降低语义识别计算量的方法的第一训练目标设置为
Figure 270421DEST_PATH_IMAGE014
;第二训练目标设置为
Figure 97563DEST_PATH_IMAGE015
Figure 835711DEST_PATH_IMAGE016
,最终训练模型的训练目标设置为
Figure 949161DEST_PATH_IMAGE017
,其中
Figure 139971DEST_PATH_IMAGE005
为预训练模型的损失函数,
Figure 505224DEST_PATH_IMAGE018
Figure 97880DEST_PATH_IMAGE019
为词性标签和实体标签的预测损失函数,
Figure 647810DEST_PATH_IMAGE020
为第k个输入的句子,
Figure 325916DEST_PATH_IMAGE021
为拓展句子样本,
Figure 494860DEST_PATH_IMAGE010
为第i个词性标签,
Figure 942022DEST_PATH_IMAGE011
为第i个实体标签,
Figure 662853DEST_PATH_IMAGE012
Figure 202157DEST_PATH_IMAGE013
为预测其对应的语言学标签的概率。通过增加第二训练目标,并将第二训练目标与第一训练目标结合作为最终训练模型的训练目标,可以使得训练模型在不更改其本身架构的前提下,获得额外的准确性和鲁棒性。
7、本发明的降低语义识别计算量的方法通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。使用交叉熵损失函数作为损失函数,求导更简单,同时可以使模型训练的更快。
8、本发明的降低语义识别计算量的方法切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。在切分时记录子词元素及与其对应的词性标签和实体标签,在训练时即可将对应的子词元素打上标签,来判断训练的准确与否。
9、本发明还提供了一种降低语义识别计算量的系统,包括:训练模块,用于获取预训练模型,并对预训练模型增加语言学训练目标成为最终训练模型;输入模块,用于将待识别文本输入最终训练模型;输出模块,用于输出待识别文本语义。具有与上述方法相同的有益效果,此处不再赘述。
10、本发明还提供一种储存介质,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。具有与上述方法相同的有益效果,此处不再赘述。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的降低语义识别计算量的方法的步骤流程图。
图2是本发明第一实施例提供的降低语义识别计算量的方法的详细步骤流程图一。
图3是本发明第一实施例提供的降低语义识别计算量的方法的详细步骤流程图二。
图4是本发明第一实施例提供的示例的效果对比图。
图5是本发明第二实施例提供的降低语义识别计算量的系统的框图。
附图标识说明:
300、降低语义识别计算量的系统;
301、训练模块; 302、输入模块; 303、输出模块。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
请参阅图1,本发明第一实施例提供一种降低语义识别计算量的方法,包括以下步骤:
S1:获取预训练模型;
S2:对预训练模型增加语言学训练目标成为最终训练模型;
S3:将待识别文本输入最终训练模型;
S4:输出待识别文本语义。
通过增加语言学训练目标的设计,使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。
进一步地,请参阅图2,获取预训练模型的具体步骤包括:
S101:获取训练句子样本W,设立第一训练目标;
S102:将训练句子样本W拆分成子词序列,对训练句子样本W的子词序列进行随机覆盖以生成拓展句子样本W’;
S103:将所述拓展句子样本W’输入语言模型,得到编码后的上下文表示H,并通过第一训练目标训练模型获得预训练模型。
通过覆盖子词序列来训练模型,使得模型初步获得还原语义的能力。
进一步地,请参阅图3,对预训练模型增加语言学训练目标成为最终训练模型的具体步骤包括:
S201:将训练句子样本W标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标即第二训练目标,将第一训练目标与第二训练目标结合对模型进行增强训练,获得最终训练模型。
通过给训练模型增加第二训练目标的设计,使得不需要改变模型本身结构即可提升训练模型的准确性,从而降低了模型的计算量。
具体地,第一训练目标为解析被覆盖的子词序列,第二训练目标为让模型根据句子的上下文的表示H,预测相应的词性标签和实体标签概率。通过在解析被覆盖的子词序列的基础上,再增加分析词性、实体标签等训练目标,从而使得同等资源的情况下训练出来的模型的精确性更高。
进一步地,本发明的降低语义识别计算量的方法通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。对训练句子样本W进行词性标签和实体标签的标注,再通过训练模型解析被遮盖的子词序列词性标签和实体标签,使得模型获得更多的功能性。
具体地,第一训练目标设置为
Figure 33846DEST_PATH_IMAGE001
;第二训练目标设置为
Figure 335515DEST_PATH_IMAGE022
Figure 227247DEST_PATH_IMAGE003
,最终训练模型的训练目标设置为
Figure 614366DEST_PATH_IMAGE023
,其中
Figure 125113DEST_PATH_IMAGE005
为预训练模型的损失函数,
Figure 546867DEST_PATH_IMAGE018
Figure 609501DEST_PATH_IMAGE019
为词性标签和实体标签的预测损失函数,
Figure 359283DEST_PATH_IMAGE020
为第k个输入的句子,
Figure 798354DEST_PATH_IMAGE024
为拓展句子样本,
Figure 340194DEST_PATH_IMAGE010
为第i个词性标签,
Figure 449095DEST_PATH_IMAGE011
为第i个实体标签,
Figure 810807DEST_PATH_IMAGE025
Figure 522411DEST_PATH_IMAGE013
为预测其对应的语言学标签的概率。
通过增加第二训练目标,并将第二训练目标与第一训练目标结合作为最终训练模型的训练目标,可以使得训练模型在不更改其本身架构的前提下,获得额外的准确性和鲁棒性。具体地,本发明的降低语义识别计算量的方法通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。使用交叉熵损失函数作为损失函数,求导更简单,同时可以使模型训练的更快。
进一步地,本发明的降低语义识别计算量的方法切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。在切分时记录子词元素及与其对应的词性标签和实体标签,在训练时即可将对应的子词元素打上标签,来判断训练的准确与否。
示例地,我们将RoBERTa-wwm-ext模型作为基准模型,即预训练模型,
Figure 918757DEST_PATH_IMAGE026
用spaCy工具得到输入的训练句子W的每个词所对应的词性标签和实体标签,分别记为P={t1,t2,…,tn}和E={e1,e2,…,en}进而得到相应的词性标签和实体标签序列。由于语言模型采用子词序列作为输入,在切分时记录每个词所切分后的子词元素。对于知识标注序列(词性标签和实体标签序列),将文本序列中的每个子词对应原始词所对应的标签序列,进而得到子词级别的标签序列。
为实现知识辅助预训练,根据语言模型编码后的文本隐层表示,预测每个词所对应的知识标签概率,与目标标签计算交叉熵损失。
在模型输出端,增加相应的语言学训练目标,即让模型根据句子的上下文的表示H,预测相应的词性标签和实体标签概率,记为
Figure 697095DEST_PATH_IMAGE012
Figure 546102DEST_PATH_IMAGE027
Figure 61397DEST_PATH_IMAGE028
Figure 312250DEST_PATH_IMAGE003
结合语言学增强的训练目标联合训练,记为
Figure 28533DEST_PATH_IMAGE023
将RoBERTa-wwm-ext模型与加入语言学训练目标的模型对比。在ChineseWikipedia, Chinese News和Common Crawl等语料上预训练后,将训好的语言模型在中文CLUE评测平台的9个数据集上(开发集)验证性能。对比结果如图4所示,图4展示了知识增强模型与基准模型的性能对比,可见知识增强后的模型表现出了显著的性能提升。
示例性地,原始输入句子:
Thank you for inviting meto your party last week
语言模型在预处理过程中采用特殊标记[MASK]随机替换句子中的词语:
Thank you for [MASK][MASK] to your [MASK] last week
语言模型的训练目标为还原出[MASK]标记所遮盖的词,常规模型的输出如下所示:
{inviting, us, home} 对应3个[MASK]标记所遮盖的内容
即Thank you for invitingus to your home last week
由于语言模型的训练方式为交叉熵,即判断每个词与目标词是否完全匹配。由此可见,us和home都会被判断为错误预测。
实际上,语言表达具有多样性,该模型预测结果回填到句子后,新的句子为符合语言表达逻辑的、与原始句子语义近似的规范句子,应判断为正确的预测。
因此,本发明采用计算句子语义距离的方式,来衡量语义变化,即预测的句子语义与原始句子语义相似时,损失应越小,从而缓解以上问题。
请参阅图5,本发明第二实施例提供了一种降低语义识别计算量的系统300,包括:
训练模块301,用于获取预训练模型,并对预训练模型增加语言学训练目标成为最终训练模型;
输入模块302,用于将待识别文本输入最终训练模型;
输出模块303,用于输出待识别文本语义。
本发明第三实施例提供一种储存介质,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。具有与上述方法相同的有益效果,此处不再赘述。
与现有技术相比,本发明的一种降低语义识别计算量的方法、系统及存储介质,具有以下优点:
1、本发明的降低语义识别计算量的方法先获取预训练模型;对预训练模型增加语言学训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。通过增加语言学训练目标的设计,使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。
2、本发明的降低语义识别计算量的方法的获取预训练模型的具体步骤包括:获取训练句子样本W,设立第一训练目标,将训练句子样本W拆分成子词序列,对训练句子样本W的子词序列进行随机覆盖以生成拓展句子样本W’,将所述拓展句子样本W’输入语言模型,得到编码后的上下文表示H,并通过第一训练目标训练模型获得预训练模型。通过覆盖子词序列来训练模型,使得模型初步获得还原语义的能力。
3、本发明的降低语义识别计算量的方法对预训练模型增加语言学训练目标成为最终训练模型的具体步骤包括:将训练句子样本W标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标,即第二训练目标,将第一训练目标与第二训练目标结合对模型进行增强训练,获得最终训练模型。通过给训练模型增加第二训练目标的设计,使得不需要改变模型本身结构即可提升训练模型的准确性,从而降低了模型的计算量。
4、本发明的降低语义识别计算量的方法的第一训练目标为解析被覆盖的子词序列,第二训练目标为让模型根据句子的上下文的表示H,预测相应的词性标签和实体标签概率。通过在解析被覆盖的子词序列的基础上,再增加分析词性、实体标签等训练目标,从而使得同等资源的情况下训练出来的模型的精确性更高。
5、本发明的降低语义识别计算量的方法通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。对训练句子样本W进行词性标签和实体标签的标注,再通过训练模型解析被遮盖的子词序列词性标签和实体标签,使得模型获得更多的功能性。
6、本发明的降低语义识别计算量的方法的第一训练目标设置为
Figure 364837DEST_PATH_IMAGE014
;第二训练目标设置为
Figure 683822DEST_PATH_IMAGE015
Figure 664548DEST_PATH_IMAGE016
,最终训练模型的训练目标设置为
Figure 410787DEST_PATH_IMAGE017
,其中
Figure 968807DEST_PATH_IMAGE005
为预训练模型的损失函数,
Figure 91484DEST_PATH_IMAGE018
Figure 926716DEST_PATH_IMAGE019
为词性标签和实体标签的预测损失函数,
Figure 843856DEST_PATH_IMAGE020
为第k个输入的句子,
Figure 154752DEST_PATH_IMAGE021
为拓展句子样本,
Figure 455021DEST_PATH_IMAGE010
为第i个词性标签,
Figure 269393DEST_PATH_IMAGE011
为第i个实体标签,
Figure 623014DEST_PATH_IMAGE012
Figure 155627DEST_PATH_IMAGE013
为预测其对应的语言学标签的概率。通过增加第二训练目标,并将第二训练目标与第一训练目标结合作为最终训练模型的训练目标,可以使得训练模型在不更改其本身架构的前提下,获得额外的准确性和鲁棒性。
7、本发明的降低语义识别计算量的方法通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。使用交叉熵损失函数作为损失函数,求导更简单,同时可以使模型训练的更快。
8、本发明的降低语义识别计算量的方法切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。在切分时记录子词元素及与其对应的词性标签和实体标签,在训练时即可将对应的子词元素打上标签,来判断训练的准确与否。
9、本发明还提供了一种降低语义识别计算量的系统,包括:训练模块,用于获取预训练模型,并对预训练模型增加语言学训练目标成为最终训练模型;输入模块,用于将待识别文本输入最终训练模型;输出模块,用于输出待识别文本语义。具有与上述方法相同的有益效果,此处不再赘述。
10、本发明还提供一种储存介质,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。具有与上述方法相同的有益效果,此处不再赘述。
以上对本发明实施例公开的一种降低语义识别计算量的方法、系统及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (7)

1.一种降低语义识别计算量的方法,其特征在于:包括以下步骤:
将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本,输入拓展句子样本至预设语言模型中,得到编码后的上下文表示,并基于预设第一训练目标训练语言模型以获取预训练模型;所述第一训练目标为解析被覆盖的子词序列;
将训练句子样本标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标,即增加第二训练目标成为最终训练模型,也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型,所述语言学训练目标为根据上下文表示,预测相应的词性标签概率和实体标签概率;
将待识别文本输入最终训练模型;
输出待识别文本语义。
2.如权利要求1所述的降低语义识别计算量的方法,其特征在于:通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。
3.如权利要求1所述的降低语义识别计算量的方法,其特征在于:所述第一训练目标设置为
Figure 197617DEST_PATH_IMAGE001
;所述第二训练目标设置为
Figure 380336DEST_PATH_IMAGE002
Figure 566598DEST_PATH_IMAGE003
,所述最终训练模型的训练目标设置为
Figure 227387DEST_PATH_IMAGE004
,其中
Figure 41759DEST_PATH_IMAGE005
为预训练模型的损失函数,
Figure 536325DEST_PATH_IMAGE006
Figure 68938DEST_PATH_IMAGE007
为词性标签和实体标签的预测损失函数,
Figure 533417DEST_PATH_IMAGE008
为第k个输入的句子,
Figure 202296DEST_PATH_IMAGE009
为拓展句子样本,
Figure 867764DEST_PATH_IMAGE010
为第i个词性标签,
Figure 887672DEST_PATH_IMAGE011
为第i个实体标签,
Figure 890263DEST_PATH_IMAGE012
Figure 53129DEST_PATH_IMAGE013
为预测其对应的语言学标签的概率。
4.如权利要求3所述的降低语义识别计算量的方法,其特征在于:通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。
5.如权利要求1所述的降低语义识别计算量的方法,其特征在于:切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。
6.一种降低语义识别计算量的系统,其特征在于:包括:
训练模块:将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本,输入拓展句子样本至预设语言模型中,得到编码后的上下文表示,并基于预设第一训练目标训练语言模型以获取预训练模型;所述第一训练目标为解析被覆盖的子词序列;将训练句子样本标注词性标签和实体标签,并给预训练模型增加相应的语言学训练目标,即增加第二训练目标成为最终训练模型;也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型,所述语言学训练目标为根据上下文表示,预测相应的词性标签概率和实体标签概率;
输入模块,用于将待识别文本输入最终训练模型;
输出模块,用于输出待识别文本语义。
7.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。
CN202210160086.9A 2022-02-22 2022-02-22 一种降低语义识别计算量的方法、系统及存储介质 Active CN114238644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210160086.9A CN114238644B (zh) 2022-02-22 2022-02-22 一种降低语义识别计算量的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210160086.9A CN114238644B (zh) 2022-02-22 2022-02-22 一种降低语义识别计算量的方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN114238644A CN114238644A (zh) 2022-03-25
CN114238644B true CN114238644B (zh) 2022-06-07

Family

ID=80747730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210160086.9A Active CN114238644B (zh) 2022-02-22 2022-02-22 一种降低语义识别计算量的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114238644B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125331B (zh) * 2019-12-20 2023-10-31 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN111626056B (zh) * 2020-04-11 2023-04-07 中国人民解放军战略支援部队信息工程大学 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
CN111639181A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
CN112052318A (zh) * 2020-08-18 2020-12-08 腾讯科技(深圳)有限公司 一种语义识别方法、装置、计算机设备和存储介质
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN113673237A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 模型训练、意图识别方法、装置、电子设备及存储介质
CN114036950B (zh) * 2021-11-10 2024-05-10 山东大学 一种医疗文本命名实体识别方法及系统

Also Published As

Publication number Publication date
CN114238644A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN110334354B (zh) 一种中文关系抽取方法
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Hori et al. Dialog state tracking with attention-based sequence-to-sequence learning
CN114298053B (zh) 一种基于特征和注意力机制融合的事件联合抽取系统
CN111563146B (zh) 一种基于推理的难度可控问题生成方法
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111079418A (zh) 命名体识别方法、装置、电子设备和存储介质
Kitaev et al. Learned incremental representations for parsing
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
Ostendorf Continuous-space language processing: Beyond word embeddings
CN114238644B (zh) 一种降低语义识别计算量的方法、系统及存储介质
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN110889284A (zh) 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant