CN113627152B - 一种基于自监督学习的无监督机器阅读理解训练方法 - Google Patents

一种基于自监督学习的无监督机器阅读理解训练方法 Download PDF

Info

Publication number
CN113627152B
CN113627152B CN202110805842.4A CN202110805842A CN113627152B CN 113627152 B CN113627152 B CN 113627152B CN 202110805842 A CN202110805842 A CN 202110805842A CN 113627152 B CN113627152 B CN 113627152B
Authority
CN
China
Prior art keywords
machine reading
paragraph
training
self
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110805842.4A
Other languages
English (en)
Other versions
CN113627152A (zh
Inventor
孙乐
边宁
韩先培
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202110805842.4A priority Critical patent/CN113627152B/zh
Publication of CN113627152A publication Critical patent/CN113627152A/zh
Application granted granted Critical
Publication of CN113627152B publication Critical patent/CN113627152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于自监督学习的无监督机器阅读理解训练方法,其步骤包括:1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。本发明能够利用语料库自身的信息,直接学习机器阅读理解所需的能力,而不需要任何人工标注的阅读理解数据,也不需要利用启发式规则人工合成训练数据,所训练模型鲁棒性高。

Description

一种基于自监督学习的无监督机器阅读理解训练方法
技术领域
本发明涉及一种机器阅读理解模型训练方法,特别是一种基于自监督学习的无监督机器阅读理解模型训练方法,属于自然语言处理技术领域。
背景技术
机器阅读理解技术是指给定一个文本段落和一个相关的问题,利用机器学习的方法训练模型,使模型能够从文本段落中提取问题的答案。
机器阅读理解技术是构建智能信息服务的支撑技术之一。互联网文本数据包含着大量的信息和知识,但是这些数据以非结构化的方式储存。以信息检索为主的传统信息获取技术难以满足用户精细化和多样化的信息需求。以机器阅读理解为核心构建的自动问答系统为解决用户的精细化信息需求提供了有效手段。
机器阅读理解模型往往依赖大量人工标注的训练数据进行训练,难以直接应用于新的领域和低资源语言。现有的预训练语言模型并非为阅读理解任务所设计,预训练语言模型关注的上下文相关词预测能力与阅读理解所需的答案提取能力之间存在能力偏差。现有的基于合成数据的无监督机器阅读理解方法难以生成高质量的阅读理解数据,使用这些合成数据训练的机器阅读理解模型难以满足真实应用场景对性能和鲁棒性的要求。
自监督学习是指通过设计自监督训练任务,利用无标注数据本身的信息训练模型,使模型具备特定能力的技术。
发明内容
为更有效地训练无监督机器阅读理解模型,本发明提供了一种基于自监督学习的无监督机器阅读理解训练方法。
内容包括:(一)针对机器阅读理解的自监督学习任务及其训练方法;(二)用于无监督阅读理解模型的问句转换方法。针对机器阅读理解的自监督学习任务能够利用语料库自身的信息,直接学习机器阅读理解所需的能力。用于无监督阅读理解模型的问句转换方法与自监督学习相配合,解决无标注语料中的陈述句与阅读理解任务中的问句之间句法不一致的问题。
本发明所采用的技术方案概述如下:
一种基于自监督学习的无监督机器阅读理解训练方法,包括以下部分:
1)自监督学习任务的设定和训练:输入语料库中的每个自然语言文本段落,自监督学习任务首先寻找段落中重复出现的有意义的词或词组,并将其中的一个词或词组替换为设定的[MASK]符号(通常设定为特殊的字符,与一般英语单词不同);然后利用统计信息对替换后的段落进行筛选;最后训练机器阅读理解模型根据段落中[MASK]符号的上下文信息,从替换后的段落中定位一个连续的字符串(通过预测字符串的起止位置),填补段落中的[MASK]位置。
2)面向无监督机器阅读理解的问句转换方法:在模型测试和应用阶段,在将阅读理解任务中的问句输入经过上述训练的机器阅读理解模型之前,将问句转换为带有[MASK]符号的陈述句,从而保持模型训练阶段和测试(应用)阶段输入数据形式的一致性;在这一阶段的转换中,寻找问句中出现的疑问词,将疑问词替换为[MASK];再将转换后所得陈述句输入模型中,获取答案。
进一步地,技术1)部分选取的有意义的词或词组是指满足以下条件的字符串:(1)该字符串在文本段落中出现次数t满足2≤t≤4;(2)该字符串不包括停止词和标点符号;(3)该字符串的长度不大于5个词。通过该约束条件,使得被替换成[MASK]的词或词组包含更多的信息,从而有利于训练机器阅读理解模型。
进一步地,技术1)部分所涉及的数据筛选部分包括定义自监督数据的打分函数:
(1)ScorePass:计算段落中所有词的TF-IDF值之和。
(2)ScoreMask:计算被替换的词组中所有词的TF-IDF值之和。
(3)Scoreans:计算[MASK]的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度。
数据的打分为上述三个分数的加权和,即
Score=ScorePass+αScoreMask+βScoreans
其中α和β为超参数。综合利用三个打分函数对数据进行排序,能够进一步选择有利于训练阅读理解模型的数据。
进一步地,技术1)部分还包括一个迭代数据筛选机制。迭代数据筛选机制利用在一部分自监督数据(上述筛选后的若干段落)上训练得到的模型,对剩余的数据进行打分,去除分数低于某一设定阈值的自监督数据,利用剩余的自监督数据进行下一个迭代轮次的训练。该迭代数据筛选机制能够在模型迭代训练的过程中对数据进行进一步的筛选,以保证最终用于训练阅读理解模型的数据的质量。
进一步地,技术2)部分使用基于模板的问句转换算法,将问句中的疑问代词替换为带有[MASK]字符的模板,从而将问句转换为陈述句。该问句转换方法能够有效解决问答情境下的问句与模型训练情境下的陈述句之间的句法结构不一致的问题。
与现有技术相比,本发明的有益效果是:
1)提出了针对机器阅读理解的自监督学习任务及其训练方法,能够利用语料库自身的信息,直接学习机器阅读理解所需的能力,而不需要任何人工标注的阅读理解数据,也不需要利用启发式规则人工合成训练数据。
2)提出了用于无监督阅读理解模型的问句转换方法,能够有效解决无标注语料中的陈述句与阅读理解任务中的问句之间的句法不一致问题,提高了阅读理解模型的鲁棒性。
附图说明
图1为针对机器阅读理解的自监督学习训练方法流程图。
图2为模型测试时,将阅读理解任务中的问句转换为带有[MASK]符号的陈述句的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面对本发明做进一步详细说明。
本发明包括一种基于自监督学习的无监督机器阅读理解训练方法,包括两个关键部分:
1)自监督学习任务的设定和训练:输入语料库中的每个自然语言文本段落,自监督学习任务首先寻找段落中重复出现的有意义的词或词组,并将其中的一个词或词组替换为设定的[MASK]符号;然后利用统计信息对替换后的段落进行筛选;最后训练机器阅读理解模型根据段落中[MASK]符号的上下文信息,从替换后的段落中定位一个连续的字符串(通过预测字符串的起止位置),填补段落中的[MASK]位置。
2)面向无监督机器阅读理解的问句转换方法:在模型测试和应用阶段,在将阅读理解任务中的问句输入经过上述训练的机器阅读理解模型之前,将问句转换为带有[MASK]符号的陈述句,从而保持模型训练阶段和测试(应用)阶段输入数据形式的一致性。
自监督学习任务:
具体地,本发明设计的针对机器阅读理解的自监督任务可形式化地表示为
Figure BDA0003166503000000031
给定一个带有[MASK]字符的文本段落pmask,自监督任务要求机器阅读理解模型在该段落中预测一个字符串的开始和结束位置[istart,iend],这个字符串可以填充[MASK]字符的内容。
例如,在图1所示的文本段落中,第二个“vitamin D”被替换为[MASK]字符,自监督任务要求机器阅读理解系统预测第一个“vitamin D”的起止位置,利用第一个“vitamin D”填充这个[MASK]位置。
与现有的预训练语言模型不同,该自监督任务将填补[MASK]字符的方式限制为段落中的一个连续字符串。通过该自监督任务的训练,机器阅读理解模型能够自动学习挖掘文本段落中句子之间深层关联关系的能力,以及准确地从段落中提取所需的字符串的能力,这是机器阅读理解所需的核心能力。
为了更有效地进行自监督学习训练,被替换为[MASK]字符的部分应该是有意义的词组,具有足够的信息量。为此,首先寻找在文本段落中出现两次的字符串,并选取需要满足以下条件的字符串:
(1)该字符串在文本段落中出现次数t满足2≤t≤4,因为频率过高的字符串往往是信息量低的;
(2)该字符串不包括停止词和标点符号,因为停止词和标点符号通常不会出现在问题的简短答案中;
(3)该字符串的长度不大于5个词,因为过长的字符串的上下文能够提供的信息较少。
自监督学习使用交叉熵损失函数训练机器阅读理解模型。给定一个pmask,训练目标是最大化正确的起止位置的对数概率。具体地,训练目标函数为
Figure BDA0003166503000000041
其中
Figure BDA0003166503000000042
Figure BDA0003166503000000043
表示机器阅读理解模型输出的起止位置的概率,j是训练数据的编号,N是训练数据总数。
数据排序筛选:
使用一个数据排序筛选机制去除自监督学习数据中过于容易预测的低质量数据。该数据排序机制使用基于TF-IDF的数据打分函数,包含三个部分:
(1)ScorePass:为了评估文本段落的质量,排除无意义的段落,计算段落中所有词的TF-IDF值之和。
(2)ScoreMask:为了评估被替换为[MASK]字符的词组的信息量,避免替换过于简单的、无意义的词组,计算被替换的词组中所有词的TF-IDF值之和。
(3)Scoreans:为了在存在多个答案位置的情况中选取更好的答案位置,计算[MASK]的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度,上下文为大小为10个词的窗口。两个句子(词语序列)之间可以利用各个词的TF-IDF数值计算相似度。
数据的打分为上述三个分数的加权和,即
Score=ScorePass+αScoreMask+βScoreans
其中α和β为超参数。
根据该分数对所有自监督数据由大到小进行排序,取分数最高的前N条数据进行自监督学习。
通过数据排序机制,机器阅读理解模型能够利用更高质量的段落进行更有效的学习。
迭代数据筛选:
在自监督数据中,并非所有的数据中的[MASK]字符都是可预测的,而这与阅读理解任务的设定不一致。为了减少这类不可预测的数据,使用了一个迭代数据筛选机制,以滤除预测概率低的自监督数据。
具体地,自监督数据首先被划分为5组。首先使用一组数据训练机器阅读理解模型,然后利用训练后的模型计算下一组各个数据的预测概率,去除概率小于某一设定阈值τ的数据。再利用剩余的数据继续训练机器阅读理解模型。重复上述过程,直到5组数据都被用于训练。
为计算数据的预测概率,首先利用模型计算文本段落中各个单词位置为开始和结束位置的概率,则一个子字符串的概率为其头尾的开始/结束概率的乘积。取子字符串概率最高的20个子字符串,对其概率进行Softmax归一化,数据的预测概率则为其中正确答案字符串的归一化概率,如果正确答案没有包含在概率最高的20个子字符串中,则数据的预测概率为0。
机器阅读理解模型:
本发明中的机器阅读理解模型可采取多种不同结构的模型,包括但不限于基于BERT(Bidirectional Encoder Representations from Transformers)等预训练语言模型的机器阅读理解模型。
问句转换:
在模型测试和实际使用阶段,为了解决无标注语料中的陈述句与阅读理解任务中的问句之间存在句法不一致问题,需要将问句转换为带有[MASK]符号的陈述句。具体地,如图2所示,在问题输入机器阅读理解模型之前,首先使用基于模板的问句转换算法,将问句中的疑问代词替换为带有[MASK]字符的模板,从而将问句转换为陈述句。随后,机器阅读理解模型根据转换后的陈述句,从给定的文本段落中抽取问题的答案。
以上实施例仅用于说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (8)

1.一种基于自监督学习的无监督机器阅读理解训练方法,其步骤包括:
1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;利用统计信息对替换后的段落进行筛选,得到用于训练机器阅读理解模型的段落;其中筛选方法为:首先计算段落中所有词的TF-IDF值之和、计算被替换的词组中所有词的TF-IDF值之和、计算所述设定符号的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度;然后根据计算段落的分值,选取分值最高的前N条数据;其中α和β为超参数;
2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。
2.如权利要求1所述的方法,其特征在于,还包括一个迭代数据筛选机制;该迭代数据筛选机制利用在一部分自监督数据上训练得到的机器阅读理解模型,对剩余的自监督数据进行打分,去除分数低于设定阈值的自监督数据,利用剩余的自监督数据进行下一个迭代轮次的训练;所述自监督数据为利用统计信息筛选后所得的段落。
3.如权利要求1所述的方法,其特征在于,所述设定条件包括:(1)字符串在段落中重复出现;(2) 字符串不包括停止词和标点符号;(3) 字符串的长度不大于5个词。
4.如权利要求3所述的方法,其特征在于,重复出现次数t满足2≤t≤4。
5.如权利要求1或2所述的方法,其特征在于,所述设定符号为非英语单词。
6.一种机器阅读理解模型获取答案的方法,其步骤包括:
1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;利用统计信息对替换后的段落进行筛选,得到用于训练机器阅读理解模型的段落;其中筛选方法为:首先计算段落中所有词的TF-IDF值之和、计算被替换的词组中所有词的TF-IDF值之和、计算所述设定符号的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度;然后根据计算段落的分值,选取分值最高的前N条数据;其中α和β为超参数;
2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置;
3)将阅读理解任务中的问句输入训练后的机器阅读理解模型之前,将问句中的疑问词转换为所述设定符号并将该问句转换为陈述句;然后将该陈述句输入训练后的机器阅读理解模型,训练后的机器阅读理解模型根据该陈述句从给定的文本段落中抽取对应的答案。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN202110805842.4A 2021-07-16 2021-07-16 一种基于自监督学习的无监督机器阅读理解训练方法 Active CN113627152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110805842.4A CN113627152B (zh) 2021-07-16 2021-07-16 一种基于自监督学习的无监督机器阅读理解训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110805842.4A CN113627152B (zh) 2021-07-16 2021-07-16 一种基于自监督学习的无监督机器阅读理解训练方法

Publications (2)

Publication Number Publication Date
CN113627152A CN113627152A (zh) 2021-11-09
CN113627152B true CN113627152B (zh) 2023-05-16

Family

ID=78379932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110805842.4A Active CN113627152B (zh) 2021-07-16 2021-07-16 一种基于自监督学习的无监督机器阅读理解训练方法

Country Status (1)

Country Link
CN (1) CN113627152B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN110110257A (zh) * 2018-01-30 2019-08-09 北京京东尚科信息技术有限公司 数据处理方法及其系统、计算机系统及计算机可读介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答系统
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112035652A (zh) * 2020-10-30 2020-12-04 杭州云嘉云计算有限公司 一种基于机器阅读理解的智能问答交互方法及系统
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质
CN112417089A (zh) * 2019-08-21 2021-02-26 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN110110257A (zh) * 2018-01-30 2019-08-09 北京京东尚科信息技术有限公司 数据处理方法及其系统、计算机系统及计算机可读介质
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN112417089A (zh) * 2019-08-21 2021-02-26 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答系统
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112035652A (zh) * 2020-10-30 2020-12-04 杭州云嘉云计算有限公司 一种基于机器阅读理解的智能问答交互方法及系统
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self-Supervised Knowledge Triplet Learning for Zero-Shot Question Answering;Pratyay 等;《2020EMNLP》;151-162 *
Text Similarity in Vector Space Models: A Comparative Study;Omid 等;《arxiv》;1-17 *
基于多相似性度量和集合编码的属性对齐方法;伍家豪 等;《中文信息学报》;35-43 *

Also Published As

Publication number Publication date
CN113627152A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN109918666A (zh) 一种基于神经网络的中文标点符号添加方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN112559556A (zh) 表格模式解析和序列掩码的语言模型预训练方法及系统
CN105068997B (zh) 平行语料的构建方法及装置
CN101685441A (zh) 一种基于非连续短语的泛化重排序统计翻译方法及装置
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN111708878A (zh) 一种体育文本摘要提取方法、装置、存储介质及设备
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法
CN112417823A (zh) 一种中文文本语序调整和量词补全方法及系统
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN113657122A (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN113627152B (zh) 一种基于自监督学习的无监督机器阅读理解训练方法
CN107577669A (zh) 一种计算机中自动生成英文论文标题缩写词的方法
CN109002540B (zh) 一种中文通告文档问题答案对自动生成方法
Xie et al. PALI at SemEval-2021 task 2: fine-tune XLM-RoBERTa for word in context disambiguation
CN114969294A (zh) 一种音近敏感词的扩展方法
CN111090720B (zh) 一种热词的添加方法和装置
CN115310433A (zh) 一种针对中文文本校对的数据增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant