CN111949769A - 一种增强阅读理解系统鲁棒性的方法及装置 - Google Patents
一种增强阅读理解系统鲁棒性的方法及装置 Download PDFInfo
- Publication number
- CN111949769A CN111949769A CN202010853263.2A CN202010853263A CN111949769A CN 111949769 A CN111949769 A CN 111949769A CN 202010853263 A CN202010853263 A CN 202010853263A CN 111949769 A CN111949769 A CN 111949769A
- Authority
- CN
- China
- Prior art keywords
- enhancement
- question
- training set
- over
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 73
- 206010020751 Hypersensitivity Diseases 0.000 claims abstract description 26
- 208000026935 allergic disease Diseases 0.000 claims abstract description 17
- 230000000172 allergic effect Effects 0.000 claims abstract description 12
- 208000010668 atopic eczema Diseases 0.000 claims abstract description 12
- 230000035807 sensation Effects 0.000 claims abstract description 9
- 230000009610 hypersensitivity Effects 0.000 claims abstract description 8
- 230000007815 allergy Effects 0.000 claims description 10
- 206010002198 Anaphylactic reaction Diseases 0.000 claims description 6
- 230000036783 anaphylactic response Effects 0.000 claims description 6
- 208000003455 anaphylaxis Diseases 0.000 claims description 6
- 230000008569 process Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 206010070834 Sensitisation Diseases 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008313 sensitization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种增强阅读理解MRC系统鲁棒性方法及装置,该方法包括:基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,训练集为n个样本的集合,样本为包括篇章、对应问题及参考答案的三元组形式;基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;将训练集、过敏感增强集和过稳定增强集合并为新的训练集;基于新的训练集训练具有鲁棒性的MRC模型。通过数据增强的方式,分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题,因为过敏感增强数据通过引入高质量的问句改写样本,过稳定性增强数据通过引入对抗性样本,所以能够一定程度上增强模型的鲁棒性。
Description
技术领域
本发明书一个或多个实施例涉及自然语言处理技术领域,尤其涉及一种增强阅读理解系统鲁棒性的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
机器阅读理解(Machine Reading Comprehension,MRC)主要是指让机器阅读文本,然后回答和阅读文本相关的问题的技术。
现有的MRC系统主要由以下步骤构成:首先对给定篇章和相应问题进行标注,标注篇章中的一个片段作为答案;然后构建神经网络模型,输入篇章和问题,回答出正确答案片段。
但现有的阅读理解系统鲁棒性不足,具体来说有(1)存在过敏感的问题,一旦问题有改动,模型则会预测错误;(2)存在过稳定问题,模型倾向从和问句相似的篇章段落中抽取答案,导致回答错误。
发明内容
有鉴于此,本说明书一个或多个实施例描述了一种增强阅读理解系统鲁棒性的方法及装置,通过数据增强的方式,可解决现有技术中阅读理解系统鲁棒性不足的问题。
本说明书一个或多个实施例提供的技术方案如下:
为解决上述问题,第一方面,本发明提供了一种增强阅读理解MRC系统鲁棒性的方法,所述方法包括:
基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括篇章、对应问题及参考答案的三元组形式;
基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;
将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集;
基于所述新的训练集训练具有鲁棒性的MRC模型。
在一种可能的实现方式中,,所述基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集,具体为:
使用搜索引擎返回问题集;所述问题集为与所述对应问题相关问题的集合;
基于外部句子相似度匹配训练集训练一个二分类器;
利用所述问题集中的问句和所述对应问题作为二分类器的输入,生成过敏感增强集。
在一种可能的实现方式中,所述利用所述问题集中的问句和所述对应问题作为二分类器的输入,生成过敏感增强集,具体为:
利用所述问题集中的问句和所述对应问题作为二分类器的输入:
scorei=f(q,q′i)
其中,scorei为q和第i个相似问题之间的相似度得分;f为二分类器;q为对应问题;q′i为和qi相关的一个问题;
当scorei大于预设的阈值时,{p,q′i,a}则加入到过敏感集中,生成过敏感增强集;其中,p为篇章,q为对应问题,a为参考答案。
在一种可能的实现方式中,所述阈值为二分类器返回的得分最大值和最小值的平均值。
在一种可能的实现方式中,所述基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集,具体为:
使用命名实体识别,从篇章中抽取与所述参考答案实体类型相同的实体,加入干扰项集;
从所述干扰项集中选取一个干扰项,生成对抗样本;
基于所述训练集和所述对抗样本,生成过稳定增强集。
在一种可能的实现方式中,所述从所述干扰项集中选取一个干扰项,生成对抗样本,具体为:
将干扰项拼接在问句后;或
将干扰项拼接在问句后,随即打乱句子的词序。
在一种可能的实现方式中,所述基于所述训练集和所述对抗样本,生成过稳定增强集,具体为:
基于所述训练集训练一个MRC模型,当m({p,q′,a})!=a时,将对抗样本加入到过稳定集中,生成过稳定增强集;其中,m代表MRC模型,{p,q′,a}为样本抗体。
第二方面,本发明提供了一种增强阅读理解MRC系统鲁棒性的装置,所述装置包括:
过敏感增强集模块,配置为基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括篇章、对应问题及参考答案的三元组形式;
过稳定增强集模块,配置为基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;
新训练集模块,配置为将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集;
MRC模型模块,配置为基于所述新的训练集训练具有鲁棒性的MRC模型。
第三方面,本发明提供了一种增强阅读理解MRC系统鲁棒性的系统,所述系统包括至少一个处理器和存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个或多个所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。
本发明实施例提供过的方法通过数据增强的方式,分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题,因为过敏感增强数据通过引入高质量的问句改写样本,过稳定性增强数据通过引入对抗性样本,所以能够一定程度上增强模型的鲁棒性。
附图说明
图1为本发明实施例提供的增强阅读理解MRC系统鲁棒性的方法流程示意图;
图2为本发明实施例提供的生成过敏感增强集的流程示意图;
图3为本发明实施例提供的生成过稳定增强集的流程示意图;
图4本发明实施例提供的增强阅读理解MRC系统鲁棒性的装置结构示意图;
图5为本发明实施例提供的增强阅读理解MRC系统鲁棒性系统结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种用于解决阅读理解系统过敏感和过稳定的数据增强方法。对于过敏感问题,通过问句检索改写的相似问句,再通过一个二分类器生成过敏感相关的增强数据集;对于过稳定问题,通过检索篇章中和答案相关的干扰项,生成具有对抗性的增强数据集。定义训练集为D={d1,d2,…dn},其中di={p,q,a}为第i个样本,p为篇章,q为对应问题,a为参考答案。
具体的,图1是本发明实施例提供的增强阅读理解MRC系统鲁棒性的方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示,所述方法具体包括以下步骤:
步骤10,基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括p、q及a的三元组形式。
具体的,图2为发明实施例提供的生成过敏感增强集的流程示意图,如图2所示,生成过敏感增强集的过程如下:
步骤101,使用搜索引擎返回问题集;所述问题集为与所述对应问题相关问题的集合,具体为问题集为Q={q′1,q′2,…q′m},其中,q′i为和qi相关的一个问题,m为相关问题的个数。
步骤102,基于外部句子相似度匹配训练集训练一个二分类器。
步骤103,利用所述问题集中的问句和所述对应问题作为二分类器的输入,生成过敏感增强集Dsensitivity。
具体的,利用所述问题集中的问句和所述对应问题作为二分类器的输入:
scorei=f(q,q′i)
其中,scorei为q和第i个相似问题之间的相似度得分;f为二分类器;q为对应问题;q′i为和qi相关的一个问题;
当scorei大于预设的阈值时,{p,q′i,a}则加入到过敏感集,生成过敏感增强集Dsensitivity;其中,p为篇章,q为对应问题,a为参考答案。
在此需要说明的是,由于二分类器返回的是一个连续的概率值,也就是得分,所以需要设置一个阈值将q′i划分到是相似的还是不是相似的两个类别之一,该阈值一般设为概率最大值和最小值的平均数,即阈值为二分类器返回的得分最大值和最小值的平均值,为0.5。
步骤20,基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集Dstability。
具体的,图3为本发明实施例提供的生成过稳定增强集的流程示意图,如图3所示,生成过稳定增强集的过程如下:
步骤201,使用命名实体识别,从篇章中抽取与所述参考答案实体类型相同的实体,加入干扰项集。
具体的,使用NER工具,从p中抽取与a实体类型相同的实体,加入干扰项集T={t1,t2…tc},其中,t为干扰项,c为相同实体。
步骤202,从所述干扰项集中选取一个干扰项,生成对抗样本。
具体的,以等概率随机从干扰项集T中选取一个干扰项ti,以相同的概率随机从以下两种策略选择一种生对抗样本{p,q′,a},其中,ti为第i个干扰项;
将干扰项拼接在问句后,则q′=[q;ti];或
将干扰项拼接在问句后,随即打乱句子的词序,则则q′=shuffle([q;ti])。
步骤203,基于所述训练集和所述对抗样本,生成过稳定增强集Dstability。
具体的,基于所述训练集训练一个MRC模型,设为M,当M({p,q′,a})!=a时,将对抗样本{p,q′,a}加入到过稳定集中,生成过稳定增强集;其中,M代表MRC模型,{p,q′,a}为样本抗体。
步骤30,将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集。
步骤40,基于所述新的训练集训练具有鲁棒性的MRC模型。
将训练集D、过敏感增强集和过稳定增强集合并为新的训练集D′=D∪Dsensitivity∪Dstability,训练一个具有鲁棒性的MRC模型。
针对上述过程,进行举例说明:
(1)生成过敏感增强集举例:
原始问句:造影多少钱?
Q={
造影大概多少钱?,
造影的费用?,
做造影贵不贵?
}
经过二分类器模型,可以选出“造影大概多少钱?”,“造影的费用?”加入过敏感数据集,生成过敏感增强数据集,即过敏感增强集。
(2)生成过稳定增强集举例:
原始问题:造影多少钱?
假设我们从文章中抽取到“CT”这个实体,
则可能生成两种对抗样本:
造影多少钱?CT。
CT多少钱?造影。(随机打乱)
上述生成的样本经过初始数据集训练好的MRC模型预测后,答案错误的再扔回MRC模型进行训练,最终生成过稳定增强数据集,即过稳定增强集。
本发明实施例提供过的方法通过数据增强的方式,分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题,因为过敏感增强数据通过引入高质量的问句改写样本,过稳定性增强数据通过引入对抗性样本,所以能够一定程度上增强模型的鲁棒性。
与上述实施例对应的,本发明还提供了一种增强阅读理解MRC系统鲁棒性的装置,如图4所示,该增强阅读理解MRC系统鲁棒性的别装置包括:过敏感增强集模块410,过稳定增强集模块420、新训练集模块430和MRC模型模块440。
过敏感增强集模块,配置为基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括篇章、对应问题及参考答案的三元组形式;
过稳定增强集模块,配置为基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;
新训练集模块,配置为将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集;
MRC模型模块,配置为基于所述新的训练集训练具有鲁棒性的MRC模型。
本发明实施例提供的一种增强阅读理解MRC系统鲁棒性的装置中各部件所执行的功能均已在上述方法中做了详细介绍,因此这里不做过多赘述。
与上述实施例相对应的,本发明实施例、还提供了一种增强阅读理解MRC系统鲁棒性的系统,具体如图5所示,该系统包括至少一个处理器510和存储器520;
存储器510,用于存储一个或多个程序指令;
处理器520,用于运行一个或多个程序指令,执行如上述实施例所介绍的一种增强阅读理解MRC系统鲁棒性的方法中的任一方法步骤。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包括一个或多个程序,其中,一个或多个程序指令用于被一种增强阅读理解MRC系统鲁棒性的系统执行如上介绍的一种增强阅读理解MRC系统鲁棒性的方法。
本发明实施例提供过的方法通过数据增强的方式,分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题,因为过敏感增强数据通过引入高质量的问句改写样本,过稳定性数据通过引入对抗性样本,所以能够一定程度上增强模型的鲁棒性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种增强阅读理解MRC系统鲁棒性的方法,其特征在于,所述方法包括:
基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括篇章、对应问题及参考答案的三元组形式;
基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;
将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集;
基于所述新的训练集训练具有鲁棒性的MRC模型。
2.根据权利要求1所述的方法,其特征在于,所述基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集,具体为:
使用搜索引擎返回问题集;所述问题集为与所述对应问题相关问题的集合;
基于外部句子相似度匹配训练集训练一个二分类器;
利用所述问题集中的问句和所述对应问题作为二分类器的输入,生成过敏感增强集。
3.根据权利要求2所述的方法,其特征在于,所述利用所述问题集中的问句和所述对应问题作为二分类器的输入,生成过敏感增强集,具体为:
利用所述问题集中的问句和所述对应问题作为二分类器的输入:
scorei=f(q,q′i)
其中,scorei为q和第i个相似问题之间的相似度得分;f为二分类器;q为对应问题;q′i为和qi相关的一个问题;
当scorei大于预设的阈值时,{p,q′i,a}则加入到过敏感集中,生成过敏感增强集;其中,p为篇章,q为对应问题,a为参考答案。
4.根据权利要求1所述的方法,其特征在于,所述阈值为二分类器返回的得分最大值和最小值的平均值。
5.根据权利要求1所述的方法,其特征在于,所述基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集,具体为:
使用命名实体识别,从篇章中抽取与所述参考答案实体类型相同的实体,加入干扰项集;
从所述干扰项集中选取一个干扰项,生成对抗样本;
基于所述训练集和所述对抗样本,生成过稳定增强集。
6.根据权利要求5所述的方法,其特征在于,所述从所述干扰项集中选取一个干扰项,生成对抗样本,具体为:
将干扰项拼接在问句后;或
将干扰项拼接在问句后,随即打乱句子的词序。
7.根据权利要求5所述的方法,其特征在于,所述基于所述训练集和所述对抗样本,生成过稳定增强集,具体为:
基于所述训练集训练一个MRC模型,当m({p,q′,a})!=a时,将对抗样本加入到过稳定集中,生成过稳定增强集;其中,m代表MRC模型,{p,q′,a}为样本抗体。
8.一种增强阅读理解MRC系统鲁棒性的装置,其特征在于,所述装置包括:
过敏感增强集模块,配置为基于训练集,通过问句检索改写的相似问句及二分类器,生成过敏感增强集;其中,所述训练集为n个样本的集合,所述样本为包括篇章、对应问题及参考答案的三元组形式;
过稳定增强集模块,配置为基于训练集,通过检索篇章中和参考答案相关的干扰项,生成过稳定增强集;
新训练集模块,配置为将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集;
MRC模型模块,配置为基于所述新的训练集训练具有鲁棒性的MRC模型。
9.一种增强阅读理解MRC系统鲁棒性的系统,其特征在于,所述系统包括至少一个处理器和存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1至7中一个或多个所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如权利要求8所述的系统执行,以实现如权利要求1至7中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010853263.2A CN111949769B (zh) | 2020-08-23 | 2020-08-23 | 一种增强阅读理解系统鲁棒性的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010853263.2A CN111949769B (zh) | 2020-08-23 | 2020-08-23 | 一种增强阅读理解系统鲁棒性的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949769A true CN111949769A (zh) | 2020-11-17 |
CN111949769B CN111949769B (zh) | 2024-03-12 |
Family
ID=73359152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010853263.2A Active CN111949769B (zh) | 2020-08-23 | 2020-08-23 | 一种增强阅读理解系统鲁棒性的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949769B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784579A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137433A1 (en) * | 2016-11-16 | 2018-05-17 | International Business Machines Corporation | Self-Training of Question Answering System Using Question Profiles |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN111078892A (zh) * | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111095234A (zh) * | 2017-09-15 | 2020-05-01 | 国际商业机器公司 | 训练数据更新 |
CN111309887A (zh) * | 2020-02-24 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 一种训练文本关键内容提取模型的方法和系统 |
-
2020
- 2020-08-23 CN CN202010853263.2A patent/CN111949769B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137433A1 (en) * | 2016-11-16 | 2018-05-17 | International Business Machines Corporation | Self-Training of Question Answering System Using Question Profiles |
CN111095234A (zh) * | 2017-09-15 | 2020-05-01 | 国际商业机器公司 | 训练数据更新 |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN111078892A (zh) * | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111309887A (zh) * | 2020-02-24 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 一种训练文本关键内容提取模型的方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784579A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
CN112784579B (zh) * | 2020-12-31 | 2022-05-27 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111949769B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200159755A1 (en) | Summary generating apparatus, summary generating method and computer program | |
EP1617340B1 (en) | A method and apparatus for providing proper or partial proper name recognition | |
US10503833B2 (en) | Device and method for natural language processing | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
US20210286948A1 (en) | Causality recognizing apparatus and computer program therefor | |
KR102138130B1 (ko) | 개념 그래프 기반 질의응답 장치 및 방법 | |
CN111026857B (zh) | 对话状态跟踪方法、人机对话方法及系统 | |
CN107729925B (zh) | 对程序竞赛型源代码按照解题方法做自动分类与评分的方法 | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
CN112199473A (zh) | 一种知识问答系统中的多轮对话方法与装置 | |
US20180246856A1 (en) | Analysis method and analysis device | |
CN110046355A (zh) | 一种标题段落检测方法及装置 | |
CN115114919A (zh) | 呈现提示信息的方法和装置以及存储介质 | |
CN110717027A (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN112613322A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
CN111949769A (zh) | 一种增强阅读理解系统鲁棒性的方法及装置 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN116304046A (zh) | 对话数据的处理方法、装置、存储介质及电子设备 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN111666770B (zh) | 一种语义匹配方法及装置 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
Wang et al. | Listen, Decipher and Sign: Toward Unsupervised Speech-to-Sign Language Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |