CN108717413A - 一种基于假设性半监督学习的开放领域问答方法 - Google Patents

一种基于假设性半监督学习的开放领域问答方法 Download PDF

Info

Publication number
CN108717413A
CN108717413A CN201810253156.9A CN201810253156A CN108717413A CN 108717413 A CN108717413 A CN 108717413A CN 201810253156 A CN201810253156 A CN 201810253156A CN 108717413 A CN108717413 A CN 108717413A
Authority
CN
China
Prior art keywords
article
answer
training
assumption
opening field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810253156.9A
Other languages
English (en)
Other versions
CN108717413B (zh
Inventor
潘博远
蔡登�
姜兴华
陈哲乾
赵洲
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810253156.9A priority Critical patent/CN108717413B/zh
Publication of CN108717413A publication Critical patent/CN108717413A/zh
Application granted granted Critical
Publication of CN108717413B publication Critical patent/CN108717413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于假设性半监督学习的开放领域问答方法,包括:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器学习正标签的特征,训练一个阅读器从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到模型收敛;(6)模型训练完毕,进行开放领域问答应用。利用本发明可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和答案的准确率。

Description

一种基于假设性半监督学习的开放领域问答方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于假设性半监督学习的开放领域问答方法。
背景技术
近年来,开放领域问答问题成为了自然语言处理中十分热门和棘手的问题。在这个任务中,给定一个语料库和一个问题,算法系统将从语料库中返回一个答案。它和机器阅读理解最大的不同就是它除了根据文章回答问题外还增加了从语料库寻找文章的过程。开放领域问答系统的应用十分广泛,因为传统的搜索引擎只能满足很小部分人需求并且返回的答案大部分只是网页链接而不是一个具体的答案。一个能从大量语料库中抽取文章并给出理想答案的问答系统能够被广泛应用到例如体育、法律、医学等领域。
由于知识库技术的发展,早期的开放领域问答任务都用知识库来作为知识来源。然而,人们也随之发现建造一个新知识库是十分耗时耗力的,并且知识库单一的结构也使很多问题得不到令人满意的答案。最近,由于机器阅读理解技术的发展,由原始文档组成的语料库顶替知识库进入了人们的视野。在2017年的国际自然语言处理顶级会议AnnualMeeting of the Association for Computational Linguistics中,论文《ReadingWikipedia to Answer Open-Domain Questions》的第3页到第5页公开了一种叫DrQA的开放领域问答方法,它在几个公开数据集上取得了可观的效果并受到了业内的好评和广泛应用。然而,这样的算法是在抽取文档这一步使用简单的信息检索系统然后直接将结果不加区分地送入阅读理解步骤中,所以过于简单并且没有语义分析,这将导致很多同义句的问题失去了能够匹配到包含答案的文章的机会。
发明内容
本发明提供了一种基于假设性半监督学习的开放领域问答方法,同时训练一个文章打分器和一个阅读器,可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和最终答案的准确率。
一种基于假设性半监督学习的开放领域问答方法,包括以下步骤:
(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;
(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;
(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;
(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;
(5)重复步骤3和步骤4,直到整个深度学习模型收敛;
(6)模型训练完毕,进行开放领域问答应用。
本发明将问答数据集中每个问题给定的文章和从语料库中抽取的文章混在一起,并假设只有问答数据集的文章是正标签,其余都是负的。同时训练一个文章打分器和一个阅读器,通过不断优化文章打分器来学习正标签文章的特征,希望能够对类似的文章打高分。在随后的训练步骤中不断地选一些相关度很高的抽取出来的文章进行重新标注,以增强正标签文章的多样性和整个算法的鲁棒性。整个算法以最大化正确答案的概率和打分系统对正标签的分数为目标来优化每个步骤。
步骤(1)的具体步骤为:将所有文章用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达,设定每个问题匹配的文章数量后,使用倒排索引来匹配相关文章。
步骤(3)中,所述的文章打分器的训练过程为:
首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息,使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章,最后根据文章和问题的匹配度对文章进行打分,公式为:
sk=max(softmax(Hk*uT)*Hk)
其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q的表达向量u的转置。
所述阅读器的训练过程为:
使用现有的知识库WordNet作为辅助工具,使用长短时记忆网络对文本进行编码,并引用注意力机制,得到文章和问题的注意力向量,计算公式为:
其中,hi为文章第i个词的表达向量,uj为问题第j个词的表达向量,F是关于WordNet向量r的一个非线性函数,ReLU是激活函数,eij为文章第i个词和问题第j个词的注意力向量。
得到文章和问题的注意力向量后,使用非线性函数获得答案字符串首字符和末字符的概率分布:
Pstart=softmax(exp(HWsu))
Pend=softmax(exp(HWeu))
其中,H为文章第i个词的表达向量的整合矩阵,u为问题第j个词的表达向量的加权平均向量,Ws和We是两个训练参数,Pstart和Pend为答案字符串首字符和末字符的概率分布。
对于训练的模型,我们将文章打分器和阅读器的目标函数用一个线性函数结合了起来。在文章打分器中,我们的目标是最大化正标签文章的分数;在阅读器中,我们最大化正确答案首尾字母的概率;最终我们用一个线性函数将它们结合。
步骤(4)中用到了半监督学习,所述的相关性排序使用余弦距离函数,根据负标签的文章与原文章的距离进行排序。
训练模型时,目标函数由两部分的线性组合构成:目标函数1为最大化文章打分器对正确文章的打分,目标函数2为最大化阅读器给出的正确答案的概率分布。
步骤(6)中,在应用模型的时候,将之前文章打分器和阅读器的结果结合起来进行筛选,得到置信度最大的答案。
本发明基于假设性半监督学习方法具有以下有益效果:
1、本方法使用半监督学习的算法来自动重新标注从语料库中抽取的文章标签,不依赖任何外部知识来源或者人工标注,因此本方法可以被延用到大量的相关领域。
2、本发明的文章打分器采用深度学习神经网络模型来对文章和问题做出语义分析,避免了检索过程中单纯依靠字符串匹配所带来的信息遗漏。对于从语料库中抽取的文章做了后续的语意分析处理以匹配到正确的答案。
3、本发明充分利用了现有机器阅读理解数据集的信息,使用已有的高质量大型开源问答数据集中的文章和问题二元组来进行训练,使得人工匹配的高质量文章的特征能够被充分学习。
附图说明
图1为本发明基于假设性半监督学习的开放领域问答方法的流程示意图;
图2为本发明基于假设性半监督学习的开放领域问答方法的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好的理解本发明。
如图1所示,一种基于假设性半监督学习的开放领域问答方法,如图2所示,为本发明的结构示意图。本发明方法的具体步骤如下:
S01,使用信息检索技术从语料库中将与问题q相关的文章抽取出来。我们将所有文档用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达。我们使用倒排索引来匹配相关文章,每个问题匹配的文章数量设定为5个。
S02,假设给定问答训练集自带的文章Pg是唯一的正标签,从语料库中抽取的所有文章{Pi}i=1:N都是负标签。我们使用斯坦福阅读问答数据集作为训练集,这个数据集的形式是一个个的三元组(问题,文章,答案),其中文章是包含这个问题的答案的。在开放领域问答任务中,我们本应只被提供二元组(问题,答案),但我们使用机器阅读理解的数据集来训练,希望能够让模型学习正确文章的特征来提升从语料库中抽取文章的准确率。我们训练的时候使用三元组,然后针对问题使用步骤S01中的信息检索技术从语料库中抽取5篇文章,与三元组中的文章混合在一起。我们假设三元组中的文章是正标签,从语料库中抽取出来的所有文章都是负标签。
S03,通过优化一个文章打分器来学习正标签的特征,训练阅读器以从文章中选择正确答案。我们的整个深度学习模型大致分为两个部分,一个是文章打分器,另一个是阅读器。我们的文章打分器是给定一个问题和一个文章,然后根据文章和问题的匹配度对这个文章进行打分。
我们首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息。我们使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章。
然后使用下面的公式来计算每个文章的分数:
sk=max(softmax(Hk*uT)*Hk)
其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q的表达向量u的转置。
值得注意的是,在训练中我们将三元组中的文章和抽取的文章混在一起,不加分别地送入打分器来打分;在测试过程中,打分器将不会得到三元组中给定的正确文章,它的全部文章都来自从语料库中抽取的文章。
我们的阅读器是给定二元组(问题,文章),从文章中找出问题的答案(是文章中的一个连续字符串)并输出。为了增强模型对词语类型的理解,我们使用现有的知识库WordNet作为辅助工具。与之前的文章打分器相同,我们也使用长短时记忆网络落编码输入的文本并引用注意力机制来增强模型的理解能力:
其中,hi为文章第i个词的表达向量,uj为问题第j个词的表达向量,F是关于WordNet向量r的一个非线性函数,ReLU是激活函数,eij为文章第i个词和问题第j个词的注意力向量。
在获得了文章和问题的注意力向量后,我们使用一个简单的非线性函数来获得答案的概率分布:
Pstart=softmax(exp(HWsu))
Pend=softmax(exp(HWeu))
其中,H为上文中hi的整合矩阵,u为上文中uj的表达向量的加权平均向量,Ws和We是两个训练参数,Pstart和Pend为答案字符串首字符和末字符的概率分布。
对于训练的目标函数,我们将文章打分器和阅读器的目标函数用一个线性函数结合了起来。在文章打分器中,我们的目标是最大化正标签文章的分数;在阅读器中,我们最大化正确答案首尾字母的概率;最终我们用一个线性函数将它们结合。
S04,逐渐根据文章的相关性挑选一部分负标签来重新标注,以增强正标签的多样性。这一步我们就用到了半监督学习,因为我们不希望原本训练集三元组中的文章是唯一的正标签,因为这样会导致语料库中与训练集形式不同的文章被打很低的分。我们使用余弦距离函数来决定哪些文章需要被重新定义标签。与原文章距离最小的几篇文章将被优化后的打分器重新打分,根据分数的高低来决定是否需要被重新标签。训练时,我们的目标函数由两部分的线性组合构成:目标函数1为最大化文章打分器对正确文章的打分,目标函数2为最大化阅读器给出的正确答案的概率分布。
S05,重复S03和S04,直到整个深度学习模型收敛。
S06,在使用模型的时候,我们将之前文章打分器和阅读器的结果相乘,得到综合分数最高的答案。
为验证本发明方法的有效性,在SQuAD、WebQuestion、WikiMoviews、CuratedTREC四个数据集上进行了对比实验。SQuAD数据集是斯坦福大学公开的机器阅读理解数据集,包括了训练集中的八万个样例和测试集中的一万个样例;WebQuestion是从知识库Freebase抽取的问答数据集;WikiMoviews是基于OMDb和MovieLens知识库所构建的问答数据集,答案都能从维基百科中找到;CuratedTREC是基于TREC而为开放领域问答任务专门设计的数据集。
本实验在测试集上与目前最有效的同类方法DrQA做了比较,对比结果如表1所示。从结果看出,我们的方法(HSSL)相比于同类方法在四个数据集上都具有明显更高的准确率。我们也对本发明所用到的各项方法做出了对比试验(表1前5行),可以看到在减去了任何一项后我们的方法都在EM匹配和F1分数上有所下降。
表1
同时,我们也设计实验证明了我们提出的算法对文章检索质量的帮助。如表2所示,我们在四个数据集上分别尝试了不用文章打分器而直接将信息检索系统的结果无差别地输入到阅读器中。结果显示我们的方法显著提高了正确答案的召回率(Recall)。在SQuAD数据集上我们的方法将召回率提升了8个百分点,在其余数据集上也提升了接近4个百分点左右。
表2
由于当前高质量的大型训练数据集以英文文本为主,我们采用的都是英文数据集。我们在表3中列出了几个例子以证明本方法的有效性,其中上半部分是问答数据集中给出的问题,答案和文章三元组;下半部分是从语料库中检索出并由打分器给出的排名最高的三篇文章。可以看出,我们的打分器对于和原文章最像的检索文章给了很高的分数,对于含有正确答案的文章也给了较高的分数。
表3

Claims (7)

1.一种基于假设性半监督学习的开放领域问答方法,其特征在于,包括以下步骤:
(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;
(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;
(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;
(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;
(5)重复步骤3和步骤4,直到整个深度学习模型收敛;
(6)模型训练完毕,进行开放领域问答应用。
2.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(1)的具体步骤为:
将所有文章用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达,设定每个问题匹配的文章数量后,使用倒排索引来匹配相关文章。
3.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(3)中,所述的文章打分器的训练过程为:
首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息,使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章,最后根据文章和问题的匹配度对文章进行打分,公式为:
sk=max(softmax(Hk*uT)*Hk)
其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q的表达向量u的转置。
4.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(3)中,所述阅读器的训练过程为:
使用现有的知识库WordNet作为辅助工具,使用长短时记忆网络对文本进行编码,并引用注意力机制,得到文章和问题的注意力向量,最后使用非线性函数获得答案字符串首字符和末字符的概率分布:
Pstart=softmax(exp(HWsu))
Pend=softmax(exp(HWeu))
其中,H为文章第i个词的表达向量的整合矩阵,u为问题第j个词的表达向量的加权平均向量,Ws和We是两个训练参数,Pstart和Pend为答案字符串首字符和末字符的概率分布。
5.根据权利要求4所述的基于假设性半监督学习的开放领域问答方法,其特征在于,所述文章和问题的注意力向量的计算公式为:
其中,hi为文章第i个词的表达向量,uj为问题第j个词的表达向量,F是关于WordNet向量r的一个非线性函数,ReLU是激活函数,eij为文章第i个词和问题第j个词的注意力向量。
6.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(4)中,所述的相关性排序使用余弦距离函数,根据负标签的文章与原文章的距离进行排序。
7.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(6)中,在模型应用时,将文章打分器和阅读器的结果结合起来进行筛选,得到分数最高的答案。
CN201810253156.9A 2018-03-26 2018-03-26 一种基于假设性半监督学习的开放领域问答方法 Active CN108717413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810253156.9A CN108717413B (zh) 2018-03-26 2018-03-26 一种基于假设性半监督学习的开放领域问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810253156.9A CN108717413B (zh) 2018-03-26 2018-03-26 一种基于假设性半监督学习的开放领域问答方法

Publications (2)

Publication Number Publication Date
CN108717413A true CN108717413A (zh) 2018-10-30
CN108717413B CN108717413B (zh) 2021-10-08

Family

ID=63898819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810253156.9A Active CN108717413B (zh) 2018-03-26 2018-03-26 一种基于假设性半监督学习的开放领域问答方法

Country Status (1)

Country Link
CN (1) CN108717413B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110287290A (zh) * 2019-06-26 2019-09-27 平安科技(深圳)有限公司 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN111191025A (zh) * 2018-11-15 2020-05-22 腾讯科技(北京)有限公司 文章相关性的确定方法、装置、可读介质及电子设备
CN112800205A (zh) * 2021-02-26 2021-05-14 中国人民解放军国防科技大学 基于语义变化流形分析获取问答相关段落的方法、装置
US11860912B2 (en) 2021-03-25 2024-01-02 Ford Global Technologies, Llc Answerability-aware open-domain question answering

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182625A1 (en) * 2004-02-18 2005-08-18 Misty Azara Systems and methods for determining predictive models of discourse functions
CN101872349A (zh) * 2009-04-23 2010-10-27 国际商业机器公司 处理自然语言问题的方法和装置
CN102903008A (zh) * 2011-07-29 2013-01-30 国际商业机器公司 用于计算机问答的方法及系统
US20130138696A1 (en) * 2011-11-30 2013-05-30 The Institute for System Programming of the Russian Academy of Sciences Method to build a document semantic model
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN105893523A (zh) * 2016-03-31 2016-08-24 华东师范大学 利用答案相关性排序的评估度量来计算问题相似度的方法
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
CN106649524A (zh) * 2016-10-20 2017-05-10 宁波江东大金佰汇信息技术有限公司 一种改进型基于计算机云数据的深度学习智能应答系统
CN106991161A (zh) * 2017-03-31 2017-07-28 北京字节跳动科技有限公司 一种自动生成开放式问题答案的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182625A1 (en) * 2004-02-18 2005-08-18 Misty Azara Systems and methods for determining predictive models of discourse functions
CN101872349A (zh) * 2009-04-23 2010-10-27 国际商业机器公司 处理自然语言问题的方法和装置
CN102903008A (zh) * 2011-07-29 2013-01-30 国际商业机器公司 用于计算机问答的方法及系统
US20130138696A1 (en) * 2011-11-30 2013-05-30 The Institute for System Programming of the Russian Academy of Sciences Method to build a document semantic model
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN105893523A (zh) * 2016-03-31 2016-08-24 华东师范大学 利用答案相关性排序的评估度量来计算问题相似度的方法
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
CN106649524A (zh) * 2016-10-20 2017-05-10 宁波江东大金佰汇信息技术有限公司 一种改进型基于计算机云数据的深度学习智能应答系统
CN106991161A (zh) * 2017-03-31 2017-07-28 北京字节跳动科技有限公司 一种自动生成开放式问题答案的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BOYUAN PAN 等: "Keyword-based Query Comprehending via Multiple Optimized-Demand Augmentation", 《ARXIV》 *
BOYUAN PAN 等: "MEMEN: Multi-layer Embedding with Memory Networks for Machine Comprehension", 《ARXIV》 *
CHEN D 等: "Reading Wikipedia to Answer Open-Domain Questions", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
N. S. FAREED 等: "Syntactic open domain Arabic question/answering system for factoid questions", 《2014 9TH INTERNATIONAL CONFERENCE ON INFORMATICS AND SYSTEMS》 *
任函: "文本蕴涵识别及其在问答系统中的应用", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191025B (zh) * 2018-11-15 2023-12-12 深圳市雅阅科技有限公司 文章相关性的确定方法、装置、可读介质及电子设备
CN111191025A (zh) * 2018-11-15 2020-05-22 腾讯科技(北京)有限公司 文章相关性的确定方法、装置、可读介质及电子设备
CN109657246B (zh) * 2018-12-19 2020-10-16 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109766424B (zh) * 2018-12-29 2021-11-19 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110110063B (zh) * 2019-04-30 2023-07-18 南京大学 一种基于哈希学习的问答系统构建方法
CN110287290A (zh) * 2019-06-26 2019-09-27 平安科技(深圳)有限公司 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质
CN110309287B (zh) * 2019-07-08 2021-07-06 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN112800205A (zh) * 2021-02-26 2021-05-14 中国人民解放军国防科技大学 基于语义变化流形分析获取问答相关段落的方法、装置
US11860912B2 (en) 2021-03-25 2024-01-02 Ford Global Technologies, Llc Answerability-aware open-domain question answering

Also Published As

Publication number Publication date
CN108717413B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108717413A (zh) 一种基于假设性半监督学习的开放领域问答方法
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
Wang et al. The galactic dependencies treebanks: Getting more data by synthesizing new languages
Mave et al. Language identification and analysis of code-switched social media text
CN101599071A (zh) 对话文本主题的自动提取方法
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
CN114912448B (zh) 一种文本扩展方法、装置、设备及介质
Bai et al. A survey of current machine learning approaches to student free-text evaluation for intelligent tutoring
CN109508460B (zh) 基于主题聚类的无监督作文跑题检测方法及系统
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
Kedia et al. indicnlp@ kgp at DravidianLangTech-EACL2021: Offensive language identification in Dravidian languages
CN105955955A (zh) 一种基于纠错输出编码的无需消歧的无监督词性标注方法
Sadr et al. Presentation of an efficient automatic short answer grading model based on combination of pseudo relevance feedback and semantic relatedness measures
CN108491515A (zh) 一种用于校园心理咨询的句对匹配度预测方法
CN106777080A (zh) 短摘要生成方法、数据库建立方法及人机对话方法
CN113221530A (zh) 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质
CN110222344A (zh) 一种针对小学生作文辅导的作文要素分析算法
Bao et al. Contextualized rewriting for text summarization
Tash et al. Lidoma@ dravidianlangtech: Convolutional neural networks for studying correlation between lexical features and sentiment polarity in tamil and tulu languages
Mitkov et al. Methods for extracting and classifying pairs of cognates and false friends
Rani et al. MHE: Code-mixed corpora for similar language identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant