CN111460092A - 一种基于多文档的复杂问题自动化求解方法 - Google Patents

一种基于多文档的复杂问题自动化求解方法 Download PDF

Info

Publication number
CN111460092A
CN111460092A CN202010165743.XA CN202010165743A CN111460092A CN 111460092 A CN111460092 A CN 111460092A CN 202010165743 A CN202010165743 A CN 202010165743A CN 111460092 A CN111460092 A CN 111460092A
Authority
CN
China
Prior art keywords
answer
question
word
answers
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010165743.XA
Other languages
English (en)
Other versions
CN111460092B (zh
Inventor
徐建
吴蔚
李晓冬
王鑫鹏
徐琳
阮国庆
王羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202010165743.XA priority Critical patent/CN111460092B/zh
Publication of CN111460092A publication Critical patent/CN111460092A/zh
Application granted granted Critical
Publication of CN111460092B publication Critical patent/CN111460092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多文档的复杂问题自动化求解方法,本发明采用阅读理解加答案排序的策略,并针对带有推理过程的复杂问题引入桥接实体,有效的求解了复杂问题。针对多文档的机器阅读理解技术,首先拆分文档为段落,然后针对每个段落利用阅读理解模型预测出答案,有效的提高了答案的召回率;然后对于多个候选答案利用排序模型进行排序,选择出最有可能的答案;对于带有推理过程的问题首先预测出桥接实体,然后将桥接实体拼接到原始问题之后,有效的解决了推理问题的歧义性。经过以上三个步骤,本发明能够实现针对基于多文档的复杂问题求解。

Description

一种基于多文档的复杂问题自动化求解方法
技术领域
本发明涉及一种基于多文档的复杂问题自动化求解方法。
背景技术
让机器完成阅读理解与问答是当前AI界前沿的一个火热主题,主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解无论是在工业界还是学术界都有着很高的研究价值,它能够让计算机帮助人类在大量文本中找到想要的答案,从而减轻人们对信息的获取的成本。也许,未来的搜索引擎将不仅仅是返回用户相关的链接和网页,而是通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。
目前,基于单文档的阅读理解技术比较成熟,但是单文档的阅读理解并不符合实际需求,主要体现在两点:首先给定一个问题答案往往是分布在多个文章,这就要考虑多文档的阅读理解技术;其次问题往往带有推理过程,不会是很简单的完型填空问题。
发明内容
发明目的:本发明所要解决的技术问题是为克服现有的单文档阅读理解模型不符合实际需求的缺陷,提供一种基于多文档的复杂问题自动化求解方法,包括如下步骤:
步骤1,针对单个段落进行单文档阅读理解,每个段落都预测出一个答案;
步骤2,进行答案排序;
步骤3,针对给定的问题,求解出最终的答案。
步骤1包括:
步骤1-1,对文档划分段落:对文档断句然后遍历每个句子,判断加入当前句子后段落长度是否超过给定阈值(这里的阈值设置为400个字符长度),如果超过将开始一个新的段落,否则将当前句子加入当前段落;
步骤1-2,对步骤1-1划分后的段落进行数据预处理,包括全半角转换和繁简体转换;
步骤1-3,将步骤1-2处理后的段落输入阅读理解模型,所述阅读理解模型为bert预训练模型,然后在bert编码后的隐藏层接两个指针网络,经过阅读理解模型每个段落预测出一个答案(参考论文:https://arxiv.org/pdf/1810.04805.pdf)。
步骤1-3中,将步骤1-2处理后的段落输入阅读理解模型,并引入一个辅助任务来预测文章中每一个词是否能成为答案,所述辅助任务为:对每一个字做二分类,如果该字在答案中,给该字打上标签为1,表示这个字是在答案中,否则打上标签为0,表示该字不在答案中。
现有的阅读理解模型可以给予正确的开始和结束位置较高的概率,并且对开始位置和结束位置之间的所有位置都分配较低的概率。为了给开始和结束位置中的词都赋值较大得分,引入了一个辅助任务来预测文章中每一个词是否能成为答案。通过这个辅助任务,模型不仅可以通过指针网络正确指出start和end的位置,还可以给中间连续的答案分配较高的选中概率。
步骤2包括:
步骤2-1,句对排序:利用bert预训练模型,将问题和答案所在的句子称为问题和答案的上下文,将问题和答案的上下文对应的文本对输入bert模型,经过bert编码以后提取[CLS]的向量表示,然后经过一个输出为1的全连接网络,得到网络输出1,作为问题和答案上下文之间相似度得分;预测的时候针对给定的问题和两个以上的答案,根据网络输出结果,选择出topK(一般取值为2)个概率最高的答案;
步骤2-2,预测答案个数:利用bert预训练模型判断问题的答案个数,并根据预测的答案个数在步骤2-1的结果中选择给定的答案集合,作为最后的结果。
步骤2-1中,在句对排序过程中,引入外部特征,即引入问题和答案上下文的BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分,将BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分拼接到网络输出1之后,经过输出为1的全连接网络得到融入外部特征的网络输出2,网络输出1和网络输出2分别经过两个交叉熵损失函数得到两个损失,来衡量问题和答案上下文的关联性,其中交叉熵函数Loss公式如下:
Figure BDA0002407386730000021
其中
Figure BDA0002407386730000022
是模型预测样本是正例的概率,y是样本标签,如果样本属于正例,取值为1,否则取值为0;
其中BM25相似度特征的计算方法如下:对问题和答案所在上下文分词,记问题Q中第i个单词为qi,i取值为1~n,n为问题Q中单词总数;记答案所在上下文为D,首先计算qi和D的相关性得分,然后将qi相对于D的相关性得分进行加权求和,从而得到Q与D的相关性得分如下所示:
Figure BDA0002407386730000031
其中IDF(qi)定义为查询中单词qi的逆文档频率,具体公式如下,
Figure BDA0002407386730000032
其中N为语料库的全部文档数,n(qi)为包含了qi的文档数,根据IDF的定义可以看出,对于给定的文档集合,包含了qi的文档数越多,qi的权重则越低;k1和b为调节因子,通常根据经验设置,一般k1=2,b=0.75;fi为qi在d中的出现频率;dl为文档d的长度,avgdl为所有文档的平均长度;
所述单词重叠特征包括1-gram和2-gram特征(这里的n-gram是以单词为单位统计的连续n元单词),1-gram是统计一个单词组成的子串,2-gram是统计连续两个单词组成的子串,计算方法如下:
对于问题和答案所在上下文通过jieba分词,将问题和答案的单词的交集个数除以问题中单词的个数,得到的结果作为一元重叠特征;计算问题和答案的单词的交集中单词的逆文档频率IDF得分总和,将总和除以问题中单词的IDF总合,得到的结果作为一元IDF特征;
分别统计问题和答案所在上下文的二元单词串,二元单词串是以单词为单位的2-gram,将问题的二元单词串集合和答案所在上下文的二元单词串集合的交集个数除以问题的2-gram个数,得到的结果作为二者的二元重叠特征;计算交集中2-gram的IDF得分总和,将总和除以问题中2-gram的IDF总和,得到的结果作为二元IDF特征。网络输出1和外部特征结合然后得到网络输出2,具体方法就是直接拼接在一起:比如网络输入一个问题和答案上下文,它们计算一个bm25得分、计算单词重叠个数(归一化一下除以最大值);网络输出1是一个数;3者简单拼接在一起得到3个数,然后输入网络得到网络输出2,从而得到两个损失。实验发现引入损失2可以提升bert层的使用效率,提升实验结果。
步骤3中,引入基于最长公共子串的复杂问题拆解方法,实现多步求解,步骤3包括:针对需要多部推理的问题,首先需要问题拆解;然后对于简单问题利用阅读理解模型求出答案;并将答案替换掉原始问题,比如针对问题“2017年金球奖得主效力于哪个球队?”,假设有一篇文章谈到了“2017年金球奖得主是C罗”另一篇文章谈到了“2017年C罗效力于皇马。”这就需要对于问题拆解成“2017年金球奖得主是谁?”通过步骤2和3的阅读理解模型得到答案“C罗”,然后将这个答案替换掉原始问题中去,原始问题变成了“C罗效力于哪个球队?”。
步骤3-1,复杂问题拆解:这里需要针对复杂问题根据原始文章求出最长公共子串,组成简单问题,所述最长公共子串的定义是长度为m的字符串S以及长度为n的字符串T,求最长的子串x同时是S以及T的连续子串,引入动态规划求解该问题;比如这里就需要针对原始问题”2017年金球奖得主效力于哪个球队?”,利用原始文章找到文章最长子串为“2017年金球奖得主”,组成简单问题“2017年金球奖得主是谁”;
步骤3-2,预测桥接实体:针对步骤3-1得到的简单问题,采用步骤1-3中所述的阅读理解模型得到简单问题的答案;;
步骤3-3,根据步骤3-2得到的简单问题答案替换掉原始问题中的最长公共子串,组成替换后的问题,然后根据步骤1-3中的阅读理解模型,得到替换后的问题的答案。到此完成了带有推理过程的问题求解。
本发明的显著优点为:充分的考虑了针对复杂问题的多文档阅读理解的特点,设计了多个网络模型,有效的解决了这个问题,我们主要考虑如下3个特点:1)答案分布在多个文章,使用阅读+排序的策略有效的提高了答案的召回率;2)针对带有推理过程的复杂问题,引入了桥接实体完成对问题的改写,有效的解决了推理问题引入的歧义性;3)增加了对于答案个数的判别模块,可以判定给定的问题是否含有多答案。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明方法流程图。
具体实施方式
如图1所示,本发明提供了一种基于多文档的复杂问题自动化求解方法,具体包括如下步骤:
阶段1:阅读理解模块,该模块主要针对单个段落进行单文档阅读理解技术,主要包括文档划分段落和单文档阅读理解两个过程:
步骤(1)文档分段,由于文档长度过长,神经网络对于过长文本无法处理,首先需要对文档划分段落。首先对文档断句然后遍历每个句子,判断加入当前句子后段落长度是否超过给定阈值,如果超过将开始一个新的段落;否则将该句子加入当前段落;
步骤(2)对划分后的段落进行数据预处理,包括全半角转换,繁简体转换等过程;
步骤(3)将处理后的段落输入阅读理解模型,这里的阅读理解模型是利用现有的bert预训练模型,然后在bert编码后的隐藏层接两个指针网络,经过阅读理解模型以后每个段落预测出一个答案,因为一个问题有多个文档,每个文档对应多个段落,每个段落有一个答案,所以一个问题会预测出多个答案。到此为止完成阅读理解步骤;
阶段2:答案排序模块
阶段3:针对推理问题的问题改写模块
阶段2中,包括:
上一阶段中已知单个问题有多个答案,这里需要对答案进行排序:
步骤(4)句对排序:主要利用bert预训练模型,将问题和答案所在的句子这一个文本对输入bert,经过bert编码以后提取[CLS]的向量表示,然后经过一个输出为2的全连接网络,完成对文本对之间是否有关系的判别;预测的时候针对给定的问题和多个答案,选择出topK个概率最高的答案;
步骤(5)答案个数预测:因为给定的问题可能包含多个答案,所以需要预测答案个数:利用bert预训练模型判断问题的答案个数,并根据预测的答案个数在步骤4的结果中选择给定的答案集合,作为最后的结果。
阶段3中,包括:
步骤(6)预测桥接实体,针对包含推理过程的问题需要首先预测出桥接实体,桥接实体的预测也是当作普通的阅读理解来实现的,其过程也是重复阶段1和2,只是选择概率最高的作为桥接实体;
步骤(7)问题改写,实验发现,对于带有推理过程问题主要是引入了歧义性,将预测出的桥接实体拼接到问题后边可以有效的解决这一歧义性。所以针对上一个步骤预测出的桥接实体拼接到问题后边,然后重复阶段2和3便可完成带有推理过程的问题求解。利用本发明方法,将原始问题拆解成两个问题:比如“2017年金球奖得主效力于哪个球队?”首先根据问题和文章求出最长公共子串,得到最长公共子串“2017年金球奖得主”组成简单问题“2017年金球奖得主是谁”,经过阅读理解模型得到答案“c罗”;然后利用答案替换掉原始问题的最长公共子串”c罗效力于哪个球队”,然后经过阅读立即模型得到答案“皇马”,完成推理。
本发明提供了一种基于多文档的复杂问题自动化求解方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (6)

1.一种基于多文档的复杂问题自动化求解方法,其特征在于,包括如下步骤:
步骤1,对文章分段,针对单个段落进行单文档阅读理解,每个段落都预测出一个答案;
步骤2,利用神经网络模型对答案所在句子排序,并根据问题预测答案个数,选择出topK个答案;
步骤3,针对需要多部推理的问题:问题拆解成两个子问题,首先求解出简单问题;然后将简单问题答案拼接在复杂问题之后,求解出最终的答案。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,对文档划分段落:对文档断句然后遍历每个句子,判断加入当前句子后段落长度是否超过给定阈值,如果超过将开始一个新的段落,否则将当前句子加入当前段落;
步骤1-2,对步骤1-1划分后的段落进行数据预处理,包括全半角转换和繁简体转换;
步骤1-3,将步骤1-2处理后的段落输入阅读理解模型,所述阅读理解模型为bert预训练模型,然后将经过bert编码后的向量输出通过两个指针网络,经过阅读理解模型每个段落预测出一个答案。
3.根据权利要求2所述的方法,其特征在于,步骤1-3中,将步骤1-2处理后的段落输入阅读理解模型,并引入一个辅助任务来预测文章中每一个词是否能成为答案,所述辅助任务为:对每一个字做二分类,如果该字在答案中,给该字打上标签为1,表示这个字是在答案中,否则打上标签为0,表示该字不在答案中。
4.根据权利要求3所述的方法,其特征在于,步骤2包括:
步骤2-1,句对排序:利用bert预训练模型,将问题和答案所在的上下文,作为文本对输入bert模型,经过bert编码以后提取[CLS]的向量表示,然后经过一个输出为1的全连接网络,得到网络输出1,损失函数采用交叉熵;预测的时候针对给定的问题和两个以上的答案,根据网络输出结果,选择出topK个概率最高的答案作为最终答案;
步骤2-2,预测答案个数:利用bert预训练模型判断问题的答案个数,并根据预测的答案个数在步骤2-1的结果中选择给定的答案集合,作为最后的结果。
5.根据权利要求4所述的方法,其特征在于,步骤2-1中,在句对排序过程中,引入外部特征,即引入问题和答案上下文的BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分,将BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分拼接到网络输出1之后,经过输出为1的全连接网络得到融入外部特征的网络输出2,网络输出1和网络输出2分别经过两个交叉熵损失函数得到两个损失,来衡量问题和答案上下文的关联性,其中交叉熵函数Loss公式如下:
Figure FDA0002407386720000021
其中
Figure FDA0002407386720000024
是模型预测样本是正例的概率,y是样本标签,如果样本属于正例,取值为1,否则取值为0;
其中BM25相似度特征的计算方法如下:对问题和答案所在上下文分词,记问题Q中第i个单词为qi,i取值为1~n,n为问题Q中单词总数;记答案所在上下文为D,首先计算qi和D的相关性得分,然后将qi相对于D的相关性得分进行加权求和,从而得到Q与D的相关性得分如下所示:
Figure FDA0002407386720000022
其中IDF(qi)定义为查询中单词qi的逆文档频率,具体公式如下,
Figure FDA0002407386720000023
其中N为语料库的全部文档数,n(qi)为包含了qi的文档数;k1和b为调节因子;fi为qi在d中的出现频率;dl为文档d的长度,avgdl为所有文档的平均长度;
所述单词重叠特征包括1-gram和2-gram特征,1-gram是统计一个单词组成的子串,2-gram是统计连续两个单词组成的子串,计算方法如下:
对于问题和答案所在上下文通过jieba分词,将问题和答案的单词的交集个数除以问题中单词的个数,得到的结果作为一元重叠特征;计算问题和答案的单词的交集中单词的逆文档频率IDF得分总和,将总和除以问题中单词的IDF总合,得到的结果作为一元IDF特征;
分别统计问题和答案所在上下文的二元单词串,二元单词串是以单词为单位的2-gram,将问题的二元单词串集合和答案所在上下文的二元单词串集合的交集个数除以问题的2-gram个数,得到的结果作为二者的二元重叠特征;计算交集中2-gram的IDF得分总和,将总和除以问题中2-gram的IDF总和,得到的结果作为二元IDF特征。
6.根据权利要求5所述的方法,其特征在于,步骤3包括:
步骤3-1,复杂问题拆解:针对复杂问题根据原始文章求出最长公共子串,组成简单问题,所述最长公共子串的定义是长度为m的字符串S以及长度为n的字符串T,求最长的子串x同时是S以及T的连续子串;
步骤3-2,预测桥接实体:针对步骤3-1得到的简单问题,采用步骤1-3中所述的阅读理解模型得到简单问题的答案;
步骤3-3,根据步骤3-2得到的简单问题答案替换掉原始问题中的最长公共子串,组成替换后的问题,然后根据步骤1-3中的阅读理解模型,得到替换后的问题的答案。
CN202010165743.XA 2020-03-11 2020-03-11 一种基于多文档的复杂问题自动化求解方法 Active CN111460092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165743.XA CN111460092B (zh) 2020-03-11 2020-03-11 一种基于多文档的复杂问题自动化求解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165743.XA CN111460092B (zh) 2020-03-11 2020-03-11 一种基于多文档的复杂问题自动化求解方法

Publications (2)

Publication Number Publication Date
CN111460092A true CN111460092A (zh) 2020-07-28
CN111460092B CN111460092B (zh) 2022-11-29

Family

ID=71682801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165743.XA Active CN111460092B (zh) 2020-03-11 2020-03-11 一种基于多文档的复杂问题自动化求解方法

Country Status (1)

Country Link
CN (1) CN111460092B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112380326A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN112966492A (zh) * 2021-02-09 2021-06-15 柳州智视科技有限公司 利用已知知识解决问题的方法
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113792550A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 预测答案的确定方法及装置、阅读理解方法及装置
CN114615306A (zh) * 2022-05-10 2022-06-10 中南林业科技大学 物联网中汇聚节点的高效文件系统及其处理方法
CN115080717A (zh) * 2022-06-02 2022-09-20 特赞(上海)信息科技有限公司 基于文本理解推理的问答方法和系统
CN115455160A (zh) * 2022-09-02 2022-12-09 腾讯科技(深圳)有限公司 一种多文档阅读理解方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘书瑞等: "基于文本数据的过滤式与嵌入式样本选择算法", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/10.1478.G2.20190918.1659.006.HTML》 *
赵京胜等: "自动关键词抽取研究综述", 《软件学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112380326B (zh) * 2020-10-10 2022-07-08 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112380326A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112527992B (zh) * 2020-12-17 2023-01-17 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN112966492A (zh) * 2021-02-09 2021-06-15 柳州智视科技有限公司 利用已知知识解决问题的方法
CN113792550A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 预测答案的确定方法及装置、阅读理解方法及装置
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN114615306A (zh) * 2022-05-10 2022-06-10 中南林业科技大学 物联网中汇聚节点的高效文件系统及其处理方法
CN114615306B (zh) * 2022-05-10 2022-07-29 中南林业科技大学 物联网中汇聚节点的高效文件系统及其处理方法
CN115080717A (zh) * 2022-06-02 2022-09-20 特赞(上海)信息科技有限公司 基于文本理解推理的问答方法和系统
CN115455160A (zh) * 2022-09-02 2022-12-09 腾讯科技(深圳)有限公司 一种多文档阅读理解方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111460092B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN111460092B (zh) 一种基于多文档的复杂问题自动化求解方法
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
Saad et al. Twitter sentiment analysis based on ordinal regression
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN106294330B (zh) 一种科技文本挑选方法及装置
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
Hu et al. Text sentiment analysis: A review
CN113343706B (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Xu et al. Implicitly incorporating morphological information into word embedding
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Reusch et al. TU_DBS in the ARQMath Lab 2021, CLEF.
Zhou et al. Condensed convolution neural network by attention over self-attention for stance detection in twitter
CN111259156A (zh) 一种面向时间序列的热点聚类方法
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN111259651A (zh) 一种基于多模型融合的用户情感分析方法
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210000 No.1, Lingshan South Road, Qixia District, Nanjing City, Jiangsu Province

Applicant after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210007 No. 1 East Street, alfalfa garden, Jiangsu, Nanjing

Applicant before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

GR01 Patent grant
GR01 Patent grant