CN108960319B - 一种面向全局的机器阅读理解建模中的候选答案筛选方法 - Google Patents

一种面向全局的机器阅读理解建模中的候选答案筛选方法 Download PDF

Info

Publication number
CN108960319B
CN108960319B CN201810700571.4A CN201810700571A CN108960319B CN 108960319 B CN108960319 B CN 108960319B CN 201810700571 A CN201810700571 A CN 201810700571A CN 108960319 B CN108960319 B CN 108960319B
Authority
CN
China
Prior art keywords
paragraph
candidate answers
candidate
segment
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810700571.4A
Other languages
English (en)
Other versions
CN108960319A (zh
Inventor
杨沐昀
张越
李亚慧
赵铁军
徐冰
郑德权
曹海龙
朱聪慧
马晶义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810700571.4A priority Critical patent/CN108960319B/zh
Publication of CN108960319A publication Critical patent/CN108960319A/zh
Application granted granted Critical
Publication of CN108960319B publication Critical patent/CN108960319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。

Description

一种面向全局的机器阅读理解建模中的候选答案筛选方法
技术领域
本发明涉及一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。
背景技术
大规模数据集在一个研究领域的推进中发挥着极其重要的作用。在机器阅读理解领域也发布了几个数据集,极大地促进了此领域的研究。例如针对SQuAD数据集,有几个机器阅读理解模型的性能已经超过了人工标注。中文方面规模较大的数据集则是DuReader,它是一份大规模的人工标注的面向真实世界的开放领域的阅读理解数据集,其中的问题和篇章均收集于搜索引擎,答案也均为人工标注。
在阅读理解任务中,对于一个问题,可能存在多篇文章可以提供必要的答案信息。但是,如果将所有篇章的所有段落均送入流行的阅读理解模型中,将极大降低训练和预测的效率。因此,需要预先进行候选答案筛选。目前答案筛选的方法是:从每个篇章中根据召回率筛选一个段落作为候选答案段落,然后从每个候选答案段落中根据F1值选取一个候选答案片段,并从中选取一个得分最高的作为最佳候选答案片段。只有所筛选的候选答案段落和这个最佳候选答案片段会被输入阅读理解模型进行训练和最终的预测。
显然,现有的答案段落筛选方法是一种局部贪心方法,不能处理一个篇章中多个段落均与问题相关的现象,并且会受到篇章数的影响而生成过多或过少的候选答案。而候选答案片段的选择标准与候选答案段落的选择并不一致,有可能遗漏F1值更优的最佳候选答案片段。
发明内容
本发明为了解决目前候选答案筛选方法的不足,提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,对每个篇章的每个段落-------最主要的不同根据F1值筛选每个段落中的候选答案片段在所有的候选答案片段中,选择F1值最大作为最佳候选答案片段;所述候选答案筛选方法可以面向所有篇章的所有段落筛选出多个候选答案,并在全局范围内筛选出最佳候选答案片段。所采取的技术方案如下:
一种基于逻辑回归的面向全局的候选答案段落筛选方法,所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。
进一步地,所述候选答案筛选方法的具体步骤如下:
步骤一:输入问题、问题所对应的全部篇章,以及拟筛选的候选答案段落数量P’;
步骤二:计算问题与全部篇章中各个段落的文本片段间的F1值;
步骤三:将各文本片段依据F1值进行降序排序,定位出F1值最高的文本片段作为最佳候选答案片段;
步骤四:依次提取所述篇章中所有段落P的每个段落与问题之间的5个特征,并将提取获得的特征形成特征向量;
步骤五:将步骤五所述特征向量依次送入逻辑回归模型中,利用逻辑回归模型和所述特征向量对各个段落与所述问题之间的相关性进行打分,获得所述所有段落中每个段落与问题之间的相关性分数;
步骤六:将各个段落按照步骤五获得的相关性分数的降序形式进行排列,形成段落序列,将步骤三获得的最佳候选答案片段所在段落无条件强制放置在所述段落序列的首位;根据拟筛选的候选答案段落数量,在含有最佳候选答案片段所在段落的段落序列中筛选出从首位开始顺序后的P’个段落,所述P’个段落即为候选答案段落集合;
步骤七:最终输出所述最佳候选答案片段以及包含所述最佳候选答案片段所在段落的候选答案段落集合,用于机器阅读理解深度学习模型的训练。
进一步地,所述逻辑回归模型的模型结构为:
z=θ01x12x23x3+…+θnxn
其中,为步骤二所述特征向量;为逻辑回归模型要训练的模型参数;hθ(x)为模型预测结果,表示输入的特征向量对应的段落与其问题之间的相关性得分。
进一步地,所述段落和问题之间的特征包括段落和问题之间的recall(召回率)得分、段落和问题之间的F1(精确值和召回率的调和均值)得分、TF-IDF(term frequency-inverse document frequency,词频-逆文档频率)余弦相似度、当前段落是否第一个段落、段落和问题之间的BLEU(Bilingual Evaluation Understudy,双语互译质量评估辅助工具)得分和段落和问题之间相交的词的个数。
进一步地,所述TF-IDF余弦相似度的计算是通过将段落和问题均采用向量空间模型表示为向量后,对段落中的每个词均进行TF*IDF加权,然后计算并获得两个向量之间的TF-IDF余弦相似度,余弦相似度计算公式如下:
其中分别为问题和段落的TF-IDF特征向量表示,n为向量的维度。
本发明有益效果:
本发明所述一种面向全局的机器阅读理解建模中的候选答案筛选方法克服了在现有方法中,候选答案片段的定位是基于上一阶段的候选答案段落筛选的,也即候选答案片段的定位的范围是局限于上一阶段筛选到的段落内的技术偏见,本发明所述候选答案筛选方法在候选答案筛选过程中的训练时采用全局选择(全篇所有段落,即包括候选答案段落筛选和候选答案片段定位)并在测试时采用逻辑回归方法筛选答案段落。本发明所述候选答案筛选方法有效提高了候选答案段落筛选的效果,相较于传统筛选方法提升了15.82%。最终本发明提出的候选答案筛选方法可以使最终的阅读理解模型性能在BLEU-4(Bilingual Evaluation Understudy,4-gram)上取得了6.25个点的提升,在ROUGE-L(Longest Common Subsequence based Recall-Oriented Understudy for GistingEvaluatio)上取得4.79个点的提升。
附图说明
图1为本发明所述选答案筛选方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
实施例1:
本实施例提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,如图1所示,所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。
所述候选答案筛选方法的具体步骤如下:
步骤一:输入问题、问题所对应的全部篇章,以及拟筛选的候选答案段落数量P’;
步骤二:计算问题与全部篇章中各个段落的文本片段间的F1值;
步骤三:将各文本片段依据F1值进行降序排序,定位出F1值最高的文本片段作为最佳候选答案片段;
步骤四:依次提取所述篇章中所有段落P的每个段落与问题之间的5个特征,并将提取获得的特征形成特征向量;
步骤五:将步骤五所述特征向量依次送入逻辑回归模型中,利用逻辑回归模型和所述特征向量对各个段落与所述问题之间的相关性进行打分,获得所述所有段落中每个段落与问题之间的相关性分数;
步骤六:将各个段落按照步骤五获得的相关性分数的降序形式进行排列,形成段落序列,将步骤三获得的最佳候选答案片段所在段落无条件强制放置在所述段落序列的首位;根据拟筛选的候选答案段落数量,在含有最佳候选答案片段所在段落的段落序列中筛选出从首位开始顺序后的P’个段落,所述P’个段落即为候选答案段落集合;
步骤七:最终输出所述最佳候选答案片段以及包含所述最佳候选答案片段所在段落的候选答案段落集合,用于机器阅读理解深度学习模型的训练。
所述逻辑回归模型的模型结构为:
z=θ01x12x23x3+…+θnxn
其中,为步骤二所述特征向量;为逻辑回归模型要训练的模型参数;hθ(x)为模型预测结果,表示输入的特征向量对应的段落与其问题之间的相关性得分。
所述段落和问题之间的特征包括6个特征,所述6个特征分别为:
Recall:段落和问题之间的recall得分;
F1:段落和问题之间的F1得分;如图1所示,通过计算F1得分来对各个段落评估,在决定最终进入逻辑回归模型的段落时,如果候选答案片段所在的段落不在上一阶段确定的段落集合中,则将该候选答案片段所在段落作为正例加入预筛选的候选段落集合。
上述根据所述F1得分来对各个段落评估的方法有效提高了候选答案筛选的准确度,极大程度上提高了本发明所述候选答案筛选方法的性能指标。
TF-IDF余弦相似度:TF-IDF矩阵的创建是基于包括训练集、开发集和测试集在内的全数据集上的。段落和问题均采用向量空间模型(Vector Space Model)表示为向量,每个词均被TF*IDF加权,然后计算两个向量之间的余弦相似度;
是否第一个段落:标示该段落是否是所在篇章的第一个段落,如果是,则标为1,反之标为0;
BLEU:段落和问题之间的BLEU得分;
词相交个数:段落和问题之间相交的词的个数。
其中,所述TF-IDF余弦相似度的计算是通过将段落和问题均采用向量空间模型表示为向量后,对段落中的每个词均进行TF*IDF加权,然后计算并获得两个向量之间的TF-IDF余弦相似度,余弦相似度计算公式如下:
其中分别为问题和段落的TF-IDF特征向量表示,n为向量的维度。。
实施例2
本实施例提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,所述候选答案筛选方法的具体流程如表1所示:
表1:全局范围内候选答案段落筛选流程
本实施例中所述候选答案筛选方法,其在训练时,标注包含答案的段落为类别1,其余为类别0,当预测时,每个段落均会预测得到一个概率值标示这该段落包含答案的可能性。本实施例中将样本随机分成6:4来进行参数的选择,采用全局筛选策略,设置所选段落数为固定值5。
对于本实施例所述候选答案筛选方法与现有的baseline策略下的候选答案筛选方法进行对比试验,其实验结果和分析过程如下:
1、筛选后的候选答案段落的评估
从DuReader数据集中随机抽取了Search子集的开发集的100个问题进行分析和改进,对于采样得到的100个问题,每个问题下的各个段落均被手工标示了1和0,分别表示含有答案片段以及不含有答案片段,同时也标示出了各个段落中包含的答案子串。表格1是候选答案段落筛选的结果,在这里对基于机器学习的候选答案段落筛选进行了测试,并与已有解决方案进行了对比。
表格2.候选答案段落筛选评估结果
表格2是已有解决方案和通过应用逻辑回归方法采用测试集策略进行候选答案段落筛选的评估结果,所谓测试集策略是指每个段落与问题计算相关性得分后再进一步筛选。基于逻辑回归方法在测试集策略下进行候选答案段落筛选的性能取得了显著提升。
表格3.候选答案片段定位评估结果
表格3中的结果分别是已有解决方案和全局定位候选答案片段的结果,结果说明采用全局定位方式能获取得到更精确的候选答案片段。
2、候选答案筛选对于最终阅读理解模型性能的影响
伴随DuReader数据集发布的还有两个baseline系统,分别是基于Match-LSTM模型和BiDAF模型,两个模型的提出均针对SQuAD数据集,而其中BiDAF的改进版在SQuAD数据集上取得过单模型最优性能,因此,本实施例选用BiDAF模型作为实验的基准模型。
由于self-attention机制在一些NLP的工作中显示出不错的性能,因此,将self-attention层引入BiDAF模型中,同时将训练目标更新为共享归一形式,使得模型输出的得分在各个段落之间可比。最后将Glove预训练得到的词向量载入了模型。在此基础上,进行了预处理改进后的实验。
实验参数设置上,采用Glove算法在DuReader全数据集上预训练了300维的词向量,设置各层的神经元个数为150。使用Adam算法对模型进行训练,设置初始学习率为0.001,batch大小设为32。试验后的最终新型如表4所示:
表格5.机器阅读理解模型的最终性能
表格5中第一个实验是改进后的模型的性能,后两个个实验结果均基于改进后的模型。第二行结果表示当保持训练集预处理与baseline系统一致,仅将测试时改为采用基于机器学习方案时,在BLEU-4和ROUGE-L上均取得较大提升,这表明测试时的候选答案段落筛选确实对系统性能起着极大影响,而基于机器学习的方法使得更加相关的段落被送入模型,从而提高了模型挑选到更加准确的答案片段的概率。第三行中训练时预处理采用全局方式(包括候选答案段落筛选和候选答案片段定位),但测试时采用基于机器学习的方案,相较于第一行,在BLEU-4上有了进一步的提升,证实了对于训练时全局选择(包括候选答案段落筛选和候选答案片段定位)以及测试时基于机器学习方法筛选答案段落的有效性。
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (4)

1.一种面向全局的机器阅读理解建模中的候选答案筛选方法,其特征在于,所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,其中,F1值具体指计算问题与全部篇章中各个段落的文本片段间的F1值;利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合;所述候选答案筛选方法的具体步骤如下:
步骤一:输入问题、问题所对应的全部篇章,以及拟筛选的候选答案段落数量P’;
步骤二:计算问题与全部篇章中各个段落的文本片段间的F1值;
步骤三:将各文本片段依据F1值进行降序排序,定位出F1值最高的文本片段作为最佳候选答案片段;
步骤四:依次提取所述篇章中所有段落P的每个段落与问题之间的5个特征,并将提取获得的特征形成特征向量;
步骤五:将步骤四所述特征向量依次送入逻辑回归模型中,利用逻辑回归模型和所述特征向量对各个段落与所述问题之间的相关性进行打分,获得所述所有段落中每个段落与问题之间的相关性分数;
步骤六:将各个段落按照步骤五获得的相关性分数的降序形式进行排列,形成段落序列,将步骤三获得的最佳候选答案片段所在段落无条件强制放置在所述段落序列的首位;根据拟筛选的候选答案段落数量,在含有最佳候选答案片段所在段落的段落序列中筛选出从首位开始顺序后的P’个段落,所述P’个段落即为候选答案段落集合;
步骤七:最终输出所述最佳候选答案片段以及包含所述最佳候选答案片段所在段落的候选答案段落集合,用于机器阅读理解深度学习模型的训练。
2.根据权利要求1所述候选答案筛选方法,其特征在于,所述逻辑回归模型的模型结构为:
其中,为步骤四所述特征向量;为逻辑回归模型要训练的模型参数;hθ(x)为模型预测结果,表示输入的特征向量对应的段落与其问题之间的相关性得分,其中,e-z中的z具体表示为:z=θ01x12x23x3+…+θnxn
3.根据权利要求1所述候选答案筛选方法,其特征在于,所述段落和问题之间的特征包括段落和问题之间的recall得分、段落和问题之间的F1得分、TF-IDF余弦相似度、当前段落是否第一个段落、段落和问题之间的BLEU得分和段落和问题之间相交的词的个数;其中,recall表示召回率,F1表示精确值和召回率的调和均值;TF-IDF表示词频-逆文档频率;BLEU表示双语互译质量评估辅助工具。
4.根据权利要求3所述候选答案筛选方法,其特征在于,所述TF-IDF余弦相似度的计算是通过将段落和问题均采用向量空间模型表示为向量后,对段落中的每个词均进行TF*IDF加权,然后计算并获得两个向量之间的TF-IDF余弦相似度,余弦相似度计算公式如下:
其中分别为问题和段落的TF-IDF特征向量表示,n为向量的维度。
CN201810700571.4A 2018-06-29 2018-06-29 一种面向全局的机器阅读理解建模中的候选答案筛选方法 Active CN108960319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810700571.4A CN108960319B (zh) 2018-06-29 2018-06-29 一种面向全局的机器阅读理解建模中的候选答案筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810700571.4A CN108960319B (zh) 2018-06-29 2018-06-29 一种面向全局的机器阅读理解建模中的候选答案筛选方法

Publications (2)

Publication Number Publication Date
CN108960319A CN108960319A (zh) 2018-12-07
CN108960319B true CN108960319B (zh) 2019-12-03

Family

ID=64484215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810700571.4A Active CN108960319B (zh) 2018-06-29 2018-06-29 一种面向全局的机器阅读理解建模中的候选答案筛选方法

Country Status (1)

Country Link
CN (1) CN108960319B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN110096699B (zh) * 2019-03-20 2023-06-09 华南师范大学 基于语义的机器阅读理解的候选答案筛选方法和系统
CN110134946B (zh) * 2019-04-15 2023-04-18 深圳智能思创科技有限公司 一种针对复杂数据的机器阅读理解方法
CN110633730B (zh) * 2019-08-07 2023-05-23 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110457710B (zh) * 2019-08-19 2022-08-02 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端
CN111159340B (zh) * 2019-12-24 2023-11-03 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN111680158A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 开放领域的短文本分类方法、装置、设备及存储介质
CN111858879B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111858878B (zh) * 2020-06-18 2023-12-22 达观数据有限公司 从自然语言文本中自动提取答案的方法、系统及存储介质
CN111737443B (zh) * 2020-08-14 2020-11-20 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法
CN112163079B (zh) * 2020-09-30 2024-02-20 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112269868B (zh) * 2020-12-21 2021-03-09 中南大学 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN113627152B (zh) * 2021-07-16 2023-05-16 中国科学院软件研究所 一种基于自监督学习的无监督机器阅读理解训练方法
CN113553402B (zh) * 2021-07-28 2022-09-20 山西大学 一种基于图神经网络的考试阅读理解自动问答方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3101597A2 (en) * 2015-06-05 2016-12-07 Google, Inc. Reading comprehension neural networks
CN106462607A (zh) * 2014-05-12 2017-02-22 谷歌公司 自动化阅读理解

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160477A (ja) * 1995-12-13 1997-06-20 Nippon Telegr & Teleph Corp <Ntt> 単語読解能力測定方法ならびに装置
US8764455B1 (en) * 2005-05-09 2014-07-01 Altis Avante Corp. Comprehension instruction system and method
CN103229120A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用假设剪枝提供问题答案
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN107301226B (zh) * 2017-06-20 2018-06-15 哈尔滨工业大学 一种问答系统中检索子模块的自动评价方法
CN107832295B (zh) * 2017-11-08 2021-06-04 山西大学 阅读机器人的标题选择方法及系统
CN107818085B (zh) * 2017-11-08 2021-04-23 山西大学 阅读机器人进行阅读理解的答案选择方法及系统
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462607A (zh) * 2014-05-12 2017-02-22 谷歌公司 自动化阅读理解
EP3101597A2 (en) * 2015-06-05 2016-12-07 Google, Inc. Reading comprehension neural networks

Also Published As

Publication number Publication date
CN108960319A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108960319B (zh) 一种面向全局的机器阅读理解建模中的候选答案筛选方法
Polyzou et al. Feature extraction for next-term prediction of poor student performance
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN100397332C (zh) 文档分类方法和设备
US11257140B2 (en) Item recommendation method based on user intention in a conversation session
Craswell et al. TREC deep learning track: Reusable test collections in the large data regime
CN112417105B (zh) 问答处理方法、装置、存储介质和电子设备
CN108009405A (zh) 一种基于机器学习技术预测细菌外膜蛋白质的方法
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN102129565B (zh) 基于冗余特征消减AdaBoost分类器的物体检测方法
CN109299252A (zh) 基于机器学习的股票评论的观点极性分类方法和装置
CN110349621B (zh) 肽段-谱图匹配可信度检验方法、系统、存储介质及装置
CN109035025A (zh) 评价股票评论可靠性的方法和装置
JP5650440B2 (ja) 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
CN105046106B (zh) 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
CN104615910A (zh) 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Chandra Wood Classification For Efficiency in Preventing Illegal Logging Using K-Nearest Neighbor
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
Langenecker et al. Sportstables: A new corpus for semantic type detection
Lennox et al. Deep learning proteins using a triplet-BERT network
CN113743497A (zh) 基于注意力机制与多尺度特征的细粒度识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210118

Address after: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee after: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

Address before: 150001 No.92 xidazhi street, Nangang District, Harbin City, Heilongjiang Province

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230315

Address after: 150027 Room 412, Unit 1, No. 14955, Zhongyuan Avenue, Building 9, Innovation and Entrepreneurship Plaza, Science and Technology Innovation City, Harbin Hi tech Industrial Development Zone, Heilongjiang Province

Patentee after: Heilongjiang Industrial Technology Research Institute Asset Management Co.,Ltd.

Address before: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee before: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE