CN112328800A - 自动生成编程规范问题答案的系统及方法 - Google Patents

自动生成编程规范问题答案的系统及方法 Download PDF

Info

Publication number
CN112328800A
CN112328800A CN201910717702.4A CN201910717702A CN112328800A CN 112328800 A CN112328800 A CN 112328800A CN 201910717702 A CN201910717702 A CN 201910717702A CN 112328800 A CN112328800 A CN 112328800A
Authority
CN
China
Prior art keywords
programming specification
answers
answer
module
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910717702.4A
Other languages
English (en)
Inventor
吴秦月
杜天蛟
曹峻铭
李威
沈备军
陈雨亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910717702.4A priority Critical patent/CN112328800A/zh
Publication of CN112328800A publication Critical patent/CN112328800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/33Intelligent editors

Abstract

一种自动生成编程规范问题答案的系统及方法,包括:子图匹配模块、机器阅读理解模块和学习排序模块,本发明通过构建编程规范知识图谱,通过子图匹配模块将自然语言问题转换为符合SPARQL协议的语句,利用编程规范知识图谱中结构化的信息查询得到候选答案。再通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语,将这些词标记为关键词,使用Apache Solr引擎搜索得到最相关的10个自然段,并且使用基于TF‑IDF的算法对搜索得到的自然段进行打分,再对每个自然段使用训练好的深度学习模型得到候选答案,最后通过学习排序模块对候选答案进行合并生成新的候选答案,然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。

Description

自动生成编程规范问题答案的系统及方法
技术领域
本发明涉及一种人工智能语义识别领域的技术,具体涉及一种自动生成编程规范问题答案的系统及方法。
背景技术
近年来,编程规范在软件质量保障中扮演了越来越重要的角色。编程规范是一系列的代码准则,帮助软件开发者提高代码的可读性、可维护性和可重用性。当软件开发者遇到编程规范相关的问题时,可以查询编程规范文档。然而一条编程规范可能会出现在多份编程规范文档中,并且每份编程规范文档的内容可能是不同的。因此,软件开发者需要查询或浏览多份文档才能获得想要的信息,十分繁琐。问答机器人系统能够自动生成用户提出的问题的答案,而现有的问答机器人系统并没有结合编程规范领域知识,因此很难高效理解软件开发者提出的关于编程规范的问题并给出正确的回答。
发明内容
本发明针对现有问答机器人系统编程规范领域知识利用不充分、用户意图理解不精确等缺陷,提出一种自动生成编程规范问题答案的系统及方法,并通过结合知识图谱和机器阅读理解技术,充分利用编程规范领域知识,更精确地理解用户意图,从而提高了自动生成编程规范问题答案的准确性。
本发明是通过以下技术方案实现的:
本发明涉及一种自动生成编程规范问题答案的系统,包括:子图匹配模块、机器阅读理解模块和学习排序模块,其中:子图匹配模块采集自然语言问题并转换为符合SPARQL(SPARQL Protocol and RDF Query Language)协议的语句,利用编程规范知识图谱中结构化的信息查询得到候选答案;机器阅读理解模块使用深度学习模型自动理解非结构化文本,预测得到候选答案;学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并,使用逻辑回归分类器对候选答案按照正确的概率进行排序。
所述的自然语言问题包括但不限于:寻找某条编程规范的属性、根据条件寻找某条适用的编程规范等。
本发明涉及上述系统的编程规范问题答案自动生成方法,包括以下步骤:
步骤1)构建编程规范知识图谱,具体为:基于编程规范知识图谱的本体,收集书籍以及各种组织公开的编程规范文档,将其整理存储为编程规范知识图谱中的三元组。
步骤2)通过子图匹配模块识别出自然语言问题中的节点,然后使用StanfordCoreNLP工具构建语法依赖树,根据识别出的节点集合和构建的语法依赖树生成查询子图Qu,根据Qu的内容和结构生成SPARQL查询语句,查询知识图谱得到候选答案。
步骤3)通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语,将这些词标记为关键词,使用Apache Solr引擎搜索得到最相关的10个自然段,并且使用基于TF-IDF的算法对搜索得到的自然段进行打分,再对每个自然段使用训练好的深度学习模型得到候选答案。
步骤4)学习排序模块对步骤2和步骤3产生的候选答案进行合并生成新的候选答案,然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。
所述的编程规范知识图谱包括:结构化数据和非结构化数据。
所述的结构化数据是指:实体、关系/属性、实体构成的三元组,通过人工阅读编程规范文档进行构建,其中:关系包括相似关系、相关关系和类型层次关系,属性包括规则、优点和缺点等。
所述的编程规范文档中的每个段落对应一条非结构化数据,具体构建流程为:将编程规范文档拆分成段落,使用TF-IDF计算段落和实体的相似度,通过添加属性的方式把段落连接在相似度最高的实体上。
所述的TF-IDF是指:用词频和逆文档频率来评估每个词在句子中的重要程度。当某个词在句子中出现的频率高,并且它在其他句子中出现的次数较少,则认为该词比较重要。
所述的节点包括:疑问词节点和实体节点,其中:疑问词节点是指:用户输入的自然语言问题中wh开头的单词,如what、when等。实体节点是指:知识图谱中的实体,具体识别实体节点的过程为:收集了公开的编程规范术语制作成编程规范术语表,通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语,然后使用Jena引擎全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点,并按匹配程度从高到低返回结果。
所述的语法依赖树是指:根据句子中每个单词的词性及位置,用树形图表示句子。
所述的查询子图Qu,通过以下方式得到:对于给定的语法依赖树和节点集合V,在查询子图Qu中添加节点集合V,当两个节点v1,v2的简单路径中没有其他节点,那么就在Qu中为这两个节点添加一条边,语法依赖树中v1和v2之间的简单路径包含的单词形成Qu该边的标签,遍历每个节点重复上述操作就可以构建出查询子图Qu。
所述的候选答案合并是指:将所有的候选答案格式统一,即删除标点、大小写统一;然后删除重复的答案。
技术效果
与现有技术相比,本发明构建编程规范领域的知识图谱,并通过结合机器阅读理解技术,充分利用编程规范领域知识,更精确地理解用户意图,从而提高了自动生成编程规范问题答案的准确性。
附图说明
图1为自动生成编程规范问题答案系统的技术架构图;
图2为节点抽取流程图;
图3为实施例流程示意图。
具体实施方式
如图1所示,涉及一种自动生成编程规范问题答案的系统,包括:子图匹配模块、机器阅读理解模块和学习排序模块。
所述的子图匹配模块采集自然语言问题并转换为符合SPARQL(SPARQL Protocoland RDF Query Language)协议的语句,利用编程规范知识图谱中结构化的信息查询得到候选答案。
所述的机器阅读理解模块使用深度学习模型学习非结构化文本预测得到候选答案
所述的学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并,使用逻辑回归分类器对候选答案按照正确的概率进行排序。
如图3所示,本实施例涉及上述系统的编程规范问题答案自动生成方法,具体包括以下步骤:
步骤1)用户以自然语言的方式提出编程规范相关的问题。
步骤2)子图匹配模块使用如图2所示的流程抽取出问题中的节点,然后使用Stanford CoreNLP工具构建语法依赖树,根据识别出的节点集合和构建的语法依赖树生成查询子图Qu,根据Qu的内容和结构生成SPARQL查询语句,查询知识图谱得到候选答案。
所述的节点包括疑问词节点和实体节点。疑问词节点是指:用户输入的自然语言问题中wh开头的单词,如what、when等。实体节点是指:知识图谱中的实体,具体识别实体节点的过程为:收集了公开的编程规范术语制作成编程规范术语表,通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语,然后使用Jena全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点。
步骤3)机器阅读理解模块先从自然语言问题中选取所有的名词、名词短语和主语,将这些词标记为关键词,使用Apache Solr搜索得到最相关的10个自然段。对每个自然段使用训练过的深度学习模型得到候选答案。
所述的深度学习模型为三层结构的网络,每一层的隐藏层节点数都为150。
第一层根据自然语言问题和段落的词嵌入向量,将各自的上下文信息分别编码进问题和段落中,该层的输入分别为段落和问题,段落使用矩阵P[d*p]表示,d表示单词的词向量维度,本实施例中为300,p表示段落中的词数,问题使用矩阵Q[d*q]表示,q表示问题中的词数,使用标准的单向带有长短期记忆单元(LSTM)的循环神经网络来分别处理问题和段落,具体为:
Figure BDA0002156019250000041
其中:HP[l*p]和Hq[l*q]是段落和问题经过LSTM后的隐藏层表示,l是隐藏层节点的个数,输出是HP和Hq
第二层将段落和自然语言问题整合,其输入为上一层的输出HP和Hq。顺序的遍历段落中的每个词,对于每个词i,计算出注意力权重矩阵
Figure BDA0002156019250000042
具体为:
Figure BDA0002156019250000043
Figure BDA0002156019250000044
其中:Wp,Wq,Wr,bp,WT,b均为待学习的参数,
Figure BDA0002156019250000045
是指LSTM中在i-1处的隐藏层向量,
Figure BDA0002156019250000046
即权重向量,其中第i行,第j列的数值为段落的第i个位置的词和问题的第j个位置的匹配程度。之后就可以把这个权重应用在问题上,获得一个加了权重的问题向量
Figure BDA0002156019250000047
公式为:
Figure BDA0002156019250000048
Figure BDA0002156019250000049
Figure BDA00021560192500000410
最后得到输出为
Figure BDA00021560192500000411
Figure BDA00021560192500000412
第三层从段落中预测答案的起始位置,其输入为上一层的输出Hr,输出是(as,ae),其中as,ae分别为答案的开始和终止位置在段落中的下标。
所述的词嵌入向量指的是使用词嵌入工具GloVe将数据集中段落、问题和答案中的每个单词表示成一个d维的词嵌入向量,在本实施例中设置d为300。
所述的GloVe是一个词嵌入工具,它可以把一个单词表达成一个由实数组成的向量。
所述的P[d*p],指的是P是d行,p列的矩阵,本文中形如A[m*n],指的是A是m行,n列的矩阵。
所述的预测答案的起始位置,即p(a|Hr)=p(as|Hr)*p(as|ae,Hr),其中:as和ae分别为答案的开始和终止的位置。在预测时遍历段落,将p(as)*p(ae)作为段落第s个单词到第e个单词之间的句子是答案的概率,选出概率最高的开始和终止位置。
所述的深度学习模型,其训练分别使用以下迁移学习策略中的一种,选出表现最好的运用到系统中:i)混合策略,直接将收集的编程规范领域的数据和通用领域数据(SQuAD数据集和MARCO数据集)混合在一起,训练网络模型。ii)标记策略:该策略也是将收集的编程规范领域的数据和其他数据集混合在一起,只不过为每个问答对打上了标签,标记该数据的来源。比如为SQuAD中的数据打上“[2SQuAD]”的标签。另外,为了提高编程规范领域数据的影响,还采取了过采样的策略。iii)微调策略:即先在SQuAD或MARCO数据集上进行预训练,再使用编程规范领域数据对模型进行微调。
本实施例最终使用的是微调策略,使用的预训练数据集是SQuAD。
步骤4)学习排序模块对步骤2和步骤3产生的候选答案进行合并生成新的候选答案,然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。
所述的候选答案合并是指:将所有的候选答案格式统一,即删除标点、大小写统一;然后删除重复的答案。
所述的逻辑回归分类器,其输入为特征矩阵[数据源,子图匹配模块或机器阅读理解为该答案返回的分值,和问题的相似度],其中:数据源的值为0或1,0代表该候选答案来自子图匹配模块,1代表候选答案来自机器阅读理解模块;子图匹配模块或机器阅读理解为该答案返回的分值,取值区间为[0,1];和问题的相似度,即该答案和问题的余弦相似度。在训练期间,将答案标记为正确、不正确,因此该分类器就可以学习到区分正确和不正确答案的权重,取值区间为[0,1]。
本方法结合了知识图谱和机器阅读理解技术,充分利用编程规范领域知识,更精确地理解用户意图,从而提高了自动生成编程规范问题答案的准确性。
收集了两部分的实验数据形成编程规范数据集CocoQad。第一部分是根据模版自动生成的1500条问答对,使用的是WikiAnswers上最常用的模版。第二部分是从StackOverFlow上选择的214个相关的问题,以评估系统在真实场景中的情况。因此最后的实验数据集包含1714条问答对不同来源的数据能够很好地检测出系统的性能和普遍表现。表1展示了一些问题样例。
表1自然语言问题样例
Figure BDA0002156019250000051
在机器阅读理解模块,使用的训练数据除了上述提到的CocoQad还包括SQuAD数据集和MARCO数据集。SQuAD是斯坦福大学公开的阅读理解数据集,基于维基百科上的文章,由众包工人提出的问答。每个问题的答案均为段落中的一段话。SQuAD1.1包含了100,000+个问答对以及500+篇文章。MARCO是微软的阅读理解数据集,来自真实的必应搜索记录,包含了182669个问答对以及3213835篇文章。
表2比较了机器阅读理解模块使用不同数据集和不同迁移学习策略的表现。可以看出混合策略的表现不是很令人满意,因为CocoQad的数据量相比其他两个小了很多。另外,CocoQad的答案也通常更长、更复杂,往往是多个长句子。标签策略的表现稍微好了一点,而使用SQuAD数据集进行训练CocoQad数据集进行微调的效果最好。
表2机器阅读理解模块使用不同数据集和迁移学习策略的效果
Figure BDA0002156019250000061
使用精确率、召回率和F1值来评估系统表现。使用公式如下,其中准确率为
Figure BDA0002156019250000062
召回率
Figure BDA0002156019250000063
Figure BDA0002156019250000064
表3展示了实验结果,其中:只通过机器阅读理解得到的答案比只通过子图匹配模块得到的答案的精确率低,但是召回率更高,这其中可能的原因是机器阅读理解模块是从更为丰富的非结构化数据中寻找答案,但非结构化的数据往往没有结构化的数据准确。
另外,学习排序模块将来自两个子模块的答案进行结合和排序,可以获得更好的效果,其中F1值可以达到86.82%。
表3不同机器学习模型的效果
Figure BDA0002156019250000065
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种自动生成编程规范问题答案的系统,其特征在于,包括:子图匹配模块、机器阅读理解模块和学习排序模块,其中:子图匹配模块采集自然语言问题并转换为符合SPARQL协议的语句,利用编程规范知识图谱中结构化的信息查询得到候选答案;机器阅读理解模块使用深度学习模型自动理解非结构化文本,预测得到候选答案;学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并,使用逻辑回归分类器对候选答案按照正确的概率进行排序。
2.一种根据权利要求1所述系统的自动生成编程规范问题答案的方法,其特征在于,包括以下步骤:
步骤1)构建编程规范知识图谱,具体为:基于编程规范知识图谱的本体,收集书籍以及各种组织公开的编程规范文档,将其整理存储为编程规范知识图谱中的三元组;
步骤2)通过子图匹配模块识别出自然语言问题中的节点,然后使用Stanford CoreNLP工具构建语法依赖树,根据识别出的节点集合和构建的语法依赖树生成查询子图Qu,根据Qu的内容和结构生成SPARQL查询语句,查询知识图谱得到候选答案;
步骤3)通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语,将这些词标记为关键词,使用Apache Solr引擎搜索得到最相关的10个自然段,并且使用基于TF-IDF的算法对搜索得到的自然段进行打分,再对每个自然段使用训练好的深度学习模型得到候选答案;
步骤4)学习排序模块对步骤2和步骤3产生的候选答案进行合并生成新的候选答案,然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序;
所述的编程规范知识图谱包括:结构化数据和非结构化数据;
所述的结构化数据是指:实体、关系/属性、实体构成的三元组。
3.根据权利要求2所述的方法,其特征是,所述的编程规范文档中的每个段落对应一条非结构化数据,具体构建流程为:将编程规范文档拆分成段落,使用TF-IDF计算段落和实体的相似度,通过添加属性的方式把段落连接在相似度最高的实体上。
4.根据权利要求3所述的方法,其特征是,所述的TF-IDF是指:用词频和逆文档频率来评估每个词在句子中的重要程度。当某个词在句子中出现的频率高,并且它在其他句子中出现的次数较少,则认为该词比较重要。
5.根据权利要求2所述的方法,其特征是,所述的节点包括:疑问词节点和实体节点,其中:疑问词节点是指:用户输入的自然语言问题中wh开头的单词;实体节点是指:知识图谱中的实体;
识别实体节点的过程为:收集了公开的编程规范术语制作成编程规范术语表,通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语,然后使用Jena引擎全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点,并按匹配程度从高到低返回结果。
6.根据权利要求2所述的方法,其特征是,所述的查询子图Qu,通过以下方式得到:对于给定的语法依赖树和节点集合V,在查询子图Qu中添加节点集合V,当两个节点v1,v2的简单路径中没有其他节点,那么就在Qu中为这两个节点添加一条边,语法依赖树中v1和v2之间的简单路径包含的单词形成Qu该边的标签,遍历每个节点重复上述操作就可以构建出查询子图Qu。
7.根据权利要求2所述的方法,其特征是,所述的候选答案合并是指:将所有的候选答案格式统一,即删除标点、大小写统一;然后删除重复的答案。
8.根据权利要求2所述的方法,其特征是,所述的深度学习模型为三层结构,具体包括:
第一层:该层根据自然语言问题和段落的词嵌入向量,将各自的上下文信息分别编码进问题和段落中,该层的输入分别为段落和问题,段落使用矩阵P[d*p]表示,d表示单词的词向量维度,p表示段落中的词数,问题使用矩阵Q[d*q]表示,q表示问题中的词数,使用标准的单向带有长短期记忆单元的循环神经网络来分别处理问题和段落,具体为:
Figure FDA0002156019240000021
Figure FDA0002156019240000022
其中:HP[l*p]和Hq[l*q]是段落和问题经过LSTM后的隐藏层表示,l是隐藏层节点的个数,输出是HP和Hq
第二层:该层将段落和自然语言问题整合,其输入为上一层的输出HP和Hq,顺序的遍历段落中的每个词,对于每个词i,计算出注意力权重矩阵
Figure FDA0002156019240000023
具体为:
Figure FDA0002156019240000024
Figure FDA0002156019240000025
其中:Wp,Wq,Wr,bp,WT,b均为待学习的参数,
Figure FDA0002156019240000026
是指LSTM中在i-1处的隐藏层向量,
Figure FDA0002156019240000027
即权重向量,其中第i行,第j列的数值为段落的第i个位置的词和问题的第j个位置的匹配程度;之后将该权重应用在问题上,获得一个加了权重的问题向量
Figure FDA0002156019240000028
Figure FDA0002156019240000031
Figure FDA0002156019240000032
最后得到输出为
Figure FDA0002156019240000033
Figure FDA0002156019240000034
第三层:该层从段落中预测答案的起始位置,其输入为上一层的输出Hr,输出是(as,ae),其中as,ae分别为答案的开始和终止位置在段落中的下标。
9.根据权利要求2或8所述的方法,其特征是,所述的深度学习模型,其训练分别使用以下迁移学习策略中的一种,选出表现最好的运用到系统中:i)混合策略,直接将收集的编程规范领域的数据和通用领域数据混合后训练网络模型;ii)标记策略:将收集的编程规范领域的数据和其他数据集混合后为每个问答对打上了标签,标记该数据的来源;iii)微调策略:即先在SQuAD或MARCO数据集上进行预训练,再使用编程规范领域数据对模型进行微调。
10.根据权利要求2所述的方法,其特征是,所述的逻辑回归分类器,其输入为特征矩阵[数据源,子图匹配模块或机器阅读理解为该答案返回的分值,和问题的相似度],其中:数据源的值为0或1,0代表该候选答案来自子图匹配模块,1代表候选答案来自机器阅读理解模块;子图匹配模块或机器阅读理解为该答案返回的分值,取值区间为[0,1];和问题的相似度,即该答案和问题的余弦相似度,在训练期间,将答案标记为正确、不正确;该分类器学习能够区分正确和不正确答案的权重,取值区间为[0,1]。
CN201910717702.4A 2019-08-05 2019-08-05 自动生成编程规范问题答案的系统及方法 Pending CN112328800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910717702.4A CN112328800A (zh) 2019-08-05 2019-08-05 自动生成编程规范问题答案的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910717702.4A CN112328800A (zh) 2019-08-05 2019-08-05 自动生成编程规范问题答案的系统及方法

Publications (1)

Publication Number Publication Date
CN112328800A true CN112328800A (zh) 2021-02-05

Family

ID=74319760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910717702.4A Pending CN112328800A (zh) 2019-08-05 2019-08-05 自动生成编程规范问题答案的系统及方法

Country Status (1)

Country Link
CN (1) CN112328800A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220895A (zh) * 2021-04-23 2021-08-06 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113434629A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 基于向量匹配的问答对录入方法、装置、设备及介质
CN113495913A (zh) * 2021-09-07 2021-10-12 中国科学院地理科学与资源研究所 一种空气质量数据缺失值插补方法及装置
CN113609824A (zh) * 2021-08-10 2021-11-05 上海交通大学 基于文本编辑和语法纠错的多轮对话改写方法及系统
CN113760577A (zh) * 2021-08-04 2021-12-07 广东能龙教育股份有限公司 一种动态连接答题装置及处理方法、控制装置、存储介质
CN114429141A (zh) * 2022-03-31 2022-05-03 北京中科闻歌科技股份有限公司 答案确定方法、装置、计算设备及存储介质
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
US20180196796A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a multiple topic chat bot
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108804529A (zh) * 2018-05-02 2018-11-13 深圳智能思创科技有限公司 一种基于Web的问答系统实现方法
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及系统
CN109033229A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 问答处理方法和装置
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109271498A (zh) * 2018-09-14 2019-01-25 南京七奇智能科技有限公司 面向虚拟机器人的自然语言交互方法及系统
CN109344240A (zh) * 2018-09-21 2019-02-15 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109829042A (zh) * 2018-12-28 2019-05-31 北京科技大学 一种基于生物医学文献的知识问答系统及方法
CN109947952A (zh) * 2019-03-20 2019-06-28 武汉市软迅科技有限公司 基于英语知识图谱的检索方法、装置、设备及存储介质
CN110046238A (zh) * 2019-03-29 2019-07-23 华为技术有限公司 对话交互方法、图形用户界面、终端设备以及网络设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
US20180196796A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a multiple topic chat bot
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108804529A (zh) * 2018-05-02 2018-11-13 深圳智能思创科技有限公司 一种基于Web的问答系统实现方法
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及系统
CN109033229A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 问答处理方法和装置
CN109271498A (zh) * 2018-09-14 2019-01-25 南京七奇智能科技有限公司 面向虚拟机器人的自然语言交互方法及系统
CN109344240A (zh) * 2018-09-21 2019-02-15 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109829042A (zh) * 2018-12-28 2019-05-31 北京科技大学 一种基于生物医学文献的知识问答系统及方法
CN109947952A (zh) * 2019-03-20 2019-06-28 武汉市软迅科技有限公司 基于英语知识图谱的检索方法、装置、设备及存储介质
CN110046238A (zh) * 2019-03-29 2019-07-23 华为技术有限公司 对话交互方法、图形用户界面、终端设备以及网络设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUOHANG WANG: "Machine Comprehension Using Match-LSTM and Answer Pointer", 《ARXIV》 *
周蕾: "基于互联网的自动问答系统关键技术研究与实现", 《中国优秀博硕士学位论文全文数据库 信息科技辑》 *
杜天蛟: "CocoQa", 《GITHUB》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220895A (zh) * 2021-04-23 2021-08-06 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113220895B (zh) * 2021-04-23 2024-02-02 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113434629A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 基于向量匹配的问答对录入方法、装置、设备及介质
CN113760577A (zh) * 2021-08-04 2021-12-07 广东能龙教育股份有限公司 一种动态连接答题装置及处理方法、控制装置、存储介质
CN113760577B (zh) * 2021-08-04 2024-04-19 广东能龙教育股份有限公司 一种动态连接答题装置及处理方法、控制装置、存储介质
CN113609824A (zh) * 2021-08-10 2021-11-05 上海交通大学 基于文本编辑和语法纠错的多轮对话改写方法及系统
CN113495913A (zh) * 2021-09-07 2021-10-12 中国科学院地理科学与资源研究所 一种空气质量数据缺失值插补方法及装置
CN114429141A (zh) * 2022-03-31 2022-05-03 北京中科闻歌科技股份有限公司 答案确定方法、装置、计算设备及存储介质
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Similar Documents

Publication Publication Date Title
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN110399457B (zh) 一种智能问答方法和系统
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
CN109684448B (zh) 一种智能问答方法
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
EP3020005B1 (en) Active featuring in computer-human interactive learning
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
WO2018165579A1 (en) Automated tool for question generation
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN111553160B (zh) 一种获取法律领域问句答案的方法和系统
CN113196277A (zh) 用于检索自然语言文档的系统
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN110968708A (zh) 一种教育信息资源属性标注方法及系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
Arbaaeen et al. Natural language processing based question answering techniques: A survey
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
Lee Natural Language Processing: A Textbook with Python Implementation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205