CN112328800A

CN112328800A - 自动生成编程规范问题答案的系统及方法

Info

Publication number: CN112328800A
Application number: CN201910717702.4A
Authority: CN
Inventors: 吴秦月; 杜天蛟; 曹峻铭; 李威; 沈备军; 陈雨亭
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-05

Abstract

一种自动生成编程规范问题答案的系统及方法，包括：子图匹配模块、机器阅读理解模块和学习排序模块，本发明通过构建编程规范知识图谱，通过子图匹配模块将自然语言问题转换为符合SPARQL协议的语句，利用编程规范知识图谱中结构化的信息查询得到候选答案。再通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语，将这些词标记为关键词，使用Apache Solr引擎搜索得到最相关的10个自然段，并且使用基于TF‑IDF的算法对搜索得到的自然段进行打分，再对每个自然段使用训练好的深度学习模型得到候选答案，最后通过学习排序模块对候选答案进行合并生成新的候选答案，然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。

Description

自动生成编程规范问题答案的系统及方法

技术领域

本发明涉及一种人工智能语义识别领域的技术，具体涉及一种自动生成编程规范问题答案的系统及方法。

背景技术

近年来，编程规范在软件质量保障中扮演了越来越重要的角色。编程规范是一系列的代码准则，帮助软件开发者提高代码的可读性、可维护性和可重用性。当软件开发者遇到编程规范相关的问题时，可以查询编程规范文档。然而一条编程规范可能会出现在多份编程规范文档中，并且每份编程规范文档的内容可能是不同的。因此，软件开发者需要查询或浏览多份文档才能获得想要的信息，十分繁琐。问答机器人系统能够自动生成用户提出的问题的答案，而现有的问答机器人系统并没有结合编程规范领域知识，因此很难高效理解软件开发者提出的关于编程规范的问题并给出正确的回答。

发明内容

本发明针对现有问答机器人系统编程规范领域知识利用不充分、用户意图理解不精确等缺陷，提出一种自动生成编程规范问题答案的系统及方法，并通过结合知识图谱和机器阅读理解技术，充分利用编程规范领域知识，更精确地理解用户意图，从而提高了自动生成编程规范问题答案的准确性。

本发明是通过以下技术方案实现的：

本发明涉及一种自动生成编程规范问题答案的系统，包括：子图匹配模块、机器阅读理解模块和学习排序模块，其中：子图匹配模块采集自然语言问题并转换为符合SPARQL(SPARQL Protocol and RDF Query Language)协议的语句，利用编程规范知识图谱中结构化的信息查询得到候选答案；机器阅读理解模块使用深度学习模型自动理解非结构化文本，预测得到候选答案；学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并，使用逻辑回归分类器对候选答案按照正确的概率进行排序。

所述的自然语言问题包括但不限于：寻找某条编程规范的属性、根据条件寻找某条适用的编程规范等。

本发明涉及上述系统的编程规范问题答案自动生成方法，包括以下步骤：

步骤1)构建编程规范知识图谱，具体为：基于编程规范知识图谱的本体，收集书籍以及各种组织公开的编程规范文档，将其整理存储为编程规范知识图谱中的三元组。

步骤2)通过子图匹配模块识别出自然语言问题中的节点，然后使用StanfordCoreNLP工具构建语法依赖树，根据识别出的节点集合和构建的语法依赖树生成查询子图Qu，根据Qu的内容和结构生成SPARQL查询语句，查询知识图谱得到候选答案。

步骤3)通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语，将这些词标记为关键词，使用Apache Solr引擎搜索得到最相关的10个自然段，并且使用基于TF-IDF的算法对搜索得到的自然段进行打分，再对每个自然段使用训练好的深度学习模型得到候选答案。

步骤4)学习排序模块对步骤2和步骤3产生的候选答案进行合并生成新的候选答案，然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。

所述的编程规范知识图谱包括：结构化数据和非结构化数据。

所述的结构化数据是指：实体、关系/属性、实体构成的三元组，通过人工阅读编程规范文档进行构建，其中：关系包括相似关系、相关关系和类型层次关系，属性包括规则、优点和缺点等。

所述的编程规范文档中的每个段落对应一条非结构化数据，具体构建流程为：将编程规范文档拆分成段落，使用TF-IDF计算段落和实体的相似度，通过添加属性的方式把段落连接在相似度最高的实体上。

所述的TF-IDF是指：用词频和逆文档频率来评估每个词在句子中的重要程度。当某个词在句子中出现的频率高，并且它在其他句子中出现的次数较少，则认为该词比较重要。

所述的节点包括：疑问词节点和实体节点，其中：疑问词节点是指：用户输入的自然语言问题中wh开头的单词，如what、when等。实体节点是指：知识图谱中的实体，具体识别实体节点的过程为：收集了公开的编程规范术语制作成编程规范术语表，通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语，然后使用Jena引擎全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点，并按匹配程度从高到低返回结果。

所述的语法依赖树是指：根据句子中每个单词的词性及位置，用树形图表示句子。

所述的查询子图Qu，通过以下方式得到：对于给定的语法依赖树和节点集合V，在查询子图Qu中添加节点集合V，当两个节点v1，v2的简单路径中没有其他节点，那么就在Qu中为这两个节点添加一条边，语法依赖树中v1和v2之间的简单路径包含的单词形成Qu该边的标签，遍历每个节点重复上述操作就可以构建出查询子图Qu。

所述的候选答案合并是指：将所有的候选答案格式统一，即删除标点、大小写统一；然后删除重复的答案。

技术效果

与现有技术相比，本发明构建编程规范领域的知识图谱，并通过结合机器阅读理解技术，充分利用编程规范领域知识，更精确地理解用户意图，从而提高了自动生成编程规范问题答案的准确性。

附图说明

图1为自动生成编程规范问题答案系统的技术架构图；

图2为节点抽取流程图；

图3为实施例流程示意图。

具体实施方式

如图1所示，涉及一种自动生成编程规范问题答案的系统，包括：子图匹配模块、机器阅读理解模块和学习排序模块。

所述的子图匹配模块采集自然语言问题并转换为符合SPARQL(SPARQL Protocoland RDF Query Language)协议的语句，利用编程规范知识图谱中结构化的信息查询得到候选答案。

所述的机器阅读理解模块使用深度学习模型学习非结构化文本预测得到候选答案

所述的学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并，使用逻辑回归分类器对候选答案按照正确的概率进行排序。

如图3所示，本实施例涉及上述系统的编程规范问题答案自动生成方法，具体包括以下步骤：

步骤1)用户以自然语言的方式提出编程规范相关的问题。

步骤2)子图匹配模块使用如图2所示的流程抽取出问题中的节点，然后使用Stanford CoreNLP工具构建语法依赖树，根据识别出的节点集合和构建的语法依赖树生成查询子图Qu，根据Qu的内容和结构生成SPARQL查询语句，查询知识图谱得到候选答案。

所述的节点包括疑问词节点和实体节点。疑问词节点是指：用户输入的自然语言问题中wh开头的单词，如what、when等。实体节点是指：知识图谱中的实体，具体识别实体节点的过程为：收集了公开的编程规范术语制作成编程规范术语表，通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语，然后使用Jena全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点。

步骤3)机器阅读理解模块先从自然语言问题中选取所有的名词、名词短语和主语，将这些词标记为关键词，使用Apache Solr搜索得到最相关的10个自然段。对每个自然段使用训练过的深度学习模型得到候选答案。

所述的深度学习模型为三层结构的网络，每一层的隐藏层节点数都为150。

第一层根据自然语言问题和段落的词嵌入向量，将各自的上下文信息分别编码进问题和段落中，该层的输入分别为段落和问题，段落使用矩阵P[d*p]表示，d表示单词的词向量维度，本实施例中为300，p表示段落中的词数，问题使用矩阵Q[d*q]表示，q表示问题中的词数，使用标准的单向带有长短期记忆单元(LSTM)的循环神经网络来分别处理问题和段落，具体为：

其中：H^P[l*p]和H^q[l*q]是段落和问题经过LSTM后的隐藏层表示，l是隐藏层节点的个数，输出是H^P和H^q。

第二层将段落和自然语言问题整合，其输入为上一层的输出H^P和H^q。顺序的遍历段落中的每个词，对于每个词i，计算出注意力权重矩阵

具体为：

其中：W^p，W^q，W^r，b^p，W^T，b均为待学习的参数，

是指LSTM中在i-1处的隐藏层向量，

即权重向量，其中第i行，第j列的数值为段落的第i个位置的词和问题的第j个位置的匹配程度。之后就可以把这个权重应用在问题上，获得一个加了权重的问题向量

公式为：

最后得到输出为

第三层从段落中预测答案的起始位置，其输入为上一层的输出H^r，输出是(a_s,a_e),其中a_s,a_e分别为答案的开始和终止位置在段落中的下标。

所述的词嵌入向量指的是使用词嵌入工具GloVe将数据集中段落、问题和答案中的每个单词表示成一个d维的词嵌入向量，在本实施例中设置d为300。

所述的GloVe是一个词嵌入工具，它可以把一个单词表达成一个由实数组成的向量。

所述的P[d*p]，指的是P是d行，p列的矩阵，本文中形如A[m*n]，指的是A是m行，n列的矩阵。

所述的预测答案的起始位置，即p(a|H^r)＝p(a_s|H^r)*p(a_s|a_e，H^r)，其中：a_s和a_e分别为答案的开始和终止的位置。在预测时遍历段落，将p(a_s)*p(a_e)作为段落第s个单词到第e个单词之间的句子是答案的概率，选出概率最高的开始和终止位置。

所述的深度学习模型，其训练分别使用以下迁移学习策略中的一种，选出表现最好的运用到系统中：i)混合策略，直接将收集的编程规范领域的数据和通用领域数据(SQuAD数据集和MARCO数据集)混合在一起，训练网络模型。ii)标记策略：该策略也是将收集的编程规范领域的数据和其他数据集混合在一起，只不过为每个问答对打上了标签，标记该数据的来源。比如为SQuAD中的数据打上“[2SQuAD]”的标签。另外，为了提高编程规范领域数据的影响，还采取了过采样的策略。iii)微调策略：即先在SQuAD或MARCO数据集上进行预训练，再使用编程规范领域数据对模型进行微调。

本实施例最终使用的是微调策略，使用的预训练数据集是SQuAD。

所述的逻辑回归分类器，其输入为特征矩阵[数据源,子图匹配模块或机器阅读理解为该答案返回的分值,和问题的相似度]，其中：数据源的值为0或1，0代表该候选答案来自子图匹配模块，1代表候选答案来自机器阅读理解模块；子图匹配模块或机器阅读理解为该答案返回的分值，取值区间为[0,1]；和问题的相似度，即该答案和问题的余弦相似度。在训练期间，将答案标记为正确、不正确，因此该分类器就可以学习到区分正确和不正确答案的权重，取值区间为[0,1]。

本方法结合了知识图谱和机器阅读理解技术，充分利用编程规范领域知识，更精确地理解用户意图，从而提高了自动生成编程规范问题答案的准确性。

收集了两部分的实验数据形成编程规范数据集CocoQad。第一部分是根据模版自动生成的1500条问答对，使用的是WikiAnswers上最常用的模版。第二部分是从StackOverFlow上选择的214个相关的问题，以评估系统在真实场景中的情况。因此最后的实验数据集包含1714条问答对不同来源的数据能够很好地检测出系统的性能和普遍表现。表1展示了一些问题样例。

表1自然语言问题样例

在机器阅读理解模块，使用的训练数据除了上述提到的CocoQad还包括SQuAD数据集和MARCO数据集。SQuAD是斯坦福大学公开的阅读理解数据集，基于维基百科上的文章，由众包工人提出的问答。每个问题的答案均为段落中的一段话。SQuAD1.1包含了100,000+个问答对以及500+篇文章。MARCO是微软的阅读理解数据集，来自真实的必应搜索记录，包含了182669个问答对以及3213835篇文章。

表2比较了机器阅读理解模块使用不同数据集和不同迁移学习策略的表现。可以看出混合策略的表现不是很令人满意，因为CocoQad的数据量相比其他两个小了很多。另外，CocoQad的答案也通常更长、更复杂，往往是多个长句子。标签策略的表现稍微好了一点，而使用SQuAD数据集进行训练CocoQad数据集进行微调的效果最好。

表2机器阅读理解模块使用不同数据集和迁移学习策略的效果

使用精确率、召回率和F1值来评估系统表现。使用公式如下，其中准确率为

召回率

表3展示了实验结果，其中：只通过机器阅读理解得到的答案比只通过子图匹配模块得到的答案的精确率低，但是召回率更高，这其中可能的原因是机器阅读理解模块是从更为丰富的非结构化数据中寻找答案，但非结构化的数据往往没有结构化的数据准确。

另外，学习排序模块将来自两个子模块的答案进行结合和排序，可以获得更好的效果，其中F1值可以达到86.82％。

表3不同机器学习模型的效果

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种自动生成编程规范问题答案的系统，其特征在于，包括：子图匹配模块、机器阅读理解模块和学习排序模块，其中：子图匹配模块采集自然语言问题并转换为符合SPARQL协议的语句，利用编程规范知识图谱中结构化的信息查询得到候选答案；机器阅读理解模块使用深度学习模型自动理解非结构化文本，预测得到候选答案；学习排序模块将子图匹配模块和机器阅读理解模块得到的候选答案合并，使用逻辑回归分类器对候选答案按照正确的概率进行排序。

2.一种根据权利要求1所述系统的自动生成编程规范问题答案的方法，其特征在于，包括以下步骤：

步骤1)构建编程规范知识图谱，具体为：基于编程规范知识图谱的本体，收集书籍以及各种组织公开的编程规范文档，将其整理存储为编程规范知识图谱中的三元组；

步骤2)通过子图匹配模块识别出自然语言问题中的节点，然后使用Stanford CoreNLP工具构建语法依赖树，根据识别出的节点集合和构建的语法依赖树生成查询子图Qu，根据Qu的内容和结构生成SPARQL查询语句，查询知识图谱得到候选答案；

步骤3)通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语，将这些词标记为关键词，使用Apache Solr引擎搜索得到最相关的10个自然段，并且使用基于TF-IDF的算法对搜索得到的自然段进行打分，再对每个自然段使用训练好的深度学习模型得到候选答案；

步骤4)学习排序模块对步骤2和步骤3产生的候选答案进行合并生成新的候选答案，然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序；

所述的编程规范知识图谱包括：结构化数据和非结构化数据；

所述的结构化数据是指：实体、关系/属性、实体构成的三元组。

3.根据权利要求2所述的方法，其特征是，所述的编程规范文档中的每个段落对应一条非结构化数据，具体构建流程为：将编程规范文档拆分成段落，使用TF-IDF计算段落和实体的相似度，通过添加属性的方式把段落连接在相似度最高的实体上。

4.根据权利要求3所述的方法，其特征是，所述的TF-IDF是指：用词频和逆文档频率来评估每个词在句子中的重要程度。当某个词在句子中出现的频率高，并且它在其他句子中出现的次数较少，则认为该词比较重要。

5.根据权利要求2所述的方法，其特征是，所述的节点包括：疑问词节点和实体节点，其中：疑问词节点是指：用户输入的自然语言问题中wh开头的单词；实体节点是指：知识图谱中的实体；

识别实体节点的过程为：收集了公开的编程规范术语制作成编程规范术语表，通过查询编程规范术语表找到用户的自然语言问题中包含的编程规范术语，然后使用Jena引擎全文搜索在编程规范知识图谱中找到最匹配的实体形成实体节点，并按匹配程度从高到低返回结果。

6.根据权利要求2所述的方法，其特征是，所述的查询子图Qu，通过以下方式得到：对于给定的语法依赖树和节点集合V，在查询子图Qu中添加节点集合V，当两个节点v1，v2的简单路径中没有其他节点，那么就在Qu中为这两个节点添加一条边，语法依赖树中v1和v2之间的简单路径包含的单词形成Qu该边的标签，遍历每个节点重复上述操作就可以构建出查询子图Qu。

7.根据权利要求2所述的方法，其特征是，所述的候选答案合并是指：将所有的候选答案格式统一，即删除标点、大小写统一；然后删除重复的答案。

8.根据权利要求2所述的方法，其特征是，所述的深度学习模型为三层结构，具体包括：

第一层：该层根据自然语言问题和段落的词嵌入向量，将各自的上下文信息分别编码进问题和段落中，该层的输入分别为段落和问题，段落使用矩阵P[d*p]表示，d表示单词的词向量维度，p表示段落中的词数，问题使用矩阵Q[d*q]表示，q表示问题中的词数，使用标准的单向带有长短期记忆单元的循环神经网络来分别处理问题和段落，具体为：

其中：H^P[l*p]和H^q[l*q]是段落和问题经过LSTM后的隐藏层表示，l是隐藏层节点的个数，输出是H^P和H^q；

第二层：该层将段落和自然语言问题整合，其输入为上一层的输出H^P和H^q，顺序的遍历段落中的每个词，对于每个词i，计算出注意力权重矩阵

具体为：

其中：W^p，W^q，W^r，b^p，W^T，b均为待学习的参数，

是指LSTM中在i-1处的隐藏层向量，

即权重向量，其中第i行，第j列的数值为段落的第i个位置的词和问题的第j个位置的匹配程度；之后将该权重应用在问题上，获得一个加了权重的问题向量

最后得到输出为

第三层：该层从段落中预测答案的起始位置，其输入为上一层的输出H^r，输出是(a_s，a_e)，其中a_s，a_e分别为答案的开始和终止位置在段落中的下标。

9.根据权利要求2或8所述的方法，其特征是，所述的深度学习模型，其训练分别使用以下迁移学习策略中的一种，选出表现最好的运用到系统中：i)混合策略，直接将收集的编程规范领域的数据和通用领域数据混合后训练网络模型；ii)标记策略：将收集的编程规范领域的数据和其他数据集混合后为每个问答对打上了标签，标记该数据的来源；iii)微调策略：即先在SQuAD或MARCO数据集上进行预训练，再使用编程规范领域数据对模型进行微调。

10.根据权利要求2所述的方法，其特征是，所述的逻辑回归分类器，其输入为特征矩阵[数据源，子图匹配模块或机器阅读理解为该答案返回的分值，和问题的相似度]，其中：数据源的值为0或1，0代表该候选答案来自子图匹配模块，1代表候选答案来自机器阅读理解模块；子图匹配模块或机器阅读理解为该答案返回的分值，取值区间为[0，1]；和问题的相似度，即该答案和问题的余弦相似度，在训练期间，将答案标记为正确、不正确；该分类器学习能够区分正确和不正确答案的权重，取值区间为[0，1]。