CN110390049A

CN110390049A - 一种面向软件开发问题的答案自动生成方法

Info

Publication number: CN110390049A
Application number: CN201910620492.7A
Authority: CN
Inventors: 孙海龙; 王旭; 张振羽; 刘旭东
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-29
Anticipated expiration: 2039-07-10
Also published as: CN110390049B

Abstract

本发明提出一种面向软件开发问题的答案自动生成方法，包括以下步骤：步骤1，对于一个开发者的问题,使用已有的Web搜索工具，从多个软件开发问答论坛网站搜索相关问答帖子；步骤2，对搜索到的帖子采用三种算法对不重要句子进行过滤，形成了输入问题的上下文，所述上下文指与提问问题相关的包含解决该问题相关知识的多条帖子在经过句子过滤后构成的文本集合；步骤3，将所述问题和所述上下文送入基于深度机器阅读理解的答案生成网络AnswerNet，所述答案生成网络理解所述上下文和所述问题的语义信息，并且从上下文里选择对回答问题最有用的文本块进行组合，最终生成该问题的答案。

Description

一种面向软件开发问题的答案自动生成方法

技术领域

本发明涉及一种自动生成方法，尤其涉及一种面向软件开发问题的答案自动生成方法。

背景技术

在软件开发的过程中，开发人员通常会遇到Bug调试、如何调用API等各类软件开发问题。为了解决这些问题，人们在互联网上已经建立了博客、在线问答论坛等软件开发社区。例如：Stack Overflow，CSDN等等。在这些社区平台上，任何一个开发者可以进行提问，其他能够回答这些问题的开发者都可以为该问题提供自己的答案，而提问者会标记能够解决问题的答案为被接受答案。

尽管这些社区为开发者提供了一种可以在线讨论问题和分享(获得)答案的平台，但是并无法保证问题可以及时得到回复。由于大量用户的参与和分享，这些开发社区蕴含着大量解决开发者问题的知识，但是这些知识碎片化严重，社区平台也缺乏对知识间的关联性的分析。因此，用户不得不阅读大量相关的帖子来获取所需要的知识，虽然目前有一些方法可以帮助用户获取所需问答信息，但是直接生成可用答案的方法尚不成熟。

为了帮助开发者高效地利用这些现存的知识，现有技术分为以下三类：

1)软件开发领域相关的信息检索优化技术。这类方法一般涉及到对程序API信息、软件开发相关问题和开发文档等的检索。在检索过程中，会对诸如API的文档等待检索对象进行分析，抽取相应的专业名词，API功能描述，API用法描述等等一系列的特征，然后对相应的检索问题，进行特征匹配，按照匹配度进行排序返回结果。

2)关键信息摘要抽取技术。这类方法一般采取诸如MMR等重要语句抽取技术，对检索结果，抽取每个段落的首句子等信息，对检索内容进行总结，旨在帮助开发者了解检索内容的主题和概要信息[4]。

3)基于语义分析的检索重排技术。这类方法一般采用语义分析方法，对检索内容进行语义分析，并对各条内容之间的关系进行建模，进而用以优化检索结果。在进行语义分析时，现阶段的方法主要采用深度学习相关技术对文本信息进行编码和特征抽取，然后采用编码结果和抽取到的特征对检索结果进行重排和过滤。

虽然现有技术可以在一定程度上帮助软件开发者更好地获取所需的知识，但是存在着一些较为显著地问题：

1)基于检索的方式无法考虑语义信息，缺乏对文本内容的深度理解。仅仅依据关键字/短语的匹配，只能找到浅层表达比较相似的文本信息，但是对开发者而言，“有用信息”不等于“相似信息”，因此存在着检索匹配结果与真实所需结果不一致的问题。

2)目前软件开发问答领域基于摘要抽取的技术同样也匮乏对语义的深度理解，而且“重要的信息”也不能等同于“有用信息”，存在着抽取的摘要与需求结果不一致的问题。

3)基于语义分析的技术，现阶段采用的语言模型过于陈旧，而且多是基于深度语义相似性进行检索优化，获取较为相似的文本信息。

总之，对于给定的问题，现有技术尚无直接生成有用答案的方法，现存技术大多都是围绕着信息的查找而设计，缺乏对已有信息进行理解整理并生成有用答案的方法。

发明内容

本发明提出的一种面向软件开发问题的答案自动生成方法，

附图说明

图1为本发明的整体流程图；

图2为基于深度机器阅读理解的答案生成网络。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种面向软件开发问题的答案自动生成方法，主要包括以下步骤，

步骤1，给定一个开发者的问题,首先使用已有的Web搜索工具(例如：GoogleCustom Search)，从多个软件开发问答论坛网站搜索相关问答帖子。

步骤2，对搜索到的帖子进行过滤，采用Lexrank(一种基于page rank算法计算句子重要性得分的算法)，KL greedy(一种基于信息熵度量句子重要度并贪心地加入相对信息熵最大句子的算法)，以及LSA(一种基于隐含语义分析，将包含最重要主题的句子抽取出来的算法)三种算法对不重要句子进行过滤。这三种算法考虑句子重要度的三个方面，可以将很多对包含噪声的句子滤掉。经过句子过滤的帖子最终形成了输入问题的上下文，用于后续处理。上下文指与提问问题相关的包含解决该问题相关知识的多条帖子，在经过句子过滤后，构成的文本集合。针对对文本集合里的文本，将其中数学表达式替换为[NUM]，将其中的代码替换为[CODE]，从而实现对数学表达式和代码语义的模糊表示，在目前业界研究尚缺乏数学理解和代码理解能力的前提下最大可能的保留文本信息。

步骤3，将问题和上下文送入一个基于深度机器阅读理解的答案生成网络AnswerNet。该网络可以理解上下文和问题的语义信息，并且从上下文里选择对回答问题最有用的文本块进行组合，最终生成该问题的答案。

如图2所示为基于深度机器阅读理解的答案生成网络AnswerNet，是进行语义深度理解和答案生成的核心部分，包含4个主要部分：输入表示，BERT编码器，transformer解码器，以及CopyNet。所述BERT编码器也可使用GPT-2，XLNet等替代。

输入表示分别对输入文本从单词位置、单词内容和文本类型三个方面进行编码表示，每个单词的输入被描述为一个向量，送入BERT编码器。BERT编码器是对输入文本的语义进行深度解析，最终每个单词被编码为一个融合了整段文本上下文信息的向量并且被送入transformer解码器。Transformer解码器计算编码器和解码器的注意力，本方法中解码器输入包含了已经生成的答案的前t-1个单词和BERT编码器的输出。因为此方法旨在抽取相关帖子里的有用信息来生成答案，所以为了能够直接从输入中复制有用文本块，基于之前的研究设计了CopyNet，CopyNet使用解码器的注意力向量作为输入，经过全连接层提取特征后采用softmax进行答案中第t个单词的概率分布预测，从输入的文本进行单词复制，所述t为正整数。

输入表示中的Position Embedding可以将一个单词的位置索引映射为表示位置的向量。Token Embedding将一个单词映射为表示其单词浅层语义的向量。SegmentEmbedding将文本的类型(本模型中问题为类型0，上下文为类型1)映射到表示类型信息的向量。最终对每个单词的三种表示结果向量进行加和，作为此部分的输出。

BERT编码器在海量文本上进行无监督学习训练所得的权重，进行文本语义描述，每个输入的向量通过BERT编码器的自注意力机制可以捕获到该输入上下文的信息，最终每个输入的单词都可以用来描述该单词在该段文本里的语境语义。本方法使用BERT编码器将问题和上下文的语境语义编码为对应的向量(图2中黄色对应问题，浅绿色对应上下文)。

Transformer解码器的输入为之前的t-1个已生成的单词。Transformer解码器除了具有BERT编码器的基本功能外，还具有计算Transformer解码器和BERT编码器语义向量注意力的功能。因此Transformer解码器可以将已生成的答案中的t-1个单词进行语义深度编码，然后采用Transformer解码器注意力机制计算当前已经生成的包含t-1个单词的答案语境信息与输入BERT解码器的上下文语境信息之间的注意力向量，从而使用此注意力向量表示输入上下文里每个单词可以作为下一个(第t个)需要生成的答案单词的注意力特征。

CopyNet对注意力向量使用全连接网络进行特征抽取，并使用softmax层来计算下一个答案单词(At)在输入上下文的分布概率(或者输出结束标志)，选择分布概率最大的单词作为第t个答案单词。CopyNet通过这种方法进行答案逐步复制生成答案中的单词，在t到达最大答案长度或者softmax层输出为结束标志即可停止预测，输出最终答案。

为了训练AnswerNet，我们使用具有答案的问答帖子构造训练数据：该帖子的问题作为输入问题，该帖子的被接受答案作为标准答案，同时用Web搜索工具(例如：GoogleCustom Search)检索到的相关帖子(建议3个)做句子过滤预处理后的文本作为上下文。使用这种“问题-上下文-答案”作为模型的输入，采用强化学习进行模型训练，并采用Adam优化器来更新模型参数。

为了训练AnswerNet，本发明使用具有答案的问答帖子构造训练数据：该帖子的问题作为输入问题，该帖子的被接受答案作为标准答案，同时用Web搜索工具(例如：GoogleCustom Search)检索到的相关帖子(建议3个)做句子过滤预处理后的文本作为上下文。使用这种“问题-上下文-答案”作为模型的输入，采用强化学习进行模型训练，并采用Adam优化器来更新模型参数。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向软件开发问题的答案自动生成方法，其特征在于，包括以下步骤，步骤1，对于一个开发者的问题,使用已有的Web搜索工具，从多个软件开发问答论坛网站搜索相关问答帖子；

步骤2，对搜索到的帖子采用三种算法对不重要句子进行过滤，形成了输入问题的上下文，所述上下文指与提问问题相关的包含解决该问题相关知识的多条帖子在经过句子过滤后构成的文本集合；

步骤3，将所述问题和所述上下文送入基于深度机器阅读理解的答案生成网络AnswerNet，所述答案生成网络理解所述上下文和所述问题的语义信息，并且从上下文里选择对回答问题最有用的文本块进行组合，最终生成该问题的答案。

2.如权利要求1所述的方法，其特征在于，所述基于深度机器阅读理解的答案生成网络包括4个主要部分：输入表示，BERT编码器，transformer解码器，CopyNet。

3.如权利要求2所述的方法，其特征在于，所述输入表示对输入文本从单词位置、单词内容和文本类型三个方面进行编码表示，每个单词的输入被描述为一个向量，送入BERT编码器；所述BERT编码器对输入文本的语义进行深度编码，每个单词被编码为一个融合了整段文本上下文信息的向量后送入transformer解码器；所述Transformer解码器计算BERT编码器和所述Transformer解码器之间的注意力，所述Transformer解码器的输入包含了已经生成的答案的前t-1个单词和BERT编码器的输出；所述CopyNet使用解码器的注意力向量作为输入，经过全连接层提取特征后采用softmax进行答案中第t个单词的概率分布预测，从输入的文本进行单词复制；所述基于深度机器阅读理解的答案生成网络中，在生成第一个单词时，所述Transformer解码器的输入为一个特殊的标记符号，表示开始进行答案生成，然后逐个生成答案中的下一个单词。

4.如权利要求3所述的方法，其特征在于，所述输入表示包括三个部分PositionEmbedding，Token Embedding，Segment Embedding，其中Position Embedding可以将一个单词的位置索引映射为表示位置的向量，Token Embedding将一个单词映射为表示其单词浅层语义的向量，Segment Embedding将文本的类型映射到表示类型信息的向量，所述三种表示结果向量进行加和，作为所述输入表示的输出。

5.如权利要求4所述的方法，其特征在于，在生成答案中的第t个单词时，Transformer解码器的输入为之前的t-1个已生成的单词，Transformer解码器将已生成的答案中的t-1个单词进行语义深度编码，然后计算当前已经生成的包含t-1个单词的答案语境信息与输入BERT解码器的上下文语境信息之间的注意力向量，从而使用此注意力向量表示输入上下文里每个单词可以作为下一个需要生成的答案单词的注意力特征。

6.如权利要求5所述的方法，其特征在于，所述CopyNet使用softmax层来计算下一个答案单词在输入上下文的分布概率或者输出结束标志，选择分布概率最大的单词作为答案单词并计数，当答案单词的个数到达最大答案长度或者softmax层输出为结束标志即可停止预测，输出最终答案。