CN111309907A

CN111309907A - 一种基于深度强化学习的实时Bug分派方法

Info

Publication number: CN111309907A
Application number: CN202010085034.0A
Authority: CN
Inventors: 陈荣; 张佳丽
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-19

Abstract

本发明公开了一种基于深度强化学习的实时Bug分派方法，包括：对初始的bug数据进行预处理，使用深度强化学习DQN算法，将缺陷报告修复任务分派给合适的开发者：初始化循环神经网络参数，初始化所有状态动作对的价值Q；将缺陷报告的文本信息和修复者活跃度信息向量化并作为状态S的初始特征向量；将初始特征向量输入到神经网络Q，通过神经网络Q的前向传播输出每个动作a_t对应的Q值，根据策略π选择对应的动作；在状态S执行当前动作a_t得到新的状态s'、奖励R以及是否终止状态的标志flag；通过深度多语义特征融合方法计算当前期望目标值Q：使用均方误差计算损失函数，并通过神经网络Q反向传播更新参数，重复执行以上步骤，直至参数趋于收敛。

Description

一种基于深度强化学习的实时Bug分派方法

技术领域

本发明涉及缺陷报告指派技术领域，尤其涉及一种基于深度强化学习的实时Bug分派方法。

背景技术

随着互联网的迅速发展和软件开发技术的成熟，越来越容易产生大量的软件bug。传统的依赖人工进行浏览和分析软件，并且进行bug修复的方法无法适应大规模的bug数据。人工进行bug分派是一项十分耗时耗力的事情。在这一问题下，基于机器学习的自动bug分派技术应运而生。缺陷报告的自动分配，是数据分析中的一个经典任务，由于解决该问题具有较大的复杂性和挑战，所以一直都是研究者关注的热点。关注缺陷报告的哪些信息，开发者和缺陷报告之间存在怎样的关系时，能高质量的完成缺陷报告的修复都是我们需要考虑的问题。

文献[1]中Lee等人首次尝试使用神经网络进行bug分派，他们用卷积神经网络(CNN)和词嵌入(word embedding)技术建立了一个自动分类器。实验结果表明，使用所有开发者数据训练的CNN模型，表现要比人工分类的要好得多。

文献[2]中Mani等人提出了DBRNN-A算法，算法提出使用双向循环神经网络(Bidirectional RecurrentNeural Networks，BiRNN)的一种变体，长短期记忆单元(LongShort-Term Memory，LSTM)来处理序列化的文本特征。

文献[3]中席等人创造性的提出了开发者活跃度的概念。他们一方面利用双向循环网络加最大池化方法提取bug报告的文本特征，另一方面利用单向循环网络提取特定时刻的开发者活跃度特征，并融合两者，利用已修复的bug报告进行监督学习。

由于文献[3]中的方法同时考虑到了文本信息和开发者活跃度信息，因此我们参考文献[3]中的方法来进行缺陷报告指派。

上述文献[1]中的方法通过使用卷积神经网络对开发者数据进行训练，虽然其模型效果比人工分类好的多，但仍存在一定的问题，考虑的信息比较单一，未考虑缺陷报告的相关信息。

上述文献[2]中的方法通过使用长短记忆单元来处理序列化的文本特征，获取到了缺陷报告中的前后联系以及整体信息，未将开发者与缺陷报告之间的某种关系进行分析。

上述文献[3]中的方法创造性的提出了开发者活跃度的概念，不仅对缺陷报告的相关特征进行提取，还引入开发者活跃度，即开发者参与修复缺陷报告的次数。可以算是对上述两篇文献的总结。但是，该方法是基于offline的缺陷报告分派方法，对于新产生的缺陷报告无法使用已经训练好的模型进行缺陷报告的修复指派，当每次产生新的缺陷报告时，都将重新训练模型，从而导致成本增加，因此有必要考虑一种online的模型来进行实时的缺陷报告分派。

发明内容

根据现有技术存在的问题，本发明公开了一种基于深度强化学习的实时Bug分派方法，具体包括如下步骤：

对初始的bug数据进行预处理，预处理过程包括删除无效开发者修复的bug、删除低效开发者修复的bug、统计并过滤高频和低频词、从而提取bug报告的文本信息，并根据每个bug报告对应的真实开发者，对一段时间内具有相同产品和组件的bug报告进行汇总，获取每个bug报告的开发者活跃度信息；

使用深度强化学习DQN算法，将缺陷报告修复任务分派给合适的开发者：初始化循环神经网络参数w₁,w₂，基于w₁,w₂初始化所有状态动作对的价值Q；

将缺陷报告的文本信息和修复者活跃度信息向量化并作为状态S的初始特征向量；

将初始特征向量输入到神经网络Q，通过神经网络Q的前向传播输出每个动作a_t对应的Q值，根据策略π选择对应的动作；

在状态S执行当前动作a_t得到新的状态s'、奖励R以及是否终止状态的标志flag；

将{s_t,a_t,R_t,s′_t,flag}五元组放入经验回放池D中，更新当前状态s＝s'；

从经验回放池D中随机采样m个样本{s_t,a_t,R_t,s′_t,flag},t＝1,2,...,m，通过深度多语义特征融合方法计算当前期望目标值Q：

使用均方误差计算损失函数，并通过神经网络Q反向传播更新参数，重复执行以上步骤，直至参数趋于收敛。

进一步的，所述采用深度多语义特征融合方法计算当前期望目标值Q时：

使用深度学习中的双向RNN向量表示文本信息，使用深度学习中的单向RNN向量表示开发者信息；

对于缺陷修复任务，tf表示该缺陷修复任务的文本高层特征，af表示当前的开发人员参与度高层特征，则开发人员d得分函数可通过以下公式计算得出：

Score(tf,af,d)＝W_d(tfΘaf)+b_d

其中，Θ表示高层特征之间的融合方式，W_d是开发者d对应的一组权重向量，b_d是开发者d对应的偏置值，将融合后的高层特征经过softmax层归一化操作进行自训练，得到在工作量分配不均情况下的缺陷修复任务分派给开发者的概率：

其中神经网络Q的损失函数为：

其中ω表示神经网络中的参数，r表示奖惩值，学习参数γ为满足0≤γ＜1的常数，Q(s,a)表示当前缺陷报告s选择修复者a的Q值，Q(s',a')表示下一缺陷报告s'选择修复者a'的Q值。

由于采用了上述技术方案，本发明提供的一种基于深度强化学习的实时Bug分派方法，本方法通过对缺陷报告修复分派问题进行建模，明确其目标函数、状态，动作等各要素定义，并采用强化学习算法(DQN算法)将缺陷修复任务分派给开发者，相比offline的训练模型，由于该算法每更新一次参数就需要重新采样，所以可以动态的对新产生的缺陷报告进行分派，实现了随来随分派的online功能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于深度强化学习的实时Bug分派方法，具体包括如下步骤：

S1:对初始的bug数据进行预处理，预处理过程包括删除无效开发者修复的bug、删除低效开发者修复的bug、统计并过滤高频和低频词、从而提取bug报告的文本信息，获取开发者活跃度信息。其中预处理过程包括如下方式：

S11：删除无效开发者修复的bug，即当bug的修复者为['unassigned','issues','needsconfirm','swneedsconfirm','nobody','webmaster','inbox']其中之一时，被认为是无效开发者，将其对应的bug删除。

S12:删除低效开发者修复的bug，即当开发者修复的bug数小于阈值时，为低效开发者，否则为高效开发者。

S13:统计并过滤高频和低频词，即当词汇在文本信息中出现的次数太少或者太多时，该词汇被称为是噪音词，从词汇表去除。

S14:获取开发者活跃度信息，由于bug报告具有一定的时序关系，所以我们将bug报告按照id进行排序，找到当前bug提交之前修复的所有bug，提取与当前bug具有相同产品和组件的bug报告修复者，并只取近三个月的记录。

S2:使用深度强化学习(DQN)算法，将缺陷报告修复任务分派给合适的开发者。

S21:初始化循环神经网络参数w₁,w₂，基于w₁,w₂初始化所有状态动作对的价值Q。

S22:将缺陷报告的文本信息和修复者活跃度信息向量化，作为状态S的初始特征向量。

S23:将初始特征向量输入到Q网络，通过神经网络的前向传播输出每个动作a_t对应的Q值。

S24:根据策略π依据输出Q值选择对应的动作。

S25:在状态S执行当前动作a_t，得到新的状态s'、奖励R、是否终止状态的标志flag。

S26：将{s_t,a_t,R_t,s′_t,flag}五元组放入经验回放池D中，更新当前状态s＝s'。从经验回放池D中随机采样m个样本{s_t,a_t,R_t,s′_t,flag},t＝1,2,...,m计算当前target Q值：

使用均方误差计算损失函数，并通过神经网络反向传播更新参数。重复执行以上步骤，直至参数趋于收敛。

在整个bug分派的训练过程中，环境的变化主要依赖于对bug报告信息进行状态转移，即从当前bug报告转移到下一个bug报告。由于状态转移满足马尔可夫的性质，我们可将强化学习方法应用于bug分派，并将bug分派问题与强化学习要素进行一一对应，进一步的采用深度多语义特征融合方法计算当前期望目标值Q时，对bug报告的文本信息和开发者活跃度信息进行多语义特征融合。其中状态转移过程为：由于bug报告之间存在时序关系，因此我们可以将整个缺陷报告分派过程看作是马尔科夫决策过程(MDP)。MDP由一个四元组构成M＝(S,A,P_sa,R)，S表示状态集，A表示动作集，P_sa表示状态转移概率，R是奖励函数。MDP过程如下：智能体(Agent)的初始状态为S₀，然后从A中挑选一个动作a₀执行，执行后，根据执行结果给予合适的奖励R，Agent按照P_sa概率转到下一个状态S₁，然后执行动作a₁，状态转移到S₂，以此类推。

强化学习过程为：

主要将强化学习算法与缺陷报告分派问题进行结合，算法中各要素的定义如下：

①状态(State)

缺陷报告的相关信息作为强化学习算法中的状态State，所有的缺陷报告的集合作为状态空间，状态空间大小为缺陷报告的总数量。

②动作(Action)

开发者作为强化学习算法中的动作Action，动作空间为与当前缺陷报告具有相同产品和组件的所有报告近三个月缺陷报告的开发者序列，动作空间大小为开发者序列的长度。

③奖励(Reward)

在执行每一步的过程中，判断数据集中真实的缺陷开发者是否在智能体(Agent)所推荐的缺陷开发者的Topk中(Topk是Agent根据Q值推荐出的前k个缺陷开发者)，给予合适的奖励，奖励函数定义如下：

其中，k为推荐修复者的个数，i为真实修复者在预测修复者序列中的排名。

④策略(π)

ε-greedy策略，依概率ε按照均匀分布从动作空间中随机选择修复者，或者依概率1-ε从动作空间中选择具有最大预期回报的修复者，定义如下：

⑤目标函数(Object)

最大化期望奖励、最小化误差函数，形式化表示如下：

所述采用深度多语义特征融合方法计算当期望目标值Q值时：首先进行特征提取、再进行特征融合，具体过程包括：

(1)特征提取

对于文本信息，使用深度学习中的双向RNN向量表示。因为文本信息的词语之间具有一定的顺序，采用双向的RNN可以更加全面的对文档特征进行处理，并导致更快，甚至更充分的学习。双向RNN的正向输出和反向输出，需要进行组合，常用的方式是“连接”。

对于开发者信息，使用深度学习中的单向RNN向量表示。

(2)特征融合

对于缺陷修复任务分派的多种高层特征，需要将它们有机的融合到一起才能进行后续的工作。常见的高层特征融合方法分别为拼接、元素间相加、元素间相乘等。令His表示历史缺陷修复任务的集合，Ds表示开发者的集合，对于一个缺陷修复任务，tf表示该缺陷修复任务的文本高层特征，af表示当前的开发人员参与度高层特征，则开发人员d得分函数可通过以下公式计算得出：

Score(tf,af,d)＝W_d(tfΘaf)+b_d

其中，Θ表示高层特征之间的融合方式，W_d是开发者d对应的一组权重向量，b_d是开发者d对应的偏置值。然后将融合之后的高层特征经过softmax层归一化操作进行自训练，得到在工作量分配不均情况下的缺陷修复任务分派给开发者的概率：

本部分拟采用的损失函数为：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

【1】S.-R.Lee,M.-J.Heo,C.-G.Lee,M.Kim,and G.Jeong,“Applying DeepLearning Based Automatic Bug Triager to Industrial Projects,”in Proceedingsof the2017 11th Joint Meeting on Foundations of Software Engineering,NewYork,NY,USA,2017,pp.926–931.

【2】S.Mani,A.Sankaran,and R.Aralikatte,“DeepTriage:Exploring theEffectiveness ofDeep Learning forBug Triaging,”arXiv:1801.01275[cs],Jan.2018.

【3】Xi SQ,Yao Y,Xu F,LüJ.Bug triaging approach based on recurrentneural networks.Ruan Jian Xue Bao/Journalof Software,2018,29(8):2322-2335(inChinese).

Claims

1.一种基于深度强化学习的实时Bug分派方法，其特征在于包括：

2.根据权利要求1所述的一种基于深度强化学习的实时Bug分派方法，其特征还在于：所述采用深度多语义特征融合方法计算当前期望目标值Q时：

Score(tf,af,d)＝W_d(tfΘaf)+b_d

其中神经网络Q的损失函数为：