CN108491459A

CN108491459A - 一种软件代码摘要自动生成模型的优化方法

Info

Publication number: CN108491459A
Application number: CN201810177982.XA
Authority: CN
Inventors: 王涛; 曾令斌; 余跃; 尹刚; 王怀民; 张迅晖; 范强; 於杰; 李翔; 张智雄; 王仁敏; 张倩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-09-04
Anticipated expiration: 2038-03-05
Also published as: CN108491459B

Abstract

针对面对海量高质量代码摘要获取的问题，本发明提供一种软件代码摘要自动生成模型的优化方法，流程如下：1、系统利用互联网中和群体智慧所贡献的数据集，对模型训练和优化；2、从数据库中读取代码片段，判断是否已产生代码摘要，如果有，执行步骤4，否则，执行步骤3；3、系统为代码自动生成代码摘要；4、系统将代码片段和生成的代码摘要开放，开放用户对代码摘要进行改正和优化；5、系统存储改正后的代码片段和代码摘要，并从中选择质量较高代码摘要，将代码片段和选出的代码摘要加入到训练数据集中；6、是否终止优化，如果停止优化，则结束，否则转步骤1。本发明可以快速高效地生成质量较高的代码摘要。

Description

一种软件代码摘要自动生成模型的优化方法

技术领域

本发明属于开源软件领域，具体涉及一种软件代码摘要自动生成模型的优化方法，主要包含了软件代码摘要的自动化生成以及优化的方法。

背景技术

开源软件的迅猛发展为软件创新实践提供了海量的可复用资源，但是由于规模庞大、文档缺乏、质量参差不齐等问题使得如何高效定位与复用存在巨大挑战。规范的文档和丰富的语义标注是软件资源定位与复用的基础。当前，大量开源软件存在文档碎片化、质量不高甚至没有文档等问题，极大的影响了开源资源的复用。针对这一问题，如何丰富这些软件资源的标注具有极其重要的意义。

对于广泛分布于互联网的数目巨大的开源代码，如何帮助用户准确、快速的了解代码的含义，并快速便捷地学习高质量的代码成为亟待解决的问题。其中，代码摘要自动化生成方法是解决该问题的一个关键技术。

在代码摘要自动生成方法中，现有的方法可以分为三种：基于自然语言处理技术、信息检索技术和深度学习技术。有较大影响的如下：

特拉华大学的Hill在博士毕业论文中提出从源代码方法定义中抽取自然语言描述的方法，其基于驼峰命名规则，通过词性分析抽取短语摘要。萨尼奥大学的Vassallo等人提出利用社交关联的方法从各大开源社区开发者的讨论中获取代码的摘要信息。华盛顿大学的Iyer等人利用基于关注点的LSTM(Long Short-Term Memory，长短期记忆网络)深度神经网络翻译源代码片段，该方法可以避免特征提取的不准确和不全面性，同时可以生成固定的代码文本信息外的描述信息，具有较高的准确度。目前自然语言处理法生成的摘要描述信息准确度高，但内容简短、信息量小；信息检索法生成的摘要信息准确全面，但依赖其他问答平台，大量代码片段没有检索结果；深度学习方法虽然可以有效解决上述问题，但现有方法在处理长代码片段上效果并不理想。

上述方法不仅由于各有利弊导致实用性不强，而且代码摘要的获取过程异常繁琐、开销巨大。而有限的人力资源显然无法完成对海量的开源代码进行标注的任务。这对于互联网时代高质量软件代码的大规模增长是非常不适合的，无法满足用户快速、方便、准确的了解软件代码摘要信息的需求。

BLEU(Bilingual Evaluation Understudy，双语评估研究)方法是机器翻译评价的主流准则之一，BLEU通过衡量生成语句和参考语句之间的相似性，从而衡量机器翻译的好坏。BLEU方法也是业内衡量代码摘要的主流方法。

BLEU方法的基本度量指标和概念：

a)n单位片段：n单位片段是BLEU方法使用的基本度量指标。所谓n单位片段就是指一个语句里面连续的n个单词组成的片段，如一个18单词的语句有18个1单位片段，每个单词都是一个1单位片段，有17个2单位片段,以此类推；

b)精确度：精确度是指生成语句里面的n单位片段在参考语句里面出现的概率；

c)BLEU-N：BLEU-N(N>0)方法的意思即BLEU在N单位片段下对生成语句精确度进行衡量。

发明内容

针对面对海量高质量代码摘要获取的问题，本发明提供一种软件代码摘要自动生成模型的优化方法，有效地结合深度学习和群体智能，快速高效地生成质量较高的代码摘要。

本发明的技术方案包括以下步骤：

步骤1、数据库初始为空，系统利用互联网中和群体智慧所贡献的数据集，对模型训练和优化，训练数据集存入数据库；

步骤2、从数据库中读取代码片段A，看自动摘要模型对代码片段A是否已产生代码摘要，如果有，执行步骤4，否则，执行步骤3；

步骤3、系统利用步骤1中训练好的模型，给代码自动生成代码摘要；

步骤4、系统将代码片段和生成的代码摘要开放，开放用户对代码摘要进行改正和优化；

步骤5、系统存储改正后的代码片段和代码摘要，放至数据库，并从中选择质量较高代码摘要，将代码片段和选出的代码摘要加入到训练数据集中；

步骤6、是否终止优化，如果停止优化，则结束，否则转步骤1。

作为本发明技术方案的进一步改进，步骤1具体包括以下步骤：

步骤1.1、系统利用已获得的数据，针对不同语言所编写的代码，编写不同的代码解析工具，从而对数据进行预处理，得到训练数据集；

步骤1.2、系统利用训练数据集数据训练深度学习，强化学习，深度强化学习三种模型，简称三种模型；

步骤1.3、系统利用训练数据集和BLEU方法对三种模型的摘要生成能力进行衡量；

步骤1.4、系统从三种模型中选择代码摘要生成效果最好的模型，作为代码摘要生成模型。

所述步骤1.4中，系统根据BLEU评价指标，从三种模型中选择选择代码摘要生成效果最好的模型。

所述步骤4中，系统将代码片段和自动生成的代码摘要开放在互联网以及学生课堂，让互联网用户和广大学生编写代码摘要，或者对模型自动生成的代码摘要进行改正和优化。

所述步骤5中，系统根据BLEU评价指标选择质量较高代码摘要。

上述各步骤中，我们可以利用很多开源成熟的框架，对深度学习，强化学习，深度强化学习三种模型进行训练。

采用本发明可以达到以下技术效果：

本发明适用于采用成熟的开源框架对代码片段生成摘要，针对面对海量高质量代码摘要获取的问题，有效地结合深度学习和群体智能，快速高效地生成质量较高的代码摘要，并利用群体智慧对模型进行持续优化，让更多人员可以通过阅读高质量代码摘要进而学习代码开发；充分考虑并使用了当今最为主流的机器学习方法，优中选优，提高了代码摘要生成的灵活性，并可以充分满足对互联网海量代码片段进行摘要生成的实际需求。

附图说明

图1为本发明软件代码摘要自动生成模型的优化方法流程图；

图2为本发明软件代码摘要自动生成模型的优化方法中步骤1具体流程图；

具体实施方式

图1为本发明软件代码摘要自动生成模型的优化方法流程图，具体执行以下步骤：

该方法针对开源社区海量高质代码片段摘要和注释缺乏的问题，简化了繁琐重复手工代码标注问题，充分利用成熟的深度学习框架，极大地减小人工标注的工作量，灵活性和敏捷性比较好，能够充分应对海量高质量代码片段的注释获取需求。

如图2所示，本发明利用群体智慧提供的高质量代码注释，该方法可以快速高效地获取质量较高的代码片段摘要，并利用群体智慧对模型进行持续优化。方法有效地结合了深度学习和群体智能，可以快速高效地生成质量较高的代码摘要。充分考虑并使用了当今最为主流的机器学习，深度学习等方法，优中选优，提高了代码摘要生成的灵活性，具体执行以下步骤：

步骤1.1、系统利用已获得的数据，针对不同语言所编写的代码，编写不同的代码解析工具，从而对数据进行预处理，最后得到训练数据集；

步骤1.2、系统利用训练数据集数据训练深度学习，强化学习，深度强化学习三种模型；

步骤1.3、系统利用测试数据集和BLEU-N(N<＝4)方法对三种模型的摘要生成能力进行衡量；

步骤1.4、系统根据BLEU评价指标，从三种模型中选择选择代码摘要生成效果最好的模型，作为代码摘要生成模型。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种软件代码摘要自动生成模型的优化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的软件代码摘要自动生成模型的优化方法，其特征在于，步骤1具体包括以下步骤：

步骤1.3、系统利用训练数据集和双语评估研究方法BLEU对三种模型的摘要生成能力进行衡量；

3.如权利要求1所述的软件代码摘要自动生成模型的优化方法，其特征在于，所述步骤4中，系统将代码片段和自动生成的代码摘要开放在互联网以及学生课堂，让互联网用户和广大学生编写代码摘要，或者对模型自动生成的代码摘要进行改正和优化。

4.如权利要求1所述的软件代码摘要自动生成模型的优化方法，其特征在于，所述步骤5中，系统根据双语评估研究方法BLEU评价指标选择质量较高代码摘要。

5.如权利要求2所述的软件代码摘要自动生成模型的优化方法，其特征在于，所述步骤1.4中，系统根据双语评估研究方法BLEU的评价指标，从三种模型中选择选择代码摘要生成效果最好的模型。