CN109766120A

CN109766120A - 一种基于用户评论的移动app变更文件定位方法

Info

Publication number: CN109766120A
Application number: CN201811539710.6A
Authority: CN
Inventors: 周宇; 苏彦颀; 杨忻莹; 史志成; 黄志球
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-17

Abstract

本发明公开了一种基于用户评论的移动APP变更文件定位方法，包括步骤如下：将用户评论，版本控制工具的提交信息和源代码文件处理成后续操作所需形式；利用版本控制工具的提交信息扩展源代码文件；基于用户评论定位变更文件。本发明提出基于用户评论的移动APP变更文件定位方法，结合版本控制工具的提交信息，提高了变更文件定位的准确率，减少了开发人员维护软件所需时间。

Description

一种基于用户评论的移动APP变更文件定位方法

技术领域

本发明属于计算机技术领域，尤其涉及一种基于用户评论的移动APP变更文件定位方法。

背景技术

随着智能设备的广泛应用，移动应用程序(mobile APP)存在大量的用户评论，现在已经成为软件生态系统的重要组成部分。这些用户评论一般分布在主要的在线应用商店，如Google Play和Apple App Store。在用户评论中，包含了大量的有用信息，这些有用信息是开发人员与用户实现交互的一个重要接口。用户可以通过发表用户评论，提出一些新功能的要求及使用过程中遇到的一些问题，此信息对于软件的维护及改进有着至关重要的作用。

不仅如此，现如今，移动应用市场井喷，想要在如此激烈的竞争中处于不败之地，就需要快速修复已存问题，满足用户反馈需求，实现快速高效的版本迭代，促进应用产品的持续交付，从而保证在激烈的竞争中处于优势地位。但是，随着开发人员对代码熟悉程度的遗忘及一些新引入的开发人员对应用程序展开维护，在寻找需要更改的源代码文件时，就会耗费大量时间，因此，快速定位到需要变更的源代码文件就成为了现如今急需解决的一个问题。

为此，我们展开相关的研究工作，主要致力于过滤用户评论以得到有信息量的用户评论，将有信息量的用户评论定位到需要变更的源代码文件。

在下文中，总结了将非正式文本信息与源代码文件相关联的主要相关研究，这些相关研究均发表在国际重要期刊或会议上，具有较高的参考价值。

Panichella等人在2016年FSE上发表论文ARdoc:App Reviews DevelopmentOriented Classifier，提出了ARdoc，这种方法结合了自然语言处理，情感分析和文本分析技术，通过机器学习算法来检测用户评论中的句子，自动分类应用用户评论中包含的有用反馈，对于执行软件维护和演化任务非常重要。用户评论中包含的ARdoc分类句，对于维护视角非常有用，包括：特征请求，问题发现，信息搜索，信息提供等。

Saha等人提出使用基于代码结构(即类和方法名称)的结构化信息检索来改进错误定位。他们的方法名为BLUIR，利用向量空间模型将错误报告链接到源代码文件。

Asuncion等人设计了TRASE，这种方法使用基于LDA的主题建模来增强预期可追溯性所提供的信息。由于无法事先了解潜在主题的数量，作者使用不同的设置(即α＝10，20和30)配置了LDA算法的参数α(即主题数)。此外，TRASE利用的技术检索源代码文件的链接需要开发人员提供有关需要变更的项目部分的额外信息，这是我们的方法所不需要的。

Palomba等人在2015年ICSME上发表论文User Reviews Matter！TrackingCrowdsourced Reviews to Support Evolution ofSuccessful Apps提出了CRISTAL(Crowdsourcing RevIews to SupporT App evoLution)，一种用于跟踪源代码文件提交的信息丰富的众包用户评论以及监控开发人员在多大程度上满足用户请求和后续用户反应的工具，用于跟踪源代码文件更改的信息性人群用户评论，以及监控开发人员在多大程度上适应人群请求以及后续用户反应(如评级中所反映的)。

Adelina Ciurumelea等人在2017年SANRER上发表论文Analyzing Reviews andCode of Mobile Apps for Better Release Planning提出了URR(the User RequestReferencer prototype)，使用机器学习和信息检索技术，根据我们的分类法自动对用户评论进行分类，并建议特定用户评论需要变更哪些源代码文件来处理用户评论中描述的问题。其工作目标是根据相关的移动特定和可操作问题自动分析用户评论，并将它们链接到应变更的源代码文件，以处理审核中讨论的问题或请求。

Palomba等人在2017年ICSE上发表的论文Recommending and Localizing ChangeRequests for Mobile Apps based on User Reviews提出了CHANGEADVISOR，与CRISTAL不同，CHANGEADVISOR的目的是在应用程序的当前版本上推荐代码更改的位置，而不是监视项目历史记录期间已应用的更改。CHANGEADVISOR与本课题研究的方向最为贴近，是现阶段将用户评论定位到源代码文件上效果表现最好的方法。

通过对相关工作的了解发现，近年来，国内外对于用户评论的关注度越来越高，已经有很多工作投入到对用户评论的处理上，并且针对不同的情况，已经提出了很多种分类亦或是聚类的规则，且已取得了很好的效果，但目前旨在针对基于用户评论的源代码文件定位的研究还处于初级阶段，纵览国内外的研究，只有CHANGEADVISOR、CRISTAL和URR涉及此领域的研究，但是CRISTAL只能定位之前已变更过的源代码文件，与本发明的目的不同，URR与本发明的目的一致，但是实验效果不是很理想，召回率虽然较高，但精确率较低，与CHANGEADVISOR相比，CHANGEADVISOR效果更胜一筹，且CHANGEADVISOR是将源代码文件处理成词袋模型，然后采用非对称Dice系数(the asymmetric Dice coefficient)进行相似度匹配计算，本发明通过对其相关工作的复现及了解，发现在此领域还有较大的提升空间，例如，将源代码文件中的Javadoc注释等自然语言信息充分利用起来，将版本控制工具(如Git)的提交信息加入用于缩小用户评论即自然语言与源码之间的语义差距，适当更改相似度计算方式，使其更加符合定位要求，不仅如此，为防止由于版本控制工具的提交信息过少导致的冷启动问题，本发明拟采用动态权值调整的方法来动态调整代码组件信息与版本控制工具的提交信息的权值分配。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于用户评论的移动APP变更文件定位方法，以解决现有技术中随着开发人员对代码熟悉程度的遗忘及一些新引入的开发人员对应用程序展开维护，在寻找需要更改的源代码文件时，会耗费大量时间的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于用户评论的移动APP变更文件定位方法，包括步骤如下：

(1)将用户评论，版本控制工具的提交信息和源代码文件处理成后续操作所需的形式；

(2)利用版本控制工具的提交信息扩展源代码文件；

(3)基于用户评论定位变更文件。

进一步地，所述步骤(1)中将用户评论，版本控制工具的提交信息和源代码文件处理成后续操作所需形式具体包括：对用户评论采用ARdoc分类器，划分成句子级别并且进行分类，提取所分类别中特征需求和问题发现这两个类别，再将这两个类别中的句子采用Stanford nlp工具包中的parser解析器解析成语法树，采用自底向上的处理方法分解成原子语句，最后使用Stanford nlp工具包中的lemma组件对所得数据进行处理，将所得数据中的单词还原成单词的原形；对版本控制工具的提交信息使用Stanford nlp工具包中的lemma组件进行处理，将版本控制工具的提交信息中的单词还原成单词的原形；对源代码文件先提取java文件和xml文件，再对java文件使用抽象语法树进行分析提取其中的代码组件信息，最后对所提取的代码组件信息使用Stanford nlp工具包中的lemma组件进行处理，将所提取的代码组件信息中的单词还原成单词的原形。

进一步地，所述的代码组件信息包括源代码文件路径、类的JavaDoc注释、字段声明、方法的JavaDoc注释和方法名称。

进一步地，所述步骤(2)中利用版本控制工具的提交信息扩展源代码文件具体包括：对每个源代码文件，遍历所有版本控制工具的提交信息，若版本控制工具的提交信息的源代码文件中包含该源代码文件，则将该条版本控制工具的提交信息中的标题，描述，时间信息作为该源代码文件的一个扩展，称为源代码文件的扩展信息。

进一步地，所述步骤(3)中定位变更文件分为两部分：一是使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度；二是使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度，最后再采用动态权值分配将两个相似度值合并，用最终合并后的结果进行定位。

进一步地，所述步骤(3)使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度具体包括：将源代码文件的代码组件信息转换成词袋模型，再将用户评论转换成词袋模型，使用非对称Dice系数来计算这两个词袋模型的相似度，对非对称Dice系数有所改进，具体改进后的公式如下所示：

其中，是包含在用户评论r_i中的单词集合，是包含在类j的源代码文件的代码组件信息中的单词集合，是单词w_k的d_f权重，是单词w_t的d_f权重，是指示函数，即该指示函数括号内条件成立时，该指示函数的返回值为1，否则为0，min函数从该函数括号内两个集合中获取单词数较少的单词集合；使用每个单词的df权重而不是1来改进非对称Dice系数，其中df权重的计算方式如下所示：

其中，是单词w_x在所有用户评论中出现的次数。

进一步地，所述步骤(3)使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度具体包括：将发生在用户评论发布之前的源代码文件的扩展信息转换成词袋模型，将用户评论转换成词袋模型，使用改进后的非对称Dice系数来计算二者的相似度；具体改进后的公式如下所示：

其中，是包含在用户评论r_i中的单词集合，是包含在源代码文件j的扩展信息中的单词集合，是单词w_k的df权重，是单词w_t的df权重，是指示函数，即该指示函数括号内条件成立时，该指示函数的返回值为1，否则为0，min函数从两个集合中获取单词数较少的单词集合。

进一步地，所述步骤(3)采用动态权值分配将两个相似度值合并具体还包括：使用公式(4)，将使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度和使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度合并，用最终合并后的结果进行定位：

其中，γ是用户评论r_i中和源代码文件的扩展信息commit_j相交的单词的数量，L是用户评论r_i中的单词数。

本发明的有益效果：

本发明提出了利用基于用户评论的移动APP变更文件定位方法，减少了开发人员因寻找用户评论对应变更文件所需消耗的时间成本，同时也减少了定位到变更文件所需的程序运行时间，使其更加高效。除此之外，本发明充分考虑了项目维护初期，版本控制工具的提交信息不足导致的冷启动问题，采用利用源代码文件的代码组件信息和动态权值分配的方法，巧妙地解决了此问题。

附图说明

图1为基于用户评论的移动APP变更文件定位方法的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于用户评论的移动APP变更文件定位方法，包括步骤如下：

(1)将用户评论，版本控制工具(如Git)的提交信息和源代码文件处理成后续操作所需形式：将定位中要使用到的用户评论，版本控制工具的提交信息及源代码文件中的单词还原成单词的原形；

(2)利用版本控制工具的提交信息扩展源代码文件：对每个源代码文件，遍历所有版本控制工具的提交信息，若版本控制工具的提交信息的源代码文件中包含该源代码文件，则将该条版本控制工具的提交信息中的标题，描述，时间信息作为该源代码文件的一个扩展，称为源代码文件的扩展信息；

(3)基于用户评论定位变更文件：定位变更文件分为两部分，一是使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度；二是使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度，最后再采用动态权值分配将两个相似度值合并，用最终合并后的结果进行定位。

步骤(1)具体包括：本发明需要用到的实验数据为用户评论、源代码文件及版本控制工具的提交信息，因此，首先编写一个爬虫工具对所需数据进行爬取，以备后续使用，对用户评论，按照下述步骤进行处理：

11)先使用由Panichella等人开发的用户评论分类器ARdoc将用户评论拆分成句子级别，并将用户评论分为四类：信息提供，信息查询，特征请求和问题发现，由于本发明的最终目的是将用户评论定位到可能的更改源代码文件，因此只需要最后两个类别进行进一步处理；

12)使用Stanford nlp工具包中的parser解析器，将步骤11)得到的用户评论转换成一个语法树，对该语法树进行分析，将句子级别的用户评论转换成表示单一信息的原子语句；

13)利用Stanford nlp工具包中的lemma组件将用户评论中的单词还原成单词的原形。

对源代码文件，按照下述步骤进行预处理：

14)提取源代码文件中的java文件和XML文件；

15)使用抽象语法树解析源代码文件，以提取源代码文件的代码组件信息，包括源代码文件路径、类的JavaDoc注释、字段声明、方法的JavaDoc注释和方法名称；

16)利用Stanford nlp工具包中的lemma组件将源代码文件的代码组件信息中的单词还原成单词的原形。

对版本控制工具的提交信息，按照下述步骤进行预处理：

17)利用Stanford nlp工具包中的lemma组件将版本控制工具的提交信息中的单词还原成单词的原形。

步骤(2)中，利用版本控制工具的提交信息扩展源代码文件具体包括：对每个源代码文件，遍历所有版本控制工具的提交信息，若版本控制工具的提交信息的源代码文件中包含该源代码文件，则将该条版本控制工具的提交信息中的标题，描述，时间信息作为该源代码文件的一个扩展，称为源代码文件的扩展信息。

步骤(3)具体包括：将源代码文件的代码组件信息转换成词袋模型，再将用户评论转换成词袋模型，使用非对称Dice系数来计算这两个词袋模型的相似度，但是对非对称Dice系数有所改进，具体改进后的公式如下所示：

其中，是包含在用户评论r_i中的单词集合，是包含在类j的源代码文件的代码组件信息中的单词集合，是单词w_k的df权重，是单词w_t的df权重，是指示函数，即该指示函数括号内条件成立时，该指示函数的返回值为1，否则为0，min函数从该函数括号内两个集合中获取单词数较少的单词集合；使用每个单词的df权重而不是1来改进非对称Dice系数，其中df权重的计算方式如下所示：

其中，是单词w_x在所有用户评论中出现的次数。

使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度具体还包括：将发生在用户评论发布之前的源代码文件的扩展信息转换成词袋模型，将用户评论转换成词袋模型，使用改进后的非对称Dice系数来计算二者的相似度。具体改进后的公式如下所示：

采用动态权值分配将两个相似度值合并具体还包括：使用下述公式(4)，将使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度和使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度合并，用最终合并后的结果进行定位：

以下采用实验的方式来体现本发明方法的性能。

实验的主要内容为：对用户评论中，提到较多的特征需求和问题发现进行定位，采用计算Top-k准确率的方法来显示本发明方法的性能。

实验采用的数据，来自于Google play和GitHub上爬取6个受欢迎的APP，其详细信息如表1所示：

表1

算法评价的计算方式是Top-k准确率，同时k分别取1、3、5，实验中的测试集的生成方式为分成特征需求和问题发现两部分，然后随机抽取，求出平均值，特征需求部分实验结果记录为表2所示，问题发现部分实验结果记录为表3所示；其中avg指代平均值(average)，Num为抽取的定位条数。

表2

表3

实验表明本发明方法在推荐的准确率上已经取到较高的结果，且在特征需求和问题发现两方面无明显差异。

其中Top-1准确率波动较大，最低是58.33％，最高则可达到100％，但整体效果较好，可以达到80％以上，在Top-5准确率上，基本可以达到平均95％以上的效果。该实验结果表明，本发明方法可以有效地为开发人员推荐需要变更的源代码文件，节省开发人员进行版本更迭所需的时间。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于用户评论的移动APP变更文件定位方法，其特征在于，包括步骤如下：

(2)利用版本控制工具的提交信息扩展源代码文件；

(3)基于用户评论定位变更文件。

2.根据权利要求1所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(1)中将用户评论，版本控制工具的提交信息和源代码文件处理成后续操作所需形式具体包括：对用户评论采用ARdoc分类器，划分成句子级别并且进行分类，提取所分类别中特征需求和问题发现这两个类别，再将这两个类别中的句子采用Stanford nlp工具包中的parser解析器解析成语法树，采用自底向上的处理方法分解成原子语句，最后使用Stanford nlp工具包中的lemma组件对所得数据进行处理，将所得数据中的单词还原成单词的原形；对版本控制工具的提交信息使用Stanford nlp工具包中的lemma组件进行处理，将版本控制工具的提交信息中的单词还原成单词的原形；对源代码文件先提取java文件和xml文件，再对java文件使用抽象语法树进行分析提取其中的代码组件信息，最后对所提取的代码组件信息使用Stanford nlp工具包中的lemma组件进行处理，将所提取的代码组件信息中的单词还原成单词的原形。

3.根据权利要求2所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述代码组件信息包括源代码文件路径、类的JavaDoc注释、字段声明、方法的JavaDoc注释和方法名称。

4.根据权利要求1所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(2)中利用版本控制工具的提交信息扩展源代码文件具体包括：对每个源代码文件，遍历所有版本控制工具的提交信息，若版本控制工具的提交信息的源代码文件中包含该源代码文件，则将该条版本控制工具的提交信息中的标题，描述，时间信息作为该源代码文件的一个扩展，称为源代码文件的扩展信息。

5.根据权利要求4所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(3)中定位变更文件分为两部分：一是使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度；二是使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度，最后再采用动态权值分配将两个相似度值合并，用最终合并后的结果进行定位。

6.根据权利要求5所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(3)使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度具体包括：将源代码文件的代码组件信息转换成词袋模型，再将用户评论转换成词袋模型，使用非对称Dice系数来计算这两个词袋模型的相似度，对非对称Dice系数有所改进，具体改进后的公式如下所示：

其中，是包含在用户评论r_i中的单词集合，是包含在类j的源代码文件的代码组件信息中的单词集合，是单词w_k的df权重，是单词w_t的df权重，是指示函数，即该指示函数括号内条件成立时，该指示函数的返回值为1，否则为0，min函数从两个集合中获取单词数较少的单词集合；使用每个单词的df权重而不是1来改进非对称Dice系数，其中df权重的计算方式如下所示：

其中，是单词w_x在所有用户评论中出现的次数。

7.根据权利要求5所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(3)使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度具体还包括：将发生在用户评论发布之前的源代码文件的扩展信息转换成词袋模型，将用户评论转换成词袋模型，使用改进后的非对称Dice系数来计算二者的相似度；具体改进后的公式如下所示：

8.根据权利要求5所述的基于用户评论的移动APP变更文件定位方法，其特征在于，所述步骤(3)采用动态权值分配将两个相似度值合并具体包括：使用公式(4)，将使用源代码文件的代码组件信息来计算用户评论与源代码文件的相似度和使用源代码文件的扩展信息来计算用户评论与源代码文件的相似度合并，用最终合并后的结果进行定位：