CN102760058A

CN102760058A - 面向大规模协作开发的海量软件项目共享方法

Info

Publication number: CN102760058A
Application number: CN2012100971571A
Authority: CN
Inventors: 王怀民; 尹刚; 史殿习; 朱沿旭; 李翔; 滕猛; 丁博; 刘惠; 袁霖; 王涛
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2012-10-31
Anticipated expiration: 2032-04-05
Also published as: CN102760058B

Abstract

一种面向大规模协作开发的海量软件项目共享方法，包括：构建软件数据服务器SDS，Web爬虫从主要开源社区中定期采集开源软件的Web页面，从中抽取项目数据；计算SDS中软件项目数据中的词汇的词频，形成SDS词汇表，计算SDS中每个软件项目的特征；设置需要自动获取共享项目的本地项目列表L，其中包括一定数目的本地项目，基于词频计算L中每个项目的项目数据的特征c，并将其发送到SDS；SDS将本地项目特征c与SDS中已有软件数据库中的每个软件项目的特征进行相似度比较，记录前m个相似度最大的软件项目列表PL；SDS将PL中软件项目的相关信息返回给本地项目p的开发者。当本地项目p的软件数据发生阶段性变化时或者经过一个预设时间间隔后，重复执行上述步骤。

Description

面向大规模协作开发的海量软件项目共享方法

技术领域

本发明涉及一种软件项目共享方法，特别是在互联网中存在大量开源软件项目的条件下，一种能够对开发者正在开发的软件项目进行后台特征分析，据此从海量软件数据库中采集相关软件项目，并自动返回给开发者的方法，从而有助于提高软件开发环境的协作开发效率和资源重用效率。

背景技术

基于互联网进行大范围、大规模的软件协作开发是网络时代软件工程的一个基本特点。很多开源软件社区都采用了通用的软件版本管理工具(如SVN和CVS)、邮件列表工具(如Mailman和Nabble等)和缺陷库(如Bugzilla和Mantis等)，以支持分布在不同地域不同组织的开发人员基于网络进行协作开发。基于标准化工具进行软件开发的一个重要特点是软件项目的开发过程可以积累大量软件版本数据和开发过程数据，而开源模式使得这些宝贵的数据得以自由下载和使用。这些数据对正在进行或即将进行的软件开发活动具有极大参考甚至重用价值。

目前，诸多搜索引擎和开源软件社区都主要关注能够提高软件资源共享效率和扩大共享范围的技术，这类技术的一个基本思路是根据软件开发者提供的关键字找到相关的开源软件项目，这样软件开发者就可以分析和使用相关开源软件项目的模块和代码。目前已经得到广泛应用的软件共享技术主要有两类。第一类技术是开源软件托管社区(简称开源社区)，如Sourceforge、Googlecode的开源软件搜索引擎。这类网站允许开发人员将其开发的软件项目的源代码和开发过程数据存储在开源社区，其他开发人员可以通过输入关键字以全文检索的方式在开源社区中搜索相关的软件项目，并且免费获取相关项目的版本库(如源代码和技术文档)和开发过程数据(如开发日志、邮件列表、缺陷列表等)。第二类技术是软件目录(或软件黄页)，如dmoz(http://www.dmoz.org)、Ohloh(http://www.ohloh.net)、中国开源社区(http://www.oschina.net)等，这类网站往往包含数据巨大的开源软件项目，可以提供软件项目的基本描述、代码统计数据、开发过程统计数据等信息。

上述两类软件共享技术能够为软件开发者提供基本的软件检索和软件数据共享支持，但是尚不能针对正在开发的软件项目准确、自动的提供互联网范围的相关软件项目信息；也没有同现有软件开发环境集成，以提供便捷易用的相关软件推荐机制。此外，现有软件开发环境技术(如MicrosoftVisio Studio、Eclipse等)也没有充分利用互联网软件社区的海量软件信息为开发人员提供必要的相关软件项目信息，仅能提供本开发环境相关的帮助文档和示例代码，不能有效避免已公开软件技术的重复研发或者第三方软件构件的不当重用等问题。例如，某个开发团队正在开发一种新款浏览器，如果其软件开发环境能够根据其软件项目的具体特点，从互联网中发现与该浏览器最为相关的开源浏览器项目(如Firefox、Chrome等)及其开发团队信息，那么将有助于该团队快速掌握最新的国际技术现状和相关资源，这必将能够大大提高项目开发效率和开发质量。

因此，如何为开发人员提供一种新的软件项目共享方法，能够自动的根据正在开发的软件项目的具体特征，有针对性的从分布在互联网上的众多其他开源软件社区获取相关软件项目信息，并将结果直接返回到当前软件项目的开发环境中，是本领域技术人员极为关注的重要问题。

发明内容

本发明要解决的技术问题是：针对现有互联网软件信息检索技术和软件开发环境技术在大规模软件协作开发过程中软件项目共享方面的不足，提出一种基于互联网开源社区的海量软件项目共享方法，该方法将分布在互联网软件社区与软件开发环境有效集成，使得软件项目信息共享过程能够有效地跨越多个软件开发社区，使软件开发人员能够快速利用更大范围的相关软件信息和资源进行高效开发。

本发明的技术方案包括以下步骤：

步骤101、构建软件数据服务器SDS，采用Web爬虫从站点列表定义的主要开源社区中定期采集开源软件的Web页面，从页面中抽取项目数据，包括开源软件的基本属性及其开发团队属性。

进一步地，所述基本属性包括软件项目名称、软件说明、关键词、开发语言、操作系统、更新日期等，所述开发团队属性包括开发者列表、开发者邮件列表等。

步骤102、计算SDS软件项目数据中的词汇的词频，形成SDS词汇表，其中每个条目是由某个词汇及其词频组成的二元组，然后计算SDS中每个软件项目的特征。

进一步地，所述计算每个软件项目的特征p_f的步骤进包括：(1)计算所述每个软件项目p′的项目数据中的词汇的词频；(2)对项目p′的每个词汇w计算其特征值F(w)＝w_p/w_SDS，其中w_p是词汇w在p的项目数据中出现的频率，w_SDS是词汇w在SDS项目数据中出现的频率，w_SDS为0时F(w)取最大值T；(3)按词汇的特征值由高至低排序，取前k个词汇组成一个词汇向量，以此作为p′的特征p_f，其中k是一个预先设定的整数，通常10≤k≤15。

步骤103、软件开发者在软件开发环境SDE中设置需要自动获取共享项目的本地项目列表L，所述本地项目列表L中包括一定数目的具有自动获取共享需求的本地项目，基于词频计算L中每个项目的项目数据的特征，并将该特征发送到SDS。

进一步地，所述项目数据包括本地项目的源代码和开发过程中文本文档。

步骤104、SDS将本地项目特征c与SDS中已有软件数据库中的每个软件项目的特征进行相似度比较，记录前m个相似度最大的软件项目列表PL(m为整数，通常5≤m≤10)。

进一步地，对于SDE中某个本地软件项目p和SDS中的某个软件项目p′，两者的相似度S(p，p′)＝∑_w∈Cw×(w_p+w_SDS)，其中C是p和p′的项目数据中的公共词汇集合。

步骤105、SDS将PL中软件项目的相关信息返回给本地项目p的开发者。

进一步地，所述软件项目的相关信息包括项目名称、主页URL、关键词、项目开发者列表等。

步骤106、当本地项目p的软件数据发生阶段性变化时(如代码或文档的文本量改变10％以上)或者经过一个预先设定的时间间隔后(例如每周一次)，重复步骤103至105。

进一步地，所述构建软件数据服务器SDS的步骤中还包括使用开源目录网站，通过查询所述开源目录网站的项目列表，获取与本地软件项目相关的软件候选集合。

采用本发明可以达到以下技术效果：不仅适用于软件企业内部的集中式软件开发过程，也适用于开源模式的软件开发过程。本发明根据正在开发的软件项目的特征，首先从互联网的开源社区站点采集规模巨大的软件项目数据，然后提取软件项目特征以获取相似软件项目，并推送给软件开发者。此外，本方法首次将相似软件项目推荐机制引入开发环境，能够极大提高开发人员对外部软件项目的重用和协作效率。

附图说明

图1为本发明基于实施例一的面向大规模软件协作开发的软件项目共享方法的流程图；

图2为本发明软件项目共享方法的实施例涉及的网络节点交互示意图；

图3为本发明基于实施例二的面向大规模软件协作开发的软件项目共享方法的流程图。

具体实施方式

假定某个软件企业基于Java集成开发环境Eclipse进行软件开发，并基于软件版本管理软件SVN进行软件版本管理(包括软件源代码和文档的管理)。该企业的某个团队希望基于本发明的方法从互联网主要软件社区自动实现相关开源软件的搜索和推荐，从而改进本团队软件开发的效率和质量。

步骤101、建立一个软件数据服务器SDS，采用通用的Web爬虫技术从互联网的主要开源社区中采集开源软件的Web页面，然后从页面中抽取项目数据，包括开源软件的基本属性(名称、说明、关键词、开发语言、操作系统、更新日期等)及其开发团队属性(开发者列表、开发者邮件列表等)。

其中，SDS根据设定的时间间隔定期从OSSFList(OSSFList是SDS维护的一个包含互联网主要软件社区站点的列表)中的每个站点采集软件数据。例如，可基于Heritrix工具实现对开源社区的软件项目主页的采集，从中提取软件属性后存入SDS数据库，目前规模较大的开源社区包括SourceForge(sourceforge.net)、FreeCode(freecode.com)、OW2(www.ow2.org)、ohloh(www.ohloh.com)等。

步骤102、计算SDS软件项目数据中的词汇的词频，形成SDS词汇表，其中每个条目是由某个词汇及其词频组成的二元组，然后计算SDS中每个软件项目的特征，例如其中每个项目特征可以是包含10个词汇及其特征值的二元组。示意性的，对于给定软件项目p′，其特征p_f的计算方法为：(1)计算p′的项目数据中的词汇的词频；(2)对项目p′的每个词汇w计算其特征值F(w)＝w_p/w_SDS，其中w_p是词汇w在p的项目数据中出现的频率，w_SDS是词汇w在SDS项目数据中出现的频率，w_SDS为0时F(w)取最大值T；(3)按词汇的特征值由高至低排序，取前k个词汇组成一个词汇向量，以此作为p′的特征p_f(k是一个预先设定的整数，通常10≤k≤15)。例如，SDS通过从项目主页中的描述以及各开源属性中，经过词频统计，获取开源项目MySQL的特征值为{GPL，database，server，SQL，client/server，program，library，daemon，windows，macos}。

步骤103、软件开发者在软件开发环境SDE(Software DevelopmentEnvironment)中设置需要自动获取共享项目的本地项目列表L，基于词频计算L中每个项目的项目数据(包括源代码和文本文档)的特征，并将该特征发送到SDS。其中SDE可以是Java Eclipse开发环境和MS Visual C++开发环境等。例如，在软件开发环境Eclipse中开发一个软件项目共享的Eclipse插件EPPS(Eclipse Plugin for Project Sharing)，开发者在EPPS中设置需要自动获取相似项目的本地项目p的名称，同时EPPS根据通用的词频统计工具计算项目的特征，并将其发送到SDS。例如通过对项目描述文档README、代码注释、javadoc、配置文件中的相关字段进行词频统计与分析，正在本地开发的项目A的特征c可能为{server，database，SQL，client，internet，GPL，dll，software，library，development}。

步骤104、SDS将本地项目特征c与SDS中已有软件数据库中的每个软件项目的特征进行相似度比较，记录前m个相似度最大的软件项目列表PL(m为整数，通常5≤m≤10)。其中，对于SDE中某个本地软件项目p和SDS中的某个软件项目p′，两者的相似度S(p，p′)＝∑_w∈Cw×(w_p+w_SDS)，其中C是p和p′的项目数据中的公共词汇集合。

例如根据步骤202-203的描述，开源项目MySQL的特征与本地项目A的特征c具有很高的相似度，关于相似度的计算可以使用现有的不同方法实现，比如最简单的方法可以是重复关键词匹配的数量，例如开源项目MySQL特征与本地项目特征c的相似度为6，则开源项目MySQL可能被推荐到PL中。

步骤105、SDS将PL中软件项目的相关信息(如项目名称、主页URL、关键词、项目开发者列表等)返回给本地项目p的开发者。

在此，可以将获取的软件项目列表推送给开发者，其中包括了以相似度排列的各软件项目的简介信息，例如开发时间、开发组织、使用平台等，另外，也可以将PL中具有最高相似度的软件项目的全部信息推送给开发者，根据用户的选择可以逐次对PL中后续的软件项目进行查看。

根据本发明的另一个实施例，可以在网络环境中针对开源社区设置开源目录网站，其中以目录形式记载了关于开源社区中海量开源软件项目额摘要信息，以避免查找相似软件项目时处理的数据过于庞大而降低效率。

图2是本实施例的网络节点交互示意图和流程图。图3是基于本发明的实施例二的流程图。本实施例包含D1、D2和D3共三个软件开发者，本地软件目录服务器DS，开源目录网站SD1(ohloh.net)和SD2(ow2.org)，开源社区网站SF1(sourceforge.net)和SF2(freecode.net)。其中本地软件项目P是开发者D3正在本地开发环境(如Eclipse)中实施开发的项目。本发明将从SD1、SD2、SF1和SF2中找到与P最相关的前K个软件项目，并将其项目开发社区的主页列表发到D3的本地开发环境，该执行过程包括以下步骤：

步骤301、在开发者D3的本地开发环境中统计本地项目P的软件特征，并发送给本地软件目录服务器DS。

步骤302、DS根据P的软件特征向开源目录站点SD1和SD2查询相关软件项目列表，得到相关软件候选集合CS。

步骤303、DS从开源社区站点SF1和SF2获得CS中每个项目的SVN库，对其解析后进行精确的软件特征匹配。

步骤304、DS将CS中匹配度最高的前K个项目的开发社区主页网址返回给开发者D3的本地开发环境。

在其中使用的特征相似度比较及词频计算方法与实施例一中的方法一致，只是在实施例二中，当对软件项目设置了协作共享或软件项目本身具有获取共享信息的需求时，自身不进行相关信息的获取，而将该任务交由本地软件目录服务器，由本地目录服务器向开源目录站点进行初步查询，获取软件候选集合，以避免直接在海量数据中进行搜索。

以上实施例可以反映出本发明能够在互联网范围为软件开发人员提供与其开发的软件项目具有相似功能或技术特征的软件项目。由于开源社区站点通常包含数目巨大的开源软件项目(如SourceForge中托管了30多万个开源项目)，因此多个开源社区站点能够一定程度上反映互联网范围的开源软件目录。此外，由于本发明与开发者的软件开发环境集成，能够提高开发者对互联网范围内相关软件的检索效率，并从推荐的软件项目获得技术支持或者实现软件重用。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种面向大规模协作开发的海量软件项目共享方法，包括下列步骤：

步骤101、构建软件数据服务器SDS，Web爬虫从站点列表定义的主要开源社区中定期采集开源软件的Web页面，从页面中抽取项目数据，所述项目数据包括开源软件的基本属性及其开发团队属性；

步骤102、计算SDS中软件项目数据中的词汇的词频，形成SDS词汇表，其中每个条目是由某个词汇及其词频组成的二元组，然后计算SDS中每个软件项目的特征。

步骤103、在软件开发环境SDE中设置需要自动获取共享项目的本地项目列表L，所述本地项目列表L中包括一定数目的具有自动获取共享需求的本地项目，基于词频计算L中每个项目的项目数据的特征c，并将该特征c发送到SDS。

步骤104、SDS将本地项目特征c与SDS中已有软件数据库中的每个软件项目的特征进行相似度比较，记录前m个相似度最大的软件项目列表PL；

步骤105、SDS将PL中软件项目的相关信息返回给本地项目p的开发者，所述软件项目的相关信息包括项目名称、主页URL、关键词、项目开发者列表等。

步骤106、当本地项目p的软件数据发生阶段性变化时或者经过一个预先设定的时间间隔后，重复执行步骤103至105。

2.如权利要求1所述的方法，其中所述基本属性包括软件项目名称、软件说明、关键词、开发语言、操作系统、更新日期等，所述开发团队属性包括开发者列表、开发者邮件列表等。

3.如权利要求1所述的方法，其中所述计算SDS中每个软件项目的特征p_f的步骤进包括：(1)计算所述每个软件项目p′的项目数据中的词汇的词频；(2)对项目p′的每个词汇w计算其特征值F(w)＝w_p/w_SDS，其中w_p是词汇w在p的项目数据中出现的频率，w_SDS是词汇w在SDS项目数据中出现的频率，w_SDS为0时F(w)取最大值T；(3)按词汇的特征值由高至低排序，取前k个词汇组成一个词汇向量，以此作为p′的特征p_f，其中k是一个预先设定的整数。

4.如权利要求1所述的方法，其中步骤103中的所述项目数据包括本地项目的源代码和开发过程中文本文档。

5.如权利要求1所述的方法，其中步骤104中的相似度比较基于下列方式进行：对于SDE中某个本地软件项目p和SDS中的某个软件项目p′，两者的相似度S(p，p′)＝∑_w∈C w×(w_p+w_SDS)，其中C是p和p′的项目数据中的公共词汇集合。

6.如权利要求1所述的方法，其中步骤106中的所述阶段性变化为代码或文档的文本量改变超过预定阈值。

7.如权利要求1所述的方法，其中步骤101中所述构建软件数据服务器SDS的步骤中还包括使用开源目录网站，通过查询所述开源目录网站的项目列表，获取与本地软件项目相关的软件候选集合，根据所述软件候选集合到所述开源社区采集web页面。