CN105389329B

CN105389329B - 一种基于群体评论的开源软件推荐方法

Info

Publication number: CN105389329B
Application number: CN201510617003.4A
Authority: CN
Inventors: 王怀民; 王涛; 尹刚; 伍名; 侯翔; 杨程; 史殿习; 刘惠; 丁博; 史佩昌; 湛云; 张洋
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-09-21
Filing date: 2015-09-21
Publication date: 2019-02-12
Anticipated expiration: 2035-09-21
Also published as: CN105389329A

Abstract

一种能够基于群体评论对开发者正在开发的软件项目进行有效的组合软件推荐方法，包括获取开源数据，对所述项目和评论文档标签进行预处理；提取用户本地项目特征，利用评论文档标签、标题和项目名称、标签，对项目和评论文档进行匹配；计算本地项目与采集的开源项目的相似性和相关性；对相关性和相似性进行线性加权求和，为用户生成项目推荐列表。本发明可以与开发者的软件开发环境集成，提高开发者对互联网范围内相关软件的检索效率，并从推荐的软件项目获得技术支持或者实现软件重用。

Description

一种基于群体评论的开源软件推荐方法

技术领域

本发明涉及一种开源软件项目自动化推荐的方法，尤其涉及在互联网开源社区中存在大量开源软件项目的条件下，一种能够基于群体评论对开发者正在开发的软件项目进行有效的组合软件推荐方法。

背景技术

随着计算机技术的快速发展和革新，尤其是互联网技术的兴起，软件已经渗入人们购物、交流、学习、生活等各个方面。2011年，著名风险投资人以及网景创始人托马斯.舒尔茨发表文章称“软件正在吞噬整个世界”。实际上，在此过程中开源软件扮演着关键角色，其以丰富开放的软件资源、开发者资源以及知识资源被越来越多的软件企业及个人所依赖。以Google为代表的大型互联网公司积极参与、引导并借鉴开源资源推导项目发展，而一些中小型企业则依赖和复用开源模块实现高质量的软件开发和发布。充分、高效的利用开源软件资源已经成为互联网软件企业持续保持竞争力的关键因素。

开源软件迅速发展，一方面为开发者提供了大量可复用资源，缩短了软件开发过程中的开发时间和成本，给软件开发者带来了极大的便利；另一方面，开源软件规模巨大，数量高速增长且分布广泛，同时还在不断演化。面对海量的软件资源，用户很难从中快速准确检索到自己真正需要的软件资源，对开源软件资源的利用效率反而下降，这就是所谓的信息过载。目前，针对这个问题的办法之一就是以搜索引擎为代表的信息检索系统，比如Google、Baidu等，它们在帮助用户获取信息方面发挥着极其重要的作用。但使用搜索引擎的不同用户在使用同一个关键词检索时，得到结果是相同的，而用户需求却是多元化和个性化的，通过以搜索引擎为代表的信息检索系统获得的结果不能满足用户的个性化需求，无法很好的解决软件资源信息过载的问题。因此，开源生态系统急需一种新型技术来解决开源软件资源的快速定位问题。

发明内容

本发明要解决的技术问题是：针对现有互联网软件信息检索技术的不足，提出一种基于互联网开源社区中群体评论的开源软件自动推荐方法。该方法将分布在互联网软件社区各类软件资源有效集成，通过对大规模开发者群体和用户群体对开源资源的评论进行深度分析和挖掘，为开发者推荐最相关的开源资源，使软件开发人员能够快速利用更大范围的相关软件信息和资源进行高效开发。

本发明的技术方案包括以下步骤：

步骤101、建立开源软件数据服务器SDS(Software Data Server)，采用通用的Web爬虫技术从互联网的主要开源社区中采集开源软件资源信息数据，包括开源软件项目数据和评论文档数据，所述项目数据包括开源软件的项目名称、项目标签、项目主页，评论文档数据包括文档标题和文档标签。

步骤102、获取用户本地开发项目p的特征，主要包括本地项目名称和本地项目标签，并提取SDS中已采集获得的项目名称、项目标签和文档标题、文档标签，对本地开发项目及SDS中采集的项目与评论文档进行关联匹配。

步骤103、计算SDS中每一个项目q与本地开发项目p的标签文本相似性，标签文本表示为由项目标签组成的单词集合，提取项目p与项目q的项目标签，并将其表示为由自身标签组成的标签集合T_p和T_q，利用公式计算项目p与项目q的标签文本相似性。

步骤104、计算SDS中每一个项目q与项目p的相关性，根据步骤102中的关联匹配结果将项目p和q表示为向量v_p和v_q，向量的每一维表示与之相关联的评论文档，向量值表示匹配权重，根据余弦相似性公式：计算相关性。

步骤105、生成本地开发项目p的推荐列表，并将推荐指数值排在前N的项目的主页返回给用户，其中推荐指数值的计算是对项目相似性和相关性进行线性加权，公式表示为：Score(q→p)＝w₁×TDoc(p，q)+w₂×Coop(p，q)，其中，Score表示为项目q对项目p的推荐指数值，w₁、w₂均取为0.5。

进一步地，步骤101中对所述项目标签和文档标签进行预处理，所述预处理包括：将项目标签和文档标签转换为其词根后将相同的词根的标签合并，删除标签数小于3的项目。

进一步地，步骤102中的关联匹配具体步骤包括：

步骤102.1、用项目名称与评论文档进行匹配，以所述项目名称为关键词查找评论文档，若所述评论文档具有与所述项目名称相同的标签，则为所述评论文档与项目建立关联，并赋予权值W₁；

步骤102.2、用项目名称在评论文档标题中进行检索匹配，以项目名称为关键字搜索所有评论文档，若某个评论文档标题包含该关键字，则将该评论文档与项目建立关联，并赋予权值W₂；

步骤102.3、在所有已建立的关联中，对项目标签与评论文档标题进行匹配，统计评论文档标题中包含项目标签的个数x，利用x计算项目与评论文档关联权值W₄，计算公式为：W₃＝0.5*log₂(x²+1)，采用对数运算表明标签个数x与可信度的关系；

步骤102.4、在所有已建立的关联中，对项目标签与评论文档的标签进行匹配，统计在两者共同出现的标签个数y，计算权值：W₄＝0.6*log₂(y²+1)；

步骤102.5、计算最终关联权重，权重公式表示为：W＝W₁+W₂+(W₁+W₂)*(W₃+W₄)，选取合适的阀值决定软件项目是否与评论文档相关联，当权值w大于阈值q时，认为该文档与开源项目是关联的，关联结果以[软件项目，评论文档，权重]的形式存储在数据库中，软件项目包括本地开发项目及SDS中采集的项目。

进一步地，步骤104中的根据步骤102中的关联匹配结果将项目p和q表示为向量v_p和v_q，向量v_p和v_q的值根据分别包含项目p和q匹配结果的结果集中的权重值确定，项目p可表示为v_p＝(W_p1，W_p2，..，W_pn)；项目q可以表示成v_q＝(W_q1，W_q2，..，W_qk)，W_pn及W_qk分别是结果集中的权重值，n和k均大于等于1。

采用本发明可以达到以下技术效果：

本发明不仅适用于软件企业内部的集中式软件开发过程，也适用于开源模式的软件开发过程。本发明根据开源社区中的软件项目的特征，首先从互联网的开源社区中获取软件项目资源，然后根据资源特点进关联匹配，并基于该匹配结果计算项目相关性和相似性，实现相关软件推荐。此外，本方法首次将软件项目推荐机制引入开发环境，能够极大提高件项目的重用和开发效率。本方法能够从海量软件数据库中定位相关软件项目，并自动返回给开发者，从而有助于提高软件开发效率和资源重用效率。

附图说明

图1为本发明软件项目推荐方法的流程图；

图2为本发明的实施例涉及的网络节点交互示意图；

具体实施方式

下面结合实施例直观的说明本发明的效果。图1和图2分别是本实施例的流程图和网络节点交互示意图。本实施例包含本地软件目录服务器SDS、协同开发社区网站SF和知识分享社区网站SP。其中软件项目P是开发者D正在本地开发环境(如Eclipse)中实施开发的项目。本发明将从SF中找到与P最相关的前N个软件项目，并将其项目开发社区的主页列表反馈给开发者D，该执行过程包括以下步骤：

步骤101、建立一个开源软件数据服务器SDS(Software Data Server)。采用通用的Web爬虫技术从互联网的主要开源社区中采集开源软件资源信息数据，包括开源社区中的开源软件项目数据和评论文档数据。所述项目数据包括开源软件的项目名称、项目标签、项目主页，评论文档数据包括文档标题和文档标签。对所述的项目标签和文档标签进行预处理，所述预处理包括：将项目和文档标签转换为其词根后将相同的词根的标签合并，删除标签数小于3的项目。

利用词根提取技术对项目和帖子的标签进行预处理。例如通过分词、删除停用词。词根提取，将项目和帖子标签转换为单词包。如Mozilla Firefox在OpenHub上的标签描述信息“css web_browser development client web xhtml gtk html tabbled httpMozilla chrome javascript browser xul www html5”，分词后得到单词包{css、web_browser、development、client、web、xhtml、gtk、html、tabbled、http、Mozilla、chrome、javascript、browser、xul、www、html5}，词根提取，将一个词的不同形态转换为其词根，处理后得到{css、web_brows、develop、client、web、xhtml、gtk、html、tabbled、http、Mozilla、chrome、javasoript、brows、xul、www、html5}。

步骤102、获取用户本地开发项目p的特征，主要包括本地项目名称和本地项目标签，并提取SDS中已采集获得的项目名称、项目标签和文档标题、文档标签，对本地开发项目及SDS中采集的项目与评论文档进行关联匹配。关联匹配方法可以采用现有的方法，只要最终能达到将本地项目及采集的开源项目在一定的条件下进行匹配和关联即可。本申请中采用的匹配具体步骤包括：

步骤102.1、用项目名称与评论文档进行匹配，以所述项目名称为关键词查找评论文档，若所述评论文档具有与所述项目名称相同的标签，则为所述评论文档与项目建立关联，并赋予权值w₁。

以开源软件MySQL为例，匹配过程为：从SDS中查找包含标签“MySQL”(不区分大小写)的所有评论文档，如果评论文档D包含标签“MySQL”，则建立项目MySQL与评论文档D的关联，并将这次的关联赋予权值W₁(在实际的计算中，取W₁＝1)。

步骤102.2、用项目名称在评论文档标题中进行检索匹配，以项目名称为关键字搜索所有评论文档，若某个评论文档标题包含该关键字，则将该评论文档与项目建立关联，并赋予权值W₂，在实际的计算中，取W₂＝0.8。

步骤102.3、在所有已建立的关联中，对项目标签与评论文档标题进行匹配，统计评论文档标题中包含项目标签的个数x，利用x计算项目与评论文档关联权值W₃，计算公式为：W₃＝0.5*log₂(x²+1)，采用对数运算表明标签个数x与可信度的关系。

例如项目MySQL有标签“database”、“mysql”、“server”，某一个评论文档S标题为“How to transfer mysql data to cassandra database？”，则文档标题中包含项目标签数为2(“mysql”和“database”)，项目MySQL与评论文档D的关联权重为：W₃＝0.5*log 5。

步骤102.4、在所有已建立的关联中，对项目标签与评论文档的标签进行匹配，统计在两者共同出现的标签个数y，计算权值：W₄＝0.6*log₂(y²+1)。同样以项目MySQL和评论文档D为例，文档D有标签“database”、“cassandra”、“nosql”，项目MySQL和文档D的共同标签数y＝1(标签“database”)，计算出的匹配权重为W₄＝0.6*log₂ 2。

步骤102.5、计算最终匹配权重。步骤102.1到步骤102.4对开源软件和评论文档的4种不同数据进行了匹配，并为每一步的关联结果赋予了相应的权值，这4步匹配结束后，计算最终的权值，权重公式表示为：W＝W₁+W₂+(W₁+W₂)*(W₃+W₄)。选取合适的阀值决定开源软件是否与评论文档相关联。当关联的权值w大于阈值q时，认为该文档与开源项目是关联的。在实际的计算中，q值取1.3。关联结果以[软件项目，评论文档，权重]的形式存储在数据库中，完成关联，此处的软件项目包括本地开发项目及SDS中采集的项目。

计算SDS中每一个项目q与p的相似性。提取SDS中任意项目q(这里的提取操作仅简单的遍历)，计算项目q与项目p的相似性。例如用户本地项目p的标签单词包为{clinet、 http、web_brows、gecko、html、sugar、web、pyhton、gtk、css、javascript、xul}，项目q即为 Mozilla Firefox，项目p与项目q的相似性计算T_p∩T_q为{css、web_ brows、client、web、gtk、gtk、javascript、xul}；T_q∪T_p为{css、web_brows、client、web、 gtk、javascript、xul、develop、xhtml、tabbled、Mozilla、chrome、brows、www、html5、 gecko、sugar、Python}；项目p与项目q的相似值为

相关性呈现为软件之间的组合或依赖关系，例如Spring与Mybatis表现为组合关系；Nutch依赖Lucene的文本索引与搜索。

例如，在计算SDS中每一个项目q与p的相关性时，提取匹配结果(匹配结果以[开源软件，评论文档，权重]形式呈现)将匹配结果表示成向量模式，例如，经过匹配，包含项目p的匹配结果中有结果集{[项目p，评论文档D₁，W₁₁]、[项目p，评论文档D₂，W₁₂]、[项目p，评论文档D₄，W₁₄]、[项目p，评论文档D₆，W₁₆]}，包含项目q的结果集中有{[项目q，评论文档D₂，W₂₂]、[项目q，评论文档D₃，W₂₃]、[项目q，评论文档D₅，W₂₅]、[项目q，评论文档D₆，W₂₆]}，将匹配结果集转换为向量模式后，项目p可以表示成V_p＝(W₁₁，W₁₂，0，W₁₄，0，W₁₆)；项目q可以表示成V_q＝(0，W₂₂，W₂₃，0，W₂₅，W₂₆)，然后根据余弦相似性公式：计算项目p和项目q的相关性，则项目p与项目q的相关性：

步骤201：利用web爬虫技术(例如WebMagic)从协同开发社区(Openhub、GitHub等)中获取项目数据信息，同时获取用户本地开发项目数据信息。对项目数据进行预处理，并存入SDS中。

步骤202：利用web爬虫技术从知识分享社区(stackoverflow等)中获取评论文档数据信息。对评论文档数据进行预处理，并存入SDS。

步骤203：提取项目名称、项目标签和评论文档标题、文档标签，对项目和评论文档进行关联匹配，完成数据关联。

步骤204：从SDS中获取项目、评论文档、用户本地项目和关联匹配信息，经过推荐引擎为本地用户D生成推荐项目列表。

步骤205：将推荐结果反馈给用户。

以上实施例可以反映出本发明能够在互联网范围为软件开发人员提供与其开发的软件项目具有相似功能或技术特征的软件项目。由于开源社区通常能够提供来自多个开源社区的软件资源信息(如OpenHub收录了近66万个开源项目的主页，stackoverflow收录了710万评论文档资源信息)，因此多个开源目录站点能够一定程度上反映互联网范围的开源软件信息。同时，基于资源匹配及软件特征匹配能够较为精确的找到相关软件项目，可以有效避免关键字搜索过程出现的不准确和搜索结果冗余的情况。此外，由于本发明与开发者的软件开发环境集成，能够提高开发者对互联网范围内相关软件的检索效率，并从推荐的软件项目获得技术支持或者实现软件重用。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于群体评论的开源软件推荐方法，包括下列步骤：

步骤101、建立开源软件数据服务器SDS(Software Data Server)，采用通用Web爬虫技术从主要开源社区中采集开源软件资源信息数据，包括开源软件项目数据和评论文档数据，所述项目数据包括开源软件的项目名称、项目标签、项目主页，评论文档数据包括文档标题和文档标签；

步骤102、获取用户本地开发项目p的特征，主要包括本地项目名称和本地项目标签，并提取SDS中已采集获得的项目名称、项目标签和文档标题、文档标签，对本地开发项目及SDS中采集的项目与评论文档进行关联匹配；

其中步骤102中的关联匹配具体步骤包括：

步骤102.3、在所有已建立的关联中，对项目标签与评论文档标题进行匹配，统计评论文档标题中包含项目标签的个数x，利用x计算项目与评论文档关联权值W₃，计算公式为：W₃＝0.5*log₂(x²+1)，采用对数运算表明标签个数x与可信度的关系；

步骤102.5、计算最终关联权重，权重公式表示为：W＝W₁+W₂+(W₁+W₂)*(W₃+W₄)，选取合适的阀值决定软件项目是否与评论文档相关联，当权值w大于阈值q时，认为该文档与开源项目是关联的，关联结果以[软件项目，评论文档，权重]的形式存储在数据库中，软件项目包括本地开发项目及SDS中采集的项目；

步骤103、计算SDS中每一个项目q与本地开发项目p的标签文本相似性，标签文本表示为由项目标签组成的单词集合，提取项目p与项目q的项目标签，并将其表示为由自身标签组成的标签集合T_p和T_q，利用公式计算项目p与项目q的标签文本相似性；

步骤104、计算SDS中每一个项目q与项目p的相关性，根据步骤102中的关联匹配结果将项目p和q表示为向量v_p和v_q，向量的每一维表示与之相关联的评论文档，向量值表示匹配权重，根据余弦相似性公式：计算相关性；

步骤105、生成本地开发项目p的推荐列表，并将推荐指数值排在前N的项目的主页返回给用户，其中推荐指数值的计算是对项目相似性和相关性进行线性加权，公式表示为：Score(q→p)＝w₁×TDoc(p,q)+w₂×Coop(p,q),其中，Score表示为项目q对项目p的推荐指数值，w₁、w₂均取为0.5。

2.如权利要求1所述的方法，其中步骤101中对所述项目标签和文档标签进行预处理，所述预处理包括：将项目标签和文档标签转换为其词根后将相同的词根的标签合并，删除标签数小于3的项目。

3.如权利要求1所述的方法，步骤104中的根据步骤102中的关联匹配结果将项目p和q表示为向量v_p和v_q，向量v_p和v_q的值根据分别包含项目p和q匹配结果的结果集中的权重值确定，项目p可表示为v_p＝(W_p1,W_p2,..,W_pn)；项目q可以表示成v_q＝(W_q1,W_q2,..,W_qk)，W_pn及W_qk分别是结果集中的权重值，n和k均大于等于1。