CN107341169B

CN107341169B - 一种基于信息检索的大规模软件信息站标签推荐方法

Info

Publication number: CN107341169B
Application number: CN201710086114.6A
Authority: CN
Inventors: 周平义; 茅志仁; 刘进; 崔晓辉; 施泽洋; 彭新宇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2020-02-11
Anticipated expiration: 2037-02-17
Also published as: CN107341169A

Abstract

本发明涉及一种基于信息检索的大规模软件信息站标签推荐方法，包括，步骤1：预处理生成软件对象集合；步骤2：为集合中对象创建索引。步骤3：计算相似得分，取得分高的软件对象构成候选集合；步骤4：计算标签得分，取得分高的推荐给开发者。本发明具有如下优点：1.本方法对规模不断增大的软件信息站自动推荐标签并缓和标签急剧增长的问题；2.本方法提出一个基于标签多分类算法，可以处理上百万的软件对象；3.本方法推荐更加准确；4.本发明创建的TagMulRec相比已经存在的EnTagRec等标签推荐方法具有更好的可扩展性和稳定性，速度上提了三个量级。

Description

一种基于信息检索的大规模软件信息站标签推荐方法

技术领域

本发明属于软件工程技术领域，适用于规模不断增大的大规模软件信息站，实现自动推荐标签，是可扩展的多标签推荐方法；具体涉及一种基于信息检索的大规模软件信息站标签推荐方法。

背景技术

软件信息站为软件开发者查询解决方案，分享经验，提供帮助以及学习新的技术提供了不可或缺的平台。软件信息站包括在线开发者问答社区，例如StackOverflow，AskUbuntu，AskDifferent以及一些开源软件社区，例如Freecode，GitHub等。随着软件信息站的发展，软件对象的数目显著增长，导致软件开发者不知道如何定位一个特别的软件对象。为了解决这个问题，有一个典型的实践方法，那就是开发者在发布一个软件时对软件贴上一些标签，而且是社会媒体中常见的标签。由于标签通常由几个单词或者仅仅是单词缩写组成，他们提供了软件信息站上搜索，描述，识别，标签，分类以及组织软件对象的元数据。大多数软件信息站为了提高网站上不同操作的效率和准确性，依靠标签来对网站内容进行分类。从而标签的质量对于这些网站就显得尤为重要。高质量的标签通常是简约的并且可以直接描述软件对象最重要最显著的特性。

然而定标签本身就是很不和谐的一个过程。每一个软件开发者作为一个独立的个体，他们对于软件对象的认知和理解是不一样的，并且他们的英语水平以及语言习惯存在差异，这就导致软件对象的标签快速增长以至出现大量冗余。例如，在StackOverflow上，如下标签SCC，source-code-contrl，SCCS以及几个其他的单词都是用来描述版本控制的。此外，软件对象可以被多个不同的标签来标记。比如，StackOverflow建议一个对象三至五个标签而Freecode可以允许每个对象多于是个标签。随着软件对象的增多，标签的数目急剧增长。截至今日，StackOverflow已经有超过两千万的问题和四万六千多个标签。有如此多的的标签，其中甚至存在很多噪声，导致软件对象的分类效果很差。这种现象直接影响了软件开发者的查询体验。

标签推荐已经成为社交网络和数据挖掘领域的一个热门研究。2010年软件工程领域的自动标签推荐第一次被AI-Kofahi等人提出来。AI-Kofahi提出了TAGREC方法为IBMJazz的工作项目自动推荐标签。TAGREC基于模糊集理论并且考虑了系统的动态发展。后来一个叫TAGCOMBINE的方法被提出。TAGCOMBINE可以为软件信息站的软件对象自动推荐标签，包含了多标签排名组件，基于相似性的排名组件以及标签项排名组件。TAGCOMBINE采用的多标签排名方法导致他的应用只能限制在相当小的数据集。对于大规模的软件信息站如StackOverflow@large，需要训练超过四万二分类模型并且每个训练集的估摸超过千万。最近的一个叫EnTagRec的方法在精确率和召回率要优于TAGCOMBINE，EnTagRec包括贝叶斯推理组件和频率推理组件。因为EnTagRec是利用软件信息站的所有信息来对软件对象进行推荐，所以它的可扩展性也不好。

在软件工程领域，标签已经被广泛应用。为了努力弄明白在软件开发运用社交媒体对于团队、项目以及社区有什么好处，风险以及限制，Storey等人提出一系列相关的研究问题。Begel等人社交媒体对于改善开发团队的交流协调以及创建新类型的软件开发社区的潜在好处。Treude等人探究如何定标签可以在科技和社会方面组织工作项目之间构建一座桥。他们指导关于如何定标签可以被采用并且在未来几年更大的项目中可以被采用的实证研究。他们的研究结果显示标签机制在许多非正式的流程中成为了非常重要的一部分。Thung等人发现相似的软件应用使用相似的标签。Wang等人分析FREECODE项目标签来推理标签的语义关系，即分类学。

发明内容

为了解决上述的技术问题，本发明提供了一种基于信息检索的大规模软件信息站标签推荐方法。

本发明所采用的技术方案是：

步骤1：对软件信息站的软件对象数据进行预处理，移除不带标签的和标签频率低于预设定阈值的软件对象，最后移除这些软件对象描述中的停词，从而得到所有带标签和描述的软件对象集合；包括以下子步骤：

步骤1.1：基于已经存在的标签，对软件信息站的软件对象，去除其中的不带标签项；

步骤1.2：对于出现频率小于临界值threshold的标签，考虑其原因可能是拼写错误或者某一个特殊的领域。显然拼写错误的标签不得推荐给用户，而对于特殊领域的软件对象，由开发者自行创建标签。

步骤2：为步骤1中的软件对象创建索引，保存对象描述中的词，称为词典，每个词都指向包含该词的文档链表，此文档链表称为倒排表；也就是对步骤1中集合内的软件对象创建索引，利用软件对象描述中的词创建词典，并且对于每个词，创建一个链表，链表的每一个节点存放描述中包含该词的软件对象的索引以及该词在节点对象中频数。

步骤3：根据公式计算出给定的软件对象和步骤1集合中软件对象的相似得分，并取其中相似度最高的若干个软件对象构成候选集合；通过公式

计算该对象与步骤1集合中的软件对象的相似得分。

将软件对象o的描述看作一个查询项，计算出得分，它的值取决于软件对象o描述中的词同时也在软件对象o_i描述中出现的频率。计算的公式如下

φo.d项对查询项标准化，公式为φo.d＝1/ψ(o.d)2*w∈o.d(#Sw*ψ(w))2，对于上面两个公式中ψ(w)项表示w的权重，ψ(o.d)表示软件对象o的描述o.d的权重。权重能够自行设置，将某个词的权重设置成较大值表示该词比其他词更加重要。#o_i.d.w项表示w在o_i软件对象的描述o_i.d中出现的频率。#S_w表示软件对象描述中包含词w的对象数目，也就是步骤2创建的词典中w词指向的链表的长度。ρ(o_i.d)项是δ(o，o_i)的一个标准化参数，计算公式

其中ψ(o_i.d)表示软件对象描述的权值，|o_i.d|表示描述的规模。

步骤4：对步骤3得出的候选集合中软件对象的相似得分进行标准化，根据软件对象标准化的相似得分以及对象标签频率计算标签的得分，按照标签得分排序得到标签推荐列表，将得分最好的若干个推荐给开发者，具体是：

计算候选集中软件对象的标签的得分。首先对步骤3中得出的相似得分进行标准化，通过公式δ^norm(o，o_i)＝(δ(o，o_i)-C_min)/(C_max-C_min)将结果归一化为[0，1]之间的值。用集合T_i表示

中对象o_i的标签，则候选集合中所有软件对象的标签合集用集合表示。对于每一个标签

利用以下公式计算标签t_i的得分，其中#o_i.t_j表示o_i中t_j出现的频率。将

中所有的标签按照得分高低将标签构成一个排好序的列表TL，将TL中得分最高的K个标签构成的TL^topK链表推荐给用户。

本发明具有如下优点：1.本方法对规模不断增大的基于软件对象语义的软件信息站进行自动推荐标签，通过移除不相关的标签以及减少多个不同标签指向同一内容的标签来缓和标签急剧增长的问题；2.本方法提出了一个有效的基于标签多分类算法，可以处理上百万的软件对象；3.本方法通过StackOverflow，AskUbuntu，AskDifferent以及Freecode软件信息站进行了评估，结果显示本方法相比于已经存在的方法具有推荐准确，并且具有更好的可扩展性等优势；4.本发明创建的标签推荐方法TagMulRec与已经存在的EnTagRec等标签推荐方法相比，具有更好的可扩展性，能够有效并且高效的应用于大规模软件信息站，速度上更是提高了三个量级，并且更加稳定。

附图说明

图1是本发明总体方法步骤示意图。

图2是本发明创建索引具体结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的说明。

本发明提出的一种基于信息检索的大规模软件信息站标签推荐方法，根据软件对象自动推荐标签。标签推荐的方法目前在开源软件社区和在线开发者问答社区等软件信息站都有应用，可以根据软件对象来推荐标签。利用标签推荐方法，可以提高网站运行效率和分类的准确性，从而获得更好的用户体验。本发明提出了TagMulRec工具来给开发者推荐标签，对规模不断增大的软件信息站进行软件对象分类。TagMulRec适用于动态的变化。除此以外，随着每天都有大量的软件对象加入到软件信息站，开发者可以通过修改或者删除标签来修改已经发布的内容。通过为软件对象描述创建索引，TagMulRec可以高效的推荐软件标签。基于这些索引，可以计算软件对象的相似度，从而建立候选集合。TagMulRec利用多分类算法对候选集合中软件对象的标签进行排名，将排名得分最高的几个标签推荐给开发者。本发明利用已经存在的标签，创建索引，计算相似度，计算标签的得分，从而对信息对象进行多标签的推荐。

请见图1，为本发明总体方法步骤示意图，主要包括预处理，创建索引，计算相似得分以及标签推荐这四个步骤。

请见图2，为本发明的预处理以及创建索引具体结构示意图，整个图可以分为两个部分：软件信息站数据预处理图和创建索引图。

步骤1：软件信息站数据预处理图根据一定的规则对数据进行预处理，包括了三次筛选工作。首先对不带标签的数据进行删除，主要由于本发明是利用已有的标签信息来进行推荐的，则不带标签的数据没有意义。然后将标签频率低于设定阈值的带标签软件对象进行删除，主要有以下两种原因。原因之一，有的标签频率之所以低，可能是因为拼写错误，则对于此情形，应当删除。原因之二，一部分标签可能代表某一特定的不常见的领域。由于是特殊领域的不常见的标签，则该标签是否会被用户广泛接受尚不可知。对于此情形，最好的方式是由开发者来自行创建标签。总之，都可以归结到一种情形，就是频率低于预设阈值的，将该标签的软件对象删除。最后将筛选出的软件对象的描述中的停词删除，因为停词对于标签推荐没有太大的意义。经过上面几个步骤，完成了预处理工作。

步骤2：创建索引图包含软件对象描述中的词和该词包含于哪些文档设计的。对于步骤1中的，创建一个词典，包括软件对象描述中的所有词，对于词典中的每个词，创建一个链表，链表的每个节点是包含该词的软件对象的索引以及该词在节点软件对象中的频数。对于不断发展的软件信息站，这个词典是可扩展的。

步骤3：计算相似得分，选出候选软件对象集合。给定一个新的软件对象，可以通过公式

计算该对象与步骤1集合中的软件对象的相似得分。

将软件对象o的描述看作一个查询项，计算出得分，它的值取决于软件对象o描述中的词同时也在软件对象o_i描述中出现的频率。计算

的公式如下

φ(o.d)项是对查询项的标准化，计算公式为对于上面两个公式中ψ(w)项表示w的权重，ψ(o.d)表示软件对象o的描述o.d的权重。权重也可以自己设置，

将某个词的权重设置成较大值表示该词比其他词更加重要。#o_i.d.w项表示w在o_i软件对象的描述o_i.d中出现的频率。#S_w表示软件对象描述中包含词w的对象数目，也就是步骤2创建的词典中w词指向的链表的长度。ρ(o_i.d)项是δ(o，o_i)的一个标准化参数，计算公式

其中ψ(o_i.d)表示软件对象描述的权值，|o_i·d|表示描述的规模。通过上面公式可以计算软件对象的相似得分。简言之，计算相似得分主要通过对象的描述中的词，描述中的每个词都有权重。这个权重由以下两个因素确定。因素一，该词在对象描述中出现的频率，频率越大说明对于该对象越重要。因素二，该词在别的对象中可能也会出现，则在多少个对象中出现过，即描述中包含该词的软件对象的总数目，总数越多，说明别的软件对象都有该词，说明该词对于本对象越不重要。通过这两个因素确定每个词在该对象中的权重。然后将新的软件对象与步骤1集合中的软件对象看做一些词的权重组成的向量，求两个向量的相似性即求两个向量的夹角，夹角越小即越相似。求夹角需对向量内积进行归一化。还需要考虑以下的项。

项，对于两个软件对象包含的相同的描述词中，如果这些词频率越高，则对于这些词需要处理。boost项，对于软件对象的描述中，不同的域的权重是不一样的，譬如标题中的词和内容中相同的词，显然标题中的权重要大一些。加上这些项的考虑，从而计算出软件对象的相似得分。而对于用户输入关键词查询时，将输入的词看做一个软件对象的描述，从而计算与步骤1集合中软件对象的相似得分。然后选取得分最高的k个软件对象，构成候选对象集合

此处k表示集合中元素的个数，该值可调整。

步骤4：计算候选集中软件对象的标签的得分。首先对步骤3中得出的相似得分进行标准化，通过公式δ^norm(o，o_i)＝(δ(o，o_i)-C_min)/(C_max-C_min)将结果归一化为[0，1]之间的值。用集合T_i表示

中对象o_i的标签，则候选集合中所有软件对象的标签合集用集合

表示。对于每一个标签

利用以下公式计算标签t_i的得分，

其中#o_i.t_j表示o_i中t_j出现的频率。将

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于信息检索的大规模软件信息站标签推荐方法，其特征在于，包括以下步骤：

步骤1.2：对于出现频率小于临界值threshold的标签，是拼写错误或者某一个特殊的领域导致，对于拼写错误的标签不得推荐给用户，而对于特殊领域的软件对象，由开发者自行创建标签；

步骤2：为步骤1中的软件对象创建索引，保存对象描述中的词，称为词典，每个词都指向包含该词的文档链表，此文档链表称为倒排表；也就是对步骤1中集合内的软件对象创建索引，利用软件对象描述中的词创建词典，并且对于每个词，创建一个链表，链表的每一个节点存放描述中包含该词的软件对象的索引以及该词在节点对象中频数；

步骤3：根据公式计算出给定的软件对象和步骤1集合中软件对象的相似得分，并取其中相似度最高的若干个软件对象构成候选集合，具体是通过公式

计算软件对象与步骤1集合中的软件对象的相似得分；将软件对象o的描述看作一个查询项，计算出得分，该得分取决于软件对象o描述中的词同时也在软件对象o_i描述中出现的频率，计算的公式如下：

其中，φ(o.d)项对查询项标准化，公式为

对于公式中ψ(w)项表示w的权重，ψ(o.d)表示软件对象o的描述o.d的权重；权重能够自行设置，将某个词的权重设置成最大值表示该词比其他词更加重要；#o_i.d.w项表示w在o_i软件对象的描述o_i.d中出现的频率；#S_w表示软件对象描述中包含词w的对象数目，也就是步骤2创建的词典中w词指向的链表的长度；ρ(o_i.d)项是δ(o，o_i)的一个标准化参数，计算公式

其中ψ(o_i.d)表示软件对象描述的权值，|o_i.d|表示描述的规模；

计算候选集中软件对象的标签的得分：首先对步骤3中得出的相似得分进行标准化，通过公式δ^norm(o，o_i)＝(δ(o，o_i)-C_min)/(C_max-C_min)将结果归一化为[0，1]之间的值；用集合T_i表示

表示；对于每一个标签利用以下公式计算标签t_i的得分，

其中#o_i.t_j表示o_i中t_j出现的频率；将