CN102760149B

CN102760149B - 开源软件主题自动标注方法

Info

Publication number: CN102760149B
Application number: CN201210097159.0A
Authority: CN
Inventors: 王怀民; 尹刚; 王涛; 李翔; 朱沿旭; 史殿习; 丁博; 刘惠; 滕猛; 袁霖
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2015-02-25
Anticipated expiration: 2032-04-05
Also published as: CN102760149A

Abstract

一种开源软件主题自动标注方法，包括：获取开源项目数据，将项目标签转换为其词根后将相同词根的标签合并，将项目描述转换为单词包；以开源项目的名称、标签和项目描述作为输入，应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数，生成单词到标签指派；根据生成的单词到标签指派构建标签网络，计算点的语义距离和语义内聚度；根据构建的标签网络对新项目进行自动标注，输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li，在每个Li中挑选一个标签1i，使语义内聚度Cohesion(L)最大，将满足条件的标签自动标注到新项目中。

Description

开源软件主题自动标注方法

技术领域

本发明涉及一种开源软件主题自动标注方法，特别是通过构建开源项目标签网络模型来对未知软件自动添加标签的方法。

背景技术

开源软件(0SS)在软件工程领域扮演者越来越重要的角色。在众多开源社区中已有成千上万个开源软件项目，部分巨型社区如sourceforge.net和googlecode含有海量的开源项目。其中含有关于开源项目的多种数据，对帮助软件工程领域的研究有着重大作用。

随着开源项目数据的迅速累积，对项目工程师来说迅速找到所需开源项目的问题变得复杂。然而，针对项目概要的文本处理和标注技术能用于应对上述需求，这里的项目概要主要包括项目描述、项目层次化分类和社会化标签等信息。举例来说，现在每个开源项目都有一段文字描述其功能和技术特征；在sourceforge中有363个软件类别，而freshmeat社区中有6000多个软件标签。这些标签数据在一方面能体现功能或技术特性，从而非常有助于了解某个特定软件；在另一方面，这些标签有效地索引和组织了大量的软件，为方便的浏览和搜索提供了帮助。应该说标签从用户角度反应了开源软件的语义关联，因此有助于构建项目间的内在联系，对组织和理解海量的项目有重要意义。综上，通过挖掘项目文本概述来揭露和构建这种标签信息网络将会对海量项目的挖掘与分析带来很大帮助。

潜式狄利克雷分布(Latent Dirichlet Allocation，缩写为LDA)在文本处理和主题挖掘领域被作为统计模型广泛使用。在开源软件领域，LDA被用来发现源代码或漏洞报告的主题演化。S.Kawaguchi和K.Tian等人提出了使用基于LDA的源代码分析方法来对软件进行自动归类。S.W.Thomas和E.Linseed等人使用主题模型来对软件资源库的主题演化进行建模。然而，这些应用主要关注于挖掘某些特定项目，而不是针对海量的开源软件进行分析。

经过几年的发展，LDA模型有了一些变种，其中一种可用于文档标注的变种为带标注的LDA(Labeled LDA)通过将文档中的每个单词关联到合适的标签解决了多标签文档的主题归因问题。在传统LDA模型基础上，该方法将主题映射为已有的标签，以此来获得单词-标签关联关系。这个模型已被用于Yahoo！中多标签文本的分类问题，然而，开源项目的标签过于细化，且项目描述文本相对较短，导致Labeled LDA不适用。本发明将该方法进行了修改，提出一种开源软件标签网络模型。该模型能建立标签、软件和关键词之间的内在联系，从而利用该模型对未知开源软件进行自动标注。

发明内容

本发明提出一种开源软件主题的自动标注方法，其中使用了标签网络模型，该模型构建了标签、软件和关键词之间的内在关系，针对当前LDA模型及其变种的不足，改进并设计了一种LDA模型来建立标签网络，该网络能用于开源软件项目的进一步分析，如利用该网络对软件进行自动标注。本发明的具体技术方案包括以下步骤：

步骤1、爬取开源社区，获取开源项目数据，所述项目数据包括开源项目名称、标签和项目描述，对所述项目描述和项目标签进行预处理，所述预处理包括：将所述项目标签转换为其词根后将相同词根的标签合并，删除标签数小于预定数目的项目，将项目描述转换为单词包。

步骤2、以开源项目的名称、标签和项目描述作为输入，应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数，生成单词到标签指派，建立单词与标签之间的映射。

进一步的，步骤2包括下列步骤：

步骤2.1、将LDA模型中的主题个数T设置为输入数据中的标签个数，设置吉布斯抽样的循环次数N。

步骤2.2、初始化每个单词的所属标签，将项目描述中的每个单词的每次出现指派到该项目所具有的其中任意的两个标签。

步骤2.3、使用倒塌的吉布斯抽样(collapsed Gibbs sampling)对每个单词的每次出现的标签进行重新指派，并将该步骤迭代N次，以达到稳定状态。

进一步的，步骤2.3中的所述重新指派满足下列条件：每次迭代对每个单词z_i重新指派到某标签k，以使概率公式取最大值：

p (z_{i} = k | z_{- i}, \overset{&RightArrow;}{w}, \overset{&RightArrow;}{α}, \overset{&RightArrow;}{β}) = \frac{n_{t, - i}^{(k)} + β_{t}}{Σ_{t^{'} = 1}^{T} (n_{t^{'}}^{(k)} + β_{t^{'}})} * \frac{n_{k, - i}^{(m)} + α_{t}}{Σ_{k^{'} = 1}^{K} (n_{k^{'}, - i}^{(m)} + α_{k^{'}})}

指在其他单词出现赋予了标签的条件下，某单词t的一次出现z_i被赋予标签k的条件概率，等式右边第一项表征单词t被指派到标签k的概率，第二项表示z_i所在的文档m含有标签k的概率。

步骤2.4、通过在迭代次数大于N的多次结果中进行抽样，记录稳定状态下每个不同单词的标签指派，根据每个单词的每次出现所赋予的标签，获得某单词被赋予某标签的次数，亦即某标签对应到某单词的次数。

步骤3、根据生成的单词到标签指派构建标签网络，并计算其中节点的语义距离和语义内聚度。

进一步的，步骤3中所述语义距离的计算满足：对于标签网络节点中的两标签节点l_i和l_j，设图中所有边的集合为E，直接以l_i和l_j为两端点的边集合为E_ij(如果存在的话)，与l_i(l_j)直接相邻的节点集合为V_i(V_j)。则定义l_i和l_j之间的语义距离(semantic distance)Distance(l_i，l_j)为

Dis \tan ce (l_{i}, l_{j}) = \frac{Σ_{e &Element; E} w (e)}{Σ_{e &Element; E_{i, j}} w (e) + Σ_{v &Element; V_{i} \cap V_{j}} [w (e_{l_{i}, v}) + w (e_{l_{j}, v})]}

其中w(e)是边e的权值，分子是网络中所有边权值总和，这对某个具体的标签网络是固定的，分母中是指集合l_i和l_j之间所有边的权值，是与l_i和l_j皆直接相邻的节点集合到l_i和l_j的边权值之和，两标签l_i和l_j的关联越多，关联边的权值越大，则其语义距离越小。

进一步的，步骤3中所述语义内聚度的计算满足：对于多个标签节点组成的集合L＝{11，12，13，...1n}，L的语义内聚度Cohesion(L)定义为

Cohesion (L) = \frac{1}{Σ_{l &Element; L} Σ_{l^{'} &NotEqual; 1} Dis \tan ce (l, l^{'})},

即两两标签之间的语义距离越小，标签集合的内聚度就越高。

步骤4、根据构建的标签网络对新项目进行自动标注，输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li，在每个Li中挑选一个标签1i，使Cohesion(L)最大，其中L＝{11，12，13，...，1i，...，1n}，将满足条件的标签自动标注到新项目chrome中。

基于本发明的大量实际案例表明每个单词所属的标签往往不多(＜3)，因此搜索空间不大，本发明使用穷举式的搜索算法来搜索最值。最后，L中的这些标签便自动标注到新项目p中。

附图说明

图1示出了根据本发明的开源软件主题自动标注方法的流程图；

图2示出了根据本发明的实施例计算任意两个标签节点之间的语义距离时生成的标签网络。

具体实施方式

下面结合实施例对本发明的技术方案进行具体说明。

步骤1、爬取开源社区，获取开源项目数据，所述项目数据包括开源项目名称、标签和项目描述，对所述项目描述和项目标签进行预处理，所述预处理包括：将所述项目标签转换为其词根后将相同词根的标签合并，并删除标签数小于三的项目，通过分词、删除停词、词根提取将项目描述转换为单词包。

实施例中，利用爬虫技术和网页抽取技术从开源社区(如ohloh，sourceforge)中获取大量(＞100K)开源项目的名称、标签和项目描述。例如利用爬虫技术和网页抽取技术从ohloh社区中获取200k个使用者大于0的开源项目，包括其项目名称如firefox、用户添加的标签如{css，web_browser，development client，web，xhtml，gtk，html，tabbed，http，mozilla，browsing，chrome，javascript，browser，xul，www}和项目描述。

利用词根提取技术对项目描述和项目标签进行预处理。例如，通过分词、删除停词、词根提取，将项目描述转换为单词包(bags of words)。如对firefox在ohloh上的项目描述“The award-winning Web browser is nowfaster，more secure，and fully customizable to your on line life.Withmore than 15,000improvements，Firefox 3is faster，safer and smarterthan ever before.If you stack this project，you should also stackthe Mozilla Core”，分词(即将一段话分为一个一个的单词)后得到

{the，award，winning，web，browser，is，now，faster，more，secure，and，fully，customizable，to，your，online，life，with，more，than，15000，improvements，firefox，3，is，faster，safer，and，smarter，than，ever，before，if，you，stack，this，project，you，should，also，stack，the，mozilla，core}；删除停词，即将the，is，also等常见且不具备具体语义的停词删掉。当前业界有很多公认的停词库。删除停词后得到

{award，winning，web，browser，faster，secure，customizable，online，life，15000，improvements，firefox，3，faster，safer，smarter，stack，project，stack，mozilla，core}。

词根提取，即将一个词的不同形态转换为其词根。处理后得到

{award，win，web，brows，fast，secur，custom，obline，life，15000，improv，firefox，3，fast，safe，smart，stack，project，stack，mozilla，core}。通过词根提取对标签做预处理，即只保留标签的词根，并将拥有相同词根的标签进行合并，筛除标签数小于三的项目。如firefox的标签集合处理后为

{css，web_brows，develop client，web，xhtml，gtk，html，tabbed，http，mozilla，brows，chrome，javascript，xul，www}。

步骤2、获取单词-标签指派。

以大量(＞100K)开源项目的名称、标签和项目描述作为输入。应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数。具体分为以下几步：

步骤2.1、将LDA模型(该模型的建立可使用已有的建立方法，参照文献[1]D.M.Blei and J.Lafferty.2006.Correlated Topic Models.NIPS，18：147.)中的主题个数T设置为输入数据中的标签个数，设置吉布斯抽样的循环次数N(一般要大于1000)。实施例中，将LDA模型中的主题个数T设置为200K个，ohloh项目的所有标签个数1546，设置吉布斯抽样的循环次数N＝1000。

步骤2.2、初始化每个单词的所属标签，将项目描述中的每个单词的每次出现指派到该项目所具有的其中任意的两个标签，注意步骤1中提到，本发明的输入项目的标签数都大于2。传统的LDA算法中每个单词只指派一个标签。实施例中firefox描述文本中的单词mozilla可指派到firefox的任意两个标签，如{web，css}。

步骤2.3、使用倒塌的吉布斯抽样(collapsed Gibb ssampling)对每个单词的每次出现的标签进行重新指派。吉布斯抽样的数学原理及步骤都十分复杂，本发明在此只是对其直接应用，不再赘述其过程，相关原理及详细抽样过程可参照文献[2]T.L.Griffiths and M.Steyvers.2004.Finding scien-tific topics.PNAS，1：5228-35，以及[3]Saurabh S.Kataria，Krishnan S.Kumar and Rajeev Rastog i.Entity disambiguationwith hierarchical topic models.KDD’11，August 21-24，2011，San Diego，California，USA.。该步骤迭代N次，以达到稳定状态。

具体来说，每次迭代我们都对每个单词z_i重新指派到某标签k，以使概率公式取最大值：

p (z_{i} = k | z_{- i}, \overset{&RightArrow;}{w}, \overset{&RightArrow;}{α}, \overset{&RightArrow;}{β}) = \frac{n_{t, - i}^{(k)} + β_{t}}{Σ_{t^{'} = 1}^{T} (n_{t^{'}}^{(k)} + β_{t^{'}})} * \frac{n_{k, - i}^{(m)} + α_{t}}{Σ_{k^{'} = 1}^{K} (n_{k^{'}, - i}^{(m)} + α_{k^{'}})}

指在其他单词出现赋予了标签的条件下，某单词t的一次出现z_i被赋予标签k的条件概率，等式右边第一项表征单词t被指派到标签k的概率，第二项表示z_i所在的文档m含有标签k的概率。从第二项可看出，某单词出现的标签指派会受到所在文档中其他单词出现标签指派的影响，因此共同出现的单词确实会互相影响对方的标签指派，即有更大的概率被指派到同一标签，这是合理的，如单词“Pippen”和“Jordan”常在同一文本中共现，那么它们就会有更大的概率指派到同一标签(可能的标签是“NBA star”)。公式中各参数的意义参见论文[2]，[3]。

与传统LDA算法或带标签LDA算法不同，本发明该步骤中每个单词的可指派标签集合为单词所在项目描述文档的标签集合而非标签全集，且每个单词都指派到使概率公式最大的前两个不同标签，而不是一个标签。

实施例中，使用倒塌的吉布斯抽样(collapsed Gibbs sampling)对每个单词的每次出现的标签进行重新指派，每个单词的每次出现指派两个标签。该步骤迭代1000次，以达到稳定状态。本发明该步中firefox描述文档的每个单词可指派标签集合为firefox项目描述文档的标签集合。如firefox中出现的单词online可指派到标签{chrome，www}，如果项目subversion描述中也有online这个单词的出现，则该出现可指派到项目subversion中的标签，如{version_control，server}。该过程与步骤2.2中指派的区别在于，前者是初始化时的指派，后者是迭代过程中的指派，注意单词不等同于单词出现，单词online在firefox和subversion两个项目中都有出现，但所指派的标签集合却不一样。

步骤2.4、记录稳定状态下每个不同单词的标签指派。本发明中稳定状态的获取是通过在迭代次数大于N的多次结果中进行抽样(抽样间距可人为设定，本发明的实施例取间距为50)，而不是像传统方法只取最后一次迭代的指派情况。获取稳定状态后，根据每个单词的每次出现所赋予的标签，获得某单词被赋予某标签的次数，亦即某标签对应到某单词的次数。

实施例中，迭代次数大于1000后，以50为间距，抽样3词迭代情况，即第1050，1100，1150次迭代时，根据每个单词的每次出现所赋予的标签，进而获得某单词被赋予某标签的次数，亦即某标签对应到某单词的次数。如单词firefox的描述中的单词brows的某次出现在这几次迭代指派的标签集合为{mozilla，chrome}，{www，chrome}和{mozilla，web}，则最终单词brows的该次出现的指派标签集合为{mozilla，chrome，www，web}。通过brows单词的所有出现的指派标签集合，可得到brows被赋予各个标签的次数。

步骤3、根据步骤2生成的单词-标签指派构建标签网络，并定义其中节点的语义距离和语义内聚度。

步骤3.1、按下表算法1将所有的单词和标签建模为图中的节点，其中，标签由其对应的标签关键词表示。如果单词w有n＞0次被指派到标签1，则增加从w到1的有向边，边的权值为n。

例如，在实施例中，如单词brows有70次被指派到标签chrome，在图中增加从brows到chrome的有向边，边的权值为70。

步骤3.2、定义标签网络中任意两个标签节点之间的语义距离。对于标签网络节点中的两标签节点l_i和l_j，设图中所有边的集合为E，直接以l_i和l_j为两端点的边集合为E_i，j(如果存在的话)，与l_i(l_j)直接相邻的节点集合为V_i(V_j)。则定义l_i和l_j之间的语义距离(semantic distance)Distance(l_i，l_j)为

Dis \tan ce (l_{i}, l_{j}) = \frac{Σ_{e &Element; E} w (e)}{Σ_{e &Element; E_{i, j}} w (e) + Σ_{v &Element; V_{i} \cap V_{j}} [w (e_{l_{i}, v}) + w (e_{l_{j}, v})]}

其中w(e)是边e的权值，分子是网络中所有边权值总和，这对某个具体的标签网络是固定的。分母中是指集合l_i和l_j之间所有边的权值，是与l_i和l_j皆直接相邻的节点集合到l_i和l_j的边权值之和，因此分母越大，说明两标签l_i和l_j的关联越多，关联边的权值越大，就认为其语义距离越小，如果两标签之间没有任何直接联系，也无公共相邻点，则令分母为0.5(而不是0，防止出现距离为无穷大的情况)。

在实施例中，计算标签网络中任意两个标签节点之间的语义距离。设实施例得到的标签网络如图2，其中v2和v3为标签节点，且w12＝10，w13＝15，w26＝18，w36＝70，图中边的总权值为700，则

步骤3.3、定义标签网络中任意多个标签节点组成的集合的语义内聚度。对于多个标签节点组成的集合L＝{11，12，13，...1n}，L的语义内聚度Cohesion(L)定义为

Cohesion (L) = \frac{1}{Σ_{l &Element; L} Σ_{l^{'} &NotEqual; 1} Dis \tan ce (l, l^{'})},

步骤4、根据构建的标签网络对新的项目进行自动标注。具体来说，分为2步：

步骤4.1、输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li。

实施例中，输入项目chrome的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li。

步骤4.2、在每个Li中挑选一个标签1i，使Cohesion(L)最大，其中L＝{11，12，13，...，1i，...，1n}。根据语义内聚度的定义，如web与brows这样的标签，在图中有较大的内聚度，这样，挑选这样语义上内聚的标签比从各Li中挑选毫不相关的标签更能符合实际情况。

Chrome项目实施例中，在每个Li中挑选一个标签1i，使最大，其中L＝{11，12，13，...，li，...，1n}。实施例中通过搜索得到L＝{brows，web，http}。最后，L中的这些标签便自动标注到新项目chrome中。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种开源软件主题自动标注方法，包括下列步骤：

步骤1、爬取开源社区，获取开源项目数据，所述项目数据包括开源项目名称、标签和项目描述，对所述项目描述和项目标签进行预处理，所述预处理包括：将所述项目标签转换为其词根后将相同词根的标签合并，删除标签数小于预定数目的项目，将项目描述转换为单词包；

步骤2、以开源项目的名称、标签和项目描述作为输入，应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数，生成单词到标签指派，建立单词与标签之间的映射；

步骤3、根据生成的单词到标签指派构建标签网络，并计算其中节点的语义距离和语义内聚度；

步骤4、根据构建的标签网络对新项目进行自动标注，输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li，在每个Li中挑选一个标签li，使语义内聚度Cohesion(L)最大，其中L＝{l1,l2,l3,…,li,…,ln}，将满足条件的标签自动标注到新项目中；

其中步骤3中所述语义距离的计算满足：对于标签网络节点中的两标签节点l_i和l_j，设图中所有边的集合为E，直接以l_i和l_j为两端点的边集合为E_i，j，与l_i(l_j)直接相邻的节点集合为V_i(V_j)，则定义l_i和l_j之间的语义距离(semantic distance)Distance(l_i，l_j)为

Dis \tan ce (l_{i}, l_{j}) = \frac{Σ_{e &Element; E} w (e)}{Σ_{e &Element; E_{i, j}} w (e) + Σ_{v &Element; v_{i} \cap v_{j} [w (e_{l_{i}, v}) + w (e_{l_{j}, v})]}}

其中w(e)是边e的权值，分子是网络中所有边权值总和，这对某个具体的标签网络是固定的，分母中是指集合l_i和l_j之间所有边的权值，是与l_i和l_j皆直接相邻的节点集合到l_i和l_j的边权值之和，两标签l_i和l_j的关联越多，关联边的权值越大，则其语义距离越小；所述语义内聚度的计算满足：对于多个标签节点组成的集合L＝{l1,l2,l3,…ln}，L的语义内聚度Cohesion(L)定义为

Cohesion (L) = \frac{1}{Σ_{l &Element; L} Σ_{l^{'} &NotEqual; 1} Dis \tan ce (l, l^{'})},

2.如权利要求1所述的方法，其中步骤2进一步包括：

步骤2.1、将LDA模型中的主题个数T设置为输入数据中的标签个数，设置吉布斯抽样的循环次数N；

步骤2.2、初始化每个单词的所属标签，将项目描述中的每个单词的每次出现指派到该项目所具有的其中任意的两个标签；

步骤2.3、使用倒塌的吉布斯抽样对每个单词的每次出现的标签进行重新指派，并将该步骤迭代N次，以达到稳定状态；