CN105389327A - 一种大规模开源软件标签层次自动构建方法 - Google Patents

一种大规模开源软件标签层次自动构建方法 Download PDF

Info

Publication number
CN105389327A
CN105389327A CN201510617001.5A CN201510617001A CN105389327A CN 105389327 A CN105389327 A CN 105389327A CN 201510617001 A CN201510617001 A CN 201510617001A CN 105389327 A CN105389327 A CN 105389327A
Authority
CN
China
Prior art keywords
label
tag
preliminary
level
open source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510617001.5A
Other languages
English (en)
Other versions
CN105389327B (zh
Inventor
王怀民
王涛
尹刚
谷崇明
杨程
史殿习
刘惠
丁博
史佩昌
刘步权
湛云
侯翔
李翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201510617001.5A priority Critical patent/CN105389327B/zh
Priority claimed from CN201510617001.5A external-priority patent/CN105389327B/zh
Publication of CN105389327A publication Critical patent/CN105389327A/zh
Application granted granted Critical
Publication of CN105389327B publication Critical patent/CN105389327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种开源软件标签层次自动化构建方法,包括利用已有的抽取工具将项目标签信息抽取出来,抽取得到的项目标签任意两两之间匹配,形成若干个无向标签对,然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,并根据标签频次关系为标签对加上方向,形成<标签对,频次>边;将有向边相互连接起来就可以形成若干个连通图而得到初步构建的标签层次;获取站点已有分类层次,进行边的比较,对已有分类层次进行优化。具有对开源社区中大规模开源资源进行层次化组织,提高开源软件定位准确性和效率的效果。

Description

一种大规模开源软件标签层次自动构建方法
技术领域
本发明涉及一种标签层次自动化构建方法,尤其涉及针对由于互联网上存在大量的开源软件而带来的检索困难问题而提供的开源软件的标签层次自动化构建方法。
背景技术
近年来,随着开源运动的蓬勃发展,大量的开源软件源源不断地融入到各个开源社区(Github,Sourceforge,Openhub等)中,带来了丰富的可重用软件资源,但同时也为资源检索带来了挑战。为了更好地管理如此庞大数量的开源软件,一些社区引入了标签系统,鼓励用户对开源软件进行标注,其中一些社区更是使用了自由的标签系统,允许用户给软件打标签,有些项目可能达到数十个标签。这种标签机制一方面可能会导致标签质量的下降,但是也大大丰富了标签数据,能够从不同的角度对软件进行全面描述。
这些社区借助标签实现了对软件的分类,一定程度上缓解了大规模资源检索的问题。但是由于标签本身的局限性,形成的结构趋于扁平化,没有充分考虑标签之间的关联性,导致基于标签的资源定位效果不理想。如果能够将标签间关系纳入考虑,建立标签层次,将大大提高资源定位的准确性和效率。
目前,构建软件标签层次的方法主要分为两种:人工方法和自动化方法。人工方式(Sourceforge)一般是通过聘请领域专家,利用他们的领域知识,分析、研究、综合处软件标签的层次结构,但是这种方式需要消耗大量的人力、物力。自动化的方式通常利用开源软件的标签进行构建,一般的方法是首先需要度量两个标签标签间的关系;然后依据标签间的关系构建成软件分类层次。一般来说,度量标签间关系方式有两种:广义度和相似度。广义度表示的是在类别层次上,每个标签的通用程度,广义度值越大的标签表示它所代表的类别更宽泛,包含的内容越多,在层次中的位置也就越高。而相似度则说明了两个标签的相似程度。一般采用集合论或者是主题模型去度量标签的广义度或者相似度。就目前我们掌握的资料来看,已有的自动化构建方法只可见于实验条件下,但难以运用在真实场景中。
因此,如何高效地利用已有的标签信息以及已有的分类层次等领域知识,自动化地构建出软件标签的层次结构,从而提高软件检索效率,是本领域技术人员极为关注的重要问题。
发明内容
本发明的目的在于针对现有技术的不足,充分利用已有的分类层次,结合标签语义度量方法,提出一种自动化的软件标签层次构建方法,提高开源软件分类层次结构的质量以及软件检索效率。
本发明的技术方案包括以下步骤:
步骤101、利用通用的爬虫技术将各大开源社区的项目信息页面抓取下来,并利用已有的抽取工具将项目标签信息抽取出来,每一个项目页面可以形成一条字段为<项目名,标签集合>的记录,其中标签集合可以用<标签1><标签2>…<标签n>格式存储,其中n大于等于1,形成一系列项目标签记录,存储到本地数据库A中。
步骤102、对本地数据库A中的每一条记录做如下操作:标签集合中的项目标签任意两两之间匹配,形成若干个无向标签对,然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,形成<标签对,频次>关系;同时统计出所有标签的出现频次,作为标签广义度度量。
步骤103、将<标签对,频次>关系按频次进行降序排列,取前N(N大于等于1,其决定层次结构的大小)个关系中的标签对作为层次结构中的边,然后根据标签广义度为这些选中的边加上方向,由广义度大的标签指向广义度小的标签。
步骤104、形成的若干条有向边是若干个连通图的边表示法,将这些边相互连接起来就可以形成若干个连通图,这样连接形成的图都保留,据此,构建出初步的软件标签分类层次结构。之后的优化方法有可能将这若干个图连接起来。
步骤105、根据已有的标签分类层次对初步软件标签分类层次进行优化。
步骤106、定期对各大开源社区的项目信息检查更新信息,如果项目标签有更新,则将页面爬取、抽取,更新到本地数据库A中,执行步骤102及后续步骤,如果没有更新,则睡眠,等待下一次检查。
进一步地,其中步骤105根据已有的标签分类层次进行优化包括:
步骤105.1、利用通用爬虫将同一开源社区中的包含分类层次的页面爬取下来,对所述包含分类层次的页面进行爬取是以某一个包含顶层节点的页面开始,依次爬取包含下层节点结构的页面,然后利用通用抽取工具将其中的分类层次信息提取出来,格式化成起点->终点形式的有向边,存储到本地数据库B中。
步骤105.2、对已经初步构建出来的分类层次中的每一条有向边进行检查,如果此边对应的两个顶点在数据库B中出现过,并且两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向相同,那么,继续检查上述连接起来的路径上的其他点是否在初步分类层次中出现过,如果出现过,则将出现的所述其他点与所述两个顶点形成所有的路径都添加到初步的标签层次结构中;如果两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向不同,则将此边从初步的标签层次中删除。如果此边对应的两个顶点中的至少一个顶点在数据库B中没有出现,则不做任何处理并保留在当前初步标签层次中。
采用本发明可以达到以下技术效果:
该方法针对构建开源软件层次难度大,成本高等问题,根据软件的标签信息,挖掘出软件标签层次,并充分利用已有的分类层次对结果进行优化,进一步提升分类层次的质量,从而提高软件检索效率,并实现了分类层次的自动化更新,节约了大量的资源,能够满足用户对软件检索质量、效率的需求。
附图说明
图1为本发明自动化的构建软件标签层次流程图;
图2为构建的初步分类层次结构图;
图3为本发明中对初步的分类层次进行优化的流程图。
具体实施方式
如图1所示,为本发明自动化的构建软件标签层次流程图,具体执行以下步骤:
步骤101、利用爬虫(如开源爬虫Webmagic,也可以是通用的其他爬取技术)将各大开源社区的项目信息页面抓取下来,并利用已有的抽取工具(例如XPath)将项目标签信息抽取出来,每一个项目页面可以形成一条字段为<项目名,标签集合>的记录,其中标签集合可以用<标签1><标签2>…<标签n>格式存储,其中n大于等于1,形成一系列项目标签记录,存储到本地数据库A中。
步骤102、对本地数据库A中的每一条记录做如下操作:标签集合中的标签任意两两之间匹配,比如某个项目的标签集合为<tag1><tag2><tag3>,那么标签匹配形成的标签对为<tag1,tag2>、<tag1,tag3>、<tag2,tag3>,由此形成若干个标签对,标签对是无向的。然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,形成<标签对,频次>关系;同时统计出所有标签的出现频次,作为标签广义度度量。
步骤103、将<标签对,频次>关系按频次进行降序排列,取前N(N大于等于1,其决定层次结构的大小)个关系中的标签对作为层次结构中的边,然后根据标签广义度为这些选中的边加上方向,所述方向是由广义度大的标签指向广义度小的标签。
步骤104、上述形成的若干条有向边可以认为是若干个连通图的边表示法,将这些边相互连接起来就可以形成若干个连通图,例如图2所示,共有5条边A->B,A->C,B->C,B->D,E->F那么就可以构建出如图2所示的结构图。这样连接形成的图都保留,之后的优化方法有可能将这若干个图连接起来,据此,构建出初步的软件标签分类层次结构。
步骤105、根据已有的标签分类层次对初步软件标签分类层次进行优化,如图3所示。
利用爬虫将同一开源社区(例如Sourceforge)中的包含分类层次的页面爬取下来(一般是以某一个包含顶层节点的页面开始,依次爬取包含下层节点结构的页面)。然后利用通用抽取工具如XPath将其中的分类层次信息提取出来,这些分类信息原始格式存在在链接中,类似于http://sourceforge.net/directory/system-administration/distributed-computing/。SystemAdministration就是DistributedComputing的父节点,我们利用爬虫从顶层将页面中的类似链接迭代爬下来,然后将分类层次提取出来。
,格式化成起点->终点形式的有向边,例如Communications->Email的形式,存储到本地数据库B中。在抽取时就能确定上层节点和下层节点,将上册节点作为起点,下层节点作为终点,形成有向边。
步骤105.2、对已经初步构建出来的分类层次中的每一条有向边进行检查,如果此边对应的两个顶点在数据库B中出现过,并且两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向相同,那么,继续检查上述连接起来的路径上的其他点是否在初步分类层次中出现过,如果出现过,则将出现的所述其他点与所述两个顶点形成所有的路径都添加到初步的标签层次结构中。例如:假设此边为A->D,在数据库B中有A,D连个点,并且有A->B->C->D将A,D连接起来,其中B在初步的分类层次中出现过,而C没有,那么将A->B,B->D添加到初步的分类层次中。
如果两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向不同,则将此边从初步的标签层次中删除。如果此边对应的两个顶点中的至少一个顶点在数据库B中没有出现,则不做任何处理并保留在当前初步标签层次中。
步骤106、定期对各大开源社区的项目信息检查更新信息,如果项目标签有更新,则将页面爬取、抽取,更新到本地数据库A中,执行步骤102及后续步骤,如果没有更新,则睡眠,等待下一次检查。
该方法针对互联网上开源软件信息进行自动化的获取,简化了繁琐重复的手工获取过程,以自动化更新分类层次,并充分利用已有的分类层次优化结果。
如图3所示,本发明中对初步的分类层次进行优化的流程图,具体执行以下步骤:
步骤201、爬取包含分类层次的开源社区,获取分类层次,格式化成<起点,终点>的格式后存储到本地数据库B中;
步骤202、循环遍历本发明初步构建的分类层次中的每一条边;
步骤203、检查此边是否出现本地数据库B中,如果出现了,执行步骤204;否则,保留此边,然后进入下一次循环;
步骤204、检查此边的方向是否与本地数据库B中的方向一致,如果一致,则将路径上出现的且在本地数据库A中出现的标签对应的路径添加到初步的软件标签层次中,否则,将此边从初步的软件标签层次中删除;
步骤205循环完毕后,结束优化过程。
通过本发明方案的处理,可以根据开源软件的标签属性,自动构建标签层次,并利用该层次对开源社区中大规模开源资源进行层次化组织,从而提高开源软件定位准确性和效率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (2)

1.一种开源软件标签层次自动化构建方法,包括下列步骤:
步骤101、利用通用的爬虫技术抓取开源社区的项目信息页面,并利用已有的抽取工具将项目标签信息抽取出来,每一个项目页面可以形成一条字段为<项目名,标签集合>的记录,其中标签集合可以用<标签1><标签2>…<标签n>格式存储,其中n大于等于1,形成一系列项目标签记录,存储到本地数据库A中;
步骤102、对本地数据库A中的每一条记录做如下操作:标签集合中的项目标签任意两两之间匹配,形成若干个无向标签对,然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,形成<标签对,频次>关系。同时统计出所有标签的出现频次,作为标签广义度度量;
步骤103、将<标签对,频次>关系按频次进行降序排列,取前N(N大于等于1,其决定层次结构的大小)个关系中的标签对作为层次结构中的边,然后根据标签广义度为这些选中的边加上方向,由广义度大的标签指向广义度小的标签;
步骤104、形成的若干条有向边是若干个连通图的边表示法,将这些边相互连接起来就可以形成若干个连通图,这样连接形成的图都保留,据此,构建出初步的软件标签分类层次结构;
步骤105、根据已有的标签分类层次对初步软件标签分类层次进行优化。
步骤106、定期对各大开源社区的项目信息检查更新信息,如果项目标签有更新,则将页面爬取、抽取,更新到本地数据库A中,执行步骤102及后续步骤,如果没有更新,则睡眠,等待下一次检查。
2.如权利要求1所述的方法,其中步骤105进一步包括:
步骤105.1、利用通用爬虫将同一开源社区中的包含分类层次的页面爬取下来,对所述包含分类层次的页面进行爬取是以某一个包含顶层节点的页面开始,依次爬取包含下层节点结构的页面,然后利用通用抽取工具将其中的分类层次信息提取出来,格式化成起点->终点形式的有向边,存储到本地数据库B中;
步骤105.2、对已经初步构建出来的分类层次中的每一条有向边进行检查,如果此边对应的两个顶点在数据库B中出现过,并且两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向相同,那么,继续检查上述连接起来的路径上的其他点是否在初步分类层次中出现过,如果出现过,则将出现的所述其他点与所述两个顶点形成所有的路径都添加到初步的标签层次结构中;如果两个点由若干条边连接起来路径的方向与初步的分类层次中的路径方向不同,则将此边从初步的标签层次中删除;如果此边对应的两个顶点中的至少一个顶点在数据库B中没有出现,则不做任何处理并保留在当前初步标签层次中。
CN201510617001.5A 2015-09-21 一种大规模开源软件标签层次自动构建方法 Active CN105389327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510617001.5A CN105389327B (zh) 2015-09-21 一种大规模开源软件标签层次自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510617001.5A CN105389327B (zh) 2015-09-21 一种大规模开源软件标签层次自动构建方法

Publications (2)

Publication Number Publication Date
CN105389327A true CN105389327A (zh) 2016-03-09
CN105389327B CN105389327B (zh) 2019-07-16

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840079A (zh) * 2019-01-02 2019-06-04 郑州云海信息技术有限公司 一种智能开源云开发平台及方法
CN113127022A (zh) * 2019-12-31 2021-07-16 深圳Tcl新技术有限公司 一种代码的自动更新方法及装置、计算机设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799814A (zh) * 2009-12-31 2010-08-11 茂名学院 自由分类标签类聚成网状分类结构的方法
CN102760149A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 开源软件主题自动标注方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
US20150058348A1 (en) * 2013-08-26 2015-02-26 International Business Machines Corporation Association of visual labels and event context in image data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799814A (zh) * 2009-12-31 2010-08-11 茂名学院 自由分类标签类聚成网状分类结构的方法
CN102760149A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 开源软件主题自动标注方法
US20150058348A1 (en) * 2013-08-26 2015-02-26 International Business Machines Corporation Association of visual labels and event context in image data
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840079A (zh) * 2019-01-02 2019-06-04 郑州云海信息技术有限公司 一种智能开源云开发平台及方法
CN109840079B (zh) * 2019-01-02 2022-02-18 郑州云海信息技术有限公司 一种智能开源云开发平台及方法
CN113127022A (zh) * 2019-12-31 2021-07-16 深圳Tcl新技术有限公司 一种代码的自动更新方法及装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN110019396B (zh) 一种基于分布式多维分析的数据分析系统及方法
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN112580831B (zh) 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN104915447A (zh) 一种热点话题追踪及关键词确定方法及装置
CN102982076A (zh) 基于语义标签库的多维度内容标注方法
CN107451149A (zh) 流量数据查询任务的监控方法及其装置
CN104346328A (zh) 基于网页数据抓取的垂直智能爬虫数据收集方法
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN107194533B (zh) 一种配电网全信息模型构建方法及系统
CN102521374A (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN111967675A (zh) 光伏发电量的预测方法以及预测装置
CN111522950A (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
CN108228787A (zh) 按照多级类目处理信息的方法和装置
CN102591931B (zh) 基于树权值的网页数据记录识别和抽取方法
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN113722564A (zh) 基于空间图卷积能源物资供应链的可视化方法及装置
CN109636303A (zh) 一种半自动提取和结构化文档信息的存储方法及系统
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN103761312B (zh) 一种多记录网页的信息抽取系统及方法
Lv et al. Rumor detection based on time graph attention network
CN105389327A (zh) 一种大规模开源软件标签层次自动构建方法
CN109783716A (zh) 一种电力供需数据自动提取和处理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant