CN107341169B - 一种基于信息检索的大规模软件信息站标签推荐方法 - Google Patents

一种基于信息检索的大规模软件信息站标签推荐方法 Download PDF

Info

Publication number
CN107341169B
CN107341169B CN201710086114.6A CN201710086114A CN107341169B CN 107341169 B CN107341169 B CN 107341169B CN 201710086114 A CN201710086114 A CN 201710086114A CN 107341169 B CN107341169 B CN 107341169B
Authority
CN
China
Prior art keywords
software
label
objects
description
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710086114.6A
Other languages
English (en)
Other versions
CN107341169A (zh
Inventor
周平义
茅志仁
刘进
崔晓辉
施泽洋
彭新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710086114.6A priority Critical patent/CN107341169B/zh
Publication of CN107341169A publication Critical patent/CN107341169A/zh
Application granted granted Critical
Publication of CN107341169B publication Critical patent/CN107341169B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种基于信息检索的大规模软件信息站标签推荐方法,包括,步骤1:预处理生成软件对象集合;步骤2:为集合中对象创建索引。步骤3:计算相似得分,取得分高的软件对象构成候选集合;步骤4:计算标签得分,取得分高的推荐给开发者。本发明具有如下优点:1.本方法对规模不断增大的软件信息站自动推荐标签并缓和标签急剧增长的问题;2.本方法提出一个基于标签多分类算法,可以处理上百万的软件对象;3.本方法推荐更加准确;4.本发明创建的TagMulRec相比已经存在的EnTagRec等标签推荐方法具有更好的可扩展性和稳定性,速度上提了三个量级。

Description

一种基于信息检索的大规模软件信息站标签推荐方法
技术领域
本发明属于软件工程技术领域,适用于规模不断增大的大规模软件信息站,实现自动推荐标签,是可扩展的多标签推荐方法;具体涉及一种基于信息检索的大规模软件信息站标签推荐方法。
背景技术
软件信息站为软件开发者查询解决方案,分享经验,提供帮助以及学习新的技术提供了不可或缺的平台。软件信息站包括在线开发者问答社区,例如StackOverflow,AskUbuntu,AskDifferent以及一些开源软件社区,例如Freecode,GitHub等。随着软件信息站的发展,软件对象的数目显著增长,导致软件开发者不知道如何定位一个特别的软件对象。为了解决这个问题,有一个典型的实践方法,那就是开发者在发布一个软件时对软件贴上一些标签,而且是社会媒体中常见的标签。由于标签通常由几个单词或者仅仅是单词缩写组成,他们提供了软件信息站上搜索,描述,识别,标签,分类以及组织软件对象的元数据。大多数软件信息站为了提高网站上不同操作的效率和准确性,依靠标签来对网站内容进行分类。从而标签的质量对于这些网站就显得尤为重要。高质量的标签通常是简约的并且可以直接描述软件对象最重要最显著的特性。
然而定标签本身就是很不和谐的一个过程。每一个软件开发者作为一个独立的个体,他们对于软件对象的认知和理解是不一样的,并且他们的英语水平以及语言习惯存在差异,这就导致软件对象的标签快速增长以至出现大量冗余。例如,在StackOverflow上,如下标签SCC,source-code-contrl,SCCS以及几个其他的单词都是用来描述版本控制的。此外,软件对象可以被多个不同的标签来标记。比如,StackOverflow建议一个对象三至五个标签而Freecode可以允许每个对象多于是个标签。随着软件对象的增多,标签的数目急剧增长。截至今日,StackOverflow已经有超过两千万的问题和四万六千多个标签。有如此多的的标签,其中甚至存在很多噪声,导致软件对象的分类效果很差。这种现象直接影响了软件开发者的查询体验。
标签推荐已经成为社交网络和数据挖掘领域的一个热门研究。2010年软件工程领域的自动标签推荐第一次被AI-Kofahi等人提出来。AI-Kofahi提出了TAGREC方法为IBMJazz的工作项目自动推荐标签。TAGREC基于模糊集理论并且考虑了系统的动态发展。后来一个叫TAGCOMBINE的方法被提出。TAGCOMBINE可以为软件信息站的软件对象自动推荐标签,包含了多标签排名组件,基于相似性的排名组件以及标签项排名组件。TAGCOMBINE采用的多标签排名方法导致他的应用只能限制在相当小的数据集。对于大规模的软件信息站如StackOverflow@large,需要训练超过四万二分类模型并且每个训练集的估摸超过千万。最近的一个叫EnTagRec的方法在精确率和召回率要优于TAGCOMBINE,EnTagRec包括贝叶斯推理组件和频率推理组件。因为EnTagRec是利用软件信息站的所有信息来对软件对象进行推荐,所以它的可扩展性也不好。
在软件工程领域,标签已经被广泛应用。为了努力弄明白在软件开发运用社交媒体对于团队、项目以及社区有什么好处,风险以及限制,Storey等人提出一系列相关的研究问题。Begel等人社交媒体对于改善开发团队的交流协调以及创建新类型的软件开发社区的潜在好处。Treude等人探究如何定标签可以在科技和社会方面组织工作项目之间构建一座桥。他们指导关于如何定标签可以被采用并且在未来几年更大的项目中可以被采用的实证研究。他们的研究结果显示标签机制在许多非正式的流程中成为了非常重要的一部分。Thung等人发现相似的软件应用使用相似的标签。Wang等人分析FREECODE项目标签来推理标签的语义关系,即分类学。
发明内容
为了解决上述的技术问题,本发明提供了一种基于信息检索的大规模软件信息站标签推荐方法。
本发明所采用的技术方案是:
步骤1:对软件信息站的软件对象数据进行预处理,移除不带标签的和标签频率低于预设定阈值的软件对象,最后移除这些软件对象描述中的停词,从而得到所有带标签和描述的软件对象集合;包括以下子步骤:
步骤1.1:基于已经存在的标签,对软件信息站的软件对象,去除其中的不带标签项;
步骤1.2:对于出现频率小于临界值threshold的标签,考虑其原因可能是拼写错误或者某一个特殊的领域。显然拼写错误的标签不得推荐给用户,而对于特殊领域的软件对象,由开发者自行创建标签。
步骤2:为步骤1中的软件对象创建索引,保存对象描述中的词,称为词典,每个词都指向包含该词的文档链表,此文档链表称为倒排表;也就是对步骤1中集合内的软件对象创建索引,利用软件对象描述中的词创建词典,并且对于每个词,创建一个链表,链表的每一个节点存放描述中包含该词的软件对象的索引以及该词在节点对象中频数。
步骤3:根据公式计算出给定的软件对象和步骤1集合中软件对象的相似得分,并取其中相似度最高的若干个软件对象构成候选集合;通过公式
Figure BDA0001227451330000041
计算该对象与步骤1集合中的软件对象的相似得分。
Figure BDA0001227451330000042
将软件对象o的描述看作一个查询项,计算出得分,它的值取决于软件对象o描述中的词同时也在软件对象oi描述中出现的频率。计算的公式如下
Figure BDA0001227451330000044
Figure BDA0001227451330000045
φo.d项对查询项标准化,公式为φo.d=1/ψ(o.d)2*w∈o.d(#Sw*ψ(w))2,对于上面两个公式中ψ(w)项表示w的权重,ψ(o.d)表示软件对象o的描述o.d的权重。权重能够自行设置,将某个词的权重设置成较大值表示该词比其他词更加重要。#oi.d.w项表示w在oi软件对象的描述oi.d中出现的频率。#Sw表示软件对象描述中包含词w的对象数目,也就是步骤2创建的词典中w词指向的链表的长度。ρ(oi.d)项是δ(o,oi)的一个标准化参数,计算公式
Figure BDA0001227451330000046
Figure BDA0001227451330000047
其中ψ(oi.d)表示软件对象描述的权值,|oi.d|表示描述的规模。
步骤4:对步骤3得出的候选集合中软件对象的相似得分进行标准化,根据软件对象标准化的相似得分以及对象标签频率计算标签的得分,按照标签得分排序得到标签推荐列表,将得分最好的若干个推荐给开发者,具体是:
计算候选集中软件对象的标签的得分。首先对步骤3中得出的相似得分进行标准化,通过公式δnorm(o,oi)=(δ(o,oi)-Cmin)/(Cmax-Cmin)将结果归一化为[0,1]之间的值。用集合Ti表示
Figure BDA0001227451330000048
中对象oi的标签,则候选集合中所有软件对象的标签合集用集合表示。对于每一个标签
Figure BDA0001227451330000052
利用以下公式计算标签ti的得分,其中#oi.tj表示oi中tj出现的频率。将
Figure BDA0001227451330000054
中所有的标签按照得分高低将标签构成一个排好序的列表TL,将TL中得分最高的K个标签构成的TLtopK链表推荐给用户。
本发明具有如下优点:1.本方法对规模不断增大的基于软件对象语义的软件信息站进行自动推荐标签,通过移除不相关的标签以及减少多个不同标签指向同一内容的标签来缓和标签急剧增长的问题;2.本方法提出了一个有效的基于标签多分类算法,可以处理上百万的软件对象;3.本方法通过StackOverflow,AskUbuntu,AskDifferent以及Freecode软件信息站进行了评估,结果显示本方法相比于已经存在的方法具有推荐准确,并且具有更好的可扩展性等优势;4.本发明创建的标签推荐方法TagMulRec与已经存在的EnTagRec等标签推荐方法相比,具有更好的可扩展性,能够有效并且高效的应用于大规模软件信息站,速度上更是提高了三个量级,并且更加稳定。
附图说明
图1是本发明总体方法步骤示意图。
图2是本发明创建索引具体结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明做进一步的说明。
本发明提出的一种基于信息检索的大规模软件信息站标签推荐方法,根据软件对象自动推荐标签。标签推荐的方法目前在开源软件社区和在线开发者问答社区等软件信息站都有应用,可以根据软件对象来推荐标签。利用标签推荐方法,可以提高网站运行效率和分类的准确性,从而获得更好的用户体验。本发明提出了TagMulRec工具来给开发者推荐标签,对规模不断增大的软件信息站进行软件对象分类。TagMulRec适用于动态的变化。除此以外,随着每天都有大量的软件对象加入到软件信息站,开发者可以通过修改或者删除标签来修改已经发布的内容。通过为软件对象描述创建索引,TagMulRec可以高效的推荐软件标签。基于这些索引,可以计算软件对象的相似度,从而建立候选集合。TagMulRec利用多分类算法对候选集合中软件对象的标签进行排名,将排名得分最高的几个标签推荐给开发者。本发明利用已经存在的标签,创建索引,计算相似度,计算标签的得分,从而对信息对象进行多标签的推荐。
请见图1,为本发明总体方法步骤示意图,主要包括预处理,创建索引,计算相似得分以及标签推荐这四个步骤。
请见图2,为本发明的预处理以及创建索引具体结构示意图,整个图可以分为两个部分:软件信息站数据预处理图和创建索引图。
步骤1:软件信息站数据预处理图根据一定的规则对数据进行预处理,包括了三次筛选工作。首先对不带标签的数据进行删除,主要由于本发明是利用已有的标签信息来进行推荐的,则不带标签的数据没有意义。然后将标签频率低于设定阈值的带标签软件对象进行删除,主要有以下两种原因。原因之一,有的标签频率之所以低,可能是因为拼写错误,则对于此情形,应当删除。原因之二,一部分标签可能代表某一特定的不常见的领域。由于是特殊领域的不常见的标签,则该标签是否会被用户广泛接受尚不可知。对于此情形,最好的方式是由开发者来自行创建标签。总之,都可以归结到一种情形,就是频率低于预设阈值的,将该标签的软件对象删除。最后将筛选出的软件对象的描述中的停词删除,因为停词对于标签推荐没有太大的意义。经过上面几个步骤,完成了预处理工作。
步骤2:创建索引图包含软件对象描述中的词和该词包含于哪些文档设计的。对于步骤1中的,创建一个词典,包括软件对象描述中的所有词,对于词典中的每个词,创建一个链表,链表的每个节点是包含该词的软件对象的索引以及该词在节点软件对象中的频数。对于不断发展的软件信息站,这个词典是可扩展的。
步骤3:计算相似得分,选出候选软件对象集合。给定一个新的软件对象,可以通过公式
Figure BDA0001227451330000071
Figure BDA0001227451330000072
计算该对象与步骤1集合中的软件对象的相似得分。
Figure BDA0001227451330000073
将软件对象o的描述看作一个查询项,计算出得分,它的值取决于软件对象o描述中的词同时也在软件对象oi描述中出现的频率。计算
Figure BDA0001227451330000074
的公式如下
Figure BDA0001227451330000075
Figure BDA0001227451330000076
φ(o.d)项是对查询项的标准化,计算公式为对于上面两个公式中ψ(w)项表示w的权重,ψ(o.d)表示软件对象o的描述o.d的权重。权重也可以自己设置,
将某个词的权重设置成较大值表示该词比其他词更加重要。#oi.d.w项表示w在oi软件对象的描述oi.d中出现的频率。#Sw表示软件对象描述中包含词w的对象数目,也就是步骤2创建的词典中w词指向的链表的长度。ρ(oi.d)项是δ(o,oi)的一个标准化参数,计算公式
Figure BDA0001227451330000078
其中ψ(oi.d)表示软件对象描述的权值,|oi·d|表示描述的规模。通过上面公式可以计算软件对象的相似得分。简言之,计算相似得分主要通过对象的描述中的词,描述中的每个词都有权重。这个权重由以下两个因素确定。因素一,该词在对象描述中出现的频率,频率越大说明对于该对象越重要。因素二,该词在别的对象中可能也会出现,则在多少个对象中出现过,即描述中包含该词的软件对象的总数目,总数越多,说明别的软件对象都有该词,说明该词对于本对象越不重要。通过这两个因素确定每个词在该对象中的权重。然后将新的软件对象与步骤1集合中的软件对象看做一些词的权重组成的向量,求两个向量的相似性即求两个向量的夹角,夹角越小即越相似。求夹角需对向量内积进行归一化。还需要考虑以下的项。
Figure BDA0001227451330000081
项,对于两个软件对象包含的相同的描述词中,如果这些词频率越高,则对于这些词需要处理。boost项,对于软件对象的描述中,不同的域的权重是不一样的,譬如标题中的词和内容中相同的词,显然标题中的权重要大一些。加上这些项的考虑,从而计算出软件对象的相似得分。而对于用户输入关键词查询时,将输入的词看做一个软件对象的描述,从而计算与步骤1集合中软件对象的相似得分。然后选取得分最高的k个软件对象,构成候选对象集合
Figure BDA0001227451330000082
此处k表示集合中元素的个数,该值可调整。
步骤4:计算候选集中软件对象的标签的得分。首先对步骤3中得出的相似得分进行标准化,通过公式δnorm(o,oi)=(δ(o,oi)-Cmin)/(Cmax-Cmin)将结果归一化为[0,1]之间的值。用集合Ti表示
Figure BDA0001227451330000083
中对象oi的标签,则候选集合中所有软件对象的标签合集用集合
Figure BDA0001227451330000084
表示。对于每一个标签
Figure BDA0001227451330000085
利用以下公式计算标签ti的得分,
Figure BDA0001227451330000086
其中#oi.tj表示oi中tj出现的频率。将
Figure BDA0001227451330000087
中所有的标签按照得分高低将标签构成一个排好序的列表TL,将TL中得分最高的K个标签构成的TLtopK链表推荐给用户。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于信息检索的大规模软件信息站标签推荐方法,其特征在于,包括以下步骤:
步骤1:对软件信息站的软件对象数据进行预处理,移除不带标签的和标签频率低于预设定阈值的软件对象,最后移除这些软件对象描述中的停词,从而得到所有带标签和描述的软件对象集合;包括以下子步骤:
步骤1.1:基于已经存在的标签,对软件信息站的软件对象,去除其中的不带标签项;
步骤1.2:对于出现频率小于临界值threshold的标签,是拼写错误或者某一个特殊的领域导致,对于拼写错误的标签不得推荐给用户,而对于特殊领域的软件对象,由开发者自行创建标签;
步骤2:为步骤1中的软件对象创建索引,保存对象描述中的词,称为词典,每个词都指向包含该词的文档链表,此文档链表称为倒排表;也就是对步骤1中集合内的软件对象创建索引,利用软件对象描述中的词创建词典,并且对于每个词,创建一个链表,链表的每一个节点存放描述中包含该词的软件对象的索引以及该词在节点对象中频数;
步骤3:根据公式计算出给定的软件对象和步骤1集合中软件对象的相似得分,并取其中相似度最高的若干个软件对象构成候选集合,具体是通过公式
Figure FDA0001227451320000011
计算软件对象与步骤1集合中的软件对象的相似得分;将软件对象o的描述看作一个查询项,计算出得分,该得分取决于软件对象o描述中的词同时也在软件对象oi描述中出现的频率,计算的公式如下:
Figure FDA0001227451320000021
其中,φ(o.d)项对查询项标准化,公式为
Figure FDA0001227451320000022
对于公式中ψ(w)项表示w的权重,ψ(o.d)表示软件对象o的描述o.d的权重;权重能够自行设置,将某个词的权重设置成最大值表示该词比其他词更加重要;#oi.d.w项表示w在oi软件对象的描述oi.d中出现的频率;#Sw表示软件对象描述中包含词w的对象数目,也就是步骤2创建的词典中w词指向的链表的长度;ρ(oi.d)项是δ(o,oi)的一个标准化参数,计算公式
Figure FDA0001227451320000023
其中ψ(oi.d)表示软件对象描述的权值,|oi.d|表示描述的规模;
步骤4:对步骤3得出的候选集合中软件对象的相似得分进行标准化,根据软件对象标准化的相似得分以及对象标签频率计算标签的得分,按照标签得分排序得到标签推荐列表,将得分最好的若干个推荐给开发者,具体是:
计算候选集中软件对象的标签的得分:首先对步骤3中得出的相似得分进行标准化,通过公式δnorm(o,oi)=(δ(o,oi)-Cmin)/(Cmax-Cmin)将结果归一化为[0,1]之间的值;用集合Ti表示
Figure FDA0001227451320000024
中对象oi的标签,则候选集合中所有软件对象的标签合集用集合
Figure FDA0001227451320000025
表示;对于每一个标签利用以下公式计算标签ti的得分,
Figure FDA0001227451320000027
其中#oi.tj表示oi中tj出现的频率;将
Figure FDA0001227451320000028
中所有的标签按照得分高低将标签构成一个排好序的列表TL,将TL中得分最高的K个标签构成的TLtopK链表推荐给用户。
CN201710086114.6A 2017-02-17 2017-02-17 一种基于信息检索的大规模软件信息站标签推荐方法 Expired - Fee Related CN107341169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710086114.6A CN107341169B (zh) 2017-02-17 2017-02-17 一种基于信息检索的大规模软件信息站标签推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710086114.6A CN107341169B (zh) 2017-02-17 2017-02-17 一种基于信息检索的大规模软件信息站标签推荐方法

Publications (2)

Publication Number Publication Date
CN107341169A CN107341169A (zh) 2017-11-10
CN107341169B true CN107341169B (zh) 2020-02-11

Family

ID=60222762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710086114.6A Expired - Fee Related CN107341169B (zh) 2017-02-17 2017-02-17 一种基于信息检索的大规模软件信息站标签推荐方法

Country Status (1)

Country Link
CN (1) CN107341169B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446414B (zh) * 2018-09-28 2021-08-17 武汉大学 一种基于神经网络分类的软件信息站点快速标签推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104025107A (zh) * 2011-11-02 2014-09-03 比特梵德知识产权管理有限公司 模糊列入白名单反恶意软件系统及方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN105956146A (zh) * 2016-05-12 2016-09-21 腾讯科技(深圳)有限公司 一种物品信息的推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104025107A (zh) * 2011-11-02 2014-09-03 比特梵德知识产权管理有限公司 模糊列入白名单反恶意软件系统及方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN105956146A (zh) * 2016-05-12 2016-09-21 腾讯科技(深圳)有限公司 一种物品信息的推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于概念语义相似度计算模型的信息检索研究;杨春龙 等;《计算机应用与软件》;20130630(第6期);第88-92页 *

Also Published As

Publication number Publication date
CN107341169A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
US8538898B2 (en) Interactive framework for name disambiguation
US8918348B2 (en) Web-scale entity relationship extraction
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
CN109408743B (zh) 文本链接嵌入方法
US11386366B2 (en) Method and system for cold start candidate recommendation
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
CN107291895B (zh) 一种快速的层次化文档查询方法
Purohit et al. Text classification in data mining
CN103778206A (zh) 一种网络服务资源的提供方法
US11537918B2 (en) Systems and methods for document similarity matching
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN105205163A (zh) 一种科技新闻的增量学习多层次二分类方法
Van et al. Vietnamese news classification based on BoW with keywords extraction and neural network
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
Sarkar et al. Text classification
Kamruzzaman et al. Text classification using association rule with a hybrid concept of naive Bayes classifier and genetic algorithm
Sirsat et al. Mining knowledge from text repositories using information extraction: A review
CN112417082A (zh) 一种科研成果数据消歧归档存储方法
CN107341169B (zh) 一种基于信息检索的大规模软件信息站标签推荐方法
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Mirylenka et al. Linking IT product records
ul haq Dar et al. Classification of job offers of the World Wide Web
Manek et al. Classification of drugs reviews using W-LRSVM model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200211

Termination date: 20210217

CF01 Termination of patent right due to non-payment of annual fee