CN106599194A - 标签确定方法及装置 - Google Patents

标签确定方法及装置 Download PDF

Info

Publication number
CN106599194A
CN106599194A CN201611154191.2A CN201611154191A CN106599194A CN 106599194 A CN106599194 A CN 106599194A CN 201611154191 A CN201611154191 A CN 201611154191A CN 106599194 A CN106599194 A CN 106599194A
Authority
CN
China
Prior art keywords
words
destination application
class keywords
target critical
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611154191.2A
Other languages
English (en)
Other versions
CN106599194B (zh
Inventor
陆子龙
张卫
吴宏刚
闫铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201611154191.2A priority Critical patent/CN106599194B/zh
Publication of CN106599194A publication Critical patent/CN106599194A/zh
Application granted granted Critical
Publication of CN106599194B publication Critical patent/CN106599194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本公开揭示了一种标签确定方法及装置,属于计算机技术领域。该方法包括:获取目标应用程序对应的目标关键词集合,目标关键词集合中包括第一类关键词;获取参考应用程序对应的参考关键词集合,参考关键词集合中包括第一类关键词和/或第二类关键词;根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签;由于目标应用程序对应的标签并不是由推广人员和/或开发人员根据主观判断确定的,而是由服务器根据收集到的各个关键词集合按照预定算法和/或主题分析模型客观分析得到的,因此,确定得到的标签更准确。

Description

标签确定方法及装置
技术领域
本公开涉及计算机技术领域,特别涉及一种标签确定方法及装置。
背景技术
随着智能终端的发展和普及,智能终端中的应用程序也越来越多,为了方便对应用程序的查询和推广,通常会为应用程序添加描述性的词语作为该应用程序的标签以反映该应用程序所属的类别。
目前通常是由开发人员在开发时为应用程序添加标签,或者,由推广人员在推广时为应用程序添加标签,开发人员和/或推广人员通常是通过主观判断确定并添加应用程序的标签的,人为添加的标签通常不够准确。
发明内容
为了解决由推广人员和/或开发人员人工地为应用程序添加的标签不够准确的问题,本公开提供一种标签确定方法及装置。所述技术方案如下:
第一方面,提供一种标签确定方法,该方法包括:
获取目标应用程序对应的目标关键词集合,目标关键词集合中包括第一类关键词;
获取参考应用程序对应的参考关键词集合,参考关键词集合中包括第一类关键词和/或第二类关键词;
根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签;
其中,第一类关键词是直接与目标应用程序存在对应关系的关键词,第二类关键词是通过至少一个关联元素与目标应用程序存在对应关系的关键词。
可选的,至少一个关联元素至少包括参考应用程序,以及目标关键词集合中与参考应用程序存在对应关系的第一类关键词;
根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,包括:
对于目标关键词集合和参考关键词集合中的每个第一类关键词,获取第一类关键词与目标应用程序之间的相似度;
对于参考关键词集合中的每个第二类关键词,按照预定算法根据目标关键词集合和第二类关键词对应的应用程序集合之间的相似度计算第二类关键词与目标应用程序之间的相似度,应用程序集合是直接与第二类关键词存在对应关系的各个应用程序的集合;
确定目标关键词集合和参考关键词集合中与目标应用程序之间的相似度大于预设相似度的关键词为目标应用程序对应的标签。
可选的,按照预定算法根据目标关键词集合和第二类关键词对应的应用程序集合之间的相似度计算第二类关键词与目标应用程序之间的相似度,包括计算:
其中,s(x,y)表示x与y之间的相似度,a表示目标应用程序,b表示第二类关键词,I(a)是目标关键词集合,I(b)是第二类关键词对应的应用程序集合,c是预设衰减因子。
可选的,至少一个关联元素包括目标关键词集合中与第二类关键词属于同一个主题的第一类关键词;
根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签,包括:
根据主题分析模型确定目标关键词集合中包括的第一类关键词对应的各个主题;
确定在目标关键词集合中所占的比例达到第一比例阈值的目标主题;
确定目标关键词集合和参考关键词集合中,属于目标主题且在目标主题中所占的比例达到第二比例阈值的关键词为目标应用程序对应的标签。
可选的,获取目标应用程序对应的目标关键词集合,包括:
获取历史搜索目标应用程序的搜索请求中包括的第一类关键词;
和/或,通过网络爬虫获取目标应用程序对应的第一类关键词;
和/或,获取目标应用程序的描述信息中包括的第一类关键词。
第二方面,提供一种标签确定装置,该装置包括:
第一获取模块,被配置为获取目标应用程序对应的目标关键词集合,目标关键词集合中包括第一类关键词;
第二获取模块,被配置为获取参考应用程序对应的参考关键词集合,参考关键词集合中包括第一类关键词和/或第二类关键词;
确定模块,被配置为根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签;
其中,第一类关键词是直接与目标应用程序存在对应关系的关键词,第二类关键词是通过至少一个关联元素与目标应用程序存在对应关系的关键词。
可选的,至少一个关联元素至少包括参考应用程序,以及目标关键词集合中与参考应用程序存在对应关系的第一类关键词;确定模块,包括:
获取子模块,被配置为对于目标关键词集合和参考关键词集合中的每个第一类关键词,获取第一类关键词与目标应用程序之间的相似度;
计算子模块,被配置为对于参考关键词集合中的每个第二类关键词,按照预定算法根据目标关键词集合和第二类关键词对应的应用程序集合之间的相似度计算第二类关键词与目标应用程序之间的相似度,应用程序集合是直接与第二类关键词存在对应关系的各个应用程序的集合;
第一确定子模块,被配置为确定目标关键词集合和参考关键词集合中与目标应用程序之间的相似度大于预设相似度的关键词为目标应用程序对应的标签。
可选的,计算子模块,被配置为计算:
其中,s(x,y)表示x与y之间的相似度,a表示目标应用程序,b表示第二类关键词,I(a)是目标关键词集合,I(b)是第二类关键词对应的应用程序集合,c是预设衰减因子。
可选的,至少一个关联元素包括目标关键词集合中与第二类关键词属于同一个主题的第一类关键词;确定模块,包括:
第二确定子模块,被配置为根据主题分析模型确定目标关键词集合中包括的第一类关键词对应的各个主题;
第三确定子模块,被配置为确定在目标关键词集合中所占的比例达到第一比例阈值的目标主题;
第四确定子模块,被配置为确定目标关键词集合和参考关键词集合中,属于目标主题且在目标主题中所占的比例达到第二比例阈值的关键词为目标应用程序对应的标签。
可选的,第一获取模块,还被配置为:
获取历史搜索目标应用程序的搜索请求中包括的第一类关键词;
和/或,通过网络爬虫获取目标应用程序对应的第一类关键词;
和/或,获取目标应用程序的描述信息中包括的第一类关键词。
第三方面,提供一种标签确定装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取目标应用程序对应的目标关键词集合,目标关键词集合中包括第一类关键词;
获取参考应用程序对应的参考关键词集合,参考关键词集合中包括第一类关键词和/或第二类关键词;
根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签;
其中,第一类关键词是直接与目标应用程序存在对应关系的关键词,第二类关键词是通过至少一个关联元素与目标应用程序存在对应关系的关键词。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过获取目标应用程序和参考应用程序对应的关键词集合,根据获取到的各个关键词集合按照预定算法或者主题分析模型确定目标应用程序对应的标签,由于目标应用程序对应的标签并不是由推广人员和/或开发人员根据主观判断得到的,而是由服务器根据收集到的各个关键词集合按照预定算法和/或主题分析模型客观分析确定的,因此,服务器确定得到的标签更准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是本公开各个实施例涉及的一种实施环境的示意图;
图2是本公开一示例性实施例公开的一种标签确定方法的流程图;
图3是本公开另一示例性实施例公开的一种标签确定方法的流程图;
图4是本公开另一示例性实施例公开的一种标签确定方法的流程示意图;
图5是本公开另一示例性实施例涉及的一种二分图的示意图;
图6是本公开另一示例性实施例公开的一种标签确定方法的流程图;
图7是本公开另一示例性实施例公开的一种标签确定方法的流程图;
图8是本公开另一示例性实施例公开的一种标签确定装置的框图;
图9是本公开另一示例性实施例公开的一种标签确定装置的框图;
图10是本公开另一示例性实施例公开的一种标签确定装置的框图;
图11是本公开另一示例性实施例公开的一种标签确定装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是本公开各个实施例所涉及的一种实施环境的示意图,该实施环境可以包括:用户终端120、开发终端140和服务器160。
用户终端120通常是用户使用的诸如手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机之类的终端设备。用户终端120中可以安装应用程序,在实际实现时,用户通常是在用户终端120中的应用商店中搜索并下载应用程序的,则用户终端120中会生成并保存用户在应用商店中搜索应用程序时的搜索日志和下载应用程序时的下载日志。
开发终端140通常是应用程序的开发人员所使用的台式电脑或笔记本电脑等终端设备,开发人员使用开发终端140中的应用商店的开发者平台开发应用程序后,可以将应用程序发布到应用商店。
服务器160是用于为应用程序提供后台服务的服务器,服务器160与用户终端120和开发终端140通过无线网络或者有线网络的方式相连,服务器160接收开发终端140提交的应用程序并发布到应用商店后,可以将应用商店中的应用程序的应用程序信息发送至用户终端120供用户终端120进行下载,应用程序信息包括下载信息、简介信息和用户评分等。在实际实现时,服务器160可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在实际实现时,与服务器160相连的用户终端120和开发终端140通常都包括多个,图1仅示例性的示出了一个用户终端120和一个开发终端140。
图2是本公开一个实施例提供的标签确定方法的流程图。本实施例以该标签确定方法应用于图1所示的服务器中来举例说明。该方法包括:
在步骤201中,获取目标应用程序对应的目标关键词集合。
其中,目标关键词集合中包括用于描述目标应用程序的关键词,目标关键词集合中包括第一类关键词,第一类关键词是直接与目标应用程序存在对应关系的关键词。
在步骤202中,获取参考应用程序对应的参考关键词集合。
其中,参考关键词集合中包括用于描述参考应用程序的关键词,参考关键词集合中包括第一类关键词和/或第二类关键词,第二类关键词是通过至少一个关联元素与目标应用程序存在对应关系的关键词。可选的,参考应用程序包括一个或至少两个。
在实际实现时,步骤202和步骤201通常是同时执行的。
在步骤203中,根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签。
其中,确定得到的目标应用程序对应的标签是目标关键词集合中的关键词和/或参考关键词集合中的关键词。
综上所述,本公开实施例提供的标签确定方法,通过获取目标应用程序和参考应用程序对应的关键词集合,根据获取到的各个关键词集合按照预定算法或者主题分析模型确定目标应用程序对应的标签,由于目标应用程序对应的标签并不是由推广人员和/或开发人员根据主观判断得到的,而是由服务器根据收集到的各个关键词集合按照预定算法和/或主题分析模型客观分析确定的,因此,服务器确定得到的标签更准确。
可选的,在上述步骤201中,服务器可以通过如下步骤301-步骤303示出的至少一种方式获取目标应用程序对应的目标关键词集合,如图3所示:
在步骤301中,获取历史搜索目标应用程序的搜索请求中包括的第一类关键词。
可选的,服务器接收用户终端发送的搜索日志,搜索日志中包括用户通过该用户终端历史搜索各个应用程序的搜索请求,每条搜索请求中包括用户搜索应用程序时使用的各个关键词。具体的,当用户在应用商店中发送搜索请求搜索应用程序时,用户终端会记录用户输入的关键词,以及用户本次搜索实际搜索的应用程序,从而生成搜索日志。通常情况下,用户终端每隔第一预定时间间隔向服务器发送搜索日志,对应的,服务器每隔第一预定时间间隔接收用户终端发送的搜索日志,第一预定时间间隔是系统预设或用户自定义的时间间隔,本实施例对此不作限定。
可选的,服务器每隔第二预定时间间隔从搜索日志中获取用于搜索目标应用程序的搜索请求,该搜索请求中包括的关键词即为第一类关键词;或者,服务器在接收到确定请求时,从搜索日志中获取用于搜索目标应用程序的搜索请求,该搜索请求中包括的关键词即为第一类关键词,确定请求用于请求确定目标应用程序的标签。其中,第二预定时间间隔是系统预设或用户自定义的时间间隔,本实施例对此不作限定。
在实际实现时,服务器还可以接收用户终端发送的下载日志,下载日志中包括用户通过用户终端搜索到各个应用程序后,历史下载应用程序的下载记录。
在步骤302中,通过网络爬虫获取目标应用程序对应的第一类关键词。
服务器将目标应用程序的名称作为爬取关键字爬取与该目标应用程序相关的信息,比如,爬取到网页结果。服务器可以从前K条信息中提取关键词作为与该目标应用程序对应的第一类关键词,K为大于等于1的整数,K是系统预设值或用户自定义值。
可选的,服务器每隔第三预定时间间隔通过网络爬虫获取目标应用程序对应的第一类关键词;或者,服务器在接收到确定请求时,通过网络爬虫获取目标应用程序对应的第一类关键词,确定请求用于请求确定目标应用程序的标签。其中,第三预定时间间隔是系统预设或用户自定义的时间间隔,本实施例对此不作限定。
在步骤303中,获取目标应用程序的描述信息中包括的第一类关键词。
开发人员在开发应用程序时,通常会为应用程序添加参考标签和/或描述文本等描述信息,开发人员在将应用程序通过服务器发布到应用商店时,同时会发送该应用程序对应的描述信息,则服务器接收并存储有各个开发终端发送的各个应用程序的描述信息。
可选的,服务器每隔第四预定时间间隔在存储的各个描述信息中获取目标应用程序的描述信息,从描述信息中提取关键词;或者,服务器在接收到确定请求时,从存储的各个描述信息中获取目标应用程序的描述信息,从描述信息中提取关键词。其中,第四预定时间间隔是系统预设或用户自定义的时间间隔,本实施例对此不作限定。
本领域技术人员可以理解的是,在上述步骤202中,服务器获取参考应用程序对应的参考关键词集合的方法可以参考上述步骤301-步骤303,本实施例对此不赘述,则本公开实施例提供的标签确定方法的流程示意图如图4所示。
可选的,在图2或图3所示的实施例中,当服务器通过预定算法确定目标应用程序对应的标签时,参考关键词集合中的第二类关键词通过至少一个关联元素与目标应用程序存在对应关系,至少一个关联元素至少包括参考应用程序,以及目标关键词集合中与参考应用程序存在对应关系的第一类关键词。其中,目标关键词集合中与参考应用程序存在对应关系的第一类关键词是直接与参考应用程序存在对应关系的关键词,或者是通过其他关联元素与参考应用程序存在对应关系的关键词。
在一个示例性的例子中,目标应用程序、目标关键词集合、参考应用程序和参考关键词集合可以以二分图的形式表示为如图5所示。当应用程序A是目标应用程序时,目标关键词集合中包括:团购、KTV和衣服;应用程序B和应用程序C都是参考应用程序,应用程序B对应的参考关键词集合中包括的第一类关键词为“衣服”,包括的第二类关键词包括“电脑”和“手机”,应用程序C对应的参考关键词集合中的第二类关键词包括“手机”和“洗衣机”。
在应用程序B对应的参考关键词集合中,关键词“电脑”通过“应用程序B”和“衣服”这两个关联元素与应用程序A存在对应关系,“应用程序B”和“衣服”直接存在对应关系;在应用程序C对应的参考关键词集合中,关键词“洗衣机”通过“应用程序C”、“手机”、“应用程序B”和“衣服”与应用程序A存在对应关系,其中,“应用程序C”通过“应用程序B”和“手机”这两个关联元素与目标关键词集合中的关键词“衣服”存在对应关系。
则上述步骤203包括如下几个步骤,如图6所示:
在步骤601中,对于目标关键词集合和参考关键词集合中的每个第一类关键词,获取第一类关键词与目标应用程序之间的相似度。
其中,每个第一类关键词与目标应用程序之间的相似度是服务器根据获取到的每个第一类关键词在目标关键词集合中所占的比例来确定的。比如,在图5所示的例子中,服务器获取到与目标应用程序,也即应用程序A对应的第一类关键词包括5个“团购”、5个“KTV”和10个“衣服”,则应用程序A与“团购”的相似度为0.25,与“KTV”的相似度为0.25,与“衣服”的相似度为0.5。
在步骤602中,对于参考关键词集合中的每个第二类关键词,按照预定算法根据目标关键词集合和第二类关键词对应的应用程序集合之间的相似度计算第二类关键词与目标应用程序之间的相似度。
其中,应用程序集合是直接与第二类关键词存在对应关系的各个应用程序的集合。比如,在上述图5所示的例子中,与关键词“电脑”对应的应用程序集合为{应用程序B},与关键词“手机”对应的应用程序集合为{应用程序B,应用程序C}。
可选的,预定算法是SimRank相似度算法,服务器在根据目标关键词集合和第二类关键词对应的应用程序集合之间的相似度计算第二类关键词与目标应用程序之间的相似度时,计算:
其中,s(x,y)表示x与y之间的相似度,a表示目标应用程序,b表示第二类关键词,I(a)是目标关键词集合,I(b)是第二类关键词对应的应用程序集合,c是预设衰减因子,c是系统预设值或用户自定义值,通常情况下,c的取值为(0,1),实际实现时,c的取值通常为0.6-0.8。另外,|I(a)|表示I(a)中包括的第一类关键词的个数,|I(b)|表示I(b)中包括的应用程序的个数,s(Ii(a),Ii(b))表示I(a)中的第二类关键词与I(b)中的应用程序的相似度。
比如,在上述图5所示的例子中,目标应用程序为应用程序A,假设c为0.6,则服务器要根据目标关键词集合{团购,KTV,衣服}和“电脑”对应的应用程序集合{应用程序B}计算应用程序A与“电脑”的相似度,也即,计算:
服务器继续使用相同的方法计算s(团购,应用程序B)、s(KTV,应用程序B)以及s(衣服,应用程序B),通过迭代的方式最终计算得到s(应用程序A,电脑)。
当服务器在对元素a和元素b的相似度s(a,b)进行迭代计算时,第K+1次迭代时的计算公式如下所示:
其中,是对s(a,b)进行第K+1次迭代的结果,是对s(a,b)进行第k次迭代时的结果,px,y表示二分图中元素x和元素y之间包括的边数,比如,在图5中,元素应用程序A与元素团购之间的边数为1,元素应用程序A与元素电脑之间的边数为3。
为了提高对数据进行并列处理的能力,服务器可以将上述迭代过程通过矩阵的方式进行实现,则对相似度矩阵S进行第k次迭代的表达式如下所示:
其中,Sk是对相似度矩阵S进行第k次迭代的结果,Sk-1是对相似度矩阵进行第k-1次迭代的结果。相似度矩阵S中的元素s(i,j)表示i与j之间的相似度,连接矩阵P中的元素p(i,j)表示i与j之间的边数,矩阵W是连接矩阵P按列归一化之后的矩阵。函数diag(m)表示获取矩阵m的主对角线上的元素构成的向量,Diag(n)表示生成向量n对应的对角矩阵。在上述矩阵S中,主对角线元素为每一个参数与自身的相似度,即为1。
在实际实现时,可以通过MapReduce模型实现上述迭代过程,通过分布式并行的方法对大规模的数据进行迭代计算,得到每个目标应用程序与每个关键词之间的相似度。
在步骤603中,确定目标关键词集合和参考关键词集合中与目标应用程序之间的相似度大于预设相似度的关键词为目标应用程序对应的标签。
其中,预设相似度是系统预设值或用户自定义值,本实施例对预设相似度的取值不做限定。
比如,在上述图5所示的例子中,应用程序A与“团购”之间的相似度为0.25,应用程序A与“KTV”之间的相似度为0.25,应用程序A与“衣服”之间的相似度为0.5,服务器计算得到应用程序A与“电脑”之间的相似度为“0.45”,假设预设阈值是0.4,则服务器确定应用程序A对应的标签为“衣服”和“电脑”。
综上所述,本公开实施例提供的标签确定方法,服务器按照预定算法计算目标关键词集合和参考关键词集合中的关键词与目标应用程序的相似度,并确定相似度大于预设相似度的关键词为目标应用程序的标签,由于服务器确定得到的目标应用程序的标签不仅可以包括目标关键词集合中的关键词,还可以包括参考关键词集合中与目标应用程序的相似度较高的关键词,因此,服务器可以挖掘到更多与目标应用程序相关的标签,使确定得到的标签更丰富。
本公开实施例提供的标签确定方法,由服务器分析确定目标应用程序的标签,避免了人为添加标签效率低下,且开发人员或推广人员为了提高目标应用程序曝光率而添加虚假标签的情况,提高了确定得到的标签的准确性。
本公开实施例提供的标签确定方法,服务器可以定期获取各个关键词集合进行分析确定目标应用程序的标签,达到了可以定期更新目标应用程序的标签的效果。
可选的,在图2或图3所示的实施例中,当服务器通过主题分析模型确定目标应用程序对应的标签时,参考关键词集合中的第二类关键词通过至少一个关联元素与目标应用程序存在对应关系,至少一个关联元素包括目标关键词集合中与第二类关键词属于同一个主题的第一类关键词。
则上述步骤203包括如下几个步骤,如图7所示:
在步骤701中,根据主题分析模型确定目标关键词集合中包括的第一类关键词对应的各个主题。
其中,主题分析模型是根据目标关键词集合训练得到的模型,或者,主题分析模型是根据目标关键词集合和参考关键词集合训练得到的模型。服务器使用主题分析模型确定得到每个关键词集合中包括的各个主题以及每个主题对应的各个关键词。
可选的,主题分析模型是基于PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)主题模型,和/或,基于LDA(Latent Dirichlet Allocation,文档主题生成模型)训练得到的模型。本实施例以基于PLSA主题模型训练得到主题分析模型为例,且通过EM(Expectation Maximization Algorithm,最大期望算法)学习模型参数为例。
在第一种实现方式中,主题分析模型是根据目标应用程序对应的目标关键词集合训练得到。则服务器确定目标关键词集合中的每个第一类关键词出现的概率P(第一类关键词|目标关键词集合),比如,目标关键词集合中有100个第一类关键词,第一类关键词“团购”出现了20次,则P=0.2。
P(关键词|关键词集合)=∑(主题)P1(关键词|主题)*P2(主题|关键词集合),在该实现方式中,关键词集合是目标关键词集合,关键词是目标关键词集合中的第一类关键词。其中,P1(关键词|主题)是某一个关键词在主题中所占的比例,可以通过该关键词的总个数除以主题对应的所有关键词的总个数确定;P2(主题|关键词集合)是主题在关键词集合中所占的比例,可以通过主题对应的所有关键词的个数除以关键词集合中包括的关键词的总个数确定。比如,该实现方式中,目标关键词集合中总共包括100个第一类关键词,目标关键词集合中包括主题“电器”和主题“美食”,主题“电器”对应的第一类关键词有60个,主题“美食”对应的第一类关键词有40个,主题“电器”对应的第一类关键词包括“电脑”和“手机”,第一类关键词“电脑”有20个,第一类关键词“手机”有40个,则P1(电脑|电器)=20/60=1/3,P2(电器|关键词集合)=60/100=0.6。
首先预设若干个主题,每个主题对应有若干个预设的关键词,则可以确定得到P2,而P是已知的,通过贝叶斯公式可以计算得到P1,此时再次通过P和计算得到的P1根据贝叶斯公式重新计算P2,以此循环迭代直到收敛,则可以最终确定P1和P2。
在实际实现时,可以通过矩阵的方法实现,C=φ*θ,其中,矩阵C中的元素为P(关键词|关键词集合),矩阵φ中的元素为P1(关键词|主题),矩阵θ中的元素为P2(主题|关键词集合),在本实施例中,矩阵C通常是N行1列的,每一行表示一个第一类关键词,N是目标关键词集合中包括的第一类关键词的个数,N为大于等于1的整数。
在第二种实现方式中,主题分析模型是根据目标关键词集合以及参考关键词集合训练得到的。该实现方式可以参考上述第一种实现方式,但是当通过矩阵的方式实现时,矩阵C通常是N行M列的,M是关键词集合的个数。
在步骤702中,确定在目标关键词集合中所占的比例达到第一比例阈值的目标主题。
其中,确定在目标关键词集合中所占的比例达到第一比例阈值的目标主题是指,确定各个主题中,所对应的第一类关键词的个数与目标关键词集合中的第一类关键词的总个数的比例达到第一比例阈值的主题为目标主题。第一比例阈值是系统预设值或用户自定义值,本实施例对其取值不做限定。
在步骤703中,确定目标关键词集合和参考关键词集合中,属于目标主题且在目标主题中所占的比例达到第二比例阈值的关键词为目标应用程序对应的标签。
其中,第二比例阈值是系统预设值或用户自定义值,本实施例对其取值不做限定。
比如,目标关键词集合中,主题“电器”所占的比例为0.6,主题“美食”所占的比例为0.4,假设第一比例阈值为0.5,则确定主题“电器”为目标主题。而在目标关键词集合中,主题“电器”对应的关键词包括“电脑”和“手机”,在参考关键词集合中,主题“电器”对应的关键词包括“电视机”和“洗衣机”,在目标关键词集合中和参考关键词集合中,“电脑”在主题“电器”中所占的比例为0.1,“手机”在主题“电器”中所占的比例为0.5,“电视机”在主题“电器”中所占的比例为0.1,“洗衣机”在主题“电器”中所占的比例为0.3,假设第二比例阈值为0.2,则确定的与目标应用程序对应的标签为“手机”和“洗衣机”。
综上所述,本公开实施例提供的标签确定方法,服务器根据主题分析模型确定目标关键词集合中的目标主题,并确定目标关键词集合和参考关键词集合中属于该目标主题且所占的比例达到预设的比例阈值的关键词为目标应用程序的标签,由于服务器确定得到的目标应用程序的标签不仅可以包括目标关键词集合中的关键词,还可以包括参考关键词集合中在目标主题中所占的比例较高的关键词,因此,服务器可以挖掘到更多与目标应用程序相关的标签,使确定得到的标签更丰富。
本公开实施例提供的标签确定方法,由服务器分析确定目标应用程序的标签,避免了人为添加标签效率低下,且开发人员或推广人员为了提高目标应用程序曝光率而添加虚假标签的情况,提高了确定得到的标签的准确性。
本公开实施例提供的标签确定方法,服务器可以定期获取各个关键词集合进行分析确定目标应用程序的标签,达到了可以定期更新目标应用程序的标签的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图8是根据一示例性实施例示出的一种标签确定装置的框图,如图8所示,该装置可以实现成为图1所示的实施环境中的服务器,该装置包括但不限于:
第一获取模块810,被配置为执行上述步骤201。
第二获取模块820,被配置为执行上述步骤202。
确定模块830,被配置为执行上述步骤203。
可选的,确定模块830包括如下几个子模块,如图9所示:
获取子模块831,被配置为执行上述步骤501。
计算子模块832,被配置为执行上述步骤502。
第一确定子模块833,被配置为执行上述步骤503。
可选的,确定模块830还包括如下几个子模块,如图10所示:
第二确定子模块834,被配置为执行上述步骤701。
第三确定子模块835,被配置为执行上述步骤702。
第四确定子模块836,被配置为执行上述步骤703。
可选的,第一获取模块810,还被配置为执行上述步骤301、302和303。
综上所述,本公开实施例提供的标签确定装置,通过获取目标应用程序和参考应用程序对应的关键词集合,根据获取到的各个关键词集合按照预定算法或者主题分析模型确定目标应用程序对应的标签,由于目标应用程序对应的标签是服务器自动根据收集到的各个关键词分析得到的,而并不是由用户进行人为添加的,因此,确定得到的标签更准确。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种标签确定装置,能够实现本公开提供的标签确定方法,该装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取目标应用程序对应的目标关键词集合,目标关键词集合中包括第一类关键词;
获取参考应用程序对应的参考关键词集合,参考关键词集合中包括第一类关键词和/或第二类关键词;
根据目标关键词集合和参考关键词集合按照预定算法确定目标应用程序对应的标签,和/或,根据目标关键词集合和参考关键词集合按照主题分析模型确定目标应用程序对应的标签;
其中,第一类关键词是直接与目标应用程序存在对应关系的关键词,第二类关键词是通过至少一个关联元素与目标应用程序存在对应关系的关键词。
图11是根据另一示例性实施例示出的一种标签确定装置的框图。例如,装置1100可以被提供为一服务器。参照图11,装置1100包括处理组件1102,其进一步包括一个或多个处理器,以及由存储器1104所代表的存储器资源,用于存储可由处理组件1102的执行的指令,例如应用程序。存储器1104中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1102被配置为执行指令,以执行上述标签确定方法。
装置1100还可以包括一个电源组件1106被配置为执行装置1100的电源管理,一个有线或无线网络接口1108被配置为将装置1100连接到网络,和一个输入输出(I/O)接口1110。装置1100可以操作基于存储在存储器1104的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种标签确定方法,其特征在于,所述方法包括:
获取目标应用程序对应的目标关键词集合,所述目标关键词集合中包括第一类关键词;
获取参考应用程序对应的参考关键词集合,所述参考关键词集合中包括所述第一类关键词和/或第二类关键词;
根据所述目标关键词集合和所述参考关键词集合按照预定算法确定所述目标应用程序对应的标签,和/或,根据所述目标关键词集合和所述参考关键词集合按照主题分析模型确定所述目标应用程序对应的所述标签;
其中,所述第一类关键词是直接与所述目标应用程序存在对应关系的关键词,所述第二类关键词是通过至少一个关联元素与所述目标应用程序存在对应关系的关键词。
2.根据权利要求1所述的方法,其特征在于,所述至少一个关联元素至少包括所述参考应用程序,以及所述目标关键词集合中与所述参考应用程序存在对应关系的第一类关键词;
所述根据所述目标关键词集合和所述参考关键词集合按照预定算法确定所述目标应用程序对应的标签,包括:
对于所述目标关键词集合和所述参考关键词集合中的每个所述第一类关键词,获取所述第一类关键词与所述目标应用程序之间的相似度;
对于所述参考关键词集合中的每个所述第二类关键词,按照所述预定算法根据所述目标关键词集合和所述第二类关键词对应的应用程序集合之间的相似度计算所述第二类关键词与所述目标应用程序之间的相似度,所述应用程序集合是直接与所述第二类关键词存在对应关系的各个应用程序的集合;
确定所述目标关键词集合和所述参考关键词集合中与所述目标应用程序之间的相似度大于预设相似度的关键词为所述目标应用程序对应的所述标签。
3.根据权利要求2所述的方法,其特征在于,所述按照所述预定算法根据所述目标关键词集合和所述第二类关键词对应的应用程序集合之间的相似度计算所述第二类关键词与所述目标应用程序之间的相似度,包括计算:
s ( a , b ) = 1 , a = b c | I ( a ) | | I ( b ) | Σ i | I ( a ) | Σ j | I ( b ) | s ( I i ( a ) , I j ( b ) ) , a ≠ b , I ( a ) ≠ φ , I ( b ) ≠ φ 0 , o t h e r w i s e
其中,s(x,y)表示x与y之间的相似度,a表示所述目标应用程序,b表示所述第二类关键词,I(a)是所述目标关键词集合,I(b)是所述第二类关键词对应的所述应用程序集合,c是预设衰减因子。
4.根据权利要求1所述的方法,其特征在于,所述至少一个关联元素包括所述目标关键词集合中与所述第二类关键词属于同一个主题的第一类关键词;
所述根据所述目标关键词集合和所述参考关键词集合按照主题分析模型确定所述目标应用程序对应的所述标签,包括:
根据所述主题分析模型确定所述目标关键词集合中包括的所述第一类关键词对应的各个主题;
确定在所述目标关键词集合中所占的比例达到第一比例阈值的目标主题;
确定所述目标关键词集合和所述参考关键词集合中,属于所述目标主题且在所述目标主题中所占的比例达到第二比例阈值的关键词为所述目标应用程序对应的所述标签。
5.根据权利要求1至4任一所述的方法,其特征在于,所述获取目标应用程序对应的目标关键词集合,包括:
获取历史搜索所述目标应用程序的搜索请求中包括的所述第一类关键词;
和/或,通过网络爬虫获取所述目标应用程序对应的所述第一类关键词;
和/或,获取所述目标应用程序的描述信息中包括的所述第一类关键词。
6.一种标签确定装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取目标应用程序对应的目标关键词集合,所述目标关键词集合中包括第一类关键词;
第二获取模块,被配置为获取参考应用程序对应的参考关键词集合,所述参考关键词集合中包括所述第一类关键词和/或第二类关键词;
确定模块,被配置为根据所述目标关键词集合和所述参考关键词集合按照预定算法确定所述目标应用程序对应的标签,和/或,根据所述目标关键词集合和所述参考关键词集合按照主题分析模型确定所述目标应用程序对应的所述标签;
其中,所述第一类关键词是直接与所述目标应用程序存在对应关系的关键词,所述第二类关键词是通过至少一个关联元素与所述目标应用程序存在对应关系的关键词。
7.根据权利要求6所述的装置,其特征在于,所述至少一个关联元素至少包括所述参考应用程序,以及所述目标关键词集合中与所述参考应用程序存在对应关系的第一类关键词;所述确定模块,包括:
获取子模块,被配置为对于所述目标关键词集合和所述参考关键词集合中的每个所述第一类关键词,获取所述第一类关键词与所述目标应用程序之间的相似度;
计算子模块,被配置为对于所述参考关键词集合中的每个所述第二类关键词,按照所述预定算法根据所述目标关键词集合和所述第二类关键词对应的应用程序集合之间的相似度计算所述第二类关键词与所述目标应用程序之间的相似度,所述应用程序集合是直接与所述第二类关键词存在对应关系的各个应用程序的集合;
第一确定子模块,被配置为确定所述目标关键词集合和所述参考关键词集合中与所述目标应用程序之间的相似度大于预设相似度的关键词为所述目标应用程序对应的所述标签。
8.根据权利要求7所述的装置,其特征在于,所述计算子模块,被配置为计算:
s ( a , b ) = 1 , a = b c | I ( a ) | | I ( b ) | Σ i | I ( a ) | Σ j | I ( b ) | s ( I i ( a ) , I j ( b ) ) , a ≠ b , I ( a ) ≠ φ , I ( b ) ≠ φ 0 , o t h e r w i s e
其中,s(x,y)表示x与y之间的相似度,a表示所述目标应用程序,b表示所述第二类关键词,I(a)是所述目标关键词集合,I(b)是所述第二类关键词对应的所述应用程序集合,c是预设衰减因子。
9.根据权利要求6所述的装置,其特征在于,所述至少一个关联元素包括所述目标关键词集合中与所述第二类关键词属于同一个主题的第一类关键词;所述确定模块,包括:
第二确定子模块,被配置为根据所述主题分析模型确定所述目标关键词集合中包括的所述第一类关键词对应的各个主题;
第三确定子模块,被配置为确定在所述目标关键词集合中所占的比例达到第一比例阈值的目标主题;
第四确定子模块,被配置为确定所述目标关键词集合和所述参考关键词集合中,属于所述目标主题且在所述目标主题中所占的比例达到第二比例阈值的关键词为所述目标应用程序对应的所述标签。
10.根据权利要求5至9任一所述的装置,其特征在于,所述第一获取模块,还被配置为:
获取历史搜索所述目标应用程序的搜索请求中包括的所述第一类关键词;
和/或,通过网络爬虫获取所述目标应用程序对应的所述第一类关键词;
和/或,获取所述目标应用程序的描述信息中包括的所述第一类关键词。
11.一种标签确定装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标应用程序对应的目标关键词集合,所述目标关键词集合中包括第一类关键词;
获取参考应用程序对应的参考关键词集合,所述参考关键词集合中包括所述第一类关键词和/或第二类关键词;
根据所述目标关键词集合和所述参考关键词集合按照预定算法确定所述目标应用程序对应的标签,和/或,根据所述目标关键词集合和所述参考关键词集合按照主题分析模型确定所述目标应用程序对应的所述标签;
其中,所述第一类关键词是直接与所述目标应用程序存在对应关系的关键词,所述第二类关键词是通过至少一个关联元素与所述目标应用程序存在对应关系的关键词。
CN201611154191.2A 2016-12-14 2016-12-14 标签确定方法及装置 Active CN106599194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611154191.2A CN106599194B (zh) 2016-12-14 2016-12-14 标签确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611154191.2A CN106599194B (zh) 2016-12-14 2016-12-14 标签确定方法及装置

Publications (2)

Publication Number Publication Date
CN106599194A true CN106599194A (zh) 2017-04-26
CN106599194B CN106599194B (zh) 2021-03-30

Family

ID=58801257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611154191.2A Active CN106599194B (zh) 2016-12-14 2016-12-14 标签确定方法及装置

Country Status (1)

Country Link
CN (1) CN106599194B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944946A (zh) * 2017-11-03 2018-04-20 清华大学 商品标签生成方法及装置
CN108170665A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于综合相似度的关键词拓展方法和装置
CN108763194A (zh) * 2018-04-27 2018-11-06 广州优视网络科技有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN109783175A (zh) * 2019-01-16 2019-05-21 平安普惠企业管理有限公司 应用程序图标管理方法、装置、可读存储介质及终端设备
CN110069320A (zh) * 2019-04-29 2019-07-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN110362657A (zh) * 2019-07-12 2019-10-22 浙江每日互动网络科技股份有限公司 一种获取app画像标签的计算设备
CN112052330A (zh) * 2019-06-05 2020-12-08 上海游昆信息技术有限公司 一种应用程序关键词的分配方法及装置
CN114398514A (zh) * 2021-12-24 2022-04-26 北京达佳互联信息技术有限公司 一种视频展示方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN104239571A (zh) * 2014-09-30 2014-12-24 北京奇虎科技有限公司 一种进行应用推荐的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN104239571A (zh) * 2014-09-30 2014-12-24 北京奇虎科技有限公司 一种进行应用推荐的方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944946A (zh) * 2017-11-03 2018-04-20 清华大学 商品标签生成方法及装置
CN107944946B (zh) * 2017-11-03 2020-10-16 清华大学 商品标签生成方法及装置
CN108170665A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于综合相似度的关键词拓展方法和装置
CN108763194A (zh) * 2018-04-27 2018-11-06 广州优视网络科技有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN108763194B (zh) * 2018-04-27 2022-09-27 阿里巴巴(中国)有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN109783175A (zh) * 2019-01-16 2019-05-21 平安普惠企业管理有限公司 应用程序图标管理方法、装置、可读存储介质及终端设备
CN110069320A (zh) * 2019-04-29 2019-07-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN110069320B (zh) * 2019-04-29 2023-06-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN112052330A (zh) * 2019-06-05 2020-12-08 上海游昆信息技术有限公司 一种应用程序关键词的分配方法及装置
CN112052330B (zh) * 2019-06-05 2021-11-26 上海游昆信息技术有限公司 一种应用程序关键词的分配方法及装置
CN110362657A (zh) * 2019-07-12 2019-10-22 浙江每日互动网络科技股份有限公司 一种获取app画像标签的计算设备
CN114398514A (zh) * 2021-12-24 2022-04-26 北京达佳互联信息技术有限公司 一种视频展示方法、装置及电子设备

Also Published As

Publication number Publication date
CN106599194B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN106599194A (zh) 标签确定方法及装置
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
Albatayneh et al. Utilizing learners’ negative ratings in semantic content-based recommender system for e-learning forum
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN111259263B (zh) 一种物品推荐方法、装置、计算机设备及存储介质
CN103761254B (zh) 多领域服务主题匹配推荐方法
US20090187555A1 (en) Feature selection for ranking
US20160357845A1 (en) Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium
CN109471978B (zh) 一种电子资源推荐方法及装置
US8983969B2 (en) Dynamically compiling a list of solution documents for information technology queries
CN110866119B (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN109214562A (zh) 一种基于rnn的电网科研热点预测与推送方法
US20220172260A1 (en) Method, apparatus, storage medium, and device for generating user profile
US20170228414A1 (en) Generating feature embeddings from a co-occurrence matrix
Trattner et al. Modeling Activation Processes in Human Memory to Predict the Use of Tags in Social Bookmarking Systems.
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN110390014A (zh) 一种主题挖掘方法、装置及存储介质
CN111667018B (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
US20170011095A1 (en) Processing search queries for open education resources
US9477757B1 (en) Latent user models for personalized ranking
CN113705247B (zh) 主题模型效果评估方法、装置、设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant