CN106951571A - 一种给应用标注标签的方法和装置 - Google Patents

一种给应用标注标签的方法和装置 Download PDF

Info

Publication number
CN106951571A
CN106951571A CN201710227588.8A CN201710227588A CN106951571A CN 106951571 A CN106951571 A CN 106951571A CN 201710227588 A CN201710227588 A CN 201710227588A CN 106951571 A CN106951571 A CN 106951571A
Authority
CN
China
Prior art keywords
label
feature
feature words
words
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710227588.8A
Other languages
English (en)
Other versions
CN106951571B (zh
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Youshi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youshi Network Technology Co Ltd filed Critical Guangzhou Youshi Network Technology Co Ltd
Priority to CN201710227588.8A priority Critical patent/CN106951571B/zh
Publication of CN106951571A publication Critical patent/CN106951571A/zh
Priority to PCT/CN2017/118709 priority patent/WO2018188378A1/zh
Application granted granted Critical
Publication of CN106951571B publication Critical patent/CN106951571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Abstract

本发明提供了一种给应用标注标签的方法和装置。所述方法包括:从预置应用库里的每个应用的应用描述信息中提取特征词信息;将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;确定每个标签对归属其的每个特征词的第一偏好度;从待标注标签的新应用的应用描述信息中提取特征词信息;基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。

Description

一种给应用标注标签的方法和装置
技术领域
本发明涉及信息处理技术领域,具体而言涉及一种给应用标注标签的方法和装置。
背景技术
在应用商店或应用市场里提供的应用都具有1个或多个标签,标签的作用是标识各种应用程序的分类或内容,便于用户查找。而在应用商店或应用市场运营过程中,需要对新加入应用库的应用标注标签。例如:应用商店或应用市场刚上线了一个“贪吃蛇”应用,需要给这个应用标注标签,可以标注标签“休闲游戏”。给新上线的应用标注标签的传统方法是通过运营人员根据经验判断该应用适合什么样的标签。这种方法的缺陷有两个:
1、需要耗费巨大的人力成本。对于加入应用库的每一个新应用,运营人员都需要去查阅所有标签,找出合适的标签给应用标注上。
2、准确性难以保障并且效率低。由于加入应用库的新应用众多,运营人员不可能对每一款新应用都花时间去下载、安装、体验,运营人员一般是通过应用名作为判断依据,这导致准确性难以保障;而且靠人工来一个一个标注标签,效率低。
发明内容
本发明的目的在于提供一种给应用标注标签的方法和装置,以改善上述问题。
本发明第一实施例提供了一种给应用标注标签的方法,其包括:
从预置应用库里的每个应用的应用描述信息中提取特征词信息;
将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;
确定每个标签对归属其的每个特征词的第一偏好度;
从待标注标签的新应用的应用描述信息中提取特征词信息;
基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;
根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
本发明第二实施例提供了一种给应用标注标签的装置,其包括:
特征词信息提取单元,用于从预置应用库里的每个应用的应用描述信息中提取特征词信息,和从待标注标签的新应用的应用描述信息中提取特征词信息;
标签的特征词信息确定单元,用于将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;
第一偏好度确定单元,用于确定每个标签对归属其的每个特征词的第一偏好度;
第二偏好度确定单元,用于基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;
标签标注单元,用于根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
优选的,所述特征词信息包含特征词和该特征词对其所属应用的权重,首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。
优选的,所述标签的特征词信息包括特征词和该特征词在该标签上的权重,在合并过程中相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征词j在标签t上的权重;
wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;
A表示预置应用库里的具有标签t的应用集合;
W表示归属于应用集合A中的应用的特征词集合;
n表示应用集合A里的应用数量;
m表示特征词集合W里的特征词数量。
优选的,确定所述第一偏好度的方法如下:
其中:
pt,j表示标签t对特征词j的第一偏好度;
ft,j表示特征词j在标签t上的权重;
sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:
且i∈AA,j∈Aw
其中:
wi,j表示特征词j对预置应用库里的应用i的权重;
AA表示预置应用库里的所有应用的集合;
Aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;
n表示应用集合AA里的应用数量;
m表示特征词集合Aw里的特征词数量。
优选的,确定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对新应用i的权重;
AM表示所获得的归属于标签t的所有特征词的集合;
m表示归属于标签t的特征词集合里的特征词数量。
优选的,首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:
且j∈topict
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
topict表示所选取的归属于标签t的一定数量的主题特征词的集合;
m表示归属于标签t的主题特征词集合里的特征词数量。
根据本发明的一种给应用标注标签的方法和装置,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。
附图说明
图1是本发明实施例提供的给应用标注标签的方法的流程图;
图2是本发明实施例提供的给应用标注标签的装置的示意性框图。
具体实施方式
下面将结合本发明实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够实现自动给新入应用库的待标注标签的应用标注标签,需要在待标注标签的新应用与预置的标签库里的标签之间建立起关联性,下面通过实施例描述的方法利用了应用库里已知的应用及其具有的标签、以及用于介绍应用的特点和核心功能的应用描述信息和分词技术,建立了在待标注标签的新应用与预置的标签库里的标签之间的关联性,从而实现自动给应用标注标签的目的。
图1是本发明实施例提供的给应用标注标签的方法的流程图。如图1所示,本发明的给应用标注标签的方法包括以下步骤:
S1:从预置应用库里的每个应用的应用描述信息中提取特征词信息。
通常,在开发应用市场或应用商店时通常都会预置应用库,从应用市场或应用商店下载的第三方应用都在保存在该预置应用库中。另外,应用商店或应用市场提供的第三方应用都具有1个或多个标签,这些标签来自于在开发应用商店或应用市场时预置的标签库,标签的作用是标识各种应用程序的分类或内容,便于用户查找。这些对于本领域技术人员来说是公知常识,这里不对这些常规技术做过多介绍。
除此之外,预置应用库里的每个应用都具有应用描述信息,用于介绍该应用的特点和核心功能,以便让用户了解该应用,对该应用产生兴趣。
本发明提供的方法首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。这样,步骤S1所述的特征词信息包含特征词和该特征词对其所属应用的权重。可以采用本领域公知的分词技术来对应用描述信息进行分词处理,所提取出的特征词就是经过分词处理后得到的词语,或者称为关键词。
对某个应用i的描述信息提取的特征词信息记为wi
wi={w1:pci1,w2:pci2,w3:pci3,…}
其中:w1:pci1,w2:pci2,w3:pci3,…表示特征词和相应的权重,例如w1表示一个特征词,pci1表示该特征词在该应用i上的权重。
例如:应用“搜狗拼音输入法”的应用描述信息为:“打字精准、界面最个性的输入法,拥有全能的输入法”,对该描述信息分词处理后得到的特征词为:”打字、精准、界面、个性、输入法、拥有、全能、输入法”。那么“搜狗拼音输入法”的特征词信息为:
S2:将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息。
预置应用库里的已存在的每个应用都具有1个或多个标签,在对每个应用的描述信息提取了归属于应用的特征词,将具有相同标签的多个应用所拥有的相应特征词信息进行合并,合并后得到的特征词信息作为该标签的特征词信息。
所述标签的特征词信息同样地包括了特征词和该特征词在该标签上的权重。在多个特征词信息的合并过程中相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征词j在标签t上的权重;
wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;
A表示预置应用库里的具有标签t的应用集合;
W表示归属于应用集合A中的应用的特征词集合;
n表示应用集合A里的应用数量;
m表示特征词集合W里的特征词数量。
可知,每个特征词在某个标签上的权重即为每个特征词在归属于具有该标签的应用集合中的应用的特征词集合中出现的概率。
以标签“直播”为例,假设具有该标签的应用有两个,分别是“斗鱼TV”、“YY”。应用“斗鱼TV”的特征词信息为应用“YY”的特征词信息为那么合并后,标签“直播”的特征词为("游戏","直播","娱乐"),标签“直播”的特征词信息为:
S3:确定每个标签对归属其的每个特征词的第一偏好度。
在得到标签库里的全部标签的各自特征词信息(一般可以认为预置应用库里的全部应用所具有的标签的集合涵盖了标签库里的全部标签),需要建立每个标签与归属其的特征词之间关联度,在这里以每个标签对归属其的每个特征词的第一偏好度作为关联度,确定所述第一偏好度的方法如下:
其中:
pt,j表示标签t对特征词j的第一偏好度;
ft,j表示特征词j在标签t上的权重,即在归属于具有标签t的应用集合中的应用的特征词集合中出现的概率;
sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:
且i∈AA,j∈Aw
其中:
wi,j表示特征词j对预置应用库里的应用i的权重;
AA表示预置应用库里的所有应用的集合;
Aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;
n表示应用集合AA里的应用数量;
m表示特征词集合Aw里的特征词数量。
S4:从待标注标签的新应用的应用描述信息中提取特征词信息。
这里的实现步骤与步骤S1的实现方法相同,从待标注标签的新应用的应用描述信息中提取特征词信息,该特征词信息包含特征词和该特征词对其所属新应用的权重。同样可以记为wi
wi={w1:pci1,w2:pci2,w3:pci3,…}。
其它相关描述可以参见步骤S1的描述,这里不重复描述了。
S5:基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度。
当有了每个标签对归属其的每个特征词的第一偏好度、以及提取的归属于新应用的特征词信息,就可以建立起该新应用与标签库里的每个标签的关联度,在这里以该新应用对标签库里的每个标签的第二偏好度作为关联度,确定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
AM表示所获得的归属于标签t的所有特征词的集合;
m表示归属于标签t的特征词集合里的特征词数量。
从该公式可以看出:将新应用i看做是从新应用i的应用描述信息中提取的不同特征词j的组合,通过叠加标签t对归属于新应用i的每个特征词的第一偏好度值,得到该新应用i对该标签t的第二偏好度。注意,如果归属于新应用i的某个特征词不在归属于标签t的特征词集合里,则标签t对该特征词的第一偏好度为0。
在该实施例中,当归属于标签t的特征词集合里的特征词数量很多时,进行查找和累加的次数也多,会造成计算量大。下面介绍一个优选实施例,根据第一偏好度值的大小,预先从归属于标签t的特征词集合里筛选掉一部分特征词,即将较小第一偏好度值对应的特征词筛选掉,减少了归属于标签t的特征词集合里的特征词数量,可以降低计算量。
在一个优选实施例中,首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,即所述预设方式可以是根据标签t对归属于其的每个特征词的第一偏好度的从大到小顺序,选取第一偏好度排名在前面的一定数量的特征词作为主题特征词,也可以预设一个阈值,选取大于等于该阈值的多个第一偏好度所对应的相应多个特征词作为主题特征词,可以根据数据情况及业务场景自行定义,例如选取50个、100个、200个或其它值;接着确定所述第二偏好度,方法如下:
且j∈topict
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
topict表示所选取的归属于标签t的一定数量的主题特征词的集合;
m表示归属于标签t的主题特征词集合里的特征词数量。
S6:根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
所述预设方式可以采用多种方式。例如,可以根据新应用对每个标签的第二偏好度值从大到小的顺序,选取第二偏好度排名在前面的1个或多个标签给该新应用标注上。可以根据数据情况及业务场景自行定义需要标注的标签数量,可以是1-5之间的任意数量,如1个、2个、5个等,或者还可以更多。
另外,也可以设置一个阈值,选取大于等于该阈值的1个或多个第二偏好度所对应的相应1个或多个标签给该新应用标注上。可以根据数据情况及业务场景自行定义需要标注的标签数量,可以是1-5之间的任意数量,如1个、2个、5个等,或者还可以更多。
根据本发明的给应用标注标签的方法,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与预置的标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。
图2是本发明实施例提供的给应用标注标签的装置的示意性框图。如图2所示,本发明的给应用标注标签的装置包括:
特征词信息提取单元,用于从预置应用库里的每个应用的应用描述信息中提取特征词信息,和从待标注标签的新应用的应用描述信息中提取特征词信息;
标签的特征词信息确定单元,用于将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;
第一偏好度确定单元,用于确定每个标签对归属其的每个特征词的第一偏好度;
第二偏好度确定单元,用于基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;
标签标注单元,用于根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
这里的按预设方式选取1个或多个标签的具体实现方式可以参考前述方法实施例中描述的实现方法。
优选的,所述特征词信息提取单元用于首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。
优选的,所述标签的特征词信息确定单元用于在合并过程中将相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征词j在标签t上的权重;
wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;
A表示预置应用库里的具有标签t的应用集合;
W表示归属于应用集合A中的应用的特征词集合;
n表示应用集合A里的应用数量;
m表示特征词集合W里的特征词数量。
优选的,所述第一偏好度确定单元用于确定所述第一偏好度的方法如下:
其中:
pt,j表示标签t对特征词j的第一偏好度;
ft,j表示特征词j在标签t上的权重;
sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:
且i∈AA,j∈Aw
其中:
wi,j表示特征词j对预置应用库里的应用i的权重;
AA表示预置应用库里的所有应用的集合;
Aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;
n表示应用集合AA里的应用数量;
m表示特征词集合Aw里的特征词数量。
优选的,所述第二偏好度确定单元用于确定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新应用i对标签r的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
AM表示所获得的归属于标签t的所有特征词的集合;
m表示归属于标签t的特征词集合里的特征词数量。
为了降低对所述第二偏好度的计算量,所述第二偏好度确定单元还用于首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:
且j∈topict
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
topict表示所选取的归属于标签t的一定数量的主题特征词的集合;
m表示归属于标签t的主题特征词集合里的特征词数量。
这里的按预设方式选取一定数量的特征词作为相应标签的主题特征词的具体实现方式可以参考前述方法实施例中描述的实现方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,这里结合产品实施例描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
根据本发明的给应用标注标签的装置,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与预置的标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。
本发明实施例所提供的给应用标注标签的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,智能平板电脑,智能手机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种给应用标注标签的方法,其包括:
从预置应用库里的每个应用的应用描述信息中提取特征词信息;
将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;
确定每个标签对归属其的每个特征词的第一偏好度;
从待标注标签的新应用的应用描述信息中提取特征词信息;
基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;
根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
2.根据权利要求1所述的方法,其特征在于在从预置应用库里的每个应用的应用描述信息中提取特征词信息的步骤中,所述特征词信息包含特征词和该特征词对其所属应用的权重,首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。
3.根据权利要求2所述的方法,其特征在于在将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息的步骤中,所述标签的特征词信息包括特征词和该特征词在该标签上的权重,在合并过程中相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征词j在标签t上的权重;
wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;
A表示预置应用库里的具有标签t的应用集合;
W表示归属于应用集合A中的应用的特征词集合;
n表示应用集合A里的应用数量;
m表示特征词集合W里的特征词数量。
4.根据权利要求1所述的方法,其特征在于在确定每个标签对归属其的每个特征词的第一偏好度的步骤中,确定所述第一偏好度的方法如下:
p t , j = f t , j s j
其中:
pt,j表示标签t对特征词j的第一偏好度;
ft,j表示特征词j在标签t上的权重;
sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:
且i∈AA,j∈Aw
其中:
wi,j表示特征词j对预置应用库里的应用i的权重;
AA表示预置应用库里的所有应用的集合;
Aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;
n表示应用集合AA里的应用数量;
m表示特征词集合Aw里的特征词数量。
5.根据权利要求1所述的方法,其特征在于在确定新应用对标签库里的每个标签的第二偏好度的步骤中,确定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
AM表示所获得的归属于标签t的所有特征词的集合;
m表示归属于标签t的特征词集合里的特征词数量。
6.根据权利要求1所述的方法,其特征在于在确定新应用对标签库里的每个标签的第二偏好度的步骤中,首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:
且j∈topict
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
topict表示所选取的归属于标签t的一定数量的主题特征词的集合;
m表示归属于标签t的主题特征词集合里的特征词数量。
7.一种给应用标注标签的装置,其包括:
特征词信息提取单元,用于从预置应用库里的每个应用的应用描述信息中提取特征词信息,和从待标注标签的新应用的应用描述信息中提取特征词信息;
标签的特征词信息确定单元,用于将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;
第一偏好度确定单元,用于确定每个标签对归属其的每个特征词的第一偏好度;
第二偏好度确定单元,用于基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;
标签标注单元,用于根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。
8.根据权利要求7所述的装置,其特征在于所述特征词信息提取单元用于首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。
9.根据权利要求7所述的装置,其特征在于所述标签的特征词信息确定单元用于在合并过程中将相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征词j在标签t上的权重;
wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;
A表示预置应用库里的具有标签t的应用集合;
W表示归属于应用集合A中的应用的特征词集合;
n表示应用集合A里的应用数量;
m表示特征词集合W里的特征词数量。
10.根据权利要求7所述的装置,其特征在于所述第一偏好度确定单元用于确定所述第一偏好度的方法如下:
p t , j = f t , j s j
其中:
pt,j表示标签t对特征词j的第一偏好度;
ft,j表示特征词j在标签t上的权重;
sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:
且i∈AA,j∈Aw
其中:
wi,j表示特征词j对预置应用库里的应用i的权重;
AA表示预置应用库里的所有应用的集合;
Aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;
n表示应用集合AA里的应用数量;
m表示特征词集合Aw里的特征词数量。
11.根据权利要求7所述的装置,其特征在于所述第二偏好度确定单元用于确定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
AM表示所获得的归属于标签t的所有特征词的集合;
m表示归属于标签t的特征词集合里的特征词数量。
12.根据权利要求7所述的装置,其特征在于所述第二偏好度确定单元还用于首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:
且j∈topict
其中:
ri,t表示新应用i对标签t的第二偏好度;
pt,j表示标签t对特征词j的第一偏好度;
wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;
topict表示所选取的归属于标签t的一定数量的主题特征词的集合;
m表示归属于标签t的主题特征词集合里的特征词数量。
CN201710227588.8A 2017-04-10 2017-04-10 一种给应用标注标签的方法和装置 Active CN106951571B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710227588.8A CN106951571B (zh) 2017-04-10 2017-04-10 一种给应用标注标签的方法和装置
PCT/CN2017/118709 WO2018188378A1 (zh) 2017-04-10 2017-12-26 一种给应用标注标签的方法、装置、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710227588.8A CN106951571B (zh) 2017-04-10 2017-04-10 一种给应用标注标签的方法和装置

Publications (2)

Publication Number Publication Date
CN106951571A true CN106951571A (zh) 2017-07-14
CN106951571B CN106951571B (zh) 2021-06-22

Family

ID=59475645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710227588.8A Active CN106951571B (zh) 2017-04-10 2017-04-10 一种给应用标注标签的方法和装置

Country Status (2)

Country Link
CN (1) CN106951571B (zh)
WO (1) WO2018188378A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506398A (zh) * 2017-08-02 2017-12-22 杭州东信北邮信息技术有限公司 一种为图书添加标签属性的方法
CN108363550A (zh) * 2017-12-28 2018-08-03 中兴智能交通股份有限公司 一种缓存数据更新和存储的方法和装置
WO2018188378A1 (zh) * 2017-04-10 2018-10-18 广州优视网络科技有限公司 一种给应用标注标签的方法、装置、终端及计算机可读存储介质
CN108763194A (zh) * 2018-04-27 2018-11-06 广州优视网络科技有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN108900922A (zh) * 2018-07-20 2018-11-27 广州华多网络科技有限公司 设置直播组件的标签的方法和装置
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN110457464A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 用于信息处理的方法、装置和计算设备
CN111880872A (zh) * 2020-06-28 2020-11-03 华为技术有限公司 一种管理应用程序app的方法、终端设备、服务器和系统
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271957A1 (en) * 2011-04-22 2012-10-25 Verizon Patent And Licensing Inc. Method and system for associating a contact with multiple tag classifications
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810168A (zh) * 2012-11-06 2014-05-21 深圳市世纪光速信息技术有限公司 检索应用的方法、装置及终端
US20160267165A1 (en) * 2015-03-14 2016-09-15 Hui Wang Automated Key Words (Phrases) Discovery In Document Stacks And Its Application To Document Classification, Aggregation, and Summarization
CN105069106A (zh) * 2015-08-07 2015-11-18 小米科技有限责任公司 应用群组推荐方法和装置
CN106980667B (zh) * 2017-03-22 2019-04-12 广州优视网络科技有限公司 一种给文章标注标签的方法和装置
CN106951571B (zh) * 2017-04-10 2021-06-22 阿里巴巴(中国)有限公司 一种给应用标注标签的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271957A1 (en) * 2011-04-22 2012-10-25 Verizon Patent And Licensing Inc. Method and system for associating a contact with multiple tag classifications
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188378A1 (zh) * 2017-04-10 2018-10-18 广州优视网络科技有限公司 一种给应用标注标签的方法、装置、终端及计算机可读存储介质
CN107506398A (zh) * 2017-08-02 2017-12-22 杭州东信北邮信息技术有限公司 一种为图书添加标签属性的方法
CN107506398B (zh) * 2017-08-02 2020-01-24 杭州东信北邮信息技术有限公司 一种为图书添加标签属性的方法
CN108363550A (zh) * 2017-12-28 2018-08-03 中兴智能交通股份有限公司 一种缓存数据更新和存储的方法和装置
CN108763194A (zh) * 2018-04-27 2018-11-06 广州优视网络科技有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN108900922B (zh) * 2018-07-20 2021-03-19 广州方硅信息技术有限公司 设置直播组件的标签的方法和装置
CN108900922A (zh) * 2018-07-20 2018-11-27 广州华多网络科技有限公司 设置直播组件的标签的方法和装置
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN109522424B (zh) * 2018-10-16 2020-04-24 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN110457464A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 用于信息处理的方法、装置和计算设备
CN110457464B (zh) * 2019-07-08 2023-03-24 创新先进技术有限公司 用于信息处理的方法、装置和计算设备
CN111880872A (zh) * 2020-06-28 2020-11-03 华为技术有限公司 一种管理应用程序app的方法、终端设备、服务器和系统
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN111967518B (zh) * 2020-08-18 2023-10-13 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备

Also Published As

Publication number Publication date
CN106951571B (zh) 2021-06-22
WO2018188378A1 (zh) 2018-10-18

Similar Documents

Publication Publication Date Title
CN106951571A (zh) 一种给应用标注标签的方法和装置
CN111190939A (zh) 一种用户画像构建方法及装置
CN108595519A (zh) 热点事件分类方法、装置及存储介质
CN106846094A (zh) 一种基于已安装应用来推荐应用信息的方法和装置
CN108376164B (zh) 一种潜力主播的展示方法及装置
CN108256537A (zh) 一种用户性别预测方法和系统
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN103631874B (zh) 社交平台的ugc标签类别确定方法和装置
CN110457481A (zh) 一种分类模型训练的方法、装置、设备以及存储介质
CN106919575A (zh) 应用程序搜索方法及装置
CN104951807B (zh) 股市情绪的确定方法和装置
CN104978354B (zh) 文本分类方法和装置
CN108920656A (zh) 文档属性描述内容提取方法和装置
CN106980667B (zh) 一种给文章标注标签的方法和装置
CN106649276B (zh) 标题中核心产品词的识别方法以及装置
CN109101476A (zh) 一种词向量生成、数据处理方法和装置
CN106909688A (zh) 一种基于输入搜索词来推荐搜索词的方法和装置
CN107330009A (zh) 主题词分类模型创建方法、创建装置及存储介质
CN110198482A (zh) 一种视频重点桥段标注方法、终端及存储介质
CN106301979B (zh) 检测异常渠道的方法和系统
CN106168968A (zh) 一种网站分类方法及装置
CN104462061A (zh) 词语提取方法及提取装置
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN106960033A (zh) 一种给信息流标注标签的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200907

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant