CN108182201A - 基于重点关键词的应用拓展方法和装置 - Google Patents
基于重点关键词的应用拓展方法和装置 Download PDFInfo
- Publication number
- CN108182201A CN108182201A CN201711229441.9A CN201711229441A CN108182201A CN 108182201 A CN108182201 A CN 108182201A CN 201711229441 A CN201711229441 A CN 201711229441A CN 108182201 A CN108182201 A CN 108182201A
- Authority
- CN
- China
- Prior art keywords
- app
- keyword
- emphasis
- expanded
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于重点关键词的应用拓展方法和装置。所述方法包括:获得待拓展APP在应用库平台中对应的第一级关键词;确定各个第一级关键词对于所述待拓展APP的重要度,所述重要度用于表示待拓展APP在所述第一级关键词的搜索结果中的排名信息;根据所述重要度,从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP信息,得到候选APP集合,从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。本发明能够自动筛选出相似性较高关联APP,既实现量产,同时又可保证拓展质量。
Description
技术领域
本发明涉及数据分析技术领域,特别是涉及基于重点关键词的应用拓展方法和装置。
背景技术
随着智能终端的迅速发展,带动了移动互联网软件行业的发展。越来越多用户在智能终端中的应用库平台(即应用商店)下载各种APP(application,应用),根据维基百科数据显示,65%的用户通过应用商店搜索下载所需应用。所以APP开发者为提高自身APP在应用商店的搜索质量,需要做好应用商店的优化工作。其关键工作之一是做好APP的关联APP(或者竞品APP)的分析以优化自身APP。
目前,基于智能终端应用商店的特定行业知识背景,关联APP拓展较多依靠人工进行判断拓展,对于人工拓展,拓展质量受到人工主观认知水平的影响较大,因此存在关联APP拓展结果的质量不稳定的缺陷。
发明内容
基于此,本发明提供了基于重点关键词的应用拓展方法和装置,能够克服现有应用程序关联拓展方式存在的质量不稳定的缺陷。
本发明实施例提供的方案包括:
一种基于重点关键词的应用拓展方法,包括:
获取待拓展APP对应的第一级关键词,确定各个第一级关键词对于所述待拓展APP的重要度;其中,所述第一级关键词能够在应用库平台搜索到待拓展APP;
根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;
获取各个第一级重点关键词在应用库平台搜索到的APP信息,从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP;
其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
一种基于重点关键词的应用拓展装置,包括:
关键词确定模块,用于获取待拓展APP对应的第一级关键词,确定各个第一级关键词对于所述待拓展APP的重要度;其中,所述第一级关键词能够在应用库平台搜索到待拓展APP;
候选应用确定模块,用于根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合;
以及,关联应用确定模块,用于从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP;
其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
实施上述实施例,在接收到待拓展APP之后,可根据应用库平台的历史搜索记录信息获取待拓展APP对应的第一级关键词;并进一步确定各个第一级关键词对于所述待拓展APP的重要度,根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;最后从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP.上述技术方案能够根据对待拓展的APP,基于关键词对于所述待拓展APP的重要度获得对应的重点关键词,进而根据重点关键词确定待拓展APP对应的关联APP,能够提高基于重点关键词的应用拓展质量;此外,通过上述实施例的基于重点关键词的应用拓展方法,还便于批量导出关联应用,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。
附图说明
图1为一实施例的基于重点关键词的应用拓展方法的示意性流程图;
图2为一实施例的基于重点关键词的应用拓展方法的APP层级示意性;
图3为另一实施例的基于重点关键词的应用拓展方法的示意性流程图;
图4为一实施例的基于重点关键词的应用拓展装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明各实施例中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
图1为一实施例的基于重点关键词的应用拓展方法的示意性流程图;如图1所示,本实施例中的基于重点关键词的应用拓展方法包括步骤:
S11,获取待拓展APP对应的第一级关键词,并确定各个第一级关键词对于所述待拓展APP的重要度;其中,所述第一级关键词能够在应用库平台搜索到待拓展APP。
本发明实施例中的关键词,包括所有可用于在应用库平台搜索APP的字符,例如汉字、英文单词或者字母、数字或者其他文字符号,还可以是几种字符的组合形式。所述第一级关键词可以是通过分析应用库平台的历史搜索信息得到的,所述历史搜索信息中包含关键词与APP的映射关系,也可是根据经验值预先指定的。
其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。因此,第一级关键词对于所述待拓展APP的重要度,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的重要度,也可以是预先设定的重要度。若为前者,在一实施例中,所述基于重点关键词的应用拓展方法还包括:根据待拓展APP在各个第一级关键词搜索结果中的排名信息确定各个第一级关键词对于所述待拓展APP的重要度的步骤。
S12,根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合。
S13,从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。
其中,第一级重点关键词搜索到的APP,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的APP,也可以是预先设定的APP。
可选地,预先确定所述待拓展APP对应的关键词对于所述待拓展APP的重要度的步骤包括:根据关键词搜索结果中APP的排名信息,对关键词对于APP的重要度赋值:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1
其中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示搜索结果中APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
在一可选实施例中,根据应用库平台的历史搜索记录信息获取待拓展APP对应的第一级关键词之前,还包括对应用库平台的历史搜索记录信息进行预处理的步骤。例如基于最近一周在所述应用库平台发生的搜索记录信息,历史搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息。例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称、所属榜单等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)。
在一可选实施例中,对应用库平台的历史搜索记录信息进行预处理的步骤可包括:
首先,获取应用库平台在设定时间段的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;所述第一映射关系中包括关键词对应的APP信息,以及APP在所述关键词的多次搜索结果中的排名信息。然后,根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词,还包括各个关键词对于所述APP的重要度,所述重要度用于表示APP在所述关键词的搜索结果中的排名信息,APP在关键词的搜索结果中排名越前,该关键词对于该APP的重要度越大。进一步的,根据所述第一映射关系和第二映射关系建立所述应用库平台对应的数据映射库。
优选地,根据所述历史搜索记录信息确定各关键词对应的第一映射关系具体可包括:根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排名信息;按照APP排名先后从该关键词的每次搜索结果中选取设定数量的APP,得到优选APP集合;统计所述优选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的频次特征向量;所述频次特征向量中的各个元素分别对应所述优选APP集合中各个APP的出现频次;根据所述优选APP集合以及所述频次特征向量,得到所述关键词对应的第一映射关系。
基于所述数据映射库,所述根据应用库平台的历史搜索记录信息获取待拓展APP对应的第一级关键词可包括:查询所述数据映射库,获得待拓展APP对应的第二映射关系,根据所述第二映射关系得到待拓展APP对应的第一级关键词,以及所述第一级关键词的重要度;在一实施例中,上述步骤S13的具体实现方式可包括:从待拓展APP对应的全部第一级关键词中,选取重要度由高到低排名在前的设定数量(例如重要度TOP N)的第一级关键词,作为第一级重点关键词。
其中,获取各个第一级重点关键词在应用库平台搜索到的APP信息可包括:查询所述数据映射库,获得各个第一级重点关键词对应的第一映射关系,根据所述第一映射关系得到各个第一级重点关键词搜索到的APP。
在一实施例中,上述步骤S12中,获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合包括:根据全部第一级重点关键词、各个第一级重点关键词搜索到的APP,得到一APP矩阵;统计所述APP矩阵中各APP的出现频次,选取所述APP矩阵中出现频次大于或等于设定频次的APP作为第二级APP,组成候选APP集合。
参考图2所示,待拓展APP为第一级APP(即APP(1)),待拓展APP对应的关键词为第一级关键词(即KW(1)),第一级关键词/第一级重点关键词覆盖的APP为第二级APP(即APP(2)),第二级APP/第二级重点APP对应的关键词为第二级关键词(即KW(2))。
进一步地,在一实施例中,上述的从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP可包括:
确定待拓展APP在应用库平台中所属的应用榜单,从所述候选APP集合中删除与待拓展APP属于不同应用榜单的APP,更新候选APP集合;之后再根据候选APP集合包含的APP筛选出所述待拓展APP对应的关联APP。
在另一实施例中,从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP还可包括:
计算待拓展APP与候选APP集合中各第二级APP的关联度;选取候选APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成重点候选APP集合;进而可从所述重点候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。即确定待拓展APP在应用库平台中所属的应用榜单,从所述重点候选APP集合中删除与待拓展APP属于不同应用榜单的APP,更新重点候选APP集合,之后再根据重点候选APP集合包含的APP筛选出所述待拓展APP对应的关联APP。即先根据APP关联度对第二级APP进行筛选,再根据应用榜单对第二级APP进行再次筛选,
或者,确定待拓展APP在应用库平台中所属的应用榜单,从所述候选APP集合中删除与待拓展APP属于不同应用榜单的APP,更新候选APP集合;之后计算待拓展APP与更新后的候选APP集合中各第二级APP的关联度;选取更新后的候选APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成重点候选APP集合;进而从所述重点候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。即先根据应用榜单对第二级APP进行筛选,再根据APP关联度对剩余的第二级APP再次筛选。
在一实施例中,可采用如下公式计算待拓展APP与候选APP集合中各第二级APP的关联度:
其中,APP(1)表示待拓展APP,APP(2) j表示候选APP集合中的第j个APP,m表示APP(1)对应的全部关键词中能够映射到APP(2) j的关键词个数;__4()表示APP对应的重要度特征向量,所述重要度特征向量中各个元素分别表示所述APP对应的关键词集合中各个关键词对于所述APP的重要度;分母表示APP(1)对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示APP(1)对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。可见,APP(2) j被关联越多次其分子越大,且当被关联次数一样多的情况下,APP(2) j被对APP(1)重要程度越大的词汇关联其分子也越大。
可以理解的,两个APP之间关联度的计算方法,包括但不限于上述算法,还可以采用其他APP之间关联度的算法。
进一步地,根据上述实施例筛选得到的重点候选APP集合,确定待拓展APP对应的关联APP的过程包括:
计算待拓展APP与重点候选APP集合中各个第二级重点APP的相似度;从重点候选APP集合中选取所述相似度由高到低排名在前的设定数量(该数量可根据实际需要设置)的第二级重点APP,作为待拓展APP对应的关联APP。
在一实施例中,可通过如下公式计算待拓展APP与重点候选APP集合中各个第二级重点APP的相似度:
其中,APP(1)表示待拓展APP,APP(2) j表示重点候选APP集合中的第j个APP;V_4()表示APP对应的重要度特征向量,在APP对应的重要度特征向量中,各个元素分别表示该APP对应的各个关键词对于该APP的重要度;V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度。
可以理解的,两个APP之间语义相似度的计算方法,包括但不限于上述的基于余弦相似度计算语义相似度的算法,还可以采用其他用于计算语义相似度的算法。
在一实施例中,从重点候选APP集合中选取所述相似度由高到低排名在前的设定数量的第二级重点APP,作为待拓展APP对应的关联APP之前,还可包括:
获取预先定义的惩罚系数,根据所述惩罚系数对重点候选APP集合中各个第二级重点APP对应的相似度进行调整,得到各个第二级重点APP的相似度调整值。
在一实施例中,根据所述惩罚系数对重点候选APP集合中各个第二级重点APP对应的相似度进行调整,得到各个第二级重点APP的相似度处理值的公式可为:
sim=cos(APP(1),APP(2) j)-α;
其中,α∈[0,1],表示惩罚系数;sim_1(APP(1),APP(2) j)表示APP(1)和APP(2) j的相似度调整值。
上述的相似度进行调整的公式为分段函数,可防止原始相似度减去惩罚系数之后出现负值,即当相减后小于等于0则取0作为其相似度调整值,否则取相减后的结果为其相似度调整值。用相似度调整值表示APP(1)和APP(2) j的相似度。
在一实施例中,从重点候选APP集合中选取所述相似度由高到低排名在前的设定数量的第二级重点APP,作为待拓展APP对应的关联APP之前,还可获取预先定义的惩罚系数,删除重点候选APP集合中相似度低于所述惩罚系数的APP,更新重点候选APP集合。相当于上述实施例中删除重点候选APP集合中所述相似度调整值为0的APP,更新重点候选APP集合。
下面结合图3所述的逻辑示意图,对本发明实施例的基于重点关键词的应用拓展方法做进一步的说明。在图3的实施例中,以苹果应用商店为例,其他应用库平台与之原理相同。所述基于重点关键词的应用拓展方法包括以下步骤。
1.关键词内容抓取
利用苹果开发者API获取苹果应用商店最近一周的历史搜索记录数据,包括但不限于应用名称、关键词详情、关键词搜索指数、关键词搜索结果、应用榜单等。关键词的搜索指数在不同应用库的定义可能不同,对于苹果应用商店是根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数(搜索量),同时考虑搜索量级等因素计算得到的,搜索指数与搜索量两者是呈现正向关系,从经验上大致估计,搜索指数对应的搜索量如下:
其中,P为搜索指数,f(x)代表搜索指数与搜索量两者关系已非单纯的线性增长关系。
2.历史关键词搜索记录数据预处理
基于关键词的最近一周的搜索记录数据,采用第i个关键词进行搜索搜索到的APP数据样式如下:
S(ki)=(appid1,appid2,…,appidn) (2-1)
式中,i,n∈Z,Z表示正整数集合;ki表示第i个关键词,n表示通过关键词ki搜索得到n个按出现顺序排列的APP,对于不同关键词(2-1)中的n值的大小可能不同;
2.1关键词与APP的正向映射关系(即关键词对应的第一映射关系)
由于同一个关键词在一周内可能会被多次搜索,且搜素结果随着搜索时间的变化而变化。对关键词ki的多次搜索结果进行统计汇总,得到关键词ki覆盖的APP集合A(ki)以及对应的频次特征向量V_1(ki),
A(ki)=(appid1,appid2,…,appidn) (2-2)
V_1(ki)=(c1,c2,…,cn) (2-3)
式中,i,n∈Z;cn表示一周内用关键词ki搜索出现第n个app的频次。A(ki)中的APP表示经过筛选的候选APP。筛选的过程可包括:根据设定历史时段内的多次搜索结果,得到关键词ki对应的多次搜索结果中的APP排名信息;按照APP排名先后,从该关键词的每次搜索结果中选取设定数量的APP得到关键词ki对应的优选APP集合;统计优选APP集合中各个APP在所述多次搜索结果中的出现频次,根据所述出现频次,从优选APP集合中删除出现频次低于设定次数的APP,更新优选APP集合,得到该关键词ki对应的APP集合A(ki)。
需要说明的是,本发明实施例中,APP可通过appid标识,appid由应用库平台统一分配,用于标识不同的APP。
2.2关键词与APP的逆向映射关系(即APP对应的第二映射关系)
可选地,根据关键词搜索结果中APP的排名信息,进行关键词对于APP的重要度赋值,具体如下:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5) (2-4)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞) (2-5)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1 (2-6)
式中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
根据(2-1)中S(ki)建立倒排列表,可得第i个APP(即ai)覆盖的关键词集合K(ai)。根据(2-4)、(2-5)、(2-6)可得对应的重要度特征向量V_4(ai),
K(ai)=(keyword1,...,keywordn) (2-7)
V_4(ai)=(w1,w2,…,wn) (2-8)
式中,i,n∈Z;ai表示第i个APP,同时不同APP对应不同的n值大小可能不同;wn表示ai覆盖的第n个关键词keywordn的重要度;V_4(ai)表示各关键词对于ai的重要度特征向量。
可选地,对步骤1中的历史搜索信息进行预处理,整理以下映射关系,用hash表表示为表1所示。
表1:
其中keyword代表关键词,keyword_id代表应用库平台分配的关键词标识符,prioity代表关键词的搜索指数,appid代表应用库平台分配的应用标识符,count表示统计周期内APP相对应出现的频次,weight表示关键词相对于关联APP的重要性,geneid代表应用库平台分配APP分类榜单ID。
3.关联APP拓展
对于输入的待拓展的APP名称,通过查询上述步骤2构建的数据映射库可得到对应的appid。下面步骤将用appid区分不同的APP。
进一步地,根据(2-7)、(2-8)获取待拓展APP(即APP(1))覆盖的关键词集合K(APP(1))及其对应的重要度特征向量V_4(APP(1))分别为:
K(APP(1))=[keyword(1),…,keyword(m)]T (3-1)
V_4(APP(1))=[w(1),…,w(m)]T (3-2)
其中m∈Z,T表示转置。K(APP(1))中的关键词即第一级重点关键词。
根据(2-2)对(3-1)中的关键词列表进行映射,可得到APP矩阵,记为Mapp,则
其中m,n∈Z。Mapp中包含全部第一级重点关键词覆盖的APP。
4.计算待拓展APP与APP矩阵中各APP的关联度
4.1对步骤3中得到的APP矩阵Mapp进行归并并统计其中各APP的频次,选取其中频次排名前k个APP作为第二级APP,可得候选APP集合Sapp,
Sapp={appid1,appid2,…,appidk} (4-1)
式中,k∈Z
4.2计算待拓展APP与候选APP集合Sapp中各APP的关联度
优选地,根据(3-1)、(3-2)、(3-3)可定义的两个APP之间关联度如下:
式中,APP(1)表示待拓展APP;APP(2) j表示候选APP集合Sapp中的第j个APP;n为待拓展APP对应的第一级重点关键词的总数;M为待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词个数。分母表示待拓展APP对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。
4.3第二级APP筛选
针对(4-1)选择关联度Top e的APP构成重点候选APP集合,
5.计算APP(1)与重点候选APP集合中各个APP的相似度
5.1APP与关键词映射
根据(2-7)与(2-8)对中各个第二级重点APP进行映射,得到的重要度特征矩阵:
式中,W(e)表示中第e个APP对应的权重特征向量;w(e) n为W(e)中第n个元素,T表示转置。
5.2根据余弦相似度公式并结合(5-1)可得,计算待拓展APP与中第二级重点APP的余弦相似度为,
式中,APP(1)为待拓展APP;APP(2) j为重点候选APP集合中的第j个APP;V_4(APP(1))·V_4(APP(1) j)表示APP(1)重要度特征向量与APP(2) j重要度特征向量的内积;
||V_4(APP(1))||2||V_4(APP(1) j)||2表示APP(1)重要度特征向量的2-范数与APP(2) j重要度特征向量的2-范数的乘积,即重要度特征向量的元素绝对值的平方和再开方的乘积。
5.3基于(5-1)定义惩罚系数α∈[0,1],对上一步骤中的相似度结果进行调整,以从重点候选APP集合中剔除相似度较低的APP,调整公式为:
6.最后,从重点候选APP集合中删除相似度调整值为0的APP,剩余的APP作为待拓展APP的关联APP;相当于删除重点候选APP集合中相似度低于所述惩罚系数的APP,更新重点候选APP集合。可以理解的,还可从重点候选APP集合中删除相似度调整值低于设定阈值的APP,更新重点候选APP集合。
7.最后对更新后的重点候选APP集合按相似度调整值从高到低取前100个APP,形成待拓展APP的关联APP列表。
上述步骤中,1~2可以是离线计算,定期更新,比如每周重新更新一遍。步骤3~7是在线计算,对用户输入的每个APP名称查询数据映射库得到对应的appid,进而可实时自动拓展出关联APP列表。
将该技术应用在苹果商店APP关联拓展上,测试了3个APP拓展效果。首先人工为每个APP拓展了20个关联APP,然后应用该技术为每个APP自动选出前80个关联APP。对比结果发现,人工选出的关联APP80%被自动选出的前80个关联APP中,证明了该技术的有效性。相比人工拓展,该技术在3秒之内即可提供前200个拓展关联APP,速度大幅提升。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。
基于与上述实施例中的基于重点关键词的应用拓展方法相同的思想,本发明还提供基于重点关键词的应用拓展装置,该装置可用于执行上述基于重点关键词的应用拓展方法。为了便于说明,基于重点关键词的应用拓展装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图4为本发明一实施例的基于重点关键词的应用拓展装置的示意性结构图;如图4所示,本实施例的基于重点关键词的应用拓展装置包括:
关键词确定模块410,用于获取待拓展APP对应的第一级关键词,并确定各个第一级关键词对于所述待拓展APP的重要度;所述第一级关键词能够在应用库平台搜索到待拓展APP;其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
候选应用确定模块420,用于根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合;
以及,关联应用确定模块430,用于从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。
需要说明的是,上述示例的基于重点关键词的应用拓展装置的实施方式中,各模块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的基于重点关键词的应用拓展装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于重点关键词的应用拓展装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各实施例的方法的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种基于重点关键词的应用拓展方法。
此外,所述存储介质还可设置与一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各实施例的方法的全部或部分步骤。
据此,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种基于重点关键词的应用拓展方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一级”、“第二级”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种基于重点关键词的应用拓展方法,其特征在于,包括:
获取待拓展APP对应的第一级关键词,确定各个第一级关键词对于所述待拓展APP的重要度;其中,所述第一级关键词能够在应用库平台搜索到待拓展APP;
根据所述重要度从第一级关键词中筛选出第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合;
从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP;
其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
2.根据权利要求1所述的基于重点关键词的应用拓展方法,其特征在于,根据所述重要度从第一级关键词中筛选得到第一级重点关键词,包括:
从待拓展APP对应的全部第一级关键词中,选取重要度由高到低排名在前的设定数量的第一级关键词,作为第一级重点关键词。
3.根据权利要求2所述的基于重点关键词的应用拓展方法,其特征在于,获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合,包括:
根据全部第一级重点关键词、各个第一级重点关键词搜索到的APP,得到一APP矩阵;统计所述APP矩阵中各APP的出现频次,选取所述APP矩阵中出现频次大于或等于设定频次的APP作为第二级APP,得到候选APP集合。
4.根据权利要求3所述的基于重点关键词的应用拓展方法,其特征在于,根据候选APP集合确定所述待拓展APP对应的关联APP,包括:
获取待拓展APP在应用库平台中所属的应用榜单,从候选APP集合中删除与待拓展APP属于不同应用榜单的APP,更新候选APP集合;
根据更新后的候选APP集合确定所述待拓展APP对应的关联APP。
5.根据权利要求3所述的基于重点关键词的应用拓展方法,其特征在于,从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP,包括:
计算待拓展APP与候选APP集合中各第二级APP的关联度;选取候选APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成重点候选APP集合;从所述重点候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP。
6.根据权利要求5所述的基于重点关键词的应用拓展方法,其特征在于,从所述重点候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP,包括:
计算待拓展APP与重点候选APP集合中各个第二级重点APP的相似度;从重点候选APP集合中选取所述相似度由高到低排名在前的设定数量的第二级重点APP,作为待拓展APP对应的关联APP。
7.根据权利要求5所述的基于重点关键词的应用拓展方法,其特征在于,采用如下公式计算待拓展APP与各第二级APP的关联度:
其中,APP(1)表示待拓展APP;APP(2) j表示第j个第二级APP;n为APP(1)对应的第一级重点关键词的总数;M为APP(1)对应的全部第一级重点关键词中能映射到APP(2) j的关键词个数;V_4()表示APP对应的重要度特征向量,在APP对应的重要度特征向量中,各个元素分别表示该APP对应的各个关键词对于该APP的重要度;分母表示APP(1)对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示APP(1)对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。
8.根据权利要求6所述的基于重点关键词的应用拓展方法,其特征在于,通过如下公式计算待拓展APP与各个第二级重点APP的相似度:
其中,APP(1)表示待拓展APP,APP(2) j表示重点候选APP集合中的第j个APP;V_4()表示APP对应的重要度特征向量,所述重要度特征向量中各个元素分别表示该APP对应的关键词集合中各个关键词对于所述APP的重要度;V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度。
9.根据权利要求8所述的基于重点关键词的应用拓展方法,其特征在于,从重点候选APP集合中选取所述相似度由高到低排名在前的设定数量的第二级重点APP,作为待拓展APP对应的关联APP之前,还包括:
获取预先定义的惩罚系数,删除重点候选APP集合中相似度低于所述惩罚系数的APP,更新重点候选APP集合。
10.一种基于重点关键词的应用拓展装置,其特征在于,包括:
关键词确定模块,用于获取待拓展APP对应的第一级关键词,确定各个第一级关键词对于所述待拓展APP的重要度;其中,所述第一级关键词能够在应用库平台搜索到待拓展APP;
候选应用确定模块,用于根据所述重要度从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获取各个第一级重点关键词在应用库平台搜索到的APP,得到候选APP集合;
以及,关联应用确定模块,用于从候选APP集合中筛选出设定数量的APP,得到待拓展APP对应的关联APP;
其中,关键词对于APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9任一所述方法的步骤。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229441.9A CN108182201B (zh) | 2017-11-29 | 2017-11-29 | 基于重点关键词的应用拓展方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229441.9A CN108182201B (zh) | 2017-11-29 | 2017-11-29 | 基于重点关键词的应用拓展方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182201A true CN108182201A (zh) | 2018-06-19 |
CN108182201B CN108182201B (zh) | 2020-06-30 |
Family
ID=62545255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711229441.9A Active CN108182201B (zh) | 2017-11-29 | 2017-11-29 | 基于重点关键词的应用拓展方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182201B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622390A (zh) * | 2011-10-11 | 2012-08-01 | 北京掌汇天下科技有限公司 | 一种移动终端中推荐应用的方法及服务器 |
CN103377226A (zh) * | 2012-04-25 | 2013-10-30 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN103455522A (zh) * | 2012-06-04 | 2013-12-18 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推荐方法及系统 |
CN103544220A (zh) * | 2013-09-29 | 2014-01-29 | 北京航空航天大学 | 应用推荐方法和装置 |
CN103677866A (zh) * | 2012-09-05 | 2014-03-26 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推送方法及系统 |
CN103902720A (zh) * | 2014-04-10 | 2014-07-02 | 北京博雅立方科技有限公司 | 一种关键词的拓展词获取方法及装置 |
CN105095474A (zh) * | 2015-08-11 | 2015-11-25 | 北京奇虎科技有限公司 | 建立搜索词与应用数据推荐关系的方法及装置 |
CN105511901A (zh) * | 2015-09-28 | 2016-04-20 | 杭州圆橙科技有限公司 | 一种基于移动App运行列表的App冷启动推荐方法 |
CN105677695A (zh) * | 2015-09-28 | 2016-06-15 | 杭州圆橙科技有限公司 | 一种基于内容的计算移动应用相似性的方法 |
US20170083527A1 (en) * | 2011-06-16 | 2017-03-23 | Microsoft Technology Licensing, Llc | Surfacing applications based on browsing activity |
CN106776906A (zh) * | 2016-11-30 | 2017-05-31 | 努比亚技术有限公司 | 一种应用聚类方法及装置 |
-
2017
- 2017-11-29 CN CN201711229441.9A patent/CN108182201B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083527A1 (en) * | 2011-06-16 | 2017-03-23 | Microsoft Technology Licensing, Llc | Surfacing applications based on browsing activity |
CN102622390A (zh) * | 2011-10-11 | 2012-08-01 | 北京掌汇天下科技有限公司 | 一种移动终端中推荐应用的方法及服务器 |
CN103377226A (zh) * | 2012-04-25 | 2013-10-30 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN103455522A (zh) * | 2012-06-04 | 2013-12-18 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推荐方法及系统 |
CN103677866A (zh) * | 2012-09-05 | 2014-03-26 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推送方法及系统 |
CN103544220A (zh) * | 2013-09-29 | 2014-01-29 | 北京航空航天大学 | 应用推荐方法和装置 |
CN103902720A (zh) * | 2014-04-10 | 2014-07-02 | 北京博雅立方科技有限公司 | 一种关键词的拓展词获取方法及装置 |
CN105095474A (zh) * | 2015-08-11 | 2015-11-25 | 北京奇虎科技有限公司 | 建立搜索词与应用数据推荐关系的方法及装置 |
CN105511901A (zh) * | 2015-09-28 | 2016-04-20 | 杭州圆橙科技有限公司 | 一种基于移动App运行列表的App冷启动推荐方法 |
CN105677695A (zh) * | 2015-09-28 | 2016-06-15 | 杭州圆橙科技有限公司 | 一种基于内容的计算移动应用相似性的方法 |
CN106776906A (zh) * | 2016-11-30 | 2017-05-31 | 努比亚技术有限公司 | 一种应用聚类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108182201B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123332B (zh) | 搜索结果的显示方法及装置 | |
CN106202124B (zh) | 网页分类方法及装置 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US20160162793A1 (en) | Method and apparatus for decision tree based search result ranking | |
US20050256848A1 (en) | System and method for user rank search | |
Stottler et al. | Rapid Retrieval Algorithms for Case-Based Reasoning. | |
US20090083248A1 (en) | Multi-Ranker For Search | |
CN106547871A (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
US10346453B2 (en) | Multi-tiered information retrieval training | |
CN101196905A (zh) | 一种智能图形检索方法 | |
CN110019889A (zh) | 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
WO2009061420A1 (en) | Object recognition and database population | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN108182200A (zh) | 基于语义相似度的关键词拓展方法和装置 | |
Son et al. | Top-k manhattan spatial skyline queries | |
CN108170665A (zh) | 基于综合相似度的关键词拓展方法和装置 | |
CN108170664A (zh) | 基于重点关键词的关键词拓展方法和装置 | |
CN110134812A (zh) | 一种人脸搜索方法及其装置 | |
CN108021641B (zh) | 应用的关联关键词拓展的方法和装置 | |
JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
CN108182201A (zh) | 基于重点关键词的应用拓展方法和装置 | |
CN105095385B (zh) | 一种检索结果的输出方法及装置 | |
CN108427759A (zh) | 用于海量数据处理的实时数据计算方法 | |
CN114722086A (zh) | 一种搜索重排模型的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |