CN108170665B - 基于综合相似度的关键词拓展方法和装置 - Google Patents
基于综合相似度的关键词拓展方法和装置 Download PDFInfo
- Publication number
- CN108170665B CN108170665B CN201711227954.6A CN201711227954A CN108170665B CN 108170665 B CN108170665 B CN 108170665B CN 201711227954 A CN201711227954 A CN 201711227954A CN 108170665 B CN108170665 B CN 108170665B
- Authority
- CN
- China
- Prior art keywords
- app
- similarity
- keyword
- expanded
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于综合相似度的关键词拓展方法和装置。所述方法包括:获得待拓展APP的关联APP,确定各关联APP与待拓展APP的第一相似度;获得各关联APP对应的关键词为候选关键词,根据各候选关键词的重要度,计算各候选关键词与关联APP的第二相似度;获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各候选关键词相对于待拓展APP的相似度得分;根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。本发明能够自动筛选出相似性较高关联关键词,既实现量产,同时又可保证拓展质量。
Description
技术领域
本发明涉及数据分析技术领域,特别是涉及基于综合相似度的关键词拓展方法和装置。
背景技术
随着智能终端的迅速发展,带动了移动互联网软件行业的发展。越来越多用户在智能终端中的应用库平台(即应用商店)下载各种APP(application,应用),根据维基百科数据显示,65%的用户通过应用商店搜索下载所需应用。所以APP开发者为提高自身APP在应用商店的搜索质量,需要做好应用商店的优化工作。其关键工作之一是做好APP的关联关键词的优化。
目前,基于智能终端应用商店的特定行业知识背景,APP对应的基于综合相似度的关键词拓展较多依靠人工进行判断拓展,对于人工拓展,拓展质量受到人工主观认知水平的影响较大,因此存在APP对应的基于综合相似度的关键词拓展结果的质量不稳定的缺陷。
发明内容
基于此,本发明提供了基于综合相似度的关键词拓展方法和装置,能够克服现有应用程序基于综合相似度的关键词拓展方式存在的质量不稳定的缺陷。
本发明实施例提供的方案包括:
一种基于综合相似度的关键词拓展方法,包括:
获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;
获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度用于表示所述关联APP在所述候选关键词的搜索结果中的排名信息;
获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;
根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
一种基于综合相似度的关键词拓展装置,包括:
第一相似度确定模块,用于获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块,用于获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度用于表示所述关联APP在所述候选关键词的搜索结果中的排名信息;
相似度得分计算模块,用于获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;
以及,关键词筛选模块,用于根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
实施上述实施例,在接收到待拓展APP之后,获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;根据应用库平台的历史搜索记录信息获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度用于表示所述关联APP在所述候选关键词的搜索结果中的排名信息;获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词.上述技术方案能够根据对待拓展的APP,基于语义相似度获得对应的关联关键词,能够提高基于综合相似度的关键词拓展质量;此外,通过上述实施例的基于综合相似度的关键词拓展方法,还便于批量导出关联应用,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。
附图说明
图1为一实施例的基于综合相似度的关键词拓展方法的示意性流程图;
图2为一实施例的基于综合相似度的关键词拓展方法的APP层级示意性;
图3为另一实施例的基于综合相似度的关键词拓展方法的示意性流程图;
图4为一实施例的基于综合相似度的关键词拓展装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明各实施例中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
图1为一实施例的基于综合相似度的关键词拓展方法的示意性流程图;如图1所示,本实施例中的基于综合相似度的关键词拓展方法包括步骤:
S11,获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度。
所述待拓展APP对应的关联APP,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的关联APP,也可以是预先设定的关联APP。
S12,获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度。
关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。所述第二相似度是根据候选关键词对于关联APP的重要度计算得到的。
本发明实施例中的关键词,包括所有可用于在应用库平台搜索APP的字符,例如汉字、英文单词或者字母、数字或者其他文字符号,还可以是几种字符的组合形式。其中,所述候选关键词为能够在应用库平台搜索到关联APP的关键词。所述候选关键词可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的关键词,也可以是预先设定的关键词。
在一实施例中,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度之前,还包括根据应用库平台的历史搜索记录信息预先确定各个关联APP对应的候选关键词,以及根据关联APP在各个候选关键词搜索结果中的排名信息确定各个候选关键词对于关联APP的重要度的步骤。
可选地,预先确定候选关键词对于关联APP的重要度的步骤包括:
根据关键词搜索结果中APP的排名信息,对关键词对于APP的重要度赋值:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1
其中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示搜索结果中APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
S13,获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分。
S14,根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
在一实施例中,步骤S11中,确定各个关联APP与待拓展APP的第一相似度,包括:根据各个关联APP、待拓展AP各自对应的重要度特征向量,确定各个关联APP与待拓展APP的第一相似度。其中,在APP对应的重要度特征向量中,各个元素分别表示所述APP对应的关键词集合中各个关键词对于所述APP的重要度。
可选地,各个关联APP与待拓展APP的第一相似度通过如下公式确定:
其中,APP(1)表示待拓展APP,APP(2) j表示关联APP集合中的第j个APP;V_4()表示APP对应的重要度特征向量,所述重要度特征向量中各个元素分别表示所述APP对应的各个关键词对于所述APP的重要度;V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示待拓展APP和APP(2) j的第一相似度。
可以理解的,两个APP之间相似度的计算方法,包括但不限于上述的基于余弦相似度计算语义相似度的算法,还可以采用其他用于计算语义相似度的算法。
在一实施例中,根据拓展APP以及各个关联APP各自对应的重要度特征向量确定各个关联APP与待拓展APP的第一相似度之后,还包括:获取预先定义的惩罚系数,根据所述惩罚系数对各个关联APP对应的第一相似度进行调整,得到各个关联APP的第一相似度调整值。
对应地,所述根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分,包括:根据所述第一相似度调整值、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分。
可选地,根据所述惩罚系数对各个关联APP对应的第一相似度进行调整,得到各个关联APP的第一相似度调整值的公式为:
sim=cos(APP(1),APP(2) j)-α;
其中,α∈[0,1],表示惩罚系数;sim_1(APP(1),APP(2) j)表示APP(1)和APP(2) j的第一相似度调整值。以所述第一相似度调整值衡量各个关联APP与待拓展APP的相似度。
上式为分段函数,可防止第一相似度减去惩罚系数之后出现负值,即当相减后小于等于0时,则取0作为其第一相似度调整值,否则取相减后的结果为其第一相似度调整值。
在一实施例中,通过如下公式计算各个候选关键词与关联APP的第二相似度:
式中,APP(2) i表示待拓展APP对应的第i个关联APP;KW(2) ij表示APP(2) i覆盖的第j个候选关键词;wj表示KW(2) ij对APP(2) i的重要度;表示APP(2) i覆盖的全部候选关键词的重要度均值;U表示APP(2) i覆盖的候选关键词总数。
在一实施例中,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分,包括:对候选关键词的搜索指数进行修正处理,得到搜索指数修正值;根据所述第一相似度、所述第二相似度以及各个候选关键词的搜索指数修正值,计算待拓展APP与关联关键词集合中各个关键词的相似度得分。
可选地,对候选关键词的搜索指数进行修正处理,得到搜索指数修正值包括:根据关键词搜索指数的数据显示其值一般均小于10000,故关键词的搜索指数标修正处理可定义为,
可以理解的,对于不同的实际场景,可对其中10000的数值进行调整。
进一步地,可通过如下公式计算各个候选关键词相对于待拓展APP的相似度得分:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′
其中,APP(1)表示待拓展APP;APP(2) j表示待拓展APP对应的第j个关联APP;KW(2) i表示APP(2) j对应的第i个候选关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度;sim_2(APP(2) j,KW(2) i)表示KW(2) i与APP(2) j的第二相似度;q表示设定的权重系数,用于调节第一相似度与搜索指数修正值对相似度得分的影响程度。
在一实施例中,上述步骤S14中,根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词的步骤包括:获取预先设定的奖励系数,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值;根据所述相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词。可选地,通过如下公式对所述相似度得分进行修正:
其中,θ为奖励系数,sim_2sum表示候选关键词KW(2) i与待拓展APP的所有关联APP的第二相似度之和;sim_2max表示候选关键词KW(2) i与待拓展APP的所有关联APP的第二相似度的最大值。
在一实施例中,上述实施例中,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值之后,还包括:
对所述相似度得分修正值进行标准化处理,根据标准化处理后的相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词;可选地,通过如下公式对相似度得分修正值进行标准化处理:
其中,KW(2)表示候选关键词的集合,Score(APP(1),KW(2) i)′∈[0,100],simi′为第i个候选关键词与APP(1)的相似度得分修正值,simmin′与simmax′分别为相似度得分修正值的最小值与最大值。
可以理解的,上述实施例对相似度得分修正值的标准化处理是基于百分制的处理,对于实际的标准化要求,还可通过其他方式对相似度得分修正值进行标准化处理。
在一实施例中,根据标准化处理后的相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词,包括:根据标准化处理后的相似度得分修正值的高低顺序,从全部候选关键词中选取设定数量的关键词,作为待拓展APP的关联关键词。
在一可选实施例中,获取待拓展APP对应的关联APP之前,还包括根据应用库平台的历史搜索记录信息预先确定待拓展APP对应的关联APP的步骤。可选地,所述步骤可包括:根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词;所述历史搜索信息中包含关键词与APP的映射关系;获得各个第一级关键词对于所述待拓展APP的重要度,所述重要度用于表示待拓展APP在所述关键词的搜索结果中的排名信息;根据所述重要度,从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP信息确定待拓展APP对应的关联APP。
在一实施例中,确定待拓展APP对应的关联APP之前,即根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词值之前,还包括:对应用库平台的历史搜索记录信息进行预处理的步骤。例如基于最近一周在所述应用库平台发生的搜索记录信息,历史搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息。例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)。
可选地,对应用库平台的历史搜索记录信息进行预处理的步骤可包括:
首先,获取应用库平台在设定时间段的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;所述第一映射关系中包括关键词对应的APP信息,以及APP在所述关键词的多次搜索结果中的排名信息。然后,根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词,还包括各个关键词对于所述APP的重要度,所述重要度用于表示APP在所述关键词的搜索结果中的排名信息,APP在关键词的搜索结果中排名越前,该关键词对于该APP的重要度越大。进一步的,根据所述第一映射关系和第二映射关系建立所述应用库平台对应的数据映射库。
参考图2所示,待拓展APP为第一级APP(记为APP(1)),待拓展APP对应的关键词为第一级关键词(记为KW(1)),第一级关键词覆盖的APP为第二级APP(记为APP(2)),第二级APP对应的关键词为第二级关键词,即候选关键词为第二级关键词,可记为KW(2)。
下面结合图3所述的逻辑示意图,对本发明实施例的基于综合相似度的关键词拓展方法做进一步的说明。在图3的实施例中,以苹果应用商店为例,其他应用库平台与之原理相同。所述基于综合相似度的关键词拓展方法包括以下步骤。
1.关键词内容抓取
利用苹果开发者API获取苹果应用商店最近一周的历史搜索记录数据,包括但不限于应用名称、关键词详情、关键词搜索指数、关键词搜索结果、应用榜单等。关键词的搜索指数在不同应用库的定义可能不同,对于苹果应用商店是根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数(搜索量),同时考虑搜索量级等因素计算得到的,搜索指数与搜索量两者是呈现正向关系,从经验上大致估计,搜索指数对应的搜索量如下:
其中,P为搜索指数,f(x)代表搜索指数与搜索量两者关系已非单纯的线性增长关系。
2.历史关键词搜索记录数据预处理
基于关键词的最近一周的搜索记录数据,采用第i个关键词进行搜索覆盖到的APP数据样式如下:
S(ki)=(appid1,appid2,…,appidn) (2-1)
式中,i,n∈Z,Z表示正整数集合;ki表示第i个关键词,n表示通过关键词ki搜索得到n个按出现顺序排列的APP,对于不同关键词(2-1)中的n值的大小可能不同;
2.1关键词与APP的正向映射关系(即关键词对应的第一映射关系)
由于同一个关键词在一周内可能会被多次搜索,且搜素结果随着搜索时间的变化而变化。对关键词ki的多次搜索结果进行统计汇总,得到关键词ki覆盖的APP集合A(ki)以及对应的频次特征向量V_1(ki),
A(ki)=(appid1,appid2,…,appidn) (2-2)
V_1(ki)=(c1,c2,…,cn) (2-3)
式中,i,n∈Z;cn表示一周内用关键词ki搜索出现第n个app的频次。A(ki)中的APP表示经过筛选的候选APP。筛选的过程可包括:根据设定历史时段内的多次搜索结果,得到关键词ki对应的多次搜索结果中的APP排名信息;按照APP排名先后,从该关键词的每次搜索结果中选取设定数量的APP得到关键词ki对应的优选APP集合;统计优选APP集合中各个APP在所述多次搜索结果中的出现频次,根据所述出现频次,从优选APP集合中删除出现频次低于设定次数的APP,更新优选APP集合,得到该关键词ki对应的APP集合A(ki)。
需要说明的是,本发明实施例中,APP可通过appid标识,appid由应用库平台统一分配,用于标识不同的APP。
2.2关键词与APP的逆向映射关系(即APP对应的第二映射关系)
可选地,根据关键词搜索结果中APP的排名信息,进行关键词对于APP的重要度赋值,具体如下:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5) (2-4)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞) (2-5)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1 (2-6)
式中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
根据(2-1)中S(ki)建立倒排列表,可得第i个APP(即ai)覆盖的关键词集合K(ai);根据(2-4)、(2-5)、(2-6)可得对应的重要度特征向量V_4(ai),
K(ai)=(keyword1,...,keywordn) (2-7)
V_4(ai)=(w1,w2,…,wn) (2-8)
式中,i,n∈Z;ai表示第i个APP,同时不同APP对应不同的n值大小可能不同;wn表示ai覆盖的第n个关键词keywordn的重要度;V_4(ai)表示各关键词对于ai的重要度特征向量。
可选地,对步骤1中的历史搜索信息进行预处理,整理以下映射关系,用hash表表示为表1所示。
表1:
其中keyword代表关键词,keyword_id代表应用库平台分配的关键词标识符,prioity代表关键词的搜索指数,appid代表应用库平台分配的应用标识符,count表示统计周期内APP相对应出现的频次,weight表示关键词相对于关联APP的重要性,geneid代表应用库平台分配APP分类榜单ID。
3.关联APP拓展
对于输入的待拓展的APP名称,通过查询上述步骤2构建的数据映射库可得到对应的appid。下面步骤将用appid区分不同的APP。
进一步地,根据(2-7)、(2-8)获取待拓展APP(即APP(1))覆盖的关键词集合K(APP(1))及其对应的重要度特征向量V_4(APP(1))分别为:
K(APP(1))=[keyword(1),…,keyword(m)]T (3-1)
V_4(APP(1))=[w(1),…,w(m)]T (3-2)
其中m∈Z,T表示转置。K(APP(1))中的关键词即第一级重点关键词。
根据(2-2)对(3-1)中的关键词列表进行映射,可得到APP矩阵,记为Mapp,则
其中m,n∈Z。Mapp中包含全部第一级重点关键词覆盖的APP。
4.计算待拓展APP与APP矩阵中各APP的关联度
4.1对步骤3中得到的APP矩阵Mapp进行归并并统计其中各APP的频次,选取其中频次排名前k个APP作为第二级APP,可得第二级APP集合Sapp,
Sapp={appid1,appid2,…,appidk} (4-1)
式中,k∈Z
4.2计算待拓展APP与第二级APP集合Sapp中各APP的关联度
优选地,根据(3-1)、(3-2)、(3-3)可确定的两个APP之间关联度如下:
式中,APP(1)表示待拓展APP;APP(2) j表示第二级APP集合Sapp中的第j个APP;n为待拓展APP对应的第一级重点关键词的总数;M为待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词个数。分母表示待拓展APP对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。
4.3第二级APP筛选
针对(4-1)选择关联度Top e的APP构成第二级重点APP集合,
5.1APP与关键词映射
式中,APP(1)为待拓展APP;APP(2) j为第二级重点APP集合中的第j个APP;V_4(APP(1))·V_4(APP(1) j)表示APP(1)重要度特征向量与APP(2) j重要度特征向量的内积;||V_4(APP(1))||2||V_4(APP(1) j)||2表示APP(1)重要度特征向量的2-范数与APP(2) j重要度特征向量的2-范数的乘积,即重要度特征向量的元素绝对值的平方和再开方的乘积。
5.3基于(5-1)定义惩罚系数α∈[0,1],对上一步骤中的余弦相似度结果进行调整,以从第二级重点APP集合中剔除余弦相似度较低的APP,调整公式为:
sim=cos(APP(1),APP(2) j)-α;
可选地,还可根据余弦相似度调整值,从第二级重点APP集合中删除余弦相似度调整值低于设定阈值的APP。例如,从第二级重点APP集合中删除相似度调整值为0的APP,剩余的APP作为待拓展APP的关联APP。相当于删除第二级重点APP集合中相似度低于所述惩罚系数的APP,更新第二级重点APP集合。
6.按照余弦相似度调整值从高到低取前设定数量(例如100个)APP,形成待拓展APP的关联APP列表。对应地,各关联APP对应的余弦相似度调整值,可用于衡量各个关联APP与待拓展APP的第一相似度。
7.计算候选关键词KW(2)对APP(2)的第二相似度
根据(5-1),为消除中APP(2)热门APP“话语权”,需对候选关键词的重要度进行调整,得到第二相似度,以消除APP(2)热门APP覆盖的候选关键词重要度过大而造成基于综合相似度的关键词拓展结果均是来自该热门APP。例如:由于(2-4)、(2-5)、(2-6)为预先定义,需要在此将重要度调整为第二相似度。比如“微信”APP属于热门的APP,那么其覆盖的关键词较多,并且利用这些关键词搜索,“微信”排名始终靠前,即这些关键词对微信APP来说都是比较重要的(重要度较高),相对应的重要度特征向量的数值均是较大。假如不做调整,后续利用对应的重要度特征向量进行相似度计算时,则会导致这部分关键词与对应APP的相似度得分较高,最后基于综合相似度的关键词拓展结果大多来自“微信”。
定义KW(2)对APP(2)的重要度调整策略如下,保证得到的第二相似度是相对同一个关联APP的相对重要度。
式中,式中,APP(2) i表示待拓展APP对应的第i个关联APP;KW(2) ij表示APP(2) i覆盖的第j个候选关键词;wj表示KW(2) ij对APP(2) i的重要度;表示APP(2) i覆盖的全部候选关键词的重要度均值;U表示APP(2) i覆盖的候选关键词总数。
记不同关联APP覆盖同一候选关键词,该候选关键词与不同关联APP的最大第二相似度为sim_2max,相应其第二相似度之和如下:
式中,KW(2) ij表示APP(2) i覆盖的第j个关键词,其中不同j值在此式中映射到关键词相同。
8.计算APP(1)与候选关键词KW(2)的相似度得分
在苹果商店中,由于关键词搜索指数的数据显示其值一般均小于10000,故关键词搜索指数标准化结果可定义为,
则APP(1)与KW(2)的相似度得分如下:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′ (7-2)
式中,APP(1)表示待拓展APP;APP(2) j表示待拓展APP对应的第j个关联APP;KW(2) i表示APP(2) j对应的第i个候选关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度。
9.相似度得分奖励
首先,基于KW(2)中每个候选关键词可多次被关联到,则需要对候选关键词进行归并奖励,被关联次数越多,则认为其对于待拓展APP越重要,定义奖励系数为θ∈[0,1],则APP(1)与KW(2)最终的相似度得分修正值为:
其中,θ为奖励系数,sim_2sum表示候选关键词KW(2) i与待拓展APP对应的所有关联APP的第二相似度之和;sim_2max表示候选关键词KW(2) i与待拓展APP对应的所有关联APP的第二相似度的最大值。
10.基于语义的基于综合相似度的关键词拓展
对(8-1)进行标准化,对候选关键词的相似度得分修正值进行标准化可得,
其中,其中,KW(2)表示候选关键词的集合,Score(APP(1),KW(2) i)′∈[0,100],simi′为第i个候选关键词与APP(1)的相似度得分修正值,simmin′与simmax′分别为相似度得分修正值的最小值与最大值。
最后,通过标准化处理后的按相似度得分修正值从高到低取前k个候选关键词,形成关联关键词列表。
上述步骤中,1~2可以是离线计算,定期更新,比如每周重新更新一遍。步骤3~10是在线计算,对输入的每个APP名称通过查询数据映射库得到对应的appid,进而可实时自动拓展出关联APP列表和关联关键词列表。
将该技术应用在苹果商店APP关联拓展上,测试了3个APP拓展效果。首先人工为每个APP拓展了20个关联关键词,然后应用该技术为每个APP自动选出前80个关联关键词。对比结果发现,人工选出的关联关键词80%被自动选出的前80个关联关键词中,证明了该技术的有效性。相比人工拓展,该技术在3秒之内即可提供前200个拓展关联关键词,速度大幅提升。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。
基于与上述实施例中的基于综合相似度的关键词拓展方法相同的思想,本发明还提供基于综合相似度的关键词拓展装置,该装置可用于执行上述基于综合相似度的关键词拓展方法。为了便于说明,基于综合相似度的关键词拓展装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图4为本发明一实施例的基于综合相似度的关键词拓展装置的示意性结构图;如图4所示,本实施例的基于综合相似度的关键词拓展装置包括:
第一相似度确定模块410,用于获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块420,用于获取各个关联APP对应的候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度用于表示所述关联APP在所述候选关键词的搜索结果中的排名信息;
相似度得分计算模块430,用于获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;
以及,关键词筛选模块440,用于根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
需要说明的是,上述示例的基于综合相似度的关键词拓展装置的实施方式中,各模块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的基于综合相似度的关键词拓展装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于综合相似度的关键词拓展装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各实施例的方法的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种基于综合相似度的关键词拓展方法。
此外,所述存储介质还可设置与一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各实施例的方法的全部或部分步骤。
据此,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种基于综合相似度的关键词拓展方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一级”、“第二级”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (13)
1.一种基于综合相似度的关键词拓展方法,其特征在于,包括:
获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;
获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度表示关联APP在候选关键词的搜索结果中的排名信息;
获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;
根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
2.根据权利要求1所述的基于综合相似度的关键词拓展方法,其特征在于,确定各个关联APP与待拓展APP的第一相似度,包括:
根据各个关联APP、待拓展APP各自对应的重要度特征向量,确定各个关联APP与待拓展APP的第一相似度;
其中,在APP对应的重要度特征向量中,各个元素分别表示所述APP对应的关键词集合中各个关键词对于所述APP的重要度。
3.根据权利要求2所述的基于综合相似度的关键词拓展方法,其特征在于,通过如下公式确定各个关联APP与待拓展APP的第一相似度:
其中,APP(1)表示待拓展APP,APP(2) j表示关联APP集合中的第j个APP;
V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;||V_4(APP(2) j)||2表示APP(2) j对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示APP(1)和关联APP(2) j的第一相似度。
4.根据权利要求3所述的基于综合相似度的关键词拓展方法,其特征在于,确定各个关联APP与待拓展APP的第一相似度之后,还包括:
获取预先定义的惩罚系数,根据所述惩罚系数对各个关联APP的第一相似度进行调整,得到各个关联APP的第一相似度调整值;
所述根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分,包括:
根据所述第一相似度调整值、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分。
6.根据权利要求1所述的基于综合相似度的关键词拓展方法,其特征在于,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分,包括:
对候选关键词的搜索指数进行修正处理,得到搜索指数修正值;根据所述第一相似度、所述第二相似度以及各个候选关键词的搜索指数修正值,计算待拓展APP与关联关键词集合中各个关键词的相似度得分。
7.根据权利要求6所述的基于综合相似度的关键词拓展方法,其特征在于,通过如下公式计算各个候选关键词相对于待拓展APP的相似度得分:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′
其中,APP(1)表示待拓展APP;APP(2) j表示APP(1)的第j个关联APP;KW(2) i表示APP(2) j对应的第i个候选关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度;sim_2(APP(2) j,KW(2) i)表示KW(2) i与APP(2) j的第二相似度;q表示设定的权重系数。
8.根据权利要求1所述的基于综合相似度的关键词拓展方法,其特征在于,根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词,包括:
获取预先设定的奖励系数,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值;根据所述相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词。
9.根据权利要求8所述的基于综合相似度的关键词拓展方法,其特征在于,根据所述相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词,包括:
对所述相似度得分修正值进行标准化处理,使得标准化处理后的相似度得分在设定的范围内,根据标准化处理后的相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词。
10.根据权利要求9所述的基于综合相似度的关键词拓展方法,其特征在于,根据标准化处理后的相似度得分修正值对候选关键词进行筛选,得到待拓展APP的关联关键词,包括:
根据标准化处理后的相似度得分修正值的高低顺序,从全部候选关键词中选取设定数量的关键词,作为待拓展APP的关联关键词。
11.一种基于综合相似度的关键词拓展装置,其特征在于,包括:
第一相似度确定模块,用于获取待拓展APP对应的关联APP,确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块,用于获取各个关联APP对应的关键词作为候选关键词,根据各个候选关键词对于关联APP的重要度,计算各个候选关键词与对应的关联APP的第二相似度;所述重要度用于表示所述关联APP在所述候选关键词的搜索结果中的排名信息;
相似度得分计算模块,用于获取各个候选关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个候选关键词的搜索指数,计算各个候选关键词相对于待拓展APP的相似度得分;
以及,关键词筛选模块,用于根据所述相似度得分对候选关键词进行筛选,得到待拓展APP的关联关键词。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一所述方法的步骤。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711227954.6A CN108170665B (zh) | 2017-11-29 | 2017-11-29 | 基于综合相似度的关键词拓展方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711227954.6A CN108170665B (zh) | 2017-11-29 | 2017-11-29 | 基于综合相似度的关键词拓展方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170665A CN108170665A (zh) | 2018-06-15 |
CN108170665B true CN108170665B (zh) | 2021-06-04 |
Family
ID=62524189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711227954.6A Active CN108170665B (zh) | 2017-11-29 | 2017-11-29 | 基于综合相似度的关键词拓展方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170665B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818247B (zh) * | 2021-02-22 | 2023-11-03 | 宝宝巴士股份有限公司 | 一种根据关键词分析产品热度的方法 |
CN114998839B (zh) * | 2022-07-06 | 2023-01-31 | 北京原流科技有限公司 | 一种基于层级分布的数据管理方法以及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2405709A (en) * | 2003-09-03 | 2005-03-09 | Teleit Ltd | Search engine optimization using automated target market user profiles |
CN103677866A (zh) * | 2012-09-05 | 2014-03-26 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推送方法及系统 |
CN105677695A (zh) * | 2015-09-28 | 2016-06-15 | 杭州圆橙科技有限公司 | 一种基于内容的计算移动应用相似性的方法 |
CN106970991A (zh) * | 2017-03-31 | 2017-07-21 | 北京奇虎科技有限公司 | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 |
US9740751B1 (en) * | 2016-02-18 | 2017-08-22 | Google Inc. | Application keywords |
CN107133315A (zh) * | 2017-05-03 | 2017-09-05 | 有米科技股份有限公司 | 一种基于语义分析的智能媒介推荐方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032717A1 (en) * | 2006-05-02 | 2015-01-29 | Surf Canyon Incorporated | Real time implicit user modeling for personalized search |
CN103455522B (zh) * | 2012-06-04 | 2017-04-19 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推荐方法及系统 |
US9501572B2 (en) * | 2012-06-29 | 2016-11-22 | Google Inc. | Content placement criteria expansion |
CN104750789B (zh) * | 2015-03-12 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 标签的推荐方法及装置 |
CN105117440A (zh) * | 2015-08-11 | 2015-12-02 | 北京奇虎科技有限公司 | 确定待推荐应用app的方法及装置 |
CN106599194B (zh) * | 2016-12-14 | 2021-03-30 | 北京小米移动软件有限公司 | 标签确定方法及装置 |
-
2017
- 2017-11-29 CN CN201711227954.6A patent/CN108170665B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2405709A (en) * | 2003-09-03 | 2005-03-09 | Teleit Ltd | Search engine optimization using automated target market user profiles |
CN103677866A (zh) * | 2012-09-05 | 2014-03-26 | 北京搜狗科技发展有限公司 | 应用程序扩展工具推送方法及系统 |
CN105677695A (zh) * | 2015-09-28 | 2016-06-15 | 杭州圆橙科技有限公司 | 一种基于内容的计算移动应用相似性的方法 |
US9740751B1 (en) * | 2016-02-18 | 2017-08-22 | Google Inc. | Application keywords |
CN106970991A (zh) * | 2017-03-31 | 2017-07-21 | 北京奇虎科技有限公司 | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 |
CN107133315A (zh) * | 2017-05-03 | 2017-09-05 | 有米科技股份有限公司 | 一种基于语义分析的智能媒介推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108170665A (zh) | 2018-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN110866181B (zh) | 资源推荐的方法、装置及存储介质 | |
Xiao et al. | Reporting l most influential objects in uncertain databases based on probabilistic reverse top-k queries | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN107239497B (zh) | 热门内容搜索方法和系统 | |
US7925644B2 (en) | Efficient retrieval algorithm by query term discrimination | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN108182200B (zh) | 基于语义相似度的关键词拓展方法和装置 | |
WO2020170593A1 (ja) | 情報処理装置及び情報処理方法 | |
WO2021073410A1 (zh) | 法律证据的排序和推荐方法、装置、设备及存储介质 | |
CN108170665B (zh) | 基于综合相似度的关键词拓展方法和装置 | |
JP2018173909A (ja) | 学習プログラム、学習方法および学習装置 | |
JPH0554037A (ja) | 文書分類方式 | |
JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
CN108170664B (zh) | 基于重点关键词的关键词拓展方法和装置 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN110019783B (zh) | 属性词聚类方法及装置 | |
CN108182201B (zh) | 基于重点关键词的应用拓展方法和装置 | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN110806861B (zh) | 一种结合用户反馈信息的api推荐方法及终端 | |
CN108021641B (zh) | 应用的关联关键词拓展的方法和装置 | |
CN108052554A (zh) | 多维度拓展关键词的方法和装置 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
EP3063669A1 (en) | Classifying document using patterns | |
US20180158076A1 (en) | Evaluation device, evaluation method, and evaluation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |