CN108021641B - 应用的关联关键词拓展的方法和装置 - Google Patents

应用的关联关键词拓展的方法和装置 Download PDF

Info

Publication number
CN108021641B
CN108021641B CN201711229294.5A CN201711229294A CN108021641B CN 108021641 B CN108021641 B CN 108021641B CN 201711229294 A CN201711229294 A CN 201711229294A CN 108021641 B CN108021641 B CN 108021641B
Authority
CN
China
Prior art keywords
app
keyword
expanded
level
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711229294.5A
Other languages
English (en)
Other versions
CN108021641A (zh
Inventor
翁永金
李百川
谭晋
陈第
蔡锐涛
李展铿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmiyouliang (Guangzhou) Technology Co.,Ltd.
Original Assignee
Umi-Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Umi-Tech Co Ltd filed Critical Umi-Tech Co Ltd
Priority to CN201711229294.5A priority Critical patent/CN108021641B/zh
Publication of CN108021641A publication Critical patent/CN108021641A/zh
Application granted granted Critical
Publication of CN108021641B publication Critical patent/CN108021641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及应用的关联关键词拓展的方法和装置。所述方法包括:获得待拓展应用的第一级关键词;从全部第一级关键词中筛选得到第一级重点关键词;根据全部第一级重点关键词确定待拓展应用对应的关联应用;计算拓展应用与各个关联应用的第一相似度;获得各个关联应用对应的第二级关键词,计算各个第二级关键词与对应的关联应用的第二相似度;根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算待拓展应用与各个第二级关键词的相似度得分;根据所述相似度得分对第二级关键词进行筛选,得到待拓展应用的关联关键词。本发明能够自动筛选出相似性较高关联关键词,且保证拓展质量。

Description

应用的关联关键词拓展的方法和装置
技术领域
本发明涉及数据分析技术领域,特别是涉及应用的关联关键词拓展的方法和装置。
背景技术
随着智能终端的迅速发展,带动了移动互联网软件行业的发展。越来越多用户在智能终端中的应用库平台(即应用商店)下载各种APP(application,应用),根据维基百科数据显示,65%的用户通过应用商店搜索下载所需应用。所以APP开发者为提高自身APP在应用商店的搜索质量,需要做好应用商店的优化工作。其关键工作之一是做好APP的关联关键词的优化。
目前,基于智能终端应用商店的特定行业知识背景,APP对应的关联关键词拓展较多依靠人工进行判断拓展,对于人工拓展,拓展质量受到人工主观认知水平的影响较大,因此存在APP对应的关联关键词拓展结果的质量不稳定的缺陷。
发明内容
基于此,本发明提供了应用的关联关键词拓展的方法和装置,能够克服现有应用程序关联关键词拓展方式存在的质量不稳定的缺陷。
本发明实施例提供的方案包括:
一种应用的关联关键词拓展的方法,包括:
获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选出第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP得到待拓展APP的关联APP;
确定各个关联APP与待拓展APP的第一相似度;
获得各个关联APP对应的第二级关键词,根据各个第二级关键词对于关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述第二级关键词为能够在应用库平台搜索到关联APP的关键词;
获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;
根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词;
其中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
一种应用的关联关键词拓展的装置,包括:
关联应用确定,用于获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选得到第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP信息得到待拓展APP对应的关联APP;
第一相似度确定模块,确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块,用于获取各个关联APP对应的第二级关键词,根据各个第二级关键词对于所述关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述第二级关键词为能够在应用库平台搜索到关联APP的关键词;
相似度得分计算模块,用于获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;
以及,关键词筛选模块,用于根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词;
其中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
实施上述实施例,在接收到待拓展APP之后,可根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词;并从全部第一级关键词中筛选得到第一级重点关键词;再根据全部第一级重点关键词覆盖的APP信息确定待拓展APP对应的关联APP;进一步地,通过确定各个关联APP与待拓展APP的第一相似度;获得各个关联APP对应的第二级关键词,计算各个第二级关键词与关联APP的第二相似度;根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;最后,根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词。上述技术方案能够根据对待拓展的APP,基于语义相似度获得对应的关联关键词,能够提高关联关键词拓展的质量;此外,通过上述实施例的关联关键词拓展方法,还便于批量导出关联应用,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。上述技术方案能够快速确定待拓展APP对应的关联APP,基于语义相似度获得对应的关联关键词,能够提高关联关键词拓展的质量;此外,通过上述实施例的关联关键词拓展方法,还便于批量导出关联应用,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。
附图说明
图1为一实施例的应用的关联关键词拓展的方法的示意性流程图;
图2为一实施例的应用的关联关键词拓展的方法的APP层级示意性;
图3为另一实施例的应用的关联关键词拓展的方法的示意性流程图;
图4为一实施例的应用的关联关键词拓展的装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明各实施例中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
图1为一实施例的应用的关联关键词拓展的方法的示意性流程图;如图1所示,本实施例中的应用的关联关键词拓展的方法包括步骤:
S11,获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选得到第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP信息得到待拓展APP对应的关联APP。
本发明实施例中的关键词,包括所有可用于在应用库平台搜索APP的字符,例如汉字、英文单词或者字母、数字或者其他文字符号,还可以是几种字符的组合形式。
其中,第一级关键词对于所述待拓展APP的重要度,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的重要度,也可以是预先设定的重要度。若为前者,在一实施例中,还包括根据应用库平台的历史搜索记录信息,预先确定所述待拓展APP对应的关键词对于所述待拓展APP的重要度的步骤。
其中,第一级重点关键词覆盖的APP信息,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的APP,也可以是预先设定的APP。
S12,确定各个关联APP与待拓展APP的第一相似度。
S13,获得各个关联APP对应的第二级关键词,根据各个第二级关键词对于所述关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述重要度用于表示所述关联APP在所述第二级关键词的搜索结果中的排名信息。
所述第二相似度根据第二级关键词对于所述关联APP的重要度计算得到的。
其中,所述关联APP对应的第二级关键词,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的关键词,也可以是预先设定的关键词。
S13,获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分。
S14,根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词。例如,按照相似度得分排名的高低顺序,从全部第二级关键词中筛选出一定数量的第二级关键词,作为待拓展APP的关联关键词。
需要说明的是,本发明实施例中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
可选地,预先确定所述待拓展APP对应的关键词对于所述待拓展APP的重要度的步骤包括:根据关键词搜索结果中APP的排名信息,对关键词对于APP的重要度赋值:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1
其中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示搜索结果中APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
在一可选实施例中,根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词之前,还包括对应用库平台的历史搜索记录信息进行预处理的步骤。例如基于最近一周在所述应用库平台发生的搜索记录信息,历史搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息。例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称、应用榜单等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)。
在一可选实施例中,对应用库平台的历史搜索记录信息进行预处理的步骤可包括:
首先,获取应用库平台在设定时间段的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;所述第一映射关系中包括关键词对应的APP信息,以及APP在所述关键词的多次搜索结果中的排名信息。然后,根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词,还包括各个关键词对于所述APP的重要度,所述重要度用于表示APP在所述关键词的搜索结果中的排名信息,APP在关键词的搜索结果中排名越前,该关键词对于该APP的重要度越大。进一步的,根据所述第一映射关系和第二映射关系建立所述应用库平台对应的数据映射库。
优选地,根据所述历史搜索记录信息确定各关键词对应的第一映射关系具体可包括:根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排名信息;按照APP排名先后从该关键词的每次搜索结果中选取设定数量的APP,得到优选APP集合;统计所述优选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的频次特征向量;所述频次特征向量中的各个元素分别对应所述优选APP集合中各个APP的出现频次;根据所述优选APP集合以及所述频次特征向量,得到所述关键词对应的第一映射关系。
基于所述数据映射库,所述根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词可包括:查询所述数据映射库,获得待拓展APP对应的第二映射关系,根据所述第二映射关系得到待拓展APP对应的第一级关键词,以及所述第一级关键词的重要度;在一实施例中,上述步骤S13的具体实现方式可包括:从待拓展APP对应的全部第一级关键词中,选取重要度由高到低排名在前的设定数量(例如重要度TOP N)的第一级关键词,作为第一级重点关键词。
其中,获得各个第一级重点关键词覆盖的APP信息可包括:查询所述数据映射库,获得各个第一级重点关键词对应的第一映射关系,根据所述第一映射关系得到各个第一级重点关键词覆盖的APP信息。
在一实施例中,上述步骤S14中,根据全部第一级重点关键词覆盖的APP信息确定所述待拓展APP对应的关联APP,包括:根据全部第一级重点关键词、各个第一级重点关键词覆盖的APP信息,得到一APP矩阵;统计所述APP矩阵中各APP的出现频次,选取所述APP矩阵中出现频次大于或等于设定频次的APP作为第二级APP,组成第二级APP集合。根据第二级APP集合确定所述待拓展APP对应的关联APP。
参考图2所示,待拓展APP为第一级APP(即APP(1)),待拓展APP对应的关键词为第一级关键词(即KW(1)),第一级关键词/第一级重点关键词覆盖的APP为第二级APP(即APP(2)),第二级APP/第二级重点APP对应的关键词为第二级关键词(即KW(2))。
进一步地,在一实施例中,上述的根据第二级APP集合确定所述待拓展APP对应的关联APP可包括:
确定待拓展APP在应用库平台中所属的应用榜单,从所述第二级APP集合中删除与待拓展APP属于不同应用榜单的APP,更新第二级APP集合;之后再根据第二级APP集合包含的APP确定所述待拓展APP对应的关联APP。
在另一实施例中,根据第二级APP集合得到所述待拓展APP对应的关联APP还可包括:
计算待拓展APP与第二级APP集合中各第二级APP的关联度;选取第二级APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成第二级重点APP集合;进而可根据第二级重点APP集合确定待拓展APP对应的关联APP。即确定待拓展APP在应用库平台中所属的应用榜单,从所述第二级重点APP集合中删除与待拓展APP属于不同应用榜单的APP,更新第二级重点APP集合;之后再根据第二级重点APP集合包含的APP确定所述待拓展APP对应的关联APP。即先根据APP关联度对第二级APP进行筛选,再根据应用榜单对第二级APP进行再次筛选,
或者,确定待拓展APP在应用库平台中所属的应用榜单,从所述第二级APP集合中删除与待拓展APP属于不同应用榜单的APP,更新第二级APP集合;之后计算待拓展APP与更新后的第二级APP集合中各第二级APP的关联度;选取更新后的第二级APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成第二级重点APP集合;进而根据第二级重点APP集合确定待拓展APP对应的关联APP。即先根据应用榜单对第二级APP进行筛选,再根据APP关联度对剩余的第二级APP再次筛选。
在一实施例中,可采用如下公式计算待拓展APP与第二级APP集合中各第二级APP的关联度:
其中,APP(1)表示待拓展APP,APP(2) j表示第二级APP集合中的第j个APP,m表示APP(1)对应的全部关键词中能够映射到APP(2) j的关键词个数;V_4()表示APP对应的重要度特征向量,所述重要度特征向量中各个元素分别表示所述APP对应的关键词集合中各个关键词对于所述APP的重要度;分母表示APP(1)对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示APP(1)对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。
可以理解的,两个APP之间关联度的计算方法,包括但不限于上述算法,还可以采用其他APP之间关联度的算法。
进一步地,根据上述实施例筛选得到的第二级重点APP集合,确定待拓展APP对应的关联APP的过程包括:
计算各个第二级重点APP与待拓展APP的相似度;从第二级重点APP集合中选取所述相似度由高到低排名在前的设定数量(该数量可根据实际需要设置)的第二级重点APP,作为待拓展APP对应的关联APP。
在一实施例中,可通过如下公式计算各个第二级重点APP与待拓展APP的相似度:
其中,APP(1)表示待拓展APP,APP(2) j表示第二级重点APP集合中的第j个APP;V_4()表示APP对应的重要度特征向量,所述重要度特征向量中各个元素分别表示所述APP对应的关键词集合中各个关键词对于所述APP的重要度;V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度。
对应地,步骤S11中,所述确定各个关联APP与待拓展APP的第一相似度指的是:获取各个关联APP与待拓展APP的余弦相似度,作为各个关联APP与待拓展APP的第一相似度。
可以理解的,两个APP之间语义相似度的计算方法,包括但不限于上述的基于余弦相似度计算语义相似度的算法,还可以采用其他用于计算语义相似度的算法。
在一实施例中,从第二级重点APP集合中选取所述相似度由高到低排名在前的第二设定数量的第二级重点APP,作为待拓展APP对应的关联APP之前,还可包括:
获取预先定义的惩罚系数,根据所述惩罚系数对第二级重点APP集合中各个第二级重点APP对应的相似度进行调整,得到各个第二级重点APP的相似度调整值。
在一实施例中,根据所述惩罚系数对第二级重点APP集合中各个第二级重点APP对应的余弦相似度进行调整,得到各个第二级重点APP的余弦相似度调整值的公式可为:
sim=cos(APP(1),APP(2) j)-α;
其中,α∈[0,1],表示惩罚系数;sim_1(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度调整值。
上式为分段函数,可防止原始余弦相似度减去惩罚系数之后出现负值,即当相减后小于等于0则取0作为其余弦相似度调整值,否则取相减后的结果为其余弦相似度调整值。
可选地,还可根据余弦相似度调整值,可从第二级重点APP集合中删除余弦相似度调整值低于设定阈值的APP,根据剩余的APP确定待拓展APP的关联APP,例如,从第二级重点APP集合中删除余弦相似度调整值为0的APP。进一步,根据余弦相似度调整值从高到低取前100个APP,形成待拓展APP的关联APP列表。
对应地,步骤S11中,所述确定各个关联APP与待拓展APP的第一相似度指的是:获取各个关联APP与待拓展APP的余弦相似度调整值,作为各个关联APP与待拓展APP的第一相似度。
在一实施例中,根据各个第二级关键词对于所述关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度之前,还包括根据应用库平台的历史搜索记录信息预先确定各个关联APP对应的第二级关键词,还包括预先确定第二级关键词对于关联APP的重要度的步骤。
可选地,同理,确定第二级关键词对于关联APP的重要度的步骤包括:根据关键词搜索结果中APP的排名信息,对关键词对于APP的重要度赋值:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1
式中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示搜索结果中APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
在一实施例中,通过如下公式计算各个第二级关键词与关联APP的第二相似度:
式中,APP(2) i表示待拓展APP对应的第i个关联APP;KW(2) ij表示APP(2) i覆盖的第j个第二级关键词;wj表示KW(2) ij对APP(2) i的重要度;表示APP(2) i覆盖的全部第二级关键词的重要度均值;U表示APP(2) i覆盖的第二级关键词总数。
在一实施例中,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分,包括:对第二级关键词的搜索指数进行修正处理,得到搜索指数修正值;根据所述第一相似度、所述第二相似度以及各个第二级关键词的搜索指数修正值,计算待拓展APP与关联关键词集合中各个关键词的相似度得分。
可选地,对第二级关键词的搜索指数进行修正处理,得到搜索指数修正值包括:根据关键词搜索指数的数据显示其值一般均小于10000,故关键词的搜索指数标修正处理可定义为,
可以理解的,对于不同的实际场景,可对其中10000的数值进行调整。
进一步地,可通过如下公式计算各个第二级关键词与待拓展APP的相似度得分:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′
式中,APP(1)表示待拓展APP;APP(2) j表示待拓展APP对应的第j个关联APP;KW(2) i表示APP(2) j对应的第i个第二级关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度;sim_2(APP(2) j,KW(2) i)表示KW(2) i与APP(2) j的第二相似度;q表示设定的权重系数,用于调节第一相似度与搜索指数修正值对相似度得分的影响程度。
在一实施例中,上述步骤S14中,根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词的步骤包括:获取预先设定的奖励系数,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值;根据所述相似度得分修正值对第二级关键词进行筛选,得到待拓展APP的关联关键词。可选地,通过如下公式对所述相似度得分进行修正:
其中,θ为奖励系数,sim_2sum表示第二级关键词KW(2) i与待拓展APP的所有关联APP的第二相似度之和;sim_2max表示第二级关键词KW(2) i与待拓展APP的所有关联APP的第二相似度的最大值。
在一实施例中,上述实施例中,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值之后,还包括:
对所述相似度得分修正值进行标准化处理,根据标准化处理后的相似度得分修正值对第二级关键词进行筛选,得到待拓展APP的关联关键词;可选地,通过如下公式对相似度得分修正值进行标准化处理:
其中,KW(2)表示第二级关键词的集合,Score(APP(1),KW(2) i)′∈[0,100],simi′为第i个第二级关键词与APP(1)的相似度得分修正值,simmin′与simmax′分别为相似度得分修正值的最小值与最大值。
可以理解的,上述实施例对相似度得分修正值的标准化处理是基于百分制的处理,对于实际的标准化要求,还可通过其他方式对相似度得分修正值进行标准化处理。
在一实施例中,根据标准化处理后的相似度得分修正值对第二级关键词进行筛选,得到待拓展APP的关联关键词,包括:根据标准化处理后的相似度得分修正值的高低顺序,从全部第二级关键词中选取设定数量的关键词,作为待拓展APP的关联关键词。
在一可选实施例中,获得待拓展APP对应的关联APP之前,还包括根据应用库平台的历史搜索记录信息预先确定待拓展APP对应的关联APP的步骤。可选地,所述步骤可包括:获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于所述待拓展APP的重要度,所述重要度用于表示待拓展APP在所述关键词的搜索结果中的排名信息;根据所述重要度,从待拓展APP对应的全部第一级关键词中筛选得到第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP信息确定待拓展APP对应的关联APP。
在一实施例中,确定待拓展APP对应的关联APP之前,即根据应用库平台的历史搜索记录信息获得待拓展APP对应的第一级关键词值之前,还包括:对应用库平台的历史搜索记录信息进行预处理的步骤。例如基于最近一周在所述应用库平台发生的搜索记录信息,历史搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息。例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)。
可选地,对应用库平台的历史搜索记录信息进行预处理的步骤可包括:
首先,获取应用库平台在设定时间段的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;所述第一映射关系中包括关键词对应的APP信息,以及APP在所述关键词的多次搜索结果中的排名信息。然后,根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词,还包括各个关键词对于所述APP的重要度,所述重要度用于表示APP在所述关键词的搜索结果中的排名信息,APP在关键词的搜索结果中排名越前,该关键词对于该APP的重要度越大。进一步的,根据所述第一映射关系和第二映射关系建立所述应用库平台对应的数据映射库。
下面结合图3所述的逻辑示意图,对本发明实施例的应用的关联关键词拓展的方法做进一步的说明。在图3的实施例中,以苹果应用商店为例,其他应用库平台与之原理相同。所述应用的关联关键词拓展的方法包括以下步骤。
1.关键词内容抓取
利用苹果开发者API获取苹果应用商店最近一周的历史搜索记录数据,包括但不限于应用名称、关键词详情、关键词搜索指数、关键词搜索结果、应用榜单等。关键词的搜索指数在不同应用库的定义可能不同,对于苹果应用商店是根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数(搜索量),同时考虑搜索量级等因素计算得到的,搜索指数与搜索量两者是呈现正向关系,从经验上大致估计,搜索指数对应的搜索量如下:
其中,P为搜索指数,f(x)代表搜索指数与搜索量两者关系已非单纯的线性增长关系。
2.历史关键词搜索记录数据预处理
基于关键词的最近一周的搜索记录数据,采用第i个关键词进行搜索覆盖到的APP数据样式如下:
S(ki)=(appid1,appid2,…,appidn) (2-1)
式中,i,n∈Z,Z表示正整数集合;ki表示第i个关键词,n表示通过关键词ki搜索得到n个按出现顺序排列的APP,对于不同关键词(2-1)中的n值的大小可能不同;
2.1关键词与APP的正向映射关系(即关键词对应的第一映射关系)
由于同一个关键词在一周内可能会被多次搜索,且搜素结果随着搜索时间的变化而变化。对关键词ki的多次搜索结果进行统计汇总,得到关键词ki覆盖的APP集合A(ki)以及对应的频次特征向量V_1(ki),
A(ki)=(appid1,appid2,…,appidn) (2-2)
V_1(ki)=(c1,c2,…,cn) (2-3)
式中,i,n∈Z;cn表示一周内用关键词ki搜索出现第n个app的频次。A(ki)中的APP表示经过筛选的候选APP。筛选的过程可包括:根据设定历史时段内的多次搜索结果,得到关键词ki对应的多次搜索结果中的APP排名信息;按照APP排名先后,从该关键词的每次搜索结果中选取设定数量的APP得到关键词ki对应的优选APP集合;统计优选APP集合中各个APP在所述多次搜索结果中的出现频次,根据所述出现频次,从优选APP集合中删除出现频次低于设定次数的APP,更新优选APP集合,得到该关键词ki对应的APP集合A(ki)。
需要说明的是,本发明实施例中,APP可通过appid标识,appid由应用库平台统一分配,用于标识不同的APP。
2.2关键词与APP的逆向映射关系(即APP对应的第二映射关系)
可选地,根据关键词搜索结果中APP的排名信息,进行关键词对于APP的重要度赋值,具体如下:
V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5) (2-4)
V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞) (2-5)
wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1 (2-6)
式中,i∈[1,16];V_2(w)为重要度权重向量;V_3(r)为排名区间向量;∞表示排名正无穷大;rank表示APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
根据(2-1)中S(ki)建立倒排列表,可得第i个APP(即ai)覆盖的关键词集合K(ai)。根据(2-4)、(2-5)、(2-6)可得对应的重要度特征向量V_4(ai),
K(ai)=(keyword1,...,keywordn) (2-7)
V_4(ai)=(w1,w2,…,wn) (2-8)
式中,i,n∈Z;ai表示第i个APP,同时不同APP对应不同的n值大小可能不同;wn表示ai覆盖的第n个关键词keywordn的重要度;V_4(ai)表示各关键词对于ai的重要度特征向量。
可选地,对步骤1中的历史搜索信息进行预处理,整理以下映射关系,用hash表表示为表1所示。
表1:
其中keyword代表关键词,keyword_id代表应用库平台分配的关键词标识符,prioity代表关键词的搜索指数,appid代表应用库平台分配的应用标识符,count表示统计周期内APP相对应出现的频次,weight表示关键词相对于关联APP的重要性,geneid代表应用库平台分配APP分类榜单ID。
3.关联APP拓展
对于输入的待拓展的APP名称,通过查询上述步骤2构建的数据映射库可得到对应的appid。下面步骤将用appid区分不同的APP。
进一步地,根据(2-7)、(2-8)获取待拓展APP(即APP(1))覆盖的关键词集合K(APP(1))及其对应的重要度特征向量V_4(APP(1))分别为:
K(APP(1))=[keyword(1),…,keyword(m)]T (3-1)
V_4(APP(1))=[w(1),…,w(m)]T (3-2)
其中m∈Z,T表示转置。K(APP(1))中的关键词即第一级重点关键词。
根据(2-2)对(3-1)中的关键词列表进行映射,可得到APP矩阵,记为Mapp,则
其中m,n∈Z。Mapp中包含全部第一级重点关键词覆盖的APP。
4.计算待拓展APP与APP矩阵中各APP的关联度
4.1对步骤3中得到的APP矩阵Mapp进行归并并统计其中各APP的频次,选取其中频次排名前k个APP作为第二级APP,可得第二级APP集合Sapp
Sapp={appid1,appid2,…,appidk} (4-1)
式中,k∈Z
4.2计算待拓展APP与第二级APP集合Sapp中各APP的关联度
优选地,根据(3-1)、(3-2)、(3-3)可定义的两个APP之间关联度如下:
式中,APP(1)表示待拓展APP;APP(2) j表示第二级APP集合Sapp中的第j个APP;n为待拓展APP对应的第一级重点关键词的总数;M为待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词个数。分母表示待拓展APP对应的全部第一级重点关键词对于APP(1)的重要度之和;分子表示待拓展APP对应的全部第一级重点关键词中能映射到APP(2) j的关键词对于APP(1)的重要度之和。
4.3第二级APP筛选
针对(4-1)选择关联度Top e的APP构成第二级重点APP集合,
5.计算APP(1)与第二 级重点APP集合中各个APP的相似度
5.1APP与关键词映射
根据(2-7)与(2-8)对中各个第二级重点APP进行映射,得到的重要度特征矩阵:
式中,W(e)表示中第e个APP对应的权重特征向量;w(e) n为W(e)中第n个元素,T表示转置。
5.2根据余弦相似度公式并结合(5-1)可得,计算待拓展APP与中第二级重点APP的余弦相似度为,
式中,APP(1)为待拓展APP;APP(2) j为第二级重点APP集合中的第j个APP;V_4(APP(1))·V_4(APP(1) j)表示APP(1)重要度特征向量与APP(2) j重要度特征向量的内积;
||V_4(APP(1))||2||V_4(APP(1) j)||2表示APP(1)重要度特征向量的2-范数与APP(2) j重要度特征向量的2-范数的乘积,即重要度特征向量的元素绝对值的平方和再开方的乘积。
5.3基于(5-1)定义惩罚系数α∈[0,1],对上一步骤中的余弦相似度结果进行调整,以从第二级重点APP集合中剔除余弦相似度较低的APP,调整公式为:
sim=cos(APP(1),APP(2) j)-α;
6.然后,根据余弦相似度调整值,可从第二级重点APP集合中删除余弦相似度调整值低于设定阈值的APP,剩余的APP作为待拓展APP的关联APP,例如,按照余弦相似度调整值从高到低取前设定数量(例如100个)APP,形成待拓展APP的关联APP列表;或者,从第二级重点APP集合中删除相似度调整值为0的APP,剩余的APP作为待拓展APP的关联APP。对应地,各关联APP对应的余弦相似度调整值即各关联APP的第一相似度,用于衡量各个关联APP与待拓展APP的第一相似度。
7.计算KW(2)对APP(2)的第二相似度
根据(5-1),为消除中APP(2)热门APP“话语权”,需对第二级关键词的重要度进行调整,得到第二相似度,以消除APP(2)热门APP覆盖的第二级关键词重要度过大而造成关联关键词拓展结果均是来自该热门APP。例如:由于(2-4)、(2-5)、(2-6)为预先定义,需要在此将重要度调整为第二相似度。比如“微信”APP属于热门的APP,那么其覆盖的关键词较多,并且利用这些关键词搜索,“微信”排名始终靠前,即这些关键词对微信APP来说都是比较重要的(重要度较高),相对应的重要度特征向量的数值均是较大。假如不做调整,后续利用对应的重要度特征向量进行相似度计算时,则会导致这部分关键词与对应APP的相似度得分较高,最后关联关键词拓展结果大多来自“微信”。
定义KW(2)对APP(2)的重要度调整策略如下,保证得到的第二相似度是相对同一个关联AP的相对重要度。
式中,式中,APP(2) i表示待拓展APP对应的第i个关联APP;KW(2) ij表示APP(2) i覆盖的第j个第二级关键词;wj表示KW(2) ij对APP(2) i的重要度;表示APP(2) i覆盖的全部第二级关键词的重要度均值;U表示APP(2) i覆盖的第二级关键词总数。
记不同关联APP覆盖同一第二级关键词,该第二级关键词与不同关联APP的最大第二相似度为sim_2max,相应其第二相似度之和如下:
式中,KW(2) ij表示APP(2) i覆盖的第j个关键词,其中不同j值在此式中映射到关键词相同。
8.计算APP(1)与KW(2)的相似度得分
根据关键词搜索指数的数据显示其值一般均小于10000,故关键词搜索指数标准化结果可定义为,
则APP(1)与KW(2)的相似度得分如下:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′ (7-2)
式中,APP(1)表示待拓展APP;APP(2) j表示待拓展APP对应的第j个关联APP;KW(2) i表示APP(2) j对应的第i个第二级关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度。
9.相似度得分奖励
首先,基于KW(2)中每个第二级关键词可多次被关联到,则需要对第二级关键词进行归并奖励,被关联次数越多,则认为其对于待拓展APP越重要,定义奖励系数为θ∈[0,1],则APP(1)与KW(2)最终的相似度得分修正值为:
其中,θ为奖励系数,sim_2sum表示第二级关键词KW(2) i与待拓展APP对应的所有关联APP的第二相似度之和;sim_2max表示第二级关键词KW(2) i与待拓展APP对应的所有关联APP的第二相似度的最大值。
10.基于语义的关联关键词拓展
对(8-1)进行标准化,对第二级关键词的相似度得分修正值进行标准化可得,
其中,其中,KW(2)表示第二级关键词的集合,Score(APP(1),KW(2) i)′∈[0,100],simi′为第i个第二级关键词与APP(1)的相似度得分修正值,simmin′与simmax′分别为相似度得分修正值的最小值与最大值。
最后,通过标准化处理后的按相似度得分修正值从高到低取前k个第二级关键词,形成关联关键词列表。
上述步骤中,1~2可以是离线计算,定期更新,比如每周重新更新一遍。步骤3~10是在线计算,对输入的每个APP名称通过查询数据映射库得到对应的appid,进而可实时自动拓展出关联APP列表和关联关键词列表。
将该技术应用在苹果商店APP关联拓展上,测试了3个APP拓展效果。首先人工为每个APP拓展了20个关联关键词,然后应用该技术为每个APP自动选出前80个关联关键词。对比结果发现,人工选出的关联关键词80%被自动选出的前80个关联关键词中,证明了该技术的有效性。相比人工拓展,该技术在3秒之内即可提供前200个拓展关联关键词,速度大幅提升。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。
基于与上述实施例中的应用的关联关键词拓展的方法相同的思想,本发明还提供应用的关联关键词拓展的装置,该装置可用于执行上述应用的关联关键词拓展的方法。为了便于说明,应用的关联关键词拓展的装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图4为本发明一实施例的应用的关联关键词拓展的装置的示意性结构图;如图4所示,本实施例的应用的关联关键词拓展的装置包括:
关联应用确定模块,用于获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选出第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP得到待拓展APP的关联APP。
第一相似度确定模块,用于确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块,用于获取各个关联APP对应的第二级关键词,根据各个第二级关键词对于所述关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述第二级关键词为能够在应用库平台搜索到关联APP的关键词;
相似度得分计算模块,用于获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;
以及,关键词筛选模块,用于根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词;
其中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
需要说明的是,上述示例的应用的关联关键词拓展的装置的实施方式中,各模块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的应用的关联关键词拓展的装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述应用的关联关键词拓展的装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各实施例的方法的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种应用关联关键词拓展方法。
此外,所述存储介质还可设置与一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各实施例的方法的全部或部分步骤。
据此,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种应用关联关键词拓展的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一级”、“第二级”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种应用的关联关键词拓展的方法,其特征在于,包括:
获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选出第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP得到待拓展APP的关联APP;
确定各个关联APP与待拓展APP的第一相似度;
获得各个关联APP对应的第二级关键词,根据各个第二级关键词对于关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述第二级关键词为能够在应用库平台搜索到关联APP的关键词;
获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;
根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词;
其中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
2.根据权利要求1所述的应用的关联关键词拓展的方法,其特征在于,根据所述重要度从第一级关键词中筛选得到第一级重点关键词,包括:
从待拓展APP对应的全部第一级关键词中,选取重要度由高到低排名在前的第一设定数量的第一级关键词,作为第一级重点关键词。
3.根据权利要求2所述的应用的关联关键词拓展的方法,其特征在于,根据全部第一级重点关键词覆盖的APP得到待拓展APP的关联APP,包括:
根据全部第一级重点关键词、各个第一级重点关键词覆盖的APP信息,得到一APP矩阵;
统计所述APP矩阵中各APP的出现频次,选取所述APP矩阵中出现频次大于或等于设定频次的APP作为第二级APP,组成第二级APP集合;
根据第二级APP集合确定所述待拓展APP对应的关联APP。
4.根据权利要求3所述的应用的关联关键词拓展的方法,其特征在于,根据第二级APP集合确定所述待拓展APP对应的关联APP,包括:
确定待拓展APP在应用库平台中所属的应用榜单,从第二级APP集合中删除与待拓展APP属于不同应用榜单的APP,更新第二级APP集合;
计算待拓展APP与更新后的第二级APP集合中各第二级APP的关联度;选取第二级APP集合中所述关联度大于或等于设定关联度的第二级APP作为第二级重点APP,组成第二级重点APP集合;
根据第二级重点APP集合确定待拓展APP对应的关联APP。
5.根据权利要求4所述的应用的关联关键词拓展的方法,其特征在于,根据第二级重点APP集合确定待拓展APP对应的关联APP,包括:
根据各个第二级重点APP、待拓展APP各自对应的重要度特征向量,计算各个第二级重点APP与待拓展APP的余弦相似度;其中,在APP对应的重要度特征向量中,各个元素分别表示该APP对应的各个关键词对于该APP的重要度;
从第二级重点APP集合中选取所述余弦相似度由高到低排名在前的第二设定数量的第二级重点APP,作为待拓展APP对应的关联APP;
所述确定各个关联APP与待拓展APP的第一相似度,包括:
获取各个关联APP与待拓展APP的余弦相似度,作为各个关联APP与待拓展APP的第一相似度。
6.根据权利要求5所述的应用的关联关键词拓展的方法,其特征在于,从第二级重点APP集合中选取所述余弦相似度由高到低排名在前的第二设定数量的第二级重点APP,作为待拓展APP对应的关联APP之前,还包括:
获取预先定义的惩罚系数,根据所述惩罚系数对各个第二级重点APP的余弦相似度进行调整,得到各个第二级重点APP的余弦相似度调整值;
所述确定各个关联APP与待拓展APP的第一相似度,包括:获取各个关联APP与待拓展APP的余弦相似度调整值,作为各个关联APP与待拓展APP的第一相似度。
7.根据权利要求6所述的应用的关联关键词拓展的方法,其特征在于,通过如下公式计算待拓展APP与各个第二级重点APP的相似度:
其中,APP(1)表示待拓展APP,APP(2) j表示第二级重点APP集合中的第j个APP;V_4(APP(1))·V_4(APP(2) j)表示APP(1)对应的重要度特征向量与APP(2) j对应的重要度特征向量的内积;||V_4(APP(1))||2表示APP(1)对应的重要度特征向量的2-范数;cos(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度。
8.根据权利要求7所述的应用的关联关键词拓展的方法,其特征在于,根据所述惩罚系数对各个第二级重点APP的余弦相似度进行调整,得到各个第二级重点APP的余弦相似度调整值的公式包括:
sim=cos(APP(1),APP(2) j)-α;
其中,α∈[0,1],表示惩罚系数,sim_1(APP(1),APP(2) j)表示APP(1)和APP(2) j的余弦相似度调整值。
9.根据权利要求1所述的应用的关联关键词拓展的方法,其特征在于,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分,包括:
对第二级关键词的搜索指数进行修正处理,得到搜索指数修正值;
根据所述第一相似度、所述第二相似度以及各个第二级关键词的搜索指数修正值,计算待拓展APP与关联关键词集合中各个关键词的相似度得分。
10.根据权利要求9所述的应用的关联关键词拓展的方法,其特征在于,通过如下公式计算各个第二级关键词与待拓展APP的相似度得分:
sim_3(APP(1),KW(2) i)=q·sim_1(APP(1),APP(2) j)·sim_2(APP(2) j,KW(2) i)+(1-q)·p′
其中,APP(1)表示待拓展APP;APP(2) j表示待拓展APP的第j个关联APP;KW(2) i表示APP(2) j对应的第i个第二级关键词;p′表示KW(2) i的搜索指数修正值;sim_1(APP(1),APP(2) j)表示APP(1)与APP(2) j的第一相似度;sim_2(APP(2) j,KW(2) i)表示KW(2) i与APP(2) j的第二相似度;q表示设定的权重系数。
11.根据权利要求10所述的应用的关联关键词拓展的方法,其特征在于,根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词,包括:
获取预先设定的奖励系数,根据所述奖励系数对所述相似度得分进行修正,得到相似度得分修正值;根据所述相似度得分修正值对第二级关键词进行筛选,得到待拓展APP的关联关键词。
12.一种应用的关联关键词拓展的装置,其特征在于,包括:
关联应用确定模块,用于获得待拓展APP对应的第一级关键词,所述第一级关键词为能够在应用库平台搜索到待拓展APP的关键词;获得各个第一级关键词对于待拓展APP的重要度,根据所述重要度从第一级关键词中筛选得到第一级重点关键词;获得各个第一级重点关键词覆盖的APP信息,根据全部第一级重点关键词覆盖的APP信息得到待拓展APP对应的关联APP;
第一相似度确定模块,确定各个关联APP与待拓展APP的第一相似度;
第二相似度计算模块,用于获取各个关联APP对应的第二级关键词,根据各个第二级关键词对于所述关联APP的重要度,计算各个第二级关键词与关联APP的第二相似度;所述第二级关键词为能够在应用库平台搜索到关联APP的关键词;
相似度得分计算模块,用于获取各个第二级关键词在应用库平台的搜索指数,根据所述第一相似度、第二相似度以及各个第二级关键词的搜索指数,计算各个第二级关键词与待拓展APP的相似度得分;
以及,关键词筛选模块,用于根据所述相似度得分对第二级关键词进行筛选,得到待拓展APP的关联关键词;
其中,关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11任一所述方法的步骤。
14.一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至11任一所述方法的步骤。
CN201711229294.5A 2017-11-29 2017-11-29 应用的关联关键词拓展的方法和装置 Active CN108021641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711229294.5A CN108021641B (zh) 2017-11-29 2017-11-29 应用的关联关键词拓展的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711229294.5A CN108021641B (zh) 2017-11-29 2017-11-29 应用的关联关键词拓展的方法和装置

Publications (2)

Publication Number Publication Date
CN108021641A CN108021641A (zh) 2018-05-11
CN108021641B true CN108021641B (zh) 2019-07-19

Family

ID=62077656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711229294.5A Active CN108021641B (zh) 2017-11-29 2017-11-29 应用的关联关键词拓展的方法和装置

Country Status (1)

Country Link
CN (1) CN108021641B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507192A (zh) * 2020-09-24 2021-03-16 厦门立马耀网络科技有限公司 一种应用对比匹配方法、介质、系统和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法
CN103902720A (zh) * 2014-04-10 2014-07-02 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统
CN106095982A (zh) * 2016-06-17 2016-11-09 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN106557480A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 查询改写的实现方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法
CN103902720A (zh) * 2014-04-10 2014-07-02 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN106557480A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 查询改写的实现方法及装置
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统
CN106095982A (zh) * 2016-06-17 2016-11-09 广州视源电子科技股份有限公司 简历搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于用户特征分析的查询扩展技术研究与应用";岳绍敏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215(第12期);第I138-975页

Also Published As

Publication number Publication date
CN108021641A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN106202124B (zh) 网页分类方法及装置
US20210224326A1 (en) Dressing recommendation method and dressing recommendation apparatus
US20070043774A1 (en) Method and Apparatus for Incremental Computation of the Accuracy of a Categorization-by-Example System
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
US7089238B1 (en) Method and apparatus for incremental computation of the accuracy of a categorization-by-example system
CN112231555A (zh) 基于用户画像标签的召回方法、装置、设备及存储介质
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN108182200B (zh) 基于语义相似度的关键词拓展方法和装置
CN113268641B (zh) 基于大数据的用户数据处理方法及大数据服务器
CN111061954A (zh) 搜索结果排序方法、装置及存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN111327930A (zh) 获取目标对象的方法、装置、电子设备及存储介质
CN106708829B (zh) 一种数据推荐方法及推荐系统
CN114722086A (zh) 一种搜索重排模型的确定方法及装置
CN109871770A (zh) 房产证识别方法、装置、设备及存储介质
CN108021641B (zh) 应用的关联关键词拓展的方法和装置
CN108170665A (zh) 基于综合相似度的关键词拓展方法和装置
CN115168700A (zh) 一种基于预训练算法的信息流推荐方法、系统及介质
CN107426610A (zh) 视频信息同步方法及装置
CN110209916B (zh) 一种兴趣点图像推荐方法及装置
CN108804492B (zh) 用于多媒体对象推荐的方法及装置
CN111611781B (zh) 数据标注方法、问答方法、装置及电子设备
CN110134812A (zh) 一种人脸搜索方法及其装置
JP4891638B2 (ja) 目的データをカテゴリに分類する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221027

Address after: 511400 1408, No. 26, Qinglan Street, Xiaoguwei Street, Panyu District, Guangzhou, Guangdong Province (cluster registration)

Patentee after: Youmiyouliang (Guangzhou) Technology Co.,Ltd.

Address before: 511400 b232, building 13, 232 Waihuan East Road, Xiaoguwei street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: YOUMI TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right