CN110083774B - 应用推荐列表的确定方法、装置、计算机设备及存储介质 - Google Patents

应用推荐列表的确定方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110083774B
CN110083774B CN201910389447.5A CN201910389447A CN110083774B CN 110083774 B CN110083774 B CN 110083774B CN 201910389447 A CN201910389447 A CN 201910389447A CN 110083774 B CN110083774 B CN 110083774B
Authority
CN
China
Prior art keywords
application
keyword
topic
historical
applications
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910389447.5A
Other languages
English (en)
Other versions
CN110083774A (zh
Inventor
龙梓
张海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910389447.5A priority Critical patent/CN110083774B/zh
Publication of CN110083774A publication Critical patent/CN110083774A/zh
Application granted granted Critical
Publication of CN110083774B publication Critical patent/CN110083774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种应用推荐列表的确定方法、装置、计算机设备及存储介质,该方法包括:获得待分析的至少一个目标关键词;获取可供推荐的多款应用各自的主题特征,应用的主题特征用于反映应用属于该多款应用对应的多个主题的归属情况;利用训练出的主题提取模型确定各个目标关键词的主题特征,该主题提取模型为利用多个历史关键词及多个历史关键词各自的主题特征训练得到的;针对每个目标关键词,分别计算目标关键词的主题特征与每款应用的主题特征之间的主题相似度,并将多款应用中主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用。本申请的方案有利于基于关键词搜索到主题不同但是存在关联性的多种应用。

Description

应用推荐列表的确定方法、装置、计算机设备及存储介质
技术领域
本申请涉及应用搜索技术领域,尤其涉及应用推荐列表的确定方法、装置、计算机设备及存储介质。
背景技术
应用搜索平台可以基于用户输入的关键词,搜索出与该关键词匹配的应用。如,用户输入“**购物”这一关键词,则应用搜索平台会基于该关键词,搜索出相应的购物应用并展示出搜索到的购物应用的图标,以供用户选择下载所需的购物应用。
而随着应用数量的不断增多,同一类型或者具有相关性的应用也越来越多。相应的,用户在应用搜索平台中输入一个应用的关键词之后,不仅希望搜索到该应用,还可能会希望搜索到与该应用的名称不同,但是功能相似或者存在关联的其他应用。例如,用户在搜索“**游戏应用”时,不仅希望搜索到该款游戏应用,还可能希望应用搜索平台提供与该“**游戏应用”属于同一种游戏类型的其他游戏应用或者与该款游戏应用对应的“游戏攻略助手”应用等。然而,应用搜索平台一般都是基于用户输入的应用搜索关键词进行文本匹配,因此,应用搜索平台只能搜索到与该应用搜索关键词具有相同文本的同主题应用,而无法提供与该应用搜索关键词的主题不同但是具有关联的其他应用。
发明内容
有鉴于此,本申请提供了一种应用推荐列表的确定方法、装置、计算机设备及存储介质,以使得基于应用的搜索关键词不仅仅可以搜索到同一主题的应用,还可以搜索出主题不同但是存在关联性的其他应用。
为实现上述目的,本申请提供了如下方案:
一方面,本申请提供了一种应用推荐列表的确定方法,包括:
获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位。
在一种可能的实现方式中,所述获取可供推荐的多款应用各自的主题特征,包括:
获得可供推荐的多款应用各自的特征信息;
针对每款所述应用,将该应用的特征信息作为该应用的特征描述文本;
将所述多款应用的特征描述文本输入文档主题生成模型,得到每款所述应用的特征描述文本中各个词所属的主题;
针对每款所述应用,依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题特征。
优选的,所述应用的特征信息通过如下方式得到:
获取可供推荐的多款应用各自的属性信息,应用的属性信息包括:应用的应用名称、应用的类别信息以及应用搜索平台中该应用的介绍信息中的一种或者多种;
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:每款所述应用对应的历史关键词集合,所述历史关键词集合包括:历史搜索并下载该应用所依据的至少一个历史关键词;
针对每款应用,将该应用的属性信息以及该应用对应的历史关键词集合中各个历史关键词确定为该应用的特征信息。
在又一种可能的实现方式中,在所述利用训练出的主题提取模型确定所述目标关键词的主题特征之前,还包括:
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:多个历史关键词以及每个历史关键词对应的历史应用集合;
针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征;
依据所述多个历史关键词以及所述多个历史关键词各自的主题特征,训练主题提取模型。
又一方面,本申请还提供了一种应用推荐列表的确定装置,包括:
关键词获得单元,用于获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
第一特征获取单元,用于获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
第二特征获取单元,用于针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
相似度计算单元,用于针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
列表匹配单元,用于针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位。
又一方面,本申请还提供了一种计算机设备,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的应用推荐列表的确定方法。
可见,本申请实施例,每个可供推荐的应用的主题特征是基于多款应用的特征信息确定的,其能够反映该应用属于该多款应用对应的多个主题的归属情况,而不仅仅是反映该应用的名称所具有的主题。同时,由于训练主题提取模型所采用的历史关键词的关键特征是依据由该历史关键词触发搜索并下载的至少一个应用的主题特征确定的,同样可以反映历史关键词与多款应用对应的多个主题的归属情况,这样,通过该主题提取模型所确定出的目标关键词的主题特征也可以反映出该目标关键词归属于该多款应用对应的多个主题的归属情况。由此可知,目标关键词的主题特征与各款应用的主题特征的主题相似性可以从多种主题维度来反映目标关键词与各款应用之间的匹配情况,因此,基于目标关键词与各款应用之间的主题相似性可以有利于确定出与该目标关键词在多种维度上匹配的应用,从而有利于基于关键词搜索出名称不同但是存在关联的多种应用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请的方案所适用的一种场景的架构组成示意图;
图2示出了本申请的方案所适用的一种计算机设备的组成结构示意图;
图3示出了本申请一种应用推荐列表的确定方法的一种流程示意图;
图4示出了本申请主题提取模型的一种组成结构示意图;
图5为本申请训练主题提取模型的一种训练过程示意图;
图6示出了本申请一种应用推荐列表的确定方法的又一种流程示意图;
图7示出了应用搜索平台基于本申请确定出的应用推荐列表输出搜索结果页面的一种示意图;
图8示出了本申请一种应用推荐列表的确定装置的一种组成结构示意图。
具体实施方式
本申请的方案适用于针对每个用于搜索应用的关键词,从可供推荐的多款应用中确定出与该关键词匹配的应用推荐列表。如,从应用搜索平台的多款应用中确定与关键词匹配的应用搜索列表等。其中,该应用搜索平台可以为应用商店等能够提供应用搜索或者下载的服务系统。
为了便于理解本申请的方案,先对本申请实施例的方案所适用的场景进行介绍。如参见图1,其示出了本申请一种应用推荐列表的确定方法所适用的系统的一种组成架构示意图。
由图1可以看出,该系统包括:应用搜索平台101以及至少一台终端102。
其中,应用搜索平台包括至少一台服务器103。
终端102,用于向应用搜索平台的服务器发送应用搜索请求,该应用搜索请求携带有用于搜索应用的搜索关键词。
相应的,服务器103,用于基于搜索关键词,匹配至少一个应用,得到该搜索关键词对应的应用推荐列表,并将匹配出的应用推荐列表中各个应用的图标等标识信息发送给终端102,以在终端102中输出基于该搜索关键词搜索出的各个应用的图标或者其他标识信息。
可以理解的是,该服务器确定与搜索关键词匹配的至少一个应用时,可以按照本申请的方案,依据该搜索关键词的主题特征与应用搜索平台中各个应用的主题特征,来确定搜索关键词分别与各个应用之间的主题相似度,并基于主题相似度选取出至少一个应用。
为了能够提供服务器基于搜索关键词匹配至少一个应用的效率,图1的系统中还可以包括:至少一台计算机设备104。
在一种可能的情况中,该至少一台计算机设备104可以为独立于该应用搜索平台的数据处理系统,相应的,该计算机设备与应用搜索平台的服务器具有通信连接。在图1中是以计算机设备为应用搜索平台之外的设备为例。
在又一种可能的情况中,该至少一台计算机设备也可以是属于应用搜索平台中如上至少一台服务器;或者是,该至少一台计算机设备为该应用搜索平台中设置的独立于如上至少一台服务器之外,且用于数据分析与处理的服务器。
在图1的系统包括该计算机设备的情况下,该计算机设备可以预先分析出不同搜索关键词对应的应用推荐列表,然后,将不同搜索关键词对应的应用推荐列表发送给应用搜索平台的服务器103。相应的,服务器103可以接收到用户输入的搜索关键词之后,查询该搜索关键词对应的应用推荐列表,并基于该应用推荐列表向终端反馈相应的应用的图标等标识信息。
当然,在图1的系统中还可以包括数据存储设备。该数据存储设备可以属于应用搜索平台,该数据存储设备可以存储服务器或者计算机设备中确定应用推荐列表所用到的应用的关联信息、应用搜索日志等等数据。
基于以上内容可知,本申请的应用推荐列表的确定方法可以适用于计算机设备,该计算机设备可以为应用搜索平台中的服务器,也可以是独立于应用搜索平台的服务器、个人计算机等具有数据处理能力的电子设备。
如图2,其示出了本申请的应用推荐列表的确定方法所适用的一种计算机设备的一种组成结构示意图
在图2中,该计算机设备200可以包括:处理器201和存储器202。
该计算机设备200还可以包括:通信接口203、输入单元204和显示器205和通信总线206。其中,处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。
在本申请实施例中,该处理器201,可以为中央处理器(Central ProcessingUnit,CPU)或者可编程逻辑器件等。该处理器可以调用存储器202中存储的程序,具体的,可以处理器可以执行如下图3至图6中所涉及到的计算机设备侧的操作。
存储器202中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获得待分析的至少一个目标关键词,该目标关键词为用于搜索应用的关键词;
获取可供推荐的多款应用各自的主题特征,其中,该应用的主题特征用于反映应用属于该多款应用对应的多个主题的归属情况,该多款应用对应的多个主题为基于该多款应用各自关联的特征信息提取出的多个主题;
针对每个该目标关键词,利用训练出的主题提取模型确定该目标关键词的主题特征,该主题提取模型为利用多个历史关键词以及该多个历史关键词各自的主题特征训练得到的,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且该至少一个应用属于该多款应用;
针对每个目标关键词,分别计算该目标关键词的主题特征与每款该应用的主题特征之间的主题相似度;
针对每个该目标关键词,将该多款应用中该主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,该主题相似度满足条件包括:该主题相似度属于主题相似度较高的前指定位。
在一种可能的实现方式中,该存储器202可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统和应用程序的数据;存储数据区可存储根据计算机的使用过程中所创建的数据。
该通信接口203可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器204和输入单元205,该显示器包括显示面板等;该输入单元可以触摸感应单元、键盘等等。
当然,图2所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定,在实际应用中计算机设备可以包括比图2所示的更多或更少的部件,或者组合某些部件。
结合以上共性,为了便于理解本申请的方案,下面结合流程图对本申请的一种应用推荐列表的确定方法进行介绍。
如图3,其示出了本申请一种应用推荐列表的确定方法的一种流程示意图,本实施例的方法可以应用于如上的计算机设备,本实施例的方法可以包括:
S301,获得待分析的至少一个目标关键词。
其中,目标关键词为用于搜索应用的关键词。
可以理解的是,根据本申请的应用场景的不同,获取目标关键词的方式也会有所不同。
如,在应用搜索平台的服务器根据用户输入的关键词实时搜索应用的场景下,该步骤S301可以认为是获取用户通过终端输入的目标关键词。
又如,在应用搜索平台之外的计算机设备或者应用搜索平台中专门设置的计算机设备预先分析出不同关键词所能匹配的应用推荐列表的情况下,可以获取能够作为搜索应用的多个目标关键词。如,根据该应用搜索平台或者多个不同应用搜索平台中历史搜索所采用的关键词,统计分析出较为常见的用于搜索应用的关键词。当然,在实际应用中,获取能够用于作为搜索应用所需的关键词的具体方式可以有多种,本申请对此不加限制。
S302,获取可供推荐的多款应用各自的主题特征。
其中,可供推荐的多款应用可以为待分析的应用搜索平台中所能提供的多款应用。如,在需要计算机设备分析出该应用搜索平台中不同关键词所能匹配到该应用搜索平台的哪些应用的情况下,可以将该应用搜索平台的应用库中所有应用作为可供推荐的多款应用。又如,在应用搜索平台的服务器需要基于用户输入的关键词,检索匹配的应用时,可以将应用搜索平台中包括的多款应用作为可供推荐的多款应用。又如,当计算机设备需要对多个应用搜索平台来综合确定应用推荐列表的情况下,则可供推荐的多款应用可以是多个应用搜索平台所能提供的所有应用的集合。
其中,该应用的主题特征用于反映应用属于该多款应用对应的多个主题的归属情况,也就是说,应用的主题特征可以反映该应用在该多款应用对应的多个主题的分布情况。该多款应用对应的多个主题为基于该多款应用各自关联的特征信息提取出的多个主题。
其中,应用关联的特征信息可以为用于表征该应用所具有的特征类型的信息。如,该应用的特征信息可以包括:应用自身的属性信息,该应用的属性信息可以为应用的应用名称、应用的类别信息以及应用搜索平台中该应用的介绍信息中的一种或者多种。
其中,应用的类别信息可以表征应用的功能类别为游戏应用、导航应用或者购物应用等等类别。该应用的介绍信息可以为应用搜索平台中对于该应用的详情介绍,例如,应用的介绍信息可以包括:应用的开发以及发售公司,应用的功能以及其所适用的用户等等。
可选的,该应用的特征信息还可以包括:历史搜索并下载该应用所依据的历史关键词。如,获取多款应用对应的历史搜索日志,该历史搜索日志至少包括:每款应用对应的历史关键词集合,该历史关键词集合可以包括:历史搜索并下载该应用所依据的至少一个历史关键词。相应的,针对每款应用,可以将应用的属性信息以及该应用对应的历史关键词集合中各个历史关键词确定为该应用的特征信息。
举例说明,应用的属性信息可以包括:应用名称1、游戏应用以及游戏介绍信息;而历史搜索日志中记录了:用户采用关键词1和关键词2搜索了该应用且下载了搜索到的该应用,则该应用的特征信息可以包括:应用名称1、应用游戏、游戏介绍信息、关键词1以及关键词2。
可以理解的是,将历史搜索并触发下载该应用的关键词的文本也作为该应用的特征信息可以更为全面的反映出该应用的主题类型。
其中,应用的特征信息可以看成是应用的特征描述文本,在此基础上,可以基于多款应用各自的特征描述文本,从该多款应用的特征描述文本中确定多个主题,其中,确定出的该多个主题的数量可以根据需要设定。相应的,针对每一款应用,依据该应用的特征信息可以分析出该应用属于该多款应用对应的多个主题的归属情况,从而得到该应用的主题特征。如,该应用的主题特征可以包括该应用的特征信息分别属于该多个主题中每个主题的概率。
可以理解的是,在多款应用各自的特征信息确定的情况下,确定每款应用的主题特征的方式可以有多种。可选的,考虑到利用文档主题生成模型提取文本主题已经是一种比较成熟的技术,如,基于隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)模型提取文本的主题。因此,本申请实施例,可以将每款应用的特征信息作为该应用的特征描述文本,在此基础上,可以将多款应用的特征描述文本输入到文档主题生成模型,从而通过该文档主题生成模型确定出每款应用的特征描述文本中各个词所属的主题。
如,该文档主题生成模型可以根据多款应用的特征描述文本提取出多个主题,并分别确定每个应用的特征描述文本中各个词所归属的主题。其中,文档主题生成模型提取出的多个主题的数量可以根据需要设定,可选的,可以提取出的主题的维度K为350。
相应的,基于针对每款应用,依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题特征。如,该应用的主题特征可以反映出应用的特征信息属于该多款应用对应的多个主题中各个主题的概率。
可以理解的是,计算机设备中一般会将应用的主题特征采用向量形式表示,为了便于区分,将表示应用的主题特征的向量称为主题向量。在一种可选的方式中,该应用的主题向量topic(APP)可以通过如下方式得到:
其中,n为应用的特征描述文本中的词的总数量,即文档主题生成模型将该应用的特征描述文本划分出的词的数量;ni为应用的特征描述文本中属于主题i的词的总数量。K为文档主题生成模型中设定的提取的主题的总数量,即多款应用对应的多个主题的总数量。
由公式一可以看出,应用的主题向量的维度为K维,主题向量的每一个维度表示该应用中属于该维度对应的主题上的词与该应用的特征描述文本中总次数的比值,这样,该主题向量表征了应用的特征描述文本属于多个主题中每个主题的概率。
可以理解的是,多款应用的主题特征可以是预先确定并存储的,也可以在需要该应用的主题特征时,根据应用的特征信息,通过如上操作确定出该应用的主题特征。具体采用哪种方式可以根据实际应用场景选择。
S303,针对每个目标关键词,利用训练出的主题提取模型确定该目标关键词的主题特征。
该主题提取模型为利用多个历史关键词以及该多个历史关键词各自的主题特征训练得到的。其中,历史关键词可以为基于历史搜索并触发下载该多款应用中各个应用所采用的关键词。历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用。
其中,历史关键词以及历史关键词对应的历史应用集合可以结合应用搜索平台的历史搜索日志分析得到。
其中,历史关键词的主题特征的确定方式可以有多种,如,可以将该历史关键词对应的历史应用集合中各个应用的主题特征的平均值作为历史关键词的主题特征,例如,将各个应用的主题特征中每个维度的特征值与该历史应用集合中应用的数量的比值作为该历史关键词在相应维度的特征值。
可以理解的是,该主题提取模型可以预先训练得到。如,在应用搜索平台需要分析用户输入的关键词的主题特征的情况下,为了能够高效的确定关键词的主题特征,则可以预先训练出该主题提取模型。在需要通过应用搜索平台之外的计算机设备来确定不同关键词对应的应用推荐列表,则该计算机设备可以在获取到至少一个目标关键词之后,以及多款应用的特征信息之后,再根据对款应用对应的历史搜索日志来确定历史关键词等信息,并训练该主题提取模型。
S304,针对每个目标关键词,分别计算该目标关键词的主题特征与每款应用的主题特征之间的主题相似度。
其中,为了便于区分,将目标关键词的主题特征与应用的主题特征之间的相似度称为主题相似度。
该主题相似度可以按照任意计算两种特征之间相似度的方式得到。如,在目标关键词的主题特征和应用的主题特征均为向量的情况下,可以通过计算目标关键词的主题向量与应用的主题向量之间的夹角余弦值,将计算出的夹角余弦值作为主题相似度,如公式二所示,主题相似度可以采用如下公式二计算得到:
其中,目标关键词的主题向量为应用的主题向量为/>
S305,针对每个目标关键词,将该多款应用中该主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用。
其中,主题相似度满足条件包括:该主题相似度属于主题相似度较高的前指定位。
如,针对每个目标关键词,可以按照主题相似度从高到低的顺序对多款应用进行排序,则排序靠前的前目标位(如,前100位)应用确定为该目标关键词所能匹配出的应用,即将该前目标位应用确定为该目标关键词对应的应用推荐列表中的待推荐应用。
可以理解的是,如果应用与目标关键词之间的主题相似度较低,则说明该目标关键词所归属的主题分布情况与该应用所属的主题分布情况相差较大,在该种情况下,该应用不适合作为该目标关键词所能匹配到应用。可选的,为了提高匹配精准度,该主题相似度满足条件还可以包括:该主题相似度的值不小于设定阈值。
相应的,如果某款应用与目标关键词之间的主题相似度不小于该设定阈值,且该款应用与该目标关键词之间的主题相似度属于相似度较高的前指定位,则该应用可以作为与该目标关键词匹配的应用。
当然,在实际应用中,该主题相似度满足的条件还可以有其他可能,具体可以根据需要设定,在此不再赘述。
可以理解的是,在应用搜索平台的服务器基于用户输入的目标关键词执行本实施例的以上操作的情况下,服务器获取到的目标关键词为一个,在此基础上,在该服务器确定出目标关键词对应的应用推荐列表之后,该服务器还可以输出该应用推荐列表中待推荐应用的标识信息。例如,将该应用推荐列表中各个应用的图标发送给终端,以在终端中呈现出基于该目标关键词匹配出的各个应用的图标,以便终端的用户选择下载相应的应用。
在又一种可能的情况中,如果采用独立于该应用搜索平台的服务器之外的计算机设备来分析不同目标关键词匹配的应用推荐列表,则在得到每个目标关键词各自对应的应用推荐列表之后,该计算机设备还可以存储目标关键词对应的应用推荐列表,以便应用搜索平台在接收到的搜索关键词为目标关键词时,将目标关键词对应的应用推荐列表确定为搜索关键词匹配的应用列表。
如,将各个目标关键词对应的应用推荐列表存储到数据存储设备中,则应用搜索平台的服务器在接收到用于搜索应用的搜索关键词之后,可以查询该数据存储设备中不同目标关键词与应用推荐列表的对应关系,从而查询到该搜索关键词对应的应用推荐列表,将该应用推荐列表中的各个应用作为该搜索关键词匹配的应用,并基于应用推荐列表输出应用的信息。
当然,该计算机设备还可以是将各个目标关键词各自对应的应用推荐列表发送给应用搜索平台的服务器,以便应用搜索平台根据关键词与应用推荐列表之间的对应关系,处理相关的应用搜索请求。
可见,本申请实施例,每个可供推荐的应用的主题特征是基于多款应用的特征信息确定的,其能够反映该应用属于该多款应用对应的多个主题的归属情况,而不仅仅是反映该应用的名称所具有的主题。同时,由于训练主题提取模型所采用的历史关键词的关键特征是依据由该历史关键词触发搜索并下载的至少一个应用的主题特征确定的,同样可以反映历史关键词与多款应用对应的多个主题的归属情况,这样,通过该主题提取模型所确定出的目标关键词的主题特征也可以反映出该目标关键词归属于该多款应用对应的多个主题的归属情况。由此可知,目标关键词的主题特征与各款应用的主题特征的主题相似性可以从多种主题维度来反映目标关键词与各款应用之间的匹配情况,因此,基于目标关键词与各款应用之间的主题相似性可以有利于确定出与该目标关键词在多种维度上匹配的应用,从而有利于基于关键词搜索出名称不同但是存在关联的多种应用。
另外,通过本申请的方案,也可以实现维护属于不同标签类别下的应用,避免了人工分类以及维护应用的标签所带来的人力资源耗费。
可以理解的是,在本申请实施例中,用于确定目标关键词的主题特征的主题提取模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型,也可以是其他类型的神经网络模型,当然,也可以是神经网络模型之外的其他模型。
可选的,为了进一步提高主题提取模型识别关键词的主题特征的精准度,在本申请实施例中,该主题提取模型可以由多种类型的网络串联构成。可选的,该主题提取模型可以包括相互串联的注意力模型和CNN模型。特别的,在注意力模型前端还可以设置词嵌入模型。
如图4所示,其示出了本申请主题提取模型的一种组成结构示意图。由图4可以看出,目标关键词经过拆分为多个分词(图4中以得到4个分词,分别为词1、词2、词3和词3为例)之后,将多个分词经词嵌入模型分别转换为词向量;将词嵌入模型转换出的多个词向量经过注意力模型(如,multi-head self-attention模型),然后输入到CNN模型,则CNN模型的输出结果就是该目标关键词的主题特征。
结合图4,对本申请训练主题提取模型的过程进行介绍。如图5所示,其示出了本申请一种训练主题提取模型的一种流程示意图,本实施例的方法可以包括:
S501,获取该多款应用对应的历史搜索日志。
其中,历史搜索日志至少包括:多个历史关键词以及每个历史关键词对应的历史应用集合。历史关键词可以为基于历史搜索并触发下载该多款应用中各个应用所采用的关键词。历史关键词对应的历史应用集合包括:基于该历史关键词搜索并触发下载的至少一个应用的信息。
可以理解的是,为了后续分析该多个历史关键词与该多款应用对应的多个主题之间的关系,该多个历史关键词中任意一个历史关键词对应的历史应用集合中各个应用均属于该多款应用。
如,多款应用为某个应用搜索平台所能提供的多款应用,则可以获取该应用搜索平台中针对该多款应用的历史搜索日志。该历史搜索日志中可以包括:搜索并触发下载每款应用所采用的各个历史关键词,以及基于每个历史关键词搜索并下载不同应用的下载次数等等信息。通过该历史搜索日志可以得到不同历史关键词对应的应用,以及每个应用所对应的至少一个历史关键词。
S502,针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征。
其中,历史应用集合中每个应用均属于前面提到的多款应用,因此,应用的主题特征可以采用前面实施例所提到的确定应用的主题特征的方式,在此不再赘述。
相应的,确定历史关键词的主题特征的方式也可以参见前面的相关介绍。可选的,为了能够准确确定历史关键词的主题特征,该历史搜索日主中每个历史关键词的历史应用集合中每个应用均对应一下载次数,该应用对应的下载次数表征基于历史关键词搜索并下载该应用的次数。如,基于历史关键词搜索并下载了应用1的次数为5次,则该应用1属于该历史关键词对应的历史应用集合,且在该历史应用集合中该应用1对应的下载次数为1。
相应的,可以将该历史关键词对应的历史应用集合中每个应用对应的下载次数作为该应用的主题特征对应的权重系数,计算该历史应用集合中所有应用的主题特征的加权和。然后,将该加权和与该历史特征集合中所有应用的主题特征的总和之间的特征比值,确定为该历史关键词的主题特征。
如,以应用的主题特征以及历史关键词的主题特征均为向量说明。历史关键词Query的主题向量topic(Query)可以通过如下公式三得到:
其中,APP表示基于该历史关键词Query搜索并下载的应用,dlApp表示该应用对应的下载次数;topic(APP)表示为应用的主题向量。
S503,针对每个历史关键词,通过该主题提取模型将该历史关键词拆分为至少一个分词。
其中,将历史关键词拆分为多个分词的方式可以有多种,如,每个历史关键词为一个文本,可以将该文本中每个字符拆分为一个分词。可选的,可以基于历史关键词中拆分为多个词,每个词可以为一个字符或者多个字符。
如图4所示,该历史关键词会先经过分词拆分为多个词,才可以输入到该主题提取模型的词嵌入模型层。
S504,针对每个历史关键词,通过待训练的主题提取模型的词嵌入模型将该历史关键词中各个分词分别映射为词向量,将该历史关键词对应的至少一个分词各自的词向量输入该主题提取模型的注意力模型中,并将该注意力模型输出的预测结果输入该主题提取模型的卷积神经网络模型中,得到该卷积神经网络模型预测出的该历史关键词的预测主题特征。
其中,为了便于区分,预测出的该历史关键词的主题特征称为预测主题特征。可以理解的是,该预测主题特征也可以通过向量形式表示。
如图4所示,按照历史关键词的处理先后顺序(即图4中从下到上的顺序),该主题提取模型依次包括词嵌入模型层、注意力模型层以及CNN层。
结合图4可知,词嵌入模型会将历史关键词对应的各个分词分别映射为词向量,从而得到该历史关键词对应的多个词向量。词嵌入模型输出的多个词向量会作为注意力模型层的输入。多个词向量依次经过主力模型和CNN层的抽象可,可以输出一个向量,该向量为预测出的主题向量。
经过试验验证,叠加注意力模型层的CNN模型要比单纯的CNN模型预测出的主题向量的正确率提高约3%。
S505,基于多个历史关键词的主题特征以及预测主题特征,检测主题提取模型的预测准确度是否符合要求,如果是,则该主题提取模型训练完成;如果否,返回执行步骤S503,直至主题提取模型的预测准确度符合要求。
其中,通过各个历史关键词的主题特征与相应的预测主题特征进行比对,可以统计出该主题提取模型预测关键词的主题特征的准确度,具体判断该预测准确度是否符合要求的方式可以有多种,对此不加限制。如,可以通过设定的损失函数,确定基于损失函数计算出的值是否小于设定值,如果是,则认为预测精准度符合要求。例如,损失函数可以为交叉熵等。
在主题提取模型的预测准确度不符合要求的情况下,则会调整主题提取模型中的内部参数,并重新进行训练,直至预测精准度符合要求。
可以理解的是,以上步骤S503到S506仅仅是依据多个历史关键词以及该多个历史关键词各自的主题特征训练主题提取模型的一种实现方式,在实际应用中,主题提取模型也可以有其他情况,但是训练过程相似,在此不再赘述。
可以理解的是,如果仅仅利用关键词以及基于关键词下载的应用作为训练数据训练用于提取关键词的主题特征的模型,则考虑到训练数据的提取过程会提取一些重要性较低的训练数据,从而使得一些搜索和下载数量较少的应用或者关键词的相关数据不被作为训练数据,进而使得模型对于一些搜索及触发下载应用的次数较少关键词不太适合。
而本申请任意一个实施例中,主题提取模型是利用历史搜索并下载各个应用所采用的历史关键词以及历史关键词的主题特征训练得到的。主题提取模型的训练数据涵盖了所有应用对应的历史关键词,使得所有应用的搜索与下载数据同样重要。而且,为了确定历史关键词的主题特征需要对所有应用进行主题分类,不仅仅是依据搜索与下载量较高的应用的特征信息,对于搜索与下载量较少的应用(所称的中长尾应用)的特征信息也会同样信息分析,这也使得所有应用的信息具有同等重要性,从而使得主题提取模型中不同搜索与下载量的应用的特征以及历史搜索信息均具有同等的训练机会,这样,主题提取模型不仅仅适用于触发搜索与下载应用较高的关键词,也可以适用于一些触发搜索与下载应用的数量较少的关键词,进而有利于提高预测关键词的主题特征的精准度,并有利于后续准确确定任意的关键词对应关键词推荐列表。
为了便于理解本申请的方案,下面以通过应用搜索平台之外的计算机设备来分析不同关键词与该应用搜索平台中各个应用的匹配关系为例进行说明。
如图6,其示出了本申请一种应用推荐列表的确定方法一个实施例的流程交互示意图。本实施例的方法可以包括:
S601,计算机设备获取应用搜索平台中可供推荐的多款应用的属性信息、应用搜索平台中对应该多款应用的历史搜索日志以及该应用搜索平台中待分析的多个目标关键词。
如,计算机设备可以从待分析的应用搜索平台中获取该应用搜索平台中的所有应用的属性信息以及所有的历史搜索日志。
其中,应用的属性信息包括:应用的应用名称、应用的类别信息以及应用搜索平台中该应用的介绍信息中的一种或者多种。
在本实施例中,该历史搜索日志可以包括该应用搜索平台中针对不同应用搜索所输入的关键词以及每款应用的搜索次数等等信息,因此,历史搜索日志中可以包括:应用搜索平台历史搜索所采用的多个历史关键词、每款应用对应的历史关键词集合、以及每个历史关键词对应的历史应用集合。其中,应用对应的历史关键词集合包括:历史搜索并下载该应用所依据的至少一个历史关键词;而每个历史关键词对应的历史应用集合中包括基于该历史关键词搜索并触发下载的各个应用。
其中,确定应用搜索平台对应的多个目标关键词可以是结合应用搜索平台的实际需求分析或者统计出多个待分析的目标关键词,对于具体实现本申请不加限制。
S602,针对每款应用,计算机设备将该应用的属性信息以及该应用对应的历史关键词集合中各个历史关键词组成该应用的特征描述文本。
应用的特征描述文本中包括该应用对应的各个历史关键词的文本以及各种属性信息对应的文本。
S603,计算机设备将该多款应用各自的特征描述文本均输入文档主题生成模型,得到每款应用的特征描述文本中各个词所属的主题。
如,文档主题生成模型可以依据该多款应用的特征描述文本提取出多个主题,然后针对每个应用的特征描述文本可以抽取该特征描述文本中各个词,并确定每个词属于该多个主题中的哪个主题。
S604,针对每款应用,计算机设备依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题向量。
其中,应用的主题向量用于反映应用的特征描述文本在该多款应用对应的多个主题的分布情况。
S605,针对每个历史关键词,计算机设备基于该历史关键词对应的历史应用集合中各个应用的主题向量,确定该历史关键词的主题向量。
其中,应用的主题向量以及历史关键词的主题向量的计算方式可以参见前面的相关介绍,在此不再赘述。
S606,计算机设备依据该多个历史关键词以及该多个历史关键词各自的主题向量,训练主题提取模型。
训练该主题提取模型的过程可以参见前面实施例的相关介绍。
S607,计算机设备利用该主题提取模型分别确定每个目标关键词的主题向量。
可选的,该主题提取模型可以由词嵌入模型、注意力模型以及CNN模型依次串联组成。在该种情况下,针对每个目标关键词,计算机设备可以先确定每个目标关键词拆分出的多个分词;然后,针对每个目标关键词,计算机设备将该目标关键词拆分出多个分词输入到主题提取模型中,并获取该主题提取模型输出该目标关键词的主题向量。其中,将目标关键词的多个分词输入主题提取模型的过程与前面图5实施例中步骤S503和S504所示的过程相似,在此不再赘述。
S608,针对每个目标关键词,计算机设备分别计算该目标关键词的主题特征与每款应用的主题特征之间的主题相似度。
S609,针对每个目标关键词,计算机设备将该多款应用中该主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用。
如,主题相似度满足条件可以包括:该主题相似度属于主题相似度较高的前指定位,且主题相似度不小于设定阈值。
S610,计算机设备将多个目标关键词各自对应的应用推荐列表发送给应用搜索平台的服务器。
S611,应用搜索平台的服务器存储各个目标关键词与应用推荐列表的对应关系,以便在接收到用于搜索应用的关键词时,基于各个目标关键词对应的应用推荐列表确定与该关键词匹配的应用推荐列表。
应用搜索平台的服务器在获取到不同目标关键词对应的应用推荐列表之后,如果服务器接收到终端发送的用于搜索应用的关键词之后,可以查询该关键词对应的应用推荐列表,并将该关键词对应的应用推荐列表中各个应用确定为该关键词匹配的各个应用。相应的,服务器可以依据该关键词对应的应用推荐列表,输出与该关键词匹配的各个应用。
如参见图7,其示出了应用搜索平台的服务器基于用户输入的关键词进行应用搜索所得到的搜索结果界面的示意图。
由图7可以看出,在应用搜索平台的服务器接收到的关键词为“第一类型游戏应用M”,如搜索输入栏701中输入的关键词。在此基础上,该服务器向终端反馈的搜索结果页面中不仅包括名称为“第一类型游戏应用M”的游戏应用,还可以推荐与该“第一类型游戏应用M”的游戏名称不同但是在其他维度上存在关联的多款应用。如,与该“第一类型游戏应用M”属于相同游戏类型的游戏应用“第一类型游戏应用N”,如图7。该搜索结果页面中还可以包括:与该“第一类型游戏应用M”存在关联的“第一类型游戏应用M的游戏攻略助手”应用等等。
结合图7可见,基于本申请的方案不仅可以使得应用搜索平台可以搜索到与关键词的文本本身匹配的应用,还可以推荐出一些与该关键词所能表征的其他维度上存在关联的多种应用。
对应本申请的一种应用推荐列表的确定方法,本申请还提供了一种应用推荐列表的确定装置。
如图8所示,其示出了本申请一种应用推荐列表的确定装置的一种组成结构示意图,本实施例的装置可以应用于前面提到的计算机设备,该装置包括:
关键词获得单元801,用于获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
第一特征获取单元802,用于获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
第二特征获取单元803,用于针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
相似度计算单元804,用于针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
列表匹配单元805,用于针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位。
可选的,该列表匹配单元中所述主题相似度满足条件还包括:该主题相似度的值不小于设定阈值。
在一种可能的实现方式中,所述第一特征获取单元,包括:
信息获得单元,用于获得可供推荐的多款应用各自的特征信息;
文本生成单元,用于针对每款所述应用,将该应用的特征信息作为该应用的特征描述文本;
主题归类单元,用于将所述多款应用的特征描述文本输入文档主题生成模型,得到每款所述应用的特征描述文本中各个词所属的主题;
应用主题确定单元,用于针对每款所述应用,依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题特征。
可选的,该信息获得单元包括:
属性获取单元,用于获取可供推荐的多款应用各自的属性信息,应用的属性信息包括:应用的应用名称、应用的类别信息以及应用搜索平台中该应用的介绍信息中的一种或者多种;
日志获取单元,用于获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:每款所述应用对应的历史关键词集合,所述历史关键词集合包括:历史搜索并下载该应用所依据的至少一个历史关键词;
信息确定单元,用于针对每款应用,将该应用的属性信息以及该应用对应的历史关键词集合中各个历史关键词确定为该应用的特征信息。
在一种可能的实现方式中,本实施例以上装置的实施例还可以包括:
历史日志获取单元,用于在所述第二特征获取单元利用训练出的主题提取模型确定所述目标关键词的主题特征之前,获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:多个历史关键词以及每个历史关键词对应的历史应用集合;
词主题确定单元,用于针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征;
模型训练单元,用于依据所述多个历史关键词以及所述多个历史关键词各自的主题特征,训练主题提取模型。
可选的,该历史日志获取单元中每个历史关键词对应的历史应用集合中的每个应用对应一下载次数,应用对应的下载次数表征基于该历史关键词搜索并下载该应用的次数;
所述词主题确定单元,包括:
加权计算子单元,用于将该历史关键词对应的历史应用集合中每个应用对应的下载次数作为该应用的主题特征对应的权重系数,计算该历史应用集合中所有应用的主题特征的加权和;
词主题确定子单元,用于将所述加权和与该历史特征集合中所有应用的主题特征的总和之间的特征比值,确定为该历史关键词的主题特征。
可选的,所述模型训练单元,包括:
词提取单元,用于针对每个历史关键词,通过所述主题提取模型将该历史关键词拆分为至少一个分词;
循环训练单元,用于针对每个历史关键词,通过待训练的主题提取模型的词嵌入模型将该历史关键词中各个分词分别映射为词向量,将该历史关键词对应的至少一个分词各自的词向量输入所述主题提取模型的注意力模型中,并将所述注意力模型输出的预测结果输入所述主题提取模型的卷积神经网络模型中,得到所述卷积神经网络模型预测出的该历史关键词的预测主题特征;
训练检测单元,用于基于多个历史关键词的主题特征以及预测主题特征,检测所述主题提取模型的预测准确度是否符合要求;
训练循环触发单元,用于在所述主题提取模型的预测准确度不符合要求时,返回执行所述词提取单元的操作,直至所述主题提取模型的预测准确度符合要求。
可选的,在本申请以上装置的实施例中,所述第一特征获取单元具体为,用于,获取应用搜索平台中可供推荐的多款应用各自的主题特征;
相应的,该装置还可以包括:
列表存储单元,用于在所述列表匹配单元将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用之后,存储所述目标关键词对应的应用推荐列表,以便所述应用搜索平台在接收到的搜索关键词为所述目标关键词时,将所述目标关键词对应的应用推荐列表确定为所述搜索关键词匹配的应用列表。
另一方面,本申请还提供了一种存储介质,该存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现如上任意一个实施例中所描述的应用推荐列表的确定方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种应用推荐列表的确定方法,其特征在于,包括:
获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,通过所述主题提取模型所确定出的目标关键词的主题特征反映出该目标关键词归属于多款应用对应的多个主题的归属情况,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位;
其中,所述主题提取模型的训练过程包括:
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:历史搜索日志包括应用搜索平台搜索所采用的多个历史关键词、每款应用对应的历史关键词集合以及每个历史关键词对应的历史应用集合;
针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征;
针对每个历史关键词,通过主题提取模型将该历史关键词拆分为至少一个分词;
针对每个历史关键词,通过待训练的主题提取模型的词嵌入模型将该历史关键词中各个分词分别映射为词向量,将该历史关键词对应的至少一个分词各自的词向量输入所述主题提取模型的注意力模型中,并将所述注意力模型输出的预测结果输入所述主题提取模型的卷积神经网络模型中,得到所述卷积神经网络模型预测出的该历史关键词的预测主题特征,其中,通过将多个词向量依次经过注意力模型和卷积神经网络模型的抽象得到一个向量,该向量为预测出的预测主题特征;
基于多个历史关键词的主题特征以及预测主题特征,检测所述主题提取模型的预测准确度是否符合要求;
在所述主题提取模型的预测准确度不符合要求时,返回执行所述针对每个历史关键词,通过所述主题提取模型将该历史关键词拆分为至少一个分词的操作,直至所述主题提取模型的预测准确度符合要求。
2.根据权利要求1所述的应用推荐列表的确定方法,其特征在于,所述获取可供推荐的多款应用各自的主题特征,包括:
获得可供推荐的多款应用各自的特征信息;
针对每款所述应用,将该应用的特征信息作为该应用的特征描述文本;
将所述多款应用的特征描述文本输入文档主题生成模型,得到每款所述应用的特征描述文本中各个词所属的主题;
针对每款所述应用,依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题特征。
3.根据权利要求1或2所述的应用推荐列表的确定方法,其特征在于,所述应用的特征信息通过如下方式得到:
获取可供推荐的多款应用各自的属性信息,应用的属性信息包括:应用的应用名称、应用的类别信息以及应用搜索平台中该应用的介绍信息中的一种或者多种;
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:每款所述应用对应的历史关键词集合,所述历史关键词集合包括:历史搜索并下载该应用所依据的至少一个历史关键词;
针对每款应用,将该应用的属性信息以及该应用对应的历史关键词集合中各个历史关键词确定为该应用的特征信息。
4.根据权利要求1所述的应用推荐列表的确定方法,其特征在于,每个历史关键词对应的历史应用集合中的每个应用对应一下载次数,应用对应的下载次数表征基于该历史关键词搜索并下载该应用的次数;
所述基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征,包括:
将该历史关键词对应的历史应用集合中每个应用对应的下载次数作为该应用的主题特征对应的权重系数,计算该历史应用集合中所有应用的主题特征的加权和;
将所述加权和与该历史应用集合中所有应用的主题特征的总和之间的特征比值,确定为该历史关键词的主题特征。
5.根据权利要求1所述的应用推荐列表的确定方法,其特征在于,所述主题相似度满足条件还包括:
所述主题相似度的值不小于设定阈值。
6.根据权利要求1所述的应用推荐列表的确定方法,其特征在于,所述获取可供推荐的多款应用各自的主题特征,包括:
获取应用搜索平台中可供推荐的多款应用各自的主题特征;
在所述将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用之后,还包括:
存储所述目标关键词对应的应用推荐列表,以便所述应用搜索平台在接收到的搜索关键词为所述目标关键词时,将所述目标关键词对应的应用推荐列表确定为所述搜索关键词匹配的应用列表。
7.一种应用推荐列表的确定装置,其特征在于,包括:
关键词获得单元,用于获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
第一特征获取单元,用于获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
第二特征获取单元,用于针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,通过所述主题提取模型所确定出的目标关键词的主题特征反映出该目标关键词归属于多款应用对应的多个主题的归属情况,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
相似度计算单元,用于针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
列表匹配单元,用于针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位;
其中,所述主题提取模型的训练过程包括:
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:历史搜索日志包括应用搜索平台搜索所采用的多个历史关键词、每款应用对应的历史关键词集合以及每个历史关键词对应的历史应用集合;
针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征;
针对每个历史关键词,通过主题提取模型将该历史关键词拆分为至少一个分词;
针对每个历史关键词,通过待训练的主题提取模型的词嵌入模型将该历史关键词中各个分词分别映射为词向量,将该历史关键词对应的至少一个分词各自的词向量输入所述主题提取模型的注意力模型中,并将所述注意力模型输出的预测结果输入所述主题提取模型的卷积神经网络模型中,得到所述卷积神经网络模型预测出的该历史关键词的预测主题特征,其中,通过将多个词向量依次经过注意力模型和卷积神经网络模型的抽象得到一个向量,该向量为预测出的预测主题特征;
基于多个历史关键词的主题特征以及预测主题特征,检测所述主题提取模型的预测准确度是否符合要求;
在所述主题提取模型的预测准确度不符合要求时,返回执行所述针对每个历史关键词,通过所述主题提取模型将该历史关键词拆分为至少一个分词的操作,直至所述主题提取模型的预测准确度符合要求。
8.根据权利要求7所述的装置,其特征在于,所述第一特征获取单元,包括:
信息获得单元,用于获得可供推荐的多款应用各自的特征信息;
文本生成单元,用于针对每款所述应用,将该应用的特征信息作为该应用的特征描述文本;
主题归类单元,用于将所述多款应用的特征描述文本输入文档主题生成模型,得到每款所述应用的特征描述文本中各个词所属的主题;
应用主题确定单元,用于针对每款所述应用,依据该应用的特征描述文本中各个词所属的主题,确定该应用的主题特征。
9.一种计算机设备,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得待分析的至少一个目标关键词,所述目标关键词为用于搜索应用的关键词;
获取可供推荐的多款应用各自的主题特征,其中,所述应用的主题特征用于反映应用属于所述多款应用对应的多个主题的归属情况,所述多款应用对应的多个主题为基于所述多款应用各自关联的特征信息提取出的多个主题;
针对每个所述目标关键词,利用训练出的主题提取模型确定所述目标关键词的主题特征,所述主题提取模型为利用多个历史关键词以及所述多个历史关键词各自的主题特征训练得到的,通过所述主题提取模型所确定出的目标关键词的主题特征反映出该目标关键词归属于多款应用对应的多个主题的归属情况,其中,历史关键词的主题特征为基于该历史关键词对应的历史应用集合中各个应用的主题特征确定出的,历史关键词对应的历史应用集合包括:基于该历史关键词搜索并下载的至少一个应用,且所述至少一个应用属于所述多款应用;
针对每个目标关键词,分别计算该目标关键词的主题特征与每款所述应用的主题特征之间的主题相似度;
针对每个所述目标关键词,将所述多款应用中所述主题相似度满足条件的至少一款应用确定为该目标关键词对应的应用推荐列表中的待推荐应用,所述主题相似度满足条件包括:所述主题相似度属于主题相似度较高的前指定位;
其中,所述主题提取模型的训练过程包括:
获取所述多款应用对应的历史搜索日志,所述历史搜索日志至少包括:历史搜索日志包括应用搜索平台搜索所采用的多个历史关键词、每款应用对应的历史关键词集合以及每个历史关键词对应的历史应用集合;
针对每个历史关键词,基于该历史关键词对应的历史应用集合中各个应用的主题特征,确定该历史关键词的主题特征;
针对每个历史关键词,通过主题提取模型将该历史关键词拆分为至少一个分词;
针对每个历史关键词,通过待训练的主题提取模型的词嵌入模型将该历史关键词中各个分词分别映射为词向量,将该历史关键词对应的至少一个分词各自的词向量输入所述主题提取模型的注意力模型中,并将所述注意力模型输出的预测结果输入所述主题提取模型的卷积神经网络模型中,得到所述卷积神经网络模型预测出的该历史关键词的预测主题特征,其中,通过将多个词向量依次经过注意力模型和卷积神经网络模型的抽象得到一个向量,该向量为预测出的预测主题特征;
基于多个历史关键词的主题特征以及预测主题特征,检测所述主题提取模型的预测准确度是否符合要求;
在所述主题提取模型的预测准确度不符合要求时,返回执行所述针对每个历史关键词,通过所述主题提取模型将该历史关键词拆分为至少一个分词的操作,直至所述主题提取模型的预测准确度符合要求。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至6任一项所述的应用推荐列表的确定方法。
CN201910389447.5A 2019-05-10 2019-05-10 应用推荐列表的确定方法、装置、计算机设备及存储介质 Active CN110083774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910389447.5A CN110083774B (zh) 2019-05-10 2019-05-10 应用推荐列表的确定方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910389447.5A CN110083774B (zh) 2019-05-10 2019-05-10 应用推荐列表的确定方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110083774A CN110083774A (zh) 2019-08-02
CN110083774B true CN110083774B (zh) 2023-11-03

Family

ID=67419703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910389447.5A Active CN110083774B (zh) 2019-05-10 2019-05-10 应用推荐列表的确定方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110083774B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489032B (zh) * 2019-08-14 2021-08-24 掌阅科技股份有限公司 用于电子书的词典查询方法及电子设备
CN112559853B (zh) * 2019-09-26 2024-01-12 北京沃东天骏信息技术有限公司 用户标签的生成方法和装置
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质
CN112949852B (zh) * 2021-02-01 2022-02-15 北京三快在线科技有限公司 训练模型的方法、装置、电子设备及可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248740A (ja) * 2010-05-28 2011-12-08 Nec Corp データ出力装置、データ出力方法およびデータ出力プログラム
WO2014161452A1 (en) * 2013-04-02 2014-10-09 Tencent Technology (Shenzhen) Company Limited System and method for pushing and distributing promotion content
CN105488154A (zh) * 2015-11-28 2016-04-13 小米科技有限责任公司 主题应用推荐方法及装置
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
KR20170035694A (ko) * 2015-09-23 2017-03-31 네이버 주식회사 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
CN106970991A (zh) * 2017-03-31 2017-07-21 北京奇虎科技有限公司 相似应用的识别方法、装置和应用搜索推荐方法、服务器
WO2018000569A1 (zh) * 2016-06-27 2018-01-04 北京百度网讯科技有限公司 话题订阅方法、装置和存储介质
CN107818105A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 应用程序的推荐方法及服务器
CN108090042A (zh) * 2016-11-23 2018-05-29 北京京东尚科信息技术有限公司 用于识别文本主题的方法和装置
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN108664513A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 用于推送关键词的方法、装置以及设备
WO2018232622A1 (en) * 2017-06-21 2018-12-27 Microsoft Technology Licensing, Llc RECOMMENDATION OF MULTIMEDIA CONTENT THROUGH CONVERSATIONAL ROBOTS
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789298B2 (en) * 2016-11-16 2020-09-29 International Business Machines Corporation Specialist keywords recommendations in semantic space

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248740A (ja) * 2010-05-28 2011-12-08 Nec Corp データ出力装置、データ出力方法およびデータ出力プログラム
WO2014161452A1 (en) * 2013-04-02 2014-10-09 Tencent Technology (Shenzhen) Company Limited System and method for pushing and distributing promotion content
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
KR20170035694A (ko) * 2015-09-23 2017-03-31 네이버 주식회사 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
CN105488154A (zh) * 2015-11-28 2016-04-13 小米科技有限责任公司 主题应用推荐方法及装置
WO2018000569A1 (zh) * 2016-06-27 2018-01-04 北京百度网讯科技有限公司 话题订阅方法、装置和存储介质
CN107818105A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 应用程序的推荐方法及服务器
CN108090042A (zh) * 2016-11-23 2018-05-29 北京京东尚科信息技术有限公司 用于识别文本主题的方法和装置
CN106970991A (zh) * 2017-03-31 2017-07-21 北京奇虎科技有限公司 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN108664513A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 用于推送关键词的方法、装置以及设备
WO2018232622A1 (en) * 2017-06-21 2018-12-27 Microsoft Technology Licensing, Llc RECOMMENDATION OF MULTIMEDIA CONTENT THROUGH CONVERSATIONAL ROBOTS
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Recommendations Based on LDA Topic Model in Android Applications;Pan, Tianhao等;《2016 IEEE INTERNATIONAL CONFERENCE ON SOFTWARE QUALITY, RELIABILITY AND SECURITY COMPANION》;第151-158页 *
基于深度学习的个性化引文搜索推荐算法研究;陈志涛;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-5180 *
融合情境因素的多维社会化信息推荐模型研究;房小可;《中国博士学位论文全文数据库 信息科技辑》;I143-7 *

Also Published As

Publication number Publication date
CN110083774A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083774B (zh) 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN109815314A (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN104899322A (zh) 搜索引擎及其实现方法
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN109446525B (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN107291774B (zh) 错误样本识别方法和装置
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN117150107A (zh) 基于知识图谱的推荐方法、装置、计算机设备及存储介质
CN116150376A (zh) 一种样本数据分布优化方法、装置和存储介质
CN115827990A (zh) 搜索方法及装置
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN113010664B (zh) 一种数据处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant