CN106919575B - 应用程序搜索方法及装置 - Google Patents

应用程序搜索方法及装置 Download PDF

Info

Publication number
CN106919575B
CN106919575B CN201510990107.XA CN201510990107A CN106919575B CN 106919575 B CN106919575 B CN 106919575B CN 201510990107 A CN201510990107 A CN 201510990107A CN 106919575 B CN106919575 B CN 106919575B
Authority
CN
China
Prior art keywords
application program
search
keyword
matching
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510990107.XA
Other languages
English (en)
Other versions
CN106919575A (zh
Inventor
王振凯
曹国栋
唐竞胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510990107.XA priority Critical patent/CN106919575B/zh
Publication of CN106919575A publication Critical patent/CN106919575A/zh
Application granted granted Critical
Publication of CN106919575B publication Critical patent/CN106919575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用程序搜索方法及装置,预先根据应用程序的基础信息,获取应用程序的基础关键词;根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;根据匹配结果,获取与所述搜索关键词对应的应用程序。本发明公开的应用程序搜索方法及装置,解决了应用程序开发商需要通过繁琐的操作选择应用程序的索引关键词的问题,以及由于选择的索引关键词不恰当,导致应用程序出现在与用户输入的搜索词相关度很低的搜索结果中的概率较高的问题。

Description

应用程序搜索方法及装置
技术领域
本发明涉及搜索技术领域,具体涉及一种应用程序搜索方法及装置。
背景技术
随着智能移动终端的发展,越来越多的用户在智能移动终端中下载各种应用程序(application,应用程序)使用。基于该种情况,应用程序分发平台应运而生,用户可以通过智能移动终端访问应用程序分发平台,比如通过智能移动终端中安装的应用程序分发应用去访问应用程序分发平台,从而可以从平台中下载各种应用程序。其中,应用程序分发应用比如各种手机助手。
而在应用程序分发平台中,为了能够为有推广需求的应用程序拥有者,如应用程序开发商,可以将该应用程序拥有者的应用程序在应用程序搜索页面可以靠前展示,应用程序拥有者会为这些应用程序购买竞价词以作为索引关键词。
但是,应用程序开发商购买的竞价词可能与应用程序本身不匹配,使应用分发平台的搜索引擎在根据用户输入的搜索词进行检索时,可能返回实际上与该搜索词相关度很低的应用程序的信息,导致用户为了查找与其需求的应用程序时,需要进行更多的操作,比如翻页等操作,影响获取其需求的应用程序的效率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的应用程序搜索方法及装置。
一方面,本申请通过本申请的一实施例提供了一种应用程序搜索方法,所述方法包括:
预先根据应用程序的基础信息,获取应用程序的基础关键词;
根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
根据匹配结果,获取与所述搜索关键词对应的应用程序。
可选的,所述根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
可选的,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,计算搜索词和应用程序的基础信息中的名称之间的文本相似度;
如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;
如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
针对各应用程序的基础信息中的描述信息,通过主题模型计算出应用程序的主题分布;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
对于搜索量大于第三阈值的搜索词,根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;
如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于各一级类目下的应用程序,利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
可选的,所述预先根据应用程序的基础信息,获取应用程序的基础关键词,具体包括:
将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,将应用程序的标签词作为应用程序的基础关键词。
可选的,所述根据匹配结果,获取与所述搜索关键词对应的应用程序,具体包括:
针对每一个应用程序,若所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词,则确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
另一方面,本申请通过本申请的一实施例,提供了一种应用程序搜索装置,所述装置包括:
基础关键词获取单元,用于预先根据应用程序的基础信息,获取应用程序的基础关键词;
匹配关键词获取单元,用于根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
关键词库生成单元,用于根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
匹配单元,用于当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
应用程序获取单元,用于根据匹配结果,获取与所述搜索关键词对应的应用程序。
可选的,所述匹配关键词获取单元,具体包括:
第一匹配关键词获取子单元,用于根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或第二匹配关键词获取子单元,用于根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或第三匹配关键词获取子单元,用于根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
可选的,所述第一匹配关键词获取子单元,具体包括:
文本相似度获取单元,对于搜索下载记录中的各搜索词,用于计算搜索词和应用程序的基础信息中的名称之间的文本相似度;如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述第一匹配关键词获取子单元,具体包括:
独立访问搜索词提取单元,对于搜索下载记录中的各搜索词,用于判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述第二匹配关键词获取子单元,具体包括:
应用程序主题分布计算单元,针对各应用程序的基础信息中的描述信息,用于通过主题模型计算出应用程序的主题分布;
搜索词主题分布计算单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
主题相似搜索词提取单元,对于搜索量大于第三阈值的搜索词,用于根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
可选的,所述第三匹配关键词获取子单元,具体包括:
应用程序类目细分单元,对于各一级类目下的应用程序,用于利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
搜索词分类单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
类目搜索词提取模单元,用于根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
可选的,所述基础关键词获取单元,具体包括:
分词关键词提取单元,用于将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,拼音关键词提取单元,用于将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,标签关键词提取单元,用于将应用程序的标签词作为应用程序的基础关键词。
可选的,所述应用程序获取单元,针对每一个应用程序,具体用于在所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词时,确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
根据本发明的应用程序搜索方法及装置,预先根据应用程序的基础信息,获取应用程序的基础关键词;根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;根据匹配结果,获取与所述搜索关键词对应的应用程序;由于应用程序的关键词库是通过应用程序的基础关键词和匹配关键词来生成的,使得应用程序的关键词库中的关键词与应用程序的相关性得以提高,由此解决了应用程序开发商需要通过繁琐的操作选择应用程序的索引关键词的问题,以及由于选择的索引关键词不恰当,导致应用程序出现在与用户输入的搜索词相关度很低的搜索结果中的概率较高的问题,取得了可以通过应用程序的关键词库自动为应用程序自动选择索引关键词,减少应用程序开发商对应用程序索引关键词的选择过程,有效提高应用程序出现在与用户输入的搜索词相关度较高的搜索结果中的概率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的应用程序搜索方法的第一种流程图;
图2为本发明实施例中的应用程序搜索方法的第二种流程图;
图3为本发明实施例中的应用程序搜索装置的结构图。
具体实施方式
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的应用程序搜索方法及装置。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
参见图1,本申请一实施例提供了一种应用程序搜索方法,所述方法包括以下步骤:
S101、预先根据应用程序的基础信息,获取应用程序的基础关键词;
S102、根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
S103、根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
S104、当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
S105、根据匹配结果,获取与所述搜索关键词对应的应用程序。
在本发明实施例中,应用程序的拥有者等可在应用分发平台中上传应用程序,然后向应用分发平台发送推广该应用程序的请求。应用分发平台在接收到该请求之后,则可以进入步骤S101。
在步骤S101中,应用程序可以为应用分发平台中所有应用程序中的任意一个。
在实际应用中,上述推广该应用程序的请求可以为,应用程序拥有者可以向应用分发平台对其上传的某个应用程序发送支付数据,应用分发平台收到该支付数据后,即可进入步骤101。
其中,上述应用程序的基础信息包括:应用程序的名称、应用程序的标签、应用程序的描述信息、应用程序所属的类目等。
其中,上述应用程序的标签词语为预先为该应用程序打上的标签词语,比如“携程旅行”应用程序的具有人工运营标签:“旅游”、“火车票”、“旅游攻略”、“机票”、“出行”、“酒店”等。应用程序的描述信息是应用程序的详细描述信息。并且,应用分发平台会预先设置类目,比如游戏类、体育类等类目,对于上传的所有应用程序,都会将其分到相应的类目中。
那么本发明实施例中,可以从应用程序的基础信息中,直接提取对应应用程序的关键词。比如从名称中提取关键词、从标签词中提取关键词等。
接下来执行步骤S102,在该步骤中,根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词。
其中,步骤S101可以和步骤S102同时执行,也可以先执行步骤S102,再执行步骤S101,本申请不作具体限制。
在具体实施过程中,在用户终端启用应用程序分发应用访问应用分发平台。比如用户在其手机中启动360手机助手,360手机助手则连接到应用分发平台。用户可以在应用程序分发应用的搜索框中输入搜索词,该搜索词上传到应用分发平台,应用分发平台根据该搜索词检索应用程序搜索结果并返回应用程序分发应用中,应用程序分发应用则展示按序展示该应用程序搜索结果,用户可以在搜索结果中点击查看或者点击下载应用程序。那么在大量用户的搜索过程中,应用分发平台可以对各个搜索词的搜索历史进行记录,得到各个搜索词搜索历史记录,例如应用分发平台可以通过日志记录上述搜索历史记录。
而由于某些搜索词实际上可能与应用程序本身的基础信息按照一定规则进行相关,因此,本发明实施例可根据应用程序的基础信息和各搜索词的搜索历史记录,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
接下来执行步骤S103,在该步骤中,根据所述基础关键词和所述匹配关键词生成应用程序的关键词库。
在具体实施过程中,根据步骤S101获取的所述基础关键词和步骤S102获取的所述匹配关键词,生成应用程序的关键词库,使得应用程序的关键词库中包含有该应用程序的基础关键词和该应用程序的匹配关键词;然后应用分发平台则可以基于该应用程序的关键词库构建针对该应用程序的索引,以便用户在其终端中以与该应用程序相关的搜索关键词检索时,可以将其排序靠前显示。
接下来执行步骤S104,在该步骤中,当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配。
在具体实施过程中,在步骤S103生成所述关键词库之后,当接收到用户在终端中输入的搜索关键词,在通过该搜索关键词查找对应的应用程序的时,将该搜索关键词与各应用程序的关键词库进行匹配;
接下来执行步骤S105,在该步骤中,根据匹配结果,获取与所述搜索关键词对应的应用程序。
在具体实施过程中,针对每一个应用程序,若所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词,则确定该应用程序与所述搜索关键词相对应,以获取与该搜索关键词对应的应用程序,在获取到与该搜索关键词对应的应用程序的数量为多个时,根据该搜索关键词与应用程序的相关度来对与该搜索关键词对应的应用程序进行排序。
在本发明实施例中,对于前述索引,在应用分发平台中会通过广告标识将其标记为推广应用程序,那么再检索到应用程序时,如果该应用程序有广告标识,则可以将其提前展示。该广告标识如“推广”、“荐”。此外,本发明实施例中可以设置多种广告标识,不同的广告标识具备不同的展示权重。比如“推广”的展示权重高,“荐”展示权重低于“推广”的展示权重。
其中,标识“推广”和“荐”字样的为推广应用程序,那么爱前进理财和有利网理财为推广应用程序。搜索“理财”关键字展现上述应用程序。
综上所述,本发明实施例对于应用程序开发商需要推广的应用程序,可以由应用分发平台自动根据应用程序的基础信息,提取应用程序对应的基础关键词,并根据应用程序的基础信息和各搜索词的搜索历史记录,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,然后根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;再当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;根据匹配结果,获取与所述搜索关键词对应的应用程序。首先,上述过程可以自动为应用程序开发商的应用程序自动选择索引关键词,减少应用程序开发商对索引关键词的选择过程。其次,由于应用程序的关键词库是通过应用程序的基础关键词和匹配关键词来生成的,使得应用程序的关键词库中的关键词与应用程序的相关性得以提高,从而能够有效降低应用程序出现在与用户输入的搜索词相关度很低的搜索结果中的概率,有效提高应用程序出现在与用户输入的搜索词相关度较高的搜索结果中的概率,提高搜索的准确性。
参见图2,本申请另一实施例提供了一种应用程序搜索方法,所述方法包括以下步骤:
S201、预先根据应用程序的基础信息,获取应用程序的基础关键词。
优选地,步骤S201包括以下子步骤:
子步骤S2011,将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
在本发明实施例中,应用程序的基础信息包括名称,如“携程旅行”,那么本发明可以直接对该名称进行分词操作,“携程旅行”分词之后,分词结果为“携程”和“旅行”,那么可以将“携程”和“旅行”作为该应用程序“携程旅行”的基础关键词。
和/或,子步骤S2012,和/或,将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
对于应用程序的名称,可以将其直接转换为拼音如“xiechenglvxing”,或者将其分词结果转换为拼音,如“携程”的拼音为“xiecheng”,那么这些拼音可以作为该应用程序的基础关键词。
和/或,子步骤S2013,将应用程序的标签词作为应用程序的基础关键词。
对于一个应用程序的预设的标签词,如“携程旅行”应用程序的具有人工运营的标签词:“旅游”、“火车票”、“旅游攻略”、“机票”、“出行”、“酒店”,那么可以将这些标签词作为该应用程序的基础关键词。
S202、根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
在实际应用中,用户在终端中输入了搜索词进行搜索,其可能点击下载应用程序也可能不下载应用程序,那么应用分发平台则可以记录各个搜索词的搜索下载情况,比如用户A搜索“理财”,在搜索结果页中下载了应用程序1,而用户B搜索“理财”,则可能在搜索结果页中下载了应用程序2,通过对大量用户的搜索下载行为的记录,则可得到对各搜索词的搜索下载记录。
具体实现中,该搜索下载记录以搜索下载日志的形式存储在应用分发平台中。
那么本发明实施例中,可以根据搜索下载日志中提取搜索词,根据该搜索词与应用程序的名称和/或者类目之间的关系,将相关的搜索词作为该应用程序的匹配关键词。
优选的,步骤S202中可以根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括以下子步骤:
子步骤S2021,对于搜索下载记录中的各搜索词,计算搜索词和应用程序的基础信息中的名称之间的文本相似度;
子步骤S2022,如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
本发明实施例可以从搜索下载日志中提取各个已经使用的搜索词,计算该搜索词与应用程序的名称之间的文本相似度。如计算搜索词文本和应用程序名称文本之间的余弦距离。
本发明实施例可以针对文本相似度设置一个第一阈值,如果所述文本相似度大于第一阈值,则获取所述搜索词作为该应用程序的匹配关键词。如果所述文本相似度小于第一阈值,则忽略该词。
优选的,步骤S202中可以根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括以下步骤:
子步骤S2023,对于搜索下载记录中的各搜索词,判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;
子步骤S2024,如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
对于搜索下载日志中一个搜索词,可能有多个用户在终端展示的该搜索词的搜索结果中下载应用程序,而其存在同一个IP的终端下载了多个应用程序或者同一个应用程序下载了多次。而为了减少同一个IP的终端对搜索词下载权重的影响,本发明实施例则统计每个搜索词的独立访问下载次数,即UV(Unique Visitor)下载,即即使同一个IP的终端的下载了多次,其UV下载次数也只算一次。然后对于一个搜索词,统计有多少个IP的终端使用该搜索词的搜索结果下载了应用程序。
然后,本发明实施例设置了针对UV下载次数的第二阈值,如果判断搜索词的UV下载次数大于该第二阈值,则可判断所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目,如果此时搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则将该搜索词作为该应用程序的匹配关键字。而对于一个搜索词,其独立访问下载次数小于等于第二阈值,以及其类目与应用程序的基础信息中的类目不属于同一个类目,可以忽略该搜索词。
当然,本发明实施例中对应用程序进行分类。对于搜索词,也可以对其进行分类。具体的分类过程本发明不对其加以限制。当然可以采用如下步骤对应用程序和搜索词分类:
子步骤A11,对于各一级类目下的应用程序,利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
在应用分发平台中预设的各种分类,该分类从一级分类开始,比如游戏了类、体育类。而实际上,对于一个一级类目下的应用程序,可以根据其应用程序的描述信息进行更细的分类。在实际应用中,可以利用贝叶斯分类器对描述信息进行分类,将一级类目下的各应用程序分到各二级类目下。
子步骤A12,对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目。
在用户的搜索过程中,可能其在搜索结果页面中点击查看应用程序的详细信息而未下载,也可能点击下应用程序。本发明实施例可以根据搜索词与各应用程序的点击关系,结合子步骤A12的二级类目的应用程序,将各个搜索词也分到相应的二级类目下。当然应用程序也参与分类过程。
比如搜索词1点击二级类目1中的应用程序的次数的占比大于占比阈值,则将该搜索词归到该二级类目1下。
上述搜索词与各应用程序的点击关系,可以为搜索词与各应用程序的点击查看之间的关系,也可以为搜索词与各应用程序的点击下载之间的关系,当然也可以为搜索词与各应用程序的点击查看和点击下载之间的总的关系。
和/或步骤S203,根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词。
本发明实施例可以根据应用程序的描述信息、各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,去计算应用程序和搜索词之间的主题相关性。当主题相关性大于主题阈值时,则可以将该搜索词作为该应用程序的匹配关键词。反之则可以忽略该搜索词。
优选地,步骤S203包括如下子步骤:
子步骤S2031,针对各应用程序的基础信息中的描述信息,通过主题模型计算出应用程序的主题分布;
本发明实施例中,可以采用所有的应用程序的描述信息作为输入,将其输入主题模型,计算各个应用程序的主题分布。
在具体实现中,因为应用程序的描述信息实际上是一个文章,上述主题模型可以为LDA(Latent Dirichlet Allocation,潜在狄利克雷分配主题)模型。通过LDA模型可以对各个文章进行分析,得到对应各个描述信息的主题分布,即每个主题的概率分布,如主题1的概率为0.6,主题2的概率为0.3,得到一个向量(0.6,,0.4)
子步骤S2032,对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
如前所述,每个搜索词与各个应用程序有点击关系,比如一搜索词的搜索结果中哪些应用程序被点击查看,和/或哪些应用程序被点击下载。如此,可以统计每个搜索词点击了哪些应用程序,各个应用程序的点击次数等。
那么由于子步骤S2031中的应用程序计算了主题分布,那么一个搜索词可以根据其点击的应用程序,间接的确定该搜索词的主题分布。比如搜索1点击应用程序1占比0.8,点击应用程序2的占比为0.2,而应用程序1的主题分布为(0.6,,0.4),(0.7,,0.3),那么搜索词的主题分布可以为((0.6+.07)*0.8,(0.4+0.3)*0.2)。
子步骤S2033,对于搜索量大于第三阈值的搜索词,根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;
在实际应用中,有些搜索词搜索量小有些搜索词搜索量大,对于要推广的应用程序来说,搜索量大的搜索词更容易进行推广。因而本发明则在搜索历史记录中统计各个搜索词的搜索量,并预设第三阈值,如果对于搜索量大于第三阈值的搜索词,才根据搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度。
在本发明实施例中,对于搜索词的主题分布和应用程序的主题分布之间的相似度,可以采用KL距离和/或JS距离计算。其中,KL距离为Kullback–Leibler divergence,又称相对熵,他对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为:D(P||Q)=ΣP(i)log(P(i)/Q(i))……公式(1)。
其中求log时,以2为底。
对于JS距离为Jensen–Shannon divergence,其为KL距离的优化方案,其公式为:
Figure BDA0000889489860000141
……公式(2),
其中
Figure BDA0000889489860000142
……(公式3)。其中,D采用公式(1)计算。
JSD取值是0到1之间。越大代表两个主题分布越一致,相似性越高。
本发明的搜索词的主题分布和应用程序的主题分布分别对应P和Q。
子步骤S2034,如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
本发明实施例预设一个主题阈值,搜索词和应用程序之间的主题相似度大于该主题阈值,则获取对应的搜索词作为该应用程序的匹配关键词。反之,则忽略。
和/或步骤S204,根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
优选的,步骤S204包括以下几个子步骤:
子步骤S2041,对于各一级类目下的应用程序,利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
子步骤S2042,对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算搜索词所对应的二级类目;
子步骤S2041与子步骤S2042与前述子步骤A11和A12类似。由于类似搜索词1点击二级类目1中的应用程序的次数的占比大于占比阈值,则将该搜索词归到该二级类目1下的情况,存在某个二级类目下,搜索词的点击占比很小,也即该搜索词是该二级类目的概率小,则可以将其从该二级类目中去除。
在将搜索词对应二级类目之后,将对应该二级类目的概率小的搜索词删除,将剩余的二级类目的搜索词生成为一个词包,然后在子步骤S2043中应用。
子步骤S2043,根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作该应用程序的匹配关键词。
对于应用程序,由于子步骤S2041计算了各个应用程序所在的二级类目,那么应用程序的二级类目也确定,子步骤S2042中确定了二级类目的关键词的词包,那么可以将该词包中的词作为该应用程序的匹配关键词。
在本发明实施例中,步骤S202、S203、S204各自都针对所有的搜索词进行计算获取检索词,步骤S201到步骤S204可以单独使用,可以选择其中几个使用,也可以选择全部使用。本发明不对其加以限定。
S205,根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
在本发明实施例中,对于步骤S201-S204中各种组合得到的基础关键词和匹配关键词,可以首先进行归一化,将相同的关键词合并,得到最简的关键词之后,根据最简的关键词生成应用程序的关键词库。
S206、当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
在具体实施过程中,在步骤S205生成所述关键词库之后,获取用户在终端中输入的搜索关键词,在通过该搜索关键词查找对应的应用程序的时,将该搜索关键词与各应用程序的关键词库进行匹配。
S207、根据匹配结果,获取与所述搜索关键词对应的应用程序。
在具体实施过程中,针对每一个应用程序,若所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词,则确定该应用程序与所述搜索关键词相对应,以获取与该搜索关键词对应的应用程序,在获取到与该搜索关键词对应的应用程序的数量为多个时,根据该搜索关键词与应用程序的相关度来对与该搜索关键词对应的应用程序进行排序。
基于同一发明构思,本申请另一实施例提供一种应用程序搜索装置,参见图3,所述装置包括:
基础关键词获取单元301,用于预先根据应用程序的基础信息,获取应用程序的基础关键词;
匹配关键词获取单元302,用于根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
关键词库生成单元303,用于根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
匹配单元304,用于当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
应用程序获取单元305,用于根据匹配结果,获取与所述搜索关键词对应的应用程序。
具体的,匹配关键词获取单元301,具体包括:
第一匹配关键词获取子单元,用于根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或第二匹配关键词获取子单元,用于根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或第三匹配关键词获取子单元,用于根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
具体的,所述第一匹配关键词获取子单元,具体包括:
文本相似度获取单元,对于搜索下载记录中的各搜索词,用于计算搜索词和应用程序的基础信息中的名称之间的文本相似度;如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
具体的,所述第一匹配关键词获取子单元,具体包括:
独立访问搜索词提取单元,对于搜索下载记录中的各搜索词,用于判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
具体的,所述第二匹配关键词获取子单元,具体包括:
应用程序主题分布计算单元,针对各应用程序的基础信息中的描述信息,用于通过主题模型计算出应用程序的主题分布;
搜索词主题分布计算单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
主题相似搜索词提取单元,对于搜索量大于第三阈值的搜索词,用于根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
具体的,所述第三匹配关键词获取子单元,具体包括:
应用程序类目细分单元,对于各一级类目下的应用程序,用于利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
搜索词分类单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
类目搜索词提取模单元,用于根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
具体的,基础关键词获取单元301,具体包括:
分词关键词提取单元,用于将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,拼音关键词提取单元,用于将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,标签关键词提取单元,用于将应用程序的标签词作为应用程序的基础关键词。
具体的,应用程序获取单元305,针对每一个应用程序,具体用于在所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词时,确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
由于本实施例所介绍的装置为实施本申请实施例中应用程序搜索方法所采用的装置,故而基于本申请实施例中所介绍的应用程序搜索方法,本领域所属技术人员能够了解本实施例的装置的具体实施方式以及其各种变化形式,所以在此对于该装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中信息处理的方法所采用的电子设备,都属于本申请所欲保护的范围。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本申请公开的应用程序搜索方法及装置,预先根据应用程序的基础信息,获取应用程序的基础关键词;根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;根据匹配结果,获取与所述搜索关键词对应的应用程序;由于应用程序的关键词库是通过应用程序的基础关键词和匹配关键词来生成的,使得应用程序的关键词库中的关键词与应用程序的相关性得以提高,由此解决了应用程序开发商需要通过繁琐的操作选择应用程序的索引关键词的问题,以及由于选择的索引关键词不恰当,导致应用程序出现在与用户输入的搜索词相关度很低的搜索结果中的概率较高的问题,取得了可以通过应用程序的关键词库自动为应用程序自动选择索引关键词,减少应用程序开发商对应用程序索引关键词的选择过程,有效提高应用程序出现在与用户输入的搜索词相关度较高的搜索结果中的概率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
本发明公开A1、一种应用程序搜索方法,其特征在于,所述方法包括:
预先根据应用程序的基础信息,获取应用程序的基础关键词;根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
根据匹配结果,获取与所述搜索关键词对应的应用程序。
A2、如A1所述的方法,其特征在于,所述根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
A3、如A2所述的方法,其特征在于,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,计算搜索词和应用程序的基础信息中的名称之间的文本相似度;
如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
A4、如A2所述的方法,其特征在于,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;
如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
A5、如A2所述的方法,其特征在于,所述根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
针对各应用程序的基础信息中的描述信息,通过主题模型计算出应用程序的主题分布;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
对于搜索量大于第三阈值的搜索词,根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;
如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
A6、如A2所述的方法,其特征在于,所述根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于各一级类目下的应用程序,利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
A7、如A1所述的方法,其特征在于,所述预先根据应用程序的基础信息,获取应用程序的基础关键词,具体包括:
将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,将应用程序的标签词作为应用程序的基础关键词。
A8、如A1所述的方法,其特征在于,所述根据匹配结果,获取与所述搜索关键词对应的应用程序,具体包括:
针对每一个应用程序,若所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词,则确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
B9、一种应用程序搜索装置,其特征在于,所述装置包括:
基础关键词获取单元,用于预先根据应用程序的基础信息,获取应用程序的基础关键词;
匹配关键词获取单元,用于根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
关键词库生成单元,用于根据所述基础关键词和所述匹配关键词生成应用程序的关键词库;
匹配单元,用于当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
应用程序获取单元,用于根据匹配结果,获取与所述搜索关键词对应的应用程序。
B10、如B9所述的装置,其特征在于,所述匹配关键词获取单元,具体包括:
第一匹配关键词获取子单元,用于根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或第二匹配关键词获取子单元,用于根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或第三匹配关键词获取子单元,用于根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
B11、如B10所述的装置,其特征在于,所述第一匹配关键词获取子单元,具体包括:
文本相似度获取单元,对于搜索下载记录中的各搜索词,用于计算搜索词和应用程序的基础信息中的名称之间的文本相似度;如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
B12、如B10所述的装置,其特征在于,所述第一匹配关键词获取子单元,具体包括:
独立访问搜索词提取单元,对于搜索下载记录中的各搜索词,用于判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
B13、如B10所述的装置,其特征在于,所述第二匹配关键词获取子单元,具体包括:
应用程序主题分布计算单元,针对各应用程序的基础信息中的描述信息,用于通过主题模型计算出应用程序的主题分布;
搜索词主题分布计算单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
主题相似搜索词提取单元,对于搜索量大于第三阈值的搜索词,用于根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
B14、如B10所述的装置,其特征在于,所述第三匹配关键词获取子单元,具体包括:
应用程序类目细分单元,对于各一级类目下的应用程序,用于利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
搜索词分类单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
类目搜索词提取模单元,用于根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
B15、如B9所述的装置,其特征在于,所述基础关键词获取单元,具体包括:
分词关键词提取单元,用于将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,拼音关键词提取单元,用于将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,标签关键词提取单元,用于将应用程序的标签词作为应用程序的基础关键词。
B16、如B9所述的装置,其特征在于,所述应用程序获取单元,针对每一个应用程序,具体用于在所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词时,确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。

Claims (16)

1.一种应用程序搜索方法,其特征在于,所述方法包括:
预先根据应用程序的基础信息,获取应用程序的基础关键词,所述应用程序的基础信息包括:应用程序的名称、应用程序的标签、应用程序的描述信息、应用程序所属的类目;根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;根据所述基础关键词和所述匹配关键词生成应用程序的关键词库,使得应用程序的关键词库中包含有所述应用程序的基础关键词和所述应用程序的匹配关键词;
当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
根据匹配结果,获取与所述搜索关键词对应的应用程序。
2.如权利要求1所述的方法,其特征在于,所述根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
3.如权利要求2所述的方法,其特征在于,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,计算搜索词和应用程序的基础信息中的名称之间的文本相似度;
如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
4.如权利要求2所述的方法,其特征在于,所述根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于搜索下载记录中的各搜索词,判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;
如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
5.如权利要求2所述的方法,其特征在于,所述根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词,具体包括:
针对各应用程序的基础信息中的描述信息,通过主题模型计算出应用程序的主题分布;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
对于搜索量大于第三阈值的搜索词,根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;
如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
6.如权利要求2所述的方法,其特征在于,所述根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词,具体包括:
对于各一级类目下的应用程序,利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
对每个搜索词,根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
7.如权利要求1所述的方法,其特征在于,所述预先根据应用程序的基础信息,获取应用程序的基础关键词,具体包括:
将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,将应用程序的标签词作为应用程序的基础关键词。
8.如权利要求1所述的方法,其特征在于,所述根据匹配结果,获取与所述搜索关键词对应的应用程序,具体包括:
针对每一个应用程序,若所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词,则确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
9.一种应用程序搜索装置,其特征在于,所述装置包括:
基础关键词获取单元,用于预先根据应用程序的基础信息,获取应用程序的基础关键词,所述应用程序的基础信息包括:应用程序的名称、应用程序的标签、应用程序的描述信息、应用程序所属的类目;
匹配关键词获取单元,用于根据各搜索词的历史搜索记录和应用程序的基础信息,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
关键词库生成单元,用于根据所述基础关键词和所述匹配关键词生成应用程序的关键词库,使得应用程序的关键词库中包含有所述应用程序的基础关键词和所述应用程序的匹配关键词;
匹配单元,用于当接收到用户输入的搜索关键词时,将所述输入的搜索关键词与各应用程序的关键词库进行匹配;
应用程序获取单元,用于根据匹配结果,获取与所述搜索关键词对应的应用程序。
10.如权利要求9所述的装置,其特征在于,所述匹配关键词获取单元,具体包括:
第一匹配关键词获取子单元,用于根据各搜索词的搜索历史记录中的搜索下载记录和应用程序的基础信息中的名称和/或类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词;
和/或第二匹配关键词获取子单元,用于根据应用程序的基础信息中的描述信息、和各搜索词的搜索历史记录中的搜索词与各应用程序的点击关系,获取与应用程序匹配的搜索词作为应用程序的匹配关键词;
和/或第三匹配关键词获取子单元,用于根据应用程序的基础信息中的类目和各搜索词对应的类目,获取与应用程序匹配的搜索词以作为应用程序的匹配关键词。
11.如权利要求10所述的装置,其特征在于,所述第一匹配关键词获取子单元,具体包括:
文本相似度获取单元,对于搜索下载记录中的各搜索词,用于计算搜索词和应用程序的基础信息中的名称之间的文本相似度;如果所述文本相似度大于第一阈值,则获取所述搜索词作为应用程序的匹配关键词。
12.如权利要求10所述的装置,其特征在于,所述第一匹配关键词获取子单元,具体包括:
独立访问搜索词提取单元,对于搜索下载记录中的各搜索词,用于判断所述搜索词的独立访问下载次数是否大于第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目是否属于同一个类目;如果所述搜索词的独立访问下载次数大于所述第二阈值,以及所述搜索词的类目与应用程序的基础信息中的类目属于同一个类目,则获取所述搜索词作为应用程序的匹配关键词。
13.如权利要求10所述的装置,其特征在于,所述第二匹配关键词获取子单元,具体包括:
应用程序主题分布计算单元,针对各应用程序的基础信息中的描述信息,用于通过主题模型计算出应用程序的主题分布;
搜索词主题分布计算单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,计算搜索词的主题分布;
主题相似搜索词提取单元,对于搜索量大于第三阈值的搜索词,用于根据所述搜索词的主题分布和应用程序的主题分布,计算所述搜索词和应用程序之间的主题相似度;如果所述搜索词和应用程序之间的主题相似度大于主题阈值,则获取所述搜索词作为应用程序的匹配关键词。
14.如权利要求10所述的装置,其特征在于,所述第三匹配关键词获取子单元,具体包括:
应用程序类目细分单元,对于各一级类目下的应用程序,用于利用一级类目下的各应用程序的描述信息,采用分类器将各应用程序分为相应一级类目下的二级类目;
搜索词分类单元,对每个搜索词,用于根据搜索历史记录中搜索词与各应用程序的点击关系,以及各应用程序所属的二级类目,计算所述搜索词所对应的二级类目;
类目搜索词提取模单元,用于根据应用程序所在的二级类目,获取对应该二级类目的各搜索词则作为应用程序的匹配关键词。
15.如权利要求9所述的装置,其特征在于,所述基础关键词获取单元,具体包括:
分词关键词提取单元,用于将应用程序的基础信息中的名称进行分词操作,将分词结果作为应用程序的基础关键词;
和/或,拼音关键词提取单元,用于将应用程序的基础信息中的名称转换为拼音串和/或由所述名称进行分词得到的分词结果转换为拼音串,将所述拼音串作为应用程序的基础关键词;
和/或,标签关键词提取单元,用于将应用程序的标签词作为应用程序的基础关键词。
16.如权利要求9所述的装置,其特征在于,所述应用程序获取单元,针对每一个应用程序,具体用于在所述匹配结果表征应用程序的关键词库中存在与所述搜索关键词相匹配的关键词时,确定该应用程序与所述搜索关键词相对应,以获取与所述搜索关键词对应的应用程序。
CN201510990107.XA 2015-12-24 2015-12-24 应用程序搜索方法及装置 Active CN106919575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510990107.XA CN106919575B (zh) 2015-12-24 2015-12-24 应用程序搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510990107.XA CN106919575B (zh) 2015-12-24 2015-12-24 应用程序搜索方法及装置

Publications (2)

Publication Number Publication Date
CN106919575A CN106919575A (zh) 2017-07-04
CN106919575B true CN106919575B (zh) 2020-12-25

Family

ID=59460233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510990107.XA Active CN106919575B (zh) 2015-12-24 2015-12-24 应用程序搜索方法及装置

Country Status (1)

Country Link
CN (1) CN106919575B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN107622090B (zh) * 2017-08-22 2020-10-16 上海艾融软件股份有限公司 对象的获取方法、装置及系统
WO2019041193A1 (zh) * 2017-08-30 2019-03-07 深圳市云中飞网络科技有限公司 应用资源处理方法及相关产品
CN110785752A (zh) 2017-08-31 2020-02-11 深圳市欢太科技有限公司 资源搜索方法及相关产品
CN108491494A (zh) * 2018-03-19 2018-09-04 努比亚技术有限公司 应用推荐方法、终端及计算机可读存储介质
CN110196833B (zh) * 2018-03-22 2023-06-09 腾讯科技(深圳)有限公司 应用程序的搜索方法、装置、终端及存储介质
CN108920652A (zh) * 2018-07-03 2018-11-30 佛山市影腾科技有限公司 一种搜索方法、装置及终端
CN111078989B (zh) * 2018-10-18 2024-03-22 阿里巴巴集团控股有限公司 一种应用程序的推荐方法、装置、及电子设备
CN109885726B (zh) * 2019-02-28 2021-11-26 北京奇艺世纪科技有限公司 一种生成视频元信息的方法和装置
CN112257415A (zh) * 2020-09-29 2021-01-22 当趣网络科技(杭州)有限公司 语音搜索词库的方法、系统、电子装置和存储介质
CN112540774A (zh) * 2020-12-21 2021-03-23 深圳市欢太科技有限公司 应用程序的下载方法、装置、终端设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793427A (zh) * 2012-10-31 2014-05-14 北京百度网讯科技有限公司 确定目标呈现关键词的优化呈现关键词的方法与设备
CN103914552A (zh) * 2014-04-14 2014-07-09 百度在线网络技术(北京)有限公司 应用检索方法和装置
CN103995845A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080577A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 情報検索支援装置及び方法
CN104216995B (zh) * 2014-09-10 2018-03-06 北京金山安全软件有限公司 信息处理方法及装置
CN104933100B (zh) * 2015-05-28 2018-05-04 北京奇艺世纪科技有限公司 关键词推荐方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793427A (zh) * 2012-10-31 2014-05-14 北京百度网讯科技有限公司 确定目标呈现关键词的优化呈现关键词的方法与设备
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置
CN103914552A (zh) * 2014-04-14 2014-07-09 百度在线网络技术(北京)有限公司 应用检索方法和装置
CN103995845A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 信息搜索方法及其装置

Also Published As

Publication number Publication date
CN106919575A (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN106919575B (zh) 应用程序搜索方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106874279B (zh) 生成应用类别标签的方法及装置
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN106445963B (zh) App平台的广告索引关键词自动生成方法和装置
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN112508609B (zh) 人群扩量的预测方法、装置、设备及存储介质
CN102033919A (zh) 文本关键词提取方法及系统
CN113570413B (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN103761254A (zh) 多领域服务主题匹配推荐方法
CN106919588A (zh) 一种应用程序搜索系统及方法
CN110717038B (zh) 对象分类方法及装置
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN111597469B (zh) 展示位置的确定方法、确定装置、电子设备及存储介质
CN111966899B (zh) 搜索排序方法、系统及计算机可读存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN106919587A (zh) 应用程序搜索系统及方法
CN114693011A (zh) 一种政策匹配方法、装置、设备和介质
CN107665222B (zh) 关键词的拓展方法和装置
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right