CN112579854A - 信息处理方法、装置、设备和存储介质 - Google Patents

信息处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112579854A
CN112579854A CN201910941284.7A CN201910941284A CN112579854A CN 112579854 A CN112579854 A CN 112579854A CN 201910941284 A CN201910941284 A CN 201910941284A CN 112579854 A CN112579854 A CN 112579854A
Authority
CN
China
Prior art keywords
keyword
search
candidate
keywords
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910941284.7A
Other languages
English (en)
Inventor
郑裕民
陈沛楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910941284.7A priority Critical patent/CN112579854A/zh
Publication of CN112579854A publication Critical patent/CN112579854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息处理方法、装置、设备和存储介质。该方法包括:在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序;依据排序后的候选关键词词集确定目标关键词并展示。通过上述技术方案,实现了更加全面且精确地为用户推荐搜索相关的关键词。

Description

信息处理方法、装置、设备和存储介质
技术领域
本发明实施例涉及互联网技术,尤其涉及一种信息处理方法、装置、设备和存储介质。
背景技术
在电子商务和互联网等搜索场景中,最常用的引流手段就是通过推荐用户感兴趣的关键词来吸引用户点击,进而通过点击关键词展示相应的搜索结果页来引导用户。所以,为了提升关键词的点击率,一般都会使用推荐算法,来推荐用户感兴趣的关键词。
目前的关键词推荐方案中,首先,会根据应用场景预设部分关键词(称为预设关键词词集或候选关键词词集);然后,获取用户的历史浏览记录,构建用户特征;之后,基于文本相似度算法,进行用户特征与候选关键词词集中的各个关键词之间的相似度匹配,获得每个关键词对应的文本相似度。最后,基于每个关键词对应的文本相似度对所有的候选关键词进行打分及排序,确定出待推荐的目标关键词并展示给用户。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目标关键词的确定与关键词的文本相似度相关,而文本相似度的确定又依赖于用户历史浏览记录,这就意味着(1)目标关键词的确定取决于用户的活跃度,对于内容、范围显然丰富度不够;(2)新用户没有历史浏览记录,使得关键词推荐算法无法很好的适用于新用户,算法适用性不足;(3)会出现推荐的关键词重复的情况,比如用户近期刚刚浏览过或者购买过相关商品,这时候推荐的关键词很大可能还会重复出现上述相关的关键词,用户体验不好。
发明内容
本发明实施例提供一种信息处理方法、装置、设备和存储介质,以实现更加全面且精确地为用户推荐搜索相关的关键词。
第一方面,本发明实施例提供了一种信息处理方法,包括:
在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序;
依据排序后的候选关键词词集确定目标关键词并展示。
第二方面,本发明实施例还提供了一种信息处理装置,该装置包括:
候选关键词词集确定模块,用于在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
关键词排序模块,用于依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序;
目标关键词确定模块,用于依据排序后的候选关键词词集确定目标关键词并展示。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的信息处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的信息处理方法。
本发明实施例通过在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序;依据排序后的候选关键词词集确定目标关键词并展示。实现了为每个候选关键词关联词搜索热度值,丰富了关键词排序过程中关键词的特征维度,提高了关键词排序的精确度。并且,词搜索热度值不直接依赖于单个用户的历史行为数据,使得目标关键词的确定不仅仅依赖于单个用户的活跃度,扩大了目标关键词的选取内容和范围,提高了目标关键词中除热词之外的新颖词的出现概率,也提高了算法对不同级别用户的适用性,进而提高了目标关键词推荐的全面性和精确性。
附图说明
图1是本发明实施例一中的一种信息处理方法的流程图;
图2是本发明实施例二中的一种信息处理方法的流程图;
图3是本发明实施例三中的一种信息处理方法中目标关键词词库的构建方法的流程图;
图4是本发明实施例四中的一种信息处理装置的结构示意图;
图5是本发明实施例五中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
本实施例提供的信息处理方法可适用于信息搜索过程中的搜索关键词推荐,例如可以是互联网搜索时的关键词推荐,也可以是电子商务场景中用户搜索物品过程中的关键词推荐等。该方法可以由信息处理装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备中,例如手机、平板电脑或台式电脑等。参见图1,本实施例的方法具体包括如下步骤:
S110、在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集。
其中,具有搜索功能的页面指的是能够提供搜索功能的页面,例如浏览器中或者电子商务中购物应用程序中具有搜索框的页面等。候选关键词词集是由多个候选关键词构成的词集,其可以是由全部的关键词构成的词集,为了提高后续关键词的筛选效率,其也可以是由符合某种条件(如搜索场景)的关键词构成的词集。候选关键词是指待筛选以供后续展示给用户的关键词。
用户在进行相关搜索时,通常会进行相应功能的触发操作,例如用户打开购物应用程序首页或者某个购物会场的页面,即用户打开具有搜索功能的页面,此时信息处理装置便会监测到具有搜索功能的页面的加载请求。又如,用户点击了页面中的搜索框,以便后续输入搜索词,此时信息处理装置会监测到搜索框的触发请求。监测到加载请求或者触发请求,说明信息处理装置需要推荐关键词给用户,以便用户通过点击关键词来触发相关的搜索。关键词推荐过程,首先需要确定出候选关键词词集。例如可以人为地从所有关键词中选出符合当前搜索场景的各个关键词,以构成候选关键词词集;也可以按照预先设定的候选关键词词集确定规则(例如根据搜索场景和/或类目筛选关键词),从所有关键词中筛选出符合当前搜索场景的各个关键词,以构成候选关键词词集。
S120、依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序。
其中,词搜索热度值是表征一定时间段内关键词的搜索热度的指标值,例如可以是关键词在设定时间段内在全站的搜索频率,也可以是关键词在设定时间段内在全站的访问量等。
进行关键词推荐时,并不是将所有的候选关键词均展示给用户,而是筛选出更加符合用户需求的关键词,且以一定的顺序呈现给用户。相关技术中会根据用户的历史行为数据,例如用户历史输入或者点击过的关键词,或者从用户历史购买记录中抽取出的关键词(即用户关键词),并计算候选关键词词集中每个候选关键词与用户关键词之间的文本相似度,进而对各候选关键词排序。但是,为了避免关键词排序结果对用户历史行为数据的过渡依赖,从而导致排序结果的精度较低,本发明实施例中并没有单纯依赖用户历史行为数据,而是采用了涉及的数据和用户的范围更广的词搜索热度值这一表征关键词的流行度的指标。具体实施时,在确定候选关键词词集时,便为其中的每个候选关键词设置了词搜索热度值。此时,便根据每个候选关键词的词搜索热度值,对所有的候选关键词进行排序。
排序过程中所依据的指标除了词搜索热度值,还可以有用户历史行为数据相关的指标,以达到在扩大排序结果中排序靠前的关键词的范围和内容的同时,更加贴合用户本身的兴趣点。当有多个排序指标时,可以选择排序特征兼容性强的排序模型。另外,也可以为每个排序指标设置对应的排序权重,以便明确排序过程中每个排序指标的占比和重要性。
S130、依据排序后的候选关键词词集确定目标关键词并展示。
其中,目标关键词是指推荐给用户的关键词。
在对候选关键词词集中的每个候选关键词排序之后,便按照业务需求,例如需要呈现给用户的关键词数量,或者显示界面中可展示的关键词数量等,从排序后的候选关键词词集中截取排序靠前的相应数量的候选关键词,作为目标关键词。之后,可以按照业务需求,将目标关键词展示在相应的界面位置处。具体展示时,可以直接陈列目标关键词,也可以将目标关键词分类展示。
本实施例的技术方案,通过在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序;依据排序后的候选关键词词集确定目标关键词并展示。实现了为每个候选关键词关联词搜索热度值,丰富了关键词排序过程中关键词的特征维度,提高了关键词排序的精确度。并且,词搜索热度值不直接依赖于单个用户的历史行为数据,使得目标关键词的确定不仅仅依赖于单个用户的活跃度,在扩大目标关键词的选取内容和范围的同时,也降低了重复关键词的推荐数量和次数,提高了算法对不同级别用户的适用性,进而提高了目标关键词推荐的全面性和精确性。
实施例二
本实施例在上述实施例一的基础上,对“确定候选关键词词集”进行了进一步优化。在此基础上,还可以进一步对“依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序”进行优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,本实施例提供的信息处理方法包括:
S210、在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,依据加载请求或触发请求确定目标搜索场景,并依据目标搜索场景以及搜索场景与类目的映射关系,确定至少一个目标类目。
其中,搜索场景是指搜索事件所属的场景类别,例如3C搜索场景、服装搜索场景等。
相关技术中,候选关键词词集是通过人工筛选关键词的方式来确定的。具体来说,相关技术中会先从全站的搜索日报中提取所有的关键词,构成初始关键词词库。之后,会依靠人力,从初始关键词词库中按照搜索场景和类目进行候选关键词的逐个挑选,从而生成候选关键词词集。但是,人为地筛选候选关键词时,会根据每个关键词的表现(例如页面访问量(PageView,PV)和所关联的商品的销量等)来筛选,这样会导致热词一直会是热词,没有被选中的词就失去了曝光的机会,不仅耗费大量的人力资源,而且明显降低了候选关键词的涉及范围和内容,从而降低关键词推荐的有效性。本发明实施例中,为了降低关键词推荐过程中的人工参与度,以及提高候选关键词的涵盖范围,设置了候选关键词词集确定规则,并且根据该规则从所有关键词中自动筛选关键词,构成候选关键词词集。上述候选关键词词集确定规则具体为:预先建立搜索场景及其对应的类目之间的映射关系,以便后续根据搜索场景确定出相应的类目,进而根据类目从所有关键词中筛选候选关键词。
具体实施时,页面的加载请求或者搜索框的触发请求中会携带用户此时触发的搜索场景的信息,例如搜索场景标识ID等。这样,信息处理装置便会根据请求中携带的搜索场景的信息来确定当前的搜索场景(即目标搜索场景)。之后,以目标搜索场景为索引,从预先确定的搜索场景与类目的映射关系中确定出目标搜索场景对应的至少一个类目(即目标类目)。例如,目标搜索场景为3C搜索场景,那么可以确定目标类目为电脑、手机和电视等。
S220、从预先建立的目标关键词词库中提取每个目标类目对应的各关键词,确定候选关键词词集。
其中,目标关键词词库是预先建立的所有关键词构成的词库,其可以是由从全站搜索日志中直接获得的各关键词构成,也可以是对所获得的关键词进行过滤后所获得。目标关键词词库中的每个关键词均对应有词搜索热度值,即每个关键词均设置有词搜索热度值。需要说明的是,目标关键词词库中的关键词均是按照类目进行分类存储的。
确定了目标类目之后,便从目标关键词词库中,提取出来每个目标类目对应的多个关键词,构建候选关键词词集。例如,可以是从目标关键词词库中提取每个目标类目对应的所有关键词,也可以是按照某种采样规则(如随机采样)从提取相应的关键词。
S230、依据每个候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序。
其中,预设特征权重值是预先设定的每个排序特征对应的权重值,例如类目权重值、访问量权重值和搜索热度权重值等,其可以根据排序效果而经验设定。预设排序模型是预先选定的排序模型,其可以根据多个特征对关键词进行打分,并按照分数排序。
为了提高关键词排序的精度,本实施例中采用了类目、关键词访问量PV及词搜索热度值的多个特征维度,且设置了每个特征维度对应的权重值,以调整预设排序模型中每个特征维度的比重,从而根据多个特征维度对每个关键词进行综合打分及排序。这样的设置,即便对于活跃度低的老用户和新用户,也不会因其历史行为数据的贫乏而导致关键词推荐精度的降低。
示例性地,依据每个候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序包括:依据用户的历史行为数据,确定用户的用户特征以及用户关键词;基于文本相似度算法,确定每个候选关键词和用户关键词之间的关键词相似度;依据每个候选关键词对应的类目、关键词访问量、词搜索热度值、关键词相似度、用户特征和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序。
其中,关键词相似度是指候选关键词与用户关键词之间的文本相似度。用户特征是指用户画像,例如用户性别、年龄、搜索偏好或购买偏好等。用户关键词是指从用户历史行为数据中抽取而来的关键词。
对于具有一定活跃度的老用户,会存在一定量的用户历史行为数据(如搜索历史记录或者历史购买记录等),此时,为了更进一步使得目标关键词贴近用户需求,本发明实施例中在类目、关键词访问量和词搜索热度值的基础上,进一步增加了与用户历史行为数据相关的关键词相似度和用户特征的排序特征维度。具体实施时,先从用户的历史行为数据中抽取出用户特征及各用户关键词;然后,计算每个候选关键词与用户关键词之间的文本相似度,作为关键词相似度;最后,将每个关键词对应的类目、关键词访问量、词搜索热度值、关键词相似度、用户特征和各预设特征权重值输入预设排序模型,以获得每个候选关键词的排序分数,并按照分数进行排序。
S240、依据排序后的候选关键词词集确定目标关键词并展示。
本实施例的技术方案,通过依据加载请求或触发请求确定目标搜索场景,并依据目标搜索场景以及搜索场景与类目的映射关系,确定至少一个目标类目;从预先建立的目标关键词词库中提取每个目标类目对应的各关键词,确定候选关键词词集。实现了候选关键词词集的自动生成,节省了候选关键词词集确定过程中的大量人力,且扩大了候选关键词词集中所包含的候选关键词的涉及范围,提高了除热词之外的其他新颖词的曝光率。通过依据每个候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序。扩展了关键词排序过程中的关键词特征维度,从而提高了关键词排序的精度,进而进一步提高了关键词推荐的全面性和精度。
实施例三
本实施例在上述实施例二的基础上,对“目标关键词词库”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3,本实施例提供的信息处理方法中目标关键词词库的构建方法包括:
S310、当应用场景为电子商务搜索场景时,获取搜索日志,并对搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库。
构建目标关键词词库过程中,首先要收集电子商务搜索场景中的全站的搜索日志,之后便对搜索日志进行关键词提取,并对所提取的各关键词按照类目维度进行分类,便获得了按照类目分类的关键词,即获得了初始关键词词库。
S320、依据电子商务平台对应的每个类目中各物品的物品搜索热度值,确定各类目对应的词搜索热度值。
其中,物品搜索热度值是表征一个物品的搜索热度的指标值。
上述所生成的初始关键词词库中的每个关键词对应有类目及关键词访问量等可以从搜索日志中抽取的特征,但是并没有关联词搜索热度值。考虑到电子商务搜索场景中涉及到关键词的除了用户输入或点击的关键词之外,更多地是物品对应的信息(如名称或物品介绍详情等)中所包含的关键词,所以为了更加全面地确定词搜索热度值,本实施例中利用物品搜索热度值来计算词搜索热度词。具体实施时,先确定一个类目中包含的所有物品的物品搜索热度值,之后,利用各物品搜索热度值,通过均值计算或者中位值计算等方式来计算该类目对应的综合的物品搜索热度值,作为该类目对应的词搜索热度值。按照该过程,可以确定每个类目对应的词搜索热度值。
示例性地,类目中各物品的物品搜索热度值通过如下方式预先确定:从电子商务平台中抽取类目对应的至少一个样本物品,并获取预设时间段内各样本物品对应的单位统计时长内的页面访问量和独立访问用户数;依据页面访问量和独立访问用户数,确定每个样本物品在预设时间段内的访问增长率,作为样本物品的物品搜索热度值。
对于上述一个类目中各物品的物品搜索热度值,本实施例中是通过对该类目涵盖的所有物品进行物品抽样来确定的。具体实施时,先从电子商务平台中抽取出该类目下的多个样本物品,例如一定时间段内销量大于1的活跃物品或者拼购物品,以及新上架的上新物品等。然后,获取每个样本物品在预设时间段内的单位统计时长的页面访问量PV和独立访问用户数(UniqueVisitor,UV),例如,获取每个样本物品在3天内的每天的PV值和UV值。之后,计算每个样本物品对应的每天的页面访问量PV和独立访问用户数UV的比值,即PV/UV,并进一步计算预设时间段内的PV/UV的增长率,即访问增长率。该访问增长率便表征了该样本物品的物品搜索热度值。按照该过程,可以获得一个类目下多个样本物品的物品搜索热度值。这样设置的好处在于,通过页面重复访问量的增长率来表征物品的流行度趋势,从而提高物品搜索热度值的精度。
S330、将每个类目对应的词搜索热度值关联至相应类目对应的各关键词。
确定了一个类目的词搜索热度值之后,为该类目下的每个关键词均设置该词搜索热度值。
S340、对初始关键词词库进行关键词过滤,生成目标关键词词库。
初始关键词词库中的关键词是直接从搜索日报中提取而来,其中存在一些访问量极低的无效关键词、涉及敏感内容的敏感关键词以及搜索结果较少的低效关键词,故需要进一步对初始关键词词库中的关键词进行过滤,以滤除上述关键词,获得目标关键词词库。
示例性地,对初始关键词词库进行关键词过滤,生成目标关键词词库包括:获取初始关键词词库中的每个关键词对应的搜索结果页中的搜索物品数量;从初始关键词词库中滤除搜索物品数量小于预设物品数量的关键词,生成目标关键词词库。
其中,搜索物品数量是指搜索结果页中包含的物品的数量。预设物品数量是指预先设定的搜索结果页中应当包含的物品的最低数量。
为了提高关键词的用户引流效率,本实施例中根据关键词对应的搜索结果页中的搜索物品的数量来对初始关键词词库中的关键词进行过滤。具体实施时,针对初始关键词词库中的每个关键词,先获取到其对应的搜索结果页,并统计搜索结果页中的物品数量,即获得该关键词对应的搜索物品数量。之后,将该关键词对应的搜索物品数量与预设物品数量比较,如果搜索物品数量小于预设物品数量,那么将该搜索物品数量对应的关键词滤除。以此方式对每个关键词进行过滤,便可获得目标关键词词库。
需要说明的是,上述S320~S330中为每个关键词关联词搜索热度值的操作,也可以在S340之后执行。也就是说,除了可以为初始关键词词库中的每个关键词均设置词搜索热度值之外,也可以只为目标关键词词库中的每个关键词设置词搜索热度值,这样可以减少关联词搜索热度值的关键词的数量,从而减少为无效关键词关联词搜索热度值的工作量,提高目标关键词词库的构建效率。
本实施例的技术方案,通过获取搜索日志,并对搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库;对初始关键词词库进行关键词过滤,生成目标关键词词库。实现了目标关键词词库的构建,为后续候选关键词词集的确定提供数据基础。通过依据电子商务平台对应的每个类目中各物品的物品搜索热度值,确定各类目对应的词搜索热度值;将每个类目对应的词搜索热度值关联至相应类目对应的各关键词。实现了关键词的词搜索热度值的设置,为后续关键词排序提供数据基础。
实施例四
本实施例提供一种信息处理装置,参见图4,该装置具体包括:
候选关键词词集确定模块410,用于在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
关键词排序模块420,用于依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序;
目标关键词确定模块430,用于依据排序后的候选关键词词集确定目标关键词并展示。
可选地,候选关键词词集确定模块410具体用于:
依据加载请求或触发请求确定目标搜索场景,并依据目标搜索场景以及搜索场景与类目的映射关系,确定至少一个目标类目;
从预先建立的目标关键词词库中提取每个目标类目对应的各关键词,确定候选关键词词集,其中,目标关键词词库中的每个关键词均对应有词搜索热度值。
可选地,在上述装置的基础上,该装置还包括目标关键词词库构建模块,目标关键词词库构建模块包括:
初始关键词词库生成子模块,用于获取搜索日志,并对搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库;
目标关键词词库生成子模块,用于对初始关键词词库进行关键词过滤,生成目标关键词词库。
进一步地,目标关键词词库构建模块还包括:词搜索热度值关联子模块,用于:
在获取搜索日志,并对搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库之后,依据电子商务平台对应的每个类目中各物品的物品搜索热度值,确定各类目对应的词搜索热度值;
将每个类目对应的词搜索热度值关联至相应类目对应的各关键词。
进一步地,目标关键词词库构建模块还包括物品搜索热度值确定子模块,用于通过如下方式预先确定类目中各物品的物品搜索热度值:
从电子商务平台中抽取类目对应的至少一个样本物品,并获取预设时间段内各样本物品对应的单位统计时长内的页面访问量和独立访问用户数;
依据页面访问量和独立访问用户数,确定每个样本物品在预设时间段内的访问增长率,作为样本物品的物品搜索热度值。
可选地,目标关键词词库生成子模块具体用于:
获取初始关键词词库中的每个关键词对应的搜索结果页中的搜索物品数量;
从初始关键词词库中滤除搜索物品数量小于预设物品数量的关键词,生成目标关键词词库。
可选地,关键词排序模块420具体用于:
依据每个候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序。
进一步地,关键词排序模块420还具体用于:
依据用户的历史行为数据,确定用户的用户特征以及用户关键词;
基于文本相似度算法,确定每个候选关键词和用户关键词之间的关键词相似度;
依据每个候选关键词对应的类目、关键词访问量、词搜索热度值、关键词相似度、用户特征和各预设特征权重值,基于预设排序模型,对各候选关键词进行排序。
通过本发明实施例四的一种信息处理装置,实现了为每个候选关键词关联词搜索热度值,丰富了关键词排序过程中关键词的特征维度,提高了关键词排序的精确度。并且,词搜索热度值不直接依赖于单个用户的历史行为数据,使得目标关键词的确定不仅仅依赖于单个用户的活跃度,在扩大目标关键词的选取内容和范围的同时,也提高了算法对不同级别用户的适用性,进而提高了目标关键词推荐的全面性和精确性。
本发明实施例所提供的信息处理装置可执行本发明任意实施例所提供的信息处理方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述信息处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例五
参见图5,本实施例提供了一种电子设备,其包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器520执行,使得一个或多个处理器520实现本发明实施例所提供的信息处理方法,包括:
在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序;
依据排序后的候选关键词词集确定目标关键词并展示。
当然,本领域技术人员可以理解,处理器520还可以实现本发明任意实施例所提供的信息处理方法的技术方案。
图5显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,该电子设备包括处理器520、存储装置510、输入装置530和输出装置540;电子设备中处理器520的数量可以是一个或多个,图5中以一个处理器520为例;电子设备中的处理器520、存储装置510、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线550连接为例。
存储装置510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的信息处理方法对应的程序指令/模块(例如,信息处理装置中的候选关键词词集确定模块、关键词排序模块和目标关键词确定模块)。
存储装置510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置510可进一步包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
实施例六
本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种信息处理方法,该方法包括:
在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
依据候选关键词词集中各候选关键词对应的词搜索热度值,确定每个候选关键词在候选关键词词集中的排序;
依据排序后的候选关键词词集确定目标关键词并展示。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的信息处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所提供的信息处理方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种信息处理方法,其特征在于,包括:
在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序;
依据排序后的候选关键词词集确定目标关键词并展示。
2.根据权利要求1所述的方法,其特征在于,确定候选关键词词集包括:
依据所述加载请求或所述触发请求确定目标搜索场景,并依据所述目标搜索场景以及搜索场景与类目的映射关系,确定至少一个目标类目;
从预先建立的目标关键词词库中提取每个所述目标类目对应的各关键词,确定所述候选关键词词集,其中,所述目标关键词词库中的每个关键词均对应有词搜索热度值。
3.根据权利要求2所述的方法,其特征在于,当应用场景为电子商务搜索场景时,所述目标关键词词库通过如下方式预先建立:
获取搜索日志,并对所述搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库;
对所述初始关键词词库进行关键词过滤,生成所述目标关键词词库。
4.根据权利要求3所述的方法,其特征在于,在获取搜索日志,并对所述搜索日志进行关键词提取,生成按照类目分类的关键词构成的初始关键词词库之后,还包括:
依据电子商务平台对应的每个所述类目中各物品的物品搜索热度值,确定各所述类目对应的词搜索热度值;
将每个类目对应的所述词搜索热度值关联至相应类目对应的各关键词。
5.根据权利要求4所述的方法,其特征在于,所述类目中各物品的物品搜索热度值通过如下方式预先确定:
从所述电子商务平台中抽取所述类目对应的至少一个样本物品,并获取预设时间段内各所述样本物品对应的单位统计时长内的页面访问量和独立访问用户数;
依据所述页面访问量和所述独立访问用户数,确定每个所述样本物品在所述预设时间段内的访问增长率,作为所述样本物品的物品搜索热度值。
6.根据权利要求3所述的方法,其特征在于,对所述初始关键词词库进行关键词过滤,生成所述目标关键词词库包括:
获取所述初始关键词词库中的每个关键词对应的搜索结果页中的搜索物品数量;
从所述初始关键词词库中滤除所述搜索物品数量小于预设物品数量的关键词,生成所述目标关键词词库。
7.根据权利要求1所述的方法,其特征在于,依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序包括:
依据每个所述候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各所述候选关键词进行排序。
8.根据权利要求7所述的方法,其特征在于,依据每个所述候选关键词对应的类目、关键词访问量、词搜索热度值和各预设特征权重值,基于预设排序模型,对各所述候选关键词进行排序包括:
依据用户的历史行为数据,确定所述用户的用户特征以及用户关键词;
基于文本相似度算法,确定每个所述候选关键词和用户关键词之间的关键词相似度;
依据每个所述候选关键词对应的类目、关键词访问量、词搜索热度值、关键词相似度、所述用户特征和各预设特征权重值,基于预设排序模型,对各所述候选关键词进行排序。
9.一种信息处理装置,其特征在于,包括:
候选关键词词集确定模块,用于在监测到具有搜索功能的页面的加载请求或者搜索框的触发请求时,确定候选关键词词集;
关键词排序模块,用于依据所述候选关键词词集中各候选关键词对应的词搜索热度值,确定每个所述候选关键词在所述候选关键词词集中的排序;
目标关键词确定模块,用于依据排序后的候选关键词词集确定目标关键词并展示。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的信息处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的信息处理方法。
CN201910941284.7A 2019-09-30 2019-09-30 信息处理方法、装置、设备和存储介质 Pending CN112579854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910941284.7A CN112579854A (zh) 2019-09-30 2019-09-30 信息处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910941284.7A CN112579854A (zh) 2019-09-30 2019-09-30 信息处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112579854A true CN112579854A (zh) 2021-03-30

Family

ID=75116778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910941284.7A Pending CN112579854A (zh) 2019-09-30 2019-09-30 信息处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112579854A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568608A (zh) * 2021-07-08 2021-10-29 北京达佳互联信息技术有限公司 一种组件信息的展示方法、装置、设备及存储介质
CN114154064A (zh) * 2021-12-01 2022-03-08 北京鸥鹭数据科技有限公司 一种商品关键词优化方法及装置
CN114491253A (zh) * 2022-01-21 2022-05-13 北京百度网讯科技有限公司 观测信息处理方法、装置、电子设备及存储介质
WO2022242302A1 (zh) * 2021-05-17 2022-11-24 北京字节跳动网络技术有限公司 文本搜索方法, 装置, 可读介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242302A1 (zh) * 2021-05-17 2022-11-24 北京字节跳动网络技术有限公司 文本搜索方法, 装置, 可读介质及电子设备
CN113568608A (zh) * 2021-07-08 2021-10-29 北京达佳互联信息技术有限公司 一种组件信息的展示方法、装置、设备及存储介质
CN114154064A (zh) * 2021-12-01 2022-03-08 北京鸥鹭数据科技有限公司 一种商品关键词优化方法及装置
CN114491253A (zh) * 2022-01-21 2022-05-13 北京百度网讯科技有限公司 观测信息处理方法、装置、电子设备及存储介质
CN114491253B (zh) * 2022-01-21 2023-09-26 北京百度网讯科技有限公司 观测信息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP5693746B2 (ja) 製品情報のランク付け
JP5860456B2 (ja) 検索語重み付けの決定および利用
KR100898454B1 (ko) 통합 검색 서비스 시스템 및 방법
CN112579854A (zh) 信息处理方法、装置、设备和存储介质
US8799275B2 (en) Information retrieval based on semantic patterns of queries
US8725717B2 (en) System and method for identifying topics for short text communications
US9400831B2 (en) Providing information recommendations based on determined user groups
US9934293B2 (en) Generating search results
US20190018900A1 (en) Method and Apparatus for Displaying Search Results
US20090077065A1 (en) Method and system for information searching based on user interest awareness
US8655906B1 (en) Method and system for displaying real time trends
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN112632359B (zh) 信息推荐方法、装置、电子设备和存储介质
WO2018040069A1 (zh) 信息推荐系统及方法
EP2842060A1 (en) Recommending keywords
CN110175895B (zh) 一种物品推荐方法及装置
US10019419B2 (en) Method, server, browser, and system for recommending text information
CN108537596B (zh) 搜索框内车型推荐的方法、装置、系统及存储器
CN106682049B (zh) 议题显示系统和议题显示方法
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
US20100169316A1 (en) Search query concept based recommendations
CN112784141A (zh) 搜索结果质量确定方法、装置、存储介质和计算机设备
US8745042B2 (en) Determining matching degrees between information categories and displayed information
CN112000865B (zh) 热词生成方法、装置、服务器及存储介质
TWI515676B (zh) Recommended methods and systems for product information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination