CN106339399B - 关键词推荐方法及装置 - Google Patents

关键词推荐方法及装置 Download PDF

Info

Publication number
CN106339399B
CN106339399B CN201510407526.6A CN201510407526A CN106339399B CN 106339399 B CN106339399 B CN 106339399B CN 201510407526 A CN201510407526 A CN 201510407526A CN 106339399 B CN106339399 B CN 106339399B
Authority
CN
China
Prior art keywords
keyword
target
lower layer
layer
seed words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510407526.6A
Other languages
English (en)
Other versions
CN106339399A (zh
Inventor
王鑫
吴振元
汤佳宇
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510407526.6A priority Critical patent/CN106339399B/zh
Publication of CN106339399A publication Critical patent/CN106339399A/zh
Application granted granted Critical
Publication of CN106339399B publication Critical patent/CN106339399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请提供一种关键词推荐方法及装置。推荐方法包括:确定当前页面上待构建内链的目标关键词;根据目标关键词,检索预先构建的结构化关键词体系,以确定目标关键词在结构化关键词体系中的同层关键词集合和下层关键词集合,在结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词;从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。本申请可以提高页面内链对关键词的覆盖率。

Description

关键词推荐方法及装置
【技术领域】
本申请涉及互联网技术领域,尤其涉及一种关键词推荐方法及装置。
【背景技术】
在搜索引擎优化(Search Engine Optimization,SEO)中,高效的内链结构能够使搜索引擎爬虫快速的抓取和收录网站页面,提高SEO页面的投放效率,减轻网站服务压力,增加用户点击率,提高用户黏度,降低页面跳出率等等。内链结构是指在同一网站域名下的内容页面之间的互相链接。
在传统内链构建中,线下将关键词归类;对同一类下的关键词,计算关键词中每个单词的特征性频率-倒排文档频率(term frequency–inverse document frequency,tf-idf),将关键词向量化,计算关键词向量之间的相关性分数,对每个关键词取相关性分数最高的前N个结果集作为内链推荐词,将关键词和其对应的内链推荐词形成索引文件;线上针对网站页面内的关键词检索索引文件,获取该关键词对应的内链推荐词,在页面中形成该关键词与内链推荐词之间的链接。
在实际应用中发现,由于每个关键词只会推荐和它自身最相似的关键词,那么对于冷门主题的关键词被推荐的次数会较低或没有;例如假设有10个关键词,其中9个是与香蕉有关的,另外1个是苹果有关的,每个关键词会返回相关性最高的前5个词作为内链推荐词,那么与香蕉有关的关键词之间会相互推荐,而与苹果有关的关键词是没有其它词推荐它的,这样就形成了页面孤岛,搜索引擎爬虫无法通过内链途径抓取到与苹果有关的页面。也就是说,现有基于关键词之间的相关性进行内链构建,形成的内链对关键词的覆盖率较低。
【发明内容】
本申请的多个方面提供一种关键词推荐方法及装置,用以提高页面内链对关键词的覆盖率。
本申请的一方面,提供一种关键词推荐方法,包括:
确定当前页面上待构建内链的目标关键词;
根据所述目标关键词,检索预先构建的结构化关键词体系,以确定所述目标关键词在所述结构化关键词体系中的同层关键词集合和下层关键词集合,在所述结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词;
从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
本申请的另一方面,提供一种结构化关键词体系构建方法,包括:
从关键词词库中选择至少一个关键词作为种子词;
对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合;
从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并返回执行对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合的操作。
本申请的又一方面,提供一种关键词推荐装置,包括:
确定模块,用于确定当前页面上待构建内链的目标关键词;
检索模块,用于根据所述目标关键词,检索预先构建的结构化关键词体系,以确定所述目标关键词在所述结构化关键词体系中的同层关键词集合和下层关键词集合,在所述结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词;
推荐模块,用于从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
本申请的又一方面,提供一种结构化关键词体系构建装置,包括:
选择模块,用于从关键词词库中选择至少一个关键词作为种子词;
扩展模块,用于对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合;
迭代模块,用于从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并触发所述扩展模块继续执行对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合的操作。
在本申请中,基于关键词的属性扩展,构建一种上一层关键词在属性范围上包括下一层关键词的结构化关键词体系,凡是属性范围存在包含关系的关键词都会被纳入该结构化关键词体系,例如苹果与香蕉都属于水果,所以水果会作为苹果与香蕉的上层关键词,而苹果和香蕉两个关键词会作为苹果的下层关键词集合,而不是只有相关性较高的关键词才会出现在结构化关键词体系中,与现有基于关键词之间的相似性构建的索引文件相比,本申请的结构化关键词体系对关键词的覆盖率较高。在线上使用时,对于当前页面内待构建内链的目标关键词来说,通过检索结构化关键词体系,从目标关键词在该结构化关键词体系中的同层关键词集合和下层关键词集合中,向目标关键词推荐与目标关键词构建内链用的关键词,由此可见,基于结构化关键词体系能够最大程度的推荐关键词,对于基于所推荐的关键词构建的内链来说,能够更好的覆盖关键词,具有较高的关键词覆盖率。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的关键词推荐方法的流程示意图;
图2为本申请一实施例提供的结构化关键词体系构建方法的流程示意图;
图3为本申请一实施例提供的结构化关键词体系剪枝前的结构示意图;
图4为本申请一实施例提供的结构化关键词体系剪枝后的结构示意图;
图5为本申请一实施例提供的关键词推荐装置的结构示意图;
图6为本申请一实施例提供的结构化关键词体系构建装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的关键词推荐方法的流程示意图。如图1所示,该方法包括:
101、确定当前页面上待构建内链的目标关键词。
102、根据上述目标关键词,检索预先构建的结构化关键词体系,以确定目标关键词在结构化关键词体系中的同层关键词集合和下层关键词集合,在结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词。
103、从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。
本实施例提供的关键词推荐方法可由关键词推荐装置(简称为推荐装置)来执行,该装置可以作为搜索引擎中的模块来实现,主要负责关键词的推荐及内链的建立,或者也可以独立于搜索引擎,但可以与搜索引擎通信,以向搜索引擎提供内链构建所需的关键词。
在本实施例中,预先构建结构化关键词体系,在该结构化关键词体系中,关键词之间根据其属性范围是分层次的,上一层关键词在属性范围上包含下一层关键词。举例说明,对于关键词“水果”、“苹果”和“香蕉”,水果的属性范围更大,“水果”可以作为“苹果”和“香蕉”的上一层关键词,而“苹果”和“香蕉”可以作为“水果”的下一层关键词。
在这种基于关键词之间的属性范围构建结构化关键词体系的方式中,凡是属性范围存在包含关系的关键词都会被纳入该结构化关键词体系,例如“苹果”与“香蕉”都属于“水果”,所以“水果”会作为“苹果”与“香蕉”的上层关键词,而“苹果”和“香蕉”两个关键词会作为“苹果”的下层关键词集合,而实际上“苹果”、“香蕉”与“水果”的相关性可能并不是很高,也就是说,不是只有相关性较高的关键词才会出现在结构化关键词体系中,与现有基于关键词之间的相似性构建的索引文件相比,该结构化关键词体系对关键词的覆盖率较高。
关于结构化关键词体系的构建过程,将在后续实施例中进行说明。
在SEO内链构建过程中,推荐装置确定当前页面上待构建内链的关键词,简称为目标关键词。例如,确定当前页面上搜索框内的关键词,如MP3作为目标关键词。
之后,推荐装置根据该目标关键词,检索预先构建的结构化关键词体系,以确定目标关键词在结构化关键词体系中的层次,进而确定目标关键词在结构化关键词体系中的同层关键词集合和下层关键词集合。其中,目标关键词的同层关键词集合是指结构化关键词体系中与目标关键词位于同一层上的关键词,具体是指在属性范围上与目标关键词被同一关键词包含且与目标关键词之间在属性范围上不存在包含关系的关键词。例如,上述举例中的“苹果”和“香蕉”在属性范围上同被“水果”所包含,且两者之间在属性范围上也不存在包含关系(即在属性范围上属于并列范畴),所以“苹果”和“香蕉”互为同层关键词,“苹果”作为“香蕉”的同层关键词集合中的关键词,“香蕉”作为“苹果”的同层关键词集合中的关键词。目标关键词的下层关键词是指在结构化关键词体系中位于目标关键词所在层的下一层的关键词,具体的在属性范围上直接被目标关键词所包含的关键词构成目标关键词的下层关键词集合。例如,上述举例中的“水果”在属性范围上直接包含“苹果”和“香蕉”,所以“水果”的下层关键词集合包括“苹果”和“香蕉”两个关键词。
在确定目标关键词的同层关键词集合和下层关键词集合后,推荐装置从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。
其中,若目标关键词的同层关键词集合和下层关键词集合均为非空,则推荐装置分别从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。简单来说,推荐装置向目标关键词进行同层词推荐和下层词推荐。这样可以更加广泛地推荐内链建立所需的关键词,进而提高所构建的内链对关键词的覆盖率。
若目标关键词的同层关键词集合或下层关键词集合为空,则可以仅从目标关键词的另一关键词集合中,推荐与目标关键词建立内链用的关键词即可。
进一步,在推荐关键词之后,可以在当前页面上建立目标关键词与推荐装置所推荐的关键词之间的内链。由于基于本实施例推荐的关键词所构建的内链对关键词的覆盖率较高,所以一定程度上可以降低出现孤岛页面和深度较深的页面链接的概率,进而便于搜索引擎爬虫通过所构建的内链途径抓取到所推荐的关键词所在的页面。
在采用本实施例提供的方法进行关键词推荐的过程中,对于当前页面内待构建内链的目标关键词来说,通过检索结构化关键词体系,从目标关键词在该结构化关键词体系中的同层关键词集合和下层关键词集合中,向目标关键词推荐与目标关键词构建内链的关键词,其中,目标关键词的同层关键词集合中包括的是在结构化关键词体系中与该目标关键词位于同一层上的关键词,而目标关键词的下层关键词集合中包括的是在结构化关键词体系中位于目标关键词所在层的下一层的关键词,由此可见,基于结构化关键词体系能够最大程度的推荐关键词,对于基于所推荐的关键词构建的内链来说,能够更好的覆盖关键词,具有较高的关键词覆盖率。
在一可选实施方式中,在具体实现上,上述结构化关键词体系可以构成一棵关键词树,其中,每个关键词构成关键词树的一个节点;关键词树包括:多层,每层包括至少一个节点;上一层节点上的关键词在属性范围上包含下一层节点上的关键词。关键词树涉及以下几个概念:根节点、父节点、子节点及叶子节点。其中,根节点是没有父节点的节点;叶子节点是没有子节点的节点;子节点是父节点的下一层节点;父节点是子节点的上一层节点。基于此,步骤102的一种实施方式包括:
在结构化关键词体系中,对目标关键词进行父节点回溯,以确定目标关键词的同层关键词集合和下层关键词集合。
其中,对目标节点进行父节点回溯主要是指在结构化关键词体系中找到从根节点到目标关键词所在节点的路径,进而基于该路径确定目标关键词的同层关键词集合。
上述在结构化关键词体系中,对目标关键词进行父节点回溯,以确定目标关键词的同层关键词集合和下层关键词集合的过程具体为:判断结构化关键词体系中是否存在在属性范围上包含目标关键词的上一层关键词;若判断结果为存在,则从结构化关键词体系中存在的在属性范围上包含目标关键词的上一层关键词中,确定目标关键词的父节点,并获取结构化关键词体系中作为目标关键词的父节点的子节点的其它关键词构成目标关键词的同层关键词集合,并确定目标关键词的下层关键词集合。具体的,若目标关键词存在子节点,则获取结构化关键词体系中作为目标关键词的子节点的关键词构成目标关键词的下层关键词集合,若目标关键词不存在子节点,即目标关键词是叶子节点,则直接确定目标关键词的下层关键词集合为空。
进一步,若上述判断为不存在,即结构化关键词体系中不存在在属性范围上包含目标关键词的上一层关键词,则确定目标关键词的同层关键词集合为空,并获取结构化关键体系中作为目标关键词的子节点的关键词构成目标关键词的下层关键词集合。
值得说明的是,目标关键词的父节点可能有多个,而目标关键词的下层节点无论是一个还是多个,其都是唯一确定的。基于此,上述从结构化关键词体系中存在的在属性范围上包含目标关键词的上一层关键词中,确定目标关键词的父节点的过程包括:
若在属性范围上包含目标关键词的上一层关键词为一个,则直接将该上一层关键词作为目标关键词的父节点;
若在属性范围上包含目标关键词的上一层关键词为至少两个,则计算至少两个在属性范围上包含目标关键词的上一层关键词中每个上一层关键词与目标关键词之间的相关性;
从至少两个在属性范围上包含目标关键词的上一层关键词中,选择与目标关键词的相关性最大的上一层关键词作为目标关键词的父节点。
可选的,在上述过程中,可以采用余弦相似度算法或者BM25算法来计算至少两个在属性范围上包含目标关键词的上一层关键词中每个上一层关键词与目标关键词之间的相关性。
在一可选实施方式中,上述步骤103,从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词,包括:
若目标关键词的同层关键词集合和下层关键词集合均为非空,则分别从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。
在一可选实施方式中,从目标关键词的下层关键词集合中,推荐与目标关键词建立内链的关键词的过程包括:
确定目标关键词的下层关键词集合中的关键词的质量,并获取目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性;
根据目标关键词的下层关键词集合中的关键词的质量和目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性,获得目标关键词的下层关键词集合中的关键词的综合得分;
从目标关键词的下层关键词集合中,选择综合得分最高的至少一个关键词,作为与目标关键词建立内链的关键词。
可选的,一种确定目标关键词的下层关键词集合中的关键词的质量的方式包括:
根据目标关键词的下层关键词集合中的关键词的站外特征和站内特征,确定目标关键词的下层关键词集合中的关键词的质量。
可选的,目标关键词的下层关键词集合中的关键词的站外特征可以是用户在站外搜索引擎搜索该关键词的次数,简称为搜索引擎搜索量。
可选的,目标关键词的下层关键词集合中的关键词的站内特征包括以下至少一种:SEO流量、站内搜索量、站内反馈量和站内产品量。
目标关键词的下层关键词集合中的关键词的SEO流量是指通过站外搜索引擎进入该关键词所在页面的用户数量。
目标关键词的下层关键词集合中的关键词的站内搜索量是指用户在网站内搜索框上搜索该关键词的次数。
目标关键词的下层关键词集合中的关键词的站内反馈量是指用户在该关键词所在页面上发生各种操作行为的次数,所述操作行为包括购买、咨询、收藏页面等等。
目标关键词的下层关键词集合中的关键词的站内产品量是指通过该关键词能够检索到的站内产品的数量。例如,搜索“MP3”为例,搜索到5个与MP3有关的产品,则产品数量为5。
进一步,推荐装置可以根据公式(1),计算目标关键词的下层关键词集合中的关键词的质量。
其中,Fscore表示目标关键词的下层关键词集合中的关键词的质量;fi表示目标关键词的下层关键词集合中的关键词的站外特征和站内特征中的第i个特征;F(t)表示时间的衰减函数因子,一般为指数衰减函数,如1/et;值得说明的是,若特征不随时间发生衰减,则该函数可以为一常数;t表示第i个特征的发生时间距离当前的时间间隔;wi表示第i个特征的权重。
在上述实施方式中,整合关键词多维度信息,提取关键的站内信息及站外信息,从SEO角度为关键词质量打分,关键词质量分将作为推荐结果排序的因子之一,使关键词推荐结果更符合用户体验。
在一可选实施方式中,上述获取目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性的过程包括:
对目标关键词的下层关键词集合中的关键词与目标关键词进行向量化处理,以获得下层关键词集合中的关键词的词向量和目标关键词的词向量;
之后,计算下层关键词集合中的关键词的词向量和目标关键词的词向量之间的相关性。
在上述过程中,可以采用word2vec深度学习构建向量模型,通过向量模型预测目标关键词和下层关键词集合中的关键词的词向量;或者,也可以采用tf-idf将目标关键词和下层关键词集合中的关键词向量化,以获得目标关键词和下层关键词集合中的关键词的词向量。
在上述过程中,可以采用余弦相似度算法或者BM25算法来计算下层关键词集合中的关键词的词向量和目标关键词的词向量之间的相关性。
在上述实施方式中,通过计算目标关键词的下层关键词集合中的关键词和目标关键词之间的相关性,作用于最终排序结果中,有利于保证所推荐的关键词之间的相关性,提高用户体验。
在一可选实施方式中,上述根据目标关键词的下层关键词集合中的关键词的质量和目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性,获得目标关键词的下层关键词集合中的关键词的综合得分的实施方式包括:
根据公式(2),计算目标关键词的下层关键词集合中的关键词的综合得分。
Final_score=w1*Relevance(i,j)+w2*Fscore(j) (2)
其中,Final_score表示目标关键词的下层关键词集合中的关键词的综合得分;i表示目标关键词,j表示目标关键词的下层关键词集合中的关键词;Relevance(i,j)表示目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性,Fscore(j)表示目标关键词的下层关键词集合中的关键词的质量,w1和w2是基于SEO策略设定的权重。
在一可选实施方式中,上述从目标关键词的同层关键词集合中,推荐与目标关键词建立内链的关键词的方式包括:
根据目标关键词及目标关键词的同层关键词集合中的关键词在作为同一上层关键词的下层关键词集合中的关键词时的综合得分,对目标关键词及目标关键词的同层关键词集合中的关键词进行排序;
从排序后的目标关键词的同层关键词集合中,选择与目标关键词相邻最近的至少一个关键词,作为与目标关键词建立内链的关键词。
通过该方式,可以获取与目标关键词相关性最高的同层关键词,有利于提高用户体验。
图2为本申请一实施例提供的结构化关键词体系构建方法的流程示意图。如图2所示,该方法包括:
201、从关键词词库中选择至少一个关键词作为种子词。
202、对至少一个种子词中每个种子词,通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合。
203、从至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并返回执行步骤202,即执行对至少一个种子词中每个种子词,通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合的操作。
本实施例提供的方法可由结构化关键词体系构建装置(简称为构建装置),旨在构建结构化关键词体系,以便于进行内链关键词的推荐。
本实施例的结构化关键词体系是通过种子词扩展后不停向下迭代形成的。具体的,在关键词词库中挖掘种子词;基于种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合;然后从种子词的下层关键词集合中重新确定种子词,继续迭代;每次迭代结构化关键词体系都会增加一级深度。最终得到的结构化关键词体系包括多层,上一层关键词在属性范围上覆盖下一层关键词,对于中间每个关键词来说,会具有上一层关键词,同层关键词集合和下一层关键词的关系。作为根节点的关键词没有上一层关键词,作为叶子节点的关键词没有下一层关键词。
可选的,可以预先设定迭代条件,例如预先设定迭代次数为T,当迭代条件结束时,停止迭代,这样可以控制结构化关键词体系的深度。
在一可选实施方式中,若关键词词库中的词量不是很大,则可以人工从关键词词库中选择至少一个关键词作为种子词;若关键词词库中的词量比较庞大,在不便于人工选定种子词的情况下,可以采用自动方法从关键词词库中选择至少一个关键词作为种子词。
无论是人工选定种子词还是自动选定种子词,本实施例给出一种从关键词词库中选择至少一个关键词作为种子词的实施方式,具体为:从关键词词库中,选择词长度小于预设长度阈值N,且扩展词量大于预设词量阈值M的关键词作为种子词。
其中,上述词长度是指关键词包含的单词数量,扩展词量是指关键词可扩展出的构成该关键词的下层关键词集合的关键词的个数。
上述选择种子词的方法的具体实施流程可以包括:首先在关键词词库中筛选出单词量不超过预设长度阈值N的关键词作为集合Ω,对集合Ω进行过滤,以去除该集合Ω中能被集合Ω中其它关键词扩展的关键词;最后计算集合Ω中剩余的关键词在关键词词库中能够扩展的关键词的数量(简称为扩展词量),若扩展词量大于预设词量阈值M,则将该关键词作为种子词,反之过滤掉。
值得说明的是,上述“被其它关键词扩展”实际上是指在属性范围上能够被其它关键词覆盖;上述“在关键词词库中能够扩展的关键词”是指在属性范围上能够覆盖的关键词词库中的关键词。
在一可选实施方式中,上述通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合,包括:
通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的初始关键词集合;
将初始关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,以构成种子词的下层关键词集合。在该实施方式中,通过过滤处理可以避免重复,有利于简化结构化关键词体系的结构,有利于提高后续基于结构化关键词体系进行关键词推荐时的处理效率。
在一可选实施方式中,为了控制结构化关键词体系的深度,可以预先设定迭代条件,当迭代条件结束时,停止迭代,并获得最终生成的结构关键词体系。举例说明,若迭代条件为迭代次数,则迭代次数越大,结构化关键词体系的深度越深,反之,若迭代次数越小,结构化关键词体系的深度越浅。基于此,从至少一个种子词的下层关键词集合中,重新确定至少一个种子词之前,还包括:
判断预设的迭代条件是否结束;
若判断结果为否,则执行从至少一个种子词的下层关键词集合中,重新确定至少一个种子词的操作,即继续进行迭代处理。
若判断结果为是,则结束操作,并获得最终的结构化关键词体系。
在一可选实施方式中,从至少一个种子词的下层关键词集合中,重新确定至少一个种子词的实施方式为:直接将至少一个种子词的下层关键词集合作为种子词。
进一步,考虑到不同种子词的下层关键词集合可能存在重复或者在属性范围上存在重叠,为了简化所生成的结构化关键词体系的结构,以及降低生成结构化关键词体系所消耗的资源,提高生成效率,则一种从至少一个种子词的下层关键词集合中,重新确定至少一个种子词的实施方式包括:
对至少一个种子词的下层关键词集合进行去重,并将至少一个种子词的下层关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,将剩余的至少一个关键词重新作为至少一个种子词。
进一步,成功构建结构化关键词体系后,考虑到某些种子词扩展出的下层关键词集合中关键词的数量可能比较少,对于这种情况,可以通过剪枝处理,来缩小结构化关键词体系的深度,以提高搜索引擎爬虫的爬取效率。基于此,在结构化关键词体系构建结束后,判断结构化关键词体系中是否存在下层关键词集合中关键词数量小于预设门限的种子词;
若判断结果为存在,则将上述存在的下层关键词集合中关键词数量小于预设门限的种子词的下层关键词集合中的关键词加入该种子词的同层关键词集合中。
在一可选实施方式中,上述结构化关键词体系在实际实现上可以是关键词树结构,则对结构化关键词体系的剪枝处理将变成对树结构的剪枝处理。例如,设定最小子节点数量K,从树最深层开始剪枝,若子节点数量小于K,则将该节点的子节点移动到该节点的父节点下,作为该节点的同层节点,依次向上剪枝直到根节点。
值得说明的是,在上述剪枝处理中,没有直接将下层关键词集合中关键词数量较少的种子词的下层关键词集合中的关键词剪掉,而是将这些关键词移动到该种子词所在层,作为该种子词的同层词,有利于保证对关键词的覆盖率。
例如,在图3所示的结构化关键词体系中,“苹果”关键词扩展出“红苹果”和“绿苹果”两个关键词,“绿苹果”关键词扩展出“美国绿苹果”,假设上述K为2,由于“绿苹果”的下层关键词集合中只有一个关键词“美国绿苹果”,所以需要对其进行剪枝处理。在经过剪枝处理后,获得图4所示的结构化关键词体系,在图4中,“美国绿苹果”作为“苹果”的下层关键词集合中的一个关键词,与“绿苹果”位于同一层,属于“绿苹果”的同层关键词集合中的关键词。将图3和图4所示结构化关键词体系进行比较,两者包含的关键词数量相同,但图4所示结构化关键词体系的深度要小,有利于搜索引擎爬虫进行页面爬取,爬取效率较高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图5为本申请一实施例提供的关键词推荐装置的结构示意图。如图5所示,该装置包括:确定模块51、检索模块52和推荐模块53。
确定模块51,用于确定当前页面上待构建内链的目标关键词。
检索模块52,用于根据确定模块51确定的目标关键词,检索预先构建的结构化关键词体系,以确定目标关键词在结构化关键词体系中的同层关键词集合和下层关键词集合,在结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词。
推荐模块53,用于从检索模块52确定出的目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。
在一可选实施方式中,检索模块52具体可用于:
在结构化关键词体系中,对目标关键词进行父节点回溯,以确定目标关键词的同层关键词集合和下层关键词集合。
进一步,检索模块52具体用于:
若结构化关键词体系中存在在属性范围上包含目标关键词的上一层关键词,从结构化关键词体系中存在的在属性范围上包含目标关键词的上一层关键词中,确定目标关键词的父节点,并获取结构化关键词体系中作为目标关键词的父节点的子节点的其它关键词构成目标关键词的同层关键词集合,并确定目标关键词的下层关键词集合;
若结构化关键词体系中不存在在属性范围上包含目标关键词的上一层关键词,则确定目标关键词的同层关键词集合为空,并获取结构化关键体系中作为目标关键词的子节点的关键词构成目标关键词的下层关键词集合。
更进一步,检索模块52在从结构化关键词体系中存在的在属性范围上包含目标关键词的上一层关键词中,确定目标关键词的父节点时,具体用于:
若在属性范围上包含目标关键词的上一层关键词为至少两个,则计算至少两个在属性范围上包含目标关键词的上一层关键词中每个上一层关键词与目标关键词之间的相关性;
从至少两个在属性范围上包含目标关键词的上一层关键词中,选择与目标关键词的相关性最大的上一层关键词作为目标关键词的父节点。
在一可选实施方式中,推荐模块53具体用于:在目标关键词的同层关键词集合和下层关键词集合均为非空,则分别从目标关键词的同层关键词集合和下层关键词集合中,推荐与目标关键词建立内链的关键词。
进一步,推荐模块53在从目标关键词的下层关键词集合中,推荐与目标关键词建立内链的关键词时,具体用于:
确定目标关键词的下层关键词集合中的关键词的质量,并获取目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性;
根据目标关键词的下层关键词集合中的关键词的质量和目标关键词的下层关键词集合中的关键词与目标关键词之间的相关性,获得目标关键词的下层关键词集合中的关键词的综合得分;
从目标关键词的下层关键词集合中,选择综合得分最高的至少一个关键词,作为与目标关键词建立内链的关键词。
进一步,推荐模块53在确定目标关键词的下层关键词集合中的关键词的质量时,具体用于:根据目标关键词的下层关键词集合中的关键词的站外特征和站内特征,确定目标关键词的下层关键词集合中的关键词的质量。
具体的,推荐模块53可以根据公式(1),计算目标关键词的下层关键词集合中的关键词的质量。关于公式(1)具体可参见方法实施例的描述,在此不再赘述。
在一可选实施方式中,推荐模块53在从目标关键词的同层关键词集合中,推荐与目标关键词建立内链的关键词时,具体用于:
根据目标关键词及目标关键词的同层关键词集合中的关键词在作为同一上层关键词的下层关键词集合中的关键词时的综合得分,对目标关键词及目标关键词的同层关键词集合中的关键词进行排序;
从排序后的目标关键词的同层关键词集合中,选择与目标关键词相邻的至少一个关键词,作为与目标关键词建立内链的关键词。
本实施例提供的关键词推荐装置,对于当前页面内待构建内链的目标关键词来说,通过检索结构化关键词体系,从目标关键词在该结构化关键词体系中的同层关键词集合和下层关键词集合中,向目标关键词推荐与目标关键词构建内链的关键词,其中,目标关键词的同层关键词集合中包括的是在结构化关键词体系中与该目标关键词位于同一层上的关键词,而目标关键词的下层关键词集合中包括的是在结构化关键词体系中位于目标关键词所在层的下一层的关键词,由此可见,基于结构化关键词体系能够最大程度的推荐关键词,对于基于所推荐的关键词构建的内链来说,能够更好的覆盖关键词,具有较高的关键词覆盖率。
图6为本申请一实施例提供的结构化关键词体系构建装置的结构示意图。如图6所示,该装置包括:选择模块61、扩展模块62和迭代模块63。
选择模块61,用于从关键词词库中选择至少一个关键词作为种子词。
扩展模块62,用于对选择模块61或迭代模块63确定的至少一个种子词中每个种子词,通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合。
迭代模块63,用于从扩展模块62扩展的至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并触发扩展模块62继续执行对至少一个种子词中每个种子词,通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的关键词,构成种子词的下层关键词集合的操作。
在一可选实施方式中,选择模块61具体用于:从关键词词库中,选择词长度小于预设长度阈值,且扩展词量大于预设词量阈值的关键词作为种子词;
其中,词长度是指关键词包含的单词数量,扩展词量是指关键词可扩展出的构成关键词的下层关键词集合的关键词的个数。
在一可选实施方式中,扩展模块62具体用于:通过种子词的属性,在关键词词库中扩展出在属性范围上被种子词所包含的初始关键词集合;
将初始关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,以构成种子词的下层关键词集合。
在一可选实施方式中,结构化关键词体系构建装置还包括:第一判断模块,用于在迭代模块63从扩展模块62扩展的至少一个种子词的下层关键词集合中,重新确定至少一个种子词之前,判断预设的迭代条件是否结束,并在判断结果为否时,触发迭代模块执行从至少一个种子词的下层关键词集合中,重新确定至少一个种子词的操作。
可选的,迭代模块62具体用于:
对至少一个种子词的下层关键词集合进行去重,并将至少一个种子词的下层关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,将剩余的至少一个关键词重新作为至少一个种子词。
在一可选实施方式中,结构化关键词体系构建装置还包括:第二判断模块和移动模块。
第二判断模块,用于在结构化关键词体系构建结束后,判断结构化关键词体系中是否存在下层关键词集合中关键词数量小于预设门限的种子词。
移动模块,用于在第二判断模块的判断结果为存在时,将第二判断模块判断出的种子词的下层关键词集合中的关键词加入种子词的同层关键词集合中。
本实施例提供的构建装置,基于关键词的属性扩展,构建一种上一层关键词在属性范围上包括下一层关键词的结构化关键词体系,凡是属性范围存在包含关系的关键词都会被纳入该结构化关键词体系,例如苹果与香蕉都属于水果,所以水果会作为苹果与香蕉的上层关键词,而苹果和香蕉两个关键词会作为苹果的下层关键词集合中的关键词,而不是只有相关性较高的关键词才会出现在结构化关键词体系中,与现有基于关键词之间的相似性构建的索引文件相比,本申请的结构化关键词体系对关键词的覆盖率较高,为线上进行关键词推荐提供了条件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (30)

1.一种关键词推荐方法,其特征在于,包括:
确定当前页面上待构建内链的目标关键词;
根据所述目标关键词,检索预先构建的结构化关键词体系,以确定所述目标关键词在所述结构化关键词体系中的同层关键词集合和下层关键词集合,在所述结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词;
从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标关键词,检索预先构建的结构化关键词体系,以确定所述目标关键词在所述结构化关键词体系中的同层关键词集合和下层关键词集合,包括:
在所述结构化关键词体系中,对所述目标关键词进行父节点回溯,以确定所述目标关键词的同层关键词集合和下层关键词集合。
3.根据权利要求2所述的方法,其特征在于,所述在所述结构化关键词体系中,对所述目标关键词进行父节点回溯,以确定所述目标关键词的同层关键词集合和下层关键词集合,包括:
若所述结构化关键词体系中存在在属性范围上包含所述目标关键词的上一层关键词,从所述结构化关键词体系中存在的在属性范围上包含所述目标关键词的上一层关键词中,确定所述目标关键词的父节点,获取所述结构化关键词体系中作为所述目标关键词的父节点的子节点的其它关键词构成所述目标关键词的同层关键词集合,并确定所述目标关键词的下层关键词集合;
若所述结构化关键词体系中不存在在属性范围上包含所述目标关键词的上一层关键词,则确定所述目标关键词的同层关键词集合为空,并获取所述结构化关键体系中作为所述目标关键词的子节点的关键词构成所述目标关键词的下层关键词集合。
4.根据权利要求3所述的方法,其特征在于,所述从所述结构化关键词体系中存在的在属性范围上包含所述目标关键词的上一层关键词中,确定所述目标关键词的父节点,包括:
若在属性范围上包含所述目标关键词的上一层关键词为至少两个,则计算所述至少两个在属性范围上包含所述目标关键词的上一层关键词中每个上一层关键词与所述目标关键词之间的相关性;
从所述至少两个在属性范围上包含所述目标关键词的上一层关键词中,选择与所述目标关键词的相关性最大的上一层关键词作为所述目标关键词的父节点。
5.根据权利要求1-4任一项所述的方法,其特征在于,从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词,包括:
若所述目标关键词的同层关键词集合和下层关键词集合均为非空,则分别从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
6.根据权利要求5所述的方法,其特征在于,所述从所述目标关键词的下层关键词集合中,推荐与所述目标关键词建立内链的关键词,包括:
确定所述目标关键词的下层关键词集合中的关键词的质量,并获取所述目标关键词的下层关键词集合中的关键词与所述目标关键词之间的相关性;
根据所述目标关键词的下层关键词集合中的关键词的质量和所述目标关键词的下层关键词集合中的关键词与所述目标关键词之间的相关性,获得所述目标关键词的下层关键词集合中的关键词的综合得分;
从所述目标关键词的下层关键词集合中,选择综合得分最高的至少一个关键词,作为与所述目标关键词建立内链的关键词。
7.根据权利要求6所述的方法,其特征在于,所述确定所述目标关键词的下层关键词集合中的关键词的质量,包括:
根据所述目标关键词的下层关键词集合中的关键词的站外特征和站内特征,确定所述目标关键词的下层关键词集合中的关键词的质量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标关键词的下层关键词集合中的关键词的站外特征和站内特征,确定所述目标关键词的下层关键词集合中的关键词的质量,包括:
根据公式计算所述目标关键词的下层关键词集合中的关键词的质量;
其中,Fscore表示所述目标关键词的下层关键词集合中的关键词的质量;
fi表示所述目标关键词的下层关键词集合中的关键词的站外特征和站内特征中的第i个特征;
F(t)表示时间的衰减函数因子,t表示第i个特征的发生时间距离当前的时间间隔;
wi表示第i个特征的权重。
9.根据权利要求5所述的方法,其特征在于,所述从所述目标关键词的同层关键词集合中,推荐与所述目标关键词建立内链的关键词,包括:
根据所述目标关键词及所述目标关键词的同层关键词集合中的关键词在作为同一上层关键词的下层关键词集合中的关键词时的综合得分,对所述目标关键词及所述目标关键词的同层关键词集合中的关键词进行排序;
从排序后的所述目标关键词的同层关键词集合中,选择与所述目标关键词相邻的至少一个关键词,作为与所述目标关键词建立内链的关键词。
10.一种结构化关键词体系构建方法,其特征在于,包括:
从关键词词库中选择至少一个关键词作为种子词;
对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合;
从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并返回执行对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合的操作。
11.根据权利要求10所述的方法,其特征在于,所述从关键词词库中选择至少一个关键词作为种子词,包括:
从所述关键词词库中,选择词长度小于预设长度阈值,且扩展词量大于预设词量阈值的关键词作为种子词;
其中,所述词长度是指所述关键词包含的单词数量,所述扩展词量是指所述关键词可扩展出的构成所述关键词的下层关键词集合的关键词的个数。
12.根据权利要求10所述的方法,其特征在于,所述通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合,包括:
通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的初始关键词集合;
将所述初始关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,以构成所述种子词的下层关键词集合。
13.根据权利要求10所述的方法,其特征在于,所述从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词之前,包括:
判断预设的迭代条件是否结束;
若判断结果为否,则执行从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词的操作。
14.根据权利要求10所述的方法,其特征在于,所述从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词,包括:
对所述至少一个种子词的下层关键词集合进行去重,并将所述至少一个种子词的下层关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,将剩余的至少一个关键词重新作为至少一个种子词。
15.根据权利要求10-14任一项所述的方法,其特征在于,还包括:
在所述结构化关键词体系构建结束后,判断所述结构化关键词体系中是否存在下层关键词集合中关键词数量小于预设门限的种子词;
若判断结果为存在,则将所述种子词的下层关键词集合中的关键词加入所述种子词的同层关键词集合中。
16.一种关键词推荐装置,其特征在于,包括:
确定模块,用于确定当前页面上待构建内链的目标关键词;
检索模块,用于根据所述目标关键词,检索预先构建的结构化关键词体系,以确定所述目标关键词在所述结构化关键词体系中的同层关键词集合和下层关键词集合,在所述结构化关键词体系中,上一层关键词在属性范围上包含下一层关键词;
推荐模块,用于从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
17.根据权利要求16所述的装置,其特征在于,所述检索模块具体用于:
在所述结构化关键词体系中,对所述目标关键词进行父节点回溯,以确定所述目标关键词的同层关键词集合和下层关键词集合。
18.根据权利要求17所述的装置,其特征在于,所述检索模块具体用于:
若所述结构化关键词体系中存在在属性范围上包含所述目标关键词的上一层关键词,从所述结构化关键词体系中存在的在属性范围上包含所述目标关键词的上一层关键词中,确定所述目标关键词的父节点,获取所述结构化关键词体系中作为所述目标关键词的父节点的子节点的其它关键词构成所述目标关键词的同层关键词集合,并确定所述目标关键词的下层关键词集合;若所述结构化关键词体系中不存在在属性范围上包含所述目标关键词的上一层关键词,则确定所述目标关键词的同层关键词集合为空,并获取所述结构化关键体系中作为所述目标关键词的子节点的关键词构成所述目标关键词的下层关键词集合。
19.根据权利要求18所述的装置,其特征在于,所述检索模块具体用于:
若在属性范围上包含所述目标关键词的上一层关键词为至少两个,则计算所述至少两个在属性范围上包含所述目标关键词的上一层关键词中每个上一层关键词与所述目标关键词之间的相关性;
从所述至少两个在属性范围上包含所述目标关键词的上一层关键词中,选择与所述目标关键词的相关性最大的上一层关键词作为所述目标关键词的父节点。
20.根据权利要求16-19任一项所述的装置,其特征在于,所述推荐模块具体用于:
若所述目标关键词的同层关键词集合和下层关键词集合均为非空,则分别从所述目标关键词的同层关键词集合和下层关键词集合中,推荐与所述目标关键词建立内链的关键词。
21.根据权利要求20所述的装置,其特征在于,所述推荐模块具体用于:
确定所述目标关键词的下层关键词集合中的关键词的质量,并获取所述目标关键词的下层关键词集合中的关键词与所述目标关键词之间的相关性;
根据所述目标关键词的下层关键词集合中的关键词的质量和所述目标关键词的下层关键词集合中的关键词与所述目标关键词之间的相关性,获得所述目标关键词的下层关键词集合中的关键词的综合得分;
从所述目标关键词的下层关键词集合中,选择综合得分最高的至少一个关键词,作为与所述目标关键词建立内链的关键词。
22.根据权利要求21所述的装置,其特征在于,所述推荐模块具体用于:
根据所述目标关键词的下层关键词集合中的关键词的站外特征和站内特征,确定所述目标关键词的下层关键词集合中的关键词的质量。
23.根据权利要求22所述的装置,其特征在于,所述推荐模块具体用于:
根据公式计算所述目标关键词的下层关键词集合中的关键词的质量;
其中,Fscore表示所述目标关键词的下层关键词集合中的关键词的质量;
fi表示所述目标关键词的下层关键词集合中的关键词的站外特征和站内特征中的第i个特征;
F(t)表示时间的衰减函数因子,t表示第i个特征的发生时间距离当前的时间间隔;
wi表示第i个特征的权重。
24.根据权利要求20所述的装置,其特征在于,所述推荐模块具体用于:
根据所述目标关键词及所述目标关键词的同层关键词集合中的关键词在作为同一上层关键词的下层关键词集合中的关键词时的综合得分,对所述目标关键词及所述目标关键词的同层关键词集合中的关键词进行排序;
从排序后的所述目标关键词的同层关键词集合中,选择与所述目标关键词相邻的至少一个关键词,作为与所述目标关键词建立内链的关键词。
25.一种结构化关键词体系构建装置,其特征在于,包括:
选择模块,用于从关键词词库中选择至少一个关键词作为种子词;
扩展模块,用于对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合;
迭代模块,用于从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词,并触发所述扩展模块继续执行对所述至少一个种子词中每个种子词,通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的关键词,构成所述种子词的下层关键词集合的操作。
26.根据权利要求25所述的装置,其特征在于,所述选择模块具体用于:
从所述关键词词库中,选择词长度小于预设长度阈值,且扩展词量大于预设词量阈值的关键词作为种子词;
其中,所述词长度是指所述关键词包含的单词数量,所述扩展词量是指所述关键词可扩展出的构成所述关键词的下层关键词集合的关键词的个数。
27.根据权利要求25所述的装置,其特征在于,所述扩展模块具体用于:
通过所述种子词的属性,在所述关键词词库中扩展出在属性范围上被所述种子词所包含的初始关键词集合;
将所述初始关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,以构成所述种子词的下层关键词集合。
28.根据权利要求25所述的装置,其特征在于,还包括:
第一判断模块,用于判断预设的迭代条件是否结束,并在判断结果为否时,触发所述迭代模块执行从所述至少一个种子词的下层关键词集合中,重新确定至少一个种子词的操作。
29.根据权利要求25所述的装置,其特征在于,所述迭代模块具体用于:
对所述至少一个种子词的下层关键词集合进行去重,并将所述至少一个种子词的下层关键词集合中在属性范围上被其它关键词所包含的关键词过滤掉,将剩余的至少一个关键词重新作为至少一个种子词。
30.根据权利要求25-29任一项所述的装置,其特征在于,还包括:
第二判断模块,用于在所述结构化关键词体系构建结束后,判断所述结构化关键词体系中是否存在下层关键词集合中关键词数量小于预设门限的种子词;
移动模块,用于在所述第二判断模块的判断结果为存在时,将所述种子词的下层关键词集合中的关键词加入所述种子词的同层关键词集合中。
CN201510407526.6A 2015-07-13 2015-07-13 关键词推荐方法及装置 Active CN106339399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510407526.6A CN106339399B (zh) 2015-07-13 2015-07-13 关键词推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510407526.6A CN106339399B (zh) 2015-07-13 2015-07-13 关键词推荐方法及装置

Publications (2)

Publication Number Publication Date
CN106339399A CN106339399A (zh) 2017-01-18
CN106339399B true CN106339399B (zh) 2019-07-23

Family

ID=57826536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510407526.6A Active CN106339399B (zh) 2015-07-13 2015-07-13 关键词推荐方法及装置

Country Status (1)

Country Link
CN (1) CN106339399B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563713B (zh) * 2018-03-29 2021-08-10 创新先进技术有限公司 关键词规则生成方法及装置和电子设备
CN108984618B (zh) * 2018-06-13 2021-02-02 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和计算机可读存储介质
CN110956271B (zh) * 2019-10-21 2022-12-09 北京明朝万达科技股份有限公司 一种海量数据的多级分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281530A (zh) * 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104281699A (zh) * 2014-10-15 2015-01-14 百度在线网络技术(北京)有限公司 搜索推荐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201013430A (en) * 2008-09-17 2010-04-01 Ibm Method and system for providing suggested tags associated with a target page for manipulation by a user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281530A (zh) * 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104281699A (zh) * 2014-10-15 2015-01-14 百度在线网络技术(北京)有限公司 搜索推荐方法及装置

Also Published As

Publication number Publication date
CN106339399A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
US10180967B2 (en) Performing application searches
CN103970748B (zh) 一种相关关键词推荐方法和装置
US6266668B1 (en) System and method for dynamic data-mining and on-line communication of customized information
KR101827764B1 (ko) 시각적 어의적 복잡계 네트워크 및 그의 형성 방법
CN105740460B (zh) 网页搜集推荐方法和装置
CN106339399B (zh) 关键词推荐方法及装置
CN107784125A (zh) 一种实体关系抽取方法及装置
CN106682012A (zh) 商品对象信息搜索方法及装置
US20190324979A1 (en) System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US20180225382A1 (en) System and method for automatic creation of ontological databases and semantic searching
CN105787097A (zh) 一种基于文本聚类的分布式索引构建方法及系统
CN102930041A (zh) 一种基于用户行为信息的检索结果实时更新方法及其系统
Kumari et al. Comparative study of page rank and weighted page rank algorithm
CN103914486B (zh) 文档的搜索及展现的系统
Pavani et al. A novel web crawling method for vertical search engines
CN103279492A (zh) 一种抓取网页的方法和装置
CN104252487B (zh) 一种用于生成词条信息的方法和装置
CN107562966A (zh) 用于网页链接检索排序的基于智能学习的优化系统及方法
KR102280494B1 (ko) 상호연관성 기반 우선순위로 정렬된 전문분야 인터넷 검색 서비스 제공 방법
US10339134B2 (en) System, method, and non-transitory computer-readable storage media for generating normalization candidates for a search query
Homocianu et al. An Analysis of Scientific Publications on'Decision Support Systems' and'Business Intelligence'Regarding Related Concepts Using Natural Language Processing Tools
Yang et al. Efficient searching top-k semantic similar words
Alfarisy et al. Focused web crawler for Indonesian recipes
CN108052554B (zh) 多维度拓展关键词的方法和装置
kumar Sharma et al. SAFSB: A self-adaptive focused crawler

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240331

Address after: # 01-21, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands