CN105956013A - 网站关键词提取方法、装置和系统 - Google Patents

网站关键词提取方法、装置和系统 Download PDF

Info

Publication number
CN105956013A
CN105956013A CN201610252203.9A CN201610252203A CN105956013A CN 105956013 A CN105956013 A CN 105956013A CN 201610252203 A CN201610252203 A CN 201610252203A CN 105956013 A CN105956013 A CN 105956013A
Authority
CN
China
Prior art keywords
key word
page
data
search engine
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610252203.9A
Other languages
English (en)
Inventor
李冬阳
肖智广
朱勇勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Trade Technology (Beijing) Co., Ltd.
Original Assignee
Century Light Technology Development (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Century Light Technology Development (beijing) Co Ltd filed Critical Century Light Technology Development (beijing) Co Ltd
Priority to CN201610252203.9A priority Critical patent/CN105956013A/zh
Publication of CN105956013A publication Critical patent/CN105956013A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供一种网站关键词提取方法、装置和系统,其中方法包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。本发明提供的网站关键词提取方法、装置和系统,能够全面、准确、合理地将涉及网站内容的关键词提取出来,并定期更新关键词库,为网站的后续优化工作做出科学的指导,提升网站的优化效果。

Description

网站关键词提取方法、装置和系统
技术领域
本发明涉及网络通信技术领域,尤其涉及一种网站关键词提取方法、装置和系统。
背景技术
词库是SEO流程中的重要组成部分,它基本上代表了本行业中用户所要搜索的词语,也就是说,词库代表着需求。其实网站首页的三大标签关键词带来的流量在网站后期的发展中贡献的比重并不是最大的。网站发展后期真正带来超级流量的其实是不显眼的几乎没什么指数的长尾词流量。据统计,一般6个字的词是网站流量的主体部分。所以说,提高搜索需求覆盖率十分重要。举个例子:如招聘行业,其行业相关词有“北京招聘”、“北京兼职”、“司机招聘”、“XX公司”等形式及它们的多维组合,如“北京司机 招聘”;如“铁艺大门”这样一个词,既可以细分下去如“北京铁艺大门”这样的词,也可有平级的“铁门”,还有上级的如“大门”等等。只要是有人搜索的词,网站上都有这样的页面,大量这样的页面,会带来很多的流量入口。要提高搜索需求覆盖率,首要的就是建立网站关键词词库,建立关键词词库可以说是SEO的最重心所在。做好关键词词库,并且持续性的优化关键词词库,能够帮运营人员在网站的优化推广方面做更多的辅助指导工作,提高网站排名和访问量。
在申请号为201210129565.0的中国专利申请中公开了一种关键词投放方法及系统。其中获取关键词的方法只是从搜索历史数据库中获取搜索关键词,关键词的获取来源只限定在搜索历史数据库中,获取范围狭窄,难以达到覆盖率的需求。现有技术的关键词提取方法通常在获取关键词的途径方面来源都比较单一,不能全面地获取关键词,不能很好地为网站的后续优化工作做出科学的指导,也导致网站的优化效果不尽人意。
发明内容
针对背景技术中所出现的问题,本发明提供了一种网站关键词提取方法,包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。
可选的是,所述定期获取关键词包括:定期抓取相关网站关键词或页面关键词。
在上述任一方案中可选的是,所述定期获取关键词还包括:定期从相关页面内容或日志记录中挖掘所述关键词。
在上述任一方案中可选的是,所述定期获取关键词还包括:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。
在上述任一方案中可选的是,所述定期获取关键词还包括:所述关键词由原有关键词与其属性分别搭配而组成。
在上述任一方案中可选的是,所述拼接出搜索引擎列表页的URL之后,还包括:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。
在上述任一方案中可选的是,所述下载所述搜索引擎列表页URL中的页面,还包括:设置代理,发送http请求搜索引擎列表页,下载页面。
在上述任一方案中可选的是,所述下载所述搜索引擎列表页URL中的页面,还包括:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。
在上述任一方案中可选的是,所述关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。
在上述任一方案中可选的是,所述根据页面内容解析出所述关键词的评估数据之后,还包括根据所述评估数据得到评估分值。
在上述任一方案中可选的是,所述根据所述评估数据更新所述数据库的关键词信息,包括根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。
在上述任一方案中可选的是,所述根据所述评估分值在所述数据库中标记关键词的信息状态,包括:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。
在上述任一方案中可选的是,所述根据所述评估分值在所述数据库中标记关键词的信息状态,还包括:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。
在上述任一方案中可选的是,根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。
在上述任一方案中可选的是,将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。
在上述任一方案中可选的是,所述更新所述数据库的关键词信息还包括:根据关键词的内容信息将关键词分类,将关键词的类别标记记入数据库。
本发明还提供了一种网站关键词提取装置,包括:获取单元,用于定期获取关键词存入数据库;拼接单元,用于遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载单元,用于下载所述搜索引擎列表页URL中的页面;解析单元,用于根据页面内容解析出所述关键词的评估数据;更新单元,用于根据所述评估数据更新所述数据库的关键词信息。
可选的是,所述获取单元还配置为:定期抓取相关网站关键词或页面关键词。
在上述任一方案中可选的是,所述获取单元还配置为:定期从相关页面内容或日志记录中挖掘所述关键词。
在上述任一方案中可选的是,所述获取单元还配置为:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。
在上述任一方案中可选的是,所述获取单元还配置为:所述关键词由原有关键词与其属性分别搭配而组成。
在上述任一方案中可选的是,所述下载单元还配置为:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。
在上述任一方案中可选的是,所述下载单元还配置为:设置代理,发送http请求搜索引擎列表页,下载页面。
在上述任一方案中可选的是,所述下载单元还配置为:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。
在上述任一方案中可选的是,所述关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。
在上述任一方案中可选的是,所述解析单元还配置为根据所述评估数据得到评估分值。
在上述任一方案中可选的是,所述更新单元还配置为根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。
在上述任一方案中可选的是,所述更新单元还配置为:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。
在上述任一方案中可选的是,所述更新单元还配置为:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。
在上述任一方案中可选的是,所述更新单元还配置为:根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。
在上述任一方案中可选的是,所述更新单元还配置为:将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。
在上述任一方案中可选的是,所述更新单元还配置为:根据关键词的内容信息将关键词分类,将关键词的类别标记记入数据库。
本发明还提供了一种网站关键词提取系统,包括上述任一项所述的装置,以及所述数据库,用于存储所述关键词信息,包括:所述关键词的评估数据,包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项;所述关键词的评估分值,包括根据所述排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项得到的评估分值;所述关键词的信息状态、所述关键词的展示状态、所述关键词的类别标记。
本发明提供的网站关键词提取方法、装置和系统,能够全面、准确、合理地将涉及网站内容的关键词提取出来,并定期更新关键词库,持续性优化的关键词在网站优化推广中起着至关重要的作用,为网站的后续优化工作做出科学的指导,提升网站的优化效果。
附图说明
图1是本发明应用的网站关键词提取方法的整体框架图。
图2是本发明应用的网站关键词提取装置的结构示意图。
图3是根据数据库中的关键词在相关网站抓取关键词的页面示意图。
具体实施方式
下面将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
图1是本发明应用的网站关键词提取方法的整体框架图。如图1所示,该实施例网站留言分配及管理方法包括步骤101至105:在步骤101中,定期获取关键词存入数据库;在步骤102中,遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;在步骤103中,下载所述搜索引擎列表页URL中的页面;在步骤104中,根据页面内容解析出所述关键词的评估数据; 在步骤105中,根据所述评估数据更新所述数据库的关键词信息。
根据本发明应用的网站关键词提取方法的实施例,在步骤101中,关键词的获取可以来自站内或站外,也可以将重点关注于PPC(Pay Per Click,点击付费广告)搜索词。也可以通过搜索引擎网站提供的服务获取关键词,比如获取google adwords API数据。
在步骤101中,定期获取关键词包括:定期抓取相关网站关键词或页面关键词。行业经理根据业务内容确定相关的网站以及抓取的深度,如相关度较大的网站的抓取深度设置为3层,相关度较小的网站的抓取深度设置为1层。抓取页面的关键词时,可按照字母和分页递归到结束。抓取外部网站的情况下,适于分行业,获取比较好的垂直网站抓取关键词。抓取周期可以根据需要确定为每季定期抓取、每月定期抓取或者每年定期抓取等。也可以根据词的数量确定新增时间,比如说能新增的词数量达到30万,能自动触发新词入库。优先补充类目相关度最高的相关词和词库中该关键词所属的类目中最相关类目的分值高的关键词。
根据本发明应用的网站关键词提取方法中的另一实施例,在步骤101中,定期获取关键词还包括:定期从相关页面内容或日志记录中挖掘所述关键词。搜索日志记录站内搜索关键词和关键词对应的类目,分析日志生成关键词表时可使用过滤规则,包括:品牌词、纯数字或非字母的(对于特定语言而言)关键词、单个词、词的数量大于5的关键词。具体地,对于站内搜索词,可根据最大存储容量控制分析日志的周期,也可以先存入临时词表,最终存入数据库。
根据本发明应用的网站关键词提取方法的又一实施例,在步骤101中,定期获取关键词还包括:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。有规律的拿词库中的关键词抓取相关网站的关键词,添加进入词库。按照关键词存储的顺序,第一次拿1~50000个词去相关网站抓取3层;第二次拿50001~100000个词去相关网站抓取3层,以此类推。图3是根据数据库中的关键词在相关网站抓取关键词的页面示意图,图中出了与“shoes 2014”相关的关键词。
根据本发明应用的网站关键词提取方法的再一实施例,在步骤101中,定期获取关键词还包括:所述关键词由原有关键词与其属性分别搭配而组成。比如产品搭配其尺寸、色彩、质地等属性组成新的关键词。
在步骤102中,遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL。url中设置相关参数,如:每页显示的条数等。
例如百度搜索时URL参数含义如下:
http://www.baidu.com/s?lm=0(搜索结果时间限制) &si=&rn=10(每页显示的数目) &ie=gb2312&(语言) ct=0 &wd=%CA%6%BB%FA& (关键词) pn=10 (在第pn比上10后加上1页) &ver=0 &cl=3 &uim=6 &usm=0
百度搜索命令中的必备参数:
wd——查询的关键词(Keyword)
pn——显示结果的页数(Page Number)
cl——搜索类型(Class),cl=3为网页搜索
百度搜索命令中的可选参数:
rn——搜索结果显示条数(Record Number),取值范围在10--100条之间,缺省设置rn=10
ie——查询输入文字的编码(Input Encoding),缺省设置ie=gb2312,即为简体中文
tn——提交搜索请求的来源站点
根据本发明应用的网站关键词提取方法的实施例,在拼接出搜索引擎列表页的URL之后,还包括:创建抓取队列,将所述URL加入到抓取队列。在步骤103中,从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。
根据本发明应用的网站关键词提取方法的实施例,在步骤103中,下载所述搜索引擎列表页URL中的页面,还包括:设置代理,发送http请求搜索引擎列表页,下载页面。
根据本发明应用的网站关键词提取方法的实施例,在步骤103中,下载所述搜索引擎列表页URL中的页面,还包括:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。
根据本发明应用的网站关键词提取方法的实施例,在步骤104中,根据页面内容解析出所述关键词的评估数据。关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。在执行过程中,不间断抓取词库中的关键词评估数据,直至词库中所有关键词的评估数据都获取到。当词库中所有关键词均有评估时,需重新抓取词库中所有关键词的评估,如此无限循环。
根据本发明应用的网站关键词提取方法的实施例,在步骤104中,根据页面内容解析出所述关键词的评估数据之后,还包括根据所述评估数据得到评估分值。
例如在电子商务系统中,关键词评估分值公式设置如下:
公式:产品结果数(20)+Google搜索量(10)+Google排名(30)+站内维度(40)=总分(100)
产品结果数:保证2页产品显示
10000<结果(20分);5000<结果<10000(16); 1000<结果<5000(12分); 5000<结果<1000(8分)48<结果<500(4分);结果<48(0分);
Google排名:将第一页的词都排到前三
3<排名<5(30分); 5<排名<10(24分); 1<排名<3(18分);10<排名<20(12分);20<排名<30(6分);30<排名(0分)
其中站内维度的总分是40分,在关键词在总评分中,站内维度又细分为下面7个分值域:
站内搜索Session次数(search session);
产品点击总量(click session);
列表页产品显示总量(prod impression);
产品点击(prod click);
产品订单总量(order);
new buyer数量(new buyer);
new registration数量(new registration)。
在步骤105中,根据所述评估数据更新所述数据库的关键词信息,包括根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。
根据本发明应用的网站关键词提取方法的实施例,在步骤105中,所述根据所述评估分值在所述数据库中标记关键词的信息状态,包括:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。
根据本发明应用的网站关键词提取方法的实施例,在步骤105中,根据所述评估分值在所述数据库中标记关键词的信息状态,还包括:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。即存活与不存活的判断标准是:从分值高的词开始标为存活关键词,直到足够阀值范围内,超出关键词存活量阀值的词标记为不存活词。
根据本发明应用的网站关键词提取方法的实施例,在步骤105中,还包括根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。有效,即为关键词参与展示;无效,即为关键词不参与展示。通过改变信息状态修改有效无效。
根据本发明应用的网站关键词提取方法的实施例,在步骤105中,将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。
根据本发明应用的网站关键词提取方法的实施例,在步骤105中,更新所述数据库的关键词信息还包括:根据关键词的内容信息将关键词分类,将关键词的类别标记记入数据库。例如price维度页面是网站的一种类型页面。将与price相关的词,即词本身包含price, prices, best, new, sale的词,打标price维度词;只有打标的词才会有Price维度的页面,并且打标的词不会有别的维度的页面。
根据本发明应用的网站关键词提取方法,还包括关键词标准化。关键词标准化过滤的规则包括:过滤keyword前面的特殊字符;过滤连续多个相同的特殊字符,如果两个&和|则不过滤;过滤字符串以特殊字符结尾的字符;引号和括号的配对;过滤掉空格附近的星号;单复数有单复数对照表。词库现有词淘汰规则包括:新增TNS违禁词;站内搜索结果为0,且通过0结果页无任何推荐的关键词。
根据本发明应用的网站关键词提取方法,还包括关键词词库运营数据后台统计。包括:
1. 词库中过滤后的关键词总数量;
2. 词被抓取的数据统计;通过日志记录,分析被抓取的词和频率(自定义时间)。
3. 词被展示的数据统计,即词作为相关关键词展示的次数;页面类型区分展示的数据统计。
本发明还提供了一种网站关键词提取装置,包括:获取单元201,用于定期获取关键词存入数据库;拼接单元202,用于遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载单元203,用于下载所述搜索引擎列表页URL中的页面;解析单元204,用于根据页面内容解析出所述关键词的评估数据;更新单元205,用于根据所述评估数据更新所述数据库的关键词信息。
根据本发明应用的网站关键词提取装置的实施例,所述获取单元201还配置为:定期抓取相关网站关键词或页面关键词。
根据本发明应用的网站关键词提取装置的实施例,所述获取单元201还配置为:定期从相关页面内容或日志记录中挖掘所述关键词。
根据本发明应用的网站关键词提取装置的实施例,所述获取单元201还配置为:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。
根据本发明应用的网站关键词提取装置的实施例,所述获取单元201还配置为:所述关键词由原有关键词与其属性分别搭配而组成。
根据本发明应用的网站关键词提取装置的实施例,拼接单元202,用于遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;所述下载单元203还配置为:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。
根据本发明应用的网站关键词提取装置的实施例,所述下载单元203还配置为:设置代理,发送http请求搜索引擎列表页,下载页面。
根据本发明应用的网站关键词提取装置的实施例,所述下载单元203还配置为:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。
根据本发明应用的网站关键词提取装置的实施例,解析单元204,用于根据页面内容解析出所述关键词的评估数据。所述关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。
根据本发明应用的网站关键词提取装置的实施例,所述解析单元204还配置为根据所述评估数据得到评估分值。
根据本发明应用的网站关键词提取装置的实施例,更新单元205,用于根据所述评估数据更新所述数据库的关键词信息。所述更新单元205还配置为根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。
根据本发明应用的网站关键词提取装置的实施例,所述更新单元205还配置为:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。
根据本发明应用的网站关键词提取装置的实施例,所述更新单元205还配置为:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。
根据本发明应用的网站关键词提取装置的实施例,所述更新单元205还配置为:根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。
根据本发明应用的网站关键词提取装置的实施例,所述更新单元205还配置为:将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。
根据本发明应用的网站关键词提取装置的实施例,所述更新单元205还配置为:根据关键词的内容信息将关键词分类,将关键词的类别标记记入数据库。
本发明还提供了一种网站关键词提取系统,包括上述任一项所述的装置,以及所述数据库,用于存储所述关键词信息,包括:所述关键词的评估数据,包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项;所述关键词的评估分值,包括根据所述排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项得到的评估分值;所述关键词的信息状态、所述关键词的展示状态、所述关键词的类别标记。
本发明提供的网站关键词提取方法、装置和系统,能够全面、准确、合理地将涉及网站内容的关键词提取出来,并定期更新关键词库,持续性优化的关键词在网站优化推广中起着至关重要的作用,为网站的后续优化工作做出科学的指导,提升网站的优化效果。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置和系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种网站关键词提取方法,包括:
定期获取关键词存入数据库;
遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;
下载所述搜索引擎列表页URL中的页面;
根据页面内容解析出所述关键词的评估数据;
根据所述评估数据更新所述数据库的关键词信息。
2.根据权利要求1所述的方法,其特征在于,所述定期获取关键词包括:定期抓取相关网站关键词或页面关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述定期获取关键词还包括:定期从相关页面内容或日志记录中挖掘所述关键词。
4.根据权利要求1所述的方法,其特征在于,所述定期获取关键词还包括:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述定期获取关键词还包括:所述关键词由原有关键词与其属性分别搭配而组成。
6.根据权利要求1所述的方法,其特征在于,所述拼接出搜索引擎列表页的URL之后,还包括:
创建抓取队列,将所述URL加入到抓取队列;
从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。
7.根据权利要求1或6所述的方法,其特征在于,所述下载所述搜索引擎列表页URL中的页面,还包括:设置代理,发送http请求搜索引擎列表页,下载页面。
8.根据权利要求7所述的方法,其特征在于,所述下载所述搜索引擎列表页URL中的页面,还包括:
预设页面排名阈值;
下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。
9.一种网站关键词提取装置,包括:
获取单元,用于定期获取关键词存入数据库;
拼接单元,用于遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;
下载单元,用于下载所述搜索引擎列表页URL中的页面;
解析单元,用于根据页面内容解析出所述关键词的评估数据;
更新单元,用于根据所述评估数据更新所述数据库的关键词信息。
10.一种网站关键词提取系统,包括权利要求1-8中任一项所述的装置,以及所述数据库,用于存储所述关键词信息,包括:
所述关键词的评估数据,包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项;
所述关键词的评估分值,包括根据所述排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项得到的评估分值;
所述关键词的信息状态、所述关键词的展示状态、所述关键词的类别标记。
CN201610252203.9A 2016-04-21 2016-04-21 网站关键词提取方法、装置和系统 Pending CN105956013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610252203.9A CN105956013A (zh) 2016-04-21 2016-04-21 网站关键词提取方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610252203.9A CN105956013A (zh) 2016-04-21 2016-04-21 网站关键词提取方法、装置和系统

Publications (1)

Publication Number Publication Date
CN105956013A true CN105956013A (zh) 2016-09-21

Family

ID=56914724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610252203.9A Pending CN105956013A (zh) 2016-04-21 2016-04-21 网站关键词提取方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105956013A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649537A (zh) * 2016-11-01 2017-05-10 四川用联信息技术有限公司 基于改进的群智能算法实现搜索引擎关键词优化技术
CN108804444A (zh) * 2017-04-28 2018-11-13 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN110309395A (zh) * 2019-07-05 2019-10-08 云南电网有限责任公司电力科学研究院 一种基于数据获取技术的专业字典构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377249A (zh) * 2012-04-27 2013-10-30 纽海信息技术(上海)有限公司 关键词投放方法及系统
CN103530291A (zh) * 2012-07-03 2014-01-22 同程网络科技股份有限公司 适用于搜索引擎的关键词投放拓词方法及其装置
CN103544294A (zh) * 2013-10-30 2014-01-29 北京京东尚科信息技术有限公司 一种关键词热度自动控制方法
CN104063422A (zh) * 2014-05-20 2014-09-24 微梦创科网络科技(中国)有限公司 社交网络中领域的特征词库迭代更新方法和装置
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377249A (zh) * 2012-04-27 2013-10-30 纽海信息技术(上海)有限公司 关键词投放方法及系统
CN103530291A (zh) * 2012-07-03 2014-01-22 同程网络科技股份有限公司 适用于搜索引擎的关键词投放拓词方法及其装置
CN103544294A (zh) * 2013-10-30 2014-01-29 北京京东尚科信息技术有限公司 一种关键词热度自动控制方法
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置
CN104063422A (zh) * 2014-05-20 2014-09-24 微梦创科网络科技(中国)有限公司 社交网络中领域的特征词库迭代更新方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649537A (zh) * 2016-11-01 2017-05-10 四川用联信息技术有限公司 基于改进的群智能算法实现搜索引擎关键词优化技术
CN108804444A (zh) * 2017-04-28 2018-11-13 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN110309395A (zh) * 2019-07-05 2019-10-08 云南电网有限责任公司电力科学研究院 一种基于数据获取技术的专业字典构建方法

Similar Documents

Publication Publication Date Title
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN105765573B (zh) 网站通信量优化方面的改进
CA2732733C (en) Providing posts to discussion threads in response to a search query
JP5458181B2 (ja) 高度な検索結果ページコンテンツを提供するためのシステム及び方法
US8650492B1 (en) System and method for page navigation visualization and analysis
JP5458182B2 (ja) 高度な検索結果ページコンテンツを提供するためのシステム及び方法
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US8548981B1 (en) Providing relevance- and diversity-influenced advertisements including filtering
US10354292B1 (en) Systems and methods for generating navigation filters
US20150287047A1 (en) Extracting Information from Chain-Store Websites
JP2019074843A (ja) 情報提供装置、情報提供方法、およびプログラム
KR20150031234A (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
CN102693271A (zh) 一种网络信息推荐方法及系统
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN105183912A (zh) 异常日志确定方法和装置
CN102306201B (zh) 一种网页标题分析的方法和系统
CN104572863A (zh) 一种产品推荐方法及系统
US20160182617A1 (en) Systems and methods for providing navigation filters
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
CN103279516A (zh) 网络爬虫识别方法
EP2933734A1 (en) Method and system for the structural analysis of websites
CN109977312A (zh) 一种基于内容标签的知识库推荐系统
CN105956013A (zh) 网站关键词提取方法、装置和系统
US9043425B2 (en) Resource locator remarketing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180724

Address after: 100080 1-701-1 seven, level 28, Cheng Fu Road, Haidian District, Beijing.

Applicant after: Digital Trade Technology (Beijing) Co., Ltd.

Address before: Room 1-901, room 28, Cheng Fu Road, Haidian District, Beijing

Applicant before: Century Light Technology Development (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921