CN106815278B - 网页内容对搜索引擎可见度的分析方法及装置 - Google Patents

网页内容对搜索引擎可见度的分析方法及装置 Download PDF

Info

Publication number
CN106815278B
CN106815278B CN201510894827.6A CN201510894827A CN106815278B CN 106815278 B CN106815278 B CN 106815278B CN 201510894827 A CN201510894827 A CN 201510894827A CN 106815278 B CN106815278 B CN 106815278B
Authority
CN
China
Prior art keywords
keyword
visibility
keywords
frequency
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510894827.6A
Other languages
English (en)
Other versions
CN106815278A (zh
Inventor
姜世豪
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510894827.6A priority Critical patent/CN106815278B/zh
Publication of CN106815278A publication Critical patent/CN106815278A/zh
Application granted granted Critical
Publication of CN106815278B publication Critical patent/CN106815278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本申请公开了一种网页内容对搜索引擎可见度的分析方法及装置。该方法包括:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。通过本申请,解决了相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。

Description

网页内容对搜索引擎可见度的分析方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页内容对搜索引擎可见度的分析方法及装置。
背景技术
随着搜索引擎技术的不断进步,从第一代搜索引擎至今,基于搜索算法的结果展现越来越贴近用户的需求,具有精确、多样化等特点。但到目前为止,搜索引擎对于网页中所使用的Javascript代码内容仍处于学习阶段,进而通过Javascript方式在浏览器中异步加载的链接、文字内容仍然无法在关键词排名中获得好的表现。因此,判断网页中核心内容是否采用搜索引擎不能识别(即被搜索引擎不可见)的方式加载,仍然是评价网页搜索引擎优化(SEO)质量的重要环节。相关技术中,通常搜索引擎在网页源代码中抓取有用信息,并剔除冗余信息。为了判断网页中内容对搜索引擎可见度,即判断搜索引擎在抓取源代码信息过程中,文字和链接是否对搜索引擎可见,现有的方式是在网页的文字和链接中随机选取重要的内容,将其在网站源代码中进行查找,若无对应的查找结果,可初步判断该文字内容是通过异步加载方式呈现在浏览器中,在源代码中对搜索引擎不可见。然而通过浏览器随机选取内容,并在源代码中查找的方式,存在的问题主要有:人工选取样本的随机性较大,无法涵盖大部分内容的检查;人工选取样本的效率较低,无法在短时间内定位核心内容;人工选取样本检查结果难以量化,无法提供代表性的指标。
针对相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页内容对搜索引擎可见度的分析方法及装置,以解决相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页内容对搜索引擎可见度的分析方法。该方法包括:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
进一步地,在根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度之后,该方法还包括:将每个关键词对应的第一频次相加,得到第一频次总和;将每个关键词对应的第二频次相加,得到第二频次总和;根据第一频次总和与第二频次总和计算目标网页内容可见率;以及根据目标网页内容可见率分析目标网页中内容对搜索引擎的可见度。
进一步地,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度包括:在每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;判定搜索引擎抓取第一关键词子集合中关键词的抓取概率大于预设抓取概率;在每个关键词可见率中选取小于或等于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及判定搜索引擎抓取第二关键词子集合中关键词的抓取概率小于预设抓取概率。
进一步地,通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合包括:采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在目标网页中出现的频次在预设范围内的关键词;从提取的关键词中进行筛选得到目标关键词;以及通过目标关键词组成关键词集合。
进一步地,在得到每个关键词可见率之后,在根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度之前,该方法还包括:根据每个关键词和每个关键词对应的关键词可见率构建目标列表;发送目标列表至目标地址,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度包括:在目标地址上获取目标列表中的每个关键词和每个关键词对应的关键词可见率;以及分别根据目标列表中的每个关键词和每个关键词对应的关键词可见率分析目标网页中关键词对搜索引擎的可见度。
为了实现上述目的,根据本申请的另一方面,提供了一种网页内容对搜索引擎可见度的分析装置。该装置包括:提取单元,用于通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;统计单元,用于在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;第一计算单元,用于分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及第一分析单元,用于根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
进一步地,该装置还包括:第二计算单元,用于将每个关键词对应的第一频次相加,得到第一频次总和;第三计算单元,用于将每个关键词对应的第二频次相加,得到第二频次总和;第四计算单元,用于根据第一频次总和与第二频次总和计算目标网页内容可见率;以及第二分析单元,用于根据目标网页内容可见率分析目标网页中内容对搜索引擎的可见度。
进一步地,第一分析单元包括:第一提取模块,用于在每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;第一判断模块,用于判定搜索引擎抓取第一关键词子集合中关键词的抓取概率大于预设抓取概率;第二提取模块,用于在每个关键词可见率中选取小于或等于预设可见率的关键词可见率,并提取选取到的关键词对应的关键词,得到第二关键词子集合;以及第二判断模块,用于判定搜索引擎抓取第二关键词子集合中关键词的抓取概率小于预设抓取概率。
进一步地,提取单元包括:第三提取模块,用于采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在目标网页中出现的频次在预设范围内的关键词;筛选模块,用于从提取的关键词中进行筛选得到目标关键词;以及构建模块,用于通过目标关键词组成关键词集合。
进一步地,该装置还包括:构建单元,用于根据每个关键词和每个关键词对应的关键词可见率构建目标列表;发送单元,用于发送目标列表至目标地址,第一分析单元还用于在目标地址上获取目标列表中的每个关键词和每个关键词对应的关键词可见率;以及分别根据目标列表中的每个关键词和每个关键词对应的关键词可见率分析目标网页中关键词对搜索引擎的可见度。
通过本申请,采用以下步骤:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度,解决了相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。通过预设提取工具已有的分析单页面关键词出现频次功能,可以模拟搜索引擎蜘蛛,从源代码的角度剖析页面,并提取搜索引擎可识别的内容;在此基础上反查询这些源代码中高频词关键词在浏览器端的出现频次,可以直观的得到每个关键词从用户角度来看出现的频次,而这两者之间的差值即为用户可见但搜索引擎不可见的内容,将此指标量化,进而达到了提升分析网页中的内容对搜索引擎可见度准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页内容对搜索引擎可见度的分析方法的流程图;以及
图2是根据本申请实施例的网页内容对搜索引擎可见度的分析装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的术语进行说明:
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
根据本申请的实施例,提供了一种网页内容对搜索引擎可见度的分析方法。
图1是根据本申请实施例的网页内容对搜索引擎可见度的分析方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次。
本申请中的预设提取工具可以为网站与搜索引擎优化分析工具,为用户提供一种检测用户自身网站质量以及搜索引擎检索质量的分析方法。借助该工具,用户可以对自己的网站进行综合评价,发现网站的不足之处加以改进。同时该工具能够通过关键词检索,提供整个网站在搜索引擎中的自然搜索排名情况,为用户提供全方位的质量分析报告,使用户能够更精准更有效的对自身网站做出优化。
本申请中的提取网页关键词的方法与搜索引擎统计网页关键词的方式相同,即通过源代码来提取。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析方法中,通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合包括:采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在目标网页中出现的频次在预设范围内的关键词;从提取的关键词中进行筛选得到目标关键词;以及通过目标关键词组成关键词集合。
例如,网站与搜索引擎优化分析工具可以从单一页面(目标页面)源代码中提取出最多20个频次最高(频次在预设范围内)的关键词,根据实际情况,可以从中选取前10个关键词,或者筛选出一定数量的有效关键词,作为目标关键词,来建立关键词表作为初始数据。例如,提取目标网页URL为www.abc.com的关键词,得到结果如下表1所示:
表1
关键词 第一频次
Keyword1 a1
Keyword2 a2
Keyword3 a3
步骤S102,在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次。
由于在浏览器中加载目标网页后在浏览器中显示的关键词,源代码中有可能不显示,但源代码中显示的,浏览器中一定显示。在浏览器中打开上述的目标网页,利用浏览器查找功能,分别对上述提取到的每个关键词进行统计出现的频次,并记录该关键词在浏览器端返回的出现频次数据,即可获知上述提取到的关键词在浏览器中是否显示与显示的频次。
例如,在浏览器中打开URL为www.abc.com的目标网页,对Keyword1,Keywo rd2…等等,分别统计其在浏览器中出现的频次,得到结果如下表2所示:
表2
关键词 第二频次
Keyword1 b1
Keyword2 b2
Keyword3 b3
步骤S103,分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率。
根据上述得到的每个关键词对应的第一频次和第二频次,计算出每个关键词可见率,每个关键词可见率即为每个关键词的可见率,得到结果如下表3所示:
表3
关键词 第一频次 第二频次 关键词可见率
Keyword1 a1 b1 a1/b1*100%
Keyword2 a2 b2 a2/b2*100%
Keyword3 a3 b3 a3/b3*100%
Keyword4 a4 b4 a4/b4*100%
步骤S104,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
根据上述得到的每一个Keyword对应的关键词可见率,可以分析每个关键词对搜索引擎的可见度。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析方法中,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度包括:在每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;判定搜索引擎抓取第一关键词子集合中关键词的抓取概率大于预设抓取概率;在每个关键词可见率中选取小于或等于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及判定搜索引擎抓取第二关键词子集合中关键词的抓取概率小于预设抓取概率。
例如,某个关键词对应的关键词可见率为A%,预设可见率为B%,如果A%>B%,则搜索引擎抓取到的该关键词的比例较高,如果A%≤B%,则搜索引擎抓取到的该关键词的比例较低,搜索引擎优化相关表现越不理想,该关键词越难在搜索引擎排名中展现。需要后续对该目标网页的代码进行调整,对该网页内容进行优化。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析方法中,在得到每个关键词可见率之后,在根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度之前,该方法还包括:根据每个关键词和每个关键词对应的关键词可见率构建目标列表;发送目标列表至目标地址,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度包括:在目标地址上获取目标列表中的每个关键词和每个关键词对应的关键词可见率;以及分别根据目标列表中的每个关键词和每个关键词对应的关键词可见率分析目标网页中关键词对搜索引擎的可见度。
通过将每个关键词和每个关键词对应的关键词可见率构建目标列表发送至目标地址,用户在目标地址上可以直观的获取到各个关键词和其对于的可见率,可以有针对性的在网页上调整各个关键词的源代码,从而对搜索引擎优化工作具有重要的指导意义。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析方法中,在根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度之后,该方法还包括:将每个关键词对应的第一频次相加,得到第一频次总和;将每个关键词对应的第二频次相加,得到第二频次总和;根据第一频次总和与第二频次总和计算目标网页内容可见率;以及根据目标网页内容可见率分析目标网页中内容对搜索引擎的可见度。
具体地,记统计出的关键词总数为n,目标网页内容可见率=在网站与搜索引擎优化分析工具上出现频次总和/在浏览器中出现频次总和*100%,即目标网页内容可见率=sum(a1:an)/sum(b1:bn)*100%,目标网页中统计出的关键词级能够反映该页面中最核心的内容,即目标网页内容可见率反映了该页面中最核心的内容(出现频率最高的关键词)中有多少是可以被搜索引擎正常抓取的。
通过以上步骤,利用网站与搜索引擎优化分析工具已有的分析单页面关键词出现频次功能,可以模拟搜索引擎蜘蛛,从源代码的角度剖析页面,并提取搜索引擎可识别的内容;在此基础上反查询这些源代码中高频词关键词在浏览器端的出现频次,可以直观的得到每个关键词从用户角度来看出现的频次,而这两者之间的差值即为用户可见但搜索引擎不可见的内容,将此指标量化,对于搜索引擎优化工作具有重要的指导意义。
本申请实施例提供的网页内容对搜索引擎可见度的分析方法,通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度,解决了相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。通过预设提取工具已有的分析单页面关键词出现频次功能,可以模拟搜索引擎蜘蛛,从源代码的角度剖析页面,并提取搜索引擎可识别的内容;在此基础上反查询这些源代码中高频词关键词在浏览器端的出现频次,可以直观的得到每个关键词从用户角度来看出现的频次,而这两者之间的差值即为用户可见但搜索引擎不可见的内容,将此指标量化,进而达到了提升分析网页中的内容对搜索引擎可见度准确率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网页内容对搜索引擎可见度的分析装置,需要说明的是,本申请实施例的网页内容对搜索引擎可见度的分析装置可以用于执行本申请实施例所提供的用于网页内容对搜索引擎可见度的分析方法。以下对本申请实施例提供的网页内容对搜索引擎可见度的分析装置进行介绍。
图2是根据本申请实施例的网页内容对搜索引擎可见度的分析装置的示意图。如图2所示,该装置包括:提取单元10、统计单元20、第一计算单元30和第一分析单元40。
提取单元10,用于通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次。
统计单元20,用于在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次。
第一计算单元30,用于分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率。
第一分析单元40,用于根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
本申请实施例提供的网页内容对搜索引擎可见度的分析装置,通过提取单元10通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;统计单元20在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;第一计算单元30分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及第一分析单元40根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度,解决了相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题,通过预设提取工具已有的分析单页面关键词出现频次功能,可以模拟搜索引擎蜘蛛,从源代码的角度剖析页面,并提取搜索引擎可识别的内容;在此基础上反查询这些源代码中高频词关键词在浏览器端的出现频次,可以直观的得到每个关键词从用户角度来看出现的频次,而这两者之间的差值即为用户可见但搜索引擎不可见的内容,将此指标量化,进而达到了提升分析网页中的内容对搜索引擎可见度准确率的效果。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析装置中,该装置还包括:第二计算单元,用于将每个关键词对应的第一频次相加,得到第一频次总和;第三计算单元,用于将每个关键词对应的第二频次相加,得到第二频次总和;第四计算单元,用于根据第一频次总和与第二频次总和计算目标网页内容可见率;以及第二分析单元,用于根据目标网页内容可见率分析目标网页中内容对搜索引擎的可见度。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析装置中,第一分析单元40包括:第一提取模块,用于在每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;第一判断模块,用于判定搜索引擎抓取第一关键词子集合中关键词的抓取概率大于预设抓取概率;第二提取模块,用于在每个关键词可见率中选取小于或等于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及第二判断模块,用于判定搜索引擎抓取第二关键词子集合中关键词的抓取概率小于预设抓取概率。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析装置中,提取单元10包括:第三提取模块,用于采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在目标网页中出现的频次在预设范围内的关键词;筛选模块,用于从提取的关键词中进行筛选得到目标关键词;以及构建模块,用于通过目标关键词组成关键词集合。
可选地,在本申请实施例提供的网页内容对搜索引擎可见度的分析装置中,该装置还包括:构建单元,用于根据每个关键词和每个关键词对应的关键词可见率构建目标列表;发送单元,用于发送目标列表至目标地址,第一分析单元还用于在目标地址上获取目标列表中的每个关键词和每个关键词对应的关键词可见率;以及分别根据目标列表中的每个关键词和每个关键词对应的关键词可见率分析目标网页中关键词对搜索引擎的可见度。
网页内容对搜索引擎可见度的分析装置包括处理器和存储器,上述提取单元、统计单元、第一计算单元和第一分析单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数分析网页内容对搜索引擎可见度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网页内容对搜索引擎可见度的分析方法,其特征在于,包括:
通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,所述关键词集合为在所述目标网页内容中出现的频次在预设范围内的关键词组成的集合,所述关键词集合中每个关键词在所述目标网页中出现的频次记为第一频次;
在浏览器中加载所述目标网页后分别统计所述关键词集合中每个关键词出现的频次,得到所述每个关键词对应的第二频次;
分别根据所述每个关键词对应的第一频次和所述每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及
根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度。
2.根据权利要求1所述的方法,其特征在于,在根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度之后,所述方法还包括:
将所述每个关键词对应的第一频次相加,得到第一频次总和;
将所述每个关键词对应的第二频次相加,得到第二频次总和;
根据所述第一频次总和与所述第二频次总和计算目标网页内容可见率,其中,所述目标网页内容可见率=所述第一频次总和/所述第二频次总和*100%;以及
根据所述目标网页内容可见率分析所述目标网页中内容对所述搜索引擎的可见度。
3.根据权利要求1所述的方法,其特征在于,根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度包括:
在所述每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;
判定所述搜索引擎抓取所述第一关键词子集合中关键词的抓取概率大于预设抓取概率;
在所述每个关键词可见率中选取小于或等于所述预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及
判定所述搜索引擎抓取所述第二关键词子集合中关键词的抓取概率小于所述预设抓取概率。
4.根据权利要求1所述的方法,其特征在于,通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合包括:
采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在所述目标网页中出现的频次在预设范围内的关键词;
从所述提取的关键词中进行筛选得到目标关键词;以及
通过所述目标关键词组成所述关键词集合。
5.根据权利要求1所述的方法,其特征在于,
在得到所述每个关键词可见率之后,在根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度之前,所述方法还包括:根据每个关键词和所述每个关键词对应的关键词可见率构建目标列表;发送所述目标列表至目标地址,
根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度包括:在所述目标地址上获取所述目标列表中的每个关键词和所述每个关键词对应的关键词可见率;以及分别根据所述目标列表中的每个关键词和所述每个关键词对应的关键词可见率分析所述目标网页中关键词对搜索引擎的可见度。
6.一种网页内容对搜索引擎可见度的分析装置,其特征在于,包括:
提取单元,用于通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,所述关键词集合为在所述目标网页内容中出现的频次在预设范围内的关键词组成的集合,所述关键词集合中每个关键词在所述目标网页中出现的频次记为第一频次;
统计单元,用于在浏览器中加载所述目标网页后分别统计所述关键词集合中每个关键词出现的频次,得到所述每个关键词对应的第二频次;
第一计算单元,用于分别根据所述每个关键词对应的第一频次和所述每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及
第一分析单元,用于根据所述每个关键词可见率分析所述目标网页中关键词对搜索引擎的可见度。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二计算单元,用于将所述每个关键词对应的第一频次相加,得到第一频次总和;
第三计算单元,用于将所述每个关键词对应的第二频次相加,得到第二频次总和;
第四计算单元,用于根据所述第一频次总和与所述第二频次总和计算目标网页内容可见率,其中,所述目标网页内容可见率=所述第一频次总和/所述第二频次总和*100%;以及
第二分析单元,用于根据所述目标网页内容可见率分析所述目标网页中内容对所述搜索引擎的可见度。
8.根据权利要求6所述的装置,其特征在于,所述第一分析单元包括:
第一提取模块,用于在所述每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;
第一判断模块,用于判定所述搜索引擎抓取所述第一关键词子集合中关键词的抓取概率大于预设抓取概率;
第二提取模块,用于在所述每个关键词可见率中选取小于或等于所述预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及
第二判断模块,用于判定所述搜索引擎抓取所述第二关键词子集合中关键词的抓取概率小于所述预设抓取概率。
9.根据权利要求6所述的装置,其特征在于,所述提取单元包括:
第三提取模块,用于采用预设提取工具针对目标网页提取关键词,其中,提取的关键词为在所述目标网页中出现的频次在预设范围内的关键词;
筛选模块,用于从所述提取的关键词中进行筛选得到目标关键词;以及
构建模块,用于通过所述目标关键词组成所述关键词集合。
10.根据权利要求6所述的装置,其特征在于,
所述装置还包括:构建单元,用于根据每个关键词和所述每个关键词对应的关键词可见率构建目标列表;发送单元,用于发送所述目标列表至目标地址,
第一分析单元还用于在所述目标地址上获取所述目标列表中的每个关键词和所述每个关键词对应的关键词可见率;以及分别根据所述目标列表中的每个关键词和所述每个关键词对应的关键词可见率分析所述目标网页中关键词对搜索引擎的可见度。
CN201510894827.6A 2015-11-27 2015-11-27 网页内容对搜索引擎可见度的分析方法及装置 Active CN106815278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510894827.6A CN106815278B (zh) 2015-11-27 2015-11-27 网页内容对搜索引擎可见度的分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510894827.6A CN106815278B (zh) 2015-11-27 2015-11-27 网页内容对搜索引擎可见度的分析方法及装置

Publications (2)

Publication Number Publication Date
CN106815278A CN106815278A (zh) 2017-06-09
CN106815278B true CN106815278B (zh) 2020-02-28

Family

ID=59105725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510894827.6A Active CN106815278B (zh) 2015-11-27 2015-11-27 网页内容对搜索引擎可见度的分析方法及装置

Country Status (1)

Country Link
CN (1) CN106815278B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103098051A (zh) * 2010-08-23 2013-05-08 威仕达品特技术有限公司 搜索引擎优化助理
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059458A1 (en) * 2006-09-06 2008-03-06 Byron Robert V Folksonomy weighted search and advertisement placement system and method
US8972275B2 (en) * 2011-03-03 2015-03-03 Brightedge Technologies, Inc. Optimization of social media engagement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103098051A (zh) * 2010-08-23 2013-05-08 威仕达品特技术有限公司 搜索引擎优化助理
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法

Also Published As

Publication number Publication date
CN106815278A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN107862022B (zh) 文化资源推荐系统
US10909427B2 (en) Method and device for classifying webpages
WO2018028099A1 (zh) 搜索质量评估方法及装置
CN107153656B (zh) 一种信息搜索方法和装置
WO2013121181A1 (en) Method of machine learning classes of search queries
CN105247507A (zh) 品牌的影响力得分
WO2014173349A1 (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
CN105183873A (zh) 恶意点击行为检测方法及装置
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN110287409B (zh) 一种网页类型识别方法及装置
CN106790487A (zh) 帮助信息的显示方法、装置及系统
CN103530364A (zh) 提供下载链接的方法及系统
CN105404631B (zh) 图片识别方法和装置
CN103744941A (zh) 一种基于网站属性信息确定网站评测结果的方法和装置
CN106168968A (zh) 一种网站分类方法及装置
CN110457595B (zh) 突发事件报警方法、装置、系统、电子设备及存储介质
KR101555039B1 (ko) 감정 사전 구축 장치 및 감정 사전 구축 방법
CN103324641A (zh) 信息记录推荐方法和装置
CN106815277B (zh) 搜索引擎优化的评估方法及装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN103617262A (zh) 图片内容属性识别方法和系统
CN108241611B (zh) 一种关键词提取方法以及提取设备
CN110781497B (zh) 网页链接的检测方法及存储介质
CN112115280A (zh) 一种全媒体影响力传播分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant