CN108984801A - 一种基于html标签识别异步加载内容的搜索引擎优化方法 - Google Patents
一种基于html标签识别异步加载内容的搜索引擎优化方法 Download PDFInfo
- Publication number
- CN108984801A CN108984801A CN201810959330.1A CN201810959330A CN108984801A CN 108984801 A CN108984801 A CN 108984801A CN 201810959330 A CN201810959330 A CN 201810959330A CN 108984801 A CN108984801 A CN 108984801A
- Authority
- CN
- China
- Prior art keywords
- content
- label
- html
- url
- html tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
一种基于HTML标签识别异步加载内容的搜索引擎优化方法,步骤如下:1)在网页上定义一种可识别的HTML标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签;搜索器利用网络爬虫抓取HTML文本内容;2)爬虫利用正则表达式匹配指定标签,如果没有匹配到该标签则进行6),如果匹配到进行3);3)遍历标签并识别标签中的链接属性,将属性中的url放入内存中;4)读取内容中存储的url,利用多线程发送请求;5)将请求返回的文本信息拼接到HTML文档对应的位置;6)对HTML文档内容进行编码压缩存入网页库。
Description
技术领域
本发明属于计算机处理技术的服务发现领域,具体涉及一种基于HTML标签识别异步加载内容的搜索引擎优化方法。
背景技术
随着阿里、百度、腾讯等企业的成功,互联网思维越来越频繁的被大家所提及。越来越多的公司开始利用互联网提升自身企业的知名度,展示企业产品,介绍企业服务。利用百度、谷歌等搜索引擎的规则,提高网站在有关搜索引擎内的自然排名,这样的工作被称为搜索引擎优化(Search Engine Optimization,SEO)。
搜索引擎中有搜索器即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
由于搜索引擎不会收录异步加载的内容,因此,一直以来页面内容的展现都会受到SEO的制约。如果页面内容过多则可能导致响应速度变慢;如果将页面内容按模块拆分,则会影响搜索引擎的收录效果;如果引入缓存,则会增加的系统的复杂度。另一方面如果多个系统都包含一个重复模块的话,将共用模块抽取出来,然后在异步加载无疑是一个不错的方案,但是考虑到seo的话,又不得不放弃。因此我们希望能够定义一个特殊的HTML标签,标签的文档是异步加载出来的。搜索引擎识别该标签,并将该标签中的文档信息加载到原来抓取的内容中。这样可以优化用户体验、方便程序设计同时不影响搜索引擎的收录。
发明内容
为解决现有技术存在的问题,本发明目的是,提出一种基于HTML标签识别异步加载内容的搜索引擎优化方法;在网页上定义一种可识别的HTML(超文本标记语言)标签,当网页爬虫抓取页面时,如果识别到该标签则会进入发起请求,并将请求响应的内容和当前文档一并返回。
本发明技术方案,一种基于HTML标签识别异步加载内容的搜索引擎优化方法,具体步骤如下:
步骤1:在网页上定义一种可识别的HTML(超文本标记语言)标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签;搜索器利用网络爬虫抓取HTML文本内容,
步骤2:爬虫利用正则表达式匹配指定标签<async></async>,如果没有匹配到该标签则进行步骤6,如果匹配到进行步骤3,
步骤3:遍历标签并识别标签中的链接属性,将属性中的url(统一资源定位符)放入内存中;
步骤4:读取内容中存储的url,利用多线程发送请求;
步骤5:将请求返回的文本信息拼接到HTML文档对应的位置;
步骤6:对HTML文档内容进行编码压缩存入网页库。
进一步的,本发明解决爬虫识别指定标签的实现方法中,该标签数量应当限定在5个以内,如果超过5个则会导致当前线程等待时间过长,影响爬虫效率。
进一步的,所述的读取内存中存储的url的实现方法,如果某个请求的返回码等于200、301或302则将返回内容放入缓存,下次再匹配到同样的url时,直接从缓存中读取数据,而不再发送新的请求;如果该请求的返回码大于400,则将该请求放入黑名单,之后再识别到该url时不再发送请求。爬虫任务结束后,释放黑名单中的url以及缓存中的存储内容。
有益效果:同传统的搜索引擎一样,本发明涉及的引擎也是基于搜索器、索引器、检索器、用户接口四个部分。本发明优化主要是针对搜索器进行优化改进。
现有的搜索引擎规则无法收录异步加载的内容,这严重限制了应用页面的设计工作。本发明与现有技术相比,其技术效果:
同一域名下的多个应用如果包含公共部分,通过这种方式可以只维护一份代码,其他应用异步调用即可。
如果页面中某部分内容的加载比较耗时,但又需要考虑SEO即可利用ajax方式异步调用此部分内容。
本发明能减少现有搜索引擎规则对页面开发的限制,保证收录效果的同时,提高接口的可复用性、加快页面加载速度,提升用户体验。
附图说明
图1是本发明实施例中基于HTML标签识别异步加载内容请求结构实例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
一种可识别的HTML(超文本标记语言)标签,在网页上定义一种可识别的HTML(超文本标记语言)标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签<async></async>,该htm标签数量应当限定在5个以内,如果超过5个则会导致当前线程等待时间过长,影响爬虫效率。当网页爬虫抓取页面时,如果识别到该HTML标签则会发起请求,并将请求返回的结果插入到对应的标签范围中,然后对完整的HTML文档内容进行编码压缩存入网页库。
如果页面中某部分内容的逻辑比较复杂,处理比较耗时,那么可以将这部分业务抽取出单独的接口。页面在加载时通过页面JavaScript异步调用该接口即可解决加载时间过长的问题。但是这种方式会影响SEO效果,针对这个问题,本发明提供了一种解决方案。同理,如果同域名下的多个子系统的页面中有同样的页面模块,也可以利用这种方式进行加载。这样做可以减少项目的维护成本。
如果页面中某部分内容的加载比较耗时,但又需要考虑SEO,那么将这部分业务单独抽取出一个接口,将接口的url置于<async>标签的href属性中,在保证SEO的同时,可以提升页面加载速度。同理,如果同域名下的多个子系统的页面中有同样的页面模块,也可以利用这种方式进行加载。这样做可以减少项目的维护成本。
爬虫软件读取内存中存储的url的实现方法,如果某个请求的返回码等于200、301或302,则将返回的内容放入缓存,下次再匹配到同样的url时,直接从缓存中读取数据,而不再发送新的请求;如果该请求的返回码大于400,则将该请求放入黑名单,之后再识别到该url时不再发送请求。爬虫任务结束后,释放黑名单中的url以及缓存中的存储内容。
图1为本发明实施例中示意图。是基于网页中设有HTML标签,爬虫抓取HTML文本内容时,识别异步加载内容的实施步骤如下:
步骤1:搜索器利用网络爬虫抓取HTML文本内容;
步骤2:网络爬虫利用正则表达式匹配指定标签,如果没有匹配到该标签则进行步骤6,如果匹配到进行步骤3;
步骤3:遍历标签并识别标签中的链接属性,将属性中的url(统一资源定位符)放入内存中。
步骤4:读取内容中存储的url,利用多线程发送请求;
步骤5:将请求返回的文本信息拼接到HTML文档对应的位置;
步骤6:对HTML文档内容进行编码压缩存入网页库。
以上所述本发明的实施例并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均以包含在本发明的保护范围之内。
Claims (4)
1.一种基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,步骤如下:
步骤1:在网页上定义一种可识别的HTML标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签;搜索器利用网络爬虫抓取HTML文本内容;
步骤2:爬虫利用正则表达式匹配指定标签,如果没有匹配到该标签则进行步骤6,如果匹配到进行步骤3;
步骤3:遍历标签并识别标签中的链接属性,将属性中的url放入内存中;
步骤4:读取内容中存储的url,利用多线程发送请求;
步骤5:将请求返回的文本信息拼接到HTML文档对应的位置;
步骤6:对HTML文档内容进行编码压缩存入网页库。
2.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,HTML标签数量应当限定在5个以内。
3.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,所述的读取内存中存储的url的实现方法,如果某个请求的返回码等于200、301或302则将返回内容放入缓存,下次再匹配到同样的url时,直接从缓存中读取数据,而不再发送新的请求;如果该请求的返回码大于400,则将该请求放入黑名单,之后再识别到该url时不再发送请求。爬虫任务结束后,释放黑名单中的url以及缓存中的存储内容。
4.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,如果页面中某部分内容的加载比较耗时,但又需要考虑SEO,那么将这部分业务单独抽取出一个接口,将接口的url置于标签<async>的href属性中,在保证SEO的同时,提升页面加载速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810959330.1A CN108984801A (zh) | 2018-08-22 | 2018-08-22 | 一种基于html标签识别异步加载内容的搜索引擎优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810959330.1A CN108984801A (zh) | 2018-08-22 | 2018-08-22 | 一种基于html标签识别异步加载内容的搜索引擎优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108984801A true CN108984801A (zh) | 2018-12-11 |
Family
ID=64547241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810959330.1A Pending CN108984801A (zh) | 2018-08-22 | 2018-08-22 | 一种基于html标签识别异步加载内容的搜索引擎优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984801A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN111243044A (zh) * | 2020-01-06 | 2020-06-05 | 福建天泉教育科技有限公司 | 含图片网页的pdf转码方法、存储介质 |
CN111831942A (zh) * | 2019-04-15 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 对搜索结果进行页面显示的方法、装置、电子设备 |
CN112667945A (zh) * | 2020-12-25 | 2021-04-16 | 政和科技股份有限公司 | 一种基于前后端分离技术开发网站的seo优化方法 |
CN113835740A (zh) * | 2021-11-29 | 2021-12-24 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089856A (zh) * | 2007-07-20 | 2007-12-19 | 李沫南 | 一种提取网页数据的方法和Web爬虫系统 |
CN101515300A (zh) * | 2009-04-02 | 2009-08-26 | 阿里巴巴集团控股有限公司 | 一种Ajax网页内容的抓取方法及系统 |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN104991904A (zh) * | 2015-06-16 | 2015-10-21 | 浪潮软件集团有限公司 | 一种动态网页的页面数据采集方法 |
CN106599270A (zh) * | 2016-12-23 | 2017-04-26 | 浙江省公众信息产业有限公司 | 网络数据抓取方法和爬虫 |
CN106649810A (zh) * | 2016-12-29 | 2017-05-10 | 山东舜网传媒股份有限公司 | 基于Ajax的新闻网页动态数据的抓取方法及系统 |
-
2018
- 2018-08-22 CN CN201810959330.1A patent/CN108984801A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089856A (zh) * | 2007-07-20 | 2007-12-19 | 李沫南 | 一种提取网页数据的方法和Web爬虫系统 |
CN101515300A (zh) * | 2009-04-02 | 2009-08-26 | 阿里巴巴集团控股有限公司 | 一种Ajax网页内容的抓取方法及系统 |
US20120011431A1 (en) * | 2009-04-02 | 2012-01-12 | Alibaba Group Holding Limited | Method and System of Retrieving Ajax Web Page Content |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN104991904A (zh) * | 2015-06-16 | 2015-10-21 | 浪潮软件集团有限公司 | 一种动态网页的页面数据采集方法 |
CN106599270A (zh) * | 2016-12-23 | 2017-04-26 | 浙江省公众信息产业有限公司 | 网络数据抓取方法和爬虫 |
CN106649810A (zh) * | 2016-12-29 | 2017-05-10 | 山东舜网传媒股份有限公司 | 基于Ajax的新闻网页动态数据的抓取方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831942A (zh) * | 2019-04-15 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 对搜索结果进行页面显示的方法、装置、电子设备 |
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN110929257B (zh) * | 2019-10-30 | 2022-02-01 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN111243044A (zh) * | 2020-01-06 | 2020-06-05 | 福建天泉教育科技有限公司 | 含图片网页的pdf转码方法、存储介质 |
CN112667945A (zh) * | 2020-12-25 | 2021-04-16 | 政和科技股份有限公司 | 一种基于前后端分离技术开发网站的seo优化方法 |
CN113835740A (zh) * | 2021-11-29 | 2021-12-24 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
CN113835740B (zh) * | 2021-11-29 | 2022-02-22 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984801A (zh) | 一种基于html标签识别异步加载内容的搜索引擎优化方法 | |
CN108052632B (zh) | 一种网络信息获取方法、系统及企业信息搜索系统 | |
CN102148805B (zh) | 特征匹配方法和装置 | |
CN101676907A (zh) | 一种互联网资源定向获取方法及系统 | |
CN102054028A (zh) | 具备页面渲染功能的网络爬虫系统及其实现方法 | |
CN102768683B (zh) | 一种图片信息的搜索方法及搜索装置 | |
CN104317948A (zh) | 页面数据抓取方法和系统 | |
CN103559234A (zh) | RESTful Web服务的自动化语义标注系统和方法 | |
CN101393565A (zh) | 基于本体的面向虚拟博物馆的搜索方法 | |
CN101571860A (zh) | 动态网页生成方法和装置、提取结构化数据的方法和装置 | |
CN110309386B (zh) | 一种网页爬取的方法和装置 | |
CN109033203A (zh) | 一种面向大数据的特征提取并行处理方法 | |
CN104572934A (zh) | 一种基于dom的网页关键内容抽取方法 | |
CN112925968A (zh) | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 | |
CN106326236A (zh) | 一种网页内容识别方法和系统 | |
KR101287371B1 (ko) | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 | |
US20150106376A1 (en) | Document tagging and retrieval using entity specifiers | |
Yang et al. | Closing the loop in webpage understanding | |
CN108121743A (zh) | 一种通用网页模版的生成和使用方法、系统 | |
CN110297994A (zh) | 网页数据的采集方法、装置、计算机设备和存储介质 | |
Liu et al. | Topical Web Crawling for Domain-Specific Resource Discovery Enhanced by Selectively using Link-Context. | |
CN114443927A (zh) | 一种高效网络爬取方法及装置 | |
Zhang et al. | AJAX crawling scheme based on Document Object Model | |
WO2017113324A1 (zh) | 基于正则表达式的url过滤方法 | |
CN107122389B (zh) | 一种实现流式和多模式快速查找网页中url链接的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181211 |