CN105912613A

CN105912613A - 一种网站模板快速迁移的方法

Info

Publication number: CN105912613A
Application number: CN201610211758.9A
Authority: CN
Inventors: 何中; 张安兵; 顾永新; 陈静; 戴建峰; 徐晓辉; 薛炜
Original assignee: JIANGSU ZHONGWEI TECHNOLOGY SOFTWARE SYSTEM Co Ltd
Current assignee: JIANGSU ZHONGWEI TECHNOLOGY SOFTWARE SYSTEM Co Ltd
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2016-08-31

Abstract

本发明提供了一种网站模板快速迁移的方法，包括如下步骤，步骤一：抓取需要迁移网站的所有页面和资源文件；步骤二：将步骤一中抓取到的页面和资源文件添加可视化标识；步骤三：将步骤二中可视化标识解析生成可视化效果框架；步骤四：提取步骤一中的网站网页的DOM结构进行可视化设置生成网页模板；步骤五：根据步骤四中的网页模板发布生成网站。本发明通过采用网络爬虫、正则表达式和模板解析方式或者其组合的方式进行抓取网页资源信息，从而实现了网站迁移的简单、快速和高效性。

Description

一种网站模板快速迁移的方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种网站模板快速迁移的方法。

背景技术

互联网的网站由于各种原因，往往需要恢复，重建和搬迁等，在网站重现的过程中如何利用相关技术方法、工具来恢复网页“原貌”，为用户呈现已存档的web资源是保存资源应用中的一个重要问题。另外，由于WA的累积性保存，网页重现(Web representation)技术能真实呈现页面在不同时间点的版本，帮助用户了解网页的历史实况和发展演进过程，也因此为社会科学研究提供了大量的原始数据。在实际保存活动中，基于WA的网页重现面临诸多的困难和挑战。由于缺少有效的网页更新、监测的管理机制来及时定位网页的演变过程，以及普通的网络爬虫无法发现深层的网络资源等原因，导致网页历史数据保存的不完整；网页超链接情景变更控制、各个时间结点管理等技术方面的局限性也是阻碍重现效果不佳的因素。

通常一个网站或者一个网站群在进行系统升级或者换新系统的时候，如果用户还想保持网站页面样式不变。那就需要对网页进行迁移。如果新系统没有使用模板技术，全部是动态页面，则这些页面需要一个个进行代码编写，工作量大，耗时也比较久。如果新系统，使用现有的模板技术，一种使用的是加标签的方式，一种使用的是可视化设置。如果是加标签方式，需要手动添加标签，而且需要有一定HTML代码基础的人才能使用；如果是可视化设置的方式，则可能改变了原来网页的样式，无法保持与原来的样式完全一致。

例如中国专利CN102103622A6公开的一种网站重建方法，该方法包括：下载步骤：下载目标网站的数据；非网页处理步骤：当下载的数据是非网页数据时，存储该非网页数据；过滤步骤：当下载的数据是网页时，对该网页进行过滤，以去除该网页中的无效数据；判断步骤：判断过滤后的网页是否包含指向目标网站的其他数据的链接、层次数据及网页正文；链接处理步骤：对于过滤后的网页中的指向目标网站的其他数据的链接，返回下载步骤，从远程服务器下载该链接指向的数据；层次数据处理步骤：对于过滤后的网页中的层次数据，解析该层次数据的层次关系，获得层次数据的叶子结点，将层次数据按照其层次关系进行存储，并且判断层次数据的叶子结点是否包含指向目标网站的其他数据的链接，对于叶子结点中指向目标网站的其他数据的链接，返回下载步骤，从远程服务器下载该链接指向的数据；网页正文处理步骤：对于过滤后的网页中的网页正文，存储该网页正文；及重构步骤：将存储的非网页数据、层次数据及网页正文按照原有的结构形成本地网站。该方法需要下载全部的网站数据，工作量大，耗时长。

又例如北京中国科学院国家科学图书馆期刊号为100190的标题为基于WebArchive的网页重现方法及应用研究的文章中公开了基于Web Archive的网页重现方法，其中包括Just-In-Time—利用Opal框架恢复网站Lazy preserva-tion—二次采集方法重建网站，其中Lazy Preservation在网站重建过程中首先会利用爬虫根据重建网站的URL从网络仓储中下载资源，从中抽取出更多相关URL，放入需继续采集的种子站点(Seed URLs)队列中(Frontier)，同时标注已访问URL列表(visited URLs)，将下载资源存入Repo；然后，循环从队列中提取种子URL进行下载处理。下载过程中由网络仓储爬虫决定选择同一URL的哪一版本的资源，通常情况下是采集最新版本的缓存资源。该方法中抓取网页资源的方法比较单一，不能适用于资源类型较多的网页。适用性不强，且工作量较大，耗时较长。

发明内容

为克服现有技术中存在的网页迁移，工作量大，耗时久，操作复杂的问题，本发明提供了一种网站模板快速迁移的方法。

一种网站模板快速迁移的方法，包括如下步骤：

步骤一：抓取需要迁移网站的所有页面和资源文件；

步骤二：将步骤一中抓取到的页面和资源文件添加可视化标识；

步骤三：将步骤二中可视化标识解析生成可视化效果框架；

步骤四：提取步骤一中的网站网页的DOM结构进行可视化设置生成网页模板；

步骤五：根据步骤四中的网页模板发布生成网站。

进一步的，所述抓取的方式采用网络爬虫进行抓取所有页面和资源文件。

进一步的，所述抓取的方式采用正则表达式进行抓取所有页面和资源文件。

进一步的，所述抓取的方式采用模板解析的方式进行抓取所有页面和资源文件。

进一步的，所述抓取的方式采用网络爬虫和正则表达式组合的方式进行抓取所有页面和资源文件。

进一步的，所述抓取的方式采用网络爬虫、正则表达式和用模板解析组合的方式进行抓取所有页面和资源文件。

进一步的，所述添加可视化标识的方式采用正则表达式的方式进行添加可视化标签。

进一步的，所述解析生成可视化效果框架过程中采用虚线框标识出可编辑区域。

进一步的，所述DOM结构的HTML代码为原网页中的HTML代码。

进一步的，所述生成网站的过程中根据网页模板里的标签，并且获取数据库的数据，并进行动态填充到模板里最终形成网页。

与现有技术相比，本发明的有益效果是：

(1)本发明通过使用爬虫技术自动下载原网页，并且可以配合正则表达式和模板解析的方式进行抓取网页资源文件，减少了工作量，提高了效率，节约了成本。

(2)本发明通过网页模板编辑的方式进行新网站的设计，使得网站编辑可视化，并且采用可视化编辑使得网站迁移过程简单，容易操作，大大降低了操作者的工作难度。

(3)本发明通过模板可视化编辑提取原网页结构进行设置，并且采用和原网页相一致的HTML代码，从而确保了迁移后的网站与原网页样式一致。

附图说明

图1是本发明的流程示意图；

图2是本发明的解析生成可视化效果框架的实例图；

图3是本发明的板设置的实例图。

具体实施方式

以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本具体实施方式披露了一种网站模板快速迁移的方法，如图1所示是网站模板快速迁移的方法的流程图，包括步骤一：抓取需要迁移网站的所有页面和资源文件，抓取的方式采用网络爬虫进行抓取所有页面和资源文件。其中，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫可以定向抓取相关网络资源，应用在网站模板迁移中可以快速的抓取网站页面内的所需资源。在本具体实施例中，资源文件包括图片、CSS、JS等。优选的，首先网络爬虫会从指定网站下载网页，从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。优选的，本具体实施例中的网络爬虫还可以是聚焦爬虫，其根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，聚焦爬虫将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。采用这一方法抓取资源，一方面可以避免抓取垃圾信息，另一方面可以通过索引程序将抓取的信息进行直观展现，从而将复杂的资源抓取过程简单化。

优选的，抓取的方式也可以采用正则表达式进行抓取所有页面和资源文件。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。通过正则表达式的灵活性、逻辑性和功能性非常的强，并且可以迅速地用极简单的方式达到字符串的复杂控制。正则表达式主要应用对象是文本，在本具体实施例中，可以通过正则表达式对指定网站的代码文本文件进行抓取，即HTML文本。并且，优选的，可以采用DFA引擎作为正则表达式的索引抓取引擎。DFA引擎在线性时状态下执行，因为它们不要求回溯，并因此它们永远不测试相同的字符两次。DFA引擎还可以确保匹配最长的可能的字符串。因此大大提高了字符抓取的效率，从而能够快速的抓取网站的资源文件。

优选的，抓取的方式也可以采用模板解析的方式进行抓取所有页面和资源文件。模板引擎是为了使用户界面与业务数据(内容)分离而产生的，它可以生成特定格式的文档，用于网站的模板引擎就会生成一个标准的HTML文档。模板引擎不只是可以让你实现代码分离(业务逻辑代码和用户界面代码)，也可以实现数据分离(动态数据与静态数据)，还可以实现代码单元共享(代码重用)，甚至是多语言、动态页面与静态页面自动均衡(SDE)等等与用户界面可能没有关系的功能。通过模板引擎可以实现网页的各种内容与用户的界面的分离，使得资源抓取的过程变得简单可行。

优选的，抓取的方式还可以采用网络爬虫和正则表达式组合的方式或者网络爬虫和模板解析组合的方式或者正则表达式和模板解析组合的方式或者网络爬虫、正则表达式和用模板解析组合的方式进行抓取所有页面和资源文件。其中，通过组合使用可以避免单一方式的缺陷导致不能将原网站的所有信心抓取，导致迁移后的网站失真。也可以根据具体的需求进行选择抓取的方式，如果网站的内容较为单一，仅包括单一的文本文件，则可以通过正则表达式进行抓取网站资源文件；如果网络资源允许且网站资源文件较大时则可以通过网络爬虫进行抓取网站资源文件；如果网站资源文件包含较多类型的文件，例如既包含动态文件也包含静态文件，则可以通过正则表达式进行抓取网站资源文件。当然，如果是其他情况也可以通过自由组合的方式进行抓取资源文件。

步骤二：将步骤一中抓取到的页面和资源文件添加可视化标识。步骤一种抓取的网页都是静态的页面，需要将这些网页添加可视化标签，以便后面进行可视化设置。优选的，通过正则表达式给网页添加可视化标签，将需要设置的地方加上可视化标签。优选的，采用<div>、<span>、<input>等标签进行可视化标识，并且可视化标签为文本中唯一标签以区别于普通标签，并且可视化标签具有和最终代码相似的尺寸。为方便操作，可视化标签还包括多个参数及参数值，其中参数及参数值定义了使用网页数据来生成替换该标签的最终HTML代码；参数至少包括标签的类型参数和查询参数。

步骤三：将步骤二中可视化标识解析生成可视化效果框架。遍历网页中的可视化标签，构建可视化效果框架，效果框架是位于选中的内容区域上方的模板，用虚线框标识出来，表明这个区域是可编辑区域。具体的，通过可视化生成器来实现，可视化生成器包括可视化标签读取模块、操作界面启动模块、页面元素插入模块和页面生成模块；其中，可视化标签读取模块采用模板解析的方法读取步骤二中的设置在整个页面的可视化标签，并采用添加虚线框的方式将可编辑区域标识出来；操作界面启动模块用于启动用户可操作的操作界面，用户可通过操作界面对标识出的可视化区域进行编辑，优选的，用户看根据需要采用不同的形状对区域进行标识，可以采用规则的矩形，也可以是其他不规则的自由形状；在操作界面中，用户还可以调用页面元素插入模块进行其他可视化编辑以使得编辑区域更加贴近原网站页面；并且用户还可以进行翻页和跳页操作，可根据需要翻到之前编辑的页面进行操作，从而可以方便用户检查编辑过的区域页面；最终，用户可将编辑完成的框架通过页面生成模块形成页面。例如本具体实施例中示出的一个具体案例，参照图2，其中“通知”部分、“更多”部分以及下方的具体通知的连接均为可编辑区域，通过虚线框的形式将其标识了出来。

步骤四：提取步骤一中的网站网页的DOM结构进行可视化设置生成网页模板。网页模板就是已经做好的网页框架，使用网页编辑软件输入自己需要的内容，再发布到自己的网站。采用模板建设网页可以有利于保持网页风格的一致；提高工作效率。在本具体实施例中需要点击步骤三中生成的虚线框，抽取虚线框里的网页代码即HTML代码，根据代码向其中插入标题、日期、URL等模板标签，生成网页模板。由于HTML代码完全是提取的原网页的，所以保证了网页的样子与原网页的一致。例如本具体实施例中示出的一个具体案例，参照图3，其中模板设置包括如下步骤，第一步：样式类型的选择，这一步中可以选择网页模板的样式，优选的可选择与原网站相近的模板类型进行设置；第二步：单元类型的选择，这一步可以选择具体的需要编辑的区域的单元类型；第三步：参数配置，具体的内容包括选择内容来源项、选择栏目项、标题长度项、摘要长度项、时间格式项、信息条数项以及代码设计区域，其中内容来源选项用以选择栏目类型，选择栏目项用以选择具体的栏目，标题长度项和摘要长度项用于设置标题长度和摘要长度参数，时间格式项用于选择时间的格式，信息条数项用于选择设置可容纳信息条目数；代码设计区域位于右侧，用以展示选中的虚线框内抽取到的网页代码，优选的，每一条代码均采用编号方式进行编号，并且通过右键可以显示元素配置框及下拉菜单，用户可以通过下拉菜单选择需要配置的元素，元素可以是网络名称、网站链接、信息(ID)、标题(完整)、标题(缩略)、标题名称、标题链接和发布时间等，当然也可以是代码所包含的其他元素，通过上述设置可确保模板与原网页一致。

步骤五：根据步骤四中的网页模板发布生成网站。步骤四中的网页模板制成以后，就可以根据生成的网页模板生成新的网站。具体的，通过将网页模板安装到指定的新域名空间内实现网站的生成，生成网站的时候，是根据模板里的标签，并且获取数据库的数据和进行动态填充到模板里最终形成网页，从而实现了网站模板的迁移。

上述说明示出并描述了本发明的优选实施例，如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种网站模板快速迁移的方法，其特征在于，包括如下步骤：

步骤一：抓取需要迁移网站的所有页面和资源文件；

步骤三：将步骤二中可视化标识解析生成可视化效果框架；

步骤五：根据步骤四中的网页模板发布生成网站。

2.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述抓取的方式采用网络爬虫进行抓取所有页面和资源文件。

3.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述抓取的方式采用正则表达式进行抓取所有页面和资源文件。

4.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述抓取的方式采用模板解析的方式进行抓取所有页面和资源文件。

5.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述抓取的方式采用网络爬虫和正则表达式组合的方式进行抓取所有页面和资源文件。

6.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述抓取的方式采用网络爬虫、正则表达式和用模板解析组合的方式进行抓取所有页面和资源文件。

7.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述添加可视化标识的方式采用正则表达式的方式进行添加可视化标签。

8.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述解析生成可视化效果框架过程中采用虚线框标识出可编辑区域。

9.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述DOM结构的HTML代码为原网页中的HTML代码。

10.根据权利要求1所述的一种网站模板快速迁移的方法，其特征在于：所述生成网站的过程中根据网页模板里的标签，并且获取数据库的数据，并进行动态填充到模板里最终形成网页。