CN111125606A - 一种实现门户网站移动化展现的自动化方法和系统 - Google Patents

一种实现门户网站移动化展现的自动化方法和系统 Download PDF

Info

Publication number
CN111125606A
CN111125606A CN202010226437.2A CN202010226437A CN111125606A CN 111125606 A CN111125606 A CN 111125606A CN 202010226437 A CN202010226437 A CN 202010226437A CN 111125606 A CN111125606 A CN 111125606A
Authority
CN
China
Prior art keywords
information
style
content
data
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010226437.2A
Other languages
English (en)
Inventor
金震宇
朱浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dahan Software Co Ltd
Original Assignee
Dahan Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dahan Software Co Ltd filed Critical Dahan Software Co Ltd
Priority to CN202010226437.2A priority Critical patent/CN111125606A/zh
Publication of CN111125606A publication Critical patent/CN111125606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种实现门户网站移动化展现的自动化方法和系统,属于门户网站技术领域,包括以下步骤:通过httpClient模拟浏览器访问,采集信息并以xml的格式临时保存;对采集过的信息进行标记;轮询的解析线程自动读取临时文件目录中的xml文件,同时转换为统一的数据格式;将清洗完成后的信息保存在云端服务器上,并清空临时文件;在信息转换系统上创建同步任务,并关联数据转换模板,数据转换模板能够自定义每个字段中任意标签的样式。本发明通过提供导出、导入数据模板功能,能够自动识别模板中的标签样式,数据模板中标签和样式可以自定义,为移动端的页面提供了高度统一的样式风格。

Description

一种实现门户网站移动化展现的自动化方法和系统
技术领域
本发明涉及一种自动化方法和系统,特别是涉及一种实现门户网站移动化展现的自动化方法和系统,属于门户网站技术领域。
背景技术
虽然互联网技术早已跃升到移动时代,但因为种种原因,许多大型政府企业的门户系统,仍旧是基于异构的老旧系统开发维护的,对外既没有内容的输出API,也没有数据库直接读取的权限,传统的信息门户没有办法做到移动化的自动转化,需要分别维护门户和移动端的频道和信息,导致维护较多内容重复,浪费资源。
现有技术的缺陷和不足:(1)PC和移动端单独维护,维护成本高;(2)目前对门户网站信息的提取,无法满足移动端展示的规范,往往保留了门户系统中的页面样式风格,在移动端的排版、间距、格式无法达到高度统一;(3)无法根据需要自定义移动端的样式,根据不同的门户网站创建不同的样式模板。
发明内容
本发明的主要目的是为了解决现有技术的不足而提供一种具有高度统一的样式风格和导入数据模板功能的实现门户网站移动化展现的自动化方法和系统。
本发明的目的可以通过采用如下技术方案达到:
一种实现门户网站移动化展现的自动化方法,包括以下步骤:
步骤1:通过httpClient模拟浏览器访问,采集信息并以xml的格式临时保存;
步骤2:对采集过的信息进行标记;
步骤3:轮询的解析线程自动读取临时文件目录中的xml文件,同时转为为统一的数据格式;
步骤4:将清洗完成后的信息保存在云端服务器上,并清空临时文件;
步骤5:在信息转换系统上创建同步任务,并关联数据转换模板,数据转换模板能够自定义每个字段中任意标签的样式;
步骤6:启动信息转换系统上的同步任务,将采集信息同步到信息转换系统上;
步骤7:信息转换系统解析同步过去的xml文件并为每个字段添加自定义的样式,并生成新的xml文件;
步骤8:信息转换系统将信息同步给移动端,移动端在接收到信息后展示。
在步骤1中,通过httpClient模拟浏览器访问,采集门户网站内容页面信息,按前后标识提取对应字段的信息,并将采集信息以xml的格式保存在云端服务器的临时文件目录中。
在步骤2中,将采集过的信息缓存在列表中并根据信息的内容页地址进行标记。
在步骤3中,轮询的解析线程会自动从云端服务器的临时文件目录中读取xml文件,将每个采集项字段转换成DOM树,并清空DOM树上的每个node节点的样式属性,同时统一数据的格式。
信息转换系统能够自定义数据模板,设置标题、链接、发布时间、来源、内容各自对应相关标签的字体、大小以及行间距。
采集信息划分为标题、链接、发布时间、来源和内容五个字段。
一种实现门户网站移动化展现的自动化系统,包括:
信息采集系统,采集门户网站的信息;
数据清洗,对数据进行清洗,去除内容的style样式;
信息转换系统,对每一个栏目中的内容页进行适配模板,为内容添加样式标签,并重组成新的内容页信息;
移动端适配,接收信息转换系统重组后的内容页信息,进行适配展现。
优选的,在信息转换系统中创建关联关系任务,将同一栏目下的内容页与指定模板关联起来。
优选的,信息转换系统为内容添加font-size或者line-height样式标签。
本发明的有益技术效果:按照本发明的实现门户网站移动化展现的自动化方法和系统提供导出、导入数据模板功能,能够自动识别模板中的标签样式,数据模板中标签和样式可以自定义,为移动端的页面提供了高度统一的样式风格;提供对目标网站内网或外网的信息采集,采集的内容被同步到云端,再进行内容清洗和适配,转换成适合在移动端展现的形态,之后由移动客户端进行展现;该系统具备低成本部署、可配置和无需二次开发的特点,适合搬迁政企内部极度分散的老旧内容系统。
附图说明
图1为按照本发明的实现门户网站移动化展现的自动化方法和系统的一优选实施例的信息门户移动化自动化转化流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的实现门户网站移动化展现的自动化方法,包括以下步骤:
步骤1:通过httpClient模拟浏览器访问,采集信息并以xml的格式临时保存;
步骤2:对采集过的信息进行标记;
步骤3:轮询的解析线程自动读取临时文件目录中的xml文件,同时转为为统一的数据格式;
步骤4:将清洗完成后的信息保存在云端服务器上,并清空临时文件;
步骤5:在信息转换系统上创建同步任务,并关联数据转换模板,数据转换模板能够自定义每个字段中任意标签的样式;
步骤6:启动信息转换系统上的同步任务,将采集信息同步到信息转换系统上;
步骤7:信息转换系统解析同步过去的xml文件并为每个字段添加自定义的样式,并生成新的xml文件;
步骤8:信息转换系统将信息同步给移动端,移动端在接收到信息后展示。
在本实施例中,如图1所示,在步骤1中,通过httpClient模拟浏览器访问,采集门户网站内容页面信息,按前后标识提取对应字段的信息,并将采集信息以xml的格式保存在云端服务器的临时文件目录中;在步骤2中,将采集过的信息缓存在列表中并根据信息的内容页地址进行标记,防止重复采集;在步骤3中,轮询的解析线程会自动从云端服务器的临时文件目录中读取xml文件,将每个采集项字段转换成DOM树,并清空DOM树上的每个node节点的样式属性,转换为统一数据的格式,信息转换系统能够自定义数据模板,设置标题、链接、发布时间、来源、内容各自对应相关标签的字体、大小以及行间距;采集信息划分为标题、链接、发布时间、来源和内容五个字段,在步骤4中,将清洗完成后的信息保存在云端服务器上,并清空临时文件,能够更新数据同时减少数据的占用空间。
在本实施例中,如图1所示,一种实现门户网站移动化展现的自动化系统,系统包括:信息采集系统,采集门户网站的信息;数据清洗,对数据进行清洗,去除内容的style样式;信息转换系统,对每一个栏目中的内容页进行适配模板,为内容添加样式标签,并重组成新的内容页信息;移动端,接收信息转换系统重组后的内容页信息,在信息转换系统中创建关联关系任务,将同一栏目下的内容页与指定模板关联起来,信息转换系统为内容添加font-size或者line-height样式标签,提供导出、导入数据模板功能,能够自动识别模板中的标签样式,数据模板中标签和样式可以自定义,为移动端的页面提供了高度统一的样式风格;提供对目标网站内网或外网的信息采集,采集所得的内容被同步到云端,再进行内容清洗和适配,转换成适合在移动端展现的形态,之后由移动客户端进行展现;该系统具备低成本部署、可配置和无需二次开发的特点,适合搬迁政企内部极度分散的老旧内容系统。
在本实施例中,如图1所示,本实施例提供的一种实现门户网站移动化展现的自动化方法和系统的工作过程如下:
步骤1:通过httpClient模拟浏览器访问,采集门户网站内容页面信息,按前后标识提取对应字段的信息,并将采集信息以xml的格式保存在云端服务器的临时文件目录中;
步骤2:将采集过的内容页地址缓存在列表中,防止重复采集;
步骤3:轮询的解析线程会自动从云端服务器的临时文件目录中读取xml文件,将每个采集项字段转换成DOM树,并清空DOM树上的每个node节点的样式属性;
步骤4:将清空完成后的xml文件保存在云端服务器上,并清空临时文件;
步骤5:在信息转换系统上创建同步任务,并关联数据转换模板,数据转换模板可以自定义每个字段中任意标签的样式;
步骤6:启动信息转换系统上的同步任务,将xml文件同步到信息转换系统上;
步骤7:信息转换系统会解析同步过去的xml文件并为每个字段添加自定义的样式,并生成新的xml文件,从而实现移动端页面样式的高度统一;
步骤8:信息转换系统将信息同步给移动端,移动端在接收到信息后做适配展示。
综上所述,在本实施例中,按照本实施例的实现门户网站移动化展现的自动化方法和系统,提供导出、导入数据模板功能,能够自动识别模板中的标签样式,数据模板中标签和样式可以自定义,为移动端的页面提供了高度统一的样式风格;提供对目标网站内网或外网的信息采集,采集所得的内容被同步到云端,再进行内容清洗和适配,转换成适合在移动端展现的形态,之后由移动客户端进行展现;该系统具备低成本部署、可配置和无需二次开发的特点,适合搬迁政企内部极度分散的老旧内容系统,将清洗完成后的信息保存在云端服务器上,并清洗临时文件,能够更新数据同时减少数据占用空间,将每个采集项字段转换成DOM树,并清空DOM树上的每个node节点的样式属性,同时统一数据的格式,自动识别样式并统一数据格式,信息转换系统能够自定义数据模板,设置标题、链接、发布时间、来源、内容各自对应相关标签的字体、大小以及行间距,便于提供高度统一的样式风格,提供相应的内容周边服务如点评、统计、搜索推荐和监控等等,丰富了网站门户的内容,改变传统网站门户的老旧和刻板的形象。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (9)

1.一种实现门户网站移动化展现的自动化方法,其特征在于,包括以下步骤:
步骤1:通过httpClient模拟浏览器访问,采集信息并以xml的格式临时保存;
步骤2:对采集过的信息进行标记;
步骤3:轮询的解析线程自动读取临时文件目录中的xml文件,同时转换为统一的数据格式;
步骤4:将清洗完成后的信息保存在云端服务器上,并清空临时文件;
步骤5:在信息转换系统上创建同步任务,并关联数据转换模板,数据转换模板能够自定义每个字段中任意标签的样式;
步骤6:启动信息转换系统上的同步任务,将采集信息同步到信息转换系统上;
步骤7:信息转换系统解析同步过去的xml文件并为每个字段添加自定义的样式,并生成新的xml文件;
步骤8:信息转换系统将信息同步给移动端,移动端在接收到信息后展示。
2.如权利要求1所述的一种实现门户网站移动化展现的自动化方法,其特征在于,在步骤1中,通过httpClient模拟浏览器访问,采集门户网站内容页面信息,按前后标识提取对应字段的信息,并将采集信息以xml的格式保存在云端服务器的临时文件目录中。
3.如权利要求1所述的一种实现门户网站移动化展现的自动化方法,其特征在于,在步骤2中,将采集过的信息缓存在列表中并根据信息的内容页地址进行标记。
4.如权利要求1所述的一种实现门户网站移动化展现的自动化方法,其特征在于,在步骤3中,轮询的解析线程会自动从云端服务器的临时文件目录中读取xml,将每个采集项字段转换成DOM树,并清空DOM树上的每个node节点的样式属性,同时统一数据的格式。
5.如权利要求1所述的一种实现门户网站移动化展现的自动化方法,其特征在于,信息转换系统能够自定义数据模板,设置标题、链接、发布时间、来源、内容各自对应相关标签的字体、大小以及行间距。
6.如权利要求1所述的一种实现门户网站移动化展现的自动化方法,其特征在于,采集信息划分为标题、链接、发布时间、来源和内容五个字段。
7.一种实现门户网站移动化展现的自动化系统,其特征在于,包括:
信息采集系统,采集门户网站的信息;
数据清洗,对数据进行清洗,去除内容的style样式;
信息转换系统,对每一个栏目中的内容页进行适配模板,为内容添加样式标签,并重组成新的内容页信息;
移动端适配,移动端接收信息转换系统重组后的内容,做适配展现。
8.如权利要求7所述的一种实现门户网站移动化展现的自动化系统,其特征在于,在信息转换系统中创建关联关系任务,将同一栏目下的内容页与指定模板关联起来。
9.如权利要求7所述的一种实现门户网站移动化展现的自动化系统,其特征在于,信息转换系统为内容添加font-size或者line-height样式标签。
CN202010226437.2A 2020-03-27 2020-03-27 一种实现门户网站移动化展现的自动化方法和系统 Pending CN111125606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010226437.2A CN111125606A (zh) 2020-03-27 2020-03-27 一种实现门户网站移动化展现的自动化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010226437.2A CN111125606A (zh) 2020-03-27 2020-03-27 一种实现门户网站移动化展现的自动化方法和系统

Publications (1)

Publication Number Publication Date
CN111125606A true CN111125606A (zh) 2020-05-08

Family

ID=70493926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010226437.2A Pending CN111125606A (zh) 2020-03-27 2020-03-27 一种实现门户网站移动化展现的自动化方法和系统

Country Status (1)

Country Link
CN (1) CN111125606A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272543A (zh) * 2008-04-25 2008-09-24 巴别塔(北京)科技有限公司 一种无线数据传输方法
CN104158836A (zh) * 2014-06-23 2014-11-19 浙江大学城市学院 一种通过数据渲染移动应用界面的方法
CN104394172B (zh) * 2014-12-12 2018-05-25 用友网络科技股份有限公司 单点登录装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272543A (zh) * 2008-04-25 2008-09-24 巴别塔(北京)科技有限公司 一种无线数据传输方法
CN104158836A (zh) * 2014-06-23 2014-11-19 浙江大学城市学院 一种通过数据渲染移动应用界面的方法
CN104394172B (zh) * 2014-12-12 2018-05-25 用友网络科技股份有限公司 单点登录装置和方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘飞: "HTML流移动自适应转换关键技术的研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
崔尚森等: "《Web应用开发技术 JSP》", 30 June 2014, 西安电子科技大学出版社 *
张静: "一种企业移动信息服务平台中间件的研究设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李颖等: "基于Ajax的移动端异步交互新闻系统开发", 《巢湖学院学报》 *

Similar Documents

Publication Publication Date Title
CN111178027B (zh) 基于在线创建模板和在线指定数据的报告生成系统和方法
CN109299446B (zh) 报告生成方法及装置
CN109857956B (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
US7111011B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN103166981B (zh) 一种无线网页转码方法及装置
CN103246963B (zh) 基于物联网的员工培训系统
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN111859046A (zh) 一种基于污染要素源解析的水污染溯源系统及方法
CN116244476A (zh) 基于富文本的预标注前端可视化实现方法及系统
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置
CN110175026B (zh) 一种网页可视化编辑方法、装置及存储介质
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN113887182A (zh) 表格生成方法、装置、设备及存储介质
CN107562936A (zh) 一种基于Jsoup的网页新闻列表的抓取及保存方法
EP1959352A2 (en) System and method of report representation
CN112417353A (zh) 一种实现门户网站移动化展现的自动化方法和系统
CN109062913B (zh) 国际化资源智能获取方法、存储介质
CN111125606A (zh) 一种实现门户网站移动化展现的自动化方法和系统
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
CN113139145B (zh) 页面生成方法、装置、电子设备及可读存储介质
CN110807298B (zh) 一种对标记信息进行处理的方法及系统
CN100416464C (zh) 信息处理设备和信息处理方法
CN112752165A (zh) 字幕处理方法、装置、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication