CN105022806A - 基于翻译模板的互联网网页建构移动页面的方法与系统 - Google Patents

基于翻译模板的互联网网页建构移动页面的方法与系统 Download PDF

Info

Publication number
CN105022806A
CN105022806A CN201510383889.0A CN201510383889A CN105022806A CN 105022806 A CN105022806 A CN 105022806A CN 201510383889 A CN201510383889 A CN 201510383889A CN 105022806 A CN105022806 A CN 105022806A
Authority
CN
China
Prior art keywords
page
translation template
internet web
module
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510383889.0A
Other languages
English (en)
Other versions
CN105022806B (zh
Inventor
杨新勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Huituanshan Information Service Co ltd
Original Assignee
Xiamen 258 Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen 258 Group Co Ltd filed Critical Xiamen 258 Group Co Ltd
Priority to CN201510383889.0A priority Critical patent/CN105022806B/zh
Publication of CN105022806A publication Critical patent/CN105022806A/zh
Application granted granted Critical
Publication of CN105022806B publication Critical patent/CN105022806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤;翻译模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于翻译模板中;移动内容转换步骤:通过移动设备访问翻译模板后台学习步骤中已生成翻译模板的互联网网页,获取翻译模板,并对互联网网页的内容进行转换,填入翻译模板对应的位置,生成移动页面。本发明的实施,能够解决传统企业网站的移动站点制作问题,极大降低了企业移动站点制作成本,使用时,只需提供企业网址即可。

Description

基于翻译模板的互联网网页建构移动页面的方法与系统
技术领域
本发明涉及移动网站建站技术,更具体地说,涉及一种基于翻译模板的互联网网页自动化同步建构移动页面的方法与系统。
背景技术
随着智能手机、平板电脑等移动设备的普及,移动互联网成为了一大流量入口。传统企业不仅考虑PC站的网站,同时也急需移动站点。未移动化的PC企业网站对移动终端设备用户浏览体验造成了极大的影响,简单的优化与调整并不能完美展现企业的品牌文化和产品特色。
企业的传统移动站点制作一般采取2种方式:1)寻找专门的网络公司定制开发,该方式制作成本高,周期长,需要专门公司维护;2)通过移动建站的平台开通账号,自助录入站点信息。该方式,需要重新再次录入已有的站点的数据,操作繁琐,数据维护困难,往往会导致数据不同步。
现有的互联网网页转为为移动页面,大都只考虑单页的内容,来实现自动转换,没有考虑网站整体结构布局。采取整站分析技术,不论在信息完整性、转换性能、提取准确率、页面渲染等都有绝对的优势。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将企业的传统的互联网站点自动转换为企业的移动站点,并实现数据的实时的同步更新的基于翻译模板的互联网网页自动化同步建构移动页面的方法与系统。
本发明的技术方案如下:
一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤;
翻译模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于翻译模板中;
移动内容转换步骤:通过移动设备访问翻译模板后台学习步骤中已生成翻译模板的互联网网页,获取翻译模板,并对互联网网页的内容进行转换,填入翻译模板对应的位置,生成移动页面。
作为优选,翻译模板后台学习步骤如下:
1.1)互联网网页结构分析:根据HTML源代码,分析互联网网页的各个模块与网页布局;
1.2)链接分析:对互联网网页包含的所有链接进行分类归组;
1.3)创建翻译模板:根据步骤1.1)与步骤1.2)的分析结果,重建互联网网页的结构信息,保存于对应的翻译模板中。
作为优选,移动内容转换步骤中,通过移动设备进行如下操作中的一种或多种:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地。
作为优选,翻译模板后台学习步骤的结果或移动内容转换步骤的结果允许进行人工修改。
作为优选,翻译模板中保存从互联网网页提取的URL的正则表达集合,以及Xpath标记。
作为优选,步骤1.1)具体为:
1.1.1)根据用户提交企业网站网址,获取目标网站入口页的HTML源代码;
1.1.2)根据HTML源代码,提取菜单模块,并划分菜单链接类型:
1.1.2.1)预定义导航栏的菜单关键词字典;
1.1.2.2)对导航栏的每个栏目中超链接都提取候选节点:选择一个导航栏的一个栏目,将目标网站入口页的HTML源代码转换为DOM节点树,首先提取全部超链接,并循环遍历每个超链接,取得每个超链接的文本及URL,如果当前URL或文本存在于菜单关键词字典中,根据DOM节点树,对当前URL或文本对应的超链接进行自下而上的递归操作,取得父节点,判断当前父节点下面的全部子链接在菜单关键词字典命中的个数,如果大于预设的命中阀值,则提取当前父节点为候选节点,作为候选菜单模块保存;
1.1.2.3)取得导航栏的所有菜单的全部候选节点后,将命中次数最多的一个父节点,作为最终判定的菜单模块;
1.1.2.4)根据导航栏的菜单模块,提取出全部超链接,分别归类为列表风格页面、单页风格页面。
作为优选,步骤1.2)对步骤1.1)划分的列表风格页面、单页风格页面进行链接分析,具体为:
对于列表风格页面:首先,按预设的规则划分成若干一级模块,并对一级模块中的超链接根据相同的Xpath层级结构划分若干二级模块;遍历二级模块并提取出当前二级模块对应的超链接集合,以及超链接集合对应的分类模块、列表数据模块;
然后,提取列表数据模块中的列表详细页面:提取正文,定位URL的正文的节点,取得该节点的Xpath;根据列表数据模块包含的标题,定位包含文本及标题的节点的Xpath;如果有图片地址,则根据图片地址遍历图片节点,提取对应的图片节点的Xpath作为图片的Xpath;
对于单页风格页面:提取包含正文的节点的Xpath;
列表风格页面与单页风格页面都提取分类模块:遍历超链接集合中的每个超链接,如果每个超链接能提取出来正则模式的数量与超链接集合的占比大于预设的分类占比阀值,则成功提取到分类模块;否则判断每个超链接对应的Xpath的层级结构,如果属于同一标签层级,则成功提取到分类模块。
作为优选,步骤1.3)中,根据步骤1.1)、步骤1.2)的结果,对每个超链接包含的各个模块的内容表达为与内容无关的HTML的Xpath标记语言,然后通过keyvalue形式储存到翻译模板中。
作为优选,移动内容转换步骤具体为:根据URL取得对应域名,取得已学习好的翻译模板;通过http,请求输入URL的HTML内容;根据翻译模板,通过正则匹配模式取得当前URL对应的各自模块的Xpath路径,将提取的当前页面所需要的内容信息显示在移动页面上的对应位置。
作为优选,对于单页风格页面、列表风格页面的列表数据模块的正文,根据提取出来的HTML内容,进行内容自动修正,包括:链接地址转换为绝对地址,并转换到对应的中转服务的URL;图片地址转换为绝对地址并自动压缩转换;根据预设的规则过滤信息。
一种基于翻译模板的互联网网页自动化同步建构移动页面的系统,包括翻译模板后台学习子系统、移动内容转换子系统;
翻译模板后台学习子系统包括:
数据采集储存模块:根据URL采集互联网网页的内容并储存;
网站风格分析模块:根据互联网网页的HTML源代码,分析网站的各个模块,网页布局;
网站链接分析模块:为各个超链接进行分类归组;
网站结构建模模块:根据网站的各个模块,网页布局,以及链接的分类归组结果,重建互联网网页的结构信息,并对全部超链接地址采取转义方式,提取URL的正则表达式集合,以及Xpath标记,保存到对应的翻译模板中;
移动内容转换子系统包括:
移动内容转换模块:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地;
前台实时渲染访问模块:用户输入网址后,直接调用翻译模板来解析对应网址内容。
作为优选,还包括人工修正模块:翻译模板后台学习子系统与移动内容转换子系统进行的自动匹配提取结果、以及各个模块,通过人工修正模块允许进行人工修正。
本发明的有益效果如下:
本发明所述的方法与系统,在实施后,只需提供企业网址即可通过翻译模板访问实时更新的互联网网页。本发明所述的方法与系统直接分析网站的URL,实现数据的实时更新,将不存在数据延时问题。而且采取整站分析技术,在生成移动站点的同时分析出了网站URL类型,比如:联系方式,招聘信息,企业介绍等,在处理海量数据中的企业结构化信息的提取当中非常重要。
本发明的实施,能够解决传统企业网站的移动站点制作问题, 极大降低了企业移动站点制作成本,使用时,只需提供企业网址即可。
附图说明
图1是本发明的原理示意
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明提供一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,如图1所示。本发明用于将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤。本发明所述的翻译模板定义为WTM模板,以下称为WTM模板,即Website Translate Mobile模板,从而本发明为一种基于WTM模板的互联网网页自动化同步建构移动页面的方法,同时提供了一种WTM技术。
所述的WTM模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于WTM模板中。进一步具体化,WTM模板后台学习步骤如下:
1.1)互联网网页结构分析:根据HTML源代码,分析互联网网页的各个模块与网页布局;
1.1.1)根据用户提交企业网站网址,获取目标网站入口页的HTML源代码;
1.1.2)根据HTML源代码,提取菜单模块,并划分菜单链接类型:
1.1.2.1)预定义导航栏的菜单关键词字典;
1.1.2.2)对导航栏的每个栏目中超链接都提取候选节点:选择一个导航栏的一个栏目,将目标网站入口页的HTML源代码转换为DOM节点树,首先提取全部超链接,并循环遍历每个超链接,取得每个超链接的文本及URL,如果当前URL或文本存在于菜单关键词字典中,根据DOM节点树,对当前URL或文本对应的超链接进行自下而上的递归操作,取得父节点,判断当前父节点下面的全部子链接在菜单关键词字典命中的个数,如果大于预设的命中阀值,则提取当前父节点为候选节点,作为候选菜单模块保存;
1.1.2.3)取得导航栏的所有菜单的全部候选节点后,将命中次数最多的一个父节点,作为最终判定的菜单模块;
1.1.2.4)根据导航栏的菜单模块,提取出全部超链接,分别归类为列表风格页面、单页风格页面。
1.2)链接分析:对互联网网页包含的所有链接进行分类归组;步骤1.2)对步骤1.1)划分的列表风格页面、单页风格页面进行链接分析,具体为:
对于列表风格页面:首先,按预设的规则划分成若干一级模块,并对一级模块中的超链接根据相同的Xpath层级结构划分若干二级模块;遍历二级模块并提取出当前二级模块对应的超链接集合,以及超链接集合对应的分类模块、列表数据模块;
然后,提取列表数据模块中的列表详细页面:提取正文,定位URL的正文的节点,取得该节点的Xpath;根据列表数据模块包含的标题,定位包含文本及标题的节点的Xpath;如果有图片地址,则根据图片地址遍历图片节点,提取对应的图片节点的Xpath作为图片的Xpath;
对于单页风格页面:提取包含正文的节点的Xpath;
列表风格页面与单页风格页面都提取分类模块:遍历超链接集合中的每个超链接,如果每个超链接能提取出来正则模式的数量与超链接集合的占比大于预设的分类占比阀值,则成功提取到分类模块;否则判断每个超链接对应的Xpath的层级结构,如果属于同一标签层级,则成功提取到分类模块。
1.3)创建WTM模板:根据步骤1.1)与步骤1.2)的分析结果,重建互联网网页的结构信息,保存于对应的WTM模板中。步骤1.3)中,根据步骤1.1)、步骤1.2)的结果,对每个超链接包含的各个模块的内容表达为与内容无关的HTML的Xpath标记语言,然后通过keyvalue形式储存到WTM模板中。
WTM模板中保存从互联网网页提取的URL的正则表达集合,以及Xpath标记。
所述的移动内容转换步骤:通过移动设备访问WTM模板后台学习步骤中已生成WTM模板的互联网网页,获取WTM模板,并对互联网网页的内容进行转换,填入WTM模板对应的位置,生成移动页面。移动内容转换步骤中,通过移动设备进行如下操作中的一种或多种:对互联网网页的内容进行转义、剔除不适用于WTM模板的文本内容、存储图片至本地。
移动内容转换步骤具体为:根据URL取得对应域名,取得已学习好的WTM模板;通过http,请求输入URL的HTML内容;根据WTM模板,通过正则匹配模式取得当前URL对应的各自模块的Xpath路径,将提取的当前页面所需要的内容信息显示在移动页面上的对应位置。对于单页风格页面、列表风格页面的列表数据模块的正文,根据提取出来的HTML内容,进行内容自动修正,包括:链接地址转换为绝对地址,并转换到对应的中转服务的URL;图片地址转换为绝对地址并自动压缩转换;根据预设的规则过滤信息。
为了修正自动化建模过程中出现需要人为修正的情况,从而达到最优化的效果,WTM模板后台学习步骤的结果或移动内容转换步骤的结果允许进行人工修改。
基于所述的基于WTM模板的互联网网页自动化同步建构移动页面的方法,本发明还提供一种基于WTM模板的互联网网页自动化同步建构移动页面的系统,用于实现所述的基于WTM模板的互联网网页自动化同步建构移动页面的方法。所述的系统包括WTM模板后台学习子系统、移动内容转换子系统;
WTM模板后台学习子系统包括:
数据采集储存模块:根据URL采集互联网网页的内容并储存;
网站风格分析模块:根据互联网网页的HTML源代码,采用DOM、相似度、关键字等技术,分析网站的各个模块,网页布局,包括菜单,导航栏,分类栏目,列表、标题、正文内容,版权信息。
网站链接分析模块:采取人工字典标注及网页主题摘要提取技术,为各个超链接进行分类归组,如列表页,详细页,主页,联系页等。
网站结构建模模块:根据网站的各个模块,网页布局,以及链接的分类归组结果,重建互联网网页的结构信息,并对全部超链接地址采取转义方式,提取URL的正则表达式集合,以及Xpath标记,保存到对应的WTM模板中。
移动内容转换子系统包括:
移动内容转换模块:对互联网网页的内容进行转义、剔除不适用于WTM模板的文本内容(如多余的文本内容)、存储图片至本地,自动生成适应移动设备的简洁模式。
前台实时渲染访问模块:用户输入网址后,直接调用WTM模板来解析对应网址内容。
为了修正自动化建模过程中出现需要人为修正的情况,从而达到最优化的效果,本发明所述的系统还包括人工修正模块:WTM模板后台学习子系统与移动内容转换子系统进行的自动匹配提取结果(如自动提取不够准确)、以及各个模块(如有歧义),通过人工修正模块允许进行人工修正。
实施例
一、WTM模板后台学习子系统,运行WTM模板后台学习步骤具体如下。
1、WTM服务根据用户提交企业网站网址,提取domain,提交时间,进入WTM分析服务队列。
2、WTM服务从队列获取任务,获取目标网站入口页的HTML源代码。
3、以菜单为例,根据HTML源代码首先提取菜单模块及划分菜单链接类型,采取DOM、关键词特征技术,具体过程如下:
3.1、预定义菜单关键词字典DictMenu。比如联系方式,一般包括:联系我们,与我联系,联系方式,在线联系;URL可能包括:contact,lianxi。依此类推,总共定义了最能体现企业信息的的六大菜单栏目:联系方式、公司介绍、留言版、人才招聘、新闻资讯、产品中心六大菜单栏目。
3.2、将目标网站入口页的HTML源代码,转换为DOM节点树。首先提取全部的超链接links并循环遍历其中每个超链接link,做如下操作:取得每个超链接link的text文本及URL地址,如果该URL或text存在于DictMenu中记录记录为link1,根据DOM树,对link1进行自下而上的递归操作取得父节点ParentElement,判断该父节点ParentElement下面的全部子链接在DictMenu命中的个数,大于一定阀值(本实施例中设置为3个),则作为候选菜单模块保存。
3.3、重复步骤3.2,对每个DictMenu中超链接link都提取候选节点。
3.4、取得菜单的全部候选节点后,根据出现次数最多的一个节点,作为最终判定的菜单模块Menu,记为MenuBlock。
3.5、根据取得菜单模块MenuBlock,提取出全部超链接links划分为2大分类:列表风格、单页风格。如:新闻列表,产品中心属于列表风格;联系我们及其他的属于单页风格。
4、根据已经取得Menu中的列表风格和单页风格的链接页面进行网页结构分析。
4.1、预定义分页(page),当前位置(Location),版权(copyright)3种字典,分页字典为PageDict,比如:下页,总页数,末页等;Location字典为LocationDict,比如:当前位置,你所在位置等;版权CopyrightDict,比如:copyright,版权所有等。
4.2、提取网页的全部超链接links,遍历其中每个超链接link,判断超链接link的文本是否存在PageDict集合中,如果是的话,则加入分页的候选链接集合中。最后根据该候选链接集合,取得包含该候选链接集合中的全部link最小的节点的Xpath,做为PageDict的Block模块记为PageDictBlock。对LocationDict,CopyrightDict也同样操作,分别取得LocationDictBlock,CopyrightDictBlock。如果集合没取到link,则对应的Block为空。
4.3、对网页的全部超链接links,根据MenuBlock、PageDictBlock、LocationDict、CopyrightDictBlock做为分割集合进行模块划分,划分为各自区间的模块集,记为Blocks1,其中对menuBlock前面的block的记为头部模块HeadBlock。
4.4、如果是列表风格,执行如下操作:
4.4.1、 首先先排除上面已经确认的5个Block,对剩下的Blocks1中每个Block进行再次分割,遍历Block中全部超链接links,判断每个超链接link的Xpath的层级结构是否一致,如果是,则划分一个新的Block模块。
如:/HTML/body/div/div/span/a[1]、/HTML/body/div/div/span/a[2]、/HTML/body/div/div/span/a[3],则a[1] a[2] a[3]则划到相同的细分Block中。以此类推,和原来的4个Block组合得到一个全新更加详细的Blocks2模块集合。
4.4.2、遍历Blocks2中的Block,从PageBlock、CopyrightDictBlock取得最靠前Block(如果都没有则从最后一个Block开始)开始到LocationBlock(如果没有则到MenuBlock)之间,排除掉已经标记识别的Block,依次从下往上遍历全部Block,并取出对应的全部超链接links集合,提取对应的分类模块,列表数据模块,具体如下。
4.4.3、提取列表数据模块:遍历全部超链接links集合中的每个超链接link,采取递归方式,取得对应父节点parentElement,提取该节点下的全部超链接的,如果都能提取到一个唯一的URL正则模式并且去重后的URL只有1个,则保存该节点的 Xpath。根据该Xpath,对该block下的取得同样结构层次的节点Xpath的集合Xpaths。如果提取不到Xpaths集合,继续递归操作,直到跳出该block模块则结束。如果成功提取到Xpaths集合的话,遍历Xpaths中的Xpath,采取标签模板比对,对相同标签下内容不同的节点单独提取并识别类型如:图片地址,发布时间,标题及URL链接等,并标识为列表数据模块cateListBlock。
4.4.4、如果提取不到分页,则除了上面的判断外,还必须在所有URL集合中,能成功提取到相同的正则规则,本实施例中,必须大于0.8阀值才算提取到分类模块。
4.4.5、如果成功提取到cateListBlock,则需要进一步提取列表详细页面。
4.4.5.1、正文提取技术:遍历所有HTML中的Elment为P的节点集合。优先遍历P的集合,取得P的全部父节点Parents。从上往下的遍历parents中的parent,取得每个parent的纯文本内容长度TextLen、文本内容中标点符号总数symbolLen、所有超链接links的全部文本长度linksLen。计算符号阀值symbolLen与TextLen的占比记为symbolFz。本实施例中,如果symbolFz小于0.05阀值则结束。计算linksLen与TextLen的占比记为linksFz,如果大于0.3linksFz阀值则找到,则认为定位到该URL的正文的节点,取得该节点的Xpath。
4.4.5.2、根据列表传递进来的标题,来定位包含text及title的节点Xpath。
4.4.5.3、如果有图片地址,根据img的地址,遍历img节点,如果一致,则提取该节点的Xpath做为图片的Xpath。
4.4.6、提取分类模块:遍历links中每个link,如果link能提取出来正则模式的数量与全部link的占比大于0.8的阀值,则成功提取到分类模块,否则判断每个link对应的Xpath的层级结构,属于同一标签层级则也算提取到分类模块。
4.4.7、如果提取不到分页也提取不到列表数据,则按照单页风格来操作。
4.5、如果是单页风格,利用上述的正文提取技术,提取到包含正文的节点的Xpath即可。利用上面的分类模块提取方式提取分类模块。。
5、通过上述的列表,单页中的分类模块,列表模块,分页模块,详细页面模块的节点定位,已经完成了对菜单栏中的链接的分析,对每个链接里面的内容各个模块最终表达为与内容无关的HTML的Xpath标记语言,然后通过keyvalue形式储存到WTM模板中。该过程允许人工干预,对一些XPATH和内容模块可以进行修正,达到更好的转换效果。
具体操作如下:
5.1、取得菜单中的单页风格链接。如果存在分类模块,则先提取该分类模块的Xpath,URL的正则regex,单页的正文Xpath,以singleModel节点的格式储存。如果分类模块不存在,则去掉<cates>节点即可。多个菜单链接对应相应的<URL>,则相应添加多个URL节点。
5.2、同样菜单中的多页链接,对每个链接分别提取列表模块、分类模块、分页模块下的Xpath、URL正则,到cateModel/URLs节点的cates、cateList、catePage下。将列表详细页面的标题和正文的Xpath,放到cateListDetail下。
5.3、对共用模块headerBlock,MenuBlock,LocationBlock,CopyrightBlock的Xpath放到commonModel节点下。
6、到此,已经完成了对带单、通用模块的解析。这里允许人工去操作修复,比如你可以手动指定Menu的Xpath,cates的正则等。
7、完成WTM的生成后,系统中标记完成该互联网网页的训练建模,并记录WTM模板路径到数据库中。
二、WTM前台移动站点实时渲染访问模块:
1、用户通过移动设备访问网页,并在上面输入需要自动实现移动站点企业网站对应的网址。
2、WTM服务根据网址URL取得对应域名,并且从后台取得训练好的WTM模板。
3、通过http,请求输入URL的HTML内容;根据WTM模板,通过正则匹配模式取得该URL对应的各自模块的Xpath路径来直接定位提取该页面所需要的内容信息。
3.1、根据WTM模板中的Menu的Xpath,提取到菜单的HTML,然后根据上述的菜单下的全部超链接links分析方法,提取全部超链接links,显示在移动页面上面的菜单栏目位置。
3.2、如果请求的是分类页面URL,从WTM模板中取得URL对应的cates、cateList、catePage定位并提取分类、列表、分页的HTML内容。然后根据每个模块下的URL正则,提取该HTML下的全部符合规则的links,显示在移动设备列表页面上面的分类、列表、分页位置上面。如果相应的模块没有提取到则不显示。
3.3、如果访问的是列表详细页面,从cateList中去匹配URL正则,匹配到的话取得对应的URL下的cateListDetail下的title、img、text的Xpath,取得对应的标题、图片地址、以及正文的text,显示在移动设备的单页页面上面。
3.4、当访问的是单页URL,从WTM模板中取得能匹配到URL的正则。然后根据该节点下的text节点的Xpath定位并取得正文HTML代码,显示在移动设备的详细页面上面。
4、对于单页、详细列表页的正文,根据提取出来的HTML内容,需要进行内容自动修正。包括:链接地址转换为绝对地址,并转换到对应的中转服务的URL地址上面。这样用户点击的时候实际上面是通过服务再去访问对方的真实的URL内容;图片地址转换为绝对地址并自动压缩转换,互联网网页的图片地址是为互联网设计的,考虑到移动设备流量,访问速度,必须通过中转服务生产适配于移动设备的尺寸、大小的图片;过滤一些不需要的信息,如注释等。
5、用户可以像正常访问一样点击超链接,每请求一次超链接,重复执行上述步骤2-4,最终完成网站整站的移动页面自动生成过程。
本实施例中,WTM模板具体如下:
<b258sites href="域名">
  <commonModel>
    <header><xpath>头部xpath</xpath></header>
    <menu><xpath>菜单xpath</xpath></menu>
    <location><xpath>导航xpath</xpath></location>
    <copyright><xpath>版权xpath</xpath></copyright>
  </commonModel>
  <singleModel>
    <urls>
      <url href="单页URL地址">
        <cateListDetail>
          <text><xpath>正文的xpath路径</xpath></text>
        </cateListDetail>
        <cates>
          <xpath>分类模块xpath</xpath>
          <regex>分类模块url正则</regex>
        </cates>
      </url>
      <url>…其他的单页url…</url>
     </urls>
  </singleModel>
  <catesModel>
    <url href=”列表url地址”>
      <cateListDetail>
        <title><xpath>标题xpath路径</xpath></title>
        <text><xpath> 正文xpath路径</xpath></text>
      </cateListDetail>
      <cates>
        <xpath>分类模块xpath</xpath>
        <regex>分类模块URL正则</regex>
      </cates>
      <cateList>
         <xpath> 列表模块xpath</xpath>
         <regex> 列表模块URL正则</regex>
      </cateList>
      <catePage>
         <xpath> 分页模块xpath</xpath>
         <regex> 分页模块URL正则</regex>
      </catePage>
     </url>
     <url>…其他的列表url…</url>
    </catesModel>
  </b258sites>
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (12)

1.一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤;
翻译模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于翻译模板中;
移动内容转换步骤:通过移动设备访问翻译模板后台学习步骤中已生成翻译模板的互联网网页,获取翻译模板,并对互联网网页的内容进行转换,填入翻译模板对应的位置,生成移动页面。
2.根据权利要求1所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,翻译模板后台学习步骤如下:
1.1)互联网网页结构分析:根据HTML源代码,分析互联网网页的各个模块与网页布局;
1.2)链接分析:对互联网网页包含的所有链接进行分类归组;
1.3)创建翻译模板:根据步骤1.1)与步骤1.2)的分析结果,重建互联网网页的结构信息,保存于对应的翻译模板中。
3.根据权利要求1所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,移动内容转换步骤中,通过移动设备进行如下操作中的一种或多种:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地。
4.根据权利要求1所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,翻译模板后台学习步骤的结果或移动内容转换步骤的结果允许进行人工修改。
5.根据权利要求2所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,翻译模板中保存从互联网网页提取的URL的正则表达集合,以及Xpath标记。
6.根据权利要求2所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,步骤1.1)具体为:
1.1.1)根据用户提交企业网站网址,获取目标网站入口页的HTML源代码;
1.1.2)根据HTML源代码,提取菜单模块,并划分菜单链接类型:
1.1.2.1)预定义导航栏的菜单关键词字典;
1.1.2.2)对导航栏的每个栏目中超链接都提取候选节点:选择一个导航栏的一个栏目,将目标网站入口页的HTML源代码转换为DOM节点树,首先提取全部超链接,并循环遍历每个超链接,取得每个超链接的文本及URL,如果当前URL或文本存在于菜单关键词字典中,根据DOM节点树,对当前URL或文本对应的超链接进行自下而上的递归操作,取得父节点,判断当前父节点下面的全部子链接在菜单关键词字典命中的个数,如果大于预设的命中阀值,则提取当前父节点为候选节点,作为候选菜单模块保存;
1.1.2.3)取得导航栏的所有菜单的全部候选节点后,将命中次数最多的一个父节点,作为最终判定的菜单模块;
1.1.2.4)根据导航栏的菜单模块,提取出全部超链接,分别归类为列表风格页面、单页风格页面。
7.根据权利要求6所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,步骤1.2)对步骤1.1)划分的列表风格页面、单页风格页面进行链接分析,具体为:
对于列表风格页面:首先,按预设的规则划分成若干一级模块,并对一级模块中的超链接根据相同的Xpath层级结构划分若干二级模块;遍历二级模块并提取出当前二级模块对应的超链接集合,以及超链接集合对应的分类模块、列表数据模块;
然后,提取列表数据模块中的列表详细页面:提取正文,定位URL的正文的节点,取得该节点的Xpath;根据列表数据模块包含的标题,定位包含文本及标题的节点的Xpath;如果有图片地址,则根据图片地址遍历图片节点,提取对应的图片节点的Xpath作为图片的Xpath;
对于单页风格页面:提取包含正文的节点的Xpath;
列表风格页面与单页风格页面都提取分类模块:遍历超链接集合中的每个超链接,如果每个超链接能提取出来正则模式的数量与超链接集合的占比大于预设的分类占比阀值,则成功提取到分类模块;否则判断每个超链接对应的Xpath的层级结构,如果属于同一标签层级,则成功提取到分类模块。
8.根据权利要求7所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,步骤1.3)中,根据步骤1.1)、步骤1.2)的结果,对每个超链接包含的各个模块的内容表达为与内容无关的HTML的Xpath标记语言,然后通过keyvalue形式储存到翻译模板中。
9.根据权利要求3所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,移动内容转换步骤具体为:根据URL取得对应域名,取得已学习好的翻译模板;通过http,请求输入URL的HTML内容;根据翻译模板,通过正则匹配模式取得当前URL对应的各自模块的Xpath路径,将提取的当前页面所需要的内容信息显示在移动页面上的对应位置。
10.根据权利要求3所述的基于翻译模板的互联网网页自动化同步建构移动页面的方法,其特征在于,对于单页风格页面、列表风格页面的列表数据模块的正文,根据提取出来的HTML内容,进行内容自动修正,包括:链接地址转换为绝对地址,并转换到对应的中转服务的URL;图片地址转换为绝对地址并自动压缩转换;根据预设的规则过滤信息。
11.一种基于翻译模板的互联网网页自动化同步建构移动页面的系统,其特征在于,包括翻译模板后台学习子系统、移动内容转换子系统;
翻译模板后台学习子系统包括:
数据采集储存模块:根据URL采集互联网网页的内容并储存;
网站风格分析模块:根据互联网网页的HTML源代码,分析网站的各个模块,网页布局;
网站链接分析模块:为各个超链接进行分类归组;
网站结构建模模块:根据网站的各个模块,网页布局,以及链接的分类归组结果,重建互联网网页的结构信息,并对全部超链接地址采取转义方式,提取URL的正则表达式集合,以及Xpath标记,保存到对应的翻译模板中;
移动内容转换子系统包括:
移动内容转换模块:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地;
前台实时渲染访问模块:用户输入网址后,直接调用翻译模板来解析对应网址内容。
12.根据权利要求11所述的基于翻译模板的互联网网页自动化同步建构移动页面的系统,其特征在于,还包括人工修正模块:翻译模板后台学习子系统与移动内容转换子系统进行的自动匹配提取结果、以及各个模块,通过人工修正模块允许进行人工修正。
CN201510383889.0A 2015-07-03 2015-07-03 基于翻译模板的互联网网页建构移动页面的方法与系统 Active CN105022806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510383889.0A CN105022806B (zh) 2015-07-03 2015-07-03 基于翻译模板的互联网网页建构移动页面的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510383889.0A CN105022806B (zh) 2015-07-03 2015-07-03 基于翻译模板的互联网网页建构移动页面的方法与系统

Publications (2)

Publication Number Publication Date
CN105022806A true CN105022806A (zh) 2015-11-04
CN105022806B CN105022806B (zh) 2018-08-10

Family

ID=54412776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510383889.0A Active CN105022806B (zh) 2015-07-03 2015-07-03 基于翻译模板的互联网网页建构移动页面的方法与系统

Country Status (1)

Country Link
CN (1) CN105022806B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156298A (zh) * 2016-06-29 2016-11-23 乐视控股(北京)有限公司 一种生成网站移动页面的方法及装置
CN107124477A (zh) * 2017-03-30 2017-09-01 努比亚技术有限公司 网站内容的处理方法、终端及服务器
CN108280219A (zh) * 2018-02-07 2018-07-13 深圳壹账通智能科技有限公司 文本翻译方法、装置、计算机设备和存储介质
CN108804120A (zh) * 2018-05-23 2018-11-13 北京五八信息技术有限公司 一种页面构建方法、装置、设备及存储介质
CN109885754A (zh) * 2019-02-18 2019-06-14 浪潮软件集团有限公司 一种互联网非结构化文本数据的采集方法
CN112528117A (zh) * 2020-12-11 2021-03-19 杭州安恒信息技术股份有限公司 一种政务网站一级目录的识别方法及相关装置
CN112861054A (zh) * 2021-02-05 2021-05-28 百果园技术(新加坡)有限公司 网页处理方法、装置、计算机可读存储介质及电子设备
CN112948719A (zh) * 2021-03-30 2021-06-11 北京环境特性研究所 一种目标特性文本浏览交互方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置
US20120185821A1 (en) * 2010-09-17 2012-07-19 Oracle International Corporation Pattern-based construction and extension of enterprise applications in a cloud computing environment
CN103226475A (zh) * 2013-05-16 2013-07-31 百度在线网络技术(北京)有限公司 转码时实现控件替换的方法及装置
CN103605770A (zh) * 2013-11-26 2014-02-26 优视科技有限公司 网页模板生成方法和服务器
CN103744985A (zh) * 2014-01-16 2014-04-23 世纪龙信息网络有限责任公司 网页适配的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置
US20120185821A1 (en) * 2010-09-17 2012-07-19 Oracle International Corporation Pattern-based construction and extension of enterprise applications in a cloud computing environment
CN103226475A (zh) * 2013-05-16 2013-07-31 百度在线网络技术(北京)有限公司 转码时实现控件替换的方法及装置
CN103605770A (zh) * 2013-11-26 2014-02-26 优视科技有限公司 网页模板生成方法和服务器
CN103744985A (zh) * 2014-01-16 2014-04-23 世纪龙信息网络有限责任公司 网页适配的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱琳: "基于移动代理服务器的适配模板系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156298A (zh) * 2016-06-29 2016-11-23 乐视控股(北京)有限公司 一种生成网站移动页面的方法及装置
CN107124477A (zh) * 2017-03-30 2017-09-01 努比亚技术有限公司 网站内容的处理方法、终端及服务器
CN108280219A (zh) * 2018-02-07 2018-07-13 深圳壹账通智能科技有限公司 文本翻译方法、装置、计算机设备和存储介质
CN108804120A (zh) * 2018-05-23 2018-11-13 北京五八信息技术有限公司 一种页面构建方法、装置、设备及存储介质
CN109885754A (zh) * 2019-02-18 2019-06-14 浪潮软件集团有限公司 一种互联网非结构化文本数据的采集方法
CN112528117A (zh) * 2020-12-11 2021-03-19 杭州安恒信息技术股份有限公司 一种政务网站一级目录的识别方法及相关装置
CN112528117B (zh) * 2020-12-11 2023-03-14 杭州安恒信息技术股份有限公司 一种政务网站一级目录的识别方法及相关装置
CN112861054A (zh) * 2021-02-05 2021-05-28 百果园技术(新加坡)有限公司 网页处理方法、装置、计算机可读存储介质及电子设备
CN112948719A (zh) * 2021-03-30 2021-06-11 北京环境特性研究所 一种目标特性文本浏览交互方法和装置
CN112948719B (zh) * 2021-03-30 2023-12-22 北京环境特性研究所 一种目标特性文本浏览交互方法和装置

Also Published As

Publication number Publication date
CN105022806B (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN105022806A (zh) 基于翻译模板的互联网网页建构移动页面的方法与系统
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN103488648B (zh) 一种多语种混合检索方法和系统
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN104598577B (zh) 一种网页正文的提取方法
US7606816B2 (en) Record boundary identification and extraction through pattern mining
CN103166981B (zh) 一种无线网页转码方法及装置
CN101404036B (zh) PowerPoint电子演示文稿的关键词抽取方法
CN106909663B (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN102163213B (zh) 一种语音浏览方法及浏览器
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN104331449A (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN106446072A (zh) 网页内容的处理方法和装置
CN105095466A (zh) 一种web文本信息抽取方法
CN101630315B (zh) 一种快速检索方法及系统
CN108733813A (zh) 面向bbs论坛网页内容的信息提取方法、系统及介质
CN110222251A (zh) 一种基于网页分割和搜索算法的服务包装方法
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 361000 the 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 411, 411, 411, 411, 411, 411, 411, 411, 411, 411, 411, 411, 411, 410, 410, 410, 411, 412, etc., Yilan Road No. 5, Yilan Road, Guanyin Mountain, Siming District, Fujian Province

Patentee after: XIAMEN 258 NETWORK TECHNOLOGY GROUP CO.,LTD.

Address before: 361000 room 2802, Haicang business building, Haicang Road, Haicang District, Haicang District, Xiamen, Fujian, China, 12

Patentee before: XIAMEN 258 GROUP Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240122

Address after: 361000, No. 82-3, Lehai Road, Jimei District, Xiamen City, Fujian Province

Patentee after: Xiamen Huituanshan Information Service Co.,Ltd.

Country or region after: China

Address before: 361000 units 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 412 and 413, tianrui.99 business center, No. 5, Yilan Road, Guanyinshan, Siming District, Xiamen City, Fujian Province

Patentee before: XIAMEN 258 NETWORK TECHNOLOGY GROUP CO.,LTD.

Country or region before: China

TR01 Transfer of patent right