CN108829648A - 网页标记语言的转换方法及装置 - Google Patents
网页标记语言的转换方法及装置 Download PDFInfo
- Publication number
- CN108829648A CN108829648A CN201810539556.6A CN201810539556A CN108829648A CN 108829648 A CN108829648 A CN 108829648A CN 201810539556 A CN201810539556 A CN 201810539556A CN 108829648 A CN108829648 A CN 108829648A
- Authority
- CN
- China
- Prior art keywords
- label
- markup language
- page
- body matter
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供一种网页标记语言的转换方法及装置,涉及网页、应用开发领域。其中,所述方法包括:从基于第一网页标记语言的页面文件中提取页面主体内容;将所述页面主体内容转换为字符串;基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。本发明实施例提供的技术方案能够提高开发效率、降低成本。
Description
技术领域
本发明实施例涉及网页、应用开发领域,尤其涉及一种网页标记语言的转换方法。
背景技术
网页超文本应用技术工作小组WHATWG致力于Web表单和应用程序,而W3C(WorldWide Web Consortium,万维网联盟)专注于XHTML 2.0。在2006年,双方决定进行合作,来创建一个新版本的HTML。
HTML5草案的前身名为Web Applications 1.0,于2004年被WHATWG提出,于2007年被W3C接纳,并成立了新的HTML工作团队。
HTML5的第一份正式草案已于2008年1月22日公布。HTML5仍处于完善之中。然而,大部分现代浏览器已经具备了某些HTML5支持。支持的浏览器包括Firefox,IE9,Chrome,Safari等。
而随着移动设备、移动互联网的快速发展,如何将已有的互联网资源快速地移植到移动平台,成为业界亟需解决的问题。目前采用的方法需要重新设计流程逻辑、改造原有系统、开发相关接口等。具有成本高、效率低等问题。
发明内容
本发明实施例提供一种网页标记语言的转换方法及装置,用以解决现有技术成本高、效率低的问题。
第一方面,本发明实施例中提供了一种网页标记语言的转换方法,包括:
从基于第一网页标记语言(例如,html)的页面文件中提取页面主体内容;
将所述页面主体内容转换为字符串;
基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
结合第一方面,本发明在第一方面的第一种实现方式中,所述从基于第一网页标记语言的页面文件中提取页面主体内容,包括:
利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
结合第一方面,本发明在第一方面的第二种实现方式中,所述将所述页面主体内容转换为字符串,包括:
删除所述页面主体内容中的格式信息,得到所述字符串。
结合第一方面或第一方面的第一种实现方式或第一方面的第二种实现方式,本发明在第一方面的第三种实现方式中,所述基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签,包括:
利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
第二方面,本发明实施例提供了一种网页标记语言的转换装置,包括:
提取模块,用于从基于第一网页标记语言的页面文件中提取页面主体内容;
优化模块,用于将所述页面主体内容转换为字符串;
转换模块,用于基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
结合第二方面,本发明在第二方面的第一种实现方式中,所述提取模块具体用于利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
结合第二方面或第二方面的第一种实现方式,本发明在第二方面的第二种实现方式中,所述优化模块具体用于删除所述页面主体内容中的格式信息,得到首尾相连的所述字符串。
结合第二方面或第二方面的第一种实现方式或第二方面的第二种实现方式,所述转换模块包括:
查找子模块,用于利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
替换子模块,用于基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,其中,
所述存储器用于存储一条或多条计算机指令;
所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如第一方面或其任一实现方式所述的方法。
第四方面,本发明实施例提供一种计算机存储介质,所述一条或多条计算机指令被执行时实现如第一方面或其任一实现方式所述的方法。
本发明实施例能够提高移植效率以及降低成本。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一个实施例的网页标记语言的转换方法的流程示意图;
图2示出了根据本发明一个实施例的网页标记语言的转换装置的框图;
图3示出了根据本发明一个实施例的电子设备的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明实施例中涉及或可能涉及的名称进行解释,如下:
微信小程序:微信小程序,简称小程序,英文名Mini Program,是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或搜一下即可打开应用。
HTML标签:超文本标记语言(英文简称:HTML)标记标签通常被称为HTML标签,HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。HTML标签的大小写无关的,例如“主体”<body>跟<BODY>表示的意思是一样的,推荐使用小写。
图1是根据本发明一个实施例的网页标记语言的转换方法的流程示意图,参照图1,所述方法包括:
100:从基于第一网页标记语言的页面文件中提取页面主体内容。
在本实施例中,以第一网页标记语言为超文本标记语言HTML为例,页面文件的页面主体内容是指主体<body>标签及其包含的内容。
102:将所述页面主体内容转换为字符串。
在本实施例中,通过将页面主体内容转换为字符串,能够提高本发明实施例在后续处理(即104)的处理效率。
104:基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
在本实施例中,标签对应关系是指基于第一网页标记语言的标签与基于第二网页标记语言的标签的对应关系,该对应关系是预定义的,本发明实施例对此不做具体限制。
采用本实施例提供的网页标记语言的转换方法,通过提取页面主体内容并将页面主体内容转换为字符串进而进行标签的转换,能够高效地实现由第一标记语言的代码向第二标记语言的代码的转换,提高开发和移植效率,降低成本。
可选地,在本实施例的一种实现方式中,在处理100中,利用正则表达式从基于超文本标记语言HTML的页面文件中提取主体标签及其内容。
例如,正则表达式为:reg=/<body[^>]*>([\s\S]*)<\/body>/。使用该正则表达式即可将body内的代码从HTML代码中分离出来。
可选地,在本实施例的一种实现方式中,在处理102中,删除所述页面主体内容中的格式信息,得到所述字符串。其中,所述格式信息是指使得所述页面主体内容在结构上易读而不影响实质内容的信息,例如,回车、空行等。
可选地,在本实施例的一种实现方式中,采用以下方式实现所述处理104:利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
在本实现方式中,以第一网页标记语言为HTML,第二网页标记语言为微信小程序代码为例,html中的标签个数目前是有不超过100个。在本实现方式中,将近100个标签又被分为了三类:块(block)类型标签,层(inline)标签,以及其它(<br/>、<hr/>等)标签。其中,块标签包括:address,code,article,applet,aside,audio,blockquote,button,canvas,center,dd,del,dir,div,dl,dt,fieldset,figcaption,figure,footer,form,frameset,h1,h2,h3,h4,h5,h6,header,hgroup,hr,iframe,ins,isindex,li,map,menu,noframes,noscript,object,ol,output,p,pre,section,script,table,tbody,td,tfoot,th,thead,tr,ul,video;层标签包括:abbr,acronym,applet,b,basefont,bdo,big,br,button,cite,del,dfn,em,font,i,iframe,img,input,ins,kbd,label,map,object,q,s,samp,script,select,small,span,strike,strong,sub,sup,textarea,tt,u,var;其它标签包括:colgroup,dd,dt,li,options,p,td,tfoot,th,thead,tr。
在本实现方式中,可以采用以下伪代码:
本段伪代码主要是通过正则表达式以及javascript中的indexOf()方法来进行检测,indexOf()方法可以全局全文检测目标标签的位置,如果没有,则返回-1,如果存在,就返回该目标标签在全文中的位置。
代码解析步骤如下:
1.将所有的HTML标签进行循环遍历,如果当前的这个循环标签在全文中并且这个标签是属于块状标签,那么我们就把这个标签的前后(<div></div>)替换为<view>标签。
2.承接上一部分,如果当前循环标签在全文中并且这个标签是层标签,则将这个标签(<span></span>)替换为<text>标签(因为img属于层标签,替换原理相同,只不过是img标签要替换成image的微信小程序标签)。
3.如果当前循环标签是其它的标签,就直接把这个标签替换成<view>标签。
以上对本发明实施例的一种网页标记语言的转换方法及其实现方式进行了详细说明,下面对根据本发明实施例的网页标记语言的转换装置进行说明。
图2是根据本发明实施例的一种网页标记语言的转换装置的框图。参照图2,网页标记语言的转换装置包括提取模块20、优化模块22和转换模块24。下面进行详细说明。
在本实施例中,提取模块20用于从基于第一网页标记语言的页面文件中提取页面主体内容。其中,以第一网页标记语言为超文本标记语言HTML为例,页面文件的页面主体内容是指主体<body>标签及其包含的内容。
在本实施例中,优化模块22用于将所述页面主体内容转换为字符串。在本实施例中,通过将页面主体内容转换为字符串,能够提高本发明实施例在后续处理(即转换模块的处理)的处理效率。
在本实施例中,转换模块24用于基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
在本实施例中,标签对应关系是指基于第一网页标记语言的标签与基于第二网页标记语言的标签的对应关系,该对应关系是预定义的,本发明实施例对此不做具体限制。
采用本实施例提供的网页标记语言的转换装置,通过提取页面主体内容并将页面主体内容转换为字符串进而进行标签的转换,能够高效地实现由第一标记语言的代码向第二标记语言的代码的转换,提高开发和移植效率,降低成本。
可选地,在本实施例的一种实现方式中,提取模块20利用正则表达式从基于超文本标记语言HTML的页面文件中提取主体标签及其内容。例如,正则表达式为:reg=/<body[^>]*>([\s\S]*)<\/body>/。使用该正则表达式即可将body内的代码从HTML代码中分离出来。
可选地,在本实施例的一种实现方式中,优化模块22删除所述页面主体内容中的格式信息,得到所述字符串。其中,所述格式信息是指使得所述页面主体内容在结构上易读而不影响实质内容的信息,例如,回车、空行等。
可选地,在本实施例的一种实现方式中,如图2中虚线框所示,转换模块24包括查找子模块240和替换子模块242。其中,所述查找子模块240用于利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;所述替换子模块242用于基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
在本实现方式中,以第一网页标记语言为HTML,第二网页标记语言为微信小程序代码为例,html中的标签个数目前是有不超过100个。在本实现方式中,将近100个标签又被分为了三类:块(block)类型标签,层(inline)标签,以及其它(<br/>、<hr/>等)标签。其中,块标签包括:address,code,article,applet,aside,audio,blockquote,button,canvas,center,dd,del,dir,div,dl,dt,fieldset,figcaption,figure,footer,form,frameset,h1,h2,h3,h4,h5,h6,header,hgroup,hr,iframe,ins,isindex,li,map,menu,noframes,noscript,object,ol,output,p,pre,section,script,table,tbody,td,tfoot,th,thead,tr,ul,video;层标签包括:abbr,acronym,applet,b,basefont,bdo,big,br,button,cite,del,dfn,em,font,i,iframe,img,input,ins,kbd,label,map,object,q,s,samp,script,select,small,span,strike,strong,sub,sup,textarea,tt,u,var;其它标签包括:colgroup,dd,dt,li,options,p,td,tfoot,th,thead,tr。
在本实现方式中,转换模块24可以采用以下伪代码实现其功能:
本段伪代码主要是通过正则表达式以及javascript中的indexOf()方法来进行检测,indexOf()方法可以全局全文检测目标标签的位置,如果没有,则返回-1,如果存在,就返回该目标标签在全文中的位置。
代码解析步骤如下:
1.将所有的HTML标签进行循环遍历,如果当前的这个循环标签在全文中并且这个标签是属于块状标签,那么我们就把这个标签的前后(<div></div>)替换为<view>标签。
2.承接上一部分,如果当前循环标签在全文中并且这个标签是层标签,则将这个标签(<span></span>)替换为<text>标签(因为img属于层标签,替换原理相同,只不过是img标签要替换成image的微信小程序标签)。
3.如果当前循环标签是其它的标签,就直接把这个标签替换成<view>标签。
以上对本发明实施例的一种网页标记语言的转换装置及其实现方式进行了详细说明,下面对本发明的其它实施例进行说明。
图3示出了根据本发明实施例的一种电子设备的框图,所述电子设备是实体设备,用于实现网页标记语言的转换。参照图3,所述电子设备包括一个或多个存储器30和一个或多个处理器32。其中,所述一个或多个存储器30用于存储一条或多条计算机指令;所述一个或多个处理器32用于调用和执行所述一条或多条计算机指令从而实现本发明图1所示实施例或其实现方式所提供的转换方法。
可选地,在本实施例的一种实现方式中,如图3中虚线框所示,所述电子设备还包括用于进行数据通信的输入输出接口。
除了以上所述的实施例之外,本发明的一种实施例还提供一种计算机存储介质,存储有一条或多条计算机指令,所述一条户多条计算机指令被执行时实现本发明图1所示实施例或其实现方式所提供的转换方法。
除了以上所述的实施例之外,本发明的一种实施例还提供一种应用程序,该应用程序集成有本发明图2所示实施例或其实现方式所提供的网页标记语言转换装置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明公开A1.一种网页标记语言的转换方法,所述方法包括:
从基于第一网页标记语言的页面文件中提取页面主体内容;
将所述页面主体内容转换为字符串;
基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
A2.如A1所述的方法,所述从基于第一网页标记语言的页面文件中提取页面主体内容,包括:
利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
A3.如A1所述的方法,所述将所述页面主体内容转换为字符串,包括:
删除所述页面主体内容中的格式信息,得到所述字符串。
A4.如A1-A3中任一项所述的方法,所述基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签,包括:
利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
本发明还公开B5.一种网页标记语言的转换装置,所述装置包括:
提取模块,用于从基于第一网页标记语言的页面文件中提取页面主体内容;
优化模块,用于将所述页面主体内容转换为字符串;
转换模块,用于基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
B6.如B5所述的装置,所述提取模块具体用于利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
B7.如B5所述的装置,所述优化模块具体用于删除所述页面主体内容中的格式信息,得到首尾相连的所述字符串。
B8.如B5-B7中任一项所述的装置,所述转换模块包括:
查找子模块,用于利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
替换子模块,用于基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
本发明还公开C9.一种电子设备,包括:
存储器,所述存储器用于存储一条或多条计算机指令;
处理器,所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如A1-A4中任一项所述的方法。
本发明还公开D10.一种计算机存储介质,所述计算机存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令被执行时实现如权利要求A1-A4中任一项所述的方法。
Claims (10)
1.一种网页标记语言的转换方法,其特征在于,所述方法包括:
从基于第一网页标记语言的页面文件中提取页面主体内容;
将所述页面主体内容转换为字符串;
基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
2.如权利要求1所述的方法,其特征在于,所述从基于第一网页标记语言的页面文件中提取页面主体内容,包括:
利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
3.如权利要求1所述的方法,其特征在于,所述将所述页面主体内容转换为字符串,包括:
删除所述页面主体内容中的格式信息,得到所述字符串。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签,包括:
利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
5.一种网页标记语言的转换装置,其特征在于,所述装置包括:
提取模块,用于从基于第一网页标记语言的页面文件中提取页面主体内容;
优化模块,用于将所述页面主体内容转换为字符串;
转换模块,用于基于所述字符串以及标签对应关系,将所述页面主体内容中的标签转换为基于第二网页标记语言的标签。
6.如权利要求5所述的装置,其特征在于,
所述提取模块具体用于利用正则表达式从基于超文本标记语言的页面文件中提取主体标签及其内容。
7.如权利要求5所述的装置,其特征在于,
所述优化模块具体用于删除所述页面主体内容中的格式信息,得到所述字符串。
8.如权利要求5-7中任一项所述的装置,其特征在于,所述转换模块包括:
查找子模块,用于利用正则表达式查找所述字符串中的基于第一网页标记语言的标签;
替换子模块,用于基于所述标签对应关系,将所述页面主体内容中的基于第一网页标记语言的标签替换为基于第二网页标记语言的标签。
9.一种电子设备,包括存储器和处理器,其特征在于,
所述存储器用于存储一条或多条计算机指令;
所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如权利要求1-4中任一项所述的方法。
10.一种计算机存储介质,其特征在于,
所述计算机存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令被执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539556.6A CN108829648A (zh) | 2018-05-30 | 2018-05-30 | 网页标记语言的转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539556.6A CN108829648A (zh) | 2018-05-30 | 2018-05-30 | 网页标记语言的转换方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829648A true CN108829648A (zh) | 2018-11-16 |
Family
ID=64146426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810539556.6A Pending CN108829648A (zh) | 2018-05-30 | 2018-05-30 | 网页标记语言的转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023213203A1 (zh) * | 2022-05-06 | 2023-11-09 | 易保网络技术(上海)有限公司 | 一种小程序页面的录屏方法、介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050097514A1 (en) * | 2003-05-06 | 2005-05-05 | Andrew Nuss | Polymorphic regular expressions |
US20080201633A1 (en) * | 2007-02-16 | 2008-08-21 | Esobi Inc. | Method and system for converting hypertext markup language web page to plain text |
US20080256120A1 (en) * | 2001-05-10 | 2008-10-16 | Sony Corporation | Document processing apparatus, document processing method, document processing program and recording medium |
CN102163233A (zh) * | 2011-04-18 | 2011-08-24 | 北京神州数码思特奇信息技术股份有限公司 | 一种网页标记语言格式转换方法及系统 |
CN103425765A (zh) * | 2013-08-06 | 2013-12-04 | 优视科技有限公司 | 网页正文的提取方法和装置、网页预览方法和系统 |
CN104715054A (zh) * | 2015-03-30 | 2015-06-17 | 江苏汇知网络科技有限公司 | 将Silverlight内容转换成HTML网页内容的方法 |
CN104965901A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种目标页面内容抓取方法和装置 |
CN105095449A (zh) * | 2015-07-27 | 2015-11-25 | 福州盈展信息技术有限公司 | 一种将html网页转换为移动终端页面的方法 |
CN105938496A (zh) * | 2016-05-27 | 2016-09-14 | 深圳市永兴元科技有限公司 | 网页内容提取方法及装置 |
CN107885792A (zh) * | 2017-10-19 | 2018-04-06 | 福建中金在线信息科技有限公司 | 网页文章显示方法、装置及系统 |
-
2018
- 2018-05-30 CN CN201810539556.6A patent/CN108829648A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080256120A1 (en) * | 2001-05-10 | 2008-10-16 | Sony Corporation | Document processing apparatus, document processing method, document processing program and recording medium |
US20050097514A1 (en) * | 2003-05-06 | 2005-05-05 | Andrew Nuss | Polymorphic regular expressions |
US20080201633A1 (en) * | 2007-02-16 | 2008-08-21 | Esobi Inc. | Method and system for converting hypertext markup language web page to plain text |
CN102163233A (zh) * | 2011-04-18 | 2011-08-24 | 北京神州数码思特奇信息技术股份有限公司 | 一种网页标记语言格式转换方法及系统 |
CN103425765A (zh) * | 2013-08-06 | 2013-12-04 | 优视科技有限公司 | 网页正文的提取方法和装置、网页预览方法和系统 |
CN104715054A (zh) * | 2015-03-30 | 2015-06-17 | 江苏汇知网络科技有限公司 | 将Silverlight内容转换成HTML网页内容的方法 |
CN104965901A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种目标页面内容抓取方法和装置 |
CN105095449A (zh) * | 2015-07-27 | 2015-11-25 | 福州盈展信息技术有限公司 | 一种将html网页转换为移动终端页面的方法 |
CN105938496A (zh) * | 2016-05-27 | 2016-09-14 | 深圳市永兴元科技有限公司 | 网页内容提取方法及装置 |
CN107885792A (zh) * | 2017-10-19 | 2018-04-06 | 福建中金在线信息科技有限公司 | 网页文章显示方法、装置及系统 |
Non-Patent Citations (3)
Title |
---|
WHATIF: "微信小程序脚手架及html转译GUI工具", 《SEGMENTFAULT》 * |
谭锋 等: "基于.NET的Web信息抽取系统关键技术研究", 《软件导刊》 * |
高庆宁 等: "基于文档对象模型与行块分布算法的网页信息抽取", 《情报理论与实践(ITA)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023213203A1 (zh) * | 2022-05-06 | 2023-11-09 | 易保网络技术(上海)有限公司 | 一种小程序页面的录屏方法、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3879350B2 (ja) | 構造化文書処理システム及び構造化文書処理方法 | |
WO2015062366A1 (zh) | 一种网页广告的拦截方法、装置和浏览器 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
KR20130066603A (ko) | 폰트 서브세트의 개시 | |
CN101089856A (zh) | 一种提取网页数据的方法和Web爬虫系统 | |
JP6203374B2 (ja) | ウェブページ・スタイルアドレスの統合 | |
CN105205080B (zh) | 冗余文件清理方法、装置和系统 | |
CN103699591A (zh) | 一种基于示例页面的网页正文提取方法 | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
US20110258528A1 (en) | Method and system for removing chrome from a web page | |
CN109976840A (zh) | 一种基于前后台分离平台下实现多语言自动适配的方法及系统 | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN106294885A (zh) | 一种面向异构网页的数据收集与标注方法 | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
CN112463152A (zh) | 一种基于ast的网页适配方法及装置 | |
CN110309457A (zh) | 网页数据处理方法、装置、计算机设备和存储介质 | |
Nadee et al. | Towards data extraction of dynamic content from JavaScript Web applications | |
CN107590288A (zh) | 用于抽取网页图文块的方法和装置 | |
CN108829648A (zh) | 网页标记语言的转换方法及装置 | |
CA2602749C (en) | System and method of report representation | |
CN113139145B (zh) | 页面生成方法、装置、电子设备及可读存储介质 | |
CN110851678A (zh) | 一种爬取数据的方法和装置 | |
CN112800078A (zh) | 基于javascript的轻量级文本标注方法、系统、设备及存储介质 | |
CN108664511A (zh) | 获取网页信息方法和装置 | |
KR20210098813A (ko) | 텍스트 데이터 수집과 분석 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202 Applicant after: Beijing Xingxuan Technology Co.,Ltd. Address before: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202 Applicant before: Beijing Xiaodu Information Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181116 |