CN113807050A - 一种基于富文本的节点截取方法、系统、设备和存储介质 - Google Patents

一种基于富文本的节点截取方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN113807050A
CN113807050A CN202110742641.4A CN202110742641A CN113807050A CN 113807050 A CN113807050 A CN 113807050A CN 202110742641 A CN202110742641 A CN 202110742641A CN 113807050 A CN113807050 A CN 113807050A
Authority
CN
China
Prior art keywords
node
text
dom
object tree
child node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110742641.4A
Other languages
English (en)
Other versions
CN113807050B (zh
Inventor
周帅超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Huaxun Technology Co ltd
Original Assignee
Xi'an Huaxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Huaxun Technology Co ltd filed Critical Xi'an Huaxun Technology Co ltd
Priority to CN202110742641.4A priority Critical patent/CN113807050B/zh
Publication of CN113807050A publication Critical patent/CN113807050A/zh
Application granted granted Critical
Publication of CN113807050B publication Critical patent/CN113807050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本截取技术领域,具体公开了一种基于富文本的节点截取方法,包括:获取原始富文本的DOM节点;通过序列化DOM节点,生成对象树;通过递归节点对象树计算文本数量,遍历节点对象树数组;计数满足预期的截取文本数量时,截取文本内容,跳出循环,截取剩下的DOM对象树;将DOM对象树反序列化成DOM节点,遍历DOM对象树;调用DOM节点的innerHTML方法生成一个保留样式的富文本;将保留样式后的富文本上传到服务器端;用户端获取富文本后直接设置DOM的innerHTML方法渲染即可完成精准截取。本发明通过序列化DOM树的方法,能够精准到字数的对富文本进行截取,并且可以保留样式。

Description

一种基于富文本的节点截取方法、系统、设备和存储介质
技术领域
本发明属于文本截取技术领域,特别涉及一种基于富文本的节点截取 方法、系统、设备和存储介质。
背景技术
现代的文章编辑基本上都基于富文本编辑器,富文本编辑器,Rich Text Editor,简称RTE,是一种可内嵌于浏览器,所见即所得的文本编 辑器。它是一种解决可一般的用户不同HTML等网页标记但是需要在网页 上设置字体的颜色、大小、样式等信息问题一个文本编辑器。
随着知识付费文章等场景的流行,大多数付费文章都是基于富文本段 落的截取,比如得到,微信付费文章,得到付费阅读等应用。但是现有技 术中基于段落的截取遇到的问题如下:
1.不能够精准的截取到具体文字数量,只能根据段落截取。
2.样式与文本分离,还需要前端另行处理。
3.后台编辑页面,后端存储,用户展示端都需要不同程度的修改。
因此,提供一种新的基于富文本的节点截取方法是本领域技术人员亟 需解决的技术问题。
发明内容
本发明的目的在于克服现有技术中存在的缺陷,提供一种基于富文本 的节点截取方法。
本发明的第一方面,提供了一种基于富文本的节点截取方法,包括以 下步骤:
步骤1:通过JavaScript获取原始富文本的DOM节点;
步骤2:通过序列化DOM节点,生成对象树;
步骤3:通过递归节点对象树计算文本数量,遍历节点对象树数组;
步骤4:计数满足预期的截取文本数量时,截取文本内容,跳出循环, 截取剩下的DOM对象树;
步骤5:将DOM对象树反序列化成DOM节点,遍历DOM对象树;判断 DOM节点是否还有子节点,如果没有,进行下一步,如果有重复以上过程, 直到没有子节点为止;
步骤6:调用DOM节点的innerHTML方法生成一个保留样式的富文本;
步骤7:将保留样式后的富文本上传到服务器端;
步骤8:用户端获取富文本后直接设置DOM的innerHTML方法渲染即 可完成精准截取。
进一步的方案为,所述步骤2中,获取到DOM节点后,遍历查询子节 点,如果子节点是文本节点,则删除特殊字符,如果子节点是普通节点, 将节点属性遍历保存到对象属性上,如果子节点还有子节点,重复以上过 程,直到没有子节点为止。
进一步的方案为,所述步骤3中,如果是普通节点,查看有没有子节 点,如果有子节点,接着遍历子节点直到没有子节点为止,如果是文本节 点,根据文本长度进行计数。
进一步的方案为,所述步骤5中,如果子节点是文本节点,则创建文 本节点,如果子节点是普通节点,则创建普通节点。
本发明的第二方面,提供了一种基于富文本的节点截取系统,其特征 在于,包括:
节点获取模块,用于通过JavaScript获取原始富文本的DOM节点;
对象数生成模块,通过序列化DOM节点,生成对象树;
文本数量计算模块,通过递归节点对象树计算文本数量,遍历节点对 象树数组;
文本截取模块,当计数满足预期的截取文本数量时,用于截取文本内 容,跳出循环,截取剩下的DOM对象树;
DOM节点生成模块,用于将DOM对象树反序列化成DOM节点,遍历DOM 对象树;
富文本生成模块,调用DOM节点的innerHTML方法生成一个保留样式 的富文本;
上传模块,用于将保留样式后的富文本上传到服务器端;
渲染模块,用于对用户端获取的富文本进行DOM的innerHTML方法渲 染。
进一步的方案为,所述对象数生成模块,获取到DOM节点后,遍历查 询子节点,如果子节点是文本节点,则删除特殊字符,如果子节点是普通 节点,将节点属性遍历保存到对象属性上,如果子节点还有子节点,重复 以上过程,直到没有子节点为止。
进一步的方案为,所述文本数量计算模块在计算节点对象树数量时, 如果是普通节点,查看有没有子节点,如果有子节点,接着遍历子节点直 到没有子节点为止,如果是文本节点,根据文本长度进行计数。
进一步的方案为,所述DOM节点生成模块在生成DOM节点时,如果子 节点是文本节点,则创建文本节点,如果子节点是普通节点,则创建普通 节点。
本发明的第三方面,提供了一种设备,包括处理器和存储器,其中, 所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得 所述处理器执行上述所述方法的步骤。
本发明的第四方面,提供了一种计算机可读存储介质,包括程序代码, 当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备 执行上述任一所述方法的步骤。
在本发明内容中,普通节点包括文本节点,文本节点是一种特殊的DOM 节点,是展示文字用的,常见P,span,或者标签内直接展示文字内容的。
普通节点是指除了文本节点之外的节点。
与现有技术相比,本发明的有益效果在于:
(1)本发明通过序列化DOM树的方法,能够精准到字数的对富文本 进行截取,并且可以保留样式。
(2)本发明可以在保留原有样式的情况下截取富文本的内容,可用 于常规的富文本组件,适用性广,可用于更灵活的UI界面
(3)本发明截取的富文本自动带样式,不需要二次开发。
(4)本发明通过递归序列化DOM节点的属性后,转为节点对象,通 过递归节点对象进行字数计算,当计算的数量大于等于需要截取的数量后, 截取对象树,再反序列化成DOM节点,渲染页面。实现富文本保存样式的 截取。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的 范围,其中:
图1:本发明的节点截取方法流程图。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以 下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所 描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于富文本的节点截取方法,包括以 下步骤:
(1)通过JavaScript获取原始富文本的DOM节点。
(2)通过序列化DOM节点,生成对象树。获取到DOM节点后,遍历 查询子节点,如果子节点是文本节点,则删除特殊字符,比如: &quot;&gt;&lt;<br/>\r\n|\r|\n,如果子节点是普通节点,将节点属性 遍历保存到对象属性上。如果子节点还有子节点,重复以上过程。直到没 有子节点为止。
(3)通过递归节点对象树计算文本数量,遍历节点对象树数组,如 果是普通节点,查看有没有子节点,如果有子节点,接着遍历子节点直到 没有子节点为止。如果是文本节点,则根据文本长度进行计数。
(4)当计数满足预期的截取文本数量时,截取文本内容,跳出循环 之后。截取剩下的DOM对象树。
(5)将DOM对象树反序列化成DOM节点,遍历DOM对象树,如果子 节点是文本节点,则创建文本节点,如果子节点是普通节点,则创建普通 节点。如果子节点还有子节点,重复以上过程。直到没有子节点为止。
(6)调用DOM节点的innerHTML方法生成一个保留样式的富文本。
(7)将保留样式后的富文本上传到服务器端。
(8)用户端获取富文本后直接设置DOM的innerHTML方法渲染即可。
本发明还提供了一种基于富文本的节点截取系统,包括:
节点获取模块,用于通过JavaScript获取原始富文本的DOM节点;
对象数生成模块,通过序列化DOM节点,生成对象树;
文本数量计算模块,通过递归节点对象树计算文本数量,遍历节点对 象树数组;
文本截取模块,当计数满足预期的截取文本数量时,用于截取文本内 容,跳出循环,截取剩下的DOM对象树;
DOM节点生成模块,用于将DOM对象树反序列化成DOM节点,遍历DOM 对象树;
富文本生成模块,调用DOM节点的innerHTML方法生成一个保留样式 的富文本;
上传模块,用于将保留样式后的富文本上传到服务器端;
渲染模块,用于对用户端获取的富文本进行DOM的innerHTML方法渲 染。
在本系统中,所述对象数生成模块,获取到DOM节点后,遍历查询子 节点,如果子节点是文本节点,则删除特殊字符,如果子节点是普通节点, 将节点属性遍历保存到对象属性上,如果子节点还有子节点,重复以上过 程,直到没有子节点为止。
在本系统中,所述文本数量计算模块在计算节点对象树数量时,如果 是普通节点,查看有没有子节点,如果有子节点,接着遍历子节点直到没 有子节点为止,如果是文本节点,根据文本长度进行计数。
在本系统中,所述DOM节点生成模块在生成DOM节点时,如果子节点 是文本节点,则创建文本节点,如果子节点是普通节点,则创建普通节点。
基于上述方法和系统,为了更好的理解本发明,通过以下示例进一步 说明:
本示例中的原始文章为:
中国有色金属报社是由国资委举办,中国有色金属工业协会主管、主 办的行业传媒机构,日前有一报——《中国有色金属报》,一网——中 国有色网,三个微信公众号——中国有色金属报、钛微媒、铜微媒,具有 报纸出版、网络出版、手机报出版、网络视频制作播放等专项许可资质。 《中国有色金属报》面向国内外公开发行,是覆盖中国有色金属全行业、 具权威性、报网一体的立体综合信息传媒。
为进一步加强中国有色金属报社新闻采编力量,建设具有行业影的力 的一流媒体,现公开招聘新闻采编人员两名,实习记者三名,招聘要求:
1.具有正确的价值观。
2.大学本科以上学历,热爱新闻事业、文字功底扎实。
3.有良好的团队合作精神和沟通能力。
4.能熟练应用计算机办公软件。
5.身心健康。
原始富文本:
<p>中国有色金属报社是由国<span style="color:#3498db;">资委举 办</span>,中国有色金属工业协会主管、主办的行业传媒机构,目前有 一报&mdash;&mdash;《中国有色金属报》、一网&mdash;&mdash;中国有色 网,三个微信公众号&mdash;&mdash;中国有色金属报、钛微媒、铜微媒, 具有报纸出版、网络出版、手机报出版、网络视频制作播放等专项许可与 资质。《中国有色金属报》面向国内外公开发行,是覆盖中国有色金属全 行业、具权威性、报网一体的立体综合信息传媒。</p>
<p>为进一步加强中国有色金属报社新闻采编力量,建设具有行业影 响力的一流媒体,现公开招聘新闻采编人员两名,实习记者三名。</p>
<p>招聘要求:</p>
<p>1.具有正确的价值观。</p>
<p>2.大学本科以上学历,热爱新闻事业,文字功底扎实。</p>
<p>3.有良好的团队合作精神和沟通能力。</p>
<p>4.能熟练应用计算机办公软件。</p>
<p>5.身心健康。</p>
<p>报社属事业单位,目前正处在转企阶段。待遇包括:工资、奖金、 交通补贴、免费午餐,五险一金,带薪休假,健康体检等。</p>
格式化为DOM对象
0:
attrs:[]
children:Array(3)
0:"中国有色金属报社是由国"
1:
>attrs:[{...}]
children:["资委举办"]
tag:"span"
>_proto_:Object
2:“,中国有色金属工业协会主"
length:3
_proto_:Array(0)
tag:"p"
_proto_:Object
1:"<br/><br/>"
>2:{tag:"p",attrs:Array(0),children:Array(1)}
3:"<br/><br/>"
>4:{tag:"p",attrs:Array(0),children:Array(1)}
5:"<br/><br/>"
>6:{tag:"p",attrs:Array(0),children:Array(1)}
7:"<br/><br/>"
>8:{tag:"p",attrs:Array(0),children:Array(1))}
9:"<br/><br/>"
>10:{tag:"p",attrs:Array(0),children:Array(1)}
11:"<br/><br/>"
>12:{tag:"p",attrs:Array(0),children:Array(1)}
13:"<br/><br/>
>14:{tag:"p",attrs:Array(0),children:Array(1)}
15:"<br/><br/>"
16:{tag:"p",attrs:Array(0),children:Array(1)}
[{"tag":"p","attrs":[],"children":
["中国有色金属报社是由国",
{"tag":"span","attrs":[{"name":"style","value":"color:#3498 db;"}],"children":["资委举办"]},",中国有色金属工业协会主管、主 办的行业传媒机构,目前有一报——《中国有色金属报》、一网——中国 有色网,三个微信公众号——中国有色金属报、钛微媒、铜微媒,具有报 纸出版、网络出版、手机报出版、网络视频制作播放等专项许可与资质。 《中国有色金属报》面向国内外公开发行,是覆盖中国有色金属全行业、 具权威性、报网一体的立体综合信息传媒。
"]},"<br/><br/>",{"tag":"p","attrs":[],"children":["为进一 步加强中国有色金属报社新闻采编力量,建设具有行业影响力的一流媒 体,现公开招聘新闻采编人员两名,实习记者三名。
"]},"<br/><br/>",{"tag":"p","attrs":[],"children":["招聘要 求:"]},"<br/><br/>",{"tag":"p","attrs":[],"children":["1.具有正 确的价值观。"]},"<br/><br/>",{"tag":"p","attrs":[],"children":
["2.大学本科以上学历,热爱新闻事业,文字功底扎实。
"]},"<br/><br/>",{"tag":"p","attrs":[],"children":
["3.有良好的团队合作精神和沟通能力。
"]},"<br/><br/>",{"tag":"p","attrs":[],"children":
["4.能熟练应用计算机办公软件。
"]},"<br/><br/>",{"tag":"p","attrs":[],"children":["5.身心 健康。"]},"<br/><br/>",{"tag":"p","attrs":[],"children":["报社属 事业单位,目前正处在转企阶段。待遇包括:工资、奖金、交通补贴、免 费午餐,五险一金,带薪休假,健康体检等。"]}]
截取后DOM对象
Figure RE-GDA0003330863180000081
Figure RE-GDA0003330863180000091
最后生成的富文本
<p>中国有色金属报社是由国<span style="color:#3498db;">资委举 办</span>,中国有色金属工业协会主</p>。
本发明还提供了一种设备,包括:至少一个处理器,以及与所述至少 一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一 个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至 少一个处理器执行所述的方法。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不 做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述节 点截取方法,从而能够实现在保留原有样式的情况下截取富文本的内容。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时,实现所述的方法。具体实现可参见方法实施例, 在此不再赘述。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽 性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更 都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原 理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术 人员能理解本文披露的各实施例。

Claims (10)

1.一种基于富文本的节点截取方法,其特征在于,包括以下步骤:
步骤1:通过JavaScript获取原始富文本的DOM节点;
步骤2:通过序列化DOM节点,生成对象树;
步骤3:通过递归节点对象树计算文本数量,遍历节点对象树数组;
步骤4:计数满足预期的截取文本数量时,截取文本内容,跳出循环,截取剩下的DOM对象树;
步骤5:将DOM对象树反序列化成DOM节点,遍历DOM对象树;判断DOM节点是否还有子节点,如果没有,进行下一步,如果有重复以上过程,直到没有子节点为止;
步骤6:调用DOM节点的innerHTML方法生成一个保留样式的富文本;
步骤7:将保留样式后的富文本上传到服务器端;
步骤8:用户端获取富文本后直接设置DOM的innerHTML方法渲染即可完成精准截取。
2.根据权利要求1所述的一种基于富文本的节点截取方法,其特征在于,所述步骤2中,获取到DOM节点后,遍历查询子节点,如果子节点是文本节点,则删除特殊字符,如果子节点是普通节点,将节点属性遍历保存到对象属性上,如果子节点还有子节点,重复以上过程,直到没有子节点为止。
3.根据权利要求2所述的一种基于富文本的节点截取方法,其特征在于,所述步骤3中,如果是普通节点,查看有没有子节点,如果有子节点,接着遍历子节点直到没有子节点为止,如果是文本节点,根据文本长度进行计数。
4.根据权利要求3所述的一种基于富文本的节点截取方法,其特征在于,所述步骤5中,如果子节点是文本节点,则创建文本节点,如果子节点是普通节点,则创建普通节点。
5.一种基于富文本的节点截取系统,其特征在于,包括:
节点获取模块,用于通过JavaScript获取原始富文本的DOM节点;
对象数生成模块,通过序列化DOM节点,生成对象树;
文本数量计算模块,通过递归节点对象树计算文本数量,遍历节点对象树数组;
文本截取模块,当计数满足预期的截取文本数量时,用于截取文本内容,跳出循环,截取剩下的DOM对象树;
DOM节点生成模块,用于将DOM对象树反序列化成DOM节点,遍历DOM对象树;
富文本生成模块,调用DOM节点的innerHTML方法生成一个保留样式的富文本;
上传模块,用于将保留样式后的富文本上传到服务器端;
渲染模块,用于对用户端获取的富文本进行DOM的innerHTML方法渲染。
6.根据权利要求5所述的一种基于富文本的节点截取系统,其特征在于,所述对象数生成模块,获取到DOM节点后,遍历查询子节点,如果子节点是文本节点,则删除特殊字符,如果子节点是普通节点,将节点属性遍历保存到对象属性上,如果子节点还有子节点,重复以上过程,直到没有子节点为止。
7.根据权利要求6所述的一种基于富文本的节点截取系统,其特征在于,所述文本数量计算模块在计算节点对象树数量时,如果是普通节点,查看有没有子节点,如果有子节点,接着遍历子节点直到没有子节点为止,如果是文本节点,根据文本长度进行计数。
8.根据权利要求7所述的一种基于富文本的节点截取系统,其特征在于,所述DOM节点生成模块在生成DOM节点时,如果子节点是文本节点,则创建文本节点,如果子节点是普通节点,则创建普通节点。
9.一种设备,其特征在于,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~4中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~4中任一所述方法的步骤。
CN202110742641.4A 2021-07-01 2021-07-01 一种基于富文本的节点截取方法、系统、设备和存储介质 Active CN113807050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110742641.4A CN113807050B (zh) 2021-07-01 2021-07-01 一种基于富文本的节点截取方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110742641.4A CN113807050B (zh) 2021-07-01 2021-07-01 一种基于富文本的节点截取方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113807050A true CN113807050A (zh) 2021-12-17
CN113807050B CN113807050B (zh) 2024-04-09

Family

ID=78893049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110742641.4A Active CN113807050B (zh) 2021-07-01 2021-07-01 一种基于富文本的节点截取方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113807050B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102841901A (zh) * 2011-06-23 2012-12-26 腾讯科技(深圳)有限公司 一种网页显示的方法和装置
CN103092973A (zh) * 2013-01-24 2013-05-08 浪潮(北京)电子信息产业有限公司 信息抽取方法和装置
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
CN105095206A (zh) * 2014-04-18 2015-11-25 富士通株式会社 信息处理方法以及信息处理装置
CN105630902A (zh) * 2015-12-21 2016-06-01 明博教育科技股份有限公司 一种渲染和增量更新网页的方法
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109657184A (zh) * 2018-12-19 2019-04-19 北京创鑫旅程网络技术有限公司 富文本处理方法、装置、服务器及计算机可读介质
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102841901A (zh) * 2011-06-23 2012-12-26 腾讯科技(深圳)有限公司 一种网页显示的方法和装置
CN103092973A (zh) * 2013-01-24 2013-05-08 浪潮(北京)电子信息产业有限公司 信息抽取方法和装置
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
CN105095206A (zh) * 2014-04-18 2015-11-25 富士通株式会社 信息处理方法以及信息处理装置
CN105630902A (zh) * 2015-12-21 2016-06-01 明博教育科技股份有限公司 一种渲染和增量更新网页的方法
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109657184A (zh) * 2018-12-19 2019-04-19 北京创鑫旅程网络技术有限公司 富文本处理方法、装置、服务器及计算机可读介质
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
夏天;: "基于扩展标记树的网页正文抽取", 广西师范大学学报(自然科学版), no. 01, pages 133 - 137 *
孔胜;王宇;: "一种基于正文特征的新闻网页抽取方法", 情报杂志, no. 08, pages 122 - 124 *
林昌平;郑皎凌;: "基于DOM规范的网页分析技术研究", 成都信息工程学院学报, no. 1, pages 113 - 117 *
郑斌;沈明霞;: "在线富文本公式编辑器的设计与实现", 计算机工程, no. 18, pages 287 - 289 *

Also Published As

Publication number Publication date
CN113807050B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN107451296B (zh) 一种基于组件的网站模块化渲染方法
US7721195B2 (en) RTF template and XSL/FO conversion: a new way to create computer reports
CN110738037B (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US20030110442A1 (en) Developing documents
US20040261017A1 (en) Document generation
US20050065936A1 (en) System and method for reusing form elements in a form building application
US20040117739A1 (en) Generating rules to convert HTML tables to prose
US20050235202A1 (en) Automatic graphical layout printing system utilizing parsing and merging of data
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
WO2014153457A1 (en) Merging web page style addresses
CN112307512A (zh) 一种日志脱敏方法、装置及存储介质
CN111737623A (zh) 网页信息提取方法及相关设备
CN106951495A (zh) 用于呈现信息的方法和装置
CN103810251A (zh) 一种文本提取方法及装置
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN109543128A (zh) 一种基于编程语言的前端框架项目实现方法及电子设备
CN107590288A (zh) 用于抽取网页图文块的方法和装置
US10776351B2 (en) Automatic core data service view generator
CN108170409A (zh) Web前端控件的开发方法和系统
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN110309457A (zh) 网页数据处理方法、装置、计算机设备和存储介质
JPH11110384A (ja) 構造化文書検索表示方法及び装置
US10140278B2 (en) Computer-implemented methods and systems for associating files with cells of a collaborative spreadsheet
CN113807050A (zh) 一种基于富文本的节点截取方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant