CN115169292A - 文档处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

文档处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115169292A
CN115169292A CN202210929320.XA CN202210929320A CN115169292A CN 115169292 A CN115169292 A CN 115169292A CN 202210929320 A CN202210929320 A CN 202210929320A CN 115169292 A CN115169292 A CN 115169292A
Authority
CN
China
Prior art keywords
document
markup language
hypertext markup
display effect
language document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210929320.XA
Other languages
English (en)
Inventor
彭杰
郑晓森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pingan Payment Technology Service Co Ltd
Original Assignee
Pingan Payment Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pingan Payment Technology Service Co Ltd filed Critical Pingan Payment Technology Service Co Ltd
Priority to CN202210929320.XA priority Critical patent/CN115169292A/zh
Publication of CN115169292A publication Critical patent/CN115169292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种文档处理方法、装置、电子设备及计算机可读存储介质。该文档处理方法包括:将接收的原始文档转换为超文本标记语言文档;为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;基于所述Markdown格式文档构建网页文档。本申请的文档处理方法,便于对文档进行编辑,能够较快地生成网页文档,工作效率较高,并且避免了文档转换过程中的展现效果特征丢失。

Description

文档处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种文档处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着移动互联网的普及,通过不同移动端设备处理文档的需求十分普遍。尤其是将用户终端上传的原始文档转换为网页文档的过程较为复杂,编辑文档时操作比较复杂,工作效率较低,并且在文档转换过程中容易出现丢失展现效果特征的状况。
发明内容
本申请的目的是提供一种文档处理方法、装置、电子设备及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种文档处理方法,包括:
将接收的原始文档转换为超文本标记语言文档;
为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;
根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;
基于所述Markdown格式文档构建网页文档。
根据本申请实施例的另一个方面,提供一种文档处理装置,包括:
第一转换模块,用于将接收的原始文档转换为超文本标记语言文档;
第一构建模块,用于为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;
第二转换模块,用于根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;
第二构建模块,用于基于所述Markdown格式文档构建网页文档。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的文档处理方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的文档处理方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的文档处理方法,将接收的原始文档转换为超文本标记语言文档,为所述超文本标记语言文档的展现效果特征构建派生标识,根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档,基于所述Markdown格式文档构建网页文档,本方法便于对文档进行编辑,能够较快地生成网页文档,工作效率较高,并且避免了文档转换过程中的展现效果特征丢失。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的文档处理方法应用环境示意图。
图2示出了本申请的一个实施例的文档处理方法流程图。
图3示出了一个示例中通过Markdown编辑器对图片进行编辑的过程示意图。
图4示出了图2中步骤S40的流程图。
图5示出了本申请的一个实施例的文档处理装置结构框图。
图6示出了本申请的另一实施例的电子设备结构框图。
图7示出了本申请的另一实施例的计算机可读存储介质示意图。
本申请的目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请提供的文档处理方法,可应用在如图1的应用环境中,其中,用户终端通过互联网与服务器端进行通信。服务器端可以接收用户终端发送的原始文档,对原始文档进行处理,最终得到网页文档。其中,用户终端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本申请进行详细的描述。
Markdown格式文档便于编辑,目前较多地应用于各种需要编辑输入的应用场景中。Markdown格式文档在与具有更强的展现样式的原始文档进行转换时经常会发生丢失部分展现效果特征的情况,导致Markdown格式文档的应用场景受到限制。为了扩大Markdown格式文档的应用场景,使转换得到的Markdown格式文档进行编辑的同时能够尽可能多地保留原始文档中的展现效果特征,本申请实施例提出了一种文档处理方法。
如图2所示,本申请的一个实施例提供了一种文档处理方法,包括以下步骤:
S10、将接收的原始文档转换为超文本标记语言文档。
原始文档例如可以是word文档、WPS文档、PDF文档、PPT文档或者其他格式的文档。原始文档可以是用户终端所发送的。用户在终端编辑好原始文档之后通过网络发送给服务器端。
在一些实施方式中,接收到原始文档之后可以通过服务器加载该原始文档,以便被加载的原始文档能够在该服务器上完成后续的文档格式转换步骤。其中,该原始文档可以包含有各种文本内容和图片内容以及对应于这些文本内容和图片内容的展现样式,各种展现样式均有对应的展现效果特征。在对该原始文档进行内容显示时,其所对应的文档页面将显示各种文本内容和图片内容,并且这些文本内容和图片内容所对应的展现样式也将显示于文档页面中。
在一些实施方式中,在服务器中打开加载的原始文档,并将该原始文档转换为超文本标记语言文档。其中,原始文档的打开与转换均可通过开源工具实现,例如,该开源工具可以是开源的办公室软件套件。
对于加载服务器的原始文档而言,可通过其所在的服务器调用跨平台的开源的办公室软件套件等文档处理工具实现原始文档的打开与转换。该办公室软件套件例如可以是OpenOffice开源软件。该超文本标记语言文档可以包括不同格式的图片以及采用纯文本格式进行编辑的文本形式等等,通过该超文本标记语言文档即可实现相应的网页页面显示。
层叠样式表(英文全称Cascading Style Sheets,简称CSS)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。层叠样式表不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。层叠样式表能够对网页中元素位置的排版进行像素级精确控制,支持几乎所有的字体字号样式,拥有对网页对象和模型样式编辑的能力。层叠样式表为HTML标记语言提供了一种样式描述,定义了其中元素的显示方式。
S20、为该超文本标记语言文档的展现效果特征构造派生标识。派生标识用于标识所述展现效果特征。
层叠样式表的展现效果特征用于定义超文本标记语言文档的展现效果特征,例如,所定义的显示效果包括字体大小、字体颜色、背景颜色及图片大小等,而被构造的派生标识则用于标识超文本标记语言文档的展现效果特征。派生标识也可以称为拓展标识、扩展标识、延展标识、派生标记或扩展标记等等。展现效果特征也可以称为样式属性,显示效果也可以称为展现效果特征。
如图3所示为通过Markdown编辑器对图片进行编辑的一个示例过程示意图。例如,在上传图片之后,在文档中插入
<div class="imgBox"align="center"><img class="resizeImg imageName-timeStamp"alt="imageName"src="imageUrl"style="width:w;height:h;"></div>格式的内容。
与相关技术中的![imageName](imageUrl)格式的markdown语法相比,本技术方案在能够正常显示图片的基础上,能够对图片的宽高位置进行直观展示,还能方便快捷的对图片进行宽高位置调整。在插入的markdown语句中,class="resizeImg imageName-timeStamp"是作为标识存在的,便于后续寻找目标图片。其中,imageName-timeStamp、imageName、imageUrl、w、h均为变量,不是具体值。
在使用markdown编辑器编辑文本时,可以方便快捷地对图片进行大小调整、位置调整,在对图片进行调整之后,文本排版更加合理美观。
插入的markdown语句在被markdown解析器解析后会在展示区渲染出相应的图片,根据前述的标识,可以迅速在展示区中定位到图片,为图片添加DDC(drag-and-dropcomponent,即拖放组件或拖拽组件),通过DDC可以调整图片的宽高和位置。在调整完成后,记录调整结果。此时,虽然展示区的图片大小位置已经调整,但需要更新到文档中才能真正生效。通过前述的标识,找到目标图片在文档中的所在位置,将结果替换掉相应位置的内容。
又例如,用于定义字体大小的展现效果特征为“<span style="font-size:16px">文本</span>”,为该展现效果特征构造的派生标识对应地为“!字体大小文本!”,由此形成该展现效果特征与构造的派生标识之间的关联关系,通过该关联关系使得Markdown格式文档可以用来标识超文本标记语言文档的字体大小。
在层叠样式表中,图片显示样式例如包括:
object-fit:contain;代表的是缩放显示,适应父布局大小,不裁切;
object-fit:fill;代表的是完全显示到父布局会有变形,没有裁切。
object-fit:cover;代表的是完全显示到布局,会有裁切。
object-fit:none;代表的是原始尺寸,不变化。
在层叠样式表中,图片宽高的表示方式包括:
px:固定数值,例如:600px表示600像素;
rem:相对于根元素(即html元素)font-size计算值的倍数,1em与当前元素的字体大小相同,浏览器给网页设置的默认基础字体大小是16像素,即一个元素来说1em的计算值默认为16像素。但是要em单位是会继承父元素的字体大小,所以如果在父元素上设置了不同的字体大小,也会跟随者变化。
100%:表示设置百分比单位。
vh:视窗高度的百分比(1vh代表视窗的高度为1%);
vw:视窗宽度的百分比(1vw代表视窗的宽度为1%);
vmin:当前vw和vh中较小的一个值;
vmax:当前vw和vh中较大的一个值。
在一些实施方式中,保存了多个关联关系,以用于在超文本标记语言文档与Markdown格式文档之间的转换,即对超文本标记语言文档中标签所包含的展现效果特征进行相应的转换,通过保存的关联关系,使得由超文本标记语言文档转换得到的Markdown格式文档中能够保留与该展现效果特征所定义的相关内容,即保留了超文本标记语言文档中的展现效果特征。其中,保存的多个关联关系可以以标识转换包的形式存在。
初始语法中各种初始标识无法在Markdown格式文档中标识出超文本标记语言文档的展现效果特征,即展现效果特征与初始标识之间并不存在关联关系,而包含有展现效果特征的标签只有除去展现效果特征的剩余部分才能够被转换为初始标识,使得展现效果特征丢失,导致超文本标记语言文档的展现效果特征丢失。初始标识也可以称为原始标识、原始标记、原生标识或原生标记等等。例如,字号大于三号的文本全部转换为标题,或者,字体颜色被设置为某些颜色例如红色、蓝色等颜色的文本被转换成字体颜色为黑色的文本。
通过形成的标识转换包使得拓展后的初始语法不仅能够将标签中的其他属性转换为初始标识,还能够将标签中的展现效果特征转换为派生标识。
其中,可以用于超文本标记语言文档到Markdown格式文档的转换工具可以是pandoc、html2text、remark等,只要将形成的标识转换包拓展至相应的转换工具中,即可形成保留有原超文本标记语言文档的展现效果特征的Markdown格式文档。
在其他实施例中,标识转换包中可以既包含有初始标识与标签的关联关系,也包含有派生标识与标签中展现效果特征的关联关系,以节省研发成本。
S30、根据展现效果特征与派生标识之间的关联关系将超文本标记语言文档转换为Markdown格式文档。
将超文本标记语言文档中的标签转换为初始标识,并根据预存的展现效果特征与派生标识之间的关联关系,将标签中的展现效果特征转换为派生标识,得到Markdown格式文档。
其中,Markdown格式文档中保留了超文本标记语言文档中展现效果特征对应的展现效果特征。
在一些实施方式中,Markdown形式的初始语法中,预先对初始语法进行拓展,以得到展现效果特征与派生标识之间的关联关系,并进行存储,进而得以在超文本标记语言文档转换为Markdown格式文档的过程中通过初始Markdown语法所进行的拓展,达到保留超文本标记语言文档中展现效果特征的目的。
html语言是用于描述超文本标记语言文档的一种标识语言,标签是html语言中的基本单位,即超文本标记语言文档包含有多个标签。标签分为多种类型,例如,类型可以为属性类型、文本类型、表格类型等。标签中包含有各种不同作用的属性,例如,用于定义超文本标记语言文档的展现效果特征的展现效果特征、用于定义超文本标记语言文档的段落效果的段落属性、用于定义超文本标记语言文档的表格样式的表格属性等。
在一些实施方式中,具有展现效果特征的标签为属性类型的标签,用于定义超文本标记语言文档的展现效果特征。被转换为初始标识的标签则包括具有其他属性的属性类型的标签以及所有其他类型的标签。而Markdown形式的初始语法中仅包含有具有其他属性的属性类型的标签以及所有其他类型的标签与初始标识之间的关联关系,其仅能够将标签转换为初始标识,故而无法识别出原超文本标记语言文档中的展现效果特征。由此,对初始语法进行拓展,以形成展现效果特征与派生标识之间的关联关系,该关联关系可为多个,并形成一标识转换包,使得在文档格式转换过程中,对超文本标记语言文档中的所有标签进行遍历时,标签中的展现效果特征能够被转换为派生标识。
由于初始语法中的初始标识侧重于文档结构,并不支持具体的一些样式展现,通过对初始的Markdown语法进行拓展,形成与展现效果特征具有关联关系的派生标识,将展现效果特征转换为派生标识,将标签转换为初始标识,使得展现效果特征所定义的超文本标记语言文档的展现效果特征得以被保留,从而避免了现有技术中原超文本标记语言文档的样式丢失,进而导致原原始文档的样式丢失的问题。
在一些实施方式中,步骤S30包括以下步骤:
S301、遍历超文本标记语言文档中的标签,判断标签是否包含展现效果特征,若包含展现效果特征,则进入S303,若不包含展现效果特征,则进入S305。
在一些实施方式中,由于文本形式的超文本标记语言文档通常包括一系列的标签,因此超文本标记语言文档的转换过程实际就是对超文本标记语言文档中的标签进行遍历,并对每一标签及其中所包含的各种属性进行识别,进而根据拓展的初始语法完成对该标签的相应转换。
S302、按照预存的展现效果特征与派生标识之间的关联关系,将展现效果特征转换为派生标识。
在一些实施方式中,当判断到当前遍历的标签中包含有展现效果特征,例如,识别到标签的展现效果特征中包含用于定义字体大小的关键字font-size、用于定义字体颜色的关键字color、用于定义背景颜色的关键字background-color、用于定义图片宽度的关键字width、以及用于定义图片高度的关键字height等,则说明当前遍历的标签中包含有展现效果特征,进而根据预存的展现效果特征与派生标识之间的关联关系,将该展现效果特征转换为派生标识。
S303、按照标签在初始语法中对应的初始标识将标签转换为初始标识。
在一些实施方式中,当判断到当前遍历的标签中不包含有展现效果特征,例如,识别到的是标签的其他属性,该其他属性中包含用于定义文档链接颜色的关键字body link、用于定义表格置左位置的关键字left、包含用于定义表格居中位置的关键字center等,或者,识别到的是用于定义斜体字效果的文本类型的标签、用于定义标题的标题类型的标签等,则说明当前遍历的标签中不包含有展现效果特征,进而根据初始语法,按照标签与初始标识之间的关联关系,将该标签转换为初始标识。初始标识也可以称为原始标记、原生标记、初始标记等。
另外,标签与初始标识之间的关联关系实际上包含了属性类型的标签的其他属性与初始标识之间的关联关系、以及其他类型的标签与初始标识之间的关联关系,从而根据初始语法,按照属性类型的标签的其他属性与初始标识之间的关联关系,将属性类型的标签的其他属性转换为初始标识,按照其他类型的标签与初始标识之间的关联关系,将其他类型的标签转换为初始标识。
其中,标签与初始标识之间的关联关系,可以被保存在拓展后的标识转换包中,也可以被保存于其他位置,在此不进行限定。
S304、输出包含转换得到的初始标识或派生标识的Markdown格式文档。
Markdown格式文档中包含有初始标识或派生标识,输出后的Markdown格式文档用于后续构建网页文档。
S40、基于Markdown格式文档构建网页文档。
如图4所示,在一些实施方式中,步骤S40可以包括:
S401、根据所述Markdown格式文档生成超文本标记语言文档。
通过词法分析器按照规则序列中派生标识与展现效果特征之间的关联关系对Markdown格式文档进行解析,以将Markdown格式文档还原为网页文档。
本实施例中,由于Markdown格式文档虽然可以很方便地对原文档进行再次编辑,但是其并不能够直接显示出原文档的展现效果特征,因此,Markdown格式文档通常还需要转换成可以更直观地显示出原文档的展现效果特征的文档,例如,该文档可以是网页文档或者pdf等格式的其他文档。
用于支持Markdown形式的初始语法的html格式转换工具可以是支持Markdown语法扩展的github flavored markdown、以及基于parboiled PEG词法分析器的pegdown工具库等,只要对该些转换工具进行扩展,使其能够同时识别初始标识与派生标识,即可相应地还原出所需要的网页文档。
本实施例中对pegdown工具库进行扩展,以使扩展的Markdown语法更好地兼容初始的Markdown语法,同时更好地支持语法之间的嵌套关系。
例如,待转换的Markdown格式文档中保留了原网页文档中加粗显示的文本块中改变部分文字的颜色的展现效果特征,或者,保留了原网页文档中黄色背景的文本块中加大部分文字的字号的展现效果特征,而通过词法分析器按照规则序列中派生标识与展现效果特征之间的关联关系对该待转换的Markdown格式文档进行解析,还原出的网页文档中将显示出上述被保留的展现效果特征,从而使得原网页文档中的展现效果特征得以保留,并且还原度很高,进而扩大了Markdown格式文档的应用场景。
在一些实施方式中,上述通过词法分析器按照规则序列中派生标识与展现效果特征之间的关联关系对Markdown格式文档进行解析,以将Markdown格式文档还原为网页文档的步骤包括:
调用词法分析器,通过词法分析器扫描Markdown格式文档,将初始标识转换为标签,并根据派生标识与展现效果特征之间的关联关系,将派生标识转换为展现效果特征,输出还原的超文本标记语言文档。词法分析器也可以称为词法解析器(Lexical analyzer)。
本实施例中,在服务器上运行词法分析器,通过词法分析器接收字符串形式的Markdown格式文档,以完成后续的文档格式转换的步骤。
本实施例中,标记包括初始标识与派生标识。由于接收到的Markdown格式文档是字符串形式的,因此对Markdown格式文档的转换过程实际就是对Markdown格式文档中标记的扫描过程。
通过词法分析器根据Markdown格式文档的输入次序依次扫描Markdown格式文档中的标记,在扫描的同时根据扩展后的html语言的词法规则识别出具有独立意义的单词,并产生相应单词的属性字。其中,该单词即为标签,该属性字即为相应标签中包含的各种属性。
其中,扩展后的html语言的词法规则即为规则序列中所体现的派生标识与展现效果特征之间的关联关系、以及初始标识与标签之间的关联关系。在扫描的同时根据该规则序列即可将将标记中的派生标识转换为展现效果特征。
在本实施例中,可以通过MarkDown转HTML工具将所述Markdown格式文档转换为超文本标记语言文档。HTML(hypertext markup language)的全称为超文本标记语言,是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。超文本标记语言文档是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。
HTML是一种组织信息的方式,它通过超级链接方法将文本中的文字、图表与其他信息媒体相关联。这些相互关联的信息媒体可能在同一文本中,也可能是其他文件,或是地理位置相距遥远的某台计算机上的文件。这种组织信息方式将分布在不同位置的信息资源用随机方式进行连接,为人们查找,检索信息提供方便。本申请根据所述Markdown格式文档生成超文本标记语言文档,最后根据超文本标记语言文档生成网页文档,可以更好的呈现网页文档内容,以便于用户的操作。
S402、根据还原的超文本标记语言文档生成树形菜单结构脚本文件。
具体地,树形菜单结构脚本文件即为根据超文本标记语言文档的内容生成的目录脚本文件。树形菜单结构也称为菜单树或树形菜单数据结构。根据树形菜单结构脚本文件,用户可以获取所述超文本标记语言文档的目录信息,快速浏览所述超文本标记语言文档的主要内容,以便于对网络文档进行操作。
S403、根据还原的超文本标记语言文档和所述树形菜单结构脚本文件生成首页文件。
在本实施例中,所述首页文件作为网页文档展示的主页,具有展示所述超文本标记语言文档的主要内容,为用户提供指引的作用。所述首页文件由所述超文本标记语言文档和所述树形菜单结构脚本文件生成,用户通过选择所述树形菜单结构脚本文件中的一个标题,可以跳转到标题对应页码的超文本标记语言文档界面。
在一种可能的实现方式中,所述首页文件为静态HTML文件。静态HTML文件是相对于动态HTML文件而言,是指没有后台数据库、不含程序和不可交互的HTML文件。静态HTML文件的内容相对稳定,页面浏览速度迅速,过程无需连接数据库,开启页面速度快于动态HTML文件。并且,静态HTML文件更加安全,HTML文件不会受Asp相关漏洞的影响;而且可以减少攻击,防SQL注入。即使数据库出错时,不影响网站正常访问。因此,在本申请中所述首页文件采用静态HTML文件,可以提高网页文档的安全性和稳定性。
S404、合并所述超文本标记语言文档、所述树形菜单结构脚本文件和所述首页文件,得到网页文档。
在本实施例中,生成的网页文档包括所述超文本标记语言文档、所述树形菜单结构脚本文件和所述首页文件,其中,所述超文本标记语言文档、所述树形菜单结构脚本文件和所述首页文件均由Markdown格式文档依次生成。这样,实现了由基础的Markdown格式文档生成网页文档。
在一些实施方式中,本实施例的方法还可以包括:将所述超文本标记语言文档、树形菜单结构脚本文件、所述首页文件、所述层叠样式表样式文件和所述通用脚本文件合并,生成网页文档。
在本实施例中,如果在根据所述Markdown格式文档生成超文本标记语言文档的过程中,生成了层叠样式表样式文件和可以实现跳转和链接功能的通用脚本文件。则将所述超文本标记语言文档、树形菜单结构脚本文件、所述首页文件、所述层叠样式表样式文件和所述通用脚本文件合并,生成网页文档。
本申请实施例提供的文档处理方法,将接收的原始文档转换为超文本标记语言文档,为所述超文本标记语言文档的展现效果特征构建派生标识,根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档,基于所述Markdown格式文档构建网页文档,本方法便于对文档进行编辑,能够较快地生成网页文档,工作效率较高,并且避免了文档转换过程中的展现效果特征丢失。
如图5所示,本申请的另一个实施例提供了一种文档处理装置,包括:
第一转换模块,用于将接收的原始文档转换为超文本标记语言文档;
第一构建模块,用于为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;
第二转换模块,用于根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;
第二构建模块,用于基于所述Markdown格式文档构建网页文档。
在一些实施方式中,第一构建模块所执行的为所述超文本标记语言文档的展现效果特征构建派生标识,包括:
根据预先设置的关联关系规则为所述超文本标记语言文档的展现效果特征构建派生标识,所述关联关系规则包含所述展现效果特征与所述派生标识之间的关联关系。
在一些实施方式中,第二转换模块包括:
遍历判断单元,用于遍历超文本标记语言文档中的标签,判断标签是否包含展现效果特征;
Markdown格式文档获取单元,用于根据判断结果获取包含初始标识或派生标识的Markdown格式文档。
在一些实施方式中,第二转换模块包括:
第一转换单元,用于若所述判断结果为包含,则按照所述关联关系将展现效果特征转换为派生标识;
第二转换单元,用于否则,按照标签在初始语法中对应的初始标识将标签转换为初始标识;
输出单元,用于输出包含转换得到的初始标识或派生标识的Markdown格式文档。
在一些实施方式中,第二构建模块包括:
超文本标记语言文档获取单元,用于通过词法分析器处理所述Markdown格式文档,获得还原的超文本标记语言文档;
树形菜单结构脚本文件生成单元,用于根据所述还原的超文本标记语言文档生成树形菜单结构脚本文件;
首页文件生成单元,用于根据所述还原的超文本标记语言文档和所述树形菜单结构脚本文件生成首页文件;
合并单元,用于合并所述超文本标记语言文档、所述树形菜单结构脚本文件和所述首页文件,得到网页文档。
在一些实施方式中,超文本标记语言文档获取单元所执行的通过词法分析器处理所述Markdown格式文档,获得还原的超文本标记语言文档,包括:
通过所述词法分析器扫描所述Markdown格式文档;
判断所述Markdown格式文档中存在初始标识或派生标识;
根据判断结果获取还原的超文本标记语言文档,所述还原的超文本标记语言文档包含所述标签或所述展现效果特征。
在一些实施方式中,所述根据判断结果获取还原的超文本标记语言文档,包括:
若所述Markdown格式文档中存在初始标识,则将所述初始标识转换为标签;
若所述Markdown格式文档中存在派生标识,则根据所述关联关系将所述派生标识转换为对应的展现效果特征;
输出所述还原的超文本标记语言文档。
本申请实施例提供的文档处理装置,能够将接收的原始文档转换为超文本标记语言文档,为所述超文本标记语言文档的展现效果特征构建派生标识,根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档,基于所述Markdown格式文档构建网页文档,本方法便于对文档进行编辑,能够较快地生成网页文档,工作效率较高,并且避免了文档转换过程中的展现效果特征丢失。
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一实施方式所述的文档处理方法。
如图6所示,电子设备10可以包括:处理器100,存储器101,总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接;存储器101中存储有可在处理器100上运行的计算机程序,处理器100运行该计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器101用于存储程序,处理器100在接收到执行指令后,执行该程序,前述本申请实施例任一实施方式揭示的方法可以应用于处理器100中,或者由处理器100实现。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一实施方式所述的文档处理方法。
参考图7所示,其示出的计算机可读存储介质为光盘20,其上存储有计算机程序(即程序产品),该计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述,构建这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种文档处理方法,其特征在于,包括:
将接收的原始文档转换为超文本标记语言文档;
为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;
根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;
基于所述Markdown格式文档构建网页文档。
2.根据权利要求1所述的方法,其特征在于,为所述超文本标记语言文档的展现效果特征构建派生标识,包括:
根据预先设置的关联关系规则为所述超文本标记语言文档的展现效果特征构建派生标识,所述关联关系规则包含所述展现效果特征与所述派生标识之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档,包括:
遍历超文本标记语言文档中的标签,判断标签是否包含展现效果特征;
根据判断结果获取包含初始标识或派生标识的Markdown格式文档。
4.根据权利要求1所述的方法,其特征在于,所述根据判断结果获取包含初始标识或派生标识的Markdown格式文档,包括:
若所述判断结果为包含,则按照所述关联关系将展现效果特征转换为派生标识;
否则,按照标签在初始语法中对应的初始标识将标签转换为初始标识;
输出包含转换得到的初始标识或派生标识的Markdown格式文档。
5.根据权利要求1所述的方法,其特征在于,所述基于所述Markdown格式文档构建网页文档,包括:
通过词法分析器处理所述Markdown格式文档,获得还原的超文本标记语言文档;
根据所述还原的超文本标记语言文档生成树形菜单结构脚本文件;
根据所述还原的超文本标记语言文档和所述树形菜单结构脚本文件生成首页文件;
合并所述超文本标记语言文档、所述树形菜单结构脚本文件和所述首页文件,得到网页文档。
6.根据权利要求5所述的方法,其特征在于,所述通过词法分析器处理所述Markdown格式文档,获得还原的超文本标记语言文档,包括:
通过所述词法分析器扫描所述Markdown格式文档;
判断所述Markdown格式文档中存在初始标识或派生标识;
根据判断结果获取还原的超文本标记语言文档,所述还原的超文本标记语言文档包含所述标签或所述展现效果特征。
7.根据权利要求6所述的方法,其特征在于,所述根据判断结果获取还原的超文本标记语言文档,包括:
若所述Markdown格式文档中存在初始标识,则将所述初始标识转换为标签;
若所述Markdown格式文档中存在派生标识,则根据所述关联关系将所述派生标识转换为对应的展现效果特征;
输出所述还原的超文本标记语言文档。
8.一种文档处理装置,其特征在于,包括:
第一转换模块,用于将接收的原始文档转换为超文本标记语言文档;
第一构建模块,用于为所述超文本标记语言文档的展现效果特征构建派生标识,所述派生标识用于标识所述展现效果特征;
第二转换模块,用于根据所述展现效果特征与所述派生标识之间的关联关系将所述超文本标记语言文档转换为Markdown格式文档;
第二构建模块,用于基于所述Markdown格式文档构建网页文档。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-7中任一所述的方法。
CN202210929320.XA 2022-08-03 2022-08-03 文档处理方法、装置、电子设备及计算机可读存储介质 Pending CN115169292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210929320.XA CN115169292A (zh) 2022-08-03 2022-08-03 文档处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210929320.XA CN115169292A (zh) 2022-08-03 2022-08-03 文档处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115169292A true CN115169292A (zh) 2022-10-11

Family

ID=83478386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210929320.XA Pending CN115169292A (zh) 2022-08-03 2022-08-03 文档处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115169292A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089362A (zh) * 2023-03-06 2023-05-09 北京微吼时代科技有限公司 文档转换方法及其系统、直播系统、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089362A (zh) * 2023-03-06 2023-05-09 北京微吼时代科技有限公司 文档转换方法及其系统、直播系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110442822B (zh) 一种小程序内容展示方法、装置、设备及存储介质
CN106294493B (zh) 实现文档格式转换的方法及装置
US7849439B2 (en) Application-generic sequence diagram generator driven by a non-proprietary language
US20190251143A1 (en) Web page rendering method and related device
CN107066618B (zh) 一种网页页面转换后显示方法和装置
CN111142988B (zh) 页面测试方法、装置、存储介质及电子设备
US20210149842A1 (en) System and method for display of document comparisons on a remote device
CN111241793B (zh) 解析富文本编辑器内容给原生客户端渲染的方法、系统及介质
CN113609820B (zh) 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN112417338B (zh) 一种页面适配方法、系统及设备
KR101340588B1 (ko) 웹페이지 구성방법 및 그 장치
CN109683978A (zh) 一种流式布局界面渲染的方法、装置以及电子设备
WO2012012949A1 (en) Visual separator detection in web pages by using code analysis
CN111158687B (zh) Java插件的界面生成方法、装置、计算机设备和存储介质
US7461337B2 (en) Exception markup documents
CN110968314A (zh) 一种页面生成方法及装置
CN115169292A (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
US8862976B1 (en) Methods and systems for diagnosing document formatting errors
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN117055987A (zh) 网页显示方法、装置、电子设备及计算机可读存储介质
CN115659087B (zh) 页面渲染方法、设备及存储介质
CN111143749A (zh) 一种网页展示方法、装置、设备及存储介质
CN111277889B (zh) 一种电视端页面预览方法及系统
US20070206022A1 (en) Method and apparatus for associating text with animated graphics
CN114489639A (zh) 文件生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination