CN115757272A - 一种将html文件转换为ofd文件的方法及系统 - Google Patents

一种将html文件转换为ofd文件的方法及系统 Download PDF

Info

Publication number
CN115757272A
CN115757272A CN202211267137.4A CN202211267137A CN115757272A CN 115757272 A CN115757272 A CN 115757272A CN 202211267137 A CN202211267137 A CN 202211267137A CN 115757272 A CN115757272 A CN 115757272A
Authority
CN
China
Prior art keywords
ofd
file
data
tag
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211267137.4A
Other languages
English (en)
Inventor
鞠成富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuxin Kunpeng Beijing Information Technology Co ltd
Original Assignee
Fuxin Kunpeng Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuxin Kunpeng Beijing Information Technology Co ltd filed Critical Fuxin Kunpeng Beijing Information Technology Co ltd
Priority to CN202211267137.4A priority Critical patent/CN115757272A/zh
Publication of CN115757272A publication Critical patent/CN115757272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种将HTML文件转换为OFD文件的方法及系统,包括:获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。本发明实现了将HTML文件内容的创建过程与OFD文件生成过程分离,在提高文件转换效率的同时,还能够实现将网页内容导出为OFD版式文件,并用于流转、存档或者发布。

Description

一种将HTML文件转换为OFD文件的方法及系统
技术领域
本发明涉及电子文档技术领域,尤其涉及一种将HTML文件转换为OFD文件的方法及系统。
背景技术
OFD是开放版式文档(Open Fixed-layout Document)的英文缩写,是我国国家版式文档格式标准,通俗来说,也有人称这格式为国产PDF。但是在很多方面的性能优于PDF的同类文档。OFD也逐渐开始在电子发票、电子公文、电子证照等等的领域中应用。
在互联网交互的应用系统中,HTML作为终端显示通用载体之一,同时又有把显示的内容生成固定版式文件的需求,用于业务系统中文件的流转或者存档;但当前独立创建OFD文件内容组织困难,排版繁琐,且缺乏将HTML文件转换为固定板式文件的方式。因此,亟需提供一种技术方案解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供了一种将HTML文件转换为OFD文件的方法及系统。
本发明的一种将HTML文件转换为OFD文件的方法的技术方案如下:
获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;
基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;
将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
本发明的一种将HTML文件转换为OFD文件的方法的有益效果如下:
本发明的方法通过将HTML文件转换为OFD文件,实现了将HTML文件内容的创建过程与OFD文件生成过程分离,在提高文件转换效率的同时,还能够实现将网页内容导出为OFD版式文件,并用于流转、存档或者发布。
在上述方案的基础上,本发明的一种将HTML文件转换为OFD文件的方法还可以做如下改进。
进一步,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构;
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构;
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
进一步,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;基于任一标签数据对应的标签类型和至少一个标签属性,生成所述任一标签数据对应的OFD元素数据的步骤,包括:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
进一步,所述将每个OFD元素数据分别存储至预设OFD文件结构中的步骤,包括:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中;
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
进一步,所述多个标签数据包括:标题标签、段落标签、链接标签、图像标签和分区标签;所述至少一个标签属性包括:坐标、宽度、高度、颜色、边距和背景。
进一步,所述获取待转换HTML文件中的多个标签数据的步骤,包括:
对待转换HTML文件进行渲染,得到并从渲染后的待转换HTML文件中获取多个标签数据。
本发明的一种将HTML文件转换为OFD文件的系统的技术方案如下:
包括:第一处理模块、第二处理模块和转换模块;
所述第一处理模块用于:获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;
所述第二处理模块用于:基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;
所述转换模块用于:将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
本发明的一种将HTML文件转换为OFD文件的系统的有益效果如下:
本发明的系统通过将HTML文件转换为OFD文件,实现了将HTML文件内容的创建过程与OFD文件生成过程分离,在提高文件转换效率的同时,还能够实现将网页内容导出为OFD版式文件,并用于流转、存档或者发布。
在上述方案的基础上,本发明的一种将HTML文件转换为OFD文件的系统还可以做如下改进。
进一步,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构;
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构;
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
进一步,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;所述第二处理模块具体用于:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
进一步,所述转换模块具体用于:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中;
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
附图说明
图1为本发明实施例的一种将HTML文件转换为OFD文件的方法的流程示意图;
图2为本发明实施例的一种将HTML文件转换为OFD文件的方法中的OFD文件结构的示意图;
图3为本发明实施例的一种将HTML文件转换为OFD文件的系统的结构示意图。
具体实施方式
如图1所示,本发明实施例的一种将HTML文件转换为OFD文件的方法,包括如下步骤:
S1、获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性。
其中,标签数据包括但不限于:标题标签<h1>、段落标签<p>、链接标签<a>、图像标签<img>和分区标签<div>等。标签属性包括但不限于:坐标、宽度、高度、颜色、边距和背景等属性。
在本实施例中,对标签数据进行解析的过程为:①读取待转换HTML文件中的分页标签数据,实现分页处理。例如在<div style="page-break-after:always;"/>分页标签后的内容另起一页。②根据标签<body></body>获取待转换HTML文件的每个页面的边距属性,并根据待转换HTML文件的每个页面的边距属性得到OFD文件页面的边距属性。③根据设备DPI(每英寸多少像素点)不同或者自定义的DPI,实现待转换HTML文件的像素坐标到OFD文件的坐标的转化,包括坐标系的转化和坐标数据的单位转化。④待转换HTML文件需要分割处(HTML文件的整个页面划分为多个页面的分界线)存在的表格,图片等元素,根据HTML配置的样式进行输出;其中,可以以块级元素输出,保证内容的整体性;也可以以非块级元素输出,在分页处实现内容切割,切割后的部分分别显示在上下两个页面上,保证OFD文件的页面内容的饱满性。⑤当待转换HTML文件的页面表格内容超出显示的控件范围时,包括以下几种情形:1)横向出现滚动条时需要结合html控件宽度和OFD页面的宽度动态计算表格在OFD文件中显示的最大宽度,表格内元素超出一行,自动换行显示;2)纵向出现滚动条时需要按照表格每一行的高度动态计算所有的行的总高度,将所有的内容添加到OFD文件中;3)如果横纵向都出现滚动条,需结合横向和纵向的处理方式对内容进行处理。
需要说明的是,对于过程①,还能根据所需生成OFD文件的页面纸张尺寸(A0,A1,A2,A3,A4,A5等),布局方向(横向或者纵向)等,通过坐标换算等操作,动态计算待转换HTML文件的分页位置和布局方向,由此获得OFD文件的单页的宽度和高度及总页数。
S2、基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据。
其中,标签数据的标签类型包括但不限于标题<h1>、段落<p>、链接<a>、图像<img>、分区<div>,<code>代码、<table>表格、<ul>无序列表标签等。
其中,OFD元素数据为:OFD文件在每个页面上进行显示时所需要的数据。例如,当标签数据为标题标签时,根据标题标签的所有标签属性,生成需要在OFD文件上显示的该标题标签对应的OFD元素数据。
具体地,根据每个标签数据对应的标签类型和至少一个标签属性,按照OFD标准,将每个标签数据转换为对应的OFD元素数据。其中,OFD标准为国家版式文档格式规范(OFD)标准。
S3、将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
其中,目标OFD文件为待转换HTML文件经过转换后所得到的OFD格式的文件。
其中,预设OFD文件结构为国家版式文档格式规范中所规定的OFD标准结构。
其中,对目标OFD文件结构进行压缩处理的过程为现有技术,在此不过多赘述。
较优地,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构。
其中,如图2所示,创建的OFD文件根目录为OFD File,OFD File中包括至少一个文档文件夹和OFD.xml;至少一个文档文件夹依次命名为Doc_1、Doc_2…Doc_N,OFD.xml有且只有一个,此文件名不能修改。
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构。
具体地,在每个文档文件夹中分别创建根节点文件Document.xml、文档公共资源索引文件PublicRes.xml、文档自身索引文件DocumentRes.xml、资源文件夹Res、文档页面文件夹Pages,在创建完成后,得到的OFD文件结构定义为第二层级OFD文件结构。
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
具体地,在每个文档页面文件夹Pages中分别创建内容描述文件Content.xml、资源文件夹Res和资源描述文件PageRes.xml。其中,资源文件夹Res下存放图片资源和字体资源等。
此外,需要说明的是,在每个文档文件夹中,还包括数字签名存储目录Signs,在数字签名存储目录Signs中包括:签名列表文件signatures.xml和签名/签章Sign_N;签名/签章Sign_N中包括:电子印章文件Seal.esl、签名/签章描述文件signature.xml和签名值文件SignedValue.dat。
较优地,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;基于任一标签数据对应的标签类型和至少一个标签属性,生成所述任一标签数据对应的OFD元素数据的步骤,包括:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
其中,文档页面数据是指:存储在Doc_N文件夹下的Pages的Content.xml文件中,包括但不限于:文字、图像、音视频等。例如,Content.xml中的具体信息如:
<ofd:Page xmlns:ofd="http://www.ofdspec.org/2016">
<ofd:Area>
<ofd:BleedBox>0 0 215 279</ofd:BleedBox>
<ofd:PhysicalBox>0 0 215 279</ofd:PhysicalBox>
<ofd:ApplicationBox>0 0 215 279</ofd:ApplicationBox>
<ofd:ContentBox>0 0 215 279</ofd:ContentBox>
</ofd:Area>
<ofd:Content>
<ofd:Layer ID="2"/>
</ofd:Content>
</ofd:Page>。
对于文字对象,待转换HTML文件中的文字信息用OFD标准中的文字对象TextObject表示;在OFD文件结构中所生成的OFD文档内容数据为:<ofd:Content>
……
<ofd:TextObject ID="3"Boundary="29.21 17.84 158.7 11.83"Font="4"Size="9.86"Fill="true">
<ofd:FillColor Value="0 0 255"/>
<ofd:StrokeColor Value="0 0 255"/>
<ofd:TextCode X="0"Y="9.37"DeltaX="9.86 9.91 9.86 9.86 9.91 9.869.86 9.91 9.86 9.86 9.91 9.86 9.86 9.91 9.86">这是一段文字内容</ofd:TextCode>
</ofd:TextObject>
……
</ofd:Content>。
对于图像对象,待转换HTML文件中的文字信息用OFD标准中的图像对象ImageObject表示;在OFD文件结构中所生成的OFD文档内容数据为:
<ofd:Content>
……
<ofd:ImageObject ID="2028"CTM="32.420181 0 0 26.706512 0 0"Boundary="40.207802 138.314819 32.420189 26.70645"ResourceID="2029"/>
……
</ofd:Content>。
对于图形对象,待转换HTML文件中的文字信息用OFD标准中的图形对象PathObject表示;在OFD文件结构中所生成的OFD文档内容数据为:
<ofd:Content>
……
<ofd:PathObject ID="2047"Boundary="31.743 175.450607 146.4763034.95543"LineWidth="0.13567"Join="Bevel"MiterLimit="0.7054"Cap="Square"Stroke="false"Fill="true"Rule="Even-Odd">
<ofd:FillColor ColorSpace="4"Value="43 43 43"/>
<ofd:StrokeColor ColorSpace="4"Value="0 0 0"/>
<ofd:AbbreviatedData>M 0 -0L 146.475998 -0L 146.475998 4.95543L 04.95543C</ofd:AbbreviatedData>
</ofd:PathObject>
……
</ofd:Content>。
此外,需要说明的是,①待转换HTML文件中所包含的多媒体内容如音频、视频等内容,采用OFD标准中的音视频资源内容表示;②待转换HTML文件中的画布(Canvas)转为图片,用OFD标准中的图像对象ImageObject表示;③OFD标准中未做说明的文件可以采用附件的方式表示,保证输出的OFD文件内容完整,与待转换HTML文件保持一致;④超出html控件定义的显示范围或者超出设备屏幕显示范围,需要计算所有元素的整体宽度和高度,通过比例换算全部添加到OFD文件结构中,如待转换HTML文件中大段的文字等内容;⑤待转换HTML文件中的canvas内容需要计算宽度和高度等属性,使用<img>标签替代,内容以图片的形式体现在目标OFD文件中;⑥对待转换HTML文件中的链接保持原有链接映射,在OFD文件中采用标准规范中的链接呈现。⑦待转换HTML文件中分页显示的数据,按照页码分别加载每一页的内容,按照页码顺序排列内容,组装后显示在OFD文件对应的页面中。⑧待转换HTML文件中隐藏的元素不做映射。
较优地,所述将每个OFD元素数据分别存储至预设OFD文件结构中的步骤,包括:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中。
其中,每个OFD文档内容数据均有对应的资源文件。
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
较优地,所述获取待转换HTML文件中的多个标签数据的步骤,包括:
对待转换HTML文件进行渲染,得到并从渲染后的待转换HTML文件中获取多个标签数据。
具体地,采用浏览器或者能够解析渲染HTML的程序读取待转换HTML文件的内容,以实现对待转换HTML文件的渲染。
需要说明的是,渲染页面指的是浏览器载入待转换HTML文件,使待转换HTML文件成为Document对象。Document对象是待转换HTML文件的根节点,Document对象能够从脚本中对待转换HTML文件中的所有元素进行访问,包括整个页面的宽度和高度信息,元素的具体属性信息等是在页面渲染完成后确定下来,后面在做HTML的标签数据到OFD元素映射的过程都是以此为基础。
本实施例的技术方案通过将HTML文件转换为OFD文件,实现了将HTML文件内容的创建过程与OFD文件生成过程分离,在提高文件转换效率的同时,还能够实现将网页内容导出为OFD版式文件,并用于流转、存档或者发布。
如图3所示,本发明实施例的一种将HTML文件转换为OFD文件的系统200,包括:第一处理模块210、第二处理模块220和转换模块230;
所述第一处理模块210用于:获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;
所述第二处理模块220用于:基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;
所述转换模块230用于:将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
较优地,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构;
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构;
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
较优地,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;所述第二处理模块具体用于:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
较优地,所述转换模块230具体用于:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中;
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
本实施例的技术方案通过将HTML文件转换为OFD文件,实现了将HTML文件内容的创建过程与OFD文件生成过程分离,在提高文件转换效率的同时,还能够实现将网页内容导出为OFD版式文件,并用于流转、存档或者发布。
上述关于本实施例的一种将HTML文件转换为OFD文件的系统200中的各参数和各个模块实现相应功能的步骤,可参考上文中关于一种将HTML文件转换为OFD文件的方法的实施例中的各参数和步骤,在此不做赘述。
在此处所提供的说明书中,说明了大量具体细节。然而能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。类似地,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种将HTML文件转换为OFD文件的方法,其特征在于,包括:
获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;
基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;
将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
2.根据权利要求1所述的一种将HTML文件转换为OFD文件的方法,其特征在于,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构;
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构;
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
3.根据权利要求2所述的一种将HTML文件转换为OFD文件的方法,其特征在于,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;基于任一标签数据对应的标签类型和至少一个标签属性,生成所述任一标签数据对应的OFD元素数据的步骤,包括:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
4.根据权利要求3所述的一种将HTML文件转换为OFD文件的方法,其特征在于,所述将每个OFD元素数据分别存储至预设OFD文件结构中的步骤,包括:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中;
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
5.根据权利要求1-4任一项所述的一种将HTML文件转换为OFD文件的方法,其特征在于,所述多个标签数据包括:标题标签、段落标签、链接标签、图像标签和分区标签;所述至少一个标签属性包括:坐标、宽度、高度、颜色、边距和背景。
6.根据权利要求1-4任一项所述的一种将HTML文件转换为OFD文件的方法,其特征在于,所述获取待转换HTML文件中的多个标签数据的步骤,包括:
对待转换HTML文件进行渲染,得到并从渲染后的待转换HTML文件中获取多个标签数据。
7.一种将HTML文件转换为OFD文件的系统,其特征在于,包括:第一处理模块、第二处理模块和转换模块;
所述第一处理模块用于:获取待转换HTML文件中的多个标签数据,并对每个标签数据进行解析,得到每个标签数据对应的至少一个标签属性;
所述第二处理模块用于:基于每个标签数据对应的标签类型和至少一个标签属性,生成每个标签数据对应的OFD元素数据;
所述转换模块用于:将每个OFD元素数据分别存储至预设OFD文件结构中,得到并对目标OFD文件结构进行压缩处理,得到所述待转换HTML文件对应的目标OFD文件。
8.根据权利要求7所述的一种将HTML文件转换为OFD文件的系统,其特征在于,所述预设OFD文件结构的创建过程为:
创建OFD文件根目录,并在所述OFD文件根目录中创建OFD.xml和至少一个文档文件夹,得到第一层级OFD文件结构;
在所述第一层级OFD文件结构中的每个文档文件夹中,分别创建对应的根节点文件、文档公共资源索引文件、文档自身索引文件、资源文件夹和文档页面文件夹,得到第二层级OFD文件结构;
在所述第二层级OFD文件结构中的每个文档页面文件夹中,分别创建对应的内容描述文件、资源文件夹和资源描述文件,得到所述预设OFD文件结构。
9.根据权利要求8所述的一种将HTML文件转换为OFD文件的系统,其特征在于,所述OFD元素数据包括:OFD文档内容数据和OFD文档属性数据;所述第二处理模块具体用于:
根据所述任一标签数据的标签类型,将所述任一标签数据中的文档页面数据转换为对应的OFD文档内容数据,并根据所述任一标签数据所对应的所有的标签属性,生成对应的OFD文档属性数据。
10.根据权利要求9所述的一种将HTML文件转换为OFD文件的系统,其特征在于,所述转换模块具体用于:
将每个OFD元素数据中的OFD文档内容数据对应的资源文件存储至所述预设OFD文件结构中对应的文档页面文件夹中的资源文件夹中;
将每个OFD元素数据中的OFD文档内容数据和OFD文档属性数据存储值所述预设OFD文件结构中对应的文档页面文件夹中的内容描述文件中。
CN202211267137.4A 2022-10-17 2022-10-17 一种将html文件转换为ofd文件的方法及系统 Pending CN115757272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211267137.4A CN115757272A (zh) 2022-10-17 2022-10-17 一种将html文件转换为ofd文件的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211267137.4A CN115757272A (zh) 2022-10-17 2022-10-17 一种将html文件转换为ofd文件的方法及系统

Publications (1)

Publication Number Publication Date
CN115757272A true CN115757272A (zh) 2023-03-07

Family

ID=85351760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211267137.4A Pending CN115757272A (zh) 2022-10-17 2022-10-17 一种将html文件转换为ofd文件的方法及系统

Country Status (1)

Country Link
CN (1) CN115757272A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384356A (zh) * 2023-06-02 2023-07-04 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的表格行创建方法、装置、设备及介质
CN116719778A (zh) * 2023-08-09 2023-09-08 江苏中威科技软件系统有限公司 Oa系统上ofd文件生成虚拟分区完成四性信息主题的技术
CN119338669A (zh) * 2024-12-24 2025-01-21 北京数科网维技术有限责任公司 一种文档转换中的目标图形效果转换方法、装置及设备
CN119337830A (zh) * 2024-12-20 2025-01-21 北京冠群信息技术股份有限公司 一种ofd转html中显示层级的推定方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384356A (zh) * 2023-06-02 2023-07-04 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的表格行创建方法、装置、设备及介质
CN116384356B (zh) * 2023-06-02 2023-08-22 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的表格行创建方法、装置、设备及介质
CN116719778A (zh) * 2023-08-09 2023-09-08 江苏中威科技软件系统有限公司 Oa系统上ofd文件生成虚拟分区完成四性信息主题的技术
CN116719778B (zh) * 2023-08-09 2023-11-10 江苏中威科技软件系统有限公司 Oa系统上ofd文件生成虚拟分区完成四性信息主题的技术
CN119337830A (zh) * 2024-12-20 2025-01-21 北京冠群信息技术股份有限公司 一种ofd转html中显示层级的推定方法及装置
CN119337830B (zh) * 2024-12-20 2025-04-29 北京冠群信息技术股份有限公司 一种ofd转html中显示层级的推定方法及装置
CN119338669A (zh) * 2024-12-24 2025-01-21 北京数科网维技术有限责任公司 一种文档转换中的目标图形效果转换方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111753499B (zh) 电子表单与ofd版式文件合并展现及目录生成的方法
CN115757272A (zh) 一种将html文件转换为ofd文件的方法及系统
US20150046797A1 (en) Document format processing apparatus and document format processing method
CN105302550B (zh) 将页面转为版式数据流文件的方法及系统
RU2370810C2 (ru) Способы и системы разметки документов
US8996981B2 (en) Managing forms in electronic documents
US20100211866A1 (en) System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing
US20130174024A1 (en) Method and device for converting document format
WO2023098447A1 (zh) 一种版式数据流文件转ofd文件的方法
CN101308488A (zh) 基于版式文件的文档流式信息处理方法及装置
CN100356372C (zh) 计算机版式文件生成方法和打开方法
CN103268340B (zh) 基于层次式索引的版式可回流文件建立和绘制方法
CN111309671A (zh) 一种web报表导出PDF的方法、装置及存储介质
CN110310226B (zh) 图片的拼接显示方法及系统
CN114118023A (zh) 一种用于转换ofd文件的方法
EP3692436A1 (en) Method and apparatus for generating customized digital files with variable data
CN114791988A (zh) 一种基于浏览器的pdf文件解析方法、系统、存储介质
CN116719784A (zh) 多ofd版式文件弹性聚类组合阅读的装置
CN105956133B (zh) 智能终端上显示文件的方法及装置
CN111190519A (zh) 一种文件及其控件的处理方法、装置、设备和存储介质
CN111444452B (zh) 网页页面的转换方法、装置及存储介质
US7366978B1 (en) Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table
CN105404612A (zh) 一种数字资源的显示方法及系统
CN107562450A (zh) 一种地方志资源跨平台可视化方法
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination