CN110879937A - 文档生成网页的方法、装置、计算机设备和存储介质 - Google Patents
文档生成网页的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110879937A CN110879937A CN201910968778.4A CN201910968778A CN110879937A CN 110879937 A CN110879937 A CN 110879937A CN 201910968778 A CN201910968778 A CN 201910968778A CN 110879937 A CN110879937 A CN 110879937A
- Authority
- CN
- China
- Prior art keywords
- document
- webpage
- uploaded
- web page
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004806 packaging method and process Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/38—Creation or generation of source code for implementing user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/42—Syntactic analysis
- G06F8/427—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及页面设计技术领域,尤其涉及一种文档生成网页的方法、装置、计算机设备和存储介质,包括:获取待上传文档,提取所述待上传文档中的关键文本标签;根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;根据所述网页组件类型和所述设立位置,生成网页模板;获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。本申请解决了目前文档生成网页时需要每次根据客户的文档进行web网页的生成,导致效率低下,并且无法得到与客户的文档风格一致的页面的问题。
Description
技术领域
本申请涉及页面设计技术领域,尤其涉及一种文档生成网页的方法、装置、计算机设备和存储介质。
背景技术
在政务公文系统中,客户需要把传统办事流程中需要从线下填写的申报材料改为网上填报,线下申报材料通常是一个文档。为了满足线上填报的要求,需要提供一个可以填报材料的网页,将原有通过提交的材料通过网页端进行提交。
现有模式是比对文档重新开发对应的页面,如果需要上线一个在线申报事项,就需要从客户处拿到模板,然后利用现有的:textfixer,converMs等生成简单的web页面。
但是,此种模式需要每次根据客户的文档进行web网页的生成,导致效率低下,并且无法得到与客户的文档风格一致的页面。
发明内容
基于此,针对目前文档生成网页时需要每次根据客户的文档进行web网页的生成,导致效率低下,并且无法得到与客户的文档风格一致的页面的问题,提供一种文档生成网页的方法、装置、计算机设备和存储介质。
一种文档生成网页的方法,包括如下步骤:
获取待上传文档,提取所述待上传文档中的关键文本标签;将所述实体数据进行实体对齐,得到初步融合数据;
根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
根据所述网页组件类型和所述设立位置,生成网页模板;
获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
在其中一个可能的实施例中,所述获取待上传文档,提取所述待上传文档中的关键文本标签,包括:
获取所述待上传文档的文档类型,根据所述文档类型,确定所述待上传文档对应的文档解析器;
应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记;
根据所述文档标记,激活所述待上传文档对应的事件处理函数;
执行所述事件处理函数触发对应的文档处理事件后,得到所述关键文本标签。
在其中一个可能的实施例中,所述根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置,包括:
获取所述关键文本标签的属性,将所述关键文本标签的属性与预设的网页组件库中的网页组件类型词进行比较后,得到所述关键文本标签的属性对应的网页组件类型;
扫描所述待上传文档,建立文档坐标系,其中所述文档坐标系的原点为所述待上传文档左下角的端点;
获取所述关键文本标签在所述待上传文档中的位置坐标,根据所述位置坐标和所述网页组件类型,确定所述网页组件在预生成的网页中的设立位置。
在其中一个可能的实施例中,所述根据所述网页组件类型和所述设立位置,生成网页模板,包括:
根据所述网页组件类型,从所述网页组件库中抽取出数个网页组件;
根据所述设立位置将数个所述网页组件依次设立到空白网页中进行展示,得到初始网页模板;
遍历所述初始网页模板中各像素点的像素值,若任一所述像素点的像素值大于预设阈值则进行标记,调整所述标记对应的网页组件的位置后,得到最终网页模板。
在其中一个可能的实施例中,所述获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页,包括:
获取用户输入的页面样式信息,提取所述页面样式信息中的特征信息;
根据所述特征信息,确定所述待上传文档中的文字与所述网页组件的位置关系;
根据所述位置关系,将所述待上传文档中的文字填充到所述网页模板后,得到所述最终网页。
在其中一个可能的实施例中,所述应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记,包括:
若所述待上传文档为Word文本或者Excel文本,则应用POI解析器对所述待上传文档进行解析,具体包括:
将所述待上传文档转换成XML结构的文档树;
从所述文档树中抽取出所述待上传文档所包含的所有XML标签;
将所述XML标签转换成HTML标签,所述HTML标签为述待上传文档的文档标记。
在其中一个可能的实施例中,所述根据所述网页组件类型和所述设立位置,生成网页模板之后,所述方法还包括:
获取所述网页模板的页面信息,将所述页面信息转换成HTML代码;
获取所述文档树中的XML元素及所述XML元素对应的HTML标签;
将所述HTML代码、所述文档树中的XML元素和所述XML元素对应的HTML标签打包后存储到数据库中。
一种文档生成网页的装置,包括如下模块:
文档要素提取模块,设置为获取待上传文档,提取所述待上传文档中的关键文本标签;根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
网页生成模块,设置为根据所述网页组件类型和所述设立位置,生成网页模板;获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述文档生成网页的方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述文档生成网页的方法的步骤。
与现有机制相比,本申请通过提取文档标签,并根据文档标签与网页组件对应关系,确定网页的组件位置和类型,从而解决了目前文档生成网页时需要每次根据客户的文档进行web网页的生成,导致效率低下,并且无法得到与客户的文档风格一致的页面的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种文档生成网页的方法的整体流程图;
图2为本申请在一个实施例中的一种文档生成网页的方法中的文本标签获取过程示意图;
图3为本申请在一个实施例中的一种文档生成网页的方法中的网页模板生成过程示意图;
图4为本申请在一个实施例中的一种文档生成网页的装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种文档生成网页的方法的整体流程图,一种文档生成网页的方法,包括以下步骤:
S1、获取待上传文档,提取所述待上传文档中的关键文本标签;
具体的,本步骤中的待上传文档是富文本类文档,所谓富文本类文档是指文档的结构、层次分明,并且具有一定的规律。这类文档主要用Word文档、Excel文档等等。其中,富文本格式(Rich Text Format,一般简称为RTF)是一种跨平台文档格式,由微软公司开发。大多数的文字处理软件都能读取和保存RTF文档。富文本格式是一种类似DOC格式(Word文档)的文件,有很好的兼容性,使用Windows系统里面的“写字板”就能打开并进行编辑。RTF是一种非常流行的文件结构,很多文字编辑器都支持它。一般的格式设置,比如字体和段落设置,页面设置等等信息都可以存在RTF格式中能在一定程度上实现word与wps文件之间的互访。
本步骤中的关键文档标签是指表格、页眉、页脚等等,这些关键文档标签可以用来确定对待上传文档中文字的位置和其在网页上进行展示时所需要的网页组件的类型。这样便于用户根据需要对网页中的元素进行调整和更换。
S2、根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
具体的,关键文本标签的属性是指表格的长度,所需填充信息的样式,是采用“——”还是采用矩形框的方式进行设置,这样可以便于选定对应的网页组件构建符合用户要求的网页模板。在确定网页组件在网页中的位置时,可以通过建立坐标系的方式来确定具体位置。即对待上传文档建立一个坐标系,然后空白网页上也建立一个坐标系,在这两个坐标系之间建立映射关系。从而将待上传文档中表格等位置准确的映射到空白网页上。
S3、根据所述网页组件类型和所述设立位置,生成网页模板;
具体的,网页组件类型和设立位置可以确定网页组件在空白网页上的位置,进而可以生成不同的网页模板,从而便于用户进行选择合适的模板进行文档的上传。
S4、获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
具体的,通常生成的网页不一定能完全满足用户的需求,通过浏览器可视化界面可以对生成的网页进行布局调整,这里的布局指的是在网页端显示的排版样式,还可以设置在网页端显示的样式,如颜色、字体等。
本实施例,通过提取文档标签,并根据文档标签与网页组件对应关系,确定网页的组件位置和类型,从而解决了目前文档生成网页时需要每次根据客户的文档进行web网页的生成,导致效率低下,并且无法得到与客户的文档风格一致的页面的问题。
图2为本申请在一个实施例中的一种文档生成网页的方法中的文本标签获取过程示意图,如图所示,所述S1、获取待上传文档,提取所述待上传文档中的关键文本标签,包括:
S11、获取所述待上传文档的文档类型,根据所述文档类型,确定所述待上传文档对应的文档解析器;
具体的,不同的文档类型需要采用不同的文档解析器,比如文档是Excel文档则可以采用SAX解析器。SAX解析器是事件驱动型XML解析的一个标准接口不会改变SAX的工作原理简单地说就是对文档进行顺序扫描,当扫描到文档(document)开始与结束、元素(element)开始与结束、文档(document)结束等地方时通知事件处理函数,由事件处理函数做相应动作,然后继续同样的扫描,直至文档结束。而对于Word文档则可以采用OOXML解析器进行解析,如将word中的页眉解析成对应的xml元素:<w:footnote w:id="1"/>。
S12、应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记;
具体的,若所述待上传文档为Word文本或者Excel文本,则应用POI解析器对所述待上传文档进行解析,具体包括:
将所述待上传文档转换成XML结构的文档树;
从所述文档树中抽取出所述待上传文档所包含的所有XML标签;
将所述XML标签转换成HTML标签,所述HTML标签为述待上传文档的文档标记。
S13、根据所述文档标记,激活所述待上传文档对应的事件处理函数;
具体的,事件处理函数是指在进行文档扫描确定扫描流程的函数,比如扫描的开端和结束点。在对文档进行顺序扫描,当扫描到文档开始与结束、元素开始与结束等地方时通知事件处理函数,由事件处理函数做相应动作,然后继续同样的扫描,直至文档结束。
S14、执行所述事件处理函数触发对应的文档处理事件后,得到所述关键文本标签。
具体的,在文档处理事件被执行后,可以获得对应的XML元素,这些XML元素中包含了关键文本标签,如表格、页眉等的信息。
本实施例,通过文档解析器对文档进行有效解析,从而有效的获取了关键文档标签,提升了文档生成网页时文字复现的准确性。
在一个实施例中,所述S2、根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置,包括:
获取所述关键文本标签的属性,将所述关键文本标签的属性与预设的网页组件库中的网页组件类型词进行比较后,得到所述关键文本标签的属性对应的网页组件类型;
其中,在进行类型词比较时可以采用的词向量转换的方式,即将关键文本标签的属性转换成一个词向量,并且将网页组件库中的网页组件类型词也都转换成词向量,然后计算词向量之间的相似度,选取网页组件库中的网页组件类型词向量中与关键文本标签的属性词向量相似度最大的一个作为关键文本标签的属性对应的网页组件类型。
扫描所述待上传文档,建立文档坐标系,其中所述文档坐标系的原点为所述待上传文档左下角的端点;
获取所述关键文本标签在所述待上传文档中的位置坐标,根据所述位置坐标和所述网页组件类型,确定所述网页组件在预生成的网页中的设立位置。
具体的,在根据所述关键文本标签在所述待上传文档中的位置坐标时,可以根据待上传文档的尺寸建立不同的坐标系刻度,并通过关键文本标签的坐标值通过映射关系,映射到空白网页上,从而确定网页组件的位置。
本实施例,通过建立文档坐标系,从而能够准确获得文档标签对应的网页组件在空白网页上的位置,从而达到了网页与文档的一致准确性。
图3为本申请在一个实施例中的一种文档生成网页的方法中的网页模板生成过程示意图,如图所示,所述S3、根据所述网页组件类型和所述设立位置,生成网页模板,包括:
S31、根据所述网页组件类型,从所述网页组件库中抽取出数个网页组件;
具体的,若网页组件为表格,则从网页组件数据库中抽取出所有表格的网页组件,这些表格可以是单像素表格、带背景颜色表格或者自动换行颜色表格。
S32、根据所述设立位置将数个所述网页组件依次设立到空白网页中进行展示,得到初始网页模板;
其中,在空白网页中进行展示时,需要根据空白网页的尺寸和样式来确定网页组件空白网页上的位置和大小,从将网页组件正确的展示在空白网页上,从而不会出现网页组件在空白网页上进行展示时出现变形的情况。
S33、遍历所述初始网页模板中各像素点的像素值,若任一所述像素点的像素值大于预设阈值则进行标记,调整所述标记对应的网页组件的位置后,得到最终网页模板。
具体的,在进行像素点的像素值与预设的阈值进行比较时,可以将初始网页模板划分成数个子块,然后将各个子块的平均值与预设阈值进行比较。其中,子块的划分原则是,在每一个子块中存在至少两个像素值,因此每一个子块的尺寸并不完全一致。
本实施例,通过像素值对网页组件的位置进行调整,从而建立起符合文档要求的网页模板。
在一个实施例中,所述S4、所述获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页,包括:
获取用户输入的页面样式信息,提取所述页面样式信息中的特征信息;
具体的,用户输入的样式信息中的特征信息主要有文档对应网页每一行的长度、表格的渲染效果、字体大小和颜色等等。
根据所述特征信息,确定所述待上传文档中的文字与所述网页组件的位置关系;
根据所述位置关系,将所述待上传文档中的文字填充到所述网页模板后,得到所述最终网页。
本实施例,根据用户输入的样式网页样式信息对网页组件的位置再进行针对性调整,从而最终得到符合用户需求的网页样式。
在一个实施例中,所述S4、根据所述网页组件类型和所述设立位置,生成网页模板之后,所述方法还包括:
获取所述网页模板的页面信息,将所述页面信息转换成HTML代码;
获取所述文档树中的XML元素及所述XML元素对应的HTML标签;
将所述HTML代码、所述文档树中的XML元素和所述XML元素对应的HTML标签打包后存储到数据库中。
本实施例,将页面信息进行代码转换,并存储到数据库中,可以便于下次生成类型网页时直接调取数据,节约系统资源和时间。
上述任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图4所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种文档生成网页的方法进行说明,以下对执行上述文档生成网页的装置进行描述。
如图4所示的一种文档生成网页的装置的结构图,其可应用于文档生成网页的。本申请实施例中的文档生成网页的装置能够实现对应于上述图1所对应的实施例中所执行的文档生成网页的方法的步骤。文档生成网页的装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施例中,提出了一种文档生成网页的装置,如图4所示,包括如下模块:
文档要素提取模块,设置为获取待上传文档,提取所述待上传文档中的关键文本标签;根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
网页生成模块,设置为根据所述网页组件类型和所述设立位置,生成网页模板;获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
在一个实施例中,所述文档要素提取模块还用于:
获取所述待上传文档的文档类型,根据所述文档类型,确定所述待上传文档对应的文档解析器;
应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记;
根据所述文档标记,激活所述待上传文档对应的事件处理函数;
执行所述事件处理函数触发对应的文档处理事件后,得到所述关键文本标签。
在一个实施例中,所述文档要素提取模块还用于:
获取所述关键文本标签的属性,将所述关键文本标签的属性与预设的网页组件库中的网页组件类型词进行比较后,得到所述关键文本标签的属性对应的网页组件类型;
扫描所述待上传文档,建立文档坐标系,其中所述文档坐标系的原点为所述待上传文档左下角的端点;
获取所述关键文本标签在所述待上传文档中的位置坐标,根据所述位置坐标和所述网页组件类型,确定所述网页组件在预生成的网页中的设立位置。
在一个实施例中,所述网页生成模块还用于:
根据所述网页组件类型,从所述网页组件库中抽取出数个网页组件;
根据所述设立位置将数个所述网页组件依次设立到空白网页中进行展示,得到初始网页模板;
遍历所述初始网页模板中各像素点的像素值,若任一所述像素点的像素值大于预设阈值则进行标记,调整所述标记对应的网页组件的位置后,得到最终网页模板。
在一个实施例中,所述网页生成模块还用于:
获取用户输入的页面样式信息,提取所述页面样式信息中的特征信息;
根据所述特征信息,确定所述待上传文档中的文字与所述网页组件的位置关系;
根据所述位置关系,将所述待上传文档中的文字填充到所述网页模板后,得到所述最终网页。
在一个实施例中,所述网页生成模块还用于:
获取所述网页模板的页面信息,将所述页面信息转换成HTML代码;
获取所述文档树中的XML元素及所述XML元素对应的HTML标签;
将所述HTML代码、所述文档树中的XML元素和所述XML元素对应的HTML标签打包后存储到数据库中。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述文档生成网页的方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取待上传文档,提取所述待上传文档中的关键文本标签;
根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
根据所述网页组件类型和所述设立位置,生成网页模板;
获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,当所述获取待上传文档,提取所述待上传文档中的关键文本标签时,使得所述处理器执行以下步骤:
获取所述待上传文档的文档类型,根据所述文档类型,确定所述待上传文档对应的文档解析器;
应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记;
根据所述文档标记,激活所述待上传文档对应的事件处理函数;
执行所述事件处理函数触发对应的文档处理事件后,得到所述关键文本标签。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,当所述根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置时,使得所述处理器执行以下步骤:
获取所述关键文本标签的属性,将所述关键文本标签的属性与预设的网页组件库中的网页组件类型词进行比较后,得到所述关键文本标签的属性对应的网页组件类型;
扫描所述待上传文档,建立文档坐标系,其中所述文档坐标系的原点为所述待上传文档左下角的端点;
获取所述关键文本标签在所述待上传文档中的位置坐标,根据所述位置坐标和所述网页组件类型,确定所述网页组件在预生成的网页中的设立位置。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,当所述根据所述网页组件类型和所述设立位置,生成网页模板时,使得所述处理器执行以下步骤:
根据所述网页组件类型,从所述网页组件库中抽取出数个网页组件;
根据所述设立位置将数个所述网页组件依次设立到空白网页中进行展示,得到初始网页模板;
遍历所述初始网页模板中各像素点的像素值,若任一所述像素点的像素值大于预设阈值则进行标记,调整所述标记对应的网页组件的位置后,得到最终网页模板。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,当所述获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页时,使得所述处理器执行以下步骤:
获取用户输入的页面样式信息,提取所述页面样式信息中的特征信息;
根据所述特征信息,确定所述待上传文档中的文字与所述网页组件的位置关系;
根据所述位置关系,将所述待上传文档中的文字填充到所述网页模板后,得到所述最终网页。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,在所述根据所述网页组件类型和所述设立位置,生成网页模板之后,使得所述处理器执行以下步骤:
获取所述网页模板的页面信息,将所述页面信息转换成HTML代码;
获取所述文档树中的XML元素及所述XML元素对应的HTML标签;
将所述HTML代码、所述文档树中的XML元素和所述XML元素对应的HTML标签打包后存储到数据库中。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文档生成网页的方法,其特征在于,包括:
获取待上传文档,提取所述待上传文档中的关键文本标签;
根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
根据所述网页组件类型和所述设立位置,生成网页模板;
获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
2.根据权利要求1所述的文档生成网页的方法,其特征在于,所述获取待上传文档,提取所述待上传文档中的关键文本标签,包括:
获取所述待上传文档的文档类型,根据所述文档类型,确定所述待上传文档对应的文档解析器;
应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记;
根据所述文档标记,激活所述待上传文档对应的事件处理函数;
执行所述事件处理函数触发对应的文档处理事件后,得到所述关键文本标签。
3.根据权利要求1所述的文档生成网页的方法,其特征在于,所述根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置,包括:
获取所述关键文本标签的属性,将所述关键文本标签的属性与预设的网页组件库中的网页组件类型词进行比较后,得到所述关键文本标签的属性对应的网页组件类型;
扫描所述待上传文档,建立文档坐标系,其中所述文档坐标系的原点为所述待上传文档左下角的端点;
获取所述关键文本标签在所述待上传文档中的位置坐标,根据所述位置坐标和所述网页组件类型,确定所述网页组件在预生成的网页中的设立位置。
4.根据权利要求3述的文档生成网页的方法,其特征在于,所述根据所述网页组件类型和所述设立位置,生成网页模板,包括:
根据所述网页组件类型,从所述网页组件库中抽取出数个网页组件;
根据所述设立位置将数个所述网页组件依次设立到空白网页中进行展示,得到初始网页模板;
遍历所述初始网页模板中各像素点的像素值,若任一所述像素点的像素值大于预设阈值则进行标记,调整所述标记对应的网页组件的位置后,得到最终网页模板。
5.根据权利要求1所述的文档生成网页的方法,其特征在于,所述获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页,包括:
获取用户输入的页面样式信息,提取所述页面样式信息中的特征信息;
根据所述特征信息,确定所述待上传文档中的文字与所述网页组件的位置关系;
根据所述位置关系,将所述待上传文档中的文字填充到所述网页模板后,得到所述最终网页。
6.根据权利要求2所述的文档生成网页的方法,其特征在于,所述应用所述文档解析器扫描所述待上传文档,获得所述待上传文档的文档标记,包括:
若所述待上传文档为Word文本或者Excel文本,则应用POI解析器对所述待上传文档进行解析,具体包括:
将所述待上传文档转换成XML结构的文档树;
从所述文档树中抽取出所述待上传文档所包含的所有XML标签;
将所述XML标签转换成HTML标签,所述HTML标签为述待上传文档的文档标记。
7.根据权利要求6所述的文档生成网页的方法,其特征在于,所述根据所述网页组件类型和所述设立位置,生成网页模板之后,所述方法还包括:
获取所述网页模板的页面信息,将所述页面信息转换成HTML代码;
获取所述文档树中的XML元素及所述XML元素对应的HTML标签;
将所述HTML代码、所述文档树中的XML元素和所述XML元素对应的HTML标签打包后存储到数据库中。
8.一种文档生成网页的装置,其特征在于,包括以下模块:
文档要素提取模块,设置为获取待上传文档,提取所述待上传文档中的关键文本标签;根据所述关键文本标签的属性,确定网页组件类型,根据所述关键文本标签在所述待上传文档中的位置,确定网页组件在预生成的网页中的设立位置;
网页生成模块,设置为根据所述网页组件类型和所述设立位置,生成网页模板;获取用户输入的页面样式信息,根据所述页面样式信息对所述网页模板进行修订,得到最终网页。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述文档生成网页的方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述文档生成网页的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968778.4A CN110879937A (zh) | 2019-10-12 | 2019-10-12 | 文档生成网页的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968778.4A CN110879937A (zh) | 2019-10-12 | 2019-10-12 | 文档生成网页的方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110879937A true CN110879937A (zh) | 2020-03-13 |
Family
ID=69727769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910968778.4A Pending CN110879937A (zh) | 2019-10-12 | 2019-10-12 | 文档生成网页的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879937A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651696A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 产品标签的定制方法及装置、计算机存储介质、电子设备 |
CN112069782A (zh) * | 2020-09-08 | 2020-12-11 | 中国平安财产保险股份有限公司 | 文档模板生成方法、装置、电子设备及存储介质 |
CN112527291A (zh) * | 2020-12-01 | 2021-03-19 | 瀚云科技有限公司 | 网页生成方法、装置、电子设备及存储介质 |
CN112685620A (zh) * | 2020-12-31 | 2021-04-20 | 山东奥邦交通设施工程有限公司 | 一种招投标信息处理方法、系统、可读存储介质及设备 |
CN112989766A (zh) * | 2021-05-11 | 2021-06-18 | 金锐同创(北京)科技股份有限公司 | 文档标注信息的处理方法、装置及终端设备 |
CN113536182A (zh) * | 2021-07-12 | 2021-10-22 | 广州万孚生物技术股份有限公司 | 长文本网页的生成方法、装置、电子设备和存储介质 |
CN113591438A (zh) * | 2021-07-30 | 2021-11-02 | 远光软件股份有限公司 | 文本转换方法、电子设备及计算机可读存储装置 |
CN114239529A (zh) * | 2021-12-16 | 2022-03-25 | 深圳前海环融联易信息科技服务有限公司 | 基于模板引擎的文档生成方法、装置、设备及介质 |
CN114911534A (zh) * | 2021-02-09 | 2022-08-16 | 浙江宇视科技有限公司 | 页面信息提取方法、设置方法、装置、电子设备及介质 |
CN115203614A (zh) * | 2022-07-28 | 2022-10-18 | 武汉小帆船电子商务有限公司 | 一种基于网页开发的页面自动生成分析处理方法 |
CN115617324A (zh) * | 2022-09-08 | 2023-01-17 | 中电金信软件有限公司 | 一种客户端网页的生成方法 |
CN116340685A (zh) * | 2023-03-28 | 2023-06-27 | 广东保伦电子股份有限公司 | 一种基于语音生成网页方法及系统 |
CN117436429A (zh) * | 2023-12-22 | 2024-01-23 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335338A (zh) * | 2014-06-25 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 一种电子文档转换方法及装置 |
CN106294441A (zh) * | 2015-05-27 | 2017-01-04 | 珠海金山办公软件有限公司 | 一种文档转换方法及装置 |
-
2019
- 2019-10-12 CN CN201910968778.4A patent/CN110879937A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335338A (zh) * | 2014-06-25 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 一种电子文档转换方法及装置 |
CN106294441A (zh) * | 2015-05-27 | 2017-01-04 | 珠海金山办公软件有限公司 | 一种文档转换方法及装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651696A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 产品标签的定制方法及装置、计算机存储介质、电子设备 |
CN112069782B (zh) * | 2020-09-08 | 2023-09-19 | 中国平安财产保险股份有限公司 | 文档模板生成方法、装置、电子设备及存储介质 |
CN112069782A (zh) * | 2020-09-08 | 2020-12-11 | 中国平安财产保险股份有限公司 | 文档模板生成方法、装置、电子设备及存储介质 |
CN112527291A (zh) * | 2020-12-01 | 2021-03-19 | 瀚云科技有限公司 | 网页生成方法、装置、电子设备及存储介质 |
CN112685620A (zh) * | 2020-12-31 | 2021-04-20 | 山东奥邦交通设施工程有限公司 | 一种招投标信息处理方法、系统、可读存储介质及设备 |
CN114911534A (zh) * | 2021-02-09 | 2022-08-16 | 浙江宇视科技有限公司 | 页面信息提取方法、设置方法、装置、电子设备及介质 |
CN114911534B (zh) * | 2021-02-09 | 2024-02-20 | 浙江宇视科技有限公司 | 页面信息提取方法、设置方法、装置、电子设备及介质 |
CN112989766B (zh) * | 2021-05-11 | 2021-08-03 | 金锐同创(北京)科技股份有限公司 | 文档标注信息的处理方法、装置及终端设备 |
CN112989766A (zh) * | 2021-05-11 | 2021-06-18 | 金锐同创(北京)科技股份有限公司 | 文档标注信息的处理方法、装置及终端设备 |
CN113536182A (zh) * | 2021-07-12 | 2021-10-22 | 广州万孚生物技术股份有限公司 | 长文本网页的生成方法、装置、电子设备和存储介质 |
CN113591438A (zh) * | 2021-07-30 | 2021-11-02 | 远光软件股份有限公司 | 文本转换方法、电子设备及计算机可读存储装置 |
CN113591438B (zh) * | 2021-07-30 | 2024-01-12 | 远光软件股份有限公司 | 文本转换方法、电子设备及计算机可读存储装置 |
CN114239529A (zh) * | 2021-12-16 | 2022-03-25 | 深圳前海环融联易信息科技服务有限公司 | 基于模板引擎的文档生成方法、装置、设备及介质 |
CN115203614A (zh) * | 2022-07-28 | 2022-10-18 | 武汉小帆船电子商务有限公司 | 一种基于网页开发的页面自动生成分析处理方法 |
CN115617324B (zh) * | 2022-09-08 | 2024-01-26 | 中电金信软件有限公司 | 一种客户端网页的生成方法 |
CN115617324A (zh) * | 2022-09-08 | 2023-01-17 | 中电金信软件有限公司 | 一种客户端网页的生成方法 |
CN116340685A (zh) * | 2023-03-28 | 2023-06-27 | 广东保伦电子股份有限公司 | 一种基于语音生成网页方法及系统 |
CN116340685B (zh) * | 2023-03-28 | 2024-01-30 | 广东保伦电子股份有限公司 | 一种基于语音生成网页方法及系统 |
CN117436429A (zh) * | 2023-12-22 | 2024-01-23 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
CN117436429B (zh) * | 2023-12-22 | 2024-05-17 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110879937A (zh) | 文档生成网页的方法、装置、计算机设备和存储介质 | |
US9471550B2 (en) | Method and apparatus for document conversion with font metrics adjustment for format compatibility | |
US8539342B1 (en) | Read-order inference via content sorting | |
CN113609820B (zh) | 基于可扩展标记语言文件生成word文件的方法、装置及设备 | |
WO2015180422A1 (zh) | 页面排版方法及装置 | |
CN107562480B (zh) | 一种pos机多国语言的实现方法及其系统 | |
US20200364452A1 (en) | A heuristic method for analyzing content of an electronic document | |
US20210019366A1 (en) | Text Extraction Heuristics | |
CN111797595A (zh) | 一种基于xml模板生成ofd版式页面的方法和装置 | |
US9886426B1 (en) | Methods and apparatus for generating an efficient SVG file | |
CN114724166A (zh) | 一种标题抽取模型的生成方法、装置及电子设备 | |
CN114791988A (zh) | 一种基于浏览器的pdf文件解析方法、系统、存储介质 | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN113297425B (zh) | 文档转换方法、装置、服务器及存储介质 | |
EP1959352A2 (en) | System and method of report representation | |
CN110727458A (zh) | 一种通过后台管理切换页面模板设置的方法和装置 | |
US9984053B2 (en) | Replicating the appearance of typographical attributes by adjusting letter spacing of glyphs in digital publications | |
CN114254585A (zh) | 字体生成方法、装置、电子设备及存储介质 | |
JP6108105B2 (ja) | 記事画像再構成装置 | |
US10176149B2 (en) | Method of rendering visual presentations of data | |
NL2031543B1 (en) | Method and device for processing image data | |
US11797750B2 (en) | Methods and systems for identifying and tagging outlined or converted text | |
US11416671B2 (en) | Device dependent rendering of PDF content | |
US8996990B2 (en) | Technique for extracting modifications to a web page |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200313 |
|
RJ01 | Rejection of invention patent application after publication |