CN117436429B - 文档导出方法、装置、计算机设备和存储介质 - Google Patents
文档导出方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117436429B CN117436429B CN202311775707.5A CN202311775707A CN117436429B CN 117436429 B CN117436429 B CN 117436429B CN 202311775707 A CN202311775707 A CN 202311775707A CN 117436429 B CN117436429 B CN 117436429B
- Authority
- CN
- China
- Prior art keywords
- template
- data
- page
- value
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003062 neural network model Methods 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims 2
- 230000000306 recurrent effect Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013142 basic testing Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文档导出方法、装置、计算机设备和存储介质,该方法包括获取模板数据库,其中,模板数据库包括至少一个模板,模板具有层级结构;获取页面数据,对页面数据进行解析,得到多个分层结果数据;将各分层结果数据输入至神经网络模型进行解析,得到页面层级结构;将页面层级结构分别与各模板的层级结构进行比对,得到匹配值;检测各匹配值是否大于或等于预设匹配阈值;当匹配值大于或等于预设匹配阈值时,从模板数据库中选取匹配值大于或等于预设匹配阈值的模板;导出模板,基于模板和分层结果数据生成文档。本发明具有有效地避免了当网页页面较为复杂时加载的数据出现丢失而导致PDF文件的导出达不到预期的情况。
Description
技术领域
本发明涉及数据导出技术领域,特别涉及一种文档导出方法、装置、计算机设备和存储介质。
背景技术
在许多情况下,我们需要共享和传输文件,而PDF(可携带文件格式)文件是通用的文件格式之一。它可以在各种设备上使用,并保留文件的格式和布局,从而避免了格式错误,并且PDF文件也可以提高文件的安全性和可靠性。
相关技术中,通过后端对给定路径的网页页面进行PDF文件的导出实现主要是通过现有的PDF生成库如iText等,通过对网页页面的URL地址(Uniform Resource Locator-统一资源定位系统)进行连接并下载页面内容,并将下载后的页面内容存储为HTML(HyperText Markup Language-超文本标记语言)文件,随后通过PDF生成库对HTML文件转化为PDF文件。
然而,当网页页面较为复杂时,网页页面加载出来后的数据可能出现丢失的问题,从而导致PDF文件的导出结果达不到预期。
发明内容
基于此,有必要针对上述技术问题,提供一种文档导出方法、装置、计算机设备和存储介质。
一种文档导出方法,包括:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档。
在其中一个实施例中,所述获取页面数据,对所述页面数据进行解析,得到多个分层结果数据的步骤包括:
获取所述页面数据;
通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
在其中一个实施例中,所述获取模板数据库的步骤之前,还包括:
获取模板转化模型;
将多个预设文档数据输入至所述模板转化模型;
通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
将所述模板存储于所述模板数据库。
在其中一个实施例中,所述获取模板转化模型包括:
获取多个样本文档数据以及文档数据类型,其中,所述样本文档数据与所述文档数据类型一一对应;
将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
在其中一个实施例中,所述检测各所述匹配值是否大于或等于预设匹配阈值的步骤之后,还包括:
当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
将所述更新模板存储至所述模板数据库内。
在其中一个实施例中,所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
所述从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板的步骤之后,还包括:
记录所述模板的键;
根据所述模板的键在所述模板数据库中得到所述键对应的值;
所述导出所述模板,基于所述模板和所述分层结果数据生成文档的步骤包括:
通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
在其中一个实施例中,所述神经网络模型具有多个递归层;
所述通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据的步骤包括:
通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据;
所述将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构的步骤包括:
将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
一种文档导出装置,包括:
数据库获取模块,用于获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
页面获取模块,用于获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
数据解析模块,用于将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
数据比对模块,用于将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
阈值检测模块,用于检测各所述匹配值是否大于或等于预设匹配阈值;
模板选取模块,用于当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
文档生成模块,用于导出所述模板,基于所述模板和所述分层结果数据生成文档。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档。
上述文档导出方法、装置、计算机设备和存储介质,通过对网页页面的页面数据进行分层解析处理,得到多个分层结果数据,将各分层结果数据输入至神经网络模型,得到网页页面的页面层级结构。然后,将页面层级结构分别与各模板的层级结构进行比对,从而得到页面层级结构与模板的层级结构的匹配值,再检测匹配值是否大于或等于预设匹配阈值,当匹配值大于或等于预设匹配阈值时,从模板数据库选取匹配值大于或等于预设匹配阈值的模板,基于模板与分层结果数据生成文档。如此,有效地避免了当网页页面较为复杂时加载的数据出现丢失而导致PDF文件的导出达不到预期的情况,并且减少了在导出过程由于文件格式不一导致导出PDF文件出错的问题。
附图说明
图1为一个实施例中的文档导出方法的流程示意图;
图2为一个实施例中的文档导出装置的结构框图;
图3为一个实施例中的计算机设备的内部结构图;
图4为另一个实施例中的文档导出方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例一
本实施例中,如图1所示,提供了一种文档导出方法,其包括:
步骤110,获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构。
本实施例中,模板的层级结构可以看作为树形或图形的结构表示,即层级结构用于表示模板的内容的架构组成,此处所述的模板为用于供导出PDF文件的文件基础架构或者框架。在一些实施例中,模板数据库包括多个模板,多个模板共同组成模板数据库。
步骤120,获取页面数据,对所述页面数据进行解析,得到多个分层结果数据。
应该理解的是,页面数据指的是一个URL链接所对应的网页页面的参数数据,亦或是一个HTML等网页格式的文件路径数据,URL(Uniform Resource Locator)是统一资源定位系统,常指网络地址。本实施例中,在获取页面数据后,对页面数据进行分层解析处理,从而得到多个分层结果数据。在一些实施例中,在获取页面数据时,用户通过输入文件路径地址与文件路径地址建立连接,再读取并下载文件内容,下载后的文件内容即页面数据。
步骤130,将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构。
本实施例中,神经网络模型的类型为递归神经网络模型,对各分层结果数据进行分层解析,再将分层解析后的分层结果数据填入递归神经网络模型,通过运行递归神经网络模型,从而得到与各分层结果数据对应的页面层级结构。在一些实施例中,由于页面数据通常是具有较为复杂的嵌套结构的数据,因而可将页面数据输入至递归神经网络模型进行递归迭代,得到多个分层结果数据。应该理解的是,分层结果数据相较页面数据的复杂程度较低,因而通过对页面数据进行递归迭代,从而有效地处理较为复杂的数据,同时,可提取结构化信息,并且适应不同类型的网页页面结构。
在一些实施例中,建立递归神经网络模型时,先进行样本数据的准备,样本数据指的是具有层级结构的文本内容样本,并且,各个层级结构可以用标签和索引进行表示,然后通过定义递归神经网络模型的结构,随后将样本数据分层迭代,嵌入到递归神经网络模型中,再对递归神经网络模型进行训练,从而得到训练后的递归神经网络模型,递归神经网络模型用于对页面数据的迭代分层。
步骤140,将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值。
应该理解的是,匹配值描述的是模板与页面数据匹配的程度,也可以看作是用户对于服务端选定的导出的模板和实际的页面数据匹配的程度,在一些实施例中,匹配值为相似程度或相近程度的量化值。本实施例中,在导出网页页面的PDF文件时,通过对网页页面的页面数据进行解析,得到多个分层结果数据,再根据分层结果数据解析得到网页页面的页面层级结构,然后通过将网页页面的页面层级结构与模板的层级结构进行比对,从而得到对应的匹配值。比如,在导出新闻稿的PDF文件时,需要得到对应新闻稿导出所需的模板,通过对新闻稿的页面数据进行解析,得到多个分层结果数据,再根据分层结果数据解析得到新闻稿的页面层级结构,其中,所得到的新闻稿的页面层级结构为标题-导语-主体-背景-结语,将页面层级结构与各模板的层级结构进行比对,得到用于体现新闻稿与各模板的匹配程度的匹配值。
在一些实施例中,将页面层级结构与各模板的层级结构进行比对时,可将页面层级结构逐一与模板的层级结构进行比较,得到页面层级结构每一层与模板的层级结构每一层的匹配值,以用于体现新闻稿与各模板的匹配程度。
步骤150,检测各所述匹配值是否大于或等于预设匹配阈值。
本实施例中,在得到匹配值后,检测匹配值是否大于或等于预设匹配阈值。在一些实施例中,将页面层级结构与各模板的层级结构进行比对时,可将页面层级结构逐一与模板的层级结构进行比较,得到多个页面层级结构每一层与模板的层级结构每一层的匹配值,然后将各匹配值进行处理后得到处理后的匹配值。当匹配值大于或等于预设匹配阈值,则表明页面层级结构与各模板的层级结构较为相似或相近,当匹配值小于预设匹配阈值,则表明页面层级结构与各模板的层级结构不相似或不相近。
步骤160,当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板。
本实施例中,在将页面层级结构与各模板的层级结构进行比对时,得到多个页面层级结构每一层与模板的层级结构每一层的匹配值,在检测各匹配值是否大于或等于预设匹配阈值时,确保各匹配值均大于或等于预设匹配阈值时,从模板数据库中选取各匹配值均大于或等于预设匹配阈值的模板。在一些实施例中,在检测各匹配值是否大于或等于预设匹配阈值时,对页面层级结构每一层与模板的层级结构每一层的匹配值进行取平均值操作,从而得到取平均值后的匹配值,检测取平均值后的匹配值是否大于或等于预设匹配阈值,当取平均值后的匹配值大于或等于预设匹配阈值时,从模板数据库中选取取平均值后的匹配值大于或等于预设匹配阈值的模板。
步骤170,导出所述模板,基于所述模板和所述分层结果数据生成文档。
本实施例中,从模板数据库中拉取模板,并导出该模板,然后将分层结果数据输入至模板内,从而生成所需的文档即PDF文件。在一些实施例中,对多个分层结果数据进行类型匹配,即对各分层结果数据打标签,在导出模板的过程中,根据模板的层级结构,对不同类型的标签的分层结果数据进行不同的处理,通过分布式调度系统资源,并行处理不同的标签的分层结果数据,当所有处理任务执行完成后将文档输出,同时通过AI分析输出文档与原网页页面的比对结果,由用户决定是否需要进行调整,如需调整,则重新执行模板选择和导出操作,直到最终结果符合用户预期,输出最终的文档。通过结合分布式调度系统资源的处理,在导出过程对系统资源进行分布式调度,将一个导出请求分配到不同的服务器计算核心中,提高网页页面导出为PDF文件的效率,并且优化较为复杂的网页页面的PDF文件的导出效率。
在一个实施例中,对多个分层结果数据进行类型匹配,得到分层结果数据的标签,通过分布式调度系统并行处理不同标签的分层结果数据。在导出过程对系统资源进行分布式调度,将一个导出请求分配到不同的服务器计算核心中,提高网页页面导出为PDF文件的效率,并且优化较为复杂的网页页面的PDF文件的导出效率。其中,分布式调度系统是一种用于分布式环境中的任务调度和管理的系统。它可以将一个大型任务拆分成多个子任务,并在不同的节点上同时执行这些子任务,以加快任务的完成速度和提高系统的可靠性。
上述实施例中,通过对网页页面的页面数据进行分层解析处理,得到多个分层结果数据,将各分层结果数据输入至神经网络模型,得到网页页面的页面层级结构。然后,将页面层级结构分别与各模板的层级结构进行比对,从而得到页面层级结构与模板的层级结构的匹配值,再检测匹配值是否大于或等于预设匹配阈值,当匹配值大于或等于预设匹配阈值时,从模板数据库选取匹配值大于或等于预设匹配阈值的模板,基于模板与分层结果数据生成文档。如此,有效地避免了当网页页面较为复杂时加载的数据出现丢失而导致PDF文件的导出达不到预期的情况,并且减少了在导出过程由于文件格式不一导致导出PDF文件出错的问题。
在一个实施例中,所述获取页面数据,对所述页面数据进行解析,得到多个分层结果数据的步骤包括:
获取所述页面数据;
通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
本实施例中,获取页面数据后,由于页面数据结构较为复杂,将页面数据输入至神经网络模型,对页面数据进行分层迭代,捕捉页面数据的逐层结构和语义信息,从而得到多个分层结果数据。然后,将多个分层结果数据输入至神经网络模型中,再运行神经网络模型,以对分层结果数据进行解析,从而得到页面层级结构。应该理解的是,多个分层结果数据可以看作是页面数据经过分层迭代后得到的多个数据内容,即多个分层结果数据共同组成经过分层迭代后的页面数据。
在一个实施例中,所述获取模板数据库的步骤之前,还包括:
获取模板转化模型;
将多个预设文档数据输入至所述模板转化模型;
通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
将所述模板存储于所述模板数据库。
本实施例中,模板转化模型用于将预设文档数据转化成对应的模板,在获取模型数据库之前,需对模板转化模型进行构建,并且收集多个预设文档数据,以用于作为模板生成的数据集,其中,预设文档数据与模板一一对应。在实际转化的过程中,将各预设文档数据输入至模板转化模型,再运行模板转化模型,并结合自然语言处理,结合自然语言处理主要是为了对预设文档数据进行分词、词嵌入等步骤,从而使得各预设文档数据转化为多个模板。然后,将转化得到的模板存储于模板数据库内,以便于当匹配值大于或等于预设匹配阈值时,从模板数据库中选取符合匹配值大于或等于预设匹配阈值的模板。
在一个实施例中,所述获取模板转化模型包括:
获取多个样本文档数据以及文档数据类型,其中,所述样本文档数据与所述文档数据类型一一对应;
将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
本实施例中,样本文档数据为带有模板的数据,在构建模板转化模型时,需先获得预训练模型,对预训练模型配置合适的模型参数,如学习率、正则化参数等,执行模型训练测试,观察训练测试的结果,调整模型参数到合适的阈值。其中,调整预训练模型的模型参数的阈值的目的主要是为了能够提取到通用度更高的模板,从而使后续模板数据库的模板能够更好地导出。如此,即可完成对预训练模型的模型参数配置。此后,需通过样本文档数据与文档数据类型对预训练模型进行训练,从而得到模板转化模型。此处所述的样本文档数据指的是企业现有的文档资源,如产品的电子说明书文档等,通过数据接口拉取数据,将这些现有文档作为样本文档数据。此外,还需对样本文档数据进行类型匹配,得到样本文档数据的文档数据类型,样本文档数据与文档数据类型一一对应。本实施例中,样本文档数据通常具有其对应的框架结构,并且应用某一模板,该文档数据类型用于标识样本文档数据的类型或者模板的类型。在一个实施例中,通过创建数据接口,拉取现有的可用于基础测试适用的样本文档数据,作为预训练的基础数据,将样本文档数与文档数据类型输入至预训练模型进行训练,从而得到模板转化模型,再通过运行模板转化模型,使得预设文档数据转化为模板,从而提取出具有一定通用度的模板作为模板数据库的初始资源。
在一个实施例中,所述检测各所述匹配值是否大于或等于预设匹配阈值的步骤之后,还包括:
当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
将所述更新模板存储至所述模板数据库内。
本实施例中,在将页面层级结构与各模板的层级结构进行比对时,得到多个页面层级结构每一层与模板的层级结构每一层的匹配值,在检测各匹配值是否大于或等于预设匹配阈值时,确保各匹配值均小于预设匹配阈值时,则基于页面层级结构生成全新的更新模板,再将更新模板存储于模板数据库内,以便于后续可从模板数据库中导出更新模板。在一些实施例中,在检测各匹配值是否大于或等于预设匹配阈值时,对页面层级结构每一层与模板的层级结构每一层的匹配值进行取平均值操作,再检测取平均值后得到的匹配值是否大于或等于预设匹配阈值,当取平均值后得到的匹配值小于预设匹配阈值时,基于页面层级结构生成全新的更新模板,再将更新模板存储于模板数据库内。
在一个实施例中,所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
所述从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板的步骤之后,还包括:
记录所述模板的键;
根据所述模板的键在所述模板数据库中得到所述键对应的值;
所述导出所述模板,基于所述模板和所述分层结果数据生成文档的步骤包括:
通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
应该理解的是,键值对是一种常用的数据结构,键值对具有一一对应的键与值,以便于存储和读取数据以及查找数据。在键值对中,键通常是唯一的,用于标识一个特定的值。本实施例中,模板数据库中还记录多个键值对,键可以是任何可哈希的数据类型,如字符串、整数、浮点数等,而值可以是任何类型的数据,包括基本类型和复杂类型。
本实施例中,从模板数据库中选取匹配值大于或等于预设匹配阈值的模板之后,记录模板的键,并且根据模板的键在模板数据库中选取与键对应的值,然后通过值从模板数据库中拉取模板,并对该模板执行导出操作,在导出模板的过程中,将分层结果数据导入至模板,根据模板的层级结构,对不同类型的标签的分层结果数据进行不同的处理,通过分布式调度系统资源,并行处理不同的标签的分层结果数据,当所有处理任务执行完成后将文档输出。
在一个实施例中,所述神经网络模型具有多个递归层;
所述通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据的步骤包括:
通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据;
所述将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构的步骤包括:
将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
本实施例中,神经网络模型具有多个递归层,以用于对页面数据进行解析。由于页面数据结构较为复杂,因而通过神经网络模型对页面数据按文本段落进行划分,以得到多个分层结果数据。然后,将多个分层结果数据输入至对应的神经网络模型的各递归层,在每一个递归层上,根据页面数据进行标签整理和特征融合、分层解析,从而得到网页页面的页面层级结构。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
本实施例中,如图4所示,提供一种文档导出方法,包括:
S1:模板池预训练:通过创建数据接口,拉取现有的可用于基础测试适用的文档数据,作为预训练的基础数据,配置合适的模型参数如学习率、正则化参数等,执行模型训练测试,观察训练测试的结果,调整模型参数到合适的阈值,随后建立基础的预训练模型,结合自然语言处理,将基础文档数据转化为可以通用的基础模板存储到模板池,并设置文件内容类型与模板的关联关系映射。通过预训练数据提供基础的模板结果,并结合输入数据对模板模型进行训练,优化文件类型关联的导出模板,从而制定与文件类别关联且通用性递增的pdf导出模板,在用户提交导出样式后,对网页标签进行归类整理,使用模板进行导出,降低导出过程由于文件格式不一导致的容易出错问题。
S2:用户输入文件路径地址,与文件路径地址建立连接,读取并下载文件内容,同时将文件内容进行分级处理。下载文件内容后,利用建立的递归神经网络模型,将文件内容进行递归迭代,从最低层开始,按照文本段落进行划分,并将每个层次的数据输入到相应的模型中。递归地应用模型,捕捉文件内容的逐层结构和语义信息。在每一个递归层上,根据文件内容进行标签整理和特征融合,分层解析,分层结果数据填入模型,生成文件内容的解析结果。
S3:根据通过递归神经网络得出的文件内容解析结果,与导出模板池中的模板进行搜索比对。搜索过程根据层级解析结果,与模板池中的模板逐层比对,通过定义一个阈值来判断匹配度是否达到可接受的程度,筛选出达到阈值的模板,记录模板的键,用于后续导出过程通过键从模板池中拉取关系映射的值,如未能筛选到达到阈值要求的模板,则基于当前解析结果生成新模板并加入模板池。
S4:根据模板的键从模板池中拉取模板,并执行导出操作,导出过程根据模板内容,对不同类型的标签进行不同的处理,通过分布式调度系统资源,并行处理不同的标签内容,当所有处理任务执行完成后将预览结果输出,同时通过AI分析输出与原文件的比对结果,由用户决定是否需要进行调整,如需调整则重新执行模板选择和导出操作,直到最终结果符合预期,输出最终的导出结果。如此,通过提供导出预览,将模拟导出的结果向用户提供,并为用户提供不同类型标签导出效果的配置,可以由用户决定是否变更导出的样式,确保导出的结果更符合用户预期。并且,通过引入AI分析,对导出结果和预期结果的比对,并向用户输出比对结果,确保导出结果达到预期,若不达预期重新执行导出。通过结合分布式处理,在导出过程对系统资源进行分布式调度,将一个导出请求分配到不同的服务器计算核心中,提高文件导出为PDF的效率。
在一些实施例中,可以通过模拟浏览器访问,通过编程控制进行页面截取导出PDF。
实施例三
本实施例中,如图2所示,提供一种文档导出装置,包括:
数据库获取模块210,用于获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
页面获取模块220,用于获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
数据解析模块230,用于将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
数据比对模块240,用于将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
阈值检测模块250,用于检测各所述匹配值是否大于或等于预设匹配阈值;
模板选取模块260,用于当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
文档生成模块270,用于导出所述模板,基于所述模板和所述分层结果数据生成文档。
在一个实施例中,页面获取模块220包括:
数据获取单元,用于获取所述页面数据;
解析单元,用于通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
在一个实施例中,数据库获取模块210包括:
模型获取单元,用于获取模板转化模型;
数据输入单元,用于将多个预设文档数据输入至所述模板转化模型;
转化单元,用于通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
第一存储单元,用于将所述模板存储于所述模板数据库。
在一个实施例中,模型获取单元还用于获取多个样本文档数据以及文档数据类型;将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
在一个实施例中,模板选取模块260包括:
模板生成单元,用于当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
第二存储单元,用于将所述更新模板存储至所述模板数据库内。
在一个实施例中,模板选取模块260还包括:
记录单元,用于记录所述模板的键;
值获取单元,用于根据所述模板的键在所述模板数据库中得到所述键对应的值。
在一个实施例中,文档生成模块270还用于通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
在一个实施例中,解析单元还用于通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据。
在一个实施例中,数据解析模块230还用于将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
关于文档导出装置的具体限定可以参见上文中对于文档导出方法的限定,在此不再赘述。上述文档导出装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
实施例四
本实施例中,提供了计算机设备。其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序,且该非易失性存储介质部署有数据库,该数据库用于存储页面数据。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与部署了应用软件的其他计算机设备通信。该计算机程序被处理器执行时以实现一种文档导出方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取所述页面数据;
通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取模板转化模型;
将多个预设文档数据输入至所述模板转化模型;
通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
将所述模板存储于所述模板数据库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取多个样本文档数据以及文档数据类型,其中,所述样本文档数据与所述文档数据类型一一对应;
将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
将所述更新模板存储至所述模板数据库内。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
记录所述模板的键;
根据所述模板的键在所述模板数据库中得到所述键对应的值;
通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述神经网络模型具有多个递归层;
通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据;
将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
实施例五
本实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取所述页面数据;
通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取模板转化模型;
将多个预设文档数据输入至所述模板转化模型;
通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
将所述模板存储于所述模板数据库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取多个样本文档数据以及文档数据类型,其中,所述样本文档数据与所述文档数据类型一一对应;
将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
将所述更新模板存储至所述模板数据库内。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
记录所述模板的键;
根据所述模板的键在所述模板数据库中得到所述键对应的值;
通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述神经网络模型具有多个递归层;
通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据;
将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文档导出方法,其特征在于,包括:
获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构;
获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
检测各所述匹配值是否大于或等于预设匹配阈值;
当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;
导出所述模板,基于所述模板和所述分层结果数据生成文档;
所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
所述从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板的步骤之后,还包括:
记录所述模板的键;
根据所述模板的键在所述模板数据库中得到所述键对应的值;
所述导出所述模板,基于所述模板和所述分层结果数据生成文档的步骤包括:
通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
2.根据权利要求1所述的文档导出方法,其特征在于,所述获取页面数据,对所述页面数据进行解析,得到多个分层结果数据的步骤包括:
获取所述页面数据;
通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据。
3.根据权利要求1所述的文档导出方法,其特征在于,所述获取模板数据库的步骤之前,还包括:
获取模板转化模型;
将多个预设文档数据输入至所述模板转化模型;
通过所述模板转化模型将各所述预设文档数据转化为多个所述模板;
将所述模板存储于所述模板数据库。
4.根据权利要求3所述的文档导出方法,其特征在于,所述获取模板转化模型包括:
获取多个样本文档数据以及文档数据类型,其中,所述样本文档数据与所述文档数据类型一一对应;
将多个所述样本文档数据和所述文档数据类型输入至预训练模型进行训练,得到模板转化模型。
5.根据权利要求1所述的文档导出方法,其特征在于,所述检测各所述匹配值是否大于或等于预设匹配阈值的步骤之后,还包括:
当所述匹配值小于预设匹配阈值时,基于所述页面层级结构生成更新模板;
将所述更新模板存储至所述模板数据库内。
6.根据权利要求1所述的文档导出方法,其特征在于,所述检测各所述匹配值是否大于或等于预设匹配阈值的步骤包括:
对所述页面层级结构每一层与所述模板的层级结构每一层的匹配值进行取平均值操作;
检测取平均值后得到的所述匹配值是否大于或等于预设匹配阈值。
7.根据权利要求2所述的文档导出方法,其特征在于,所述神经网络模型具有多个递归层;
所述通过所述神经网络模型对所述页面数据进行分层迭代,得到多个分层结果数据的步骤包括:
通过所述神经网络模型对所述页面数据按文本段落划分,得到多个所述分层结果数据;
所述将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构的步骤包括:
将各所述分层结果数据输入至对应的所述递归层,得到页面层级结构。
8.一种文档导出装置,其特征在于,包括:
数据库获取模块,用于获取模板数据库,其中,所述模板数据库包括至少一个模板,所述模板具有层级结构,所述模板数据库记录多个键值对,各所述键值对具有一一对应的键与值;
页面获取模块,用于获取页面数据,对所述页面数据进行解析,得到多个分层结果数据;
数据解析模块,用于将各所述分层结果数据输入至神经网络模型进行解析,得到页面层级结构;
数据比对模块,用于将所述页面层级结构分别与各所述模板的层级结构进行比对,得到所述页面层级结构与所述模板的层级结构的匹配值;
阈值检测模块,用于检测各所述匹配值是否大于或等于预设匹配阈值;
模板选取模块,用于当所述匹配值大于或等于预设匹配阈值时,从所述模板数据库中选取所述匹配值大于或等于预设匹配阈值的所述模板;记录所述模板的键;根据所述模板的键在所述模板数据库中得到所述键对应的值;
文档生成模块,用于导出所述模板,基于所述模板和所述分层结果数据生成文档;通过所述值导出所述模板,将所述分层结果数据导入至所述模板,从而生成所述文档。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775707.5A CN117436429B (zh) | 2023-12-22 | 2023-12-22 | 文档导出方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775707.5A CN117436429B (zh) | 2023-12-22 | 2023-12-22 | 文档导出方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436429A CN117436429A (zh) | 2024-01-23 |
CN117436429B true CN117436429B (zh) | 2024-05-17 |
Family
ID=89555757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311775707.5A Active CN117436429B (zh) | 2023-12-22 | 2023-12-22 | 文档导出方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436429B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427614A (zh) * | 2019-07-16 | 2019-11-08 | 深圳追一科技有限公司 | 段落层级的构建方法、装置、电子设备及存储介质 |
CN110837347A (zh) * | 2019-11-06 | 2020-02-25 | 王前 | 基于解析插件的网页打印方法、服务器及存储介质 |
CN110879937A (zh) * | 2019-10-12 | 2020-03-13 | 平安国际智慧城市科技股份有限公司 | 文档生成网页的方法、装置、计算机设备和存储介质 |
CN112487319A (zh) * | 2020-11-26 | 2021-03-12 | 清创网御(合肥)科技有限公司 | 一种基于dom树路径匹配的文章解析方法 |
CN112784562A (zh) * | 2020-01-03 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档中文本内容的排版方法及装置 |
CN115935908A (zh) * | 2022-11-23 | 2023-04-07 | 无锡宝通智能物联科技有限公司 | Html网页批量输化出pdf的方法、装置、设备和存储介质 |
CN117076410A (zh) * | 2023-10-16 | 2023-11-17 | 江苏人加信息科技有限公司 | 一种pdf文件生成方法、处理方法、装置及存储介质 |
CN117235199A (zh) * | 2023-08-22 | 2023-12-15 | 中邮科通信技术股份有限公司 | 一种基于文档树的信息智能匹配检索的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4997749B2 (ja) * | 2005-12-07 | 2012-08-08 | 富士ゼロックス株式会社 | 文書処理方法、プログラム及びシステム |
JP5804758B2 (ja) * | 2011-04-19 | 2015-11-04 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびコンピュータプログラム |
-
2023
- 2023-12-22 CN CN202311775707.5A patent/CN117436429B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427614A (zh) * | 2019-07-16 | 2019-11-08 | 深圳追一科技有限公司 | 段落层级的构建方法、装置、电子设备及存储介质 |
CN110879937A (zh) * | 2019-10-12 | 2020-03-13 | 平安国际智慧城市科技股份有限公司 | 文档生成网页的方法、装置、计算机设备和存储介质 |
CN110837347A (zh) * | 2019-11-06 | 2020-02-25 | 王前 | 基于解析插件的网页打印方法、服务器及存储介质 |
CN112784562A (zh) * | 2020-01-03 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档中文本内容的排版方法及装置 |
CN112487319A (zh) * | 2020-11-26 | 2021-03-12 | 清创网御(合肥)科技有限公司 | 一种基于dom树路径匹配的文章解析方法 |
CN115935908A (zh) * | 2022-11-23 | 2023-04-07 | 无锡宝通智能物联科技有限公司 | Html网页批量输化出pdf的方法、装置、设备和存储介质 |
CN117235199A (zh) * | 2023-08-22 | 2023-12-15 | 中邮科通信技术股份有限公司 | 一种基于文档树的信息智能匹配检索的方法 |
CN117076410A (zh) * | 2023-10-16 | 2023-11-17 | 江苏人加信息科技有限公司 | 一种pdf文件生成方法、处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117436429A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932122B (zh) | 接口文档生成方法、装置、计算机设备和存储介质 | |
US11373423B2 (en) | Automated classification and interpretation of life science documents | |
CN109783785B (zh) | 生成实验检测报告的方法、装置和计算机设备 | |
CN111176996A (zh) | 测试用例生成方法、装置、计算机设备及存储介质 | |
CN110941427B (zh) | 代码生成方法及代码生成器 | |
US20120266131A1 (en) | Automatic program generation device, method, and computer program | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
CN114138244A (zh) | 模型类文件自动生成方法、装置、存储介质及电子设备 | |
CN115562656A (zh) | 页面的生成方法、装置、存储介质及计算机设备 | |
CN114328276A (zh) | 测试用例生成方法和装置,显示测试用例的方法和装置 | |
CN117076410B (zh) | 一种pdf文件生成方法、处理方法、装置及存储介质 | |
US20210089764A1 (en) | Automated classification and interpretation of life science documents | |
CN117436429B (zh) | 文档导出方法、装置、计算机设备和存储介质 | |
CN116610304A (zh) | 页面代码生成方法、装置、设备和存储介质 | |
CN112328246A (zh) | 页面组件生成方法、装置、计算机设备及存储介质 | |
CN112732423B (zh) | 流程迁移方法、装置、设备及介质 | |
CN114201961A (zh) | 一种注释预测方法、装置、设备及可读存储介质 | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN114037828A (zh) | 组件识别方法、装置、电子设备及存储介质 | |
US7428697B2 (en) | Preserving content or attribute information during conversion from a structured document to a computer program | |
CN112836033A (zh) | 业务模型的管理方法、装置、设备及存储介质 | |
CN113033177A (zh) | 一种电子病历数据的解析方法及装置 | |
CN114004211B (zh) | 单证模板生成方法、处理方法、装置、计算机设备和介质 | |
Quéval et al. | Extracting the Architecture of Microservices: An Approach for Explainability and Traceability | |
CN112580309B (zh) | 文档数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |