CN117709302A - 一种文档转换方法及装置 - Google Patents

一种文档转换方法及装置 Download PDF

Info

Publication number
CN117709302A
CN117709302A CN202311575781.2A CN202311575781A CN117709302A CN 117709302 A CN117709302 A CN 117709302A CN 202311575781 A CN202311575781 A CN 202311575781A CN 117709302 A CN117709302 A CN 117709302A
Authority
CN
China
Prior art keywords
document template
template
title
source document
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311575781.2A
Other languages
English (en)
Inventor
陈国星
刘伟煜
汪子文
何凯
刘天宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Postal Savings Bank of China Ltd
Original Assignee
Postal Savings Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Postal Savings Bank of China Ltd filed Critical Postal Savings Bank of China Ltd
Priority to CN202311575781.2A priority Critical patent/CN117709302A/zh
Publication of CN117709302A publication Critical patent/CN117709302A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种文档转换方法及装置。该方法包括:解析源文档模板和目标文档模板,将源文档模板和目标文档模板的各级标题进行抽取并编号;基于编号生成源文档模板与目标文档模板的标题的映射关系;解析需要进行转换的源文档,基于源文档模板与目标文档模板的标题的映射关系将源文档各标题下的正文内容写入目标文档,从而将源文档转换为目标文档。本申请实施例实现将文档从一种模板框架下方便地转换为另一种模板框架下,在信息要素不变的情况下,通过源文档模板和目标文档模板的标题映射关系,实现两种模板文档的快速自动转换,提高了文档转换的效率,并实现了批量转换。

Description

一种文档转换方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档转换方法、装置、电子设备及计算机可读存储介质。
背景技术
在各种工程建设的过程中,每个节点都要生成大量的流程文档,这些流程文档都是基于一定的标准模板写成的,当工程管理体系升级或工程遇到其他变化时,文档标准模板就会发生改变,这时原有的所有流程文档都要转换为新模板形式的文档。
对于已撰写完成的特定内容的文档,现有技术无法实现将原有模板的文档快速、直接地转换为另外一种模板的文档,这个过程通常通过人工复制粘贴完成,不仅效率低下,而且错误率高。
现有的文档转换方法一般针对的都是不同格式的两种文档之间的转换,比如将不可编辑的PDF文档转换为可编辑的word文档,或者是将txt文档、xml文档转换为word文档,并且转换都是以保持原有文档内容、结构不变为目的,无法实现不同模板之间的文档之间互相转换。对于需要将已有的文档转换重组为其他架构文档的需求,只能通过人工的方式。
现有技术也有利用在线编辑的方式实现文档转换的,即将现有文档上传至网页上,然后在网页上拖动调整好之后再重新下载回本地。这种方法过于依赖网络,并且依然需要手动转换,无法实现模板相同的文档的批量转换。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文档转换方法、装置、电子设备及计算机可读存储介质。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种文档转换方法,包括:
解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
可选地,在所述解析需要进行转换的源文档之前,所述方法还包括:
在所述源文档模板需要进行扩展的父标题位置设置自动扩展标记;
在将所述源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取所述源文档的并列小节数量,在将所述源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档。
可选地,所述解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号,包括:
所述源文档模板和所述目标文档模板的文件格式为word,将所述源文档模板和所述目标文档模板的格式从word转为json,并对所述源文档模板与所述目标文档模板的各标题进行抽取拆分,并对抽取获得的各标题进行编号。
可选地,所述对抽取获得的各标题进行编号,包括:
按照如下规则对抽取获得的各标题进行编号:
所述源文档模板的标题编号以A开头,所述目标文档模板的标题编号以B开头;
所述源文档模板和所述目标文档的一级标题表示为(1/n),n表示第几个一级标题,其余各级标题的编号,是在其父标题编号的基础上,在括号内追加一组数字a/b,a指当前标题级别,b指当前标题在其父标题下的排序。
可选地,所述基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系,包括:
对所述目标文档模板中需要写入正文的区域进行设定;
分析所述目标文档模板需要写入正文的区域的各级标题结构,并采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系。
可选地,所述采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,包括:
针对所述目标文档模板的每个标题,从所述源文档模板中寻找字符相似度最大的标题作为匹配标题,当所述目标文档模板中的标题与所述匹配标题的字符相似度大于预设阈值时,则匹配成功。
可选地,所述方法还包括:
接收用户对所述源文档模板与所述目标文档模板的标题的映射关系的配置操作。
第二方面,本申请实施例还提供一种文档转换装置,包括:
标题编号单元,用于解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
映射关系生成单元,用于基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
文档转换单元,用于解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
可选地,所述装置还包括:
自动扩展标记设置单元,用于在所述源文档模板需要进行扩展的父标题位置设置自动扩展标记;
所述文档转换单元进一步用于在将所述源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取所述源文档的并列小节数量,在将所述源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档。
可选地,所述标题编号单元进一步用于:
所述源文档模板和所述目标文档模板的文件格式为word,将所述源文档模板和所述目标文档模板的格式从word转为json,并对所述源文档模板与所述目标文档模板的各标题进行抽取拆分,并对抽取获得的各标题进行编号。
可选地,所述对抽取获得的各标题进行编号,包括:
按照如下规则对抽取获得的各标题进行编号:
所述源文档模板的标题编号以A开头,所述目标文档模板的标题编号以B开头;
所述源文档模板和所述目标文档的一级标题表示为(1/n),n表示第几个一级标题,其余各级标题的编号,是在其父标题编号的基础上,在括号内追加一组数字a/b,a指当前标题级别,b指当前标题在其父标题下的排序。
可选地,所述映射关系生成单元进一步用于:
对所述目标文档模板中需要写入正文的区域进行设定;
分析所述目标文档模板需要写入正文的区域的各级标题结构,并采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系。
可选地,所述采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,包括:
针对所述目标文档模板的每个标题,从所述源文档模板中寻找字符相似度最大的标题作为匹配标题,当所述目标文档模板中的标题与所述匹配标题的字符相似度大于预设阈值时,则匹配成功。
可选地,所述装置还包括:
配置操作接收单元,用于接收用户对所述源文档模板与所述目标文档模板的标题的映射关系的配置操作。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的文档转换方法。
第四方面,本申请实施例还提供计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述的文档转换方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例基于编号生成源文档模板与目标文档模板的标题的映射关系,基于源文档模板与目标文档模板的标题的映射关系将源文档各标题下的正文内容写入目标文档,实现将文档从一种模板框架下方便地转换为另一种模板框架下,在信息要素不变的情况下,通过源文档模板和目标文档模板的标题映射关系,实现两种模板文档的快速自动转换,提高了文档转换的效率,并实现了批量转换。
另外,本申请实施例在源文档模板需要进行扩展的父标题位置设置自动扩展标记,在将源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取源文档的并列小节数量,在将源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档,从而实现包含并列小节的源文档的自动转换,可以满足针对各种不同源文档的实际需求。
为了进一步提高文档转换的效率,本申请实施例还提出采用字符相似度匹配算法为目标文档模板的各级标题匹配源文档模板的标题,基于编号自动生成源文档模板与目标文档模板的标题的映射关系。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一个实施例的文档转换方法的流程示意图;
图2为本申请一个实施例的对源文档模板的标题进行编号的示意图;
图3为本申请一个实施例的基于编号生成源文档模板与目标文档模板的标题的映射关系示意图;
图4为本申请一个实施例的将源文档转换为目标文档的示意图;
图5A为本申请一个实施例的未进行扩展配置时将源文档转换为目标文档的示意图;
图5B为本申请一个实施例的进行扩展配置后将源文档转换为目标文档的示意图;
图6为本申请一个实施例的文档转换装置的结构示意图;
图7为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术下难以实现将某种标准化word文档转换成另一种模板框架下的新文档,当工程文档模板变更,大量现有文档需要转换时,只能通过手动复制粘贴的方式一个文档一个文档地转换,或依靠在线工具辅助比对转换,过程繁琐,无法实现批量转换。
本申请实施例可以实现将文档从一种标准模板下智能地转换为另一种标准模板下,保持原有文档内涵不变,且可实现所有符合模板形式的文档的智能批量转换。
图1为本申请一个实施例的文档转换方法的流程示意图。如图1所示,该方法包括:
S101:解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
可理解的是,本申请实施例中的文档模板是指定义好框架结构的文档,例如定义了各级标题的位置与结构的word文档,基于模板写成的文档只需要在指定标题下填写正文内容,或根据实际情况再扩展一些同等结构的小节。
在源文档模板和目标文档模板中具有不同的标题位置与结构,本申请实施例将源文档模板和目标文档模板的各级标题进行抽取并进行编号。通过对解析完成的源文档模板和目标文档的各级标题进行编号,并保证编号的唯一性,以便于后续步骤基于编号生成映射关系。
S102:基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
可理解的是,本申请实施例中的源文档模板与目标文档模板的标题的映射关系是指源文档模板中的各级标题分别对应目标文档模板中的哪一个标题。
S103:解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
在实际应用中,需要进行转换的源文档的文件格式可以为word,将word文档解析成json文档。json(Javascript Object Notation)是一种轻量级的数据交换格式,易于计算机解析、操作。
在执行文档转换时,基于所述映射关系,源文档指定标题下的正文内容将写入到目标文档的特定位置,形成源文档模板到目标文档模板内容重组的基础规则。
本申请实施例的文档转换方法,基于编号生成源文档模板与目标文档模板的标题的映射关系,基于源文档模板与目标文档模板的标题的映射关系将源文档各标题下的正文内容写入目标文档,实现将文档从一种模板框架下方便地转换为另一种模板框架下,在信息要素不变的情况下,通过源文档模板和目标文档模板的标题映射关系,实现两种模板文档的快速自动转换,提高了文档转换的效率,并实现了批量转换。
在本申请实施例的一种可选的实施方式中,在所述解析需要进行转换的源文档之前,所述方法还包括:
在所述源文档模板需要进行扩展的父标题位置设置自动扩展标记;
在将所述源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取所述源文档的并列小节数量,在将所述源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档。
可理解的是,在文档模板中,我们只能规定文档每一节内容的框架结构,而无法确定依据该模板实际写成的源文档具体包含几个符合此结构的并列小节。在进行文档转换前,需要在源文档模板中的特定位置进行扩展配置,来控制转换过程中智能地根据实际源文档生成具体数量的小节。
本申请实施例在源文档模板需要进行扩展的父标题位置设置自动扩展标记,在将源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取源文档的并列小节数量,在将源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档,从而实现包含并列小节的源文档的自动转换,可以满足针对各种不同源文档的实际需求。
具体地,所述解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号,包括:
所述源文档模板和所述目标文档模板的文件格式为word,将所述源文档模板和所述目标文档模板的格式从word转为json,并对所述源文档模板与所述目标文档模板的各标题进行抽取拆分,并对抽取获得的各标题进行编号。
如前所述,json是一种轻量级的数据交换格式,易于计算机解析、操作。将源文档模板和目标文档模板的格式从word转为json,易于计算机进行标题的抽取拆分。
具体地,本申请实施例可以按照如下规则对抽取获得的各标题进行编号:
所述源文档模板的标题编号以A开头,所述目标文档模板的标题编号以B开头;
所述源文档模板和所述目标文档的一级标题表示为(1/n),n表示第几个一级标题,其余各级标题的编号,是在其父标题编号的基础上,在括号内追加一组数字a/b,a指当前标题级别,b指当前标题在其父标题下的排序。
图2为本申请一个实施例的对源文档模板的标题进行编号的示意图。如图2所示,编号的格式为A(a/b,c/d,e/f……),其中“A”代表源文档模板,若是目标文档模板则表示为“B”。括号内包含若干组数字,几级标题便有几组数字,每组数字形如“(a/b)”,最后一组数字的a代表的数字表示当前是几级标题,b代表当前标题是其父标题下的第几个标题。
图3为本申请一个实施例的基于编号生成源文档模板与目标文档模板的标题的映射关系示意图。在目标文档模板中,三级标题B(1/1,2/1,3/1)映射源文档模板中的A(1/1,2/1,3/1),则在文档转换过程中,源文档A(1/1,2/1,3/1)标题下的正文内容将写入到目标文档的B(1/1,2/1,3/1)标题下。
针对给定的源文档模板与目标文档模板,根据映射规则,图3示例中共生成三个编号映射对,分别表示为:
A(1/1,2/1,3/1):B(1/1,2/1,3/1);
A(1/1,2/2,3/1):B(1/1,2/1,3/2);
A(1/2):B(1/2)。
根据以上三条映射规则,如果提供的源文档如图4左侧所示,那么转换成的目标文档如图4右侧所示。
图5A为本申请一个实施例的未进行扩展配置时将源文档转换为目标文档的示意图。图5B为本申请一个实施例的进行扩展配置后将源文档转换为目标文档的示意图。
如图5A所示,在模板中定义好了“活动方案”这个小节的目录结构,但是依据模板写成具体文档时,有的文档只有一个活动,有的文档可能有两个或多个活动。在完成源文档模板到目标文档模板的标题的映射后,转换生成的目标文档如图5A下方所示,从生成的目标文档二可见,只转换了“活动一”,这是因为模板中只有“活动一”。
如图5B所示,在源文档模板需要进行扩展的父标题位置设置自动扩展标记,当对具体源文档进行解析时,解析到模板设置有自动扩展标记的位置时,自动检测并列小节数量,如果第一小节有内容需要映射到目标文档,则按照第一个小节的映射规则将其余小节同理地在目标文档进行扩展转换。
在本申请实施例的一种优选的实施方式中,所述基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系,包括:
对所述目标文档模板中需要写入正文的区域进行设定;
分析所述目标文档模板需要写入正文的区域的各级标题结构,并采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系。
具体地,所述采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,包括:
针对所述目标文档模板的每个标题,从所述源文档模板中寻找字符相似度最大的标题作为匹配标题,当所述目标文档模板中的标题与所述匹配标题的字符相似度大于预设阈值时,则匹配成功。
可理解的是,为了进一步提高文档转换的效率,本申请实施例还提出采用字符相似度匹配算法为目标文档模板的各级标题匹配源文档模板的标题,基于编号自动生成源文档模板与目标文档模板的标题的映射关系。
在实际应用中,预设阈值可以为50%-100%。进一步地,所述方法还包括:
接收用户对所述源文档模板与所述目标文档模板的标题的映射关系的配置操作。
假定所设置预设阈值为50%,利用字符相似度匹配算法为模板文档标题B(1/1,2/1,3/1)匹配到的源文档标题为A(1/1,2/1,3/1),相似度为100%,大于所设定阈值,匹配成功。假如对于B(1/1,2/1,3/1)尝试匹配的过程中,所有源文档的标题与B(1/1,2/1,3/1)的相似度均小于阈值50%,则匹配失败,等待后续人工处理。对于多个相似度值并列最大的情况,如源文档模板中有多个标题与B(1/1,2/1,3/1)匹配成功,则将匹配到的多项内容列到目标标题下,并高亮显示,供用户人工取舍。
需要说明的是,对于自动生成的映射关系,需要进行人工检查确认,对于程序遗留给人工处理的内容进行处理,若不处理,程序给出默认选择。
在本申请实施例中,源文档模板与目标文档模板的标题的映射关系可以由用户手动配置完成,为了减少人工操作工作量,在源文档模板与目标文档模板结构规整合理的情况下,采用上述字符相似度匹配算法可以实现全自动批量完成。
图6为本申请一个实施例的文档转换装置的结构示意图。如图6所示,该装置包括:
标题编号单元601,用于解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
映射关系生成单元602,用于基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
文档转换单元603,用于解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
本申请实施例的文档转换装置,基于编号生成源文档模板与目标文档模板的标题的映射关系,基于源文档模板与目标文档模板的标题的映射关系将源文档各标题下的正文内容写入目标文档,实现将文档从一种模板框架下方便地转换为另一种模板框架下,在信息要素不变的情况下,通过源文档模板和目标文档模板的标题映射关系,实现两种模板文档的快速自动转换,提高了文档转换的效率,并实现了批量转换。
可选地,所述装置还包括:
自动扩展标记设置单元,用于在所述源文档模板需要进行扩展的父标题位置设置自动扩展标记;
所述文档转换单元进一步用于在将所述源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取所述源文档的并列小节数量,在将所述源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档。
可选地,所述标题编号单元进一步用于:
所述源文档模板和所述目标文档模板的文件格式为word,将所述源文档模板和所述目标文档模板的格式从word转为json,并对所述源文档模板与所述目标文档模板的各标题进行抽取拆分,并对抽取获得的各标题进行编号。
可选地,所述对抽取获得的各标题进行编号,包括:
按照如下规则对抽取获得的各标题进行编号:
所述源文档模板的标题编号以A开头,所述目标文档模板的标题编号以B开头;
所述源文档模板和所述目标文档的一级标题表示为(1/n),n表示第几个一级标题,其余各级标题的编号,是在其父标题编号的基础上,在括号内追加一组数字a/b,a指当前标题级别,b指当前标题在其父标题下的排序。
可选地,所述映射关系生成单元进一步用于:
对所述目标文档模板中需要写入正文的区域进行设定;
分析所述目标文档模板需要写入正文的区域的各级标题结构,并采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系。
可选地,所述采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,包括:
针对所述目标文档模板的每个标题,从所述源文档模板中寻找字符相似度最大的标题作为匹配标题,当所述目标文档模板中的标题与所述匹配标题的字符相似度大于预设阈值时,则匹配成功。
可选地,所述装置还包括:
配置操作接收单元,用于接收用户对所述源文档模板与所述目标文档模板的标题的映射关系的配置操作。
可理解的是,上述文档转换装置,能够实现前述实施例中提供的方法的各个步骤,关于方法的相关阐释均适用于装置,此处不再赘述。
图7为本申请的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文档转换装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
上述如本申请图1所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中方法,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中方法,并具体用于执行:
解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文档转换方法,其特征在于,包括:
解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
2.根据权利要求1所述的方法,其特征在于,在所述解析需要进行转换的源文档之前,所述方法还包括:
在所述源文档模板需要进行扩展的父标题位置设置自动扩展标记;
在将所述源文档转换为所述目标文档的过程中,当检测到所述源文档模板的自动扩展标记时,获取所述源文档的并列小节数量,在将所述源文档的第一小节的正文内容写入到所述目标文档后,则按照所述第一小节的映射规则将其余并列小节的正文内容写入所述目标文档。
3.根据权利要求1所述的方法,其特征在于,所述解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号,包括:
所述源文档模板和所述目标文档模板的文件格式为word,将所述源文档模板和所述目标文档模板的格式从word转为json,并对所述源文档模板与所述目标文档模板的各标题进行抽取拆分,并对抽取获得的各标题进行编号。
4.根据权利要求3所述的方法,其特征在于,所述对抽取获得的各标题进行编号,包括:
按照如下规则对抽取获得的各标题进行编号:
所述源文档模板的标题编号以A开头,所述目标文档模板的标题编号以B开头;
所述源文档模板和所述目标文档的一级标题表示为(1/n),n表示第几个一级标题,其余各级标题的编号,是在其父标题编号的基础上,在括号内追加一组数字a/b,a指当前标题级别,b指当前标题在其父标题下的排序。
5.根据权利要求1所述的方法,其特征在于,所述基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系,包括:
对所述目标文档模板中需要写入正文的区域进行设定;
分析所述目标文档模板需要写入正文的区域的各级标题结构,并采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系。
6.根据权利要求5所述的方法,其特征在于,所述采用字符相似度匹配算法为所述目标文档模板的各级标题匹配所述源文档模板的标题,包括:
针对所述目标文档模板的每个标题,从所述源文档模板中寻找字符相似度最大的标题作为匹配标题,当所述目标文档模板中的标题与所述匹配标题的字符相似度大于预设阈值时,则匹配成功。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
接收用户对所述源文档模板与所述目标文档模板的标题的映射关系的配置操作。
8.一种文档转换装置,其特征在于,包括:
标题编号单元,用于解析源文档模板和目标文档模板,将所述源文档模板和所述目标文档模板的各级标题进行抽取并编号;
映射关系生成单元,用于基于编号生成所述源文档模板与所述目标文档模板的标题的映射关系;
文档转换单元,用于解析需要进行转换的源文档,基于所述源文档模板与所述目标文档模板的标题的映射关系将所述源文档各标题下的正文内容写入目标文档,从而将所述源文档转换为所述目标文档。
9.一种电子设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7之任一所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7之任一所述方法。
CN202311575781.2A 2023-11-23 2023-11-23 一种文档转换方法及装置 Pending CN117709302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311575781.2A CN117709302A (zh) 2023-11-23 2023-11-23 一种文档转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311575781.2A CN117709302A (zh) 2023-11-23 2023-11-23 一种文档转换方法及装置

Publications (1)

Publication Number Publication Date
CN117709302A true CN117709302A (zh) 2024-03-15

Family

ID=90150568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311575781.2A Pending CN117709302A (zh) 2023-11-23 2023-11-23 一种文档转换方法及装置

Country Status (1)

Country Link
CN (1) CN117709302A (zh)

Similar Documents

Publication Publication Date Title
CN102201009B (zh) 一种表单生成方法和装置
JP4880191B2 (ja) ワードプロセッサドキュメントのネイティブxml内の非ネイティブxmlを支援するためのシステムおよび方法
CN111400387B (zh) 导入导出数据的转换方法、装置、终端设备及存储介质
CN108595171B (zh) 对象的模型生成方法、装置、设备及存储介质
CN110209387B (zh) 一种顶层hdl文件生成方法和装置、计算机可读存储介质
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
CN111476017B (zh) 网页表格编辑方法、装置及电子设备
CN112364669B (zh) 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN110489625A (zh) 一种网页数据采集模板的生成方法和装置
CN109683881B (zh) 一种代码格式调整方法及装置
CN117112608A (zh) 一种基于Antlr4的数据库语句转换方法及装置
CN105867886B (zh) 一种写表格的方法及装置
WO2020248784A1 (zh) 一种在计算机上实现母语编程的方法
CN110275712B (zh) 一种文本替换方法、装置及设备
CN110554860B (zh) 一种软件项目自然语言编程接口nli的构造方法及代码生成方法
CN117709302A (zh) 一种文档转换方法及装置
CN116151162A (zh) 寄存器代码和文档的自动化设计方法、装置、设备及介质
CN111679825A (zh) 一种层叠样式表生成方法、装置、计算机设备及存储介质
CN104657340A (zh) 可扩展基于脚本的Word报告生成系统及方法
CN110554867A (zh) 一种应用程序的处理方法和装置
CN109710833B (zh) 用于确定内容节点的方法与设备
CN110457659B (zh) 条款文档生成方法及终端设备
CN114637505A (zh) 一种页面内容提取方法和装置
CN107220034B (zh) 一种程序代码标记方法及装置
CN112115159A (zh) 一种sql语句的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination