CN115983208A - 一种文档转换方法及电子设备 - Google Patents

一种文档转换方法及电子设备 Download PDF

Info

Publication number
CN115983208A
CN115983208A CN202310071182.0A CN202310071182A CN115983208A CN 115983208 A CN115983208 A CN 115983208A CN 202310071182 A CN202310071182 A CN 202310071182A CN 115983208 A CN115983208 A CN 115983208A
Authority
CN
China
Prior art keywords
audit
point
content
document
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310071182.0A
Other languages
English (en)
Inventor
齐金利
王健
袁野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongji Information Technology Co Ltd
Original Assignee
Shanghai Hongji Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongji Information Technology Co Ltd filed Critical Shanghai Hongji Information Technology Co Ltd
Priority to CN202310071182.0A priority Critical patent/CN115983208A/zh
Publication of CN115983208A publication Critical patent/CN115983208A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供了一种文档转换方法及电子设备,该方法包括:在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。本实施例得到所需格式的待审核文档,且该待审核文档体现出所需审核的审核内容,便于相关人员进行审核。

Description

一种文档转换方法及电子设备
技术领域
本申请实施例涉及文档处理技术领域,尤其涉及一种文档转换方法及电子设备。
背景技术
随着科技的发展,文档被广泛应用在多个领域中。为了保证文档的正确性和安全性,需要对文档进行审核。
相关技术中,通过智能文档审核技术对文档进行错误定位,并交由相关人员进一步审核。
然而,上述方式只能提供原格式的文档,不便于相关人员进行审核。
发明内容
本申请实施例提供了一种文档转换方法及电子设备,用以对得到审核结果的文档进行格式转化,使得转化后的文档便于审核且体现出审核结果的相关信息。
第一方面,本申请实施例还提供了一种文档转换方法,该方法包括:
在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;
针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
上述方案,在收到原文档的审核结果后,生成各审核点的标识信息,并将标识信息添加在原文档中的对应第一审核内容中,即在原文档中将各审核内容进行了标记;这样,在对标记文档进行格式转换后,标识信息保留在了转换的文档中,因此,基于该标识信息能够确定出在转换的文档中的对应第二审核内容;通过对各第二审核内容进行调整,得到所需格式的待审核文档,且该待审核文档体现出所需审核的审核内容,便于相关人员进行审核。
一些可选的实施方式中,在得到待审核文档之后,还包括:
响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
一些可选的实施方式中,响应于针对各审核点的修改指令,对所述原文档进行修改,包括:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
一些可选的实施方式中,在生成所述审核结果中各审核点的标识信息之后,还包括:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
对所述原文档进行修改,得到目标文档之前,还包括:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
一些可选的实施方式中,所述标识信息包括起始标识信息以及终止标识信息;生成所述审核结果中各审核点的标识信息,包括:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
一些可选的实施方式中,将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,包括:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
一些可选的实施方式中,在对各第二审核内容进行调整之前,还包括:
针对任一第二审核内容,若所述第二审核内容对应多个标签(Tag),则将所述第二审核内容对应的多个Tag进行合并。
一些可选的实施方式中,对各第二审核内容进行调整,得到待审核文档,包括:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
一些可选的实施方式中,所述审核结果还包括各审核点的审核类型;基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,包括:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
第二方面,本申请实施例提供了一种文档转换装置,该装置包括:
标识生成模块,用于在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;
内容标记模块,用于针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
文档转化模块,用于在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
一些可选的实施方式中,还包括修改模块,用于:
在所述文档转化模块得到待审核文档之后,响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
一些可选的实施方式中,所述修改模块具体用于:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
一些可选的实施方式中,所述标识生成模块在生成所述审核结果中各审核点的标识信息之后,还用于:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
所述修改模块在对所述原文档进行修改,得到目标文档之前,还用于:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
一些可选的实施方式中,所述标识信息包括起始标识信息以及终止标识信息;所述标识生成模块具体用于:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
一些可选的实施方式中,所述内容标记模块具体用于:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
一些可选的实施方式中,所述文档转化模块在对各第二审核内容进行调整之前,还用于:
针对任一第二审核内容,若所述第二审核内容对应多个Tag,则将所述第二审核内容对应的多个Tag进行合并。
一些可选的实施方式中,所述文档转化模块具体用于:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
一些可选的实施方式中,所述审核结果还包括各审核点的审核类型;所述内容标记模块具体用于:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述第一方面任一所述的文档转换方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述第一方面任一所述的文档转换方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的第一种文档转换方法的流程示意图;
图2为本申请实施例提供的第一种文档转换过程示意图;
图3为本申请实施例提供的第二种文档转换方法的流程示意图;
图4为本申请实施例提供的第三种文档转换方法的流程示意图;
图5为本申请实施例提供的第二种文档转换过程示意图;
图6为本申请实施例提供的审核结果转化过程示意图;
图7为本申请实施例提供的一种文档转换装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为了保证文档的正确性和安全性,需要对文档进行审核。
相关技术中,通过智能文档审核技术对文档进行错误定位,并交由相关人员进一步审核。如:
在文档质量控制场景中,针对专业化的文档在发布前进行文档质量检测(包括文档内容一致性检查、格式检查、错别字检查等),减少文字或内容错误所造成的信息披露事故;
在文档比对场景中,通过对两份文档(如签署的合同与原合同)进行智能比对,定位差异文本位置,进而确定是否有不期望的文字变动/篡改;
在论文查重场景中,通过对文档内容进行智能查重,定位疑似重复内容,减少雷同内容的出现、抄袭等情况发生。
然而,上述方式只能提供原格式的文档,不便于相关人员进行审核。例如,原格式的文档为Word(一种文字处理器应用程序)文档,Word文档中有较多的布局信息和格式信息,且字体大小不同,相关人员需要从Word文档中查找错误位置,进而进行审核。还有一些场景中,相关人员的设备上不支持原格式的文档。
综上,亟需一种文档转换方式,对得到审核结果的文档进行格式转化,使得转化后的文档便于审核且体现出审核结果的相关信息。
鉴于此,本申请实施例提出一种文档转换方法及电子设备,在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
上述方案,在收到原文档的审核结果后,生成各审核点的标识信息,并将标识信息添加在原文档中的对应第一审核内容中,即在原文档中将各审核内容进行了标记;这样,在对标记文档进行格式转换后,标识信息保留在了转换的文档中,因此,基于该标识信息能够确定出在转换的文档中的对应第二审核内容;通过对各第二审核内容进行调整,得到所需格式的待审核文档,且该待审核文档体现出所需审核的审核内容,便于相关人员进行审核。
下面将结合附图及具体实施例,对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
本申请实施例提供第一种文档转换方法,应用于电子设备,如图1所示,包括以下步骤:
步骤S101:在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息。
其中,所述审核结果包括各审核点的审核内容以及位置信息。
示例性的,上述审核结果是针对于原文档的审核信息,由于在文档进行格式转换后,同一内容的位置可能会发生变化,无法基于审核结果中审核点的审核内容以及位置信息,从转换格式后的文档中确定出审核内容;
基于此,本实施例在收到原文档的审核结果后,不直接对文档进行格式转换,而是生成各审核点的标识信息,并将标识信息添加在原文档中的对应第一审核内容中,即在原文档中将各审核内容进行了标记;这样,在后续对标记文档进行格式转换时,标识信息就能保留在转换的文档中,直接基于标识信息就能从转换格式后的文档中确定出审核内容。
本实施例对审核结果的具体实现方式不做限定,示例性的,审核结果包括原文档中可能需要修改的内容(审核内容),以及各审核内容的多项位置信息(如段落索引、段落类型、行索引、列索引、内容在段落中的索引起始值等)。
上述审核结果只是示例性说明,在一些实施例中还可包括审核类型、审核点对应的业务信息等,此处不再赘述。
步骤S102:针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档。
如上所述,本实施例在收到原文档的审核结果后,不直接对文档进行格式转换,而是生成各审核点的标识信息,并将标识信息添加在原文档中的对应第一审核内容中,即在原文档中将各审核内容进行了标记;
由于相同的内容可能在原文档中出现多次,因此,需要结合审核点的位置信息,从原文档中确定该审核点的第一审核内容(即在原文档中,该审核点对应哪部分文字);通过将审核点的标识信息添加到对应的第一审核内容中,实现对在原文档中不同的审核内容进行了不同的标记。
一些可选的实施方式中,所述审核结果还包括各审核点的审核类型;确定第一审核内容可通过但不限于如下方式实现:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
示例性的,审核类型不同时,位置信息的含义不同,如文字段落不区分行与列,位置信息中的行索引与列索引均是默认值,直接基于位置信息中的索引起始值就能确定出审核点对应的起始位置(第一审核内容开始的位置);表格区分行与列,需要先基于位置信息中的行索引与列索引(在表格中的哪行哪列)找到第一审核内容在文档中的对应格,再基于位置信息中的索引起始值从该对应格中确定出审核点对应的起始位置。
上述确定第一审核内容的过程只是示例性说明,本申请并不以此为限。
步骤S103:在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
上述第二审核内容是在转换的文档中,审核点对应哪部分文字。
文档的转化过程可参阅图2所示:
1)基于上述审核点的审核内容以及位置信息,确定各审核点对应的原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
2)将上述标记文档进行格式转换,得到转换的文档;
3)基于上述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
本实施例对上述进行格式转换的具体实现方式不做限定,如将Word文档转换为除去布局信息和格式信息,且字体大小相同的超文本标记语言(Hyper Text MarkupLanguage,html)文档,便于相关人员审核。
一些可选的实施方式中,对各第二审核内容进行调整可通过但不限于如下方式实现:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
示例性的,添加上述标识信息是为了在转换的文档中也能识别出对应审核内容,而在相关人员进行审核时是不需要显示这些标识信息的(避免这些标识信息对实际需要审核的审核内容造成干扰);基于此,本实施例从上述转换的文档中确定出第二审核内容后,需要去除所述第二审核内容中的标识信息,得到目标审核内容;
另外,相关人员需要对上述目标审核内容进行审核,为了便于相关人员从文档中快速找到这些内容,需要通过预设调整方式对这些内容进行特殊调整(加下划线、加粗、变换字体、变换颜色等,可根据具体应用场景进行设置),得到便于相关人员查看的待审核文档。
上述方案,在收到原文档的审核结果后,生成各审核点的标识信息,并将标识信息添加在原文档中的对应第一审核内容中,即在原文档中将各审核内容进行了标记;这样,在对标记文档进行格式转换后,标识信息保留在了转换的文档中,因此,基于该标识信息能够确定出在转换的文档中的对应第二审核内容;通过对各第二审核内容进行调整,得到所需格式的待审核文档,且该待审核文档体现出所需审核的审核内容,便于相关人员进行审核。
一些可选的实施方式中,所述标识信息包括起始标识信息以及终止标识信息;上述步骤S101可通过但不限于如下方式实现:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
本实施例,上述审核点的标识能够唯一表征该审核点,因此,不同审核点之间的标识不同,且不可与原文档中的内容相同,以避免不同审核点之间标识混淆,或者标识与原文档中已有的内容混淆。
本实施例对生成审核点的标识的具体实现方式不做限定,如通过通用唯一识别码(Universally Unique Identifier,UUID)创建数字标识符,或者通过nanoid(一种轻量级的唯一字符串生成器)创建由字母数字组成的标识。
由于本实施例需要基于该标识信息确定在转换的文档中的对应审核内容,因此,需要在原文档的审核内容(第一审核内容)的起始位置以及终止位置均进行标记;
基于此,本实施例需要分别生成第一审核内容的起始位置对应的起始标识信息以及终止位置对应的终止标识信息。
示例性的,预设起始信息为“%”,预设终止信息为“$”,审核点1的标识为“SDhCSnk350”;
起始标识信息为[%SDhCSnk350%],终止标识信息为[$SDhCSnk350$]。
上述标识、预设起始信息以及预设终止信息均为示例性说明,本申请并不以此为限。
对应的,上述步骤S102可通过但不限于如下方式实现:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
如上所述,由于本实施例需要基于该标识信息确定在转换的文档中的对应审核内容,因此,需要在原文档的审核内容(第一审核内容)的起始位置以及终止位置均进行标记;
基于此,本实施例需要将审核点的起始标识信息添加到该审核点对应的第一审核内容的起始位置;并将该审核点的终止标识信息添加到该审核点对应的第一审核内容的终止位置。
还是以上述审核点1的起始标识信息以及终止标识信息为例,第一审核内容记作内容A,将[%SDhCSnk350%]添加到内容A的起始位置,将[$SDhCSnk350$]添加到内容A的终止位置,组成[%SDhCSnk350%]内容A[$SDhCSnk350$]。
本申请实施例提供第二种文档转换方法,应用于电子设备,如图3所示,包括以下步骤:
步骤S301:在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息。
步骤S302:针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档。
步骤S303:在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容。
该步骤S301~S303的具体实现方式可参照上述实施例,此处不再赘述。
步骤S304:针对任一第二审核内容,若所述第二审核内容对应多个Tag,则将所述第二审核内容对应的多个Tag进行合并,对合并后的第二审核内容进行调整,得到待审核文档。
上述Tag是文档中的标签,起标示的作用,在对文档中的内容进行调整时,内容需要在同一个Tag中;基于此,本实施例在对第二审核内容进行调整之前,先确定第二审核内容是否对应的多个Tag,如果第二审核内容对应多个Tag,需要将第二审核内容对应的多个Tag进行合并,再对合并后的第二审核内容进行调整;如果第二审核内容对应一个Tag,直接对第二审核内容进行调整。
示例性的,审核点3对应的第二审核内容为:
Figure BDA0004064839630000111
此时,第二审核内容对应了三个不同的Tag,需要将其进行合并处理,处理后如下:
Figure BDA0004064839630000112
本申请实施例提供第三种文档转换方法,应用于电子设备,如图4所示,包括以下步骤:
步骤S401:在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息。
其中,所述审核结果包括各审核点的审核内容以及位置信息。
步骤S402:针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档。
步骤S403:在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
步骤S404:响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
本实施例,上述待审核文档为所需格式且体现出所需审核的审核内容的文档,相关人员基于待审核文档可以方便地进行审核,并在需要对审核内容进行修改时,触发上述修改指令,电子设备基于该修改指令对原文档(没有转化格式的文档)进行修改,从而得到审核修改后的目标文档。
文档的转化过程可参阅图5所示:
基于修改指令在原文档的基础上进行修改,得到目标文档。
一些可选的实施方式中,上述步骤S404可通过但不限于如下方式实现:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
示例性的,上述修改指令包含有各审核点是否修改的修改信息,以及表征修改的审核点的目标修改内容;
如果审核点的修改信息表征修改,将该审核点对应的第一审核内容替换为对应的目标修改内容;如果审核点的修改信息表征不修改,保留该审核点对应的第一审核内容。
一些可选的实施方式中,在生成所述审核结果中各审核点的标识信息之后,还包括:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
对所述原文档进行修改,得到目标文档之前,还包括:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
参阅图6所示,一些实施例中,可通过在审核结果R中添加标识信息,得到第一修改审核结果R',后续可根据R'获取标识信息,并确定第二审核内容;
上述修改指令是针对于审核点的修改指令,一些实施例中,可在上述R'的基础上添加各审核点的修改信息,以及表征修改的审核点对应的目标修改内容,得到第二修改审核结果R”,后续可基于R”查找第一审核内容以及对应修改内容。
下面以一个具体的示例进行说明:
一、确定原文档的审核结果
原文档A为:
Figure BDA0004064839630000131
对原文档A进行智能审核后,确定原文档A存在以下错误:
1.第一行中的“非流动付债”中的付字出现了错别字错误,应为“负”;
2.第二行中的53000.00万元出现了格式错误,应采用千分位计数法,为53,000.00万元;
3.下面表格中2020年年末余额总计出现了一致性错误,上面提到这个数应为54,000.00,表格中却为55,000.00。
基于此信息,获取的审核结果R如下所示(审核结果R是一组审核点的审核信息ri列表):
Figure BDA0004064839630000132
Figure BDA0004064839630000141
其中,上述block_index为段落索引(如在文档中的第几段),block_type为段落类型(如包含文字段落-PARA、表格-TABLE,图片-IMAGE),row_index为行索引(针对非表格段落,row_index为默认值-1)、col_index为列索引(针对非表格段落,col_index为默认值-1)、err_index为内容在段落中的索引起始值(如从对应段落中的第几个字符开始)、error为需要修改的内容。
二、生成各审核点的标识信息,并对原文档进行标记
对R中每个审核点进行遍历,并通过nanoid生成审核点的唯一标识,将此标识添加到ri中,得到ri',并将R进行更新,得到R',此时R'如下所示:
Figure BDA0004064839630000142
Figure BDA0004064839630000151
在原文档中的各第一审核内容的起始位置添加起始标识信息[%标识%],终止位置添加终止标识信息[$标识$],得到标记文档Al
Figure BDA0004064839630000152
三、文档转换
将经过标记的文档Al转换为目标格式的转换的文档B',本例中是将word文档转换为html文档,可使用win32工具包完成转换工作,文档B'如下所示:
Figure BDA0004064839630000161
四、确定待审核文档
对文档B'中各第二审核内容进行调整,示例性的,将“[%SDhCSnk350%]付债[$SDhCSnk350$]”中的起始标识信息以及终止标识信息去除,并将“负债”标为背景黄色,采用同样的方式对另外两个审核点的第二审核内容进行调整,得到待审核文档B,如下所示:
Figure BDA0004064839630000171
五、确定修改指令
获取原文档A和人工审核后的修改内容,如上所述,在一些可选的实施方式中,可将修改内容添加在修改信息R”中,其中,R”由R'更新得到,可包含各审核点的修改信息,以及表征修改的审核点对应的目标修改内容,R”如下所示:
Figure BDA0004064839630000172
Figure BDA0004064839630000181
上述correct_state是修改信息,correct_state为1时表征修改,correct_state为0时表征不修改,correct_info是表征修改的审核点对应的目标修改内容。
六、确定目标文档
如果审核点的修改信息表征修改,将该审核点对应的第一审核内容替换为对应的目标修改内容;如果审核点的修改信息表征不修改,保留该审核点对应的第一审核内容,得到目标文档C,如下所示:
Figure BDA0004064839630000191
上述示例只是为了更加清楚地说明文档的转换过程,本申请并不以此为限。
实施中,对上述文档进行审核的相关人员可能有多个,本实施例可通过多种转化方式对原文档分别进行转化,相关人员可并行审核文档。
基于相同的发明构思,本申请实施例提供一种文档转换装置,参阅图7所示,文档转换装置700包括:
标识生成模块701,用于在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;
内容标记模块702,用于针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
文档转化模块703,用于在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
一些可选的实施方式中,还包括修改模块704,用于:
在所述文档转化模块得到待审核文档之后,响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
一些可选的实施方式中,所述修改模块704具体用于:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
一些可选的实施方式中,所述标识生成模块701在生成所述审核结果中各审核点的标识信息之后,还用于:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
所述修改模块704在对所述原文档进行修改,得到目标文档之前,还用于:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
一些可选的实施方式中,所述标识信息包括起始标识信息以及终止标识信息;所述标识生成模块701具体用于:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
一些可选的实施方式中,所述内容标记模块702具体用于:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
一些可选的实施方式中,所述文档转化模块703在对各第二审核内容进行调整之前,还用于:
针对任一第二审核内容,若所述第二审核内容对应多个Tag,则将所述第二审核内容对应的多个Tag进行合并。
一些可选的实施方式中,所述文档转化模块703具体用于:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
一些可选的实施方式中,所述审核结果还包括各审核点的审核类型;所述内容标记模块702具体用于:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
由于该装置即是本申请实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
基于相同的技术构思,本申请实施例还提供了一种电子设备800,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线803连接为例。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,处理器801是电子设备的控制中心,可以利用各种接口和线路连接电子设备的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而实现数据处理。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理下发指令。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合文档转换方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
在本申请实施例中,存储器802存储有计算机程序,当该程序被处理器801执行时,使得处理器801执行:
在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;
针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
一些可选的实施方式中,在得到待审核文档之后,处理器801还执行:
响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
一些可选的实施方式中,处理器801具体执行:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
一些可选的实施方式中,在生成所述审核结果中各审核点的标识信息之后,处理器801还执行:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
对所述原文档进行修改,得到目标文档之前,处理器801还执行:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
一些可选的实施方式中,所述标识信息包括起始标识信息以及终止标识信息;处理器801具体执行:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
一些可选的实施方式中,处理器801具体执行:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
一些可选的实施方式中,在对各第二审核内容进行调整之前,处理器801还执行:
针对任一第二审核内容,若所述第二审核内容对应多个Tag,则将所述第二审核内容对应的多个Tag进行合并。
一些可选的实施方式中,处理器801具体执行:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
由于该电子设备即是本申请实施例中的方法中的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。
一些可选的实施方式中,所述审核结果还包括各审核点的审核类型;处理器801具体执行:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述文档转换方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文档转换方法,其特征在于,该方法包括:
在收到原文档的审核结果后,生成所述审核结果中各审核点的标识信息;其中,所述审核结果包括各审核点的审核内容以及位置信息;
针对任一审核点,基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,并将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,得到标记文档;
在将所述标记文档进行格式转换后,基于所述标识信息确定在转换的文档中的第二审核内容,并对各第二审核内容进行调整,得到待审核文档。
2.根据权利要求1所述的方法,其特征在于,在得到待审核文档之后,还包括:
响应于针对各审核点的修改指令,对所述原文档进行修改,得到目标文档。
3.根据权利要求2所述的方法,其特征在于,响应于针对各审核点的修改指令,对所述原文档进行修改,包括:
针对任一审核点,确定所述修改指令中所述审核点的修改信息;其中,所述修改信息表征修改或不修改;
若所述审核点的修改信息表征修改,则将所述审核点对应的第一审核内容替换为所述修改指令中所述审核点的目标修改内容。
4.根据权利要求3所述的方法,其特征在于,在生成所述审核结果中各审核点的标识信息之后,还包括:
将各审核点的标识信息添加到所述审核结果中,得到第一修改审核结果;
对所述原文档进行修改,得到目标文档之前,还包括:
在所述第一修改审核结果中添加所述修改指令中所有审核点的修改信息以及表征修改的审核点的目标修改内容,得到第二修改审核结果。
5.根据权利要求1所述的方法,其特征在于,所述标识信息包括起始标识信息以及终止标识信息;生成所述审核结果中各审核点的标识信息,包括:
基于所述原文档的所有内容,生成各审核点的标识;其中,所述原文档中不包含任一审核点的标识,且不同审核点之间的标识不同;
针对任一审核点,基于所述审核点的标识与预设起始信息,生成所述审核点的起始标识信息;以及基于所述审核点的标识与预设终止信息,生成所述审核点的终止标识信息。
6.根据权利要求5所述的方法,其特征在于,将所述审核点的标识信息添加到所述审核点对应的第一审核内容中,包括:
将所述审核点的起始标识信息添加到所述审核点对应的第一审核内容的起始位置;以及,将所述审核点的终止标识信息添加到所述审核点对应的第一审核内容的终止位置。
7.根据权利要求1所述的方法,其特征在于,在对各第二审核内容进行调整之前,还包括:
针对任一第二审核内容,若所述第二审核内容对应多个标签,则将所述第二审核内容对应的多个标签进行合并。
8.根据权利要求1所述的方法,其特征在于,对各第二审核内容进行调整,得到待审核文档,包括:
针对任一第二审核内容,去除所述第二审核内容中的标识信息,得到目标审核内容;
通过预设调整方式对所述目标审核内容进行调整,得到所述待审核文档。
9.根据权利要求1~8任一所述的方法,其特征在于,所述审核结果还包括各审核点的审核类型;基于所述审核点的审核内容以及位置信息,确定所述审核点对应的所述原文档中的第一审核内容,包括:
基于所述审核点的审核类型以及位置信息,确定在所述原文档中所述审核点对应的起始位置;
基于所述审核点的审核内容以及所述审核点对应的起始位置,确定所述审核点对应的所述原文档中的第一审核内容。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如权利要求1至9任一所述的方法。
CN202310071182.0A 2023-01-16 2023-01-16 一种文档转换方法及电子设备 Pending CN115983208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310071182.0A CN115983208A (zh) 2023-01-16 2023-01-16 一种文档转换方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310071182.0A CN115983208A (zh) 2023-01-16 2023-01-16 一种文档转换方法及电子设备

Publications (1)

Publication Number Publication Date
CN115983208A true CN115983208A (zh) 2023-04-18

Family

ID=85964904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310071182.0A Pending CN115983208A (zh) 2023-01-16 2023-01-16 一种文档转换方法及电子设备

Country Status (1)

Country Link
CN (1) CN115983208A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719540A (zh) * 2023-04-25 2023-09-08 广州汽车集团股份有限公司 评审文档更新方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719540A (zh) * 2023-04-25 2023-09-08 广州汽车集团股份有限公司 评审文档更新方法、装置、设备及计算机可读存储介质
CN116719540B (zh) * 2023-04-25 2024-03-12 广州汽车集团股份有限公司 评审文档更新方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11182544B2 (en) User interface for contextual document recognition
US9218325B2 (en) Quick font match
CN112329419A (zh) 文档编辑方法、装置、服务器、终端和存储介质
CN111159982A (zh) 文档编辑方法、装置、电子设备及计算机可读存储介质
CN115983208A (zh) 一种文档转换方法及电子设备
CN111796907A (zh) 基于检核脚本的数据检核方法、装置、电子设备以及介质
US20090204889A1 (en) Adaptive sampling of web pages for extraction
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
CN116029080A (zh) 芯片存储装置设计及验证方法、装置及电子设备
CN116302079B (zh) 一种业务数据处理方法、装置、电子设备及存储介质
CN111984674A (zh) 结构化查询语言的生成方法及系统
CN111898759A (zh) 知识库更新方法、装置、电子设备及可读存储介质
CN110544467A (zh) 语音数据的审核方法、装置、设备及存储介质
CN110688823A (zh) Xml文件验证方法及装置
CN116204692A (zh) 网页数据提取方法、装置、电子设备及存储介质
US8719693B2 (en) Method for storing localized XML document values
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
CN113283233A (zh) 文本纠错方法、装置、电子设备和存储介质
CN113434734A (zh) 一种生成文件、读取文件的方法、装置、设备及存储介质
CN113434748A (zh) 基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质
CN112685013A (zh) 基于前端vue项目的CSS代码优化方法及相关设备
CN110378599A (zh) 事故预防质量的评级方法、系统、设备及计算机存储介质
CN111882310B (zh) 一种数据对比方法、装置、设备及计算机可读存储介质
CN113360491B (zh) 数据质量检验方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination