CN115759032A - 文档比对结果的优化方法、装置、设备以及存储介质 - Google Patents

文档比对结果的优化方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115759032A
CN115759032A CN202211449782.8A CN202211449782A CN115759032A CN 115759032 A CN115759032 A CN 115759032A CN 202211449782 A CN202211449782 A CN 202211449782A CN 115759032 A CN115759032 A CN 115759032A
Authority
CN
China
Prior art keywords
target
document
initial
comparison result
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211449782.8A
Other languages
English (en)
Inventor
林守彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211449782.8A priority Critical patent/CN115759032A/zh
Publication of CN115759032A publication Critical patent/CN115759032A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文档比对结果的优化方法、装置、设备以及存储介质,文档比对结果的优化方法包括:获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。上述方案,能够提高文档比对结果的准确度。

Description

文档比对结果的优化方法、装置、设备以及存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文档比对结果的优化方法、装置、设备以及存储介质。
背景技术
随着信息化程度不断提高,企业中文档类交付物越来越多,这将消耗大量的人力物力对其进行审查。现有技术中通常是人工查阅不同修改版本的文档,查找不同,再做出相应决策。然而,这需要人工全面阅读不同修改版本的文档,找到不同版本之间的差异之后,查阅差异项的过程中的阅读感也不佳。
发明内容
本申请至少提供一种文档比对结果的优化方法、装置、设备以及存储介质。
本申请第一方面提供了一种文档比对结果的优化方法,包括:获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。
其中,语义比对结果包括语义相似度,基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,包括:分别获取各目标片段中的每个字符与各预设标签之间的语义相似度;基于各语义相似度,从目标片段中确定目标差异项。
其中,基于各语义相似度,从目标片段中确定目标差异项,包括:对于每一预设标签,从每一目标片段中确定首个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的首字符,以及从每一目标片段中确定尾个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的尾字符;每一目标片段中,将首字符、尾字符以及首字符和尾字符之间的字符作为预设标签对应的候选目标差异项;将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项。
其中,在将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项之后,方法还包括:判断各目标差异项中每一字符与预设标签是否均大于预设语义相似度;响应于目标差异项中存在与预设标签的语义相似度小于预设语义相似度的目标字符,将与目标字符相邻且朝向目标差异项中的初始差异项一侧的字符作为新的首字符或尾字符。
其中,在基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项之前,方法还包括:接收用户从若干标签中选择预设标签的选择指令,标签与文档的使用场景相关;响应于选择指令,将被选择的标签作为预设标签。
其中,在获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果之后,方法还包括:显示初始比对结果以及优化比对结果,初始比对结果中还包括初始差异项的数量和/或各初始差异项在目标文档中的位置,优化比对结果包括目标差异项的数量和/或各目标差异项在目标文档中的位置。
其中,获取第一文档和第二文档的初始比对结果,包括:获取版式资源和对比资源,版式资源包括待比对的版式信息,比对资源包括各待比对的版式信息对应的比对方式;基于版式信息对第一文档和第二文档进行版式分类,得到各版式信息对应的文本内容;利用各版式信息对应的比对方式,分别对各版式信息对应的文本内容进行比对,得到各版式信息对应的初始差异项;基于各版式信息对应的初始差异项,得到第一文档和第二文档的初始比对结果。
本申请第二方面提供了一种文档比对结果的优化装置,包括:获取模块,用于获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;处理模块,用于确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;目标差异项确定模块,用于基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;结果获取模块,用于获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。
本申请第三方面提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述文档比对结果的优化方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述文档比对结果的优化方法。
上述方案,通过获取第一文档和第二文档的初始比对结果之后,再利用各初始差异项所处的目标片段与预设标签之间的语义比对结果,确定目标差异项,并且每个目标差异项中包括至少一个初始差异项,在保留原有差异项结果基础上,实现了对初始差异项进行整合的效果,实现了对初始比对结果的优化,方便用户查阅。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请文档比对结果的优化方法一实施例的流程示意图;
图2是本申请文档比对结果的优化方法一实施例示出步骤S13的子流程示意图;
图3是本申请文档比对结果的优化方法一实施例示出比对模型的工作流程示意图;
图4是本申请文档比对结果的优化方法一实施例示出显示方式的示意图;
图5是本申请文档比对结果的优化装置一实施例的结构示意图;
图6是本申请电子设备一实施例的结构示意图;
图7是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
请参阅图1,图1是本申请文档比对结果的优化方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项。
其中,获取第一文档和第二文档的初始比对结果的方式可以是经过其他设备传输到具有本设备而获得,还可以是获取由本设备对第一文档和第二文档进行文档比对得到。其中本设备是指能够执行本公开实施例所述的文档比对结果的优化方法的设备。
初始差异项为第一文档和第二文档之间的区别项。例如,第一文档的内容为“一万两千五百元”,第二文档的内容为“一万两千六百元”,则第一文档和第二文档的差异项为第5位数字。
步骤S12:确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档。
目标片段可以是初始差异项所在自然段、还可以是初始差异项所处行或初始差异项所处行及其前后预设数量行,或者还可以是初始差异项前后几个字符等。示例性地,预设数量可以是1行及以上。
一些应用场景中,目标文档为第一文档。一些应用场景中,目标文档为第二文档。示例性地,第一文档为模板文档,第二文档为待确认文档,则目标文档可以是待确认的文档,或者目标文档可以是模板文档,关于目标文档是第一文档还是第二文档,此处不作具体规定。
步骤S13:基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项。
各目标片段与若干预设标签的语义比对结果可以是由每一目标片段分别与各预设标签进行语义比对得到。其中,预设标签可以是任意场景下需要被定义的标签,示例性地,预设标签可以是时间、地址、金额、日期、电话号码、身份证号等。根据不同的场景,预设标签还可以是书籍名称、电影名称、家具名称等等,关于预设标签的具体类型此处不作具体规定。
与预设标签的对应的目标差异项可以是目标差异项属于预设标签,示例性地,第一文档的部分内容为“此处为A市B区C街道”,第二文档的部分内容为“此处为A市D区C街道”,目标文档为第一文档,目标片段为“此处为A市B区C街道”,预设标签为地址,初始差异项为第6位字符“B”,则目标差异项可以是A市B区C街道。
步骤S14:获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。
可选地,可以将目标差异项的集合作为第一文档和第二文档之间的优化比对结果,也可以是根据目标差异项在目标片段中位置,进一步得到各目标差异项在目标文档中的位置,然后将目标差异项的集合以及各目标差异项在文档中的位置,作为第一文档和第二文档之间的优化比对结果。当然,在其他实施例中,也可以是根据用户的需求确定具体如何获取优化比对结果。
上述方案,通过获取第一文档和第二文档的初始比对结果之后,再利用各初始差异项所处的目标片段与预设标签之间的语义比对结果,确定目标差异项,并且每个目标差异项中包括至少一个初始差异项,在保留原有差异项结果基础上,实现了对初始差异项进行整合的效果,实现了对初始比对结果的优化,方便用户查阅。
一些公开实施例中,语义比对结果包括语义相似度。请参见图2,图2是本申请文档比对结果的优化方法一实施例示出步骤S13的子流程示意图。如图2所示,上述步骤S13可以包括以下步骤:
步骤S131:分别获取各目标片段中的每个字符与各预设标签之间的语义相似度。
其中,分别获取各目标片段中的每个字符与各预设标签之间的语义相似度的方式可以是:分别对每个字符进行编码以及分别对各预设标签进行编码,然后将各字符的编码分别与各预设标签的编码作内积得到字符与各预设标签之间的语义相似度。进行编码的方式可以是对字符的内容以及字符在目标片段中的位置进行编码。当然,这里的语义相似度的计算方式仅为一种举例,其他实施例中计算语义相似度的方式还可以是通过将各字符与各预设标签进行聚类,通过聚类结果中各字符与预设标签之间的距离确定相似度的方式也可行,还有一些实施例中除了聚类的方式以外其他任意能够计算二者相似度的方式均可,此处不做具体限定。
步骤S132:基于各语义相似度,从目标片段中确定目标差异项。
其中,基于各语义相似度,从目标片段中确定目标差异项的方式可以是:对于每一预设标签,从每一目标片段中确定首个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的首字符。以及,从每一目标片段中确定尾个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的尾字符。每一目标片段中,将首字符、尾字符以及首字符和尾字符之间的字符作为预设标签对应的候选目标差异项。然后,将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项。
示例性地,目标片段中一共包括10个字符,预设标签为a,该10个字符与预设标签a之间的相似度分别为0.3、0.5、0.8、0.4、0.8、0.9、0.7、0.6、0.5、0.4。若预设语义相似度为0.6,则该目标片段中首个与预设标签a的语义相似度大于或等于预设语义相似度的字符为从左至右第3个字符,尾个与预设标签a的语义相似度大于或等于预设语义相似度的字符为从左至右第8个字符,则首字符和尾字符之间的字符为第3个字符至该第8个字符之间的字符,候选目标差异项为第3个字符至第8个字符。其中,若初始差异项处于第3个字符至第8个字符之间,则该候选差异项为与预设标签a对应的目标差异项。若初始差异项不处于第3个字符至第8个字符之间,则该候选差异项不为与预设标签a对应的目标差异项。
其中,在将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项之后,还可执行以下步骤:判断各目标差异项中每一字符与预设标签是否均大于预设语义相似度。响应于目标差异项中存在与预设标签的语义相似度小于预设语义相似度的目标字符,将与目标字符相邻且朝向目标差异项中的初始差异项一侧的字符作为新的首字符或尾字符。
继上例,目标片段中一共包括10个字符,预设标签为a,该10个字符与预设标签a之间的相似度分别为0.3、0.5、0.8、0.4、0.8、0.9、0.7、0.6、0.5、0.4。预设语义相似度为0.6,若初始差异项处于第6个字符,则第3个字符至第8个字符为与预设标签a对应的目标差异项。经判断目标差异像中的第2个字符与预设标签a之间的相似度为0.4,则将该字符确定为目标字符,并且将与该字符相邻且朝向初始差异项的字符作为目标差异项的新首字符,则目前新首字符对应原目标片段中的第5个字符,即新目标差异项为原目标片段中第5位字符至第8位字符之间的字符。这里举例的是将与目标字符相邻且朝向目标差异项中的初始差异项一侧的字符作为新的首字符的示例,作为新的尾字符的示例同理,此处不再赘述。
一些公开实施例中,还可通过其他的方式对目标差异项进行筛选,示例性地,通过获取相邻字符之间的相似度的方式,确定相邻字符是否属于同一预设标签。或相似度大于或等于预先设定的相似度,则可以认为相邻字符属于同一预设标签,若相邻字符之间的相似度小于预先设定的相似度,则认为相邻字符不属于同一预设标签,此处预先设定的相似度可以是预设语义相似度,或者还可以根据需求自行设定。另外,一些实施例中,还可通过其他方式对目标差异项进行过滤,示例性地,预设标签为手机号码标签,一般手机号码为11位,若检测到的目标差异项只有2位,很明显该号码并非属于手机号码标签,故可以直接将该目标差异项丢弃。可选地,虽然该目标差异项并非与预设标签对应,但是其仍然包括初始差异项,则可以通过打标签或者其他形式在最终的优化比对结果中显示该初始差异项,以便用户查看。另一些实施例中,可以直接将目标差异项丢弃,不体现在优化比对结果中。
其中,在执行上述步骤S13之前,方法还包括:接收用户从若干标签中选择预设标签的选择指令。其中,标签与文档的使用场景相关。响应于选择指令,将被选择的标签作为预设标签。
示例性地,标签可以包括时间、地址、金额、日期、电话号码、身份证号等。用户可以从中选择一个或多个标签作为预设标签。示例性地,用户可以选择金额、日期作为预设标签。标签与文档的使用场景相关,具体可以是若场景一关注文档中的金额,则可以将金额设置为标签,若场景二关注文档中的地址,则可以将地址设置为标签。
一些公开实施例中,上述步骤S13可以由比对模型执行。为更好地理解比对模型的工作过程,请参见图3,图3是本申请文档比对结果的优化方法一实施例示出比对模型的工作流程示意图。如图3所示,比对模型的输入可以是包括预设标签以及目标片段。比对模型先分别对预设标签以及目标片段中的字符进行编码,然后将编码后的预设标签以及目标片段中的各字符做内积,得到各字符分别与各预设标签之间的语义相似度。图3中目标片段×预设标签N指的是目标片段中各字符与预设标签N做内积。然后基于各语义相似度,确定目标差异项的首字符、尾字符以及首字符和尾字符中间的字符,输出目标差异项。
其中,本公开实施例提供的文档比对结果的优化方法还可包括比对模型的训练步骤。训练步骤包括定义标签,具体可根据所在场景确定,例如,标签可以是时间、地址、金额、日期、电话号码以及身份证号等等。然后收集相关数据进行模型训练。训练任务包括输入文本内容需要从文本中抽取对应标签的相关片段。模型主要有三个训练目标,分别是答案的开始、结束以及中间序列。答案指的是提取得到的相关片段。另一些实施例中,模型训练的目标也可以是答案,换言之模型可以直接输出包含答案的开始、结束以及中间序列的相关片段。得到这三个训练目标之后可以通过后处理得到最终的答案,后处理包括答案首尾配对、去除坏答案等方式对答案进行过滤,更新答案的开始或结束等。具体过滤方式可参考上述对目标差异项的更新方式,此处不再赘述。
一些公开实施例中,在执行上述步骤S14之后,还可执行以下步骤:显示初始比对结果以及优化比对结果。初始比对结果中还包括初始差异项的数量和/或各初始差异项在目标文档中的位置。优化比对结果包括目标差异项的数量和/或各目标差异项在目标文档中的位置。
一些应用场景中,显示初始比对结果和优化比对结果的方式可以是显示初始比对结果和优化比对结果中的部分或全部内容。显示全部内容可以是显示对应的差异项(目标差异项或初始差异项)、对应差异项的数量以及对应差异项在目标文档中的位置。显示部分可以是只显示对应的差异项以及对应的数量,不显示对应差异项在目标文档中的位置,或仅显示对应的差异项以及差异项在目标文档中的位置,不显示差异项对应的数量等。
为更好地理解本公开实施例提出的显示初始比对结果和优化比对结果的方式,可参考图4,图4是本申请文档比对结果的优化方法一实施例示出显示方式的示意图。如图4所示,显示的表格中第一列显示基准文档(可以是第一文档)和比对文档(可以是第二文档),第二列显示初始比对结果中包含的初始差异项,第三列显示初始比对结果中包含的初始差异项的数量,第四列显示优化比对结果中包含的目标差异项,第五列显示优化比对结果中包含的目标差异项的数量。以基准文档为:2022年6月12日,比对文档为2022年4月25日,初始比对结果中具体提示了初始差异项包括第6位字符以及连续的第8和第9位字符,一共包括两个初始差异项,而优化比对结果中显示了目标差异项为第一个字符至最后一个字符,即目标差异项为2022年4月25日,该优化比对结果中包含的目标差异项的数量为1个。
其中,获取第一文档和第二文档的初始比对结果的方式可以是:获取版式资源和对比资源。版式资源包括待比对的版式信息,比对资源包括各待比对的版式信息对应的比对方式。然后,基于版式信息对第一文档和第二文档进行版式分类,得到各版式信息对应的文本内容。接着,利用各版式信息对应的比对方式,分别对各版式信息对应的文本内容进行比对,得到各版式信息对应的初始差异项。最后,基于各版式信息对应的初始差异项,得到第一文档和第二文档的初始比对结果。
其中,不同厂家的资源(版式资源和对比资源)不同,可以通过获取用户输入的资源标识,获取与该资源标识对应的版式资源和对比资源。基于版式信息对第一文档和第二文档进行版式分类可以是进行正文抽取、封面抽取、页眉抽取、页脚抽取、目录抽取、表格抽取、印章抽取、手写体抽取等。换言之,版式包括文档的正文版式、封面版式、页眉版式等。利用各版式信息对应的比对方式,分别对各版式信息对应的文本内容进行比对,得到各版式信息对应的初始差异项具体可以是将两个文档的正文利用正文对应的对比方式进行对比得到正文部分的初始差异项,将页眉部分利用页眉对应的对比方式进行对比得到页眉部分的初始差异项等,其他版式同理,此处不做过多叙述。
其中,得到各版式对应的初始差异项之后,可以对各版式对应的初始差异项进行过滤。示例性地,可以根据用户的关注度进行过滤,用户的关注度可以预先输入,例如用户可以对版式进行选择,未被选择的版式的关注度低,可以将关注度低的版式对应的初始差异项丢弃。还可接收用户导入的过滤逻辑,根据用户导入的过滤逻辑进行过滤得到第一文档和第二文档的初始比对结果。
一些公开实施例中,在基于版式信息对第一文档和第二文档进行版式分类,得到各版式信息对应的文本内容之前,还可执行以下步骤:
需要进行文档比对的数据一般为包含段落或者表格的word、pdf或者图片。因为可以对输入的基准文档和比对文档进行ocr识别,将输入数据进行结构化处理,方便进行后续的比对。为了防止解析文件时数据不完整,所有格式的输入数据都可以进行不同的操作将其转换为图片,然后再进行ocr识别。
然后将两篇文档进行ocr识别得到的识别内容分别进行拼接,然后检测水印位置以及水印框中每个字符被水印覆盖的比例,基于该比例对被水印覆盖的字符进行规整,得到能够进行比对的格式。
一些应用场景中,文档比对结果可以是由文档比对系统执行,该文档比对系统集成语义颗粒度抽取能力,将初始差异项所在行文本内容送入语义颗粒度抽取能力,识别其中的语义颗粒度信息,语义颗粒度信息包括语义颗粒度实体及所其处于行的具体位置信息,也就是能够识别各字符的具体内容以及各字符在所处行中的具体位置,以此能够通过与预设标签进行语义相似度的计算,得到对应的目标差异项。
另外,本方案通过规整初始差异项,优化比对结果增加语义颗粒度信息(目标差异项以及目标差异项的数量等),方便用户查看。充分考虑差异项语义颗粒度信息,对差异结果进行规整融合。在保留初始对比结果的基础上,系统新增语义层面的文档对比结果,以供用户根据自己场景进行对比模式选择,提升用户对系统使用的满意度。
另外,本方案通过在获取到初始结果之后,再使用预设标签对初始比对结果进行优化,相对于在两篇文档首次进行对比时就加入预设标签获取初始比对结果的方式而言,本方案的计算量较小,且比对速度较快。
其中,文档比对结果的优化方法的执行主体可以是文档比对结果的优化装置,例如,文档比对结果的优化方法可以由终端设备或服务器或其它处理设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、电脑、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文档比对结果的优化方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
请参阅图5,图5是本申请文档比对结果的优化装置一实施例的结构示意图。文档比对结果的优化装置20包括获取模块21、处理模块22、目标差异项确定模块23以及结果获取模块24。获取模块21,用于获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;处理模块22,用于确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;目标差异项确定模块23,用于基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;结果获取模块24,用于获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。
上述方案,通过获取第一文档和第二文档的初始比对结果之后,再利用各初始差异项所处的目标片段与预设标签之间的语义比对结果,确定目标差异项,并且每个目标差异项中包括至少一个初始差异项,在保留原有差异项结果基础上,实现了对初始差异项进行整合的效果,实现了对初始比对结果的优化。
其中,各个模块的功能可参见文档比对结果的优化方法实施例所述,此处不再赘述。
请参阅图6,图6是本申请电子设备一实施例的结构示意图。电子设备30包括存储器31和处理器32,处理器32用于执行存储器31中存储的程序指令,以实现上述任一文档比对结果的优化方法实施例中的步骤。在一个具体的实施场景中,电子设备30可以包括但不限于:微型计算机、服务器,此外,电子设备30还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器32用于控制其自身以及存储器31以实现上述任一文档比对结果的优化方法实施例中的步骤。处理器32还可以称为CPU(Central Processing Unit,中央处理单元)。处理器32可能是一种集成电路芯片,具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器32可以由集成电路芯片共同实现。
上述方案,通过获取第一文档和第二文档的初始比对结果之后,再利用各初始差异项所处的目标片段与预设标签之间的语义比对结果,确定目标差异项,并且每个目标差异项中包括至少一个初始差异项,在保留原有差异项结果基础上,实现了对初始差异项进行整合的效果,实现了对初始比对结果的优化。
请参阅图7,图7是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质40存储有能够被处理器运行的程序指令41,程序指令41用于实现上述任一文档比对结果的优化方法实施例中的步骤。
上述方案,通过获取第一文档和第二文档的初始比对结果之后,再利用各初始差异项所处的目标片段与预设标签之间的语义比对结果,确定目标差异项,并且每个目标差异项中包括至少一个初始差异项,在保留原有差异项结果基础上,实现了对初始差异项进行整合的效果,实现了对初始比对结果的优化。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种文档比对结果的优化方法,其特征在于,包括:
获取第一文档和第二文档的初始比对结果,所述初始比对结果中包括若干初始差异项;
确定各所述初始差异项在目标文档中所处的目标片段,目标文档为所述第一文档或所述第二文档;
基于各所述目标片段分别与若干预设标签的语义比对结果,从各所述目标片段中确定目标差异项,所述目标差异项与各所述预设标签对应且包含至少一个所述初始差异项;
获取各所述目标差异项的集合得到所述第一文档和所述第二文档之间的优化比对结果。
2.根据权利要求1所述的方法,其特征在于,所述语义比对结果包括语义相似度,所述基于各所述目标片段分别与若干预设标签的语义比对结果,从各所述目标片段中确定目标差异项,包括:
分别获取各所述目标片段中的每个字符与各所述预设标签之间的语义相似度;
基于各所述语义相似度,从所述目标片段中确定所述目标差异项。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述语义相似度,从所述目标片段中确定所述目标差异项,包括:
对于每一所述预设标签,从每一所述目标片段中确定首个与所述预设标签的语义相似度大于或等于预设语义相似度的字符,作为与所述预设标签对应的目标差异项的首字符,以及从每一所述目标片段中确定尾个与所述预设标签的语义相似度大于或等于所述预设语义相似度的字符,作为与所述预设标签对应的目标差异项的尾字符;
每一所述目标片段中,将所述首字符、所述尾字符以及所述首字符和所述尾字符之间的字符作为所述预设标签对应的候选目标差异项;
将包含所述初始差异项的候选目标差异项作为与所述预设标签对应的目标差异项。
4.根据权利要求3所述的方法,其特征在于,在所述将包含所述初始差异项的候选目标差异项作为与所述预设标签对应的目标差异项之后,所述方法还包括:
判断各所述目标差异项中每一字符与所述预设标签是否均大于所述预设语义相似度;
响应于所述目标差异项中存在与所述预设标签的语义相似度小于所述预设语义相似度的目标字符,将与所述目标字符相邻且朝向所述目标差异项中的初始差异项一侧的字符作为新的首字符或尾字符。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述基于各所述目标片段分别与若干预设标签的语义比对结果,从各所述目标片段中确定目标差异项之前,所述方法还包括:
接收用户从若干标签中选择预设标签的选择指令,所述标签与文档的使用场景相关;
响应于所述选择指令,将被选择的标签作为所述预设标签。
6.根据权利要求1-4任一项所述的方法,其特征在于,在所述获取各所述目标差异项的集合得到所述第一文档和所述第二文档之间的优化比对结果之后,所述方法还包括:
显示所述初始比对结果以及所述优化比对结果,所述初始比对结果中还包括所述初始差异项的数量和/或各所述初始差异项在所述目标文档中的位置,所述优化比对结果包括目标差异项的数量和/或各所述目标差异项在所述目标文档中的位置。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述获取第一文档和第二文档的初始比对结果,包括:
获取版式资源和对比资源,所述版式资源包括待比对的版式信息,所述比对资源包括各所述待比对的版式信息对应的比对方式;
基于所述版式信息对所述第一文档和所述第二文档进行版式分类,得到各版式信息对应的文本内容;
利用各所述版式信息对应的比对方式,分别对各所述版式信息对应的文本内容进行比对,得到各所述版式信息对应的初始差异项;
基于各所述版式信息对应的初始差异项,得到所述第一文档和所述第二文档的初始比对结果。
8.一种文档比对结果的优化装置,其特征在于,包括:
获取模块,用于获取第一文档和第二文档的初始比对结果,所述初始比对结果中包括若干初始差异项;
处理模块,用于确定各所述初始差异项在目标文档中所处的目标片段,目标文档为所述第一文档或所述第二文档;
目标差异项确定模块,用于基于各所述目标片段分别与若干预设标签的语义比对结果,从各所述目标片段中确定目标差异项,所述目标差异项与各所述预设标签对应且包含至少一个所述初始差异项;
结果获取模块,用于获取各所述目标差异项的集合得到所述第一文档和所述第二文档之间的优化比对结果。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至7任一项所述的方法。
CN202211449782.8A 2022-11-18 2022-11-18 文档比对结果的优化方法、装置、设备以及存储介质 Pending CN115759032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211449782.8A CN115759032A (zh) 2022-11-18 2022-11-18 文档比对结果的优化方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211449782.8A CN115759032A (zh) 2022-11-18 2022-11-18 文档比对结果的优化方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115759032A true CN115759032A (zh) 2023-03-07

Family

ID=85373676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211449782.8A Pending CN115759032A (zh) 2022-11-18 2022-11-18 文档比对结果的优化方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115759032A (zh)

Similar Documents

Publication Publication Date Title
CN107016387B (zh) 一种识别标签的方法及装置
US9384619B2 (en) Searching media content for objects specified using identifiers
US20080177764A1 (en) Document and/or Image Retrieval Method, Program Therefor, Document and/or Image Storage Apparatus, and Retrieval Apparatus
CN110633458A (zh) 裁判文书的生成方法和生成装置
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN111144370B (zh) 单据要素抽取方法、装置、设备及存储介质
CN111209827A (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
EP2023266A1 (en) Searching media content for objects specified using identifiers
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
CN112765965A (zh) 文本多标签分类方法、装置、设备和存储介质
CN111598099A (zh) 图像文本识别性能的测试方法、装置、测试设备及介质
US10216988B2 (en) Information processing device, information processing method, and computer program product
CN111178349A (zh) 一种图像识别方法、装置、设备及存储介质
CN111178365A (zh) 图片文字的识别方法、装置、电子设备及存储介质
CN115759032A (zh) 文档比对结果的优化方法、装置、设备以及存储介质
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
CN114997137A (zh) 一种文档信息抽取方法、装置、设备及可读存储介质
CN114373068A (zh) 一种行业场景化的ocr模型实现系统、方法及设备
CN114254138A (zh) 多媒体资源分类方法、装置、电子设备和存储介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN109492023B (zh) 一种汽车信息处理方法及其设备、计算机存储介质
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
CN115187996B (zh) 语义识别方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination