CN115937888A - 文档比对方法、装置、设备和介质 - Google Patents

文档比对方法、装置、设备和介质 Download PDF

Info

Publication number
CN115937888A
CN115937888A CN202211740633.7A CN202211740633A CN115937888A CN 115937888 A CN115937888 A CN 115937888A CN 202211740633 A CN202211740633 A CN 202211740633A CN 115937888 A CN115937888 A CN 115937888A
Authority
CN
China
Prior art keywords
document
compared
documents
text
comparison result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211740633.7A
Other languages
English (en)
Inventor
李良斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202211740633.7A priority Critical patent/CN115937888A/zh
Publication of CN115937888A publication Critical patent/CN115937888A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开实施例提供一种文档比对方法、装置、设备和介质。文档比对方法包括:响应于确定两个待比对文档,判断两个待对比文档的文档格式是否相同;在两个待对比文档的文档格式不同的情况下,对两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像;对两组拷屏图像分别进行文本识别,得到对应的第一识别文本;比对两组拷屏图像对应的第一识别文本得到第一文本比对结果,并将第一文本比对结果作为两个待比对文档的文档比对结果。采用本公开实施例方案,避免了采用文档格式转换器进行格式转换时引入的转换错误问题,继而避免了因为转换错误造成的文档比对结果与实际结果不同的问题。

Description

文档比对方法、装置、设备和介质
技术领域
本公开涉及软件测试领域,具体涉及一种文档比对方法、装置、设备和存储介质。
背景技术
各种应用软件在使用过程中,均会因为需求的变化和增加而进行软件升级。为了能够实现针对升级后的软件进行适应性的软件测试,测试人员需要确定软件升级改动是否和需求端提供的需求文档是否匹配。前述工作可以通过文档比对实现。
当前,文档比对多是由人工执行或者文档比对软件执行。在采用对比软件进行比对的情况下,如果两个文档的格式不同,首先需要采用文档格式转换器对其中一个比对文档进行格式转换,得到与另外一个比对文档格式相同的转换文档,再采用转换文档与另一比对文档进行内容比对。但是,由于文档格式转换器转换比对文档可能造成比对文档的内容变换而造成不小的偏差,造成采用转换文档进行内容比对得到的比对结果与实际结果并不相同的问题。在此情况下,仍然需要人工执行内容比对。
发明内容
为了解决上述技术问题,本公开实施例提供一种文档比对方法、装置、设备和介质。
第一方面,本公开实施例提供一种文档比对方法,包括:
响应于确定两个待比对文档,判断所述两个待对比文档的文档格式是否相同;
在所述两个待对比文档的文档格式不同的情况下,对所述两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像;
对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本;
比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果,并将所述第一文本比对结果作为所述两个待比对文档的文档比对结果。
可选的,所述对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本,包括:
采用光学字符识别技术分别处理所述两组拷屏图像,得到两组所述拷屏图像中包括的识别字符,以及所述识别字符在所述拷屏图像中的识别位置;
按照所述识别位置对所述识别字符进行拼接,得到对应的所述第一识别文本。
可选的,在比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果之后,所述方法还包括:
获取所述第一文本比对结果中的差异文本;
根据所述差异文本在一组所述拷屏图像中的识别位置进行差异标记,形成差异标记图并输出所述差异标记图。
可选的,在所述两个待对比文档的文档格式不同并且所述两个待比对文档均不是图片格式文档的情况下,所述方法还包括:
按照一个待比对文档的文档格式对另一待比对文档进行格式转换,得到转换文档;
将所述转换文档和所述一个待比对文档进行文本内容比对,得到第二文本比对结果;
所述将第一文本比对结果作为所述两个待比对文档的文档比对结果包括:
对所述第一文本比对结果和所述第二文本比对结果进行综合,将综合后的文本比对结果作为所述两个待比对文档的文档比对结果。
可选的,在所述比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果之前,所述方法还包括:
对两组所述拷屏图像进行图像相似度计算,确定两组所述拷屏图像的图像相似度;
在所述图像相似度大于预设相似度的情况下,执行所述比对比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果的操作。
可选的,所述对两组所述拷屏图像进行图像相似度计算,确定两组所述拷屏图像的图像相似度,包括:
采用预先训练的图像识别模型处理所述两组拷屏图像,得到所述两组拷屏图像中的文本对象检测框;
计算所述两组拷屏图像中文本对象检测框的灰度梯度向量;
采用所述灰度梯度向量进行所述文本对象检测框的相似度匹配,并根据匹配后的文本对象检测框的灰度梯度向量的差值确定两组所述拷屏图像的图像相似度。
可选的,所述确定两个待比对文档,包括:
响应于接收到用户上传的一个待比对文档,向所述用户显示文档版本查询界面,所述文档版本查询界面用于向用户展示待查询的文档版本;
响应于所述用户在文档版本查询界面中针对目标文档的选定操作,将所述目标文档作为另一待比对文档。
第二方面,本公开实施例提供一种文档比对装置,包括:
格式比对单元,用于响应于接收到两个待比对文档,判断所述两个待对比文档的文档格式是否相同;
拷屏单元,用于在所述两个待对比文档的文档格式不同的情况下,对所述两个待对比文档的渲染显示页面进行拷屏操,得到对应的两组拷屏图像;
文本识别单元,用于对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本;
文档比对单元,用于比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果,并将所述第一文本比对结果作为所述两个待比对文档的文档比对结果。
第三方面,本公开实施例提供一种计算设备,包括处理器和存储器,所述存储器用于存储计算机程序;所述计算机程序在被所述处理器加载时,使所述处理器执行如前所述的文档比对方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现如前所述的文档比对方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
采用本公开实施例提供的方案,在判定两个待比对文档的文档格式不同的情况下,通过对两个待比对文档的渲染显示页面进行拷屏操作,得到两组拷屏图像之后,在对拷屏图像进行文本识别,得到对应的第一识别文本。在得到两组拷屏图像对应的第一识别文本,并对两组拷屏图像对应的第一识别文本进行比对得到第一文本比对结果后,可以将第一文本比对结果作为两个待比对文档的文档比对结果。如此,无需采用文档格式转换器进行文档格式转换,就实现了两个待比对文档内容的比对并得到了文档比对结果,避免了采用文档格式转换器进行格式转换时引入的转换错误问题,继而避免了因为转换错误造成的文档比对结果与实际结果不同的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本公开实施例提供的文档比对方法流程图;
图2是本公开另外一个实施例提供的文档比对方法流程图;
图3是本公开一些实施例提供的文档比对方法流程图;
图4是本公开实施例提供的文档比对装置的结构示意图;
图5是本公开一些实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施例提供一种文档比对方法,响应于确定两个待比对文档的文档格式不同的情况下,通过拷屏处理的方法确定两个待比对文档的文档比对结果。
图1是本公开实施例提供的文档比对方法流程图。如图1所示,本公开实施例提供的文档比对方法包括S110-S150。
应当注意的是,本公开实施例提供的软件界面测试方法是由计算设备执行的。前述的计算设备可以是服务器,也可以是终端设备。在计算设备为终端设备的情况下,终端设备可以是智能手机、平板电脑等设备。
S110:响应于确定两个待比对文档,判断两个待对比文档的文档格式是否相同。若不同,执行S120;若相同,执行S150。
本公开实施例中,计算设备响应于确定两个待比对文档之后,可以读取两个待比对文档的头文件,获取两个待比对文档的文档格式字段。在获取到两个待比对文档的文档格式信息之后,随后计算设备可以比较两个待比对文档的文档格式字段,确定两个待比对文档的文档格式是否相同。
在具体实施例中,两个待比对文档的文档格式可以是诸如txt、pdf、doc、html、xml等各种可能的文档格式,还可能是诸如jpeg等图片格式的文档,本公开实施例并不做特别地限定。
S120:对两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像。
如果两个待比对文档的文档格式并不相同,采用现有的文档格式转换器对其中一个待比对文档进行文档格式转换可能造成文档内容变化,而造成后期的文档比对结果并不准确。
为了避免前述问题,本公开实施例中,计算设备并不会对待比对文档进行格式转换,而是对待比对文档进行渲染显示输出,并在渲染显示输出的过程中对对应的显示输出页面进行拷屏操作,得到对应待比对文档的拷屏图像。由于对待比对文档的渲染显示页面进行拷屏操作,可以确定对应各个待比对文档的拷屏图像中包括了此待比对文档正常渲染显示输出的所有信息。
S130:对两组拷屏图像分别进行文本识别,得到对应的第一识别文本。
计算设备在获取到两个待比对文档对应的拷屏图像后,会按照预先设定的内容处理方法对拷屏图像进行内容识别,进而得到对应的第一识别文本。第一识别文本是拷屏图像中各种图像形式的字符进行识别处理并拼接后得到的文本。
在一些实施例中,计算设备可以采用S131-S132分贝对两组拷屏图像进行文本识别,得到对应的第一识别文本。
S131:采用光学字符识别技术分别处理两组拷屏图像,得到两组拷屏图像中包括的识别字符,以及识别字符在拷屏图像中的识别位置。
采用光学字符识别技术对拷屏图像进行处理,得到拷屏图像中的包括的识别字符包括:(1)对拷屏图像进行预处理,得到处理后的拷屏图像。预处理包括二值化、噪声去除、去除白边,前述的噪声去除包括去除清理非字形框和线。(2)随后对处理后的拷屏图像进行分割,得到分割后的后的单文字图像。(3)将单文字图像进行特征提取,得到对应的特征向量;(4)将提取到的特征向量与特征模板库中的模板进行匹配,确定匹配的模板,并将与匹配模板关联的字符作为单文字图像对应的识别字符。应当注意的是,本公开实施例中,针对两组拷屏图像,计算设备采用相同的光学字符识别技术进行字符识别,得到对应的识别字符。
在采用前述方法得到识别字符的同时,计算设备同时获得了单文字图像在拷屏图像中的位置。在确定单文字图像对应的识别字符之后,此单文字图像在拷屏图像中的识别位置即可以作为识别字符在拷屏图像中的识别位置。
S132:按照识别位置对识别字符进行拼接,得到对应的第一识别文本。
在获取到识别字符和识别位置之后,随后计算设备可以按照识别位置对识别字符进行拼接,得到对应的第一识别文本。考虑在当前的文字书写体系下,各种字符具是按照从左到右、从上到下的方式进行书写和显示输出,因此计算设备可以按照从左到右、从上到下的方式按照识别位置对识别字符进行拼接,得到对应的第一识别文本。
S140:比对两组拷屏图像对应的第一识别文本得到第一文本比对结果,并基于第一文本比对结果确定两个待比对文档的文档比对结果。
在得到两个拷屏图像对应的第一识别文本之后,随后计算设备可以将两个拷屏图像对应的第一识别文本进行比对,确定第一文本比对结果。计算设备将两个拷屏图像对应的第一识别文本进行比对,是采用字符匹配的方法,以一个第一识别文本为基础,确定另外一个识别文本中的字符增加、修改和删除情况,继而得到第一文档比对结果。
在得到第一文本比对结果之后,随后计算设备可以将第一文本比对结果作为两个待比对文档的文档比对结果,并将文档比对结果输出。
S150:对两个待对比文档进行直接比对,得到文档比对结果。
如果两个第比对文档的文档格式相同,则确定两个无需进行格式转换即可以直接进行两个待比对文档的比对,得到文档比对结果。
采用本公开实施例提供的文档比对方法,在判定两个待比对文档的文档格式不同的情况下,通过对两个待比对文档的渲染显示页面进行拷屏操作,得到两组拷屏图像之后,在对拷屏图像进行文本识别,得到对应的第一识别文本。在得到两组拷屏图像对应的第一识别文本,并对两组拷屏图像对应的第一识别文本进行比对得到第一文本比对结果后,可以将第一文本比对结果作为两个待比对文档的文档比对结果。采用本公开实施例提供的方法,无需采用文档格式转换器进行文档格式转换,就实现了两个待比对文档内容的比对并得到了文档比对结果,避免了采用文档格式转换器进行格式转换时引入的转换错误问题,继而避免了因为转换错误造成的文档比对结果与实际结果不同的问题。
图2是本公开另外一个实施例提供的文档比对方法流程图。如图2所示,本公开一些实施例提供的文档比对方法包括S210-S260。
S210:响应于确定两个待比对文档,判断两个待对比文档的文档格式是否相同。若不同,执行S220;若相同,执行S260。
S220:在两个待对比文档的文档格式不同的情况下,对两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像。
S230:对两组拷屏图像分别进行文本识别,得到对应的第一识别文本。
S240:比对两组拷屏图像对应的第一识别文本得到第一文本比对结果,并获取第一文本比对结果中的差异文本。
其中S210-S240的具体执行过程如前文实施例相同,此处不再复述,具体可以参见前文表述。
在确定第一文本比对结果之后,随后计算设备会查询第一文本比对结果中的差异文本。差异文本是第一文本比对结果中表征两个第一识别文本差异的文本。具体实施中,第一文本对比结果中的差异文本会采用特殊字符标识,通过查找前述的特殊字符即可以确定差异文本。
S250:根据差异文本在一组拷屏图像中的识别位置进行差异标记,形成差异标记图并将差异标记图作为文档比对结果输出。
S260:对两个待对比文档进行直接比对,得到文档比对结果。
在确定差异文本之后,随后计算设备可以确定差异文本在一组拷屏图像中的识别位置。具体的计算设备可以通过差异文本查找对应的单文字图像,随后将对应的单文字图像对应的位置作为差异文本在拷屏图像中的识别位置。在确定识别位置后,随后计算设备可以采识别位置处进行差异标记,前述差异标记可以是在差异文本对应的识别位置处添加诸如三角符号、圆环符号等。在添加差异标记后,相应的拷屏图像也就形成差异标记图。随后计算设备可以将差异标记图作为文档比对结果输出。
通经将差异标记图作为文档比对结果输出,可以使得文档比对人员根据差异图快速地确定两个待比对文档的差异之处,继而能够快速地查找原始的待比对文档中的差异内容。
图3是本公开一些实施例提供的文档比对方法流程图。如图3所示,本公开一些实施例提供的文档比对方法包括S310-S380。
S310:响应于确定两个待比对文档,判断两个待对比文档的文档格式是否相同;若相同,执行S320;若不同,执行S330。
S320:对两个待对比文档进行直接比对,得到文档比对结果。
S330:判断两个待比对文档是否均不是图片格式文档;若是,执行S340和S370。
S340:对两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像。
S350:对两组拷屏图像分别进行文本识别,得到对应的第一识别文本。
S360:比对两组拷屏图像对应的第一识别文本得到第一文本比对结果。
前述的S310-S360与前文实施例中对应步骤的方法相同,此处不再复述,具体可以参加前文表述。
S370:按照一个待比对文档的文档格式对另一待比对文档进行格式转换,得到转换文档。
本公开实施例中,如果两个待比对文档文档格式不同,并且两个待对比文档的文件格式均不是图片格式文档,则确定两个待比对文档均为文本格式的文档。此时,计算设备可以按照一个待比对文档的格式对另外一个待比对文档进行格式转换,得到转换文档。具体实施中,计算设备可以根据两个待比对文档的格式,确定如何进行格式转换造成的文档内容变化较小,继而确定对哪一个待比对文档进行转换。例如,如果待比对文档分别是doc格式的文档和pdf格式的文档,并且doc格式转换为pdf格式可能造成的文档内容变化较小,因此将doc格式的待比对文档转换为pdf格式的待比对文档。
S380:将转换文档和另一个待比对文档进行文本内容比对,得到第二文本比对结果。
在得到转换文档之后,随后可以按照S320中采用的直接比对方法对转换文档和没有进行文档格式转换的待比对文档进行比对,得到第二文本比对结果。
S390:对第一文本比对结果和第二文本比对结果进行综合,将综合后的文本比对结果作为两个待比对文档的文档比对结果。
在得到第一文本比对结果和第二文本比对结果之后,随后计算设备对两个比对结果进行综合得到综合比对结果,并将综合比对结果作为两个待比对文档的文档比对结果。在一些实施例中,计算设备可以可以求取第一文本比对结果和第二文本比对结果的交集,并将交集作为前述的第二文本比对结果。
采用本公开实施例提供的文档比对方法,计算设备除了考虑拷屏图像确定文档比对结果之外,还考虑采用文档格式转换的方式确定文档比对结果,以求使得确定的文档比对结果更为准确。
具体实施例中,计算设备比对两组拷屏图像对应的第一识别文本得到第一文本比对结果需要大量的资源开销,造成运算结果较慢。并且,随着两个第一识别文本中差异文本的增加,内存开销呈现指数的增长,并且容易造成进程崩溃。为避免此问题,本公开实施中,在执行前述的比对两组拷屏图像对应的第一识别文本得到第一文本比对结果之前,计算设备还可以执行如下的步骤S410-S420。
S410:对两组拷屏图像进行图像相似度计算,确定两组拷屏图像的图像相似度。
本公开实施例中,对两组拷屏图像进行图像相似度计算可以采用的方法包括基于图像像素比对方法和基于图像灰度梯度变化比对方法。
基于图像像素比对方法是在两组拷屏图像中图像像素相同的情况下,对单点像素的灰度进行比较确定差别像素,并根据差别像素的数量确定图像相似度的方法。
基于图像灰度梯度变化比对的方法包括如下的S411-S412。
S411:分别计算两组拷屏图像的灰度梯度向量。
S412:基于灰度梯度向量确定两组拷屏图像的图像相似度。
计算设备采用如下的方法计算拷屏图像的灰度梯度向量,是计算拷屏图像在各个方向上的灰度变化梯度,并将各个方向上的灰度变化梯度写入到梯度向量中的对应位置处,继而得到灰度梯度向量。
在得到灰度梯度向量之后,随后计算设备可以采用如下公式计算两个拷屏图像的图像相似度,
Figure BDA0004031959250000081
其中s表征图像相似度,t1为一个拷屏图像的灰度梯度向量,t2为另一拷屏图像的灰度梯度向量。
S420:判断图像相似度是否大于预设相似度;若是,执行比对比对两组拷屏图像对应的第一识别文本得到第一文本比对结果的操作。
在计算得到图像相似度之后,如果图像相似度大于预设相似度,则确定比对拷屏图像对应的第一识别文本不会造成多大的内存开销,相应进程崩溃的可能性较小,因此可以执行比对两组拷屏图像对应的第一识别文本得到第一文本比对结果的操作。
在本公开实施例的一些应用中,前述的文档比对方法是由安装在软件版本管理客户端程序中的插件执行,前述插件是基于软件版本管理客户端完成相应的文件加载和结果输出工作。在此情况下,前述的S110、S210和S310中确定两个待比对文档可以包括如下的S111-S113。
S111:响应于接收到用户上传的一个待比对文档,向用户显示文档版本查询界面,文档版本查询界面用于向用户展示待查询的文档版本。
S112:响应于用户在文档版本查询界面中针对目标文档的选定操作,将目标文档作为另一待比对文档。
本公开实施例中,当用户想要比对某一新获得的待比对文档时,其采用计算设备打开软件版本管理客户端的相应界面,实现一个待比对文档的上传。在完成一个待比对文档的上传之后,随后计算设备会向用户显示软件版本管理客户端的文档版本查询界面,并通过文档版本查询界面向用户展示待查询的文档版本。随后用户通过浏览文档版本查询界面,确定目标文档并对目标文档进行选定操作。在接收到用户在文档版本查询界面中针对目标文档的选定操作后,计算设备选定目标文档作为另一待比对文档,执行后续的操作步骤。
除了提供前述的软件界面测试方法外,本公开实施例还提供一种文档比对装置400。图4是本公开实施例提供的文档比对装置的结构示意图。如图4所示,文档比对装置400包括格式比对单元401、拷屏单元402、文本识别单元403和文档比对单元404。
格式比对单元401用于响应于接收到两个待比对文档,判断两个待对比文档的文档格式是否相同;拷屏单元402用于在两个待对比文档的文档格式不同的情况下,对两个待对比文档的渲染显示页面进行拷屏操,得到对应的两组拷屏图像;文本识别单元403用于对两组拷屏图像分别进行文本识别,得到对应的第一识别文本;文档比对单元404用于比对两组拷屏图像对应的第一识别文本得到第一文本比对结果,并将第一文本比对结果作为两个待比对文档的文档比对结果。
在一些实施例中,文本识别单元403包括字符识别子单元和拼接子单元。字符识别子单元用于采用光学字符识别技术分别处理两组拷屏图像,得到两组拷屏图像中包括的识别字符,以及识别字符在拷屏图像中的识别位置;拼接子单元用于按照识别位置对识别字符进行拼接,得到对应的第一识别文本。
在一些实施例中,文档比对单元404获取第一文本比对结果中的差异文本,根据差异文本在一组拷屏图像中的识别位置进行差异标记,形成差异标记图并将差异标记图作为文档比对结果输出。
在一些实施例中,文档比对装置400还包括格式转换单元。格式转换单元按照一个待比对文档的文档格式对另一待比对文档进行格式转换,得到转换文档。文档比对单元404还用于将转换文档和一个待比对文档进行文本内容比对,得到第二文本比对结果;对应的,文档必读单元将第一文本比对结果作为两个待比对文档的文档比对结果细化为:对第一文本比对结果和第二文本比对结果进行综合,将综合后的文本比对结果作为两个待比对文档的文档比对结果。
在一些实施例中,文档比对装置400还包括相似度比较单元。相似度比较单元用于在比对两组拷屏图像对应的第一识别文本得到第一文本比对结果之前,对两组拷屏图像进行图像相似度计算,确定两组拷屏图像的图像相似度。在相似度比较单元确定图像相似度大于预设相似度的情况下,文档比对单元404执行比对比对两组拷屏图像对应的第一识别文本得到第一文本比对结果的操作。
在一些实施例中,相似度比较单元分别计算两组拷屏图像的灰度梯度向量,随后基于灰度梯度向量确定两组拷屏图像的图像相似度。
在一些实施例中,格式比对单元401响应于接收到用户上传的一个待比对文档,向用户显示文档版本查询界面,文档版本查询界面用于向用户展示待查询的文档版本,响应于用户在文档版本查询界面中针对目标文档的选定操作,将目标文档作为另一待比对文档。
本公开实施例还提供一种用于实现前述软件界面测试方法的计算设备。图5是本公开一些实施例提供的计算设备的结构示意图。下面具体参考图5,其示出了适于用来实现本公开实施例中的计算设备500的结构示意图。图5示出的计算设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器ROM502中的程序或者从存储装置508加载到随机访问存储器RAM503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有计算设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出I/O接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、摄像头、麦克风、加速度计、陀螺仪等的输入装置505;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许计算设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的计算设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、计算设备可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述计算设备中所包含的;也可以是单独存在,而未装配入该计算设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算设备执行时,使得该计算设备:响应于确定两个待比对文档,判断两个待对比文档的文档格式是否相同;在两个待对比文档的文档格式不同的情况下,对两个待对比文档的渲染显示页面进行拷屏操,得到对应的两组拷屏图像;对两组拷屏图像分别进行文本识别,得到对应的第一识别文本;比对两组拷屏图像对应的第一识别文本得到第一文本比对结果,并将第一文本比对结果作为两个待比对文档的文档比对结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或计算设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的根据硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括根据一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
本公开实施例还提供一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时可以实现上述任一方法实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本公开实施例还提供一种车辆,车辆包括前述的计算设备。具体车辆可以是燃油车辆,也可以是纯电动车辆等,本公开实施例不做限定。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文档比对方法,其特征在于,包括:
响应于确定两个待比对文档,判断所述两个待对比文档的文档格式是否相同;
在所述两个待对比文档的文档格式不同的情况下,对所述两个待对比文档的渲染显示页面进行拷屏操作,得到对应的两组拷屏图像;
对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本;
比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果,并基于所述第一文本比对结果确定所述两个待比对文档的文档比对结果。
2.根据权利要求1所述的方法,其特征在于,所述对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本,包括:
采用光学字符识别技术分别处理所述两组拷屏图像,得到两组所述拷屏图像中包括的识别字符,以及所述识别字符在所述拷屏图像中的识别位置;
按照所述识别位置对所述识别字符进行拼接,得到对应的所述第一识别文本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一文本比对结果确定所述两个待比对文档的文档比对结果,包括:
获取所述第一文本比对结果中的差异文本;
根据所述差异文本在一组所述拷屏图像中的识别位置进行差异标记,形成差异标记图并将所述差异标记图作为所述文档比对结果输出。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述两个待对比文档的文档格式不同并且所述两个待比对文档均不是图片格式文档的情况下,所述方法还包括:
按照一个待比对文档的文档格式对另一待比对文档进行格式转换,得到转换文档;
将所述转换文档和所述一个待比对文档进行文本内容比对,得到第二文本比对结果;
所述将第一文本比对结果作为所述两个待比对文档的文档比对结果包括:
对所述第一文本比对结果和所述第二文本比对结果进行综合,将综合后的文本比对结果作为所述两个待比对文档的文档比对结果。
5.根据权利要求1-3任一项所述的方法,其特征在于,在所述比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果之前,所述方法还包括:
对两组所述拷屏图像进行图像相似度计算,确定两组所述拷屏图像的图像相似度;
在所述图像相似度大于预设相似度的情况下,执行所述比对比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果的操作。
6.根据权利要求5所述的方法,其特征在于,所述对两组所述拷屏图像进行图像相似度计算,确定两组所述拷屏图像的图像相似度,包括:
分别计算所述两组拷屏图像的灰度梯度向量;
基于所述灰度梯度向量确定两组所述拷屏图像的图像相似度。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述确定两个待比对文档,包括:
响应于接收到用户上传的一个待比对文档,向所述用户显示文档版本查询界面,所述文档版本查询界面用于向用户展示待查询的文档版本;
响应于所述用户在文档版本查询界面中针对目标文档的选定操作,将所述目标文档作为另一待比对文档。
8.一种文档比对装置,其特征在于,包括:
格式比对单元,用于响应于接收到两个待比对文档,判断所述两个待对比文档的文档格式是否相同;
拷屏单元,用于在所述两个待对比文档的文档格式不同的情况下,对所述两个待对比文档的渲染显示页面进行拷屏操,得到对应的两组拷屏图像;
文本识别单元,用于对两组所述拷屏图像分别进行文本识别,得到对应的第一识别文本;
文档比对单元,用于比对两组所述拷屏图像对应的第一识别文本得到第一文本比对结果,并将所述第一文本比对结果作为所述两个待比对文档的文档比对结果。
9.一种计算设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;
所述计算机程序在被所述处理器加载时,使所述处理器执行如权利要求1-7任一项所述的文档比对方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现如权利要求1-7任一项所述的文档比对方法。
CN202211740633.7A 2022-12-30 2022-12-30 文档比对方法、装置、设备和介质 Pending CN115937888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211740633.7A CN115937888A (zh) 2022-12-30 2022-12-30 文档比对方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211740633.7A CN115937888A (zh) 2022-12-30 2022-12-30 文档比对方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115937888A true CN115937888A (zh) 2023-04-07

Family

ID=86556110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211740633.7A Pending CN115937888A (zh) 2022-12-30 2022-12-30 文档比对方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115937888A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290296A (zh) * 2023-11-27 2023-12-26 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290296A (zh) * 2023-11-27 2023-12-26 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备
CN117290296B (zh) * 2023-11-27 2024-02-09 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111340131B (zh) 图像的标注方法、装置、可读介质和电子设备
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
CN110659639B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN113313064A (zh) 字符识别方法、装置、可读介质及电子设备
CN112883968B (zh) 图像字符识别方法、装置、介质及电子设备
WO2023142914A1 (zh) 日期识别方法、装置、可读介质及电子设备
CN114037985A (zh) 信息提取方法、装置、设备、介质及产品
CN112488095A (zh) 印章图像识别方法、装置和电子设备
CN115294501A (zh) 视频识别方法、视频识别模型训练方法、介质及电子设备
CN115937888A (zh) 文档比对方法、装置、设备和介质
CN111680491A (zh) 文档信息的抽取方法、装置和电子设备
CN113408507B (zh) 基于履历文件的命名实体识别方法、装置和电子设备
CN112883966B (zh) 图像字符识别方法、装置、介质及电子设备
CN113407665A (zh) 文本比对方法、装置、介质及电子设备
CN110674813B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN110705536A (zh) 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN114495080A (zh) 字体识别方法、装置、可读介质及电子设备
CN113222050B (zh) 图像分类方法、装置、可读介质及电子设备
CN114463768A (zh) 表格识别方法、装置、可读介质和电子设备
CN114004229A (zh) 文本识别方法、装置、可读介质及电子设备
CN111783572B (zh) 一种文本检测方法和装置
CN111353536B (zh) 图像的标注方法、装置、可读介质和电子设备
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN114612909A (zh) 字符识别方法、装置、可读介质及电子设备
CN113256659B (zh) 图片处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination