CN112990376B - 一种文本图像相似度评估方法、装置及计算设备 - Google Patents

一种文本图像相似度评估方法、装置及计算设备 Download PDF

Info

Publication number
CN112990376B
CN112990376B CN202110470388.1A CN202110470388A CN112990376B CN 112990376 B CN112990376 B CN 112990376B CN 202110470388 A CN202110470388 A CN 202110470388A CN 112990376 B CN112990376 B CN 112990376B
Authority
CN
China
Prior art keywords
text images
similarity
feature points
images
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110470388.1A
Other languages
English (en)
Other versions
CN112990376A (zh
Inventor
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110470388.1A priority Critical patent/CN112990376B/zh
Publication of CN112990376A publication Critical patent/CN112990376A/zh
Application granted granted Critical
Publication of CN112990376B publication Critical patent/CN112990376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种文本图像相似度评估方法、装置、可读存储介质及计算设备,通过利用图像特征点的重排序结果进行文本图像的相似度计算,实现了效果更好、速度更快且成本更低的文本图像相似度评估。方法包括:获取两张文本图像;分别从所述两张文本图像中选取相同数量的特征点;根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;对所述两张文本图像的特征点按照所述坐标映射关系排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度。

Description

一种文本图像相似度评估方法、装置及计算设备
技术领域
本发明涉及文本图像处理领域,尤其涉及一种文本图像相似度评估方法、装置、可读存储介质及计算设备。
背景技术
图像相似度评估是一个比较古老的研究课题,从早期的经验公式计算评估,到模式识别的方法,使用人工经验设计的算子,再到现在使用各种深度学习的方法,在这个过程中,涌现出了大量的经典模型和方法,早期使用经验公式评估两张图像相似度的方法有PSNR(峰值信噪比)和SSIM(结构相似性),即直接从像素值上通过计算判断两张图像的相似性,模式识别的方法使用人工经验设计的算子,如SIFT(尺度不变特征变换)、SURF(加速提取鲁棒性特征)分别提取两张图像的特征点,组成特征向量,然后采用某种度量方式,如余弦距离、欧式距离和汉明距离等,计算两个特征向量向量之间的距离,然后根据预先设置的阈值,判断两种图像的相似度。深度学习的方法是目前使用最为广泛,也是效果最好的方法,其代表有Siamese(孪生网络)和Pseudo-siamese(伪孪生网络)通过使用两个神经网络模型分支,分别提取两张图像的特征,最后将提取到的特征进行合并,得到相似度分析结果,与其它深度学习方法相同,通过反向传播算法来优化目标函数,当目标函数的值被优化达到一个比较好的结果时,网络对图像进行相似度评估能够取得非常好的结果。
文本图像相似度评估是图像相似度评估的特定问题,所谓文本图像就是指由字符或者数字组成的图像,与一般的自然场景图像进行区分,相比于自然场景图像,文本图像的纹理结构比较单一,而且由于其排版等原因,很可能两张内容完全不一样的文本图像,如果不考虑其内容信息,它可能看上去一模一样,所以其相似度评估是比较困难的,但是其在很多问题中都有非常重要的价值。虽然使用神经网络模型进行文本图像相似度评估能取得很好的效果,但是问题在于其训练数据难以收集,标注成本非常高,而且有时数据的质量也很难保证。
目前拍照批改数学题和拍照搜题等人工智能应用层出不穷,大量的题目无法基于逻辑进行批改,只能依赖于建立题库,而题库提供的整页答案需要与用户拍照上传页进行相似度判定,这对后续判题非常重要。
综上所述,图像相似度评估有广泛的应用前景,使用深度学习方法能够获得很好的效果,但是其训练数据需要大量的人工进行标注。文本图像的相似度评估在拍照判题等应用中有重要作用,其纹理特征相较于自然场景图像更为单一,而且由于其全部都是文字信息,且有各种排版方式,所以其相似度判断更为困难。
发明内容
为此,本发明提供了一种文本图像相似度评估方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了一种文本图像相似度评估方法,包括:
获取两张文本图像;
分别从所述两张文本图像中选取相同数量的特征点;
根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;
对所述两张文本图像的特征点排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;
根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度。
可选地,在分别从所述两张文本图像中选取相同数量的特征点之后,获取所述两张文本图像的特征点的匹配结果;
获取所述两张文本图像的特征点的匹配结果,包括:
采用暴利匹配或者K-means算法,获取所述两张文本图像的特征点的匹配结果。
可选地,根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系,包括:
根据所述两张文本图像的特征点的匹配结果,计算关于所述两张文本图像的单应矩阵;
根据所述单应矩阵,确定所述两张文本图像的特征点的坐标映射关系。
可选地,方法还包括:
根据所述两张文本图像的按照坐标顺序排序的特征点的像素值,计算所述两张文本图像的第二相似度;
判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,确认所述两张文本图像的相似度为所述第一相似度;当所述第一相似度小于所述第二相似度时,确认所述两张文本图像不相似。
可选地,分别从所述两张文本图像中选取相同数量的特征点,包括:
分别计算所述两张文本图像的特征点;
从所述两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
可选地,所述两张文本图像,包括:
目标图像和参考图像;
所述获取两张文本图像之前,还包括:
获取若干图库图像;
根据所述目标图像和所述若干图库图像的原始像素信息或者文本识别信息,计算出所述目标图像分别与所述若干图库图像的第三相似度;
选取第三相似度最高的预设个数的图库图像作为所述参考图像。
可选地,方法还包括:
获取所述预设个数的参考图像分别与所述目标图像的第一相似度;
输出第一相似度最大的参考图像。
可选地,所述特征点包括坐标和特征描述信息;其中,所述特征描述信息用于匹配两个不同的特征点。
可选地,所述两张文本图像为经过预处理后的灰度图像。
根据本发明实施例的又一方面,提供了一种文本图像相似度评估装置,包括:
数据获取单元,用于获取两张文本图像;
数据处理单元,用于分别从所述两张文本图像中选取相同数量的特征点;根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;对所述两张文本图像的特征点按照所述坐标映射关系排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度。
可选地,所述数据处理单元用于获取所述两张文本图像的特征点的匹配结果时,具体用于:
采用暴力匹配或者K-means算法,获取所述两张文本图像的特征点的匹配结果。
可选地,所述数据处理单元用于根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系时,具体用于:
根据所述两张文本图像的特征点的匹配结果,计算关于所述两张文本图像的单应矩阵;
根据所述单应矩阵,确定所述两张文本图像的特征点的坐标映射关系。
可选地,所述数据处理单元还用于:
根据所述两张文本图像的按照坐标顺序排序的特征点的像素值,计算所述两张文本图像的第二相似度;
判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,确认所述两张文本图像的相似度为所述第一相似度;当所述第一相似度小于所述第二相似度时,确认所述两张文本图像不相似。
可选地,所述数据处理单元用于分别从所述两张文本图像中选取相同数量的特征点时,具体用于:
分别计算所述两张文本图像的特征点;
从所述两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
可选地,所述数据获取单元还用于:
获取若干图库图像;
所述数据处理单元还用于:
根据所述目标图像和所述若干图库图像的原始像素信息或者文本识别信息,计算出所述目标图像分别与所述若干图库图像的第三相似度;
选取第三相似度最高的预设个数的图库图像作为参考图像;
其中,所述数据获取单元获取的两张文本图像包括所述目标图像和所述参考图像之一。
可选地,所述数据处理单元还用于:
获取所述预设个数的参考图像分别与所述目标图像的第一相似度;
输出第一相似度最大的参考图像。
根据本发明实施例的又一方面,提供了一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的文本图像相似度评估方法。
根据本发明实施例的又一方面,提供了一种计算设备,包括:一个或多个处理器、存储器,以及一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行上述的文本图像相似度评估方法。
本发明实施例提供的技术方案,基于图像特征点重排列进行文本图像的相似度计算,适合纹理特征单一、排版方式多变的文本相似度评估场景,实现了效果更好、速度更快且成本更低的文本图像相似度评估。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是示例性的计算设备的结构框图;
图2是根据本发明一实施例的文本图像相似度评估方法的流程示意图;
图3是根据本发明又一实施例的文本图像相似度评估方法的流程示意图;
图4是根据本发明又一实施例的文本图像相似度评估方法的流程示意图;
图5是根据本发明又一实施例的文本图像相似度评估方法的流程示意图;
图6是根据本发明一实施例的文本图像相似度评估装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是布置为实现根据本发明的一种文本图像相似度评估方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外围接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例外围接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为各类形态的个人计算机和服务器设备,若干计算设备100可组成集群对外提供云服务。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的一种文本图像相似度评估方法的指令。
图2示例性示出根据本发明的一种文本图像相似度评估方法的流程图,方法始于步骤S210。
首先,在步骤S210中,获取两张文本图像。
本步骤中的两张文本图像为用于计算相似度的文本图像,例如,其中一张为学生的答题图像,另一张为题库的标准答案图像。
随后,在步骤S220中,分别从两张文本图像中选取相同数量的特征点。
图像特征点是指图像中有典型代表性的像素点,它的应用场景主要有相机标定、图像拼接、稠密重建和场景理解,图像特征点在计算机视觉的多项任务中有着重要应用。图像上任何一个像素点想要成为图像特征点,必须要满足差异性和重复性两个基本要求,差异性表示该像素点相比于其周围的点是显著的,灰度变换明显,如角点、边缘点等,重复性是指同一特征在不同视角中重复出现,且具有旋转、光度和尺度不变性。
本步骤的特征点可以是尺度不变特征变换(Scale-invariant featuretransform, Sift)的特征点、或快速鲁棒性特征(Speed-Up Robust Feature, SUTF)的特征点或ORB(Oriented FAST and Rotated BRIEF, ORB)特征点等,当然也可以基于其它类型的图像特征点进行计算。
为了便于后续的操作,在本步骤中,两张图像提取的特征点的数量是一致的。例如,可以按照两张图像的特征点的数目中的较小值,从两张图像中提取对应数目的特征点,并丢弃其余的特征点。通常地,一张图像会包含成千上万个特征点,丢弃部分的特征点并不会对相似度评价效果造成明显的影响。
优选地,本步骤具体包括:分别计算两张文本图像的特征点;从两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
随后,在步骤S230中,根据两张文本图像的特征点的匹配结果,确定两张文本图像的特征点的坐标映射关系。
通常地,一个特征点同时包含了坐标和特征描述信息,例如,每一个SIFT特征点的特征描述信息表现为一个表征其周围局部信息的256维的8位描述子。根据特征点的像素信息和特征点的特征描述信息,便可以对两张文本图像的特征点进行匹配,匹配算法可以采用暴力匹配算法,或者K-means算法。其中,暴力匹配算法是指将一张图像的某个特征点依次与另一张图像的全部特征点进行匹配,K-means算法则为一种聚类算法,通过对特征点作聚类处理实现特征点之间的匹配。
在获取到两张文本图像的特征点的匹配结果之后,可以通过两种方式建立两张文本图像的特征点的坐标映射关系。其一,直接根据两张文本图像的特征点的匹配结果,提取每一组相互匹配的文本图像的特征点的坐标,建立特征点的坐标映射关系。其二,提供了一种更优化的建立特征点的坐标映射关系的方法,具体包括:根据两张文本图像的特征点的匹配结果,计算关于两张文本图像的单应矩阵;根据单应矩阵,确定两张文本图像的特征点的坐标映射关系。直接根据文本图像的特征点的匹配结果提取并建立坐标映射关系的方法,可能会引入错误的或者不合适匹配结果,导致建立的坐标映射关系对文本图像相似度评估质量产生不利影响;单应矩阵则起到了匹配结果的调整优化作用,能够使得坐标映射关系更合理,从而保障了文本图像相似度评估质量。
随后,在步骤S240中,对两张文本图像的特征点按照坐标映射关系排序,使得两张文本图像的同一序号的特征点的坐标符合坐标映射关系。
例如,文本图像A包括特征点(a1、a2、a3、a4、a5、a6);文本图像B包括特征点(b1、b2、b3、b4、b5、b6);已确定坐标映射关系:(a1、b3),(a2、b5),(a3、b4),(a4、b1),(a5、b2),(a6、b6)。那么,可以将文本图像A的特征点重新排序为(a4、a5、a1、a3、a2、a6),文本图像B的特征点排序仍为(b1、b2、b3、b4、b5、b6),这样,两张文本图像的同一序号的特征点的坐标符合坐标映射关系,在进行相似度评估时,就有效地去除了排版差异带来的影响。同理,也可以保持文本图像A的特征点排序仍为(a1、a2、a3、a4、a5、a6),将图像B的特征点重新排序为(b3、b5、b4、b1、b2、b6),能够起到相同的作用。
随后,在步骤S250中,根据两张文本图像的按照坐标映射关系排序后的特征点的像素值,计算两张文本图像的第一相似度。
本步骤中,优选地采用结构相似性(Structural Similarity, SSIM)算法计算两张文本图像的相似度。
本发明实施例,基于图像特征点和图像特征点的重排序结果计算图像之间的相似度,一方面能够解决文本图像纹理单一的问题;另一方面通过对图像特征点重新排序,避免了文本图像的排版差异带来的影响。
图3示例性示出根据本发明的一种文本图像相似度评估方法的流程图,方法始于步骤S310。
在步骤S310中,获取两张文本图像。
随后,在步骤S320中,分别从两张文本图像中选取相同数量的特征点。
由于步骤S310-S320与步骤S210-S220的内容一致,此处不再赘述。
随后,在步骤S330中,根据两张文本图像的按照坐标顺序排序的特征点的像素值,计算两张文本图像的第二相似度。
例如,文本图像A包括按照坐标顺序排序的特征点(a1、a2、a3、a4、a5、a6),文本图像B包括按照坐标顺序排序的特征点(b1、b2、b3、b4、b5、b6),那么,直接基于特征点(a1、a2、a3、a4、a5、a6)和特征点(b1、b2、b3、b4、b5、b6)的像素信息计算两张文本图像的相似度。
本步骤中,优选地采用SSIM算法计算两张文本图像的相似度。
随后,在步骤S340中,根据两张文本图像的特征点的匹配结果,确定两张文本图像的特征点的坐标映射关系。
随后,在步骤S350中,对两张文本图像的特征点按照坐标映射关系排序,使得两张文本图像的同一序号的特征点的坐标符合坐标映射关系;
随后,在步骤S360中,根据两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算两张文本图像的第一相似度。
由于步骤S340-S360与步骤S230-S250的内容一致,此处不再赘述。
随后,在步骤S370中,判断第一相似度与第二相似度的大小,当第一相似度大于第二相似度时,确认两张文本图像的相似度为第一相似度;当第一相似度小于等于第二相似度时,确认两张文本图像不相似。
例如,根据两张文本图像的按照坐标映射关系排序后的特征点,计算两张文本图像的第一相似度为80%;而根据两张文本图像的按照坐标顺序排序的特征点,计算两张文本图像的第二相似度为70%,那么,将80%作为两张文本图像的相似度度量输出。又例如,计算出的两张文本图像的第一相似度为50%,而计算出的两张文本图像的第二相似度为60%,则直接判定两张图像不相似。
本发明实施例,根据第一相似度和第二相似度综合输出文本图像相似度评估结果,避免了为两张较大差异的文本图像输出错误的相似度评估结果,增加了算法的可用性。
图4示例性示出根据本发明的一种文本图像相似度评估方法的流程图,方法始于步骤S410。
首先,在步骤S410,获取目标图像和若干图库图像。
本实施例中,图库图像是指预先存储在图库的若干图像,通过本实施例提供的方法步骤,可以从图库图像中找出与目标图像最相似的图像。
本实施例可以应用于教学判题的场景,例如,目标图像可以是学生的答题图像,图库图像可以是题库的标准答案图像。
随后,在步骤S420,根据目标图像和若干图库图像的原始像素信息或者文本识别信息,计算出目标图像分别与若干图库图像的第三相似度。
需要注意的是本步骤中并未采用图像特征点计算图像之间的相似度,而是根据图像的全部原始像素信息计算图像之间的相似度,本步骤可以采用常规的图像相似度计算方法实现。
另外,本步骤还提供了一种实施方式,即通过文本识别信息计算第三相似度,具体可以先通过光学字符识别(Optical Character Recognition, OCR)技术将图像识别为文本,然后比较两组文本的相似度作为第三相似度。
随后,在步骤S430中,选取第三相似度最高的预设个数的图库图像作为参考图像。
例如,根据步骤S420计算出的各个图库图像的第三相似度由高至低为60%、58%、55%、50%......预设个数被设定为3个,则取第三相似度为60%、58%、55%的三张图库图像作为参考图像,执行步骤S440-S480对应的处理。
随后,在步骤S440中,获取两张文本图像,其中一张为目标图像,另一张为参考图像之一。
随后,在步骤S450中,分别从两张文本图像中选取相同数量的特征点。
随后,在步骤S460中,根据两张文本图像的特征点的匹配结果,确定两张文本图像的特征点的坐标映射关系。
随后,在步骤S470中,对两张文本图像的特征点按照坐标映射关系排序,使得两张文本图像的同一序号的特征点的坐标符合坐标映射关系;
随后,在步骤S480中,根据两张文本图像的按照坐标映射关系排序后的特征点的像素值,计算两张文本图像的第一相似度。
重复步骤S440-S480,直至获取到目标图像与各个图库图像的第一相似度。
由于步骤S440-S480与步骤S210-S250的内容一致,此处不再赘述。
随后,在步骤S490中,比较各个第一相似度的大小,将第一相似度最大的参考图像作为与目标图像最相似的图像输出。
例如,第三相似度为60%、58%、55%的三张参考图像计算出的第一相似度分别为70%、80%、60%,那么,将第一相似度为80%的参考图像作出与目标图像最相似的图像输出。在教学判题场景中,如果直接将第三相似度最大的参考图像作为与目标图像最相似的图像,那么将有可能得到不准确的输出结果。本实施例中,根据第三相似度对题库答案进行初步筛选,再根据第一相似度对参考图像的相似度作进一步的判定,能够提高题库答案的输出的准确率。
图5示例性示出根据本发明的一种文本图像相似度评估方法的流程图,方法始于步骤S501。
步骤S501,首先,拍照判题应用程序上传图像,然后经过检测、识别等一系列模型和操作之后,得到上传文本图像的内容信息,然后使用内容信息在已经建立的题库中进行搜索,得到是对应答案页可能性最大的3张图像(或者5张,10张,可任意设置)。
步骤S502,对用户上传的图像和题库提供的三张图像进行灰度化,得到灰度图。
步骤S503,对每个图像使用sift算法提取sift特征点,每个特征点都有一个表征其周围局部信息的256维8位uint型描述子。
步骤S504,将题库提供的图像与拍照上传的图像做如下操作:保持两张图像的特征点数量一致,即特征点数量多的图像根据特征点置信度大小(或者随机)丢弃掉置信度比较小的特征点,使得与特征点数量较少的图像特征点数量保持一致。
步骤S505,将剩下的特征点按照其坐标信息进行排列,得到一个新的M*N的单通道特征图(特征点提供坐标信息,对应坐标位置的像素值为其原始图像灰度图对应位置的像素值)。
步骤S506,两张图像使用SSIM相似度评估方式直接计算相似度,得到相似度一。
步骤S507,根据步骤S504的结果,对两张图像的特征点使用暴力匹配或者K-Means算法进行匹配。
步骤S508,使用RANSAC算法计算单应矩阵。
步骤S509,根据步骤S508得到的单应矩阵,可以将图像一上的坐标点映射到图像二上;根据图像一的特征点坐标以及原始图像灰度图的像素值得到特征图像一,然后根据特征图像一的特征点坐标与单应矩阵,计算出特征图像一的特征点在图像二上的坐标,然后,根据新坐标和图像二的原始图像灰度图的像素值得到重排列的特征图像二。
步骤S510,两张图像使用SSIM相似度评估方式计算相似度,得到相似度二。
步骤S511,根据步骤S506和步骤S510的结果,比较相似度二和相似度一,如果相似度二大于相似度一则认为这两张图像有相似性,同时以相似性度二作为其相似度度量,否则,认为两张图像根本不相似。
步骤S512,重复执行以上步骤,直至获取3张题库图像的相似度度量,输出相似度最大的题库图像。
参见图6,本发明实施例提供了一种文本图像相似度评估装置,包括:
数据获取单元610,用于获取两张文本图像;
数据处理单元620,用于分别从所述两张文本图像中选取相同数量的特征点;根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;对所述两张文本图像的特征点按照所述坐标映射关系排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度。
可选地,所述数据处理单元620用于获取所述两张文本图像的特征点的匹配结果时,具体用于:
采用暴力匹配或者K-means算法,获取所述两张文本图像的特征点的匹配结果。
可选地,所述数据处理单元620用于根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系时,具体用于:
根据所述两张文本图像的特征点的匹配结果,计算关于所述两张文本图像的单应矩阵;
根据所述单应矩阵,确定所述两张文本图像的特征点的坐标映射关系。
可选地,所述数据处理单元620还用于:
根据所述两张文本图像的按照坐标顺序排序的特征点的像素值,计算所述两张文本图像的第二相似度;
判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,确认所述两张文本图像的相似度为所述第一相似度;当所述第一相似度小于所述第二相似度时,确认所述两张文本图像不相似。
可选地,所述数据处理单元620用于分别从所述两张文本图像中选取相同数量的特征点时,具体用于:
分别计算所述两张文本图像的特征点;
从所述两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
可选地,所述数据处理单元620还用于:
获取若干图库图像;
根据所述目标图像和所述若干图库图像的原始像素信息或者文本识别信息,计算出所述目标图像分别与所述若干图库图像的第三相似度;
选取第三相似度最高的预设个数的图库图像作为参考图像;
其中,所述数据处理单元获取的两张文本图像包括所述目标图像和所述参考图像之一。
可选地,所述数据处理单元620还用于:
获取所述预设个数的参考图像分别与所述目标图像的第一相似度;
输出第一相似度最大的参考图像。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的发明是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (16)

1.一种文本图像相似度评估方法,其特征在于,包括:
获取两张文本图像;
分别从所述两张文本图像中选取相同数量的特征点;
根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;
对所述两张文本图像的特征点按照所述坐标映射关系排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;
根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度;
其中,根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系,包括:
根据所述两张文本图像的特征点的匹配结果,计算关于所述两张文本图像的单应矩阵;
根据所述单应矩阵,确定所述两张文本图像的特征点的坐标映射关系。
2.如权利要求1所述的方法,其特征在于,在分别从所述两张文本图像中选取相同数量的特征点之后,获取所述两张文本图像的特征点的匹配结果;
获取所述两张文本图像的特征点的匹配结果,包括:
采用暴力匹配或者K-means算法,获取所述两张文本图像的特征点的匹配结果。
3.如权利要求1所述的方法,其特征在于,还包括:
根据所述两张文本图像的按照坐标顺序排序的特征点的像素值,计算所述两张文本图像的第二相似度;
判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,确认所述两张文本图像的相似度为所述第一相似度;当所述第一相似度小于所述第二相似度时,确认所述两张文本图像不相似。
4.如权利要求1所述的方法,其特征在于,分别从所述两张文本图像中选取相同数量的特征点,包括:
分别计算所述两张文本图像的特征点;
从所述两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
5.如权利要求1所述的方法,其特征在于,所述两张文本图像,包括:
目标图像和参考图像;
所述获取两张文本图像之前,还包括:
获取若干图库图像;
根据所述目标图像和所述若干图库图像的原始像素信息或者文本识别信息,计算出所述目标图像分别与所述若干图库图像的第三相似度;
选取第三相似度最高的预设个数的图库图像作为所述参考图像。
6.如权利要求5所述的方法,其特征在于,还包括:
获取所述预设个数的参考图像分别与所述目标图像的第一相似度;
输出第一相似度最大的参考图像。
7.如权利要求1所述的方法,其特征在于,所述特征点包括坐标和特征描述信息;其中,所述特征描述信息用于匹配两个不同的特征点。
8.如权利要求1所述的方法,其特征在于,所述两张文本图像为经过预处理后的灰度图像。
9.一种文本图像相似度评估装置,其特征在于,包括:
数据获取单元,用于获取两张文本图像;
数据处理单元,用于分别从所述两张文本图像中选取相同数量的特征点;根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系;对所述两张文本图像的特征点按照所述坐标映射关系排序,使得所述两张文本图像的同一序号的特征点的坐标符合所述坐标映射关系;根据所述两张文本图像的按照所述坐标映射关系排序后的特征点的像素值,计算所述两张文本图像的第一相似度;
其中,所述数据处理单元用于根据所述两张文本图像的特征点的匹配结果,确定所述两张文本图像的特征点的坐标映射关系时,具体用于:
根据所述两张文本图像的特征点的匹配结果,计算关于所述两张文本图像的单应矩阵;
根据所述单应矩阵,确定所述两张文本图像的特征点的坐标映射关系。
10.如权利要求9所述的装置,其特征在于,所述数据处理单元用于获取所述两张文本图像的特征点的匹配结果时,具体用于:
采用暴力匹配或者K-means算法,获取所述两张文本图像的特征点的匹配结果。
11.如权利要求9所述的装置,其特征在于,所述数据处理单元还用于:
根据所述两张文本图像的按照坐标顺序排序的特征点的像素值,计算所述两张文本图像的第二相似度;
判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,确认所述两张文本图像的相似度为所述第一相似度;当所述第一相似度小于所述第二相似度时,确认所述两张文本图像不相似。
12.如权利要求9所述的装置,其特征在于,所述数据处理单元用于分别从所述两张文本图像中选取相同数量的特征点时,具体用于:
分别计算所述两张文本图像的特征点;
从所述两张文本图像的特征点中,分别选取相同数量的置信度最大的特征点,或者,分别随机选取相同数量的特征点。
13.如权利要求9所述的装置,其特征在于,所述两张文本图像,包括:
目标图像和参考图像;
所述数据获取单元还用于:
获取若干图库图像;
所述数据处理单元还用于:
根据所述目标图像和所述若干图库图像的原始像素信息或者文本识别信息,计算出所述目标图像分别与所述若干图库图像的第三相似度;
选取第三相似度最高的预设个数的图库图像作为参考图像。
14.如权利要求13所述的装置,其特征在于,所述数据处理单元还用于:
获取所述预设个数的参考图像分别与所述目标图像的第一相似度;
输出第一相似度最大的参考图像。
15.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-8中的任一项所包括的方法。
16.一种计算设备,其特征在于,包括:一个或多个处理器、存储器,以及一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-8中的任一项所包括的方法。
CN202110470388.1A 2021-04-29 2021-04-29 一种文本图像相似度评估方法、装置及计算设备 Active CN112990376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110470388.1A CN112990376B (zh) 2021-04-29 2021-04-29 一种文本图像相似度评估方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110470388.1A CN112990376B (zh) 2021-04-29 2021-04-29 一种文本图像相似度评估方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN112990376A CN112990376A (zh) 2021-06-18
CN112990376B true CN112990376B (zh) 2021-11-02

Family

ID=76336542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110470388.1A Active CN112990376B (zh) 2021-04-29 2021-04-29 一种文本图像相似度评估方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN112990376B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120974A (zh) * 2021-11-24 2022-03-01 江苏华电灌云风力发电有限公司 一种基于深度学习的风机叶片故障诊断方法
CN114118278A (zh) * 2021-11-29 2022-03-01 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN114444564A (zh) * 2021-12-14 2022-05-06 广州锐竞信息科技有限责任公司 一种基于深度神经网络模型的高相似度论文图片比对方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920580A (zh) * 2018-06-25 2018-11-30 腾讯科技(深圳)有限公司 图像匹配方法、装置、存储介质及终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5958460B2 (ja) * 2011-02-23 2016-08-02 日本電気株式会社 特徴点照合装置、特徴点照合方法、および特徴点照合プログラム
CN105224619B (zh) * 2015-09-18 2018-06-05 中国科学院计算技术研究所 一种适用于视频/图像局部特征的空间关系匹配方法及系统
CN105809678B (zh) * 2016-03-04 2018-08-31 中国民航大学 一种短基线条件下两视图间线段特征全局匹配方法
CN111914113B (zh) * 2020-08-07 2024-06-28 大连理工大学 一种图像检索的方法以及相关装置
CN112508011A (zh) * 2020-12-02 2021-03-16 上海逸舟信息科技有限公司 一种基于神经网络的ocr识别方法及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920580A (zh) * 2018-06-25 2018-11-30 腾讯科技(深圳)有限公司 图像匹配方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN112990376A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112990376B (zh) 一种文本图像相似度评估方法、装置及计算设备
US10936911B2 (en) Logo detection
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
US20190180154A1 (en) Text recognition using artificial intelligence
US9036905B2 (en) Training classifiers for deblurring images
CN108898142B (zh) 一种手写公式的识别方法及计算设备
US9613296B1 (en) Selecting a set of exemplar images for use in an automated image object recognition system
RU2707147C1 (ru) Обучение нейронной сети посредством специализированных функций потерь
CN109829453A (zh) 一种卡证中文字的识别方法、装置以及计算设备
CN108416345B (zh) 一种答题卡区域识别方法和计算设备
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
CN109446873A (zh) 手写字体识别方法、系统以及终端设备
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
JP6997369B2 (ja) プログラム、測距方法、及び測距装置
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN111582267A (zh) 一种文本检测方法、计算设备及可读存储介质
CN114359889B (zh) 一种长文本资料的文本识别方法
RU2633182C1 (ru) Определение направления строк текста
CN113052162B (zh) 一种文本识别方法、装置、可读存储介质及计算设备
CN112288045B (zh) 一种印章真伪判别方法
CN112434696A (zh) 一种文本方向校正方法、装置、设备及存储介质
CN116524508A (zh) 表格类图像的矫正方法及装置、存储介质、计算机设备
CN113362380B (zh) 一种图像特征点检测模型训练方法、装置及其电子设备
CN115544283A (zh) 一种图片检测方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant