CN113255667B - 文本图像相似度评估方法、装置、电子设备及存储介质 - Google Patents
文本图像相似度评估方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113255667B CN113255667B CN202110663259.4A CN202110663259A CN113255667B CN 113255667 B CN113255667 B CN 113255667B CN 202110663259 A CN202110663259 A CN 202110663259A CN 113255667 B CN113255667 B CN 113255667B
- Authority
- CN
- China
- Prior art keywords
- text image
- text
- sub
- similarity
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了文本图像相似度评估方法、装置、电子设备及存储介质,该方法为:获取第一文本图像和第二文本图像;分别对第一文本图像和第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;在多个第一子文本图像中选择第一指定子文本图像;其中,第一指定子文本图像为多个第一子文本图像中任意的子文本图像;在多个第二子文本图像中选择与第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,多个周围子文本图像与第二指定子文本图像的距离小于预定阈值;分别计算第一指定子文本图像与第二指定子文本图像、多个周围子文本图像的多个相似度;根据多个相似度评估第一文本图像和第二文本图像的相似度。
Description
技术领域
本公开涉及文本图像相似度评估领域,具体涉及文本图像相似度评估方法、装置、电子设备及存储介质。
背景技术
图像相似度评估是一个比较古老的研究课题,从早期的经验公式计算评估,到模式识别的方法,使用人工经验设计的算子,再到现在使用各种深度学习的方法,在这个过程中,涌现出了大量的经典模型和方法。
文本图像相似度评估是图像相似度评估的特定问题,文本图像为由字符或者数字组成的图像。区别于自然场景图像,文本图像的纹理结构比较单一,而且由于其字体和排版等原因,两张内容完全不一样的文本图像,如果不考虑其内容信息,它可能看上去一模一样;同时,同一张图像,经由不同的拍摄角度得到,可能会出现看上去不同的情况,所以文本图像相似度评估是比较困难的,但是文本图像相似度评估在很多问题中具有非常高的价值。目前,通常采用神经网络模型对文本图像相似度进行评估,但是训练数据难以收集,标注成本非常高。
针对现有技术中在文本图像的相似度评估时,文本图像的相似度评估困难的问题,还未提出有效的解决方案。
发明内容
有鉴于此,本公开实施例提供了一种本图像相似度评估方法、装置、电子设备以及存储介质,以解决现有技术中在文本图像的相似度评估时,文本图像的相似度评估困难的问题。
为此,本公开实施例提供了如下技术方案:
本公开第一方面,提供了一种文本图像相似度评估方法,包括:
获取第一文本图像和第二文本图像;
分别对所述第一文本图像和所述第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;
在所述多个第一子文本图像中选择第一指定子文本图像;其中,所述第一指定子文本图像为所述多个第一子文本图像中任意的子文本图像;
在所述多个第二子文本图像中选择与所述第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,所述多个周围子文本图像与所述第二指定子文本图像的距离小于预定阈值;
分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度;
根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度。
可选地,根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度包括:
在所述多个相似度中选择最大相似度,将所述最大相似度作为所述第一指定子文本图像与所述第二文本图像的子相似度;
根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和第二文本图像的相似度。
可选地,根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和第二文本图像的相似度包括:
获取所述第一文本图像的中心的预定范围;
获取第一指定子文本图像在所述预定范围的面积大小;
根据所述面积大小确定所述第一指定子文本图像与所述第二文本图像的相似度的各个权重;
根据所述各个子相似度和所述各个权重评估所述第一文本图像和第二文本图像的相似度。
可选地,获取第一文本图像和第二文本图像之后,所述方法还包括:
将所述第一文本图像和第二文本图像进行缩放处理,得到大小相同的第一文本图像和第二文本图像;
将大小相同的第一文本图像和第二文本图像转换为灰度图。
可选地,分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度包括:
将所述第一指定子文本图像、所述第二指定子文本图像、所述多个周围子文本图像输入至局部文本图像相似度估计模型得到所述多个相似度;
其中,所述局部文本图像相似度估计模型通过如下步骤训练得到:
获取多个文本语句、多个打印字体以及多个背景图片;
将所述多个文本语句、所述多个打印字体以及所述多个背景图片进行组合,获得多个第一训练文本图像;
对所述第一训练文本图像进行图像增强操作,形成第二训练文本图像;其中,所述增强操作至少包括如下之一的操作:裁剪、翻转、形变、调整大小;
根据预定规则从所述第二训练文本图像选择成对的相似度样本;
计算所述成对的相似度样本的相似度;
根据所述成对的相似度样本和所述成对的相似度样本的相似度对卷积神经网络进行训练得到所述局部文本图像相似度估计模型。
可选地,所述卷积神经网络包括依次连接的第一组卷积块、第二组卷积块、全连接层和sigmoid层;
所述第一组卷积块包括多个卷积层,每个卷积层由卷积、归一化、Relu函数激活层组成;
所述第二组卷积块包括多个卷积层,所述第二组卷积块中的每个卷积层的卷积核大小为前一层的倍数;其中,所述倍数大于等于2。
本公开第二方面,提供了一种文本图像相似度评估装置,包括:
获取模块,用于获取第一文本图像和第二文本图像;
划分模块,用于分别对所述第一文本图像和所述第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;
第一选择模块,用于在所述多个第一子文本图像中选择第一指定子文本图像;其中,所述第一指定子文本图像为所述多个第一子文本图像中任意的子文本图像;
第二选择模块,用于在所述多个第二子文本图像中选择与所述第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,所述多个周围子文本图像与所述第二指定子文本图像的距离小于预定阈值;
计算模块,用于分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度;
评估模块,用于根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度。
本公开第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行上述第一方面中任一所述的文本图像相似度评估方法。
本公开第四方面,提供了一种计算机可读存储介质,存储有计算机指令,所述计算机指令被处理器执行时,使所述处理器执行上述第一方面中任一所述的文本图像相似度评估方法。
本公开第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述第一方面中任一所述的文本图像相似度评估方法。
本公开实施例技术方案,具有如下优点:
本公开实施例提供了一种文本图像相似度评估方法、装置、电子设备及存储介质,其中,该方法包括:获取第一文本图像和第二文本图像;分别对第一文本图像和第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;在多个第一子文本图像中选择第一指定子文本图像;其中,该第一指定子文本图像为该多个第一子文本图像中任意的子文本图像;在多个第二子文本图像中选择与第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,该多个周围子文本图像与第二指定子文本图像的距离小于预定阈值;分别计算第一指定子文本图像与第二指定子文本图像、多个周围子文本图像的多个相似度;根据多个相似度评估第一文本图像和第二文本图像的相似度。通过本公开实施例解决了现有技术中在文本图像的相似度评估时文本图像的相似度评估困难的问题。通过本公开实施例的文本图像相似度评估方法将极大的提升文本图像相似度判断的精度,并且更进一步的提升文本图像相似度评估的性能,进而获得效果更好、速度更快且成本更低的文本图像相似度评估。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开实施例的文本图像相似度评估方法的流程图;
图2是根据本公开实施例的文本图像相似度评估装置的结构框图;
图3是本公开实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在本公开的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本公开中,“示例性”一词用来表示“用作例子、例证或说明”。本公开中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本公开,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本公开。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本公开的描述变得晦涩。因此,本公开并非旨在限于所示的实施例,而是与符合本公开所公开的原理和特征的最广范围相一致。
根据本公开实施例,提供了一种文本图像相似度评估方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
对于图像相似度评估从早期的经验公式计算评估开始,到模式识别的方法,使用人工经验设计的算子,再到现在使用各种深度学习的方法,在这个过程中,涌现出了大量的经典模型和方法。早期使用经验公式评估两张图像相似度的方法有PSNR(峰值信噪比)和SSIM(结构相似性),均为直接从像素值上通过计算判断两张图像的相似性;模式识别的方法使用人工经验设计的算子,如SIFT(尺度不变特征变换)、SURF(加速提取鲁棒性特征)分别提取两张图像的特征点,组成特征向量,然后采用某种度量方式,如余弦距离、欧式距离和汉明距离等,计算两个特征向量向量之间的距离,然后根据预先设置的阈值,判断两种图像的相似度;深度学习的方法是目前使用最为广泛,也是效果最好的方法。例如,Siamese(孪生网络)和Pseudo-siamese(伪孪生网络),通过使用两个神经网络模型分支,分别提取两张图像的特征,最后将提取到的特征进行合并,得到相似度分析结果。这两种方法与其它深度学习方法相同,均通过反向传播算法来优化目标函数,当目标函数的值被优化达到一个比较好的结果时,神经网络对图像进行相似度评估可以取得较好的结果。
上述三种方法各有优势,但也存在一些问题。例如,经验公式的计算各加客观,但是其仅是利用图像像素数值进行图像相似度评估,无法利用图像的语义(即内容)信息;人工经验设计的算子,能够在一定程度上利用到图像的语义信息,但是由于其对相似度的评估需要人为设置阈值,所以在一定程度上,结果的好坏跟人工经验息息相关;深度学习的方法,利用神经网络模型对图像进行特征提取,能够将图像的数值信息和语义信息全部利用起来,而且将相似度度量结果交由网络进行判断,从而避免了人工经验设置阈值,能够达到更好的效果,但是相较于前两种方法,深度学习的方法需要使用大量人工标注的数据对神经网络模型进行训练,而且训练数据的数量和质量是制约神经网络模型预测能力的关键。
目前,图像相似度评估有广泛的应用前景,通过深度学习方法能够获得较好的效果,但是其训练数据需要大量的人工进行标注。文本图像的相似度评估在拍照判题等应用中有重要作用,其纹理特征相较于自然场景图像更为单一,但是由于其全部都是文字信息,且有各种排版方式,所以其相似度判断更为困难,
在本公开实施例中提供了一种文本图像相似度评估方法,可用于题拍拍和拍照识别文本等装置,图1是根据本公开实施例的文本图像相似度评估方法的流程图,如图1所示,该流程100包括如下步骤:
步骤S101,获取第一文本图像和第二文本图像。第一文本图像和第二文本图像为待评估相似度的两张文本图像。
步骤S102,分别对第一文本图像和第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像。具体地,在一些实施例中,例如,对第一文本图像和第二文本图像按照32*160作为一个窗口大小,将第一文本图像和第二文本图像分别平均划分为多个第一子文本图像和多个第二子文本图像。本领域技术人员应当知晓,第一子文本图像和第二子文本图像的划分大小并非用于限制本实施例,根据实际需要将其划分为另外的大小亦在本实施例的保护范围之内。
步骤S103,在多个第一子文本图像中选择第一指定子文本图像;其中,第一指定子文本图像为多个第一子文本图像中任意的子文本图像,也就是说该第一指定子文本图像并非多个第一子文本图像中某一特定的子文本图像,而可以是多个第一子文本图像中任一一个。
步骤S104,在多个第二子文本图像中选择与第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,该多个周围子文本图像与该第二指定子文本图像的距离小于预定阈值。具体地,对于第一文本图像上的任意一张第一子文本图像作为第一指定子文本图像,获得在第二文本图像对应的第二指定子文本图像,同时获得第二指定子文本图像的上下左右四张子文本图像,第一指定子文本图像分别和在第二文本图像对应的5张第二指定子文本图像,组成5对图像。另外,在选取与第一指定子文本图像对应的第二指定子文本图像周围的图像还可以选取多张第二子文本图像,不仅仅是上下左右4张,例如周围9张或者16张,可以根据实际需求进行灵活调整。
步骤S105,分别计算第一指定子文本图像与第二指定子文本图像、多个周围子文本图像的多个相似度。具体地,例如第一指定子文本图像分别和在第二文本图像对应的5张第二指定子文本图像,组成5对图像,分别计算该5对图像的多个相似度。
步骤S106,根据多个相似度评估第一文本图像和第二文本图像的相似度。
通过上述步骤,由于现有技术中文本图像的相似度评估采用两张图像直接计算的方式,对包含多个文字的图像进行文本图像相似度的估计存在缺陷,本公开实施例通过评估第一文本图像中每一张第一子文本图像与第二文本图像的相似度,最终得出第一文本图像和第二文本图像相似度。通过本公开实施例解决了现有技术中在文本图像的相似度评估时,文本图像的相似度评估困难的问题,使得文本图像相似度评估效果更好、速度更快。例如,在题拍拍或者拍照识字的系统可以更加快速准确的输出较为准确的结果。
上述步骤S106中涉及根据多个相似度评估第一文本图像和第二文本图像的相似度,在一些可选实施例中,在多个相似度中选择最大相似度,将最大相似度作为该第一指定子文本图像与该第二文本图像的子相似度。本领域技术人员应当知晓,本公开实施例中多个相似度中选择最大相似度作为第一指定子文本图像与第二文本图像的子相似度,不用于限定本公开,其它根据多个相似度确定第一指定子文本图像与第二文本图像的子相似度的方法也在本公开保护范围之内。例如,将多个相似度取平均值或者加权平均值作为第一指定子文本图像与第二文本图像的子相似度。
根据该多个第一子文本图像中任意子文本图像与该第二文本图像的各个子相似度评估该第一文本图像和第二文本图像的相似度。具体地,对第一文本图像中每一张第一子文本图像与第二文本图像的子相似度进行加权求和,获取第一文本图像和第二文本图像的相似度。另外,还可以对第一文本图像中每一张第一子文本图像与第二文本图像的子相似度计算平均值评估第一文本图像和第二文本图像的相似度。
为了说明通过各个子相似度评估第一文本图像和第二文本图像的相似度,在一些可选实施例中,获取第一文本图像的中心的预定范围。获取第一指定子文本图像在预定范围的面积大小。根据面积大小确定该第一指定子文本图像与该第二文本图像的相似度的各个权重。根据该各个子相似度和该各个权重评估该第一文本图像和第二文本图像的相似度。具体地,在对第一子文本图像中任意子文本图像与该第二文本图像的各个子相似度进行加权时,可以根据第一指定子文本图像占据第一文本图像中心位置大小分别为第一子文本图像中任意子文本图像与第二文本图像的各个子相似度赋予权重,最终获得第一文本图像和第二文本图像的相似度。基于此,例如当第一指定子文本图像超过1/2的面积位于第一文本图像中心1/4的面积内时,则赋予的权重为1.4;当第一指定子文本图像超过1/2的面积位于第一文本图像中心1/4的面积外1/2的面积内时,则赋予的权重为1;当第一指定子文本图像超过1/2的面积位于第一文本图像中心1/2的面积外时,则赋予的权重为0.8。本领域技术人员应当知晓,根据第一指定子文本图像占据第一文本图像中心位置大小分别为第一子文本图像中任意子文本图像与第二文本图像的各个子相似度赋予权重,不用于限定本公开,其他的赋予权重方法也在本公开保护范围之内。例如,根据第一指定子文本图像上是否包含文本信息,进而对第一子文本图像中任意子文本图像与该第二文本图像的各个子相似度赋予权重。
上述步骤S101中涉及获取第一文本图像和第二文本图像,在步骤S101之后,在一些可选实施例中,将第一文本图像和第二文本图像进行缩放处理,得到大小相同的第一文本图像和第二文本图像。通过将第一文本图像和第二文本图像缩放至同样的大小,便于将第一文本图像和第二文本图像按照指定的小的窗口平均划分。同时,还便于获得与第一指定子文本图像对应的第二指定自文本图像。
将大小相同的第一文本图像和第二文本图像转换为灰度图。文本图形是由字符语句和背景图片组成,并且文本图像对于色彩不敏感,因此将第一文本图像和第二文本图像转换为灰度图更加便于相似度评估,使得相似度评估更加便捷有效。
上述步骤S105中涉及分别计算第一指定子文本图像与第二指定子文本图像、多个周围子文本图像的多个相似度,在一些可选实施例中,将第一指定子文本图像、第二指定子文本图像、多个周围子文本图像输入至局部文本图像相似度估计模型得到多个相似度。根据第一指定子文本图像、第二指定子文本图像、多个周围子文本图像确定了第一文本图像中任意指定子文本图像与第二文本图像具体的相似度值,从而避免了仅做二分类时要考虑正负样本的问题。
为了说明局部文本图像相似度估计模型,在一些可选实施例中,该局部文本图像相似度估计模型通过如下步骤训练得到:获取多个文本语句、多个打印字体以及多个背景图片。将多个文本语句、多个打印字体以及多个背景图片进行组合,获得多个第一训练文本图像。具体地,通过爬虫的方式批量的下载文本语句、打印字体以及背景图片,使得这一过程操作简单,并且成本低廉。另外,还可以通过付费或者免费的数据库获取多个第一训练文本图像。
对第一训练文本图像进行图像增强操作,形成第二训练文本图像;其中,增强操作至少包括如下之一的操作:裁剪、翻转、形变、调整大小。具体地,在本公开实施例中,通过第一文本图像的子图像与第二文本图像局部相似性的结果组合来表征文本图像整体的相似度,但是如果采用仅仅将第一文本图像与第二文本图像划分为多张子图像,然后比较每一张子图像的相似度,最后在将综合分析两张图像的相似度,与第一文本图像与第二文本图像整体求相似度并无差异,依然有旋转、景深等影响。因此,在训练时,对训练用的第一训练文本图像进行裁剪或翻转或形变等操作。同时,还要确保第一训练文本图的大小与第一文本图像子图像和第二文本图像子图像大小相同,确保训练结果的准确性。
根据预定规则从第二训练文本图像选择成对的相似度样本。具体地,由于第一训练文本图像经过图像增强操作,因此,可以获得多个种类的对的相似度样本,例如,两张相似度样本图像的字符语句、字体已经背景均相同,但是角度不同;或者,两张相似度样本图像的字符语句、背景以及增强操作均相同,但是字体不同;或者,两张相似度样本图像的字体、背景以及增强操作均相同,但是字符语句不同。进而使得样本具有多样化,确保训练的准确性,提高相似度评估的精度。
计算该成对的相似度样本的相似度。具体地,两张成对相似度样本图像的相似度为两张成对相似度样本图像上对应的字符串的相似度等于两张成对相似度样本图像上字符的交集与两张成对相似度样本图像上字符的并集之比。另外,还可以将字符串转换为向量,通过计算向量间的距离获得两张成对相似度样本图像的相似度。并且此处计算获得的相似度为两张成对相似度样本图像的真实相似度。
根据该成对的相似度样本和该成对的相似度样本的相似度对卷积神经网络进行训练得到该局部文本图像相似度估计模型。具体地,将两张成对相似度样本图像输入卷积神经网络后,获得两张成对相似度样本图像的相似度估计值,根据两张成对相似度样本图像的相似度估计值与两张成对相似度样本图像的相似度真实值,通过L2损失函数将分类问题转化为回归问题对卷积神经网络进行训练,最终获得局部文本图像相似度估计模型。
为了说明局部文本图像相似度估计模型,在一些可选实施例中,卷积神经网络包括依次连接的第一组卷积块、第二组卷积块、全连接层和sigmoid层。第一组卷积块包括多个卷积层,每个卷积层由卷积、归一化、Relu函数激活层组成。第二组卷积块包括多个卷积层,第二组卷积块中的每个卷积层的卷积核大小为前一层的倍数;其中,该倍数大于等于2。具体地,将两张成对相似度样本图像串联叠加输入该第一组卷积模块,获得1*80大小的特征图,之后将1*80大小的特征图输入该第二组卷积模块,获得一组256通道的特征映射,并且将这组256通道的特征映射连接在全连接层上,同时在全连接层之后连接接sigmoid层,获得两张成对相似度样本图像的估计值。在公开实施例中,通过sigmoid函数将输出控制在0至1之内,还可以使得两张成对相似度样本图像相似时,相似度值趋近1,两张成对相似度样本图像不相似时,相度值趋近于0。
在本实施例中还提供了一种文本图像相似度评估装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种文本图像相似度评估装置200,如图2所示,包括:
获取模块201,用于获取第一文本图像和第二文本图像;
划分模块202,用于分别对第一文本图像和第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;
第一选择模块203,用于在多个第一子文本图像中选择第一指定子文本图像;其中,该第一指定子文本图像为该多个第一子文本图像中任意的子文本图像;
第二选择模块204,用于在多个第二子文本图像中选择与第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,多个周围子文本图像与第二指定子文本图像的距离小于预定阈值;
计算模块205,用于分别计算第一指定子文本图像与第二指定子文本图像、多个周围子文本图像的多个相似度;
评估模块206,用于根据多个相似度评估第一文本图像和第二文本图像的相似度。
本实施例中的文本图像相似度评估装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本公开实施例还提供一种电子设备,具有上述图2所示的文本图像相似度评估装置。
请参阅图3,图3是本公开可选实施例提供的一种电子设备的结构示意图,如图3所示,该终端可以包括:至少一个处理器301,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口303,存储器304,至少一个通信总线302。其中,通信总线302用于实现这些组件之间的连接通信。其中,通信接口303可以包括显示屏(Display)、键盘(Keyboard),可选通信接口303还可以包括标准的有线接口、无线接口。存储器304可以是高速RAM存储器(Random Access Memory,随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器304可选的还可以是至少一个位于远离前述处理器301的存储装置。其中处理器301可以结合图2所描述的装置,存储器304中存储应用程序,且处理器301调用存储器304中存储的程序代码,以用于执行上述任一文本图像相似度评估方法的步骤。
本公开实施例中,处理器301调用存储器304中的程序代码,还用于执行上述实施例中任一的文本图像相似度评估方法。
其中,通信总线302可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器304可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器304还可以包括上述种类的存储器的组合。
其中,处理器301可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器301还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic, 缩写:GAL)或其任意组合。
可选地,存储器304还用于存储程序指令。处理器301可以调用程序指令,实现如本公开图1实施例中所示的文本图像相似度评估方法。
本公开实施例还提供了一种非暂态计算机存储介质,该计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本图像相似度评估方法。其中,该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;该存储介质还可以包括上述种类的存储器的组合。
本公开开实施例还提供了一种计算机程序产品,包括计算机程序,其中,该计算机程序在被处理器执行时实现上述任一实施例中的文本图像相似度评估方法。
虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (7)
1.一种文本图像相似度评估方法,其特征在于,包括:
获取第一文本图像和第二文本图像;
分别对所述第一文本图像和所述第二文本图像进行划分处理,获取多个第一子文本图像和多个第二子文本图像;
在所述多个第一子文本图像中选择第一指定子文本图像;其中,所述第一指定子文本图像为所述多个第一子文本图像中任意的子文本图像;
在所述多个第二子文本图像中选择与所述第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,所述多个周围子文本图像与所述第二指定子文本图像的距离小于预定阈值;
分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度;
根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度;
根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度包括:
在所述多个相似度中选择最大相似度,将所述最大相似度作为所述第一指定子文本图像与所述第二文本图像的子相似度;
根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和所述第二文本图像的相似度;
根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和所述第二文本图像的相似度包括:
获取所述第一文本图像的中心的预定范围;
获取第一指定子文本图像在所述预定范围的面积大小;
根据所述面积大小确定所述第一指定子文本图像与所述第二文本图像的相似度的各个权重;
根据所述各个子相似度和对应的所述各个权重评估所述第一文本图像和所述第二文本图像的相似度。
2.根据权利要求1所述的文本图像相似度评估方法,其特征在于,获取第一文本图像和第二文本图像之后,所述方法还包括:
将所述第一文本图像和第二文本图像进行缩放处理,得到大小相同的第一文本图像和第二文本图像;
将大小相同的第一文本图像和第二文本图像转换为灰度图。
3.根据权利要求1所述的文本图像相似度评估方法,其特征在于,分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度包括:
将所述第一指定子文本图像、所述第二指定子文本图像、所述多个周围子文本图像输入至局部文本图像相似度估计模型得到所述多个相似度;
其中,所述局部文本图像相似度估计模型通过如下步骤训练得到:
获取多个文本语句、多个打印字体以及多个背景图片;
将所述多个文本语句、所述多个打印字体以及所述多个背景图片进行组合,获得多个第一训练文本图像;
对所述第一训练文本图像进行图像增强操作,形成第二训练文本图像;其中,所述增强操作至少包括如下之一的操作:裁剪、翻转、形变、调整大小;
根据预定规则从所述第二训练文本图像选择成对的相似度样本;
计算所述成对的相似度样本的相似度;
根据所述成对的相似度样本和所述成对的相似度样本的相似度对卷积神经网络进行训练得到所述局部文本图像相似度估计模型。
4.根据权利要求3所述的文本图像相似度评估方法,其特征在于,所述卷积神经网络包括依次连接的第一组卷积块、第二组卷积块、全连接层和sigmoid层;
所述第一组卷积块包括多个卷积层,每个卷积层由卷积、归一化、Relu函数激活层组成;
所述第二组卷积块包括多个卷积层,所述第二组卷积块中的每个卷积层的卷积核大小为前一层的倍数;其中,所述倍数大于等于2。
5.一种文本图像相似度评估装置,其特征在于,包括:
获取模块,用于获取第一文本图像和第二文本图像;
划分模块,用于分别对所述第一文本图像和所述第二文本图像进行划分处理,分别获取多个第一子文本图像和多个第二子文本图像;
第一选择模块,用于在所述多个第一子文本图像中选择第一指定子文本图像;其中,所述第一指定子文本图像为所述多个第一子文本图像中任意的子文本图像;
第二选择模块,用于在所述多个第二子文本图像中选择与所述第一指定子文本图像对应的第二指定子文本图像以及多个周围子文本图像;其中,所述多个周围子文本图像与所述第二指定子文本图像的距离小于预定阈值;
计算模块,用于分别计算所述第一指定子文本图像与所述第二指定子文本图像、所述多个周围子文本图像的多个相似度;
评估模块,用于根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度;
根据所述多个相似度评估所述第一文本图像和第二文本图像的相似度包括:
在所述多个相似度中选择最大相似度,将所述最大相似度作为所述第一指定子文本图像与所述第二文本图像的子相似度;
根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和所述第二文本图像的相似度;
根据所述多个第一子文本图像中任意子文本图像与所述第二文本图像的各个子相似度评估所述第一文本图像和所述第二文本图像的相似度包括:
获取所述第一文本图像的中心的预定范围;
获取第一指定子文本图像在所述预定范围的面积大小;
根据所述面积大小确定所述第一指定子文本图像与所述第二文本图像的相似度的各个权重;
根据所述各个子相似度和对应的所述各个权重评估所述第一文本图像和所述第二文本图像的相似度。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行上述权利要求1-4中任一所述的文本图像相似度评估方法。
7.一种计算机可读存储介质,存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,使所述处理器执行上述权利要求1-4中任一所述的文本图像相似度评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110663259.4A CN113255667B (zh) | 2021-06-16 | 2021-06-16 | 文本图像相似度评估方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110663259.4A CN113255667B (zh) | 2021-06-16 | 2021-06-16 | 文本图像相似度评估方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255667A CN113255667A (zh) | 2021-08-13 |
CN113255667B true CN113255667B (zh) | 2021-10-08 |
Family
ID=77187986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110663259.4A Active CN113255667B (zh) | 2021-06-16 | 2021-06-16 | 文本图像相似度评估方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255667B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962199B (zh) * | 2021-12-20 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备、存储介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146195A (zh) * | 2016-07-27 | 2017-09-08 | 深圳市量子视觉科技有限公司 | 球面图像拼接方法和装置 |
CN109241985A (zh) * | 2017-07-11 | 2019-01-18 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
CN111353419A (zh) * | 2020-02-26 | 2020-06-30 | 北京百度网讯科技有限公司 | 图像比对方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288067B (zh) * | 2017-09-12 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
-
2021
- 2021-06-16 CN CN202110663259.4A patent/CN113255667B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146195A (zh) * | 2016-07-27 | 2017-09-08 | 深圳市量子视觉科技有限公司 | 球面图像拼接方法和装置 |
CN109241985A (zh) * | 2017-07-11 | 2019-01-18 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
CN111353419A (zh) * | 2020-02-26 | 2020-06-30 | 北京百度网讯科技有限公司 | 图像比对方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113255667A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN111553406B (zh) | 基于改进yolo-v3的目标检测系统、方法及终端 | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN108647588A (zh) | 物品类别识别方法、装置、计算机设备和存储介质 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112613553B (zh) | 图片样本集生成方法、装置、计算机设备和存储介质 | |
CN108932455B (zh) | 遥感图像场景识别方法及装置 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
Weidmann et al. | A closer look at seagrass meadows: Semantic segmentation for visual coverage estimation | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN112926652A (zh) | 一种基于深度学习的鱼类细粒度图像识别方法 | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
CN113255667B (zh) | 文本图像相似度评估方法、装置、电子设备及存储介质 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN114078213A (zh) | 一种基于生成对抗网络的农田轮廓检测方法和装置 | |
CN114170231A (zh) | 基于卷积神经网络的图像语义分割方法、装置及电子设备 | |
WO2022127333A1 (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN111583322A (zh) | 一种基于深度学习的2d图像场景深度预测及语义分割方法和系统 | |
CN111382791A (zh) | 深度学习任务处理方法、图像识别任务处理方法和装置 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
CN106709490A (zh) | 一种字符识别方法和装置 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
CN114359739B (zh) | 目标识别方法及装置 | |
CN110852102A (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |