CN115410191A - 文本图像识别方法、装置、设备和存储介质 - Google Patents

文本图像识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115410191A
CN115410191A CN202211365211.6A CN202211365211A CN115410191A CN 115410191 A CN115410191 A CN 115410191A CN 202211365211 A CN202211365211 A CN 202211365211A CN 115410191 A CN115410191 A CN 115410191A
Authority
CN
China
Prior art keywords
character
target
image
ink
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211365211.6A
Other languages
English (en)
Other versions
CN115410191B (zh
Inventor
陈景宇
许佳
唐燕
谭斌瑛
李嘉俊
周宏浩
姚璐
雷凤毛
钟力立
陈骥晗
杨康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202211365211.6A priority Critical patent/CN115410191B/zh
Publication of CN115410191A publication Critical patent/CN115410191A/zh
Application granted granted Critical
Publication of CN115410191B publication Critical patent/CN115410191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本申请涉及图像处理领域,公开了一种文本图像识别方法、装置、设备和存储介质,该方法包括:获取目标图像,并在目标图像中划分基准区域;计算基准区域内各字符的墨迹坐标;根据坐标和基准区域确定目标感兴趣区域;识别目标感兴趣区域中的字符串,并在识别出字符串为页码时确定目标图像为文本图像。本申请实施例通过对目标图像划分基准区域,并从基准区域中确定目标感兴趣区域,从而根据目标感兴趣区域中字符串的识别结果来实现文本图像的判断,在识别出该字符串为页码时确定目标图像为文本图像,从而提高了文本图像识别的准确度,提高后续对文本图像的分类管理效率。

Description

文本图像识别方法、装置、设备和存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种文本图像识别方法、装置、设备和存储介质。
背景技术
如银行领域等会形成大量打印文本类文件的业务场景中,业务过程中所产生的文本文件通常记录有客户及业务员的签名、公章等信息,且该类文件往往通过拍摄或扫描途径转换成数字图像存储于数据库中备查。但在实际应用过程中,这些文本图像常常和证件、人像等非文本图像混杂在一起,难以完全准确记录其类别,也就更难对数据进行分类分权限管理,导致文件管理效率低。
目前,并没有可以用来识别页码的非深度学习的一般编程方法,而一些基于深度学习的光学字符识别(OCR)方法有着较高的识别准确率,可以提取图像中的文字,但该方法不能精准判定有字符存在的图像即为文本图像。因此,如何实现文本图像的精准识别是个亟需解决的问题。
发明内容
有鉴于此,为了解决现有技术的问题,本申请提供了一种可应用于如金融科技等领域或其他领域的文本图像识别方法、装置、设备和存储介质。
第一方面,本发明提供一种文本图像识别方法,包括:
获取目标图像,并在所述目标图像中划分基准区域;
计算所述基准区域内各字符的墨迹坐标;
根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;
识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
在可选的实施方式中,所述方法还包括:若识别出所述字符串不为页码,则确定所述目标图像为非文本图像。
在可选的实施方式中,所述识别所述目标感兴趣区域中的字符串,包括:
剔除所述字符串中的预定字符;
判断剔除后的字符串是否符合预设条件;其中,所述预设条件为所述字符串为预定字符组合,且所述字符串中的纯数字子串的数量不大于预定字符数;其中,所述预定字符组合为纯数字字符或数字字符和预定分隔符组合;
若所述字符串符合预设条件,则确定所述字符串为页码;
若所述字符串不符合预设条件,则确定所述字符串不为页码。
在可选的实施方式中,所述在所述目标图像中划分基准区域,包括:
将所述目标图像转换为灰度图像,并所述灰度图像中的像素值进行预处理,所述预处理为将大于预定阈值的像素值设置为预定像素值;
基于所述目标图像对应的高度值和宽度值,按照预设的对角坐标计算公式计算得到第一对角坐标;
基于所述第一对角坐标,确定所述目标图像中的基准区域。
在可选的实施方式中,所述计算所述基准区域内各字符的墨迹坐标,包括:
对所述基准区域内的图像进行预处理,得到像素矩阵,所述预处理包括黑白反转、形态学膨胀处理和二值化处理;
分别对所述像素矩阵中的每行值进行求和处理,得到投影向量,并对所述投影向量进行二值化处理;
将二值化处理后的所述投影向量与零元素组合形成两个子投影向量;
计算两个所述子投影向量之间的差异向量;
基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标。
在可选的实施方式中,所述基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标,包括:
若所述差异向量的值为1,则所述差异向量对应的像素位置为所述基准区域内各个字符的顶端墨迹坐标;
若所述差异向量的值为-1,则所述差异向量对应的像素位置为所述基准区域内各个字符的尾端墨迹坐标。
在可选的实施方式中,在所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域之前,还包括:
计算各所述字符对应的顶端墨迹坐标和尾端墨迹坐标的差值,得到字符大小;
从各所述字符中,剔除所述字符大小小于预定的字符大小阈值的字符;剔除后的各所述字符用于基于对应的墨迹坐标确定目标感兴趣区域。
在可选的实施方式中,所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域,包括:
获取所述基准区域在长度方向上的图像最底端的字符对应的顶端墨迹坐标和尾端墨迹坐标;
根据预定的横坐标计算公式,计算得到两个横坐标;
将两个所述横坐标分别与所述顶端墨迹坐标和所述尾端墨迹坐标组合,得到第二对角坐标;
基于所述第二对角坐标,确定目标感兴趣区域。
在可选的实施方式中,所述方法还包括:
若未识别到所述目标感兴趣区域中的字符串或所识别到的字符串中字符对应的最高置信度小于预设置信度阈值,则确定所述目标图像为非文本图像。
第二方面,本发明提供一种文本图像识别装置,包括:
划分模块,用于获取目标图像,并在所述目标图像中划分基准区域;
计算模块,用于计算所述基准区域内各字符的墨迹坐标;
确定模块,用于根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;
识别模块,用于识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
第三方面,本发明提供一种计算机设备,所述计算机设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施前述的文本图像识别方法。
第四方面,本发明提供一种计算机存储介质,其存储有计算机程序,所述计算机程序被执行时,实施根据前述的文本图像识别方法。
本申请实施例具有如下有益效果:
本申请实施例提供了一种文本图像识别方法,包括获取目标图像,并在目标图像中划分基准区域;计算基准区域内各字符的墨迹坐标;根据坐标和基准区域确定目标感兴趣区域;识别目标感兴趣区域中的字符串,基于字符串,确定目标图像是否为文本图像。本申请实施例通过对目标图像划分基准区域,并从基准区域中确定目标感兴趣区域,从而根据目标感兴趣区域中字符串的识别结果来实现文本图像的判断,在识别出该字符串为页码时确定目标图像为文本图像,实现对文本图像的精准识别,提高后续对文本图像的分类管理效率,节约人力管理成本。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例中文本图像识别方法的第一个实施方式示意图;
图2示出了本申请实施例中文本图像识别方法的第二个实施方式示意图;
图3示出了本申请实施例中文本图像识别方法的第三个实施方式示意图;
图4示出了本申请实施例中投影向量的获取过程示意图;
图5示出了本申请实施例中文本图像识别方法的第四个实施方式示意图;
图6示出了本申请实施例中文本图像识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
请参阅图1,本申请实施例提供了一种文本图像识别方法,下面对该方法进行详细说明。
S10,获取目标图像,并在目标图像中划分基准区域。
获取待检测的目标图像,该目标图像包括但不限于存储于数据库中的通过拍摄或扫描途径所转换成的数字图像、证件图像、人像图像等。
在该目标图像中划分基准区域,其基准区域的划分数量、大小等在此不做限定。例如,可将该目标图像的整个图像区域作为基准区域,或将待检测区域划分为多个基准区域,或在该待检测区域中随意划分任意数量和大小的区域;其中,若划分得到多个基准区域,各个基准区域并不存在重叠,且多个基准区域中的至少一个基准区域包含有该目标图像的宽度方向边缘部分。
可选的,在获取到目标图像时,可首先识别目标图像中的字符,若在目标图像中未识别到字符,则确定目标图像为非文本图像。
在一实施方式中,可在目标图像中仅划分一个基准区域,以相应减少计算量,提高效率,具体地,如图2所示,步骤S10具体包括如下步骤:
S11,将目标图像转换为灰度图像,并灰度图像中的像素值进行预处理,预处理为将大于预定阈值的像素值设置为预定像素值。
首先对目标图像进行灰度处理,以将目标图像转换为灰度图像,从而减少后续步骤的计算量,提高文本图像识别的效率。
原本的目标图像是由红绿蓝三种颜色组成的,也即是每个像素点由三个值,灰度化处理即使将每个像素点用一个值(0-255)来表示颜色的深度,本实施例在灰度处理过程中,仅保留目标图像的蓝色像素,即每个像素点由目标图像的蓝色通道的值来表示,得到对应的灰度图像;而后对该灰度图像中的像素值进行预处理,其中,该预处理为将大于预定阈值的像素值设置为预定像素值。也即是,对灰度图像进行阈值化处理,用于排除部分像素的干扰,以提高后续文本图像识别的准确度。
在本实施例中,其预处理的过程为,提取灰度图像中的像素值大于200的像素,并将这些像素的像素值统一设置为255。
S12,基于目标图像对应的高度值和宽度值,按照预设的对角坐标计算公式计算得到第一对角坐标。
获取目标图像对应的高度值和宽度值,即计算该目标图像的高度和宽度,将宽度值和高度值代入至预设对角坐标计算公式中,以得到两个点坐标,且所得到的两个点坐标为对角坐标。
其中,预设对角坐标计算公式为:
Figure F_221027161049871_871859001
其中,
Figure M_221027161052551_551535001
是目标图像的宽度值,
Figure M_221027161052584_584762002
是目标图像的高度值;
Figure M_221027161052600_600363003
Figure M_221027161052631_631623004
Figure M_221027161052662_662848005
Figure M_221027161052694_694117006
这四个值分别表示对角坐标中的点(
Figure M_221027161052709_709736007
Figure M_221027161052741_741028008
)和点(
Figure M_221027161052773_773668009
Figure M_221027161052821_821071010
)。
S13,基于第一对角坐标,确定目标图像中的基准区域。
根据该对角坐标,即可确定目标图像中的基准区域,即以对角坐标为基准点,将对角坐标的横坐标差值的绝对值和纵坐标差值的绝对值作为矩形中两个不相等的边长的长度,以构建一个矩形,该矩形即为基准区域。简言之,将第一对角坐标中一个点的横坐标和纵坐标分别与另一个点的纵坐标和横坐标对应组合,形成另一对角坐标,本实施例中将其作为第三对角坐标,进而,分别经过第一对角坐标和第三对角坐标中四个点任两点的直线所包围的区域为基准区域。
也即是,以对角坐标中两个点的坐标构建另一对角坐标,其中,两个对角坐标之间可对应形成对角线,该两个对角线上对应的顶点,其纵坐标或横坐标的值相等。
例如,若第一对角坐标分别为(
Figure F_221027161050078_078387002
Figure F_221027161050196_196540003
),(
Figure F_221027161050290_290286004
Figure F_221027161050387_387496005
),则将可得到第三对角坐标(
Figure F_221027161050512_512474006
Figure F_221027161050715_715630007
),(
Figure F_221027161050823_823537008
Figure F_221027161050948_948505009
),第三对角坐标和第一对角坐标之间所聚合的区域即为基准区域。
S20,计算基准区域内各字符的墨迹坐标。
根据基准区域或目标图像建立直角坐标系,采用预定的OCR识别模型识别基准区域中的字符,并根据该直角坐标系计算基准区域内各个字符的墨迹坐标,即计算各个字符对应的黑色像素的坐标。
在一实施方式中,如图3所示,步骤S20具体包括如下步骤:
S21,预处理基准区域内的图像,得到像素矩阵,预处理包括黑白反转、形态学膨胀处理和二值化处理。
对基准区域内的图像部分进行预处理,其中,该预处理包括黑白反转、形态学膨胀处理和二值化处理。
具体地,先对基准区域内的图像部分进行黑白反转处理,黑白反转处理过程中,通过按照预定计算公式计算其基准区域内的图像部分的像素灰度值实现黑白反转处理,其预定计算公式如下:
Figure M_221027161052852_852316001
其中,
Figure M_221027161052883_883584001
表示基准区域内的图像部分中的任意像素的灰度值;i、j分别是各个像素的x坐标值和y坐标值。
而后,对黑白反转后的基准区域中的图像部分进行形态学膨胀处理,其中,该形态学膨胀处理过程即为对该图像进行卷积处理,本实施例中进行卷积处理时,所采用的卷积的尺寸在此不做限定,例如,其卷积尺寸可以为3*3。
进一步,对卷积后的图像部分进行二值化处理,其中,二值化处理过程中将图像中像素值大于75的像素以数字“1”进行表示,反之,则将对应的像素以数字“0”进行表示,从而可以将基准区域中的图像部分转换为对应的矩阵,该矩阵中各个数值只有“0”和“1”,即二值化处理后得到一个像素矩阵,即二值化图像。
S22,分别对像素矩阵中的每行值进行求和处理,得到投影向量,并对投影向量进行二值化处理。
如图4所示,对像素矩阵中的每行值进行横向求和处理,以得到投影向量。在本实施例中,该横向求和是将矩阵中的每行值进行求和,矩阵中每行都对应得到一个和值。进而,得到一个N*1向量(V),N表示向量维度,N为正整数。
其中,横向求和处理可以采用numpy库基础的矩阵运算,具体为numpy.sum(binary_matrix, axis=1)。其中binary_matrix为输入的像素矩阵。axis=1是函数的参数设定为横向求和。
进一步的,该投影向量再次以“0”为边界进行二值化的操作,也即是,以“0”为阈值对投影向量进行二值化处理。例如,其具体过程如图4所示。
S23,将二值化处理后的投影向量与零元素组合形成两个子投影向量。
在二值化处理后的投影向量(V)与零元素进行组合,形成两个子投影向量,即在该二值化处理后的投影向量的首尾追加零元素。可以理解,该过程即是使得投影向量对应的原始波形向横坐标的正方向平移一个单位,得到平移后的波形,将平移后的波形减去原始波形,对应得到脉冲形式的波形图;也即是,在经过预处理后的目标图像中查找到变化明显的区域,即像素明显变化的点或区域;简言之,在预处理后的目标图像中查找黑色像素与白色像素之间的过渡位置,即基于黑色像素与白色像素之间接壤的边缘位置可得到对应的子投影向量;进而,在子投影向量中,该边缘位置对应的向量元素为1,其余位置对应的向量元素为0。
其中,两个子投影向量
Figure F_221027161051107_107689010
Figure F_221027161051222_222434011
具体表示如下:
Figure M_221027161052930_930427001
S24,计算两个子投影向量之间的差异向量。
计算两个子投影向量之间的差异向量(
Figure M_221027161052963_963237001
),其具体如下:
Figure M_221027161052994_994882001
也即是,计算两个子投影向量之间的相似性,其具体可通过计算两个子投影向量之间的余弦相似度得到对应的差异向量的值。
S25,基于差异向量,确定基准区域内各个字符的墨迹坐标。
若所得到的差异向量的值为1,则差异向量对应的像素位置为基准区域内各个字符的顶端墨迹坐标;若差异向量的值为-1,则差异向量对应的像素位置为基准区域内各个字符的尾端墨迹坐标。
进而,
Figure M_221027161053041_041759001
值为1所对应的像素位置的纵坐标是基准区域内各字符对应的墨迹(黑色像素)的顶端墨迹纵坐标(
Figure F_221027161051316_316188012
),
Figure M_221027161053073_073023002
值为-1所对应的像素位置的纵坐标则为字符的尾端墨迹纵坐标(
Figure F_221027161051420_420169013
)。
S30,根据墨迹坐标和基准区域确定目标感兴趣区域。
根据各个字符的墨迹坐标和基准区域即可确定目标感兴趣区域,在此之前,需要对各个字符进行过滤。
计算各字符对应的顶端墨迹坐标和尾端墨迹坐标的差值,得到字符大小;从各字符中,剔除字符大小小于预定的字符大小阈值的字符;该剔除后的各个字符用于基于与各个字符对应的墨迹坐标确定目标感兴趣区域;也即是,根据剔除后的各个字符对应的墨迹坐标和基准区域确定目标感兴趣区域。
具体地,计算各个字符对应的墨迹坐标的顶端墨迹坐标和尾端墨迹坐标的差值,得到该字符对应的字符大小,将该差值与预定的字符大小阈值进行比较,从而剔除掉差值小于字符大小阈值的字符,以达到消除噪声的目的。其中,该预定的字符大小阈值(A)的具体取值可根据下述公式进行设定:
A=
Figure M_221027161053104_104293001
其中,w为目标图像的宽度值。
在一实施方式中,如图5所示,步骤S30具体包括如下步骤:
S31,获取基准区域在长度方向上的图像最底端的字符对应的顶端墨迹坐标和尾端墨迹坐标。
在一实施方式中,以文本图像中的页码行为页面最后一行进行说明,则在此条件下,仅需要将目标图像中在长度方向上的中下部分特定区域作为基准区域,并将基准区域内的页码行(即最后一个字符行)作为目标感兴趣区域,即可根据该目标感兴趣区域中的页码确定该目标图像是否为文本图像。
进而,获取基准区域沿长度方向上图像最底端的字符对应的顶端墨迹坐标和尾端墨迹坐标,即获取图像最底端的字符在长度方向上墨迹的纵坐标:(
Figure F_221027161051513_513968014
),(
Figure F_221027161051814_814748015
)。根据该顶端墨迹坐标和尾端墨迹坐标即可确定该目标图像中最后一个字符行的宽度,即可确定目标感兴趣区域的宽度。
S32,根据预定的横坐标计算公式,计算得到两个横坐标。
根据预定的横坐标计算公式,计算出目标感兴趣区域(ROI区域)的顶点对应的横坐标。其中,预定的横坐标计算公式如下:
Figure M_221027161053151_151163001
其中,
Figure M_221027161053198_198057001
Figure M_221027161053244_244921002
分别为目标感兴趣区域的顶点的横坐标。
S33,将两个横坐标分别与顶端墨迹坐标和尾端墨迹坐标组合,得到第二对角坐标。
S34,基于第二对角坐标,确定目标感兴趣区域。
将所得到的两个横坐标分别和顶端墨迹坐标和尾端墨迹坐标进行组合,即两个横纵坐标互相组合,即可得到两个对角坐标,本实施例中将该对角坐标作为第二对角坐标,两个对角坐标所围起来的区域即为目标感兴趣区域。
具体地,
Figure M_221027161053276_276145001
Figure M_221027161053307_307426002
Figure M_221027161053338_338655003
Figure M_221027161053372_372795004
这四个值可分别组合所得到的四个点坐标,以此作为目标感兴趣区域的四个顶点坐标:(
Figure M_221027161053388_388957005
Figure M_221027161053420_420209006
)、(
Figure M_221027161053467_467094007
Figure M_221027161053498_498310008
)、(
Figure M_221027161053529_529601009
Figure M_221027161053545_545192010
)、(
Figure M_221027161053576_576473011
Figure M_221027161053607_607688012
);根据该四个顶点坐标即可确定目标感兴趣区域的大小和位置。
S40,识别目标感兴趣区域中的字符串,并在识别出字符串为页码时确定目标图像为文本图像。
采用OCR识别模型识别目标感兴趣区域中的字符串及其字符串中各个字符的置信度,根据该字符串中字符的类型及其置信度,确定目标图像是否为文本图像。其中,在采用OCR识别模型识别字符串中各个字符时,该OCR识别模型在输出该字符的识别结果的同时输出该字符对应的置信度,置信度表示该OCR模型对该字符识别结果的信心程度。
可选的,若未识别到目标感兴趣区域中的字符串或所识别到的字符串中字符对应的最高置信度小于预设置信度阈值,则确定目标图像为非文本图像。其中,预设置信度阈值在此不做限定,例如,可设定该预设置信度阈值为0.7。
在一实施方式中,若识别出目标感兴趣区域中的字符串不为页码,则确定目标图像为非文本图像。
在一实施方式中,判断字符串是否为页码的过程为:剔除字符串中的预定字符。其中,预定字符包括但不限于间隔符、字母等,如“一”、“-”、“_”字符;具体在此不做限定。
而后,判断经剔除处理后的字符串是否符合预设条件;若字符串符合该预设条件,则确定字符串为页码;若字符串不符合预设条件,则确定字符串不为页码。其中,预设条件为字符串为预定字符组合,且字符串中的纯数字子串的数量不大于预定字符数;其中,该预定字符组合为纯数字字符或数字字符和预定分隔符的组合。在本实施例中,预定分隔符为“/”分隔符。
在本实施例中,若该字符串确定为页码,即可确定该目标图像为文本图像,反之,则为非文本图像。
本申请实施例对目标图像划分基准区域,并根据基准区域中各字符的墨迹坐标确定目标感兴趣区域,识别目标感兴趣区域中的字符串,并对字符串进行页码判断来确定目标图像是否为文本图像,由于页码是文本类图像明显区别于其他类别图像的特征,因此,根据页码来识别文本图像能够实现文本图像的精准识别,并提高文本图像的识别效率,方便后续对文本图像进行分类管理,提高文件管理效率,节省人力成本。
实施例2
请参照图6,本申请实施例提供了一种文本图像识别装置,该装置包括:
划分模块61,用于获取目标图像,并在所述目标图像中划分基准区域;
计算模块62,用于计算所述基准区域内各字符的墨迹坐标;
确定模块63,用于根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;
识别模块64,用于识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
上述的文本图像识别装置对应于实施例1的文本图像识别方法;实施例1中的任何可选项也适用于本实施例,这里不再详述。
本申请实施例还提供了一种计算机设备,该所述计算机设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施上述实施例的文本图像识别方法。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据(比如墨迹坐标、字符串等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述实施例的文本图像识别方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (12)

1.一种文本图像识别方法,其特征在于,包括:
获取目标图像,并在所述目标图像中划分基准区域;
计算所述基准区域内各字符的墨迹坐标;
根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;
识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
2.根据权利要求1所述的文本图像识别方法,其特征在于,所述方法还包括:若识别出所述字符串不为页码,则确定所述目标图像为非文本图像。
3.根据权利要求1所述的文本图像识别方法,其特征在于,所述识别所述目标感兴趣区域中的字符串,包括:
剔除所述字符串中的预定字符;
判断剔除后的字符串是否符合预设条件;其中,所述预设条件为所述字符串为预定字符组合,且所述字符串中的纯数字子串的数量不大于预定字符数;其中,所述预定字符组合为纯数字字符或数字字符和预定分隔符组合;
若所述字符串符合预设条件,则确定所述字符串为页码;
若所述字符串不符合预设条件,则确定所述字符串不为页码。
4.根据权利要求1所述的文本图像识别方法,其特征在于,所述在所述目标图像中划分基准区域,包括:
将所述目标图像转换为灰度图像,并所述灰度图像中的像素值进行预处理,所述预处理为将大于预定阈值的像素值设置为预定像素值;
基于所述目标图像对应的高度值和宽度值,按照预设的对角坐标计算公式计算得到第一对角坐标;
基于所述第一对角坐标,确定所述目标图像中的基准区域。
5.根据权利要求1所述的文本图像识别方法,其特征在于,所述计算所述基准区域内各字符的墨迹坐标,包括:
对所述基准区域内的图像进行预处理,得到像素矩阵,所述预处理包括黑白反转、形态学膨胀处理和二值化处理;
分别对所述像素矩阵中的每行值进行求和处理,得到投影向量,并对所述投影向量进行二值化处理;
将二值化处理后的所述投影向量与零元素组合形成两个子投影向量;
计算两个所述子投影向量之间的差异向量;
基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标。
6.根据权利要求5所述的文本图像识别方法,其特征在于,所述基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标,包括:
若所述差异向量的值为1,则所述差异向量对应的像素位置为所述基准区域内各个字符的顶端墨迹坐标;
若所述差异向量的值为-1,则所述差异向量对应的像素位置为所述基准区域内各个字符的尾端墨迹坐标。
7.根据权利要求6所述的文本图像识别方法,其特征在于,在所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域之前,还包括:
计算各所述字符对应的顶端墨迹坐标和尾端墨迹坐标的差值,得到字符大小;
从各所述字符中,剔除所述字符大小小于预定的字符大小阈值的字符;剔除后的各所述字符用于基于对应的墨迹坐标确定目标感兴趣区域。
8.根据权利要求6或7所述的文本图像识别方法,其特征在于,所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域,包括:
获取所述基准区域在长度方向上的图像最底端的字符对应的顶端墨迹坐标和尾端墨迹坐标;
根据预定的横坐标计算公式,计算得到两个横坐标;
将两个所述横坐标分别与所述顶端墨迹坐标和所述尾端墨迹坐标组合,得到第二对角坐标;
基于所述第二对角坐标,确定目标感兴趣区域。
9.根据权利要求1所述的文本图像识别方法,其特征在于,所述方法还包括:
若未识别到所述目标感兴趣区域中的字符串或所识别到的字符串中字符对应的最高置信度小于预设置信度阈值,则确定所述目标图像为非文本图像。
10.一种文本图像识别装置,其特征在于,包括:
划分模块,用于获取目标图像,并在所述目标图像中划分基准区域;
计算模块,用于计算所述基准区域内各字符的墨迹坐标;
确定模块,用于根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;
识别模块,用于识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
11.一种计算机设备,其特征在于,所述计算机设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施权利要求1-9中任一项所述的文本图像识别方法。
12.一种计算机存储介质,其特征在于,其存储有计算机程序,所述计算机程序被执行时,实施根据权利要求1-9中任一项所述的文本图像识别方法。
CN202211365211.6A 2022-11-03 2022-11-03 文本图像识别方法、装置、设备和存储介质 Active CN115410191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211365211.6A CN115410191B (zh) 2022-11-03 2022-11-03 文本图像识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211365211.6A CN115410191B (zh) 2022-11-03 2022-11-03 文本图像识别方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115410191A true CN115410191A (zh) 2022-11-29
CN115410191B CN115410191B (zh) 2023-02-03

Family

ID=84169255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211365211.6A Active CN115410191B (zh) 2022-11-03 2022-11-03 文本图像识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115410191B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546810A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334461A (ja) * 2003-05-07 2004-11-25 Mitsubishi Electric Corp 文字認識装置及び文字認識プログラム
US20120008864A1 (en) * 2010-07-06 2012-01-12 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer readable medium
JP2012216094A (ja) * 2011-03-31 2012-11-08 Fujifilm Corp 校正装置、校正方法及びプログラム
CN106503732A (zh) * 2016-10-13 2017-03-15 北京云江科技有限公司 文本图像与非文本图像的分类方法和分类系统
CN107958253A (zh) * 2018-01-18 2018-04-24 浙江中控技术股份有限公司 一种图像识别的方法和装置
CN108959462A (zh) * 2018-06-19 2018-12-07 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
US20190188528A1 (en) * 2016-12-08 2019-06-20 Tencent Technology (Shenzhen) Company Limited Text detection method and apparatus, and storage medium
US20190205690A1 (en) * 2018-01-04 2019-07-04 Wipro Limited System and method for performing optical character recognition
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111627511A (zh) * 2020-05-29 2020-09-04 北京大恒普信医疗技术有限公司 眼科报告内容识别方法及装置、可读存储介质
US20200410686A1 (en) * 2019-06-26 2020-12-31 Adobe Inc. Automatic sizing and placement of text within a digital image
CN112507758A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 答题卡字符串识别方法、装置、终端和计算机存储介质
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN114387600A (zh) * 2022-01-19 2022-04-22 中国平安人寿保险股份有限公司 文本特征识别方法、装置、计算机设备和存储介质
US20220198182A1 (en) * 2020-12-17 2022-06-23 Abbyy Development Inc. Methods and systems of field detection in a document
WO2022134831A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 证件图片生成方法、装置、设备及存储介质
CN115273115A (zh) * 2022-07-25 2022-11-01 北京金山数字娱乐科技有限公司 一种文档元素标注方法、装置、电子设备和存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334461A (ja) * 2003-05-07 2004-11-25 Mitsubishi Electric Corp 文字認識装置及び文字認識プログラム
US20120008864A1 (en) * 2010-07-06 2012-01-12 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer readable medium
JP2012216094A (ja) * 2011-03-31 2012-11-08 Fujifilm Corp 校正装置、校正方法及びプログラム
CN106503732A (zh) * 2016-10-13 2017-03-15 北京云江科技有限公司 文本图像与非文本图像的分类方法和分类系统
US20190188528A1 (en) * 2016-12-08 2019-06-20 Tencent Technology (Shenzhen) Company Limited Text detection method and apparatus, and storage medium
US20190205690A1 (en) * 2018-01-04 2019-07-04 Wipro Limited System and method for performing optical character recognition
CN107958253A (zh) * 2018-01-18 2018-04-24 浙江中控技术股份有限公司 一种图像识别的方法和装置
CN108959462A (zh) * 2018-06-19 2018-12-07 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
US20200410686A1 (en) * 2019-06-26 2020-12-31 Adobe Inc. Automatic sizing and placement of text within a digital image
CN112507758A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 答题卡字符串识别方法、装置、终端和计算机存储介质
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111627511A (zh) * 2020-05-29 2020-09-04 北京大恒普信医疗技术有限公司 眼科报告内容识别方法及装置、可读存储介质
US20220198182A1 (en) * 2020-12-17 2022-06-23 Abbyy Development Inc. Methods and systems of field detection in a document
WO2022134831A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 证件图片生成方法、装置、设备及存储介质
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN114387600A (zh) * 2022-01-19 2022-04-22 中国平安人寿保险股份有限公司 文本特征识别方法、装置、计算机设备和存储介质
CN115273115A (zh) * 2022-07-25 2022-11-01 北京金山数字娱乐科技有限公司 一种文档元素标注方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546810A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置
CN115546810B (zh) * 2022-11-29 2023-04-11 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置

Also Published As

Publication number Publication date
CN115410191B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP5844783B2 (ja) テキスト領域を含むグレースケール文書画像を処理する方法、グレースケール文書画像の少なくともテキスト領域を二値化する方法、グレースケール文書画像においてグリッドを形成するテーブルの抽出方法及びプログラム
US7965894B2 (en) Method for detecting alterations in printed document using image comparison analyses
CN108108734B (zh) 一种车牌识别方法及装置
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN110210297B (zh) 报关单图像中文字定位与提取的方法
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112528998B (zh) 证件图像处理方法、装置、电子设备及可读存储介质
CN111259891B (zh) 一种自然场景下身份证识别方法、装置、设备和介质
CN112507782A (zh) 文本图像的识别方法及装置
US20120082372A1 (en) Automatic document image extraction and comparison
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
JP2011248702A (ja) 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
CN113033562A (zh) 一种图像处理方法、装置、设备及存储介质
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN110135288B (zh) 一种电子证照的快速核对方法及装置
Shehu et al. Character recognition using correlation & hamming distance
US11176363B2 (en) System and method of training a classifier for determining the category of a document
CN111814780B (zh) 一种票据图像处理方法、装置、设备及存储介质
CN112818983A (zh) 一种利用图片相识度判断字符倒置的方法
US9424488B2 (en) Applying a segmentation engine to different mappings of a digital image
CN111445402A (zh) 一种图像去噪方法及装置
CN109934215B (zh) 一种身份证识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant