CN113435331B - 图像文字识别方法、系统、电子设备及存储介质 - Google Patents
图像文字识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113435331B CN113435331B CN202110717796.2A CN202110717796A CN113435331B CN 113435331 B CN113435331 B CN 113435331B CN 202110717796 A CN202110717796 A CN 202110717796A CN 113435331 B CN113435331 B CN 113435331B
- Authority
- CN
- China
- Prior art keywords
- image
- target image
- feature
- slice
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005260 corrosion Methods 0.000 claims description 9
- 230000007797 corrosion Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种图像文字识别方法、系统、电子设备及存储介质,包括:对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集表征所述目标图像的轮廓信息;对所述目标图像进行特征提取,得到多个特征集,所述特征集表征所述目标图像中的格式信息及语义信息;将所述第一位置坐标集及特征集输入至预设的识别模型,获取目标图像的识别结果。通过像素特征获取所述图像切片所包括文字对应的字体、大小、颜色等格式信息。通过语义特征获取所述图像切片所包括文字对应的在语言上所蕴含的意义。通过对所述目标图像进行轮廓检测,得到第一位置坐标集,以便于对折痕、倾斜、扭曲等情况的目标图像中的各种角度以及各种弯曲形状文字的抽取。
Description
技术领域
本发明涉及图像处理的技术领域,尤其涉及一种图像文字识别方法、系统、电子设备及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指将一幅图像中的文字信息识别出来的技术,通过光学设备捕捉图像进行检测并对文字进行识别,将视觉和识字能力延伸至机器上。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业等领域。例如,在保险业务的一种医疗保险理赔场景中,需识别用户使用手机拍摄上传的医疗票据中的文字,以实现理赔信息精准提取。
然而,由于照片图像可能会存在有折痕、阴影、倾斜、扭曲及板式复杂多样等情况,使用上述图像检测方式无法达到精准识别效果。例如,无法识别个别较为扭曲的文字或遗漏被阴影遮挡的文字,导致图像文字信息部分遗漏或无法识别。又例如,采用语义分割的图像检测方式,只会将同一类型的目标所在的整体区域划分出来,可能会导致较为紧密的多行文字无法有效地区分开,结果产生多行检测为一行的情况,影响后续识别过程,导致无法对图像上文字进行精准提取。
发明内容
本发明的目的是提供一种图像文字识别方法、系统、电子设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种图像文字识别方法,包括:
对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息;
对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息;
对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片;
将所述第一位置坐标集、特征集及编号输入至预设的识别模型,获取所述目标图像的识别结果。
优选地,所述对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息,还包括:
对所述目标图像进行二值化处理,得到二值化图像;
对所述二值化图像进行横向线检测,得到多个点坐标;
根据多个所述点坐标生成所述第一位置坐标集。
优选地,所述对所述二值化图像进行横向线检测,得到多个点坐标,还包括:
采用形状为n*1的卷积核矩阵对所述二值化图像进行膨胀和腐蚀处理,以消除非横向线条像素,得到横向线条上的多个点坐标;其中,n用于表征行,1用于表征列。
优选地,所述对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息,还包括:
对所述目标图像进行分割,得到多个图像切片,且每个所述图像切片内包含至少一个字符;
对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征;
对每个所述图像切片内包含的字符进行语义识别,得到对应的语义特征;
根据所述像素特征和语义特征生成对应的所述特征集。
优选地,所述对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征,还包括:
将每个所述图像切片输入CNN模型;
利用CNN模型中的卷积层对所述图像切片进行卷积特征提取,得到初始特征;
利用所述CNN模型中的池化层对所述初始特征进行降维,得到降维特征;
利用CNN模型中的全连接层输出所述降维特征,得到像素特征。
优选地,所述对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片,还包括:
根据所述区域框所覆盖面积以及所述区域框内包含的全部所述图像切片所覆盖的面积,得到所述区域框的密度及密度阈值,所述密度阈值用于表征所述区域框内包含所述目标图像中全部的图像切片时的密度;
当所述区域框的密度小于所述密度阈值时,对所述区域框进行重新划分;
当所述区域框的密度大于所述密度阈值,且所述区域框达到所述目标图像的边界时,对所述区域框进行划分。
为实现上述目的,本发明还提供一种图像文字识别系统,包括:
检测单元,用于对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息;
提取单元,对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息;
划分单元,用于对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片;
识别单元,用于将所述第一位置坐标集、特征集及编号输入至预设的识别模型,获取所述目标图像的识别结果。
优选地,所述检测单元包括:
处理模块,用于对所述目标图像进行二值化处理,得到二值化图像;
横向线检测模块,用于对所述二值化图像进行横向线检测,得到多个点坐标;
生成模块,用于根据多个所述点坐标生成所述第一位置坐标集。
为实现上述目的,本发明还提供一种电子设备,包括:
存储器,存储有计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现如上述任意一项所述的图像文字识别方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现如上述任意一项所述的图像文字识别方法。
上述技术方案的有益效果:
本发明提供一种图像文字识别方法、系统、电子设备及存储介质,通过像素特征获取所述图像切片所包括文字对应的字体、大小、颜色等格式信息,通过语义特征获取所述图像切片所包括文字对应的在语言上所蕴含的意义(语义信息)。通过对所述目标图像进行轮廓检测,得到第一位置坐标集,以便于对折痕、倾斜、扭曲等情况的目标图像中的各种角度以及各种弯曲形状文字的抽取。通过对多个所述图像切片进行区域框划分,并对每个区域框进行编号,以便于对目标图像进行板式布局结构的识别以及对识别结果进行文档结构的存储。
附图说明
图1为本发明实施例一的图像文字识别方法的流程示意图;
图2为本发明实施例一的轮廓检测的流程示意图;
图3为本发明实施例二的图像文字识别系统的功能模块图;
图4为本发明实施例二的检测单元的功能模块图;
图5为本发明实施例三的图像文字识别方法的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
实施例一
请参阅图1,其为本实施例一的图像文字识别方法的流程示意图,从图中可以看出,具体包括S100-S400步骤:
S100:对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息。
本实施例执行主体可以为终端设备,例如用户使用的移动终端等;或,执行主体也可以为服务器,在接收到终端设备发送的目标图像后进行处理。
在示例性的实施例中,所述目标图像是指待进行文字识别的图像。所述目标图像可由用户从存储的图像中选择上传,也可以是用户利用移动终端实时拍摄的照片或实时扫描的图片等,具体不作限定。特别的,在用户利用移动终端实时拍摄的照片或实时扫描的图片等采集所述目标图像的方式时,所采集到的所述目标图像可能会存在有折痕、阴影、倾斜、扭曲等情况。
所述目标图像包括但不限于票据、书籍、报告、账单等,且所述目标图像的板式不为统一。在医疗保险理赔业务场景下,所述目标图像可以为医疗票据。例如:北京市和上海市,不同地区的医疗票据板式不为统一;门诊部和急症部,不同科室的医疗票据板式不为统一。其中,用户在使用业务的过程中,需要通过OCR(Optical Character Recognition,光学字符识别)检测并识别医疗票据中的文字及其位置,并将OCR输出的结果发送至相应理赔机构AI(Artificial Intelligence,人工智能)引擎,从而实现对理赔信息的提取。
由于所述目标图像可能会存在有折痕、阴影、倾斜、扭曲等情况以及所述目标图像的板式不为统一等情况,在OCR检测识别的过程中起到了负面影响。例如:无法识别个别较为扭曲的文字,或遗漏被阴影遮挡的文字等,导致所述目标图像文字识别准确率低。在医疗保险理赔业务场景下,若医疗票据的文字识别不准确,易导致用户无法进行医疗保险理赔业务办理或错误理赔等现象发生。
在示例性的实施例中,通过对所述目标图像进行轮廓检测,以对所述目标图像的倾斜、扭曲等情况进行识别,并通过所述第一位置坐标集获取所述目标图像对应的倾斜程度、扭曲程度等。
请参阅图2,其为本实施例一的轮廓检测的流程示意图,从图中可以看出,具体包括S101-S103步骤:
S101:对所述目标图像进行二值化处理,得到二值化图像。
对所述目标图像进行二值化处理,二值化处理是将所述目标图像转换为只包含黑色和白色两种颜色的图像。例如:利用OpenCV(Open Source Computer Vision Library,开源计算机视觉库)读取所述目标图像,获得所述目标图像对应的像素矩阵,将所述像素矩阵中小于预设阈值的元素值重置为0,将所述像素矩阵中大于等于预设阈值的元素值重置为255,得到二值化图像。例如,设置阈值为127,将所述目标图像对应的像素矩阵中的每个像素值与所述阈值比较,将小于所述阈值的像素值置为0,其余像素值置为255。其中,OpenCV是一个跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和MacOS操作系统上,OpenCV可以同时提供Python、MATLAB等语言的接口,实现图像处理和计算机视觉方面的很多通用算法。可以理解的是,上述阈值的选取可以根据实际场景进行设定,具体不作限定。
通过将所述目标图像转化为二值化图像,可以使所述目标图像只与像素值为0或255的点的位置有关,不再涉及像素的多级值,可以减少数据处理量,使图像处理变得更加简单,提高图像处理效率。
S102:对所述二值化图像进行横向线检测,得到多个点坐标。
在示例性的实施例中,采用形状为n*1的卷积核矩阵对所述二值化图像进行膨胀与腐蚀处理,使用卷积核矩阵挨个划过所述二值化图像,同时更改所述二值化图像的像素点,以消除非横向线条像素,得到横向线条上的多个点坐标,即对所述二值化图像进行横向线检测。其中,n用于表征行,1用于表征列,n*1用于表征n行*1列。
具体的,采用形状为n*1的卷积核矩阵进行膨胀处理:遍历二值化图像中的每一个像素点,对每一个像素点均进行膨胀操作,得到膨胀图像。需特别说明的是,由于采用形状为n*1的卷积核矩阵,每次遍历中所包括的像素点位置关系均为上下关系,以对所述二值化图像进行横向膨胀。
采用形状为n*1的卷积核矩阵进行进行腐蚀处理:遍历图像中的每一个像素,对每一个像素均进行腐蚀操作,得到腐蚀图像。需特别说明的是,由于采用形状为n*1的卷积核矩阵,每次遍历中所包括的像素点位置关系均为上下关系,以对所述二值化图像进行横向腐蚀。
经膨胀与腐蚀处理后会得到多个点坐标,多个所述点坐标属于一个轮廓“集合”,多个所述点坐标构成了一个整体。以横向线条为例,其横向像素宽度远大于横向线条和文字,由于采用形状为n*1的卷积核矩阵进行横向膨胀与横向腐蚀处理,即可将非横向线条像素块消去而仅保留横向线条。
S103:根据多个所述点坐标生成所述第一位置坐标集。
在示例性的实施例中,所述目标图像经横向膨胀和横向腐蚀处理后,得到多个点坐标,将相邻点坐标连接后会生成一根横向线条,以形成所述目标图像的第一位置坐标集。通过识别所述第一位置坐标集中的每个点坐标,获取所述目标图像对应的倾斜程度、扭曲程度。在医疗保险理赔业务场景下,所述第一位置坐标集所表征的轮廓信息为医疗票据外框的横向线条。当医疗票据存在有折痕、倾斜、扭曲等情况时,所述横向线条为曲线或折线等弯曲线条,通过识别所述横向线条上的每个点坐标,获取医疗票据的折痕、倾斜、扭曲情况。
S200:对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息。
在示例性的实施例中,对所述目标图像进行分割,得到多个图像切片,每个所述图像切片内包括至少一个字符。
所述字符用于表征所述目标图像上待进行识别的文字。对所述目标图像进行文字检测,将属于同一词组或同一词句中的单个文字或文字组合进行分割,得到多个图像切片。例如:利用PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)对所述目标图像进行分割,采用像素级方法对所述目标图像上的文字进行识别,可以识别各种不规则形状的字体文字,同时区分相邻出不属于同一词组或同一词句的文字,确保分割准确性。
对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征。
将每个所述图像切片输入CNN(Convolutional Neural Networks,卷积神经网络)模型,利用CNN模型中的卷积层对所述图像切片进行卷积特征提取,得到初始特征,利用所述CNN模型中的池化层对所述初始特征进行降维,得到降维特征,利用CNN模型中的全连接层输出所述降维特征,得到像素特征。其中,所述像素特征用于表征所述图像切片所包括文字的字体、大小、颜色等格式信息。例如:医疗票据中的发票代码、发票号码通常为红色文字,而发票代码、发票号码的具体内容(数字)通常为黑色文字。
对每个所述图像切片中的字符进行语义识别,得到对应的语义特征。
将每个所述图像切片中的字符依次输入Transformer(变压器)模型,利用所述Transformer模型中的编码-解码结构,得到每个字符的语义特征。需特别说明的是,不同图像切片中的相同字符所得到的语义特征可能不同。其中,所述语义特征用于表征所述图像切片所包括文字在语言上所蕴含的意义。例如:医疗票据中的“发票代码”的图像切片a与“发票号码”的图像切片b,图像切片a和图像切片b均包括有“发票”文字,但由于图像切片a和图像切片b还分别包括“代码”与“号码”文字,故图像切片a和图像切片b中所包括的“发票”文字经Transformer模型得到的语义特征不同。
根据所述像素特征和语义特征生成对应的所述特征集。
将所述像素特征与所述语义特征拼接生成对应所述图像切片的特征集。可以理解的是,通过像素特征获取所述图像切片所包括文字对应的字体、大小、颜色等格式信息,通过语义特征获取所述图像切片所包括文字对应的在语言上所蕴含的意义(即语义信息)。
S300:对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片。
在示例性的实施例中,所述区域框划分的步骤如下:
1、根据所述区域框所覆盖面积以及所述区域框内包含的全部所述图像切片所覆盖的面积,得到所述区域框的密度及密度阈值,所述密度阈值用于表征所述区域框内包含所述目标图像中全部的图像切片时的密度。
具体的,获取全部图像切片的坐标,查找出最小x-轴,最大x-轴,最小y-轴,最大y-轴,作为达到密度阈值时的区域框的覆盖范围并可确定达到密度阈值时的区域框所覆盖的面积。
根据所述区域框所覆盖面积以及对应所述区域框内包含的全部图像切片所覆盖面积之和,得到所述区域框的密度。例如:所述区域框的密度=区域框内包含的全部图像切片所覆盖面积之和/区域框所覆盖面积。
2、由目标图像左上角(左下角/右上角/右下角等,具体不作限制)第一个图像切片做区域框划分。
3、向右侧水平方向及向下侧垂直方向分别扩展一个图像切片做区域框划分,并分别确定扩展后区域框的密度a及密度b。
4、对比密度a和密度b,若密度a和密度b均大于密度阈值,则将密度a和密度b中密度较大的区域框更新为区域框K1;若密度a和密度b均小于密度阈值,则跳过步骤3中所扩展的图像切片,重复步骤3继续扩展。
5、使用区域框K1重复步骤3,直至区域框达到目标图像的边界。
6、当所述目标图像上的全部图像切片均完成区域框划分时,由上至下,由左至右依次对每个区域框进行编号。例如:可选择阿拉伯数字1、2、3等作为编号。
通过对目标图像上每个图像切片进行区域框划分,可将每个图像切片进行分版,以得到目标图像上的板式布局结构情况。
S400:将所述第一位置坐标集、特征集及编号输入至预设的识别模型,获取所述目标图像的识别结果。
通过所述第一位置坐标集便于识别目标图像的折痕、倾斜、扭曲等情况,结合特征集中像素特征与语义特征,有效对各种角度以及各种弯曲形状文字的抽取及识别。例如:利用第一位置坐标集,获取目标图像上每个图像切片对应的坐标特征,得到每个图像切片的折痕、倾斜、扭曲等情况,相同原理得到每个图像切片中所包括字符的折痕、倾斜、扭曲等不规则情况,将不规则字符的坐标特征与标准字符的坐标特征进行对比,可以对不规则字符进行有效识别。同时,通过编号便于对目标图像进行板式布局结构的识别以及对识别结果进行文档结构的存储。同时,通过编号便于对目标图像进行板式布局结构的识别以及对识别结果进行文档结构的存储。
在示例性的实施例中,所述识别模型包括BiLSTM(Bi-directional LongShort-Term Memory,双向长短期记忆)层以及CRF(Conditional Random Field,条件随机场)层。所述BiLSTM层用于对所述图像切片上的每个文字进行各个标签的评分,所述CRF层用于加入约束条件使每个文字属于各个标签的评分更合理。例如,采用BIO标注方式,B为Begin,表示开始;I为Intermediate,表示中间;O为Other,表示其他,用于标记无关字符。所述约束条件可以包括:所述图像切片上第一个文字的标签以“B-”或“O”开始,而不是“I”;或标签序列“O I-label”是非法的,实体标签的首个标签应该是“B-”,而非“I-”等,具体不作限定。
将所述特征集输入BiLSTM层,输出每个文字对应标签的预测分值,以作为CRF层的输入,通过CRF层输出每个文字对应的最终标签。例如:所述特征集对应的图像切片中的文字是:“姓名:张某”,则“姓”与“名”对应的标签为O,“张”对应的标签为B,“某”对应的标签为“I”。
实施例二
如图3所示,其为本实施例三的图像文字识别系统的功能模块图。
所述图像文字识别系统3包括检测单元31、提取单元32、划分单元33及识别单元34。本发明所称的模块是指一种能够被处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
检测单元31用于对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息。
如图4所示,所述检测单元31包括处理模块311、横向线检测模块312及生成模块313。
检测单元31用于对所述目标图像进行二值化处理,得到二值化图像;处理模块311用于对所述二值化图像进行横向线检测,得到多个点坐标;生成模块313根据多个所述点坐标生成所述第一位置坐标集。
提取单元32用于对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息。
在示例性的实施例中,对所述目标图像进行分割,得到多个图像切片,且每个所述图像切片内包含至少一个字符;利用提取单元32对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征;利用提取单元32对每个所述图像切片内包含的字符进行语义识别,得到对应的语义特征;根据所述像素特征和语义特征生成对应的所述特征集。
划分单元33用于对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片。
在示例性的实施例中,根据所述区域框所覆盖面积以及所述区域框内包含的全部所述图像切片所覆盖的面积,得到所述区域框的密度及密度阈值,所述密度阈值用于表征所述区域框内包含所述目标图像中全部的图像切片时的密度;当所述区域框的密度小于所述密度阈值时,利用划分单元33对所述区域框进行重新划分;当所述区域框的密度大于所述密度阈值,且所述区域框达到所述目标图像的边界时,利用划分单元33对所述区域框进行划分。
识别单元34用于将所述第一位置坐标集及特征集输入至预设的识别模型,获取所述目标图像的识别结果。
实施例四
如图5所示,其为本实施例四的图像文字识别方法的电子设备的结构示意图。
在示例性的实施例中,所述电子设备4包括,但不限于,存储器41、处理器42,以及存储在所述存储器41中并可在所述处理器上运行的计算机程序,例如图像文字识别程序。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述存储器41至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器41可以是电子设备的内部存储模块,例如该电子设备的硬盘或内存。在另一些实施例中,存储器41也可以是电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器41还可以既包括电子设备的内部存储模块也包括其外部存储设备。本实施例中,存储器41通常用于存储安装于电子设备的操作系统和各类应用软件。此外,存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器42是所述电子设备的运算核心和控制中心,利用各种接口和线路连接整个电子设备的各个部分,及执行所述电子设备的操作系统以及安装的各类应用程序、程序代码等。
所述处理器42执行所述电子设备的操作系统以及安装的各类应用程序。所述处理器42执行所述应用程序以实现上述各个图像文字识别方法实施例中的步骤,例如图1所示的步骤S100、S200、S300。
实施例五
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述图像文字识别方法的计算机程序,被处理器42执行时实现实施例一或二或三或四的图像文字识别方法。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种图像文字识别方法,其特征在于,包括:
对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息;
对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息;
对多个图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片;
将所述第一位置坐标集、特征集及编号输入至预设的识别模型,获取所述目标图像的识别结果;
其中,所述对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息,还包括:
对所述目标图像进行二值化处理,得到二值化图像;
对所述二值化图像进行横向线检测,得到多个点坐标;
根据多个所述点坐标生成所述第一位置坐标集;
其中,所述对所述二值化图像进行横向线检测,得到多个点坐标,还包括:
采用形状为n*1的卷积核矩阵对所述二值化图像进行膨胀和腐蚀处理,以消除非横向线条像素,得到横向线条上的多个点坐标;其中,n用于表征行,1用于表征列;
其中,所述对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息,还包括:
对所述目标图像进行分割,得到多个图像切片,且每个所述图像切片内包含至少一个字符;
对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征;
对每个所述图像切片内包含的字符进行语义识别,得到对应的语义特征;
根据所述像素特征和语义特征生成对应的所述特征集;
其中,所述对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征,还包括:
将每个所述图像切片输入CNN模型;
利用CNN模型中的卷积层对所述图像切片进行卷积特征提取,得到初始特征;
利用所述CNN模型中的池化层对所述初始特征进行降维,得到降维特征;
利用CNN模型中的全连接层输出所述降维特征,得到像素特征;
其中,所述对多个所述图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片,还包括:
根据所述区域框所覆盖面积以及所述区域框内包含的全部所述图像切片所覆盖的面积,得到所述区域框的密度及密度阈值,所述密度阈值用于表征所述区域框内包含所述目标图像中全部的图像切片时的密度;
当所述区域框的密度小于所述密度阈值时,对所述区域框进行重新划分;
当所述区域框的密度大于所述密度阈值,且所述区域框达到所述目标图像的边界时,对所述区域框进行划分。
2.一种图像文字识别系统,其特征在于,包括:
检测单元,用于对目标图像进行轮廓检测,得到第一位置坐标集,所述第一位置坐标集用于表征所述目标图像的轮廓信息;
提取单元,用于对所述目标图像进行特征提取,得到多个特征集,所述特征集用于表征所述目标图像中的格式信息及语义信息;
划分单元,用于对多个图像切片进行区域框划分,并对每个区域框进行编号,一个所述区域框内包括至少一个所述图像切片;
识别单元,用于将所述第一位置坐标集、特征集及编号输入至预设的识别模型,获取所述目标图像的识别结果;
其中,所述检测单元还用于:
对所述目标图像进行二值化处理,得到二值化图像;
对所述二值化图像进行横向线检测,得到多个点坐标;
根据多个所述点坐标生成所述第一位置坐标集;
其中,所述对所述二值化图像进行横向线检测,得到多个点坐标,还包括:
采用形状为n*1的卷积核矩阵对所述二值化图像进行膨胀和腐蚀处理,以消除非横向线条像素,得到横向线条上的多个点坐标;其中,n用于表征行,1用于表征列;
其中,所述提取单元还用于:
对所述目标图像进行分割,得到多个图像切片,且每个所述图像切片内包含至少一个字符;
对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征;
对每个所述图像切片内包含的字符进行语义识别,得到对应的语义特征;
根据所述像素特征和语义特征生成对应的所述特征集;
其中,所述对每个所述图像切片整体进行像素识别,得到所述图像切片内包含的字符的像素特征,还包括:
将每个所述图像切片输入CNN模型;
利用CNN模型中的卷积层对所述图像切片进行卷积特征提取,得到初始特征;
利用所述CNN模型中的池化层对所述初始特征进行降维,得到降维特征;
利用CNN模型中的全连接层输出所述降维特征,得到像素特征;
其中,所述划分单元还用于:
根据所述区域框所覆盖面积以及所述区域框内包含的全部所述图像切片所覆盖的面积,得到所述区域框的密度及密度阈值,所述密度阈值用于表征所述区域框内包含所述目标图像中全部的图像切片时的密度;
当所述区域框的密度小于所述密度阈值时,对所述区域框进行重新划分;
当所述区域框的密度大于所述密度阈值,且所述区域框达到所述目标图像的边界时,对所述区域框进行划分。
3.一种电子设备,其特征在于,包括:
存储器,存储有计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现如权利要求1所述的图像文字识别方法。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现如权利要求1所述的图像文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717796.2A CN113435331B (zh) | 2021-06-28 | 2021-06-28 | 图像文字识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717796.2A CN113435331B (zh) | 2021-06-28 | 2021-06-28 | 图像文字识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435331A CN113435331A (zh) | 2021-09-24 |
CN113435331B true CN113435331B (zh) | 2023-06-09 |
Family
ID=77754895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110717796.2A Active CN113435331B (zh) | 2021-06-28 | 2021-06-28 | 图像文字识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435331B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143325A1 (zh) * | 2019-01-08 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112541494A (zh) * | 2020-12-21 | 2021-03-23 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-28 CN CN202110717796.2A patent/CN113435331B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143325A1 (zh) * | 2019-01-08 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112541494A (zh) * | 2020-12-21 | 2021-03-23 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于语义分割技术的任意方向文字识别;王涛 等;应用科技(03);第59-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113435331A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866495B (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
CN109829453B (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN112528863A (zh) | 表格结构的识别方法、装置、电子设备及存储介质 | |
US10417489B2 (en) | Aligning grid lines of a table in an image of a filled-out paper form with grid lines of a reference table in an image of a template of the filled-out paper form | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN111695439A (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN111639648B (zh) | 证件识别方法、装置、计算设备和存储介质 | |
CN111259888B (zh) | 基于图像的信息比对方法、装置及计算机可读存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN112541443A (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
CN112418206B (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN112308046A (zh) | 图像的文本区域定位方法、装置、服务器及可读存储介质 | |
CN112668580A (zh) | 一种文本识别方法、文本识别装置及终端设备 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
CN113420684A (zh) | 基于特征提取的报表识别方法、装置、电子设备及介质 | |
CN117765544A (zh) | 一种文档关键要素识别方法、装置、设备及介质 | |
CN117496521A (zh) | 一种表格关键信息抽取方法、系统、装置及可读存储介质 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN113435331B (zh) | 图像文字识别方法、系统、电子设备及存储介质 | |
CN110909816A (zh) | 图片识别方法和装置 | |
US11887393B2 (en) | End-to-end system for extracting tabular data present in electronic documents and method thereof | |
CN115964492A (zh) | 文本知识抽取方法、装置、电子设备和可读存储介质 | |
CN114399626B (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |