CN111325104A - 文本识别方法、装置及存储介质 - Google Patents

文本识别方法、装置及存储介质 Download PDF

Info

Publication number
CN111325104A
CN111325104A CN202010073495.6A CN202010073495A CN111325104A CN 111325104 A CN111325104 A CN 111325104A CN 202010073495 A CN202010073495 A CN 202010073495A CN 111325104 A CN111325104 A CN 111325104A
Authority
CN
China
Prior art keywords
text
target
recognition
text box
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010073495.6A
Other languages
English (en)
Inventor
肖京
何嘉欣
刘鹏
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010073495.6A priority Critical patent/CN111325104A/zh
Priority to PCT/CN2020/093605 priority patent/WO2021147221A1/zh
Publication of CN111325104A publication Critical patent/CN111325104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像处理领域,揭露了一种文本识别方法,该方法包括:在接收到用户发出的携带待识别图像的指令后,对待识别图像进行文本识别得到第一目标识别结果,根据第一目标识别结果生成待验证图片,计算待识别图片及对应目标文本框的相似度,根据相似度识别第一目标识别结果中的异常文本框并进行异常处理,基于异常处理结果更新第一目标识别结果得到第二目标识别结果,将第二目标识别结果反馈给用户。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可以提高文本识别的准确性。

Description

文本识别方法、装置及存储介质
技术领域
本发明涉及图像识别领域,尤其涉及一种文本识别方法、电子装置及计算机可读存储介质。
背景技术
现今专用OCR识别已经有一套成熟的算法,分别承担目标文件检测,字段检测和字段识别,这个过程是端到端的,结果将直接输出至用户。
现有的通用OCR识别的基本流程是,首先检测图片中文字所在的区域,画出每个区域的外接矩形框,然后把每个矩形框进行基本的二维旋转矫正后,把切块输入识别模块,由此获得整张图片的全部文本内容。虽然这个流程可以矫正目标在二维平面内的倾斜,然而,在实际的图像识别情景中,经常有识别对象和原图片并不共平面的情况。这种情况下的图像识别结果也会与正确的结果相差甚远。
因此,亟待提供一种能准确从图片中识别文本的方法。
发明内容
鉴于以上内容,本发明提供一种文本识别方法、电子装置及计算机可读存储介质,其主要目的在于提高从图像中识别文本的准确性。
为实现上述目的,本发明提供一种文本识别方法,该方法包括:
接收步骤:接收用户发出的文本识别指令,所述文本识别指令中包括待识别图像;
识别步骤:基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,所述第一目标识别结果包括多个目标文本框及所述多个目标文本框对应的第一目标文本信息;
分析步骤:基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框;
更新步骤:将所述异常文本框发送至预设终端,并接收所述预设终端反馈的所述异常文本框的第二目标文本信息,基于所述异常文本框的第二目标文本信息更新所述第一目标识别结果,生成第二目标识别结果;
第一反馈步骤:将所述第二目标识别结果反馈至所述用户。
此外,为实现上述目的,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的文本识别程序,所述文本识别程序被所述处理器执行时可实现如上所述文本识别方法中的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括文本识别程序,所述文本识别程序被处理器执行时,可实现如上所述文本识别方法中的任意步骤。
本发明提出的文本识别方法、电子装置及计算机可读存储介质,在接收到用户发出的携带待识别图像的指令后,对待识别图像进行文本识别得到第一目标识别结果,根据第一目标识别结果生成待验证图片,计算待识别图片及对应目标文本框的相似度,根据相似度识别第一目标识别结果中的异常文本框并进行异常处理,基于异常处理结果更新第一目标识别结果得到第二目标识别结果,将第二目标识别结果反馈给用户。通过在通用OCR识别过程后新增一个验证机制,提高识别结果输出的准确性,提高用户的使用体验;通过对待识别图片进行随机透视变换,从多次透视变换结果对应的识别结果中选择准确率最高的文本信息作为目标文本框的第一目标文本信息,提高了文本识别的准确性;在对待识别图像进行识别前还对待识别图像进行畸变校正,为准确识别文本奠定基础。。
附图说明
图1为本发明文本识别方法较佳实施例的流程图;
图2为本发明电子装置较佳实施例的示意图;
图3为图2中文本识别程序较佳实施例的程序模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本识别方法。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
参照图1所示,为本发明文本识别方法较佳实施例的流程图。
在本发明文本识别方法一较佳实施例中,所述文本识别方法仅包括:步骤S1-步骤S5。
步骤S1,接收用户发出的文本识别指令,所述文本识别指令中包括待识别图像。
以下以电子装置作为执行主体对本发明各实施例进行说明。
用户通过客户端上的APP选择待识别图像,并基于选择的待识别图像发出文本识别指令。电子装置接收到客户端发出的指令后,对指令中携带的待识别图像执行文本识别操作。
步骤S2,基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,所述第一目标识别结果包括多个目标文本框及所述多个目标文本框对应的第一目标文本信息。
例如,利用预先训练好的OCR识别模型对待识别图像进行OCR识别,将模型输出的识别结果作为第一目标识别结果。
步骤S3,基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框。
为了提高文本识别的准确性,在对待识别图片进行OCR识别得到第一目标识别结果后,对第一目标识别结果进行准确性验证,因此,需对第一目标识别结果进行异常文本框识别。在本实施例中,所述基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,包括:
a1、读取所述第一识别结果中一个所述目标文本框的长宽信息,新建一张与所述目标文本框的长宽信息一致的背景图片;及
a2、获取所述第一识别结果中所述目标文本框对应的第一目标文本信息,将所述目标文本框对应的第一目标文本信息以预设格式放置在所述背景图片中,生成所述目标文本框对应的待验证图像。
例如,以一个目标文本框P为例,读取目标文本框P的长宽信息,以该长宽信息确定一张随机颜色(浅色最佳,例如,白色)的纯色背景图片P1,然后获取目标文本框P对应的第一目标文本信息PT,将第一目标文本信息PT进行格式转换生成宋体的第一目标文本信息PT1,将宋体的第一目标文本信息PT1居中放置在纯色背景图片P1上,得到目标文本框P对应的一张白底黑字的待验证图片P2。
在其他实施例中,所述将所述目标文本框对应的第一目标文本信息以预设格式放置在所述纯色背景图片中,还包括:
b1、对所述目标文本框对应的第一目标文本信息进行随机格式调整;及
b2、将随机格式调整后的所述第一目标文本信息放置在所述背景图片中。
例如,修改字体颜色、字体大小、字体、角度等。通过以上随机调整,增加生成的待验证图片的随机性,为后续准确验证奠定基础。
在本实施例中,基于每一个目标文本框生成对应的待验证图片后,对比分析每一个目标文本框及其对应的待验证图片,通过对目标文本框及其对应的待验证图片进行一致性分析,即可确定第一目标识别结果中的异常文本框。
在本实施例中,所述预设分析模型为卷积神经网络,优选地,所述预设分析模型为resnet50。所述预设分析模型用于从所述目标文本框及其对应的待验证图片中提取特征。预先训练一个用于特征提取的卷积神经网络,利用训练好的神经网络提取文本框及待验证图片的特征,通过计算文本框及待验证图片的相似度,以判断两张图片的内容是否一致,对判断为不一致的文本框进行异常处理。
所述分析模型包括:batch输入层、特征提取层、L2归一化层及损失函数。所述损失函数包括但不仅限于Softmax loss、Center loss或者Triplet loss中的任意一种。损失函数不同,对训练数据的要求也不一样。
以三元组损失函数为例,本实施例中为了适应三元组损失函数,需要在batch中选取锚点样本、正样本、负样本,在OCR业务中锚点样本指原图的字段截取图,正样本指按照字段内容生成的图,负样本指更换字段内容生产的图。其中,负样本的选取,每个替换的字段可根据汉字表顺序进行替换。
在其他实施例中,为适应中心损失函数,需要在每一类样本,选取n张按照不同大小、角度、颜色来生成的图片,和n张复制的字段裁剪图。在生成样本图片过程中,设置字体大小区间,角度区间,颜色区间,在区间中随机取值获取变换参数生成图片。
训练时通过ROC曲线,计算出使模型准确率最大的阈值。通过训练,希望达到效果是:在特征空间里面,同一内容的图片特征距离变得越来越近,与其他非同内容的图片特征距离变得越来越远。
在本实施例中,所述将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框,包括:
c1、根据所述模型输出结果分别确定所述目标文本框及所述待验证图片的特征向量;
c2、利用预设相似度算法计算所述目标文本框与所述待验证图片的特征向量间的相似度;及
c3、当所述相似度小于预设相似度阈值时,判断所述目标文本框为异常文本框。
例如,上述预设相似度算法包括但不仅限于欧式距离算法、余弦相似度算法中的任意一种。
可以理解的是,从目标文本框中提取的特征更能体现待识别图像中该区域原有的特征,从其对应的待验证图片中提取的特征更能体现第一目标文本信息的特征,通过计算两者之间的相似度,可判断两者之间的一致性。相似度越高,两者一致的可能性越高,即识别结果的准确性越高,相反,相似度越低,两者一致的可能性越低,即识别结果的准确性越低。通过设置一个相似度阈值,将相似度大于或等于相似度阈值的目标文本框作为正常的文本框,将相似度小于相似度阈值的目标文本框作为异常文本框。
步骤S4,将所述异常文本框发送至预设终端,并接收所述预设终端反馈的所述异常文本框的第二目标文本信息,基于所述异常文本框的第二目标文本信息更新所述第一目标识别结果,生成第二目标识别结果。
确定第一目标识别结果中的异常文本框后,需要对异常文本框进行处理。在本实施例中,上述预设终端为众包人员使用的终端。将异常文本框发送至众包人员,人为识别出异常文本框对应的第二目标文本信息,并将异常文本框对应的第二目标文本信息返回给电子装置。电子装置基于接收到的异常文本框对应的第二目标文本信息对第一目标识别结果中该异常文本框对应的第一目标文本信息进行更新,得到第二目标识别结果。
步骤S5,将所述第二目标识别结果反馈至所述用户。
确定待识别图像的第二目标识别结果后,将第二目标识别结果通过客户端展示给用户。
在其他实施例中,所述文本识别方法包括:步骤S1-步骤S3及步骤S6。
步骤S6,当所述第一识别结果中不存在异常文本框时,将所述第一识别结果反馈至所述用户。
当判断第一目标识别结果中不存在异常文本框时,直接将第一目标识别结果作为最终识别结果,并通过客户端向用户展示得到的最终识别结果。
在其他实施例中,所述基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,包括:
d1、识别所述待识别图像的字段区域,确定待识别图像的多个第一文本框;
d2、对每个所述第一文本框进行多次随机透视变换,得到每个所述第一文本框对应的多个第二文本框;
d3、将每个所述第一文本框对应的多个第二文本框输入预设识别模型中,得到每个所述第一文本框对应的多个第二文本框的第一识别结果;
d4、基于每个所述第一文本框对应的多个第二文本框的第一识别结果从每个所述第一文本框对应的多个第二文本框中筛选出所述第一文本框对应的目标文本框;及
d5、根据每个所述第一文本框对应的所述目标文本框的第一识别结果确定所述待识别图像的第一目标识别结果。
首先检测所述待识别图像中文本字段位置,并确定包含所述文本字段位置的外接矩形框,即,第一文本框。
然后对每个第一文本框进行多次随机透视变换,得到对应的多个第二文本框。例如,对每个第一文本框进行5次随机透视变换,得到一个第一文本框对应的5个第二文本框。第二文本框中包括第一文本框。
接着利用OCR识别模型识别出5个第二文本框对应的的第一文本信息及第一置信度。并筛选出第一置信度最高的第二文本框作为第一文本框对应的目标文本框。
最后根据目标文本框的第一文本信息确定第一文本框的第一目标文本信息,汇总每个第一文本框的第一目标文本信息得到第一目标识别结果。
可以理解的是,所述待识别图像可能是用户即时采集的,在用户采用摄像头采集待识别图像过程中,可能出现由于摄像头自身的特性导致图片出现畸变的情况。因此,为了进一步提高识别的准确性,在其他实施例中,在所述步骤S2之前,该方法还包括:
基于预设畸变校正规则对所述待识别图像进行畸变校正,得到畸变校正后的待识别图像。
在本实施例中,所述基于预设畸变校正规则对所述待识别图像进行畸变校正,得到畸变校正后的待识别图像,包括:
e1、获取所述待识别图像的像素角点,计算所述像素角点在无畸变图像上的坐标;
e2、根据所述像素角点在所述无畸变图像上的坐标计算透视变换矩阵;及
e3、根据所述透视变换矩阵对所述待识别图像进行畸变校正,生成所述畸变校正后的待识别图像。
在本实施例中,通过对原始存在畸变的待识别图像上的像素角点进行畸变矫正,获取各个像素角点在无畸变图像上的坐标,其中,像素角点可以是存在畸变的待识别图像的顶点,如果待识别图像为四边形,则是四边形的四个顶点。由于在计算透视变换矩阵时,至少需要四个像素点的对应坐标才能求解,因而,在获取存在畸变的待识别图像上的像素角点时至少需要获取四个像素角点的坐标。以二维码图像为例,可以先从原始的畸变图像中获取图像中的二维码区域的四个像素角点的坐标,即二维码的四个顶点的坐标,然后根据以下公式采用事先标定好的畸变参数求出四个角点在无畸变图像上的坐标:[x,y]=K[u,v],其中,[x,y]为原始畸变图像上的像素角点坐标,[u,v]为无畸变图像上的像素角点坐标,K为畸变参数。
求解出透视变换矩阵后,即可对待识别图像进行畸变校正,得到经过畸变校正后的待识别图像,然后执行后续的识别、验证、更新及反馈操作。
由于通过畸变矫正来计算像素角点在无畸变图像上的坐标并不是一一映射的,所以可能针对原始畸变图像上的像素角点计算得到的在无畸变图像上坐标并不是唯一的,为了找到像素角点在无畸变图像上的较优的坐标。
在其他实施例中,所述计算所述像素角点在无畸变图像上的坐标,包括:
f1、在所述无畸变图像上确定一个目标像素点,目标像素点的坐标与所述待识别图像上的像素角点的坐标相同;
f2、确定以所述目标像素点为圆心,预设邻域半径为半径的圆形区域内的像素点,作为邻域像素点;
f3、遍历所述无畸变图像上目标像素点的各个邻域像素点,分别计算所述各个邻域像素点在所述待识别图像上的坐标;及
f4、根据所述各个邻域像素点在所述待识别图像上的坐标确定所述像素角点在所述无畸变图像上的坐标。
例如,可以分别根据各个邻域像素点在原始畸变的待识别图像上的坐标计算各个邻域像素点与像素角点的距离,然后将最短距离对应的坐标确定为所述像素角点在无畸变图像上的坐标。在确定原始畸变的待识别图像上各个像素角点在无畸变图像中的坐标时,可以根据原始畸变的待识别图像的畸变程度去灵活地设置邻域半径,当畸变程度较小时,邻域半径可以设置得小一些,这样需要遍历的邻域像素点少一些,可以减少计算量,当畸变程度较大时,可以将邻域半径设置得大一些,这样便可以找到最优的像素点。
上述实施例提出的文本识别方法,在接收到用户发出的携带待识别图像的指令后,对待识别图像进行文本识别得到第一目标识别结果,根据第一目标识别结果生成待验证图片,计算待识别图片及对应目标文本框的相似度,根据相似度识别第一目标识别结果中的异常文本框并进行异常处理,基于异常处理结果更新第一目标识别结果得到第二目标识别结果,将第二目标识别结果反馈给用户。通过在通用OCR识别过程后新增一个验证机制,提高识别结果输出的准确性,提高用户的使用体验;通过对待识别图片进行随机透视变换,从多次透视变换结果对应的识别结果中选择准确率最高的文本信息作为目标文本框的第一目标文本信息,提高了文本识别的准确性;在对待识别图像进行识别前还对待识别图像进行畸变校正,为准确识别文本奠定基础。
本发明还提出一种电子装置。参照图2所示,为本发明电子装置较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。
该电子装置1包括存储器11、处理器12及网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如,文本识别程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如,文本识别程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接,例如,客户端(图中未标识)。电子装置1的组件11-13通过通信总线相互通信。
图2仅示出了具有组件11-13的电子装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在图2所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储文本识别程序10的程序代码,处理器12执行文本识别程序10的程序代码时,实现如下步骤:
接收步骤:接收用户发出的文本识别指令,所述文本识别指令中包括待识别图像。
用户通过客户端上的APP选择待识别图像,并基于选择的待识别图像发出文本识别指令。电子装置1接收到客户端发出的指令后,对指令中携带的待识别图像执行文本识别操作。
识别步骤:基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,所述第一目标识别结果包括多个目标文本框及所述多个目标文本框对应的第一目标文本信息。
例如,利用预先训练好的OCR识别模型对待识别图像进行OCR识别,将模型输出的识别结果作为第一目标识别结果。
分析步骤:基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框。
为了提高文本识别的准确性,在对待识别图片进行OCR识别得到第一目标识别结果后,对第一目标识别结果进行准确性验证,因此,需对第一目标识别结果进行异常文本框识别。在本实施例中,所述基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,包括:
a1、读取所述第一识别结果中一个所述目标文本框的长宽信息,新建一张与所述目标文本框的长宽信息一致的背景图片;及
a2、获取所述第一识别结果中所述目标文本框对应的第一目标文本信息,将所述目标文本框对应的第一目标文本信息以预设格式放置在所述背景图片中,生成所述目标文本框对应的待验证图像。
例如,以一个目标文本框P为例,读取目标文本框P的长宽信息,以该长宽信息确定一张随机颜色(浅色最佳,例如,白色)的纯色背景图片P1,然后获取目标文本框P对应的第一目标文本信息PT,将第一目标文本信息PT进行格式转换生成宋体的第一目标文本信息PT1,将宋体的第一目标文本信息PT1居中放置在纯色背景图片P1上,得到目标文本框P对应的一张白底黑字的待验证图片P2。
在其他实施例中,所述将所述目标文本框对应的第一目标文本信息以预设格式放置在所述纯色背景图片中,还包括:
b1、对所述目标文本框对应的第一目标文本信息进行随机格式调整;及
b2、将随机格式调整后的所述第一目标文本信息放置在所述背景图片中。
例如,修改字体颜色、字体大小、字体、角度等。通过以上随机调整,增加生成的待验证图片的随机性,为后续准确验证奠定基础。
在本实施例中,基于每一个目标文本框生成对应的待验证图片后,对比分析每一个目标文本框及其对应的待验证图片,通过对目标文本框及其对应的待验证图片进行一致性分析,即可确定第一目标识别结果中的异常文本框。
在本实施例中,所述预设分析模型为卷积神经网络,优选地,所述预设分析模型为resnet50。所述预设分析模型用于从所述目标文本框及其对应的待验证图片中提取特征。预先训练一个用于特征提取的卷积神经网络,利用训练好的神经网络提取文本框及待验证图片的特征,通过计算文本框及待验证图片的相似度,以判断两张图片的内容是否一致,对判断为不一致的文本框进行异常处理。
所述分析模型包括:batch输入层、特征提取层、L2归一化层及损失函数。所述损失函数包括但不仅限于Softmax loss、Center loss或者Triplet loss中的任意一种。损失函数不同,对训练数据的要求也不一样。
以三元组损失函数为例,本实施例中为了适应三元组损失函数,需要在batch中选取锚点样本、正样本、负样本,在OCR业务中锚点样本指原图的字段截取图,正样本指按照字段内容生成的图,负样本指更换字段内容生产的图。其中,负样本的选取,每个替换的字段可根据汉字表顺序进行替换。
在其他实施例中,为适应中心损失函数,需要在每一类样本,选取n张按照不同大小、角度、颜色来生成的图片,和n张复制的字段裁剪图。在生成样本图片过程中,设置字体大小区间,角度区间,颜色区间,在区间中随机取值获取变换参数生成图片。
训练时通过ROC曲线,计算出使模型准确率最大的阈值。通过训练,希望达到效果是:在特征空间里面,同一内容的图片特征距离变得越来越近,与其他非同内容的图片特征距离变得越来越远。
在本实施例中,所述将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框,包括:
c1、根据所述模型输出结果分别确定所述目标文本框及所述待验证图片的特征向量;
c2、利用预设相似度算法计算所述目标文本框与所述待验证图片的特征向量间的相似度;及
c3、当所述相似度小于预设相似度阈值时,判断所述目标文本框为异常文本框。
例如,上述预设相似度算法包括但不仅限于欧式距离算法、余弦相似度算法中的任意一种。
可以理解的是,从目标文本框中提取的特征更能体现待识别图像中该区域原有的特征,从其对应的待验证图片中提取的特征更能体现第一目标文本信息的特征,通过计算两者之间的相似度,可判断两者之间的一致性。相似度越高,两者一致的可能性越高,即识别结果的准确性越高,相反,相似度越低,两者一致的可能性越低,即识别结果的准确性越低。通过设置一个相似度阈值,将相似度大于或等于相似度阈值的目标文本框作为正常的文本框,将相似度小于相似度阈值的目标文本框作为异常文本框。
更新步骤:将所述异常文本框发送至预设终端,并接收所述预设终端反馈的所述异常文本框的第二目标文本信息,基于所述异常文本框的第二目标文本信息更新所述第一目标识别结果,生成第二目标识别结果;
确定第一目标识别结果中的异常文本框后,需要对异常文本框进行处理。在本实施例中,上述预设终端为众包人员使用的终端。将异常文本框发送至众包人员,人为识别出异常文本框对应的第二目标文本信息,并将异常文本框对应的第二目标文本信息返回给电子装置1。电子装置1基于接收到的异常文本框对应的第二目标文本信息对第一目标识别结果中该异常文本框对应的第一目标文本信息进行更新,得到第二目标识别结果。
反馈步骤:将所述第二目标识别结果反馈至所述用户。
确定待识别图像的第二目标识别结果后,将第二目标识别结果通过客户端展示给用户。
在其他实施例中,当所述第一识别结果中不存在异常文本框时,将所述第一识别结果反馈至所述用户。当判断第一目标识别结果中不存在异常文本框时,直接将第一目标识别结果作为最终识别结果,并通过客户端向用户展示得到的最终识别结果。
在其他实施例中,所述基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,包括:
d1、识别所述待识别图像的字段区域,确定待识别图像的多个第一文本框;
d2、对每个所述第一文本框进行多次随机透视变换,得到每个所述第一文本框对应的多个第二文本框;
d3、将每个所述第一文本框对应的多个第二文本框输入预设识别模型中,得到每个所述第一文本框对应的多个第二文本框的第一识别结果;
d4、基于每个所述第一文本框对应的多个第二文本框的第一识别结果从每个所述第一文本框对应的多个第二文本框中筛选出所述第一文本框对应的目标文本框;及
d5、根据每个所述第一文本框对应的所述目标文本框的第一识别结果确定所述待识别图像的第一目标识别结果。
首先检测所述待识别图像中文本字段位置,并确定包含所述文本字段位置的外接矩形框,即,第一文本框。
然后对每个第一文本框进行多次随机透视变换,得到对应的多个第二文本框。例如,对每个第一文本框进行5次随机透视变换,得到一个第一文本框对应的5个第二文本框。第二文本框中包括第一文本框。
接着利用OCR识别模型识别出5个第二文本框对应的的第一文本信息及第一置信度。并筛选出第一置信度最高的第二文本框作为第一文本框对应的目标文本框。
最后根据目标文本框的第一文本信息确定第一文本框的第一目标文本信息,汇总每个第一文本框的第一目标文本信息得到第一目标识别结果。
可以理解的是,所述待识别图像可能是用户即时采集的,在用户采用摄像头采集待识别图像过程中,可能出现由于摄像头自身的特性导致图片出现畸变的情况。因此,为了进一步提高识别的准确性,在其他实施例中,所述处理器12执行所述文本识别程序10时,在所述识别步骤之前,还实现以下步骤:
基于预设畸变校正规则对所述待识别图像进行畸变校正,得到畸变校正后的待识别图像。
在本实施例中,所述基于预设畸变校正规则对所述待识别图像进行畸变校正,得到畸变校正后的待识别图像,包括:
e1、获取所述待识别图像的像素角点,计算所述像素角点在无畸变图像上的坐标;
e2、根据所述像素角点在所述无畸变图像上的坐标计算透视变换矩阵;及
e3、根据所述透视变换矩阵对所述待识别图像进行畸变校正,生成所述畸变校正后的待识别图像。
在本实施例中,通过对原始存在畸变的待识别图像上的像素角点进行畸变矫正,获取各个像素角点在无畸变图像上的坐标,其中,像素角点可以是存在畸变的待识别图像的顶点,如果待识别图像为四边形,则是四边形的四个顶点。由于在计算透视变换矩阵时,至少需要四个像素点的对应坐标才能求解,因而,在获取存在畸变的待识别图像上的像素角点时至少需要获取四个像素角点的坐标。以二维码图像为例,可以先从原始的畸变图像中获取图像中的二维码区域的四个像素角点的坐标,即二维码的四个顶点的坐标,然后根据以下公式采用事先标定好的畸变参数求出四个角点在无畸变图像上的坐标:[x,y]=K[u,v],其中,[x,y]为原始畸变图像上的像素角点坐标,[u,v]为无畸变图像上的像素角点坐标,K为畸变参数。
求解出透视变换矩阵后,即可对待识别图像进行畸变校正,得到经过畸变校正后的待识别图像,然后执行后续的识别、验证、更新及反馈操作。
由于通过畸变矫正来计算像素角点在无畸变图像上的坐标并不是一一映射的,所以可能针对原始畸变图像上的像素角点计算得到的在无畸变图像上坐标并不是唯一的,为了找到像素角点在无畸变图像上的较优的坐标。
在其他实施例中,所述计算所述像素角点在无畸变图像上的坐标,包括:
f1、在所述无畸变图像上确定一个目标像素点,目标像素点的坐标与所述待识别图像上的像素角点的坐标相同;
f2、确定以所述目标像素点为圆心,预设邻域半径为半径的圆形区域内的像素点,作为邻域像素点;
f3、遍历所述无畸变图像上目标像素点的各个邻域像素点,分别计算所述各个邻域像素点在所述待识别图像上的坐标;及
f4、根据所述各个邻域像素点在所述待识别图像上的坐标确定所述像素角点在所述无畸变图像上的坐标。
例如,可以分别根据各个邻域像素点在原始畸变的待识别图像上的坐标计算各个邻域像素点与像素角点的距离,然后将最短距离对应的坐标确定为所述像素角点在无畸变图像上的坐标。在确定原始畸变的待识别图像上各个像素角点在无畸变图像中的坐标时,可以根据原始畸变的待识别图像的畸变程度去灵活地设置邻域半径,当畸变程度较小时,邻域半径可以设置得小一些,这样需要遍历的邻域像素点少一些,可以减少计算量,当畸变程度较大时,可以将邻域半径设置得大一些,这样便可以找到最优的像素点。
可选地,在其他的实施例中,文本识别程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
例如,参照图3所示,为图2中文本识别程序10的程序模块示意图。
在所述文本识别程序10一实施例中,文本识别程序10包括:模块110-150,其中:
接收模块110,用于接收用户发出的文本识别指令,所述文本识别指令中包括待识别图像;
识别模块120,用于基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,所述第一目标识别结果包括多个目标文本框及所述多个目标文本框对应的第一目标文本信息;
分析模块130,用于基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框;
更新模块140,用于将所述异常文本框发送至预设终端,并接收所述预设终端反馈的所述异常文本框的第二目标文本信息,基于所述异常文本框的第二目标文本信息更新所述第一目标识别结果,生成第二目标识别结果;
反馈模块150,用于将所述第二目标识别结果反馈至所述用户。
所述模块110-150所实现的功能或操作步骤均与上文类似,此处不再详述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括文本识别程序10,所述文本识别程序10被处理器执行时实现所述文本识别方法的任意步骤。本发明计算机可读存储介质的具体实施方式与上述方法实施例大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本识别方法,适用于电子装置,其特征在于,该方法包括:
接收步骤:接收用户发出的文本识别指令,所述文本识别指令中包括待识别图像;
识别步骤:基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,所述第一目标识别结果包括多个目标文本框及所述多个目标文本框对应的第一目标文本信息;
分析步骤:基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框;
更新步骤:将所述异常文本框发送至预设终端,并接收所述预设终端反馈的所述异常文本框的第二目标文本信息,基于所述异常文本框的第二目标文本信息更新所述第一目标识别结果,生成第二目标识别结果;
第一反馈步骤:将所述第二目标识别结果反馈至所述用户。
2.根据权利要求1所述的文本识别方法,其特征在于,所述文本识别方法还包括:
第二反馈步骤:当所述第一识别结果中不存在异常文本框时,将所述第一识别结果反馈至所述用户。
3.根据权利要求1所述的文本识别方法,其特征在于,所述基于所述第一目标识别结果生成所述多个目标文本框对应的待验证图片,包括:
读取所述第一识别结果中一个所述目标文本框的长宽信息,新建一张与所述目标文本框的长宽信息一致的背景图片;及
获取所述第一识别结果中所述目标文本框对应的第一目标文本信息,将所述目标文本框对应的第一目标文本信息以预设格式放置在所述背景图片中,生成所述目标文本框对应的待验证图像。
4.根据权利要求3所述的文本识别方法,其特征在于,所述将所述目标文本框对应的第一目标文本信息以预设格式放置在所述背景图片中,还包括:
对所述目标文本框对应的第一目标文本信息进行随机格式调整;及
将随机格式调整后的所述第一目标文本信息放置在所述背景图片中。
5.根据权利要求1至4中任意一项所述的文本识别方法,其特征在于,所述将所述待验证图片与所述目标文本框输入预设分析模型中,根据模型输出结果从所述第一目标识别结果中识别出异常文本框,包括:
根据所述模型输出结果分别确定所述目标文本框及所述待验证图片的特征向量;
利用预设相似度算法计算所述目标文本框与所述待验证图片的特征向量间的相似度;及
当所述相似度小于预设相似度阈值时,判断所述目标文本框为异常文本框。
6.根据权利要求1所述的文本识别方法,其特征在于,所述预设相似度算法包括但不仅限于欧式距离算法、余弦相似度算法中的任意一种。
7.根据权利要求1所述的文本识别方法,其特征在于,所述基于预设识别规则对所述待识别图像进行文本识别,得到所述待识别图像的第一目标识别结果,包括:
识别所述待识别图像的字段区域,确定待识别图像的多个第一文本框;
对每个所述第一文本框进行多次随机透视变换,得到每个所述第一文本框对应的多个第二文本框;
将每个所述第一文本框对应的多个第二文本框输入预设识别模型中,得到每个所述第一文本框对应的多个第二文本框的第一识别结果;
基于每个所述第一文本框对应的多个第二文本框的第一识别结果从每个所述第一文本框对应的多个第二文本框中筛选出所述第一文本框对应的目标文本框;及
根据每个所述第一文本框对应的所述目标文本框的第一识别结果确定所述待识别图像的第一目标识别结果。
8.根据权利要求1所述的文本识别方法,其特征在于,在所述识别步骤之前,所述方法还包括:
基于预设畸变校正规则对所述待识别图像进行畸变校正,得到畸变校正后的待识别图像。
9.一种电子装置,其特征在于,该装置包括存储器及处理器,所述存储器中存储有可在所述处理器上运行的文本识别程序,所述文本识别程序被所述处理器执行时可实现如权利要求1至8中任意一项所述的文本识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括文本识别程序,所述文本识别程序被处理器执行时,可实现如权利要求1至8中任意一项所述的文本识别方法的步骤。
CN202010073495.6A 2020-01-22 2020-01-22 文本识别方法、装置及存储介质 Pending CN111325104A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010073495.6A CN111325104A (zh) 2020-01-22 2020-01-22 文本识别方法、装置及存储介质
PCT/CN2020/093605 WO2021147221A1 (zh) 2020-01-22 2020-05-30 文本识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010073495.6A CN111325104A (zh) 2020-01-22 2020-01-22 文本识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111325104A true CN111325104A (zh) 2020-06-23

Family

ID=71167058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010073495.6A Pending CN111325104A (zh) 2020-01-22 2020-01-22 文本识别方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111325104A (zh)
WO (1) WO2021147221A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898612A (zh) * 2020-06-30 2020-11-06 北京来也网络科技有限公司 结合rpa和ai的ocr识别方法及装置、设备、介质
CN111931771A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 票据内容识别方法、装置、介质及电子设备
CN113326833A (zh) * 2021-08-04 2021-08-31 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310806B (zh) * 2023-02-28 2023-08-29 北京理工大学珠海学院 一种基于图像识别的智慧农业一体化管理系统及方法
CN116597462A (zh) * 2023-03-29 2023-08-15 天云融创数据科技(北京)有限公司 一种基于ocr的证件识别方法
CN116092087B (zh) * 2023-04-10 2023-08-08 上海蜜度信息技术有限公司 Ocr识别方法、系统、存储介质及电子设备
CN116939292B (zh) * 2023-09-15 2023-11-24 天津市北海通信技术有限公司 轨道交通环境下的视频文本内容监测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127388B1 (en) * 2014-08-26 2018-11-13 Amazon Technologies, Inc. Identifying visually similar text
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN109919076B (zh) * 2019-03-04 2022-01-04 厦门商集网络科技有限责任公司 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN110503089A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 基于众包技术的ocr识别模型训练方法、装置以及计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898612A (zh) * 2020-06-30 2020-11-06 北京来也网络科技有限公司 结合rpa和ai的ocr识别方法及装置、设备、介质
CN111931771A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 票据内容识别方法、装置、介质及电子设备
CN111931771B (zh) * 2020-09-16 2021-01-01 深圳壹账通智能科技有限公司 票据内容识别方法、装置、介质及电子设备
CN113326833A (zh) * 2021-08-04 2021-08-31 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法
CN113326833B (zh) * 2021-08-04 2021-11-16 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法

Also Published As

Publication number Publication date
WO2021147221A1 (zh) 2021-07-29

Similar Documents

Publication Publication Date Title
CN111325104A (zh) 文本识别方法、装置及存储介质
WO2019169772A1 (zh) 图片处理方法、电子装置及存储介质
CN108830133B (zh) 合同影像图片的识别方法、电子装置及可读存储介质
CN109255300B (zh) 票据信息提取方法、装置、计算机设备及存储介质
CN111476227A (zh) 基于ocr的目标字段识别方法、装置及存储介质
CN112101317B (zh) 页面方向识别方法、装置、设备及计算机可读存储介质
CN108021863B (zh) 电子装置、基于图像的年龄分类方法及存储介质
CN113239910B (zh) 证件识别方法、装置、设备及存储介质
CN112668575B (zh) 关键信息提取方法、装置、电子设备及存储介质
CN111553251A (zh) 证件四角残缺检测方法、装置、设备及存储介质
CN111553334A (zh) 问卷图像识别方法、电子装置及存储介质
KR102170930B1 (ko) 자동차 파손 그림 각도 보정 방법, 전자장치 및 판독 가능한 저장매체
US20180268212A1 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
CN114937270A (zh) 古籍文字处理方法、装置及计算机可读存储介质
WO2021147219A1 (zh) 基于图像的文本识别方法、装置、电子设备及存储介质
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
WO2021143058A1 (zh) 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质
CN113221897B (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN112580499A (zh) 文本识别方法、装置、设备及存储介质
CN110717060A (zh) 图像mask的过滤方法、装置及存储介质
CN113393477A (zh) 图像处理方法和系统
CN110263310B (zh) 数据图生成方法、装置及计算机可读存储介质
CN110929725B (zh) 证件分类方法、装置及计算机可读存储介质
CN111291753B (zh) 基于图像的文本识别方法、装置及存储介质
CN111695441A (zh) 图像文档处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031370

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination