CN112836632B

CN112836632B - 自定义模板文字识别的实现方法及系统

Info

Publication number: CN112836632B
Application number: CN202110140530.6A
Authority: CN
Inventors: 吴运祥
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-04-07
Anticipated expiration: 2041-02-02
Also published as: CN112836632A

Abstract

本发明公开了一种自定义模板文字识别的实现方法及系统，属于人工智能文字识别领域，本发明要解决的技术问题为如何卡证、票据等转化成图片后，实现图片结构化文字识别，采用的技术方案为：该方法具体如下：选择一张图片作为模板图片；在模板图片上框选若干个矩形框作为文本识别区域，同时记录并保存文本识别区域的坐标信息；识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；基于特征点映射关系，使用单应性变换计算目标图片到模板图片的转换矩阵。

Description

自定义模板文字识别的实现方法及系统

技术领域

本发明涉及人工智能文字识别领域，具体地说是一种自定义模板文字识别的实现方法及系统。

背景技术

近年来，人工智能技术取得了快速发展，人脸识别、文字识别、医学图像分析、语音识别等技术已经实现商业化应用。其中，文字识别技术是指对图像中的文字进行检测然后识别出图像中的文字内容，在图像视频文本识别、文档识别、卡证识别等领域具有极其重要的意义，能够实现各类卡证和文件的电子化，可应用于纸质文件分类归档、信息统计分析、关键内容提取等场景，有效降低人工录入成本，大幅度提升信息管理效率。对于卡证、票据等固定版式图片的文字识别，需要提供专门接口，在文字识别之后进行后处理操作，以提取出图片中的关键字段信息，操作繁琐，耗时费力。故如何卡证、票据等转化成图片后，实现图片结构化文字识别是目前亟待解决的问题。

发明内容

本发明的技术任务是提供一种自定义模板文字识别的实现方法及系统，来解决如何卡证、票据等转化成图片后，实现图片结构化文字识别的问题。

本发明的技术任务是按以下方式实现的，一种自定义模板文字识别的实现方法，该方法具体如下：

选择一张图片作为模板图片；

在模板图片上框选若干个矩形框作为文本识别区域，同时记录并保存文本识别区域的坐标信息；

识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；

基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；

基于特征点映射关系，使用单应性变换计算目标图片到模板图片的转换矩阵；

基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下，从而获取对应的文本识别区域坐标信息；

根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片；

逐一对截取出的目标图片中的文本识别区域进行文字识别，并返回结构化识别结果。

作为优选，所述模板图片要求如下：

清晰度及尺寸要求：1024*960；

格式要求：JPG格式或者PNG格式；

大小要求：不超过2MB；

所述目标图片的格式要求为JPG格式或者PNG格式。

作为优选，对每个文本识别区域进行命名，结合文本识别区域名称返回结构化识别结果；

坐标信息包括矩形框的左上角坐标与右下角坐标。

作为优选，特征点检测采用SIFT(尺度不变特征变换)算法，SIFT算法分别对目标图片和模板图片进行特征点检测。

更优地，文字识别具体如下：

文字检测：检测图片中的文字，确定文字在图片中的坐标区域，同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域，得到四边形文字区域四个顶点的坐标信息；其中，文字检测具体如下：

对整张目标图片进行深层次特征的提取；

融合深层次特征的提取的特征，将不同的特征进行融合，补充不同尺寸目标信息来实现对不同尺寸物体的检测；

输出内容，输出的内容包括文本的置信度以及文本框坐标信息；其中，文本的置信度是指像素点在文本框内的概率，即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率；文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标；

文本区域识别：识别每个文本区域图片中的文字，并具备识别中文、英文、数字及标点符号的能力；其中，文本区域识别具体如下：

对目标图片中检测出的文本识别区域进行深层次特征的提取；

使用双向LSTM来处理不定长序列预测的问题，预测不定长文本。

一种自定义模板文字识别的系统，该系统包括，

模板选择单元，用于选择一张图片作为模板图片；

框选单元，用于在模板图片上框选若干个矩形框作为文本识别区域，同时记录并保存文本识别区域的坐标信息；

检测单元，用于识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；

匹配单元，用于基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；

计算单元，用于基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵；

变换单元，用于基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下，从而获取对应的文本识别区域坐标信息；

截取单元，用于根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片；

识别单元，用于逐一对截取出的目标图片中的文本识别区域进行文字识别，并返回结构化识别结果。

作为优选，所述识别单元包括，

文字检测子单元，用于检测图片中的文字，确定文字在图片中的坐标区域，同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域，得到四边形文字区域四个顶点的坐标信息；其中，文字检测子单元采用基于深度学习框架搭建；

文本区域识别子单元，用于识别每个文本区域图片中的文字，并具备识别中文、英文、数字及标点符号的能力；其中，文本区域识别子单元是在文字检测单元检测出文字区域的基础上，基于深度学习框架搭建。

更优地，所述文字检测子单元包括，

特征提取模块一，用于对整张目标图片进行深层次特征的提取；其中，特征提取模块由多个卷积层构成；

特征融合模块，用于融合特征提取模块一生成的特征，将不同的特征进行融合，补充不同尺寸目标信息来实现对不同尺寸物体的检测；

输出模块，用于输出内容，输出的内容包括文本的置信度以及文本框坐标信息；其中，文本的置信度是指像素点在文本框内的概率，即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率；文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标。

更优地，所述文本区域识别子单元包括，

特征提取模块二，用于对目标图片中检测出的文本识别区域进行深层次特征的提取；其中，特征提取模块由多个卷积层构成；

文字预测模块，用于使用双向LSTM来处理不定长序列预测的问题，预测不定长文本；其中，文字预测模块由循环神经网络构成。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如上述的自定义模板文字识别的方法。

本发明的自定义模板文字识别的实现方法及系统具有以下优点：

(一)本发明依托数字政府AI技术中台的建设工作，针对政务服务中证照自动录入应用场景，实现证照信息智能化录入，提升办事效率，有助于提升群众办理业务的体验，提高政府政务服务水平；

(二)针对版式较为统一的各类卡证、文件，本发明基于图像处理和文字识别技术，能够通过一张模板图片快速完成模板定制，无需后处理过程，提供模板识别的自定义功能及结构化识别，实现图片的结构化文字识别，进而实现各类卡证和文件的电子化；

(三)本发明在模板图片上指定若干个矩形框作为文本识别区域，并给每个区域命名，有助于返回结构化识别结果；

(四)本发明采用采用SIFT(尺度不变特征变换)算法分别对目标图片与模板图片进行特征点检测，基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；SIFT算法用于图像处理领域的一种描述，这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述；

(五)本发明基于深度学习框架搭建的深度网络模型，具备识别中文、英文、数字与标点符号的能力。

附图说明

下面结合附图对本发明进一步说明。

附图1为自定义模板文字识别的实现方法的流程框图。

具体实施方式

参照说明书附图和具体实施例对本发明的自定义模板文字识别的实现方法及系统作以下详细地说明。

实施例1：

如附图1所示，本发明的自定义模板文字识别的实现方法，该方法具体如下：

S1、选择一张图片作为模板图片；

S2、在模板图片上框选若干个矩形框作为文本识别区域，同时记录并保存文本识别区域的坐标信息；

S3、识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；

S4、基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；

S5、基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵；

S6、基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下，从而获取对应的文本识别区域坐标信息；

S7、根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片；

S8、逐一对截取出的目标图片中的文本识别区域进行文字识别，并返回结构化识别结果。

本实施例中步骤S1的模板图片要求如下：

清晰度及尺寸要求：1024*960；

格式要求：JPG格式或者PNG格式；

大小要求：不超过2MB。

本实施例中步骤S3的目标图片的格式要求为JPG格式或者PNG格式。

本实施例中步骤S2对每个文本识别区域进行命名，结合文本识别区域名称返回结构化识别结果，有助于返回结构化识别结果；

本实施例中步骤S2的坐标信息包括矩形框的左上角坐标与右下角坐标。

本实施例中步骤S3的特征点检测采用SIFT(尺度不变特征变换)算法，SIFT(尺度不变特征变换)算法分别对目标图片和模板图片进行特征点检测。

本实施例中步骤S5的文字识别具体如下：

S501、文字检测：检测图片中的文字，确定文字在图片中的坐标区域，同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域，得到四边形文字区域四个顶点的坐标信息；

S502、文本区域识别：识别每个文本区域图片中的文字，并具备识别中文、英文、数字及标点符号的能力。

本实施例中步骤S501的文字检测具体如下：

S50101、对整张目标图片进行深层次特征的提取；

S50102、融合深层次特征的提取的特征，将不同的特征进行融合，补充不同尺寸目标信息来实现对不同尺寸物体的检测；

S50103、输出内容，输出的内容包括文本的置信度以及文本框坐标信息；其中，文本的置信度是指像素点在文本框内的概率，即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率；文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标；

本实施例中步骤S502的文本区域识别具体如下：

S50201、对目标图片中检测出的文本识别区域进行深层次特征的提取；

S50202、使用双向LSTM来处理不定长序列预测的问题，预测不定长文本。

实施例2：

本发明的自定义模板文字识别的系统，该系统包括，

模板选择单元，用于选择一张图片作为模板图片；

本实施例中的识别单元包括，

本实施例中的文字检测子单元包括，

本实施例中的文本区域识别子单元包括，

实施例3：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的自定义模板文字识别的实现方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R自定义模板文字识别的实现方法及系统M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种自定义模板文字识别的实现方法，其特征在于，该方法具体如下：

选择一张图片作为模板图片；

识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；其中，特征点检测采用SIFT算法，SIFT算法分别对目标图片和模板图片进行特征点检测；

逐一对截取出的目标图片中的文本识别区域进行文字识别，并返回结构化识别结果；其中，文字识别具体如下：

对整张目标图片进行深层次特征的提取；

2.根据权利要求1所述的自定义模板文字识别的实现方法，其特征在于，所述模板图片要求如下：

清晰度及尺寸要求：1024*960；

格式要求：JPG格式或者PNG格式；

大小要求：不超过2MB；

所述目标图片的格式要求为JPG格式或者PNG格式。

3.根据权利要求1所述的自定义模板文字识别的实现方法，其特征在于，对每个文本识别区域进行命名，结合文本识别区域名称返回结构化识别结果；

坐标信息包括矩形框的左上角坐标与右下角坐标。

4.一种自定义模板文字识别的系统，其特征在于，该系统包括，

模板选择单元，用于选择一张图片作为模板图片；

识别单元，用于逐一对截取出的目标图片中的文本识别区域进行文字识别，并返回结构化识别结果；

其中，识别单元包括，

文本区域识别子单元，用于识别每个文本区域图片中的文字，并具备识别中文、英文、数字及标点符号的能力；其中，文本区域识别子单元是在文字检测单元检测出文字区域的基础上，基于深度学习框架搭建；

文字检测子单元包括，

输出模块，用于输出内容，输出的内容包括文本的置信度以及文本框坐标信息；其中，文本的置信度是指像素点在文本框内的概率，即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率；文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标；

文本区域识别子单元包括，

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权利要求1至3中所述的自定义模板文字识别的方法。