CN112836632B - 自定义模板文字识别的实现方法及系统 - Google Patents
自定义模板文字识别的实现方法及系统 Download PDFInfo
- Publication number
- CN112836632B CN112836632B CN202110140530.6A CN202110140530A CN112836632B CN 112836632 B CN112836632 B CN 112836632B CN 202110140530 A CN202110140530 A CN 202110140530A CN 112836632 B CN112836632 B CN 112836632B
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- template
- character
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种自定义模板文字识别的实现方法及系统,属于人工智能文字识别领域,本发明要解决的技术问题为如何卡证、票据等转化成图片后,实现图片结构化文字识别,采用的技术方案为:该方法具体如下:选择一张图片作为模板图片;在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵。
Description
技术领域
本发明涉及人工智能文字识别领域,具体地说是一种自定义模板文字识别的实现方法及系统。
背景技术
近年来,人工智能技术取得了快速发展,人脸识别、文字识别、医学图像分析、语音识别等技术已经实现商业化应用。其中,文字识别技术是指对图像中的文字进行检测然后识别出图像中的文字内容,在图像视频文本识别、文档识别、卡证识别等领域具有极其重要的意义,能够实现各类卡证和文件的电子化,可应用于纸质文件分类归档、信息统计分析、关键内容提取等场景,有效降低人工录入成本,大幅度提升信息管理效率。对于卡证、票据等固定版式图片的文字识别,需要提供专门接口,在文字识别之后进行后处理操作,以提取出图片中的关键字段信息,操作繁琐,耗时费力。故如何卡证、票据等转化成图片后,实现图片结构化文字识别是目前亟待解决的问题。
发明内容
本发明的技术任务是提供一种自定义模板文字识别的实现方法及系统,来解决如何卡证、票据等转化成图片后,实现图片结构化文字识别的问题。
本发明的技术任务是按以下方式实现的,一种自定义模板文字识别的实现方法,该方法具体如下:
选择一张图片作为模板图片;
在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵;
基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果。
作为优选,所述模板图片要求如下:
清晰度及尺寸要求:1024*960;
格式要求:JPG格式或者PNG格式;
大小要求:不超过2MB;
所述目标图片的格式要求为JPG格式或者PNG格式。
作为优选,对每个文本识别区域进行命名,结合文本识别区域名称返回结构化识别结果;
坐标信息包括矩形框的左上角坐标与右下角坐标。
作为优选,特征点检测采用SIFT(尺度不变特征变换)算法,SIFT算法分别对目标图片和模板图片进行特征点检测。
更优地,文字识别具体如下:
文字检测:检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测具体如下:
对整张目标图片进行深层次特征的提取;
融合深层次特征的提取的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标;
文本区域识别:识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别具体如下:
对目标图片中检测出的文本识别区域进行深层次特征的提取;
使用双向LSTM来处理不定长序列预测的问题,预测不定长文本。
一种自定义模板文字识别的系统,该系统包括,
模板选择单元,用于选择一张图片作为模板图片;
框选单元,用于在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
检测单元,用于识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
匹配单元,用于基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
计算单元,用于基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵;
变换单元,用于基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
截取单元,用于根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
识别单元,用于逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果。
作为优选,所述识别单元包括,
文字检测子单元,用于检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测子单元采用基于深度学习框架搭建;
文本区域识别子单元,用于识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别子单元是在文字检测单元检测出文字区域的基础上,基于深度学习框架搭建。
更优地,所述文字检测子单元包括,
特征提取模块一,用于对整张目标图片进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
特征融合模块,用于融合特征提取模块一生成的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出模块,用于输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标。
更优地,所述文本区域识别子单元包括,
特征提取模块二,用于对目标图片中检测出的文本识别区域进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
文字预测模块,用于使用双向LSTM来处理不定长序列预测的问题,预测不定长文本;其中,文字预测模块由循环神经网络构成。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如上述的自定义模板文字识别的方法。
本发明的自定义模板文字识别的实现方法及系统具有以下优点:
(一)本发明依托数字政府AI技术中台的建设工作,针对政务服务中证照自动录入应用场景,实现证照信息智能化录入,提升办事效率,有助于提升群众办理业务的体验,提高政府政务服务水平;
(二)针对版式较为统一的各类卡证、文件,本发明基于图像处理和文字识别技术,能够通过一张模板图片快速完成模板定制,无需后处理过程,提供模板识别的自定义功能及结构化识别,实现图片的结构化文字识别,进而实现各类卡证和文件的电子化;
(三)本发明在模板图片上指定若干个矩形框作为文本识别区域,并给每个区域命名,有助于返回结构化识别结果;
(四)本发明采用采用SIFT(尺度不变特征变换)算法分别对目标图片与模板图片进行特征点检测,基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;SIFT算法用于图像处理领域的一种描述,这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述;
(五)本发明基于深度学习框架搭建的深度网络模型,具备识别中文、英文、数字与标点符号的能力。
附图说明
下面结合附图对本发明进一步说明。
附图1为自定义模板文字识别的实现方法的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的自定义模板文字识别的实现方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的自定义模板文字识别的实现方法,该方法具体如下:
S1、选择一张图片作为模板图片;
S2、在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
S3、识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
S4、基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
S5、基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵;
S6、基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
S7、根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
S8、逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果。
本实施例中步骤S1的模板图片要求如下:
清晰度及尺寸要求:1024*960;
格式要求:JPG格式或者PNG格式;
大小要求:不超过2MB。
本实施例中步骤S3的目标图片的格式要求为JPG格式或者PNG格式。
本实施例中步骤S2对每个文本识别区域进行命名,结合文本识别区域名称返回结构化识别结果,有助于返回结构化识别结果;
本实施例中步骤S2的坐标信息包括矩形框的左上角坐标与右下角坐标。
本实施例中步骤S3的特征点检测采用SIFT(尺度不变特征变换)算法,SIFT(尺度不变特征变换)算法分别对目标图片和模板图片进行特征点检测。
本实施例中步骤S5的文字识别具体如下:
S501、文字检测:检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;
S502、文本区域识别:识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力。
本实施例中步骤S501的文字检测具体如下:
S50101、对整张目标图片进行深层次特征的提取;
S50102、融合深层次特征的提取的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
S50103、输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标;
本实施例中步骤S502的文本区域识别具体如下:
S50201、对目标图片中检测出的文本识别区域进行深层次特征的提取;
S50202、使用双向LSTM来处理不定长序列预测的问题,预测不定长文本。
实施例2:
本发明的自定义模板文字识别的系统,该系统包括,
模板选择单元,用于选择一张图片作为模板图片;
框选单元,用于在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
检测单元,用于识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
匹配单元,用于基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
计算单元,用于基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵;
变换单元,用于基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
截取单元,用于根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
识别单元,用于逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果。
本实施例中的识别单元包括,
文字检测子单元,用于检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测子单元采用基于深度学习框架搭建;
文本区域识别子单元,用于识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别子单元是在文字检测单元检测出文字区域的基础上,基于深度学习框架搭建。
本实施例中的文字检测子单元包括,
特征提取模块一,用于对整张目标图片进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
特征融合模块,用于融合特征提取模块一生成的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出模块,用于输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标。
本实施例中的文本区域识别子单元包括,
特征提取模块二,用于对目标图片中检测出的文本识别区域进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
文字预测模块,用于使用双向LSTM来处理不定长序列预测的问题,预测不定长文本;其中,文字预测模块由循环神经网络构成。
实施例3:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的自定义模板文字识别的实现方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R自定义模板文字识别的实现方法及系统M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种自定义模板文字识别的实现方法,其特征在于,该方法具体如下:
选择一张图片作为模板图片;
在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;其中,特征点检测采用SIFT算法,SIFT算法分别对目标图片和模板图片进行特征点检测;
基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵;
基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果;其中,文字识别具体如下:
文字检测:检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测具体如下:
对整张目标图片进行深层次特征的提取;
融合深层次特征的提取的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标;
文本区域识别:识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别具体如下:
对目标图片中检测出的文本识别区域进行深层次特征的提取;
使用双向LSTM来处理不定长序列预测的问题,预测不定长文本。
2.根据权利要求1所述的自定义模板文字识别的实现方法,其特征在于,所述模板图片要求如下:
清晰度及尺寸要求:1024*960;
格式要求:JPG格式或者PNG格式;
大小要求:不超过2MB;
所述目标图片的格式要求为JPG格式或者PNG格式。
3.根据权利要求1所述的自定义模板文字识别的实现方法,其特征在于,对每个文本识别区域进行命名,结合文本识别区域名称返回结构化识别结果;
坐标信息包括矩形框的左上角坐标与右下角坐标。
4.一种自定义模板文字识别的系统,其特征在于,该系统包括,
模板选择单元,用于选择一张图片作为模板图片;
框选单元,用于在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
检测单元,用于识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
匹配单元,用于基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
计算单元,用于基于特征点映射关系使用单应性变换计算目标图片到模板图片的转换矩阵;
变换单元,用于基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
截取单元,用于根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
识别单元,用于逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果;
其中,识别单元包括,
文字检测子单元,用于检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测子单元采用基于深度学习框架搭建;
文本区域识别子单元,用于识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别子单元是在文字检测单元检测出文字区域的基础上,基于深度学习框架搭建;
文字检测子单元包括,
特征提取模块一,用于对整张目标图片进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
特征融合模块,用于融合特征提取模块一生成的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出模块,用于输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标;
文本区域识别子单元包括,
特征提取模块二,用于对目标图片中检测出的文本识别区域进行深层次特征的提取;其中,特征提取模块由多个卷积层构成;
文字预测模块,用于使用双向LSTM来处理不定长序列预测的问题,预测不定长文本;其中,文字预测模块由循环神经网络构成。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至3中所述的自定义模板文字识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140530.6A CN112836632B (zh) | 2021-02-02 | 2021-02-02 | 自定义模板文字识别的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140530.6A CN112836632B (zh) | 2021-02-02 | 2021-02-02 | 自定义模板文字识别的实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836632A CN112836632A (zh) | 2021-05-25 |
CN112836632B true CN112836632B (zh) | 2023-04-07 |
Family
ID=75931521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110140530.6A Active CN112836632B (zh) | 2021-02-02 | 2021-02-02 | 自定义模板文字识别的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836632B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565750A (zh) * | 2022-02-22 | 2022-05-31 | 杭州布谷蓝途科技有限公司 | 一种纸质试题的处理方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及系统 |
CN110956171A (zh) * | 2019-11-06 | 2020-04-03 | 广州供电局有限公司 | 铭牌自动识别方法、装置、计算机设备和存储介质 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033000B (zh) * | 2019-03-21 | 2021-05-18 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN109886274A (zh) * | 2019-03-25 | 2019-06-14 | 山东浪潮云信息技术有限公司 | 基于opencv和深度学习的社保卡识别方法及系统 |
CN110059694B (zh) * | 2019-04-19 | 2020-02-11 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN111476227B (zh) * | 2020-03-17 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于ocr的目标字段识别方法、装置及存储介质 |
CN111931784B (zh) * | 2020-09-17 | 2021-01-01 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
CN112257613B (zh) * | 2020-10-23 | 2023-08-08 | 中国平安人寿保险股份有限公司 | 体检报告信息结构化提取方法、装置及计算机设备 |
-
2021
- 2021-02-02 CN CN202110140530.6A patent/CN112836632B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及系统 |
CN110956171A (zh) * | 2019-11-06 | 2020-04-03 | 广州供电局有限公司 | 铭牌自动识别方法、装置、计算机设备和存储介质 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Non-Patent Citations (3)
Title |
---|
A lighten CNN-LSTM model for speaker verification on embedded devices;ZitianZhao等;《Future Generation Computer Systems》;全文 * |
Banknotes Serial Number Coding Recognition;Ruru Xu等;《2019 IEEE International Conference on Big Data (Big Data)》;全文 * |
基于卷积神经网络的仓储物体检测算法研究;王飞等;《南京师范大学学报(工程技术版)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836632A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933756B (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
Erol et al. | HOTPAPER: multimedia interaction with paper using mobile phones | |
US9230383B2 (en) | Document image compression method and its application in document authentication | |
CN111476067A (zh) | 图像的文字识别方法、装置、电子设备及可读存储介质 | |
JP2010140478A (ja) | 文書画像分類のための方法及びシステム | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
WO2000052645A1 (fr) | Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document | |
CN105701489A (zh) | 一种新型的数字提取和识别的方法及系统 | |
JP2002042143A (ja) | 枠認識装置及び記録媒体 | |
CN114663897A (zh) | 表格提取方法与表格提取系统 | |
WO2000062243A1 (fr) | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document | |
Xiong et al. | Text detection in stores using a repetition prior | |
CN112836632B (zh) | 自定义模板文字识别的实现方法及系统 | |
US20240212380A1 (en) | Systems and methods for automatic context-based annotation | |
CN113807218B (zh) | 版面分析方法、装置、计算机设备和存储介质 | |
CN111428656A (zh) | 基于深度学习的移动端身份证识别方法、移动设备 | |
CN110796145A (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
US9798711B2 (en) | Method and system for generating a graphical organization of a page | |
CN114022891A (zh) | 扫描文本的关键信息提取方法、装置、设备及存储介质 | |
US8391606B2 (en) | Image processing device, image processing method, and computer readable medium | |
CN114821623A (zh) | 文档处理方法、装置、电子设备及存储介质 | |
CN114612905A (zh) | 基于rpa和ai的发票处理方法、装置、设备和介质 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |