CN112825141A - 识别文本的方法、装置、识别设备和存储介质 - Google Patents
识别文本的方法、装置、识别设备和存储介质 Download PDFInfo
- Publication number
- CN112825141A CN112825141A CN201911147915.4A CN201911147915A CN112825141A CN 112825141 A CN112825141 A CN 112825141A CN 201911147915 A CN201911147915 A CN 201911147915A CN 112825141 A CN112825141 A CN 112825141A
- Authority
- CN
- China
- Prior art keywords
- boundary
- text
- region
- key point
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V30/1902—Shifting or otherwise transforming the patterns to accommodate for positional errors
- G06V30/19027—Matching of contours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Abstract
本公开提供了一种识别文本的方法、装置、识别设备和存储介质,属于文本检测领域。所述方法包括:识别设备可以根据提取待识别图像的特征图,然后使用预设的分割网络和待识别图像,确定待识别图像的文本区域的分割信息,然后根据分割信息,确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,将转换得到的文本输入到预设识别模型,进行识别处理。采用本公开,可以提升弯曲文本的识别效率。
Description
技术领域
本公开涉及文本检测领域,特别涉及一种识别文本的方法、装置、识别设备和存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术作为一种重要的信息采集或录入的手段,可以代替人工输入,解放人力,从而被应用于多个场景。例如,可以应用于车牌识别、身份证信息识别、PDF(Portable Document Format,便携式文档格式)文本解析等。一般的流程是先进行检测后进行识别,即先对传入的图像进行文本区域的检测,再针对于检测区域内进行文本识别。
相关技术中,在对传入的图像进行文本区域检测时,得到的输出结果为一个四边形文本框(如矩形文本框或凸四边形框),然后对矩形文本框或凸四边形框中的内容进行检测。
由于在许多场景中均存在弯曲的文本,例如,发票章、广告牌等,所以仅使用四边形作为检测结果,这样,四边形中有可能不会包含弯曲文本,进而会导致弯曲文本的识别率比较低。
发明内容
为了解决弯曲文本的识别效率比较低的问题,本公开实施例提供了一种识别文本的方法、装置、识别设备和存储介质。所述技术方案如下:
第一方面,提供了一种识别文本的方法,所述方法包括:
根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图;
根据所述预设的分割网络和所述特征图,确定所述待识别图像的文本区域的分割信息;
根据所述分割信息,确定所述文本区域的边界关键点;
根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本;
将转换得到的文本输入到预设识别模型,进行识别处理。
可选的,所述根据所述分割信息,确定所述文本区域的边界关键点,包括:
根据所述分割信息中第一边界区域中各像素点与所述第一边界区域的两个边界关键点之间的偏移,确定所述第一边界区域的两个边界关键点的位置信息;并根据所述分割信息中第二边界区域中各像素点与所述第二边界区域的两个边界关键点之间的偏移,确定所述第二边界区域的两个边界关键点的位置信息,其中,所述第一边界区域位于所述文本区域的头部,所述第二边界区域位于所述文本区域的尾部;
根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述方法还包括:
确定所述文本区域中的文本的排布信息;
所述根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点,包括:
根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点,包括:
如果所述排布信息为横向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点;
如果所述排布信息为纵向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的右边界除所述第三边界关键点和所述第四边界关键点之外的其它边界关键点。
可选的,所述根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,包括:
根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一横坐标信息,其中,所述第一预设数目个位置点位于第一连线上,且是基于将所述第一连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第一连线为所述第一边界关键点与所述第二边界关键点的连线;
根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的上边界的偏移;
所述根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,包括:
对于所述第一预设数目个位置点中任一位置点的第一横坐标信息,根据所述位置点的第一横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第一横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述上边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的上边界,且所述上边界包括所述第一边界关键点和所述第二边界关键点。
可选的,所述根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点,包括:
根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定第一预设数目个位置点的第二横坐标信息,其中,所述第一预设数目个位置点位于第二连线上,且是基于将所述第二连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第二连线为所述第三边界关键点与所述第四边界关键点的连线;
根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的下边界的偏移;
所述根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点,包括:
对于所述第一预设数目个位置点中任一位置点的第二横坐标信息,根据所述位置点的第二横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第二横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述下边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的下边界,且所述下边界包括所述第三边界关键点和所述第四边界关键点。
可选的,所述根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本,包括:
使用薄板样条插值TPS对所述边界关键点进行模板匹配,将所述文本区域的文本转换为目标排列顺序的文本。
可选的,所述根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图,包括:
将待识别图像输入到预设的特征提取网络,提取所述待识别图像的预设尺寸的特征图;
将所述预设尺寸的特征图经过预设的卷积处理;
将卷积处理后的特征图进行卷积核矫正处理;
将卷积核矫正处理后的特征图经过上采样后与所述预设尺寸的特征图的上一层特征图进行融合处理,得到所述待识别图像的特征图。
可选的,所述将卷积处理后的特征图进行卷积核矫正处理,包括:
将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将所述第一特征图进行第二卷积核的卷积处理,得到第三特征图;
将所述第三特征图进行第三卷积核的卷积处理,得到第四特征图,并将所述第三特征图进行第四卷积核的卷积处理,得到第五特征图;其中,所述第三卷积核的尺寸为m*n,所述第四卷积核的尺寸为n*m,m和n为正整数,且m小于n;
将所述第一特征图、第三特征图、第四特征图,第五特征图进行通道拼接处理,得到第六特征图;
将所述第六特征图进行压缩激活处理,得到卷积核矫正处理后的特征图。
可选的,所述方法还包括:
获取样本集合,其中,所述样本集合中包括第二预设数目个标定文本区域的图像;
对于所述样本集合中的目标文本区域,确定所述目标文本区域的第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点;
对所述目标文本区域进行分割处理,得到所述目标文本区域的第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域,将所述第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域作为分割真值;
确定所述第一边界区域的各像素点与所述第一边界关键点、所述第三边界关键点的偏移,并确定第二边界区域的各像素点与所述第二边界关键点、所述第四边界关键点的偏移,作为边界关键点真值;
确定所述目标文本区域中文本所在区域的各像素点与所述目标文本区域的上边界、下边界、左边界和右边界的最小偏移,作为边界偏移真值;
根据所述样本集合中每个文本区域对应的分割真值、边界关键点真值和边界距离真值,对分割网络训练模型进行训练,得到分割网络。
可选的,所述确定所述文本区域中的文本的排布信息,包括:
确定所述文本区域中的最大横坐标和最大纵坐标,并确定所述文本区域中的最小横坐标和最小纵坐标;
根据所述最大横坐标和最大纵坐标、所述最小横坐标和最小纵坐标,确定所述文本区域的外接矩形;
如果所述外接矩形的长度大于宽度,则确定所述文本区域中文本的排布为横向排布,如果所述外接矩形的长度小于宽度,则确定所述文本区域中文本的排布为纵向排布。
第二方面,提供了一种识别文本的装置,所述装置包括:
提取模块,用于根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图;
确定模块,用于根据所述预设的分割网络和所述特征图,确定所述待识别图像的文本区域的分割信息;根据所述分割信息,确定所述文本区域的边界关键点;
转换模块,用于根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本;
识别模块,用于将转换得到的文本输入到预设识别模型,进行识别处理。
可选的,所述确定模块,用于:
根据所述分割信息中第一边界区域中各像素点与所述第一边界区域的两个边界关键点之间的偏移,确定所述第一边界区域的两个边界关键点的位置信息;并根据所述分割信息中第二边界区域中各像素点与所述第二边界区域的两个边界关键点之间的偏移,确定所述第二边界区域的两个边界关键点的位置信息,其中,所述第一边界区域位于所述文本区域的头部,所述第二边界区域位于所述文本区域的尾部;
根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述确定模块,还用于:
确定所述文本区域中的文本的排布信息;
所述确定模块,用于:
根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述确定模块,用于:
如果所述排布信息为横向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点;
如果所述排布信息为纵向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的右边界除所述第三边界关键点和所述第四边界关键点之外的其它边界关键点。
可选的,所述确定模块,用于
根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一横坐标信息,其中,所述第一预设数目个位置点位于第一连线上,且是基于将所述第一连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第一连线为所述第一边界关键点与所述第二边界关键点的连线;
根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的上边界的偏移;
所述确定模块,用于:
对于所述第一预设数目个位置点中任一位置点的第一横坐标信息,根据所述位置点的第一横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第一横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述上边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的上边界,且所述上边界包括所述第一边界关键点和所述第二边界关键点。
可选的,所述确定模块,用于:
根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定第一预设数目个位置点的第二横坐标信息,其中,所述第一预设数目个位置点位于第二连线上,且是基于将所述第二连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第二连线为所述第三边界关键点与所述第四边界关键点的连线;
根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的下边界的偏移;
所述确定模块,用于:
对于所述第一预设数目个位置点中任一位置点的第二横坐标信息,根据所述位置点的第二横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第二横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述下边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的下边界,且所述下边界包括所述第三边界关键点和所述第四边界关键点。
可选的,所述转换模块,用于:
使用薄板样条插值TPS对所述边界关键点进行模板匹配,将所述文本区域的文本转换为目标排列顺序的文本。
可选的,所述提取模块,用于:
将待识别图像输入到预设的特征提取网络,提取所述待识别图像的预设尺寸的特征图;
将所述预设尺寸的特征图经过预设的卷积处理;
将卷积处理后的特征图进行卷积核矫正处理;
将卷积核矫正处理后的特征图经过上采样后与所述预设尺寸的特征图的上一层特征图进行融合处理,得到所述待识别图像的特征图。
可选的,所述提取模块,用于:
将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将所述第一特征图进行第二卷积核的卷积处理,得到第三特征图;
将所述第三特征图进行第三卷积核的卷积处理,得到第四特征图,并将所述第三特征图进行第四卷积核的卷积处理,得到第五特征图;其中,所述第三卷积核的尺寸为m*n,所述第四卷积核的尺寸为n*m,m和n为正整数,且m小于n;
将所述第一特征图、第三特征图、第四特征图,第五特征图进行通道拼接处理,得到第六特征图;
将所述第六特征图进行压缩激活处理,得到卷积核矫正处理后的特征图。
可选的,所述装置还包括训练模块,用于:
获取样本集合,其中,所述样本集合中包括第二预设数目个标定文本区域的图像;
对于所述样本集合中的目标文本区域,确定所述目标文本区域的第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点;
对所述目标文本区域进行分割处理,得到所述目标文本区域的第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域,将所述第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域作为分割真值;
确定所述第一边界区域的各像素点与所述第一边界关键点、所述第三边界关键点的偏移,并确定第二边界区域的各像素点与所述第二边界关键点、所述第四边界关键点的偏移,作为边界关键点真值;
确定所述目标文本区域中文本所在区域的各像素点与所述目标文本区域的上边界、下边界、左边界和右边界的最小偏移,作为边界偏移真值;
根据所述样本集合中每个文本区域对应的分割真值、边界关键点真值和边界距离真值,对分割网络训练模型进行训练,得到分割网络。
可选的,所述确定模块,用于:
确定所述文本区域中的最大横坐标和最大纵坐标,并确定所述文本区域中的最小横坐标和最小纵坐标;
根据所述最大横坐标和最大纵坐标、所述最小横坐标和最小纵坐标,确定所述文本区域的外接矩形;
如果所述外接矩形的长度大于宽度,则确定所述文本区域中文本的排布为横向排布,如果所述外接矩形的长度小于宽度,则确定所述文本区域中文本的排布为纵向排布。
第三方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的方法步骤。
第四方面,提供了一种识别设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现上述第一方面的方法步骤。
本公开实施例提供的技术方案带来的有益效果至少包括:
本公开实施例中,识别设备可以根据提取待识别图像的特征图,然后使用预设的分割网络和待识别图像,确定待识别图像的文本区域的分割信息,然后根据分割信息,确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,将转换得到的文本输入到预设识别模型,进行识别处理。这样,由于是确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,再进行识别,所以可以识别任意形状的弯曲文本,进而可以提升弯曲文本的识别效率。
而且本公开实施例中,不需要对弯曲文本进行字符级别的标注,也可以学习到文本阅读的语义信息(排布信息),所以可以增加文本检测和识别的准确率。
而且本公开实施例中,由于可以产生固定数目个边界关键点的检测框,所以可以被应用于任何形状文本的标定工具,适用范围广。
附图说明
图1是本公开实施例提供的一种识别文本的方法流程图;
图2是本公开实施例提供的一种提取特征图的示意图;
图3是本公开实施例提供的一种卷积核矫正处理的示意图;
图4是本公开实施例提供的一种确定文本转换的示意图
图5是本公开实施例提供的一种TPS处理的示意图;
图6是本公开实施例提供的一种确定文本区域外接矩形的示意图;
图7是本公开实施例提供的一种确定边界关键点的示意图;
图8是本公开实施例提供的一种训练分割网络的方法流程图;
图9是本公开实施例提供的一种划分区域的示意图;
图10是本公开实施例提供的一种识别文本的装置的结构示意图;
图11是本公开实施例提供的一种识别文本的装置的结构示意图;
图12是本公开实施例提供的一种识别设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
本公开实施例提供了一种识别文本的方法,该方法的执行主体可以是识别设备。其中,识别设备可以是服务器或终端,服务器可以是识别文本程序的后台服务器,终端可以是电脑等。
识别设备中可以设置有处理器、存储器和收发器等。处理器可以用于进行识别文本过程中的处理,存储器可以用于在识别文本过程中需要的数据以及产生的数据,收发器可以用于接收以及发送数据。
在进行实施前,首先介绍一下本公开实施例的应用场景以及涉及的名词:
OCR技术作为一种重要的信息采集或录入的手段,可以代替人工输入,解放人力,从而被应用于多个场景。例如,可以应用于车牌识别、身份证信息识别、PDF文本解析等。一般的流程是先进行检测后进行识别,即先对传入的图像进行文本区域的检测,再针对于检测区域内进行文本识别。
CNN(Convolutional Neural Network,卷积神经网络),一种前馈的人工神经网络,通过权值共享方式提取图像的特征信息,多层连接挖掘深层次的图像特征。
FPN(Feature Pyramid Network,特征金字塔网络),一种神经网络结构,常用于通用目标检测,主要是将不同层的特征进行融合,使得网络可以适用于不同尺度的目标。
BFS(Breadth-First Search,广度优先搜索),一种连通图的遍历搜索策略。
TPS(Thin Plate Spline,薄板样条插值),一种插值算法,可以将原图片按照对应模板进行形变。
本公开提供了一种识别文本的方法,如图1所示,该方法的处理流程可以如下:
步骤101,根据预设的特征提取网络和待识别图像,提取待识别图像的特征图。
其中,待识别图像为要进行文本识别的图像。预设的特征提取网络可以FPN,可以预先训练得到。
在实施中,识别设备要对图像(后续可以称为是待识别图像)进行识别时,可以将待识别图像输入到预设的特征提取网络中,输出则为待识别图像的特征图。
可选的,可以进行融合处理,得到待识别图像的特征图,相应的步骤101的处理可以如下:
将待识别图像输入到预设的特征提取网络,提取待识别图像的预设尺寸的特征图,将预设尺寸的特征图经过预设的卷积处理;将卷积处理后的特征图进行卷积核矫正处理;将卷积核矫正处理后的特征图经过上采样后与预设尺寸的特征图的上一层特征图进行融合处理,得到待识别图像的特征图。
其中,预设的特征提取网络可以是FPN,一般使用的是FPN的RestNet-101。
在实施中,识别设备可以将待识别图像输入到预设的特征提取网络,经过特征提取后,得到待识别图像的预设尺寸的特征图,然后将该预设尺寸的特征图经过预设的卷积处理,再将卷积处理后的特征图进行卷积核矫正处理,得到卷积核矫正处理后的特征图。
将卷积核矫正处理后的特征图进行上采样,得到上采样后的特征图,将上采样后的特征图与预设尺寸的特征图的上一层特征图进行融合处理(即将特征图直接进行相加),得到的还是预设尺寸的特征图,这样,就得到待识别图像对应的特征图,用于后续处理。
例如,如图2所示,预设尺寸的特征图可以是8倍特征图,将8倍特征图经过1*1的卷积核的卷积处理,然后再进行卷积核矫正处理,得到的还是8倍特征图,将该8倍特征图上采样后,得到4倍特征图。由于8倍特征图的上一层特征图是4倍特征图,所以可以将上采样后的4倍特征图与8倍特征图的上一层特征图进行融合,得到4倍特征图,用于后续处理。
需要说明的是,上述预设尺寸的特征图可以基于实际场景进行设定,如果实际场景中包含较多的小尺度文本,则需要添加2倍特征图,如果实际场景中包含较多大尺度文本,则需要添加32倍特征图。
还需要说明的是,上述在预设的特征提取网络输入的待识别图像可以是RGB(Red,Green,Blue,红绿蓝)图像。
可选的,可以使用数个大卷积核进行卷积核矫正处理,相应的处理可以如下:
将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将第一特征图进行第二卷积核的卷积处理,得到第二特征图;将第二特征图进行第三卷积核的卷积处理,得到第三特征图,并将第二特征图进行第四卷积核的卷积处理,得到第四特征图;将第一特征图、第二特征图、第三特征图,第四特征图进行通道拼接处理,得到第五特征图;将第五特征图进行压缩激活处理,得到卷积核矫正处理后的特征图。
其中,第三卷积核的尺寸为m*n,第四卷积核的尺寸为n*m,m和n为正整数,且m小于n,m可以为1,n为大于1的正整数,n的取值范围可以为7~11。
在实施中,识别设备可以将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将第一特征图进行第二卷积核的卷积处理,得到第二特征图,然后将第二特征图进行第三卷积核的卷积处理,得到第三特征图,并将第二特征图进行第四卷积核的卷积处理,得到第四特征图。
然后将第一特征图、第二特征图、第三特征图、第四特征图进行通道拼接处理,得到第五特征图,最后将第五特征图像进行压缩激活处理,得到卷积核矫正处理后的特征图。
如图3所示,第一卷积核可以是1*1,有256个通道,第二卷积核可以为3*3,有256个通道,第三卷积核可以为1*n(n可以取7~11中的一个正整数),有128个通道,第四卷积核可以为n*1(n可以取7~11中的一个正整数),有128个通道。
这样,由于采用了第三卷积核和第四卷积核,所以可以提取到横向或纵向的长文本特征。
步骤102,根据预设的分割网络和特征图,确定待识别图像的文本区域的分割信息。
其中,分割网络可以预先训练得到,训练过程在后面进行描述。
在实施中,识别设备在得到待识别图像的特征图之后,可以获取预设的分割网络,将待识别图像的特征图输入到该分割网络中,输出则为待识别图像的文本区域的分割信息,分割信息包括文本区域中各类别的区域所在的位置,类别包括第一边界区域的类别(即头边界所在区域的类别),第二边界区域的类别(尾边界所在区域的类别),第三边界区域的类别(即上边界所在区域的类别)和第四边界区域的类别(即下边界所在区域的类别)、文本所在区域的类别、背景区域的类别。此处第一边界区域、第二边界区域、第三边界区域和第四边界区域在图9中有示例。
另外,对于待识别图像中每一个文本区域进行遍历搜索算法(如BFS等)的处理,搜索过程中记录下该文本区域所有相邻的头边界所在区域和尾边界所在区域,选取面积最大的一组头边界所在区域和尾边界所在区域分别作为该文本区域的第一边界区域和第二边界区域。
另外,对于一个文本区域,如果没有尾边界所在区域或者头边界所在区域,则将该文本区域删除,后续不再处理,这是由于大部分由于纹理造成的误检是缺少头边界所在区域或者尾边界所在区域。
需要说明的是,由于相近的文本区域是会被边界隔开,所以每一个独立的文本类区域连通域对应一个检出的文本实体。
步骤103,根据分割信息,确定文本区域的边界关键点。
在实施中,识别设备在确定出分割信息之后,可以使用该分割信息,确定文本区域的多个边界关键点。
步骤104,根据边界关键点,将文本区域中的文本转换为目标排列顺序的文本。
其中,目标排列顺序可以是从左向右的顺序。
在实施中,识别设备可以使用文本区域的边界关键点,将文本区域中包括的文本,转换为目标排列顺序的文本,也即将不同朝向的文本可以转换为按照目标排列顺序排列的文本。例如,如图4所示,目标排列顺序为从左向右,如果文本区域的文本为竖直排列,则转换为从左向右的文本。
可选的,在步骤104中,可以使用TPS进行转换,相应的步骤104的处理可以如下:
使用TPS对边界关键点进行模板匹配,将文本区域的文本转换为目标排列顺序的文本。
在实施中,假设步骤103的结果为2*N个边界关键点,预设的识别模型的输入为H*W(H为高,W为宽),可以将步骤103得到的2*N个边界关键点的位置坐标一一映射到如下坐标:
其中,Δx,Δy为边界预留空间,可以设定为5~15个像素点,以免形变过大造成文本区域被新的模板所截断。
这样,经过映射之后,不同朝向的文本,被转换为有目标排列顺序的文本,以便于使用预设识别模型进行识别。如图5所示,将14个边界关键点的弯曲文本区域,经过TPS转换为从左向右的文本区域。
需要说明的是,由于使用了TPS,将文本的顺序统一为目标排列顺序的文本,所以可以使后续的预设识别模型无需学习复杂的形变参数。
步骤105,将转换得到的文本输入到预设识别模型,进行识别处理。
其中,预设识别模型可以是预先训练的CNN。
在实施中,识别设备可以将步骤104得到的文本输入到预设识别模型,则会输出对该文本的识别结果。
可选的,在步骤102中,确定边界关键点的过程可以如下:
根据分割信息中第一边界区域中各像素点与第一边界区域的两个边界关键点之间的偏移,确定第一边界区域的两个边界关键点的位置信息;并根据分割信息中第二边界区域中各像素点与第二边界区域的两个边界关键点之间的偏移,确定第二边界区域的两个边界关键点的位置信息;根据第一边界区域的两个边界关键点的位置信息和第二边界区域的两个边界关键点的位置信息,确定文本区域中除第一边界区域与第二边界区域的其它边界关键点。
其中,第一边界区域位于文本区域的头部,可以称为是头边界所在区域,第二边界区域位于文本区域的尾部,可以称为是尾边界所在区域。例如,对于文本从左向右的文本区域,第一边界区域位于文本区域的左侧,即左边界所在区域,第二边界区域位于文本区域的右侧,即右边界所在区域。对于文本从上向下的文本区域,第一边界区域位于文本区域的上侧,即上边界所在区域,第二边界区域位于文本区域的下侧,即下边界所在区域。
在实施中,分割信息中包括第一边界区域中各像素点与第一边界区域的两个边界关键点之间的偏移(如果边界关键点对应有横坐标和纵坐标,各像素点与边界关键点之间的偏移包括横坐标的偏移和纵坐标的偏移)。
识别设备可以使用第一边界区域中各像素点与第一边界区域中两个边界关键点之间的偏移,确定出第一边界区域的两个边界关键点的位置信息。第一边界区域的两个边界关键点中的一个(使用p1)的确定方法可以如下:
其中,RH为第一边界区域,(xi,yi)为属于第一边界区域的像素点的位置坐标,Δdxi为xi与p1之间在x方向上的偏移,Δdyi为yi与p1之间在y方向上的偏移。同理按照这种方式,可以确定第一边界区域的另一个边界关键点的位置坐标。
同理,按照上述式子(2),识别设备可以使用分割信息中第二边界区域中各像素点与第二边界区域的两个边界关键点之间的偏移,确定出第二边界区域的两个边界关键点的位置信息。
然后识别设备可以使用第一边界区域的两个边界关键点的位置信息和第二边界区域的两个边界关键点的位置信息,确定出文本区域中,第一边界区域与第二边界区域的其它边界关键点。
需要说明的是,一般是以待识别图像的左上角为坐标原点,向右为x的正向,向下为y的正方向,建立直角坐标系。
可选的,在确定其它边界点时,还考虑了文本区域中的文本的排布信息,相应的处理可以如下:
确定文本区域中的文本的排布信息,根据文本的排布信息、第一边界区域的两个边界关键点的位置信息和第二边界区域的两个边界关键点的位置信息,确定文本区域中除第一边界区域与第二边界区域的其它边界关键点。
其中,排布信息包括从左向右排布(即横向排布)和从上向下排布(即纵向排布)。
在实施中,识别设备可以识别文本区域中的文本的排布信息,然后使用该排布信息、第一边界区域的两个边界关键点的位置信息和第二边界区域的两个边界关键点的位置信息,确定文本区域中除第一边界区域中的边界关键点与第二边界区域中的边界关键点之外的其它边界关键点。
可选的,本公开实施例中,还提供了确定文本的排布信息的方式:
确定文本区域中的最大横坐标和最大纵坐标,并确定文本区域中的最小横坐标和最小纵坐标;根据最大横坐标和最大纵坐标、最小横坐标和最小纵坐标,确定文本区域的外接矩形;如果外接矩形的长度大于宽度,则确定文本区域中文本的排布为横向排布,如果外接矩形的长度小于宽度,则确定文本区域中文本的排布为纵向排布。
在实施中,识别设备可以在文本区域中各像素点的位置坐标,确定最大横坐标和最大纵坐标,并且确定最小横坐标和最小纵坐标。使用最大横坐标和最小横坐标相减,得到文本区域的外接矩形的长度,并且将最大纵坐标和最小纵坐标相减,得到文本区域的外接矩形的宽度。例如,如图6所示,最大纵坐标为5,最小纵坐标为3,最大横坐标为12,最小横坐标为5,则长度为7,宽度为2。
然后判断外接矩形的长度和宽度的大小,如果长度大于宽度,则确定文本区域中文本的排布为横向排布,如果长度小于宽度,则确定文本区域中文本的排布为纵向排布。
另外,如果宽度等于高度,则确定为横向排布和纵向排布,后续分别进行识别处理。
可选的,对于不同的排布信息,按照不同的方式,确定其它边界关键点,相应的处理可以如下:
如果排布信息为横向排布,则根据第一边界区域中第一边界关键点的位置信息和第二边界区域中第二边界关键点的位置信息,确定文本区域的上边界除第一边界关键点和第二边界关键点之外的其它边界关键点,并根据第一边界区域中第四边界关键点的位置信息和第二边界区域中第三边界关键点的位置信息,确定文本区域的下边界除第三边界关键点和第三边界关键点之外的其它边界关键点;如果排布信息为纵向排布,则根据第一边界区域中第一边界关键点的位置信息和第二边界区域中第二边界关键点的位置信息,确定文本区域的左边界除第一边界关键点和第二边界关键点之外的其它边界关键点,并根据第一边界区域中第四边界关键点的位置信息和第二边界区域中第三边界关键点的位置信息,确定文本区域的右边界除第三边界关键点和第四边界关键点之外的其它边界关键点。
其中,第一边界关键点和第四边界关键点位于第一边界区域,第二边界关键点和第三边界关键点位于第二边界区域。排布信息为横向排布,第一边界关键点和第二边界关键点位于文本区域的上边界,第三边界关键点和第四边界关键点位于文本区域的下边界。排布信息为纵向排布,第一边界关键点和第二边界关键点位于文本区域的左边界,第三边界关键点和第四边界关键点位于文本区域的右边界。
在实施中,如果排布信息为横向排布,则可以使用第一边界关键点的位置信息和第二边界点的位置信息,确定文本区域的上边界中除第一边界关键点和第二边界关键点之外的其它边界关键点的位置信息,并且可以使用第三边界关键点和第四边界关键点的位置信息,确定文本区域的下边界中除第三边界关键点和第四边界关键点之外的其它边界关键点的位置信息。
如果排布信息为纵向排布,则可以使用第一边界关键点的位置信息和第二边界点的位置信息,确定文本区域的左边界中除第一边界关键点和第二边界关键点之外的其它边界关键点的位置信息,并且可以使用第三边界关键点和第四边界关键点的位置信息,确定文本区域的右边界中除第三边界关键点和第四边界关键点之外的其它边界关键点的位置信息。
可选的,可以使用如下方式,确定边界关键点,相应的处理可以如下:
根据第一边界区域中第一边界关键点的位置信息和第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一横坐标信息,其中,第一预设数目个位置点位于第一连线上,且是基于将第一连线等分为目标数值得到,目标数值等于第一预设数目加1,第一连线为第一边界关键点与第二边界关键点的连线;根据第一横坐标信息,确定文本区域的上边界除第一边界关键点和第二边界关键点之外的其它边界关键点。
其中,第一预设数目可以预设,并且存储在识别设备上。
在实施中,识别设备可以将第一边界关键点和第二边界关键点连线,得到第一连线,然后将第一连线上等分为目标数值份(目标数值等于第一预设数目与1之和),得到第一预设数目个位置点。例如,如图7所示,第一预设数目为5,目标数值为6,将第一连线等分为6份,可以得到5个位置点。
由于第一边界关键点与第二边界关键点的位置信息已知,所以将第一连线等分为目标数值份后,使用第一边界关键点与第二边界关键点的位置信息,可以确定出这第一预设数目个位置点的横坐标,这样,即可得到第一横坐标信息。
然后可以使用第一横坐标信息,确定出文本区域的上边界除第一边界关键点和第二边界关键点之外的其它边界关键点。
可选的,分割信息包括文本区域中属于文本的像素点与文本区域的上边界的偏移;确定文本区域的上边界除第一边界关键点和第二边界关键点之外的其它边界关键点的方式可以如下:
对于第一预设数目个位置点中任一位置点的第一横坐标信息,根据位置点的第一横坐标信息对应的横坐标区间,确定文本区域中属于文本且横坐标位于横坐标区间的像素点;将位置点的第一横坐标信息,确定为位置点对应的边界关键点的横坐标,并根据确定出的像素点与上边界的偏移,确定位置点对应的边界关键点的纵坐标,其中,位置点对应的边界关键点为位于文本区域的上边界,且上边界包括第一边界关键点和第二边界关键点。
在实施中,对于第一预设数目个位置点中任一位置点i的第一横坐标信息xi,可以确定位置点i的第一横坐标信息对应的横坐标区间[xi-a,xi+a](a可以预设并且存储至识别设备),然后在文本区域中属于文本的像素点中,确定属于文本且横坐标位于横坐标区间[xi-a,xi+a]的像素点。
然后将位置点i的第一横坐标信息xi,确定为该位置点i对应的边界关键点的横坐标xi,并且在分割信息中,获取属于文本且横坐标位于横坐标区间[xi-a,xi+a]的像素点到上边界的最小偏移,使用该偏移中在y方向上的最小偏移,确定出该位置点i对应的边界关键点的纵坐标,该边界关键点的位置坐标用公式表示可以如下:
其中,在式(3)中,Bi为第一边界区域,||Bi||表示横坐标区间[xi-a,xi+a]中属于文本的像素点的数目,yi为横坐标区间[xi-a,xi+a]中属于文本的像素点的纵坐标,Δdy′i为横坐标区间[xi-a,xi+a]中属于文本的像素点的纵坐标yi与上边界在y方向上的最小偏移。
这样,使用与位置点i相同的方式,可以确定出第一预设数目个位置点对应的边界关键点的位置坐标。这样,就可以确定出上边界中除第一边界关键点和第二边界关键点之外的其它边界关键点。
可选的,可以使用以下方式确定下边界的其它边界关键点,相应的处理可以如下:
根据第一边界区域中第四边界关键点的位置信息和第二边界区域中第三边界关键点的位置信息,确定第一预设数目个位置点的第二横坐标信息,其中,第一预设数目个位置点位于第二连线上,且是基于将第二连线等分为目标数值得到,目标数值等于第一预设数目加1,第二连线为第三边界关键点与第四边界关键点的连线,
根据第二横坐标信息,确定文本区域的下边界除第三边界关键点和第三边界关键点之外的其它边界关键点。
其中,第一预设数目可以预设,并且存储在识别设备上。
在实施中,识别设备可以将第三边界关键点和第四边界关键点连线,得到第二连线,然后将第二连线上等分为目标数值份(目标数值等于第一预设数目与1之和),得到第一预设数目个位置点。
由于第三边界关键点与第四边界关键点的位置信息已知,所以将第二连线等分为目标数值份后,使用第三边界关键点与第四边界关键点的位置信息,可以确定出这第一预设数目个位置点的横坐标,这样,即可得到第二横坐标信息。
然后可以使用第二横坐标信息,确定出文本区域的下边界除第三边界关键点和第四边界关键点之外的其它边界关键点。
可选的,可以使用属于文本的像素点与文本区域的下边界的偏移,确定下边界的其它边界关键点,处理可以如下:
对于第一预设数目个位置点中任一位置点的第二横坐标信息,根据位置点的第二横坐标信息对应的横坐标区间,确定文本区域中属于文本且横坐标位于横坐标区间的像素点;将位置点的第二横坐标信息,确定为位置点对应的边界关键点的横坐标,并根据确定出的像素点与下边界的偏移,确定位置点对应的边界关键点的纵坐标,其中,位置点对应的边界关键点为位于文本区域的下边界,且下边界包括第三边界关键点和第四边界关键点。
在实施中,对于第一预设数目个位置点中任一位置点j的第二横坐标信息xj,可以确定位置点j的第二横坐标信息对应的横坐标区间[xj-a,xj+a](a可以预设并且存储至识别设备),然后在文本区域中属于文本的像素点中,确定属于文本且横坐标位于横坐标区间[xj-a,xj+a]的像素点。
然后将位置点j的第二横坐标信息xj,确定为该位置点j对应的边界关键点的横坐标xj,并且在分割信息中,获取属于文本且横坐标位于横坐标区间[xj-a,xj+a]的像素点与下边界的最小偏移,使用y方向上的最小偏移,确定出该位置点j对应的边界关键点的纵坐标,该边界关键点的位置坐标用公式表示可以如下:
其中,在式(4)中,Bj为第二边界区域,||Bj||表示横坐标区间[xj-a,xj+a]中属于文本的像素点的数目,yj为横坐标区间[xj-a,xj+a]中属于文本的像素点的纵坐标,Δdy′j为横坐标区间[xj-a,xj+a]中属于文本的像素点的纵坐标yj与下边界在y方向上的最小偏移。
这样,使用与位置点j相同的方式,可以确定出第一预设数目个位置点对应的边界关键点的位置坐标。这样,就可以确定出上边界中除第三边界关键点和第四边界关键点之外的其它边界关键点。
可选的,对于排布信息为纵向排布,确定其它边界关键点的方式与横向排布基本类似,过程可以如下:
根据第一边界区域中第一边界关键点的位置信息和第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一纵坐标信息,其中,第一预设数目个位置点位于第三连线上,且是基于将第三连线等分为目标数值得到,目标数值等于第一预设数目加1,第三连线为第一边界关键点与第二边界关键点的连线,
根据第一纵坐标信息,确定文本区域的左边界除第一边界关键点和第二边界关键点之外的其它边界关键点。
其中,第一预设数目可以预设,并且存储在识别设备上。
在实施中,识别设备可以将第一边界关键点和第二边界关键点连线,得到第三连线,然后将第三连线上等分为目标数值份(目标数值等于第一预设数目与1之和),得到第一预设数目个位置点。
由于第一边界关键点与第二边界关键点的位置信息已知,所以将第一连线等分为目标数值份后,使用第一边界关键点与第二边界关键点的位置信息,可以确定出这第一预设数目个位置点的纵坐标,这样,即可得到第一纵坐标信息。
然后可以使用第一纵坐标信息,确定出文本区域的左边界除第一边界关键点和第二边界关键点之外的其它边界关键点。
可选的,分割信息包括文本区域中属于文本的像素点与文本区域的左边界的偏移;确定文本区域的左边界除第一边界关键点和第二边界关键点之外的其它边界关键点的方式可以如下:
对于第一预设数目个位置点中任一位置点的第一纵坐标信息,根据位置点的第一纵坐标信息对应的纵坐标区间,确定文本区域中属于文本且纵坐标位于纵坐标区间的像素点;将位置点的第一纵坐标信息,确定为位置点对应的边界关键点的纵坐标,并根据确定出的像素点与左边界的偏移,确定位置点对应的边界关键点的横坐标,其中,位置点对应的边界关键点为位于文本区域的左边界,且左边界包括第一边界关键点和第二边界关键点。
在实施中,对于第一预设数目个位置点中任一位置点k的第一纵坐标信息yk,可以确定位置点k的第一纵坐标信息对应的纵坐标区间[yk-a,yk+a](a可以预设并且存储至识别设备),然后在文本区域中属于文本的像素点中,确定属于文本且纵坐标位于纵坐标区间[yk-a,yk+a]的像素点。
然后将位置点k的第一纵坐标信息yk,确定为该位置点k对应的边界关键点的纵坐标yk,并且在分割信息中,获取属于文本且纵坐标位于纵坐标区[yk-a,yk+a]的像素点对应的偏移,使用该偏移,确定出该位置点k对应的边界关键点的横坐标,该边界关键点的位置坐标用公式表示可以如下:
其中,在式(5)中,Bk为第一边界区域,||Bk||表示纵坐标区间[yk-a,yk+a]中属于文本的像素点的数目,xi为纵坐标区间[yk-a,yk+a]中属于文本的像素点的横坐标,Δdx′为纵坐标区间[yk-a,yk+a]中属于文本的像素点的横坐标xi与上边界在x方向上的最小偏移。
这样,使用与位置点k相同的方式,可以确定出第一预设数目个位置点对应的边界关键点的位置坐标。这样,就可以确定出左边界中除第一边界关键点和第二边界关键点之外的其它边界关键点。
同理,可以确定出右边界上除第三边界关键点和第四边界关键点之外的其它边界关键点。
可选的,本公开实施例中,还提供了训练分割网络的过程,如图8所示,相应的处理可以如下:
步骤801,获取样本集合。
在实施中,识别设备可以获取样本集合,样本集合中包括第二预设数目个标定文本区域的图像(第二预设数目可以预设,一般比较大)。
步骤802,对于样本集合中的目标文本区域,确定目标文本区域的第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点。
其中,目标文本区域是样本集合中的任一文本区域。
在实施中,对于排布信息为横向排布的文本区域,此处一般是使用一个顺时针排布的多边形来标定一个文本,同时标定的起始顺序总是从文本的左上边界关键点开始,因为文本的标定总是单行的所以可以确定最后一个边界关键点一定是这个文本区域的左下边界关键点。所以第一边界关键点为左上角边界关键点,第四边界关键点为左下角边界关键点,这两个边界关键点是起始点和结束点,所以可以直接获得。第二边界关键点和第三边界关键点可以使用以下公式确定:
arg min[γ(|∠pi-90°|+|∠pi+1-90°|)+∠pi+∠pi+1-180°|] (6)
其中,在式(6)中,∠pi为第二边界关键点作为顶点,且边为右边界和上边界的角,∠pi+1为第三边界关键点作为顶点,且边为右边界和下边界的角,γ为权重系数,通常设置为0.5。式(6)表示[γ(|∠pi-90°|+|∠pi+1-90°|)+|∠pi+∠pi+1-180°|]最小时,得到∠pi和∠pi+1。使用式(6)能确定第二边界关键点,这是由于右上边界关键点和右下边界关键点所在角是近乎平行的,且右边界与上边界的夹角,接近于90度,右边界与下边界的夹角接近于90度。第三边界关键点为第二边界关键点的下一个边界关键点。这样,按照该方式可以确定出第二边界关键点和第三边界关键点。这样,可以确定目标文本区域的任一边界关键点。如图9所示,1号位置为第一边界关键点,2号位置为第二边界关键点,3号位置为第三边界关键点,4号位置为第四边界关键点。
对于纵向排布的文本区域,将所确定的边界关键点按顺时针的方向顺移一位,即1号位置对应右上边界关键点,2号位置对应右下边界关键点,依次类推。
步骤803,对目标文本区域进行分割处理,得到目标文本区域的第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域,将第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域作为分割真值。
在实施中,如图9所示,对于横向排布的文本区域,在确定出第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点之后,可以将目标文本区域中文本的像素设置为类别1(文本类),即文本所在区域,将文本区域的左上边界关键点、左下边界关键点连线并向内扩张一定距离设置为类别2(头边界类),即第一边界区域,将文本区域的右下边界关键点、右上边界关键点连线向内扩张一定距离设置为类别3(尾边界类),即第二边界区域,其余边界线向内外同时扩张生成区域设置为类别4(上下边界类),即第三边界区域(上边界所在的区域)和第四边界区域(下边界所在的区域),其余设置为类别0(背景类)。
将第一边界区域、第二边界区域、第三边界区域、第四边界区域和文本所在区域作为分割真值,用于后续训练。
需要说明的是,这里的后一个类别的生成会覆盖前一种类别。
步骤804,确定第一边界区域的各像素点与第一边界关键点、第三边界关键点的偏移,并确定第二边界区域的各像素点与第二边界关键点、第四边界关键点的偏移,作为边界关键点真值。
在实施中,识别设备可以确定第一边界区域的各像素点与左上边界关键点的纵向偏移和横向偏移,并确定第一边界区域的各像素点与左下边界关键点的纵向偏移和横向偏移,并确定第二边界区域的各像素点与右上边界关键点的纵向偏移和横向偏移,并确定第二边界区域的各像素点与右下边界关键点的纵向偏移和横向偏移。
将确定出的偏移,确定为边界关键点真值。
步骤805,确定目标文本区域中文本所在区域的各像素点与目标文本区域的上边界、下边界、左边界和右边界的最小偏移,作为边界偏移真值。
在实施中,识别设备可以确定文本所在区域的各像素点与目标文本的上边界、下边界、左边界和右边界最近的偏移,对于任一边界(上边界、下边界、左边界和右边界中的一种),以及任一像素点,可以使用该像素点的位置坐标和该边界上任一像素点的位置坐标,求该像素点与该边界上任一像素点之间的距离,确定与该边界上各像素点之间的距离的最小值,即为该像素点与该边界的最小偏移。依此类推,可以确定出目标文本区域中文本所在区域的各像素点与目标文本区域的上边界、下边界、左边界和右边界的最小偏移。
将确定出的偏移,确定为边界偏移真值。
步骤806,根据样本集合中每个文本区域对应的分割真值、边界关键点真值和边界偏移真值,对分割网络训练模型进行训练,得到分割网络。
其中,分割网络训练模型也是FPN,
在实施中,识别设备可以使用样本集合中每个文本区域对应的分割真值、边界关键点真值和边界偏移真值,对预设的分割网络训练模型进行训练,得到分割网络训练模型的各参数值,将参数值代入到分割网络训练模型,即可得到分割网络。
需要说明的是,上述边界关键点真值和边界区域真值产生损失均为L1损失,表述为:
其中,z表示偏移距离,σ为常数,取值可以为0.3。
在训练时,分割真值、边界关键点真值和边界偏移真值对应的损失比值设为10:1:1。
本公开实施例中,识别设备可以根据提取待识别图像的特征图,然后使用预设的分割网络和待识别图像,确定待识别图像的文本区域的分割信息,然后根据分割信息,确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,将转换得到的文本输入到预设识别模型,进行识别处理。这样,由于是确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,再进行识别,所以可以识别任意形状的弯曲文本,进而可以提升弯曲文本的识别效率。
而且本公开实施例中,不需要对弯曲文本进行字符级别的标注,也可以学习到文本阅读的语义信息(排布信息),所以可以增加文本检测和识别的准确率。
而且本公开实施例中,由于可以产生固定数目个边界关键点的检测框,所以可以被应用于任何形状文本的标定工具,适用范围广。
基于相同的技术构思,本公开实施例还提供了一种识别文本的装置,如图10所示,该装置包括:
提取模块1010,用于根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图;
确定模块1020,用于根据所述预设的分割网络和所述特征图,确定所述待识别图像的文本区域的分割信息;根据所述分割信息,确定所述文本区域的边界关键点;
转换模块1030,用于根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本;
识别模块1040,用于将转换得到的文本输入到预设识别模型,进行识别处理。
可选的,所述确定模块1020,用于:
根据所述分割信息中第一边界区域中各像素点与所述第一边界区域的两个边界关键点之间的偏移,确定所述第一边界区域的两个边界关键点的位置信息;并根据所述分割信息中第二边界区域中各像素点与所述第二边界区域的两个边界关键点之间的偏移,确定所述第二边界区域的两个边界关键点的位置信息,其中,所述第一边界区域位于所述文本区域的头部,所述第二边界区域位于所述文本区域的尾部;
根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述确定模块1020,还用于:
确定所述文本区域中的文本的排布信息;
所述确定模块1020,用于:
根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
可选的,所述确定模块1020,用于:
如果所述排布信息为横向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点;
如果所述排布信息为纵向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的右边界除所述第三边界关键点和所述第四边界关键点之外的其它边界关键点。
可选的,所述确定模块1020,用于
根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一横坐标信息,其中,所述第一预设数目个位置点位于第一连线上,且是基于将所述第一连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第一连线为所述第一边界关键点与所述第二边界关键点的连线;
根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的上边界的偏移;
所述确定模块1020,用于:
对于所述第一预设数目个位置点中任一位置点的第一横坐标信息,根据所述位置点的第一横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第一横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述上边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的上边界,且所述上边界包括所述第一边界关键点和所述第二边界关键点。
可选的,所述确定模块1020,用于:
根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定第一预设数目个位置点的第二横坐标信息,其中,所述第一预设数目个位置点位于第二连线上,且是基于将所述第二连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第二连线为所述第三边界关键点与所述第四边界关键点的连线;
根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点。
可选的,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的下边界的偏移;
所述确定模块1020,用于:
对于所述第一预设数目个位置点中任一位置点的第二横坐标信息,根据所述位置点的第二横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第二横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述下边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的下边界,且所述下边界包括所述第三边界关键点和所述第四边界关键点。
可选的,所述转换模块1030,用于:
使用薄板样条插值TPS对所述边界关键点进行模板匹配,将所述文本区域的文本转换为目标排列顺序的文本。
可选的,所述提取模块1010,用于:
将待识别图像输入到预设的特征提取网络,提取所述待识别图像的预设尺寸的特征图;
将所述预设尺寸的特征图经过预设的卷积处理;
将卷积处理后的特征图进行卷积核矫正处理;
将卷积核矫正处理后的特征图经过上采样后与所述预设尺寸的特征图的上一层特征图进行融合处理,得到所述待识别图像的特征图。
可选的,所述提取模块1010,用于:
将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将所述第一特征图进行第二卷积核的卷积处理,得到第三特征图;
将所述第三特征图进行第三卷积核的卷积处理,得到第四特征图,并将所述第三特征图进行第四卷积核的卷积处理,得到第五特征图;其中,所述第三卷积核的尺寸为m*n,所述第四卷积核的尺寸为n*m,m和n为正整数,且m小于n;
将所述第一特征图、第三特征图、第四特征图,第五特征图进行通道拼接处理,得到第六特征图;
将所述第六特征图进行压缩激活处理,得到卷积核矫正处理后的特征图。
可选的,如图11所示,所述装置还包括训练模块1050,用于:
获取样本集合,其中,所述样本集合中包括第二预设数目个标定文本区域的图像;
对于所述样本集合中的目标文本区域,确定所述目标文本区域的第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点;
对所述目标文本区域进行分割处理,得到所述目标文本区域的第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域,将所述第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域作为分割真值;
确定所述第一边界区域的各像素点与所述第一边界关键点、所述第三边界关键点的偏移,并确定第二边界区域的各像素点与所述第二边界关键点、所述第四边界关键点的偏移,作为边界关键点真值;
确定所述目标文本区域中文本所在区域的各像素点与所述目标文本区域的上边界、下边界、左边界和右边界的最小偏移,作为边界偏移真值;
根据所述样本集合中每个文本区域对应的分割真值、边界关键点真值和边界偏移真值,对分割网络训练模型进行训练,得到分割网络。
可选的,所述确定模块1020,用于:
确定所述文本区域中的最大横坐标和最大纵坐标,并确定所述文本区域中的最小横坐标和最小纵坐标;
根据所述最大横坐标和最大纵坐标、所述最小横坐标和最小纵坐标,确定所述文本区域的外接矩形;
如果所述外接矩形的长度大于宽度,则确定所述文本区域中文本的排布为横向排布,如果所述外接矩形的长度小于宽度,则确定所述文本区域中文本的排布为纵向排布。
本公开实施例中,识别设备可以根据提取待识别图像的特征图,然后使用预设的分割网络和待识别图像,确定待识别图像的文本区域的分割信息,然后根据分割信息,确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,将转换得到的文本输入到预设识别模型,进行识别处理。这样,由于是确定文本区域的边界关键点,使用边界关键点,将文本区域中的文本转换为目标排列顺序的文本,再进行识别,所以可以识别任意形状的弯曲文本,进而可以提升弯曲文本的识别效率。
需要说明的是:上述实施例提供的识别文本的装置在识别文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的识别文本的装置与识别文本的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12是本发明实施例提供的一种识别设备的结构示意图,该识别设备1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)1201和一个或一个以上的存储器1202,其中,所述存储器1202中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器1201加载并执行以实现上述识别文本的方法的步骤。
本公开实施例中,还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述识别文本的方法步骤。
本公开实施例中,还提供了一种识别文本的识别设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现上述识别文本的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (16)
1.一种识别文本的方法,其特征在于,所述方法包括:
根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图;
根据所述预设的分割网络和所述特征图,确定所述待识别图像的文本区域的分割信息;
根据所述分割信息,确定所述文本区域的边界关键点;
根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本;
将转换得到的文本输入到预设识别模型,进行识别处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分割信息,确定所述文本区域的边界关键点,包括:
根据所述分割信息中第一边界区域中各像素点与所述第一边界区域的两个边界关键点之间的偏移,确定所述第一边界区域的两个边界关键点的位置信息;并根据所述分割信息中第二边界区域中各像素点与所述第二边界区域的两个边界关键点之间的偏移,确定所述第二边界区域的两个边界关键点的位置信息,其中,所述第一边界区域位于所述文本区域的头部,所述第二边界区域位于所述文本区域的尾部;
根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述文本区域中的文本的排布信息;
所述根据所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点,包括:
根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本的排布信息、所述第一边界区域的两个边界关键点的位置信息和所述第二边界区域的两个边界关键点的位置信息,确定所述文本区域中除所述第一边界区域与所述第二边界区域的其它边界关键点,包括:
如果所述排布信息为横向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点;
如果所述排布信息为纵向排布,则根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,并根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的右边界除所述第三边界关键点和所述第四边界关键点之外的其它边界关键点。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定所述文本区域的左边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,包括:
根据所述第一边界区域中第一边界关键点的位置信息和所述第二边界区域中第二边界关键点的位置信息,确定第一预设数目个位置点的第一横坐标信息,其中,所述第一预设数目个位置点位于第一连线上,且是基于将所述第一连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第一连线为所述第一边界关键点与所述第二边界关键点的连线;
根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点。
6.根据权利要求5所述的方法,其特征在于,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的上边界的偏移;
所述根据所述第一横坐标信息,确定所述文本区域的上边界除所述第一边界关键点和所述第二边界关键点之外的其它边界关键点,包括:
对于所述第一预设数目个位置点中任一位置点的第一横坐标信息,根据所述位置点的第一横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第一横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述上边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的上边界,且所述上边界包括所述第一边界关键点和所述第二边界关键点。
7.根据权利要求4所述的方法,其特征在于,所述根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点,包括:
根据所述第一边界区域中第四边界关键点的位置信息和所述第二边界区域中第三边界关键点的位置信息,确定第一预设数目个位置点的第二横坐标信息,其中,所述第一预设数目个位置点位于第二连线上,且是基于将所述第二连线等分为目标数值得到,所述目标数值等于所述第一预设数目加1,所述第二连线为所述第三边界关键点与所述第四边界关键点的连线;
根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点。
8.根据权利要求7所述的方法,其特征在于,所述分割信息包括所述文本区域中属于文本的像素点与所述文本区域的下边界的偏移;
所述根据所述第二横坐标信息,确定所述文本区域的下边界除所述第三边界关键点和所述第三边界关键点之外的其它边界关键点,包括:
对于所述第一预设数目个位置点中任一位置点的第二横坐标信息,根据所述位置点的第二横坐标信息对应的横坐标区间,确定所述文本区域中属于文本且横坐标位于所述横坐标区间的像素点;
将所述位置点的第二横坐标信息,确定为所述位置点对应的边界关键点的横坐标,并根据确定出的像素点与所述下边界的偏移,确定所述位置点对应的边界关键点的纵坐标,其中,所述位置点对应的边界关键点为位于所述文本区域的下边界,且所述下边界包括所述第三边界关键点和所述第四边界关键点。
9.根据权利要求1至8任一所述的方法,其特征在于,所述根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本,包括:
使用薄板样条插值TPS对所述边界关键点进行模板匹配,将所述文本区域的文本转换为目标排列顺序的文本。
10.根据权利要求1至8任一所述的方法,其特征在于,所述根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图,包括:
将待识别图像输入到预设的特征提取网络,提取所述待识别图像的预设尺寸的特征图;
将所述预设尺寸的特征图经过预设的卷积处理;
将卷积处理后的特征图进行卷积核矫正处理;
将卷积核矫正处理后的特征图经过上采样后与所述预设尺寸的特征图的上一层特征图进行融合处理,得到所述待识别图像的特征图。
11.根据权利要求10所述的方法,其特征在于,所述将卷积处理后的特征图进行卷积核矫正处理,包括:
将卷积处理后的特征图经过第一卷积核的卷积处理,得到第一特征图,将所述第一特征图进行第二卷积核的卷积处理,得到第三特征图;
将所述第三特征图进行第三卷积核的卷积处理,得到第四特征图,并将所述第三特征图进行第四卷积核的卷积处理,得到第五特征图;其中,所述第三卷积核的尺寸为m*n,所述第四卷积核的尺寸为n*m,m和n为正整数,且m小于n;
将所述第一特征图、第三特征图、第四特征图,第五特征图进行通道拼接处理,得到第六特征图;
将所述第六特征图进行压缩激活处理,得到卷积核矫正处理后的特征图。
12.根据权利要求1至8任一所述的方法,其特征在于,所述方法还包括:
获取样本集合,其中,所述样本集合中包括第二预设数目个标定文本区域的图像;
对于所述样本集合中的目标文本区域,确定所述目标文本区域的第一边界关键点、第二边界关键点、第三边界关键点和第四边界关键点;
对所述目标文本区域进行分割处理,得到所述目标文本区域的第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域,将所述第一边界区域、第二边界区域、第三边界区域、第四边界区域、文本所在区域和背景区域作为分割真值;
确定所述第一边界区域的各像素点与所述第一边界关键点、所述第三边界关键点的偏移,并确定第二边界区域的各像素点与所述第二边界关键点、所述第四边界关键点的偏移,作为边界关键点真值;
确定所述目标文本区域中文本所在区域的各像素点与所述目标文本区域的上边界、下边界、左边界和右边界的最小偏移,作为边界偏移真值;
根据所述样本集合中每个文本区域对应的分割真值、边界关键点真值和边界距离真值,对分割网络训练模型进行训练,得到分割网络。
13.根据权利要求3所述的方法,其特征在于,所述确定所述文本区域中的文本的排布信息,包括:
确定所述文本区域中的最大横坐标和最大纵坐标,并确定所述文本区域中的最小横坐标和最小纵坐标;
根据所述最大横坐标和最大纵坐标、所述最小横坐标和最小纵坐标,确定所述文本区域的外接矩形;
如果所述外接矩形的长度大于宽度,则确定所述文本区域中文本的排布为横向排布,如果所述外接矩形的长度小于宽度,则确定所述文本区域中文本的排布为纵向排布。
14.一种识别文本的装置,其特征在于,所述装置包括:
提取模块,用于根据预设的特征提取网络和待识别图像,提取所述待识别图像的特征图;
确定模块,用于根据所述预设的分割网络和所述特征图,确定所述待识别图像的文本区域的分割信息;根据所述分割信息,确定所述文本区域的边界关键点;
转换模块,用于根据所述边界关键点,将所述文本区域中的文本转换为目标排列顺序的文本;
识别模块,用于将转换得到的文本输入到预设识别模型,进行识别处理。
15.一种识别设备,其特征在于,所述识别设备包括处理器和存储器,所述存储器中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至权利要求13任一项所述的识别文本的方法所执行的操作。
16.一种计算机可读存储介质,其特征在于,所述计算机存储介质中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现如权利要求1至权利要求13任一项所述的识别文本的方法所执行的操作。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911147915.4A CN112825141B (zh) | 2019-11-21 | 2019-11-21 | 识别文本的方法、装置、识别设备和存储介质 |
EP20889532.6A EP4064122A4 (en) | 2019-11-21 | 2020-11-20 | TEXT RECOGNITION METHOD, APPARATUS, RECOGNITION DEVICE AND STORAGE MEDIA |
PCT/CN2020/130654 WO2021098861A1 (zh) | 2019-11-21 | 2020-11-20 | 识别文本的方法、装置、识别设备和存储介质 |
US17/778,088 US11928872B2 (en) | 2019-11-21 | 2020-11-20 | Methods and apparatuses for recognizing text, recognition devices and storage media |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911147915.4A CN112825141B (zh) | 2019-11-21 | 2019-11-21 | 识别文本的方法、装置、识别设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112825141A true CN112825141A (zh) | 2021-05-21 |
CN112825141B CN112825141B (zh) | 2023-02-17 |
Family
ID=75907589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911147915.4A Active CN112825141B (zh) | 2019-11-21 | 2019-11-21 | 识别文本的方法、装置、识别设备和存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11928872B2 (zh) |
EP (1) | EP4064122A4 (zh) |
CN (1) | CN112825141B (zh) |
WO (1) | WO2021098861A1 (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100053707A1 (en) * | 2008-08-29 | 2010-03-04 | Konica Minolta Business Technologies, Inc., | Image processing apparatus directed to image outline processing, image processing method of the same, and computer-readable storage medium storing instructions for performing image processing |
US20140200698A1 (en) * | 2013-01-16 | 2014-07-17 | Jostens, Inc. | Thin plate spline |
US20180033147A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Label and field identification without optical character recognition (ocr) |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108520254A (zh) * | 2018-03-01 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 一种基于格式化图像的文本检测方法、装置以及相关设备 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
CN110211130A (zh) * | 2019-05-20 | 2019-09-06 | 上海联影智能医疗科技有限公司 | 图像分割方法、计算机设备和存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110458918A (zh) * | 2019-08-16 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
US20200134366A1 (en) * | 2017-06-16 | 2020-04-30 | Hangzhou Hikvision Digital Technology Co., Ltd. | Target recognition method and apparatus for a deformed image |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043080B1 (en) | 2000-11-21 | 2006-05-09 | Sharp Laboratories Of America, Inc. | Methods and systems for text detection in mixed-context documents using local geometric signatures |
JP6143325B2 (ja) | 2013-01-11 | 2017-06-07 | 大学共同利用機関法人情報・システム研究機構 | イジングモデルの量子計算装置及びイジングモデルの量子計算方法 |
CN104809436B (zh) | 2015-04-23 | 2017-12-15 | 天津大学 | 一种弯曲书面文字识别方法 |
CN108288088B (zh) | 2018-01-17 | 2020-02-28 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN109829437B (zh) * | 2019-02-01 | 2022-03-25 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN110837835B (zh) * | 2019-10-29 | 2022-11-08 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111612009B (zh) | 2020-05-21 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
-
2019
- 2019-11-21 CN CN201911147915.4A patent/CN112825141B/zh active Active
-
2020
- 2020-11-20 EP EP20889532.6A patent/EP4064122A4/en active Pending
- 2020-11-20 US US17/778,088 patent/US11928872B2/en active Active
- 2020-11-20 WO PCT/CN2020/130654 patent/WO2021098861A1/zh unknown
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100053707A1 (en) * | 2008-08-29 | 2010-03-04 | Konica Minolta Business Technologies, Inc., | Image processing apparatus directed to image outline processing, image processing method of the same, and computer-readable storage medium storing instructions for performing image processing |
US20140200698A1 (en) * | 2013-01-16 | 2014-07-17 | Jostens, Inc. | Thin plate spline |
US20180033147A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Label and field identification without optical character recognition (ocr) |
US20200134366A1 (en) * | 2017-06-16 | 2020-04-30 | Hangzhou Hikvision Digital Technology Co., Ltd. | Target recognition method and apparatus for a deformed image |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
CN108520254A (zh) * | 2018-03-01 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 一种基于格式化图像的文本检测方法、装置以及相关设备 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110211130A (zh) * | 2019-05-20 | 2019-09-06 | 上海联影智能医疗科技有限公司 | 图像分割方法、计算机设备和存储介质 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110458918A (zh) * | 2019-08-16 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Non-Patent Citations (3)
Title |
---|
ZHIDA HUANG等: ""Mask R-CNN with pyramid attention network for scence texe detection"", 《ARXIV》 * |
孙羽菲: ""低质量文本图像OCR技术的研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
朱健菲等: "回归――聚类联合框架下的手写文本行提取", 《中国图象图形学报》 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021098861A1 (zh) | 2021-05-27 |
US11928872B2 (en) | 2024-03-12 |
CN112825141B (zh) | 2023-02-17 |
US20220415069A1 (en) | 2022-12-29 |
EP4064122A4 (en) | 2023-01-04 |
EP4064122A1 (en) | 2022-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
CN106548169A (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN111178290A (zh) | 一种签名验证方法和装置 | |
CN112307853A (zh) | 航拍图像的检测方法、存储介质和电子装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112541922A (zh) | 基于数字图像的试卷布局分割方法、电子设备及存储介质 | |
CN111737478A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN116740758A (zh) | 一种防止误判的鸟类图像识别方法及系统 | |
CN115063802A (zh) | 一种基于PSENet的圆形印章识别方法、设备及介质 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN111626241A (zh) | 一种人脸检测方法及装置 | |
CN113435266B (zh) | 基于极值点特征增强的fcos智能目标检测方法 | |
CN114067339A (zh) | 图像识别方法及其装置、电子设备、计算机可读存储介质 | |
CN112364687A (zh) | 一种基于改进的Faster R-CNN加油站静电标志识别方法及系统 | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、系统及存储介质 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN112825141B (zh) | 识别文本的方法、装置、识别设备和存储介质 | |
CN113065559B (zh) | 图像比对方法、装置、电子设备及存储介质 | |
CN115797939A (zh) | 一种基于深度学习的两阶段斜体字符识别方法及装置 | |
CN114155540A (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |