CN112990188A - 一种文本识别方法及装置 - Google Patents
一种文本识别方法及装置 Download PDFInfo
- Publication number
- CN112990188A CN112990188A CN201911285619.0A CN201911285619A CN112990188A CN 112990188 A CN112990188 A CN 112990188A CN 201911285619 A CN201911285619 A CN 201911285619A CN 112990188 A CN112990188 A CN 112990188A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- target text
- detection area
- text detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000001514 detection method Methods 0.000 claims abstract description 314
- 238000012549 training Methods 0.000 claims description 108
- 238000004422 calculation algorithm Methods 0.000 claims description 87
- 238000012937 correction Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 13
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 32
- 238000013461 design Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 27
- 230000006854 communication Effects 0.000 description 27
- 239000010410 layer Substances 0.000 description 26
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000007726 management method Methods 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 9
- 230000000750 progressive effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1473—Recognising objects as potential recognition candidates based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/168—Smoothing or thinning of the pattern; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
一种文本识别方法及装置,涉及信息处理技术领域,解决了弯曲文本识别率低的问题。该文本识别方法包括:获取待检测图片;确定待检测图片中的目标文本检测区域,这里,目标文本检测区域中包括所述待检测图片中的目标文本,并且,目标文本检测区域为包括m(m为大于2的正整数)个顶点对多边形区域;将多边形区域校正为m‑1个矩形区域,得到校正后的目标文本检测区域;对校正后的目标文本检测区域进行文本识别,并输出目标文本。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文本识别方法及装置。
背景技术
自然场景中的文本信息无处不在,例如:商品包装、文档、店铺招牌、路牌等等。随着深度学习(deep learning,DL)技术的发展,各种基于深度学习网络的文本识别算法应运而生。
对于弯曲文本而言,现有技术中可以采用先采用基于渐进式尺寸可扩展网络的形状鲁棒文本检测(shape robust text detection with progressive scale expansionnetwork)算法进行检测,然后根据检测结果,采用基于深度学习网络的文本识别算法,识别该弯曲文本。但是,基于渐进式尺寸可扩展网络的形状鲁棒文本检测算法的检测结果的准确度较低,因此,弯曲文本的识别准确率也较低。
发明内容
本申请提供了一种文本识别方法及装置,有效解决了弯曲文本识别率低的问题。
为达上述目的,本申请提供如下技术方案:
第一方面,本申请提供了一种文本识别方法,文本识别装置获取待检测图片,并确定待检测图片中的目标文本检测区域。目标文本检测区域中包括待检测图片中的目标文本。目标文本检测区域为包括m(m大于2的为正整数)个顶点对的多边形区域,这里,m个顶点位于所述目标文本的一侧,其它m个顶点位于所述目标文本的另一侧。然后,文本识别装置将多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域,文本识别装置对校正后的目标文本检测区域进行文本识别,并输出目标文本。
本申请实施例提供的文本识别方法,通过预先训练的文本检测网络,文本识别装置能够准确的检测出待检测图片上呈弯曲状的目标文本区域,并确定出呈多边形状的目标文本检测区域。其中,呈多边形状的目标文本检测区域有m个顶点对。文本识别装置将获取的目标文本检测区域校正为校正为m-1个矩形区域,得到目标文本检测区域,并对目标文本检测区域进行文本识别。相比现有技术,本申请实施例提供的文本识别方法,有效地降低了文字的畸变率,从而提高了识别弯曲文本的准确率。
结合第一方面,在一种可能的设计方式中,上述多边形区域为条带状。
每个条带状的目标文本检测区域中包括一行文本,该条带状的目标文本检测区域的高度为沿文字高度方向的高度,该条带状的目标文本检测区域的长度为沿文字宽度方向的长度。
其中,条带状的多边形区域,可以是横条带状的多边形区域,可以是竖条带状的多边形区域,还可以是斜条带状的多边形区域,本申请实施例对此不作限定。这里,横条带状的多边形区域是指条带状的多边形区域沿水平方向延伸,竖条带状的多边形区域是指条带状的多边形区域沿垂直方向(相对于水平方向)延伸,斜条带状的多边形区域是指条带状的多边形区域沿斜向延伸。
结合第一方面,在另一种可能的设计方式中,上述“获取待检测图片”的方法包括:文本识别装置获取用户即时拍摄到的所述待检测图片,或者,文本识别装置从已经存储的图片中选取所述待检测图片。
在实际应用中,文本识别装置获取待检测图片的方式有多种,本申请对此不作限定。
结合第一方面,在另一种可能的设计方式中,上述“确定待检测图片中的目标文本检测区域”的方法包括:文本识别装置根据待检测图片和预先训练出的文本检测网络,确定目标文本检测区域。
这里,文本识别装置可以通过将待检测图片输入到预先训练出的文本检测网络中,得到待检测图片中的目标文本检测区域。
结合第一方面,在另一种可能的设计方式中,上述“根据待检测图片和预先训练出的文本检测网络,确定目标文本检测区域”的方法包括:文本识别装置将待检测图片输入到上述文本检测网络,得到初始目标文本检测区域。然后,文本识别装置对得到的初始目标文本检测区域进行平滑处理,从而得到目标文本检测区域。
在实际应用中,从上述文本检测网络输出的初始目标文本检测区域可能存在锯齿,这些锯齿将影响后续文本识别装置对文本的识别。因此,文本识别装置对初始目标文本检测区域进行平滑处理,消除锯齿。
结合第一方面,在另一种可能的设计方式中,文本识别装置基于已标记文本区域的训练图片,预先训练得到文本检测网络。这里,文本区域包括上述训练图片中的文本。
结合第一方面,在另一种可能的设计方式中,上述“基于已标记文本区域的训练图片,预先训练得到文本检测网络”的方法包括:文本识别装置根据预设的分割标签任务算法和训练图片,确定分割标签,该分割标签用于表示训练图片中文本的中心线。文本识别装置还根据预设的回归标签任务算法、上述确定的分割标签以及训练图片,确定回归标签,该回归标签用于表示多个顶点对,对于多个顶点对中的任意一个顶点对而言,该顶点对中顶点之间的连线与上述中心线相交。文本识别装置根据上述确定的分割标签和回归标签,以及训练图片,训练文本检测网络。
通过上述确定的分割标签和回归标签来训练图片,得到文本检测网络。当需要识别待检测图片中的文本时,将待检测图片输入到该文本检测网络,能够准备的检测并确定出目标文本检测区域。
结合第一方面,在另一种可能的设计方式中,上述“对于所述多个顶点对中的任意一个顶点对而言,该顶点对中顶点之间的连线与所述中心线相交”包括:该顶点对中顶点之间的连线与中心线相交的交点为第一交点,该连线与第一交点的切线之间的夹角的数值为90±A度,这里,A小于或等于15。
顶点对中顶点之间的连线与第一交点的切线之间的夹角为90±15度,这种情况下,训练出的文本检测网络在检测待检测图片时,输出的目标文本检测区域更准确。
结合第一方面,在另一种可能的设计方式中,上述“将多边形区域校正为m-1个矩形区域”的方法包括:文本识别装置将多边形区域划分为m-1互不交叠的个四边形区域,这里,任意一个四边形区域是基于m个顶点对中相邻的两对顶点对得到的。对于m个顶点对中的每个顶点对而言,该顶点对中的顶点分别位于目标文本检测区域中心线的两侧,且该顶点对中顶点之间的连线的中点位于该中心线上,该中心线贯穿目标文本检测区域中的所有文本。然后,文本识别装置将上述m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
这里,目标文本检测区域中包括多个四边形区域,文本识别装置将每个四边形区域均校正为矩形区域,这样,有效的降低了文本在校正过程中畸变率。
结合第一方面,在另一种可能的设计方式中,上述“得到校正后的目标文本检测区域”的方法包括:文本识别装置将上述校正所得的m-1个矩形区域按照水平方向依次拼接,得到矩形的所述目标文本检测区域;或者,文本识别装置将上述校正所得的m-1个矩形区域按照垂直方向依次拼接,得到矩形的目标文本检测区域。
文本识别装置可以根据目标文本检测区域的形状,确定将上述校正所得的m-1个矩形区域按照水平方向拼接,或是按照垂直方向拼接。若目标文本检测区域为横条带状,则文本识别装置可以将校正所得的m-1个矩形区域按照水平方向拼接;若目标文本检测区域为竖条带状,则文本识别装置可以将校正所得的m-1个矩形区域按照垂直方向拼接;若目标文本检测区域为斜条带状,则文本识别装置可以按照预设规则,或按照斜条带状的斜率,将校正所得的m-1个矩形区域按照水平或垂直方向拼接,本申请实施例对此不作限定。
文本识别装置通过上述方法拼接矩形的目标文本检测区域,可以满足不同的场景需求。
结合第一方面,在另一种可能的设计方式中,上述“输出所述目标文本”的方法包括:文本识别装置在待检测图片的预设区域中显示目标文本。
在实际应用中,文本识别装置可以根据用户的需求或预设规则,在待检测图片的预设区域中显示目标文本。
结合第一方面,在另一种可能的设计方式中,文本识别装置还向客户端发送目标文本。
客户端接收到目标文本后,还向用户显示该目标文本。
在实际应用中,文本识别装置可以为服务器。当服务器识别出待检测图片中的目标文本时,将识别出的目标文本方至客户端。
第二方面,本申请提供一种文本识别装置,该文本识别装置包括获取单元、确定单元、校正单元、识别单元、以及输出单元。
上述获取单元,用于获取待检测图片。上述确定单元,用于确定上述获取单元获取的待检测图片中的目标文本检测区域,目标文本检测区域中包括待检测图片中的目标文本;其中,目标文本检测区域为多边形区域,多边形区域包括m个顶点对,m为大于2的正整数;m个顶点位于目标文本的一侧,其它m个顶点位于目标文本的另一侧。上述校正单元,用于将上述多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域。上述识别单元,用于对校正后的目标文本检测区域进行文本识别。上述输出单元,用于输出上述识别单元识别出的所述目标文本。
结合第二方面,在一种可能的设计方式中,上述多边形区域为条带状。
结合第二方面,在另一种可能的设计方式中,上述获取单元具体用于:获取用户即时拍摄到的待检测图片,或者,从已经存储的图像中选取待检测图片。
结合第二方面,在另一种可能的设计方式中,上述确定单元,具体用于根据待检测图片和预先训练出的文本检测网络,确定目标文本检测区域。
结合第二方面,在另一种可能的设计方式中,上述确定单元,具体用于将待检测图片输入到上述文本检测网络,得到初始目标文本检测区域;并对该初始目标文本检测区域进行平滑处理,得到目标文本检测区域。
结合第二方面,在另一种可能的设计方式中,文本识别装置还包括训练单元。
上述训练单元,用于基于已标记文本区域的训练图片,预先训练得到上述文本检测网络。这里,文本区域包括训练图片中的文本。
结合第二方面,在另一种可能的设计方式中,上述确定单元,还用于根据预设的分割标签任务算法和训练图片,确定分割标签;分割标签用于表示训练图片中文本的中心线;上述确定单元,还用于根据预设的回归标签任务算法、训练图片、以及上述确定单元出的分割标签,确定回归标签;回归标签用于表示多个顶点对;对于多个顶点对中的任意一个顶点对而言,该顶点对中顶点之间的连线与中心线相交。上述训练单元,具体用于根据上述确定单元确定出的分割标签和回归标签、以及根据训练图片,训练得到上述文本检测网络。
结合第二方面,在另一种可能的设计方式中,上述“对于所述多个顶点对中的任意一个顶点对而言,该顶点对中顶点之间的连线与所述中心线相交”包括:该顶点对中顶点之间的连线与所述中心线相交的交点为第一交点,该连线与第一交点的切线之间的夹角的数值为90±A度,A小于或等于15。
结合第二方面,在另一种可能的设计方式中,上述校正单元具体用于:
将多边形区域划分为m-1个互不交叠的四边形区域,其中,任意一个四边形区域是基于m个顶点对中相邻的两对顶点对得到的;其中,对于m个顶点对中的每个顶点对而言,该顶点对中的顶点分别位于目标文本检测区域中心线的两侧,且该顶点对中顶点之间的连线的中点位于中心线上,该中心线贯穿目标文本检测区域中的所有文本。
将上述m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
结合第二方面,在另一种可能的设计方式中,文本识别装置还包括拼接单元。
所述拼接单元,用于将上述校正单元校正所得的m-1个矩形区域按照水平方向依次拼接,以得到矩形的目标文本检测区域;或者,用于将上述校正单元校正所得的m-1个矩形区域按照垂直方向依次拼接,以得到矩形的目标文本检测区域。
结合第二方面,在另一种可能的设计方式中,文本识别装置还包括显示单元。
上述显示单元,用于在待检测图片的预设区域中显示识别单元识别出的目标文本。
结合第二方面,在另一种可能的设计方式中,文本识别装置还包括发送单元。
上述发送单元,用于向客户端发送目标文本。
第三方面,本申请提供一种文本识别装置,文本识别装置包括:存储器和一个或多个处理器;上述存储器和处理器耦合;该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,当所述计算机指令被文本识别装置执行时,使得文本识别装置执行如第一方面及其任一种可能的设计方式所述的文本识别方法。
第四方面,本申请提供一种芯片系统,该芯片系统应用于文本识别装置;该芯片系统包括一个或多个接口电路和一个或多个处理器;该接口电路和处理器通过线路互联;该接口电路用于从文本识别装置的存储器接收信号,并向处理器发送该信号,该信号包括存储器中存储的计算机指令;当处理器执行该计算机指令时,文本识别装置执行如第一方面及其任一种可能的设计方式所述的文本识别方法。
第五方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当该计算机指令在文本识别装置上运行时,使得文本识别装置实现如第一方面及其任一种可能的设计方式所述的文本识别方法。
第六方面,本申请提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如第一方面及其任一种可能的设计方式所述的文本识别方法。
本申请中第二方面到第六方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述;并且,第二方面到第六方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式中的有益效果分析,此处不再赘述。
在本申请中,上述文本识别装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
图1a为本申请实施例提供的文本识别装置的硬件结构示意图;
图1b为本申请实施例提供的文本识别装置的软件结构示意图;
图2为本申请实施例提供的文本识别方法的一种流程示意图一;
图3为本申请实施例提供的文本识别方法的示意图一;
图4为本申请实施例提供的文本识别方法的示意图二;
图5为本申请实施例提供的文本识别方法的示意图三;
图6为本申请实施例提供的文本识别方法的一种流程示意图二;
图7为本申请实施例提供的文本识别方法的示意图四;
图8为本申请实施例提供的文本识别方法的示意图五;
图9a为本申请实施例提供的文本识别方法的示意图六;
图9b为本申请实施例提供的文本识别方法的示意图七;
图10为本申请实施例提供的文本识别方法的示意图八;
图11a为本申请实施例提供的文本识别方法的示意图九;
图11b为本申请实施例提供的文本识别方法的示意图十;
图11c为本申请实施例提供的文本识别方法的一种流程示意图三;
图12为本申请实施例提供的文本识别装置的结构示意图;
图13为本申请实施例提供的一种芯片系统的结构示意图;
图14为本申请实施例提供的计算机程序产品的结构示意图。
具体实施方式
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供一种文本识别方法及装置,在接收到待检测图片后,文本识别装置通过预先训练出的文本检测网络准确的检测出目标文本检测区域(该目标文本检测区域中包括待检测图片中的目标文本),且该目标文本检测区域为多边形区域,该多边形区域包括m个顶点对,m为大于2的正整数。然后,文本识别装置将该多边形区域校正为m-1个矩形区域,并按照水平方向或垂直方向拼接该m-1个矩形区域,以得到校正后的目标文本检测区域。最后,文本识别装置将校正后的目标文本检测区域输入到文本识别算法中,得到文本识别结果。相比于现有技术而言,本申请实施例提供的文本识别方法有效的提高了识别弯曲文本准确度。
上述文本识别装置可以是终端。具体的,该终端可以是手机、平板电脑、可穿戴电子设备等便携式设备,也可以是个人计算机(personal computer,PC)、个人数字助理(personal digital assistant,PDA)、上网本等计算设备,还可以是其他任一能够实现本申请实施例的终端设备,本申请对此不作限定。
当然,上述文本识别装置还可以是服务器。
当上述文本识别装置为终端时,所述文本识别方法可以通过安装在终端上的应用程序实现,例如文本识别装置的客户端应用程序,或者浏览器等。
上述应用程序可以是安装在设备中的嵌入式应用程序(即设备的系统应用),也可以是可下载应用程序。其中,嵌入式应用程序是作为设备(如手机)实现的一部分提供的应用程序。可下载应用程序是一个可以提供自己的因特网协议多媒体子系统(internetprotocol multimedia subsystem,IMS)连接的应用程序,该可下载应用程序是可以预先安装在设备中的应用或可以由用户下载并安装在设备中的第三方应用。
请参考图1a,以文本识别装置是手机为例,图1a示出了手机10的一种硬件结构。如图1a所示,手机10可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
其中,传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对手机10的具体限定。在本申请另一些实施例中,手机10可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是手机10的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。I2S接口可以用于音频通信。PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serialinterface,DSI)等。GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,MicroUSB接口,USB Type C接口等。USB接口130可以用于连接充电器为手机10充电,也可以用于手机10与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机10的结构限定。在本申请另一些实施例中,手机10也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。
手机10的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机10中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在手机10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。调制解调处理器可以包括调制器和解调器。
无线通信模块160可以提供应用在手机10上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),GNSS,调频(frequency modulation,FM),近距离无线通信技术(near fieldcommunication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
示例性的,本申请实施例中的GNSS可以包括:GPS,GLONASS,BDS,QZSS,SBAS,和/或GALILEO等。
手机10通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。显示屏194用于显示图像,视频等。显示屏194包括显示面板。
手机10可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。ISP用于处理摄像头193反馈的数据。摄像头193用于获取静态图像或视频。物体通过镜头生成光学图像投射到感光元件。数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。视频编解码器用于对数字视频压缩或解压缩。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现手机10的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机10的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机10的各种功能应用以及数据处理。
手机10可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.2mm的开放移动电子设备平台(open mobile terminalplatform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunicationsindustry association of the USA,CTIA)标准接口。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。手机10可以接收按键输入,产生与手机10的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和手机10的接触和分离。手机10可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。
手机10的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的安卓(Android)系统为例,示例性说明手机10的软件结构。
图1b是本发明实施例的手机10的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图1b所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图1b所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供手机10的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面结合捕获拍照场景,示例性说明手机10软件以及硬件的工作流程。
当触摸传感器180K接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头193捕获静态图像或视频。
下面结合附图对本申请实施例提供的文本识别方法进行描述。
由上面描述可知,在本申请实施例提供的文本识别方法中,文本识别装置将待检测图片输入到预先训练出的文本检测网络,可以准确的检测到目标文本检测区域。下面,先对预先训练出的文本检测网络进行说明。
上述预先训练出的文本检测网络可以是预先训练的卷积神经网络(convolutional neural network,CNN)。本申请实施例以文本识别装置预先训练该文本检测网络为例进行说明。
参考图2,图2示出了文本识别装置训练文本检测网络的流程示意图,文本识别装置训练该文本检测网络的过程可以包括以下步骤:
S201、文本识别装置在每张训练图片标记文本区域。
具体的,文本识别装置在每张训练图片上标记出文本区域。其中,训练图片中的文本可以包括弯曲文本,可以包括倾斜文本,也可以包括其他任何形状的文本。本申请实施例对此不作限定。
训练图片中标记的文本区域可以是单行的文本区域。也就是说,在一个文本区域中,仅包含一行文字。
示例性的,如图3所示。文本识别装置在训练图片30中标记文本区域31,文本区域31用于表示训练图片30中文本的位置。
S202、文本识别装置配置标签任务算法。
标签任务算法可以由开发人员预先设计,并配置在文本识别装置上。该标签任务算法包括分割标签任务算法和回归标签任务算法。
其中,分割标签任务算法用于根据文本区域的范围计算文本区域的中心线。该中心线可以是文本区域中,在文字的高度方向上的中心点所构成的线。示例性的,如图4中的(a)所示,英文文本“zhuanli”在文字高度方向上的中心点,是指该英文文本在y轴方向上的中心点。如图4中的(b)所示,中文文本“专利”在文字高度方向上的中心点,是指该中文文本在y轴方向上的中心点。这里,图4中的(a)和图4中的(b)所示出的x轴方向可以是沿文字横向宽度方向,例如,该横向宽度方向可以是图4中的(a)中的字母“z”到字母“i”的方向。
上述对文字高度方向的限定仅为示例性说明。在实际应用中,本领域人员应当理解,当文字旋转角度后,图4中的坐标轴也可以和文字旋转同样角度。
中心线可以像素级标签。其中,中心线的宽度小于文本区域的宽度。具体的,该中心线的宽度可以是文本区域的宽度的0.1-1倍。例如,中心线的宽度为文本区域框的宽度的0.2倍。
示例性的,如图3所示,文本识别装置通过分割标签任务算法,根据文本区域31的范围计算得到黑色粗线32为文本区域31在文字高度方向上的中心线,且黑色粗线32的宽度W为文本区域31的宽度的0.2倍。
回归标签任务算法用于确定经过上述中心线上每一个中心点的直线与上述文本区域边界的一对交点(本申请实施例中将该交点称作顶点,将该一对交点称作顶点对)。其中,所述直线与所述中心线上该点的切线的夹角可以是90±A度,A小于或等于15。
示例性的,如图3所示,文本识别装置通过回归标签任务算法,确定经过中心线32上的中心点33的直线34,与文本区域31的边界相交的两个交点:顶点35(例如(x1,y1))以及顶点36(例如(x2,y2))。中心点33在中心线32上的切线与直线34的夹角可以是90度。
可以理解的是,中心线上的每一个中心点,对应一个顶点对。该顶点对为文本区域边界上的两个点。若将中心线一侧的所有顶点依次相连,可以得到文本区域的一个边界。若将中心线另一侧的所有顶点依次相连,可以得到文本区域的另一边界。当将两个边界连接时,即可以获得上述的文本区域。
当然,训练图片的分割标签和回归标签,可以通过训练图片上预先标记的文本区域以及上述标签任务算法计算得到,也可以采用上述S201中标记训练图片的文本区域的方法得到,即通过文本识别装置在训练图片上标记分割标签和回归标签。本申请实施例对此不作限定。
S203、文本识别装置根据标签任务算法、文本检测算法、以及训练图片训练文本检测网络。
其中,文本检测算法为待训练的文本检测网络,文本检测算法用于检测图片中文本区域的中心线,以及检测中心线上每个点所对应的顶点对。
具体的,文本识别装置可以每次输入一张训练图片到上述标签任务算法和文本检测算法中,以训练文本检测网络。文本识别装置还可以每次输入一组训练图片到上述标签任务算法和文本检测算法中,以训练文本检测网络。本申请实施例对此不作限定。
上述标签任务算法包括分割标签任务算法和回归标签任务算法。
示例性的,本申请实施例下面描述的文本检测网络的训练方法,是以每次输入一组训练图片到上述标签任务算法和上述文本检测算法中训练文本检测网络为例进行说明。
具体的,文本识别装置将标记了文本区域框的训练图片组1,输入到分割标签任务算法,得到训练图片组1中每张训练图片的文本区域的中心线。训练图片组1包括n张训练图片(例如训练图片1、训练图片2…训练图片n),n为正整数。然后,文本识别装置将计算出的训练图片组1中每张训练图片的中心线,以及该中心线对应的训练图片,输入到回归标签任务算法,确定出所述中心线上的每个点对应的顶点对。
文本识别装置还将上述训练图片组1,输入到文本检测算法,以检测训练图片组1中每张训练图片的文本区域的中心线,以及中心线上每个点对应的顶点对。
文本识别装置可以同时执行“通过标签任务算法计算训练图片组1中每张训练图片的文本区域的中心线和顶点对”,以及“通过文本检测算法检测训练图片组1中每张训练图片的文本区域的中心线和顶点对”;也可以先执行“通过标签任务算法计算训练图片组1中每张训练图片的文本区域的中心线和顶点对”,再执行“通过文本检测算法检测训练图片组1中每张训练图片的文本区域的中心线和顶点对”;还可以先执行“通过文本检测算法检测训练图片组1中每张训练图片的文本区域的中心线和顶点对”,再执行“通过标签任务算法计算训练图片组1中每张训练图片的文本区域的中心线和顶点对”。本申请实施例对此不作限定。
进一步的,文本识别装置执行操作1:
文本识别装置根据标签任务算法计算出的训练图片1的结果,以及文本检测算法检测出的训练图片1的结果,采用损失函数确定该计算出的结果与该检测出的结果的差异度1。文本识别装置根据标签任务算法计算出的训练图片2的结果,以及文本检测算法检测出的训练图片2的结果,采用损失函数确定该计算出的结果与该检测出的结果的差异度2。类似的,直到当文本识别装置根据标签任务算法计算出的训练图片n的结果,以及文本检测算法检测出的训练图片n的结果,采用损失函数确定该计算出的结果与该检测出的结果的差异度n后,文本识别装置根据确定出的差异度1、差异度2…以及差异度n,得到该n个差异度的平均差异度。当该平均差异度大于第一阈值时,说明文本检测算法检测的结果不符合预期结果(该预期结果是指,文本识别装置采用文本检测算法能够准确的检测出图片中的文本区域)。这时,文本识别装置调整文本检测算法的参数。其中,第一阈值可以根据实际情况设置,本申请实施例对此不作具体限定。
当然,文本识别装置可以采用损失函数分别确定n个差异度,也可以同时确定n个差异度。本申请实施例对此不作限定。
然后,文本识别装置将标记了文本区域框的训练图片组2,输入到上述标签任务算法和文本检测算法,并重复执行操作1,直到计算结果与检测结果的平均差异度小于第一阈值为止,或者直到操作1的重复次数达到预设阈值为止。其中,预设阈值可以根据实际情况设置,本申请实施例对此不作具体限定。
可以看出,本申请实施例中文本检测网络的训练过程是一个循环迭代的过程。采用上述过程训练出的文本检测网络较为稳定,可以准确地检测出待检测图片中的目标文本检测区域。
当文本检测网络训练完成后,待检测图片经该文本检测网络,可以输出包括5个通道的特征图。
其中,一个通道的特征图用于表示中心线,该中心线包括i个像素点,并由i个像素点的置信度(本申请实施例用z表示置信度)表征。置信度z可以为0-1之间的任意数值。其中,置信度z用于表示像素点是否是文本区域中在文字高度方向上的中心点。
示例性的,若像素点in的置信度z为0,则说明像素点in不是文字高度方向上的中心点。若像素点in的置信度z为0.2,则说明像素点in不是文字高度方向上的中心点的可能性较大。若像素点in的置信度z为1,则说明像素点in是文字高度方向上的中心点。若像素点in的置信度z为0.8,则说明像素点in是文字高度方向上的中心点的可能性较大。其中,in为表示中心线的特征图中的任意一点,n为正整数。
另外四个通道的特征图用于表示,经过中心线上一点,且与该点的切线夹角为90±A度的直线上的两个顶点的坐标,这两个顶点为该点对应的顶点对。
需要说明的是,上述输出的特征图中的同一个点,描述了一个中心点,以及经过该中心点的直线上的两个顶点(即该中心点对应的顶点对)的位置信息。该位置信息可以是绝对的位置信息,也可以是相对于中心点的相对位置信息。
示例性的,结合图3,参考图5。若待检测图片为图片30,图5示出了待检测图片30经上述训练完成的文本检测网络后,输出的包括中心点33以及其对应的顶点对(顶点35(x1,y1)、顶点36(x2,y2))的5通道特征图。其中,中心点33的置信度z为z1,顶点对的位置信息(x1,y1)以及(x2,y2),可以是绝对的坐标(x1,y1)以及(x2,y2),也可以是相对中心点33的相对坐标(x1,y1)以及(x2,y2)。
如图5所示,通道1表示中心点33的置信度z1,通道2表示顶点35的x轴坐标x1,通道3表示顶点35的y轴坐标y1,通道4表示顶点36的x轴坐标x2,通道5表示顶点36的y轴坐标y2。
将预先训练完成的文本检测网络布置在文本识别装置上,可以实现本申请实施例提供的文本识别方法。下面对该文本识别方法进行描述。
参考图6,图6示出了本申请实施例提供的文本识别方法的流程示意图,该文本识别方法可以包括以下步骤:
S601、文本识别装置获取待检测图片。
可选的,用户可以通过操作文本识别装置的图片加载图标,在图片库中选择并加载待检测图片。相应的,文本识别装置获取到待检测图片。其中,图片库中的图片包括拍摄得到的图片、网络下载的图片、蓝牙传送的图片、社交软件发送的图片、以及视频中的视频截图等。
可选的,用户也可以通过操作文本识别装置的图片拍摄图标,实时拍摄待检测的图片后,加载该图片。相应的,文本识别装置获取到待检测图片。
S602、文本识别装置确定待检测图片中的目标文本检测区域。
具体的,文本识别装置可以通过上述训练出的文本检测网络确定待检测图片中的目标文本检测区域。该文本检测网络通过上述S201-S203的步骤预先训练得到,此处不再详细赘述。
文本识别装置根据预先训练的文本检测网络和待检测图片,确定目标文本检测区域。目标文本检测区域用于表示待检测图片中目标文本的位置,该目标文本可以为弯曲文本,也可以为倾斜文本。
示例性的,如图3所示,图片30可以为待检测图片。图片30中包括文字“ABCDEFGHIJKLMN”,该文字为待检测图片30中的目标文本,且该文本分布的形状为扇形弯曲状。
文本识别装置根据预先训练的文本检测网络和待检测图片,确定目标文本检测区域的过程可以包括以下步骤S6021-S6024:
S6021、文本识别装置将待检测图片输入到预先训练的文本检测网络中,确定待检测图片中的多个中心点,以及每个中心点对应的一个顶点对。
具体的,文本识别装置将待检测图片输入到预先训练完成的文本检测网络后,输出包括5个通道的特征图。根据该5个通道的特征图,文本识别装置确定待检测图片中的多个中心点,以及确定每个中心点对应的一个顶点对。
S6022、文本识别装置根据每个中心点的置信度,确定组成待检测图片中目标文本中心线的中心点。
可选的,文本识别装置可以根据每个中心点的置信度,确定置信度高于第二阈值、且相邻的中心点,为组成待检测图片中目标文本中心线的中心点。
可选的,文本识别装置还可以根据每个中心点的置信度,确定置信度高于第二阈值、且每两个中心点之间的距离均小于第一预设阈值的中心点,为组成待检测图片中目标文本中心线的中心点。
若文本识别装置确定出的置信度高于第二阈值、且相邻的中心点的数目小于第三预设阈值时,或者,若文本识别装置确定出的置信度高于第二阈值、且每两个中心点之间的距离均小于第一预设阈值的中心点的数目小于第三预设阈值时,文本识别装置将这些中心点置为无效,或是丢弃。
其中,第二阈值、第一预设阈值、以及第三预设阈值可以根据实际情况进行设置,本申请实施例对此不作限定。
可以理解的是,若文本识别装置将确定出的、组成待检测图片中目标文本中心线的中心点相连,可以得到一条具有一定宽度的曲线,本申请实施例将该曲线称作中心线。
S6023、文本识别装置根据中心线上每个中心点的置信度,确定每个中心点所对应的连线,并将确定出的连线的顶点依次相连,得到初始目标文本检测区域。
其中,初始目标文本检测区域包括m个顶点对。
具体的,本申请实施例可以通过下述方式一~方式四中任意一种方式得到初始目标文本检测区域。
方式一,文本识别装置可以将在S6022确定出的每个中心点所对应的顶点对连接,得到该中心点对应的连线。文本识别装置将得到的每个中心点对应的连线的顶点依次连接,得到初始目标文本检测区域。
示例性的,如图7所示,文本识别装置确定中心线为黑色粗线70,其中,中心线70包括中心点71、72、73、74、75、76、77,且中心点71、72、73、74、75、76、77的置信度均高于第二阈值。因此,文本识别装置将中心点71所对应的顶点对(例如顶点701和顶点711)连接得到连线7011。同理,文本识别装置得到中心点72所对应的连线7021、中心点73所对应的连线7031、中心点74所对应的连线7041、中心点75所对应的连线7051、中心点76所对应的连线7061、中心点77所对应的连线7071。然后,文本识别装置将连线7011、7021、7031、7041、7051、7061、7071的顶点依次连接,得到初始目标文本检测区域。
方式二,文本识别装置可以在S6022确定出的中心点间隔采样,得到m个中心点,且m个中心点中每两个中心点之间的距离均大于或等于第二预设阈值。然后,文本识别装置将采样得到的m个中心点中每个中心点所对应的顶点对连接,得到该中心点对应的连线。文本识别装置将得到的每个中心点所对应的连线的顶点依次连接,得到初始目标文本检测区域。
其中,文本识别装置在S6022确定出的中心点间隔采样,得到m个中心点,且m个中心点中每两个中心点之间的距离均大于或等于第二预设阈值的具体过程,可以通过如下方式实现:
文本识别装置将S6022确定出的中心点,按照置信度从高到低依次排序。然后,文本识别装置可以将置信度最高的中心点确定为中心点1。接着,文本识别装置确定置信度次高的中心点与中心点1之间的距离1,若距离1大或等于第二预设距离,则文本识别装置可以确定置信度次高的中心点为中心点2(若距离1小于第二预设距离,则丢弃置信度次高的中心点)。然后,文本识别装置可以确定置信度排序为3的中心点与中心点1之间的距离3,以及确定置信度的数值排序为3的中心点与中心点2之间的距离4,若距离3和距离4均大于或等于第二预设阈值,则可以确定置信度的数值排序为3的中心点为中心点3(若距离3小于第二预设阈值,或者,距离4小于第二预设阈值,或者,距离3和距离4均小于第二预设阈值,则丢弃置信度的数值排序为3的中心点)。
这样,一直到文本识别装置根据待采样的中心点和已经确定采样的中心点之间的距离是否大于或等于第二预设阈值,以确定是否采样,并最终采样得到m个中心点。其中,待采样的中心点可以是文本识别装置在S6022确定出的每个中心点中,除已被确认采样和丢弃的中心点之外的中心点。
方式三,文本识别装置可以在中心线沿长度方向上,将中心线按照预设的曲线长度划分为m个曲线段,并在每个曲线段中确定置信度最高的中心点。因此,文本识别装置确定出中心线中的m个中心点。然后,文本识别装置将确定出的每个中心点所对应的顶点对连接,得到该中心点对应的连线,并将得到的连线的顶点依次连接,得到初始目标文本检测区域。其中,预设的长度可以按照实际情况设置,本申请实施例对此不作限定。
方式四,文本识别装置可以在中心线沿长度方向上,将中心线按照预设的曲线长度划分为q个曲线段,并将每个曲线段中所有中心点的置信度从高到低依次排序。然后,文本识别装置确定排序大于等于k的中心点。因此,文本识别装置确定出中心线中的q×k(q×k=m)个中心点。接着,文本识别装置将确定出的每个中心点所对应的顶点对连接,得到该中心点对应的连线,并将得到的连线的顶点依次连接,得到初始目标文本检测区域。其中,预设的时长以及排序值k可以按照实际情况设置,本申请实施例对此不作限定。
这里需要说明的是,文本识别装置若将上述S6022确定出的中心点连接,可以得到一条曲线(即上述S6022所述的中心线)。当文本识别装置通过方式二或方式四进行间隔采样时,所述曲线的起点所对应的中心点,以及所述曲线终点所对应的中心点,均会予以保留,并用于得到上述初始目标文本检测区域。
此外,在实际应用中,中心线可以是像素级曲线,且中心线上的中心点以像素点形式存在。而上述示例中图7所呈现的中心点之间的距离较大,这是为了示例性说明文本识别装置根据中心点确定该中心点对应的连线、以及根据连线生成初始目标文本检测区域的过程。因此,以上叙述并不构成对本申请实施例的限定。
另外,由于中心线具有一定宽度(例如宽度为W),中心线的宽度W包括p个中心点。因此,在某一位置,p个中心点对应的顶点对相同,该顶点对的连线对应p个中心点。
示例性的,如图8所示,中心线80的宽度为W,包括4个中心点,分别为811、812、813、814,这4个中心点对应一个顶点对,即顶点83和顶点84。
此外,上述文本识别装置确定初始目标文本检测区域的顶点的方法仅为示例性说明,并不构成对本申请实施例保护范围的限定。所有根据经文本检测网络输出的中心点的置信度,确定初始目标文本检测区域的顶点的方法,都在本申请实施例的保护范围之内。
S6024(可选的)、文本识别装置对初始目标文本检测区域进行平滑处理,以得到目标文本检测区域。
具体的,文本识别装置在S6023获得的初始目标文本检测区域可能存在锯齿。因此,在S6024,文本识别装置通过平滑算法,对初始目标文本检测区域做平滑处理,以得到目标文本检测区域。与初始目标文本检测区域相比,目标文本检测区域不存在锯齿。
文本检测装置可以采用Savitzky-Golay平滑算法,或者采用B样条平滑算法,对初始目标文本检测区域做平滑处理,以得到目标文本检测区域。其中,Savitzky-Golay平滑算法,以及B样条平滑算法的具体实现可以参考现有技术,本申请实施例对此不作限定。
示例性的,如图9a所示,初始目标文本检测区域可以是91,平滑后的目标文本检测区域可以是92。
可以看出,文本识别装置根据上述S6021~S6024步骤确定出的目标文本检测区域为多边形区域,目标文本检测区域中包括待检测图片中的目标文本,并且,一个目标文本检测区域中仅包含一行文本。
上述多边形区域包括m个顶点对,其中,m为大于2的正整数,m个顶点对位于m个中心点所构成的中心线两侧,该中心线贯穿目标文本检测区域中的所有文本。
可选的,上述多边形区域可以为条带状。每个条带状的目标文本检测区域中包括一行文本,该条带状的目标文本检测区域的高度为沿文字高度方向的高度,该条带状的目标文本检测区域的长度为沿文字横向宽度方向的长度。
其中,条带状的多边形区域,可以是横条带状的多边形区域,可以是竖条带状的多边形区域,还可以是斜条带状的多边形区域,本申请实施例对此不作限定。这里,横条带状的多边形区域是指条带状的多边形区域沿水平方向延伸,竖条带状的多边形区域是指条带状的多边形区域沿垂直方向(相对于上述水平方向)延伸,斜条带状的多边形区域是指条带状的多边形区域沿斜向延伸。
需要说明的是,横条带状的多边形区域、竖条带状的多边形区域、以及斜条带状的多边形区域,均可以为各种弯曲形状的条带状多边形区域。
示例性的,如图9b所示,931示出了一种呈扇形形状的横条带状的多边形区域,934示出了一种呈波浪形形状的横条带状的多边形区域。932示出了一种呈扇形形状的竖条带状的多边形区域。933示出了一种呈扇形形状的斜条带状的多边形区域。
此外,文本识别装置还可以通过基于渐进式尺寸可扩展网络的形状鲁棒文本检测算法,图片骨架化的通用算法及细化技术综述(a universal algorithm for imageskeletonization and a review of thinning techniques,K3M),以及opencv的边缘提取算法来确定待检测图片中的目标文本检测区域。
上述基于渐进式尺寸可扩展网络的形状鲁棒文本检测算法,K3M、以及opencv的边缘提取算法可以参考现有技术的描述,本申请实施例在此不再详细赘述。
具体的,文本识别装置可以通过基于渐进式尺寸可扩展网络的形状鲁棒文本检测算法确定待检测图片中目标文本区域。
然后,文本识别装置根据K3M,确定目标文本区域的中心线。
接着,文本识别装置根据opencv的边缘提取算法确定目标文本区域的目标文本区域框。
进一步的,文本识别装置确定经中心线上的任意一个中心点的直线与上述确定的目标文本区域框相交的一对交点,这一对交点即为位于目标文本检测区域边界上的一个顶点对。其中,上述经中心线上的任意一个中心点的直线,与中心线上该点的切线垂直。
可选的,文本识别装置可以从上述确定的中心线的起点(该起点可以为中心线的任意一端的端点)开始,确定出经该起点对应的顶点对。然后,文本识别装置确定与该起点相隔d个像素的中心点所对应的顶点对。之后,文本识别装置确定与该起点相隔2d个像素的中心点所对应的顶点对,直到文本识别装置确定出上述中心线的终点(该终点可以是,区别于上述起点的、中心线的另一端的端点)所对应的顶点对,至此,文本识别装置共确定出m个顶点对。接着,文本识别装置将确定出的每个顶点对相连,得到多个中心点对应的顶点对所对应的连线。最后,文本识别装置将得到的连线上的顶点依次相连,得到目标文本检测区域。其中,d为正整数。d的取值可以根据实际情况设定,本申请实施例对此不作具体限定。
可选的,文本识别装置可以将上述确定的中心线平均分为m-1个线段,并确定每个线段的端点。然后,文本识别装置确定出每个端点对应的顶点对(共m个顶点对)。接着,文本识别装置将确定出的每个顶点对相连,得到每个端点对应的顶点对所对应的连线。最后,文本识别装置将得到的连线上的顶点依次相连,得到目标文本检测区域。其中,m大于2的正整数。
S603、文本检测装置将所述多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域。
文本检测装置可以根据多边形的目标文本检测区域的顶点位置,将目标文本检测区域划分为m-1个互不交叠的四边形区域,其中,任意一个四边形区域是基于多边形m个顶点对中相邻的两对顶点对得到的。
然后,文本检测装置将m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
具体的,文本识别装置将m-1个互不交叠的四边形区域的顶点位置以及待检测图片输入到预设算法(例如透视变换算法)中,以得到m-1个矩形区域。或者,文本识别装置将m-1个互不交叠的四边形区域的顶点位置、以及待检测图片经文本检测网络得到的任意一张特征图输入到预设算法(例如透视变换算法)中,以得到m-1个矩形区域。
其中,待检测图片经文本检测网络得到的任意一张特征图是指,在待检测图片输入文本检测网络之后,输出五通道的特征图之前,文本检测网络对待检测图片卷积得到的任意一张特征图。其中,该任意一张特征图可以包括s个通道,s为正整数。这是由于该任意一张特征图也包含文本区域的文字信息,因此,文本识别算法根据该任意一张特征图,也可以识别出目标文本。
参考图10,图10示出了将多边形的目标文本检测区域校正为矩形区域的过程。
如图10所示,文本识别装置可以先将目标文本检测区域中的任意一个四边形区域校正为矩形区域。
示例性的,文本识别装置先将顶点为(1001,1011,1012,1002)的四边形区域校正为矩形区域。具体的,文本识别装置可以以(1001,1011,1012,1002)四点为锚点,并求解变换矩阵,以得到以(1001,1011,1012,1002)为顶点的矩形。其中,校正所得矩形的宽度,可以是顶点(1001,1002)构成的边的宽度,也可以是顶点(1011,1012)构成的边的宽度,还可以是顶点(1001,1002)构成的边和顶点(1011,1012)构成的边的平均宽度。同理,校正所得矩形的高度,可以是顶点(1001,1011)构成的边的高度,也可以是顶点(1002,1012)构成的边的高度,还可以是顶点(1001,1011)构成的边和顶点(1002,1012)构成的边的平均高度。本申请实施例对此不作限定。
类似的,文本识别装置将目标文本检测区域的其余四边形区域均校正为矩形区域,具体校正方式可以参考上述描述,此处不再赘述。
进一步的,文本识别装置将上述校正所得的m-1个矩形区域拼接,得到矩形的目标文本检测区域。
可以理解的是,文本识别装置可以按照中心线的起点所对应的顶点对的连线所构成的四边形区域开始,依次对目标文本检测区域中的多个四边形区域进行校正并拼接。
文本识别装置还可以先对组成目标文本检测区域的多个四边形区域编号。然后,文本识别装置随机的对目标文本检测区域中的四边形区域进行校正,并对校正所得的矩形区域进行编号。当将校正所得的m-1个矩形区域拼接为矩形的目标文本检测区域时,文本识别装置根据每个校正所得的矩形区域的编号,依次将m-1个矩形区域拼接为矩形的目标文本检测区域。
其中,校正所得的每个矩形区域的编号,与目标文本检测区域的每个四边形区域的编号对应。
可选的,文本识别装置可以将校正所得的m-1个矩形区域按照水平方向依次拼接,以得到水平方向的矩形目标文本检测区域。
可选的,文本识别装置还可以将校正所得的m-1个矩形区域按照垂直方向依次拼接,以得到垂直方向的矩形目标文本检测区域。
可以理解的是,文本识别装置可以根据目标文本检测区域的形状,确定将上述校正所得的m-1个矩形区域按照水平方向拼接,或是按照垂直方向拼接。若目标文本检测区域为横条带状,则文本识别装置可以将校正所得的m-1个矩形区域按照水平方向拼接;若目标文本检测区域为竖条带状,则文本识别装置可以将校正所得的m-1个矩形区域按照垂直方向拼接;若目标文本检测区域为斜条带状,则文本识别装置可以按照预设规则,或按照斜条带状的斜率,将校正所得的m-1个矩形区域按照水平或垂直方向拼接。本申请实施例对此不作限定。
示例性的,如图10所示,多边形区域100划分为6个四边形区域,文本识别装置对6个四边形区域分别校正后,若将6个校正所得的矩形区域按水平方向拼接,则得到矩形的目标文本检测区域101,即文本识别装置将目标文本检测区域校正为水平方向的矩形目标文本检测区域101。若将6个校正所得的矩形按垂直方向拼接,则得到矩形的目标文本检测区域102,即文本识别装置将目标文本检测区域校正为垂直方向的矩形目标文本检测区域102。
可以理解的是,文本识别装置在校正每个四边形区域时,先在待检测图像上将该四边形区域裁剪下来,再将其校正为矩形。这样的话,文本识别装置在将目标文本检测区域中的多个四边形区域校正为矩形,并拼接为矩形的目标文本检测区域后,该矩形的目标文本检测区域中包括目标文本。
此外,文本检测装置还需确定,目标文本检测区域的高度是否满足文本识别算法的要求。若满足,则在目标文本检测区域校正为矩形后,文本检测装置执行下述S604。若不满足,则文本检测装置对目标文本检测区域按比例缩放。
在实际应用中,文本识别算法要求的文本检测框的高度是固定的,例如32像素、64像素等。因此,文本检测装置根据文本识别算法要求的文本检测框的高度,对目标文本检测区域按比例缩放,以使得校正后的目标文本检测区域满足文本识别算法的要求。
可以理解的是,上述判断目标文本检测区域的高度是否满足文本识别算法的要求,以及当不满足时,文本检测装置将目标文本检测区域按比例缩放的时机,本申请实施例对此不作具体限定。
具体的,本申请实施例可以在文本检测装置将每一个四边形区域校正为矩形的同时,执行上述缩放过程;或者,本申请实施例可以在文本检测装置将每一个四边形区域校正为矩形区域之后,执行上述缩放过程;或者,本申请实施例可以在文本检测装置将校正所得的所有矩形区域并拼接为矩形的目标文本检测区域的同时,执行上述缩放过程;或者,本申请实施例还可以在文本检测装置将校正所得的所有矩形区域拼接为矩形的目标文本检测区域之后,执行上述缩放过程。
S604、文本检测装置对校正后的目标文本检测区域进行文本识别。
具体的,文本检测装置将校正后的、且满足文本识别算法高度要求的目标文本检测区域输入到预设的文本识别算法,以识别目标文本检测区域中的目标文本。
示例性的,文本检测装置可以将校正后的、且满足文本识别算法高度要求的目标文本检测区域输入到用于基于图像序列识别的端到端训练的神经网络及其在场景文本识别中的应用(an end-to-end trainable neural network for image-based sequencerecognition and its application to scene text recognition,CRNN),以识别目标文本检测区域中的目标文本。
通过CRNN识别目标文本检测区域中的目标文本的具体过程可以参考现有技术,本申请实施例在此不再详细赘述。
当然,文本检测装置还可以将校正后的、且满足文本识别算法高度要求的目标文本检测区域输入到其他现有的文本识别算法中,以识别目标文本检测区域中的目标文本。本申请实施例对此不作限定。
S605、文本识别装置输出目标文本。
可选的,文本识别装置输出目标文本,可以将目标文本渲染在待检测图片上的预设区域,以显示目标文本。
具体的,若文本识别装置为带有显示屏的终端,则文本识别装置可以将渲染有目标文本的待检测图片显示在文本识别装置的显示屏上。
可选的,文本识别装置可以在待检测图片的目标文本检测区域显示目标文本。
示例性的,如图11a中的(a)所示,若文本识别装置为带有显示屏的终端,则文本识别装置在待检测图片30中的目标文本检测区域110处,显示目标文本“ABCDEFGHIJKLMN”,这种情况下,目标文本检测区域110也可以如图11a中的(a)所示,以边框的形式显示在待检测图片30上。然后,文本识别装置将待检测图片30显示在文本识别装置的显示屏上。
当然,文本识别装置在待检测图片30上显示目标文本检测区域110时,可以以边框的方式显示目标文本检测区域110,也可以通过填充背景颜色显示目标文本检测区域110,或者由其他任意一种能够将目标文本检测区域110区别于待检测图片30的方式显示目标文本检测区域110。当然,目标文本检测区域110也可以不包括边框以及填充背景颜色,仅透明的悬浮与待检测图片30上。本申请实施例对此不作具体限定。
文本识别装置在待检测图片30上显示识别出的目标文本“ABCDEFGHIJKLMN”时,可以以任意颜色以及字体显示识别出的目标文本。识别出的目标文本“ABCDEFGHIJKLMN”的字体可以和待检测图片30上目标文本的字体相同,也可以不同。识别出的目标文本“ABCDEFGHIJKLMN”的颜色可以和待检测图片30上目标文本的颜色相同,也可以不同。本申请实施例对此不作具体限定。
可选的,文本识别装置还可以在待检测图片中的目标文本检测区域使用批注,将目标文本显示在待检测图片中的任意位置。
示例性的,如图11a中的(b)所示,若文本识别装置为带有显示屏的终端,则文本识别装置将显示有目标文本“ABCDEFGHIJKLMN”的批注111显示在待检测图片30的左上角,并将待检测图片30显示在文本识别装置的显示屏上。
当然,虽然上述描述的本申请实施例提供的文本识别方法,是以识别弯曲文本为例进行说明的。但是针对倾斜文本,仍然可以采用本申请实施例提供的文本识别方法来识别。识别图片中倾斜文本的具体过程,可以参考上述S601-S605的描述,此处不再详细赘述。
进一步地,为了验证本申请提供的文本识别方法的可靠性,现对其进行验证。
具体的,如表1所示,端侧表示使用手机等便携终端设备识别弯曲文本,云侧表示使用云服务器等计算设备识别弯曲文本。由于手机的运算能力远远低于与云服务器,因此,云侧通常可以运行更为复杂的文本检测算法以及识别算法,且云侧的结果通常优于端侧的结果。
而采用本申请实施例提供的文本识别方法,本申请端侧的结果仍然优于友商云侧的结果。
表1
场景 | 本申请(端侧) | 友商1(云侧) | 友商2(云侧) | 友商3(云侧) |
中文弯曲文本 | 85.53% | 81.71% | 78.19% | 74.11% |
英文弯曲文本 | 89.82% | 85.17% | 80.09% | 80.38% |
为了便于理解,下面结合具体示例进行说明。
参考图11b,以上述文本识别装置为手机10,手机10中安装有文本识别应用程序“图文识别”1121,待检测图片为图3示出的图片30,用户A通过即时拍摄得到图片30,文本识别应用程序识别图片30中的文本为例进行说明。
如图11b中的(a)所示,用户A在手机10的显示界面1120(桌面)上点击文本识别应用程序“图文识别”1121的图标,进入文本识别应用程序的应用界面1122。接着,如图11b中的(b)所示,用户A点击应用界面1122上的“拍照”图标1124,即时拍摄得到待检测图片30。
当然,用户A也可以通过界面1122上的“本地图库”图标1123,在本地图库中选择一张图片作为待检测图片,并通过文本识别应用程序识别该图片中的文本。这里,本地图库中包括手机10的摄像头拍摄得到的图片、网络下载的图片、蓝牙传送的图片、社交软件发送的图片、视频中的视频截图、屏幕快照等等。
这里,以用户即时拍摄得到图片30为例进行说明。用户A即时拍摄得到图片30后,点击应用界面1122上的“开始识别”按钮1125。然后文本识别应用程序执行上述S601-S605描述的文本识别方法,并输出识别出的文本。
可选的,如图11b中的(c)所示,手机10可以在图片显示界面1126上以图11a中的(a)的方式显示识别出的文本。这时,识别出的文本显示在图片30的目标文本检测区域,同时目标文本检测区域也以边框形式显示在图片30上,图片30显示在图片显示界面1126上。
可选的,如图11b中的(d)所示,手机10也可以在图片显示界面1126上以图11a中的(b)的方式显示识别出的文本。这时,识别出的文本以批注形式显示在图片30的左上角,图片30显示在图片显示界面1126上。
当然,手机10还可以以其他任意方式在显示界面1126上显示图片30以及识别出的文本,本申请实施例对此不作限制。
在上面描述中,本申请实施例提供的文本识别方法可以通过一个设备实现,例如终端或服务器。当然,本申请实施例提供的文本识别方法还可以通过客户端(例如终端)和服务端(例如服务器)之间的交互来实现。下面对这种场景下,本申请实施例提供的文本识别方法进行描述。
请参考图11c,图11c示出了通过客户端和服务端之间的交互来实现本申请实施例提供的文本识别方法的流程示意图。该文本识别方法包括以下步骤:
S1101、客户端获取待检测图片。
具体的,客户端可以参考上述S601的描述获取待检测图片。
S1102、客户端向服务端发送包括待检测图片的文本识别请求。
客户端获取到待检测图片后,向服务端发送包括待检测图片的文本识别请求。
响应于客户端的操作,服务端接收到包括待检测图片的文本识别请求。
S1103、服务端根据接收到的包括待检测图片的文本识别请求,识别得到待检测图片中的目标文本。
具体的,服务端可以参考上述S602-S604的步骤,根据接收到的包括待检测图片的文本识别请求,识别得到待检测图片中的目标文本。
S1104、服务端向客户端发送目标文本。
服务端在识别得到待检测图片中的目标文本后,可以将该目标文本显示在待检测图片上,发送至客户端。或者,服务端也可以仅将识别得到的目标文本发送至客户端。本申请实施例对此不作限定。
响应于服务端的操作,客户端接收到目标文本。
S1105、客户端向用户显示目标文本。
客户端将接收到的目标文本显示给用户。
若服务端将该目标文本显示在待检测图片上,发送至客户端时,则客户端直接将待检测图片显示给用户;若服务端仅将识别得到的目标文本发送至客户端,则客户端将该目标文本显示在待检测图片上,并将待检测图片显示给用户。
上述客户端将目标文本显示在待检测图片上的具体方式,可以参考上述S605中的描述,此处不再详细赘述。
综上,本申请实施例提供了一种文本识别方法,通过预先训练的文本检测网络,文本识别装置准确的识别出待检测图片上呈弯曲状的目标文本区域,并获取呈多边形状的目标文本检测区域。其中,呈多边形状的目标文本检测区域有m个顶点对,并且,该多边形由(m-1)个四边形组成。然后,文本识别装置通过将(m-1)个四边形分别校正为矩形并拼接,以得到校正为矩形的目标文本检测区域。进一步的,文本识别装置将校正后的目标文本检测区域输入到预设的文本识别算法中,识别目标文本检测区域中的目标文本。相比现有技术,本申请实施例提供的文本识别方法,通过预先训练的文本检测网络可以准确的检测出目标文本所在区域,通过将(m-1)个四边形分别校正为矩形并拼接得到校正后的目标文本检测区域,有效的降低了文字的畸变率,从而提高了识别弯曲文本的准确率。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对文本识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图12所示,为本申请实施例提供的一种文本识别装置的结构示意图。文本识别装置用于训练文本检测网络,以及用于在待检测图片中确定目标文本检测区域,并校正以及识别目标文本检测区域中的目标文本,例如用于执行图2或图6所示的方法。文本识别装置可以包括获取单元121、确定单元122、校正单元123、识别单元125以及输出单元126。
获取单元121,用于获取待检测图片。确定单元122,确定获取单元121获取的待检测图片中的目标文本检测区域,目标文本检测区域中包括待检测图片中的目标文本;其中,目标文本检测区域为多边形区域,多边形区域包括m个顶点对,m为大于2的正整数;m个顶点位于目标文本的一侧,其它m个顶点位于目标文本的另一侧。校正单元123,用于将上述多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域。识别单元125,用于对校正后的目标文本检测区域进行文本识别。输出单元126,用于输出识别单元125识别出的目标文本。
例如,结合图6,获取单元121可以用于执行S601,确定单元122可以用于执行S602,校正单元123可以用于执行S603,识别单元125可以用于执行S604,输出单元126可以用于执行S605。
可选的,上述多边形区域为条带状。
可选的,获取单元121,具体用于获取用户即时拍摄到的待检测图片,或者,具体用于从已经存储的图像中选取待检测图片。
例如,结合图6,获取单元121可以用于执行S601。
可选的,确定单元122,具体用于根据待检测图片和预先训练出的文本检测网络,确定目标文本检测区域。
例如,结合图6,确定单元122可以用于执行S602。
可选的,确定单元122具体用于:将待检测图片输入到上述文本检测网络,得到初始目标文本检测区域。对该初始目标文本检测区域进行平滑处理,得到目标文本检测区域。
例如,结合图6,确定单元122可以用于执行S602,S602可以具体包括S6021~S6024。
可选的,文本识别装置还包括训练单元128。
训练单元128,用于基于已标记文本区域的训练图片,预先训练得到上述文本检测网络。文本区域包括所述训练图片中的文本。
例如,结合图2,训练单元128可以用于执行S203。
可选的,确定单元122,还用于根据预设的分割标签任务算法和上述训练图片,确定分割标签;该分割标签用于表示训练图片中文本的中心线;确定单元122,还用于根据预设的回归标签任务算法、上述确定单元122确定出确定出的分割标签、以及训练图片,确定回归标签;该回归标签用于表示多个顶点对;对于多个顶点对中的任意一个顶点对而言,该顶点对中顶点之间的连线与中心线相交。训练单元128,具体用于根据确定单元122确定出的分割标签和回归标签、以及训练图片,训练得到上述文本检测网络。
例如,结合图2,确定单元122和训练单元128可以用于执行S203。
可选的,顶点对中顶点之间的连线与上述中心线相交的交点为第一交点,该连线与第一交点的切线之间的夹角的数值为90±A度,A小于或等于15。
可选的,校正单元123具体用于:
将多边形区域划分为m-1个互不交叠的四边形区域,其中,任意一个四边形区域是基于m个顶点对中相邻的两对顶点对得到的;其中,对于m个顶点对中的每个顶点对而言,该顶点对中的顶点分别位于目标文本检测区域中心线的两侧,且该顶点对中顶点之间的连线的中点位于中心线上。
将上述m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
例如,结合图6,校正单元123可以用于执行S603。
可选的,文本识别装置还包括拼接单元124。
拼接单元124,用于将校正单元123校正所得的m-1个矩形区域按照水平方向依次拼接,以得到矩形的目标文本检测区域;或者,拼接单元124用于将校正单元123校正所得的m-1个矩形区域按照垂直方向依次拼接,以得到矩形的目标文本检测区域。
例如,结合图6,拼接单元124可以用于执行S603。
可选的,文本识别装置还包括显示单元127;
显示单元127,用于在待检测图片的预设区域中显示识别单元125识别出的目标文本。
可选的,文本识别装置还包括发送单元1210;
发送单元1210,用于向客户端发送识别单元125识别出的目标文本。
例如,结合图11c,发送单元1210可以用于执行S1104。
当然,本申请实施例提供的文本识别装置包括但不限于上述单元,例如文本识别装置还可以包括存储单元129。存储单元129可以用于存储该文本识别装置的程序代码,还可以用于缓存文本识别装置在运行过程中的数据。
作为一个示例,结合图1a,文本识别装置中的获取单元121实现的功能与图1a中的摄像头193、移动通信模块150、以及无线通信模块160的功能相同。确定单元122、校正单元123、拼接单元124、识别单元125以及训练单元128实现的功能与图1a中的处理器110的功能相同。存储单元129实现的功能与图1a中的内部存储器121的功能相同。输出单元126及显示单元127实现的功能,可以与图1a中的显示屏194实现的功能相同。
本申请实施例还提供一种芯片系统,如图13所示,该芯片系统包括至少一个处理器131和至少一个接口电路132。处理器131和接口电路132可通过线路互联。例如,接口电路132可用于从其它装置(例如文本识别装置的存储器)接收信号。又例如,接口电路132可用于向其它装置(例如处理器131)发送信号。示例性的,接口电路132可读取存储器中存储的指令,并将该指令发送给处理器131。当所述指令被处理器131执行时,可使得文本识别装置执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在文本识别装置上运行时,该文本识别装置执行上述方法实施例所示的方法流程中文本识别装置执行的各个步骤。
在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
图14示意性地示出本申请实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质140来提供的。所述信号承载介质140可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图2、或图6描述的功能或者部分功能。因此,例如,参考图6中S601~S605的一个或多个特征可以由与信号承载介质140相关联的一个或多个指令来承担。此外,图14中的程序指令也描述示例指令。
在一些示例中,信号承载介质140可以包含计算机可读介质141,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质140可以包含计算机可记录介质142,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质140可以包含通信介质143,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质140可以由无线形式的通信介质143(例如,遵守IEEE 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图2或图6描述的文本识别装置可以被配置为,响应于通过计算机可读介质141、计算机可记录介质142、和/或通信介质143中的一个或多个程序指令,提供各种操作、功能、或者动作。
应该理解,这里描述的布置仅仅是用于示例的目的。因而,本领域技术人员将理解,其它布置和其它元素(例如,机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用,并且一些元素可以根据所期望的结果而一并省略。另外,所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式,可想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (28)
1.一种文本识别方法,其特征在于,包括:
获取待检测图片;
确定所述待检测图片中的目标文本检测区域,所述目标文本检测区域中包括所述待检测图片中的目标文本;其中,所述目标文本检测区域为多边形区域,所述多边形区域包括m个顶点对,m为大于2的正整数;m个顶点位于所述目标文本的一侧,其它m个顶点位于所述目标文本的另一侧;
将所述多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域;
对校正后的目标文本检测区域进行文本识别,并输出所述目标文本。
2.根据权利要求1所述的文本识别方法,其特征在于,
所述多边形区域为条带状。
3.根据权利要求1或2所述的文本识别方法,其特征在于,所述获取待检测图片,包括:
获取用户即时拍摄到的所述待检测图片,或者,从已经存储的图像中选取所述待检测图片。
4.根据权利要求1-3中任意一项所述的文本识别方法,其特征在于,所述确定所述待检测图片中的目标文本检测区域,包括:
根据所述待检测图片和预先训练出的文本检测网络,确定所述目标文本检测区域。
5.根据权利要求4所述的文本识别方法,其特征在于,所述根据所述待检测图片和预先训练出的文本检测网络,确定所述目标文本检测区域,包括:
将所述待检测图片输入到所述文本检测网络,得到初始目标文本检测区域;
对所述初始目标文本检测区域进行平滑处理,得到所述目标文本检测区域。
6.根据权利要求4或5所述的文本识别方法,其特征在于,所述文本识别方法还包括:
基于已标记文本区域的训练图片,预先训练得到所述文本检测网络;所述文本区域包括所述训练图片中的文本。
7.根据权利要求6所述的文本识别方法,其特征在于,所述基于已标记文本区域的训练图片,预先训练得到所述文本检测网络,包括:
根据预设的分割标签任务算法和所述训练图片,确定分割标签;所述分割标签用于表示所述训练图片中文本的中心线;
根据预设的回归标签任务算法、所述分割标签以及所述训练图片,确定回归标签;所述回归标签用于表示多个顶点对;在所述多个顶点对中,任意一个顶点对中顶点之间的连线与所述中心线相交;
根据所述分割标签、所述回归标签以及所述训练图片,训练得到所述文本检测网络。
8.根据权利要求7所述的文本识别方法,其特征在于,所述在所述多个顶点对中,任意一个顶点对中顶点之间的连线与所述中心线相交,包括:
该顶点对中顶点之间的连线与所述中心线相交的交点为第一交点,所述连线与所述第一交点的切线之间的夹角的数值为90±A,A小于或等于15。
9.根据权利要求1-8中任意一项所述的文本识别方法,其特征在于,所述将所述多边形区域校正为m-1个矩形区域,包括:
将所述多边形区域划分为m-1个互不交叠的四边形区域,其中,任意一个四边形区域是基于所述m个顶点对中相邻的两对顶点对得到的;其中,
在所述m个顶点对中,每个顶点对中的顶点分别位于所述目标文本检测区域的中心线的两侧,且该顶点对中顶点之间的连线的中点位于所述中心线上,所述中心线贯穿所述目标文本检测区域中的所有文本;
将所述m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
10.根据权利要求1-9中任意一项所述的文本识别方法,其特征在于,所述得到校正后的目标文本检测区域,包括:
将所述m-1个矩形区域按照水平方向依次拼接,以得到矩形的所述目标文本检测区域;
或者,
将所述m-1个矩形区域按照垂直方向依次拼接,以得到矩形的所述目标文本检测区域。
11.根据权利要求1-10中任意一项所述的文本识别方法,其特征在于,所述输出所述目标文本,包括:
在所述待检测图片的预设区域中显示所述目标文本。
12.根据权利要求1-11中任意一项所述的文本识别方法,其特征在于,所述文本识别方法还包括:
向客户端发送所述目标文本。
13.一种文本识别装置,其特征在于,包括:
获取单元,用于获取待检测图片;
确定单元,用于确定所述获取单元获取的所述待检测图片中的目标文本检测区域,所述目标文本检测区域中包括所述待检测图片中的目标文本;其中,所述目标文本检测区域为多边形区域,所述多边形区域包括m个顶点对,m为大于2的正整数;m个顶点位于所述目标文本的一侧,其它m个顶点位于所述目标文本的另一侧;
校正单元,用于将所述多边形区域校正为m-1个矩形区域,以得到校正后的目标文本检测区域;
识别单元,用于校正后的目标文本检测区域进行文本识别;
输出单元,用于输出所述识别单元识别出的所述目标文本。
14.根据权利要求13所述的文本识别装置,其特征在于,
所述多边形区域为条带状。
15.根据权利要求13或14所述的文本识别装置,其特征在于,所述获取单元具体用于:
获取用户即时拍摄到的所述待检测图片,或者,从已经存储的图片中选取所述待检测图片。
16.根据权利要求13-15中任意一项所述的文本识别装置,其特征在于,
所述确定单元,具体用于根据所述待检测图片和预先训练出的文本检测网络,确定所述目标文本检测区域。
17.根据权利要求16所述的文本识别装置,其特征在于,所述确定单元具体用于:
将所述待检测图片输入到所述文本检测网络,得到初始目标文本检测区域;
对所述初始目标文本检测区域进行平滑处理,得到所述目标文本检测区域。
18.根据权利要求16或17所述的文本识别装置,其特征在于,所述文本识别装置还包括训练单元;
所述训练单元,用于基于已标记文本区域的训练图片,预先训练得到所述文本检测网络;所述文本区域包括所述训练图片中的文本。
19.根据权利要求18所述的文本识别装置,其特征在于,
所述确定单元,还用于根据预设的分割标签任务算法和所述训练图片,确定分割标签;所述分割标签用于表示所述训练图片中文本的中心线;以及用于根据预设的回归标签任务算法、所述分割标签以及所述训练图片,确定回归标签;所述回归标签用于表示多个顶点对;在所述多个顶点对中,任意一个顶点对中顶点之间的连线与所述中心线相交;
所述训练单元,具体用于根据所述确定单元确定出的所述分割标签和所述回归标签、以及根据所述训练图片,训练得到所述文本检测网络。
20.根据权利要求19所述的文本识别装置,其特征在于,所述在所述多个顶点对中,任意一个顶点对中顶点之间的连线与所述中心线相交,包括:
该顶点对中顶点之间的连线与所述中心线相交的交点为第一交点,所述连线与所述第一交点的切线之间的夹角的数值为90±A,A小于或等于15。
21.根据权利要求13-20中任意一项所述的文本识别装置,其特征在于,所述校正单元具体用于:
将所述多边形区域划分为m-1个互不交叠的四边形区域,其中,任意一个四边形区域是基于所述m个顶点对中相邻的两对顶点对得到的;其中,
在所述m个顶点对中,每个顶点对中的顶点分别位于所述目标文本检测区域的中心线的两侧,且该顶点对中顶点之间的连线的中点位于所述中心线上,所述中心线贯穿所述目标文本检测区域中的所有文本;
将所述m-1个互不交叠的四边形区域分别校正为m-1个矩形区域。
22.根据权利要求13-21中任意一项所述的文本识别装置,其特征在于,所述文本识别装置还包括拼接单元;
所述拼接单元,用于将所述m-1个矩形区域按照水平方向依次拼接,以得到矩形的所述目标文本检测区域;或者,用于将所述m-1个矩形区域按照垂直方向依次拼接,以得到矩形的所述目标文本检测区域。
23.根据权利要求13-22中任意一项所述的文本识别装置,其特征在于,所述文本识别装置还包括显示单元;
所述显示单元,用于在所述待检测图片的预设区域中显示所述识别单元识别出的所述目标文本。
24.根据权利要求13-23中任意一项所述的文本识别装置,其特征在于,所述文本识别装置还包括发送单元;
所述发送单元,用于向客户端发送所述目标文本。
25.一种文本识别装置,其特征在于,包括:存储器和一个或多个处理器;所述存储器和所述处理器耦合;
所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述文本识别装置执行时,使得所述文本识别装置执行如权利要求1-12中任一项所述的文本识别方法。
26.一种芯片系统,其特征在于,所述芯片系统应用于文本识别装置;所述芯片系统包括一个或多个接口电路和一个或多个处理器;
所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述文本识别装置的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述文本识别装置执行如权利要求1-12中任一项所述的文本识别方法。
27.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在文本识别装置上运行时,使得所述文本识别装置实现如权利要求1-12中任意一项所述的文本识别方法。
28.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-12中任一项所述的文本识别方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285619.0A CN112990188A (zh) | 2019-12-13 | 2019-12-13 | 一种文本识别方法及装置 |
PCT/CN2020/130217 WO2021115091A1 (zh) | 2019-12-13 | 2020-11-19 | 一种文本识别方法及装置 |
EP20899559.7A EP4064123A4 (en) | 2019-12-13 | 2020-11-19 | TEXT RECOGNITION METHOD AND APPARATUS |
US17/837,231 US11893767B2 (en) | 2019-12-13 | 2022-06-10 | Text recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285619.0A CN112990188A (zh) | 2019-12-13 | 2019-12-13 | 一种文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990188A true CN112990188A (zh) | 2021-06-18 |
Family
ID=76329432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911285619.0A Pending CN112990188A (zh) | 2019-12-13 | 2019-12-13 | 一种文本识别方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11893767B2 (zh) |
EP (1) | EP4064123A4 (zh) |
CN (1) | CN112990188A (zh) |
WO (1) | WO2021115091A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926839A (zh) * | 2022-07-22 | 2022-08-19 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392827B (zh) * | 2021-06-22 | 2024-07-05 | 平安健康保险股份有限公司 | 一种文字识别方法、装置、设备及介质 |
CN113298079B (zh) * | 2021-06-28 | 2023-10-27 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN113505741B (zh) * | 2021-07-27 | 2024-04-09 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN113657311B (zh) * | 2021-08-20 | 2024-05-14 | 平安科技(深圳)有限公司 | 识别区域排序方法、系统、电子设备及存储介质 |
CN114495106A (zh) * | 2022-04-18 | 2022-05-13 | 电子科技大学 | 一种应用于dfb激光器芯片的深度学习mocr方法 |
CN115393872B (zh) * | 2022-10-27 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
US10032072B1 (en) * | 2016-06-21 | 2018-07-24 | A9.Com, Inc. | Text recognition and localization with deep learning |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
US7555711B2 (en) * | 2005-06-24 | 2009-06-30 | Hewlett-Packard Development Company, L.P. | Generating a text layout boundary from a text block in an electronic document |
KR100719608B1 (ko) * | 2005-07-21 | 2007-05-17 | 주식회사 씨텍 | 지폐 일련번호 인식 방법 및 장치 |
CN107169494B (zh) * | 2017-06-01 | 2018-07-20 | 中国人民解放军国防科学技术大学 | 基于手持终端的车牌图像分割校正方法 |
US10706322B1 (en) * | 2017-11-22 | 2020-07-07 | Amazon Technologies, Inc. | Semantic ordering of image text |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110555433B (zh) * | 2018-05-30 | 2024-04-26 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110147786B (zh) * | 2019-04-11 | 2021-06-29 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110210478A (zh) | 2019-06-04 | 2019-09-06 | 天津大学 | 一种商品外包装文字识别方法 |
-
2019
- 2019-12-13 CN CN201911285619.0A patent/CN112990188A/zh active Pending
-
2020
- 2020-11-19 EP EP20899559.7A patent/EP4064123A4/en active Pending
- 2020-11-19 WO PCT/CN2020/130217 patent/WO2021115091A1/zh unknown
-
2022
- 2022-06-10 US US17/837,231 patent/US11893767B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032072B1 (en) * | 2016-06-21 | 2018-07-24 | A9.Com, Inc. | Text recognition and localization with deep learning |
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926839A (zh) * | 2022-07-22 | 2022-08-19 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
CN114926839B (zh) * | 2022-07-22 | 2022-10-14 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP4064123A4 (en) | 2023-03-15 |
EP4064123A1 (en) | 2022-09-28 |
US20220301328A1 (en) | 2022-09-22 |
US11893767B2 (en) | 2024-02-06 |
WO2021115091A1 (zh) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990188A (zh) | 一种文本识别方法及装置 | |
CN110597512B (zh) | 显示用户界面的方法及电子设备 | |
US10659684B2 (en) | Apparatus and method for providing dynamic panorama function | |
EP4027238B1 (en) | Card rendering method and electronic device | |
US20220107821A1 (en) | User interface layout method and electronic device | |
US10181203B2 (en) | Method for processing image data and apparatus for the same | |
CN115097981B (zh) | 处理内容的方法及其电子设备 | |
US11914850B2 (en) | User profile picture generation method and electronic device | |
WO2022057889A1 (zh) | 一种对应用程序的界面进行翻译的方法及相关设备 | |
EP4209996A1 (en) | Target tracking method and electronic device | |
CN115131789A (zh) | 文字识别方法、设备及存储介质 | |
CN110377914B (zh) | 字符识别方法、装置及存储介质 | |
CN117197811A (zh) | 文本识别方法及电子设备 | |
CN114489429A (zh) | 一种终端设备、长截屏方法和存储介质 | |
CN115879436B (zh) | 一种电子图书质检方法 | |
CN117690147B (zh) | 一种文本识别方法及电子设备 | |
CN116343247B (zh) | 表格图像矫正方法、装置和设备 | |
CN116311311B (zh) | 电子表格生成方法、装置、电子设备及可读存储介质 | |
CN113986406B (zh) | 生成涂鸦图案的方法、装置、电子设备及存储介质 | |
CN116168395A (zh) | 一种字符检测方法和装置、电子设备及存储介质 | |
CN117132984A (zh) | 一种文本识别方法及相关装置 | |
CN118568380A (zh) | 一种人机交互方法、电子设备及系统 | |
CN117132479A (zh) | 摩尔纹的消除方法、电子设备及可读存储介质 | |
CN117667278A (zh) | 一种界面显示方法、设备及系统 | |
CN116050390A (zh) | 文本处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |