CN111783541A - 一种文本识别方法和装置 - Google Patents
一种文本识别方法和装置 Download PDFInfo
- Publication number
- CN111783541A CN111783541A CN202010486672.3A CN202010486672A CN111783541A CN 111783541 A CN111783541 A CN 111783541A CN 202010486672 A CN202010486672 A CN 202010486672A CN 111783541 A CN111783541 A CN 111783541A
- Authority
- CN
- China
- Prior art keywords
- text
- recognition
- branch
- rotation angle
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 72
- 238000012360 testing method Methods 0.000 claims description 57
- 238000012015 optical character recognition Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种文本识别方法和装置,涉及光学字符识别技术领域。本发明通过在文本识别模型中,设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支,以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支,精简了文本识别模型的规模,提高了文本识别模型的鲁棒性;而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本,无需在多个模型间输入、输出,提高了文本识别的效率;最后,能够对相同排版方向对应的文字像素进行集中识别,避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。
Description
技术领域
本发明涉及光学字符识别技术领域,特别是涉及一种文本识别方法和装置。
背景技术
目前,对文本的识别已扩大到图像文本的识别领域,通常包括对拍摄的图片、扫描的PDF(Portable Document Format,便携式文档格式)文档等文本的识别。
但是,基于拍摄、扫描的角度、拍摄效果的差异,或拍摄场景、扫描文本的差异,使得图像文本可能对应任意方向。在现有识别过程中通常需要布置多个独立的模型,对混合的、任意方向的图像文本依次进行文字行检测、文字行旋转角度估计、文字排版方向判断、文字行识别,使得文本识别效率低,误差大;另外,在识别过程中涉及多个独立模型,且每个模型涉及的参数较多,此时,每个模型都需要对应调参以获得更好的识别结果,识别过程鲁棒性较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题的一种文本识别方法和装置。
依据本发明的第一方面,提供了一种文本识别方法,该方法可以包括:
获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素;
通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度;
通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度;
通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
可选地,所述文字行识别分支包括排版识别子分支,所述通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本,包括:
通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支;
通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
可选地,所述通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度,包括:
通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
可选地,所述文本识别模型通过如下步骤训练得到:
获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素;
根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练;
根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
可选地,所述根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练之后,还包括:
获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素;
获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数;
获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数;
根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
依据本发明实施例的第二方面,提供了一种文本识别装置,该装置可以包括:
数据获取模块,用于获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素;
排版检测模块,用于通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度;
排版调整模块,用于通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度;
文本识别模块,用于通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
可选地,所述文字行识别分支包括至少一个排版识别子分支,所述文本识别模块,包括:
排版对应子模块,用于通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支;
文本识别子模块,用于通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
可选地,所述排版调整模块,具体用于通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
可选地,所述数据获取模块,还用于获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素;
所述装置还包括:
排版检测训练模块,用于根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练;
文本识别训练模块,用于根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
可选地,所述数据获取模块,还用于获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素;
所述排版检测训练模块,还用于获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数;
所述文本识别训练模块,还用于获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数;
所述排版检测训练模块,还用于根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
本发明实施例中,通过在文本识别模型中,设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支,以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支,精简了文本识别模型的规模,提高了文本识别模型的鲁棒性;而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本,无需在多个模型间输入、输出,提高了文本识别的效率;最后,能够对相同排版方向对应的文字像素进行集中识别,避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种文本识别方法的步骤流程图;
图2是本发明实施例提供的另一种文本识别方法的步骤流程图;
图3是本发明实施例提供的一种文本识别装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文本识别方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素。
本发明实施例中,第一图像数据可以是包括任意方向的第一文字像素的图像数据,其中,第一文字像素可以是第一图像数据中包括与背景像素不同的,不同大小、颜色、字体的数字、文字、符号等的像素,图像数据可以是通过拍摄、扫描得到的图像,或者也可以是对文档、表格、演示文稿等进行格式转化获得的图像数据,第一文字像素的方向可以是相对于水平方向或竖直方向的旋转方向。本发明实施例对第一图像数据的形式和内容不做具体限制。
步骤102、通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度。
本发明实施例中,可以将第一图像数据输入文本识别模型中,文本识别模型是预先训练的用于对图像数据进行文本识别的模型,文本识别模型可以包括文字行检测分支与文字行识别分支,其中,文字行检测分支可以对第一图像数据中第一文字像素的第一排版方向以及第一旋转角度进行检测。第一排版方向可以是第一文本像素所对应的预设排版方向,可选地,预设排版方向可以包括横版方向、竖版方向、斜版方向等;第一旋转角度可以是第一文字像素在第一排版方向上的旋转角度,如第一旋转角度可以是第一文字像素在横版方向上顺时针旋转0度、90度、180度、270度等,也可以是在竖版方向上顺时针旋转0度、90度、180度、270度等。本发明实施例中在区分第一图像数据中的文本与背景的情况下,还可以进一步确定文本中第一文字像素的第一排版方向与第一旋转角度,从而获得完备的信息,提高文本识别的准确性。
本发明实施例中,文字行检测分支也可以确定第一图像数据的旋转方向,由于第一图像数据可能由拍摄、扫描实体证件、文书等得到,在拍摄、扫描角度偏斜时得到的第一图像数据可能也有偏斜,可选地,可以根据第一文字像素的第一旋转角度,或者第一图像数据的背景边框的旋转角度等,从而确定第一图像数据的旋转方向。
步骤103、通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度。
本发明实施例中,在文字行检测分支检测到第一文字像素的第一排版方向与第一旋转角度后,文字行识别分支可以获取该检测结果,并对第一旋转角度进行调整,从而使得第一旋转角度等于预设旋转角度,如当第一旋转角度大于预设旋转角度时,可以将第一文字像素向减少第一旋转角度的方向旋转;当第一旋转角度小于预设旋转角度时,可以将第一文字像素向增大第一旋转角度的方向旋转;当第一旋转角度等于预设旋转角度时,可以对第一文字像素保持不变。本发明实施例中经调整过的相同第一排版方向对应的第一文本像素,具有相同的第一旋转角度,从而便于文字行识别分支进行批量、准确的文本识别。
本发明实施例中,文字行识别分支在对第一文字像素进行调整之前,还可以对第一图像数据的旋转方向进行调整,可选地,可以根据旋转方向与水平方向的夹角进行调整,当旋转方向与水平方向的夹角小于预设夹角时,将第一图像数据旋转至水平方向;当旋转方向与水平方向的夹角大于预设夹角时,将第一图像数据旋转至竖直方向;当旋转方向与水平方向的夹角等于预设夹角时,可以将第一图像数据旋转至水平方向或竖直方向。本发明实施例中,通过对第一图像数据旋转方向的调整可以对第一图像数据进行准确的规范、分类,从而进一步便于文字行识别分支进行批量、准确的文本识别。
步骤104、通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
本发明实施例中,文字行识别分支可以对不同第一排版方向对应的第一文字像素分别进行文本识别,从而使得相同第一排版方向的第一文字像素集中、批量识别,不同第一排版方向的第一文字像素能够分批、分别识别,由于相同第一排版方向的第一文字像素其第一旋转角度在调整过后也相同,因此,便于文字行识别分支对第一文字像素进行批量、准确的识别,避免了不同排版、旋转角度、旋转方向等第一文字像素混合导致的识别难度高、效率低的问题,从而高效、准确的获得第一文字像素对应的第一识别文本。
综上所述,本发明实施例提供的文本识别方法中,通过在文本识别模型中,设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支,以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支,精简了文本识别模型的规模,提高了文本识别模型的鲁棒性;而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本,无需在多个模型间输入、输出,提高了文本识别的效率;最后,能够对相同排版方向对应的文字像素进行集中识别,避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。
图2是本发明实施例提供的另一种文本识别方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素。
本发明实施例中,步骤201的内容可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
步骤202、通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度。
本发明实施例中,步骤202的内容可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
本发明实施例中,在实际应用时,文本识别模型可以采用CNN(ConvolutionalNeural Networks,卷积神经网络)进行特征提取,并对文字行检测分支和文字行识别分支在CNN Backbone(CNN骨架网络)上进行共享,从而使得文字行检测分支和文字行识别分支可以共享提取的卷积特征,获得的文本识别模型能够实现端到端的文本识别,提高文本识别的效率。其中,CNN是一类包含卷积计算且具有深度结构的前馈神经网络,CNN Backbone是各种CNN的共享结构。
本发明实施例中,文字行检测分支可以对第一图像数据中第一文字像素进行标记,从而区分不同第一文字像素的第一排版方向与第一旋转角度,可选地,可以使用数字进行标记,如对第一图像数据中的背景像素标记为0,第一文字像素中横版0度标记为1、横版90度标记为2、横版180度标记为3、横版270度标记为4、竖版0度标记为5、竖版90度标记为6、竖版180度标记为7、竖版270度标记为8;也可以使用其他数字、字母、符号等进行标记。可选地,文字行检测分支可以采用PSENet(Progressive Scale Expansion Network,渐进尺度扩展网络)对第一图像数据中的第一文字像素进行分割预测,从而良好的分割相邻第一文字像素,并通过对第一文字像素打标进一步确定第一文字像素对应的第一排版方向与第一旋转角度。其中,PSENet是一种基于分割的文本预测算法,能够对任意形状的文本进行定位,且通过渐进的尺度扩展能够良好的识别相邻文本。
步骤203、通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
本发明实施例中,当预设旋转角度为0时,文字行识别分支可以对第一文字像素进行旋转以使第一旋转角度为0,如对标记为1的第一文字像素保持不变,对标记为2的第一文字像素从横版90度旋转到横版0度,对标记为3的第一文字像素从横版180度旋转到横版0度等,以此类推,从而调整第一文字像素均为横版0度、竖版0度等,使得相同排版方向的第一文字像素具有相同的旋转角度,便于批量、准确的文本识别。
可选地,所述文字行识别分支包括排版识别子分支。
本发明实施例中,文字行识别分支可以进一步包括排版识别子分支,其中,排版识别子分支的数量、种类可以实际应用需求具体设置,排版识别子分支可以包括横排排版识别子分支、竖排排版识别子分支、斜排排版识别子分支等,其中,斜排排版识别子分支可以用于识别排版方向与竖直方向成45度夹角的斜版方向对应的第一文字像素,本发明实施例对此不作具体限制。
步骤204、通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支。
本发明实施例中,文字行识别子分支可以确定第一排版方向所对应的排版识别子分支,如第一排版方向对应横版方向,则对应的排版识别子分支为横排排版识别子分支;第一排版方向对应竖版方向,则对应的排版识别子分支为竖排排版识别子分支;第一排版方向对应斜版方向,则对应的排版识别子分支为斜排排版识别子分支。
步骤205、通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
本发明实施例中,由于第一排版方向与第一文字像素对应,因此,可以通过排版识别子分支对第一排版方向对应的第一文字像素进行识别,获得第一识别文本,由于相同第一排版方向的第一文字像素在相同排版识别子分支中进行识别,因此,能够避免识别过程中不同排版方向、不同旋转角度造成的识别难度高、效率低的问题,从而高效、准确的获得第一文字像素对应的第一识别文本。
可选地,所述文本识别模型由以下步骤训练得到:
步骤S11、获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素。
本发明实施例中,第一预设文本可以是文本识别模型在投入使用时预测的第一图像数据中可能包括的文本内容、文本类型等,如第一图像数据可以是房产证扫描图,其中可能包括房产证的关键条目,此时,第二图像数据可以是已有的房产证扫描图,其中包括房产证的关键条目为第一预设文本;第一图像数据可以是广告牌照片,其中可能包括广告牌的广告语,此时,第二图像数据可以是已有的广告牌照片,其中包括广告牌的广告语为第一预设文本。
本发明实施例中,第二文字像素可以是第二图像数据中第一预设文本对应的文字像素,在第二图像数据中,可选地,第二文字像素可以是任意排版方向,并在排版方向上旋转0至360度间的任意旋转角度。可选地,还可以采用自然场景仿真工具,在空白的模板图像上生成第二图像数据,本发明实施例对获取第二图像数据的方式不作限定。
本发明实施例中,可以选择合适的CNN Backbone ResNet(CNN BackboneResidual Networks,CNN骨架残差网络)v1,如CNN Backbone ResNet v1-50,对第一图像数据进行特征提取,并对文字行检测分支和文字行识别分支在CNN Backbone上进行共享,从而使得文字行检测分支和文字行识别分支可以共享提取的卷积特征,在获得的文本时识别模型能够完成检测和识别的同时,基于残差网络的特性提高模型收敛的效率。其中,ResNet是一种卷积神经网络,通过内部的残差块进行跳跃连接,缓解了深度神经网络中深度增加导致梯度消失的问题,易于优化,并能够增加深度提高模型的准确性。
本发明实施例中,可以确定第二图像数据的第二排版方向与第二旋转角度,从而简化后续检测、识别的过程,提高训练的效率。可选地,可以将第二排版方向分为横版方向和竖版方向,可以将0至360度的第二旋转角度分为0度、90度、180度和270度,如旋转角度为0度或360度的第一文字像素其第一旋转角度为0度;旋转角度在0度至90度之间,且不包括0度的第一文字像素其第一旋转角度为90度;旋转角度在90至270度之间,且不包括90度和270度的第一文字像素,其第一旋转角度为180度;转角度在270度至360度之间,且不包括360度的第一文字像素其第一旋转角度为270度。
本发明实施例中,还可以根据实际训练过程的要求对第二图像数据中第二文字像素对应的第二排版方向和第二旋转角度进行标记。可选地,可以使用数字进行标记,如可以将第二图像数据中的背景像素标记为0,第二文字像素中横版0度标记为1、横版90度标记为2、横版180度标记为3、横版270度标记为4、竖版0度标记为5、竖版90度标记为6、竖版180度标记为7、竖版270度标记为8;也可以使用其他数字、字母、符号等进行标记。
步骤S12、根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练。
本发明实施例中,可以采用PSENet作为文字行检测分支,根据第二文字像素、第二排版方向和第二旋转角度进行训练,从而使得文字行检测分支在区分第二图像数据中背景像素与第二文字像素的同时,能够检测不同第二文字像素的第二排版方向和第二旋转角度,对图像数据中更完备的信息进行检测。
步骤S13、根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
本发明实施例中,可以采用CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)+CTC(Connectionist Temporal Classification,连接时序分类)算法,根据第二排版方向调整第二文字像素的第二旋转角度为预设旋转角度,并根据调整后的第二文字像素与第一预设文本进行文字行识别分支的训练。可选地,可以分别根据不同第一排版方向的第二文字像素训练对应的排版识别子分支,并将训练得到的排版识别子分支作为文字行识别分支。可选地,上述模型训练可以选用TensorFlow框架进行。其中,CRNN是CNN与RNN(Neural Network,循环神经网络)的结合,可以通过CNN提取特征,在通过RNN预测特征对应的标签,最后通过CTC计算损失值,根据反向传播算法进行训练,以修正未正确对应的特征与标签;TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现。
可选地,所述步骤S13之后该模型训练的步骤还可以包括:
步骤S21、获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素。
本发明实施例中,在获得训练得到的文本识别模型后,还可以对文本识别模型进行测试、调参,以保证文本识别模型在新的图像数据中文本识别的准确性。可选地,可以获得第二预设文本对应的第三图像数据,获取方式可对应参照前述步骤S11的相关描述,为避免重复,在此不再赘述。
步骤S22、获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数。
本发明实施例中,可以将第三图像数据输入文本识别模型中,并获取文字行检测分支对第三图像数据的测试排版方向和测试旋转角度。此时,可以根据第三排版方向、第三旋转角度、测试排版方向和测试旋转角度,计算文字行检测分支的损失函数,并根据损失函数调整文字行检测分支的参数。
步骤S23、获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数。
本发明实施例中,文字行识别分支可以根据文字行检测分支对第三图像数据检测得到的测试排版方向,对第三文字像素进行文本识别得到测试识别文本,并根据测试识别文本与第二预设文本计算文字行识别分支的损失函数,从而根据损失函数调整文字行识别分支的参数。
步骤S24、根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
本发明实施例中,还可以根据文字行识别分支的测试识别文本,与第三图像数据对应的第二预设文本,调整文字行检测分支的参数,从而使得文字行识别分支根据文字行检测分支对第三文字像素的检测结果进行文本识别时,能够提高文字行识别分支对第三文字像素的文本识别的准确性,可以是通过反向传播算法,计算测试识别文本与第二预设文本的误差,并根据该误差对文字行检测分支的参数进行调节。
综上所述,本发明实施例提供的文本识别方法中,通过在文本识别模型中,设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支,以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支,精简了文本识别模型的规模,提高了文本识别模型的鲁棒性;而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本,无需在多个模型间输入、输出,提高了文本识别的效率;最后,能够对相同排版方向对应的文字像素进行集中识别,避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。
图3是本发明实施例提供的一种文本识别装置的框图,如图3所示,该装置300可以包括:
数据获取模块301,用于获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素;
排版检测模块302,用于通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度;
排版调整模块303,用于通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度;
文本识别模块304,用于通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
可选地,所述文字行识别分支包括至少一个排版识别子分支,所述文本识别模块304,包括:
排版对应子模块,用于通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支;
文本识别子模块,用于通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
可选地,所述排版调整模块303,具体用于通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
可选地,所述数据获取模块301,还用于获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素;
所述装置还包括:
排版检测训练模块,用于根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练;
文本识别训练模块,用于根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
可选地,所述数据获取模块301,还用于获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素;
所述排版检测训练模块,还用于获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数;
所述文本识别训练模块,还用于获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数;
所述排版检测训练模块,还用于根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
综上所述,本发明实施例提供的文本识别方法中,通过在文本识别模型中,设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支,以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支,精简了文本识别模型的规模,提高了文本识别模型的鲁棒性;而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本,无需在多个模型间输入、输出,提高了文本识别的效率;最后,能够对相同排版方向对应的文字像素进行集中识别,避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种文本识别方法,其特征在于,所述方法包括:
获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素;
通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度;
通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度;
通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
2.根据权利要求1所述的方法,其特征在于,所述文字行识别分支包括排版识别子分支,所述通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本,包括:
通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支;
通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
3.根据权利要求1所述的方法,其特征在于,所述通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度,包括:
通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
4.根据权利要求1所述的方法,其特征在于,所述文本识别模型通过如下步骤训练得到:
获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素;
根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练;
根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练之后,还包括:
获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素;
获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数;
获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数;
根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
6.一种文本识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取第一图像数据,所述第一图像数据包括任意方向的第一文字像素;
排版检测模块,用于通过文本识别模型的文字行检测分支检测所述第一文字像素,获得第一排版方向以及第一旋转角度;
排版调整模块,用于通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度;
文本识别模块,用于通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别,获得第一识别文本。
7.根据权利要求6所述的装置,其特征在于,所述文字行识别分支包括至少一个排版识别子分支,所述文本识别模块,包括:
排版对应子模块,用于通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支;
文本识别子模块,用于通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别,获得第一识别文本。
8.根据权利要求6所述的装置,其特征在于,所述排版调整模块,具体用于通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。
9.根据权利要求6所述的装置,其特征在于,所述数据获取模块,还用于获取第一预设文本对应的第二图数据,所述第二图像数据包括第二排版方向和第二旋转角度的第二文字像素;
所述装置还包括:
排版检测训练模块,用于根据所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行检测分支进行训练;
文本识别训练模块,用于根据所述第一预设文本、所述第二文字像素、所述第二排版方向和所述第二旋转角度对所述文本识别模型中的所述文字行识别分支进行训练。
10.根据权利要求9所述的装置,其特征在于,所述数据获取模块,还用于获取第二预设文本对应的第三图数据,所述第三图像数据包括第三排版方向和第三旋转角度的第三文字像素;
所述排版检测训练模块,还用于获取所述文字行检测分支检测所述第三文字像素得到的测试排版方向和测试旋转角度,并根据所述第三排版方向、所述第三旋转角度、所述测试排版方向和所述测试旋转角度调整所述文字行检测分支的参数;
所述文本识别训练模块,还用于获取所述文字行识别分支根据所述测试排版方向对所述第三文字像素进行识别得到的测试识别文本,并根据所述测试识别文本和所述第二预设文本调整所述文字行识别分支的参数;
所述排版检测训练模块,还用于根据所述测试识别文本与所述第二预设文本,调整所述文字行检测分支的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486672.3A CN111783541B (zh) | 2020-06-01 | 2020-06-01 | 一种文本识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486672.3A CN111783541B (zh) | 2020-06-01 | 2020-06-01 | 一种文本识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783541A true CN111783541A (zh) | 2020-10-16 |
CN111783541B CN111783541B (zh) | 2024-04-02 |
Family
ID=72754635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010486672.3A Active CN111783541B (zh) | 2020-06-01 | 2020-06-01 | 一种文本识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783541B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329777A (zh) * | 2021-01-06 | 2021-02-05 | 平安科技(深圳)有限公司 | 基于方向检测的文字识别方法、装置、设备及介质 |
CN112560599A (zh) * | 2020-12-02 | 2021-03-26 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN113128485A (zh) * | 2021-03-17 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
CN109598185A (zh) * | 2018-09-04 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 图像识别翻译方法、装置、设备及可读存储介质 |
US10423852B1 (en) * | 2018-03-20 | 2019-09-24 | Konica Minolta Laboratory U.S.A., Inc. | Text image processing using word spacing equalization for ICR system employing artificial neural network |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
-
2020
- 2020-06-01 CN CN202010486672.3A patent/CN111783541B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
US10423852B1 (en) * | 2018-03-20 | 2019-09-24 | Konica Minolta Laboratory U.S.A., Inc. | Text image processing using word spacing equalization for ICR system employing artificial neural network |
CN109598185A (zh) * | 2018-09-04 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 图像识别翻译方法、装置、设备及可读存储介质 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
Non-Patent Citations (2)
Title |
---|
付飞飞;: "场景文字识别算法的研究", 福建电脑, no. 04 * |
程立;姚为;李波;: "基于投影轮廓的文本图像倾斜检测", 中国图象图形学报, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560599A (zh) * | 2020-12-02 | 2021-03-26 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN112329777A (zh) * | 2021-01-06 | 2021-02-05 | 平安科技(深圳)有限公司 | 基于方向检测的文字识别方法、装置、设备及介质 |
CN113128485A (zh) * | 2021-03-17 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111783541B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815932B (zh) | 一种试卷批改方法、装置、电子设备及存储介质 | |
CN111783541B (zh) | 一种文本识别方法和装置 | |
CN108701234A (zh) | 车牌识别方法及云系统 | |
CN109255356B (zh) | 一种文字识别方法、装置及计算机可读存储介质 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
US20190139213A1 (en) | Data generation apparatus, data generation method, and data generation program | |
CN109918523B (zh) | 一种基于yolo9000算法的电路板元器件检测方法 | |
CN111368682B (zh) | 一种基于faster RCNN台标检测与识别的方法及系统 | |
US20170200247A1 (en) | Systems and methods for authentication of physical features on identification documents | |
TW201317904A (zh) | 標籤檢測系統、裝置及其檢測標籤的方法 | |
CN102081742B (zh) | 一种书写能力的自动评价方法 | |
CN110689000A (zh) | 一种基于生成复杂环境下车牌样本的车辆车牌识别方法 | |
CN111414905B (zh) | 一种文本检测方法、文本检测装置、电子设备及存储介质 | |
CN110346704A (zh) | 板卡测试中测试文件的确定方法、装置、设备及存储介质 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN114463770A (zh) | 一种用于普遍试卷题目的智能切题方法 | |
CN104077562B (zh) | 一种答卷的扫描方向判断方法 | |
CN112200182A (zh) | 基于深度学习的晶圆id识别方法和装置 | |
CN113159146A (zh) | 样本生成、目标检测模型训练、目标检测方法及装置 | |
US20230110558A1 (en) | Systems and methods for detecting objects | |
CN116486177A (zh) | 一种基于深度学习的水下目标识别分类方法 | |
CN111507181A (zh) | 票据图像的矫正方法、装置及计算机设备 | |
CN114494891B (zh) | 一种基于多尺度并行检测的危险品识别装置和方法 | |
CN113657162A (zh) | 一种基于深度学习的票据ocr识别方法 | |
CN111832550B (zh) | 数据集制作方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Gao Dashuai Inventor after: Li Jian Inventor after: Wu Weidong Inventor before: Gao Dashuai Inventor before: Li Jian Inventor before: Wu Weibu |