CN114898375A - 字符检测模型训练方法及组件,文本识别方法及组件 - Google Patents
字符检测模型训练方法及组件,文本识别方法及组件 Download PDFInfo
- Publication number
- CN114898375A CN114898375A CN202210552404.6A CN202210552404A CN114898375A CN 114898375 A CN114898375 A CN 114898375A CN 202210552404 A CN202210552404 A CN 202210552404A CN 114898375 A CN114898375 A CN 114898375A
- Authority
- CN
- China
- Prior art keywords
- character
- model
- image
- target image
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000000284 extract Substances 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 239000002131 composite material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000001788 irregular Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本申请公开了计算机技术领域内的一种字符检测模型训练方法及组件,文本识别方法及组件。本申请能够训练得到字符检测模型,该字符检测模型能够检测任一图像中的每个字符的位置及方向,因此就算图像中的文字弯曲、变形或随意分布,字符检测模型都可以确定字符在图像中的分布位置,从而可实现更细颗粒度的字符级文字检测和提取,文字定位和检测精确率更高。可见本申请提供的字符检测模型针对模板类图像、无规则类图像都能进行文字检测和提取,模型通用性更佳。相应地,本申请提供的一种字符检测模型训练组件、一种文本识别方法及组件,也同样具有上述技术效果。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种字符检测模型训练方法及组件,文本识别方法及组件。
背景技术
目前,现有的文本识别技术主要用于对模板类的图像进行文字识别,例如:提取证件、卡牌、单据类图像中的文字,而难以对随机拍摄的图像、无规则文字的图像进行文字提取。也即,以模板类图像作为输入数据的模型无法对无规则图像进行文字检测和提取,导致无规则图像中的文字定位和检测精确率偏低。
因此,如何针对无规则文字的图像进行文字检测和提取,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种字符检测模型训练方法及组件,文本识别方法及组件,以针对无规则文字的图像进行文字检测和提取。其具体方案如下:
第一方面,本申请提供了一种字符检测模型训练方法,包括:
从训练集中获取目标图像,所述训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;
将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息;
针对所述目标图像中的每一字符,计算所述位置信息和所述位置标签之间的位置损失,计算所述方向信息和所述方向标签之间的方向损失,并基于所述位置损失和所述方向损失确定单字符损失;
基于所述目标图像中的所有字符的单字符损失确定综合损失;
若所述综合损失符合模型收敛条件,则将所述待训练模型作为字符检测模型;否则,基于所述综合损失更新所述待训练模型的模型参数,并在所述训练集中重新选择图像作为所述目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
可选地,所述将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息,包括:
将所述目标图像输入所述待训练模型,以使所述待训练模型从所述目标图像中提取轮廓特征和深度语义特征,融合所述轮廓特征和所述深度语义特征得到特征图,基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息。
可选地,融合所述轮廓特征和所述深度语义特征得到特征图,包括:
拼接所述轮廓特征和所述深度语义特征得到所述特征图;
和/或
将所述轮廓特征和所述深度语义特征相加得到所述特征图。
可选地,所述基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息,包括:
对所述特征图进行前景和背景分割,得到前景像素特征;
对所述前景像素特征进行字符分割,得到所述目标图像中每一字符对应的像素特征;
基于所述目标图像中每一字符对应的像素特征确定所述目标图像中每一字符的位置信息和方向信息。
可选地,所述基于所述目标图像中的所有字符的单字符损失确定综合损失,包括:
将所述目标图像中所有字符的单字符损失之和确定为所述综合损失。
可选地,还包括:
将无标注图像输入所述字符检测模型,以使所述字符检测模型输出所述无标注图像中每一字符的位置信息和方向信息;
将所述字符检测模型输出的、所述无标注图像中每一字符的位置信息和方向信息标注于所述无标注图像,得到有标注图像;
利用所述有标注图像对所述字符检测模型进行迭代训练。
可选地,还包括:
若所述综合损失不符合模型收敛条件,则对本次输入所述待训练模型的目标图像进行尺寸缩放调整和/或切割拼接调整,并为调整后的图像添加标注后,将调整后的图像填充至所述训练集。
第二方面,本申请提供了一种文本识别方法,包括:
获取包含文本的待识别图像;
将所述待识别图像输入字符检测模型,以使所述字符检测模型输出所述待识别图像中每一字符的位置信息和方向信息;字符检测模型按照上述任一项所述的字符检测模型训练方法训练得到;
基于所述待识别图像中每一字符的位置信息和方向信息,确定所述待识别图像中包含的文本。
第三方面,本申请提供了一种字符检测模型训练装置,包括:
获取模块,用于从训练集中获取目标图像,所述训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;
处理模块,用于将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息;
计算模块,用于针对所述目标图像中的每一字符,计算所述位置信息和所述位置标签之间的位置损失,计算所述方向信息和所述方向标签之间的方向损失,并基于所述位置损失和所述方向损失确定单字符损失;
确定模块,用于基于所述目标图像中的所有字符的单字符损失确定综合损失;
输出模块,用于若所述综合损失符合模型收敛条件,则将所述待训练模型作为字符检测模型;
迭代模块,用于若所述综合损失不符合模型收敛条件,则基于所述综合损失更新所述待训练模型的模型参数,并在所述训练集中重新选择图像作为所述目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
第四方面,本申请提供了一种文本识别装置,包括:
获取模块,用于获取包含文本的待识别图像;
检测模块,用于将所述待识别图像输入字符检测模型,以使所述字符检测模型输出所述待识别图像中每一字符的位置信息和方向信息;字符检测模型按照上述任一项所述的字符检测模型训练方法训练得到;
识别模块,用于基于所述待识别图像中每一字符的位置信息和方向信息,确定所述待识别图像中包含的文本。
第五方面,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的方法。
第六方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的方法。
通过以上方案可知,本申请提供了一种字符检测模型训练方法,包括:从训练集中获取目标图像,所述训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息;针对所述目标图像中的每一字符,计算所述位置信息和所述位置标签之间的位置损失,计算所述方向信息和所述方向标签之间的方向损失,并基于所述位置损失和所述方向损失确定单字符损失;基于所述目标图像中的所有字符的单字符损失确定综合损失;若所述综合损失符合模型收敛条件,则将所述待训练模型作为字符检测模型;否则,基于所述综合损失更新所述待训练模型的模型参数,并在所述训练集中重新选择图像作为所述目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
可见,本申请从训练集中获取目标图像后,将目标图像输入待训练模型,以使待训练模型输出目标图像中每一字符的位置信息和方向信息;针对目标图像中的每一字符,计算模型输出的字符位置信息和图像中标注的位置标签之间的位置损失,计算模型输出的方向信息和图像中标注的方向标签之间的方向损失,并基于位置损失和方向损失确定单字符损失,这样可得到目标图像中每个字符的单字符损失;基于目标图像中的所有字符的单字符损失确定综合损失后,若综合损失符合模型收敛条件,则将待训练模型作为字符检测模型;否则,基于综合损失更新待训练模型的模型参数,并在训练集中重新选择图像作为目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。该方案能够训练得到字符检测模型,该字符检测模型能够检测任一图像中的每个字符的位置及方向,因此就算图像中的文字弯曲、变形或随意分布,字符检测模型都可以确定字符在图像中的分布位置,从而可实现更细颗粒度的字符级文字检测和提取,文字定位和检测精确率更高。可见本申请提供的字符检测模型针对模板类图像、无规则类图像都能进行文字检测和提取,模型通用性更佳。
相应地,本申请提供的一种字符检测模型训练组件、一种文本识别方法及组件,也同样具有上述技术效果。组件包括装置、设备及可读存储介质。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种字符检测模型训练方法流程图;
图2为本申请公开的一种文本识别方法流程图;
图3为本申请公开的一种字符检测模型训练逻辑示意图;
图4为本申请公开的一种文本框示意图;
图5为本申请公开的一种字符检测模型训练装置示意图;
图6为本申请公开的一种文本识别装置示意图;
图7为本申请公开的一种电子设备示意图;
图8为本申请公开的另一种电子设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,现有的文本识别技术主要用于对模板类的图像进行文字识别,例如:提取证件、卡牌、单据类图像中的文字,而难以对随机拍摄的图像、无规则文字的图像进行文字提取。也即,以模板类图像作为输入数据的模型无法对无规则图像进行文字检测和提取,导致无规则图像中的文字定位和检测精确率偏低。为此,本申请提供了一种字符检测模型训练方案以及一种文本识别方案,能够针对细颗粒度的字符进行文字检测和提取,文字定位和检测精确率更高。
参见图1所示,本申请实施例公开了一种字符检测模型训练方法,包括:
S101、从训练集中获取目标图像,训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签。
作为本实施例训练数据的图像,其中的每一字符都标注有位置标签和方向标签,因此可供模型学习预测图像中每一字符的位置和方向。其中,位置标签具体可以为字符在图像中的坐标,如:以矩形框覆盖一个字符时,位置标签具体为矩形框的四个顶点的坐标以及中心点坐标。方向标签可以是字符与水平线的角度。一个字符可以是:一个汉字、一个数字、一个字母等。
S102、将目标图像输入待训练模型,以使待训练模型输出目标图像中每一字符的位置信息和方向信息。
其中,待训练模型可以是任意结构的模型,如:神经网络模型等。
在一种实施方式中,将目标图像输入待训练模型,以使待训练模型输出目标图像中每一字符的位置信息和方向信息,包括:将目标图像输入待训练模型,以使待训练模型从目标图像中提取轮廓特征和深度语义特征,融合轮廓特征和深度语义特征得到特征图,基于特征图确定目标图像中每一字符的位置信息和方向信息。其中,轮廓特征即:图像中浅层次的、粗颗粒度的特征。而深度语义特征即:图像中深层次的、更细致的特征。
其中,融合轮廓特征和深度语义特征得到特征图,包括:拼接轮廓特征和深度语义特征得到特征图;和/或将轮廓特征和深度语义特征相加得到特征图。其中,拼接轮廓特征和深度语义特征可借助concat方式实现。相加轮廓特征和深度语义特征可借助add方式实现。其中,concat是直接拼接特征,add是对位相加特征,add能够提升深层特征的非线性表达能力,重在加强对小目标文本的检测能力。
其中,基于特征图确定目标图像中每一字符的位置信息和方向信息,包括:对特征图进行前景和背景分割,得到前景像素特征;对前景像素特征进行字符分割,得到目标图像中每一字符对应的像素特征;基于目标图像中每一字符对应的像素特征确定目标图像中每一字符的位置信息和方向信息。其中,前景和背景的分割可采用grabcut方式实现。
S103、针对目标图像中的每一字符,计算位置信息和位置标签之间的位置损失,计算方向信息和方向标签之间的方向损失,并基于位置损失和方向损失确定单字符损失。
在本实施例中,位置损失和方向损失可采用任意损失函数进行计算。其中,基于位置损失和方向损失确定单字符损失,包括:将位置损失和方向损失之和确定为单字符损失,或者使用公式S=A+λB计算单字符损失。其中,S表示单字符损失,A表示位置损失,B表示方向损失,λ在0-1之间取值,为预设系数。
S104、基于目标图像中的所有字符的单字符损失确定综合损失。
由于图像中每个字符的重要程度都一致,因此在一种实施方式中,基于目标图像中的所有字符的单字符损失确定综合损失,包括:将目标图像中所有字符的单字符损失之和确定为综合损失。
S105、判断综合损失是否符合模型收敛条件;若是,则执行S106;否则,执行S107。
S106、将待训练模型作为字符检测模型。
S107、基于综合损失更新待训练模型的模型参数,并执行S101,以在训练集中重新选择图像作为目标图像,从而利用重新选择的目标图像对更新后的待训练模型进行迭代训练,直至模型收敛。
其中,模型收敛条件可以为:综合损失达到极小值,或者连续几次迭代得到的综合损失不再变化或变化极小。
为了使模型尽可能学习到更多的字符检测能力,可以在训练集中增多难检测样本的量。其中,若模型针对某一图像输出的位置信息与位置标签相差甚远,或模型针对某一图像输出的方向信息与方向标签相差甚远,那么可认为该图像为难检测样本。若综合损失不符合模型收敛条件,则说明本次模型输出的结果与标签差别较大,那么对本次输入待训练模型的目标图像进行尺寸缩放调整和/或切割拼接调整,并为调整后的图像添加标注后,将调整后的图像填充至训练集,以增加难检测样本的量。其中,尺寸缩放调整即:调整图像的大小。切割拼接调整即:切割图像后,将得到的切割块旋转后拼接或选择部分切割块进行拼接,致力于得到与原图像不同的图像。当然,为丰富训练集,可以对训练集中的图像进行尺寸缩放调整、旋转等操作后,进行标注。
在一种实施方式中,还包括:将无标注图像输入字符检测模型,以使字符检测模型输出无标注图像中每一字符的位置信息和方向信息;将字符检测模型输出的、无标注图像中每一字符的位置信息和方向信息标注于无标注图像,得到有标注图像;利用有标注图像对字符检测模型进行迭代训练,由此可进一步提升训练所得模型的检测能力,还能丰富训练集。
可见,本实施例从训练集中获取目标图像后,将目标图像输入待训练模型,以使待训练模型输出目标图像中每一字符的位置信息和方向信息;针对目标图像中的每一字符,计算模型输出的字符位置信息和图像中标注的位置标签之间的位置损失,计算模型输出的方向信息和图像中标注的方向标签之间的方向损失,并基于位置损失和方向损失确定单字符损失,这样可得到目标图像中每个字符的单字符损失;基于目标图像中的所有字符的单字符损失确定综合损失后,若综合损失符合模型收敛条件,则将待训练模型作为字符检测模型;否则,基于综合损失更新待训练模型的模型参数,并在训练集中重新选择图像作为目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。该方案能够训练得到字符检测模型,该字符检测模型能够检测任一图像中的每个字符的位置及方向,因此就算图像中的文字弯曲、变形或随意分布,字符检测模型都可以确定字符在图像中的分布位置,从而可实现更细颗粒度的字符级文字检测和提取,文字定位和检测精确率更高。可见本申请提供的字符检测模型针对模板类图像、无规则类图像都能进行文字检测和提取,模型通用性更佳。
下面对本申请实施例提供的一种文本识别方法进行介绍,下文描述的一种文本识别方法与上文描述的一种字符检测模型训练方法可以相互参照。
参见图2所示,本申请实施例公开了一种文本识别方法,包括:
S201、获取包含文本的待识别图像。
S202、将待识别图像输入字符检测模型,以使字符检测模型输出待识别图像中每一字符的位置信息和方向信息。
其中,字符检测模型按照上述实施例所述的方法训练得到。
S203、基于待识别图像中每一字符的位置信息和方向信息,确定待识别图像中包含的文本。
需要说明的是,模型输出的图像中每一字符的位置信息具体为:覆盖该字符的矩形框的四个顶点的坐标以及中心点坐标,方向信息具体为:覆盖该字符的矩形框中线与水平线的角度,由此即可确定每个字符在图像中的具体位置、形状及布局。之后结果文本识别技术即可确定图像包含的文本。由于字符的位置信息以坐标表示,因此模型同时可以针对不同字符之间的顺序进行输出,即:模型基于不同字符的位置信息确定不同字符之间的顺序然后输出该顺序。
基于本实施例,可针对图像中的中文、英文、阿拉伯数字、日语、韩语等多种语言的文字进行定位和检测,为后续的文本识别奠定了基础。
下述实施例针对字符检测模型的训练过程进行详细介绍。
字符检测模型按照如图3所示的逻辑进行训练。如图3所示,训练数据包括真实数据和合成数据。其中,真实数据即:未经过任何修改的带有标签的原始图像,合成数据可以是:对原始图像旋转或拼接得到的带有标签的图像,也可以是针对没有标签的原始图像添加标签后得到的图像。同时使用真实数据和合成数据,可实现样本的多尺度和多样性,提升模型的泛化能力。
如图3所示,真实数据或合成数据经特征提取后,使用concat和add方式进行特征融合,得到特征图,对特征图进行区域分割,以确定前景和背景,之后基于前景特征确定字符Box(即覆盖字符的矩形框)以及字符朝向(即字符方向),之后基于当前确定的字符Box、字符朝向与标签进行损失计算,对模型进行梯度更新,直至模型符合收敛条件。按照该过程训练得到的模型能够输出文本的锚框、字符朝向和语义顺序。如图4所示,将图中各个中文字符的覆盖框连接起来,就能得到文本的锚框。该过程可使用最大连通域算法实现。
其中,特征提取步骤用于提取图像的浅层特征和深层语义特征。一般采用卷积、池化等运算即可完成。具体可以采用现有的se-resnet50、densenet、vgg或xception结构作为特征提取网络,以扩大全局感受野,优化特征权重并在通道维度上对原始特征重新标定。特征融合步骤用于融合浅层特征和深层语义特征,具体可采用金子塔架构实现,以得到更鲁棒的语义信息。区域分割用于对特征图实现文字像素(前景)和非文字像素(背景)的分离,具体可通过定义多个包含文字的圆形,用高斯混合模型来对背景和前景建模,从而求得前景概率。图像中的每一个像素都会与前景或者背景相连,最后不同背景的连接则会切断,将字符分割出。在区域分割中通过最大流算法grabcut实现像素级的分割时,就可以判断出文字的朝向。如:前景像素中文字像素的连接趋势和文字的朝向是极为敏感的,通过多个文字的像素流就可以给出文本行的文字朝向。其中,grabcut对字符的边界切割精确定位明显优于文本行的定位,在字符的边界定位中通过流向指出字符的朝向,并通过最大连通域算法得到文本行。按照上述过程得到相应结果后,使用最大连通域去生成最大轮廓矩形框(即文本的锚框),并将最大轮廓矩形框映射回原始图像的坐标。
按照上述训练得到模型后,可以用该模型对公开真实数据集进行推理,以生成标签,这样公开真实数据集就又可以作为训练集来继续训练模型,实现模型的半监督训练。当然,还可以根据OHEM思想,将难检测样本与一般样本的比例设定在3:1,以提升模型的检测能力。还可以采用multi-scale方案增强训练数据,以提升模型的鲁棒性。
可见,本实施例针对各种角度的倾斜文本、模糊文本、弯曲文本、甚至畸变文本都能进行字符定位和检测,还可以确定字符方向,从而可提高文本检测精度。
下面对本申请实施例提供的一种字符检测模型训练装置进行介绍,下文描述的一种字符检测模型训练装置与上文描述的一种字符检测模型训练方法可以相互参照。
参见图5所示,本申请实施例公开了一种字符检测模型训练装置,包括:
获取模块501,用于从训练集中获取目标图像,训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;
处理模块502,用于将目标图像输入待训练模型,以使待训练模型输出目标图像中每一字符的位置信息和方向信息;
计算模块503,用于针对目标图像中的每一字符,计算位置信息和位置标签之间的位置损失,计算方向信息和方向标签之间的方向损失,并基于位置损失和方向损失确定单字符损失;
确定模块504,用于基于目标图像中的所有字符的单字符损失确定综合损失;
输出模块505,用于若综合损失符合模型收敛条件,则将待训练模型作为字符检测模型;
迭代模块506,用于若综合损失不符合模型收敛条件,则基于综合损失更新待训练模型的模型参数,并在训练集中重新选择图像作为目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
在一种实施方式中,处理模块具体用于:
将目标图像输入待训练模型,以使待训练模型从目标图像中提取轮廓特征和深度语义特征,融合轮廓特征和深度语义特征得到特征图,基于特征图确定目标图像中每一字符的位置信息和方向信息。
在一种实施方式中,处理模块具体用于:
拼接轮廓特征和深度语义特征得到特征图;
和/或
将轮廓特征和深度语义特征相加得到特征图。
在一种实施方式中,处理模块具体用于:
对特征图进行前景和背景分割,得到前景像素特征;
对前景像素特征进行字符分割,得到目标图像中每一字符对应的像素特征;
基于目标图像中每一字符对应的像素特征确定目标图像中每一字符的位置信息和方向信息。
在一种实施方式中,确定模块具体用于:
将目标图像中所有字符的单字符损失之和确定为综合损失。
在一种实施方式中,还包括:
再训练模块,用于将无标注图像输入字符检测模型,以使字符检测模型输出无标注图像中每一字符的位置信息和方向信息;将字符检测模型输出的、无标注图像中每一字符的位置信息和方向信息标注于无标注图像,得到有标注图像;利用有标注图像对字符检测模型进行迭代训练。
在一种实施方式中,还包括:
数据增强模块,用于若综合损失不符合模型收敛条件,则对本次输入待训练模型的目标图像进行尺寸缩放调整和/或切割拼接调整,并为调整后的图像添加标注后,将调整后的图像填充至训练集。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种字符检测模型训练装置,能够针对细颗粒度的字符进行文字检测和提取,文字定位和检测精确率更高。
下面对本申请实施例提供的一种文本识别装置进行介绍,下文描述的一种文本识别装置与上文描述的一种文本识别方法可以相互参照。
参见图6所示,本申请实施例公开了一种文本识别装置,包括:
获取模块601,用于获取包含文本的待识别图像;
检测模块602,用于将待识别图像输入字符检测模型,以使字符检测模型输出待识别图像中每一字符的位置信息和方向信息;
识别模块603,用于基于待识别图像中每一字符的位置信息和方向信息,确定待识别图像中包含的文本。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种字符检测模型训练装置,能够针对细颗粒度的字符进行文字检测和提取,文字定位和检测精确率更高。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的一种电子设备与上文描述的一种字符检测模型训练方法及装置可以相互参照。
参见图7所示,本申请实施例公开了一种电子设备,包括:
存储器701,用于保存计算机程序;
处理器702,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
请参考图8,图8为本实施例提供的另一种电子设备示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在电子设备301上执行存储介质330中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
在图8中,应用程序342可以是执行字符检测模型训练方法的程序,数据344可以是执行字符检测模型训练方法所需的或产生的数据。
上文所描述的方法中的步骤可以由电子设备的结构实现。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种字符检测模型训练方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种字符检测模型训练方法,其特征在于,包括:
从训练集中获取目标图像,所述训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;
将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息;
针对所述目标图像中的每一字符,计算所述位置信息和所述位置标签之间的位置损失,计算所述方向信息和所述方向标签之间的方向损失,并基于所述位置损失和所述方向损失确定单字符损失;
基于所述目标图像中的所有字符的单字符损失确定综合损失;
若所述综合损失符合模型收敛条件,则将所述待训练模型作为字符检测模型;否则,基于所述综合损失更新所述待训练模型的模型参数,并在所述训练集中重新选择图像作为所述目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息,包括:
将所述目标图像输入所述待训练模型,以使所述待训练模型从所述目标图像中提取轮廓特征和深度语义特征,融合所述轮廓特征和所述深度语义特征得到特征图,基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息。
3.根据权利要求2所述的方法,其特征在于,融合所述轮廓特征和所述深度语义特征得到特征图,包括:
拼接所述轮廓特征和所述深度语义特征得到所述特征图;
和/或
将所述轮廓特征和所述深度语义特征相加得到所述特征图。
4.根据权利要求2所述的方法,其特征在于,所述基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息,包括:
对所述特征图进行前景和背景分割,得到前景像素特征;
对所述前景像素特征进行字符分割,得到所述目标图像中每一字符对应的像素特征;
基于所述目标图像中每一字符对应的像素特征确定所述目标图像中每一字符的位置信息和方向信息。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
若所述综合损失不符合模型收敛条件,则对本次输入所述待训练模型的目标图像进行尺寸缩放调整和/或切割拼接调整,并为调整后的图像添加标注后,将调整后的图像填充至所述训练集。
6.一种文本识别方法,其特征在于,包括:
获取包含文本的待识别图像;
将所述待识别图像输入字符检测模型,以使所述字符检测模型输出所述待识别图像中每一字符的位置信息和方向信息;
基于所述待识别图像中每一字符的位置信息和方向信息,确定所述待识别图像中包含的文本。
7.一种字符检测模型训练装置,其特征在于,包括:
获取模块,用于从训练集中获取目标图像,所述训练集包括多个图像,每个图像中的每一字符标注有位置标签和方向标签;
处理模块,用于将所述目标图像输入待训练模型,以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息;
计算模块,用于针对所述目标图像中的每一字符,计算所述位置信息和所述位置标签之间的位置损失,计算所述方向信息和所述方向标签之间的方向损失,并基于所述位置损失和所述方向损失确定单字符损失;
确定模块,用于基于所述目标图像中的所有字符的单字符损失确定综合损失;
输出模块,用于若所述综合损失符合模型收敛条件,则将所述待训练模型作为字符检测模型;
迭代模块,用于若所述综合损失不符合模型收敛条件,则基于所述综合损失更新所述待训练模型的模型参数,并在所述训练集中重新选择图像作为所述目标图像,以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。
8.一种文本识别装置,其特征在于,包括:
获取模块,用于获取包含文本的待识别图像;
检测模块,用于将所述待识别图像输入字符检测模型,以使所述字符检测模型输出所述待识别图像中每一字符的位置信息和方向信息;
识别模块,用于基于所述待识别图像中每一字符的位置信息和方向信息,确定所述待识别图像中包含的文本。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至6任一项所述的方法。
10.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210552404.6A CN114898375A (zh) | 2022-05-20 | 2022-05-20 | 字符检测模型训练方法及组件,文本识别方法及组件 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210552404.6A CN114898375A (zh) | 2022-05-20 | 2022-05-20 | 字符检测模型训练方法及组件,文本识别方法及组件 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898375A true CN114898375A (zh) | 2022-08-12 |
Family
ID=82723863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210552404.6A Pending CN114898375A (zh) | 2022-05-20 | 2022-05-20 | 字符检测模型训练方法及组件,文本识别方法及组件 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898375A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497106A (zh) * | 2022-11-14 | 2022-12-20 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
CN111353491A (zh) * | 2020-03-12 | 2020-06-30 | 中国建设银行股份有限公司 | 一种文字方向确定方法、装置、设备及存储介质 |
CN111860506A (zh) * | 2020-07-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
CN112541491A (zh) * | 2020-12-07 | 2021-03-23 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN113205095A (zh) * | 2021-04-13 | 2021-08-03 | 北京三快在线科技有限公司 | 一种训练模型以及字符检测的方法及装置 |
CN113705673A (zh) * | 2021-08-27 | 2021-11-26 | 四川医枢科技有限责任公司 | 一种文字检测方法、装置、设备及存储介质 |
US20220058422A1 (en) * | 2019-09-12 | 2022-02-24 | Boe Technology Group Co., Ltd. | Character recognition method and terminal device |
CN114461835A (zh) * | 2022-01-29 | 2022-05-10 | 智慧芽信息科技(苏州)有限公司 | 图片处理方法及装置、计算机可读存储介质和电子设备 |
-
2022
- 2022-05-20 CN CN202210552404.6A patent/CN114898375A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
US20220058422A1 (en) * | 2019-09-12 | 2022-02-24 | Boe Technology Group Co., Ltd. | Character recognition method and terminal device |
CN111353491A (zh) * | 2020-03-12 | 2020-06-30 | 中国建设银行股份有限公司 | 一种文字方向确定方法、装置、设备及存储介质 |
CN111860506A (zh) * | 2020-07-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
CN112541491A (zh) * | 2020-12-07 | 2021-03-23 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN113205095A (zh) * | 2021-04-13 | 2021-08-03 | 北京三快在线科技有限公司 | 一种训练模型以及字符检测的方法及装置 |
CN113705673A (zh) * | 2021-08-27 | 2021-11-26 | 四川医枢科技有限责任公司 | 一种文字检测方法、装置、设备及存储介质 |
CN114461835A (zh) * | 2022-01-29 | 2022-05-10 | 智慧芽信息科技(苏州)有限公司 | 图片处理方法及装置、计算机可读存储介质和电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497106A (zh) * | 2022-11-14 | 2022-12-20 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
CN115497106B (zh) * | 2022-11-14 | 2023-01-24 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723807B (zh) | 使用端到端深度学习识别机打字符和手写字符 | |
Bušta et al. | E2e-mlt-an unconstrained end-to-end method for multi-language scene text | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
US20160283814A1 (en) | Method and apparatus for generating text line classifier | |
US10643094B2 (en) | Method for line and word segmentation for handwritten text images | |
CN110766008A (zh) | 一种面向任意方向和形状的文本检测方法 | |
CN109343920B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN112183296B (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN110866529A (zh) | 字符识别方法、装置、电子设备及存储介质 | |
CN112966685B (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
CN114898375A (zh) | 字符检测模型训练方法及组件,文本识别方法及组件 | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN113762257A (zh) | 一种美妆品牌图像中标志的识别方法及装置 | |
CN113887375A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
US20230036812A1 (en) | Text Line Detection | |
Nazemi et al. | Practical segmentation methods for logical and geometric layout analysis to improve scanned PDF accessibility to Vision Impaired | |
CN112785601B (zh) | 一种图像分割方法、系统、介质及电子终端 | |
CN116324910A (zh) | 用于执行设备上图像到文本转换的方法和系统 | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN113920510A (zh) | 文档转换方法、装置、计算机设备和计算机可读存储介质 | |
CN113221536A (zh) | 一种基于自然语言分析文件中相似段落的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |