CN112101354A - 文本识别模型训练方法、文本定位方法及相关装置 - Google Patents

文本识别模型训练方法、文本定位方法及相关装置 Download PDF

Info

Publication number
CN112101354A
CN112101354A CN202011011683.2A CN202011011683A CN112101354A CN 112101354 A CN112101354 A CN 112101354A CN 202011011683 A CN202011011683 A CN 202011011683A CN 112101354 A CN112101354 A CN 112101354A
Authority
CN
China
Prior art keywords
text
training
image
target
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011683.2A
Other languages
English (en)
Inventor
华路延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202011011683.2A priority Critical patent/CN112101354A/zh
Publication of CN112101354A publication Critical patent/CN112101354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种文本识别模型训练方法、文本定位方法及相关装置,该文本识别模型训练方法包括:获取预设数量的训练样本图像;每张样本图像具有文本信息;将训练样本图像输入识别网络进行训练;当训练的步长达到目标训练步长时,则将识别网络作为文本识别模型;目标训练步长用于指示识别网络即将处于收敛状态。本发明将带有任意文本信息的训练样本输入到识别网络中训练到目标训练步长后,得到文本识别模型,通过控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的文本识别模型学习到的是字体笔画类型的纹理结构,能够识别出没有经过训练的字体格式,提高了模型的泛化能力,能够准确识别字体,进而提高了字体定位效率。

Description

文本识别模型训练方法、文本定位方法及相关装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种文本识别模型训练方法、文本定位方法及相关装置。
背景技术
网络上电影、短视频越来越丰富,观看视频已经成为人们娱乐、获取知识的主要窗口之一。为了方便用户理解视频内容,视频画面上还可以显示字幕信息。在观看或者使用一些视频时,部分用户出于不同的原因并不需要在视频中看到字幕,部分用户可能需要提取字幕信息另做他用。因此,针对这部分群体就有遮挡或者去除字幕的需要。
在现有技术中,要想提取或者遮挡视频中的字幕,首先需要先定位到字幕在图像中的位置。目前的文本识别模型泛化能力低,仅仅能够识别现存的几千种文本格式,对于那些没有遍历到的字体型反而无法准确识别,降低了文本定位效率。
发明内容
有鉴于此,本发明提供一种文本识别模型训练方法、文本定位方法及相关装置,用以识别各种形式的文本,提供文本识别的准确度,进而降低文本定位效率。本发明技术方案如下:
第一方面,本发明提供一种文本识别模型训练方法,所述方法包括:获取预设数量的训练样本图像;每张所述样本图像具有文本信息;将所述训练样本图像输入识别网络进行训练;当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
可选地,所述方法还包括:当所述训练的步长达到目标训练步长时,通过所述识别网络输出的识别结果具有模糊属性。
可选地,所述获取预设数量的训练样本图像的步骤,包括:获取预设数量的无文本图像;对所述无文本图像添加所述文本信息,以获得所述训练样本图像。
可选地,所述文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容;所述对所述无文本图像添加所述文本信息,以获得所述训练样本图像,包括:将所述文本信息以任意排版角度添加至所述无文本图像的任意位置,生成所述训练样本图像。
第二方面,本发明提供一种文本定位方法,所述方法包括:获取待处理图像;将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;根据所述目标图像定位所述待处理图像中的文本区域。
可选地,所述根据所述目标图像定位所述待处理图像中的文本区域,包括:根据目标区域获取待处理图像的差异区域;所述差异区域表征所述待处理图像中的文本区域和所述目标图像中的具有模糊属性的区域之间的差异;基于所述差异区域定位所述待处理图像中的文本区域。
可选地,在根据所述目标图像定位所述待处理图像中的文本区域之后,所述方法还包括:获取所述待处理图像的二值图;根据所述文本区域对所述二值图进行膨胀处理。
第三方面,本发明提供一种文本识别模型的训练装置,包括:获取模块,用于获取预设数量的训练样本图像;每张所述样本图像具有文本信息;训练模块,用于将所述训练样本图像输入识别网络进行训练;确定模块,用于当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
第四方面,本发明提供一种文本定位装置,包括:获取模块,用于获取待处理图像;识别模块,用于将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;定位模块,用于根据所述目标图像定位所述待处理图像中的文本区域。
第五方面,本发明提供一种电子设备,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现第二方面所述的文本定位方法或者实现第一方面所述的文本识别模型训练方法。
第六方面,本发明提供一种存储介质,所述存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现第二方面所述的文本定位方法或者实现第一方面所述的文本识别模型训练方法。
本发明提供的一种文本识别模型训练方法、文本定位方法及相关装置,该文本识别模型训练方法包括:获取预设数量的训练样本图像;每张所述样本图像具有文本信息;将所述训练样本图像输入识别网络进行训练;当所述训练的步长达到目标训练步长时,则将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。本发明将带有任意文本信息的训练样本输入到识别网络中训练到目标训练步长后,得到文本识别模型,通过控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的文本识别模型学习到的是字体笔画类型的纹理结构,能够识别出没有经过训练的字体格式,提高了模型的泛化能力,能够准确识别字体,进而提高了字体定位效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种文本识别模型的训练方法;
图2为本发明实施例提供的一种训练样本图像示例图;
图3为一种Unet模型结构示意图;
图4为本发明实施例提供的一种步骤S101的实现方式的示意性流程图;
图5为本发明实施例提供的一种步骤S102-1的实现方式的示意性流程图;
图6为本发明实施例提供的一种获得训练样本图像的示意图;
图7为本发明实施例提供的一种文本定位方法的示意性流程图;
图8为本发明实施例提供的一种场景示意图;
图9为本发明实施例提供的一种步骤S703的实现方式的示意性流程图;
图10为本发明实施例提供的另一种文本定位方法的示意性流程图;
图11为本发明实施例提供的一种包含文本区域的二值图;
图12为本发明实施例提供的一种文本识别模型训练装置的功能模块图;
图13为本发明实施例提供的一种文本定位装置的功能模块图;
图14为本发明实施例提电子设备结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
本发明实施例中涉及的名词和术语适用于如下的解释。
膨胀(Dilate):添加对象边界某些像素,具有扩大图像作用;膨胀算法使用一个nXn结构元素去扫描图像中的每一个像素。用nXn结构元素与nXn结构元素覆盖的二值图像做“与”操作,如果都为0,图像的该像素为0,否则为1。膨胀之后,图像边界向外扩大。
目前,视频中的文本呈现多样性,不同语种的字符形式不一样,例如动漫日文,不同国家的文字等,即使对同一语种来说,也存在形状多样的字符;同时,视频中的文本颜色可以是各种各样的,容易与视频背景颜色混淆,因此,现有的文本定位方法受上述各种形态特征的影响,容易因为难以识别出文本信息而导致定位效率低的问题。
相关技术采用训练好的文本识别模型来字幕识别,虽然能够识别定位出字幕的位置,但发明人在研究中发现,目前的文本识别模型训练方法最终获得的文本识别模型容易出现过拟合的现象,泛化能力低,也就是说,现有的文本识别模型仅仅能够识别现存的几千种文本格式,对于那些没有遍历到的字体结构(例如不同人的手写字体),现有的文本识别模型反而无法识别,基于此,需要一种新颖的文本识别模型训练方法,其用于在训练过程中学习识别字体笔画类型的纹理结构,训练得到的文本识别模型不仅能够识别现存的字体,还能完成对没有进行过训练的字体的识别。
因此,发明人经过一系列研究提出了本申请的技术方案,在本发明实施例中,进行文本识别模型训练时,对于目标训练文本,本发明能够遍历的字体格式以及其他形态特征(包括字体颜色、尺寸、角度等)作为目标训练文本,但在训练的过程中,控制模型的训练步长,在模型收敛前停止模型训练过程,此时模型学习到的是字体笔画类型的纹理结构,提高了模型的泛化能力,可以准确识别字体,提高字体定位效率。
下面结合图2至图5来描述根据本发明实施例的图像处理模型的训练方法及示例训练过程。
首先参见图1,图1为本发明实施例提供的一种文本识别模型的训练方法,该文本识别模型的训练方法可以由服务器、终端等电子设备执行,相应的,文本识别模型训练装置可以设置于电子设备中。该文本识别模型训练方法可以包括以下过程:
S101、获取预设数量的训练样本图像。
在本发明实施例中,上述的每张训练样本图像中均具有文本信息,该文本信息可以包括如下一种或组合:语种、文本格式、颜色格式、大小、文本内容。
可以理解的是,文本格式可以为现存能够遍历的文本格式,例如,宋体、微软雅黑等,包含26个英文字母格式,颜色格式取常用的颜色组合共24种,文字大小不限,可以是任意文本内容,如此一来,多种组合的文本信息能够扩充数据集,能够保证网络具有不变性和鲁棒性,保证训练得到的文本识别模型能够准确识别任意形式的文本。
在一种实现方式中,上述的训练样本图像可以参见图2,图2为本发明实施例提供的一种训练样本图像示例图,从图2中可以看出,该张训练样本图像中的文本信息。其中,各个文本可以以任意排版角度出现在图像中的任意位置,这样有利于扩充数据集,且为模型提供更多可能存在的训练图像。
S102、将训练样本图像输入识别网络进行训练。
在实际的实施过程中,上述的识别网络可以是全卷积网络FCN(FullyConvolutionalNetwork,FCN)、U型网络Unet(Unitynet,Unet)等具有特征分割功能的网络模型,本发明实施例采用的是Unet模型,本发明实施例构建的识别网络为5*5的Unet网络,基于5层网络结构并结合本发明实施例的训练方法可以得到具有上述功能的文本识别模型,Unet模型的结构示意图可以参见图3,图3为一种Unet模型结构示意图。
如图3所示,其中每个灰框对应一个多通道特征图(map),其中通道数在框顶标,白色框表示复制的特征图;箭头表示不同的操作。U-net网络由一个收缩路径(左边)和一个扩张路径(右边)组成。其中,收缩路径遵循典型的卷积网络结构,其由两个重复的3*3卷积核(无填充卷积,unpaddedconvolution)组成,且均使用修正线性单元(rectifiedlinearunit,ReLU)激活函数和一个用于下采样(downsample)的步长为2的2*2最大池化操作,以及在每一个下采样的步骤中,特征通道数量都加倍。在扩张路径中,每一步都包含对特征图进行上采样(upsample);然后用2*2的卷积核进行卷积运算(上卷积,up-convolution),用于减少一半的特征通道数量;接着级联收缩路径中相应的裁剪后的特征图;再用两个3*3的卷积核进行卷积运算,且均使用ReLU激活函数。由于在每次卷积操作中,边界像素存在缺失问题,因此有必要对特征图进行裁剪。在最后一层,利用1*1的卷积核进行卷积运算,将每个64维的特征向量映射网络的输出层。总而言之,该网络有23个卷积层。
S103、当训练的步长达到目标训练步长,将识别网络作为文本识别模型。
在本发明实施例中,发明人经过研究发现,相关技术通过无限的训练步长训练识别网络,直到模型处于稳定的收敛状态,此时获得的文本识别模型已经处于过拟合状态,泛化能力低,仅仅能识别现存的经过训练的文本格式,但在实际的实施过程中,仍然存在一些模型没有遍历到的文本格式,因此,为了能够识别这部分文本格式,发明人发现可以控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的模型学习到的是字体笔画类型的纹理结构。
可以理解的是,上述的目标训练步长可以用于指示识别网络即将处于收敛状态,发明人经过研究发现本发明实施例中的目标训练步长可以为5-10步,此时获得的文本识别模型可以识别到任意形式的文本格式。
需要说明的是,本发明实施例提供一种文本识别模型训练方法,该文本识别模型训练方法的执行主体可以是本发明实施例提供的文本识别模型训练装置,或者集成了该文本识别模型训练装置的电子设备,其中文本识别模型训练装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
本发明实施例的文本识别模型训练方法,将带有任意文本信息的训练样本输入到识别网络中训练到目标训练步长,通过控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的文本识别模型学习到的是字体笔画类型的纹理结构,对于没有进行训练的字体格式也能识别,提高了模型的泛化能力,准确识别字体,提高字体定位效率。
在一个实施例中,上述的识别网络在训练步长达到目标训练步长后,通过识别网络输出的结果具有模糊属性。
可以理解的是,在训练步长达到目标训练步长之前,识别网络具有学习字体的笔画纹理的能力,且需要注意的是,此时模型还不处于收敛状态,即模型的损失函数的损失值还未达到稳定状态,那么模型的识别结果可以理解为是训练样本图像中各种字体的笔画结构的识别结果,由于模型尚未训练成熟,模型具有识别字体笔画结构的能力,但不是针对特定字体的笔画结构,此时可以通过识别结果具有模糊属性来表征有识别字体笔画结构的能力的文本识别模型。
在一个实施例中,在模型训练之前,为了获得的预设数量的训练样本图像,下面在图1的基础上,给出一种可能的实现方式,参见图4,图4为本发明实施例提供的一种步骤S101的实现方式的示意性流程图,其中,步骤S101可以包括以下几个步骤:
S101-1、获取预设数量的无文本图像。
在本发明实施例中,由于相关技术在进行文本定位的过程中,难以识别一些特定场景下文本形式,例如动漫日文等不同国家的文本形式,导致定位效率低,发明人为了克服这一困难,在获得无文本图像的过程,选取日文动漫、电视剧等视频文件中的视频图像,并批量裁剪出该类视频没有字幕的图像作为无文本图像。
S101-2、对无文本图像添加文本信息,以获得训练样本图像。
在本发明实施例中,上述的文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容,多种文本形式的组合可以扩大训练的数据集,使识别网络能够遍历所有的可能性,同时扩大的数据集能够保证网络的鲁棒性,提高文本识别模型识别字体的准确度。
在一种实现方式中,为了克服字体排版角度对字体定位带来的困难,在为无文本图像添加文本信息时,下面在图4的基础上,给出一种可能的实现方式,参见图5,图5为本发明实施例提供的一种步骤S102-1的实现方式的示意性流程图,即步骤101-2的一种可能的实现方式为:
101-2a、将文本信息以任意排版角度添加至无文本图像的任意位置,生成训练样本图像。
可以理解的上,以上述方式生成训练样本图像,可以使得各种排版角度的字体均能得到训练,最终获得能够识别任意角度文本的模型,克服可字体排版角度对字体定位带来的困难,能够提高定位的准确率。
为了方便理解上述获得训练样本图像的过程,请参见图6,图6为本发明实施例提供的一种获得训练样本图像的示意图。
如图6所示,图6(a)可以是从动漫,电视剧等视频文件中批量裁剪出该类视频没有字幕的图像,为了扩充数据集,可以对左图进行任意尺寸大小的裁剪,获得大量的图6(b),然后随机生成任意字体内容,任意大小,任意颜色,任意字体格式的文本,以任意排版角度添加到图6(b)的图像中,从而可以获得大量的训练样本图像,即图6(c)。
通过上述方式获得大量训练样本图像之后,即可开始进行文本识别模型的训练流程了,获得上述文本识别模型之后,可以基于该模型的识别结果,迅速定位图像中的文本区域。
下面将基于上述获得的文本识别模型,给出一种文本定位的方法,请参见图7,图7为本发明实施例提供的一种文本定位方法的示意性流程图,包括:
S701、获取待处理图像。
可以理解的是,上述的待处理图像中可以包含文本信息。该文本信息中的字体格式并不需要是现存的字体格式。
S702、将待处理图像输入文本识别模型中,输出目标图像。
可以理解的是,上述的文本识别模型是预先通过上述文本识别模型训练方法得到模型,可以预见的是,模型输出的目标图像中存在具有模糊属性的区域,若待处理图像中存在文本,那么该具有模糊属性的区域即为该文本在目标图像中的位置,那么目标图像中识别出来的文本所在区域与待处理图像中的文本所在区域存在差异,那么基于这种差异即可定位出待处理图像中的文本区域。
S703、根据目标图像定位待处理图像中的文本区域。
为了方便理解,请参见图8,图8为本发明实施例提供的一种场景示意图,其中,图8(a)为待处理图像,图8(b)为通过文本识别模型输出的目标图像,对比两张图像可以看出,待处理图像中存在文本“哦她笑了难道”,通过文本识别模型识别之后输出的图像中也存在文本“哦她笑了难道”,但该文本的字体轮廓具有模糊属性,将待处理图像和目标图像进行对比即可定位出文本“哦她笑了难道”所在位置。
本发明实施例提供的一种文本定位方法,通过见获取待处理图像输入到文本识别模型中,得到目标图像,该文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;该目标训练步长用于指示识别网络即将处于收敛状态,最后目标图像定位待处理图像中的文本区域,本发明实施例首先通过预先训练好的文本识别模型识别待处理图像中的文本信息,可以看出,识别出来的结果与待处理图像中的文本信息存在差异,即目标图像中的文本所在的区域具有模糊属性,那么基于这种差异即可迅速定位出待处理图像中的文本,文本识别模型保证了识别待处理图像中文本的准确度,基于准确识别的文本位置即可定位待处理图像的文本位置,提高了定位效率。
可选地,从上述图8可以看出,文本识别模型输出的识别结果中,识别出来的文本所在的区域具有模糊属性,而待处理图像中文本所在区域不具有此类模糊属性,那么基于此,下面在图7的基础上,给出一种定位待处理图像中文本的实现方式,参见图9,图9为本发明实施例提供的一种步骤S703的实现方式的示意性流程图,包括:
S703-1、根据目标图像获取待处理图像的差异区域。
S703-2、基于差异区域定位待处理图像中的文本区域。
可以理解的是,上述的差异区域表征待处理图像中的文本所在的区域和目标图像中具有模糊属性的区域之间的差异,在一种实现方式下,可以通过获取待处理图像和目标图像的差值图像,该差值图像中包含该差异区域。
可选地,为了能够在待处理图像中清晰的显示定位出来的文本区域,下面在图7的基础上,给出一种可能的实现方式,参见图10,图10为本发明实施例提供的另一种文本定位方法的示意性流程图,即在定位出文本所在区域之后,还可以执行以下步骤:
S704、获取待处理图像的二值图。
S705、根据文本区域对二值图进行膨胀处理。
在本发明实施例中,通过上述方式获得处理后的待处理图像可以参见图11,图11为本发明实施例提供的一种包含文本区域的二值图,其中,白色区域为文本所在区域。
需要说明的是,本发明实施例提供一种文本定位方法,该文本定位的方法的执行主体可以是本发明实施例提供的文本定位方法装置,或者集成了该文本定位装置的电子设备,其中该文本定位装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
为了实现上述文本识别模型训练方法的实施例中的各个步骤,以达到对应的技术效果,下面给出一种文本识别模型训练装置的实现方式,参见图12,图12为本发明实施例提供的一种文本识别模型训练装置的功能模块图,其中,该文本识别模型训练装置12包括:获取模块121、训练模块122和确定模块123。
获取模块121,用于获取预设数量的训练样本图像;每张样本图像具有文本信息;
训练模块122,用于将训练样本图像输入识别网络进行训练。
确定模块123,用于当训练的步长达到目标训练步长,将识别网络作为文本识别模型;目标训练步长用于指示识别网络即将处于收敛状态。
可以理解的是,获取模块121、训练模块122和确定模块123可以用来执行图1、图4、图5中的各个步骤以实现相应的技术效果。
为了实现上述文本定位方法的实施例中的各个步骤,以达到对应的技术效果,本发明实施例还提供了一种文本定位装置,参见图13,图13为本发明实施例提供的一种文本定位装置的功能模块图,其中,文本定位装置13包括:获取模块131、识别模块132和定位模块133。
获取模块131,用于获取待处理图像。
识别模块132,用于将待处理图像输入文本识别模型中,输出目标图像;目标图像中存在具有模糊属性的区域;文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;目标训练步长用于指示识别网络即将处于收敛状态。
定位模块133,用于根据所述目标图像定位所述待处理图像中的文本区域。
可以理解的是,获取模块111、训练模块113和确定模块113可以用来执行图7、9、10中的各个步骤以实现相应的技术效果。
本发明实施例还提供一种电子设备,如图14,图14为本发明实施例提电子设备结构框图。该电子设备14包括通信接口141、处理器142和存储器143。该处理器142、存储器143和通信接口141相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器143可用于存储软件程序及模块,如本发明实施例所提供的文本定位方法或者文本识别模型训练方法对应的程序指令/模块,处理器142通过执行存储在存储器143内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口141可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备14可以具有多个通信接口141。
其中,存储器143可以是但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。
处理器142可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
可以理解的是,上述的文本定位装置13和文本识别模型训练装置12的各个模块可以软件或固件(Firmware)的形式存储于电子设备14的存储器143中,并由处理器142执行,同时,执行上述模块所需的数据、程序的代码等可以存储在存储器143中。
本发明实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的文本定位方法或者文本识别模型训练方法。该计算机可读存储介质可以是,但不限于,U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,各种熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种文本识别模型训练方法,其特征在于,所述方法包括:
获取预设数量的训练样本图像;每张所述样本图像具有文本信息;
将所述训练样本图像输入识别网络进行训练;
当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,还包括:
当所述训练的步长达到目标训练步长时,通过所述识别网络输出的识别结果具有模糊属性。
3.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述获取预设数量的训练样本图像,包括:
获取预设数量的无文本图像;
对所述无文本图像添加所述文本信息,以获得所述训练样本图像。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容;所述对所述无文本图像添加所述文本信息,以获得所述训练样本图像,包括:
将所述文本信息以任意排版角度添加至所述无文本图像的任意位置,生成所述训练样本图像。
5.一种文本定位方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;
根据所述目标图像定位所述待处理图像中的文本区域。
6.根据权利要求5所述的文本定位方法,其特征在于,所述根据所述目标图像定位所述待处理图像中的文本区域,包括:
根据目标区域获取待处理图像的差异区域;所述差异区域表征所述待处理图像中的文本区域和所述目标图像中的具有模糊属性的区域之间的差异;
基于所述差异区域定位所述待处理图像中的文本区域。
7.根据权利要求5所述的文本定位方法,其特征在于,在所述根据所述目标图像定位所述待处理图像中的文本区域之后,所述方法还包括:
获取所述待处理图像的二值图;
根据所述文本区域对所述二值图进行膨胀处理。
8.一种文本识别模型训练装置,其特征在于,包括:
获取模块,用于获取预设数量的训练样本图像;每张所述样本图像具有文本信息;
训练模块,用于将所述训练样本图像输入识别网络进行训练;
确定模块,用于当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
9.一种文本定位装置,其特征在于,包括:
获取模块,用于获取待处理图像;
识别模块,用于将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;
定位模块,用于根据所述目标图像定位所述待处理图像中的文本区域。
10.一种电子设备,其特征在于,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现权利要求1-4中任意一项所述的文本识别模型训练方法或者实现权利要求5-7中任意一项所述的文本定位方法。
11.一种存储介质,其特征在于,所述存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现权利要求1-4中任意一项所述的文本识别模型训练方法或者实现权利要求5-7中任意一项所述的文本定位方法。
CN202011011683.2A 2020-09-23 2020-09-23 文本识别模型训练方法、文本定位方法及相关装置 Pending CN112101354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011683.2A CN112101354A (zh) 2020-09-23 2020-09-23 文本识别模型训练方法、文本定位方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011683.2A CN112101354A (zh) 2020-09-23 2020-09-23 文本识别模型训练方法、文本定位方法及相关装置

Publications (1)

Publication Number Publication Date
CN112101354A true CN112101354A (zh) 2020-12-18

Family

ID=73755969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011683.2A Pending CN112101354A (zh) 2020-09-23 2020-09-23 文本识别模型训练方法、文本定位方法及相关装置

Country Status (1)

Country Link
CN (1) CN112101354A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191355A (zh) * 2021-05-18 2021-07-30 北京有竹居网络技术有限公司 文本图像合成方法、装置、设备及存储介质
CN113536771A (zh) * 2021-09-17 2021-10-22 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN113822275A (zh) * 2021-09-27 2021-12-21 北京有竹居网络技术有限公司 一种图像语种识别方法及其相关设备
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN115062584A (zh) * 2022-06-28 2022-09-16 杭州数梦工场科技有限公司 文档样式生成方法、装置及电子设备
CN115525743A (zh) * 2022-08-18 2022-12-27 贝壳找房(北京)科技有限公司 基于自学习白化网络的人机交互方法及电子设备
CN117475448A (zh) * 2023-12-27 2024-01-30 苏州镁伽科技有限公司 图像处理模型的训练方法、图像处理方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191355A (zh) * 2021-05-18 2021-07-30 北京有竹居网络技术有限公司 文本图像合成方法、装置、设备及存储介质
CN113536771A (zh) * 2021-09-17 2021-10-22 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN113536771B (zh) * 2021-09-17 2021-12-24 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN113822275A (zh) * 2021-09-27 2021-12-21 北京有竹居网络技术有限公司 一种图像语种识别方法及其相关设备
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114065868B (zh) * 2021-11-24 2022-09-02 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN115062584A (zh) * 2022-06-28 2022-09-16 杭州数梦工场科技有限公司 文档样式生成方法、装置及电子设备
CN115525743A (zh) * 2022-08-18 2022-12-27 贝壳找房(北京)科技有限公司 基于自学习白化网络的人机交互方法及电子设备
CN115525743B (zh) * 2022-08-18 2023-11-14 贝壳找房(北京)科技有限公司 基于自学习白化网络的人机交互方法及电子设备
CN117475448A (zh) * 2023-12-27 2024-01-30 苏州镁伽科技有限公司 图像处理模型的训练方法、图像处理方法及装置
CN117475448B (zh) * 2023-12-27 2024-04-16 苏州镁伽科技有限公司 图像处理模型的训练方法、图像处理方法及装置

Similar Documents

Publication Publication Date Title
CN112101354A (zh) 文本识别模型训练方法、文本定位方法及相关装置
CN107016387B (zh) 一种识别标签的方法及装置
CN108073910B (zh) 用于生成人脸特征的方法和装置
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
US20220019834A1 (en) Automatically predicting text in images
CN113762309B (zh) 对象匹配方法、装置及设备
KR20200020305A (ko) 문자 인식을 위한 방법 및 장치
WO2015021857A1 (en) Method and apparatus for data processing
WO2021179751A1 (zh) 图像处理方法和系统
CN113221718A (zh) 公式识别方法、装置、存储介质和电子设备
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和系统
CN112183294A (zh) 文本消除方法、装置、电子设备及存储介质
CN112380978A (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN111695323A (zh) 信息处理方法、装置及电子设备
CN111259764A (zh) 文本检测方法、装置、电子设备及存储装置
Yang et al. Caption detection and text recognition in news video
US20220309610A1 (en) Image processing method and apparatus, smart microscope, readable storage medium and device
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
CN114494678A (zh) 文字识别方法和电子设备
CN113780370A (zh) 视觉问答方法、装置、设备及存储介质
CN115004261A (zh) 文本行检测
CN116259050B (zh) 灌装桶标签文字定位识别方法、装置、设备及检测方法
JP3817442B2 (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体
CN116386049A (zh) 公式识别方法、装置、设备及存储介质
CN117727037A (zh) 一种文本识别方法、装置、计算机设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination