CN113033544B - 一种用于模型训练的图像获取方法、装置、设备及介质 - Google Patents

一种用于模型训练的图像获取方法、装置、设备及介质 Download PDF

Info

Publication number
CN113033544B
CN113033544B CN202110588260.5A CN202110588260A CN113033544B CN 113033544 B CN113033544 B CN 113033544B CN 202110588260 A CN202110588260 A CN 202110588260A CN 113033544 B CN113033544 B CN 113033544B
Authority
CN
China
Prior art keywords
image
sample image
model
encoder
original sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110588260.5A
Other languages
English (en)
Other versions
CN113033544A (zh
Inventor
李盼盼
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110588260.5A priority Critical patent/CN113033544B/zh
Publication of CN113033544A publication Critical patent/CN113033544A/zh
Application granted granted Critical
Publication of CN113033544B publication Critical patent/CN113033544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种用于模型训练的图像获取方法、装置、设备及介质,包括:获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;通过目标生成模型对第一标记样本图像、第一原始样本图像和第一二值化图像进行编码和解码,生成第一解码图像;通过待训练的文本检测模型检测第一解码图像中的文本框,并在比较第一解码图像中检测的文本框,与第一标记样本图像中标注的文本框之间未达到预设匹配度的情况下,将第一原始样本图像和第二原始样本图像加入至图像训练集。本公开能够在花费较小人工成本的情况下获取大量具有多样性的训练图像。

Description

一种用于模型训练的图像获取方法、装置、设备及介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种用于模型训练的图像获取方法、装置、设备及介质。
背景技术
文本检测在计算机视觉任务中应用广泛。目前,在文本检测的实际应用中,如果想要取得较好的检测效果,都需要人工标注大量的有差异性的训练数据,对文本检测模型进行有监督训练,但是这会极大增加人工成本。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种用于模型训练的图像获取方法、装置、设备及介质。
本公开提供了一种用于模型训练的图像获取方法,包括:
获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;其中,所述第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;
获取预先训练好的目标生成模型;其中,所述目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器;
通过所述目标生成模型对所述第一标记样本图像、所述第一原始样本图像和所述第一二值化图像进行编码和解码,生成第一解码图像;
通过待训练的文本检测模型检测所述第一解码图像中的文本框,并比较所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度;
如果未达到所述预设匹配度,将当前第一编码图像以及所述当前第一编码图像对应的所述第一原始样本图像和所述第二原始样本图像加入至图像训练集;其中,所述图像训练集中的图像用于对所述待训练的文本检测模型进行训练。
可选的,所述获取预先训练好的目标生成模型,包括:
获取参数调整后的初始生成模型;其中,所述初始生成模型与所述目标生成模型的结构相同;
获取第二标记样本图像、第三原始样本图像和第二二值化图像;
通过所述初始生成模型对所述第二标记样本图像、第三原始样本图像和第二二值化图像进行编码和解码,生成第二解码图像;
将所述第二解码图像输入至预先构建的第一模型;所述第一模型包括:第四编码器和第二解码器;
通过所述第一模型对所述第二解码图像进行编码和解码,得到第三解码图像;
基于所述第二解码图像和所述第三解码图像,对所述初始生成模型和所述第一模型进行联合训练,直至结束训练,将结束训练时的初始生成模型确定为所述目标生成模型。
可选的,所述获取参数调整后的初始生成模型,包括:
获取同一图像对应的第三标记样本图像、第四原始样本图像和第三二值化图像;
通过待参数调整的初始生成模型对所述第三标记样本图像、第四原始样本图像和第三二值化图像进行编码和解码,生成第四解码图像;
基于所述第四解码图像,并采用L1损失函数和感受野损失函数对所述待参数调整的初始生成模型进行参数调整,直至损失函数值收敛至预设值时结束训练,得到参数调整后的初始生成模型。
可选的,所述方法还包括:
获取预先构建的第二模型;其中,所述第二模型包括所述第一编码器和所述第一解码器;
基于所述第一原始样本图像,并采用L1损失函数和感受野损失函数对所述第二模型进行参数调整,直至损失函数值收敛至预设值时结束训练;
在所述第二模型结束训练后,在所述第一编码器和所述第一解码器之间增设所述第二编码器和所述第三编码器,以构建所述待参数调整的初始生成模型。
可选的,所述通过所述初始生成模型对所述第二标记样本图像、第三原始样本图像和第二二值化图像进行编码和解码,生成第二解码图像,包括:
将所述第二标记样本图像输入至所述第一编码器,通过所述第一编码器对所述第二标记样本图像进行编码,并输出表示文本框的第一检测参数;
将所述第三原始样本图像输入至所述第二编码器,通过所述第二编码器对所述第三原始样本图像的背景风格进行编码,并输出表示背景风格的第二检测参数;
将所述第二二值化图像输入至所述第三编码器,通过所述第三编码器对所述第二二值化图像的笔迹风格进行编码,并输出表示笔迹风格的第三检测参数;
将所述第一检测参数、第二检测参数和第三检测参数按通道相加之后的第一融合参数输入至所述第一解码器,通过所述第一解码器对所述第一融合参数进行解码,得到第二解码图像。
可选的,所述通过所述第一模型对所述第二解码图像进行编码和解码,得到第三解码图像,包括:
将所述第二解码图像输入至所述第四编码器,通过所述第四编码器对所述第二解码图像进行编码,并输出表示文本框的第四检测参数;
将所述第四检测参数按通道减去所述第二检测参数和所述第三检测参数之后的第二融合参数作为所述第二解码器的输入,通过所述第二解码器根据所述第二融合参数对所述第二解码图像进行解码,得到第三解码图像。
可选的,所述对所述初始生成模型和所述第一模型进行联合训练,包括:
采用L1损失函数和感受野损失函数对所述初始生成模型和所述第一模型进行联合训练。
可选的,所述第一原始样本图像和所述第二原始样本图像相同或不同。
可选的,所述方法还包括:
如果所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度达到预设匹配度,则舍弃所述第一原始样本图像和所述第二原始样本图像。
本公开实施例还提供了一种用于模型训练的图像获取装置,包括:
图像获取模块,用于获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;其中,所述第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;
模型获取模块,用于获取预先训练好的目标生成模型;其中,所述目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器;
图像处理模块,用于通过所述目标生成模型对所述第一标记样本图像、所述第一原始样本图像和所述第一二值化图像进行编码和解码,生成第一解码图像;
文本框检测模块,用于通过待训练的文本检测模型检测所述第一解码图像中的文本框,并比较所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度;
图像加入模块,用于在未达到所述预设匹配度的情况下,将当前第一编码图像以及所述当前第一编码图像对应的所述第一原始样本图像和所述第二原始样本图像加入至图像训练集;其中,所述图像训练集中的图像用于对所述待训练的文本检测模型进行训练。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的用于模型训练的图像获取方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的用于模型训练的图像获取方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的用于模型训练的图像获取方法、装置、设备及介质,通过目标生成模型对第一标记样本图像、第一原始样本图像和所述第一二值化图像进行编码和解码,生成第一解码图像;而后,通过第一解码图像和第一标记样本图像中文本框之间匹配度的比较,将未达到预设匹配度的当前第一编码图像及其对应的第一原始样本图像和第二样本图像加入至图像训练集。在上述方案中,目标生成模型能够快速生成大量第一编码器图像,利用文本框之间的匹配度选取出文本位置发生较大变化的当前第一解码图像以及对于的第一原始样本图像、第二原始样本图像,选取出的上述图像在文本位置上具有差异性;同时,目标生成模型具有的多个编码器,还能够使第一编码器图像发生背景风格和笔迹风格的变化,进一步增加了上述图像之间的差异性;进而,将上述图像加入图像训练集丰富了训练数据的多样性,且选取上述图像的过程能够降低标注训练数据的人工成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述用于模型训练的图像获取方法流程图;
图2为本公开实施例所述目标生成模型的结构框图;
图3为本公开实施例所述第一模型的结构框图;
图4为本公开实施例所述用于模型训练的图像获取装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的用于模型训练的图像获取方法流程图,该方法包括如下步骤:
步骤S102,获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像。其中,第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;且第一标记样本图像的数量少于第一原始样本图像的数量;包含密集文本的图像是指:图像中包含文本的区域在图像上所占的比例高于预设比例值,如达到80%。
本实施例可以首先采集多张包含有密集文本的原始图像;比如,对包含有大量文字内容的书本进行拍摄,得到原始图像。然后基于多张原始图像获取部分标记有文本框的第一标记样本图像。由于本实施例所需第一标记样本图像的数量不多,从而可以采用人工标记的方式,在部分原始图像上标记文本框,该文本框是用于检测图像上文本区域的包围框,标记有文本框的原始图像作为第一标记样本图像;相应地,未标记文本框的原始图像作为第一原始样本图像或第二原始样本图像,在实际应用中,第一原始样本图像和第二原始样本图像相同或不同。第一二值化图像是对第二原始样本图像进行二值化处理后的图像,第一二值化图像能够清楚地表现文本的笔迹风格。
步骤S104,获取预先训练好的目标生成模型;其中,目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器。
在实际应用中,目标生成模型可以为VAE模型。VAE模型是一种重要的生成模型,用于通过编码器对输入图像进行编码,得到的编码结果可以是某种分布的参数,也可以是输入图像的特征图像;而后将编码结果输入解码器,通过解码器对编码结果进行解码还原;在多数情况下,解码器输出的解码图像与输入图像极为相近。相比于其他的生成模型,VAE模型的训练更稳定、不会出现模型崩溃等情况,而且生成的内容可控、图像处理速度快。
步骤S106,通过目标生成模型对第一标记样本图像、第一原始样本图像和第一二值化图像进行编码和解码,生成第一解码图像。
在本实施例中,将第一标记样本图像输入至目标生成模型的第一编码器进行检测框的编码,将第一原始样本图像输入至第二编码器进行背景风格的编码,将第一二值化图像输入至第三编码器进行笔迹风格的编码;将上述三个编码器的编码结果输入至第一解码器,通过第一解码器根据上述编码结果生成第一原始样本图像对应的第一解码图像。本实施例利用目标生成模型,能够快速生成大量的第一解码图像。此外需要说明的是,由于第一原始样本图像的数量远多于第一标记样本图像的数量,基于此,不同批次输入至目标生成模型的第一标记样本图像和第一原始样本图像,可能是同一第一标记样本图像对应多张不同的第一原始样本图像。
步骤S108,通过待训练的文本检测模型检测第一解码图像中的文本框,并比较第一解码图像中检测的文本框,与第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度。
其中,文本检测模型可以采用CenterNet,CenterNet在密集文本检测上具有较好的效果。将第一解码图像输入至文本检测模型,通过文本检测模型检测第一解码图像中的文本位置,并输出每个文本的文本框。
在本实施例中,比较第一解码图像中检测的文本框,与第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度。如果未达到预设匹配度,表示相比于第一标记样本图像,当前的第一解码图像包含的文本的位置变化较大,相应地可以理解,生成该第一编码图像所采用的第一原始样本图像和第二原始样本图像,同样相对第一标记样本图像的文本位置变化较大;与此同时,第一解码图像是相比于第一原始样本图像进行背景风格变换后的图像,且是相比于第一二值化图像(或第二原始样本图像)进行笔迹风格变换后的图像。在此情况下,第一解码图像在文本位置、背景风格和笔迹风格上,有效增加了数据的丰富多样性,将其作为新的训练数据对文本检测模型的训练是能够产生增益的;从而,可以执行如下步骤S110。
步骤S110,将当前第一解码图像以及当前第一编码图像对应的第一原始样本图像和第二原始样本图像加入至图像训练集。其中,当前第一解码图像也即经比较确定的未达到预设匹配度的第一解码图像;当前第一编码图像及其对应的第一原始样本图像、第二原始样本图像,彼此之间在文本位置、背景风格和笔迹风格上有所不同,有利于对文本检测模型的训练产生增益效果,故将上述图像同时加入至图像训练集,图像训练集中的图像用于对待训练的文本检测模型进行训练。
可以理解,如果第一解码图像中检测的文本框,与第一标记样本图像中标注的文本框之间的匹配度达到预设匹配度,则表示相比于已有的第一标记样本图像,第一解码图像的文本位置变化较小,图像样式单一,对文本检测模型的训练是没有增益的,不适合作为训练数据,从而,执行如下步骤S112。
步骤S112,舍弃第一解码图像。
本公开实施例提供的用于模型训练的图像获取方法,通过目标生成模型对第一标记样本图像、第一原始样本图像和第一二值化图像进行编码和解码,生成第一解码图像;而后,通过第一解码图像和第一标记样本图像中文本框之间匹配度的比较,将未达到预设匹配度的当前第一编码图像及其对应的第一原始样本图像和第二样本图像加入至图像训练集。
在上述方案中,目标生成模型能够快速生成大量第一编码器图像,利用文本框之间的匹配度选取出文本位置发生较大变化的当前第一解码图像以及对于的第一原始样本图像、第二原始样本图像,选取出的上述图像在文本位置上具有差异性;同时,目标生成模型具有的多个编码器,还能够使第一编码器图像发生背景风格和笔迹风格的变化,进一步增加了上述图像之间的差异性;进而,将上述图像加入图像训练集丰富了训练数据的多样性,且选取上述图像的过程能够降低标注训练数据的人工成本。
针对上述步骤S104,本公开实施例提供一种获取目标生成模型的方法,参照如下步骤一至步骤五所示。
步骤一,获取参数调整后的初始生成模型;该初始生成模型与目标生成模型的结构相同,包括:第一编码器、第二编码器、第三编码器和第一解码器。
在一种实施例中,可以通过如下方式获取参数调整后的初始生成模型。
获取预先构建的第二模型;该第二模型包括第一编码器和第一解码器,第二模型可以为VAE模型。基于第一原始样本图像,并采用L1损失函数和感受野损失函数对第二模型进行参数调整,直至损失函数值收敛至预设值时结束训练。具体的,第二模型的输入为任意一张第一原始样本图像P,第二模型的输出为第一原始样本图像P对应的编码图像P';采用L1损失函数和感受野损失函数计算第一原始样本图像P及其对应的编码图像P'之间的损失函数值,根据计算的损失函数值对第二模型进行训练。
在第二模型结束训练后,可以确定第一编码器和第一解码器的满足要求的参数,基于此,在第一编码器和第一解码器之间增设第二编码器和第三编码器,以得到待参数调整的初始生成模型。
具体的,当第二模型训练结束后,如图2所示,在第一编码器和第一解码器之间增设第二编码器和第三编码器,针对新添加的第二编码器和第三编码器需要进一步调整参数,也即得到待参数调整的初始生成模型。上述第二编码器用于编码背景风格,第三编码器用于编码笔迹风格。
根据上述实施例,本实施例提供一种对待参数调整的初始生成模型进行参数调整的方法,包括:
获取同一图像对应的第三标记样本图像、第四原始样本图像和第三二值化图像。具体的,可以首先获取任意一张第四原始样本图像,然后对第四原始样本图像进行文本框的标记,得到第三标记样本图像;以及对第四原始样本图像进行二值化处理,得到第三二值化图像。
而后,可以将图像内容相同的第三标记样本图像、第四原始样本图像和第三二值化图像输入至待参数调整的初始生成模型,通过待参数调整的初始生成模型对第三标记样本图像、第四原始样本图像和第三二值化图像进行编码和解码,生成第四解码图像。具体的,将第三标记样本图像输入至待参数调整的初始生成模型的第一编码器进行检测框的编码,将第四原始样本图像输入至第二编码器进行背景风格的编码,将第三二值化图像输入至第三编码器进行笔迹风格的编码;将上述三个编码器的编码结果输入至第一解码器,通过第一解码器根据上述编码结果生成第四解码图像。
基于第四解码图像,并采用L1损失函数和感受野损失函数对待参数调整的初始生成模型进行参数调整,直至损失函数值收敛至预设值时结束训练,得到参数调整后的初始生成模型,该参数调整后的初始生成模型可简称为初始生成模型。
步骤二,获取第二标记样本图像、第三原始样本图像和第二二值化图像。
步骤三,通过初始生成模型对第二标记样本图像、第三原始样本图像和第二二值化图像进行编码和解码,生成第二解码图像。
在具体实施例中,如图2所示,将第二标记样本图像输入至第一编码器,通过第一编码器对第二标记样本图像进行编码,并输出表示文本框的第一检测参数S1 1;将第三原始样本图像输入至第二编码器,通过第二编码器对第三原始样本图像的背景风格进行编码,并输出表示背景风格的第二检测参数S1 2;将第二二值化图像输入至第三编码器,通过第三编码器对第二二值化图像的笔迹风格进行编码,并输出表示笔迹风格的第三检测参数S1 3
在训练过程中,第一编码器的参数保持不变,三个编码器的输出特征映射通道数量相同,基于此,可以将第一检测参数、第二检测参数和第三检测参数按通道相加之后的第一融合参数S1 1+S1 2+S1 3输入至第一解码器,通过第一解码器对第一融合参数进行解码,得到第二解码图像。
步骤四,将第二解码图像输入至预先构建的第一模型;通过第一模型对第二解码图像进行编码和解码,得到第三解码图像。如图3所示,第一模型包括:第四编码器和第二解码器,第一模型可以为CycleVAE模型。
具体可通过如下方式得到第三解码图像:将第二解码图像输入至第四编码器,通过第四编码器对第二解码图像进行编码,并输出表示文本框的第四检测参数S1 4;将第四检测参数按通道减去第二检测参数和第三检测参数之后的第二融合参数S1 4-S1 1-S1 2-S1 3作为第二解码器的输入,通过第二解码器根据第二融合参数对第二解码图像进行解码,得到第三解码图像。
步骤五,基于第二解码图像和第三解码图像,对初始生成模型和第一模型进行联合训练,具体可以采用L1损失函数和感受野损失函数对初始生成模型和第一模型进行联合训练;直至结束训练,将结束训练时的初始生成模型确定为目标生成模型。
针对训练好的目标生成模型,其在实际应用过程中生成第一解码图像的方式可参照前述生成第二解码图像的实施例,具体为:将第一标记样本图像输入至第一编码器,通过第一编码器对第一标记样本图像进行编码,并输出表示文本框的第一检测参数S2 1;将第一原始样本图像输入至第二编码器,通过第二编码器用于对第一原始样本图像的背景风格进行编码,并输出表示背景风格的第二检测参数S2 2;将第一二值化图像输入至第三编码器,通过第三编码器对第一二值化图像的笔迹风格进行编码,并输出表示笔迹风格的第三检测参数S2 3;将第一检测参数、第二检测参数和第三检测参数按通道相加之后的融合参数S2 1+S2 2+S2 3作为第一解码器的输入,通过第一解码器根据该融合参数进行解码,得到第一解码图像。
在得到多张第一原始样本图像对应的第一解码图像后,按照上述步骤S108至S112,从多张第一解码图像中确定能够加入图像训练集的训练图像。
此外,本公开实施例还可以提供一种利用训练图像对文本检测模型进行训练的方法,该方法可以包括:
对图像训练集中的训练图像进行文本框的标注;将多张标注文本框的训练图像输入至待训练的文本检测模型。通过待训练的文本检测模型对训练图像进行文本检测,输出训练图像中的文本框;基于待训练的文本检测模型得到的文本框和已标注的文本框对待训练的文本检测模型进行参数优化,直至待训练的文本检测模型得到的文本框和已标注的文本框之间的匹配度达到预设匹配度时,确定训练结束,得到训练后的文本检测模型。
综上,本公开实施例提供的用于模型训练的图像获取方法中,目标生成模型的模型结构为包括三个编码器和一个解码器,该模型生成的内容是可控的,不会出现模式崩溃等情况,还通过第二编码器和第三编码器实现了背景风格、笔迹风格的迁移。利用少量的第一标记样本图像与任意的第一原始样本图像和第一二值化图像相组合,即可方便快捷地生成背景风格、笔迹风格发生变化的大量第一编码图像,且经过文本框之间匹配度的判断,选取出本文位置也发生变化的当前第一编码图像及其对应的第一原始样本图像和第二原始样本图像;从而,加入至图像训练集的上述图像在文本位置、背景风格和笔迹风格上具有较大差异,增加了训练图像的丰富多样性,且通过图像的选取过程有效降低了标注训练图像的人工成本。
如图4所示,本公开实施例还提供一种用于模型训练的图像获取装置,该装置包括:
图像获取模块402,用于获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;其中,第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;
模型获取模块404,用于获取预先训练好的目标生成模型;其中,目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器;
图像处理模块406,用于通过目标生成模型对第一标记样本图像、第一原始样本图像和第一二值化图像进行编码和解码,生成第一解码图像;
文本框检测模块408,用于通过待训练的文本检测模型检测第一解码图像中的文本框,并比较第一解码图像中检测的文本框,与第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度;
图像加入模块410,用于在未达到预设匹配度的情况下,将当前第一编码图像以及当前第一编码图像对应的第一原始样本图像和第二原始样本图像加入至图像训练集;其中,图像训练集中的图像用于对待训练的文本检测模型进行训练。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在一种实施例中,还提供了一种电子设备,所述电子设备包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行上述实施例中的方法。
进一步,本实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。
本公开实施例所提供的一种视频片段的获取方法、装置及设备,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种用于模型训练的图像获取方法,其特征在于,包括:
获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;其中,所述第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;
获取预先训练好的目标生成模型;其中,所述目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器;
通过所述目标生成模型对所述第一标记样本图像、所述第一原始样本图像和所述第一二值化图像进行编码和解码,生成第一解码图像;包括:将所述第一标记样本图像输入至所述目标生成模型的所述第一编码器进行检测框的编码,将所述第一原始样本图像输入至所述第二编码器进行背景风格的编码,将所述第一二值化图像输入至所述第三编码器进行笔迹风格的编码;将上述三个编码器的编码结果输入至所述第一解码器,通过所述第一解码器根据上述编码结果生成所述第一原始样本图像对应的第一解码图像;
通过待训练的文本检测模型检测所述第一解码图像中的文本框,并比较所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度;
如果未达到所述预设匹配度,将当前第一解码图像以及所述当前第一解码图像对应的所述第一原始样本图像和所述第二原始样本图像加入至图像训练集;其中,所述图像训练集中的图像用于对所述待训练的文本检测模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述获取预先训练好的目标生成模型,包括:
获取参数调整后的初始生成模型;其中,所述初始生成模型与所述目标生成模型的结构相同;
获取第二标记样本图像、第三原始样本图像和第二二值化图像;
通过所述初始生成模型对所述第二标记样本图像、第三原始样本图像和第二二值化图像进行编码和解码,生成第二解码图像;
将所述第二解码图像输入至预先构建的第一模型;所述第一模型包括:第四编码器和第二解码器;
通过所述第一模型对所述第二解码图像进行编码和解码,得到第三解码图像;
基于所述第二解码图像和所述第三解码图像,对所述初始生成模型和所述第一模型进行联合训练,直至结束训练,将结束训练时的初始生成模型确定为所述目标生成模型。
3.根据权利要求2所述的方法,其特征在于,所述获取参数调整后的初始生成模型,包括:
获取同一图像对应的第三标记样本图像、第四原始样本图像和第三二值化图像;
通过待参数调整的初始生成模型对所述第三标记样本图像、第四原始样本图像和第三二值化图像进行编码和解码,生成第四解码图像;
基于所述第四解码图像,并采用L1损失函数和感受野损失函数对所述待参数调整的初始生成模型进行参数调整,直至损失函数值收敛至预设值时结束训练,得到参数调整后的初始生成模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取预先构建的第二模型;其中,所述第二模型包括所述第一编码器和所述第一解码器;
基于所述第一原始样本图像,并采用L1损失函数和感受野损失函数对所述第二模型进行参数调整,直至损失函数值收敛至预设值时结束训练;
在所述第二模型结束训练后,在所述第一编码器和所述第一解码器之间增设所述第二编码器和所述第三编码器,以构建所述待参数调整的初始生成模型。
5.根据权利要求2所述的方法,其特征在于,所述通过所述初始生成模型对所述第二标记样本图像、第三原始样本图像和第二二值化图像进行编码和解码,生成第二解码图像,包括:
将所述第二标记样本图像输入至所述第一编码器,通过所述第一编码器对所述第二标记样本图像进行编码,并输出表示文本框的第一检测参数;
将所述第三原始样本图像输入至所述第二编码器,通过所述第二编码器对所述第三原始样本图像的背景风格进行编码,并输出表示背景风格的第二检测参数;
将所述第二二值化图像输入至所述第三编码器,通过所述第三编码器对所述第二二值化图像的笔迹风格进行编码,并输出表示笔迹风格的第三检测参数;
将所述第一检测参数、第二检测参数和第三检测参数按通道相加之后的第一融合参数输入至所述第一解码器,通过所述第一解码器对所述第一融合参数进行解码,得到第二解码图像。
6.根据权利要求5所述的方法,其特征在于,所述通过所述第一模型对所述第二解码图像进行编码和解码,得到第三解码图像,包括:
将所述第二解码图像输入至所述第四编码器,通过所述第四编码器对所述第二解码图像进行编码,并输出表示文本框的第四检测参数;
将所述第四检测参数按通道减去所述第二检测参数和所述第三检测参数之后的第二融合参数作为所述第二解码器的输入,通过所述第二解码器根据所述第二融合参数对所述第二解码图像进行解码,得到第三解码图像。
7.根据权利要求2所述的方法,其特征在于,所述对所述初始生成模型和所述第一模型进行联合训练,包括:
采用L1损失函数和感受野损失函数对所述初始生成模型和所述第一模型进行联合训练。
8.根据权利要求1所述的方法,其特征在于,所述第一原始样本图像和所述第二原始样本图像相同或不同。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度达到预设匹配度,则舍弃所述第一原始样本图像和所述第二原始样本图像。
10.一种用于模型训练的图像获取装置,其特征在于,包括:
图像获取模块,用于获取标记有文本框的第一标记样本图像、任意未标记文本框的第一原始样本图像以及任意未标记文本框的第二原始样本图像的第一二值化图像;其中,所述第一标记样本图像、第一原始样本图像和第二原始样本图像均为包含密集文本的图像;
模型获取模块,用于获取预先训练好的目标生成模型;其中,所述目标生成模型包括:第一编码器、第二编码器、第三编码器和第一解码器;
图像处理模块,用于通过所述目标生成模型对所述第一标记样本图像、所述第一原始样本图像和所述第一二值化图像进行编码和解码,生成第一解码图像;包括:将所述第一标记样本图像输入至所述目标生成模型的所述第一编码器进行检测框的编码,将所述第一原始样本图像输入至所述第二编码器进行背景风格的编码,将所述第一二值化图像输入至所述第三编码器进行笔迹风格的编码;将上述三个编码器的编码结果输入至所述第一解码器,通过所述第一解码器根据上述编码结果生成所述第一原始样本图像对应的第一解码图像;
文本框检测模块,用于通过待训练的文本检测模型检测所述第一解码图像中的文本框,并比较所述第一解码图像中检测的文本框,与所述第一标记样本图像中标注的文本框之间的匹配度是否达到预设匹配度;
图像加入模块,用于在未达到所述预设匹配度的情况下,将当前第一解码图像以及所述当前第一解码图像对应的所述第一原始样本图像和所述第二原始样本图像加入至图像训练集;其中,所述图像训练集中的图像用于对所述待训练的文本检测模型进行训练。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9中任一所述的用于模型训练的图像获取方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9中任一所述的用于模型训练的图像获取方法。
CN202110588260.5A 2021-05-28 2021-05-28 一种用于模型训练的图像获取方法、装置、设备及介质 Active CN113033544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588260.5A CN113033544B (zh) 2021-05-28 2021-05-28 一种用于模型训练的图像获取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588260.5A CN113033544B (zh) 2021-05-28 2021-05-28 一种用于模型训练的图像获取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113033544A CN113033544A (zh) 2021-06-25
CN113033544B true CN113033544B (zh) 2021-09-10

Family

ID=76456152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588260.5A Active CN113033544B (zh) 2021-05-28 2021-05-28 一种用于模型训练的图像获取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113033544B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242251B2 (en) * 2017-04-26 2019-03-26 Facebook, Inc. Image based user identification across multiple online systems
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN111881926A (zh) * 2020-08-24 2020-11-03 Oppo广东移动通信有限公司 图像生成、图像生成模型的训练方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242251B2 (en) * 2017-04-26 2019-03-26 Facebook, Inc. Image based user identification across multiple online systems
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN111881926A (zh) * 2020-08-24 2020-11-03 Oppo广东移动通信有限公司 图像生成、图像生成模型的训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113033544A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110516201B (zh) 图像处理方法、装置、电子设备及存储介质
CN110516577B (zh) 图像处理方法、装置、电子设备及存储介质
CN107608877B (zh) 一种基于机器学习的自动化应用程序界面测试方法和测试系统
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN111368118B (zh) 一种图像描述生成方法、系统、装置和存储介质
JPWO2020094057A5 (zh)
CN107391383B (zh) 一种应用程序界面的测试方法和测试系统
CN110879967B (zh) 视频内容重复判断方法及装置
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN106780363A (zh) 一种图片处理方法、装置及电子设备
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN114600196A (zh) 特定领域的人类模型协同注释工具
CN111901594B (zh) 面向视觉分析任务的图像编码方法、电子设备及介质
CN113436137A (zh) 一种图像清晰度识别方法、装置、设备及介质
CN111145202B (zh) 模型生成方法、图像处理方法、装置、设备及存储介质
CN116238124A (zh) 注射器注塑成型生产用采集数据处理方法及系统
CN113033544B (zh) 一种用于模型训练的图像获取方法、装置、设备及介质
CN114581926A (zh) 多行文本识别方法、装置、设备及介质
CN112991148B (zh) 风格图像生成方法、模型的训练方法、装置、设备及介质
CN114332871A (zh) 一种字符识别方法、装置、设备及存储介质
CN112613373A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN104598289B (zh) 一种识别方法及一种电子设备
CN115631497A (zh) 一种工商管理系统及其方法
CN112949494A (zh) 灭火器位置检测方法、装置、设备及存储介质
CN113822126A (zh) 图标识别方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant