CN113205095A - 一种训练模型以及字符检测的方法及装置 - Google Patents

一种训练模型以及字符检测的方法及装置 Download PDF

Info

Publication number
CN113205095A
CN113205095A CN202110392490.4A CN202110392490A CN113205095A CN 113205095 A CN113205095 A CN 113205095A CN 202110392490 A CN202110392490 A CN 202110392490A CN 113205095 A CN113205095 A CN 113205095A
Authority
CN
China
Prior art keywords
bounding box
determining
image
training sample
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110392490.4A
Other languages
English (en)
Inventor
白翔
张文庆
邱阳
宋祺
姜仟艺
刘曦
张睿
廖明辉
魏晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Huazhong University of Science and Technology
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Beijing Sankuai Online Technology Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202110392490.4A priority Critical patent/CN113205095A/zh
Publication of CN113205095A publication Critical patent/CN113205095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书公开了一种训练模型以及字符检测的方法及装置。基于合成训练样本对标注模型进行训练,根据训练后的标注模型的输出对真实训练样本进行标注,并根据合成训练样本对字符检测模型进行训练。通过训练后的字符检测模型对待检测的图像进行特征提取,并确定该图像中各字符的包围框以及该图像中的各中心线。以及根据各中心线与各包围框的重叠程度、与同一中心线重叠的各包围框,确定包围框组,并根据各包围框组中各包围框的几何位置特征,对各中心线向周围进行膨胀得到各膨胀包围框,作为该图像的字符检测结果。可通过训练得到的字符检测模型输出准确的包围框以及中心线,以确定出准确的膨胀包围框,作为字符检测结果。

Description

一种训练模型以及字符检测的方法及装置
技术领域
本说明书涉及计算机技术领域,尤其涉及一种训练模型以及字符检测的方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)技术是一种可将图像中的文字转换成文本格式的技术。随着OCR技术的发展,基于OCR的文字识别技术得到了广泛的应用。文字识别技术通过对图像进行文本检测,以从图像中确定出字符串(如:一个单词的所有字母为一个字符串)的包围框,以对图像中的字符串进行定位。在进行文本检测得到各字符串的包围框之后,文字识别技术可基于得到的各字符串的包围框对包围框中的文字进行识别,以得到图像中的文字。
目前,通过文本检测得到的各字符串的包围框的准确度,对最终的文字识别结果的准确度影响较大,但在现有的文本检测技术中,文本检测得到的各字符串的包围框的准确度并不理想。
发明内容
本说明书提供一种训练模型以及字符检测的方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种训练字符检测模型的方法,包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
可选地,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度。
可选地,根据得到各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
确定得到的各预测包围框的几何位置特征以及各预测包围框内的图像在各预测类型维度上预测结果的置信度,并确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符所属类型的特征值;
针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失;
根据该训练样本的第一标签中与该预测包围框对应的包围框所属类型的特征值,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失;
根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
可选地,所述几何特征检测网络包括区域检测网络和区域矫正网络;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述区域检测网络,确定输出的各字符分别对应的各初始预测包围框;
针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵;
根据得到的该字符对应的若干特征矩阵,通过所述区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
可选地,根据得到各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
针对所述区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定所述第一标签中与该初始预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
根据各第一回归损失以及各第二回归损失,确定第一损失。
可选地,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型,所述区域检测网络和所述区域矫正网络,还分别输出初始预测包围框内的图像在各预测类型维度上预测结果的置信度,以及预测包围框内图像在各预测类型维度上预测结果的置信度;
可选地,所述方法还包括:
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
根据该初始预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应类型的特征值,确定该预测包围框的第一分类损失;
根据各第一回归损失以及各第一分类损失确定初始损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应类型的特征值,确定该预测包围框的第二分类损失;
根据各第二回归损失以及各第二分类损失确定矫正损失;
根据所述初始损失与所述矫正损失确定第一损失。
可选地,根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失,具体包括:
根据得到的各预测中心线,确定包含各预测中心线的图像,作为该训练样本的中心线图;
确定该训练样本的所述中心线图中各像素点的类型特征值;
针对每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失;
根据各像素点对应的损失,确定该训练样本的第二损失。
可选地,从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,具体包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定所述标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线;
根据各包围框内的图像在各预设类型维度上预测结果的置信度,确定各包围框对应的类型,以根据各包围框对应的类型,从各包围框中确定各初始标注包围框;
根据各初始标注包围框,以及各字符串的中心线,从各初始标注包围框中确定各标注包围框;
将各标注包围框、各标注包围框对应的类型作为所述训练样本的第一标签。
可选地,采用下述方法确定训练所述标注模型的训练样本:
从图像素材库中获取若干背景图像以及若干元素图像,所述元素图像至少包括各字符类型对应的图像以及各字符串对应的图像;
根据获取的所述背景图像以及所述元素图像,合成若干合成图像,作为合成训练样本;
针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定该合成图像中各字符的包围框以及各包围框内字符的类型作为该合成图像对应合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为合成训练样本的第二标签;
根据所述合成训练样本对待训练的标注模型进行训练,得到训练后的所述标注模型,所述标注模型用于对从所述图像数据集中确定的训练样本进行标注。
可选地,将训练得到的所述标注模型,作为待训练的字符检测模型,所述标注模型采用下述方式进行训练:
针对每个合成训练样本,以该合成训练样本的第一标签以及第二标签作为该合成训练样本的标签;
将该合成训练样本输入所述标注模型的特征提取网络,确定该合成训练样本对应的若干特征图;
将该合成训练样本对应的若干特征图作为输入,输入所述标注模型的几何特征检测网络,得到各预测包围框、各预测包围框内的图像在各预测类型维度上预测结果的置信度,以及输入所述标注模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度与该合成训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述标注模型的总损失,以所述总损失最小为训练目标,调整所述标注模型的参数。
本说明书提供了一种字符检测的方法,包括:
获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图;
将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线;
针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线;
确定与同一中心线对应的各包围框为一个包围框组;
针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
可选地,所述几何特征检测网络包括区域检测网络和区域矫正网络;
通过所述几何特征检测网络,确定所述图像中各字符的包围框,具体包括:
通过所述区域检测网络,确定所述图像中各字符的各初始包围框;
根据各初始包围框,对各初始包围框包围的区域进行特征采样,确定若干特征矩阵;
根据得到的若干特征矩阵,通过所述区域矫正网络,确定各初始包围框的位置偏移特征,根据各初始包围框的位置偏移特征,对各初始包围框进行矫正,确定所述图像中各字符的包围框。
可选地,通过所述线特征检测网络,确定所述图像中的各中心线,具体包括:
通过所述线特征检测网络,对所述图像对应的若干特征图进行上采样,确定若干指定尺度的特征图;
将若干指定尺度的特征图进行融合,降低融合后的特征图的通道数,并对所述融合后的特征图进行上采样,得到与所述图像的原始尺度一致的概率图;
对所述概率图进行二值化处理,确定所述图像对应的各中心线,以及所述图像对应的中心线图。
可选地,各包围框的几何位置特征至少包括边长特征;
根据该包围框组中各包围框的几何位置特征,确定膨胀距离,具体包括:
根据该包围框组中各包围框的边长特征,确定膨胀值;
根据所述膨胀值以及预设的膨胀系数,确定膨胀距离。
本说明书提供了一种训练字符检测模型的装置,包括:
样本标签确定模块,用于从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
特征提取模块,用于将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
预测模块,用于将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
损失确定模块,用于根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
参数调整模块,用于根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
本说明书提供了一种字符检测装置,包括:
特征提取模块,用于获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图;
特征输出模块,用于将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线;
对应关系确定模块,用于针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线;
包围框组确定模块,用于确定与同一中心线对应的各包围框为一个包围框组;
检测结果确定模块,用于针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述训练模型以及字符检测的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述训练模型以及字符检测的方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例基于合成训练样本对标注模型进行训练,根据训练后的标注模型的输出对真实训练样本进行标注,并根据合成训练样本对字符检测模型进行训练。通过训练后的字符检测模型对待检测的图像进行特征提取,并确定该图像中各字符的包围框以及该图像中的各中心线。以及根据各中心线与各包围框的重叠程度、与同一中心线重叠的各包围框,确定包围框组,并根据各包围框组中各包围框的几何位置特征,对各中心线向周围进行膨胀得到各膨胀包围框,作为该图像的字符检测结果。可通过训练得到的字符检测模型输出准确的包围框以及中心线,以确定出准确的膨胀包围框,作为字符检测结果。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书实施例提供的合成训练样本生成与标注模型训练阶段的流程示意图;
图2为本说明书提供的一种生成合成图像的示意图;
图3为本说明书提供的一种标注模型的结构示意图;
图4为本说明书实施例提供的真实样本处理阶段的流程示意图;
图5为本说明书提供的一种筛选包围框的示意图;
图6为本说明书实施例提供的文本检测模型训练阶段的流程示意图;
图7为本说明书提供的一种标注模型的结构示意图;
图8为本说明书实施例提供的文本检测阶段的流程示意图;
图9为本说明书提供的一种确定膨胀包围框的示意图;
图10为本说明书提供的一种训练字符检测模型的装置示意图;
图11为本说明书提供的一种字符检测装置示意图;
图12为本说明书提供的电子设备的结构示意图。
具体实施方式
在目前的一些对图像中的字符进行检测的方法中,在训练用于进行字符检测的模型时,对训练样本的进行标注的成本较高,导致对模型进行训练的成本高。通过弱监督学习方法对模型进行训练可以无需大量的样本标注,从而可以降低训练样本的标注成本,但通过弱监督学习方法训练得到的模型对图像中字符的检测结果却不够准确。
为了解决目前的字符检测方法中存在的上述问题,本说明书实施例提供了一种训练模型以及字符检测的方法,该方法包括四个阶段:合成训练样本生成与标注模型训练阶段、真实样本处理阶段、文本检测模型训练阶段、文本检测阶段。
在合成训练样本生成与标注模型训练阶段,为了解决目前在训练用于字符检测的模型时,对训练样本进行标注成本高的问题,首先,可获取若干背景图像以及若干元素图像,以合成训练样本,并根据在背景图中添加的元素图像的属性(如位置、尺寸、朝向等),确定合成训练样本的标签。因此无需人工标注便可确定准确的样本标签,避免了人工标注成本高的问题。然后,可根据合成训练样本,对用于给真实训练样本进行标注的标注模型进行训练,以便于在后续阶段可通过训练得到的该标注模型生成用于训练字符检测模型的真实训练样本的标签。由于合成图像与真实图像存在差异,因此根据合成训练样本训练得到的标注模型,基于输入的真实图像而输出的字符检测结果的准确度难以保证,因此该标注模型并非最终用于进行字符检测的模型,而是用于后续阶段辅助对没有标注的真实图像进行标注,以减少人工标注成本的模型。
在真实样本处理阶段,在得到训练后的标注模型后,将没有标注的真实图像,作为真实训练样本,并通过该标注模型对真实训练样本进行标注。具体可通过训练后的标注模型,得到其输出的各字符的包围框以及该训练样本对应的图像的各中心线。通过对该标注模型输出的内容进行筛选,可从中确定准确的、能够作为真实训练样本的标签的各包围框,并通过人工标注对真实训练样本对应的图像中各字符串进行中心线的标注。在本阶段,将筛选得到的各包围框以及人工标注的各中心线作为真实训练样本的标签,能够在后续阶段中,根据真实训练样本训练得到更为准确的字符检测模型。并且,相比于现有的对所有训练样本都进行包围框的标注的方法,本阶段减少了对训练样本的人工标注量以及标注时间,大大降低了标注成本。
在文本检测模型训练阶段,为了解决目前的字符检测方法中,基于模型的输出确定的检测结果不准确的问题,可根据真实训练样本,以及在前述阶段得到的真实训练样本的准确的标签,对文本检测模型进行训练。由于用于训练标注模型的训练样本是合成的非真实图像,且该标注模型的输出存在一定的误差,而真实训练样本中作为标签的各包围框是对该标注模型的输出进行筛选后确定的。因此,为了减小误差,使该字符检测模型的输出更准确,在本阶段,除了将各字符的包围框作为真实训练样本的标签外,还将各字符串的中心线作为真实训练样本的标签,来对该字符检测模型进行训练,可使训练得到的字符检测模型的输出更准确,通过加入中心线作为真实训练样本的标签,能够在很大程度上减小甚至消除包围框的误差带来的影响。
在文本检测阶段,将待检测图像作为输入,输入训练后的文本检测模型,可确定待检测图像中各字符的包围框以及该待检测图像对应的中心线,根据得到的各包围框以及各中心线的重叠程度,确定各包围框对应的中心线以确定包围框组,并对各包围框组对应的中心线向周围进行膨胀,能够准确确定若干包围各字符串的膨胀包围框作为最终的字符检测结果。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的合成训练样本生成与标注模型训练阶段的流程示意图,具体包括以下步骤:
S100:从图像素材库中获取若干背景图像以及若干元素图像,所述元素图像至少包括各字符类型对应的图像以及各字符串对应的图像。
在本说明书一个或多个实施例中,该训练模型以及字符检测的方法可由服务器执行,该服务器具体可以是单独的设备,也可以是由多台设备组成的系统(如,分布式系统),本说明书不做限定,可根据需要设置。
在本说明书一个或多个实施例中,如前述所言,为了解决目前对训练样本进行标注成本高的问题,在合成训练样本生成与标注模型训练阶段,可通过合成图像确定合成训练样本。首先,该服务器可从图像素材库中获取若干背景图像以及若干元素图像,为后续的合成图像准备合成素材。在本说明书中,可将合成图像分为背景图像部分和前景元素部分,从图像素材库中获取的元素图像至少包括各字符类型对应的图像以及各字符串对应的图像。各字符类型可根据需要设置,例如,可将阿拉伯数字作为一个类型,将汉字作为一个类型,将外文作为一个或多个类型,将标点符号作为一个类型。或者,也可对字符的类型进行更细致地分类,例如,可将0~9十个阿拉伯数字分为十个字符类型,将英文按照26个字母分为26个字符类型等。
其中,各字符类型对应的图像还可以是其他类型的图像,例如品牌标志、车辆或植物等生活场景中存在的元素图像。各字符串对应的图像可以是以一个字符串为单位的图像,例如,一个字符串对应的图像中可以为一个英文单词对应的图像,也可以为一串号码对应的图像或一行文字对应的图像。各字符类型对应的图像可以是以一个字符为单位的图像,例如,可以是一个汉字对应的图像,一个标点符号对应的图像或一个品牌标志对应的图像等。
S102:根据获取的所述背景图像以及所述元素图像,合成若干合成图像,作为合成训练样本。
在本说明书一个或多个实施例中,在该服务器从图像素材库中获取若干背景图像以及若干元素图像后,可根据各背景图像以及各元素图像合成若干合成图像作为合成训练样本。具体的,该服务器可将获取的若干元素图像与背景图像进行匹配。针对每一个背景图像,该服务器可从获取的若干元素图像中随机选取一定数量的元素图像放置于该背景图像上进行合成,得到合成图像作为合成训练样本。该服务器可将选取的元素图像放置于该背景图像的任意位置,并记录放置的元素图像位置以及各元素图像的尺寸(如元素图像的长度和宽度)。该服务器可将各元素图像中心像素点所在位置作为该元素图像的位置,当然也可以将其他像素点位置作为该元素图像的位置,具体可根据需要设置,本说明书在此不做限制。
其中,每个合成图像中的元素图像数量可以相同也可以不同,每个合成图像中至少包括一个字符串对应的图像,具体可根据需要设置。该服务器从图像素材库中获取的若干元素图像可以为透明背景图像,例如便携式网络图形(Portable Network Graphics,PNG)格式的图像,或其他格式的透明背景图像,本说明书在此不做限制。
由于在实际生活中,真实图像中的字符串并非都是规整平直的,并且,由于图像的拍摄角度不同,会出现一些透视情况,还有一些字符串是经过变形等设计的,例如一些商家的招牌名称等。因此,为了使合成图像更接近于真实情况中拍摄的图像,在本说明书一个或多个实施例中,在将获取的若干元素图像与背景图像进行匹配前,还可对部分元素图像进行预处理,例如,可将部分元素图像进行弯曲、拉伸、模糊、角度变换等处理,以模仿现实生活中真实图像中存在的一些由于字符排版、拍摄不当或其他原因导致的图像中字符变形的情况。通过这些进行过预处理的元素图像合成各合成图像作为训练样本,可使在后续步骤中基于各合成训练样本训练得到的标注模型的输出结果更准确。
其中,对于每个合成图像,该合成图像中至少包含一个进行过预处理的元素图像。对于合成图像中的每个字符串对应的图像,可以对其进行一种或多种预处理操作,当然也可以不进行预处理。即最终得到的每个合成图像中,可存在未经过预处理的字符串对应的图像和经过(一种或多种)预处理的字符串对应的图像,或者,每个合成图像中的也可皆为经过(一种或多种)预处理的字符串对应的图像。
S104:针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定该合成图像中各字符的包围框以及各包围框内字符的类型作为该合成图像对应合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为合成训练样本的第二标签。
由于在进行字符检测时,字符检测的最终目的并非是对单独的字符进行检测,也不是确定各字符的包围框,而是从待检测图像中确定由多个字符构成的字符串的整体包围框。然而,若仅将各字符的包围框作为标签,若对于一个字符串中的某一个或某几个字符的包围框出现漏检(即,在实际有字符的位置未检测到字符并未进行包围框标注)或误检(如,将其他元素当作字符串中的字符进行包围框标注)的情况,容易使基于各包围框得到的各字符串的包围框出现误差。例如,对于一个由五个字符组成的字符串,假设该字符串的首尾字符被漏检,则最终根据该字符串的各包围框得到的该字符串的整体包围框只能包围中间三个字符。
因此,在本说明书一个或多个实施例中,除了确定各字符的包围框作为合成训练样本的标签,还可对合成训练样本中的各字符串进行中心线的标注,使得在后续步骤中,基于合成训练样本对标注模型进行训练,使训练得到的该标注模型输出的文本检测结果更准确。
具体的,该服务器在合成训练样本之后,可针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定各字符串对应的图像,并针对每个字符串对应的图像,根据其包含的字符数量以及各字符的尺寸,对其进行切分,确定该字符串对应的图像中各字符的包围框。该服务器可确定该合成图像中各字符的包围框、各包围框内字符的类型作为该合成图像对应的合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为该合成图像对应合成训练样本的第二标签。
其中,元素图像的尺寸可用该元素图像的长度与宽度表示。字符串的中心线为沿着该字符串中字符的排列方向穿过该字符串各字符中心的线。
在本说明书一个或多个实施例中,在确定了该合成图像中各字符串的中心线后,还可以根据各中心线确定包含各预测中心线的图像,作为该合成图像对应的中心线图,并将该中心线图作为该合成图像对应合成训练样本的第二标签。该中心线图为与该合成图像分辨率一致的图像,该中心线图中各中心线的位置与穿过各字符串中心的线的位置一致。在该中心线图中,各中心线上的像素点的数值与中心线外的像素点的数值不同,例如,可将中心线上的像素点的数值赋值为1,将中心线外的像素点的数值赋值为0,当然也可以为其他数值,具体可根据需要设置,本说明书在此不做限制。
图2为本说明书提供的一种生成合成图像的示意图。如图,四个大的矩形表示生成合成图像的四个不同阶段。在第一个阶段中,由同一个虚线框包围的字符表示一个字符串对应的图像的各字符,其中包括:“FLORA”、“ANT”、三个字符串。在第二个阶段中,通过对部分字符串对应的图像进行预处理,将“FLORA”和“ANT”字符串进行变形,对“万物复苏”字符串不进行预处理。在第三个阶段中,将各字符串对应的图像放置于背景图像中,并对各字符串中的字符进行切分,根据各字符的位置和尺寸确定各字符对应的包围框,以及确定各包围框的中心点位置,其中,包围各字符的教小的实线框即各字符的包围框。在第四个阶段中,对于水平的字符串“ANT”和“万物复苏”,可根据各字符串的首尾字符的中心点位置,确定各字符串的中心线。对于弯曲的字符串“FLORA”,可根据各字符串的首尾字符以及拐点字符的中心点位置,确定各字符串的中心线。其中,字母O的中心点即该字符串的拐点。当然也可以针对每个字符串,根据该字符串中每个字符的中心点位置确定该字符串的中心线。具体可根据需要设置,本说明书在此不做限制。
在本说明书一个或多个实施例中,该服务器在针对每个字符串对应的图像,根据其包含的字符数量以及各字符的尺寸,对其进行切分确定该字符串对应的图像中各字符的包围框之后。还可以仅确定该合成图像中各字符的包围框作为该合成图像对应的合成训练样本的第一标签。即,该服务器还可以针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定该合成图像中各字符的包围框作为该合成图像对应合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为合成训练样本的第二标签。
S106:根据所述合成训练样本对待训练的标注模型进行训练,得到训练后的所述标注模型,所述标注模型用于对从所述图像数据集中确定的训练样本进行标注。
在本说明书一个或多个实施例中,该服务器在确定了合成训练样本和合成训练样本的标签之后,可根据合成训练样本对待训练的标注模型进行训练,得到训练后的标注模型,该标注模型用于对从图像数据集中确定的训练样本(即非合成的真实训练样本)进行标注。
该标注模型的结构如图3所示,图3为本说明书提供的一种标注模型的结构示意图。如图,该标注模型包括:特征提取网络、几何特征检测网络以及线特征检测网络。该特征提取网络用于对待检测的图像进行特征提取得到若干特征图,该几何特征检测网络用于输出各包围框,该线特征检测网络用于输出各中心线。
具体的,在对该标注模型进行训练时,该服务器可针对每个合成训练样本,以该合成训练样本的第一标签以及第二标签作为该合成训练样本的标签,将该合成训练样本输入该标注模型的特征提取网络,确定该合成训练样本对应的若干特征图。之后,该服务器可将该合成训练样本对应的若干特征图作为输入,输入该标注模型的几何特征检测网络,得到各预测包围框,以及输入标注模型的线特征检测网络,得到该合成训练样本对应合成图像的各预测中心线。
在本说明书一个或多个实施例中,该服务器可根据得到的各预测包围框与该合成训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失。以根据第一损失以及第二损失,确定该标注模型的总损失,并以总损失最小为训练目标,调整该标注模型的参数。
具体的,在确定第一损失时,该服务器可确定该训练样本的第一标签中各包围框的几何位置特征。并针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失。并根据各预测包围框的回归损失确定第一损失。在确定第二损失时,该服务器可针对各预测中心线上的每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失。并根据各像素点对应的损失,确定第二损失。
其中,该几何位置特征至少包括标识点位置特征和边长特征。该标识点即标识对应包围框位置的点,该标识点位置特征即该标识点的坐标中的x值和y值,该标识点可以为对应包围框的中心点或某一角所在的点,当然也可以是其他点,具体可根据需要设置。该边长特征即包围框的宽度w和高度h。对于一个包围框的几何位置特征,可用t={x,y,w,h}表示。各中心线上的像素点的数值与中心线外的像素点的数值不同,该类型特征值是表示像素点类型的数值,如步骤S104中所述,各中心线上的像素点的数值与中心线外的像素点的数值不同,即中心线图中的像素点分为线上点和线外点两种,两种点被赋予不同的数值(类型特征值)。
在本说明书一个或多个实施例中,该服务器还可以根据得到的各预测中心线,确定包含各预测中心线的图像,作为该合成训练样本对应合成图像的中心线图。在确定第二损失时,该服务器还可确定该中心线图中各像素点的类型特征值,并针对图中的每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失,以及根据各像素点对应的损失,确定该训练样本的第二损失。
在得到第一损失和第二损失之后,该服务器可将第一损失与第二损失求和以确定总损失。
在本说明书一个或多个实施例中,该几何特征检测网络除了输出各包围框外,还可以输出各包围框内的图像在各预测类型维度上预测结果的置信度。在确定该合成训练样本对应的若干特征图后,该服务器还可以将该合成训练样本对应的若干特征图作为输入,输入该标注模型的几何特征检测网络,得到各预测包围框以及各预测包围框内图像在各预测类型维度上预测结果的置信度。
在本说明书一个或多个实施例中,可将各预测包围框内的图像在各预测类型维度上预测结果的置信度中,最高置信度对应的类型作为各预测包围框对应的类型。
在本说明书一个或多个实施例中,在确定第一损失时,该服务器还可确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符的类型。之后,该服务器可针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失。根据该训练样本的第一标签中与该预测包围框对应的包围框内的字符的类型,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失。并根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
在本说明书一个或多个实施例中,确定第一损失的公式具体如下:
L1=LR+LC
其中,L1表示第一损失,LR表示根据各预测包围框的回归损失得到的总回归损失,LC表示根据各预测包围框的分类损失得到的总分类损失。
确定LR的公式具体如下:
Figure BDA0003017302430000191
其中,N表示预测包围框的总数,I表示所有预测包围框的集合,i表示第i个预测包围框,LRi表示第i个预测包围框的回归损失。
确定LRi的公式具体如下:
Figure BDA0003017302430000192
其中,t=t1-t2,t1表示第i个预测包围框进行归一化后的几何位置特征,t2表示第一标签中与第i个预测包围框对应的包围框进行归一化后的几何位置特征。t1={tx1,ty1,tw1,th1},tx1、ty1、tw1、th1分别表示对第i个预测包围框的几何位置特征中的x、y、w、h值进行归一化后的值。t2={tx2,ty2,tw2,th2},tx2、ty2、tw2、th2分别表示对第一标签中与第i个预测包围框对应的包围框的几何位置特征中的x、y、w、h值进行归一化后的值。
在本说明书一个或多个实施例中,该服务器可针对每个预测包围框,确定第一标签中与该预测包围框对应的包围框内字符的类型,作为该预测包围框的目标类型。
在本说明书一个或多个实施例中,确定LC的公式具体如下:
Figure BDA0003017302430000201
其中,N表示预测包围框的总数,I表示所有预测包围框的集合,i表示第i个预测包围框,classj表示第i个预测包围框的目标类型的置信度。R表示第i个预测包围框内的图像在各预测类型维度上预测结果的各置信度的集合,classr表示第r个预测类型的置信度。exp(classj)表示自然底数e的classj次方。
在本说明书一个或多个实施例中,确定第二损失的公式具体如下:
Figure BDA0003017302430000202
其中,L2表示第二损失,T表示预测输出的中心线图中像素点的总数,I表示所有像素点的集合,i表示第i个像素点。q2i表示第i个像素点的类型特征值,q1i表示第二标签中,与第i个像素点对应的像素点的类型特征值。
在本说明书的合成训练样本生成与标注模型训练阶段,通过合成图像确定合成训练样本,确定准确的无需人工标注的标签,根据合成训练样本对用于给真实训练样本进行标注的标注模型进行训练,能够得到准确的标注模型,为后续确定真实训练样本的标签提供标注模型。在本阶段,无需人工对合成训练样本进行标注,避免了人工标注成本高的问题,且能训练得到准确的标注模型。
在本说明书一个或多个实施例中,为了使训练得到的标注模型准确性更高,在确定LC之前,该服务器还可以对该标注模型输出的预测包围框进行筛选,根据筛选得到的各预测包围框内的图像在预测类型维度上预测结果的置信度,确定LC,即上述确定LC的公式中的I表示筛选后得到的各预测包围框的集合。具体的,该服务器在筛选时,可确定各预测包围框与第一标签中与其对应的包围框的交并比(Intersection-over-Union,IoU),并针对每个预测包围框,判断该包围框对应的交并比是否大于预设的比值上限,若是,则将该预测包围框作为集合I中的预测包围框,若否,则不根据该预测包围框确定LC
在本说明书一个或多个实施例中,该服务器还可以针对每个预测包围框,判断该包围框对应的交并比是否小于预设的比值下限,且该包围框同时满足不与任何中心线重叠的条件,若是,则将该预测包围框作为集合I中的预测包围框,若否,则不根据该预测包围框确定LC。对于交并比小于预设的比值下限,且存在与其重叠的中心线的预测包围框,不将其作为集合I中的包围框,即不跟据其确定LC
在本说明书一个或多个实施例中,该几何特征检测网络包括区域检测网络和区域矫正网络。在确定第一损失时,该服务器还可以针对区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定第一标签中与该初始预测包围框对应的包围框,并根据该初始预测包围框及其对应的第一标签中的包围框,确定该初始预测包围框的第一回归损失。以及针对区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定第一标签中与该预测包围框对应的包围框,并根据该预测包围框及其对应的第一标签中的包围框,确定该预测包围框的第二回归损失。然后根据各第一回归损失以及各第二回归损失,确定第一损失。
图4为本说明书实施例提供的真实样本处理阶段的流程示意图,具体包括以下步骤:
S200:从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定所述标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线。
在本说明书一个或多个实施例中,在真实样本处理阶段,该服务器可通过训练得到的标注模型对根据真实的非合成图像确定的训练样本进行标注。
具体的,首先,该服务器可从图像数据集中获取若干图像作为训练样本,然后针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定该标注模型输出的各字符的包围框、各包围框内的字符在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线,以便于在后续步骤中从该标注模型的输出中确定该训练样本的标签。
S202:根据各包围框内的图像在各预设类型维度上预测结果的置信度,确定各包围框对应的类型,以根据各包围框对应的类型,从各包围框中确定各初始标注包围框。
由于该标注模型是基于合成图像进行训练的,且合成图像与真实图像间存在差异,因此该标注模型输出的各包围框并不完全是准确的,而且,并非所有包围框都能作为真实训练样本的标注。
于是,在本说明书一个或多个实施例中,该服务器在得到该标注模型输出的各字符的包围框、各包围框与第一标签中与其对应的包围框的交并比、各包围框内的字符在各预设类型维度上预测结果的置信度以及该训练样本对应图像的各字符串的中心线之后,可根据各包围框内的字符在各预设类型维度上预测结果的置信度,对各包围框进行筛选,从各字符的包围框中确定各初始标注包围框。
具体的,该服务器可针对每个包围框,根据各包围框与第一标签中与其对应的包围框的交并比,筛除掉交并比低于预设值的包围框。之后,该服务器可根据该包围框在各预设类型维度上的置信度,确定置信度最高的类型作为该包围框所属类型。该服务器可预先设置阈值,将最高置信度低于该阈值的字符的包围框筛除,并保留最高置信度高于该阈值的字符的包围框作为各初始标注包围框。如此,可以筛除掉输出包围框位置不准确和类型准确度低的包围框。
在本说明书一个或多个实施例中,该服务器还可以在根据预设的阈值对各包围框进行筛选后,根据各字符的类型,继续对最高置信度高于该阈值的各包围框进行筛选,从中确定所属类型是字符的包围框,作为各初始标注包围框。例如,假设各预设类型包括:文字、其他、背景。则该服务器可从中确定所属类型为文字的包围框为初始标注包围框。如此,可以筛掉非包围着文字的包围框,使得筛选得到的各初始标注包围框为更准确的,且适于作为真实训练样本的标签的包围框。
S204:根据各初始标注包围框,以及各字符串的中心线,从各初始标注包围框中确定各标注包围框。
在本说明书一个或多个实施例中,该服务器还可以根据各初始标注包围框,以及该训练样本对应图像中各字符串的中心线,继续对各初始标注包围框进行筛选,从中确定最终作为该真实训练样本的标签的各标注包围框。
具体的,该服务器可根据各初始标注包围框以及各字符串的中心线,筛掉与各字符串没有重叠的包围框,确定有中心线穿过的包围框,即,同属于一个字符串的字符的包围框,并将有中心线穿过的包围框作为该真实训练样本的标签的各标注包围框。
图5为本说明书提供的一种筛选包围框的示意图,如图,包围框的筛选过程包括A、B、C、D四个阶段。在阶段A,得到该标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线。可见,其中的各字符的包围框并非完全是准确的,且存在非包围文字的包围框。在阶段B,可将对应交并比低的包围框筛除,字母U对应的包围框即被筛除的包围框。在阶段C,可根据各包围框内的图像的类型、各包围框对应的置信度以及各字符串的中心线进行筛选,图像左下角的小鸟对应的包围框即被筛掉的包围框。阶段D剩余的各包围框即筛选后得到的各标注包围框。
在本说明书一个或多个实施例中,在步骤S200中,该标注模型还可仅输出各字符的包围框以及该训练样本对应的图像中各字符串的中心线。在步骤S202~S204对各包围框进行筛选时,该服务器可仅根据各包围框与各中心线进行筛选。确定与各字符串的中心线有重叠的包围框作为各标注包围框。
S206:将各标注包围框、各标注包围框对应字符的类型作为所述训练样本的第一标签。
在本说明书一个或多个实施例中,该服务器可将最终得到的各标注包围框、各标注包围框对应字符的类型,作为从图像数据集中获取的若干图像确定的训练样本的第一标签。
在本说明书一个或多个实施例中,还可针对每个训练样本,根据该训练样本中各字符串,人工对各字符串的中心线进行标注,该服务器可根据人工标注的各字符串的中心线,作为该训练样本的第二标签。
在本说明书一个或多个实施例中,该服务器还可以根据人工标注的各字符串的中心线,确定与该训练样本对应图像的分辨率一致的中心线图,作为该训练样本的第二标签。其中,该中心线图中各中心线上的像素点的位置与人工确定的各中心线上的像素点在该训练样本对应图像上的位置一致。
在本说明书的真实样本处理阶段,根据从图像数据集中确定真实训练样本,通过训练得到的标注模型,得到真实训练样本对应的图像中的各包围框、各包围框在各预设类型维度上的置信度以及各中心线。并基于标注模型的输出,从标注模型输出的各包围框中确定各标注包围框,根据各标注包围框确定该真实训练样本的第一标签。以及根据各标注包围框,人工标注各中心线作为该真实训练样本的第二标签。
在本阶段,除了将各标注包围框作为真实训练样本的标签外,通过增加字符串的中心线作为标注,能够保证在后续步骤中,训练得到准确的字符检测模型,使得最终得到的字符检测结果足够准确,减小甚至消除了根据合成训练样本训练得到的标注模型的误差带来的影响,以减小甚至消除该标注模型输出的真实训练样本的标签的误差对最终的字符检查结果的影响。并且,本阶段虽对真实训练样本进行了人工标注,但通过标注模型对真实训练样本进行包围框标注大大减少了标注时间和标注成本。
在本说明书一个或多个实施例中,该服务器还可仅将各标注包围框作为该训练样本的第一标签。
图6为本说明书实施例提供的文本检测模型训练阶段的流程示意图,具体包括以下步骤:
S300:从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签。
在本说明书一个或多个实施例中,在文本检测模型训练阶段,该服务器可将训练得到的标注模型作为待训练的字符检测模型,并对待训练的字符检测模型进行训练。首先,该服务器可从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线,根据各字符串的中心线确定中心线图,作为该训练样本的第二标签。
其中,该训练样本的第一标签以及第二标签为通过步骤S200~S206的过程确定出的该训练样本的标签。
S302:将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图。
在本说明书一个或多个实施例中,该服务器可将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图。其中,该训练样本对应的若干特征图为不同尺度的特征图,通过对不同尺度特特征图进行特征提取,该服务器可以获取更全面的更丰富的该训练样本对应图像的图像特征。
S304:将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线。
在本说明书一个或多个实施例中,该服务器可将该训练样本对应的若干特征图作为输入,输入待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入待训练的字符检测模型的线特征检测网络,得到各预测中心线。
具体的,该服务器可将该训练样本对应的若干特征图作为输入,输入该几何特征检测网络中的区域检测网络,确定输出的各字符分别对应的各初始预测包围框,并针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵。之后,根据得到的该字符对应的若干特征矩阵,通过该几何特征检测网络中的区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
其中,对于该训练样本对应的图像中的一个字符,该区域检测网络输出的各初始预测包围框中存在多个初始预测包围框与其对应。
S306:根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失。
在本说明书一个或多个实施例中,该服务器可根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失。
在本说明书一个或多个实施例中,该服务器可根据区域检测网络的输出以及区域矫正网络的输出来计算回归损失,以确定第一损失。
具体的,该服务器可针对该区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定该训练样本的第一标签中与该初始预测包围框对应的包围框。并根据该初始预测包围框及其对应的该训练样本的第一标签中的包围框,确定该预测包围框的第一回归损失。以及针对该区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定该训练样本的第一标签中与该预测包围框对应的包围框。以根据该预测包围框及其对应的第一标签中的包围框,确定该预测包围框的第二回归损失。最后,根据各第一回归损失以及各第二回归损失,确定第一损失。
在本说明书一个或多个实施例中,该服务器还可以根据区域检测网络的输出以及区域矫正网络的输出来计算回归损失和分类损失,以确定第一损失。
具体的,该服务器可针对该区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定该训练样本的第一标签中与该预测包围框对应的包围框。并根据该初始预测包围框及其对应的该训练样本的第一标签中的包围框,确定该预测包围框的第一回归损失。以及根据该初始预测包围框内图像在各预测类型维度上预测结果的置信度及其对应的第一标签中的包围框对应类型的特征值,确定该预测包围框的第一分类损失。
之后,根据各第一回归损失以及各第一分类损失确定初始损失。该服务器还可以针对该区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定该训练样本的第一标签中与该预测包围框对应的包围框。并根据该预测包围框及其对应的第一标签中的包围框,确定该预测包围框的第二回归损失。针对区域矫正网络输出的每个预测包围框,根据该预测包围框内图像在各预测类型维度上预测结果的置信度及其对应的该训练样本的第一标签中的包围框对应的类型,确定该预测包围框的第二分类损失。
然后根据各第二回归损失以及各第二分类损失确定矫正损失。
最后,该服务器可根据该初始损失与该矫正损失确定第一损失。
在本说明书一个或多个实施例中,该服务器可根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失。
具体的,该服务器可确定得到的各预测中心线对应的中心线图中各像素点的类型特征值。并针对每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失。以根据各像素点对应的损失确定第二损失。
S308:根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
在本说明书一个或多个实施例中,该服务器可在确定了第一损失和第二损失之后,根据确定出的第一损失以及第二损失确定该字符检测模型的总损失。并以总损失最小为训练目标,调整该待训练的字符检测模型的参数。该字符检测模型用于确定待检测的图像中各字符的包围框以及各字符串的中心线,以根据各包围框对各字符串的中心线向周围进行膨胀,得到各膨胀包围框作为该待检测图像的字符检测结果。
需要说明的是,步骤S302~S308对字符检测模型进行训练的过程,与合成训练样本生成与标注模型训练阶段的步骤S106中对标注模型进行训练的过程一致,本说明书在此不再赘述。步骤S307与S308中确定第一损失、确定第二损失、确定总损失的具体公式可与步骤S106中的公式一致。
在本说明书的文本检测模型训练阶段,将训练得到的标注模型作为待训练的字符检测模型,根据前述阶段确定的真实训练样本以及真实训练样本的标签,对待训练的字符检测模型进行训练,进一步得到更准确的字符检测模型,使根据训练后的字符检测模型输出的各包围框和各中心线得到的字符检测结果更准确。
在本阶段,通过训练得到准确的字符检测模型,使得在后续阶段中,基于字符检测模型的输出确定更准确的字符检测结果。即使对于待检测的图像中的一个字符串,该字符检测模型存在个别包围框漏检或误检的情况,该服务器也能够根据其他的准确的包围框以及该字符串对应的中心线确定该字符串的准确的膨胀包围框。使得最终的字符检测结果不受漏检或误检的包围框的影响,保证了字符检测结果的准确性。
在本说明书一个或多个实施例中,该标注模型的具体结构可如图7所示。
图7为本说明书提供的一种标注模型的结构示意图,如图,该标注模型包括:特征提取网络、几何特征检测网络、线特征检测网络。其中,该特征提取网络包括:第一特征提取网络、第二特征提取网络。该几何特征检测网络包括:区域检测网络、区域矫正网络。该线特征检测网络包括:检测网络和二值化模块。
图8为本说明书实施例提供的文本检测阶段的流程示意图,具体包括以下步骤:
S400:获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图。
在本说明书一个或多个实施例中,在文本检测阶段,该服务器可获取待检测的图像,将该图像输入训练得到的字符检测模型,通过训练得到的字符检测模型中的特征提取网络,确定该图像对应的若干特征图。
具体的,该服务器可将该图像输入该特征提取网络,通过该特征提取网络中的第一特征提取网络,确定若干不同尺度的初始特征图。并将确定出的若干不同尺度的初始特征图分别输入该特征提取网络中的第二特征提取网络的不同网络层,对若干不同尺度的初始特征图进行特征提取,确定该图像对应的若干不同尺度的特征图。
其中,该第一特征提取网络可以为残差网络(Residual Network,ResNet),该第二特征提取网络可以为特征金字塔网络(Feature Pyramid Networks,FPN)。
S402:将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线。
在本说明书一个或多个实施例中,该服务器在得到该图像对应的若干不同尺度的特征图后,可将该图像对应的若干不同尺度的特征图作为输入,分别输入该字符检测模型中的几何特征检测网络和线特征检测网络,通过该几何特征检测网络,确定该图像中各字符的包围框,以及通过该线特征检测网络,确定该图像中的各中心线。
具体的,该服务器可通过该几何特征检测网络中的区域检测网络,确定该图像中的各初始包围框,并根据各初始包围框,对各初始包围框包围的区域进行特征采样,例如,可通过感兴趣区域(Region Of Interest,ROI)校准方法(即ROI Align)对各初始包围框包围的区域进行特征采样,以确定若干特征矩阵。之后,该服务器可根据得到的若干特征矩阵,通过该几何特征检测网络中的区域矫正网络,确定各初始包围框的位置偏移特征,并根据各初始包围框的位置偏移特征,对各初始包围框进行矫正,确定该图像中各字符的包围框以及各字符的类型。
在本说明书一个或多个实施例中,通过该线特征检测网络,该服务器可对该图像对应的若干特征图进行上采样,以确定若干指定尺度的特征图。在进行上采用时可以采用最邻近插值算法,当然也可以采用其他方法,本说明书在此不做限制。该指定尺度可根据需要设置,例如,可以是原图的1/4尺度、1/2尺度等,本说明书在此不做限制。在确定若干指定尺度的特征图后,该服务器可将若干指定尺度的特征图进行融合,在不改变特征图的尺度的情况下,通过卷积操作降低融合后的特征图的通道数,并对融合后的特征图进行反卷积,以进行上采样,得到与该图像的原始尺度一致的概率图。
在本说明书一个或多个实施例中,该概率图为图像中像素点的数值皆为0~1之间的图。在得到概率图之后,该服务器可根据预设的概率阈值,通过二值化模块对概率图进行二值化处理,确定该图像的各中心线。例如,在进行二值化时,可将概率图中数值大于概率阈值的像素点数值设置为1,将数值小于等于概率阈值的像素点数值设置为0,可根据需要设置,本说明书在此不做限制。
在本说明书一个或多个实施例中,该服务器还可以根据该图像中的各中心线确定该图像对应的中心线图。
其中,各初始包围框的位置偏移特征即各初始包围框的几何位置特征与其实际应标识的包围框的几何位置特征的偏移量,即各初始包围框在标识点位置坐标、包围框宽度、包围框高度与实际应标识的包围框间的差异。该区域检测网络可以为RPN(RegionProposal Network)网络,该区域矫正网络可以为由若干全链接层构成的网络。
S404:针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线。
由于可能存在有多条中心线穿过同一个包围框的情况,因此,在本说明书一个或多个实施例中,该服务器可针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线。
具体的,该服务器可针对每个包围框,根据各中心线与该包围框的重叠面积,确定重叠面积最大的中心线,作为与该包围框对应的中心线。若存在与任何中心线都不重叠的包围框,则可对该包围框进行忽略。
在本说明书一个或多个实施例中,该服务器在确定与该包围框对应的中心线之前,还可以对各包围框进行筛选,筛掉包围框内的图像在各预测类型维度上的预测结果的各置信度中,最高置信度低于筛选阈值的包围框。由于经过训练后得到的各包围框已是较为准确的包围框,因此,可将筛选阈值赋值较低,例如0.5、0.4等,具体可根据需要设置。
S406:确定与同一中心线对应的各包围框为一个包围框组。
在本说明书一个或多个实施例中,该服务器可将与同一中心线对应的各包围框为一个包围框组,同一个包围框组包围的区域即该图像中的一个字符串所在的区域。
S408:针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
在本说明书一个或多个实施例中,该服务器可针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据该膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为该图像的字符检测结果。
该服务器可针对每个包围框组,根据该包围框组中各包围框的边长特征,确定膨胀值,并根据膨胀距离以及预设的膨胀系数,确定膨胀距离。具体的,该服务器可针对每个包围框组中的每个包围框,根据该包围框的边长特征确定该包围框的边长特征值,并根据各包围框的边长特征值,确定膨胀值。之后,可根据膨胀值以及预设的膨胀系数,确定膨胀距离。
在本说明书一个或多个实施例中,确定边长特征值的公式具体如下:
Figure BDA0003017302430000321
其中,Di表示该包围框组中第i个包围框的边长特征值,hi表示第i个包围框的高度,wi表示第i个包围框的宽度。
在本说明书一个或多个实施例中,可对该包围框组中各包围框的边长特征值取平均值,确定该包围框组的膨胀值
Figure BDA0003017302430000322
则膨胀距离为
Figure BDA0003017302430000323
其中,γ表示预设的膨胀系数,可根据需要设置,例如,可以是0.55、0.50,本说明书在此不做限制。
在本说明书一个或多个实施例中,该服务器在确定出各包围框组的膨胀距离之后,可针对每个包围框组,根据该包围框组的膨胀距离,对该包围框对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框。该服务器可将最终得到的各包围框组,作为该图像的字符检测结果。
图9为本说明书提供的一种确定膨胀包围框的示意图。如图,由图A可见,图像中包括“BLOSSOM”和“SUMMER”两个字符串,通过该字符检测模型得到了待检测的图像中各字符的包围框以及各字符串的中心线。在根据各字符串中的字符的包围框(即各包围框组中的包围框),确定出各包围框组的膨胀距离后,可对各字符串对应的中心线进行膨胀,得到图B中包围两个字符串的框即得到的各膨胀包围框。最终得到的两个膨胀包围框即对该图像的字符检测结果。
在本说明书一个或多个实施例中,针对每个包围框组,该服务器在得到该包围框组的膨胀距离后,可确定该包围框组对应的中心线的边缘,以对中心线的边缘进行膨胀得到膨胀包围框。在确定该中心线的边缘时,可针对该中心线上的每个像素点,确定该像素点周围的像素点的像素值是否一致,若不一致,则确定该像素点为边缘上的点。
在本说明书的文本检测阶段,将待检测的图像输入训练后的字符检测模型,通过训练后的字符检测模型对待检测的图像进行特征提取,并确定该图像中各字符的包围框以及该图像中的各中心线。以及根据各中心线与各包围框的重叠程度、与同一中心线重叠的各包围框,确定包围框组,并根据各包围框组中各包围框的几何位置特征,对各中心线向周围进行膨胀得到各膨胀包围框,作为该图像的字符检测结果。
在本阶段,可通过训练得到的字符检测模型输出准确的包围框以及中心线,以确定出准确的膨胀包围框,作为字符检测结果。即使该字符检测模型输出的包围框存在误差,也能根据该字符检测模型输出的其他准确的包围框以及对应的中心线,确定字符检测结果,能够在极大程度上减小甚至消除字符检测模型的输出误差的影响,保证字符检测结果的准确性。
另外,在本说明书一个或多个实施例中,在本说明书步骤S106以及步骤S306中,在确定第一损失时,还可以分别计算区域检测网络的损失以及区域矫正网络的损失,以确定第一损失。
确定第一损失的公式具体如下:
L1=LS+LRs+LCs
其中,LS表示区域检测网络的损失,并且Ls=LS1+LS2,LS1表示根据区域矫正网络输出的各初始预测包围框的分类损失得到的该区域矫正网络的总分类损失,LS2表示根据区域矫正网络输出的各初始预测包围框的回归损失得到的区域矫正网络总分类损失。LRs表示根据区域矫正网络输出的各预测包围框的回归损失得到的区域矫正网络的总回归损失,LCs表示根据区域矫正网络输出的各包围框的分类损失得到的区域矫正网络的总分类损失。具体计算LRs的过程与上述计算LR的过程一致,本说明书在此不再赘述。
在本说明书一个或多个实施例中,确定LS1的公式具体如下:
Figure BDA0003017302430000341
其中,N表示初始预测包围框的总数,I表示所有初始预测包围框的集合,i表示第i个初始预测包围框,LS1i表示第i个初始预测包围框的回归损失。
在本说明书一个或多个实施例中,该服务器可针对每一个初始预测包围框,将最高置信度对应的类型作为该初始预测包围框的类型。并根据该初始预测包围框与第一标签中与其对应的包围框的交并比,确定第一标签中与其对应的包围框所属类型的特征值。具体的,可判断该初始预测包围框与第一标签中与其对应的包围框的交并比是否大于预设的比值,若是,则确定该初始预测包围框与第一标签中与其对应的包围框匹配,并确定第一标签中与其对应的包围框所属类型的特征值为1,若否,则确定该预测包围框与第一标签中与其对应的包围框不匹配,并确定第一标签中与其对应的包围框所属类型的特征值为0。即,在确定区域检测网络的损失时,只将第一标签中各字符的类型分为两种,即字符类与非字符类(背景类)。
在本说明书一个或多个实施例中,确定LS2的公式具体如下:
Figure BDA0003017302430000342
其中,N表示初始预测包围框的总数,I表示所有初始预测包围框的集合,i表示第i个初始预测包围框,ti2表示第i个初始预测包围框对应类型的置信度,ti1表示第一标签中与第i个初始预测包围框对应的包围框的类型的特征值。
在本说明书提供的一个或多个实施例中,在步骤S106以及步骤S306中确定第二损失时,为了减少计算量,并使得计算得到的第二损失更合理,该服务器还可以按照预设比例对预测中心线图中的像素点进行筛选,具体的,例如,假设预设比例为1:2,即对预测中心线图中的像素点进行筛选后得到的中心线上的像素点总数比非中心线上的像素点总数为1:2,则该服务器可确定预测中心线图内的像素点中属于中心线上的像素点的总数,并以非中心线上的像素点总数为属于中心线上的像素点的总数的二倍为目标,对非中心线上的像素点进行筛选。并对第二标签中的像素点进行相似操作,使最终筛选得到的中心线图中的像素点与第二标签中的像素点一一对应。
在对像素点进行筛选后,确定第二损失的公式具体如下:
Figure BDA0003017302430000351
其中,L2表示第二损失,T表示输出的预测中心线图中筛选后得到的像素点的总数,I表示筛选后得到的所有像素点的集合,i表示第i个像素点。q2i表示第i个像素点的类型特征值,q1i表示第二标签筛选后得到的像素点中,与第i个像素点对应的像素点的类型特征值。
通过本说明书提供的训练模型以及字符检测的方法,通过合成训练样本对标注模型进行预训练,并通过训练得到的标注模型对真实训练样本进行标注,以根据真实训练样本对字符检测模型进行训练,能够解决对训练样本标注成本高的问题,并且能够训练得到准确的字符检测模型,以根据字符检测模型的输出得到准确的字符检测结果。本说明书提供的这种弱监督方法能够在减少标注成本的同时,使训练得到的字符检测模型输出的字符检测结果足够准确。
以上为本说明书的一个或多个实施例提供的一种训练模型以及字符检测的方法,基于同样的思路,本说明书还提供了相应的装置。
图10为本说明书提供的一种训练字符检测模型的装置示意图,该装置包括:
样本标签确定模块500,用于从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
特征提取模块501,用于将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
预测模块502,用于将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
损失确定模块503,用于根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
参数调整模块504,用于根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
可选地,所述预测模块502,用于将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度。
可选地,所述损失确定模块503,用于确定得到的各预测包围框的几何位置特征以及各预测包围框内的图像在各预测类型维度上预测结果的置信度,并确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符所属类型的特征值,针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失,根据该训练样本的第一标签中与该预测包围框对应的包围框所属类型的特征值,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失,根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
可选地,所述预测模块502,用于将该训练样本对应的若干特征图作为输入,输入所述区域检测网络,确定输出的各字符分别对应的各初始预测包围框,针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵,根据得到的该字符对应的若干特征矩阵,通过所述区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
可选地,所述损失确定模块503,用于针对所述区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定所述第一标签中与该初始预测包围框对应的包围框,根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失,针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框,根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失,根据各第一回归损失以及各第二回归损失,确定第一损失。
可选地,所述损失确定模块503,用于针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框,根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失,根据该初始预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应类型的特征值,确定该预测包围框的第一分类损失,根据各第一回归损失以及各第一分类损失确定初始损失,针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框,根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失,针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应的类型,确定该预测包围框的第二分类损失,根据各第二回归损失以及各第二分类损失确定矫正损失,根据所述初始损失与所述矫正损失确定第一损失。
可选地,所述损失确定模块503,用于根据得到的各预测中心线,确定包含各预测中心线的图像,作为该训练样本的中心线图,确定该训练样本的所述中心线图中各像素点的类型特征值,针对每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失,根据各像素点对应的损失,确定该训练样本的第二损失。
可选地,所述样本标签确定模块500,用于从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定所述标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线,根据各包围框内的图像在各预设类型维度上预测结果的置信度,确定各包围框对应的类型,以根据各包围框对应的类型,从各包围框中确定各初始标注包围框,根据各初始标注包围框,以及各字符串的中心线,从各初始标注包围框中确定各标注包围框,将各标注包围框、各标注包围框对应的类型作为所述训练样本的第一标签。
可选地,所述样本标签确定模块500,用于从图像素材库中获取若干背景图像以及若干元素图像,所述元素图像至少包括各字符类型对应的图像以及各字符串对应的图像,根据获取的所述背景图像以及所述元素图像,合成若干合成图像,作为合成训练样本,针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定该合成图像中各字符的包围框以及各包围框内字符的类型作为该合成图像对应合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为合成训练样本的第二标签,根据所述合成训练样本对待训练的标注模型进行训练,得到训练后的所述标注模型,所述标注模型用于对从所述图像数据集中确定的训练样本进行标注。
所述装置还包括:
控制模块505,用于针对每个合成训练样本,以该合成训练样本的第一标签以及第二标签作为该合成训练样本的标签,将该合成训练样本输入所述标注模型的特征提取网络,确定该合成训练样本对应的若干特征图,将该合成训练样本对应的若干特征图作为输入,输入所述标注模型的几何特征检测网络,得到各预测包围框、各预测包围框内的图像在各预测类型维度上预测结果的置信度,以及输入所述标注模型的线特征检测网络,得到各预测中心线,根据得到的各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度与该合成训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失,根据所述第一损失以及所述第二损失,确定所述标注模型的总损失,以所述总损失最小为训练目标,调整所述标注模型的参数。
图11为本说明书提供的一种字符检测装置示意图,该装置包括:
特征提取模块600,用于获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图;
特征输出模块601,用于将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线;
对应关系确定模块602,用于针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线;
包围框组确定模块603,用于确定与同一中心线对应的各包围框为一个包围框组;
检测结果确定模块604,用于针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
可选地,所述特征输出模块601,用于通过所述区域检测网络,确定所述图像中各字符的各初始包围框,根据各初始包围框,对各初始包围框包围的区域进行特征采样,确定若干特征矩阵,根据得到的若干特征矩阵,通过所述区域矫正网络,确定各初始包围框的位置偏移特征,根据各初始包围框的位置偏移特征,对各初始包围框进行矫正,确定所述图像中各字符的包围框。
可选地,所述特征输出模块601,用于通过所述线特征检测网络,对所述图像对应的若干特征图进行上采样,确定若干指定尺度的特征图,将若干指定尺度的特征图进行融合,降低融合后的特征图的通道数,并对所述融合后的特征图进行上采样,得到与所述图像的原始尺度一致的概率图,对所述概率图进行二值化处理,确定所述图像对应的各中心线,以及所述图像对应的中心线图。
可选地,所述检测结果确定模块604,用于根据该包围框组中各包围框的边长特征,确定膨胀值,根据所述膨胀值以及预设的膨胀系数,确定膨胀距离。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述提供的训练模型以及字符检测的方法。
本说明书还提供了图12所示的电子设备的结构示意图。如图12所示,在硬件层面,该电子设备包括处理器、内部总线、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述训练模型以及字符检测的方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (18)

1.一种训练字符检测模型的方法,其特征在于,包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
2.如权利要求1所述的方法,其特征在于,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度。
3.如权利要求2所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
确定得到的各预测包围框的几何位置特征以及各预测包围框内的图像在各预测类型维度上预测结果的置信度,并确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符所属类型的特征值;
针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失;
根据该训练样本的第一标签中与该预测包围框对应的包围框所属类型的特征值,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失;
根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
4.如权利要求2所述的方法,其特征在于,所述几何特征检测网络包括区域检测网络和区域矫正网络;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述区域检测网络,确定输出的各字符分别对应的各初始预测包围框;
针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵;
根据得到的该字符对应的若干特征矩阵,通过所述区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
5.如权利要求4所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
针对所述区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定所述第一标签中与该初始预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
根据各第一回归损失以及各第二回归损失,确定第一损失。
6.如权利要求5所述的方法,其特征在于,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型,所述区域检测网络和所述区域矫正网络,还分别输出初始预测包围框内的图像在各预测类型维度上预测结果的置信度,以及预测包围框内图像在各预测类型维度上预测结果的置信度;
所述方法还包括:
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
根据该初始预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应类型的特征值,确定该预测包围框的第一分类损失;
根据各第一回归损失以及各第一分类损失确定初始损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应的类型,确定该预测包围框的第二分类损失;
根据各第二回归损失以及各第二分类损失确定矫正损失;
根据所述初始损失与所述矫正损失确定第一损失。
7.如权利要求1所述的方法,其特征在于,根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失,具体包括:
根据得到的各预测中心线,确定包含各预测中心线的图像,作为该训练样本的中心线图;
确定该训练样本的所述中心线图中各像素点的类型特征值;
针对每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失;
根据各像素点对应的损失,确定该训练样本的第二损失。
8.如权利要求2所述的方法,其特征在于,从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,具体包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定所述标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线;
根据各包围框内的图像在各预设类型维度上预测结果的置信度,确定各包围框对应的类型,以根据各包围框对应的类型,从各包围框中确定各初始标注包围框;
根据各初始标注包围框,以及各字符串的中心线,从各初始标注包围框中确定各标注包围框;
将各标注包围框、各标注包围框对应的类型作为所述训练样本的第一标签。
9.如权利要求2所述的方法,其特征在于,采用下述方法确定训练标注模型的训练样本:
从图像素材库中获取若干背景图像以及若干元素图像,所述元素图像至少包括各字符类型对应的图像以及各字符串对应的图像;
根据获取的所述背景图像以及所述元素图像,合成若干合成图像,作为合成训练样本;
针对每个合成图像,根据该合成图像中各元素图像的尺寸和位置,确定该合成图像中各字符的包围框以及各包围框内字符的类型作为该合成图像对应合成训练样本的第一标签,以及确定该合成图像中各字符串的中心线作为合成训练样本的第二标签;
根据所述合成训练样本对待训练的标注模型进行训练,得到训练后的所述标注模型,所述标注模型用于对从所述图像数据集中确定的训练样本进行标注。
10.如权利要求9所述的方法,其特征在于,将训练得到的所述标注模型,作为待训练的字符检测模型,所述标注模型采用下述方式进行训练:
针对每个合成训练样本,以该合成训练样本的第一标签以及第二标签作为该合成训练样本的标签;
将该合成训练样本输入所述标注模型的特征提取网络,确定该合成训练样本对应的若干特征图;
将该合成训练样本对应的若干特征图作为输入,输入所述标注模型的几何特征检测网络,得到各预测包围框、各预测包围框内的图像在各预测类型维度上预测结果的置信度,以及输入所述标注模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度与该合成训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述标注模型的总损失,以所述总损失最小为训练目标,调整所述标注模型的参数。
11.一种字符检测的方法,其特征在于,包括:
获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图;
将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线;
针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线;
确定与同一中心线对应的各包围框为一个包围框组;
针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
12.如权利要求11所述的方法,其特征在于,所述几何特征检测网络包括区域检测网络和区域矫正网络;
通过所述几何特征检测网络,确定所述图像中各字符的包围框,具体包括:
通过所述区域检测网络,确定所述图像中各字符的各初始包围框;
根据各初始包围框,对各初始包围框包围的区域进行特征采样,确定若干特征矩阵;
根据得到的若干特征矩阵,通过所述区域矫正网络,确定各初始包围框的位置偏移特征,根据各初始包围框的位置偏移特征,对各初始包围框进行矫正,确定所述图像中各字符的包围框。
13.如权利要求11所述的方法,其特征在于,通过所述线特征检测网络,确定所述图像中的各中心线,具体包括:
通过所述线特征检测网络,对所述图像对应的若干特征图进行上采样,确定若干指定尺度的特征图;
将若干指定尺度的特征图进行融合,降低融合后的特征图的通道数,并对所述融合后的特征图进行上采样,得到与所述图像的原始尺度一致的概率图;
对所述概率图进行二值化处理,确定所述图像对应的各中心线,以及所述图像对应的中心线图。
14.如权利要求11所述的方法,其特征在于,各包围框的几何位置特征至少包括边长特征;
根据该包围框组中各包围框的几何位置特征,确定膨胀距离,具体包括:
根据该包围框组中各包围框的边长特征,确定膨胀值;
根据所述膨胀值以及预设的膨胀系数,确定膨胀距离。
15.一种训练字符检测模型的装置,其特征在于,包括:
样本标签确定模块,用于从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
特征提取模块,用于将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
预测模块,用于将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
损失确定模块,用于根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
参数调整模块,用于根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
16.一种字符检测装置,其特征在于,包括:
特征提取模块,用于获取待检测的图像,将所述图像输入预先训练的字符检测模型中的特征提取网络,确定所述图像对应的若干特征图;
特征输出模块,用于将所述图像对应的若干特征图作为输入,分别输入所述字符检测模型中的几何特征检测网络和线特征检测网络,通过所述几何特征检测网络,确定所述图像中各字符的包围框,以及通过所述线特征检测网络,确定所述图像中的各中心线;
对应关系确定模块,用于针对每个包围框,根据各中心线与该包围框的重叠程度,确定与该包围框对应的中心线;
包围框组确定模块,用于确定与同一中心线对应的各包围框为一个包围框组;
检测结果确定模块,用于针对每个包围框组,根据该包围框组中各包围框的几何位置特征,确定膨胀距离,根据所述膨胀距离,对该包围框组对应的中心线向周围进行膨胀,确定该包围框组的膨胀包围框,作为所述图像的字符检测结果。
17.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~14任一项所述的方法。
18.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~14任一项所述的方法。
CN202110392490.4A 2021-04-13 2021-04-13 一种训练模型以及字符检测的方法及装置 Pending CN113205095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110392490.4A CN113205095A (zh) 2021-04-13 2021-04-13 一种训练模型以及字符检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110392490.4A CN113205095A (zh) 2021-04-13 2021-04-13 一种训练模型以及字符检测的方法及装置

Publications (1)

Publication Number Publication Date
CN113205095A true CN113205095A (zh) 2021-08-03

Family

ID=77026621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110392490.4A Pending CN113205095A (zh) 2021-04-13 2021-04-13 一种训练模型以及字符检测的方法及装置

Country Status (1)

Country Link
CN (1) CN113205095A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158808A (zh) * 2021-03-24 2021-07-23 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件
CN115035192A (zh) * 2022-06-21 2022-09-09 北京远舢智能科技有限公司 一种烟叶布料车和传送带的位置确定方法及装置
CN116452912A (zh) * 2023-03-28 2023-07-18 浙江大学 训练方法、目标检测方法、介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158808A (zh) * 2021-03-24 2021-07-23 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件
CN115035192A (zh) * 2022-06-21 2022-09-09 北京远舢智能科技有限公司 一种烟叶布料车和传送带的位置确定方法及装置
CN116452912A (zh) * 2023-03-28 2023-07-18 浙江大学 训练方法、目标检测方法、介质及电子设备
CN116452912B (zh) * 2023-03-28 2024-04-05 浙江大学 训练方法、目标检测方法、介质及电子设备

Similar Documents

Publication Publication Date Title
CN113205095A (zh) 一种训练模型以及字符检测的方法及装置
CN111160335B (zh) 基于人工智能的图像水印处理方法、装置及电子设备
KR101463499B1 (ko) 문자 인식 장치, 문자 인식 방법, 문자 인식 시스템, 및 문자 인식 프로그램
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN110210400B (zh) 一种表格文件检测方法及设备
CN112597773B (zh) 文档结构化方法、系统、终端及介质
Kim et al. Deep-learning-based recognition of symbols and texts at an industrially applicable level from images of high-density piping and instrumentation diagrams
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN111652266A (zh) 用户界面组件的识别方法、装置、电子设备和存储介质
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN113887608A (zh) 一种模型训练的方法、图像检测的方法及装置
CN116311279A (zh) 样本图像的生成、模型训练、字符识别方法、设备及介质
CN110991520A (zh) 一种生成训练样本的方法以及装置
CN114626437A (zh) 一种模型训练方法、装置、存储介质及电子设备
CN111507250B (zh) 图像识别方法、设备及存储介质
CN117197781A (zh) 一种交通标志识别的方法、装置、存储介质及电子设备
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN115775386A (zh) 用户界面组件的识别方法、装置、计算机设备和存储介质
CN115937875A (zh) 文本识别方法及装置、存储介质、终端
CN114187355A (zh) 一种图像标定方法及装置
CN114495108A (zh) 字符检测方法、装置、电子设备及可读介质
CN112287763A (zh) 图像处理方法、装置、设备及介质
CN111523539A (zh) 一种文字检测方法及装置
CN116259050B (zh) 灌装桶标签文字定位识别方法、装置、设备及检测方法
CN116092105B (zh) 表格结构的解析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination