CN111291754A - 一种文本级联检测方法、装置及存储介质 - Google Patents

一种文本级联检测方法、装置及存储介质 Download PDF

Info

Publication number
CN111291754A
CN111291754A CN202010077342.9A CN202010077342A CN111291754A CN 111291754 A CN111291754 A CN 111291754A CN 202010077342 A CN202010077342 A CN 202010077342A CN 111291754 A CN111291754 A CN 111291754A
Authority
CN
China
Prior art keywords
detection
text
image set
network
dimensional feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010077342.9A
Other languages
English (en)
Other versions
CN111291754B (zh
Inventor
牟永强
范宝杰
黄志艺
杨辉
孙超
郭怡适
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imagedt Co ltd
Original Assignee
Imagedt Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imagedt Co ltd filed Critical Imagedt Co ltd
Priority to CN202010077342.9A priority Critical patent/CN111291754B/zh
Publication of CN111291754A publication Critical patent/CN111291754A/zh
Application granted granted Critical
Publication of CN111291754B publication Critical patent/CN111291754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本级联检测方法、装置及存储介质。所述文本级联检测方法通过获取目标文本检测模型,将待检测的场景图像输入目标文本检测模型,利用第一检测网络对场景图像进行一级检测,得到第一检测框的坐标数据,利用第二检测网络对第一图像进行二级检测,得到第二检测框的坐标数据及对应的文本标签,利用第三检测网络对第二图像进行三级检测,得到第三检测框的坐标数据及对应的文本数据,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,从而得到目标图像及对应的目标文本。本发明能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。

Description

一种文本级联检测方法、装置及存储介质
技术领域
本发明涉及图像文本检测技术领域,尤其涉及一种文本级联检测方法、装置及存储介质。
背景技术
场景图像就是我们所处的生活环境,场景图像中包含了各种各样的视觉信息。文本信息作为视觉信息中一种相对高层的语义内容,对视觉内容的理解和获取至关重要。但现有技术难以准确检测文本区域所占像素较少、分辨率低、图像质量不佳等场景图像中的文本信息。例如检测货架图像中的价格牌,由于价格牌区域相对整体货架图像所占像素较少,导致价格牌的小数点容易被模糊甚至被忽略,难以准确检测货架图像中的价格文本。因此,如何准确检测场景图像中的文本信息,成为当前一个重要任务。
发明内容
本发明提供一种文本级联检测方法、装置及存储介质,以克服现有技术的缺陷,本发明能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
为了解决上述技术问题,第一方面,本发明一实施例提供一种文本级联检测方法,包括:
构建初始文本检测模型;其中,所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络;
将获取的场景图像集输入所述第一检测网络,使所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据;
根据所述第一检测框的坐标数据,从所述场景图像集中提取第一图像集,并将所述第一图像集输入所述第二检测网络,使所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签;
根据所述第二检测框的坐标数据,从所述第一图像集中提取第二图像集,并将所述第二图像集输入所述第三检测网络,使所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据;
根据所述第二检测框对应的文本标签,对所述第三检测框对应的文本数据进行排列组合,得到检测文本,并在所述检测文本为完整文本时结束训练所述初始文本检测模型,得到目标文本检测模型;
将待检测的场景图像输入所述目标文本检测模型,得到目标图像及对应的目标文本。。
进一步地,所述第一、第二、第三检测网络均为Faster R-CNN网络。
进一步地,所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据,包括:
将场景低维特征图像集输入RPN网络,使所述RPN网络根据所述场景低维特征图像集,输出第一正负样本集及对应的坐标数据,并根据所述场景低维特征图像集,得到场景高维特征图像集;其中,所述场景低维特征图像集是对所述场景图像集进行特征提取而获得;
将所述第一正负样本集和所述场景高维特征图像集输入ROI网络,使所述ROI网络根据所述第一正负样本集和所述场景高维特征图像集,输出第一候选框,并将所述第一候选框输入全连接层,使所述全连接层根据所述第一候选框,输出第一候选框的分类得分和回归坐标;
将上述操作作为对所述第一测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第一测试网络。
进一步地,所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签,包括:
将第一低维特征图像集输入RPN网络,使所述RPN网络根据所述第一低维特征图像集,输出第二正负样本集及对应的坐标数据,并根据所述第一低维特征图像集,得到第一高维特征图像集;其中,所述第一低维特征图像集是对所述第一图像集进行特征提取而获得;
将所述第二正负样本集和所述第一高维特征图像集输入ROI网络,使所述ROI网络根据所述第二正负样本集和所述第一高维特征图像集,输出第二候选框,并将所述第二候选框输入全连接层,使所述全连接层根据所述第二候选框,输出第二候选框的分类得分和回归坐标;
将上述操作作为对所述第二测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第二测试网络。
进一步地,在所述将所述第二候选框输入全连接层后,还包括:使所述全连接层对所述第二候选框添加对应的文本标签。
进一步地,所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据,包括:
将第二低维特征图像集输入RPN网络,使所述RPN网络根据所述第二低维特征图像集,输出第三正负样本集及对应的坐标数据,并根据所述第二低维特征图像集,得到第二高维特征图像集;其中,所述第二低维特征图像集是对所述第二图像集进行特征提取而获得;
将所述第三正负样本集和所述第二高维特征图像集输入ROI网络,使所述ROI网络根据所述第三正负样本集和所述第二高维特征图像集,输出第三候选框,并将所述第三候选框输入全连接层,使所述全连接层根据所述第三候选框,输出第三候选框的分类得分和回归坐标;
将上述操作作为对所述第三测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第三测试网络。
进一步地,在所述将所述第三候选框输入全连接层后,还包括:使所述全连接层识别所述第二候选框中的文本数据。
第二方面,本发明一实施例提供一种文本级联检测装置,包括:
初始文本检测模型构建模块,用于构建初始文本检测模型;其中,所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络;
第一检测网络训练模块,用于将获取的场景图像集输入所述第一检测网络,使所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据;
第二检测网络训练模块,用于根据所述第一检测框的坐标数据,从所述场景图像集中提取第一图像集,并将所述第一图像集输入所述第二检测网络,使所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签;
第三检测网络训练模块,用于根据所述第二检测框的坐标数据,从所述第一图像集中提取第二图像集,并将所述第二图像集输入所述第三检测网络,使所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据;
目标文本检测模型获取模块,用于根据所述第二检测框对应的文本标签,对所述第三检测框对应的文本数据进行排列组合,得到检测文本,并在所述检测文本为完整文本时结束训练所述初始文本检测模型,得到目标文本检测模型;
场景图像检测模块,用于将待检测的场景图像输入所述目标文本检测模型,得到目标图像及对应的目标文本。
第三方面,本发明一实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的文本级联检测方法。
相比于现有技术,本发明的实施例,具有如下有益效果:
通过获取目标文本检测模型,将待检测的场景图像输入目标文本检测模型,利用第一检测网络对场景图像进行一级检测,得到第一检测框的坐标数据,利用第二检测网络对第一图像进行二级检测,得到第二检测框的坐标数据及对应的文本标签,利用第三检测网络对第二图像进行三级检测,得到第三检测框的坐标数据及对应的文本数据,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,从而得到目标图像及对应的目标文本。本发明能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
附图说明
图1为本发明第一实施例中的一种文本级联检测方法的流程示意图;
图2为本发明第一实施例中的优选实施例的流程示意图;
图3为本发明第一实施例中的一优选实施例的流程示意图;
图4为本发明第一实施例中的另一优选实施例的流程示意图;
图5为本发明第二实施例中的一种文本级联检测装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
请参阅图1-4。
如图1所示,第一实施例提供一种文本级联检测方法,包括步骤S1~S6:
S1、构建初始文本检测模型;其中,初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络。
S2、将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集,输出第一检测框的坐标数据。
S3、根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签。
S4、根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络根据第二图像集,输出第三检测框的坐标数据及对应的文本数据。
S5、根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,并在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型。
S6、将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本。
在本实施例的一种优选的实施方式当中,第一、第二、第三检测网络均为FasterR-CNN网络。
在步骤S1中,通过构建初始文本检测模型,在初始文本检测模型中引入第一、第二、第三检测网络,使得在对第一、第二、第三检测网络进行训练后,能够利用第一、第二、第三检测网络实现多级检测场景图像中的文本,从而提高文本检测精度。
在步骤S2中,通过将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集,输出第一检测框的坐标数据,实现训练第一检测网络,有利于提高第一检测网络的文本检测精度。
在步骤S3中,通过根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签,实现训练第二检测网络,有利于提高第二检测网络的文本检测精度。
在步骤S4中,通过根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络根据第二图像集,输出第三检测框的坐标数据及对应的文本数据,实现训练第三检测网络,有利于提高第三检测网络的文本检测精度。
在步骤S5中,通过判断检测文本的完整性,在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型,在检测文本不为完整文本时继续训练初始文本模型,使得只有当得到的检测文本为完整文本时,才能得到目标文本检测模型,有利于提高目标文本检测模型的文本检测精度。
在步骤S6中,通过将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本,能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
以货架图像集为例。
首先将获取的货架图像集(即场景图像集)输入第一检测网络,使第一检测网络根据货架图像集,输出价格牌检测框(即第一检测框)的坐标数据,然后根据价格牌检测框的坐标数据,从货架图像集中提取价格牌图像集(即第一图像集),并将价格牌图像集输入第二检测网络,使第二检测网络根据价格牌图像集,输出多数字检测框(即第二检测框)的坐标数据及对应的价格单位(即元、角、分等文本标签),接着根据多数字检测框的坐标数据,从价格牌图像集中提取多数字图像集(即第二图像集),并将多数字图像集输入第三检测网络,使第三检测网络根据多数字图像集,输出单数字检测框(即第三检测框)的坐标数据及对应的价格数字(即0、1、2、3、4、5、6、7、8、9的文本数据),从而根据多数字检测框对应的价格单位,对单数字检测框对应的价格数字进行排列组合,以添加小数点得到价格文本(即检测文本),并在价格文本为完整价格时结束训练初始文本检测模型,得到目标文本检测模型,最终将待检测的场景图像输入目标文本检测模型,得到价格牌图像(即目标图像)及对应的价格文本(即目标文本)。
本实施例首先将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集输出第一检测框的坐标数据,然后根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签,接着根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络输出第三检测框的坐标数据及对应的文本数据,从而根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,并在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型,最终将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本。
本实施例通过获取目标文本检测模型,将待检测的场景图像输入目标文本检测模型,利用第一检测网络对场景图像进行一级检测,得到第一检测框的坐标数据,利用第二检测网络对第一图像进行二级检测,得到第二检测框的坐标数据及对应的文本标签,利用第三检测网络对第二图像进行三级检测,得到第三检测框的坐标数据及对应的文本数据,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,从而得到目标图像及对应的目标文本。
本实施例能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
如图2所示,在优选的实施例当中,步骤S2,包括步骤S21~S23:
S21、将场景低维特征图像集输入RPN网络,使RPN网络根据场景低维特征图像集,输出第一正负样本集及对应的坐标数据,并根据场景低维特征图像集,得到场景高维特征图像集;其中,场景低维特征图像集是对场景图像集进行特征提取而获得。
S22、将第一正负样本集和场景高维特征图像集输入ROI网络,使ROI网络根据第一正负样本集和场景高维特征图像集,输出第一候选框,并将第一候选框输入全连接层,使全连接层根据第一候选框,输出第一候选框的分类得分和回归坐标。
S23、将上述操作作为对第一测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练第一测试网络。
在步骤S21中,将场景图像集中的每一场景图像输入卷积神经网络(比如VGG网络),由卷积神经网络将每一场景图像前向传输至共享的卷积层,得到场景低维特征图像集。将获取的场景低维特征图像集一路输入RPN网络,由RPN网络根据场景低维特征图像集,输出第一正负样本集及对应的坐标数据,一路由卷积神经网络继续前向传输,得到场景高维特征图像集。
其中,第一正样本为第一检测框、第一负样本为非第一检测框。
RPN网络的损失函数如式(1)所示:
Figure BDA0002378382630000091
式(1)中,i表示一个批次中第i个检测框,pi表示第i个检测框是第一正样本的概率,当第i个检测框是第一正样本时pi *为1,反之为0,ti表示预测的第一检测框的坐标数据,ti *为已标记的第一检测框的坐标数据。
分类损失为如式(2)所示的交叉熵损失函数,回归损失为如式(3)所示的SmoothL1损失函数:
Figure BDA0002378382630000092
Figure BDA0002378382630000093
在式(3)中,x表示神经网络的预测值。
在步骤S22中,将第一正负样本集和场景高维特征图像集输入到ROI网络,由ROI网络根据第一正负样本集和场景高维特征图像集,输出第一候选框,并将第一候选框输入全连接层,由全连接层根据第一候选框,输出第一候选框的分类得分和回归坐标。
根据经筛选的第一正负样本的坐标数据,将其映射到场景高维特征图中,对第一正负样本按照固定数目进行分块(比如固定分为7×7块),再在每一个区域块上完成最大池化操作,提取对应第一正负样本建议区域的固定长度的特征向量,即第一候选框。将第一候选框输入全连接层,由全连接层根据第一候选框,输出第一候选框的分类得分和回归坐标。其中,损失函数如式(1)所示。
在步骤S23中,通过预设阈值设定第一检测网络的训练次数,采用交替训练方式对第一测试网络进行训练直至达到预设阈值。
其中,交替训练方式为:根据现有网络初始化权值w,训练RPN网络;由RPN网络输出场景图像集的第一候选框,用第一候选框训练Faster R-CNN网络,更新权值w;重复上述操作,直至收敛。
如图3所示,在一优选的实施例当中,步骤S3,包括步骤S31~S33:
S31、将第一低维特征图像集输入RPN网络,使RPN网络根据第一低维特征图像集,输出第二正负样本集及对应的坐标数据,并根据第一低维特征图像集,得到第一高维特征图像集;其中,第一低维特征图像集是对第一图像集进行特征提取而获得。
S32、将第二正负样本集和第一高维特征图像集输入ROI网络,使ROI网络根据第二正负样本集和第一高维特征图像集,输出第二候选框,并将第二候选框输入全连接层,使全连接层根据第二候选框,输出第二候选框的分类得分和回归坐标。
S33、将上述操作作为对第二测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练第二测试网络。
在本实施例的一种优选的实施方式当中,在将第二候选框输入全连接层后,还包括:使全连接层对第二候选框添加对应的文本标签。
在步骤S31中,将第一图像集中的每一第一图像输入卷积神经网络(比如VGG网络),由卷积神经网络将每一第一图像前向传输至共享的卷积层,得到第一低维特征图像集。将获取的第一低维特征图像集一路输入RPN网络,由RPN网络根据第一低维特征图像集,输出第二正负样本集及对应的坐标数据,一路由卷积神经网络继续前向传输,得到第一高维特征图像集。
其中,第二正样本为第二检测框、第二负样本为非第二检测框。
RPN网络的损失函数如式(4)所示:
Figure BDA0002378382630000101
式(4)中,i表示一个批次中第i个检测框,pi表示第i个检测框是第二正样本的概率,当第i个检测框是第二正样本时pi *为1,反之为0,ti表示预测的第二检测框的坐标数据,ti *为已标记的第二检测框的坐标数据。
分类损失为如式(5)所示的交叉熵损失函数,回归损失为如式(6)所示的SmoothL1损失函数:
Figure BDA0002378382630000111
Figure BDA0002378382630000112
在式(6)中,x表示神经网络的预测值。
在步骤S32中,将第二正负样本集和第一高维特征图像集输入到ROI网络,由ROI网络根据第二正负样本集和第一高维特征图像集,输出第二候选框,并将第二候选框输入全连接层,由全连接层根据第二候选框,输出第二候选框的分类得分和回归坐标。
根据经筛选的第二正负样本的坐标数据,将其映射到第一高维特征图中,对第二正负样本按照固定数目进行分块(比如固定分为7×7块),再在每一个区域块上完成最大池化操作,提取对应第二正负样本建议区域的固定长度的特征向量,即第二候选框。将第二候选框输入全连接层,由全连接层根据第二候选框,输出第二候选框的分类得分和回归坐标。其中,损失函数如式(4)所示。
在将第二候选框输入全连接层后,由全连接层根据交叉熵函数对第二候选框进行分类训练,以对第二候选框添加对应的文本标签。
在步骤S33中,通过预设阈值设定第二检测网络的训练次数,采用交替训练方式对第二测试网络进行训练直至达到预设阈值。
其中,交替训练方式为:根据现有网络初始化权值w,训练RPN网络;由RPN网络输出第一图像集的第二候选框,用第二候选框训练Faster R-CNN网络,更新权值w;重复上述操作,直至收敛。
如图4所示,在另一优选的实施例当中,步骤S4,包括步骤S41~S43:
S41、将第二低维特征图像集输入RPN网络,使RPN网络根据第二低维特征图像集,输出第三正负样本集及对应的坐标数据,并根据第二低维特征图像集,得到第二高维特征图像集;其中,第二低维特征图像集是对第二图像集进行特征提取而获得。
S42、将第三正负样本集和第二高维特征图像集输入ROI网络,使ROI网络根据第三正负样本集和第二高维特征图像集,输出第三候选框,并将第三候选框输入全连接层,使全连接层根据第三候选框,输出第三候选框的分类得分和回归坐标。
S43、将上述操作作为对第三测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练第三测试网络。
在本实施例的一种优选实施方式当中,在将第三候选框输入全连接层后,还包括:使全连接层识别第二候选框中的文本数据。
在步骤S41中,将第二图像集中的每一第二图像输入卷积神经网络(比如VGG网络),由卷积神经网络将每一第二图像前向传输至共享的卷积层,得到第二低维特征图像集。将获取的第二低维特征图像集一路输入RPN网络,由RPN网络根据第二低维特征图像集,输出第三正负样本集及对应的坐标数据,一路由卷积神经网络继续前向传输,得到第二高维特征图像集。
其中,第三正样本为第三检测框、第三负样本为非第三检测框。
RPN网络的损失函数如式(7)所示:
Figure BDA0002378382630000121
式(7)中,i表示一个批次中第i个检测框,pi表示第i个检测框是第三正样本的概率,当第i个检测框是第三正样本时pi *为1,反之为0,ti表示预测的第三检测框的坐标数据,ti *为已标记的第三检测框的坐标数据。
分类损失为如式(8)所示的交叉熵损失函数,回归损失为如式(9)所示的SmoothL1损失函数:
Figure BDA0002378382630000131
Figure BDA0002378382630000132
在式(9)中,x表示神经网络的预测值。
在步骤S42中,将第三正负样本集和第二高维特征图像集输入到ROI网络,由ROI网络根据第三正负样本集和第二高维特征图像集,输出第三候选框,并将第三候选框输入全连接层,由全连接层根据第三候选框,输出第三候选框的分类得分和回归坐标。
根据经筛选的第三正负样本的坐标数据,将其映射到第二高维特征图中,对第三正负样本按照固定数目进行分块(比如固定分为7×7块),再在每一个区域块上完成最大池化操作,提取对应第三正负样本建议区域的固定长度的特征向量,即第三候选框。将第三候选框输入全连接层,由全连接层根据第三候选框,输出第三候选框的分类得分和回归坐标。其中,损失函数如式(7)所示。
在将第三候选框输入全连接层后,由全连接层根据交叉熵函数对第二候选框进行分类训练,以对第三候选框添加对应的文本标签。
在步骤S43中,通过预设阈值设定第三检测网络的训练次数,采用交替训练方式对第三测试网络进行训练直至达到预设阈值。
其中,交替训练方式为:根据现有网络初始化权值w,训练RPN网络;由RPN网络输出第二图像集的第三候选框,用第三候选框训练Faster R-CNN网络,更新权值w;重复上述操作,直至收敛。
请参阅图5。
如图5所示,第二实施例提供一种文本级联检测装置,包括:初始文本检测模型构建模块21,用于构建初始文本检测模型;其中,初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络;第一检测网络训练模块22,用于将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集,输出第一检测框的坐标数据;第二检测网络训练模块23,用于根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签;第三检测网络训练模块24,用于根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络根据第二图像集,输出第三检测框的坐标数据及对应的文本数据;目标文本检测模型获取模块25,用于根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,并在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型;场景图像检测模块26,用于将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本。
在本实施例的一种优选的实施方式当中,第一、第二、第三检测网络均为FasterR-CNN网络。
通过初始文本检测模型构建模块21,构建初始文本检测模型,在初始文本检测模型中引入第一、第二、第三检测网络,使得在对第一、第二、第三检测网络进行训练后,能够利用第一、第二、第三检测网络实现多级检测场景图像中的文本,从而提高文本检测精度。
通过第一检测网络训练模块22,将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集,输出第一检测框的坐标数据,实现训练第一检测网络,有利于提高第一检测网络的文本检测精度。
通过第二检测网络训练模块23,根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签,实现训练第二检测网络,有利于提高第二检测网络的文本检测精度。
通过第三检测网络训练模块24,根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络根据第二图像集,输出第三检测框的坐标数据及对应的文本数据,实现训练第三检测网络,有利于提高第三检测网络的文本检测精度。
通过目标文本检测模型获取模块25,判断检测文本的完整性,在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型,在检测文本不为完整文本时继续训练初始文本模型,使得只有当得到的检测文本为完整文本时,才能得到目标文本检测模型,有利于提高目标文本检测模型的文本检测精度。
通过场景图像检测模块26,将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本,能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
以货架图像集为例。
在通过初始文本检测模型构建模块21,构建初始文本检测模型后,首先通过第一检测网络训练模块22,将获取的货架图像集(即场景图像集)输入第一检测网络,使第一检测网络根据货架图像集,输出价格牌检测框(即第一检测框)的坐标数据,然后通过第二检测网络训练模块23,根据价格牌检测框的坐标数据,从货架图像集中提取价格牌图像集(即第一图像集),并将价格牌图像集输入第二检测网络,使第二检测网络根据价格牌图像集,输出多数字检测框(即第二检测框)的坐标数据及对应的价格单位(即元、角、分等文本标签),接着通过第三检测网络训练模块24,根据多数字检测框的坐标数据,从价格牌图像集中提取多数字图像集(即第二图像集),并将多数字图像集输入第三检测网络,使第三检测网络根据多数字图像集,输出单数字检测框(即第三检测框)的坐标数据及对应的价格数字(即0、1、2、3、4、5、6、7、8、9的文本数据),从而通过目标文本检测模型获取模块25,根据多数字检测框对应的价格单位,对单数字检测框对应的价格数字进行排列组合,以添加小数点得到价格文本(即检测文本),并在价格文本为完整价格时结束训练初始文本检测模型,得到目标文本检测模型,最终通过场景图像检测模型26将待检测的场景图像输入目标文本检测模型,得到价格牌图像(即目标图像)及对应的价格文本(即目标文本)。
本实施例在通过初始文本检测模型构建模块21,构建初始文本检测模型后,首先通过第一检测网络训练模块22,将获取的场景图像集输入第一检测网络,使第一检测网络根据场景图像集输出第一检测框的坐标数据,然后通过第二检测网络训练模块23,根据第一检测框的坐标数据,从场景图像集中提取第一图像集,并将第一图像集输入第二检测网络,使第二检测网络根据第一图像集,输出第二检测框的坐标数据及对应的文本标签,接着通过第三检测网络训练模块24,根据第二检测框的坐标数据,从第一图像集中提取第二图像集,并将第二图像集输入第三检测网络,使第三检测网络输出第三检测框的坐标数据及对应的文本数据,从而通过目标文本检测模型获取模块25,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,并在检测文本为完整文本时结束训练初始文本检测模型,得到目标文本检测模型,最终通过场景图像检测模型26将待检测的场景图像输入目标文本检测模型,得到目标图像及对应的目标文本。
本实施例通过获取目标文本检测模型,将待检测的场景图像输入目标文本检测模型,利用第一检测网络对场景图像进行一级检测,得到第一检测框的坐标数据,利用第二检测网络对第一图像进行二级检测,得到第二检测框的坐标数据及对应的文本标签,利用第三检测网络对第二图像进行三级检测,得到第三检测框的坐标数据及对应的文本数据,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,从而得到目标图像及对应的目标文本。
本实施例能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
第三实施例提供一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如上所述的文本级联检测方法,且能达到与之相同的有益效果。
综上所述,实施本发明的实施例,具有如下有益效果:
通过获取目标文本检测模型,将待检测的场景图像输入目标文本检测模型,利用第一检测网络对场景图像进行一级检测,得到第一检测框的坐标数据,利用第二检测网络对第一图像进行二级检测,得到第二检测框的坐标数据及对应的文本标签,利用第三检测网络对第二图像进行三级检测,得到第三检测框的坐标数据及对应的文本数据,根据第二检测框对应的文本标签,对第三检测框对应的文本数据进行排列组合,得到检测文本,从而得到目标图像及对应的目标文本。本发明能够利用目标文本检测模型,实现多级检测场景图像中的文本,从而提高文本检测精度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (9)

1.一种文本级联检测方法,其特征在于,包括:
构建初始文本检测模型;其中,所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络;
将获取的场景图像集输入所述第一检测网络,使所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据;
根据所述第一检测框的坐标数据,从所述场景图像集中提取第一图像集,并将所述第一图像集输入所述第二检测网络,使所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签;
根据所述第二检测框的坐标数据,从所述第一图像集中提取第二图像集,并将所述第二图像集输入所述第三检测网络,使所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据;
根据所述第二检测框对应的文本标签,对所述第三检测框对应的文本数据进行排列组合,得到检测文本,并在所述检测文本为完整文本时结束训练所述初始文本检测模型,得到目标文本检测模型;
将待检测的场景图像输入所述目标文本检测模型,得到目标图像及对应的目标文本。
2.如权利要求1所述的文本级联检测方法,其特征在于,所述第一、第二、第三检测网络均为Faster R-CNN网络。
3.如权利要求1所述的文本级联检测方法,其特征在于,所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据,包括:
将场景低维特征图像集输入RPN网络,使所述RPN网络根据所述场景低维特征图像集,输出第一正负样本集及对应的坐标数据,并根据所述场景低维特征图像集,得到场景高维特征图像集;其中,所述场景低维特征图像集是对所述场景图像集进行特征提取而获得;
将所述第一正负样本集和所述场景高维特征图像集输入ROI网络,使所述ROI网络根据所述第一正负样本集和所述场景高维特征图像集,输出第一候选框,并将所述第一候选框输入全连接层,使所述全连接层根据所述第一候选框,输出第一候选框的分类得分和回归坐标;
将上述操作作为对所述第一测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第一测试网络。
4.如权利要求1所述的文本级联检测方法,其特征在于,所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签,包括:
将第一低维特征图像集输入RPN网络,使所述RPN网络根据所述第一低维特征图像集,输出第二正负样本集及对应的坐标数据,并根据所述第一低维特征图像集,得到第一高维特征图像集;其中,所述第一低维特征图像集是对所述第一图像集进行特征提取而获得;
将所述第二正负样本集和所述第一高维特征图像集输入ROI网络,使所述ROI网络根据所述第二正负样本集和所述第一高维特征图像集,输出第二候选框,并将所述第二候选框输入全连接层,使所述全连接层根据所述第二候选框,输出第二候选框的分类得分和回归坐标;
将上述操作作为对所述第二测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第二测试网络。
5.如权利要求4所述的文本级联检测方法,其特征在于,在所述将所述第二候选框输入全连接层后,还包括:使所述全连接层对所述第二候选框添加对应的文本标签。
6.如权利要求1所述的文本级联检测方法,其特征在于,所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据,包括:
将第二低维特征图像集输入RPN网络,使所述RPN网络根据所述第二低维特征图像集,输出第三正负样本集及对应的坐标数据,并根据所述第二低维特征图像集,得到第二高维特征图像集;其中,所述第二低维特征图像集是对所述第二图像集进行特征提取而获得;
将所述第三正负样本集和所述第二高维特征图像集输入ROI网络,使所述ROI网络根据所述第三正负样本集和所述第二高维特征图像集,输出第三候选框,并将所述第三候选框输入全连接层,使所述全连接层根据所述第三候选框,输出第三候选框的分类得分和回归坐标;
将上述操作作为对所述第三测试网络的一次训练,重复执行上述操作,并在累计的训练次数达到预设阈值时,结束训练所述第三测试网络。
7.如权利要求6所述的文本级联检测方法,其特征在于,在所述将所述第三候选框输入全连接层后,还包括:使所述全连接层识别所述第二候选框中的文本数据。
8.一种文本级联检测装置,其特征在于,包括:
初始文本检测模型构建模块,用于构建初始文本检测模型;其中,所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络;
第一检测网络训练模块,用于将获取的场景图像集输入所述第一检测网络,使所述第一检测网络根据所述场景图像集,输出第一检测框的坐标数据;
第二检测网络训练模块,用于根据所述第一检测框的坐标数据,从所述场景图像集中提取第一图像集,并将所述第一图像集输入所述第二检测网络,使所述第二检测网络根据所述第一图像集,输出第二检测框的坐标数据及对应的文本标签;
第三检测网络训练模块,用于根据所述第二检测框的坐标数据,从所述第一图像集中提取第二图像集,并将所述第二图像集输入所述第三检测网络,使所述第三检测网络根据所述第二图像集,输出第三检测框的坐标数据及对应的文本数据;
目标文本检测模型获取模块,用于根据所述第二检测框对应的文本标签,对所述第三检测框对应的文本数据进行排列组合,得到检测文本,并在所述检测文本为完整文本时结束训练所述初始文本检测模型,得到目标文本检测模型;
场景图像检测模块,用于将待检测的场景图像输入所述目标文本检测模型,得到目标图像及对应的目标文本。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7所述的文本级联检测方法。
CN202010077342.9A 2020-01-22 2020-01-22 一种文本级联检测方法、装置及存储介质 Active CN111291754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010077342.9A CN111291754B (zh) 2020-01-22 2020-01-22 一种文本级联检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077342.9A CN111291754B (zh) 2020-01-22 2020-01-22 一种文本级联检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111291754A true CN111291754A (zh) 2020-06-16
CN111291754B CN111291754B (zh) 2023-05-12

Family

ID=71029221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077342.9A Active CN111291754B (zh) 2020-01-22 2020-01-22 一种文本级联检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111291754B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990147A (zh) * 2021-05-06 2021-06-18 北京远鉴信息技术有限公司 一种涉政图像的识别方法、装置、电子设备及存储介质
CN115309343A (zh) * 2022-10-09 2022-11-08 北京永洪商智科技有限公司 一种多级检测的数据存储方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019057169A1 (zh) * 2017-09-25 2019-03-28 腾讯科技(深圳)有限公司 文本检测方法、存储介质和计算机设备
CN109711401A (zh) * 2018-12-03 2019-05-03 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019057169A1 (zh) * 2017-09-25 2019-03-28 腾讯科技(深圳)有限公司 文本检测方法、存储介质和计算机设备
CN109711401A (zh) * 2018-12-03 2019-05-03 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
易尧华;何婧婧;卢利琼;汤梓伟;: "顾及目标关联的自然场景文本检测" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990147A (zh) * 2021-05-06 2021-06-18 北京远鉴信息技术有限公司 一种涉政图像的识别方法、装置、电子设备及存储介质
CN115309343A (zh) * 2022-10-09 2022-11-08 北京永洪商智科技有限公司 一种多级检测的数据存储方法及系统
CN115309343B (zh) * 2022-10-09 2022-12-16 北京永洪商智科技有限公司 一种多级检测的数据存储方法及系统

Also Published As

Publication number Publication date
CN111291754B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111368788B (zh) 图像识别模型的训练方法、装置及电子设备
CN110647829A (zh) 一种票据的文本识别方法及系统
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN113205160B (zh) 模型训练、文本识别方法、装置、电子设备和介质
CN111783760B (zh) 文字识别的方法、装置、电子设备及计算机可读存储介质
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN112308237A (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
US20230196805A1 (en) Character detection method and apparatus , model training method and apparatus, device and storage medium
CN111291754A (zh) 一种文本级联检测方法、装置及存储介质
CN110659398A (zh) 一种基于数学图表类数据集的视觉问答方法
CN111694954B (zh) 图像分类方法、装置和电子设备
CN117197904A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
WO2022126917A1 (zh) 基于深度学习的人脸图像评估方法、装置、设备及介质
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN116645683A (zh) 基于提示学习的签名笔迹鉴别方法、系统及存储介质
CN113837157A (zh) 题目类型识别方法、系统和存储介质
CN114529927A (zh) 文字识别方法、装置及存储介质
CN114187488A (zh) 图像处理方法、装置、设备、介质及程序产品
CN113011132A (zh) 竖排文字识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant