CN112686218A - 文本检测模型的训练方法、装置、可读存储介质及设备 - Google Patents

文本检测模型的训练方法、装置、可读存储介质及设备 Download PDF

Info

Publication number
CN112686218A
CN112686218A CN202110255729.3A CN202110255729A CN112686218A CN 112686218 A CN112686218 A CN 112686218A CN 202110255729 A CN202110255729 A CN 202110255729A CN 112686218 A CN112686218 A CN 112686218A
Authority
CN
China
Prior art keywords
value
function
sample
representing
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110255729.3A
Other languages
English (en)
Other versions
CN112686218B (zh
Inventor
王德强
刘霄
熊泽法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110255729.3A priority Critical patent/CN112686218B/zh
Publication of CN112686218A publication Critical patent/CN112686218A/zh
Application granted granted Critical
Publication of CN112686218B publication Critical patent/CN112686218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种文本检测模型的训练方法、装置、可读存储介质及设备。训练方法包括:将待处理样本图像输入卷积网络模型,得到预测值;获取样本图像的标注值;根据标注值、预测值以及损失函数得到预测损失;以及根据预测损失调整卷积网络模型的参数;损失函数包括简单样本判定函数和权重系数函数;简单样本判定函数用于过滤预测置信度大于预设第一阈值的样本图像,以及预测置信度小于预设第二阈值的样本图像,权重系数函数用于调节未被过滤样本图像的权重。本发明实施例可以过滤掉简单正样本和简单负样本,并结合权重值的调节,使模型能关注更有价值的样本图像。

Description

文本检测模型的训练方法、装置、可读存储介质及设备
技术领域
本发明涉及文本检测模型的训练技术领域,尤其涉及一种文本检测模型的训练方法、装置、可读存储介质及设备。
背景技术
在智能化教育场景中,图像文本区域的定位是进行文本识别和内容理解的前置环节,文本行的检测精度直接影响到后续任务的处理效果。目前,基于深度学习的文本检测模型分为两大类:基于预设框的回归方法和基于文本区域的像素分割方法。其中,基于文本区域的像素分割方法适应性强,对细长文本、弯曲文本优势显著。基于像素分割方法的文本检测模型中,文本分割任务将图像分割为文本区域和非文本区域,是典型的二分类任务,因此,像素分割方法的文本检测模型训练过程的损失函数多选用二分类交叉熵。
但是,在计算机视觉任务中,样本不平衡是困扰模型收敛的一个关键因素,很容易造成模型过度拟合样本数量多的类别,从而引起样本数量少的类别训练不充分。特别地,在像素分割方法的文本检测任务中,属于文本区域的像素点总量远少于非文本区域像素点总量,训练过程面临严重的类别不平衡问题。此外,对于同样属于同类别的像素点,也存在难易样本的区别,例如,多数情况下,文本区域中心附近的像素点比文本区域边界附近的像素点更容易预测。
针对正负样本不平衡问题,常见的做法是控制正负样本的比例或者对不同的样本引入不同的权重,从而缓解不平衡问题带来的性能下降。例如,OHEM(在线难例样本挖掘)、FocalLoss等方法。OHEM方法通过设计新的样本采样策略,根据负样本的损失函数计算值进行排序,只取数值大的样本,同时控制正负样本数量为1:3。这种方法能够舍弃掉大量简单的负样本,促使模型更加关注正样本和困难的负样本,但对于教育场景的文本检测任务来说,存在一些密集分布的文本行,这类图像中正样本数量多,也存在大量的简单正样本,OHEM方法单纯过滤掉简单的负样本,却没有对简单正样本做处理,极容易造成模型无法关注有价值的困难正样本。
对于难易样本不平衡问题,FocalLoss方法根据样本的预测置信度,将训练样本划分为简单样本和困难样本,并采用动态加权的策略,自适应调整每个样本的权重,从而缓解难易样本的不平衡问题。但是,FocalLoss方法的难易样本划分标准过度依赖模型预测的置信度,当某个训练样本存在错误标注时,FocalLoss方法的自适应加权策略,不同样本之间权重差异大,容易造成不稳定的训练过程,甚至带来模型训练发散的问题。特别是分割方法的文本检测任务,文本区域与非文本区域没有清晰的纹理边界,标注过程必然存在大量的噪声,依赖置信度界定难易样本的FocalLoss方法很难发挥作用。
发明内容
为了解决上述技术问题中的至少一个,本发明实施例提供了一种文本检测模型的训练方法、装置、可读存储介质及设备,对于密集文本行定位检测,可以过滤掉简单正样本和简单负样本,并结合权重值的调节,使模型能关注更有价值的样本图像。
一方面,本发明实施例提供一种文本检测模型的训练方法,包括:
将待处理样本图像输入卷积网络模型,得到预测值;
获取样本图像的标注值;
根据所述标注值、所述预测值以及损失函数得到预测损失;以及
根据所述预测损失调整所述卷积网络模型的参数;
其中,所述损失函数包括简单样本判定函数和权重系数函数;
所述简单样本判定函数用于过滤所述预测置信度大于预设第一阈值的样本图像,以及过滤所述预测置信度小于预设第二阈值的样本图像,所述权重系数函数用于调节未被过滤样本图像的权重。
在本发明一个实施例中,所述权重系数函数用于动态自适应调节未被过滤样本图像的权重。
在本发明一个实施例中,所述权重系数函数基于指数形式的权重调节因子以及预测值,动态自适应调节未被过滤样本图像的权重。
在本发明一个实施例中,所述权重系数函数的取值限制在预设范围内。
在本发明一个实施例中,所述损失函数采用如下公式:
Figure DEST_PATH_IMAGE001
Figure 77419DEST_PATH_IMAGE002
Figure 561271DEST_PATH_IMAGE003
Figure 137746DEST_PATH_IMAGE004
Figure 329693DEST_PATH_IMAGE005
其中,
Figure 940803DEST_PATH_IMAGE006
表示损失函数;
Figure 560003DEST_PATH_IMAGE007
表示所述标注值,
Figure 249873DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 540783DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 975043DEST_PATH_IMAGE010
表示所述预测值;
函数
Figure 93041DEST_PATH_IMAGE011
表示针对正样本的简单样本判定函数,
Figure 644108DEST_PATH_IMAGE012
为所述第一阈值,
Figure 443436DEST_PATH_IMAGE013
函数
Figure 533533DEST_PATH_IMAGE014
表示针对负样本的简单样本判定函数,
Figure 291273DEST_PATH_IMAGE015
为所述第二阈值,
Figure 234696DEST_PATH_IMAGE016
函数
Figure 900033DEST_PATH_IMAGE017
表示针对正样本的权重系数函数;
函数
Figure 904023DEST_PATH_IMAGE018
表示针对负样本的权重系数函数;
[
Figure 567086DEST_PATH_IMAGE019
Figure 623904DEST_PATH_IMAGE020
]表示所述权重系数函数的取值范围。
在本发明一个实施例中,所述权重系数函数的取值范围为1~5。
在本发明一个实施例中,函数
Figure 257711DEST_PATH_IMAGE017
的值随着所述预测值
Figure 818005DEST_PATH_IMAGE010
的增大而减小;函数
Figure 386390DEST_PATH_IMAGE018
的值随着所述预测值
Figure 399345DEST_PATH_IMAGE010
的增大而增大。
在本发明一个实施例中,所述第一阈值
Figure 580053DEST_PATH_IMAGE012
与所述第二阈值
Figure 729274DEST_PATH_IMAGE015
满足如下关系:
Figure 734140DEST_PATH_IMAGE021
在本发明一个实施例中,所述第一阈值
Figure 968812DEST_PATH_IMAGE012
的取值范围为0.90~0.99;所述第二阈值
Figure 451746DEST_PATH_IMAGE015
的取值范围为0.15~0.25。
在本发明一个实施例中,所述损失函数采用如下公式:
Figure 485167DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
其中,
Figure 384902DEST_PATH_IMAGE006
表示损失函数;
Figure 638029DEST_PATH_IMAGE007
表示所述标注值,
Figure 924654DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 547003DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 628091DEST_PATH_IMAGE010
表示所述预测值;
Figure 102935DEST_PATH_IMAGE024
表示简单样本判定函数;
Figure DEST_PATH_IMAGE025
表示针对正样本的简单样本判定函数,
Figure 757033DEST_PATH_IMAGE026
为所述第一阈值;
Figure 266511DEST_PATH_IMAGE027
表示针对负样本的简单样本判定函数,
Figure 518501DEST_PATH_IMAGE028
为所述第二阈值;
Figure 215062DEST_PATH_IMAGE029
表示针对正样本的权重系数函数;
Figure 625182DEST_PATH_IMAGE030
表示针对负样本的权重系数函数。
在本发明一个实施例中,
Figure 723588DEST_PATH_IMAGE031
的取值范围为1.5~5.0。
在本发明一个实施例中,所述第二阈值
Figure 615320DEST_PATH_IMAGE028
小于所述第一阈值
Figure 533598DEST_PATH_IMAGE026
在本发明一个实施例中,所述第一阈值
Figure 700137DEST_PATH_IMAGE026
的取值范围为0.90~0.99;所述第二阈值
Figure 387470DEST_PATH_IMAGE028
的取值范围为0.75~0.85。
另一方面,本发明实施例还提供一种文本检测模型的训练装置,包括:
卷积网络模块,用于对待处理样本图像进行特征提取,得到预测值;所述预测值为样本图像的预测置信度;
标注值获取模块,用于获取样本图像的标注值;
预测损失模块,用于根据所述标注值、所述预测值以及损失函数得到预测损失;所述损失函数包括简单样本判定函数和权重系数函数;
所述简单样本判定函数用于过滤所述预测置信度大于预设第一阈值的样本图像,以及过滤所述预测置信度小于预设第二阈值的样本图像,所述权重系数函数用于调节未被过滤样本图像的权重;以及
参数调整模块,用于根据所述预测损失调整卷积网络模型的参数。
又一方面,本发明实施例还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如上任一项所述的文本检测模型的训练方法中的步骤。
又一方面,本发明实施例还提供一种文本检测模型的训练设备,设备包括处理器和存储器,存储器中存储有适于处理器执行的计算机程序指令,计算机程序指令被处理器运行时执行如上任一项所述的文本检测模型的训练方法中的步骤。
本发明实施例的文本检测模型的训练方法、装置、可读存储介质及设备,在损失函数中添加简单样本判定函数,通过预先设置第一阈值来过滤预测置信度大于第一阈值的样本图像(简单正样本),以及通过预先设置第二阈值来过滤预测置信度小于第二阈值的样本图像(简单负样本),可有效舍弃掉大量正样本和负样本中极度简单的样本图像,避免模型训练过程被大量简单样本图像所主导。并且,在损失函数中添加权重系数函数,通过权重系数函数调节未被过滤样本图像的权重,使得模型在训练过程中能关注更有价值的样本图像。
附图说明
附图示出了本发明实施例的示例性实施方式,并与其说明一起用于解释本发明实施例的原理,其中包括了这些附图以提供对本发明实施例的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为本发明实施例文本检测模型的训练方法的示例性流程示意图;
图2为本发明实施例文本检测模型的训练方法的又一示例性流程示意图;
图3为本发明实施例文本检测模型的训练装置的示例性结构示意图;
图4为采用OHEM方法得到的文本分割结果的文本区域预测图;
图5为采用OHEM方法得到的文本分割结果的文本行检测结果;
图6为采用本发明实施例文本检测模型的训练方法的文本分割结果的文本区域预测图;
图7为采用本发明实施例文本检测模型的训练方法的文本分割结果的文本行检测结果;
图8为本发明实施例文本检测模型的训练设备的示例性结构示意图。
具体实施方式
下面结合附图和实施方式对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分。
需要说明的是,在不冲突的情况下,本发明实施例中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明实施例。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
本发明实施例提供的方法可以由相关的处理器执行,且下文均以处理器作为执行主体为例进行说明。其中,执行主体可以根据具体案例进行调整,如服务器、电子设备、计算机等。
基于像素分割方法的文本检测模型,通过卷积神经网络对图像进行特征提取,获得深层特征后进行解码,最后得到文本区域的概率图,从而提取出文本区域。像素分割方法的文本检测模型训练过程与通用语义分割模型训练思想类似:第一步,将训练样本送入卷积网络中,进行特征编码和解码操作,得到文本区域的预测值;第二步,以原图对应的文本标注值作为真值,基于文本标注值和文本区域预测值来计算损失函数,从而驱动卷积网络权值更新。
在文本分类场景中,针对样本不平衡问题,在线难例样本挖掘(OHEM)方法无法对简单正样本进行过滤,在密集场景下,简单正样本会弱化困难正样本的比重,使模型无法兼顾真正有价值的正样本。FocalLoss方法采用加权的策略为每一个样本添加自适应权重,但对样本标注质量要求高,对噪声敏感,无法适应文本分割这类特征场景。此外,FocalLoss方法采用幂级数形式的权重调节因子,不同样本之间权重差异大,容易造成不稳定的训练过程。针对教育场景的密集文本行定位任务,以上两种方法都存在很大的局限性,在基于像素分割方法的文本检测中难以发挥作用。
为解决上述技术问题中的至少一个,本发明实施例提供了一种文本检测模型的训练方法、装置、可读存储介质及设备,可有效缓解在线难例样本挖掘和FocalLoss方法存在的不足。
一方面,参见图1和图2所示的训练方法的示例性流程示意图;本发明实施例提供一种文本检测模型的训练方法,包括:
S10、将待处理样本图像输入卷积网络模型,得到预测值。预测值为样本图像的预测置信度,置信度表示样本属于正样本的概率。将待处理样本图像(训练样本)输入卷积网络模型中,特征提取层提取样本图像中的深层特征,获得的深层特征通过预测层得到文本区域的预测值。
S20、获取样本图像的标注值。样本图像的标注值是待处理样本图像原图对应的文本标注值,将文本标注值作为真值。
S30、根据标注值、预测值以及损失函数得到预测损失。其中的标注值作为真值来看待,如果某个像素被标注为文本像素,则将该像素看作真实的文本像素;如果某个像素被标注为非文本像素,则将该像素看作真实的非文本像素。被标注为文本像素的样本图像称作正样本,被标注为非文本像素的样本图像称作负样本。预测值是对某个像素属于文本像素还是非文本像素的预测(是或者否),每个预测值相对于标注值都具有一个预测置信度,用来体现该预测值的准确性,也就是说预测值为样本图像的预测置信度。针对正样本,预测置信度越高,表示预测值的准确性越好;反之则越低。针对负样本,情况正好相反,预测置信度越低,表示预测值的准确性越好;反之则越低。损失函数通过设置一定的计算方法,来判定预测值相对于标注值的预测损失。
其中,损失函数可以包括简单样本判定函数和权重系数函数。简单样本判定函数和权重系数函数均为预测值的函数,也就是说,简单样本判定函数的取值以及权重系数函数的取值均随着预测值的不同而变化。
按照学习的难易来区分,训练集可以分为Hard Sample(困难样本)和Easy Sample(简单样本)。简单样本判定函数的作用是将预测置信度符合预设条件的样本图像也就是简单样本图像过滤掉,从而缓解样本图像内部的简单样本与困难样本不平衡问题。根据正样本和负样本的不同类别,简单样本判定函数通过设置第一阈值来过滤简单正样本图像,以及通过设置第二阈值来过滤简单负样本图像,即简单样本判定函数用于过滤预测置信度大于预设第一阈值的样本图像,以及过滤预测置信度小于预设第二阈值的样本图像。通过设置第一阈值和第二阈值,不但可有效舍弃掉大量负样本中极度简单的样本图像,而且也可以有效舍弃掉大量正样本中极度简单的样本图像,避免模型训练过程被大量简单样本图像所主导。权重系数函数用于调节困难样本图像的权重,即权重系数函数用于调节未被过滤样本图像的权重,例如可以设置成样本图像学习的困难度越大,获得的权重也越大,样本图像学习的困难度越小,获得的权重也越小。通过设置权重系数函数为不同样本添加自适应权重,例如可以设置成对困难样本添加更大的权重系数,促使模型更加关注有价值的样本图像。下文将通过不同的实施例来说明简单样本判定函数和权重系数函数可以采用的不同实施方式。
S40、根据预测损失调整卷积网络模型的参数。目的是通过调整卷积网络模型的参数,使平均预测损失达到最小值,形成训练后的模型。
本发明实施例的文本检测模型的训练方法,在模型训练过程的损失函数中通过设置简单样本判定函数,计算损失函数过程中,将预测置信度不符合阈值限定的样本图像认为是简单样本进行舍弃,可降低大量简单正样本和负样本的比重,其中不但舍弃简单负样本而且舍弃简单正样本,并通过设置权重系数函数自适应调节困难样本的权重,结合权重值的调节,使模型更能关注更有价值的样本图像。
在本发明实施例的一种实施方式中,权重系数函数用于动态自适应调节未被过滤样本图像的权重。也就是说,权重系数函数设置成随着样本图像学习困难程度的增加而增加,样本图像学习的困难度越大,获得的权重也越大,样本图像学习的困难度越小,获得的权重也越小,更能体现出困难样本图像的价值。
在本发明实施例的一种实施方式中,权重系数函数的取值限制在预设范围内,可以降低标注噪声带来的权重系数差异过大导致的不稳定训练问题。需要说明的是,权重系数函数可以采用符合该取值限定条件的不同函数。
在本发明实施例的一种实施方式中,权重系数函数基于指数形式的权重调节因子以及预测值,动态自适应调节未被过滤样本图像的权重。采用指数形式的权重调节因子相对于现有技术FocalLoss方法采用幂级数形式的权重调节因子,可以避免不同样本之间权重差异大,造成不稳定训练过程的问题。同时,采用指数形式的权重调节因子以及预测值,正样本图像的预测值越大,其权重系数函数的值越小,反之越大;负样本图像的预测值越小,其权重系数函数的值越小,反之越大。即权重系数函数会随着样本图像学习困难程度的增加而增加,样本图像学习的困难度越大,获得的权重也越大,样本图像学习的困难度越小,获得的权重也越小,更能体现出困难样本图像的价值。
在本发明实施例的一种实施方式中,损失函数可以采用如下公式:
Figure 761689DEST_PATH_IMAGE032
Figure 324519DEST_PATH_IMAGE002
Figure 825908DEST_PATH_IMAGE003
Figure 898906DEST_PATH_IMAGE004
Figure 663600DEST_PATH_IMAGE005
其中,
Figure 716656DEST_PATH_IMAGE006
表示损失函数;
Figure 756156DEST_PATH_IMAGE007
表示标注值,
Figure 919547DEST_PATH_IMAGE008
表示标注值为正样本,
Figure 855142DEST_PATH_IMAGE009
表示标注值为负样本;
Figure 235307DEST_PATH_IMAGE010
表示预测值。
函数
Figure 281761DEST_PATH_IMAGE011
表示针对正样本的简单样本判定函数,
Figure 798193DEST_PATH_IMAGE012
为第一阈值,
Figure 668803DEST_PATH_IMAGE013
函数
Figure 270686DEST_PATH_IMAGE014
表示针对负样本的简单样本判定函数,
Figure 120830DEST_PATH_IMAGE015
为第二阈值,
Figure 491769DEST_PATH_IMAGE016
函数
Figure 769166DEST_PATH_IMAGE017
表示针对正样本的权重系数函数;
函数
Figure 592766DEST_PATH_IMAGE018
表示针对负样本的权重系数函数;
[
Figure 748066DEST_PATH_IMAGE019
Figure 973511DEST_PATH_IMAGE020
]表示权重系数函数的取值范围。
从以上公式可以看出,损失函数是关于标注值
Figure 421810DEST_PATH_IMAGE007
和预测置信度
Figure 998285DEST_PATH_IMAGE010
的函数。预测置信度
Figure 190232DEST_PATH_IMAGE010
表示的是一个概率(样本属于正样本的概率),因此其取值范围在0到1之内。标注值
Figure 535762DEST_PATH_IMAGE007
的取值只有0和1,分别表示对应的样本图像是负样本和正样本。根据标注值
Figure 913217DEST_PATH_IMAGE007
的取值,也即针对正样本和负样本分别形成两个不同的计算公式。
针对正样本,简单样本判定函数设置成函数
Figure 242568DEST_PATH_IMAGE011
,函数
Figure 503785DEST_PATH_IMAGE011
根据预测置信度
Figure 969401DEST_PATH_IMAGE010
与第一阈值
Figure 759503DEST_PATH_IMAGE012
的大小关系,分别取值为0或1。设置第一阈值
Figure 812034DEST_PATH_IMAGE012
的目的是为了过滤简单正样本,由于简单正样本的预测准确度比较高,相应的预测置信度
Figure 80205DEST_PATH_IMAGE010
比较大,从公式可以看出,只要预测置信度
Figure 400328DEST_PATH_IMAGE010
大于等于第一阈值
Figure 626910DEST_PATH_IMAGE012
,则函数
Figure 134114DEST_PATH_IMAGE011
的值为0(该项被排除),而困难正样本的预测准确度比较低,相应的预测置信度
Figure 471555DEST_PATH_IMAGE010
比较小,只有预测置信度
Figure 410299DEST_PATH_IMAGE010
小于第一阈值
Figure 276623DEST_PATH_IMAGE012
,函数
Figure 536703DEST_PATH_IMAGE011
的值才输出为1(该项被保留),也就是起到了排除简单正样本的作用。
类似的,针对负样本,简单样本判定函数设置成函数
Figure 412256DEST_PATH_IMAGE014
,函数
Figure 972550DEST_PATH_IMAGE014
根据预测置信度
Figure 275355DEST_PATH_IMAGE010
与第二阈值
Figure 55355DEST_PATH_IMAGE015
的大小关系,分别取值为0或1。设置第二阈值
Figure 734598DEST_PATH_IMAGE015
的目的是为了过滤简单负样本,由于简单负样本的预测准确度比较高,相应的预测置信度
Figure 149399DEST_PATH_IMAGE010
比较小,从公式可以看出,只要预测置信度
Figure 888684DEST_PATH_IMAGE010
小于等于第二阈值
Figure 627751DEST_PATH_IMAGE015
,则函数
Figure 376264DEST_PATH_IMAGE014
的值为0(该项被排除),而困难负样本的预测准确度比较低,相应的预测置信度
Figure 379992DEST_PATH_IMAGE010
比较大,只有预测置信度
Figure 290180DEST_PATH_IMAGE010
大于第二阈值
Figure 12148DEST_PATH_IMAGE015
,函数
Figure 534658DEST_PATH_IMAGE014
的值才输出为1(该项被保留),也就是起到了排除简单负样本的作用。
针对正样本的权重系数函数
Figure 924051DEST_PATH_IMAGE017
和针对负样本的权重系数函数
Figure 5140DEST_PATH_IMAGE018
均为预测置信度
Figure 214404DEST_PATH_IMAGE010
的函数,从而为不同样本添加自适应权重,通过对困难样本添加更大的权重系数促使模型更加关注有价值的样本图像。且权重系数函数的取值范围被限定在[
Figure 773562DEST_PATH_IMAGE019
Figure 250417DEST_PATH_IMAGE020
]内,可避免由于标注噪声产生的不稳定训练。
在本发明实施例的一种实施方式中,函数
Figure 502407DEST_PATH_IMAGE017
的值随着预测值(预测置信度)
Figure 198968DEST_PATH_IMAGE010
的增大而减小。由于正样本的预测置信度
Figure 561816DEST_PATH_IMAGE010
越大,说明该样本越容易学习,应该减小其权重系数,降低在训练样本中的影响;而正样本的预测置信度
Figure 660222DEST_PATH_IMAGE010
越小,说明该样本越不容易学习,相应的,应该增大其权重系数,增加在训练样本中的影响。函数
Figure 584578DEST_PATH_IMAGE018
的值随着预测值(预测置信度)
Figure 502855DEST_PATH_IMAGE010
的增大而增大。基于同样原因,由于负样本的预测置信度
Figure 403815DEST_PATH_IMAGE010
越小,说明该样本越容易学习,应该减小其权重系数,降低在训练样本中的影响;而负样本的预测置信度
Figure 91148DEST_PATH_IMAGE010
越大,说明该样本越不容易学习,相应的,应该增大其权重系数,增加在训练样本中的影响。
在本发明实施例的一种实施方式中,权重系数函数的取值范围为1~5。将权重系数函数的取值范围限定为1~5,可以更好的降低标注噪声带来的权重系数差异过大导致的不稳定训练问题。
在本发明实施例的一种实施方式中,第一阈值
Figure 684941DEST_PATH_IMAGE012
与第二阈值
Figure 824935DEST_PATH_IMAGE015
满足如下关系:
Figure 311278DEST_PATH_IMAGE021
。在文本检测中,一般负样本数量要比正样本数量多,考虑到正样本较少,负样本较多,相对于负样本可以少过滤掉一些正样本,从而多保留一些正样本,通过将第二阈值
Figure 853118DEST_PATH_IMAGE015
设置成符合上述关系式可以改善正负样本数量不平衡问题。
进一步的,第一阈值
Figure 352233DEST_PATH_IMAGE012
的取值范围为0.90~0.99;第二阈值
Figure 245102DEST_PATH_IMAGE015
的取值范围为0.15~0.25。
在本发明实施例的一种实施方式中,损失函数也可以采用如下公式:
Figure 487865DEST_PATH_IMAGE033
Figure 149790DEST_PATH_IMAGE034
其中,
Figure 85385DEST_PATH_IMAGE006
表示损失函数;
Figure 701437DEST_PATH_IMAGE007
表示所述标注值,
Figure 747890DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 264322DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 370818DEST_PATH_IMAGE010
表示所述预测值。
Figure 769439DEST_PATH_IMAGE024
表示简单样本判定函数;
Figure 118118DEST_PATH_IMAGE025
表示针对正样本的简单样本判定函数,
Figure 754636DEST_PATH_IMAGE026
为第一阈值;
Figure 32033DEST_PATH_IMAGE027
表示针对负样本的简单样本判定函数,
Figure 855633DEST_PATH_IMAGE028
为第二阈值;
Figure 509468DEST_PATH_IMAGE029
表示针对正样本的权重系数函数;
Figure 734913DEST_PATH_IMAGE030
表示针对负样本的权重系数函数。
从以上公式可以看出,损失函数是关于标注值
Figure 684677DEST_PATH_IMAGE007
和预测置信度
Figure 261152DEST_PATH_IMAGE010
的函数。预测置信度
Figure 453099DEST_PATH_IMAGE010
表示的是一个概率,因此其取值范围在0到1之内。标注值
Figure 533050DEST_PATH_IMAGE007
的取值只有0和1,分别表示对应的样本是负样本和正样本。根据标注值
Figure 417829DEST_PATH_IMAGE007
的取值,也即针对正样本和负样本分别形成两个不同的计算公式。简单样本判定函数
Figure 216021DEST_PATH_IMAGE024
采用分段函数的形式。
针对正样本,简单样本判定函数设置成函数
Figure 450474DEST_PATH_IMAGE025
,函数
Figure 916091DEST_PATH_IMAGE025
根据预测置信度
Figure 706192DEST_PATH_IMAGE010
与第一阈值
Figure 991680DEST_PATH_IMAGE026
的大小关系,分别取值为0或1。设置第一阈值
Figure 525429DEST_PATH_IMAGE026
的目的是为了过滤简单正样本,由于简单正样本的预测准确度比较高,相应的预测置信度
Figure 845552DEST_PATH_IMAGE010
比较大,从公式可以看出,只要预测置信度
Figure 540976DEST_PATH_IMAGE010
大于等于第一阈值
Figure 80804DEST_PATH_IMAGE026
Figure 418244DEST_PATH_IMAGE035
相当于函数
Figure 592874DEST_PATH_IMAGE024
中的
Figure 990357DEST_PATH_IMAGE036
,则函数
Figure 250437DEST_PATH_IMAGE025
的值为0(该项被排除),而困难正样本的预测准确度比较低,相应的预测置信度
Figure 624524DEST_PATH_IMAGE010
比较小,只有预测置信度
Figure 919239DEST_PATH_IMAGE010
小于第一阈值
Figure 956466DEST_PATH_IMAGE026
Figure 969421DEST_PATH_IMAGE037
相当于函数
Figure 383085DEST_PATH_IMAGE024
中的
Figure 423984DEST_PATH_IMAGE038
,函数
Figure 428849DEST_PATH_IMAGE025
的值才输出为1(该项被保留),也就是起到了排除简单正样本的作用。
针对正样本的权重系数函数设置为函数
Figure 687356DEST_PATH_IMAGE029
Figure 170290DEST_PATH_IMAGE039
的取值也在0到1之间,所以函数
Figure 174018DEST_PATH_IMAGE029
的取值范围在[1,
Figure 818626DEST_PATH_IMAGE040
之间,也就是说,权重系数函数的取值范围被限定在[1,
Figure 540594DEST_PATH_IMAGE040
之间。相比于FocalLoss方法的幂级数形式权重,有效降低了权重系数的区间,缓解了标注存在噪声时,权重系数差异过大带来的训练不稳定。并且,可以看出,随着预测置信度
Figure 827219DEST_PATH_IMAGE010
的增大,函数
Figure 186918DEST_PATH_IMAGE029
减小,随着预测置信度
Figure 268007DEST_PATH_IMAGE010
的减小,函数
Figure 211692DEST_PATH_IMAGE029
增大。从而越容易学习的正样本,其权重系数越小,越不容易学习的正样本,其权重系数越大。通过对困难样本添加更大的权重系数,可以促使模型更加关注有价值的样本,促进训练过程的鲁棒性。
类似的,针对负样本,简单样本判定函数设置成函数
Figure 770849DEST_PATH_IMAGE027
,函数
Figure 749170DEST_PATH_IMAGE027
根据预测置信度
Figure 1160DEST_PATH_IMAGE010
与第二阈值
Figure 930676DEST_PATH_IMAGE028
的大小关系,分别取值为0或1。设置第二阈值
Figure 293524DEST_PATH_IMAGE028
的目的是为了过滤简单负样本,由于简单负样本的预测准确度比较高,相应的预测置信度
Figure 126351DEST_PATH_IMAGE010
比较小,而
Figure 549242DEST_PATH_IMAGE039
比较大,从公式可以看出,只要
Figure 733099DEST_PATH_IMAGE039
大于等于第二阈值
Figure 401103DEST_PATH_IMAGE028
Figure 354015DEST_PATH_IMAGE041
相当于函数
Figure 947808DEST_PATH_IMAGE024
中的
Figure 150119DEST_PATH_IMAGE036
,则函数
Figure 624743DEST_PATH_IMAGE027
的值为0(该项被排除),而困难负样本的预测准确度比较低,相应的预测置信度
Figure 432162DEST_PATH_IMAGE010
比较大,而
Figure 196856DEST_PATH_IMAGE039
比较小,从公式可以看出,只有
Figure 824147DEST_PATH_IMAGE039
小于第二阈值
Figure 332488DEST_PATH_IMAGE028
Figure 259993DEST_PATH_IMAGE042
相当于函数
Figure 431474DEST_PATH_IMAGE024
中的
Figure 546060DEST_PATH_IMAGE038
,函数
Figure 592514DEST_PATH_IMAGE027
的值才输出为1(该项被保留),也就是起到了排除简单负样本的作用。
针对负样本的权重系数函数设置为函数
Figure 374525DEST_PATH_IMAGE030
,为指数函数,
Figure 215442DEST_PATH_IMAGE010
的取值在0到1之间,所以函数
Figure 817324DEST_PATH_IMAGE030
的取值范围在[1,
Figure 697162DEST_PATH_IMAGE040
之间,也就是说,权重系数函数的取值范围被限定在[1,
Figure 68101DEST_PATH_IMAGE040
之间。相比于FocalLoss方法的幂级数形式权重,有效降低了权重系数的区间,缓解了标注存在噪声时,权重系数差异过大带来的训练不稳定。并且,可以看出,随着预测置信度
Figure 345498DEST_PATH_IMAGE010
的增大,函数
Figure 700256DEST_PATH_IMAGE030
增大,随着预测置信度
Figure 822933DEST_PATH_IMAGE010
的减小,函数
Figure 81001DEST_PATH_IMAGE030
减小。从而越容易学习的负样本,其权重系数越小,越不容易学习的负样本,其权重系数越大。通过对困难样本添加更大的权重系数,可以促使模型更加关注有价值的样本,促进训练过程的鲁棒性。
在本发明实施例的一种实施方式中,权重系数函数中的
Figure 263721DEST_PATH_IMAGE043
用于调节难易样本之间的权重,
Figure 840196DEST_PATH_IMAGE031
取值范围可以设置为1.5~5.0。由于权重系数函数的取值范围为[1,
Figure 766564DEST_PATH_IMAGE040
,所以在
Figure 112094DEST_PATH_IMAGE031
取值范围为1.5~5.0时,权重系数函数的取值范围为1~5,可以更好的避免标注噪声带来的权重系数波动过大问题。优选的,
Figure 731295DEST_PATH_IMAGE031
的默认值可以取自然数
Figure 529486DEST_PATH_IMAGE044
在本发明实施例的一种实施方式中,第二阈值
Figure 853737DEST_PATH_IMAGE028
小于第一阈值
Figure 319354DEST_PATH_IMAGE026
,即
Figure 843876DEST_PATH_IMAGE045
。在文本检测中,一般负样本数量要比正样本数量多,考虑到正样本较少,负样本较多,相对于负样本可以少过滤掉一些正样本,从而多保留一些正样本,通过将第二阈值
Figure 394943DEST_PATH_IMAGE028
设置为小于第一阈值
Figure 928693DEST_PATH_IMAGE026
可以改善正负样本数量不平衡问题。
进一步的,第一阈值
Figure 248815DEST_PATH_IMAGE026
的取值范围为0.90~0.99;第二阈值
Figure 711283DEST_PATH_IMAGE028
的取值范围为0.75~0.85。
从以上不同实施方式可以看出,采用函数
Figure 484067DEST_PATH_IMAGE029
和函数
Figure 821507DEST_PATH_IMAGE030
作为正样本和负样本的权重系数函数,相比于FocalLoss方法采用的幂级数形式的权重调节因子,可以降低标注噪声带来的负面影响,并能够对困难样本添加更大的权重系数促使模型更加关注有价值的样本。同时,根据正样本的简单样本判定函数
Figure 730558DEST_PATH_IMAGE025
和负样本的简单样本判定函数
Figure 128041DEST_PATH_IMAGE027
以及预测置信度
Figure 388121DEST_PATH_IMAGE010
与第一阈值
Figure 27787DEST_PATH_IMAGE026
和第二阈值
Figure 791344DEST_PATH_IMAGE028
的大小关系,将简单的正样本和简单的负样本过滤掉,可降低大量简单正样本和负样本的比重。
进一步的,根据单个样本的损失函数计算得到的预测损失来调整卷积网络模型的参数,使平均预测损失达到最小值。计算平均预测损失所采用的公式为:
Figure 422046DEST_PATH_IMAGE046
Figure 467624DEST_PATH_IMAGE047
Figure 146867DEST_PATH_IMAGE048
为第
Figure DEST_PATH_IMAGE049
个样本的标注值,
Figure 827247DEST_PATH_IMAGE050
为第
Figure 832112DEST_PATH_IMAGE049
个样本的预测值(预测置信度);
Figure DEST_PATH_IMAGE051
为样本数量,
Figure 164655DEST_PATH_IMAGE052
为归一化系数,也就是损失函数不为0的样本数量的总和。
本发明实施例另一方面,提供一种文本检测模型的训练装置,如图3所示,该训练装置包括:
卷积网络模块M1,用于对待处理样本图像进行特征提取,得到预测值。预测值为样本图像的预测置信度,置信度表示样本属于正样本的概率。卷积网络模块中设有卷积网络模型,卷积网络模型包括特征提取层和预测层;特征提取层提取样本图像中的深层特征,将提取出的深层特征输入预测层进行预测,得到文本区域的预测值。
标注值获取模块M2,用于获取样本图像的标注值。
预测损失模块M3,用于根据标注值、预测值以及损失函数得到预测损失。其中采用的损失函数包括简单样本判定函数和权重系数函数。
简单样本判定函数用于过滤预测置信度大于预设第一阈值的样本图像,以及过滤预测置信度小于预设第二阈值的样本图像,所述权重系数函数用于调节未被过滤样本图像的权重。
参数调整模块M4,用于根据预测损失调整卷积网络模型的参数。目的是通过调整卷积网络模型的参数,使平均预测损失达到最小值,形成训练后的模型。
进一步的,损失函数可以分别采用训练方法中不同实施方式所描述的两种公式,达到相同的技术效果,在此不再赘述。
通过与采用OHEM方法得到的分割结果进行对比,可以看出采用本发明实施例的文本检测模型的训练装置,可显著提高密集文本行的分割精度,特别是相邻文本行的边界区域。图4为采用OHEM方法得到的分割结果的文本区域预测图,图5为文本行检测结果,图6、图7为同一训练集、同样模型结构下采用本发明实施例训练方法得到的文本分割结果。通过对比可以发现,本发明实施例所采用的损失函数(加权策略)效果更优,对密集文本区域边界分割更精准,有效缓解了密集文本行的混淆问题。
本发明实施例的又一方面,还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行前述任一项所述的文本检测模型的训练方法中的步骤。
本发明实施例的又一方面,还提供一种文本检测模型的训练设备,图8所示的文本检测模型的训练设备的示例性结构示意图,设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
处理器用于执行上述任一实施例所述文本检测模型的训练方法中的一个或多个步骤。处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行上述任一实施例所述文本检测模型的训练方法中的一个或多个步骤。
存储器可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。同时,在本发明实施例的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电性连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明实施例中的具体含义。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本发明实施例,而并非是对本发明实施例的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本发明实施例的范围内。

Claims (18)

1.一种文本检测模型的训练方法,其特征在于,包括:
将待处理样本图像输入卷积网络模型,得到预测值;所述预测值为样本图像的预测置信度;
获取所述样本图像的标注值;
根据所述标注值、所述预测值以及损失函数得到预测损失;以及
根据所述预测损失调整所述卷积网络模型的参数;
其中,所述损失函数包括简单样本判定函数和权重系数函数;
所述简单样本判定函数用于过滤所述预测置信度大于预设第一阈值的样本图像,以及过滤所述预测置信度小于预设第二阈值的样本图像,所述权重系数函数用于调节未被过滤样本图像的权重。
2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述权重系数函数用于动态自适应调节未被过滤样本图像的权重。
3.根据权利要求2所述的文本检测模型的训练方法,其特征在于,所述权重系数函数基于指数形式的权重调节因子以及所述预测值,动态自适应调节未被过滤样本图像的权重。
4.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述权重系数函数的取值限制在预设范围内。
5.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述损失函数采用如下公式:
Figure 44158DEST_PATH_IMAGE001
Figure 663359DEST_PATH_IMAGE002
Figure 727130DEST_PATH_IMAGE003
Figure 191609DEST_PATH_IMAGE004
Figure 906493DEST_PATH_IMAGE005
其中,
Figure 696594DEST_PATH_IMAGE006
表示所述损失函数;
Figure 998394DEST_PATH_IMAGE007
表示所述标注值,
Figure 797723DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 117845DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 331046DEST_PATH_IMAGE010
表示所述预测值;
函数
Figure 369409DEST_PATH_IMAGE011
表示针对正样本的简单样本判定函数,
Figure 706849DEST_PATH_IMAGE012
为所述第一阈值,
Figure 632211DEST_PATH_IMAGE013
函数
Figure 29694DEST_PATH_IMAGE014
表示针对负样本的简单样本判定函数,
Figure 24195DEST_PATH_IMAGE015
为所述第二阈值,
Figure 149015DEST_PATH_IMAGE016
函数
Figure 443730DEST_PATH_IMAGE017
表示针对正样本的权重系数函数;
函数
Figure 28426DEST_PATH_IMAGE018
表示针对负样本的权重系数函数;
[
Figure 572540DEST_PATH_IMAGE019
Figure 498121DEST_PATH_IMAGE020
]表示所述权重系数函数的取值范围。
6.根据权利要求4或5所述的文本检测模型的训练方法,其特征在于,所述权重系数函数的取值范围为1~5。
7.根据权利要求5所述的文本检测模型的训练方法,其特征在于,函数
Figure 912922DEST_PATH_IMAGE017
的值随着所述预测值
Figure 137361DEST_PATH_IMAGE010
的增大而减小;函数
Figure 637612DEST_PATH_IMAGE018
的值随着所述预测值
Figure 432131DEST_PATH_IMAGE010
的增大而增大。
8.根据权利要求5所述的文本检测模型的训练方法,其特征在于,所述第一阈值
Figure 435859DEST_PATH_IMAGE012
与所述第二阈值
Figure 96778DEST_PATH_IMAGE015
满足如下关系:
Figure 84326DEST_PATH_IMAGE021
9.根据权利要求5或8所述的文本检测模型的训练方法,其特征在于,所述第一阈值
Figure 623148DEST_PATH_IMAGE012
的取值范围为0.90~0.99;所述第二阈值
Figure 746962DEST_PATH_IMAGE015
的取值范围为0.15~0.25。
10.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述损失函数采用如下公式:
Figure 562471DEST_PATH_IMAGE022
Figure 991309DEST_PATH_IMAGE023
其中,
Figure 550467DEST_PATH_IMAGE006
表示所述损失函数;
Figure 263208DEST_PATH_IMAGE007
表示所述标注值,
Figure 515198DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 195447DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 292716DEST_PATH_IMAGE010
表示所述预测值;
Figure 859963DEST_PATH_IMAGE024
表示简单样本判定函数;
Figure 33587DEST_PATH_IMAGE025
表示针对正样本的简单样本判定函数,
Figure 686285DEST_PATH_IMAGE026
为所述第一阈值,
Figure 587245DEST_PATH_IMAGE027
Figure 274578DEST_PATH_IMAGE028
表示针对负样本的简单样本判定函数,
Figure 849129DEST_PATH_IMAGE029
为所述第二阈值,
Figure 254703DEST_PATH_IMAGE030
Figure 693774DEST_PATH_IMAGE031
表示针对正样本的权重系数函数;
Figure 235614DEST_PATH_IMAGE032
表示针对负样本的权重系数函数。
11.根据权利要求10所述的文本检测模型的训练方法,其特征在于,
Figure 485461DEST_PATH_IMAGE033
的取值范围为1.5~5.0。
12.根据权利要求10所述的文本检测模型的训练方法,其特征在于,所述第二阈值
Figure 378331DEST_PATH_IMAGE029
小于所述第一阈值
Figure 621093DEST_PATH_IMAGE026
13.根据权利要求12所述的文本检测模型的训练方法,其特征在于,所述第一阈值
Figure 532286DEST_PATH_IMAGE026
的取值范围为0.90~0.99;所述第二阈值
Figure 202302DEST_PATH_IMAGE029
的取值范围为0.75~0.85。
14.一种文本检测模型的训练装置,其特征在于,包括:
卷积网络模块,用于对待处理样本图像进行特征提取,得到预测值;所述预测值为样本图像的预测置信度;
标注值获取模块,用于获取样本图像的标注值;
预测损失模块,用于根据所述标注值、所述预测值以及损失函数得到预测损失;所述损失函数包括简单样本判定函数和权重系数函数;
所述简单样本判定函数用于过滤所述预测置信度大于预设第一阈值的样本图像,以及过滤所述预测置信度小于预设第二阈值的样本图像,所述权重系数函数用于调节未被过滤样本图像的权重;以及
参数调整模块,用于根据所述预测损失调整卷积网络模型的参数。
15.根据权利要求14所述的文本检测模型的训练装置,其特征在于,所述损失函数采用如下公式:
Figure 51309DEST_PATH_IMAGE034
Figure 363342DEST_PATH_IMAGE002
Figure 630506DEST_PATH_IMAGE003
Figure 471423DEST_PATH_IMAGE004
Figure 807727DEST_PATH_IMAGE005
其中,
Figure 392292DEST_PATH_IMAGE006
表示所述损失函数;
Figure 281007DEST_PATH_IMAGE007
表示所述标注值,
Figure 292825DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 382004DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 255413DEST_PATH_IMAGE010
表示所述预测值;
函数
Figure 746437DEST_PATH_IMAGE011
表示针对正样本的简单样本判定函数,
Figure 194736DEST_PATH_IMAGE012
为第一阈值;
函数
Figure 505632DEST_PATH_IMAGE014
表示针对负样本的简单样本判定函数,
Figure 681267DEST_PATH_IMAGE015
为第二阈值;
函数
Figure 292377DEST_PATH_IMAGE017
表示针对正样本的权重系数函数;
函数
Figure 645998DEST_PATH_IMAGE018
表示针对负样本的权重系数函数;
[
Figure 194922DEST_PATH_IMAGE019
Figure 924981DEST_PATH_IMAGE020
]表示所述权重系数函数的取值范围。
16.根据权利要求14所述的文本检测模型的训练装置,其特征在于,所述损失函数采用如下公式:
Figure 125018DEST_PATH_IMAGE035
Figure 915119DEST_PATH_IMAGE036
其中,
Figure 446945DEST_PATH_IMAGE006
表示所述损失函数;
Figure 246274DEST_PATH_IMAGE007
表示所述标注值,
Figure 300817DEST_PATH_IMAGE008
表示所述标注值为正样本,
Figure 746973DEST_PATH_IMAGE009
表示所述标注值为负样本;
Figure 519757DEST_PATH_IMAGE010
表示所述预测值;
Figure 591619DEST_PATH_IMAGE024
表示简单样本判定函数;
Figure 766248DEST_PATH_IMAGE025
表示针对正样本的简单样本判定函数,
Figure 147420DEST_PATH_IMAGE026
为第一阈值;
Figure 141920DEST_PATH_IMAGE028
表示针对负样本的简单样本判定函数,
Figure 17473DEST_PATH_IMAGE029
为第二阈值;
Figure 797341DEST_PATH_IMAGE031
表示针对正样本的权重系数函数;
Figure 100146DEST_PATH_IMAGE032
表示针对负样本的权重系数函数。
17.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-13任一项所述的文本检测模型的训练方法中的步骤。
18.一种文本检测模型的训练设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行如权利要求1-13任一项所述的文本检测模型的训练方法中的步骤。
CN202110255729.3A 2021-03-09 2021-03-09 文本检测模型的训练方法、装置、可读存储介质及设备 Active CN112686218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110255729.3A CN112686218B (zh) 2021-03-09 2021-03-09 文本检测模型的训练方法、装置、可读存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110255729.3A CN112686218B (zh) 2021-03-09 2021-03-09 文本检测模型的训练方法、装置、可读存储介质及设备

Publications (2)

Publication Number Publication Date
CN112686218A true CN112686218A (zh) 2021-04-20
CN112686218B CN112686218B (zh) 2021-06-22

Family

ID=75458326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110255729.3A Active CN112686218B (zh) 2021-03-09 2021-03-09 文本检测模型的训练方法、装置、可读存储介质及设备

Country Status (1)

Country Link
CN (1) CN112686218B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313582A (zh) * 2021-06-25 2021-08-27 上海冰鉴信息科技有限公司 拒客回捞模型训练方法、装置及电子设备
CN113435409A (zh) * 2021-07-23 2021-09-24 北京地平线信息技术有限公司 图像识别模型的训练方法、装置、存储介质及电子设备
CN113705672A (zh) * 2021-08-27 2021-11-26 国网浙江省电力有限公司双创中心 图像目标检测的阈值选取方法、系统、装置及存储介质
CN114282624A (zh) * 2021-12-29 2022-04-05 北京天融信网络安全技术有限公司 对象标注方法、装置、设备及介质
CN114881129A (zh) * 2022-04-25 2022-08-09 北京百度网讯科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN117423116A (zh) * 2023-12-18 2024-01-19 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191685A (zh) * 2019-12-13 2020-05-22 山东众阳健康科技集团有限公司 一种损失函数动态加权的方法
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN112183163A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 一种基于全卷积残差网络的自然场景文本检测方法
CN112215226A (zh) * 2020-10-30 2021-01-12 桂林电子科技大学 一种基于改进east算法的栅格地质图文本检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183163A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 一种基于全卷积残差网络的自然场景文本检测方法
CN111191685A (zh) * 2019-12-13 2020-05-22 山东众阳健康科技集团有限公司 一种损失函数动态加权的方法
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN112215226A (zh) * 2020-10-30 2021-01-12 桂林电子科技大学 一种基于改进east算法的栅格地质图文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TSUNG-YI LIN 等: "Focal Loss for Dense Object Detection", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
王润民 等: "自然场景图像中的文本检测综述", 《自动化学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313582A (zh) * 2021-06-25 2021-08-27 上海冰鉴信息科技有限公司 拒客回捞模型训练方法、装置及电子设备
CN113435409A (zh) * 2021-07-23 2021-09-24 北京地平线信息技术有限公司 图像识别模型的训练方法、装置、存储介质及电子设备
CN113705672A (zh) * 2021-08-27 2021-11-26 国网浙江省电力有限公司双创中心 图像目标检测的阈值选取方法、系统、装置及存储介质
CN113705672B (zh) * 2021-08-27 2024-03-26 国网浙江省电力有限公司双创中心 图像目标检测的阈值选取方法、系统、装置及存储介质
CN114282624A (zh) * 2021-12-29 2022-04-05 北京天融信网络安全技术有限公司 对象标注方法、装置、设备及介质
CN114881129A (zh) * 2022-04-25 2022-08-09 北京百度网讯科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN117423116A (zh) * 2023-12-18 2024-01-19 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置
CN117423116B (zh) * 2023-12-18 2024-03-22 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置

Also Published As

Publication number Publication date
CN112686218B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN112686218B (zh) 文本检测模型的训练方法、装置、可读存储介质及设备
CN108171104B (zh) 一种文字检测方法及装置
US10600171B2 (en) Image-blending via alignment or photometric adjustments computed by a neural network
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN111489364A (zh) 基于轻量级全卷积神经网络的医学图像分割方法
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN110647916A (zh) 基于卷积神经网络的色情图片识别方法及装置
CN112150368A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110782448A (zh) 渲染图像的评价方法及装置
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN112233077A (zh) 图像分析方法、装置、设备及存储介质
CN113792659A (zh) 文档识别方法、装置及电子设备
CN109615620B (zh) 图像压缩度识别方法、装置、设备及计算机可读存储介质
CN112085668B (zh) 一种基于区域自适应自监督学习的图像色调映射的方法
CN106407991B (zh) 图像属性识别方法和系统以及相关网络训练方法和系统
CN112381073A (zh) 基于ai人脸检测的iq调整方法及调整模块
CN113516025B (zh) 一种基于模型构建的高光谱图像处理方法、设备及介质
CN116092170A (zh) 一种基于大数据技术的专利价值分析系统
CN116110058A (zh) 一种基于手写数字识别的虚拟人交互方法及系统
CN113506260B (zh) 一种人脸图像质量评估方法、装置、电子设备及存储介质
CN115423724A (zh) 强化学习参数优化的水下图像增强方法、装置及介质
CN107644251B (zh) 对象分类方法、装置和系统
CN116703731A (zh) 图像处理方法、装置、存储介质及电子设备
CN114399497A (zh) 文本图像质量检测方法、装置、计算机设备及存储介质
CN112396009A (zh) 一种基于全卷积神经网络模型的算题批改方法、算题批改装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant