CN112966685A - 用于场景文本识别的攻击网络训练方法、装置及相关设备 - Google Patents
用于场景文本识别的攻击网络训练方法、装置及相关设备 Download PDFInfo
- Publication number
- CN112966685A CN112966685A CN202110308952.XA CN202110308952A CN112966685A CN 112966685 A CN112966685 A CN 112966685A CN 202110308952 A CN202110308952 A CN 202110308952A CN 112966685 A CN112966685 A CN 112966685A
- Authority
- CN
- China
- Prior art keywords
- artistic
- preset
- style
- training
- digital image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 248
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013508 migration Methods 0.000 claims abstract description 11
- 230000005012 migration Effects 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000007123 defense Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请属于人工智能技术领域,本申请提供了一种用于场景文本识别的攻击网络训练方法、装置、计算机设备及计算机可读存储介质。本申请通过获取训练样本图像,将训练样本图像进行艺术字生成,得到原始艺术字图像,将训练样本图像通过预设艺术字生成模型进行艺术字生成,得到对抗艺术字图像,将对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,获取训练样本图像包含的训练文本,利用原始艺术字图像、对抗艺术字图像、识别文本及训练文本,对攻击网络进行训练,不仅具有对多种防御模型更好的迁移性,而且可以提高将场景文本进行识别时的准确性,从而提高对抗攻击的效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种用于场景文本识别的攻击网络训练方法、装置、计算机设备及计算机可读存储介质。
背景技术
使用计算机自动识别自然场景图像中包含的文本内容,可以广泛应用于无人驾驶导航、盲人辅助导航等领域。场景文本识别系统是针对目标检测算法检测到的图像中文本所在的区域,使用深度神经网络来识别区域中的文本序列内容。识别后的文本序列再经过后续的语义识别等后续处理来作为系统的最终输出。目前通用的文本识别系统采用了卷积循环神经网络的端到端处理技术。
目前针对深度神经网络的对抗攻击通常采用基于Lp范数攻击的方式,即基于Lp范数实现对图像像素值的微小扰动生成噪声图片,通过噪声图片训练训练目标深度神经网络,使目标深度神经网络对噪声图片进行识别,实现对噪声图片进行图像分类、目标检测等计算机视觉任务作出错误的判断。基于Lp范数攻击只考虑了原始像素值的变化,例如,对一个场景文本图像进行L2范数攻击后,可能在各文字周围出现类似噪音的像素点,在比较难于攻击的情况下,像素噪点的范数较大,容易察觉。另外,基于Lp范数的攻击在具有复杂光线变化的图像识别中效果也不好,其中,LP范式为通过加上对参数的约束,使得模型不会过拟合,例如L2范式为假设参数服从高斯分布,从而防止过拟合,过拟合用于描述神经网络模型在训练集上的表现很好,但是泛化能力比较差,在测试集上表现不好。因此,传统技术中针对场景文本识别,基于Lp范数攻击的方式,对目标深度神经网络进行对抗攻击以对目标深度神经网络进行训练时,存在目标神经网络对抗攻击效率较低,从而导致目标神经网络在实际业务运用时对场景文本识别效果不好。
发明内容
本申请提供了一种用于场景文本识别的攻击网络训练方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中基于Lp范数攻击的方式,对目标深度神经网络进行对抗攻击时对抗攻击效率较低的技术问题。
第一方面,本申请提供了一种用于场景文本识别的攻击网络训练方法,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,所述攻击网络包括预设艺术字生成模型,所述方法包括:获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
第二方面,本申请还提供了一种用于场景文本识别的攻击网络训练装置,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,所述攻击网络包括预设艺术字生成模型,所述装置包括:第一生成单元,用于获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;第二生成单元,用于将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;识别单元,用于将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;训练单元,用于利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
第三方面,本申请还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述用于场景文本识别的攻击网络训练方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述用于场景文本识别的攻击网络训练方法的步骤。
本申请提供了一种用于场景文本识别的攻击网络训练方法、装置、计算机设备及计算机可读存储介质。本申请通过获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像,将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像,将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本,利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,将所述攻击网络进行训练,可以通过将所述训练样本图像进行艺术字生成,以将所述训练样本图像进行艺术字变形,实现对训练样本图像的像素扰动更接近现实,因而具有对多种防御模型具备更好的迁移性,同时又通过识别效果较好的已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并结合所述训练样本图像包含的训练文本,通过调整将训练样本图像进行艺术字变形时的变形效果,可以提高将对抗艺术字图像中的文本识别的准确性,从而基于所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本将攻击网络进行训练时,不仅具有对多种防御模型更好的迁移性,而且可以提高将场景文本进行识别时的准确性,从而提高对抗攻击的效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用于场景文本识别的攻击网络训练方法的一个流程示意图;
图2为本申请实施例提供的用于场景文本识别的攻击网络训练方法中艺术字对抗攻击训练模块结构示意图;
图3为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第一个子流程示意图;
图4为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第二个子流程示意图;
图5为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第三个子流程示意图;
图6为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第四个子流程示意图;
图7为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第五个子流程示意图;
图8为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第六个子流程示意图;
图9为本申请实施例提供的用于场景文本识别的攻击网络训练装置的一个示意性框图;以及
图10为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的用于场景文本识别的攻击网络训练方法的一个流程示意图。如图1所示,该方法应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络中,所述预设目标场景文本识别模型为需要进行对抗攻击的待训练的场景文本识别模型,所述攻击网络包括预设艺术字生成模型,该方法包括以下步骤S11-S14:
S11、获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像。
具体地,在场景文本识别应用场景中,可以通过待训练的预设目标场景识别文本模型对业务目标进行场景文本识别,进行场景文本识别的目的为识别出业务目标中包含的文本,以便后续根据所述文本进行对应的业务处理。获取训练样本图像,所述训练样本图像中包含训练文本,将所述训练样本图像按照预设艺术字风格进行艺术字生成,这里的艺术字生成方式可以为通常进行艺术字生成时采用的艺术字生成方式,可以通过预设艺术字变形模块将所述训练样本图像按照预设艺术字风格进行艺术字生成,预设艺术字变形模块可以为已有的不需训练的艺术字变换模块,对于存在多种预设艺术字风格的情形,可以随机抽取其中的一种预设艺术字风格,或者按照预定顺序抽取其中的预设艺术字风格,可得到将所述训练样本图像中包含的训练文本转换为艺术字风格的原始艺术字图像。请参阅图2,图2为本申请实施例提供的用于场景文本识别的攻击网络训练方法中艺术字对抗攻击训练模块结构示意图,如图2所示,训练样本图像对应的图像X经艺术字变形(即艺术字生成),生成原始艺术字图像XA,例如,可以将训练样本图像中包含的文字生成火焰风格的图像,从而得到训练样本图像对应的原始艺术字图像,由于这一步骤是直接根据预设艺术字生成方式、按照预设艺术字风格,将所述训练样本图像中的文本内容生成对应的艺术字,因此,原始艺术字图像可以看作所述训练样本图像对应的最真实的艺术字图像。
进一步地,为了提高攻击网络对场景文本识别的效率,由于场景文本主要是为了对场景中的文本进行识别,在对抗攻击网络中,主要侧重于对场景中文本识别的对抗攻击,因此,尤其所述训练样本图像的背景为纯色背景图像,从而可以更突出训练样本图像中的文本,提高攻击网络对文本的识别效率。
S12、将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像。
具体地,为了避免对抗攻击中采用基于Lp范数攻击的方式时存在的问题,本申请实施例,在攻击网络中设置了预设艺术字生成模型,所述预设艺术字生成模型可以将所述训练样本图像按照预设艺术字风格进行艺术字生成,从而通过所述预设艺术字生成模型按照所述艺术字风格将所述训练样本图像进行艺术字生成,得到对抗艺术字图像。请继续参阅图2,如图2所示,图像X,经预设艺术字生成模型G进行艺术字生成,得到对抗艺术字图像X',以便后续根据所述对抗艺术字图像相对原始艺术字图像的损失,更新所述预设艺术字生成模型,实现对预设艺术字生成模型的训练,从而逐渐使预设艺术字生成模型生成的对抗艺术字更接近于原始艺术字图像,以便在进行对抗攻击中提高对抗攻击的效果,同时,由于对抗艺术字图像是基于所述训练样本图像中的训练文本,从训练文本整体的角度进行变形,并保留了场景中训练文本的语义,能保证生成对抗样本在语义上是有效的,相比传统技术中基于Lp范数攻击的方式实现对抗攻击时,不能保证生成对抗样本在语义上是有效的,且仅仅对图像像素值进行微小扰动,本申请实施例基于艺术字变形的场景文本识别攻击,可以对图像基于艺术字变形进行整体的、复杂的扰动,从而提高对抗攻击的效率,不同于目前基于Lp范数的各种对抗攻击方法,无论是基于梯度攻击还是生成对抗网络,本申请实施例提出的基于语义的对抗样本生成方法,通过对目前的艺术字生成技术进行更改,应用在生成对抗网络框架下,来生成具有艺术字风格的对抗场景文本图像,所生成的对抗样本不像Lp范数攻击方法表现为像素噪点的形式,具有更真实的视觉表现,更不易防御。
S13、将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本。
具体地,虽然将所述训练样本图像基于艺术字变形可以将场景文本识别图像进行整体的复杂扰动,但艺术字变形存在变形过度导致场景文本识别中对语义理解的问题,为了充分利用艺术字变形的优势而同时降低艺术字变形对场景文本识别的不利因素,保证场景文本识别效果的同时提高攻击网络的对抗攻击效率,本申请实施例,再利用已训练的预设场景文本识别模型对场景文本识别效果较好的优势,已训练的预设场景文本识别模型可以为在实际场景识别业务中已经运用的预设场景文本识别模型等具备较好识别效果的场景文本识别模型,将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本。请继续参阅图2,如图2所示,将对抗艺术字图像X'经已训练的预设场景文本识别模型F识别,得到对抗艺术字图像X'对应的识别文本,并获取所述训练样本图像X包含的训练文本,从而后续基于识别文本与训练文本之间的损失调整攻击网络,可以通过调整将训练样本图像进行艺术字变形时的变形效果,提高将对抗艺术字图像中的文本识别出来的准确性。
S14、利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
具体地,在获取到所述原始艺术字图像与所述对抗艺术字图像,及所述识别文本与所述训练文本后,由于所述对抗艺术字图像对应于所述原始艺术字图像,及所述识别文本对应于所述训练文本,从而基于所述原始艺术字图像与所述对抗艺术字图像,并结合所述识别文本与所述训练文本,将所述攻击网络进行更新,可以利用所述对抗艺术字图像相对于所述原始艺术字图像的损失,及所述识别文本相对于所述训练文本的损失,调整所述攻击网络中的参数,将所述攻击网络进行更新,从而对所述攻击网络进行训练。例如,请继续参阅图2,将包含有场景文本的图像X(X中的文本非艺术字体),通过艺术字生成对抗网络G(为GAN网络)生成对抗图像X'(X'中文本为艺术字体),并根据原始艺术字图像XA与对抗艺术字图像X'获取第一损失值LGAN,根据所述对抗艺术字图像X'及图像X对应的训练文本,获取第二损失值LADV,再根据第一损失值LGAN与第二损失值LADV更新艺术字生成对抗网络,例如更新预设艺术字生成模型G,其中,对抗图像X'经过已训练的预设场景文本识别模型F(模型F中的权重参数固定),目标是使得F将X识别为预先指定的特定文本。攻击网络训练完成后,可以对任一张文本图像X,生成艺术字形式的攻击样本图像GT(GS(x)),使得待训练的预设目标场景文本识别模型将其错误识别为目标标签(标签英文为Label),从而实现对抗攻击。
本申请实施例,通过将所述训练样本图像进行艺术字生成,以将所述训练样本图像进行艺术字变形,实现对训练样本图像的像素扰动更接近现实,因而具有对多种防御模型具备更好的迁移性,同时又通过识别效果较好的已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并结合所述训练样本图像包含的训练文本,通过调整将训练样本图像进行艺术字变形时的变形效果,可以提高将对抗艺术字图像中的文本识别的准确性,从而基于所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本将攻击网络进行训练时,使得生成的场景识别对抗样本(场景文本)在语义上体现为艺术字的形式,而不是像素噪点的形式,实现了基于艺术字生成对抗网络的场景文本对抗攻击方法,相比于传统的基于Lp范数攻击的方式,有多种优点,一是攻击速度快,只需根据训练好的生成模型进行推理,不需要进行梯度的迭代计算来求解攻击样本;二是生成对抗网络生成的对抗样本具有与原始艺术字变形的高度相似性,其包含的像素扰动更接近现实,因而具有对多种防御模型更好的迁移性。三是由于攻击样本的生成速度很快,可以以极低的代价使用这些攻击样本来进行鲁棒识别模型的对抗训练,使得对复杂模型和高分辨图像文本的对抗训练更易实现,同时可以提高将场景文本进行识别时的准确性,从而提高对抗攻击的效率。
请参阅图3,图3为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第一个子流程示意图。如图3所示,在该实施例中,所述攻击网络还包括预设艺术字判别模型,所述利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练的步骤包括:
S31、将所述原始艺术字图像与所述对抗艺术字图像通过所述预设艺术字判别模型进行判别,得到判别结果,并根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值。
具体地,为了对预设艺术字生成模型进行训练,以提高预设艺术字生成模型将训练样本图像进行艺术字变形以生成对抗艺术字图像的生成质量,可以通过预设艺术字判别模型将所述原始艺术字图像与所述对抗艺术字图像进行判别,得到判别结果,并根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的损失,即所述对抗艺术字图像相对所述原始艺术字图像的第一损失值,请继续参阅图2,图2中利用原始艺术字图像XA与对抗艺术字图像X'经预设艺术字判别模型D进行判别,根据判别结果获取对抗艺术字图像X'相对于原始艺术字图像XA的第一损失值LGAN,从而量化所述对抗艺术字图像相对于所述原始艺术字图像间的损失,后续根据所述损失调整攻击网络中的参数,从而更新所述攻击网络,以将所述攻击网络进行训练,使攻击网络能够将训练样本图像进行更准确的艺术字变形,从而提高对抗攻击的效率与效果。
S32、根据所述识别文本与所述训练文本,获取所述识别文本相对于所述训练文本的第二损失值。
具体地,根据所述识别文本与所述训练文本,获取所述识别文本与所述训练文本各自相对应的文本特征,将所述文本特征通过预设损失函数计算,即可获取所述识别文本相对于所述训练文本的损失对应的第二损失值。请继续参阅图2,如图2所示,将所述对抗艺术字图像X'经已训练的预设场景识别模型F识别后得到识别文本,并获取图像X对应的训练文本,根据所述识别文本及所述训练文本获取所述识别文本相对于所述训练文本对应的第二损失值LADV。
S33、利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新。
具体地,根据所述第一损失值与所述第二损失值,通过将所述第一损失值与所述第二损失值结合起来,例如,将所述第一损失值与所述第二损失值进行求和,得到损失值的和值,利用所述和值将所述攻击网络中的预设艺术字生成模型与预设艺术字判别模型中各自包含的参数分别进行更新,以将对抗攻击网络进行训练。
请参阅图4,图4为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第二个子流程示意图。如图4所示,在该实施例中,所述根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值的步骤包括:
S41、获取对多张所述训练样本图像进行判别的判别结果对应的分布概率;
S42、将所述分布概率作为计算所述第一损失值的参数,计算所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值。
具体地,在对场景文本识别攻击网络进行训练时,一般会通过多张所述训练样本图像进行,将每张所述训练样本图像通过所述预设艺术字生成模型生成对应的对抗艺术字图像,再通过所述预设艺术字判别模型根据所述原始艺术字图像与所述对抗艺术字图像,判断所述对抗艺术字图像相对所述原始艺术字图像是否为真实的图片,目标是将所述预设艺术字生成模型产生的“假”图片与训练集中的所述原始艺术字图像对应“真”图片分辨开,由于所述预设艺术字生成模型产生的所述对抗艺术字图像均为“假”图片,理想状态为所述预设艺术字判别模型识别所有所述对抗艺术字图像均为“假”图片,而实际情况为由于种种因素的存在,所述预设艺术字判别模型在对所述对抗艺术字图像进行识别时,会存在识别错误的情形,从而出现将有的所述艺术字对抗图像识别为“真”图片(识别错误),将有的所述艺术字对抗图像识别为“假”图片,从而会得到“真”图片与“假”图片的一个分布概率,即所有所述对抗艺术字图像中,有多少张所述对抗艺术字图像为“真”图片,“真”图片的分布概率为多少,有多少张所述对抗艺术字图像为“假”图片,“假”图片的分布概率为多少,从而得到判别结果,所述判别结果为多张所述训练样本图像为“真”与“假”的分布概率,获取针对多张所述训练样本图像的判别结果对应的分布概率,将所述分布概率输入对应的预设损失函数,作为计算所述第一损失值的参数,计算所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值,从而根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值,并根据所述第一损失值调整攻击网络中的参数,以更新所述攻击网络,使攻击网络的所述预设艺术字生成模型产生的所述对抗艺术字图像尽可能为“真”,而攻击网络的所述预设艺术字判别模型又能识别出所述对抗字艺术图像为“假”,从而提高所述攻击网络的对抗攻击的效。
请参阅图5,图5为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第三个子流程示意图。如图5所示,在该实施例中,所述利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新的步骤包括:
S51、计算所述第一损失值与所述第二损失值的和值,得到损失总值;
S52、利用所述损失总值将所述预设艺术字生成模型与所述预设艺术字判别模型分别进行梯度下降。
具体地,可以分别利用第一损失值与所述第二损失值将所述预设艺术字生成模型进行梯度下降,同时分别利用第一损失值与所述第二损失值将所述预设艺术字判别模型进行梯度下降,从而实现将所述攻击网络进行更新,实现对所述攻击网络进行训练,也可以计算所述第一损失值进行相加求和,得到所述损失和值,或者分别给予所述第一损失值与所述第二损失值各自对应权重后,再将分别给予权重的所述第一损失值与所述第二损失值进行求和相加,得到所述损失和值,然后利用所述损失和值将所述预设艺术字生成模型与所述预设艺术字判别模型分别进行梯度下降,实现将所述攻击网络进行更新,实现对所述攻击网络进行训练,例如,请继续参阅图2,根据第一损失值LGAN与第二损失值LADV,例如更新预设艺术字生成模型G与预设艺术字判别模型D,从而实现更新由预设艺术字生成模型G与预设艺术字判别模型D组成的艺术字生成对抗网络。其中,请继续参阅图2,针对该攻击网络,可以定义如下损失函数:
(1)对抗网络损失函数LT=Exlog D(xA)+Exlog(1-D(x')).该函数目标是使得生成的对抗图像X'与变形的艺术字XA不可区分。场景文本识别应用中一块广告牌,门牌等中的标题、名称或地址/电话编号等的包含文字或数字序列的图像区域被定义为一个待识别的文本图像。对于给定的文本图像,我们对其所含内容来合成一个艺术字风格的新图像。XA为采用附件中艺术字生成方法合成的未经攻击的文本图像。X'为在对抗攻击训练中新合成的文本图像。LT这类GAN损失函数表示真实和生成图像的散度,散度越大表示判别器可以区分,判别器训练使得散度最大化,生成器训练使得散度最小化。
(3)Lstyle为神经风格迁移技术中的风格损失函数。
(4)识别模型对抗函数LADV=ExlF(x',label)。lF为文本识别模型的损失函数,如CTCLoss。label为目标攻击的文本标签,即假设的文本内容如“凤凰影城”。该损失函数目的是使得x'被识别为label。
进而通过总的损失函数L=ω1LS+ω2LT+ω3Lstyle+ω4LADV来用梯度下降法训练艺术字生成对抗网络,包含纹理迁移模型GT和判别模型DT。ωi为各损失函数所占比重的预先人为定义的超参数。
请参阅图6,图6为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第四个子流程示意图。如图6所示,在该实施例中,所述将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像的步骤包括:
S61、通过所述预设艺术字生成模型获取所述原始艺术字图像对应的所述预设艺术字风格的预设风格标识;
S62、根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征;
S63、将所述纹理特征迁移到所述训练样本图像,生成所述训练样本图像对应的对抗艺术字图像。
具体地,将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像时,可以用所述预设艺术字风格的预设风格标识描述所述预设艺术字风格,将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成时,根据所述原始艺术字图像对应的所述预设艺术字风格的预设风格标识,通过所述预设艺术字生成模型获取预设风格标识,根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征,将所述纹理特征迁移到所述训练样本图像,生成所述训练样本图像对应的对抗艺术字图像,其中,所述预设风格标识包括风格编码、风格名称。
请参阅图7,图7为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第五个子流程示意图。如图7所示,在该实施例中,所述根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征的步骤之前,还包括:
S71、获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征;
S72、获取所述预设艺术字风格的预设风格标识,并将所述预设艺术字风格的纹理特征与所述预设风格标识进行关联。
具体地,针对每一种艺术字风格,首先根据该艺术字风格的大量训练样本,获取所述艺术字风格的纹理特征,然后再获取针对该艺术字风格设置的预设风格标识,将所述艺术字风格的纹理特征与所述预设风格标识进行对应关联,建立起所述预设风格标识与所述艺术字风格的纹理特征之间的匹配关系,后续即可根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征,以将所述预设艺术字风格对应的纹理特征迁移到艺术字上,进行该预设艺术字风格的艺术字生成。
请参阅图8,图8为本申请实施例提供的用于场景文本识别的攻击网络训练方法的第六个子流程示意图。如图8所示,在该实施例中,所述获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征的步骤包括:
S81、基于预设草图提取模型,将所述训练样本图像进行平滑处理,得到平滑图像;
S82、根据所述平滑图像与所述训练样本图像,提取所述平滑图像中的平滑特征对应的字形结构特征;
S83、获取艺术字对应的预设风格图,并将预设风格图像进行抠图,得到所述预设风格图像对应的风格结构图;
S844、基于所述预设草图提取模型,将所述风格结构图经处理得到具备所述平滑特征的平滑结构图;
S85、基于预设字形提取模型,根据所述结构图与所述平滑结构图,提取所述结构图的形状特征;
S86、基于预设纹理迁移模型,根据所述形状特征、所述预设风格图及所述风格结构图,获取所述预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征。
进一步地,所述将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征的步骤之后,还包括:
通过预设风格图像生成对抗网络更新所述预设艺术字风格的纹理特征。
具体地,将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像,主要是通过神经风格迁移(英文为Neural StyleTransfer),将艺术字对应的艺术字风格迁移到训练样本图像上,从而生成训练样本图像对应的艺术字形式的对抗艺术字图像。请继续参阅图2,由于预设艺术字生成模型的目标可以是将一张风格图像S(如一张火焰的图像)的风格迁移到原始文本图像X上,生成艺术字。首先对生成对抗网络的以下模型部分进行预训练。
1)草图提取模型GB。给定包含有大量原始文本图像X的训练集,模型GB对每张图像X,首先作平滑处理,消除细节而只保持平滑后的轮廓,平滑后的图像经过一个变换网络映射会原始图像X,以学习图像中文本的字形结构特征。
3)纹理迁移模型GT。给定输入风格结构图经过剪切、平移等多种数据增强操作来训练纹理迁移模型GT使获得纹理后的图像映射到风格图像S,使纹理迁移模型GT通过比较风格结构图与风格图像S,来学习风格图像S的纹理特征,并在所述将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征的步骤之后,通过预设风格图像生成对抗网络更新所述预设艺术字风格的纹理特征,以获取尽可能准确的所述预设艺术字风格的纹理特征,如图2所示。此步骤训练的GT作为后续训练的初始模型,以便后续将所述纹理特征迁移到所述训练样本图像上,从而生成所述训练样本图像对应的预设风格图形状的对抗艺术字图像。其中,对纹理迁移模型GT的训练,通过对原始文本图像X应用训练得到的字形提取模型GS,得到X的字形图使用作为GT(初始为预训练的模型GT)的输入,进行纹理迁移风格变换。图2中生成模型的输出即为将X'作为预训练的文本识别模型F的输入加以识别。为了增强对抗攻击后的艺术字图像与未经攻击的原始图像保持高度真实性,我们将判别器也应用于对抗艺术字图像和原始艺术字图像。
需要说明的是,上述各个实施例所述的用于场景文本识别的攻击网络训练方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图9,图9为本申请实施例提供的用于场景文本识别的攻击网络训练装置的一个示意性框图。对应于上述所述用于场景文本识别的攻击网络训练方法,本申请实施例还提供一种用于场景文本识别的攻击网络训练装置。如图9所示,该用于场景文本识别的攻击网络训练装置包括用于执行上述所述用于场景文本识别的攻击网络训练方法的单元,该用于场景文本识别的攻击网络训练装置可以被配置于计算机设备中。具体地,请参阅图9,该用于场景文本识别的攻击网络训练装置90,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,所述攻击网络包括预设艺术字生成模型,所述用于场景文本识别的攻击网络训练装置90包括第一生成单元91、第二生成单元92、识别单元93及训练单元94。
其中,第一生成单元91,用于获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;
第二生成单元92,用于将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;
识别单元93,用于将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;
训练单元94,用于利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
在一实施例中,所述攻击网络还包括预设艺术字判别模型,所述训练单元94包括:
判别子单元,用于将所述原始艺术字图像与所述对抗艺术字图像通过所述预设艺术字判别模型进行判别,得到判别结果,并根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值;
第一获取子单元,用于根据所述识别文本与所述训练文本,获取所述识别文本相对于所述训练文本的第二损失值;
更新子单元,用于利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新。
在一实施例中,所述判别子单元包括:
第二获取子单元,用于获取对多张所述训练样本图像进行判别的判别结果对应的分布概率;
第一计算子单元,用于将所述分布概率作为计算所述第一损失值的参数,计算所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值。
在一实施例中,所述更新子单元包括:
第二计算子单元,用于计算所述第一损失值与所述第二损失值的和值,得到损失总值;
梯度下降子单元,用于利用所述损失总值将所述预设艺术字生成模型与所述预设艺术字判别模型分别进行梯度下降。
在一实施例中,所述第二生成单元92包括:
第三获取子单元,用于通过所述预设艺术字生成模型获取所述原始艺术字图像对应的所述预设艺术字风格的预设风格标识;
第四获取子单元,用于根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征;
生成子单元,用于将所述纹理特征迁移到所述训练样本图像,生成所述训练样本图像对应的对抗艺术字图像。
在一实施例中,所述第二生成单元92还包括:
第五获取子单元,用于获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征;
关联子单元,用于获取所述预设艺术字风格的预设风格标识,并将所述预设艺术字风格的纹理特征与所述预设风格标识进行关联。
在一实施例中,所述第五获取子单元包括:
第一处理子单元,用于基于预设草图提取模型,将所述训练样本图像进行平滑处理,得到平滑图像;
第一提取子单元,用于根据所述平滑图像与所述训练样本图像,提取所述平滑图像中的平滑特征对应的字形结构特征;
抠图子单元,用于获取艺术字对应的预设风格图,并将预设风格图像进行抠图,得到所述预设风格图像对应的风格结构图;
第二处理子单元,用于基于所述预设草图提取模型,将所述风格结构图经处理得到具备所述平滑特征的平滑结构图;
第二提取子单元,用于基于预设字形提取模型,根据所述结构图与所述平滑结构图,提取所述结构图的形状特征;
第六获取子单元,用于基于预设纹理迁移模型,根据所述形状特征、所述预设风格图及所述风格结构图,获取所述预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述用于场景文本识别的攻击网络训练装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述用于场景文本识别的攻击网络训练装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将用于场景文本识别的攻击网络训练装置按照需要划分为不同的单元,也可将用于场景文本识别的攻击网络训练装置中各单元采取不同的连接顺序和方式,以完成上述用于场景文本识别的攻击网络训练装置的全部或部分功能。
上述用于场景文本识别的攻击网络训练装置可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504,所述存储器也可以为易失性存储介质。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述用于场景文本识别的攻击网络训练方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述用于场景文本识别的攻击网络训练方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
其中,用于场景文本识别的攻击网络训练方法,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,所述攻击网络包括预设艺术字生成模型,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
在一实施例中,所述攻击网络还包括预设艺术字判别模型,所述处理器502在实现所述利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练的步骤时,具体实现以下步骤:
将所述原始艺术字图像与所述对抗艺术字图像通过所述预设艺术字判别模型进行判别,得到判别结果,并根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值;
根据所述识别文本与所述训练文本,获取所述识别文本相对于所述训练文本的第二损失值;
利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新。
在一实施例中,所述处理器502在实现所述根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值的步骤时,具体实现以下步骤:
获取对多张所述训练样本图像进行判别的判别结果对应的分布概率;
将所述分布概率作为计算所述第一损失值的参数,计算所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值。
在一实施例中,所述处理器502在实现所述利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新的步骤时,具体实现以下步骤:
计算所述第一损失值与所述第二损失值的和值,得到损失总值;
利用所述损失总值将所述预设艺术字生成模型与所述预设艺术字判别模型分别进行梯度下降。
在一实施例中,所述处理器502在实现所述将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像的步骤时,具体实现以下步骤:
通过所述预设艺术字生成模型获取所述原始艺术字图像对应的所述预设艺术字风格的预设风格标识;
根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征;
将所述纹理特征迁移到所述训练样本图像,生成所述训练样本图像对应的对抗艺术字图像。
在一实施例中,所述处理器502在实现所述根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征的步骤之前,还实现以下步骤:
获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征;
获取所述预设艺术字风格的预设风格标识,并将所述预设艺术字风格的纹理特征与所述预设风格标识进行关联。
在一实施例中,所述处理器502在实现所述获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征的步骤时,具体实现以下步骤:
基于预设草图提取模型,将所述训练样本图像进行平滑处理,得到平滑图像;
根据所述平滑图像与所述训练样本图像,提取所述平滑图像中的平滑特征对应的字形结构特征;
获取艺术字对应的预设风格图,并将预设风格图像进行抠图,得到所述预设风格图像对应的风格结构图;
基于所述预设草图提取模型,将所述风格结构图经处理得到具备所述平滑特征的平滑结构图;
基于预设字形提取模型,根据所述结构图与所述平滑结构图,提取所述结构图的形状特征;
基于预设纹理迁移模型,根据所述形状特征、所述预设风格图及所述风格结构图,获取所述预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的所述用于场景文本识别的攻击网络训练方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于场景文本识别的攻击网络训练方法,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,其特征在于,所述攻击网络包括预设艺术字生成模型,所述方法包括:
获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;
将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;
将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;
利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
2.根据权利要求1所述用于场景文本识别的攻击网络训练方法,其特征在于,所述攻击网络还包括预设艺术字判别模型,所述利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练的步骤包括:
将所述原始艺术字图像与所述对抗艺术字图像通过所述预设艺术字判别模型进行判别,得到判别结果,并根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值;
根据所述识别文本与所述训练文本,获取所述识别文本相对于所述训练文本的第二损失值;
利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新。
3.根据权利要求2所述用于场景文本识别的攻击网络训练方法,其特征在于,所述根据所述判别结果获取所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值的步骤包括:
获取对多张所述训练样本图像进行判别的判别结果对应的分布概率;
将所述分布概率作为计算所述第一损失值的参数,计算所述对抗艺术字图像相对于所述原始艺术字图像的第一损失值。
4.根据权利要求2所述用于场景文本识别的攻击网络训练方法,其特征在于,所述利用所述第一损失值与所述第二损失值,将所述攻击网络进行更新的步骤包括:
计算所述第一损失值与所述第二损失值的和值,得到损失总值;
利用所述损失总值将所述预设艺术字生成模型与所述预设艺术字判别模型分别进行梯度下降。
5.根据权利要求1所述用于场景文本识别的攻击网络训练方法,其特征在于,所述将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像的步骤包括:
通过所述预设艺术字生成模型获取所述原始艺术字图像对应的所述预设艺术字风格的预设风格标识;
根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征;
将所述纹理特征迁移到所述训练样本图像,生成所述训练样本图像对应的对抗艺术字图像。
6.根据权利要求5所述用于场景文本识别的攻击网络训练方法,其特征在于,所述根据所述预设风格标识获取所述预设艺术字风格对应的纹理特征的步骤之前,还包括:
获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征;
获取所述预设艺术字风格的预设风格标识,并将所述预设艺术字风格的纹理特征与所述预设风格标识进行关联。
7.根据权利要求6所述用于场景文本识别的攻击网络训练方法,其特征在于,所述获取所述预设艺术字风格对应的预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征的步骤包括:
基于预设草图提取模型,将所述训练样本图像进行平滑处理,得到平滑图像;
根据所述平滑图像与所述训练样本图像,提取所述平滑图像中的平滑特征对应的字形结构特征;
获取艺术字对应的预设风格图,并将预设风格图像进行抠图,得到所述预设风格图像对应的风格结构图;
基于所述预设草图提取模型,将所述风格结构图经处理得到具备所述平滑特征的平滑结构图;
基于预设字形提取模型,根据所述结构图与所述平滑结构图,提取所述结构图的形状特征;
基于预设纹理迁移模型,根据所述形状特征、所述预设风格图及所述风格结构图,获取所述预设风格图的纹理特征,并将所述预设风格图的纹理特征作为所述预设艺术字风格的纹理特征。
8.一种用于场景文本识别的攻击网络训练装置,应用于对预设目标场景文本识别模型进行对抗攻击训练的攻击网络,其特征在于,所述攻击网络包括预设艺术字生成模型,所述装置包括:
第一生成单元,用于获取训练样本图像,并将所述训练样本图像按照预设艺术字风格进行艺术字生成,得到原始艺术字图像;
第二生成单元,用于将所述训练样本图像通过所述预设艺术字生成模型按照所述艺术字风格进行艺术字生成,得到对抗艺术字图像;
识别单元,用于将所述对抗艺术字图像通过已训练的预设场景文本识别模型进行场景文本识别,得到识别文本,并获取所述训练样本图像包含的训练文本;
训练单元,用于利用所述原始艺术字图像、所述对抗艺术字图像、所述识别文本及所述训练文本,对所述攻击网络进行训练。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308952.XA CN112966685B (zh) | 2021-03-23 | 2021-03-23 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308952.XA CN112966685B (zh) | 2021-03-23 | 2021-03-23 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966685A true CN112966685A (zh) | 2021-06-15 |
CN112966685B CN112966685B (zh) | 2024-04-19 |
Family
ID=76278227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110308952.XA Active CN112966685B (zh) | 2021-03-23 | 2021-03-23 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966685B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
CN114399693A (zh) * | 2021-12-29 | 2022-04-26 | 国能铁路装备有限责任公司 | 承载鞍寿命预算方法及装置 |
CN117475448A (zh) * | 2023-12-27 | 2024-01-30 | 苏州镁伽科技有限公司 | 图像处理模型的训练方法、图像处理方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
CN111046673A (zh) * | 2019-12-17 | 2020-04-21 | 湖南大学 | 一种用于防御文本恶意样本的对抗生成网络及其训练方法 |
CN111242114A (zh) * | 2020-01-08 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 文字识别方法及装置 |
CN111341294A (zh) * | 2020-02-28 | 2020-06-26 | 电子科技大学 | 将文本转换为指定风格语音的方法 |
CN111476228A (zh) * | 2020-04-07 | 2020-07-31 | 海南阿凡题科技有限公司 | 针对场景文字识别模型的白盒对抗样本生成方法 |
CN111553837A (zh) * | 2020-04-28 | 2020-08-18 | 武汉理工大学 | 一种基于神经风格迁移的艺术文本图像生成方法 |
CN111626124A (zh) * | 2020-04-24 | 2020-09-04 | 平安国际智慧城市科技股份有限公司 | Ocr图像样本生成、印刷体验证方法、装置、设备及介质 |
CN111652093A (zh) * | 2020-05-21 | 2020-09-11 | 中国工商银行股份有限公司 | 文本图像处理方法及装置 |
WO2020200030A1 (zh) * | 2019-04-02 | 2020-10-08 | 京东方科技集团股份有限公司 | 神经网络的训练方法、图像处理方法、图像处理装置和存储介质 |
CN111783083A (zh) * | 2020-06-19 | 2020-10-16 | 浙大城市学院 | 一种防御算法的推荐方法及装置 |
WO2020240572A1 (en) * | 2019-05-29 | 2020-12-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for training a discriminator |
-
2021
- 2021-03-23 CN CN202110308952.XA patent/CN112966685B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020200030A1 (zh) * | 2019-04-02 | 2020-10-08 | 京东方科技集团股份有限公司 | 神经网络的训练方法、图像处理方法、图像处理装置和存储介质 |
WO2020240572A1 (en) * | 2019-05-29 | 2020-12-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for training a discriminator |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
CN111046673A (zh) * | 2019-12-17 | 2020-04-21 | 湖南大学 | 一种用于防御文本恶意样本的对抗生成网络及其训练方法 |
CN111242114A (zh) * | 2020-01-08 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 文字识别方法及装置 |
CN111341294A (zh) * | 2020-02-28 | 2020-06-26 | 电子科技大学 | 将文本转换为指定风格语音的方法 |
CN111476228A (zh) * | 2020-04-07 | 2020-07-31 | 海南阿凡题科技有限公司 | 针对场景文字识别模型的白盒对抗样本生成方法 |
CN111626124A (zh) * | 2020-04-24 | 2020-09-04 | 平安国际智慧城市科技股份有限公司 | Ocr图像样本生成、印刷体验证方法、装置、设备及介质 |
CN111553837A (zh) * | 2020-04-28 | 2020-08-18 | 武汉理工大学 | 一种基于神经风格迁移的艺术文本图像生成方法 |
CN111652093A (zh) * | 2020-05-21 | 2020-09-11 | 中国工商银行股份有限公司 | 文本图像处理方法及装置 |
CN111783083A (zh) * | 2020-06-19 | 2020-10-16 | 浙大城市学院 | 一种防御算法的推荐方法及装置 |
Non-Patent Citations (2)
Title |
---|
YIRU ZHAO: "Stylized Adversarial AutoEncoder for Image Generation", MM’17, pages 244 - 251 * |
马春光;郭瑶瑶;武朋;刘海波;: "生成式对抗网络图像增强研究综述", 信息网络安全, no. 05, pages 10 - 21 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
CN114399693A (zh) * | 2021-12-29 | 2022-04-26 | 国能铁路装备有限责任公司 | 承载鞍寿命预算方法及装置 |
CN117475448A (zh) * | 2023-12-27 | 2024-01-30 | 苏州镁伽科技有限公司 | 图像处理模型的训练方法、图像处理方法及装置 |
CN117475448B (zh) * | 2023-12-27 | 2024-04-16 | 苏州镁伽科技有限公司 | 图像处理模型的训练方法、图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112966685B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372581B (zh) | 构建及训练人脸识别特征提取网络的方法 | |
CN109145766B (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
CN112966685A (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
CN112016543A (zh) | 一种文本识别网络、神经网络训练的方法以及相关设备 | |
CN109559363B (zh) | 图像的风格化处理方法、装置、介质和电子设备 | |
CN111709406B (zh) | 文本行识别方法及装置、可读存储介质、电子设备 | |
CN106570521B (zh) | 多语言场景字符识别方法及识别系统 | |
CN113095333B (zh) | 无监督特征点检测方法及装置 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN110648289A (zh) | 图像的加噪处理方法及装置 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
Khurana et al. | Static hand gestures recognition system using shape based features | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN110414622B (zh) | 基于半监督学习的分类器训练方法及装置 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111079823A (zh) | 验证码图像生成方法及系统 | |
CN108229477B (zh) | 针对图像的视觉关联性识别方法、装置、设备及存储介质 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN112419249B (zh) | 一种特殊服饰图片转化方法、终端设备及存储介质 | |
CN115063847A (zh) | 一种面部图像获取模型的训练方法及装置 | |
CN111767710B (zh) | 印尼语的情感分类方法、装置、设备及介质 | |
CN114387656A (zh) | 基于人工智能的换脸方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211022 Address after: 518000 1601 (unit 18), Qianhai free trade building, 3048 Xinghai Avenue, Nanshan street, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong Province Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |