CN111723585A

CN111723585A - 一种风格可控的图像文本实时翻译与转换方法

Info

Publication number: CN111723585A
Application number: CN202010512502.8A
Authority: CN
Inventors: 李昕; 刘航源; 王志宽; 吕涵
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-09-29
Anticipated expiration: 2040-06-08
Also published as: CN111723585B

Abstract

本发明公开了一种风格可控的图像文本实时翻译与转换方法，该方法包含：将场景图像作为输入；利用多层CNN网络进行特征提取，检测出图像文本的位置与形态信息。然后基于文本定位框擦除文本像素得到背景图像和掩膜，利用粗细两层基于编解码器结构的修复网络进行背景图像修复。同时将图像文本进行形态纠正与去风格化，得到普通字体图像文本；使用CRNN模型将图像文本进行识别，结合文本语义进行修正，按照需求进行翻译或转换。通过学习原文本的艺术风格对翻译文本进行风格化处理；输出文本转换风格可控的场景图像。本发明的方法能够从场景图像中解析出更多有价值的信息，显著增强了图像文本翻译转换时的信息保存程度。

Description

一种风格可控的图像文本实时翻译与转换方法

技术领域

本发明属于计算机图形与图像处理领域，涉及一种风格可控的图像文本实时翻译与转换方法。

背景技术

随着经济全球化与网络技术的不断发展，国际间的交流日益增多，使用不同语言人群之间的语言壁垒引起了文化隔阂，对国际间的友好交流及优良文化的传播造成了消极影响。打破语言壁垒，消除文化隔阂是增强国际交流的重要途径。文字符号是语言的表现形式，视觉是文本信息获取的重要来源，因此针对场景文本的实时识别、翻译与转换技术被寄予厚望。近年来，由于图像数量的急剧增长和神经网络技术的迅速发展，场景文本识别得到了更多的关注，该方面的研究取得了一定的进展，在文本分析、视觉地理定位以及车牌识别等领域有广阔的应用价值。图像修复技术经过多年的发展已取得了诸多重要的研究成果，并被广泛应用于照片修复、基于图像的渲染或计算摄影。GAN(生成式对抗网络)是目前最热门也是最高效解决风格迁移的深度学习方法，目前基于GAN模型的图像风格迁移应用已被广泛应用于数字媒体领域，促进了自动化数字图像生成、场景风格增强等应用的蓬勃发展。

由于场景文本识别中的检测步骤和目标检测之间存在一定的相似性，所以很多方法都采用一些与目标检测方法相似的框架，最常见的就是基于RPN网络结构的一系列方法。在目标检测中，各类目标的边界通常是非常明确的，可以标注出较为明确的边界框，但是文本实例的边界无法明确定义，通常使用矩形包围盒的方式进行表述，但是矩形框难以准确表示弯曲文本以及形状变化的文本的信息。在图像修复领域，现有的输入形式为输入待修复区域的掩膜图，本方法中图像掩膜的生成依赖于文本区域的定位选中，形状具有随机性与不确定性，特有风格更会形成很多噪音，文本内容转换的同时，空间信息会发生不规则形变和边缘的模糊性，需结合图像语义对文本位置像素进行精准地擦除与修复，实现背景信息完全无损情况下的图像修复。传统的风格迁移GAN算法，如DualGAN、CyCleGAN、Pix2Pix存在着收敛速度慢、训练过程不稳定、容易发生模型崩塌等问题。借助GAN进行图像的字体风格迁移，不仅要解决传统算法的既有缺陷，还要针对文字字体自由性和多态性强的特点设计新的网络结构。因此，如何在干扰因素繁多和背景复杂的实际工程场景中，实现风格可控的图像文本实时翻译与转换成为一个亟待解决的难题。

发明内容

本发明为了克服上述缺陷，提出了一种风格可控的图像文本实时翻译与转换方法，本发明具体步骤如下：

S1，输入一张带有艺术风格文本内容的场景图片；

S2，通过CRAFT方法进行特征提取，检测出图像中文本信息位置；

S3，根据图片中文本信息位置提取文本像素，擦除原文本信息位置的像素，得到破洞掩膜和背景图片；

S4，通过训练图形修复模型，对S3中得到的破损背景图像进行修复，得到风格无损、纹理清晰的背景图像；

S5，将S3中得到的文本内容进行形状校正和去风格化处理，得到普通字体的文本；

S6，通过OCR识别技术将S5的文本进行识别，结合文本语义进行内容校正，结合场景语义和文本上下文内容进行最合适的翻译或按需求进行文本内容转换；

S7，通过GAN模型对原文本风格进行学习，将S6得到的文本做风格化处理，通过扭曲、旋转、对称等方式恢复其原有的艺术形态；

S8，将背景图像与风格保持的翻译文本融合，输出文本转换风格可控的场景图像。

本发明的技术方案特征和改进为：

对于步骤S2，本发明使用的文本检测方法是CRAFT方法，该方法实质为基于U-Net深度学习框架改进的文本检测器；基于字符级标注的合成数据集，通过预处理算法计算出合成数据集的字符区域高斯热度图和字间区域高斯热度图；由合成数据集的两个热度图训练中间模型，通过中间模型将词汇级标注的真实数据集向字符级标注推广，并迭代训练，实现弱监督学习的文本检测器。

优选地，在所述的步骤S2中，弱监督学习方式需要对中间模型对真实数据集的预测结果进行置信度计算，公式如下：

式(1)中l(x)表示一个样本x的单词长度，l^c(x)表示中间模型预测产生的字符级包围盒相应的长度，S_conf(x)即表示此时模型生产的样本x的字符级包围盒的置信度。

对于步骤S4，本发明使用基于上下文注意力的图像修复深度学习模型对破损背景图像进行修复，模型分粗糙修复和细修复两阶段，输入是擦除文本信息像素的背景图像和掩膜；粗修复阶段目标生成粗糙结果，使用一个编解码网络提取图像特征，反卷积生成模糊的图像。

细修复阶段是对模糊图像进行加强，除了对图像特征进行编解码重构外，引入了Attention模块以获取远处区域的图像特征，具体实现包括在背景区域提取3×3的patch，作为卷积核与待修复区域进行匹配，通过计算余弦相似度找出与待修复区域最相似的patch，然后利用这个区域的特征做反卷积，精细化粗糙修复结果，背景区域和待修复区域patch间的相似度计算方法如下：

式(2)中，s_x,y,x',y'代表相似度，f_x,y是待修复区域的patch，b_x',y'是背景区域的patch，然后沿着x'y'维度和缩放的softmax函数继续衡量相似度，得到每个像素的attention得分，表示如下：

式(3)中λ是一个常数值，实际中如果当前背景区域patch与待修复区域patch相似度极高，则对应位置像素值也应接近，因此可以通过传播的方式得到更具有一致性的attention maps，以左右传播为例，新的相似性计算公式可表示为：

式(4)中，

表示新的patch相似度，k是卷积核尺寸，i表示左右位置移动。

优选地，在所述的步骤S4中，图像修复模型首先通过粗修复生成模糊结果，在细修复阶段引入Attention模块，利用图像远处的特征信息，生成更精细的修复结果，两阶段均使用空洞卷积代替普通卷积以获得更大感受野。

对于步骤S5，本发明通过记录文本区域形状的特点来进行扭转修复，S2中检测文本区域的方法为CRAFT，使用数个连续的字符框，和数个与其交叠的连续的间隔框表示文本区域。通过给每个字符框定义一定的属性和给每块文本区域定义一定的属性，可以记录所有文本区域属性的原始值来保存原有区域的形状信息；通过字符框中心点坐标、字符框宽度、字符框高度、字符框间角度等属性可以有效表示每一片文本区域，且得以纠正弯曲文本，解决字符大小不一致的问题，每个文本区域可以表示如下：

TR(n)＝{C₀,C₁,C₂,…,C_i,…,C_n} (5)

式(5)中，TR(n)表示含有n个字符的某一文本区域，C_i表示该文本区域中的第i个字符，其中每个字符C_i表达式如下：

C＝(c,w,h,θ) (6)

式(6)中，c表示该字符C的中心点位置，w表示字符宽度，h表示字符高度，θ表示该字符中心点与下一字符中心点的夹角；相较于传统的固定的包围盒表示方法，本方法通过前三个属性可以准确描述单字符的形态特征，最后的角度θ属性用以串联一个文本区域中的字符，增加了每个文本区域形状描述的准确性，也可以通过扭转θ，调整(w,h)，使单一文本区域的字符大小统一、将弯曲文本扭转至水平或垂直，增加后续识别的准确性。

优选地，在所述的步骤S5中，采用了GAN模型将纠正后的文本区域进行文本的去风格化，将原图像进行模糊处理后再去除模糊可以初步将文本风格降低，去除文本笔画的边界风格；将预处理后的图像输入Shape-Matching GAN中可以将文本的风格进一步去除，输出得到最易识别的标准印刷体风格的文本图像。

对于步骤S6，本发明通过使用基于CRNN的图像文本识别网络结构进行文本区域的具体识别过程；相比于传统的字符模板匹配方法，该对大样本数据具有鲁棒性，对于非英文文字如中文识别有更高的识别率；CRNN模型的含义是CNN+RNN+CTC进行图像文本识别，其首先通过CNN模型初步提取图像文本的卷积特征，然后将卷积特征输入RNN模型，进一步提取图像文本卷积特征中的序列特征；RNN模型选用BiLSTM网络，由此强化长时间记忆功能，防止了时间上的梯度消失。

优选地，在所述的步骤S6中，采用了CTC方法计算损失，通过使用CTC方法代替传统的Softmax等方法，训练样本无需对齐，解决了场景图像的文本中存在间隙或空白的问题，并且CTC是递推的方法，可以快速计算梯度，提高计算效率。

对于步骤S7，本发明在对文本识别翻译后需进行风格化处理，恢复原图像艺术风格的文本，相比于基于语法和基于补丁的图像转换方法，使用GAN通过对输入数据的学习，可以生成更丰富、更逼真的艺术效果，本发明最终选择Shape-Mtaching GAN，兼顾内容损失和风格损失，具体而言，内容表示通过VGG网络提取图像高层特征，而高层特征一般是图像中物体含义和布局等信息，用来进行内容表示，激活函数公式如下：

式(7)中，F^l代表激活值，N_l代表卷积核个数，即特征图个数，M_l代表特征图的尺寸；风格表示是为了生成图像的纹理特征，使用Gram矩阵对不同层次特征进行融合，既使用了高层特征信息，又使用低层像素信息，表示如下：

式(8)中，

表示不同层特征图的内积，l表示层，i和j表示第i个和第j个特征图，k表示特征图的第k个元素，风格表示又可以进一步表示为两个结构转换和纹理转换两阶段，具体实现是通过双向形状匹配策略，简而言之，通过反向的结构迁移提取风格图的结构，将文字的形状风格迁移到结构图上，获得简化的结构图，正向过程作为反向过程的逆过程，为文本添加风格图的形状特征和渲染纹理。

优选地，在所述的步骤S7中，使用卷积神经网络和Shape-Mtaching GAN，直接对原图像文本的艺术风格进行学习，使原图像文本的风格得到了保留，实现了风格可控的图像文本转换。

优选地，在所述的步骤S7中，基于S5提前保存的TR和C，即图像文本形态信息，可以将风格转换后的图像文本按照式(5)和式(6)的参数进行形态复原，通过调整参数c和θ调节文本的弯曲程度，通过调整参数w和h将文本缩放到与原始图像一致的程度，由此恢复文本原有的物理形态。

本发明的一种风格可控的图像文本实时翻译与转换方法，解决了真实场景下因语言种类不一致产生文化壁垒以及文本翻译时文本风格不可控的问题，具有以下优点：

(1)本发明的方法分析并设计了一个网络结构，比之前已有的方法能够更好地进行图像文本的检测，通过定义图像文本的多种属性，描述图像文本更丰富的形态信息，能够进行图像文本形态纠正，提高识别精度，加快识别速度，具有广泛的应用场景；

(2)本发明的方法针对带有强烈艺术风格文本的场景图像，通过生成图像文本掩膜，将发明流程设计成背景图像修复和文本翻译与风格转换并行，极大提高运行效率，实现了场景图像的实时转换；

(3)本发明的方法在环境信息丰富的实际应用场景中，通过对文本精确定位，实现了只对文本的艺术风格进行学习，最大程度上避免背景图像及其他信息干扰，实现了原文本艺术风格的保持。

附图说明

图1为本发明中风格可控的图像文本实时翻译与转换方法的流程图。

图2为本发明中文本检测网络的结构示意图。

图3为本发明中背景图像修复网络的结构示意图。

图4为本发明中文本风格迁移网络的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

一种风格可控的图像文本实时翻译与转换方法，如图1所示，为本发明的风格可控的图像文本实时翻译与转换方法的流程图，该方法包含：

S1，场景图像输入，输入一张包含文本的真实场景图像，该图片可能包含复杂的背景、带有文字特征的栅栏或者栅格墙砖，其中的文本可能带有艺术风格，甚至文本是扭曲或者具有透视关系。

S2，文本位置检测，将上述步骤所得的场景图像作为CRAFT文本位置检测网络的输入，对场景图像进行文本位置检测，文本位置检测网络结构如图2所示。对于输入的原始图像先输入VGG-16BN网络进行多次卷积操作，每次卷积进行特征提取得到各层次的特征图，最终得到周长为原图周长1/32，通道数为512的特征图。每个卷积层随后将卷积层5和卷积层6的特征图进行合并，两个特征图周长都为原图的1/32，将其维度进行叠加(concat方式)，即结果为周长是原图1/32，通道数是1024的特征图，随后经过四个上采样层，每次经过上采样层，周长都变为原来的两倍。每个上采样层前，上一上采样层的输出都会与大小相同的卷积层输出结果进行concat操作，将不同层次的特征融合进来，维度合并后的结果作为该上采样层的输入。每个上采样层内部操作分为四步，第一步为1×1卷积，深度列为该层上采样层输出通道数的一半；第二步为BN层，即批量正则化层，解决梯度消失等问题；第三步卷积操作的卷积核为3×3大小，深度列与该层上采样层输出通道数一致；第四步为BN层，作用同上。经过四次上采样层后输出结果的周长为原图周长的1/2，通道数为32。最后进行四次连续的不改变特征图大小的卷积操作，最终输出两通道的特征图，其一通道为字符框预测图，另一通道为字符间隔预测图。

在得到字符框预测图和字符间隔预测图后还需要进行后处理步骤，将文本位置进行标记，并生成文本位置掩膜图，分别作为文本形状纠正及识别和图像文本擦除及背景修复的输入。对于每个文本区域TR(n)其内包含n个字符C_i以及数个字符间隔A_i。C_i以及A_i分别由字符框预测图和字符间隔预测图生成，两预测图均为高斯概率图，字符框预测图和字符间隔预测图分别以每个字符中和字符间隔中心为峰值，将字符框预测图与字符间隔预测图相互交叠区域的峰值点进行连接，生成文本中心线，即从各个C_i以及A_i的中心点中表述出文本中心线，进而得到C_i的中心点属性c和角度属性θ。依据该区域的字符框预测图的值将峰值点周围区域划分是否属于该字符范围，由此计算出C_i的高度h和宽度w。通过对每个字符的精确表述，可以得到所有完整的并可纠正的TR(n)。

S3，基于文本位置的掩膜获取，对于S2定位文本位置的字符框进行分割生成二进制掩膜M，其中文本位置处值设为1，背景像素处值设为0。通过将原图像中文本位置像素值擦除，得到带有破洞的背景图像，将所得二进制掩膜图与破损背景图像输入下一步图像修复网络，进行背景图像修复。

S4，图像背景修复，通过将从S3处理得到的去除文本像素的破损背景图像和破洞掩膜输入到图像修复网络，先经过粗糙网络生成模糊结果，再通过细修复网络完善图像细节，输出一张纹理清晰、风格无损的完整背景图像，图像修复网络的结构示意图如图3所示。对于输入的破损背景图片和掩膜，首先进行粗糙修复，采用由12层卷积网络组成的编码器对图像进行编码，提取图像特征，得到一组尺寸为原图1/16、通道数为256的特征图，随后对特征图进行解码，经过两次反卷积与卷积混合操作，得到一张与原图尺寸相同、包含RGB三通道的模糊修复图像。为获取更大感受野，设计将编码器第7至10层的普通卷积替换为4层扩张速率不同的空洞卷积，在不同尺度获取周围图像特征。

通过粗修复，背景图像破洞位置处生成了新的内容，但这结果往往是模糊的，细修复的目的就是使结果更加真实，纹理更加清晰。细修复网络整体设计由两个并行编码器与单个解码器组成，下层编码器分支与粗修复网络相同，在上层编码器分支则添加了新的上下文注意力转移层，原因是仅通过卷积操作只能处理局部特征信息，无法获取图像较远处的特征，为克服这一局限性，通过添加该层引入了attention模型，利用attention得分对图像已知区域的特征分配不同权重，首先在背景区域提取3×3的patch作为卷积核与待修复区域进行匹配，通过计算余弦相似度找出与待修复区域最相似的patch，再使用softmax函数计算每个patch的attention得分。通过concat操作，将编码器两个分支合并到单个解码器，此阶段解码器设计与粗修复网络相同，采用两次反卷积与卷积操作融合图像特征、恢复图像尺寸，输出最终修复图像。

S5，文本形态纠正，将S2检测出的图像文本区域以及每处图像文本其相应的TR(n)信息作为输入，通过调整每个TR(n)下的C_i的子属性，将每处图像文本的形态扭转成正常的矩形形态，方便后续的识别过程。首先对于同属于一个TR(n)的任意式C_i调整其高度属性h和宽度属性w至该TR(n)下的平均值，平均值计算如下所示：

式(9)(10)中的n表示该图像文本区域中字符的数量。其次需要调整全部属于一个同TR(n)的C_i，将其中心点属性c调整至同一水平线、角度属性θ全部调整至0，即彼此之间无夹角。由此可得新的TR^*(n)和C^* _i，即形态校正后的图像文本区域，同时需要将原始TR(n)和C_i与其配对保存，方便后续S7恢复翻译后或转换后文本的图像形态。

通过如图4所示的文本风格迁移网络，可以对图像文本进行去风格化。将带有风格的图像文本输入预先学习好印刷体风格的风格迁移网络模型，将带有风格的图像文本转化成印刷体风格的图像文本，方便下一步的图像文本识别，文本风格迁移网络的结构与风格迁移的具体工作原理将在S7中详细叙述。

S6，图像文本识别，本发明使用CRNN网络进行图像文本识别，CRNN网络自上而下分为CNN、RNN、CTC三部分。CNN为卷积层，使用深度卷积神经网络，其中包括7层卷积层；中间穿插4层池化层，前两个池化层为2×2最大值池化，后两层池化层的窗口由2×2修改成了1×2，所以池化操作将特征图在宽度维度进行了两次降维，但是在高度维度进行了四次降维，这与图像文本通常是宽大于高的矩形形状相契合，保证了不在宽度方向丢失过多信息；网络中还包含两层批量正则化层，可以加速模型收敛，提高训练的效率。CNN部分对输入的图像文本进行特征的提取，最终得到高纬度的特征图。由上述步骤得到的特征图无法直接作为RNN的输入，需要先通过Map-to-Sequence操作，从特征图中提取RNN所需的特征向量序列。此模型中的RNN网络选用BiLSTM网络，即双向长短时记忆网络，其学习由特征图提取特征向量序列，输出预测所有字符的softmax概率分布。由RNN层得到的分布作为CTC层的输入，CTC层又称为转录层，其作用是将特征向量做的预测转换成标签序列，通过blank符号的引入，定义了从RNN输出层到最终的Label序列的多对一映射函数，解决重复字符的问题。

S7，文本风格迁移，将翻译文本的普通字体图像和原图中艺术文本图像输入到风格迁移网络，为翻译文本添加原图像中原始文本的艺术风格，文本风格迁移网络结构如图4所示。对于输入的翻译文本的普通字体图像的和作为目标风格的原图文本艺术风格图像，本发明采用VGG-19网络模型进行训练，该网络包含16个卷积层和5个池化层，并通过缩放权重来标准化网络，使得每个卷积滤波器在图像和位置上的平均激活量等于1，这样的重新缩放可以在不改变输出的情况下对VGG网络进行约束，因为它只包含校正的线性激活函数，而没有对特征图进行标准化或池化。网络采用多层卷积可以提取到不同尺度图像特征，在进行内容特征的表示时，选取的目标卷积层为高级卷积层，高级卷积层的特征为全局特征，适于高图像内容的提取，内容损失函数表示如下：

式(11)中，

表示随机产生的噪声图，

表示生成图像，l为层数，

表示生成图像的第l层卷积后第i个过滤器的第j个特征，

是原始输入的内容图像的信息。

网络中卷积层数越高，细节损失越严重，风格迁移的目的是生成符合目标风格的纹理，为最大程度保留输入图像的细节，选取网络中较低层次的纹理特征作为的特定优先级，风格迁移的损失函数定义如下：

式(12)中，

为目标风格图像，

为生成图像，E_l代表第l层的损失函数，具体定义为：

式(13)中，N_l表示第l层卷积通道数，M_l表示第l层卷积图像尺寸，

和

分别表示

和

在第l层的特征表示。

有了图像的内容特征和风格特征，合起来便是风格转换的特征，融合损失函数可表示如下：

式(14)中，α、β是平衡内容损失和风格损失的超参数，训练过程采用了随机梯度下降方法，以最小化L_total为目标进行优化迭代。在图像合成时，本发明使用平均池化代替最大池化，最大池化虽然可以保留纹理特征，平均池化更有利于保留背景的数据特征，结果证明采用平均池化输出的图像视觉效果更好。

通过S5存储的原始式(5)(6)以及S5输出的新的TR^*(n)和C^* _i，将C^* _i的属性中的中心点属性c与角度属性θ复原至原始状态，随后将C^* _i的

和

调整回原来的高度h和宽度w，完成C_i的形态复原，将所有的字符逐个按此步骤复原后可得形态复原后的TR(n)，完成字符形态的复原。

S8，风格化翻译文本的场景图像输出，基于S2原图像中文本位置的信息，将完整修复的背景图像和风格化处理、形状矫正的翻译文本图像融合，即实现了风格可控的图像文本实时翻译与转换。

综上所述，本发明的风格可控的图像文本实时翻译与转换方法适用于背景复杂和成像条件不稳定的实际场景中，并在特定的实际应用场景中尝试结合场景文本检测与识别技术、图像修复技术、图像文本风格迁移技术，建立了一套专门针对场景图像文本翻译与转换任务的端到端集成系统，可以很好地进行图像文本实时翻译与转换，并实现图像文本风格可控，可应用于多个领域，具有广泛的应用场景。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种风格可控的图像文本实时翻译与转换方法，其特征及具体步骤如下：

S1，输入一张带有艺术风格文本内容的场景图片；

2.根据权利要求1所述的一种风格可控的图像文本实时翻译与转换方法，其特征在于，对于步骤S2，本发明使用的文本检测方法是CRAFT方法，该方法实质为基于U-Net深度学习框架改进的文本检测器；基于字符级标注的合成数据集，通过预处理算法计算出合成数据集的字符区域高斯热度图和字间区域高斯热度图；由合成数据集的两个热度图训练中间模型，通过中间模型将词汇级标注的真实数据集向字符级标注推广，并迭代训练，实现弱监督学习的文本检测器；

在所述的步骤S2中，弱监督学习方式需要对中间模型对真实数据集的预测结果进行置信度计算，公式如下：

式(1)中l(x)表示一个样本的单词长度，l^c(x)表示中间模型预测产生的字符级包围盒相应的长度，S_conf(x)即表示此时模型生产的样本x的字符级包围盒的置信度。

3.根据权利要求1所述的一种风格可控的图像文本实时翻译与转换方法，其特征在于，对于步骤S4，本发明使用基于上下文注意力的图像修复深度学习模型对破损背景图像进行修复，模型分粗糙修复和细修复两阶段，输入是擦除文本信息像素的背景图像和掩膜；粗修复阶段目标生成粗糙结果，使用一个编解码网络提取图像特征，反卷积生成模糊的图像；

式(3)中λ是一个常数值，实际中如果当前背景区域patch与待修复区域patch相似度极高，则对应位置像素值也应接近，因此可以通过传播的方式得到更具有一致性的attentionmaps，以左右传播为例，新的相似性计算公式可表示为：

式(4)中，

表示新的patch相似度，k是卷积核尺寸，i表示左右位置移动；

在所述的步骤S4中，图像修复模型首先通过粗修复生成模糊结果，在细修复阶段引入Attention模块，利用图像远处的特征信息，生成更精细的修复结果，两阶段均使用空洞卷积代替普通卷积以获得更大感受野。

4.根据权利要求1所述的一种风格可控的图像文本实时翻译与转换方法，其特征在于，对于步骤S5，本发明通过记录文本区域形状的特点来进行扭转修复，S2中检测文本区域的方法为CRAFT，使用数个连续的字符框，和数个与其交叠的连续的间隔框表示文本区域。通过给每个字符框定义一定的属性和给每块文本区域定义一定的属性，可以记录所有文本区域属性的原始值来保存原有区域的形状信息；通过字符框中心点坐标、字符框宽度、字符框高度、字符框间角度等属性可以有效表示每一片文本区域，且得以纠正弯曲文本，解决字符大小不一致的问题，每个文本区域可以表示如下：

TR(n)＝{C₀,C₁,C₂,…,C_i,…,C_n} (5)

C＝(c,w,h,θ) (6)

式(6)中，c表示该字符C的中心点位置，w表示字符宽度，h表示字符高度，θ表示该字符中心点与下一字符中心点的夹角；相较于传统的固定的包围盒表示方法，本方法通过前三个属性可以准确描述单字符的形态特征，最后的角度θ属性用以串联一个文本区域中的字符，增加了每个文本区域形状描述的准确性，也可以通过扭转θ，调整(w,h)，使单一文本区域的字符大小统一、将弯曲文本扭转至水平或垂直，增加后续识别的准确性；

在所述的步骤S5中，采用了GAN模型将纠正后的文本区域进行文本的去风格化，将原图像进行模糊处理后再去除模糊可以初步将文本风格降低，去除文本笔画的边界风格；将预处理后的图像输入Shape-Matching GAN中可以将文本的风格进一步去除，输出得到最易识别的标准印刷体风格的文本图像。

5.根据权利要求1所述的一种风格可控的图像文本实时翻译与转换方法，其特征在于，对于步骤S6，本发明通过使用基于CRNN的图像文本识别网络结构进行文本区域的具体识别过程；相比于传统的字符模板匹配方法，该对大样本数据具有鲁棒性，对于非英文文字如中文识别有更高的识别率；CRNN模型的含义是CNN+RNN+CTC进行图像文本识别，其首先通过CNN模型初步提取图像文本的卷积特征，然后将卷积特征输入RNN模型，进一步提取图像文本卷积特征中的序列特征；RNN模型选用BiLSTM网络，由此强化长时间记忆功能，防止了时间上的梯度消失；

在所述的步骤S6中，采用了CTC方法计算损失，通过使用CTC方法代替传统的Softmax等方法，训练样本无需对齐，解决了场景图像的文本中存在间隙或空白的问题，并且CTC是递推的方法，可以快速计算梯度，提高计算效率。

6.根据权利要求1所述的一种风格可控的图像文本实时翻译与转换方法，其特征在于，对于步骤S6，本发明在对文本识别翻译后需进行风格化处理，恢复原图像艺术风格的文本，相比于基于语法和基于补丁的图像转换方法，使用GAN通过对输入数据的学习，可以生成更丰富、更逼真的艺术效果，本发明最终选择Shape-Mtaching GAN，兼顾内容损失和风格损失，具体而言，内容表示通过VGG网络提取图像高层特征，而高层特征一般是图像中物体含义和布局等信息，用来进行内容表示，激活函数公式如下：

式(8)中，

表示不同层特征图的内积，l表示层，i和j表示第i个和第j个特征图，k表示特征图的第k个元素，风格表示又可以进一步表示为两个结构转换和纹理转换两阶段，具体实现是通过双向形状匹配策略，简而言之，通过反向的结构迁移提取风格图的结构，将文字的形状风格迁移到结构图上，获得简化的结构图，正向过程作为反向过程的逆过程，为文本添加风格图的形状特征和渲染纹理；

在所述的步骤S7中，使用卷积神经网络和Shape-Mtaching GAN，直接对原图像文本的艺术风格进行学习，使原图像文本的风格得到了保留，实现了风格可控的图像文本转换；

在所述的步骤S7中，基于S5提前保存的TR和C，即图像文本形态信息，可以将风格转换后的图像文本按照式(5)和式(6)的参数进行形态复原，通过调整参数c和θ调节文本的弯曲程度，通过调整参数w和h将文本缩放到与原始图像一致的程度，由此恢复文本原有的物理形态。