CN111160357A

CN111160357A - 一种基于对抗学习的模型训练、图片输出方法及装置

Info

Publication number: CN111160357A
Application number: CN202010254884.9A
Authority: CN
Inventors: 刘杰; 石磊磊; 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-05-15
Anticipated expiration: 2040-04-02
Also published as: CN111160357B

Abstract

公开了一种基于对抗学习的模型训练、图片输出方法及装置。基于对抗学习的思想，训练图片修改模型，使得经过图片修改模型修改后的图片既和原图片足够相似（如此，修改后的图片尽可能少的修饰原图片的信息，尤其是原图片包含的文字内容），又可以使得OCR模型无法从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此，对于经过图片修改模型修改后的图片，一方面不会影响图片的正常使用，另一方面又对OCR模型文字识别的结果造成很大的干扰，保护图片中的文字内容隐私。

Description

一种基于对抗学习的模型训练、图片输出方法及装置

技术领域

本说明书实施例涉及信息技术领域，尤其涉及一种基于对抗学习的模型训练、图片输出方法及装置。

背景技术

文字是信息的载体，而有些敏感的文字内容常常会出现在图片中。例如，用户的证件照片中包含有用户的隐私信息，用户在生活中拍摄的照片可能包含门牌号、车牌号等隐私信息，用户打开自己的网银账户界面进行截图时，截图中也会包含用户的账号、余额等隐私信息。

现实中存在一些黑色产业，他们会批量盗取大量包含有文字内容的图片，再使用光学字符识别（Optical Character Recognition，OCR）技术从这些盗取的图片中提取文字内容，将获得的敏感的文字内容投入到非法用途。

基于此，如何防止利用OCR技术从包含文字内容的图片中提取文字内容，是丞待解决的技术问题。

发明内容

为了防止利用OCR技术从包含文字内容的图片中提取文字内容，本说明书实施例提供一种基于对抗学习的模型训练、图片输出方法及装置，技术方案如下：

根据本说明书实施例的第1方面，提供一种基于对抗学习的模型训练方法，用于根据多个包含文字内容的图片样本训练图片修改模型，所述方法包括：

迭代执行以下步骤，直至满足训练停止条件：

选择一个图片样本，作为当前图片样本；

确定所述当前目标图片样本的特征矩阵，作为第一特征矩阵，并将所述第一特征矩阵输入到所述图片修改模型，使得所述图片修改模型输出修改后的特征矩阵，作为第二特征矩阵；

确定所述第二特征矩阵与所述第一特征矩阵的相似度；

将所述第二特征矩阵分别输入到N个光学字符识别OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度；

以减小所述图片修改模型的损失为目标，调整所述图片修改模型；

其中，所述第二特征矩阵与所述第一特征矩阵越相似，所述图片修改模型的损失越小；任一文字识别结果与所述当前图片样本包含的文字内容越相似，所述图片修改模型的损失越大。

根据本说明书实施例的第2方面，提供一种基于第1方面的图片修改模型的图片输出方法，包括：

获取将待输出图片，并确定所述待输出图片的特征矩阵；

将所述待输出图片的特征矩阵输入到图片修改模型，得到修改后的特征矩阵；

输出修改后的特征矩阵对应的图片。

根据本说明书实施例的第3方面，提供一种模型更新方法，用于更新第1方面的图片修改模型，所述方法包括：

获取包含文字内容的补充图片样本，并确定所述补充图片样本的特征矩阵；

将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述当补充图片样本包含的文字内容的相似度；

若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度，则使用所述补充图片样本更新所述图片修改模型。

根据本说明书实施例的第4方面，提供一种基于对抗学习的模型训练装置，用于根据多个包含文字内容的图片样本训练图片修改模型，所述装置包括：

模型训练模块，迭代执行以下步骤，直至满足训练停止条件：选择一个图片样本，作为当前图片样本；确定所述当前目标图片样本的特征矩阵，作为第一特征矩阵，并将所述第一特征矩阵输入到所述图片修改模型，使得所述图片修改模型输出修改后的特征矩阵，作为第二特征矩阵；确定所述第二特征矩阵与所述第一特征矩阵的相似度；将所述第二特征矩阵分别输入到N个光学字符识别OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度；以减小所述图片修改模型的损失为目标，调整所述图片修改模型；

根据本说明书实施例的第5方面，提供一种基于第1方面的图片修改模型的图片输出装置，包括：

获取模块，获取将待输出图片，并确定所述待输出图片的特征矩阵；

修改模块，将所述待输出图片的特征矩阵输入到图片修改模型，得到修改后的特征矩阵；

输出模块，输出修改后的特征矩阵对应的图片。

根据本说明书实施例的第6方面，提供一种模型更新装置，用于更新第1方面的图片修改模型，所述装置包括：

获取模块，获取包含文字内容的补充图片样本，并确定所述补充图片样本的特征矩阵；

处理模块，将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度；

更新模块，若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度，则使用所述补充图片样本更新所述图片修改模型。

本说明书实施例所提供的技术方案，基于对抗学习的思想，训练图片修改模型，使得经过图片修改模型修改后的图片既和原图片足够相似（如此，修改后的图片尽可能少的丢失原图片的信息，尤其是原图片包含的文字内容），又可以使得OCR模型无法从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此，对于经过图片修改模型修改后的图片，一方面不会影响图片的正常使用，另一方面又对OCR模型造成很大的干扰，保护图片中的文字内容隐私。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种基于对抗学习的模型训练方法的流程示意图；

图2是本说明书实施例提供的一种图片输出方法的流程示意图；

图3是本说明书实施例提供的一种模型更新方法的流程示意图；

图4是本说明书实施例提供的一种基于对抗学习的模型训练装置的结构示意图；

图5是本说明书实施例提供的一种图片输出装置的结构示意图；

图6是本说明书实施例提供的一种模型更新装置的结构示意图；

图7是用于配置本说明书实施例方法的一种设备的结构示意图。

具体实施方式

本方案的目的是既要使得OCR模型难以从图片中提取文字内容，又要使得人眼可以正常辨识出图片中的文字内容。

本方案采用了对抗学习的思想来训练图片修改模型，经过该图片修改模型修改的图片可以满足上述要求。

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1是本说明书实施例提供的一种基于对抗学习的模型训练方法的流程示意图，包括以下步骤：

迭代执行以下步骤，直至满足训练停止条件：

S100：选择一个图片样本，作为当前图片样本。

图1所示的方法用于根据多个包含文字内容的图片样本训练图片修改模型。图片修改模型用于将输入的图片进行修改，输出修改后的图片。可以理解，输入到图片修改模型的图片的数据形式是该图片的特征矩阵（即该图片的所有像素点的像素值组成的矩阵），图片修改模型输出的修改后的图片的数据形式也是特征矩阵。

可以理解，对图片修改模型的训练，实际上是利用图片样本集合对图片修改模型的模型参数进行训练，使得基于训练得到的模型参数进行图片修改的效果满足预定要求。

需要说明的是，步骤S100-112描述了模型训练过程中的一次迭代，可以理解，模型训练过程实际上就是通过一次次迭代优化模型参数的过程。

在本说明书实施例中，可以从各种途径获取多个图片样本，作为图片样本集合。每个图片样本中包含有文字内容。所谓“图片包含文字内容”应理解为图片中展示有文字内容。

在不同的迭代中，可以选择不同的图片样本，也可以选择相同的图片样本。为了描述的方便，将一次迭代中选择的图片样本称为当前图片样本。

S102：确定所述当前目标图片样本的特征矩阵，作为第一特征矩阵。

S104：将所述第一特征矩阵输入到所述图片修改模型，使得所述图片修改模型输出修改后的特征矩阵，作为第二特征矩阵。

在训练图片修改模型之前，可以先初始化图片修改模型。初始化的图片修改模型的模型参数具体为何并不重要，在模型训练的过程中，会通过一次次迭代逐渐优化模型参数。

将第一特征矩阵输入到图片修改模型之后，图片修改模型会基于当前的模型参数对第一特征矩阵进行修改（一般是调整第一特征矩阵中至少一个元素的值），输出第二特征矩阵。

S106：确定所述第二特征矩阵与所述第一特征矩阵的相似度。

在本说明书实施例中，确定所述第二特征矩阵与所述第一特征矩阵的相似度的方法有多种。

例如，可以将第二特征矩阵对应的图片与第一特征矩阵对应的图片推送给人工，由人工通过观察给出这两个图片之间的相似度。

又如，可以计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差，并根据每个相同位置的元素值的差，确定所述第二特征矩阵与所述第一特征矩阵的相似度。具体而言，可以将每个相同位置的元素值的差相加，将得到的和作为所述第二特征矩阵与所述第一特征矩阵的相似度，也可以以最小均方误差的方式确定所述第二特征矩阵与所述第一特征矩阵的相似度，即将每个相同位置的元素值的差取平方再求和，对得到的和再取平均值（除以每个特征矩阵的元素个数），作为相似度。

在本说明书实施例中，两个对象的相似度是一个表征值，其可以与这两个对象的相似程度正相关，也可以负相关。

所述第二特征矩阵与所述第一特征矩阵越相似，说明图片修改模型对图片的修改越不会干扰人眼对图片中文字内容的提取。为此，将图片修改模型的损失设定为，所述第二特征矩阵与所述第一特征矩阵越相似，所述图片修改模型的损失越小。

众所周知，在模型训练领域，模型的损失表征模型对输入的样本所得到的输出结果与实际结果之间的差异，模型训练的目标就是尽可能减小模型的损失。在工程实践中，通常会定义一个模型的目标函数，用于衡量模型的损失。目标函数的值可以与模型的损失正相关（这种情况下，目标函数也称为损失函数），也可以负相关。在一次迭代后，通常会将与本次迭代的训练结果有关的值代入到目标函数中，以衡量模型的损失，并以减小损失为目标，调整模型的参数，之后开始下一次迭代。

S108：将所述第二特征矩阵分别输入到N个光学字符识别OCR模型，使得所述N个OCR模型分别输出N个文字识别结果。

在本说明书实施例中，OCR模型的数量可以是1个、2个或多个，可以根据实际需要灵活设置。例如，可以将实践中常见的几种OCR模型都投入到本次训练中，可以使得训练得图片修改模型更好的针对这几种OCR模型。

所述N个OCR模型中可以包括图片修改模型的训练方从第三方获取的OCR模型，也可以包括图片修改模型的训练方自己训练的OCR模型。

S110：确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度。

确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度的方式有多种。例如，可以针对每个文字识别结果，计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离，作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。又如，可以针对每个文字识别结果，将该文字识别结果与所述当前图片样本包含的文字内容推送给人工，由人工进行阅读理解，比较二者的相似度。

需要说明的是，编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串越相似。

在本说明书实施例中，OCR模型对于第二特征矩阵的识别效果也是影响图片修改模型的训练效果的重要指标。OCR模型从第二特征矩阵中提取的文字内容与所述当前图片样本中的文字内容差异越大，说明图片修改模型对图片的修改越容易干扰OCR模型对图片中文字内容的提取。

为此，将图片修改模型的损失也同时设定为，任一文字识别结果与所述当前图片样本包含的文字内容越相似，所述图片修改模型的损失越大。

S112：以减小所述图片修改模型的损失为目标，调整所述图片修改模型。

在本说明书实施例中，可以基于原则“所述第二特征矩阵与所述第一特征矩阵越相似，所述图片修改模型的损失越小；任一文字识别结果与所述当前图片样本包含的文字内容越相似，所述图片修改模型的损失越大”来定义目标函数。

例如，假设两个对象的相似度与这两个对象的相似程度正相关，有两个OCR模型，将所述第二特征矩阵与所述第一特征矩阵之间的相似度定义为A，将OCR模型1输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B1，将OCR模型2输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B2，则图片修改模型的目标函数可以为：

L=A-B1-B2。

通过图1所示的方法，基于对抗学习的思想，训练图片修改模型，使得经过图片修改模型修改后的图片既和原图片足够相似（如此，修改后的图片尽可能少的修饰原图片的信息，尤其是原图片包含的文字内容），又可以使得OCR模型无法从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此，对于经过图片修改模型修改后的图片，一方面不会影响图片的正常使用，另一方面又对OCR模型造成很大的干扰，保护图片中的文字内容隐私。

此外，为了避免图片修改模型太容易被破解，以便不法分子可以将经过图片修改模型修改后的图片还原成原图，在图1所示的一次迭代训练中，还可以将所述第二特征矩阵输入到图片还原模型，使得所述图片还原模型输出还原后的特征矩阵，作为第三特征矩阵，然后确定所述第三特征矩阵与所述第一特征矩阵的相似度。并且，需要定义所述第三特征矩阵与所述第一特征矩阵越相似，所述图片修改模型的损失越大，将所述第三特征矩阵与所述第一特征矩阵的相似度也定义到图片修改模型的目标函数中。

图片还原模型用于将经过图片修改模型修改后的图片进行还原，如果图片还原模型还原出的图片与原图差异越大，则越说明图片修改模型不容易被破解。

假设两个对象的相似度与这两个对象的相似程度正相关，有两个OCR模型，还有图片还原模型，将所述第二特征矩阵与所述第一特征矩阵之间的相似度定义为A，将OCR模型1输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B1，将OCR模型2输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B2，将图片还原模型输出的第三特征矩阵与第一特征矩阵的相似度定义为C，则图片修改模型的目标函数可以为：

L=A-B1-B2-C。

需要说明的是，上述的图片还原模型可以是在开始训练图片修改模型之前预先训练好的，也可以是在开始训练图片修改模型时，与图片修改模型同步训练的。

对于同步训练图片还原模型的情况，可以在训练图片修改模型的过程中，针对每一次迭代，将第二特征矩阵也输入到图片还原模型，并基于图片还原模型的损失优化图片还原模型。如此，可以使得在整个训练过程中，图片修改模型与图片还原模型进行一种动态对抗，在图片还原模型的还原效果越来越好的情况下，其根据图片修改模型输出的第二特征矩阵还原出的图片依然与原图差异足够大，进一步提升图片修改模型被破解的难度。具体地，在一次迭代中，以减小所述图片还原模型的损失为目标，调整所述图片还原模型，其中，所述第三特征矩阵与所述第一特征矩阵越相似，所述图片还原模型的损失越小。

此外需要说明的是，也可以在训练图片修改模型的过程中，不适用预先训练好的OCR模型，而是同步训练OCR模型。针对每一次迭代，将第二特征矩阵也输入到OCR模型，并基于OCR模型的损失优化OCR模型。如此，可以使得在整个训练过程中，图片修改模型与OCR模型进行一种动态对抗，在OCR模型的识别效果越来越好的情况下，其根据图片修改模型输出的第二特征矩阵识别出的文字内容依然与原图的文字内容差别足够大，进一步提升图片修改模型的性能。

还需要说明的是，训练模型的训练停止条件可以是迭代次数超过指定次数，也可以是模型的损失小于指定损失。

图2是本说明书实施例提供的一种图片输出方法的流程示意图，包括如下步骤：

S200：获取将待输出图片，并确定所述待输出图片的特征矩阵；

S202：将所述待输出图片的特征矩阵输入到图片修改模型，得到修改后的特征矩阵；

S204：输出修改后的特征矩阵对应的图片。

本方案提供的图片修改模型的应用场景广泛，可以在不同应用场景下提供保护图片中文字内容隐私的功能。

例如，可以将图片修改模型内置到用户手机的相机应用中，用户使用手机进行拍摄时，相机应用可以判断拍摄到的图片中是否有文字内容，如果有文字内容，就调用内置的图片修改模型对拍摄到的原图进行修改后，将修改后的图片存储，将原图删除。

又如，很多互联网服务方都要求用户上传自己的身份证图片进行实名认证，可以将图片修改模型内置在这些互联网服务方安装到用户手机的客户端中，当用户通过客户端向服务端上传自己的身份证图片时，客户端上传给服务端的实际上是修改后的身份证图片。

图3是本说明书实施例提供的一种模型更新方法的流程示意图，包括以下步骤：

S300：获取包含文字内容的补充图片样本，并确定所述补充图片样本的特征矩阵；

S302：将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述当前补充样本包含的文字内容的相似度；

S304：若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度，则使用所述补充图片样本更新所述图片修改模型。

需要说明的是，在基于图1所示的方法训练完成图片修改模型并将图片修改模型投入应用之后，OCR模型针对图片中文字内容的提取能力可能会有进步，从而使得已有的图片修改模型不能对OCR模型的识别效果提供足够的干扰，为此，可以通过监控OCR模型对新的补充图片样本的识别效果来动态更新图片修改模型。

具体而言，可以将图片修改模型在实际应用中修改的每一张图片作为补充图片样本，将补充图片样本也输入到被监控的OCR模型中，如果被监控的OCR模型从补充图片样本中识别出的文字内容与补充图片样本中的文字内容差异不够大，则需要使用补充图片样本继续训练图片修改模型，以更新图片修改模型的参数。

图4是本说明书实施例提供的一种基于对抗学习的模型训练装置的结构示意图，用于根据多个包含文字内容的图片样本训练图片修改模型，所述装置包括：

模型训练模块401，迭代执行以下步骤，直至满足训练停止条件：选择一个图片样本，作为当前图片样本；确定所述当前目标图片样本的特征矩阵，作为第一特征矩阵，并将所述第一特征矩阵输入到所述图片修改模型，使得所述图片修改模型输出修改后的特征矩阵，作为第二特征矩阵；确定所述第二特征矩阵与所述第一特征矩阵的相似度；将所述第二特征矩阵分别输入到N个光学字符识别OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度；以减小所述图片修改模型的损失为目标，调整所述图片修改模型；

所述模型训练模块401，计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差，并根据每个相同位置的元素值的差，确定所述第二特征矩阵与所述第一特征矩阵的相似度。

所述模型训练模块401，针对每个文字识别结果，计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离，作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。

所述模型训练模块401，在一次迭代中，将所述第二特征矩阵输入到图片还原模型，使得所述图片还原模型输出还原后的特征矩阵，作为第三特征矩阵；确定所述第三特征矩阵与所述第一特征矩阵的相似度；

其中，所述第三特征矩阵与所述第一特征矩阵越相似，所述图片修改模型的损失越大。

所述模型训练模块401，在一次迭代中，以减小所述图片还原模型的损失为目标，调整所述图片还原模型；

其中，所述第三特征矩阵与所述第一特征矩阵越相似，所述图片还原模型的损失越小。

所述模型训练模块401，在一次迭代中，针对每个OCR模型，以减小该OCR模型的损失为目标，调整该OCR模型；

其中，该OCR模型输出的文字识别结果与所述当前图片样本包含的文字内容越相似，所述OCR模型的损失越小。

图5是本说明书实施例提供的一种图片输出装置的结构示意图，包括：

获取模块501，获取将待输出图片，并确定所述待输出图片的特征矩阵；

修改模块502，将所述待输出图片的特征矩阵输入到图片修改模型，得到修改后的特征矩阵；

输出模块503，输出修改后的特征矩阵对应的图片。

图6是本说明书实施例提供的一种模型更新装置的结构示意图，用于更新图片修改模型，所述装置包括：

获取模块601，获取包含文字内容的补充图片样本，并确定所述补充图片样本的特征矩阵；

处理模块602，将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度；

更新模块603，若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度，则使用所述补充图片样本更新所述图片修改模型。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现图1~3任一所示的方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图1~3任一所示的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务设备，或者网络设备等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、方法、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种基于对抗学习的模型训练方法，用于根据多个包含文字内容的图片样本训练图片修改模型，所述方法包括：

迭代执行以下步骤，直至满足训练停止条件：

选择一个图片样本，作为当前图片样本；

确定所述第二特征矩阵与所述第一特征矩阵的相似度；

2.如权利要求1所述的方法，确定所述第二特征矩阵与所述第一特征矩阵的相似度，具体包括：

计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差，并根据每个相同位置的元素值的差，确定所述第二特征矩阵与所述第一特征矩阵的相似度。

3.如权利要求1所述的方法，确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度，具体包括：

针对每个文字识别结果，计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离，作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。

4.如权利要求1所述的方法，所述方法还包括：

在一次迭代中，将所述第二特征矩阵输入到图片还原模型，使得所述图片还原模型输出还原后的特征矩阵，作为第三特征矩阵；

确定所述第三特征矩阵与所述第一特征矩阵的相似度；

5.如权利要求4所述的方法，所述方法还包括：

在一次迭代中，以减小所述图片还原模型的损失为目标，调整所述图片还原模型；

6.如权利要求1所述的方法，所述方法还包括：

在一次迭代中，针对每个OCR模型，以减小该OCR模型的损失为目标，调整该OCR模型；

7.一种基于权利要求1~6任一项的图片修改模型的图片输出方法，包括：

获取将待输出图片，并确定所述待输出图片的特征矩阵；

输出修改后的特征矩阵对应的图片。

8.一种模型更新方法，用于更新权利要求1~6任一项的图片修改模型，所述方法包括：

将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型，使得所述N个OCR模型分别输出N个文字识别结果，并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度；

9.一种基于对抗学习的模型训练装置，用于根据多个包含文字内容的图片样本训练图片修改模型，所述装置包括：

10.如权利要求9所述的装置，所述模型训练模块，计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差，并根据每个相同位置的元素值的差，确定所述第二特征矩阵与所述第一特征矩阵的相似度。

11.如权利要求9所述的装置，所述模型训练模块，针对每个文字识别结果，计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离，作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。

12.如权利要求9所述的装置，所述模型训练模块，在一次迭代中，将所述第二特征矩阵输入到图片还原模型，使得所述图片还原模型输出还原后的特征矩阵，作为第三特征矩阵；确定所述第三特征矩阵与所述第一特征矩阵的相似度；

13.如权利要求12所述的装置，所述模型训练模块，在一次迭代中，以减小所述图片还原模型的损失为目标，调整所述图片还原模型；

14.如权利要求9所述的装置，所述模型训练模块，在一次迭代中，针对每个OCR模型，以减小该OCR模型的损失为目标，调整该OCR模型；

15.一种基于权利要求1~6任一项的图片修改模型的图片输出装置，包括：

输出模块，输出修改后的特征矩阵对应的图片。

16.一种模型更新装置，用于更新权利要求1~6任一项的图片修改模型，所述装置包括：

17.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1~8任一项所述的方法。