CN111160357B - 一种基于对抗学习的模型训练、图片输出方法及装置 - Google Patents

一种基于对抗学习的模型训练、图片输出方法及装置 Download PDF

Info

Publication number
CN111160357B
CN111160357B CN202010254884.9A CN202010254884A CN111160357B CN 111160357 B CN111160357 B CN 111160357B CN 202010254884 A CN202010254884 A CN 202010254884A CN 111160357 B CN111160357 B CN 111160357B
Authority
CN
China
Prior art keywords
picture
model
feature matrix
ocr
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010254884.9A
Other languages
English (en)
Other versions
CN111160357A (zh
Inventor
刘杰
石磊磊
熊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010254884.9A priority Critical patent/CN111160357B/zh
Publication of CN111160357A publication Critical patent/CN111160357A/zh
Application granted granted Critical
Publication of CN111160357B publication Critical patent/CN111160357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

公开了一种基于对抗学习的模型训练、图片输出方法及装置。基于对抗学习的思想,训练图片修改模型,使得经过图片修改模型修改后的图片既和原图片足够相似(如此,修改后的图片尽可能少的修饰原图片的信息,尤其是原图片包含的文字内容),又可以使得OCR模型从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此,对于经过图片修改模型修改后的图片,一方面不会影响图片的正常使用,另一方面又对OCR模型文字识别的结果造成很大的干扰,保护图片中的文字内容隐私。

Description

一种基于对抗学习的模型训练、图片输出方法及装置
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种基于对抗学习的模型训练、图片输出方法及装置。
背景技术
文字是信息的载体,而有些敏感的文字内容常常会出现在图片中。例如,用户的证件照片中包含有用户的隐私信息,用户在生活中拍摄的照片可能包含门牌号、车牌号等隐私信息,用户打开自己的网银账户界面进行截图时,截图中也会包含用户的账号、余额等隐私信息。
现实中存在一些黑色产业,他们会批量盗取大量包含有文字内容的图片,再使用光学字符识别(Optical Character Recognition,OCR)技术从这些盗取的图片中提取文字内容,将获得的敏感的文字内容投入到非法用途。
基于此,如何防止利用OCR技术从包含文字内容的图片中提取文字内容,是丞待解决的技术问题。
发明内容
为了防止利用OCR技术从包含文字内容的图片中提取文字内容,本说明书实施例提供一种基于对抗学习的模型训练、图片输出方法及装置,技术方案如下:
根据本说明书实施例的第1方面,提供一种基于对抗学习的模型训练方法,用于根据多个包含文字内容的图片样本训练图片修改模型,所述方法包括:
迭代执行以下步骤,直至满足训练停止条件:
选择一个图片样本,作为当前图片样本;
确定所述当前图片样本的特征矩阵,作为第一特征矩阵,并将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵;
确定所述第二特征矩阵与所述第一特征矩阵的相似度;
将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度;
以减小所述图片修改模型的损失为目标,调整所述图片修改模型;
其中,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
根据本说明书实施例的第2方面,提供一种基于第1方面的图片修改模型的图片输出方法,包括:
获取将待输出图片,并确定所述待输出图片的特征矩阵;
将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
输出修改后的特征矩阵对应的图片。
根据本说明书实施例的第3方面,提供一种模型更新方法,用于更新第1方面的图片修改模型,所述方法包括:
获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当补充图片样本包含的文字内容的相似度;
若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
根据本说明书实施例的第4方面,提供一种基于对抗学习的模型训练装置,用于根据多个包含文字内容的图片样本训练图片修改模型,所述装置包括:
模型训练模块,迭代执行以下步骤,直至满足训练停止条件:选择一个图片样本,作为当前图片样本;确定所述当前图片样本的特征矩阵,作为第一特征矩阵,并将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵;确定所述第二特征矩阵与所述第一特征矩阵的相似度;将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度;以减小所述图片修改模型的损失为目标,调整所述图片修改模型;
其中,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
根据本说明书实施例的第5方面,提供一种基于第1方面的图片修改模型的图片输出装置,包括:
获取模块,获取将待输出图片,并确定所述待输出图片的特征矩阵;
修改模块,将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
输出模块,输出修改后的特征矩阵对应的图片。
根据本说明书实施例的第6方面,提供一种模型更新装置,用于更新第1方面的图片修改模型,所述装置包括:
获取模块,获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
处理模块,将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度;
更新模块,若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
本说明书实施例所提供的技术方案,基于对抗学习的思想,训练图片修改模型,使得经过图片修改模型修改后的图片既和原图片足够相似(如此,修改后的图片尽可能少的丢失原图片的信息,尤其是原图片包含的文字内容),又可以使得OCR模型从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此,对于经过图片修改模型修改后的图片,一方面不会影响图片的正常使用,另一方面又对OCR模型造成很大的干扰,保护图片中的文字内容隐私。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种基于对抗学习的模型训练方法的流程示意图;
图2是本说明书实施例提供的一种图片输出方法的流程示意图;
图3是本说明书实施例提供的一种模型更新方法的流程示意图;
图4是本说明书实施例提供的一种基于对抗学习的模型训练装置的结构示意图;
图5是本说明书实施例提供的一种图片输出装置的结构示意图;
图6是本说明书实施例提供的一种模型更新装置的结构示意图;
图7是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
本方案的目的是既要使得OCR模型难以从图片中提取文字内容,又要使得人眼可以正常辨识出图片中的文字内容。
本方案采用了对抗学习的思想来训练图片修改模型,经过该图片修改模型修改的图片可以满足上述要求。
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1是本说明书实施例提供的一种基于对抗学习的模型训练方法的流程示意图,包括以下步骤:
迭代执行以下步骤,直至满足训练停止条件:
S100:选择一个图片样本,作为当前图片样本。
图1所示的方法用于根据多个包含文字内容的图片样本训练图片修改模型。图片修改模型用于将输入的图片进行修改,输出修改后的图片。可以理解,输入到图片修改模型的图片的数据形式是该图片的特征矩阵(即该图片的所有像素点的像素值组成的矩阵),图片修改模型输出的修改后的图片的数据形式也是特征矩阵。
可以理解,对图片修改模型的训练,实际上是利用图片样本集合对图片修改模型的模型参数进行训练,使得基于训练得到的模型参数进行图片修改的效果满足预定要求。
需要说明的是,步骤S100-112描述了模型训练过程中的一次迭代,可以理解,模型训练过程实际上就是通过一次次迭代优化模型参数的过程。
在本说明书实施例中,可以从各种途径获取多个图片样本,作为图片样本集合。每个图片样本中包含有文字内容。所谓“图片包含文字内容”应理解为图片中展示有文字内容。
在不同的迭代中,可以选择不同的图片样本,也可以选择相同的图片样本。为了描述的方便,将一次迭代中选择的图片样本称为当前图片样本。
S102:确定所述当前图片样本的特征矩阵,作为第一特征矩阵。
S104:将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵。
在训练图片修改模型之前,可以先初始化图片修改模型。初始化的图片修改模型的模型参数具体为何并不重要,在模型训练的过程中,会通过一次次迭代逐渐优化模型参数。
将第一特征矩阵输入到图片修改模型之后,图片修改模型会基于当前的模型参数对第一特征矩阵进行修改(一般是调整第一特征矩阵中至少一个元素的值),输出第二特征矩阵。
S106:确定所述第二特征矩阵与所述第一特征矩阵的相似度。
在本说明书实施例中,确定所述第二特征矩阵与所述第一特征矩阵的相似度的方法有多种。
例如,可以将第二特征矩阵对应的图片与第一特征矩阵对应的图片推送给人工,由人工通过观察给出这两个图片之间的相似度。
又如,可以计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差,并根据每个相同位置的元素值的差,确定所述第二特征矩阵与所述第一特征矩阵的相似度。具体而言,可以将每个相同位置的元素值的差相加,将得到的和作为所述第二特征矩阵与所述第一特征矩阵的相似度,也可以以最小均方误差的方式确定所述第二特征矩阵与所述第一特征矩阵的相似度,即将每个相同位置的元素值的差取平方再求和,对得到的和再取平均值(除以每个特征矩阵的元素个数),作为相似度。
在本说明书实施例中,两个对象的相似度是一个表征值,其可以与这两个对象的相似程度正相关,也可以负相关。
所述第二特征矩阵与所述第一特征矩阵越相似,说明图片修改模型对图片的修改越不会干扰人眼对图片中文字内容的提取。为此,将图片修改模型的损失设定为,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小。
众所周知,在模型训练领域,模型的损失表征模型对输入的样本所得到的输出结果与实际结果之间的差异,模型训练的目标就是尽可能减小模型的损失。在工程实践中,通常会定义一个模型的目标函数,用于衡量模型的损失。目标函数的值可以与模型的损失正相关(这种情况下,目标函数也称为损失函数),也可以负相关。在一次迭代后,通常会将与本次迭代的训练结果有关的值代入到目标函数中,以衡量模型的损失,并以减小损失为目标,调整模型的参数,之后开始下一次迭代。
S108:将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果。
在本说明书实施例中,OCR模型的数量可以是1个、2个或多个,可以根据实际需要灵活设置。例如,可以将实践中常见的几种OCR模型都投入到本次训练中,可以使得训练得图片修改模型更好的针对这几种OCR模型。
所述N个OCR模型中可以包括图片修改模型的训练方从第三方获取的OCR模型,也可以包括图片修改模型的训练方自己训练的OCR模型。
S110:确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度。
确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度的方式有多种。例如,可以针对每个文字识别结果,计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离,作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。又如,可以针对每个文字识别结果,将该文字识别结果与所述当前图片样本包含的文字内容推送给人工,由人工进行阅读理解,比较二者的相似度。
需要说明的是,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串越相似。
在本说明书实施例中,OCR模型对于第二特征矩阵的识别效果也是影响图片修改模型的训练效果的重要指标。OCR模型从第二特征矩阵中提取的文字内容与所述当前图片样本中的文字内容差异越大,说明图片修改模型对图片的修改越容易干扰OCR模型对图片中文字内容的提取。
为此,将图片修改模型的损失也同时设定为,任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
S112:以减小所述图片修改模型的损失为目标,调整所述图片修改模型。
在本说明书实施例中,可以基于原则“所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大”来定义目标函数。
例如,假设两个对象的相似度与这两个对象的相似程度正相关,有两个OCR模型,将所述第二特征矩阵与所述第一特征矩阵之间的相似度定义为A,将OCR模型1输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B1,将OCR模型2输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B2,则图片修改模型的目标函数可以为:
L=A-B1-B2。
通过图1所示的方法,基于对抗学习的思想,训练图片修改模型,使得经过图片修改模型修改后的图片既和原图片足够相似(如此,修改后的图片尽可能少的修饰原图片的信息,尤其是原图片包含的文字内容),又可以使得OCR模型从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此,对于经过图片修改模型修改后的图片,一方面不会影响图片的正常使用,另一方面又对OCR模型造成很大的干扰,保护图片中的文字内容隐私。
此外,为了避免图片修改模型太容易被破解,以便不法分子可以将经过图片修改模型修改后的图片还原成原图,在图1所示的一次迭代训练中,还可以将所述第二特征矩阵输入到图片还原模型,使得所述图片还原模型输出还原后的特征矩阵,作为第三特征矩阵,然后确定所述第三特征矩阵与所述第一特征矩阵的相似度。并且,需要定义所述第三特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越大,将所述第三特征矩阵与所述第一特征矩阵的相似度也定义到图片修改模型的目标函数中。
图片还原模型用于将经过图片修改模型修改后的图片进行还原,如果图片还原模型还原出的图片与原图差异越大,则越说明图片修改模型不容易被破解。
假设两个对象的相似度与这两个对象的相似程度正相关,有两个OCR模型,还有图片还原模型,将所述第二特征矩阵与所述第一特征矩阵之间的相似度定义为A,将OCR模型1输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B1,将OCR模型2输出的文字识别结果与所述当前图片样本包含的文字内容的相似度定义为B2,将图片还原模型输出的第三特征矩阵与第一特征矩阵的相似度定义为C,则图片修改模型的目标函数可以为:
L=A-B1-B2-C。
需要说明的是,上述的图片还原模型可以是在开始训练图片修改模型之前预先训练好的,也可以是在开始训练图片修改模型时,与图片修改模型同步训练的。
对于同步训练图片还原模型的情况,可以在训练图片修改模型的过程中,针对每一次迭代,将第二特征矩阵也输入到图片还原模型,并基于图片还原模型的损失优化图片还原模型。如此,可以使得在整个训练过程中,图片修改模型与图片还原模型进行一种动态对抗,在图片还原模型的还原效果越来越好的情况下,其根据图片修改模型输出的第二特征矩阵还原出的图片依然与原图差异足够大,进一步提升图片修改模型被破解的难度。具体地,在一次迭代中,以减小所述图片还原模型的损失为目标,调整所述图片还原模型,其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片还原模型的损失越小。
此外需要说明的是,也可以在训练图片修改模型的过程中,不适用预先训练好的OCR模型,而是同步训练OCR模型。针对每一次迭代,将第二特征矩阵也输入到OCR模型,并基于OCR模型的损失优化OCR模型。如此,可以使得在整个训练过程中,图片修改模型与OCR模型进行一种动态对抗,在OCR模型的识别效果越来越好的情况下,其根据图片修改模型输出的第二特征矩阵识别出的文字内容依然与原图的文字内容差别足够大,进一步提升图片修改模型的性能。
还需要说明的是,训练模型的训练停止条件可以是迭代次数超过指定次数,也可以是模型的损失小于指定损失。
图2是本说明书实施例提供的一种图片输出方法的流程示意图,包括如下步骤:
S200:获取将待输出图片,并确定所述待输出图片的特征矩阵;
S202:将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
S204:输出修改后的特征矩阵对应的图片。
本方案提供的图片修改模型的应用场景广泛,可以在不同应用场景下提供保护图片中文字内容隐私的功能。
例如,可以将图片修改模型内置到用户手机的相机应用中,用户使用手机进行拍摄时,相机应用可以判断拍摄到的图片中是否有文字内容,如果有文字内容,就调用内置的图片修改模型对拍摄到的原图进行修改后,将修改后的图片存储,将原图删除。
又如,很多互联网服务方都要求用户上传自己的身份证图片进行实名认证,可以将图片修改模型内置在这些互联网服务方安装到用户手机的客户端中,当用户通过客户端向服务端上传自己的身份证图片时,客户端上传给服务端的实际上是修改后的身份证图片。
图3是本说明书实施例提供的一种模型更新方法的流程示意图,包括以下步骤:
S300:获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
S302:将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前补充样本包含的文字内容的相似度;
S304:若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
需要说明的是,在基于图1所示的方法训练完成图片修改模型并将图片修改模型投入应用之后,OCR模型针对图片中文字内容的提取能力可能会有进步,从而使得已有的图片修改模型不能对OCR模型的识别效果提供足够的干扰,为此,可以通过监控OCR模型对新的补充图片样本的识别效果来动态更新图片修改模型。
具体而言,可以将图片修改模型在实际应用中修改的每一张图片作为补充图片样本,将补充图片样本也输入到被监控的OCR模型中,如果被监控的OCR模型从补充图片样本中识别出的文字内容与补充图片样本中的文字内容差异不够大,则需要使用补充图片样本继续训练图片修改模型,以更新图片修改模型的参数。
图4是本说明书实施例提供的一种基于对抗学习的模型训练装置的结构示意图,用于根据多个包含文字内容的图片样本训练图片修改模型,所述装置包括:
模型训练模块401,迭代执行以下步骤,直至满足训练停止条件:选择一个图片样本,作为当前图片样本;确定所述当前图片样本的特征矩阵,作为第一特征矩阵,并将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵;确定所述第二特征矩阵与所述第一特征矩阵的相似度;将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度;以减小所述图片修改模型的损失为目标,调整所述图片修改模型;
其中,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
所述模型训练模块401,计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差,并根据每个相同位置的元素值的差,确定所述第二特征矩阵与所述第一特征矩阵的相似度。
所述模型训练模块401,针对每个文字识别结果,计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离,作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。
所述模型训练模块401,在一次迭代中,将所述第二特征矩阵输入到图片还原模型,使得所述图片还原模型输出还原后的特征矩阵,作为第三特征矩阵;确定所述第三特征矩阵与所述第一特征矩阵的相似度;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越大。
所述模型训练模块401,在一次迭代中,以减小所述图片还原模型的损失为目标,调整所述图片还原模型;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片还原模型的损失越小。
所述模型训练模块401,在一次迭代中,针对每个OCR模型,以减小该OCR模型的损失为目标,调整该OCR模型;
其中,该OCR模型输出的文字识别结果与所述当前图片样本包含的文字内容越相似,所述OCR模型的损失越小。
图5是本说明书实施例提供的一种图片输出装置的结构示意图,包括:
获取模块501,获取将待输出图片,并确定所述待输出图片的特征矩阵;
修改模块502,将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
输出模块503,输出修改后的特征矩阵对应的图片。
图6是本说明书实施例提供的一种模型更新装置的结构示意图,用于更新图片修改模型,所述装置包括:
获取模块601,获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
处理模块602,将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度;
更新模块603,若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图1~3任一所示的方法。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1~3任一所示的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务设备,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (17)

1.一种基于对抗学习的模型训练方法,用于根据多个包含文字内容的图片样本训练图片修改模型,所述方法包括:
迭代执行以下步骤,直至满足训练停止条件:
选择一个图片样本,作为当前图片样本;
确定所述当前图片样本的特征矩阵,作为第一特征矩阵,并将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵;
确定所述第二特征矩阵与所述第一特征矩阵的相似度;
将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度;
以减小所述图片修改模型的损失为目标,调整所述图片修改模型;
其中,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
2.如权利要求1所述的方法,确定所述第二特征矩阵与所述第一特征矩阵的相似度,具体包括:
计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差,并根据每个相同位置的元素值的差,确定所述第二特征矩阵与所述第一特征矩阵的相似度。
3.如权利要求1所述的方法,确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度,具体包括:
针对每个文字识别结果,计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离,作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。
4.如权利要求1所述的方法,所述方法还包括:
在一次迭代中,将所述第二特征矩阵输入到图片还原模型,使得所述图片还原模型输出还原后的特征矩阵,作为第三特征矩阵;
确定所述第三特征矩阵与所述第一特征矩阵的相似度;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越大。
5.如权利要求4所述的方法,所述方法还包括:
在一次迭代中,以减小所述图片还原模型的损失为目标,调整所述图片还原模型;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片还原模型的损失越小。
6.如权利要求1所述的方法,所述方法还包括:
在一次迭代中,针对每个OCR模型,以减小该OCR模型的损失为目标,调整该OCR模型;
其中,该OCR模型输出的文字识别结果与所述当前图片样本包含的文字内容越相似,所述OCR模型的损失越小。
7.一种基于权利要求1~6任一项的图片修改模型的图片输出方法,包括:
获取将待输出图片,并确定所述待输出图片的特征矩阵;
将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
输出修改后的特征矩阵对应的图片。
8.一种模型更新方法,用于更新权利要求1~6任一项的图片修改模型,所述方法包括:
获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度;
若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
9.一种基于对抗学习的模型训练装置,用于根据多个包含文字内容的图片样本训练图片修改模型,所述装置包括:
模型训练模块,迭代执行以下步骤,直至满足训练停止条件:选择一个图片样本,作为当前图片样本;确定所述当前图片样本的特征矩阵,作为第一特征矩阵,并将所述第一特征矩阵输入到所述图片修改模型,使得所述图片修改模型输出修改后的特征矩阵,作为第二特征矩阵;确定所述第二特征矩阵与所述第一特征矩阵的相似度;将所述第二特征矩阵分别输入到N个光学字符识别OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述当前图片样本包含的文字内容的相似度;以减小所述图片修改模型的损失为目标,调整所述图片修改模型;
其中,所述第二特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越小;任一文字识别结果与所述当前图片样本包含的文字内容越相似,所述图片修改模型的损失越大。
10.如权利要求9所述的装置,所述模型训练模块,计算所述第二特征矩阵与所述第一特征矩阵中每个相同位置的元素值的差,并根据每个相同位置的元素值的差,确定所述第二特征矩阵与所述第一特征矩阵的相似度。
11.如权利要求9所述的装置,所述模型训练模块,针对每个文字识别结果,计算该文字识别结果与所述当前图片样本包含的文字内容的编辑距离,作为该文字识别结果与所述当前图片样本包含的文字内容的相似度。
12.如权利要求9所述的装置,所述模型训练模块,在一次迭代中,将所述第二特征矩阵输入到图片还原模型,使得所述图片还原模型输出还原后的特征矩阵,作为第三特征矩阵;确定所述第三特征矩阵与所述第一特征矩阵的相似度;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片修改模型的损失越大。
13.如权利要求12所述的装置,所述模型训练模块,在一次迭代中,以减小所述图片还原模型的损失为目标,调整所述图片还原模型;
其中,所述第三特征矩阵与所述第一特征矩阵越相似,所述图片还原模型的损失越小。
14.如权利要求9所述的装置,所述模型训练模块,在一次迭代中,针对每个OCR模型,以减小该OCR模型的损失为目标,调整该OCR模型;
其中,该OCR模型输出的文字识别结果与所述当前图片样本包含的文字内容越相似,所述OCR模型的损失越小。
15.一种基于权利要求1~6任一项的图片修改模型的图片输出装置,包括:
获取模块,获取将待输出图片,并确定所述待输出图片的特征矩阵;
修改模块,将所述待输出图片的特征矩阵输入到图片修改模型,得到修改后的特征矩阵;
输出模块,输出修改后的特征矩阵对应的图片。
16.一种模型更新装置,用于更新权利要求1~6任一项的图片修改模型,所述装置包括:
获取模块,获取包含文字内容的补充图片样本,并确定所述补充图片样本的特征矩阵;
处理模块,将所述补充图片样本的特征矩阵分别输入到所述N个OCR模型,使得所述N个OCR模型分别输出N个文字识别结果,并确定每个文字识别结果与所述补充图片样本包含的文字内容的相似度;
更新模块,若任一OCR模型输出的文字识别结果与所述补充图片样本包含的文字内容的相似度小于指定相似度,则使用所述补充图片样本更新所述图片修改模型。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1~8任一项所述的方法。
CN202010254884.9A 2020-04-02 2020-04-02 一种基于对抗学习的模型训练、图片输出方法及装置 Active CN111160357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254884.9A CN111160357B (zh) 2020-04-02 2020-04-02 一种基于对抗学习的模型训练、图片输出方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254884.9A CN111160357B (zh) 2020-04-02 2020-04-02 一种基于对抗学习的模型训练、图片输出方法及装置

Publications (2)

Publication Number Publication Date
CN111160357A CN111160357A (zh) 2020-05-15
CN111160357B true CN111160357B (zh) 2020-06-30

Family

ID=70567721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254884.9A Active CN111160357B (zh) 2020-04-02 2020-04-02 一种基于对抗学习的模型训练、图片输出方法及装置

Country Status (1)

Country Link
CN (1) CN111160357B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975797B (zh) * 2023-09-25 2024-02-23 中国科学技术大学 一种针对ocr提取攻击的文本内容保护方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845323A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 一种打标数据的收集方法、装置以及证件识别系统
CN109426831A (zh) * 2017-08-30 2019-03-05 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN109598138A (zh) * 2018-11-15 2019-04-09 阿里巴巴集团控股有限公司 图片中敏感信息识别、掩盖和感知是否查看的方法及装置
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN110880023A (zh) * 2019-12-03 2020-03-13 支付宝(杭州)信息技术有限公司 一种检测证件图片的方法及装置
CN110909189A (zh) * 2019-12-03 2020-03-24 支付宝(杭州)信息技术有限公司 一种处理人脸图片的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963651B2 (en) * 2015-06-05 2021-03-30 International Business Machines Corporation Reformatting of context sensitive data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845323A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 一种打标数据的收集方法、装置以及证件识别系统
CN109426831A (zh) * 2017-08-30 2019-03-05 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN109598138A (zh) * 2018-11-15 2019-04-09 阿里巴巴集团控股有限公司 图片中敏感信息识别、掩盖和感知是否查看的方法及装置
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN110880023A (zh) * 2019-12-03 2020-03-13 支付宝(杭州)信息技术有限公司 一种检测证件图片的方法及装置
CN110909189A (zh) * 2019-12-03 2020-03-24 支付宝(杭州)信息技术有限公司 一种处理人脸图片的方法及装置

Also Published As

Publication number Publication date
CN111160357A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111445007B (zh) 对抗生成神经网络的训练方法及系统
US11610321B2 (en) Target tracking method and apparatus, storage medium, and electronic device
CN109255486B (zh) 一种策略配置的优化方法及装置
CN110059468B (zh) 一种小程序风险识别方法和装置
CN108961157B (zh) 图片处理方法、图片处理装置及终端设备
JP6689283B2 (ja) 装置指紋をインターネット装置に割り当てるための方法及び機器
CN108898082B (zh) 图片处理方法、图片处理装置及终端设备
CN108898549B (zh) 图片处理方法、图片处理装置及终端设备
CN106030527B (zh) 将可供下载的应用程序通知用户的系统和方法
CN111783146A (zh) 基于隐私保护的图像处理方法、装置和电子设备
CN112150347A (zh) 从有限的修改后图像集合中学习的图像修改样式
CN110049309A (zh) 视频流中图像帧的稳定性检测方法和装置
CN111160357B (zh) 一种基于对抗学习的模型训练、图片输出方法及装置
CN111078900B (zh) 一种数据的风险识别方法及系统
CN115391188A (zh) 一种场景测试用例生成方法、装置、设备及存储介质
CN108932703B (zh) 图片处理方法、图片处理装置及终端设备
CN112231764B (zh) 一种时序数据隐私的保护方法及相关设备
CN110909189A (zh) 一种处理人脸图片的方法及装置
CN108932704B (zh) 图片处理方法、图片处理装置及终端设备
CN108763491B (zh) 图片处理方法、装置及终端设备
CN110929285A (zh) 一种隐私数据的处理方法及装置
CN111401197B (zh) 一种图片风险识别方法、装置及设备
CN117314712A (zh) 模型的训练方法、水印复原方法及相关设备
US8417665B2 (en) Information extraction method, extractor rebuilding method, and system and computer program product thereof
CN110264333B (zh) 一种风险规则确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029310

Country of ref document: HK