CN110188790B - 图片样本的自动化生成方法和系统 - Google Patents

图片样本的自动化生成方法和系统 Download PDF

Info

Publication number
CN110188790B
CN110188790B CN201910310510.1A CN201910310510A CN110188790B CN 110188790 B CN110188790 B CN 110188790B CN 201910310510 A CN201910310510 A CN 201910310510A CN 110188790 B CN110188790 B CN 110188790B
Authority
CN
China
Prior art keywords
sample
picture
editing
samples
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910310510.1A
Other languages
English (en)
Other versions
CN110188790A (zh
Inventor
赵俊生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910310510.1A priority Critical patent/CN110188790B/zh
Publication of CN110188790A publication Critical patent/CN110188790A/zh
Application granted granted Critical
Publication of CN110188790B publication Critical patent/CN110188790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种用于自动化地生成图片样本的方法,包括:获取原始图片样本;将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本;将原始图片样本和多个经编辑图片样本构成图片样本集合;将图片样本集合的子集输入模型,以使该模型确定子集中的每个图片样本是可识别样本还是不可识别样本;以及将所确定的不可识别样本反馈给模型,以减少该模型的盲点。

Description

图片样本的自动化生成方法和系统
技术领域
本公开主要涉及机器学习,尤其涉及机器学习中的样本生成。
背景技术
互联网高速发展,从PC时代的网站论坛到移动互联网时代的App应用,在开放用户沟通、发表文章或评论的同时,都面临着恶意用户发布垃圾广告、色情宣传、涉政暴恐等多类图片垃圾、敏感词汇信息的困扰。并且相对于文本信息,图像信息更难以识别。网站管理员或App应用主体为营造和谐网络环境且保证大部分用户的利益,都必须具备识别、处置类似垃圾敏感信息的能力,需要有对应的图像训练样本来检测系统的识别处置能力。
采用机器学习和模式识别可以从样本数据自动建立数学模型,将所建立的模型应用于新的数据以自动解决实际问题。因此,需要关心的是模型和样本数据两者。
深度学习的成功主要基于当前计算机的计算能力有很大提升,以及随着大数据时代的到来,当前的训练样本数目有较大的提升。由于深度神经网络具有非常强的学习能力,当没有大量的训练数据时就会造成过拟合,训练出的模型难以应用。
对于没有足够样本数量的问题,可以基于已有的样本对其进行变化,从而人工增加训练样本。对于图像而言,常用的增加训练样本的方法主要有对图像进行旋转、移位等仿射变换,也可以使用镜像变换等等。但是,仅对图像进行编辑、变换并不足以自动生成大量的训练图片。
因此,本领域需要一种大批量训练图片样本的自动生成方法。
发明内容
为解决上述技术问题,本公开提供了一种用于自动化地生成图片样本的方案。
在本公开一实施例中,提供了一种用于自动化地生成图片样本的方法,包括:获取原始图片样本;将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本;将原始图片样本和多个经编辑图片样本构成图片样本集合;将该图片样本集合的子集输入模型,以使该模型确定子集中的每个图片样本是可识别样本还是不可识别样本;以及将所确定的不可识别样本反馈给该模型,以减少模型的盲点。
在本公开的另一实施例中,一次或多次编辑从以下组中选择:尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等,其中该组是可扩展的。
在本公开的又一实施例中,多次编辑是不同的。
在本公开的再一实施例中,多次编辑是相同的。
在本公开一实施例中,多次编辑的次数是特定组合数。
在本公开的另一实施例中,多次编辑的次数是特定排列数。
在本公开的又一实施例中,多次编辑的次数是杨辉三角组合数。
在本公开一实施例中,所确定的可识别样本可被反馈给模型,以删除相应的原始图片样本。
在本公开一实施例中,提供了一种用于自动化地生成图片样本的系统,包括:获取模块,获取原始图片样本;编辑模块,将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本;构建模块,将原始图片样本和多个经编辑图片样本构成图片样本集合;以及调优模块,将该图片样本集合的子集输入模型,以使该模型确定子集中的每个图片样本是可识别样本还是不可识别样本,以及将所确定的不可识别样本反馈给该模型,以减少模型的盲点。
在本公开的另一实施例中,一次或多次编辑从以下组中选择:尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等,其中该组是可扩展的。
在本公开一实施例中,多次编辑的次数是特定组合数。
在本公开的又一实施例中,多次编辑的次数是特定排列数。
在本公开的再一实施例中,多次编辑的次数是杨辉三角组合数。
在本公开一实施例中,调优模块可将所确定的可识别样本反馈给模型,以删除相应的原始图片样本。
在本公开一实施例中,提供了一种存储有指令的计算机可读存储介质,当这些指令被执行时使得机器执行如上所述的方法。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
本公开的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的发明的示例。在附图中,相同的附图标记代表相同或类似的元素。
图1示出根据本公开一实施例的用于自动化地生成图片样本的方法的流程图;
图2示出根据本公开一实施例的用于自动化地生成图片样本的方法的示意图;
图3示出根据本公开一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图;
图4示出根据本公开另一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图;
图5示出根据本公开又一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图;
图6示出根据本公开一实施例的图片样本的模型测试的示意图。
图7示出根据本公开一实施例的用于自动化地生成图片样本的系统的框图。
具体实施方式
为使得本公开的上述目的、特征和优点能更加明显易懂,以下结合附图对本公开的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下文公开的具体实施例的限制。
一般而言,在构建训练样本集时,会纳入多个有标记样本,即这些样本是正例(也称为白样本)、还是反例(也可称为黑样本)通过类别标记标识。
在训练现有的网站或App应用的图片识别能力时一般通过纳入静态黑样本来进行。黑样本素材来自网站爬取或图库,先通过算法去掉重复的图片(下文中简称为“去重”),再进行人工打标。在色情、涉政、暴恐等相关图片的情形中,需要人工对图片进行筛选,并进行相应的打标。
通常有标记样本不足会使得模型(例如,网站或App应用所采用的模型)的泛化能力不佳;在机器学习中,人们往往引入未标记样本,采用主动学习且不依赖外界交互(即,非监督学习)来将这些未标记样本转变为有标记样本,例如将未标记样本中所包含的数据分布信息与类别标记相联系。但是,对于图片样本,在采用不同的图片编辑方式之后,其图像数据特性将会有较大变化,用基于非监督学习的模型并不能快速、准确地将未标记样本转变为有标记样本。
因此,为了训练得到图片识别能力强的网站或App应用,就需要采集海量的图片样本,并投入人工筛选,整个过程耗时长,产出效率较低,成本较大。与此同时,利用传统方法训练出的恶意检测效果受限,无法针对不同图片编辑方式实现针对性测试,检测容易被绕过,产生被攻击风险。
本公开的图片样本的自动化生成方法和系统旨在针对多种图片编辑方式构建大量的训练图片样本,既能解决效率低、成本高的问题,又能降低被攻击风险。
图片样本的自动化生成方法
图1示出根据本公开一实施例的用于自动化地生成图片样本的方法的流程图。
在102,获取原始图片样本。
先定向采集图片,即从图库导入、或从网站爬取图片。所采集的图片可能会重复。本领域技术人员可以理解,可采用多种算法去掉重复的图片,例如基于多特征综合距离的并行化图片离线去重算法、基于粒子群优化的图片在线去重算法等。
再针对经去重的图片,进行人工筛选和打标。在色情、涉政、暴恐等相关图片的情形中,打标是对图片打风险标。
经过去重、人工筛选和打标的图片样本即为本公开中的原始图片样本。可获取m个原始图片样本,其中m为大于或等于1的整数。
以上的图片去重和图片打标可采用本领域技术人员熟知的各种手段,在此不再赘述。
在104,将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本。该一次或多次编辑可从多种编辑手段中选择,该多种编辑手段包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等等。本领域技术人员可以理解,针对图片的编辑手段不限于以上手段,并且可随着图片编辑技术的发展,纳入新的编辑手段。也就是说,编辑手段是可扩展的。
在本公开一实施例中,对原始图片样本进行缩放。
在本公开的另一实施例中,对原始图片样本进行变色。
在本公开一实施例中,可取用m个原始图片样本,m为大于或等于1的整数;针对每一个原始图片样本,可分别采用n种编辑手段将每个原始图片样本进行一次编辑以获取n个经一次编辑的图片样本。对于该m个原始图片样本,共获取m x n个经一次编辑的图片样本。
在本公开的另一实施例中,可取用m个原始图片样本,m为大于或等于1的整数;针对每一个原始图片样本,可从n种编辑手段中选择两种不同的编辑,由此将每个原始图片样本进行两次编辑以获取n个经两次编辑的图片样本。对于该m个原始图片样本,共获取m x n个经两次编辑的图片样本。
在本公开一实施例中,一次编辑采用缩放,二次编辑采用旋转,则该一次编辑与二次编辑构成缩放x旋转的组合。即,在104对原始图片样本进行缩放之后,再对经缩放的图片样本进行旋转。
在本公开的另一实施例中,一次编辑采用变色,二次编辑采用压缩,则该一次编辑与二次编辑构成变色x压缩的组合。即,在104对原始图片样本进行变色之后,再对经变色的图片样本进行压缩。
针对不同的需求,二次编辑与一次编辑的组合方式可不同。在下文中将描述根据本公开不同实施例的不同组合方式。
同样,三次及以上次数的编辑可从以上编辑手段中选择,并采用不同的组合方式。
本领域技术人员可以理解,在多次编辑过程中,可自动对所编辑的图片样本打编辑标。例如,经过缩放编辑的图片样本可被打上缩放编辑标。对所编辑的图片样本打编辑标的目的在于:在后续的模型优化过程中,可清楚地知晓模型对于哪些类型的图片经过哪些编辑手段是能够识别的,而对于另一些类型的图片经过什么编辑手段是不能够识别的。
在106,将原始图片样本和多个经编辑图片样本构成图片样本集合。
在本公开一实施例中,将原始图片样本和经编辑图片样本置入图片样本集合。
在本公开另一实施例中,将原始图片样本、经变色的图片样本以及经变色x压缩的图片样本置入图片样本集合。
在108,将图片样本集合的子集输入模型,以使该模型确定子集中的每个图片样本是可识别样本还是不可识别样本。
在本公开一实施例中,可提取图片样本集合中的经一次编辑的图片样本作为子集,投入模型的训练,从而输出相应的可识别样本和不可识别样本。
本领域技术人员可以理解,可提取图片样本集合中的原始图片样本、经一次编辑的图片样本以及经多次编辑的图片样本的一部分或全部作为子集,投入模型的训练。
在110,将所确定的不可识别样本反馈给模型,以减少该模型的盲点。
在本公开一实施例中,不可识别样本可被用来检测出模型的盲点,从而对未识别原因进行分析,减少该模型的盲点。举例而言,可基于每一个盲点进行模型的优化,例如参数调整。
在本公开另一实施例中,可识别样本可被用来总结出可识别特性,且可识别特性可被反馈到原始图片样本获取阶段,以删除相同或类似的原始图片样本,或增加新的原始图片样本。
图2示出根据本公开一实施例的用于自动化地生成图片样本的方法的示意图。
首先是原图整理阶段。先定向抓取图片,即从图库导入、或从网站爬取图片,或从两者抓取图片。如果所采集的图片有重复,则可采用多种算法去掉重复的图片,例如基于多特征综合距离的并行化图片离线去重算法、基于粒子群优化的图片在线去重算法等。再针对经去重的图片,进行人工筛选和打标。打标可以是对图片打风险标,例如色情、涉政、暴恐等。
以上的图片去重和图片打标可采用本领域技术人员熟知的各种手段,在此不再赘述。在原图整理阶段,可获取m个原始图片样本,其中m为大于或等于1的整数。
接着是编辑手段选择阶段。在本公开一实施例中,编辑手段有多种,包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等等。本领域技术人员可以理解,随着图片编辑技术的发展,可纳入更多种的图片编辑手段。也就是说,编辑手段是可扩展的。可从n种图片编辑手段中进行选择,其中n为大于或等于1的整数。
然后是编辑手段组合阶段。在本公开一实施例中,多次编辑可以是两次编辑,第一次编辑是从n种图片编辑手段中选择其一,例如旋转。而第二次编辑是从n种图片编辑手段中选择不同的第二种编辑手段,例如变色。则该两次编辑可表示为旋转x变色。
在本公开另一实施例中,多次编辑可以是三次编辑,第一次编辑是从n种图片编辑手段中选择其一,例如旋转。而第二次编辑是从n种图片编辑手段中选择不同的第二种编辑手段,例如变色。第三次编辑则是从n种图片编辑手段中选择再不同的第三种编辑手段,例如模糊。则该三次编辑可表示为旋转x变色x模糊。
当然,本领域技术人员可以理解,多次编辑可选择相同或不同的编辑手段。本领域技术人员还可以理解,对于不同种类的图片,相同编辑手段的不同次序编辑可能会产生不同的图片样本。例如,经旋转x变色x模糊的编辑之后的图片样本可能与经模糊x旋转x变色的编辑之后的图片样本是不同的。
注意,在多次编辑过程中,可自动对所编辑的图片样本打编辑标。对所编辑的图片样本打编辑标的目的在于:在后续的模型优化过程中,可清楚地知晓模型对于哪些类型的图片经过哪些编辑手段是能够识别的,而对于另一些类型的图片经过什么编辑手段是不能够识别的。
再进入样本集构建和提取阶段。将所获取的原始图片样本以及多个经编辑图片样本构成样本集,并且提取该样本集的子集以输入待测试模型。针对所输入的该样本集子集中的图片样本,模型将其区分为可识别样本和不可识别样本。
最后进入模型优化阶段。不可识别样本可被用来减少模型的盲点。例如,某一图片样本在打薄马赛克之后是可识别的,但是在薄马赛克处理之后再进行缩放,就变成不可识别。那么,该模型的盲点即为薄马赛克+缩放。由此,可对模型进行黑盒调参,使得经调参后模型的该盲点被消减(具体请参考下文对图6的描述)。
图3示出根据本公开一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图。
在本实施例中,针对原始图片样本的多次编辑,是对编辑手段进行组合,并将原始图片样本进行经组合的编辑,例如旋转x变色或旋转x变色x模糊。
在本实施例中,多次编辑的次数是特定组合数。
针对包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等的多种编辑手段(注意,编辑手段是可扩展的),可从中任意选择一种编辑手段对原始图片样本进行一次编辑。如果有n种编辑手段,则进行一次编辑的选择可有n种。在原始图片样本有m个的情况下,可生成经以上一次编辑的图片样本的个数为m·n。
针对包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等的多种编辑手段,可从中任意选择两种编辑手段对原始图片样本进行两次编辑的组合。如果有n种编辑手段,则进行两次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上两次编辑的图片样本的个数为:
类似地,如果有n种编辑手段,则进行三次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上三次编辑的图片样本的个数为:
依此类推,如果有n种编辑手段,则进行n-1次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上n-1次编辑的图片样本的个数为:
类似地,如果有n种编辑手段,则进行n次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上n次编辑的图片样本的个数为:
由此,可构成原始图片样本和多个经编辑图片样本的图片样本集合,其中经编辑图片样本的数量依照选用的编辑手段的数量而不同。本领域技术人员可以理解,根据不同的图片种类以及不同的模型,可进行不同的选择。
图4示出根据本公开另一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图。
在本实施例中,针对原始图片样本的多次编辑,是对编辑手段进行排列,并将原始图片样本进行经排列的编辑。在这样的情形中,对原始图片样本进行尺寸缩放x剪切与对原始图片样本进行剪切x尺寸缩放将生成不同的经编辑图片样本。
在本实施例中,多次编辑的次数是特定排列数。
针对包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等的多种编辑手段(注意,编辑手段是可扩展的),可从中任意选择一种编辑手段对原始图片样本进行一次编辑。如果有n种编辑手段,则进行一次编辑的选择可有n种。在原始图片样本有m个的情况下,可生成经以上一次编辑的图片样本的个数为m·n。
针对包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等的多种编辑手段,可从中任意选择两种编辑手段对原始图片样本进行两次编辑的排列。如果有n种编辑手段,则进行两次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上两次编辑的图片样本的个数为:
类似地,如果有n种编辑手段,则进行三次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上三次编辑的图片样本的个数为:
依此类推,如果有n种编辑手段,则进行n-1次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上n-1次编辑的图片样本的个数为:
类似地,如果有n种编辑手段,则进行n次编辑的选择的种数为:
在原始图片样本有m个的情况下,可生成经以上n次编辑的图片样本的个数为:
由此,可构成原始图片样本和多个经编辑图片样本的图片样本集合,其中经编辑图片样本的数量依照选用的编辑手段的数量而不同。本领域技术人员可以理解,根据不同的图片种类以及不同的模型,可进行不同的选择。
图5示出根据本公开又一实施例的将原始图片样本进行一次或多次编辑的步骤的示意图。
在本实施例中,针对原始图片样本的多次编辑,是对编辑手段进行杨辉三角组合,并将原始图片样本进行经杨辉三角组合的编辑。
参看图5的杨辉三角组合:
第1行指的是原始图片样本;
第2行采用1种编辑手段,则获取的是原始图片样本和经一次编辑的图片样本,共2个图片样本;
第3行采用2种编辑手段,则获取的是原始图片样本、经第1种编辑手段编辑的图片样本、经第2种编辑手段编辑的图片样本、以及经2种编辑手段编辑的图片样本,共4个图片样本;
依此类推,对于第n+1行,采用n种编辑手段,则获取的是原始图片样本、经n种编辑手段之一编辑的图片样本、经n种编辑手段中的两种编辑手段编辑的图片样本、......、经n种编辑手段中的n-1种编辑手段编辑的图片样本、以及经n种编辑手段编辑的图片样本,共2n个图片样本。
由此,可构成原始图片样本和多个经编辑图片样本的图片样本集合,其中经编辑图片样本的数量依照选用的编辑手段的数量而不同。本领域技术人员可以理解,根据不同的图片种类以及不同的模型,可对编辑手段的数量进行不同的选择。
图6示出根据本公开一实施例的图片样本的模型测试的示意图。
在本实施例中,原始图片样本为涉毒图片样本,其为模型可识别样本。在原始图片样本中加入打印字的图片样本也是该模型的可识别样本。带打印字的图片样本缩放75%后获得的图片样本为该模型的不可识别样本。而缩放75%的图片样本加入手写文字后获得的图片样本也是该模型的不可识别样本。
针对以上的模型检测结果进行不可识别原因分析,获得不可识别原因如下:
1.图片打印后没有正向摆放,以及缩放后识别准确率低;
2.手写文字没有命中高危词库。
对以上的不可识别原因,进行模型的优化以消减模型的盲点,即以上描述的非正向摆放、缩放、手写文字等。本领域技术人员可以理解,针对不同的模型,盲点亦可不同。
在模型是机器学习模型的实施例中,模型的优化通常涉及超参数调优。而超参数调优一般认为是黑盒优化问题,所谓黑盒问题就是在调优的过程中只看到模型的输入和输出,不能获取模型训练过程的梯度信息,也不能假设模型超参数和最终指标符合凸优化条件,否则的话通过求导或者凸优化方法就可以求导最优解。
针对黑盒优化问题,通常采用的算法是Grid search(网格搜索)、Random search(随机搜索)和Bayesian Optimization(贝叶斯优化),在此不再赘述。
对于确定的可识别样本,可总结识别出的特性,将识别出的特性反馈给模型,以删除相应的原始图片样本、并且引入新的原始图片样本,从而动态更新图片样本集合并不断地测试模型。
本公开的图片样本的自动化生成方法旨在针对多种图片编辑方式构建大量的训练图片样本,既能解决效率低、成本高的问题,又能降低被攻击风险。
图片样本的自动化生成系统
图7示出根据本公开一实施例的用于自动化地生成图片样本的系统700的框图。
系统700包括:获取模块702,获取原始图片样本。
获取模块702先定向采集图片,即从图库导入、或从网站爬取图片。所采集的图片可能会重复。可采用多种算法去掉重复的图片,例如基于多特征综合距离的并行化图片离线去重算法、基于粒子群优化的图片在线去重算法等。
获取模块702再针对经去重的图片,进行人工筛选和打标。在色情、涉政、暴恐等相关图片的情形中,打标是对图片打风险标。经过去重、人工筛选和打标的图片样本即为本公开中的原始图片样本。可获取m个原始图片样本,其中m为大于或等于1的整数。
以上的图片去重和图片打标可采用本领域技术人员熟知的各种手段,在此不再赘述。
系统700还包括:编辑模块704,将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本。该一次或多次编辑可从多种编辑手段中选择,该多种编辑手段包括尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘等等。本领域技术人员可以理解,针对图片的编辑手段不限于以上手段,并且可随着图片编辑技术的发展,纳入新的编辑手段。也就是说,编辑手段是可扩展的。
在本公开一实施例中,编辑模块704可取用m个原始图片样本,m为大于或等于1的整数;针对每一个原始图片样本,可分别采用n种编辑手段将每个原始图片样本进行一次编辑以获取n个经一次编辑的图片样本。对于该m个原始图片样本,共获取m x n个经一次编辑的图片样本。
在本公开的另一实施例中,编辑模块704可取用m个原始图片样本,m为大于或等于1的整数;针对每一个原始图片样本,可从n种编辑手段中选择两种不同的编辑,由此将每个原始图片样本进行两次编辑以获取n个经两次编辑的图片样本。对于该m个原始图片样本,共获取m x n个经两次编辑的图片样本。
在本公开一实施例中,一次编辑采用缩放,二次编辑采用旋转,则该一次编辑与二次编辑构成缩放x旋转的组合。即,在104对原始图片样本进行缩放之后,再对经缩放的图片样本进行旋转。
在本公开的另一实施例中,一次编辑采用变色,二次编辑采用压缩,则该一次编辑与二次编辑构成变色x压缩的组合。即,在104对原始图片样本进行变色之后,再对经变色的图片样本进行压缩。
针对不同的需求,二次编辑与一次编辑的组合方式可不同。在下文中将描述根据本公开不同实施例的不同组合方式。
同样,三次及以上次数的编辑可从以上编辑手段中选择,并采用不同的组合方式。
本领域技术人员可以理解,在多次编辑过程中,可自动对所编辑的图片样本打编辑标。例如,经过缩放编辑的图片样本可被打上缩放编辑标。对所编辑的图片样本打编辑标的目的在于:在后续的模型优化过程中,可清楚地知晓模型对于哪些类型的图片经过哪些编辑手段是能够识别的,而对于另一些类型的图片经过什么编辑手段是不能够识别的。
系统700还包括:构建模块706,将原始图片样本和多个经编辑图片样本构成图片样本集合。
在本公开一实施例中,构建模块706将原始图片样本和经编辑图片样本置入图片样本集合。
在本公开另一实施例中,构建模块706将原始图片样本、经变色的图片样本以及经变色x压缩的图片样本置入图片样本集合。
系统700进一步包括:优化模块708,将图片样本集合的子集输入模型,以使该模型确定子集中的每个图片样本是可识别样本还是不可识别样本。
在本公开一实施例中,优化模块708可提取图片样本集合中的经一次编辑的图片样本作为子集,投入模型的训练,从而输出相应的可识别样本和不可识别样本。
本领域技术人员可以理解,优化模块708可提取图片样本集合中的原始图片样本、经一次编辑的图片样本以及经多次编辑的图片样本的一部分或全部作为子集,投入模型的训练。
优化模块708将所确定的不可识别样本反馈给模型,以减少该模型的盲点。
在本公开一实施例中,不可识别样本可被用来检测出模型的盲点,从而对未识别原因进行分析,减少该模型的盲点。举例而言,优化模块708可基于每一个盲点进行模型的优化,例如参数调整。
在本公开另一实施例中,可识别样本可被用来总结出可识别特性,且可识别特性可被反馈到原始图片样本获取阶段,以删除相同或类似的原始图片样本,或增加新的原始图片样本。
本公开的图片样本的自动化生成系统旨在针对多种图片编辑方式构建大量的训练图片样本,既能解决效率低、成本高的问题,又能降低被攻击风险。
以上描述的图片样本的自动化生成方法和系统的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现,结合本发明描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现,则结合本发明描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本发明的各种操作的软件模块可驻留在存储介质中,如RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息,并执行相应的程序模块以实现本发明的各个步骤。而且,基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。
还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
所公开的方法、装置和系统不应以任何方式被限制。相反,本发明涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合,所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多更改,这些均落在本发明的保护范围之内。

Claims (15)

1.一种用于自动化地生成图片样本的方法,包括:
获取原始图片样本;
将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本,其中在编辑过程中对经编辑图片样本打上用于指示对应编辑手段的编辑标,一次编辑对应一个编辑标;
将所述原始图片样本和被打上编辑标的所述多个经编辑图片样本构成图片样本集合;
将所述图片样本集合的子集输入模型,以使所述模型确定所述子集中的每个图片样本是可识别样本还是不可识别样本;以及
将所确定的不可识别样本反馈给所述模型,以使得所述模型根据不可识别样本对应的编辑标确定所述不可识别样本不可识别的编辑手段,并根据所述编辑手段减少所述模型的盲点。
2.如权利要求1所述的方法,其特征在于,所述一次或多次编辑从以下组中选择,所述组包括:尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘。
3.如权利要求2所述的方法,其特征在于,所述多次编辑是不同的。
4.如权利要求2所述的方法,其特征在于,所述多次编辑是相同的。
5.如权利要求1所述的方法,其特征在于,所述多次编辑的次数是特定组合数。
6.如权利要求1所述的方法,其特征在于,所述多次编辑的次数是特定排列数。
7.如权利要求5所述的方法,其特征在于,所述多次编辑的次数是杨辉三角组合数。
8.如权利要求1所述的方法,其特征在于,所确定的可识别样本可被反馈给所述模型,以删除相应的原始图片样本。
9.一种用于自动化地生成图片样本的系统,包括:
获取模块,获取原始图片样本;
编辑模块,将原始图片样本进行一次或多次编辑以获取多个经编辑图片样本,其中在编辑过程中对经编辑图片样本打上用于指示对应编辑手段的编辑标,一次编辑对应一个编辑标;
构建模块,将被打上编辑标的所述原始图片样本和所述多个经编辑图片样本构成图片样本集合;以及
调优模块,将所述图片样本集合的子集输入模型,以使所述模型确定所述子集中的每个图片样本是可识别样本还是不可识别样本,以及将所确定的不可识别样本反馈给所述模型,以使得所述模型根据不可识别样本对应的编辑标确定所述不可识别样本不可识别的编辑手段,并根据所述编辑手段减少所述模型的盲点。
10.如权利要求9所述的系统,其特征在于,所述一次或多次编辑从以下组中选择,所述组包括:尺寸缩放、剪切、旋转、部分遮挡、变色、模糊、压缩、文字水印、动图、增加手写文字/手绘。
11.如权利要求9所述的系统,其特征在于,所述多次编辑的次数是特定组合数。
12.如权利要求9所述的系统,其特征在于,所述多次编辑的次数是特定排列数。
13.如权利要求11所述的系统,其特征在于,所述多次编辑的次数是杨辉三角组合数。
14.如权利要求9所述的系统,其特征在于,所述调优模块可将所确定的可识别样本反馈给所述模型,以删除相应的原始图片样本。
15.一种存储有指令的计算机可读存储介质,当所述指令被执行时使得机器执行如权利要求1-9中任一项所述的方法。
CN201910310510.1A 2019-04-17 2019-04-17 图片样本的自动化生成方法和系统 Active CN110188790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910310510.1A CN110188790B (zh) 2019-04-17 2019-04-17 图片样本的自动化生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910310510.1A CN110188790B (zh) 2019-04-17 2019-04-17 图片样本的自动化生成方法和系统

Publications (2)

Publication Number Publication Date
CN110188790A CN110188790A (zh) 2019-08-30
CN110188790B true CN110188790B (zh) 2023-09-29

Family

ID=67714651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910310510.1A Active CN110188790B (zh) 2019-04-17 2019-04-17 图片样本的自动化生成方法和系统

Country Status (1)

Country Link
CN (1) CN110188790B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291902B (zh) * 2020-04-24 2020-08-25 支付宝(杭州)信息技术有限公司 后门样本的检测方法、装置和电子设备
CN113392780B (zh) * 2021-06-17 2022-04-19 南开大学 一种面向ai识别汉字的文字图像扭曲变形方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016356A (zh) * 2017-03-21 2017-08-04 乐蜜科技有限公司 特定内容识别方法、装置和电子设备
CN107679577A (zh) * 2017-10-12 2018-02-09 理光图像技术(上海)有限公司 基于深度学习的图像检测方法
CN107784316A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种图像识别方法、装置、系统和计算设备
CN108509959A (zh) * 2018-04-13 2018-09-07 广州优视网络科技有限公司 色情应用识别方法、装置、计算机可读存储介质和服务器
CN108734159A (zh) * 2017-04-18 2018-11-02 苏宁云商集团股份有限公司 一种图像中敏感信息的检测方法及系统
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN109635853A (zh) * 2018-11-26 2019-04-16 深圳市玛尔仕文化科技有限公司 基于计算机图形技术自动生成人工智能训练样本的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127127B2 (en) * 2003-03-04 2006-10-24 Microsoft Corporation System and method for adaptive video fast forward using scene generative models
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784316A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种图像识别方法、装置、系统和计算设备
CN107016356A (zh) * 2017-03-21 2017-08-04 乐蜜科技有限公司 特定内容识别方法、装置和电子设备
CN108734159A (zh) * 2017-04-18 2018-11-02 苏宁云商集团股份有限公司 一种图像中敏感信息的检测方法及系统
CN107679577A (zh) * 2017-10-12 2018-02-09 理光图像技术(上海)有限公司 基于深度学习的图像检测方法
CN108509959A (zh) * 2018-04-13 2018-09-07 广州优视网络科技有限公司 色情应用识别方法、装置、计算机可读存储介质和服务器
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN109635853A (zh) * 2018-11-26 2019-04-16 深圳市玛尔仕文化科技有限公司 基于计算机图形技术自动生成人工智能训练样本的方法

Also Published As

Publication number Publication date
CN110188790A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
Soni et al. CMFD: a detailed review of block based and key feature based techniques in image copy‐move forgery detection
Moreira et al. Image provenance analysis at scale
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
Ansari et al. Pixel-based image forgery detection: A review
CN107358262B (zh) 一种高分辨率图像的分类方法及分类装置
CN103927387A (zh) 图像检索系统及其相关方法和装置
Lubenko et al. Going from small to large data in steganalysis
Cheng et al. Large-scale visible watermark detection and removal with deep convolutional networks
CN110188790B (zh) 图片样本的自动化生成方法和系统
CN112749606A (zh) 一种文本定位方法和装置
Young-Min Feature visualization in comic artist classification using deep neural networks
Kalaiarasi et al. Clustering of near duplicate images using bundled features
Bi et al. Multi-task wavelet corrected network for image splicing forgery detection and localization
CN111177421A (zh) 一种面向数字人文的电子邮件历史事件轴生成方法及装置
Sarma et al. A study on digital image forgery detection
Bhatt et al. Genetic programming evolved spatial descriptor for Indian monuments classification
Arora et al. Custom OCR for identity documents: OCRXNet
Hashemi et al. Evaluation and classification new algorithms in Image Resizing
Zhu et al. One-shot texture retrieval with global context metric
Al-Qershi et al. Comparison of matching methods for copy-move image forgery detection
Srinivas et al. Forged File Detection and Steganographic content Identification (FFDASCI) using Deep Learning Techniques.
CN114612802A (zh) 基于mbcnn的舰船目标细粒度分类系统及方法
Harshith et al. Copy-Move Forgery Detection Using K-Means and Hu’s Invariant Moments
Sachdeva et al. Handwritten offline Devanagari compound character recognition using CNN
Chougala et al. A REVIEW ON COPY MOVE FORGERY DETECTION IN DOCUMENT IMAGES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant