CN112101294A - 针对图像识别模型的增强训练方法及装置 - Google Patents

针对图像识别模型的增强训练方法及装置 Download PDF

Info

Publication number
CN112101294A
CN112101294A CN202011054451.5A CN202011054451A CN112101294A CN 112101294 A CN112101294 A CN 112101294A CN 202011054451 A CN202011054451 A CN 202011054451A CN 112101294 A CN112101294 A CN 112101294A
Authority
CN
China
Prior art keywords
image
disturbance
pixel
sample
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011054451.5A
Other languages
English (en)
Other versions
CN112101294B (zh
Inventor
徐文浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011054451.5A priority Critical patent/CN112101294B/zh
Publication of CN112101294A publication Critical patent/CN112101294A/zh
Priority to TW110115580A priority patent/TWI777536B/zh
Priority to US17/362,671 priority patent/US11403487B2/en
Priority to EP21182681.3A priority patent/EP3975045A1/en
Application granted granted Critical
Publication of CN112101294B publication Critical patent/CN112101294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Processing (AREA)
  • Image Input (AREA)

Abstract

本说明书实施例提供一种针对图像识别模型的增强训练方法,从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,进行扩展,得到若干扩展样本。其中扩展样本在原有图像的基础上添加扰动,而标注结果不变。样本扩展过程中,扰动值以基准像素为参考,向四周呈预定分布,从而可以很好地模拟真实扰动。由于扩展样本在添加扰动后标注结果不变,经过扩展样本训练的图像识别模型可以很好地识别本来的图像的目标识别结果,从而提高图像识别模型的鲁棒性。

Description

针对图像识别模型的增强训练方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及图像扰动处理、图像样本扩展以及利用扩展样本对图像识别模型进行增强训练的方法及装置。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。图像识别广泛应用于多种领域,例如无人驾驶、考勤、支付认证、刑侦追踪等等。其中,在一些业务场景下,除了目标检测,还需要识别相关目标是否真实目标实体,例如在人脸支付认证场景下,从用户资金安全性考虑,为了避免使用人脸照片冒充真实的人进行支付,还需要确定人脸图像是否为活体图像。
这种情况下,如果图像识别模型仅使用标准训练样本进行训练,那么在增加图像干扰的情况下,图像识别结果的准确度可能会降低,造成一定的困扰,例如人脸支付认证业务场景下的资金安全性无法保证。因此,如何提高图像识别模型的鲁棒性,至关重要。
发明内容
本说明书一个或多个实施例描述了一种图像扰动、扰动图像样本生成以及利用生成的扰动样本对图像识别模型的增强训练方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种针对图像识别模型的增强训练方法,包括:从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,其中,各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果;对各个种子样本分别获取基于扩展操作得到的若干扩展样本,其中,对于单个种子样本的扩展操作包括:对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;基于所述单个扰动图像与所述单个种子样本对应的标注结果构成单个扩展样本,所述基准像素按照预定规则确定;基于所述扩展样本对所述图像识别模型进行增强训练。
根据一个实施例,所述对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,包括:构建与所述单个种子图像像素排列一致的掩膜图像;根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值且与所述基准像素对应的基准点;在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像;基于所述第一噪声图像向所述单个种子图像的第一图像通道的融合结果,得到第一扰动图像。
根据一个实施例,所述预定分布为线性分布或正态分布。
根据一个实施例,所述第一噪声图像向所述单个种子图像的第一图像通道的叠加结果包括,根据预定权重,对所述第一噪声图像上的各个扰动值和所述第一图像通道的各个图像值,按照像素一一对应加权平均得到的结果。
根据一个实施例,所述第一扰动图像中,还包括:所述第一噪声图像向所述单个种子图像的第二图像通道的叠加结果;或者,其它噪声图像向所述单个种子图像的第二图像通道的叠加结果。
根据一个实施例,所述单个种子图像包括第一像素,所述第一像素与所述基准像素的距离为,以所在行和列为坐标,所述第一像素与所述基准像素的欧氏距离。
根据一个实施例,所述对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心按照与基准像素的距离呈预定分布的各个扰动值,得到单个扰动图像,包括:构建与所述单个种子图像像素排列一致的辅助矩阵;根据预定规则确定所述辅助矩阵中对应于预定的基准扰动值的基准元素,所述基准元素是与所述基准像素相对应的矩阵元素;在所述辅助矩阵中,以所述基准元素为中心向周围各个元素按照预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值作为相应元素值,得到第一噪声矩阵;基于所述第一噪声矩阵向所述单个种子图像的第一图像通道的叠加结果,得到第一扰动图像。
根据一个实施例,所述基于所述扩展样本对所述图像识别模型进行增强训练包括:将各个扩展样本加入所述第一样本集,利用第一样本集训练所述图像识别模型;或者,将各个扩展样本加入第二样本集,利用所述第二样本集对经过第一样本集训练后的图像识别模型进行增强训练。
根据第二方面,提供一种图像处理的方法,包括:构建与待处理图像的像素排列一致的掩膜图像;根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准像素;在所述掩膜图像上,以所述基准像素为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;基于所述噪声图像向所述待处理图像的第一图像通道的融合结果,形成针对所述待处理图像的扰动图像。
根据一个实施例,所述预定分布为线性分布或正态分布。
根据一个实施例,所述噪声图像向所述待处理图像的第一图像通道的叠加结果包括,根据预定权重,对所述噪声图像上的各个扰动值和所述第一图像通道的各个图像值,按照像素一一对应加权平均得到的结果。
根据一个实施例,所述第一扰动图像中,还包括:所述第一噪声图像向所述单个种子图像的第二图像通道的叠加结果;或者,其它噪声图像向所述单个种子图像的第二图像通道的叠加结果。
根据一个实施例,各个扰动值具有预先设定的最大值或最小值,对应与基准像素距离最大的像素。
根据第三方面,提供一种图像样本的扩展方法,包括:获取待扩展的第一样本,所述第一样本对应有第一图像,以及针对所述第一图像的第一标注结果;针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;将所述第一扰动图像与所述第一标注结果结合,得到第一扩展样本。
根据一个实施例,所述针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像包括:构建与所述第一图像的像素排列一致的掩膜图像;根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准点,所述基准点是与所述基准像素对应的像素;在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像;基于所述第一噪声图像向所述第一图像的第一图像通道的融合结果,形成针对所述第一图像的第一扰动图像。
根据一个实施例,各个扰动值具有预先设定的最大值或最小值,对应与基准像素距离最大的像素。
根据一个实施例,所述在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像还包括:在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值;对各个扰动值进行以下修正处理:针对单个像素,将相应扰动值修正为其预定邻域被各个像素分别对应的各个扰动值的中值;将对应有修正后的各个扰动值的掩膜图像作为第一噪声图像。
根据第四方面,提供一种针对图像识别模型的增强训练装置,包括:
选择单元,配置为从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,其中,各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果;
获取单元,配置为对各个种子样本分别获取基于扩展操作得到的若干扩展样本,其中,对于单个种子样本的扩展操作包括:对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;基于所述单个扰动图像与所述单个种子样本对应的标注结果构成单个扩展样本,所述基准像素按照预定规则确定;
训练单元,配置为基于所述扩展样本对所述图像识别模型进行增强训练。
根据第五方面,提供一种图像处理的装置,包括:
图像构建单元,配置为构建与待处理图像的像素排列一致的掩膜图像;
基准确定单元,配置为根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准像素;
扰动值生成单元,配置为在所述掩膜图像上,以所述基准像素为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;
图像融合单元,配置为基于所述噪声图像向所述待处理图像的第一图像通道的融合结果,形成针对所述待处理图像的扰动图像。
根据第六方面,提供一种图像样本的扩展装置,包括:
样本获取单元,配置为获取待扩展的第一样本,所述第一样本对应有第一图像,以及针对所述第一图像的第一标注结果;
图像扰动单元,配置为针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;
样本扩展单元,配置为将所述第一扰动图像与所述第一标注结果结合,得到第一扩展样本。
根据第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面、第二方面或第三方面的方法。
根据第八方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面、第二方面或第三方面的方法。
通过本说明书实施例提供的方法和装置,图像识别模型在原始样本集训练的图像识别功能基础上,还利用添加扰动的扩展样本进行训练,由于扩展样本保留了原来的样本标注结果,因此,使得训练好的图像识别模型对于添加扰动后的图像具有更好的识别功能,提高图像识别模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书技术构思下的一个具体实施架构示意图;
图2示出根据一个实施例的图像处理的方法流程图;
图3示出根据一个具体例子的图像处理原理示意图;
图4示出根据一个实施例的样本扩展的方法流程图;
图5示出根据一个实施例的图像识别模型的增强训练的方法流程图;
图6示出根据一个实施例的图像处理装置的示意性框图;
图7示出根据一个实施例的样本扩展的装置的示意性框图;
图8示出根据一个实施例的图像识别模型的增强训练的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
首先,结合图1示出的一个具体实施场景进行说明。如图1所示,是一个人脸识别的具体实施场景。在该实施场景中,首先,通过第一计算平台训练图像识别模型。第一计算平台可以利用大量人脸图像作为训练样本,训练图像识别模型。其中,人脸图像样本可以对应有人脸轮廓标注结果、是否活体标注结果等中的至少一项标注结果,用于指导图像识别模型的输出结果。图像识别模型例如可以通过卷积神经网络(CNN)等实现。图像识别模型的训练过程可以采用任何合适的常规方式(如通过梯度下降法调整模型参数等) 进行,在此不做赘述。
通过第一计算平台训练的图像识别模型可以被第二计算平台用于人脸识别应用。其中,第一计算平台和第二计算平台可以设于同一设备、设备集群,也可以设于不同的设备或设备集群。例如,第一计算平台可以设于为人脸识别服务提供支持的服务器或区别于服务器的其他设备,甚至可以是服务方委托的第三方平台等。第二计算平台可以设于为人脸识别服务提供支持的服务器,也可以设于人脸识别客户端。人脸识别服务可以附属于其他客户端,如支付客户端,此时,第二计算平台还可以为支付客户端平台。
在图像识别模型经由第一计算平台训练好后,可以部署到第二计算平台。客户端在人脸识别页面,通过采集相关图像,传递至第二计算平台,第二计算平台通过训练好的图像识别模型对相关图像进行人脸识别和活体检测,并得到检测结果。之后,第二计算平台可以将检测结果反馈至客户端。
通常,在支付认证场景下,需要人脸识别为预定人脸,且检测为活体(真实的人)的情况下,检测结果才合格。如果使用照片代替真实的人完成图像采集,那么采集的图像可能无法通过活体检测。然而,实践中,一些用户(例如非法盗取他人财物的不法分子)为了通过检测,通过对虚假图像进行干扰,影响图像识别结果的准确度,从而增加虚假图像通过验证的概率。例如通过调整光线、增加光照、改变图像通道上的通道值等方式,对他人照片进行干扰之后用于人脸图像采集。对于仅通过正常图像训练过的图像识别模型来说,这些干扰图像的识别准确度可能会降低。
为了提高图像识别模型的鲁棒性,本说明书提出一种对图像识别模型进行增强训练的技术构思。在该技术构思下,可以在现有的训练样本中添加扰动,通过对样本图像进行扩展,构成扰动图像,并利用相应样本图像的标注结果构成扩展样本,从而对图像识别模型进行增强训练,使得人脸图像中的活体图像在添加干扰情况下仍然识别为活体,非活体图像在添加干扰后仍然识别为非活体,提高图像识别模型的鲁棒性。
下面详细描述本说明书技术构思。
首先通过图2,描述对图像添加扰动的过程。图2示出了根据本说明书一个实施例的图像处理的流程示意图。该流程的执行主体可以是任意具有计算能力的计算机、设备、服务器等,例如图1示出的第一计算平台,或者第一计算平台、第二计算平台之外的其他计算平台。
如图2所示,该图像处理的流程可以包括:步骤201,构建与待处理图像像素排列一致的掩膜图像;步骤202,根据预定规则在掩膜图像上确定对应于预定的基准扰动值的基准像素;步骤203,在掩膜图像上,以基准像素为中心,向周围各个像素按照预定分布,生成由基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;步骤204,基于噪声图像向待处理图像的第一图像通道的融合结果,形成针对所述待处理图像的扰动图像。
首先,在步骤201中,构建与待处理图像像素排列一致的掩膜图像。可以理解,这里说的像素排列一致,是指与待处理图像的像素数量、行数、列数均一致,例如为960×960。其中的待处理图像可以是任意图像。
掩膜图像又称为掩膜,其可以是选定的图像、图形或物体,可以用于对待处理的图像(全部或局部)进行遮挡,来控制图像处理的区域或处理过程。这里,掩膜图像用于表示可以叠加到原始图像以产生干扰的图形。事实上,这里的掩膜图像只是一种形象的描述,其可以是一个图像,也可以是一个阵列。在掩膜图像是图像的情况下,其可以包括与待处理图像一致的像素,例如为960×960像素。在掩膜图像是阵列的情况下,其可以包括960×960个元素。初始时,掩膜图像上各个元素可以为预定值(如0)或随机值。
可以理解:一方面,掩膜图像可以是针对待处理图像生成的,也可以是针对与待处理图像像素排列一致的一类图像生成的;另一方面,针对待处理图像或者待处理图像对应的一类图像,可以生成一个掩膜图像,也可以生成多个掩膜图像。
接着,在步骤202,根据预定规则在掩膜图像上确定对应于预定的基准扰动值的基准像素。基准扰动值可以是作为扰动的参考值。例如可以是最大扰动值或最小扰动值。其中,基准扰动值可以是预先设定的固定值(如100),也可以是在合理范围内随机生成的数值。
这里的预定规则可以是确定掩膜图像上的基准点(对应基准像素)的规则。在一个实施例中,掩膜图像上的基准点可以是随机指定的像素或阵列中的元素。在另一个实施例中,针对第一图像生成的掩膜图像有多个,这多个掩膜图像的基准像素之间,具有预定排列规则,例如,依次相连、依次间隔n 个像素、由上至下排列、由左至右排列、由上至下排列且在相邻行错开一个像素,等等。此时,对于当前掩膜图像来说,预定规则就是和前一个掩膜图像之间按照预定排列规则得到的预定关系。
如此,可以在掩膜图像上确定至少一个基准点(基准像素),并将基准扰动值确定为该像素对应的扰动值。
然后,通过步骤203,在掩膜图像上,以基准像素为中心向周围各个像素按照预定分布,生成由基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像。
通俗地讲,该基准点(对应基准像素)可以看作干扰源所对应的点。干扰源例如可以是阳光入射点、电灯位置点、遮挡物等等。按照能量传播的特性,以干扰源为中心,其干扰效果通常依次减弱。也就是说,干扰效果可以以基准像素为中心向周围衰减。在干扰效果衰减过程中,图像上的一些值可能逐渐减小或逐渐增大,如经光源干扰物干扰,随着与干扰源的距离逐渐变远,亮度可以逐渐减小,而经遮挡物干扰,随着与干扰源的距离逐渐变远,亮度可以逐渐增大。于是,以基准像素为中心向周围扩展时,各个像素的各个扰动值,可以按照预定分布依次衰减或增强。
可以理解,预定分布可以用于描述扰动值在一定方向上的数值分布,例如线性分布、高斯分布等等。其中,这种分布可以是从基准点作为起始点沿一个方向的各个像素上的扰动值分布,也可以是经过基准点的一个方向上的各个像素的扰动值的整体分布(如整体线性),还可以是按照相应像素与基准点的距离形成的分布。下面以5×5的掩膜图像,第3行第2列为基准像素,以线性分布和高斯分布为例具体说明。
在一个可选的实现方式中,基准像素与周围其他像素的扰动值之间可以呈线性分布。例如,基准像素为顶点,沿某个方向的各个像素上的扰动值可以回归为线段。假设基准扰动值为20,5×5的噪声图像可以表示为以下阵列:
Figure RE-GDA0002753118470000101
该阵列中,第3行第2列的元素为20,其向左向第3行第1列上的扰动值12呈线性衰减,向右向第3行第3列、第4列、第5列上的扰动值15、10、 5呈线性衰减……
可以理解的是,该阵列仅作为按照行、列、斜线呈线性分布的示例,在其他实施例中,为了更加接近真实扰动,还可以不按照行、列等固有排列确定扰动值,而按照各个像素与基准像素的距离,相应扰动值呈线性分布。例如,假设距离基准像素的距离为r的像素对应扰动值为sr+b,其中,b为基准扰动值,如20,s为线性系数,在扰动值衰减时,s为负值,扰动值增强时, s为正值,r可以通过两个像素的行列坐标确定,例如第3行第5列像素与第 3行第2列元素的距离为:
Figure RE-GDA0002753118470000111
根据另一个实施方式,各个像素的扰动值,可以以基准像素为中心,扰动值可以按照正态分布。可以参考图3所示。其中正态分布中,可以将基准像素作为对称中心,基准扰动值看作正态分布的最值点,或均值点,各个像素与基准像素的距离作为变量,均值为0的正态分布。其表达式例如为:
Figure RE-GDA0002753118470000112
其中,x-μ为当前像素与基准像素的距离,距离的计算方法例如为欧氏距离等。可以理解,对于基准像素,x-μ为0,f(x)取值为最大扰动值,由此也可以计算得到方差σ。在可选的实现中,方差σ例如也可以为预设的数值,如1。此时,最大扰动值或均值点可以基于方差σ确定。
如图2所示的实施例中,可以认为沿单个方向,各个像素分别对应的各个扰动值呈正态分布。在其他实施例中,可以仅考虑各个像素与基准像素的距离,而不必考虑经过基准像素的各个方向的线。即掩膜图像上所有像素的扰动值整体上满足以基准像素为中心的正态分布,在此不再赘述。
值得说明的是,在以上扰动值确定过程中,可能会出现位数较多的小数,为了更符合实际取值,或节约计算量,根据一个可能的设计,还可以对扰动值进行截断处理。例如,在扰动值的合理候选值为整数的情况下,可以将小数进行以下处理:上取整、下取整、四舍五入取整等等。在图像通道上的候选值可以为小数(如0-1之间)的情况下,可以将小数在进行以下处理以保留预定位数(如小数点后2位):预定位数后一位非零时进1、预定位数后一位为零时舍去、预定位数最后一位四舍五入等等。
根据一个可能的设计,还可以限定掩膜图像中,扰动值衰减或增强的取值范围,以控制扰动范围。例如,扰动值向周围衰减的情况下,可以设定最小扰动值,使得掩膜图像上距离基准像素最远的像素对应的扰动值不小于该最小扰动值。可以理解,该最小扰动值可以是小于基准扰动值的任意合理数值,具体可以根据业务需要确定。同理,在扰动值向周围增强的情况下,可以设定最大扰动值,使得掩膜图像上距离基准像素最远的像素对应的扰动值不大于该最大扰动值。最大扰动值可以是大于基准扰动值的任意合理数值,具体可以根据业务需要确定。
如此,可以对于掩膜图像上的各个像素或阵列中的各个元素,分别确定一个扰动值,这些扰动值与第一图像上的各个像素一一对应。为了描述方便,对应有各个扰动值的掩膜图像,可以称之为噪声图像。值得说明的是,在掩膜图像表示的是一个阵列(如辅助矩阵)的情况下,该阵列的元素数与待处理图像的像素排列一致,前文描述中,掩膜图像中的像素可以相当于该阵列中相应的元素,基准点可以是对应于基准像素的阵列元素,例如称为基准元素。
进一步地,在步骤204中,基于噪声图像向待处理图像的第一图像通道的融合结果,得到第一扰动图像。其中,这里说的噪声图像与待处理图像的第一图像通道的融合,可以理解为相应元素值的融合,例如噪声图像上某个像素的扰动值与该像素在待处理图像的第一图像通道对应的图像值之间的融合。
可以理解,图像通常可以拆分为多个图像通道,并在每个图像通道上具有相应图像值。图像值可以指示出相应像素在相应图像通道上的分量,图像的显示依赖各个图像通道分量的叠加。
在一个实施例中,图像可以拆分为R、G、B图像通道,分别对应红、绿、蓝三种颜色。单个图像通道上的图像值对应相应颜色分量,通常取值分别为 0-255之间的256个整数候选值。例如某个像素R通道上的图像值为255,表示其在红色通道上的份额为255,假设该像素在G通道、B通道上的图像值均为0,则表示其在绿色和蓝色上所占份额为0,该像素经各个通道上的颜色份额融合后显示为纯红色。
在另一个实施例中,图像还可以通过HSV颜色空间的图像通道H、S、V 构成。其中,HSV(Hue,Saturation,Value)是根据颜色的直观特性创建的一种颜色空间,也称六角锥体模型(Hexcone Model)。通常,每一种颜色都是由三个图像通道:色调(Hue,也可以称为色相,简称H),饱和度(Saturation,简称 S)和色明度(Value,也称为亮度,简称V)所表示的。色调H可以表示色彩信息,即所处的光谱颜色的位置。该参数例如可以用角度量来表示,取值范围为0~360°,若从红色开始按逆时针方向计算,红色为0°,绿色为120°,蓝色为240°。它们的补色是:黄色为60°,青色为180°,紫色为300°。色调H例如还可以用0-1之间的数值表示,其中,数值0对应角度0°,数值 0.5可以对应角度180°,数值1可以对应角度360°。也就是说,在图像通道H上,各个像素的取值份额可以为0°-360°,也可以为0-1之间的数值表示。饱和度S可以表示色彩的纯度,纯度越高,表现越鲜明,纯度较低,表现则较黯淡。饱和度图像通道上的图像值的取值范围例如可以为0.0~1.0。亮度V图像通道上的图像值的取值范围通常为0.0(黑色)~1.0(白色)。
在又一个实施例中,图像还可以拆分为YCrCb编码下的Y、Cr、Cb图像通道。YCbCr通常会用于影片中的影像连续处理,或是数字摄影系统中的图像处理。图像通道Y为亮度(luma)成分、而图像通道Cb和Cr则为蓝色和红色的浓度偏移量成份。Y、Cr、Cb图像通道的图像值可RGB通道可以相互转换。根据转换方式不同,各图像通道的图像值取值范围也可以不同。例如一种转换方式下,Y图像通道的图像值取值范围为16-235,Cr、Cb图像通道的图像值取值范围为16-240。
在其他实施例中,图像的颜色通道还可以由更多可能的拆分方式,在此不再一一例举。根据以上描述可知,各个图像通道可以由不同的取值范围,相应地,对应的扰动值范围也可以不同。
其中,在图像值取值范围一致的图像通道上,可以利用包含扰动值的掩膜图像,与任一个图像通道的图像值融合。例如,R、G、B通道均可以采用包含0-255范围内的扰动值的掩膜图像进行扰动,Cr、Cb通道均可以采用包含0-1范围内的扰动值的掩膜图像进行扰动,等等。
值得说明的是,对于第一图像来说,可以在其一个图像通道上添加扰动,也可以在多个图像通道上添加扰动。通常,在RGB颜色空间,可以在R、G、 B通道的至少一个通道上添加扰动,在HSV颜色空间,可以对H、S图像通道的至少一个通道上添加扰动,在YCrCb颜色空间,可以对Cr、Cb图像通道的至少一个通道上添加扰动。对不同的图像通道添加扰动,在图像值取值范围相同时,可以采用相同的噪声图像与相应图像通道上的图像值融合,也可以采用不同的噪声图像分别与相应图像通道上的图像值融合。可以理解,对各个图像通道的扰动可以看作对图像的亮度、光线等的调整,例如对于H 图像通道的扰动可以相当于增加一个模拟光源,以及其对光线的影响。
下面描述噪声图像与单个图像通道进行融合的过程。假设待添加扰动的图像通道为第一图像通道,通常可以将噪声图像的各个像素上的扰动值,与第一图像通道的图像值一一对应融合。
在一个实施例中,可以直接将扰动值与图像值累加。例如某个像素在第一图像通道上对应的图像值为200,扰动值为20,则融合后,该像素在第一图像通道上的图像值可以为220。
然而,由于在生成扰动值过程中,存在一些预先无法完全限定的可能性,例如,某个像素对应较小的扰动值为2,假设该像素在第一图像通道上本身的图像值已经是255,那么经过叠加,该像素在第一图像通道上对应的图像值为 257,超出正常图像值范围0-255。这显然是不合理的。因此,可选地,在将掩膜图像上的扰动值与第一图像通道上的图像值叠加后,还可以确定最大值是否超过合理范围,如0-255,如果超过,则将各个像素对应的扰动后的图像值归一化处理。归一化的结果例如是,最大值归一化为255,其他像素对应的归一化结果与其扰动后的图像值正相关,与该最大值负相关,并按照最大值的归一化结果255进行归一化。例如,假设该最大值记为amax,像素n对应的扰动后的图像值记为an,则归一化结果可以为:255×an/amax
在另一个实施例中,可以将第一图像通道上各个像素的图像值,对应减去掩膜图像上相应的扰动值。此时,也可能出现减后得到超出合理取值范围的情况,例如,差值小于0。此时,可选地,可以将各个像素对应的图像值添加偏移量,以使得减去扰动值后的最小图像值为0。增加偏移量后,如果最大值超过合理取值范围的最大取值,则可以利用前文类似的归一化方式进行归一化处理。另一方面可选地,还可以将扰动后的最大图像值(如255)和最小图像值(如-20)之间的差值(如275)作为归一化因子,代替前文中的amax,对各个扰动后的图像值进行归一化处理,从而将减去扰动值后的各个图像值归一化到0-255之间。
在又一个实施例中,还可以将第一图像通道上的图像值和掩膜图像上的扰动值按照预先确定的权重进行加权平均。例如,扰动值的权重为0.4,图像值的权重为0.6。这样,一方面保证了融合后的图像值仍在合理取值范围内,另一方面,可以通过权重有效控制扰动值的所占分量,避免扰动过大导致的图像失真等问题。
在更多实施例中,图像值和扰动值还有更多的融合方式,在此不再赘述。值得说明的是,以上以扰动值为正值为例进行了描述,然而,在一些可能的设计中,根据业务需要,扰动值还可以是负值,本说明书对此不做限定。
根据一个可能的设计,在将噪声图像融合到待处理图像的第一图像通道上之前,还可以对噪声图像进行修正处理。修正处理的目的在于,通过一种非线性平滑技术,将每一像素点的扰动值设置为与由该像素某邻域窗口内的所有像素扰动值确定的数值。从而,让各个像素对应的扰动值更接近真实值,消除孤立的噪声点。修正处理的方式例如可以是取均值、中值等方式。以中值为例,可以把某个像素的扰动值用该像素一个邻域中各个扰动值的中值代替。这种方式基于排序统计理论,有效抑制噪声的非线性信号。其中,这里的邻域可以是方阵邻域、圆形邻域、十字形邻域等等,以方阵邻域为例,例如是以当前像素为中心的3×3方阵构成的邻域。邻域内各个像素的扰动值的最大值(如50)和最小值(如20)的中间值(如35)可以用于替换当前像素的扰动值。当最大值和最小值的中间值不是合理取值的情况下,例如在图像通道的取值只能为整数(如R、G、B图像通道)而中值为小数(如35.5),可以通过预先确定的方式(如下取整)将中值合理化。如此,经过修正处理后的噪声图像更接近真实场景下的光线或参数变化。
为了更明确对图像添加扰动的过程,以一个具体例子进行说明。在该具体例子中,首先,可以将多个待处理的图像按照像素分组,例如第一组均为 500×500像素,第二组均为960×960像素,第三组均为1980×1024像素,等等。然后,针对其中一组,构建同样像素大小的掩膜图像,以第一组为例,可以构建500×500像素大小的掩膜图像。然后在掩膜图像上按照预定方式确定基准像素,例如第200行第250列的像素被确定为基准像素。接着,可以对基准像素确定基准扰动值M,该基准扰动值可以随机生成。假设掩膜图像对应的是R、G、B图像通道,则M可以是预定范围的数值,如0-255、0-150 或者100-255之间的数值。接着,基于基准扰动值,以基准像素为中心,向周边像素进行扰动值衰减或增强。其中,在衰减的情况下们还可以设置有小于 M的衰减最小值m1,m1的取值范围例如是0-M、0-M/2之间等,此时,扰动值范围为m1-M。在增强的情况下还可以设置有大于M的增强最小值m2,m2的取值范围例如是M-255、2M/3-255之间等,此时,扰动值范围为M-m2。按照具体业务需求,计算各个扰动值,构成扰动图像。各个扰动值还可以按照与基准像素的距离,满足预定分布,例如线性分布、正态分布等。可以理解的是,针对第一组图像,可以生成一个或多个扰动图像。
再然后,可以将掩膜图像与第一组图像中的各个图像,分别在进行融合。如图3所示,假设融合过程为加权平均,其中相应图像通道的权重为a,且0 <a<1,如0.7,则掩膜图像对应的权重为1-a。单个像素在指定图像通道或者随机确定的图像通道上的融合结果为,a×图像值+(1-a)×扰动值=扰动图像值。被扰动图像通道按照扰动图像值指示的份额与其他各个图像通道上的图像值指示的份额融合可以展示出扰动后的图像。
其中,单个图像在扰动过程中,可以对一个图像通道进行扰动,也可以对多个图像通道进行扰动。在对多个图像通道进行扰动的过程中,可以使用同一个扰动图像进行,也可以分别使用不同的扰动图像进行,本说明书对此不做限定。
通过以上具体例子,描述一个对图像进行扰动处理的具体过程。通过对图像的扰动,相当于对用于采集图像的设备参数进行了调整,或者对光线等外在因素进行了改变。
作为以上图像处理过程的一个具体应用场景,可以是图像识别模型的样本扩展过程。值得说明的是,图像识别模型的样本扩展过程的执行主体可以是具有一定计算能力的任意设备、计算机或服务器,其可以是与图2流程的执行主体一致,也可以不一致。如图4所示,该样本扩展过程可以包括以下步骤:
步骤401,获取待扩展的第一样本,第一样本可以对应有第一图像以及针对第一图像的第一标注结果。第一样本例如是可以用于训练图像识别模型的样本。第一样本可以是从样本集中随机获取,也可以是按照指定顺序获取的。另外,第一样本可以是从样本集获取的单独样本,也可以是所有获取的样本中具有某种像素分布(如500×500)的一组图像中的任一个。
接着,在步骤402,针对第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像。其中,预定分布可以用来描述各个像素对应的扰动值和其与基准像素的距离之间的关系。例如为以与基准像素的距离为自变量的线性分布、正态分布等。
根据一个实施方式,第一扰动图像的确定方式为:
构建与第一图像的像素排列一致的掩膜图像。其中掩膜图像的数量为一个或多个。掩膜图像中像素的行数、列数均与第一图像一致;
根据预定规则在掩膜图像上确定对应于预定的基准扰动值的基准点,基准点是与基准像素对应的像素。根据业务场景不同,基准预定值可以为最大扰动值或最小扰动值。基准预定值可以预先确定,也可以在该步骤402中确定。基准点也可以理解为参考点等。其可以理解为在图像上增加的扰动光源、障碍物等等。基准点可以是掩膜图像上的像素点。预定规则是用于确定基准点的规则,例如随机确定、与洽谈掩膜图像一起按照一定确定规律确定等等;
在掩膜图像上,以基准点为中心,向周围各个像素按照预定分布,生成由基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像。生成各个扰动值的过程与步骤203描述的过程类似,在此不再赘述。第一噪声图像可以理解为给定各个像素对应的扰动值的掩膜图像。各个扰动值中,还可以设定有最大值或最小值,对应与基准像素距离最大的像素。可选地,这里说的最大值或最小值与基准扰动值是相对的,例如,基准扰动值为最大扰动值,则可以设定与基准像素距离最大的像素具有扰动值中的最小值,反之亦然。为了描述方便,将当前次确定扰动值的掩膜图像称为第一噪声图像。在一些实施例中,对于计算得到的各个扰动值,还可以进行修正处理,对应有修正后的扰动值的掩膜图像称为第一噪声图像,其中,修正处理的具体方法如前文的对扰动图像的修正处理过程,在此不再赘述;
基于第一噪声图像向第一图像的第一图像通道的融合结果,形成针对第一图像的第一扰动图像。这里,第一噪声图像向第一图像的第一图像通道的融合结果,可以理解为第一噪声图像上的各个扰动值,与第一图像通道的各个图像值,按照像素一一对应融合的结果。其中,融合方式可以为,加和、差值、加权平均等等,在此不再赘述。
根据另一个实施方式,还可以构建一个与第一图像的像素排列一致的阵列,代替以上实施方式中的掩膜图像。其中,阵列中的元素个数、行数、列数分别与第一图像中的像素数、行数、列数一致,基准像素对应基准元素,或者将基准元素和基准像素统称为基准点。其他处理过程与上述实施方式类似。
值得说明的是,对第一图像进行扰动处理得到第一扰动图像的过程可以与图2示出的流程相对应,在一些实现中,图2的相关描述可以适用于当前部分处理。
进一步地,在步骤403中,将第一扰动图像与第一标注结果结合,得到第一扩展样本。其中,可以将第一标注结果作为第一扰动图像的标注结果,构成第一扩展样本。其中,第一样本的扩展样本还可以有基于类似方法确定的多个。也就是说,扩展样本保留了原始样本的标注结果,这样,无论对原始样本增加怎样的干扰,都保证标注结果保持不变。
通常,标注结果是对图像识别模型的输出结果的指引。更进一步地,扩展样本可以用于模型增强训练过程,以增加模型的鲁棒性。图5示出了根据一个实施例对图像识别模型进行增强训练的流程。其中,该流程的执行主体可以是具有一定计算能力的任意计算机、设备或服务器。其可以与图2、图4 至少一个流程的执行主体一致,也可以不一致。
如图5所示,对图像识别模型进行增强训练的流程包括:
首先,在步骤501中,从第一样本集中随机选择预定数量或预定比例的样本作为种子样本。其中,第一样本集可以是原本的训练样本集。由于选择到的样本是作为生成扩展样本的基础,一个样本为基础可以扩展出一个或多个扩展样本,因此,在这里将其称为种子样本。
各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果。选择预定数量或预定比例的样本作为种子样本,而不是将第一样本集中的全部样本都作为种子样本,一方面可以避免过大的计算量,另一方面,可以控制扩展样本所占比例,避免扩展样本过多,对图像识别模型的性能产生不利影响。
接着,通过步骤502,对各个种子样本分别获取基于扩展操作得到的若干扩展样本。其中,对于单个种子样本的扩展操作可以包括:对于单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,预定分布与各个像素到基准像素的距离相关;基于单个扰动图像与单个种子样本对应的标注结果构成单个扩展样本,基准像素按照预定规则确定。该扩展操作可以与图4示出的流程相对应,在此不再赘述。
在一个实施例中,可以通过本步骤502,执行以上扩展操作,生成针对各个种子样本的若干扩展样本。
在另一个实施例中,还可以预先完成部分样本扩展操作,在本步骤502 中,进行另一部分操作。例如,可以预先针对第一样本集中的样本按照像素排列方式(行数、列数等)生成多个扰动图像。则在本步骤502中,对于通过步骤501选择到的种子样本,可以从多个扰动图像中挑选部分或全部扰动图像,与种子图像融合,从而得到相应的扩展图像。
在又一个实施例中,还可以预先针对第一样本集中的各个样本,都生成有相应的若干扩展样本,在本步骤502中,可以按照步骤501选择的种子样本,获取其对应的部分或全部扩展样本。
总之,对于步骤501中的单个种子样本,均可以获取基于以上扩展操作确定的若干扩展样本。
进一步地,通过步骤503,基于扩展样本对图像识别模型进行增强训练。根据一方面的实施方式,可以将各个扩展样本加入上述的第一样本集,如训练样本集,并利用第一样本集训练图像识别模型。根据另一方面的实施方式,还可以将将各个扩展样本加入第二样本集,并利用第二样本集对经过第一样本集训练后的图像识别模型进行增强训练。
值得说明的是,图5示出的流程中,用到的扩展样本可以是通过图4的流程确定的扩展样本。另一方面,在通过步骤502完成对样本的扩展操作的情况下,前文针对图4中的扩展样本流程的描述,也同样适用于步骤502中的相关部分,在此不再赘述。
可以理解,图像识别模型在原始样本集训练的图像识别功能基础上,还利用添加扰动的扩展样本进行训练,由于扩展样本保留了原来的样本标注结果,因此,使得训练好的图像识别模型对于添加扰动后的图像具有更好的识别功能,提高图像识别模型的鲁棒性。以刷脸支付认证业务场景为例,在需要目标识别和活体检测时,使用他人的人脸图像添加干扰后进行刷脸支付认证,未经过扩展样本训练的图像识别模型由于缺乏干扰样本,可能会对其通过活体检测,从而完成支付。而经过扩展样本训练的图像识别模型,由于经过扰动样本的训练,对于包含活体的图像,在添加扰动后仍然识别为活体图像,对于非活体采集图像,在添加扰动后仍然识别为非活体图像,因此,可以具有更好的识别性能。
根据另一方面的实施例,参考图6所示,还提供一种图像处理的装置600,包括:
图像构建单元61,配置为构建与待处理图像的像素排列一致的掩膜图像;
基准确定单元62,配置为根据预定规则在掩膜图像上确定对应于预定的基准扰动值的基准像素;
扰动值生成单元63,配置为在掩膜图像上,以基准像素为中心,向周围各个像素按照预定分布,生成由基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;
图像融合单元64,配置为基于噪声图像向待处理图像的第一图像通道的融合结果,形成针对待处理图像的扰动图像。
根据再一方面的实施例,参考图7所示,还提供一种图像样本的扩展装置700,包括:
样本获取单元71,配置为获取待扩展的第一样本,第一样本对应有第一图像,以及针对第一图像的第一标注结果;
图像扰动单元72,配置为针对第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像,其中,预定分布与各个像素到基准像素的距离相关;
样本扩展单元73,配置为将第一扰动图像与第一标注结果结合,得到第一扩展样本。
根据另一方面的实施例,如图8所示,还提供一种图像识别模型的增强训练装置800。装置800包括:
选择单元81,配置为从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,其中,各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果;
获取单元82,配置为对各个种子样本分别获取基于扩展操作,得到的若干扩展样本,其中,对于单个种子样本的扩展操作包括:对于单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,预定分布与各个像素到基准像素的距离相关;基于单个扰动图像与单个种子样本对应的标注结果构成单个扩展样本,基准像素按照预定规则确定;
训练单元83,配置为基于扩展样本对图像识别模型进行增强训练。
值得说明的是,图6、图7、图8所示的装置600、700、800分别是与图 2、图3、图4示出的方法实施例相对应的装置实施例,图2、图3、图4示出的方法实施例中的相应描述同样适用于装置600、700、800,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2、图4或图5所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2、图4或图5所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (22)

1.一种针对图像识别模型的增强训练方法,包括:
从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,其中,各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果;
对各个种子样本分别获取基于扩展操作得到的若干扩展样本,其中,对于单个种子样本的扩展操作包括:对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;基于所述单个扰动图像与所述单个种子样本对应的标注结果构成单个扩展样本,所述基准像素按照预定规则确定;
基于所述扩展样本对所述图像识别模型进行增强训练。
2.根据权利要求1所述的方法,其中,所述对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,包括:
构建与所述单个种子图像像素排列一致的掩膜图像;
根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值且与所述基准像素对应的基准点;
在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像;
基于所述第一噪声图像向所述单个种子图像的第一图像通道的融合结果,得到第一扰动图像。
3.根据权利要求1或2所述的方法,其中,所述预定分布为线性分布或正态分布。
4.根据权利要求2所述的方法,其中,所述第一噪声图像向所述单个种子图像的第一图像通道的叠加结果包括,根据预定权重,对所述第一噪声图像上的各个扰动值和所述第一图像通道的各个图像值,按照像素一一对应加权平均得到的结果。
5.根据权利要求2所述的方法,其中,所述第一扰动图像中,还包括:
所述第一噪声图像向所述单个种子图像的第二图像通道的叠加结果;或者,
其它噪声图像向所述单个种子图像的第二图像通道的叠加结果。
6.根据权利要求1所述的方法,其中,所述单个种子图像包括第一像素,所述第一像素与所述基准像素的距离为,以所在行和列为坐标,所述第一像素与所述基准像素的欧氏距离。
7.根据权利要求1所述的方法,其中,所述对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心按照与基准像素的距离呈预定分布的各个扰动值,得到单个扰动图像,包括:
构建与所述单个种子图像像素排列一致的辅助矩阵;
根据预定规则确定所述辅助矩阵中对应于预定的基准扰动值的基准元素,所述基准元素是与所述基准像素相对应的矩阵元素;
在所述辅助矩阵中,以所述基准元素为中心向周围各个元素按照预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值作为相应元素值,得到第一噪声矩阵;
基于所述第一噪声矩阵向所述单个种子图像的第一图像通道的叠加结果,得到第一扰动图像。
8.根据权利要求1所述的方法,其中,所述基于所述扩展样本对所述图像识别模型进行增强训练包括:
将各个扩展样本加入所述第一样本集,利用第一样本集训练所述图像识别模型;或者,
将各个扩展样本加入第二样本集,利用所述第二样本集对经过第一样本集训练后的图像识别模型进行增强训练。
9.一种图像处理的方法,包括:
构建与待处理图像的像素排列一致的掩膜图像;
根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准像素;
在所述掩膜图像上,以所述基准像素为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;
基于所述噪声图像向所述待处理图像的第一图像通道的融合结果,形成针对所述待处理图像的扰动图像。
10.根据权利要求9所述的方法,其中,所述预定分布为线性分布或正态分布。
11.根据权利要求9所述的方法,其中,所述噪声图像向所述待处理图像的第一图像通道的叠加结果包括,根据预定权重,对所述噪声图像上的各个扰动值和所述第一图像通道的各个图像值,按照像素一一对应加权平均得到的结果。
12.根据权利要求9所述的方法,其中,所述第一扰动图像中,还包括:
所述第一噪声图像向所述单个种子图像的第二图像通道的叠加结果;或者,
其它噪声图像向所述单个种子图像的第二图像通道的叠加结果。
13.根据权利要求9所述的方法,其中,各个扰动值具有预先设定的最大值或最小值,对应与基准像素距离最大的像素。
14.一种图像样本的扩展方法,包括:
获取待扩展的第一样本,所述第一样本对应有第一图像,以及针对所述第一图像的第一标注结果;
针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;
将所述第一扰动图像与所述第一标注结果结合,得到第一扩展样本。
15.根据权利要求14所述的方法,其中,所述针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像包括:
构建与所述第一图像的像素排列一致的掩膜图像;
根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准点,所述基准点是与所述基准像素对应的像素;
在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像;
基于所述第一噪声图像向所述第一图像的第一图像通道的融合结果,形成针对所述第一图像的第一扰动图像。
16.根据权利要求14所述的方法,其中,各个扰动值具有预先设定的最大值或最小值,对应与基准像素距离最大的像素。
17.根据权利要求14所述的方法,其中,所述在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到第一噪声图像还包括:
在所述掩膜图像上,以所述基准点为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值;
对各个扰动值进行以下修正处理:针对单个像素,将相应扰动值修正为其预定邻域被各个像素分别对应的各个扰动值的中值;
将对应有修正后的各个扰动值的掩膜图像作为第一噪声图像。
18.一种针对图像识别模型的增强训练装置,包括:
选择单元,配置为从第一样本集中随机选择预定数量或预定比例的样本作为种子样本,其中,各个种子样本分别对应有各个种子图像以及针对相应种子图像的标注结果;
获取单元,配置为对各个种子样本分别获取基于扩展操作得到的若干扩展样本,其中,对于单个种子样本的扩展操作包括:对于所述单个种子样本对应的单个种子图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到单个扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;基于所述单个扰动图像与所述单个种子样本对应的标注结果构成单个扩展样本,所述基准像素按照预定规则确定;
训练单元,配置为基于所述扩展样本对所述图像识别模型进行增强训练。
19.一种图像处理的装置,包括:
图像构建单元,配置为构建与待处理图像的像素排列一致的掩膜图像;
基准确定单元,配置为根据预定规则在所述掩膜图像上确定对应于预定的基准扰动值的基准像素;
扰动值生成单元,配置为在所述掩膜图像上,以所述基准像素为中心,向周围各个像素按照所述预定分布,生成由所述基准扰动值依次衰减或依次增强的各个扰动值,得到噪声图像;
图像融合单元,配置为基于所述噪声图像向所述待处理图像的第一图像通道的融合结果,形成针对所述待处理图像的扰动图像。
20.一种图像样本的扩展装置,包括:
样本获取单元,配置为获取待扩展的第一样本,所述第一样本对应有第一图像,以及针对所述第一图像的第一标注结果;
图像扰动单元,配置为针对所述第一图像,至少在一个图像通道上,对各个像素分别融合以基准像素为中心呈预定分布排列的各个扰动值,得到第一扰动图像,其中,所述预定分布与各个像素到基准像素的距离相关;
样本扩展单元,配置为将所述第一扰动图像与所述第一标注结果结合,得到第一扩展样本。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-17中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-17中任一项所述的方法。
CN202011054451.5A 2020-09-29 2020-09-29 针对图像识别模型的增强训练方法及装置 Active CN112101294B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011054451.5A CN112101294B (zh) 2020-09-29 2020-09-29 针对图像识别模型的增强训练方法及装置
TW110115580A TWI777536B (zh) 2020-09-29 2021-04-29 針對圖像識別模型的增強訓練方法及裝置
US17/362,671 US11403487B2 (en) 2020-09-29 2021-06-29 Enhanced training method and apparatus for image recognition model
EP21182681.3A EP3975045A1 (en) 2020-09-29 2021-06-30 Enhanced training method and apparatus for image recognition model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011054451.5A CN112101294B (zh) 2020-09-29 2020-09-29 针对图像识别模型的增强训练方法及装置

Publications (2)

Publication Number Publication Date
CN112101294A true CN112101294A (zh) 2020-12-18
CN112101294B CN112101294B (zh) 2022-08-09

Family

ID=73782545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011054451.5A Active CN112101294B (zh) 2020-09-29 2020-09-29 针对图像识别模型的增强训练方法及装置

Country Status (4)

Country Link
US (1) US11403487B2 (zh)
EP (1) EP3975045A1 (zh)
CN (1) CN112101294B (zh)
TW (1) TWI777536B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348126A (zh) * 2021-01-06 2021-02-09 北京沃东天骏信息技术有限公司 一种印刷物品中目标对象的识别方法和装置
CN113297624A (zh) * 2021-06-23 2021-08-24 支付宝(杭州)信息技术有限公司 图像的预处理方法及装置
CN113627475A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种对样本进行不确定性估计的方法及装置
CN116503923A (zh) * 2023-02-16 2023-07-28 深圳市博安智控科技有限公司 训练人脸识别模型的方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI827516B (zh) * 2023-06-06 2023-12-21 台達電子工業股份有限公司 影像處理裝置以及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708541A (zh) * 2012-02-22 2012-10-03 贵州大学 微扰法解图像模糊
US20150009304A1 (en) * 2012-01-17 2015-01-08 Sony Ericsson Mobile Communications Ab Portable electronic equipment and method of controlling an autostereoscopic display
US20160267695A1 (en) * 2015-03-13 2016-09-15 Trimble Navigation Limited Acceleration of exposure fusion with pixel shaders
CN106485192A (zh) * 2015-09-02 2017-03-08 富士通株式会社 用于图像识别的神经网络的训练方法和装置
CN108256473A (zh) * 2018-01-17 2018-07-06 北京绽放时代科技有限公司 用于数据扩增的方法、装置和系统、计算机可读存储介质
CN109272031A (zh) * 2018-09-05 2019-01-25 宽凳(北京)科技有限公司 一种训练样本生成方法及装置、设备、介质
CN110796206A (zh) * 2019-11-06 2020-02-14 国网山东省电力公司电力科学研究院 一种针对局部放电图谱的数据增强方法及装置
CN111402124A (zh) * 2020-03-24 2020-07-10 支付宝(杭州)信息技术有限公司 一种纹理图像和合成图像的生成方法和装置
US10719301B1 (en) * 2018-10-26 2020-07-21 Amazon Technologies, Inc. Development environment for machine learning media models

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7889242B2 (en) * 2006-10-26 2011-02-15 Hewlett-Packard Development Company, L.P. Blemish repair tool for digital photographs in a camera
JP5454075B2 (ja) * 2009-10-20 2014-03-26 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
KR102144994B1 (ko) * 2013-09-30 2020-08-14 삼성전자주식회사 영상의 노이즈를 저감하는 방법 및 이를 이용한 영상 처리 장치
US11274929B1 (en) * 2017-10-17 2022-03-15 AI Incorporated Method for constructing a map while performing work
CN108108677A (zh) * 2017-12-12 2018-06-01 重庆邮电大学 一种基于改进的cnn人脸表情识别方法
CN109903242A (zh) * 2019-02-01 2019-06-18 深兰科技(上海)有限公司 一种图像生成方法及装置
CN111260653B (zh) * 2020-04-27 2020-08-25 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150009304A1 (en) * 2012-01-17 2015-01-08 Sony Ericsson Mobile Communications Ab Portable electronic equipment and method of controlling an autostereoscopic display
CN102708541A (zh) * 2012-02-22 2012-10-03 贵州大学 微扰法解图像模糊
US20160267695A1 (en) * 2015-03-13 2016-09-15 Trimble Navigation Limited Acceleration of exposure fusion with pixel shaders
CN106485192A (zh) * 2015-09-02 2017-03-08 富士通株式会社 用于图像识别的神经网络的训练方法和装置
CN108256473A (zh) * 2018-01-17 2018-07-06 北京绽放时代科技有限公司 用于数据扩增的方法、装置和系统、计算机可读存储介质
CN109272031A (zh) * 2018-09-05 2019-01-25 宽凳(北京)科技有限公司 一种训练样本生成方法及装置、设备、介质
US10719301B1 (en) * 2018-10-26 2020-07-21 Amazon Technologies, Inc. Development environment for machine learning media models
CN110796206A (zh) * 2019-11-06 2020-02-14 国网山东省电力公司电力科学研究院 一种针对局部放电图谱的数据增强方法及装置
CN111402124A (zh) * 2020-03-24 2020-07-10 支付宝(杭州)信息技术有限公司 一种纹理图像和合成图像的生成方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NETWORKS, HAI SHU ET AL: "Adversarial Image Generation and Training for Deep Neural Networks", 《ARXIV:2006.03243V2》 *
NINA NARODYTSKA ET AL: "Simple Black-Box Adversarial Perturbations for Deep Networks", 《ARXIV:1612.06299V1》 *
PAPERNOT NICOLAS ET AL: "The Limitations of Deep Learning in Adversarial Settings", 《2016 IEEE EUROPEAN SYMPOSIUM ON SECURITY AND PRIVACY》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348126A (zh) * 2021-01-06 2021-02-09 北京沃东天骏信息技术有限公司 一种印刷物品中目标对象的识别方法和装置
CN112348126B (zh) * 2021-01-06 2021-11-02 北京沃东天骏信息技术有限公司 一种印刷物品中目标对象的识别方法和装置
CN113297624A (zh) * 2021-06-23 2021-08-24 支付宝(杭州)信息技术有限公司 图像的预处理方法及装置
CN113297624B (zh) * 2021-06-23 2023-04-18 支付宝(杭州)信息技术有限公司 图像的预处理方法及装置
CN113627475A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种对样本进行不确定性估计的方法及装置
CN116503923A (zh) * 2023-02-16 2023-07-28 深圳市博安智控科技有限公司 训练人脸识别模型的方法及装置
CN116503923B (zh) * 2023-02-16 2023-12-08 深圳市博安智控科技有限公司 训练人脸识别模型的方法及装置

Also Published As

Publication number Publication date
US20220101049A1 (en) 2022-03-31
CN112101294B (zh) 2022-08-09
TW202213268A (zh) 2022-04-01
US11403487B2 (en) 2022-08-02
EP3975045A1 (en) 2022-03-30
TWI777536B (zh) 2022-09-11

Similar Documents

Publication Publication Date Title
CN112101294B (zh) 针对图像识别模型的增强训练方法及装置
CN107451969B (zh) 图像处理方法、装置、移动终端及计算机可读存储介质
CN101375610B (zh) 生成数字彩色图像的方法
US8755640B2 (en) Image processing apparatus and image processing method, and program
CN102625043B (zh) 图像处理设备、成像设备和图像处理方法
WO2021057474A1 (zh) 主体对焦方法、装置、电子设备和存储介质
US8902328B2 (en) Method of selecting a subset from an image set for generating high dynamic range image
US8040558B2 (en) Apparatus and method for shift invariant differential (SID) image data interpolation in fully populated shift invariant matrix
CN112351195B (zh) 图像处理方法、装置和电子系统
US9392180B2 (en) Partial lens shading compensation method
US10721448B2 (en) Method and apparatus for adaptive exposure bracketing, segmentation and scene organization
Lv et al. An integrated enhancement solution for 24-hour colorful imaging
CN114866754A (zh) 自动白平衡方法、装置及计算机可读存储介质和电子设备
CN110175967B (zh) 图像去雾处理方法、系统、计算机设备和存储介质
EP3363193B1 (en) Device and method for reducing the set of exposure times for high dynamic range video imaging
CN104010134B (zh) 用于形成具有宽动态范围的系统和方法
CN112700396A (zh) 一种人脸图片光照评价方法、装置、计算设备和存储介质
CA2784817C (en) Filter setup learning for binary sensor
US8068145B1 (en) Method, systems, and computer program product for demosaicing images
TWI517098B (zh) 影像的色彩衰退補償方法
Hernández et al. Quality evaluation of chromatic interpolation algorithms for image acquisition system
CN111885281A (zh) 图像处理
CN112241935A (zh) 图像处理方法、装置及设备、存储介质
WO2011076976A1 (en) Determining color information using a binary sensor
KR20230164604A (ko) 다중 스펙트럼 rgb-nir 센서에 의해 획득된 이미지를 처리하는 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042996

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant