CN115497141A

CN115497141A - 图像数据的处理和识别、图像识别模型训练的方法及装置

Info

Publication number: CN115497141A
Application number: CN202211215209.0A
Authority: CN
Inventors: 王莹桂; 王力; 王磊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-20
Also published as: US20240119758A1

Abstract

本说明书的实施例提供图像数据的处理和识别、图像识别模型训练的方法及装置。在进行图像数据处理时，对图像数据进行基于频域变换的数据脱敏处理，以得到图像数据的脱敏图像数据，所得到的脱敏图像数据包括子图数据集合，子图数据集合中的每个子图数据对应不同频率。随后，对所得到的脱敏图像数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。可选地，对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。

Description

图像数据的处理和识别、图像识别模型训练的方法及装置

技术领域

本说明书实施例通常涉及人工智能技术领域，尤其涉及图像数据处理方法、图像识别模型的训练方法、图像识别方法及其装置。

背景技术

基于图像数据的业务处理方案已经被广泛地应用于大量应用中，例如，基于人脸识别的刷脸支付业务。在这些业务处理方案中，需要将原始图像数据作为输入提供给第三方设备来进行处理。由于第三方设备的运行环境安全的不可预见性，原始图像数据或者对原始图像数据进行特征提取后得到的特征向量数据存在被恶意盗取的可能性，从而对数据安全或业务安全(例如，安全支付等)造成了很大的威胁。为此，在将原始图像数据提供给第三方设备之前，需要利用所提供的图像脱敏处理方案对原始图像数据进行图像脱敏处理以进行数据隐私保护。

发明内容

鉴于上述，本说明书实施例提供图像数据处理方法、图像识别模型的训练方法、图像识别方法及其装置。利用该图像数据处理方法及装置，通过对图像数据进行基于频域变换的数据脱敏处理来得到所述图像数据的脱敏图像数据，并且对所得到的脱敏图像数据进行基于数据增强的图像混合处理，可以实现对原始图像数据的数据隐私保护。

根据本说明书实施例的一个方面，提供一种用于图像数据处理的方法，包括：对图像数据进行基于频域变换的数据脱敏处理，以得到所述图像数据的脱敏图像数据，所述脱敏图像数据包括子图数据集合，所述子图数据集合中的每个子图数据对应不同频率；以及对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。

可选地，在上述方面的一个示例中，所述数据增强可以包括下述数据增强中的一种：Mixup数据增强和Instahide数据增强。

可选地，在上述方面的一个示例中，所述数据增强包括Mixup数据增强，用于混合处理的图像个数为k，以及混合图像的最大权重为W_max。对所得到的脱敏图像数据进行基于数据增强的图像混合处理可以包括：对所述脱敏图像数据的子图数据集合进行k-1次打乱处理，以得到k个子图数据集合；基于所得到的k个子图数据集合，构建大小为m*k的图像超矩阵，所述图像超矩阵中的第一列对应原始子图数据集合，以及m为原始子图数据集合中的子图数据的个数；为所述图像超矩阵中的每个图像随机生成权重系数；对所述图像超矩阵中的图像的权重系数进行行归一化，使得每行图像的权重系数的和为1，并且每个图像的权重系数不大于W_max；以及对所述超矩阵的每行图像进行加权求和，得到大小为m*1的混合图像超矩阵，所述混合图像超矩阵中的图像为经过数据增强后的脱敏图像数据。

可选地，在上述方面的一个示例中，所述W_max的取值为0.55，以及所述k的取值为3。

可选地，在上述方面的一个示例中，所述方法还可以包括：对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。

可选地，在上述方面的一个示例中，对图像数据进行基于频域变换的数据脱敏处理可以包括：对所述图像数据进行局部频域变换处理，以得到至少一个特征图，每个特征图包括多个元素并且对应所述图像数据中的一个数据块，每个元素对应频域中的一个频率；分别使用所述至少一个特征图中的各个频率所对应的元素，构建各个频率所对应的频率分量通道特征图；以及从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图，以得到所述图像数据的脱敏图像数据，所筛选出的目标频率分量通道特征图是图像识别的关键通道特征。

可选地，在上述方面的一个示例中，在从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图后，所述方法还可以包括：对所述目标频率分量通道特征图进行第一次洗牌处理，以得到第一洗牌特征图；以及对所述第一洗牌特征图进行归一化处理，得到所述图像数据的脱敏图像数据。

可选地，在上述方面的一个示例中，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图可以包括：基于通道重要性或者基于预设筛选规则，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图。

可选地，在上述方面的一个示例中，在对所述第一洗牌特征图进行归一化处理后，所述方法还可以包括：对经过归一化处理后的第一洗牌特征图进行通道混合处理；对经过通道混合处理后的第一洗牌特征图进行第二次洗牌处理，以得到第二洗牌特征图；以及对所述第二洗牌特征图进行归一化处理，以得到所述图像数据的脱敏图像数据。

可选地，在上述方面的一个示例中，所述目标频率分量通道特征图的数目为所述第一特征数据的特征维度加一。对所述第一洗牌特征图进行通道混合处理可以包括：对所述第一洗牌特征图中的两个相邻频率分量通道特征图进行通道混合。

可选地，在上述方面的一个示例中，所述图像数据包括人脸图像数据。

根据本说明书的实施例的另一方面，提供一种用于图像数据处理的装置，包括：数据脱敏处理单元，对图像数据进行基于频域变换的数据脱敏处理，以得到所述图像数据的脱敏图像数据，所述脱敏图像数据包括子图数据集合，所述子图数据集合中的每个子图数据对应不同频率；以及图像混合处理单元，对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。

根据本说明书的实施例的另一方面，提供一种用于图像识别模型的训练方法，所述训练方法包括：获取充当训练样本的图像数据及其标签；使用如上所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据，所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数；使用各个脱敏图像数据的各个子图数据的权重系数，对各个脱敏图像数据的各个子图数据的对应标签进行标签混合处理；以及使用所述脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。

可选地，在上述方面的一个示例中，在参与图像混合处理的子图数据来自同一分类时，将参与图像混合处理的各个子图数据的标签保持不变，以及在参与图像混合处理的子图数据中的至少部分子图数据来自不同分类时，将各个子图数据的标签中的非零值调整为k个非零值，每个非零值对应一个子图数据的权重系数。

可选地，在上述方面的一个示例中，所述图像数据包括人脸图像数据，以及所述标签或者所述识别结果指示人脸对应的身份信息。所述图像识别模型用于基于所述图像数据的脱敏图像数据，预测所述图像数据的特征向量表征，并基于所预测的特征向量表征确定识别结果。

根据本说明书的实施例的另一方面，提供一种用于图像识别模型的训练装置，包括：训练数据获取单元，用于获取充当训练样本的图像数据及其标签；图像处理单元，用于使用如上所述的方法处理所述图像数据，获得所述人脸图像数据的经过数据增强后的脱敏图像数据，所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数，以及使用各个脱敏图像数据的各个子图数据的权重系数，对各个脱敏图像数据的各个子图数据的对应标签进行标签混合处理；以及模型训练单元，用于使用所述脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。

根据本说明书的实施例的另一方面，提供一种图像识别方法，包括：获取待识别的图像数据；使用如上所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据；将所述脱敏图像数据提供给图像识别模型来预测所述图像数据的特征向量表征；以及基于所预测的特征向量表征和目标对象的特征向量表征，确定所述待识别图像数据是否包含所述目标对象。

可选地，在上述方面的一个示例中，所述待识别的图像数据包括人脸图像数据，以及所述目标对象包括具有特定身份信息的人脸图像数据。

根据本说明书的实施例的另一方面，提供一种图像识别装置，包括：图像数据获取单元，获取待识别的图像数据；图像数据处理单元，使用如上所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据；特征向量表征预测单元，将所述脱敏图像数据提供给图像识别模型来预测定所述图像数据的特征向量表征；以及图像识别单元，基于所预测的特征向量表征和目标对象的特征向量表征，确定所述待识别图像数据是否包含所述目标对象。

根据本说明书的实施例的另一方面，提供一种图像处理装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的用于图像数据处理的方法。

根据本说明书的实施例的另一方面，提供一种用于图像识别模型的训练装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的用于图像识别模型的训练方法。

根据本说明书的实施例的另一方面，提供一种图像识别装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的图像识别方法。

根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有可执行指令，所述指令当被执行时使得处理器执行如上所述的用于图像数据处理的方法、或者执行如上所述的用于图像识别模型的训练方法、或者执行如上所述的图像识别方法。

根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于图像数据处理的方法、或者实现如上所述的用于图像识别模型的训练方法、或者实现如上所述的图像识别方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的图像数据处理系统的应用场景的示例示意图。

图2示出了根据本说明书的实施例的图像数据处理方法的示例流程图。

图3示出了根据本说明书的实施例的基于频域变换的数据脱敏处理过程的示例流程图。

图4示出了根据本说明书的实施例的将图像特征数据从空间域转换到频域的示例示意图。

图5示出了根据本说明书的实施例的局部频域变换过程的示例示意图。

图6示出了根据本说明书的实施例的频率分量通道特征图的示例示意图。

图7示出了根据本说明书的实施例的基于频域变换的数据脱敏处理过程的另一示例流程图。

图8示出了根据本说明书的实施例的基于Mixup数据增强的图像混合处理过程的示例流程图。

图9示出了根据本说明书的实施例的图像识别模型的示例结构图。

图10示出了根据本说明书的实施例的图像识别模型训练方法的示例流程图。

图11示出了根据本说明书的实施例的图像识别方法的示例流程图。

图12示出了根据本说明书的实施例的图像数据处理装置的示例方框图。

图13示出了根据本说明书的实施例的数据脱敏处理单元的示例方框图。

图14示出了根据本说明书的另一实施例的数据脱敏处理单元的示例方框图。

图15示出了根据本说明书的实施例的图像混合处理单元的示例方框图。

图16示出了根据本说明书的实施例的图像识别模型训练装置的示例方框图。

图17示出了根据本说明书的实施例的图像识别装置的示例方框图。

图18示出了根据本说明书的实施例的基于计算机系统实现的图像数据处理装置的示例示意图。

图19示出了根据本说明书的实施例的基于计算机系统实现的图像识别模型训练装置的示例示意图。

图20示出了根据本说明书的实施例的基于计算机系统实现的图像识别装置的示例示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

随着计算机技术的发展，图像识别越来越深入人们生活的各个领域。例如，人脸识别技术已经被广泛地应用于各种场景，比如，基于人脸识别的智能开锁、基于人脸识别的终端应用登录、刷脸支付等。但是，人脸图像中可能包含一些敏感信息或个人隐私信息，为避免这些信息泄漏造成不必要的损失，有必要对人脸图像进行脱敏处理。

考虑到人脸图像是身份识别的重要依据，人脸识别技术的一种实现方式是将人脸图像输入人脸识别模型进行处理，基于人脸识别模型的处理结果(例如，人脸特征数据)来进行身份验证。但是，由于第三方设备(或其运行环境)安全的不可控，原始人脸图像数据或者利用人脸识别模型对原始人脸图像数据进行处理后得到的人脸特征数据存在被恶意盗取的可能性。不法分子可能会基于被盗取的人脸特征数据，通过反推等方式还原出原始人脸图像数据，进而基于原始人脸图像数据非法获取人脸数据对应的人操作权限，比如，开锁、盗刷等。这对安全支付、开锁等造成了很大的威胁，随着对个人隐私保护的日益重视，如何对用于人脸识别的人脸图像进行隐私保护亟待解决的问题。

因此，本说明书的实施例提出一种图像处理方法、图像识别模型的训练方法、图像识别方法及装置，通过对图像数据进行脱敏处理，以更加安全有效地保护图像数据的数据隐私。

上述中的例子仅作为示例，不应理解为对本方案限制。虽然在本说明书中主要以人脸图像为例进行说明，但应当理解，本说明书所披露的技术方案可以应用于任何类型的需要隐私保护的图像数据，例如，指纹图像数据等。以下通过对附图的描述阐述本说明书披露的技术方案。

下面参照附图描述根据本说明书的实施例的图像处理方法、图像识别模型训练方法和图像识别方法及其装置。

图1示出了根据本说明书的实施例的图像数据处理系统100的应用场景的示例示意图。

如图1所示，在应用场景中，图像数据处理系统100可以包括服务器110、网络120、终端设备130以及存储设备140。

图像数据处理系统100可以广泛应用于各种图像识别场景，例如，人脸开锁、人脸支付、人脸终端应用登录等。在一些实施例中，也可以应用于其他任何需要进行图像隐私保护的场景，比如，敏感图像数据的传输、存储等。通过实施本说明书所披露的方法对图像数据进行处理后，可以基于处理后的图像数据正常完成后续的图像数据处理工作(例如，图像识别工作)，且基于处理后的图像数据难以反推出原始图像数据，从而有效地保护图像中的隐私信息不被泄漏。

在一个典型的应用场景中，终端设备130可以通过图像采集设备(如摄像头)采集待识别的人脸图像，终端设备130可以通过实施本说明书提出的图像处理方法对所采集的人脸图像进行脱敏处理，得到脱敏图像数据，然后将脱敏图像数据通过网络120发送至服务器110。服务器110可以用于处理与数据服务请求和/或图像处理、图像识别有关的信息和/或数据。例如，服务器110可以响应于来自终端设备130的数据服务请求，接收终端设备130发送的脱敏图像数据，完成脱敏图像数据识别后(如确定脱敏图像数据来自合法人脸图像时)，向终端设备130反馈识别结果或者向终端设备130提供相应的数据服务。在一些实施例中，服务器110可以通过预先训练的图像识别模型对其进行处理，并得到人脸图像的预测特征向量表征。服务器110可以在得到人脸图像的预测特征向量表征之后，进一步执行后续操作，例如与已在系统成功注册并存储的人脸图像的特征向量表征进行对比并将对比结果(例如，身份识别结果)反馈给终端设备130，进而完成人脸支付、人脸开锁等。

在一些实施例中，服务器110可以是本地服务器或远程服务器。例如，服务器110可以在终端设备130本地连接终端设备130以获取其发送的信息和/或数据。又例如，服务器110可以经由网络120远程接收终端设备130发送的信息和/数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

网络120可以促进信息和/或数据的交换。在一些实施例中，图像数据处理系统100的一个或者多个组件(例如服务器110、终端设备130、存储设备140)可以通过网络120传送信息至图像数据处理系统100的其他组件。例如，终端设备130可以通过网络120向服务器120发送待识别图像的图像脱敏数据。又例如，服务器110可以将对识别图像的图像脱敏数据进行处理得到的预测特征向量表征发送至存储设备140进行存储，以及将预测特征向量表征与目标对象的特征向量表征的比较结果返回给终端设备130等。在一些实施例中，网络120可以是任意形式的有线或者无线网络，或其任意组合。仅作为范例，网络120可以是有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络等中的一种或多种组合。

终端设备130可用于处理与图像处理、图像识别相关联的信息和/或数据来执行在本说明书中揭示的一个或者多个功能。在一些实施例中，终端设备130可以是向公众提供图像采集和/或数据处理服务的公共设备，如物联网设备(IoT设备)130-1。示例性的IoT设备130-1可以包括但不限于人脸售货机、人脸支付设备、银行个人业务设备等或其任意组合。用户在终端设备130上完成人脸识别后，便可使用该设备提供的数据服务。在一些实施例中，终端设备130可以用于获取由于设备图像采集装置被触发而采集的待处理图像数据。在一些实施例中，终端设备130可以对待处理图像数据进行图像数据处理，以获得所述待处理图像数据的脱敏图像数据。在一些实施例中，终端设备130上可以部署有可信执行环境，并在可信执行环境中进行图像采集以及图像处理。在一些实施例中，终端设备130可以包括一个或多个处理引擎(例如，单核心处理引擎或多核心处理器)。仅作为示例，处理引擎可以包括中央处理器(中央处理器)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。

在一些实施例中，终端设备130还可以是带有数据获取、存储和/或发送功能的便携式设备，例如，平板电脑、笔记本电脑、智能手机、摄像头等或其任意组合。在一些实施例中，终端设备130可以通过网络与服务器110进行数据交互，例如，终端设备130可以将对待处理图像数据的进行处理后的脱敏图像数据传输至服务器110。在一些实施例中，终端设备130获取到的数据可以是设备的摄像头采集到的人脸图像数据。服务器110可以接收来自终端设备130的人脸图像数据，对其进行脱敏处理以及后续的识别。此时，服务器110可以与终端设备130集成在一起。

存储设备140可以存储与图像处理相关的数据和/或指令，例如，存储已在系统成功注册的用户的图像的特征矢量、图像数据、身份信息等。在一些实施例中，存储设备140可以存储终端设备130和/或服务器110获得/获取的数据。在一些实施例中，存储设备140可以存储服务器110用于执行或使用来完成本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDRSDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中，所述存储设备140可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备140可以连接到网络120以与图像数据处理系统100中的一个或以上组件(例如，服务器110、用户终端130)通信。图像数据处理系统100中的一个或以上组件可以通过网络120访问存储设备140中存储的数据或指令。在一些实施例中，存储设备140可以与图像数据处理系统100中的一个或以上组件(例如，服务器110、用户终端130等)直接连接或通信。在一些实施例中，存储设备140可以是服务器110的一部分。

图2示出了根据本说明书的实施例的图像数据处理方法200的示例流程图。在一些实施例中，图像数据处理方法200可以由处理设备，例如，由终端设备130或服务器110执行。例如，图像数据处理方法200可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中，所述程序或指令在被执行时，可以实现图像数据处理方法200。

如图2所示，在210，对待处理图像数据进行基于频域变换的数据脱敏处理，以得到图像数据的脱敏图像数据。所得到的脱敏图像数据包括子图数据集合，所述子图数据集合中的每个子图数据对应不同频率。

在本说明书中，术语“子图数据”可以指采用一定的图像处理手段来从待处理图像数据中提取的多个子图，每个子图携带有待处理图像数据的部分特征。在一些情况下，术语“子图数据”可以与术语“特征图”互换使用。

图3示出了根据本说明书的实施例的基于频域变换的数据脱敏处理过程300的示例流程图。

如图3所示，在310，对待处理图像数据进行局部频域变换处理，以得到至少一个特征图，每个特征图包括多个元素并且对应图像数据中的一个数据块，每个元素对应频域中的一个频率。

待处理图像数据是指未进行脱敏处理的图像数据。待处理图像数据可以是原始人脸图像数据，也可以是对原始人脸图像数据进行人脸检测或人脸对齐后的图像数据。原始人脸图像数据可以是指直接由图像采集设备(例如，摄像头等)采集到的未进行任何处理的图像数据。人脸检测是指对人脸在图像中的位置进行检测，待处理图像数据可以是基于人脸在图像中的位置进行裁剪后的图像，例如，减去图像中除人脸以外的多余部分。人脸对齐是指对人脸在图像中的角度进行校正，原始人脸图像中的人脸可能会以一定角度倾斜，通过人脸对齐，可以使人脸在图像上摆正，以便于后续对于图像的识别处理等。

在一些实施例中，处理设备可以通过终端设备的摄像头获取待处理图像数据，也可以从数据库、存储设备读取，或调用数据接口等方式获取待处理图像数据。

需要说明的是，获取待处理图像数据的程序/代码可以运行在处理设备中部署的可信执行环境中，利用可行执行环境的安全特征可以保证处理设备获取的图像数据不会被盗取。同时，本说明实施例所披露的方法和/或过程，也可以在可信执行环境中执行，以确保从图像数据获取的源头到图像数据处理的整个过程都是安全可信的，提高对待处理图像数据的隐私保护的安全性。

在如上获取待处理图像数据后，可以将所获取的待处理图像数据进行局部频域变换，以得到至少一个特征图。特征图是指采用一定的图像处理手段来从待处理图像数据中提取的多个子图，每个子图携带有待处理图像数据的部分特征。所得到的特征图可以与待处理图像数据大小相同，比如，像素点一一对应，也可以与待处理图像数据大小不同。

在一些实施例中，局部频域变换处理的示例例如可以包括但不限于：局部离散余弦变换、局部小波变换或者局部离散傅里叶变换。

图4示出了根据本说明书的实施例的将语音特征数据从空间域转换到频域的示例示意图。在图4中，空间域以坐标系(x，y)表示，频域以坐标系(c，v)表示，N*M表示图像的大小，例如，图4中为2*2。空间域和频域转换后的特征点的数量可以一致，空间域中一个方块代表一个像素位置，频域中一个方块代表一个频率位置。

在一些实施例中，可以使用以下所示的离散余弦变换公式(1)对待变换的灰度图像数据进行离散余弦变换。

其中，F(u,v)为转换后的频域中的特征点(也就是各个频率位置)的值，f(x,y)为待变换的图像数据(灰度图像数据)中的像素值，(u,v)为转换后的频域中的特征点的坐标，(x,y)为待变换的图像数据在空间域中的坐标，N为待变换的图像数据的像素点或特征点的行数，M为待变换的图像数据的像素点或特征点的列数，例如，在待处理图像数据的大小为8*8时，N＝M＝8。

c(u)可以用以下公式(2)表示。

其中，c(u)＝c(v)。

对图像数据进行局部频域变换处理，可以得到多个变换结果，即，多个特征图。在进行局部频域变换处理时，可以选取其大小比待变换的图像数据小的图像块(局部图像块)，比如，待变换的图像数据大小为256×256，所选取的图像块大小为8×8，然后利用所选取的图像块大小在待变换的图像数据上以一定步长(例如，8)移动采样，并对每次采样得到的待变换的图像数据的局部数据(即，8×8大小的数据块)基于公式(1)和(2)进行离散余弦变换，由此得到多个变换结果，每个变换结果可以是8×8大小。离散余弦变换时图像块的移动步长越小，所得到的变换结果所包含的特征越多，可以有利于提高后续图像数据处理的准确率。

图5示出了根据本说明书的实施例的局部频域变换过程的示例示意图。在图5的示例中，待变换的图像数据的大小为6×6，所选择的局部图像块的大小为2×2，并且以步长2来在待变换的图像数据上进行移动采样，并对采样后的局部图像块进行频域变换，例如，离散余弦变换，由此得到9个变换结果，即，9个特征图，分别为51，52，53，54，55，56，57，58和59。每个变换结果中的各个频率位置的值分别用fi1、fi2、fi3、fi4表示，其中i表示第i个变换结果，fij表示第i个变换结果中的第j频率位置的值。从图中可以看出，每个变换结果都拥有4个对应的频率位置。

在320，分别使用至少一个特征图中的各个频率所对应的元素，构建各个频率所对应的频率分量通道特征图。具体地，将各个变换结果中相同频率位置的元素(值)组合得到一个频率分量通道特征图，进而得到对应变换结果中不同频率位置的多个频率分量通道特征图。不难理解，频率分量通道特征图的个数与变换过程中用于采样的图像块的像素点数量一致。

图6示出了根据本说明书的实施例的频率分量通道特征图的示例示意图。图6中示出的频率分量通道特征图是与图5中的变换结果对应的频率分量通道特征图。

如图6所示，基于图5中的变换结果，可以得到4个频率分量通道特征图(用于采样的图像块的像素点个数为4)，每个频率分量通道特征图包括9个元素。频率分量通道特征图61对应第一频率位置fi1，频率分量通道特征图62对应第二频率位置fi2，频率分量通道特征图63对应第三频率位置fi3以及频率分量通道特征图64对应第四频率位置fi4。

在如上构建出频率分量通道特征图后，在330，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图，所筛选出的目标频率分量通道特征图是图像识别的关键通道特征。

在一些实施例中，可以基于通道重要性或者基于预设筛选规则，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图。

在一些实施例中，处理设备可以将多个变换结果输入经过训练的SEnet网络，由SEnet网络给出各个特征图的通道重要性(如与重要性正相关的分值)。这里，通道重要性是指相对于图像识别的通道重要性。SEnet网络可以随着图像识别模型一起(即，作为整体)训练得到，例如，在图像识别模型中添加SEnet网络，在针对图像识别模型的训练过程中对SEnet网络的参数进行调整，从而得到用于确定特征图的通道重要性的SEnet网络。

在一些实施例中，在一些实施例中，预设选择规则可以是选择保留预设比例的包含特征信息较多的部分特征图。例如，在通过离散余弦变换并重组后得到的多个特征图中，可以选择保留预设比例的低频部分特征图，舍弃部分高频特征图。例如，可以保留50％、60％、70％比例的低频特征图，舍弃掉其余部分的高频特征图。比如，保留图6中所示的低频特征图61、62和63，舍弃高频特征图64。其中，在离散余弦变换后的变换结果中，左上方的频率位置的数值对应低频成分，右下方的频率位置的数值对应高频，例如，图5中的变换结果51中f11对应低频数据，f14对应高频数据。参见上述公式(1)，(u，v)为(0,0)时

F(0,0)中是不含交流分量的，可以看成直流，因此变换结果左上角数值对应的频率最低，随着坐标位置移向右下角，F(u,v)含有交流分量，且频率增加，因此变换结果中右下角数值对应的频率最高。

在图3的示例中，将所筛选出的至少一个目标频率分量通道特征图作为待处理图像数据的脱敏图像数据。在这种方式下，脱敏图像数据是对多个特征图进行脱敏处理后的图像数据，可以包括脱敏处理后的一个或多个频率分量通道特征图。脱敏图像数据区别于待处理图像数据，由于脱敏图像数据为特征图，从而不能直接从脱敏图像数据中得到图像数据的原始人脸信息。

在图3的示例中，脱敏处理方法包括对特征图进行频率分量通道特征图重构以及针对频率分量通道特征图的特征图筛选。在其它实施例中，除了上述操作之外，脱敏处理方法还可以包括洗牌处理、归一化处理、通道混合处理等，或其任意组合。

图7示出了根据本说明书的实施例的基于频域变换的数据脱敏处理过程700的另一示例流程图。图7示出的实施例是针对图3示出的实施例的修改例。图7中的步骤710到730与图2中的210到230完全相同。为了描述简单，在下面不再赘述相同的部分内容，而仅仅描述不同之处。

如图7所示，当在730中筛选出目标频率分量通道特征图后，并不将所筛选出的目标频率分量通道特征图作为脱敏图像数据，而是继续执行740到760的操作，由此得到更为安全的脱敏图像数据。

具体地，在从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图后，在740，对所筛选出的目标频率分量通道特征图进行第一次洗牌(shuffle)处理，以得到第一洗牌特征图；并且对第一洗牌特征图进行归一化处理。在一些实施例中，可以直接将对第一洗牌特征图进行归一化处理后的数据作为脱敏图像数据。在一些实施例中，需要对第一洗牌特征图进行归一化处理后的数据执行后续处理，以得到脱敏图像数据。

在一些实施例中，第一次洗牌处理可以是对所筛选出的目标频率分量通道特征图进行顺序随机化。顺序随机化是指对多个特征图的排列顺序进行打乱。例如，筛选后的多个目标频率分量通道特征图为图6中的61、62和63，顺序随机化后的排列顺序可能为63、61、62。

在一些实施例中，归一化参数是指对多个目标频率分量通道特征图进行归一化处理时的参数。在进行归一化处理时，可以基于各个频率分量通道特征图确定其归一化系数，从而使得针对各个频率分量通道特征图进行归一化处理时所使用的归一化参数只与该频率分量通道特征图本身有关，而与其他频率分量特征图无关，这样可以增加对语音数据的反推难度。比如，假设反推出了一个频率分量通道特征图，但是由于每个频率分量通道特征图进行归一化时的参数不一样，也无法利用反推出的频率分量通道图的归一化参数来反推出其他频率分量通道特征图。上述归一化处理也可以称为自我归一化处理。

在一些实施例中，归一化参数可以是频率分量通道特征图的所有值的均值或方差的方式，也可以是频率分量通道特征图的所有值中的最大值或最小值。归一化处理是可以用归一化参数去除频率分量通道特征图中的各个元素的数值，用除得的商替换原始数值，从而得到归一化处理后的频率分量通道特征图。

利用上述第一次洗牌处理及相应归一化处理，可以使得无法得到所筛选出的目标频率分量通道特征图的原始数据，从而可以保护所筛选出的目标频率分量通道特征图的数据隐私安全。

在750，对归一化后的第一洗牌特征图进行通道混合处理。

混合处理可以是指对多个频率分量通道特征图中的两个或以上特征图按照预设计算方式进行运算。例如，可以对两个或两个以上频率分量通道特征图中的对应元素的值进行计算，将计算后的值作为混合后的频率分量通道特征图中对应元素的值，这样就可以将两个或以上频率分量通道特征图混合成为一个频率分量通道特征图。预设计算方式可以是求均值、和值、差值等。

在一些实施例中，通道混合可以是将相邻的两个频率分量通道特征图进行混合。需要说明的是，在进行特征图组合时，对于不同频率分量通道特征图，其组合规律应当相同，例如，从第一张频率分量通道特征图开始，将当前频率分量通道特征图与其相邻的下一张频率分量通道特征图进行组合，即第一张频率分量通道特征图与第二张频率分量通道特征图组合，第二张频率分量通道特征图与第三张频率分量通道特征图组合。按照这种方式，针对M个频率分量通道特征图，可以得到M-1个频率分量通道特征图，由此可以起到降维作用。

在一些实施例中，在将相邻的两个频率分量通道特征图进行混合的情况下，可以将所筛选出的目标频率分量通道特征图的数目设置为第一特征数据的特征维度加一。按照这种处理方式，可以使得所得到的脱敏图像数据的特征维度与第一特征数据的特征维度相同，从而无需修改语音意图理解模型的模型架构。

经过通道混合后，通道混合后的频率分量通道特征图中的各个元素的值相较于通道混合前的频率分量通道特征图的值会发生变化，从而可以破坏原始频率分量通道特征图之间各个元素的值的大小相对关系，由此可以进一步地增加根据频率分量通道特征图反推出原始语音数据或其声纹信息的难度。

在经过上述通道混合后，在760，对经过通道混合处理后的第一洗牌特征图进行第二次洗牌处理，以得到第二洗牌特征图；并且对第二洗牌特征图进行归一化处理。第二洗牌处理及其归一化处理可以参见750的描述，此处不再赘述。在一些实施例中，可以直接将对第二洗牌特征图进行归一化处理后的数据作为脱敏图像数据。在一些实施例中，需要对第二洗牌特征图进行归一化处理后的数据执行后续处理，以得到脱敏图像数据。

要说明的是，在图3和图7的示例中，“子图数据”为频率分量通道特征图。

利用上述第二次洗牌处理及相应归一化处理，可以使得无法得到通道混合后的频率分量通道特征图的原始数据，从而可以保护通道混合后的频率分量通道特征图的数据隐私安全。要说明的是，在一些实施例中，第一次洗牌处理可以采用伪随机洗牌处理，以及第二次洗牌处理可以采用完全随机洗牌处理。

在图7示出的数据脱敏处理过程中，由于涉及两次洗牌和归一化处理，可以大大增加暴力破解的难度。例如，将第一特征数据按照8*8的局部图像块进行局部余弦变换，可以构造出64个频率分量通道特征图，并且对频率分量通道特征图洗牌处理后，使得变换结果中的每个小块频率分量(一个频率分量通道特征图对应一个频率分量)的放置是随机的，随机化暴力破解空间大小则为64！，其中“！”表示阶乘运算，即使通过通道重要性对频率分量通道特征图进行通道筛选而确定例如36个主要特征图，暴力破解空间也为36！，而脱敏过程中采用两次随机化过程，从而使得暴力破解空间大小为36！*36！，其值将大于256位AES加密算法的密钥破解空间，这也就使得难以通过暴力破解的方式反推出原始语音数据。同时，归一化参数仅仅取决于对应的频率分量通道特征图，而不同频率分量通道特征图的归一化参数不同，这就更加难以推断出每张频率分量通道特征图的归一化参数。同时还对频率分量通道特征图进行了通道混合处理，只保留通道混合后的结果，这就导致破坏了频率分量通道特征图之间的值的相对关系，从而进一步提升了数据破解难度，由此增强了语音数据的隐私安全保护。

回到图2，在如上得到待处理图像数据的脱敏图像数据后，在220，对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。在一些实施例中，数据增强的示例例如可以包括但不限于Mixup数据增强、Instahide数据增强等

Mixup数据增强通常具有两个超参数。一个超参数是混合图像的最大权重系数W_max(混合图像的所有权重系数的总和需要为1)。通常，最大权重系数W_max默认为0.65。优选地，最大权重系数W_max可以设置为0.55，以便不同的图像可以对混合贡献更多数据，从而带来更高的隐私保护能力。另一个超参数是参与混合操作的图像个数k。k的值越大，混合的信息更多，隐私保护能力越强，而识别率越低。可选地，k的值优选为3。

图8示出了根据本说明书的实施例的基于Mixup数据增强的图像混合处理过程800的示例流程图。

如图8所示，在810，对所得到的脱敏图像数据中的子图数据集合进行k-1次打乱处理，以得到k个子图数据集合。

在820，基于所得到的k个子图数据集合，构建大小为m*k的图像超矩阵。所构建的图像超矩阵中的第一列对应原始子图数据集合，其余各列分别对应各次打乱处理后得到的子图数据集合。m为原始子图数据集合中的子图数据的个数。

在830，为图像超矩阵中的每个图像随机生成权重系数。

在840，对图像超矩阵中的图像的权重系数进行行归一化，使得每行图像的权重系数的和为1，并且每个图像的权重系数不大于W_max。即，进行归一化后，每行图像的最大权重系数不能超过W_max，例如，不能超过0.55。

在850，对图像超矩阵的每行图像进行加权求和，得到大小为m*1的混合图像超矩阵，所得到的混合图像超矩阵中的图像为经过数据增强后的脱敏图像数据。

可选地，在如上得到经过数据增强后的脱敏图像数据后，在230，对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。

经过数据脱敏处理和数据增强处理后得到多个子图数据(例如，频率分量通道特征图)，所得到的子图数据的大小通常与原有图像识别网络(图像识别模型)的输入图像数据的大小不相同。为了适应原有图像识别网络的图像数据输入大小，需要对经过数据增强后的脱敏图像数据进行图大小对齐。图大小对齐处理是指将每个子图数据的大小上采样或者下采样到与原有图像识别网络的输入大小相同。经过图大小对齐处理，可以使得针对现有图像识别网络的改变仅仅是将原有输入通道数改为脱敏图像数据所对应的通道数，然后按照正常的图像识别网络来进行后续处理，例如，执行后续图像识别模型训练过程和图像识别过程。

如上参照图1到图8描述了根据本说明书的实施例的图像数据处理方法。利用上述方法得到的图像数据的脱敏图像数据可以提供给图像识别模型来预测图像数据的特征向量表征，或者提供给图像识别模型来进行模型训练。图像识别模型可以是任何合适的机器学习模型。

图9示出了根据本说明书的实施例的图像识别模型900的示例结构图。如图9所示，图像识别模型900可以包括输入层910、特征提取层920和输出层930。

输入层910可以用于接收经过上面参照图2描述的图像数据处理后得到的经过数据增强后的脱敏图像数据。

在一些实施例中，输入层910可以具有多个输入通道，多个输入通道的数量可以与脱敏图像数据中的子图数据(例如，频率分量通道特征图)的数量相同，每个通道对应一个子图数据。

在一些实施例中，可以对初始创建的图像识别模型的输入通道的数量进行调整，将输入通道的数量与通过上述图像处理方法处理得到的子图数据的数量一致。

在一些实施例中，可以通过设置筛选后的目标子图数据的个数来使得所得到的脱敏图像数据中的子图数据的个数与原始图像识别模型的通道数一致，从而可以沿用原始图像识别模型的模型架构，而不进行任何调整。

特征提取层920可以用于对输入的脱敏图像数据进行处理，以获取脱敏图像数据的特征向量表征(或称为预测向量)。

在一些实施例中，特征提取层可以是深度神经网络，如CNN网络、RNN网络等。特征提取层可以对各个特征图进行处理(如卷积、池化等)，获得更加抽象的特征向量表示。

输出层930可以将特征向量表征转换为对脱敏图像数据对应的目标对象的身份识别结果。

目标对象可以是指图像中的生物体、物体或其一部分。例如，人物、人脸、动物或某个建筑等。

身份识别结果可以是指该图像中的目标对象的对应身份，例如，人物的身份标识、动物的类别、建筑的名称等。

输出层可以对脱敏图像数据的特征向量表征进行变换得到一个预测值，该预测值可以指示图像中的任务的身份信息，即目标对象的身份识别结果。

在一些实施例中，输出层可以是多层感知器、全连接层等，本实施例对此不作限定。

图10示出了根据本说明书的实施例的图像识别模型训练方法1000的示例流程图。

如图10所示，在1010，获取充当训练样本的图像数据(下文中称为训练样本图像数据)及其标签。训练样本图像数据可以包括人脸图像数据，其标签可以是与图像中的人脸对应的身份信息，例如，人物姓名等。训练样本图像数据的标签可以由人工添加，或其他方式添加，本实施例对此不作限定。在一些实施例中，可以以从数据库读取或调用数据接口的方式获取训练样本图像数据及其标签。

在1020，使用如上参照图1到图8所述的图像处理方法处理图像数据，以得到经过数据增强后的脱敏图像数据。所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数。

在1030，使用各个脱敏图像数据的各个子图数据的权重系数，对各个脱敏图像数据的各个子图数据的对应标签进行标签混合处理。

在一些实施例中，在进行标签混合处理时，如果参与图像混合处理的子图数据来自同一分类，则将参与图像混合处理的各个子图数据的标签保持不变。如果参与图像混合处理的子图数据中的至少部分子图数据来自不同分类，则将各个子图数据的标签中的一个非零值调整为k个非零值，每个非零值对应一个子图数据的权重系数。

在1040，使用脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。

图像识别模型的训练过程是循环处理过程。在每轮训练过程中，从训练样本图像数据中选择批大小为batch的批量训练样本图像数据。在上述图像混合处理中，所使用的混合图像来自该同一batch的训练样本图像数据。当参与每次混合的图像数量设置为k时，对原始batch中的训练样本图像数据进行k-1随机打乱顺序，得到k个batch的图像数据。基于该k个batch的图像数据，构建大小为batch*k的图像超矩阵，图像超矩阵中的每个项对应一张图像，第一列对应原始batch的图像数据。接着，为图像超矩阵随机生成batch*k大小的权重系数，每个权重系数赋予一个项，随后进行行归一化，使得每行系数的和为1，并且该行图像的最大权重系数不能超过规定值W_max。然后，使用每行权重系数对图像超矩阵的每行进行加权求和，最后得到batch*1大小的混合图像超矩阵，由此完成图片混合处理。

在每轮训练过程中，图像识别模型基于训练样本图像的脱敏图像数据来预测出训练样本图像的特征向量表征，并基于所预测的特征向量表征确定识别结果。例如，在图像数据是人脸图像数据时，可以确定预测的特征向量表征与各个参考特征向量表征之间的特征相似度，并基于所确定的特征相似度来确定识别结果，即，人脸所对应的身份信息。这里，每个参考特征向量表征对应一个特定身份信息。在预测的特征向量表征与一个参考特征向量表征之间的特征相似度大于预定阈值时，则将该人脸图像确定为具有该参考特征向量表征所对应的身份信息。

此外，在每轮训练过程中，可以基于图像识别模型输出的识别结果与对应的标签来构建对应的损失函数，并根据损失函数的值来调整图像识别模型的模型参数，以减少识别结果与标签之间的差异。如此循环训练，直到达到模型训练结束条件，例如，达到训练轮数或者识别结果与标签之间的差值满足预定要求。

可选地，在一些实施例中，在使用脱敏图像数据及其经过标签混合处理后的标签来训练图像识别模型之前，还可以对脱敏图像数据中的子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。

图11示出了根据本说明书的实施例的图像识别方法1100的示例流程图。

如图11所示，在1110，获取待识别的图像数据。待识别的图像数据是指需要对图像中的目标对象进行识别的图像。例如，人脸图像、指纹图像等。

在一些实施例中，目标对象例如可以包括与特定身份信息对应的人脸。例如，刷脸支付时支付账号的身份信息对应的人脸、人脸解锁时具有开锁权限的身份信息对应的人脸，以及登录终端账号时，具有登录权限的身份信息对应的人脸等。

在一些实施例中，处理设备可以通过终端设备的摄像头获取待识别图像，也可以从存储设备、数据库读取，或调用数据接口等方式获取待识别图像。

在1120，使用如上所述的图像处理方法处理待识别的图像数据，以获得待识别的图像数据的经过数据增强后的脱敏图像数据。

在1130，将所,得到的脱敏图像数据提供给图像识别模型来预测待识别的图像数据的特征向量表征。

在1140，基于所预测的特征向量表征与目标对象的特征向量表征，确定待识别图像数据中是否包含目标对象。例如，可以确定所预测的特征向量表征与目标对象的特征向量表征之间的特征相似度，并基于所确定的特征相似度来确定识别结果。例如，在所预测的特征向量表征与目标对象的特征向量表征之间的特征相似度大于预定阈值时，则认为该人脸图像中包括该目标对象，从而将该人脸图像识别为具有该目标对象所对应的身份信息。在所预测的特征向量表征与目标对象的特征向量表征之间的特征相似度不大于预定阈值时，则认为该人脸图像中不包括该目标对象，从而将该人脸图像识别为不具有该目标对象所对应的身份信息。

在一些实施例中，目标对象的特征向量表征可以预先存储在存储设备中。在一些实施例中，可以预先将目标对象的人脸图像进行图2所述的图像数据处理，得到经过数据增强后的脱敏图像数据，再利用图像识别模型处理所述脱敏图像数据，将模型特征提取层输出的预测特征向量表征作为所述目标对象的特征向量表征存入存储设备中。

在一些实施例中，目标对象的特征向量表征可以通过从数据库、存储设备中读取或调用数据接口等方式获得。

在一些实施例中，在对所预测的特征向量表征与目标对象的特征向量表征进行比较时，可以计算两个特征向量表征之间的距离，例如，余弦距离、欧式距离等，所计算出的两个特征向量表征之间的距离可以表示两个特征向量表征的相似度，如果相似度大于预设值(例如，99％、99.5％等)，则可以确定待识别图像包含目标对象。如果相似度不大于预设值，则可以确定待识别图像不包含目标对象。

在一些实施例中，上述步骤可以在可信执行环境中进行，以确保从图像的获取到图像的识别整个过程都处于安全可信的环境中，避免图像和脱敏图像数据泄露。

要说明的是，图11中示出的图像识别方法1100可以由终端设备或服务器执行。此外，图像识别模型可以部署在终端设备或服务器中。

应当注意的是，上述各流程的描述仅仅是为了示例和说明，而不限定本说明书的实施例的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的实施例所限定的范围之内。例如，对本说明书的实施例有关流程步骤的改变，如添加预处理步骤和存储步骤等。

图12示出了根据本说明书的实施例的图像数据处理装置1200的示例方框图。如图12所示，图像数据处理装置1200包括数据脱敏处理单元1210和图像混合处理单元1220。

数据脱敏处理单元1210被配置为对图像数据进行基于频域变换的数据脱敏处理，以得到图像数据的脱敏图像数据，所得到的脱敏图像数据包括子图数据集合，子图数据集合中的每个子图数据对应不同频率。数据脱敏处理单元1210的操作可以参考上面参照图2的210描述的操作。

图像混合处理单元1220被配置为对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。图像混合处理单元1220的操作可以参考上面参照图2的220描述的操作。

可选地，图像数据处理装置1200还可以包括图大小对齐单元1230。图大小对齐单元1230被配置为对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。图大小对齐单元1230的操作可以参考上面参照图2的230描述的操作。

图13示出了根据本说明书的实施例的数据脱敏处理单元1300的示例方框图。如图13所示，数据脱敏处理单元1300包括局部频域变换模块1310、通道特征图构建模块1320和特征图筛选模块1330。

局部频域变换模块1310被配置为对图像数据进行局部频域变换处理，以得到至少一个特征图，每个特征图包括多个元素并且对应图像数据中的一个数据块，每个元素对应频域中的一个频率。局部频域变换模块1310的操作可以参考上面参照图3的310描述的操作。

通道特征图构建模块1320被配置为分别使用至少一个特征图中的各个频率所对应的元素，构建各个频率所对应的频率分量通道特征图。通道特征图构建模块1320的操作可以参考上面参照图3的320描述的操作。

特征图筛选模块1330被配置为从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图，以得到图像数据的脱敏图像数据，所筛选出的目标频率分量通道特征图是图像识别的关键通道特征。特征图筛选模块1330的操作可以参考上面参照图3的330描述的操作。

图14示出了根据本说明书的另一实施例的数据脱敏处理单元1400的示例方框图。如图14所示，数据脱敏处理单元1400包括局部频域变换模块1410、通道特征图构建模块1420、特征图筛选模块1430、第一洗牌模块1440、第一归一化处理模块1450、通道混合处理模块1460、第二洗牌模块1470和第二归一化处理模块1480。

局部频域变换模块1410被配置为对图像数据进行局部频域变换处理，以得到至少一个特征图，每个特征图包括多个元素并且对应图像数据中的一个数据块，每个元素对应频域中的一个频率。局部频域变换模块1410的操作可以参考上面参照图7的710描述的操作。

通道特征图构建模块1420被配置为分别使用至少一个特征图中的各个频率所对应的元素，构建各个频率所对应的频率分量通道特征图。通道特征图构建模块1420的操作可以参考上面参照图7的720描述的操作。

特征图筛选模块1430被配置为从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图，所筛选出的目标频率分量通道特征图是图像识别的关键通道特征。在一些实施例中，特征图筛选模块1430可以基于通道重要性或者基于预设筛选规则，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图。特征图筛选模块1430的操作可以参考上面参照图7的730描述的操作。

第一洗牌模块1440被配置为对目标频率分量通道特征图进行第一次洗牌处理，以得到第一洗牌特征图。第一归一化处理模块1450被配置为对第一洗牌特征图进行归一化处理。第一洗牌模块1440和第一归一化处理模块1450的操作可以参考上面参照图7的740描述的操作。

通道混合处理模块1460被配置为对归一化处理后第一洗牌特征图进行通道混合处理。通道混合处理模块1460的操作可以参考上面参照图7的750描述的操作。

第二洗牌模块1470被配置为对经过通道混合处理后的第一洗牌特征图进行第二次洗牌处理，以得到第二洗牌特征图。第二归一化处理模块1480被配置为对第二洗牌特征图进行归一化处理。第一洗牌模块1470和第二归一化处理模块1480的操作可以参考上面参照图7的760描述的操作。

图15示出了根据本说明书的实施例的图像混合处理单元1500的示例方框图。如图15所示，图像混合处理单元1500包括图像打乱处理模块1510、图像超矩阵构建模块1520、权重系数生成模块1530、权重系数归一化模块1540和图像混合处理模块1550。

图像打乱处理模块1510被配置为对脱敏图像数据的子图数据集合进行k-1次打乱处理，以得到k个子图数据集合。图像打乱处理模块1510的操作可以参考上面参照图8的810描述的操作。

图像超矩阵构建模块1520被配置为基于所得到的k个子图数据集合，构建大小为m*k的图像超矩阵，所构建的图像超矩阵中的第一列对应原始子图数据集合，以及m为原始子图数据集合中的子图数据的个数。图像超矩阵构建模块1520的操作可以参考上面参照图8的820描述的操作。

权重系数生成模块1530被配置为为图像超矩阵中的每个图像随机生成权重系数。权重系数生成模块1530的操作可以参考上面参照图8的830描述的操作。

权重系数归一化模块1540被配置为对图像超矩阵中的图像的权重系数进行行归一化，使得每行图像的权重系数的和为1，并且每个图像的最大系数不大于W_max。权重系数归一化模块1540的操作可以参考上面参照图8的840描述的操作。

图像混合处理模块1550被配置为对图像超矩阵的每行图像进行加权求和，得到大小为m*1的混合图像超矩阵，所得到的混合图像超矩阵中的图像为经过数据增强后的脱敏图像数据。图像混合处理模块1550的操作可以参考上面参照图8的850描述的操作。

图16示出了根据本说明书的实施例的图像识别模型训练装置1600的示例方框图。如图16所示，图像识别模型训练装置1600包括训练数据获取单元1610、图像数据处理单元1620和模型训练单元1640。

训练数据获取单元1610被配置为获取充当训练样本的图像数据及其标签。训练数据获取单元1610的操作可以参考上面参照图10的1010描述的操作。

图像处理单元1620被配置为使用如图2所述的图像数据方法处理图像数据，获得人脸图像数据的经过数据增强后的脱敏图像数据，所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数，以及使用各个脱敏图像数据的各个子图数据的权重系数，对各个脱敏图像数据的各个子图数据的对应标签进行标签混合处理。图像处理单元1620的操作可以参考参照图10的1020和1030描述的操作。

模型训练单元1640被配置为使用脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。模型训练单元1640的操作可以参考上面参照图10的1040描述的操作。

可选地，图像识别模型训练装置1600还可以包括图大小对齐单元1630。图大小对齐单元1630被配置为对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。相应地，模型训练单元1640被配置为使用经过图大小对齐后的脱敏图像数据及其经过标签混合处理后的标签来训练图像识别模型。

图17示出了根据本说明书的实施例的图像识别装置1700的示例方框图。如图17所示，图像识别装置1700包括图像数据获取单元1710、图像数据处理单元1720、特征向量表征预测单元1740和图像识别单元1750。

图像数据获取单元1710被配置为获取待识别的图像数据。图像数据获取单元1710的操作可以参考上面参照图11的1110描述的操作。

图像数据处理单元1720被配置为使用如上所述的图像数据方法处理图像数据，获得图像数据的经过数据增强后的脱敏图像数据。图像数据处理单元1720的操作可以参考上面参照图11的1120描述的操作。

特征向量表征预测单元1740被配置为将脱敏图像数据提供给图像识别模型来预测图像数据的特征向量表征。特征向量表征预测单元1740的操作可以参考上面参照图11的1130描述的操作。

图像识别单元1750被配置为基于所预测的特征向量表征与目标对象的特征向量表征，确定待识别图像数据中是否包含目标对象。图像识别单元1750的操作可以参考上面参照图11的1140描述的操作。

可选地，图像识别装置1700还可以包括图大小对齐单元1730。图大小对齐单元1730被配置为对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。相应地，特征向量表征预测单元1740被配置为将经过图大小对齐后的脱敏图像数据提供给图像识别模型来预测图像数据的特征向量表征。

如上参照图1到图17，对根据本说明书实施例的图像数据处理方法、图像数据处理装置、图像识别模型训练方法、图像识别模型训练装置、图像识别方法和图像识别装置进行了描述。上面的图像数据处理装置、图像识别模型训练装置和图像识别装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图18示出了根据本说明书的实施例的基于计算机系统实现的图像数据处理装置1800的示例示意图。如图18所示，图像数据处理装置1800可以包括至少一个处理器1810、存储器(例如，非易失性存储器)1820、内存1830和通信接口1840，并且至少一个处理器1810、存储器1820、内存1830和通信接口1840经由总线1860连接在一起。至少一个处理器1810执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1810：对图像数据进行基于频域变换的数据脱敏处理，以得到图像数据的脱敏图像数据，所得到的脱敏图像数据包括子图数据集合，子图数据集合中的每个子图数据对应不同频率；以及对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1810进行本说明书的各个实施例中以上结合图1-图8以及图12-图15描述的各种操作和功能。

图19示出了根据本说明书的实施例的基于计算机系统实现的图像识别模型训练装置1900的示例示意图。如图19所示，图像识别模型训练装置1900可以包括至少一个处理器1910、存储器(例如，非易失性存储器)1920、内存1930和通信接口1940，并且至少一个处理器1910、存储器1920、内存1930和通信接口1940经由总线1960连接在一起。至少一个处理器1910执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1910：获取充当训练样本的图像数据及其标签；使用如上所述的方法处理图像数据，获得图像数据的经过数据增强后的脱敏图像数据；使用各个脱敏图像数据的权重系数，对各个脱敏图像数据的对应标签进行标签混合处理；以及使用脱敏图像数据及其经过标签混合处理后的标签来训练图像识别模型。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1910进行本说明书的各个实施例中以上结合图9-图10以及图16描述的各种操作和功能。

图20示出了根据本说明书的实施例的基于计算机系统实现的图像识别装置2000的示例示意图。如图20所示，图像识别装置2000可以包括至少一个处理器2010、存储器(例如，非易失性存储器)2020、内存2030和通信接口2040，并且至少一个处理器2010、存储器2020、内存2030和通信接口2040经由总线2060连接在一起。至少一个处理器2010执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器2010：获取待识别的图像数据；使用如上所述的方法处理图像数据，获得图像数据的经过数据增强后的脱敏图像数据；将脱敏图像数据提供给图像识别模型来预测图像数据的预测特征向量表征；以及基于所预测的特征向量表征与目标对象的特征向量表征，确定待识别图像数据是否包含所述目标对象。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器2010进行本说明书的各个实施例中以上结合图11以及图17描述的各种操作和功能。

根据一个实施例，提供了一种比如机器可读介质(例如，非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-图17描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

根据一个实施例，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序当被处理器执行时，使得处理器执行本说明书的各个实施例中以上结合图1-图17描述的各种操作和功能。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于图像数据处理的方法，包括：

对图像数据进行基于频域变换的数据脱敏处理，以得到所述图像数据的脱敏图像数据，所述脱敏图像数据包括子图数据集合，所述子图数据集合中的每个子图数据对应不同频率；以及

对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。

2.如权利要求1所述的方法，其中，所述数据增强包括下述数据增强中的一种：

Mixup数据增强；和

Instahide数据增强。

3.如权利要求2所述的方法，其中，所述数据增强包括Mixup数据增强，用于混合处理的图像个数为k，以及混合图像的最大权重系数为W_max，

对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理包括：

对所述脱敏图像数据的子图数据集合进行k-1次打乱处理，以得到k个子图数据集合；

基于所得到的k个子图数据集合，构建大小为m*k的图像超矩阵，所述图像超矩阵中的第一列对应原始子图数据集合，以及m为原始子图数据集合中的子图数据的个数；

为所述图像超矩阵中的每个图像随机生成权重系数；

对所述图像超矩阵中的图像的权重系数进行行归一化，使得每行图像的权重系数的和为1，并且每个图像的权重系数不大于W_max；以及

对所述图像超矩阵的每行图像进行加权求和，得到大小为m*1的混合图像超矩阵，所述混合图像超矩阵中的图像为经过数据增强后的脱敏图像数据。

4.如权利要求3所述的方法，其中，所述W_max的取值为0.55，以及所述k的取值为3。

5.如权利要求1所述的方法，还包括：

对经过数据增强后的脱敏图像数据中的每个子图数据进行图大小对齐处理，以使得经过图大小对齐处理后的每个子图数据的大小与原始图像数据的大小相同。

6.如权利要求1所述的方法，其中，对图像数据进行基于频域变换的数据脱敏处理包括：

对所述图像数据进行局部频域变换处理，以得到至少一个特征图，每个特征图包括多个元素并且对应所述图像数据中的一个数据块，每个元素对应频域中的一个频率；

分别使用所述至少一个特征图中的各个频率所对应的元素，构建各个频率所对应的频率分量通道特征图；以及

从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图，以得到所述图像数据的脱敏图像数据，所筛选出的目标频率分量通道特征图是图像识别的关键通道特征。

7.如权利要求6所述的方法，其中，在从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图后，所述方法还包括：

对所述目标频率分量通道特征图进行第一次洗牌处理，以得到第一洗牌特征图；以及

对所述第一洗牌特征图进行归一化处理，得到所述图像数据的脱敏图像数据。

8.如权利要求6所述的方法，其中，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图包括：

基于通道重要性或者基于预设筛选规则，从所构建的频率分量通道特征图中筛选出至少一个目标频率分量通道特征图。

9.如权利要求7所述的方法，其中，在对所述第一洗牌特征图进行归一化处理后，所述方法还包括：

对经过归一化处理后的第一洗牌特征图进行通道混合处理；

对经过通道混合处理后的第一洗牌特征图进行第二次洗牌处理，以得到第二洗牌特征图；以及

对所述第二洗牌特征图进行归一化处理，以得到所述图像数据的脱敏图像数据。

10.如权利要求9所述的方法，其中，所述目标频率分量通道特征图的数目为所述第一特征数据的特征维度加一，

对所述第一洗牌特征图进行通道混合处理包括：

对所述第一洗牌特征图中的两个相邻频率分量通道特征图进行通道混合。

11.如权利要求1所述的方法，其中，所述图像数据包括人脸图像数据。

12.一种用于图像数据处理的装置，包括：

数据脱敏处理单元，对图像数据进行基于频域变换的数据脱敏处理，以得到所述图像数据的脱敏图像数据，所述脱敏图像数据包括子图数据集合，所述子图数据集合中的每个子图数据对应不同频率；以及

图像混合处理单元，对所得到的脱敏图像数据中的子图数据进行基于数据增强的图像混合处理，以得到经过数据增强后的脱敏图像数据。

13.一种用于图像识别模型的训练方法，所述训练方法包括：

获取充当训练样本的图像数据及其标签；

使用如权利要求1-11中任一项所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据，所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数；

使用各个脱敏图像数据中的各个子图数据的权重系数，对各个脱敏图像数据中的各个子图数据的对应标签进行标签混合处理；以及

使用所述脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。

14.如权利要求13所述的训练方法，其中，在参与图像混合处理的子图数据来自同一分类时，将参与图像混合处理的各个子图数据的标签保持不变，以及在参与图像混合处理的子图数据中的至少部分子图数据来自不同分类时，将各个子图数据的标签中的非零值调整为k个非零值，每个非零值对应一个子图数据的权重系数。

15.根据权利要求13所述的训练方法，其中，所述图像数据包括人脸图像数据，以及所述标签或者所述识别结果指示人脸对应的身份信息；

所述图像识别模型用于基于所述图像数据的脱敏图像数据来预测所述图像数据的特征向量表征，并基于所预测的特征向量表征确定识别结果。

16.一种用于图像识别模型的训练装置，包括：

训练数据获取单元，获取充当训练样本的图像数据及其标签；

图像处理单元，使用如权利要求1-11任一项所述的方法处理所述图像数据，获得所述人脸图像数据的经过数据增强后的脱敏图像数据，所述经过数据增强后的脱敏图像数据包括子图数据集合，各个子图数据分别具有权重系数，以及使用各个脱敏图像数据的各个子图数据的权重系数，对各个脱敏图像数据的各个子图数据的对应标签进行标签混合处理；以及

模型训练单元，使用所述脱敏图像数据的各个子图数据及其经过标签混合处理后的标签来训练图像识别模型。

17.一种图像识别方法，包括：

获取待识别的图像数据；

使用如权利要求1-11中任一项所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据；

将所述脱敏图像数据提供给图像识别模型来预测所述图像数据的特征向量表征；以及

基于所预测的特征向量表征与目标对象的特征向量表征，确定所述待识别图像数据是否包含所述目标对象。

18.如权利要求17所述的图像识别方法，其中，所述待识别的图像数据包括人脸图像数据，以及所述目标对象包括具有特定身份信息的人脸图像数据。

19.一种图像识别装置，包括：

图像数据获取单元，获取待识别的图像数据；

图像数据处理单元，使用如权利要求1-11中任一项所述的方法处理所述图像数据，获得所述图像数据的经过数据增强后的脱敏图像数据；

特征向量表征预测单元，将所述脱敏图像数据提供给图像识别模型来预测所述图像数据的特征向量表征；以及

图像识别单元，基于所预测的特征向量表征与目标对象的特征向量表征，确定所述待识别图像数据是否包含所述目标对象。

20.一种图像处理装置，包括：

至少一个处理器，

与所述至少一个处理器耦合的存储器，以及

存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1到11中任一所述的用于图像数据处理的方法。

21.一种用于图像识别模型的训练装置，包括：

至少一个处理器，

与所述至少一个处理器耦合的存储器，以及

存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求13到15中任一所述的用于图像识别模型的训练方法。

22.一种图像识别装置，包括：

至少一个处理器，

与所述至少一个处理器耦合的存储器，以及

存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求17或18所述的图像识别方法。

23.一种计算机可读存储介质，其存储有可执行指令，所述指令当被执行时使得处理器执行如权利要求1到11中任一所述的用于图像数据处理的方法、或者执行如权利要求13到15中任一所述的用于图像识别模型的训练方法、或者执行如权利要求17或18所述的图像识别方法。

24.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如权利要求1到11中任一所述的用于图像数据处理的方法、或者实现如权利要求13到15中任一所述的用于图像识别模型的训练方法、或者实现如权利要求17或18所述的图像识别方法。