CN114611565A

CN114611565A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN114611565A
Application number: CN202011433413.0A
Authority: CN
Inventors: 顾见洋; 陈威华; 罗浩; 王帆; 李�昊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-10

Abstract

本申请实施例提供了一种数据处理方法、装置、设备和存储介质，以提高数据迁移过程中数据标签的准确性。所述方法包括：对于第一数据域的数据集进行特征分析，并构建特征矩阵；对所述特征矩阵进行强化，确定强化矩阵；依据所述强化矩阵进行分析，确定所述数据集在第二数据域的标签。能够对特征矩阵中的样本对进行强化，提高样本的准确性，并能够提高标签的准确性。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据处理方法和装置、一种电子设备和一种存储介质。

背景技术

数据在从一个数据域迁移到另外一个数据域，在另外一个数据域进行处理时，通常是采用无监督学习。

在进行无监督学习时，需要对数据进行处理来确定数据的标签，其中可以分析数据的特征来确定对应的标签，然后基于标签进行无监督学习的训练，因此标签的准确性会影响无监督学习的准确性。

因此，本领域技术人员亟待解决的一个技术问题在于：如何提高数据迁移过程中数据标签的准确性。

发明内容

本申请实施例提供了一种数据处理方法，以提高数据迁移过程中数据标签的准确性。

相应的，本申请实施例还提供了一种数据处理装置、一种电子设备和一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种数据处理方法，所述方法包括：对于第一数据域的数据集进行特征分析，并构建特征矩阵；对所述特征矩阵进行强化，确定强化矩阵；依据所述强化矩阵进行分析，确定所述数据集在第二数据域的标签。

本申请实施例还公开了一种数据处理装置，所述装置包括：矩阵确定模块，用于对于第一数据域的数据集进行特征分析，并构建特征矩阵；强化模块，用于对所述特征矩阵进行强化，确定强化矩阵；标签确定模块，用于依据所述强化矩阵进行分析，确定所述数据库在第二数据域的标签。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，对于第一数据域的数据集进行特征分析，并构建特征矩阵，然后对所述特征矩阵进行强化，确定强化矩阵，从而能够对特征矩阵中的样本对进行强化，提高样本的准确性，再依据所述强化矩阵进行聚类分析，确定所述数据库在第二数据域的标签，从而能够提高标签的准确性。

附图说明

图1是本申请实施例的一种图像集处理示例的示意图；

图2是本申请实施例的一种行人重识别场景示例的处理示意图；

图3是本申请的一种数据处理方法实施例的步骤流程图；

图4是本申请的一种行人识别的预处理方法实施例的步骤流程图；

图5是本申请的一种数据处理装置实施例的结构框图；

图6是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于数据域迁移领域中，对于各种类型的样本数据，其在数据域迁移过程中可采用无监督学习训练，从而通过强化特征来提高数据的准确性，进而在无监督学习的训练过程中提高训练的准确性。其中，数据类型可包括各种类型，如图像、文本、音频等各种类型的数据。每种类型的数据都存在跨域的处理场景，数据域可以理解为具有某类特征的数据构成的数据集，该数据域中的数据具有相同的特征，例如在相同时间段采集的，又如通过同类采集设备采集的，在同一地域采集的等。

以跨域行人重识别场景为例，将一个数据域的数据迁移到一个新的数据域，需要进行模型的训练以适应新的域。在跨域行人重识别场景，不同的数据域有多种划分方式，包括不同时间、不同地理位置等。例如同一摄像头在不同季节采集的视频数据，属于不同数据域，又如不同城市等地理位置采集的视频数据也可属于不同的数据域，又如对于室内(如商场、办公楼等)，和室外(如马路等)也可属于不同的数据域。行人重识别指的是可从图像、视频等数据中识别出行人(或称用户)，并且可在不同的图像或视频中识别行人是否为同一人。

以电商场景为例，从社交网站、生活分享网站、视频网站等其他类型网站上获取的商品相关数据，与电子商务网站中的商品数据可认为是不同数据域的数据，以将其他类型网站上的商品相关数据数据迁移到电子商务网站场景为例，可将在社交等其他类型网站上获取的商品相关数据作为第一数据域的数据集，而将电子商务网站上商品数据构成的数据集作为第二数据域的数据集，对于第一数据域的数据集可迁移到第二数据域上，可以确定第一数据域的数据集在第二数据域对应的标签，以便基于该标签在第二数据域中使用该数据集。如在电子商务网站上进行穿搭推荐、美妆教学等，还可链接到相应的商品。又如将电子商务网站的商品数据集作为第一数据域的数据集，而将社交网站的数据集作为第二数据域的数据集，执行数据从第一数据域向第二数据域的迁移，可以确定其第二数据域的标签，然后执行基于标签的处理，如将社交网站上所推荐商品关联上对应在电子商务网站的商品对象等。

针对跨域场景下的无监督学习，跨域数据的质量会影响到所训练模型的质量。另外一些跨域场景下，数据迁移后标签的准确性也会影响数据在迁移后的使用。本申请实施例对数据集的样本数据进行强化，从而提高数据质量，提高所识别标签的准确性。

参照图1，示出了本申请实施例的一种图像集处理示例的示意图。

步骤102，对于第一数据域的数据集进行特征分析，并构建特征矩阵。

基于所处的场景，数据集可基于数据类型分为图像数据集(包括视频数据集)、音频数据集以及文本数据集等各类型数据的数据集。数据集从一个数据域迁移到另外一个数据域需要进行无监督学习，可以将迁移前的原始数据域称为第一数据域，将迁移到的数据域称为第二数据域。

一种场景中，用户可将多种数据域的数据上传到服务端，服务端存储不同数据域的数据，这些不同数据域的数据可为在不同时间、地点、数据源采集的数据。例如对于行人重识别场景可将不同季节、不同地点拍摄的视频作为不同数据域的数据，又如在文本识别场景中，可收集论文、社交网站、电商网站等不同数据源的文本数据构成不同数据域的数据。

相应的，服务端可提供数据迁移服务，可以执行数据迁移以及相应的无监督学习，将训练完成的模型下发到云端。在该数据迁移以及训练的过程中，用户也可对数据进行描述，云端可基于不同的用户需求实现不同数据域之前的迁移。例如将图像数据从直播场景对应的数据域迁移到电商场景的数据域，又如文本数据从电商场景对应的数据域迁移到社交场景对应的数据域。

本申请实施例中，为了便于用户使用数据迁移服务，还可提供相应的用户界面，用户可在用户界面中上传各种数据域的数据，并且可在用户界面中输入需求信息，以便服务端能够基于需求信息进行数据迁移以及训练，从而能够选择所需数据域的数据进行迁移并完成训练，在该过程中，还可提供各阶段的处理结果给用户查看，以便于用户在过程中进行调整。在得到所需的数据域的模型后可知执行相应的处理。

本申请实施例对于第一数据域的数据集进行特征分析，可以从数据集中识别出各种特征，并基于特征构建相应的特征矩阵。该特征矩阵可为由特征所构建的矩阵，也可为基于特征之间的距离、相似度等差异信息所构成的矩阵，本申请实施例对此不作限制。上述构成矩阵的特征或距离、相似度等差异信息可作为矩阵的元素。

本申请实施例中，所述对于第一数据域的数据集进行特征分析，并构建特征矩阵，包括：针对第一数据域的数据集，采用多于一种分析方式进行特征分析，提取目标对象的对象特征；依据目标对象的特征，构建所述数据集的特征矩阵。针对第一数据域的数据集，可采用多种分析方式来进行特征分析，其中，数据类型不同，数据分析方式可以相同或不同，具体可基于数据类型确定多种分析方式，然后进行特征分析来提取目标对象的对象特征，再依据所述提取的对象特征构建所述数据集的特征矩阵。特征矩阵可由特征构成，在另外一些场景中，特征矩阵也可基于特征的差异构成，一种特征之间差异的表达方式为距离，通过计算两个特征之间的距离来表征特征之间的差异，相应的特征差异越大，距离越大，差异越小，距离越小。因此在一些可选实施例中，所述依据目标对象的特征，构建所述数据集的特征矩阵，包括：确定任意两个目标对象的对象特征的距离；采用所述距离构建所述数据集的特征矩阵。

其中，对于一个数据集，可基于多种方式进行特征分析，从而提取所识别目标对象的特征。以行人重识别场景，可以从图像数据中识别到行人，并提取该行人的特征，所提取的特征可基于分析方式确定，如体态特征、行走的姿势特征、面部特征等。并且可基于所识别行人的特征，计算任意两个行人的特征的距离，即分析两个行人特征的差异，基于距离构成特征矩阵，该特征矩阵描述了图像数据集中行人特征分布。

本申请实施例通过多种分析方式分别对数据集进行特征分析，得到每个样本的特征，进而得到数据集的特征矩阵，相应的，每一种分析方式均可对应一个特征矩阵。其中，样本可以理解为目标对象，如在行人重识别下，识别出的行人为样本，通过特征分析可得到行人的特征。

其中，所述分析方式包括以下至少一种：数据增广方式、局域特征分析方式、时域特征分析方式和偏差去除方式。

其中，数据增广方式为一种数据增强的方式，以图像数据集为例，可对图像数据集中的图像进行随机的旋转、翻转、裁剪、随机设置图片的亮度和对比度以及对数据进行标准化等方式进行数据增强，扩大样本的数量，而后进行特征的提取。以文本数据集为例，可基于同义词替换、文本对检索等方式来扩增数据，而后分析并提取数据的特征。

局域特征分析方式为对数据的局部特征进行分析的方式，例如对图像、音频的局部特征进行分析的方式，其可基于不同数据的局部进行特征提取。例如，采用超出部分模型(Beyond Part Models)，可使用局部(part)特征对行人图像进行描述，对图像提取任务的局部(part)特征。又如基于部分卷积-池化(PCB-RPP)的网络进行局部特征的提取。

时域特征分析方式是基于时域进行特征提取的方式。例如，针对图像数据集，在训练过程中，使用随机优化器使得模型的参数会快速地变动，因此不同训练轮次(epoch)的模型之间可能有相矛盾的推理结果，通过结合多个epoch的模型，可提取到在时域上更加稳定的特征。又如对于音频数据可提取时域特征。

在ReID问题中，相机会带来比较大的偏差(bias)影响，例如同一个人被不同相机拍摄到的图像可能存在姿态、光照条件、遮挡情况等不同，对特征提取有较大的影响。因此可采用偏差去除方式，可去除相机偏差从而进行特征提取，其中，可假设在同一相机下的图像都遵循一个特定的分布，则该相机下的所有特征的平均值一定程度上可以反映该相机的一些特点，则从原始特征中减去这一平均特征可以消除一部分相机带来的影响。另外在一些音频处理的场景中，有些音频数据具有回声等噪声数据，也可通过回声消除等去除偏差。

上述进行举例论述了几种分析方式，实际处理中还可基于需求采用其他分析方式，本申请实施例对此不做限制。各种分析方式均可对数据集进行处理，分析数据集中目标对象的特征，从而提取相应的对象特征，然后可计算不同对象特征的距离，得到相应的特征矩阵。

以图像数据集的处理为例：如对于数据增广方式，可通过随机的翻转、裁剪、旋转、调整对比度等来扩增数据，而后进行特征提取，确定从各图像中所识别的目标对象的对象特征，再计算两个目标对象的对象特征的距离，构建所述图像数据集的特征矩阵。又如局域特征分析方式，可对图像数据集中的图像进行识别目标对象并进行局部特征的提取，再计算两个目标对象的对象特征的距离，构建所述图像数据集的特征矩阵。又如采用时域特征分析方式，可以对图像数据集中的图像数据进行多轮次的分析，提取目标对象的时域特征，然后计算两个目标对象的对象特征的距离，构建所述图像数据集的特征矩阵。又如偏差去除方式，可基于图像数据集中的图像数据提取特征，再去除相机偏差得到对应的对象特征，然后计算两个目标对象的对象特征的距离，构建所述图像数据集的特征矩阵。

步骤104，对所述特征矩阵进行强化，确定强化矩阵。

在得到每种分析方式所对应的特征矩阵后，针对每个特征矩阵，可分析特征矩阵中目标对象(样本)的距离。区别于现有舍弃置信度低的样本的方式，本申请实施例可对特征矩阵中的元素进行筛选并进行强化，如对于由特征间的距离所构成的特征矩阵，其元素为距离，则可对距离进行筛选。在该过程中能够保留难样本，提高训练数据的质量。通过强化，能够是差异大的样本之间的差异增大，而差异小的样本之间的差异减小，如目标距离的强化步骤包括：按照强化系数对所述目标距离进行强化，得到强化的距离，其中，通过强化将高于第一阈值的目标距离增大，通过强化将低于第二阈值的目标距离减小。

其中，难样本指的是符合一定特征的样本，包括较为不相似的正样本和较相似的负样本，在训练数据中添加难样本对模型进行训练，能够为模型优化提供稳定的梯度。其中，为了区分不同的样本，每个样本可通过标识(Identity，ID)来区分，上述距离可表征两个样本之间的差异，难样本可以为两个同一个ID的样本之间差异(距离)较大的样本对，也可为两个不同ID对应的样本之间差异(距离)很小的样本对。即识别为不同的ID但差异较小的样本对，或者识别为同一ID但差别较大的样本对，这类样本对在进行训练的过程中会提供比较多的损失，能够为模型提供稳定的梯度。

其中，可基于筛选方式设置相应的筛选条件，在特征矩阵中筛选符合设定条件的目标距离，然后对目标距离进行强化，通过强化可以使差异大的特征距离增大，差异小的特征距离减小。然后再替换回原始的特征矩阵中，可以得到强化矩阵。强化的过程可以理解为一种映射过程，通过映射来实现对距离的强化，即将筛选出来的目标距离，通过相应的映射函数映射实现强化，例如一种映射函数为y＝ax，a为映射系数(也称强化系数)，其中，高于第一阈值的目标距离的映射系数a＝1.2，低于第二阈值的目标距离的映射系数a＝0.8，假设某一高于第一阈值的目标距离x1＝2，低于第二阈值的目标距离x2＝0.4，则通过映射强化后的距离y1＝2*1.2＝2.4，将其强化增大，而通过映射强化后的距离y2＝0.4*0.8＝0.32，将其强化减小。从而基于映射系数实现距离强化。

本申请实施例中，所述对所述特征矩阵进行强化，确定强化矩阵，包括：对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵。其中，设定条件可基于筛选方式来确定，例如按照阈值范围进行筛选的情况下，可将超出阈值范围的距离作为符合设定条件的目标距离，又如按照门函数进行筛选的情况下，可将通过门函数的距离作为符合设定条件的目标距离。其中，各种筛选方式所对应的筛选条件，如阈值范围、门函数等，均可基于具体所使用的数据集、迁移前后的数据域以及对应的分析方式进行调整，对于数据域迁移场景中，同一数据集采用不同的分析方式进行特征分析的情况下，其阈值范围、门函数等也不同，因此可基于数据集、数据域以及对应的分析方式等自适应调整。

在一些可选实施例中，可设置筛选距离的阈值范围，从而将超出阈值范围的距离作为符合设定条件的目标距离。其中，由于不同的分析方式产生的特征矩阵不同，因此阈值范围可与分析方式对应，每种分析方式对应不同的阈值范围，从而基于与其分析方式匹配的阈值范围进行距离的筛选和强化。所述对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵，包括：获取所述特征矩阵对应的阈值范围；将所述特征矩阵中超过所述阈值范围的距离作为目标距离，对所述目标距离进行强化处理；采用强化的距离替换特征矩阵中对应的目标距离，确定强化矩阵。其中，对于小于阈值范围的最小值的目标距离，可通过强化使其减小，对于大于阈值范围的最大值的目标距离，可通过强化使其增大，针对不同强化方式的目标距离，也可设置相应的强化系数，依据强化系数对目标距离进行强化。其中，第一阈值可为阈值范围的最大值，第二阈值可为阈值范围的最小值。

在另外的一些可选实施例中，可以采用门函数筛选目标距离并进行强化，其中，门函数(Gating Function)可以理解为一种类似门的作用的函数，其允许符合条件的数据通过，而不符合条件的数据则不允许通过，从而进行数据的筛选。本申请实施例中，通过门函数可对特征矩阵中的距离进行筛选，通过门函数的距离为符合设定条件的目标距离，并且门函数还可起到强化的作用，即函数在符合条件通过门函数的过程中，还可对符合的目标距离进行强化，输出强化的距离。其中，可通过强化系数来控制门函数对于距离的强化程度。因此所述对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵，包括：采用门函数对所述特征矩阵中的目标距离进行强化，确定强化的距离，所述门函数与分析方式对应；采用强化的距离替换特征矩阵中对应的目标距离，确定对应的强化矩阵。本申请实施例中，不同分析方式所提取的特征矩阵，可以对应不同的门函数，即门函数可适应于分析方式而动态调整，通过与分析方式适配的门函数处理，使得目标距离被强化，从而能够强化置信度高的样本，即能够保留难样本，提高数据的多样性。相应的，第一阈值和第二阈值可基于门函数确定。

本申请实施例中，为了使模型更加满足用户需求，可由用户设置相应的强化系数或强化需求。因此可在用户界面中设置强化设置控件，基于该强化设置控件可设置相应的强化系数或强化需求，便于对阈值范围、门函数进行调整。相应的，还可在用户界面还可包括强化显示界面，服务端可将所述强化矩阵发送端用户端，显示在该强化显示界面，从而用户端的用户可查看强化矩阵是否满足需求，是否需要继续调整强化系数等。

步骤106，依据所述强化矩阵进行分析，确定所述数据集在第二数据域的标签。

对于强化矩阵可进行分析，从而得到其在第二数据域的标签。一种分析方式为聚类分析，可通过聚类分析确定多个簇，每个簇可包括多个同类的特征，相应可将各特征所对应的样本数据构成簇，每个簇中的样本(目标对象)为一个类，可以设置相应的标签，与监督学习进行区分，该标签也可称为伪标签。其中，若采用多种分析方式进行分析，则每种分析方式可对应一个强化矩阵，则可先将各强化矩阵进行融合，再聚类，得到数据集对应的标签。另外也可采用相似度分析等方式，如对特征与相应的标签对应的特征进行相似度计算等，从而确定对应所述的标签等。

一个可选实施例中，所述依据所述强化矩阵进行聚类分析，确定所述数据集在第二数据集的标签，包括：将所述多于一种分析方式对应的强化矩阵进行融合，得到融合矩阵；对所述融合矩阵进行聚类，确定所述数据集在第二数据集的标签。

在得到各种分析方式所对应的强化矩阵后，可以将各种分析方式所对应的强化矩阵进行融合，从而融合各种分析方式，得到更加准确的特征矩阵，可称为融合矩阵。然后可以融合矩阵进行聚类处理，基于特征进行图像的聚类，即可基于融合矩阵中的特征进行聚类，得到多个簇，每个簇可包括多个同类的特征，相应可将各特征所对应的样本构成簇，每个簇中的样本(目标对象)为一个类，可以设置相应的标签，该标签可称为伪标签。

本申请实施例中，不同分析方式所产生的特征矩阵中得到强化的特征可能是不同的，可以将每一种分析方式看作是一个专家，则特征矩阵可看作专家的意见，从而将多个专家的意见进行融合，能够得到更加准确特征矩阵。通过门函数、阈值范围等可以筛选特征矩阵的距离并进行强化，将距离大于某个高阈值(第一阈值)的样本对的距离进行强化增大，低于某个低阈值(第二阈值)的距离进行强化减小，这些样本对可被认为是高置信度的样本对。而由于不同分析方式对应的特征矩阵拥有不同的特性，因此两个阈值的大小，也就是门函数、阈值范围等需要根据每个特征矩阵的距离分布进行动态调整。通过这样的方式得到不同专家认为可靠的正、负样本对，从而得到综合上看质量更高的聚类结果。

如图2所示的一种行人重识别的场景为例，假设有4种分析方式(专家)E₁、E₂、E₃、E₄。

将图像数据集通过各种分析方式进行分析并确定行人特征的特征矩阵，则对应可得到特征矩阵d₁、d₂、d₃、d₄。然后将各特征矩阵通过对应的门函数进行强化，门函数分别为G₁、G₂、G₃、G₄。从而能够由4个专家分别提取出4个特征矩阵，然后使用适应性的门函数对这些特征矩阵中置信度高的样本对进行强化。再将强化矩阵进行融合得到融合特征矩阵L。

本申请实施例在计算出数据集在第二数据域的标签之后，可基于标签执行在第二数据域的相关处理，例如基于标签进行推荐，又如基于标签进行相同标签对应数据的关联，以及基于标签进行模型训练等。

在一些实施例中，依据所述数据集及标签，在第二数据域对所述数据集进行训练。在得到标签后，可为所述数据集添加所述标签；将添加标签的数据集作为训练数据，在第二数据域对所述数据集进行训练。从而采用准确性和置信度更高的训练数据，能够有效提升模型的性能。

上述各步骤可迭代执行，在迭代的过程中基于模型训练过程的损失函数可调整门函数、阈值范围等来调整对于矩阵中元素的强化，再进行融合、聚类来调整标签，再通过调整的标签进行训练，通过不断的迭代过程实现跨域数据的无监督学习。

本申请实施例中，还可将模型训练的结果、损失函数等反馈给用户端，在用户端的用户界面中显示，以便用户可以调整模型训练的结果、损失函数等，得到更加符合用户需求的模型。

以应用于软件即服务(Software-as-a-Service，SaaS)场景为例，可将跨域的模型训练构成服务，可开发服务接口给用户使用。从而用户可在用户端通过服务接口调用该项服务，从而选择跨域迁移的数据，进而在服务端通过该服务执行上述过程来进行模型训练，在该过程中，强化矩阵、标签、训练的模型以及损失函数等内容，可基于用户的需求反馈给用户，以便用户基于需求进行调整、反馈，再迭代执行上述过程，得到用户所需的模型并反馈到用户端，也可部署在服务端，提供模型接口给用户，从而用户可基于该模型接口调用该模型执行所需的处理，例如在行人重识别场景中，将训练的行人重识别模型部署在服务端，用户可通过接口调用该行人重识别模型从相应的图像、视频中识别出行人等目标对象。

综上，对于第一数据域的数据集进行特征分析，并构建特征矩阵，然后对所述特征矩阵进行强化，确定强化矩阵，从而能够对特征矩阵中的样本对进行强化，提高样本的准确性，再依据所述强化矩阵进行聚类分析，确定所述数据库在第二数据域的标签，从而能够提高标签的准确性。

依据所述数据集及标签，在第二数据域对所述数据集进行训练，提高训练的准确性。

在上述实施例的基础上，本申请实施例还提供了一种数据处理方法，能够在计算数据集的特征矩阵时融入更多维度的信息，从多个角度去描述图像之间的关系，然后再进行有效的融合，使得融合后特征矩阵具有更高的准确率。

参照图3，示出了本申请的一种数据处理方法实施例的步骤流程图。

步骤302，针对第一数据域的数据集，采用多于一种分析方式进行特征分析，提取目标对象的对象特征。

步骤304，确定任意两个目标对象的对象特征的距离，采用所述距离构建所述数据集的特征矩阵。

步骤306，对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵。

一个示例中，可获取所述特征矩阵对应的阈值范围；将所述特征矩阵中超过所述阈值范围的距离作为目标距离，对所述目标距离进行强化处理；采用强化的距离替换特征矩阵中对应的目标距离，确定强化矩阵。

另一个示例中，采用门函数对所述特征矩阵中的目标距离进行强化，确定强化的距离，所述门函数与分析方式对应；采用强化的距离替换特征矩阵中对应的目标距离，确定对应的强化矩阵。

其中，目标距离的强化步骤包括：按照强化系数对所述目标距离进行强化，得到强化的距离，其中，通过强化将高于第一阈值的目标距离增大，通过强化将低于第二阈值的目标距离减小。

步骤308，将所述多于一种分析方式对应的强化矩阵进行融合，得到融合矩阵。

步骤310，对所述融合矩阵进行聚类，确定所述数据集对应的标签。

步骤312，依据所述数据集及标签，在第二数据域对所述数据集进行训练。

为所述数据集中的目标对象添加所述标签；将添加标签的数据集作为训练数据，在第二数据域进行模型训练。上述过程可迭代执行，在执行的过程中基于损失函数调整强化系数、标签以及模型的参数等，训练得到符合用户需求的模型。

在上述实施例的基础上，本申请实施例还提供了一种行人识别的预处理方法，能够在计算图像数据集的特征矩阵时融入更多维度的信息，从多个角度去描述图像之间的关系，然后再进行有效的融合，使得融合后特征矩阵具有更高的准确率。

参照图4，示出了本申请的一种行人识别的预处理方法实施例的步骤流程图。

步骤402，对于第一数据域的图像数据集，按照多于一种分析方式分别对图像数据集进行特征分析，并构建所述图像数据集的特征矩阵，所述特征矩阵中距离依据所识别行人的对应特征确定。

本申请实施例可应用于跨域行人重识别场景，其中，跨域指的是从一个数据域迁移到一个新的数据域，在跨域行人重识别场景中，将数据从一个数据域迁移到一个新的数据域，要确定数据在新的数据域对应的标签。之后可基于标签进行模型的训练以适应新的域，或者执行所需的其他处理。在跨域行人重识别场景，不同的数据域有多种划分方式，包括不同时间、不同地理位置等。例如同一摄像头在不同季节采集的视频数据，属于不同数据域，又如不同城市等地理位置采集的视频数据也可属于不同的数据域，又如对于室内(如商场、办公楼等)，和室外(如马路等)也可属于不同的数据域。

其中，第一数据域和第二数据域可为不同季节、位置等拍摄的数据，比如第一数据域为室内数据域，由室内拍摄的图像、视频等来构成图像数据集，而第二数据域为室外数据域，由室外拍摄的图像、视频等来构成图像数据集。又如第一数据域为冬季数据域，由在12-2月拍摄的图像、视频等来构成图像数据集，而第二数据域为夏季数据域，由6-8月拍摄的图像、视频等来构成图像数据集等。在将第一数据域迁移到第二数据域的过程中，对于第一数据域的图像数据集，可按照多于一种分析方式分别对图像数据集进行特征分析，提取行人的特征；确定两个行人的特征的距离，构建所述监控视频集的特征矩阵。

步骤404，对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵。

一个示例中，可获取所述特征矩阵对应的阈值范围；将所述特征矩阵中超过所述阈值范围的距离作为目标距离，对所述目标距离进行强化处理；确定强化矩阵。

另一个示例中，采用门函数对所述特征矩阵中的目标距离进行强化，确定对应的强化矩阵，所述门函数与分析方式对应。

步骤406，将所述多于一种分析方式对应的强化矩阵进行融合，得到融合矩阵。

步骤408，对所述融合矩阵进行聚类，确定所述图像数据集对应的标签。

步骤410，依据所述图像数据集及标签，在第二数据域对所述图像数据集进行训练。并迭代执行上述过程，直到训练的行人重识别模型满足需求。采用添加标签的图像数据集集对迁移的行人重识别模型进行训练。不需要引入额外的训练参数，可以独立地加入到其他域迁移方法中，可以进一步提升域迁移行人重识别的效果。

本申请实施例可采用多专家系统，即通过多个相似或不同的模型进行输出的融合，实现提升模型性能。因此可每一种分析方式看作是一个专家，则特征矩阵可看作专家的意见，不同分析方式所产生的特征矩阵中得到强化的特征可能是不同的，从而将多个专家的意见进行融合，能够得到更加准确特征矩阵。通过门函数、阈值范围等可以筛选特征矩阵的距离并进行强化，将距离大于某个高阈值(第一阈值)的样本对的距离进行强化增大，低于某个低阈值(第二阈值)样本对的距离进行强化减小，这些样本对可被认为是高置信度的样本对。而由于不同分析方式对应的特征矩阵拥有不同的特性，因此两个阈值的大小需要根据每个特征矩阵的距离分布进行动态调整。通过这样的方式得到不同专家认为可靠的正负样本对，从而得到综合上看质量更高的聚类结果。

本申请实施例计算目标域特征矩阵(distmat)时融入更多维度的信息，从多个角度去描述目标域图像之间的关系，然后再进行有效的融合，使得融合后特征矩阵具有更高的准确率，从而聚类得到高质量的伪标签指导网络训练。

通过引入多专家系统以及适应性的门函数对每个专家生成的特征矩阵中置信度较高的部分进行强化，并且通过不舍弃置信度较低的样本的方式，提高了样本的准确率。

上述方式可训练相应的处理模型、处理器等，并且可作为插件添加到其他行人重识别模型处理系统中，提高系统的准确性。

上述以跨域行人重识别场景为例，实际处理中，本申请实施例可应用于图像、文本、音频等各种类型的数据的跨域的模型训练过程中。例如对于电商数据，其可能包括文本、图像、音视频等多种类型的数据，不同的电子商务网站的数据可以看做是不同数据域的数据，例如将社交网站、生活分享网站等其他类型网站的数据迁移到电子商务网站，又如将电子商务网站的数据迁移到社交网站、生活分享网站等其他类型网站等，可收集所需的数据构成相应的数据集，然后参照上述过程执行特征分析、强化、分析等来确定商品对象等目标对象的标签，再结合该数据集以及标签进行训练、推荐等，并迭代上述过程，实现不同类型网站的数据迁移，以及基于迁移后的处理，如推荐、模型训练、识别等。

又如应用在物流场景中，对于不同物流服务提供方、电子商务网站的数据、交通道路数据、气象数据等可认为是不同数据域的数据，相应可在数据迁移的过程中，通过特征分析、强化、分析来确定物流对象、道路等目标对象的标签，再结合该数据集以及标签进行推荐、模型训练等，并迭代上述过程，实现跨域物流数据的处理。如将气象数据迁移到物流领域中，确定对应的气象标签，从而确定出影响物流运输的极端天气、延期天气以及普通天气等标签，从而应用于物流运输过程的分析过程中。又如基于交通道路数据确定拥堵情况的标签，用于物流运输过程的分析、工具选择等过程中。

又如应用于金融领域中，不同金融平台、银行的数据、电子商务网站的数据等可作为不同数据域的数据，相应可在数据迁移的过程中，通过特征分析、强化、分析来确定目标对象的标签，再结合该数据集以及标签进行推荐、模型训练、识别、分类等处理，并迭代上述过程，实现跨域金融数据的处理。例如结合电子商务网站对应的销售数据确定促销和常规销售等标签，从而可以应用于用户信用额度的临时调整等场景。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种数据处理装置，应用于终端设备、服务器等电子设备中。

参照图5，示出了本申请的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

矩阵确定模块502，用于对于第一数据域的数据集进行特征分析，并构建特征矩阵。

强化模块504，用于对所述特征矩阵进行强化，确定强化矩阵。

标签确定模块506，用于依据所述强化矩阵进行分析，确定所述数据库在第二数据域的标签。

还包括：迁移训练模块，用于依据所述数据集及标签，在第二数据域对所述数据集进行训练。

综上，对于第一数据域的数据集进行特征分析，并构建特征矩阵，然后对所述特征矩阵进行强化，确定强化矩阵，从而能够对特征矩阵中的样本对进行强化，提高样本的准确性，再依据所述强化矩阵进行聚类分析，确定所述数据库在第二数据域的标签，从而能够提高标签的准确性。还可依据所述数据集及标签，在第二数据域对所述数据集进行训练，提高训练的准确性。

其中，所述矩阵确定模块502，用于针对第一数据域的数据集，采用多于一种分析方式进行特征分析，提取目标对象的对象特征；依据目标对象的对象特征，构建所述数据集的特征矩阵。

所述矩阵确定模块502，用于确定任意两个目标对象的对象特征的距离；采用所述距离构建所述数据集的特征矩阵。

所述强化模块504，用于对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵。

一个示例中，所述强化模块504，用于获取所述特征矩阵对应的阈值范围；将所述特征矩阵中超过所述阈值范围的距离作为目标距离，对所述目标距离进行强化处理；采用强化的距离替换特征矩阵中对应的目标距离，确定强化矩阵。

另一个示例中，所述强化模块504，用于采用门函数对所述特征矩阵中的目标距离进行强化，确定强化的距离，所述门函数与分析方式对应；采用强化的距离替换特征矩阵中对应的目标距离，确定对应的强化矩阵。

所述强化模块504，用于按照强化系数对所述目标距离进行强化，得到强化的距离，其中，通过强化将高于第一阈值的目标距离增大，通过强化将低于第二阈值的目标距离减小。所述强化模块504，还用于将所述强化矩阵发送端用户端，以便对用户端依据所述强化矩阵调整强化系数。

可选的，所述分析方式包括以下至少一种：数据增广方式、局域特征分析方式、时域特征分析方式和偏差去除方式。

所述标签确定模块506，用于依据所述强化矩阵进行聚类分析，确定所述数据库在第二数据域的标签。

所述标签确定模块506，用于将所述多于一种分析方式对应的强化矩阵进行融合，得到融合矩阵；对所述融合矩阵进行聚类，确定所述数据集对应的标签。

所述目标对象包括行人。

本申请实施例可采用多专家系统，即通过多个相似或不同的模型进行输出的融合，实现提升模型性能。因此可每一种分析方式看作是一个专家，则特征矩阵可看作专家的意见，不同分析方式所产生的特征矩阵中得到强化的特征可能是不同的，从而将多个专家的意见进行融合，能够得到更加准确特征矩阵。通过门函数、阈值范围等可以筛选特征矩阵的距离并进行强化，将距离大于某个高阈值(第一阈值)的样本对的距离进行强化增大，低于某个低阈值(第二阈值)的距离进行强化减小，这些样本对可被认为是高置信度的样本对。而由于不同分析方式对应的特征矩阵拥有不同的特性，因此两个阈值的大小需要根据每个特征矩阵的距离分布进行动态调整。通过这样的方式得到不同专家认为可靠的正负样本对，从而得到综合上看质量更高的聚类结果。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图6示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置600。

对于一个实施例，图6示出了示例性装置600，该装置具有一个或多个处理器602、被耦合到(一个或多个)处理器602中的至少一个的控制模块(芯片组)604、被耦合到控制模块604的存储器606、被耦合到控制模块604的非易失性存储器(NVM)/存储设备608、被耦合到控制模块604的一个或多个输入/输出设备610，以及被耦合到控制模块604的网络接口612。

处理器602可包括一个或多个单核或多核处理器，处理器602可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置600能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置600可包括具有指令614的一个或多个计算机可读介质(例如，存储器606或NVM/存储设备608)以及与该一个或多个计算机可读介质相合并被配置为执行指令614以实现模块从而执行本公开中所述的动作的一个或多个处理器602。

对于一个实施例，控制模块604可包括任意适当的接口控制器，以向(一个或多个)处理器602中的至少一个和/或与控制模块604通信的任意适当的设备或组件提供任意适当的接口。

控制模块604可包括存储器控制器模块，以向存储器606提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器606可被用于例如为装置600加载和存储数据和/或指令614。对于一个实施例，存储器606可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器606可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块604可包括一个或多个输入/输出控制器，以向NVM/存储设备608及(一个或多个)输入/输出设备610提供接口。

例如，NVM/存储设备608可被用于存储数据和/或指令614。NVM/存储设备608可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备608可包括在物理上作为装置600被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备608可通过网络经由(一个或多个)输入/输出设备610进行访问。

(一个或多个)输入/输出设备610可为装置600提供接口以与任意其他适当的设备通信，输入/输出设备610可以包括通信组件、音频组件、传感器组件等。网络接口612可为装置600提供接口以通过一个或多个网络通信，装置600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置600可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置600可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据处理方法和装置、一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对于第一数据域的数据集进行特征分析，并构建特征矩阵；

对所述特征矩阵进行强化，确定强化矩阵；

依据所述强化矩阵进行分析，确定所述数据集在第二数据域的标签。

2.根据权利要求1所述的方法，其特征在于，所述对于第一数据域的数据集进行特征分析，并构建特征矩阵，包括：

针对第一数据域的数据集，采用多于一种分析方式进行特征分析，提取目标对象的对象特征；

依据目标对象的对象特征，构建所述数据集的特征矩阵。

3.根据权利要求2所述的方法，其特征在于，所述依据目标对象的特征，构建所述数据集的特征矩阵，包括：

确定任意两个目标对象的对象特征的距离；

采用所述距离构建所述数据集的特征矩阵。

4.根据权利要求3所述的方法，其特征在于，所述对所述特征矩阵进行强化，确定强化矩阵，包括：

对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵。

5.根据权利要求4所述的方法，其特征在于，所述对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵，包括：

获取所述特征矩阵对应的阈值范围；

将所述特征矩阵中超过所述阈值范围的距离作为目标距离，对所述目标距离进行强化处理；

采用强化的距离替换特征矩阵中对应的目标距离，确定强化矩阵。

6.根据权利要求4所述的方法，其特征在于，所述对所述特征矩阵中符合设定条件的目标距离进行强化，确定对应的强化矩阵，包括：

采用门函数对所述特征矩阵中的目标距离进行强化，确定强化的距离，所述门函数与分析方式对应；

采用强化的距离替换特征矩阵中对应的目标距离，确定对应的强化矩阵。

7.根据权利要求1所述的方法，其特征在于，所述特征矩阵中的元素依据强化系数强化，所述方法还包括：

将所述强化矩阵发送端用户端，以便对用户端依据所述强化矩阵调整强化系数。

8.根据权利要求1所述的方法，其特征在于，所述依据所述强化矩阵进行分析，确定所述数据集在第二数据域的标签，包括：

依据所述强化矩阵进行聚类分析，确定所述数据集在第二数据域的标签。

9.根据权利要求8所述的方法，其特征在于，所述依据所述强化矩阵进行聚类分析，确定所述数据库在第二数据域的标签，包括：

将所述多于一种分析方式对应的强化矩阵进行融合，得到融合矩阵；

对所述融合矩阵进行聚类，确定所述数据集在第二数据域的标签。

10.根据权利要求1所述的方法，其特征在于，还包括：

依据所述数据集及标签，在第二数据域对所述数据集进行训练。

11.根据权利要求2、6或7所述的方法，其特征在于，所述分析方式包括以下至少一种：数据增广方式、局域特征分析方式、时域特征分析方式和偏差去除方式。

12.根据权利要求1-10任一所述的方法，其特征在于，所述目标对象包括行人。

13.一种数据处理装置，其特征在于，所述装置包括：

矩阵确定模块，用于对于第一数据域的数据集进行特征分析，并构建特征矩阵；

强化模块，用于对所述特征矩阵进行强化，确定强化矩阵；

标签确定模块，用于依据所述强化矩阵进行分析，确定所述数据库在第二数据域的标签。

14.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中一个或多个所述的方法。

15.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12中一个或多个所述的方法。