CN112966790B

CN112966790B - 图像的分类方法、装置、电子设备及存储介质

Info

Publication number: CN112966790B
Application number: CN202110480472.1A
Authority: CN
Inventors: 奚晓钰; 李敏; 陆彦良; 李东晓; 周效军
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2024-02-27
Anticipated expiration: 2041-04-30
Also published as: CN112966790A

Abstract

本发明提供一种图像的分类方法、装置、电子设备及存储介质。其中，图像的分类方法，包括：获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离；基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；基于优化后的原始图像样本进行特征提取和分类。本发明的图像的分类方法，根据本发明实施例的图像的分类方法，可以有效提取出视图的特征之间存在的鉴别信息，提高分类的效果，用于实际视频图像业务中，如视频人脸定位等，增加了用户粘性，提高了用户量。

Description

图像的分类方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种图像的分类方法、装置、电子设备及存储介质。

背景技术

以半监督学习方法为基础，进行多视图的特征提取。其最终的投影矩阵是经过半监督学习方法，在多视图中的应用，再考虑提取出的鉴别信息进行处理之后，作为全新的投影特征矩阵，用于对数据样本的投影并分类，该方法事基于整个鉴别多视图中使用数据的原始图像样本都是在全局概念的基础之上，通过图像分类进行验证的。但如果从图像样本数据结构本身出发，会发现原始图像样本所呈现的是整体处于非线性结构，而局部处于线性结构这样的规律，所以只从原始图像样本全局考虑的话是不足以反应样本数据本质属性和其内在结构，进而，影响后续的特征提取和分类的效果。

发明内容

本发明提供一种图像的分类方法、装置、电子设备及存储介质，可以有效提取出视图的特征之间存在的鉴别信息，提高分类的效果。

本发明提供一种图像的分类方法，包括：

获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；

基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；

基于优化后的原始图像样本进行特征提取和分类。

根据本发明提供的一种图像的分类方法，所述基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，包括：

获取所述训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示；

基于所述训练样本矩阵的流形表示和所述测试样本矩阵的流形表示，得到所述训练样本和所述测试样本之间的数据点距离。

根据本发明提供的一种图像的分类方法，所述基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异，包括：

基于所述训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示，获得流形优化传输问题的最优化函数，并基于所述最优化函数优化所述原始图像样本。

根据本发明提供的一种图像的分类方法，所述基于所述最优化函数优化所述原始图像样本，包括：

根据所述训练样本和所述测试样本之间的数据点距离，求取所述最优化函数的最优解，以得到所述原始图像样本间的最优距离，并根据所述最优距离优化所述原始图像样本。

根据本发明提供的一种图像的分类方法，获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵，包括：

以预设的训练样本数量和测试样本数量比例，对所述原始图像样本进行划分，得到所述训练样本和所述测试样本；

基于所述训练样本生成训练样本矩阵以及基于所述测试样本生成测试样本矩阵。

根据本发明提供的一种图像的分类方法，所述预设的训练样本数量和测试样本数量比例为1：3。

根据本发明提供的一种图像的分类方法，所述训练样本和所述测试样本为来自同一视图中的原始图像样本或者来自不同视图中的原始图像样本。

本发明还提供一种图像的分类装置，包括：

获取模块，用于获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；

优化模块，用于基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；

分类模块，用于基于优化后的原始图像样本进行特征提取和分类。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像的分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像的分类方法的步骤。

本发明提供的图像的分类方法、装置、电子设备及存储介质，通过流形学习方法对原始图像样本进行优化，能够找到高维数据结构内部的内在结构规律，以及在投影之前获取内部低维流形以及邻接信息，并且将获取到的流形信息很好的保留到投影后的低维数据空间中去，原始图像样本在通过非线性流形算法操作处理后，维度降低到低维空间之后，能够很好的保留原始高维样本数据中的内在邻接信息以及邻域结构，从而可以有效提取出视图的特征之间存在的鉴别信息，提高分类的效果，用于实际视频图像业务中，如视频人脸定位等，增加了用户粘性，提高了用户量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像的分类方法的流程示意图；

图2是本发明提供的图像的分类装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图描述本发明实施例的图像的分类方法、装置、电子设备及存储介质。

图1是根据本发明一个实施例的图像的分类方法的流程图。如图1所示，根据本发明实施例的图像的分类方法，包括如下步骤：

S101：获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵。

在具体示例中，获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵，包括：以预设的训练样本数量和测试样本数量比例，对所述原始图像样本进行划分，得到所述训练样本和所述测试样本；基于所述训练样本生成训练样本矩阵以及基于所述测试样本生成测试样本矩阵。该示例中，预设的训练样本数量和测试样本数量比例例如为1：3。

可以理解的是，上述的比例仅是示例性的，在其他示例中，也可以对比例的数值进行修改，当然，也可以根据需要以其它方式进行训练样本和测试样本的划分。

在以上描述中，原始图像样本为各视图的原始图像样本。可以对原始图像样本进行处理得到训练样本和测试样本，例如：按照预设规则生成训练样本和测试样本，该示例中，预设规则可以是预设的训练样本数量和测试样本数量比例，如按照1：3的比例，将原始图像样本划分为训练样本和测试样本。

S102：基于训练样本矩阵和测试样本矩阵，获得训练样本和测试样本之间的数据点距离，并基于训练样本和测试样本之间的数据点距离，优化原始图像样本间的差异。

在本发明的一个实施例中，基于训练样本矩阵和测试样本矩阵，获得训练样本和测试样本之间的数据点距离，包括：获取训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示；基于训练样本矩阵的流形表示和测试样本矩阵的流形表示，得到训练样本和测试样本之间的数据点距离。

其中，基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异，可包括：基于所述训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示，获得流形优化传输问题的最优化函数，并基于所述最优化函数优化所述原始图像样本。

上述示例中，基于所述最优化函数优化所述原始图像样本，例如包括：根据所述训练样本和所述测试样本之间的数据点距离，求取所述最优化函数的最优解，以得到所述原始图像样本间的最优距离，并根据所述最优距离优化所述原始图像样本。

对于步骤S102而言，其原理是通过流形算法传输距离函数中的最优化问题，处理单个视图中的训练样本和测试样本，即：进行样本的优化。

具体来说，在训练样本和测试样本分布之间，匹配两个数据集(即：训练样本和测试样本)获得一个传输计划来解决两个数据集的差异问题。

需要说明的是，为了减少训练样本和测试样本之间的差异性对后续的分类和数据处理方面的影响，其中训练样本和测试样本也可以是重新构造的源数据集和目标数据集，例如：在训练样本中重新划分得到源数据集和目标数据集，当然，也可以是在测试样本中重新划分得到源数据集和目标数据集，当然，还可以是在原始图像样本的基础上，以其它方式划分的两个数据集。换言之，训练样本和所述测试样本为来自同一视图中的原始图像样本或者来自不同视图中的原始图像样本。

在以上描述中，在对各视图的原始图像样本的获取中，可以考虑在不同领域中获取的不同的数据集，作为训练样本和测试样本。比如，可以从相似但不一样的场景度量中获得数据集，或者从不同的主题中完成相似任务而获得的不同的数据集。

当然，在理想状态下，获取的两个数据集是相似的。然而，实际应用中，由于场景度量不同，获取的数据集通常有很大的差异性，而这些差异性通常会导致两个数据集的归一化效果不佳，使得对应的信息结构通常不能完全被提取出来用来分析。因此，本发明的实施例可以通过步骤S102对数据集进行优化，从而降低数据集的差异性。

在本发明的一个实施例中，采用流形方法来处理训练样本和测试样本，以减少训练样本和测试样本之间的差异性对分类和数据处理方面效果的影响，使得在训练样本和测试样本分布之间，可以匹配两个数据集获得一个传输计划来解决训练样本和测试样本之间的差异问题。

具体来说，为了方便描述，以下将训练样本矩阵记为P，将测试样本矩阵记为Q。当然，考虑到训练样本中多个视图的样本差异性，还可以将训练样本中部分样本作为源数据集，剩余样本作为目标数据集，以优化训练样本之间的传输距离；同样地，对于测试样本而言，也可以将测试样本中部分样本作为源数据集，剩余样本作为目标数据集，以优化测试样本之间的传输距离。

对于一个视频动作定位而言，视频集数据处理过程可以加入此特征改进，以获得更利于特征定位的数据集，包括训练样本和测试样本。比如，某个特定视图样本(篮球比赛视频帧通过归一向量化处理为对称矩阵)间对应的训练样本和测试样本可以通过本提案的流形方法最优化其传输距离，具体为：

通过训练样本矩阵P以及测试样本矩阵Q，获得数据的流形表示，该示例中，训练样本矩阵P可以是一个对称矩阵，且P∈R^d×d，当且仅当该矩阵只有正特征值时，P是一个正定矩阵。在d×d对称矩阵的向量空间中，所有对称正定矩阵集合组成一个凸半锥体。该锥体在正切空间T_Pp_d，即对称矩阵空间，通过如下的内积计算形成一个不同的流形p_d，其中，P∈p_d。

其中，P用来表示任意源和目标矩阵的对称矩阵表示，A,B∈T_Pp_d是对称矩阵，＜·,·＞表示欧式距离的内积计算符号。进而，获得比赛视频划分的训练样本矩阵和测试样本矩阵的流形表示。

接着，计算两个数据集(即训练样本和测试样本)之间的数据点距离。该示例中，p_d是一个特殊流形，有负截面曲率的完整流形，负曲率的流形对于任意两点之间的测量是很独特的。例如，用下式表示P∈p_d和Q∈p_d之间的测量计算：

通过该公式计算测量曲率的长度；

测量曲率的长度通过下面的距离公式来定义：

其中，||·||_F是F-范数，log(P)表示矩阵对数。

进而，获得比赛视频训练样本和测试样本间的数据点距离，或者部分训练样本及其剩余训练样本之间的数据点距离，部分测试样本及其剩余测试样本之间的数据点距离。

获得流形优化传输问题的最优化函数定义，该示例中，可以用(M,g)表示一个有度量g的定向流形，c(p,q)表示在M上从点p到点q移动一个质量单位的代价，点p和点q物理意义上表示流形平面内的两个独立的点，在数据集的表示中，表示源数据集和目标数据集中任意一个数据的向量，数据集中数据向量移动代价即为数据向量间移动一个数据维度的代价。考虑M的容积形式，定义两个完整连续的有限测量μ₁和μ₂，其密度分别定义为f₁和f₂。因此，优化传输问题可以认为是找到传输计划γ^*:M×M→R，可以解决如下问题：

计划γ的最小值满足f₁(q)＝∫_Mγ(·,q)和f₂(p)＝∫_Mγ(p,·)。上面的代价函数表示为c(p,q)＝d² _R(p,q)，其中，d_R(p,q)表示两点p,q∈M通过度量g计算得到的距离。从测量μ₁，μ₂的特定估计值可以获得上式中的唯一解γ^*，集中于一个可逆函数t:M→M，并且，对于测量集合有μ₂(V)＝μ₁(t^-1(V))。

从而，可获得流形优化传输问题的最优化函数定义，即：任意两个数据点之间的距离最优化，通过计算该函数最优解，可获得视频的图像样本之间的最优距离，也就是处理两个数据集，减少差异，为提取特征，获得更有特异性的特征，从而可以提高视频动作定位的准确率和特征提取中样本处理的效率。

在本发明的一个实施例中，考虑到离散点之间的传输代价，计算获得优化传输问题的传输计划，具体而言，如果两个测量密度是分别在N₁和N₂的两个离散点取样的，则可以通过向量和/>来表示，并且得到上式在离散场景下的表示：

其中，表示源集合N₁点和目标集合N₂点之间的传输代价，此处N₁和N₂的表示是为了和上述连续点的数据集的表示区分开，表示离散点之间的传输代价。

在以上描述中，考虑离散点之间的传输距离，是为了有效处理帧不连续的问题，因为在对视频帧的图像样本数据预处理时，默认对于一些不存在人物动作场景或者切换镜头的图像帧已经进行清洗，所以存在帧不连续的情况，考虑离散点的求解，即可减少数据集的差异性对分类和数据处理方面效果的影响，以此获得帧的图像样本数据点之间的特异性特征。

S103：基于优化后的原始图像样本进行特征提取和分类。其中，进行特征提取和分类属于现有技术，简单来说，首先，在对样本进行训练以获得投影变换矩阵的时候，引入最大间距准则，用于考虑鉴别信息。对目标函数进行求解，可以获得最新的样本投影矩阵，然后通过训练样本求出的投影矩阵，来对测试样本求其预测标签，并对其进行分类。考虑鉴别信息之后，对目标函数求解以获得新的样本投影矩阵以及标签投影矩阵。最后将上面求出的投影矩阵对样本进行投影，将其投影到低维空间，这样能够得到新的低维空间中存在的样本特征集合，最后对测试样本进行分类。

根据本发明实施例的图像的分类方法，通过流形学习方法对原始图像样本进行优化，能够找到高维数据结构内部的内在结构规律，以及在投影之前获取内部低维流形以及邻接信息，并且将获取到的流形信息很好的保留到投影后的低维数据空间中去，原始图像样本在通过非线性流形算法操作处理后，维度降低到低维空间之后，能够很好的保留原始高维样本数据中的内在邻接信息以及邻域结构，从而可以有效提取出视图的特征之间存在的鉴别信息，提高分类的效果，用于实际视频图像业务中，如视频人脸定位等，增加了用户粘性，提高了用户量。

下面对本发明提供的图像的分类装置进行描述，下文描述的图像的分类装置与上文描述的图像的分类方法可相互对应参照。

如图2所示，根据本发明一个实施例的图像的分类装置，包括：获取模块210、优化模块220和分类模块230，其中：

获取模块210，用于获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；

优化模块220，用于基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；

分类模块230，用于基于优化后的原始图像样本进行特征提取和分类。

根据本发明实施例的图像的分类装置，通过流形学习方法对原始图像样本进行优化，能够找到高维数据结构内部的内在结构规律，以及在投影之前获取内部低维流形以及邻接信息，并且将获取到的流形信息很好的保留到投影后的低维数据空间中去，原始图像样本在通过非线性流形算法操作处理后，维度降低到低维空间之后，能够很好的保留原始高维样本数据中的内在邻接信息以及邻域结构，从而可以有效提取出视图的特征之间存在的鉴别信息，提高分类的效果，用于实际视频图像业务中，如视频人脸定位等，增加了用户粘性，提高了用户量。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行图像的分类方法，该方法包括：获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；基于优化后的原始图像样本进行特征提取和分类。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像的分类方法，该方法包括：获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；基于优化后的原始图像样本进行特征提取和分类。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的图像的分类方法，该方法包括：获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵；基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，并基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异；基于优化后的原始图像样本进行特征提取和分类。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例的方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像的分类方法，其特征在于，包括：

基于优化后的原始图像样本进行特征提取和分类；

所述基于所述训练样本和所述测试样本之间的数据点距离，优化所述原始图像样本间的差异，包括：

基于所述训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示，获得流形优化传输问题的最优化函数定义，用表示一个有度量/>的定向流形，/>表示在/>上从点/>到点/>移动一个质量单位的代价，点/>和点/>物理意义上表示流形平面内的两个独立的点；定义两个完整连续的有限测量/>和/>，其密度分别定义为/>和/>；优化传输问题是找到传输计划/>，解决如下问题：

；

的最小值满足/>和/>，/>，其中，/>表示两点/>通过度量/>计算得到的距离；

从测量，/>的估计值获得上式中的唯一解/>，且对于测量集合/>有；并基于所述最优化函数优化所述原始图像样本。

2.根据权利要求1所述的图像的分类方法，其特征在于，所述基于所述训练样本矩阵和所述测试样本矩阵，获得所述训练样本和所述测试样本之间的数据点距离，包括：

3.根据权利要求1所述的图像的分类方法，其特征在于，所述基于所述最优化函数优化所述原始图像样本，包括：

4.根据权利要求1所述的图像的分类方法，其特征在于，获取原始图像样本中训练样本的训练样本矩阵以及测试样本的测试样本矩阵，包括：

5.根据权利要求4所述的图像的分类方法，其特征在于，所述预设的训练样本数量和测试样本数量比例为1：3。

6.根据权利要求1-5任一项所述的图像的分类方法，其特征在于，所述训练样本和所述测试样本为来自同一视图中的原始图像样本或者来自不同视图中的原始图像样本。

7.一种图像的分类装置，其特征在于，包括：

分类模块，用于基于优化后的原始图像样本进行特征提取和分类；

所述优化模块，还用于基于所述训练样本矩阵的流形表示以及所述测试样本矩阵的流形表示，获得流形优化传输问题的最优化函数定义，用表示一个有度量/>的定向流形，/>表示在/>上从点/>到点/>移动一个质量单位的代价，点/>和点/>物理意义上表示流形平面内的两个独立的点；定义两个完整连续的有限测量/>和/>，其密度分别定义为和/>；优化传输问题是找到传输计划/>，解决如下问题：

；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1至6任一项所述图像的分类方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1至6任一项所述图像的分类方法的步骤。