CN111860656A

CN111860656A - 分类器训练方法、装置、设备以及存储介质

Info

Publication number: CN111860656A
Application number: CN202010715621.3A
Authority: CN
Inventors: 孙翀; 毕建权; 王江晴; 李子茂; 帖军; 田莎莎; 何开杰
Original assignee: South Central University for Nationalities
Current assignee: Beijing Qingtai Data Technology Co ltd; South Central Minzu University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-10-30
Anticipated expiration: 2040-07-22
Also published as: CN111860656B

Abstract

本发明公开了一种分类器训练方法，所述方法包括以下步骤：获取训练样本，所述训练样本包括多个示例；对所述多个示例进行聚类，获得簇中心集；根据所述簇中心集，获得所述簇中心集的边集；根据所述边集和所述簇中心集构建图结构；利用所述图结构训练获得分类器。本发明还公开了一种分类器训练装置、设备以及存储介质。由于，在利用训练样本训练获得分类器之前，通过确定训练样本中的多示例的簇中心集，并构建簇中心集的图结构，发掘出训练样本簇中心集中的簇中心间的关系，使得利用图结构训练获得的分类器在进行数据分类时，数据的分类的准确率更高。

Description

分类器训练方法、装置、设备以及存储介质

技术领域

本发明涉及数据分类技术领域，特别涉及一种分类器训练方法、装置、设备以及存储介质。

背景技术

随着人工智能的发展，机器学习在人工智能领域占据着的核心地位，其中，多示例学习逐渐成为机器学习领域关注的一个研究热点。在多示例学习中，首先获得训练样本，其中，训练样本包含多个示例，然后将包括多个示例的训练样本输入分类器中进行训练，以获得结果分类器，然后利用获得的结果分类器进行数据分类。

但是，用上述方法训练获得的结果分类器对数据进行分类时，数据的分类结果准确率较差。

发明内容

本发明的主要目的是提供一种分类器训练方法、装置、设备以及存储介质，旨在解决现有技术中数据的分类结果准确率较差的技术问题。

为实现上述目的，本发明提出一种分类器训练方法，所述方法包括以下步骤：

获取训练样本，所述训练样本包括多个示例；

对所述多个示例进行聚类，获得簇中心集；

根据所述簇中心集，获得所述簇中心集的边集；

根据所述边集和所述簇中心集构建图结构；

利用所述图结构训练获得分类器。

可选的，所述利用所述图结构训练获得分类器的步骤包括：

将所述图结构输入图卷积神经网络中进行训练，获得分类器。

可选的，所述根据所述簇中心集，获得所述簇中心集的边集的步骤包括：

将所述簇中心集中满足预设条件的两个簇中心之间建立一条边，获得所述簇中心集的边集，所述预设条件为所述两个簇中心间的距离小于预设阈值。

可选的，所述将所述图结构输入图卷积神经网络中进行训练，以获得分类器的步骤包括：

根据所述边集，建立邻接矩阵；

将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练，获得所述簇中心集中各簇中心的重要度分数值；

将所述簇中心集中各簇中心按照所述重要度分数值从高到低进行排序，并获取重要度分数值排序前K的K个簇中心以及所述K个簇中心的子边集，K为不大于所述簇中心集中的簇中心数量的正整数；

根据所述K个簇中心以及所述子边集，对所述邻接矩阵和所述簇中心集进行更新，以获得更新后的图结构；

判断所述重要度分数值的维度是否等于预设类别数量；

若是，对所述更新后的图结构进行一次性融合，获得分类器。

可选的，所述判断所述重要度分数值的维度是否等于预设类别数量的步骤之后，所述方法还包括：

若否，则返回执行将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练，获得所述簇中心集中各簇中心的重要度分数值的步骤，循环至所述重要度分数值的维度等于预设类别数量。

可选的，所述根据所述边集，建立邻接矩阵的步骤包括：

所述根据所述边集和公式一，建立邻接矩阵；

所述公式一为：

其中，A_ij为所述邻接矩阵；v_ia,v_ib分别为所述簇中心任意2个簇中心，a≠b，E_i所述边集。

可选的，所述若是，对所述更新后的图结构进行一次性融合，获得分类器的步骤包括；

若是，利用全局最大池化与全局平均池化的拼接方式，对所述更新后的图结构进行一次性融合，获得分类器。

此外，为实现上述目的，本发明还提供了一种分类器训练装置，所述装置包括：

获取模块，用于获取训练样本，所述训练样本包括多个示例；

聚类模块，用于对所述多个示例进行聚类，获得簇中心集；

边集获得模块，用于根据所述簇中心集，获得所述簇中心集的边集；

构建模块，用于根据所述边集和所述簇中心集构建图结构；

分类器获得模块，用于利用所述图结构训练获得分类器。

此外，为实现上述目的，本发明还提供了一种分类器训练设备，，所述分类器训练设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任一项所述的分类器训练方法的步骤。

此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的分类器训练方法的步骤

本发明技术方案通过采用一种分类器训练方法，所述方法包括：获取训练样本，所述训练样本包括多个示例；对所述多个示例进行聚类，获得簇中心集；根据所述簇中心集，获得所述簇中心集的边集；根据所述边集和所述簇中心集构建图结构；利用所述图结构训练获得分类器。由于，在利用训练样本训练获得分类器之前，通过确定训练样本中的多示例的簇中心集，并构建簇中心集的图结构，发掘出训练样本簇中心集中的簇中心间的关系，使得利用图结构训练获得的分类器在进行数据分类时，数据的分类的准确率更高。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的分类器训练设备结构示意图；

图2为本发明分类器训练方法第一实施例的流程示意图；

图3为本发明的全局最大池化与全局平均池化拼接过程示意图；

图4为本发明分类器训练装置第一实施例的结构框图。

图5为本发明分类器与其他算法对应的分类器的执行效率对比图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着人工智能的发展，机器学习占据着人工智能的核心地位，也是目前计算机研究领域的热点之一。与此同时，多示例学习逐渐成为机器学习领域关注的一个研究热点。它有别于传统的有监督学习、无监督学习和半监督学习方法，被认为是一种新的学习框架。在多示例学习中，训练集由许多包组成，每个包中包含许多示例。如果一个包中至少包含一个正示例，则该包被标记为正包；否则，它被标记为负包。多示例学习的任务则是从训练中学习一些概念，用以正确标记未知的包。

令X＝R^d表示示例空间，我们定义D＝{(X₁,y₁),...,(X_i,y_i),...,(X_m,y_m)}表示具有m个包的MIL数据集，其中

被称为一个包，即本发明中的一个训练样本的特征向量，y_i∈Y＝{0,1}是X_i所属的标记；x_ij∈X是一个由d维特征向量表示的示例，即x_ij＝[x_ij1,...,x_ijl,...,x_ijd]′；p_i表示X_i中示例个数的总数。如果存在index∈{1,...,j,...,p_i}，使得x_i,index是一个正示例，则X_i是正包且y_i＝1；否则X_i是负包且y_i＝0。

在传统的多示例学习中，一般集中于非图结构的多示例学习算法研究。非图结构的多示例学习算法通常忽略了示例间的相关性，并且不能更好地表示示例间的逻辑关系。虽然，近年来已有专家学者利用图结构方法或聚类方法挖掘示例间的关系，使其可以提高模型分类的准确率。但是，由于包中选择代表示例的好坏直接影响模型分类的准确率，因此已有的基于图结构的多示例学习方法未充分考虑包中的示例选择问题；同时，基于包图结构建立分类器对模型的执行效率有直接的影响，目前已有的方法都是先通过对包图进行相似性匹配再利用诸如支持向量机SVM、神经网络等方法进行分类器的构建，其中，基于支持向量机SVM的多示例学习方法，虽然具有较好的泛化能力和小样本学习能力，但是带求解的目标函数很难直接计算，训练效率较低等问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的分类器训练设备结构示意图。

如图1所示，该分类器训练设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口以及无线接口，而用户接口1003的有线接口在本发明中可为通用串行总线(Universal Serial Bus，USB)接口。网络接口1004可选的可以包括标准的有线接口以及无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)；也可以是稳定的存储器，比如，非易失存储器(Non-volatile Memory)，具体可为，磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对分类器训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分类器训练程序。

在图1所示的分类器训练设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设；所述分类器训练设备通过处理器1001调用存储器1005中存储的分类器训练程序，并执行本发明实施例提供的分类器训练方法。

基于上述硬件结构，提出本发明分类器训练方法的实施例。

参照图2，图2为本发明分类器训练方法第一实施例的流程示意图，所述方法包括以下步骤：

步骤S11：获取训练样本，所述训练样本包括多个示例。

需要说明的是，本发明的训练样本数量可以是多个也可以是一个，本发明的一个训练样本可以是上文描述的一个包。本发明的训练样本可以是图片数据信息，也可以是分子结构数据信息，且作为样本文件的数据信息均是特征向量的格式。

在本实施例中我们定义一个训练样本为(X_i,y_i)，X_i中多个示例表示为

步骤S12：对所述多个示例进行聚类，获得簇中心集。

需要说明的是，簇中心集是指簇中心的特征向量。当训练样本的数量为1时，对该训练样本的多个示例进行聚类，获得该训练样本的簇中心集；当训练样本的数量为多个时，分别对每个训练样本的多个示例进行聚类，以获得每个训练样本各自的簇中心集。

进一步的，本发明利用局部k-means对训练样本包括的多个示例进行聚类，以获得训练样本的簇中心集。

需要说明的是，训练样本的数量为1时，直接利用k-means对训练样本包括的多个示例进行聚类；当训练样本的数量为多个时，利用k-means分别对每个训练样本的多个示例进行聚类。

参照表1，表1为本发明的基于簇中心的包图结构构建算法表，其中，对于带有标记的一组训练样本g_i，即第i个训练样本，执行表1中的2-15行，获得训练样本的特征向量X_i簇中心集合

并根据公式1确定g_i的簇中心集V_i，其中，x′_is为簇中心集合中的一个簇中心，其中，公式1为：

表1基于簇中心的包图结构构建算法

步骤S13：根据所述簇中心集，获得所述簇中心集的边集。

需要说明的是，根据簇中心集，建立边集，以发掘出簇中心间的关系。

进一步的，步骤S13包括：将所述簇中心集中满足预设条件的两个簇中心之间建立一条边，获得所述簇中心集的边集，所述预设条件为所述两个簇中心间的距离小于预设阈值。

需要说明的是，对于簇中心集中的所有簇中心均需要被用于判断是否满足预设条件，预设条件为：||v₁|-|v₂||<ε，其中v₁,v₂分别为两个簇中心，预设阈值为ε，本发明对预设阈值不作具体限定。

具体应用中，参照表1，执行表1中的16-26行，获得簇中心集的边集E_i；假设用一个二维坐标系表示每个x′_is的位置，则可以用coordinate_is[x][y]表示第i个训练样本第s个簇中心所在的位置值，其中，

例如，coordinate_i1[1][1]＝1，表示第i个训练样本中第1个超示例的位置值为1，如果存在任意2个簇中心x′_ia和x′_ib，a≠b，的coordinate_ia[x][y]，coordinate_ib[x][y]满足公式2，则在x′_ia和x′_ib间建立一条边，通过遍历X_i中所有的x′_is确定g_i中的E_i，其中，公式2为：

其中，a,b,c,d∈{1,2,...,n_i}且a≠b,c≠d，

coordinate_ia[x][y]表示一个簇中心x′_ia的位置值，coordinate_ib[x][y]表示另一个不同的簇中心x′_ib的位置，a≠b。

步骤S14：根据所述边集和所述簇中心集构建图结构。

需要说明的是，图结构是指训练样本的图结构，一个训练样本对应一个图结构。图结构包括簇中心集V_i和边集E_i。

步骤S15：利用所述图结构训练获得分类器。

需要说明的是，本法明的分类器可以是支持向量机SVM和神经网络。

进一步的步骤S15包括：将所述图结构输入图卷积神经网络中进行训练，获得分类器。

其中，基于图卷积神经网络的分类器，忽略了包图中簇中心数和边集中的边数对分类器影响，因此，在包图中簇中心数和边集中的边数较大时具有一定的优势，对训练样本的训练速度较快，训练速度高。

进一步的，步骤S15包括：

所述根据所述边集，建立邻接矩阵；将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练，获得所述簇中心集中各簇中心的重要度分数值；将所述簇中心集中各簇中心按照所述重要度分数值从高到低进行排序，并获取重要度分数值排序前K的K个簇中心以及所述K个簇中心的子边集，K为不大于所述簇中心集中的簇中心数量的正整数；根据所述K个簇中心以及所述子边集，对所述邻接矩阵和所述簇中心集进行更新，以获得更新后的图结构；判断所述重要度分数值的维度是否等于预设类别数量；若是，对所述更新后的图结构进行一次性融合，获得分类器。

首先，所述根据所述边集，建立邻接矩阵。需要说明的是，根据所述边集和公式3，建立邻接矩阵；

所述公式3为：

然后，将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练，获得所述簇中心集中各簇中心的重要度分数值。需要说明的是，在图卷积神经网络中利用公式4获得所述簇中心集中各簇中心的重要度分数值；

所述公式4为：

其中，

σ表示激活函数；

为重归一化拉普拉斯矩阵，

为

的度矩阵，A_ij∈R^n×n，

V_i为簇中心集；W∈R^F×1为权重参数，F为图卷积神经网络输入特征维度。

然后，将所述簇中心集中各簇中心按照所述重要度分数值从高到低进行排序，并获取重要度分数值排序前K的K个簇中心以及所述K个簇中心的子边集，K为不大于所述簇中心集中的簇中心数量的正整数。需要说明的是，在计算每个簇中心重要度分数的基础上，还考虑了训练样本图结构的不同尺度问题，即对于任意2个选两样本g_i和g_j，其中i≠j，存在n_i≠n_j和e_i≠e_j的情况，通过设置一个保留节点比例的超参数δ∈(0,1]，对每个z_scorej进行降排序，筛选前δn_i个节点进行特征的学习，其中K＝[δn_i],即不超过δn_i的最大整数。

再然后，根据所述K个簇中心以及所述子边集，对所述邻接矩阵和所述簇中心集进行更新，以获得更新后的图结构。需要说明的是，根据所述K个簇中心以及所述子边集，利用公式5对所述邻接矩阵和所述簇中心集进行更新，公式5为：

A′＝A_mask,mask,V′＝V_mask,:

A_mask,mask为所述子边集的邻接矩阵，A_mask,mask为所述前K个簇中心的索引mask对A_ij同时进行行切片和列切片后获得的邻接矩阵；V_mask,:为所述K个簇中心的组成的簇中心集，V_mask,:为前K个簇中心索引mask对V_i进行列切片后获得的簇中心集，A′为更新后的邻接矩阵，V′为更新后的簇中心集。更新后的图结构包括更新后的邻接矩阵和更新后的簇中心集。

再然后，判断所述重要度分数值的维度是否等于预设类别数量；若是，对所述更新后的图结构进行一次性融合，获得分类器；若否，则返回执行将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练，获得所述簇中心集中各簇中心的重要度分数值的步骤，循环至所述重要度分数值的维度等于预设类别数量。需要说明的是，预设类别数量即为训练样本的分类类别数量。

进一步的，若是，对所述更新后的图结构进行一次性融合，获得分类器还包括：

利用全局最大池化与全局平均池化的拼接方式，对所述更新后的图结构进行一次性融合，获得分类器。

需要说明的是，当训练样本的数量为1时，直接对更新后的图结构进行融合；当训练样本的数量为多个时，对多个训练样本更新后的图结构进行一次性的融合。参照图3，图3为本发明的全局最大池化与全局平均池化拼接过程示意图。

本实施例通过采用一种分类器训练方法，所述方法包括：获取训练样本，所述训练样本包括多个示例；对所述多个示例进行聚类，获得簇中心集；根据所述簇中心集，获得所述簇中心集的边集；根据所述边集和所述簇中心集构建图结构；利用所述图结构训练获得分类器。由于，在利用训练样本训练获得分类器之前，通过确定训练样本中的多示例的簇中心集，并构建簇中心集的图结构，发掘出训练样本簇中心集中的簇中心间的关系，使得利用图结构训练获得的分类器在进行数据分类时，数据的分类的准确率更高。

同时，采用图卷积神经网络作为分类器的初始模型，提高了分类器训练的效率，降低了分类器训练时间。

参照图4，图4为本发明分类器训练装置第一实施例的结构框图，所述装置包括

获取模块10，用于获取训练样本，所述训练样本包括多个示例；

聚类模块20，用于对所述多个示例进行聚类，获得簇中心集；

边集获得模块30，用于根据所述簇中心集，获得所述簇中心集的边集；

构建模块40，用于根据所述边集和所述簇中心集构建图结构；

分类器获得模块50，用于利用所述图结构训练获得分类器。

此外，为体现本发明的优势，本发明还提供了的实验过程与实验结果的分析，其中MIL-CGC为本发明的分类器训练方法。

1.数据集与实验环境

本文选取5个多示例训练样本(Musk1、Musk2、Elephant、Fox、Tiger)和1个真实图像数据集(2000-Image)对提出的算法进行评价。多示例训练样本的具体属性信息见表2。2000-Image图像数据集汇总包含20类COREL图像，每个类别由100张像素为64×96的彩色图像组成，每个图像都视为一个用于分类的数据包，图像中的每个段被视为一个示例。

表2多示例样本的具体属性信息

在实验中，本文使用10倍交叉验证来比较结果。我们将数据集分为10份，轮流将其中9份作为训练集，1份作为测试集，进行实验，将10次结果的准确率的平均值作为算法的评判指标，具体的计算如公式6所示，所述公式6是：

其中，N＝10，s_q表示第q次结果中所有X_i被正确分类的总数，t_q表示第q次结果中样本总数。

实验环境为16G内存的Windows10操作系统，其CPU为AMD Ryzen 5 4600U withRadeon Graphics，主频为2.10GHz，编程语言为Python 3.7.6。

2.实验结果与分析

本文的实验过程主要分为4个部分，第1部分是对数据集进行预处理，即确定每个输入数据集中示例规模的一致；第2部分是构建图结构，我们采用局部k-means方法获取每训练样本中的超示例，然后根据边成立的约束条件确定图结构，并根据训练/测试集所占比随机划分训练/测试集；第3部分为了保证实验对比的公平性，我们对基于多示例多标记的MGML-ELM*方法进行了单标记的条件约束，然后和MIL-CGC分别进行分类器构建；第4部分则是通过评判指标对实验结果进行分析与总结。

影响实验结果的参数主要有：示例的聚类数n，阈值β，图卷积隐藏层层数h，节点保留比δ.为了确定模型的最优分类准确率，本文实验依据表2的实验各参数取值范围分别对模型进行准确率的计算，其中，对于基准数据集，在n＝20,β＝1,h＝60,δ＝0.6时，可达到最优分类准确率；对于图像数据集，在n＝100,β＝1,h＝120,δ＝0.8时，可达到最佳分类准确率。

表2实验各参数取值范围

实验的对比结果见表3，通过在基准数据集和图像数据集上与MIGraph、miGraph、MIKI、MGML-ELM的比较，我们可以发现MIL-CGC在Musk1、Musk2数据集上没有MIGraph、miGraph和MIKI分类准确率高，造成这个结果可能是MIL-CGC在Musk1、Musk2数据集的预处理过程中存在一些不足，但是，在图像类数据集上相对其他3种方法具有很好的分类准确率，同时从所有数据集平均准确率的角度看，MIL-CGC具有一定的分类准确率优势。

表3基于各数据集下的各算法对应的分类器分类准确率(％)对比

MGML-ELM*算法表示对MGML-ELM进行单标记条件约束后的算法简称.

同时，为了验证MIL-CGC可以有效地提高算法的执行效率，分别在基准数据集和图像数据集上与MIGraph、miGraph、MGML-ELM*算法进行比较，对比结果如图5所示，图5为本发明分类器与其他算法对应的分类器的执行效率对比图，可以清晰地发现基于图像数据集，MIL-CGC算法相对于其他3种算法需要较少的运行时间，因此，MIL-CGC算法在处理规模较大的数据集上也具有一定的优势。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种分类器训练方法，其特征在于，所述方法包括以下步骤：

获取训练样本，所述训练样本包括多个示例；

对所述多个示例进行聚类，获得簇中心集；

根据所述簇中心集，获得所述簇中心集的边集；

根据所述边集和所述簇中心集构建图结构；

利用所述图结构训练获得分类器。

2.如权利要求1所述的分类器训练方法，其特征在于，所述利用所述图结构训练获得分类器的步骤包括：

3.如权利要求2所述的的分类器训练方法，其特征在于，所述根据所述簇中心集，获得所述簇中心集的边集的步骤包括：

4.如权利要2所述的分类器训练方法，其特征在于，所述将所述图结构输入图卷积神经网络中进行训练，获得分类器的步骤包括：

根据所述边集，建立邻接矩阵；

判断所述重要度分数值的维度是否等于预设类别数量；

5.如权利要求4所述的分类器训练方法，其特征在于，所述判断所述重要度分数值的维度是否等于预设类别数量的步骤之后，所述方法还包括：

6.如权利要求4所述的分类器训练方法，其特征在于，所述根据所述边集，建立邻接矩阵的步骤包括：

所述根据所述边集和公式一，建立邻接矩阵；

所述公式一为：

7.如权利要求4所述的分类器训练方法，其特征在于，所述若是，对所述更新后的图结构进行一次性融合，获得分类器的步骤包括；

8.一种分类器训练装置，其特征在于，所述装置包括：

聚类模块，用于对所述多个示例进行聚类，获得簇中心集；

构建模块，用于根据所述边集和所述簇中心集构建图结构；

分类器获得模块，用于利用所述图结构训练获得分类器。

9.一种分类器训练设备，其特征在于，所述分类器训练设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的分类器训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的分类器训练方法的步骤。