CN108710907B

CN108710907B - 手写体数据分类方法、模型训练方法、装置、设备及介质

Info

Publication number: CN108710907B
Application number: CN201810461229.3A
Authority: CN
Inventors: 张莉; 徐志强; 王邦军; 张召; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2022-05-17
Anticipated expiration: 2038-05-15
Also published as: CN108710907A

Abstract

本申请公开了一种手写体数据分类方法、模型训练方法、装置、设备及介质，包括：获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集；对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集；利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型。本申请在获取到原始训练样本集之后，会对原始训练样本集进行去噪处理，并且只保留能够保持流形结构的非噪声数据，从而降低了用于训练模型的样本数据的冗余度，减少样本数据量的同时还提升了样本数据的准确度，由此使得后续训练得到的模型具有非常出色的分类精度。

Description

手写体数据分类方法、模型训练方法、装置、设备及介质

技术领域

本申请涉及数据分类技术领域，特别涉及一种手写体数据分类方法、模型训练方法、装置、设备及介质。

背景技术

在现有的对手写体数据进行分类的技术中，通常会直接利用采集到的原始数据来构建分类器模型，或者在构建分类器模型之前先利用随机采集方式或K均值聚类算法来实现减少原始数据量的效果。然而，不论是上述的哪种模型构建方式，所构建出来的分类器模型的分类精确度还比较低，很难适应实际的应用需要。

综上，如何提升手写体数据分类结果的精确度是目前有待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种手写体数据分类方法、模型训练方法、装置、设备及介质，能够有效提升手写体数据分类结果的精确度。其具体方案如下：

第一方面，本申请公开了一种手写体数据分类模型训练方法，包括：

获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集；

对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集；

利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型。

可选的，所述对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集，包括：

步骤A1：分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量；

步骤A2：基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵；

步骤A3：分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加，得到当前所述原始训练样本集中每个原始训练样本的度；

步骤A4：从当前所述原始训练样本集中确定出度最大的原始训练样本，得到相应的当前目标样本；

步骤A5：将当前目标样本保存至预设样本集中，并将当前目标样本从当前所述原始训练样本集中剔除，得到更新后的所述原始训练样本集，以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵；

步骤A6：判断当前所述预设样本集中样本数量是否为第一预设数量，如果否，则重新进入步骤A3，直到所述预设样本集中样本数量为所述第一预设数量为止，然后将所述预设样本集确定为所述处理后训练样本集。

可选的，所述分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量，包括：

确定所述原始训练样本集中每一原始训练样本的第二预设数量的近邻样本；

利用第一预设公式，确定出所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量；

其中，所述第一预设公式为：

式中，y_i表示所述原始训练样本集中第i个原始训练样本的手写体类别标签，n表示所述原始训练样本集中的原始训练样本的数量，

表示第i个原始训练样本的第s个近邻样本的手写体类别标签，k表示所述第二预设数量，q_i表示所述原始训练样本集中第i个原始训练样本的手写体类别标签的标签质量。

可选的，所述基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵，包括：

利用第二预设公式，确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵；

其中，所述第二预设公式为：

式中，x_i表示所述原始训练样本集中的第i个原始训练样本，x_j表示所述原始训练样本集中的第j个原始训练样本，W_ij表示第i个原始训练样本与第j个原始训练样本的权重系数，σ表示高斯核函数的宽度参数。

可选的，所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵，包括：

从当前所述权重矩阵中去除与当前目标样本x_p对应的第p行权重系数和第p列权重系数，得到更新后的所述权重矩阵；

其中，

式中，X表示当前所述原始训练样本集，d(x_i)表示当前所述原始训练样本集中的第i个原始训练样本的度。

第二方面，本申请公开了一种手写体数据分类方法，包括：

获取待分类手写体数据；

将所述待分类手写体数据输入至利用如前述公开的手写体数据分类模型训练方法得到的训练后模型，得到相应的手写体分类结果。

第三方面，本申请公开了一种手写体数据分类模型训练装置，包括：

样本集获取模块，用于获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集；

数据预处理模块，用于对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集；

模型训练模块，用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型。

第四方面，本申请公开了一种手写体数据分类装置，包括：

数据获取模块，用于获取待分类手写体数据；

数据分类模块，用于将所述待分类手写体数据输入至利用如前述公开的手写体数据分类模型训练装置得到的训练后模型，得到相应的手写体分类结果。

第五方面，本申请公开了一种手写体数据分类模型训练设备，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如前述公开的手写体数据分类模型训练方法。

第六方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序被处理器执行时实现如前述公开的手写体数据分类模型训练方法。

可见，本申请在进行模型训练之前，先对原始训练样本集进行数据预处理，以从原始训练样本集中选取出能够保持流形结构的非噪声数据，然后利用上述处理后得到的训练样本集进行稀疏支持向量机模型的训练，从而得到相应的训练后模型，由此可知，本申请在获取到原始训练样本集之后，会对原始训练样本集进行去噪处理，并且只保留能够保持流形结构的非噪声数据，从而降低了用于训练模型的样本数据的冗余度，减少样本数据量的同时还提升了样本数据的准确度，由此使得后续训练得到的模型具有非常出色的分类精度。也即，本申请中的技术方案提升了手写体数据分类结果的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种手写体数据分类模型训练方法流程图；

图2为本申请公开的一种具体的手写体数据分类模型训练方法流程图；

图3为本申请公开的一种手写体数据分类方法流程图；

图4为本申请公开的一种手写体数据分类模型训练装置结构示意图；

图5为本申请公开的一种手写体数据分类装置结构示意图；

图6为本申请公开的三种分类方法精确度比较示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种手写体数据分类模型训练方法，参见图1所示，该方法包括：

步骤S11：获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集。

本实施例中，原始训练样本集中包括多个类别的手写体数据样本以及与每个手写体样本对应的类别标签，例如，在一种具体实施方式中，上述原始训练样本集中可以包括手写体“1”、“2”、“3”、“4”和“5”等五种手写体数据样本，以及与上述五种手写体分别一一对应的五种标签。

步骤S12：对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集。

也即，本实施例步骤S12中，对原始训练样本集进行数据预处理，目的是为了从原始训练样本集中选取出非噪声的流形数据，从而得到上述处理后训练样本集。

步骤S13：利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型。

本实施例中，用于对手写体数据进行分类的分类器模型是基于稀疏支持向量机的模型。在得到上述处理后训练样本集之后，本实施例将利用上述处理后训练样本集进行稀疏支持向量机模型的训练，从而得到能够对待分类手写体数据进行分类的训练后模型。

可见，本申请实施例在进行模型训练之前，先对原始训练样本集进行数据预处理，以从原始训练样本集中选取出能够保持流形结构的非噪声数据，然后利用上述处理后得到的训练样本集进行稀疏支持向量机模型的训练，从而得到相应的训练后模型，由此可知，本申请实施例在获取到原始训练样本集之后，会对原始训练样本集进行去噪处理，并且只保留能够保持流形结构的非噪声数据，从而降低了用于训练模型的样本数据的冗余度，减少样本数据量的同时还提升了样本数据的准确度，由此使得后续训练得到的模型具有非常出色的分类精度。也即，本申请实施例中的技术方案提升了手写体数据分类结果的精确度。

参见图2所示，本申请实施例公开了一种具体的手写体数据分类模型训练方法，包括：

步骤A1：分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量。

其中，上述步骤A1，具体可以包括：

确定所述原始训练样本集中每一原始训练样本的第二预设数量的近邻样本；利用第一预设公式，确定出所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量；

其中，所述第一预设公式为：

步骤A2：基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵。

其中，上述步骤A2，具体可以包括：

其中，所述第二预设公式为：

式中，x_i表示所述原始训练样本集中的第i个原始训练样本，x_j表示所述原始训练样本集中的第j个原始训练样本，W_ij表示第i个原始训练样本与第j个原始训练样本的权重系数，σ表示高斯核函数的宽度参数。本实施例中，任意两个原始训练样本的权重系数反映了这两个原始训练样本的相似度，因此本实施例的权重矩阵本质上就是相似度矩阵，该矩阵中的各个元素反映了相应原始训练样本之间的相似度。

可以理解的是，通过上述第二预设公式，可以构建得到权重矩阵W，其中，所述权重矩阵中的第i行第j列对应的元素即为W_ij。

步骤A3：分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加，得到当前所述原始训练样本集中每个原始训练样本的度。

也即，本实施例可以通过下面的公式计算当前所述原始训练样本集中每个原始训练样本的度：

式中，n′表示当前所述原始训练样本集中原始训练样本的数量，d(x_i)表示当前所述原始训练样本集中的第i个原始训练样本的度。

步骤A4：从当前所述原始训练样本集中确定出度最大的原始训练样本，得到相应的当前目标样本。

步骤A5：将当前目标样本保存至预设样本集中，并将当前目标样本从当前所述原始训练样本集中剔除，得到更新后的所述原始训练样本集，以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵。

其中，所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵，具体可以包括：

其中，

进一步的，本申请还公开了一种手写体数据分类方法，参见图3所示，该方法包括：

步骤S21：获取待分类手写体数据；

步骤S22：将所述待分类手写体数据输入至利用前述手写体数据分类模型训练方法得到的训练后模型，得到相应的手写体分类结果。

关于上述手写体数据分类模型训练方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

相应的，本申请实施例还公开了一种手写体数据分类模型训练装置，参见图4所示，该装置包括：

样本集获取模块11，用于获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集；

数据预处理模块12，用于对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集；

模型训练模块13，用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型。

关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

相应的，本申请实施例还公开了一种手写体数据分类装置，参见图5所示，该装置包括：

数据获取模块21，用于获取待分类手写体数据；

数据分类模块22，用于将所述待分类手写体数据输入至利用前述手写体数据分类模型训练装置得到的训练后模型，得到相应的手写体分类结果。

关于上述手写体数据分类模型训练装置的更具体的构造可以参考前述实施例公开的相应内容，在此不再进行赘述。

进一步的，本申请还公开了一种手写体数据分类模型训练设备，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现前述手写体数据分类模型训练方法。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序被处理器执行时实现前述实施例公开的手写体数据分类模型训练方法。

下面对本申请技术方案的应用实例作详细说明：本应用实例在以本申请技术方案为前提下进行实施，给出了详细的实施方式和过程，但本申请的保护范围不限于下述的应用实例。

本申请在手写体数据集MINST上进行了测试，该数据集包含60000个训练样本和10000个测试样本，从中挑选手写体数字“3”和“8”这两个类别的手写体，共有11982的训练样本和1984个测试样本。每个图像包含28×28个像素。本应用实例随机对每类抽取百分之10的样本作为训练样本，则训练集包含1198个样本，其中613个样本为手写体数字“3”，其余的样本为手写体数字“8”。

具体实施步骤如下：

第一、数据预处理模块：

1)输入两类手写体数据训练样本集

其中x_i∈R^d，y_i是x_i的标签，表明x_i的类别，y_i∈{-1,+1}，n是训练样本的总个数，d是样本的维数。这里n＝1198，d＝784。

2)对训练样本集构造权值矩阵W：

(1)预先确定第二预设数量k，这里k＝3。

(2)确定样本点x_i的标签质量：

式中，

表示第i个原始训练样本的第s个近邻样本的手写体类别标签，j＝1,...k。

(3)x_i和x_j之间的权重由下式确定：

3)选取训练样本。

(1)预先确定第一预设数量m，并初始化预设样本集

(2)根据下式计算出当前训练样本集X中每个训练样本x_i的度：

式中，n′表示当前训练样本集中训练样本的数量。

(3)将拥有最大度的训练样本挑选出来放入预设样本集

中，并从当前训练样本集X中剔除，得到更新后的训练样本集。也即，如果

则

X＝X-{(x_p,y_p)}，并且把W矩阵中第p行和第p列均去掉，使之成为一个新的权重矩阵。

(4)若预设样本集

中的样本个数为m，则结束，否则转到步骤(2)。

第二、模型训练：

对上述预处理后得到的预设样本集

采用稀疏支持向量机分类器对之进行建模，则获得的模型函数为f(x)。

第三、类别预测：

输入待分类的手写体数据x_t，其中x_t∈R^d。把x_t输入到稀疏支持向量机模型中，得到

则

的值就是对待分类手写体x_t的分类结果。

本申请对1984个784维的测试样本进行分类，对比方法有随机取样算法(Ran)，图约减算法(MPGR)。分类器为稀疏支持向量机。随机取1198个训练样本10次，图6给出了三种方法各自在选取不同数量目标数据集样本个数时，稀疏支持向量机的分类精确度。很明显，本申请的分类表现明显优于其他两种方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种手写体数据分类方法、模型训练方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手写体数据分类模型训练方法，其特征在于，包括：

利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型；

其中，所述对所述原始训练样本集进行数据预处理，以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据，得到处理后训练样本集，包括：

2.根据权利要求1所述的手写体数据分类模型训练方法，其特征在于，所述分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量，包括：

其中，所述第一预设公式为：

3.根据权利要求2所述的手写体数据分类模型训练方法，其特征在于，所述基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵，包括：

其中，所述第二预设公式为：

4.根据权利要求3所述的手写体数据分类模型训练方法，其特征在于，所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵，包括：

其中，

5.一种手写体数据分类方法，其特征在于，包括：

获取待分类手写体数据；

将所述待分类手写体数据输入至利用如权利要求1至4任一项所述的手写体数据分类模型训练方法得到的训练后模型，得到相应的手写体分类结果。

6.一种手写体数据分类模型训练装置，其特征在于，包括：

模型训练模块，用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练，得到训练后模型；

其中，所述数据预处理模块，具体用于：

步骤A1：分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量；步骤A2：基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数，以构成相应的权重矩阵；步骤A3：分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加，得到当前所述原始训练样本集中每个原始训练样本的度；步骤A4：从当前所述原始训练样本集中确定出度最大的原始训练样本，得到相应的当前目标样本；步骤A5：将当前目标样本保存至预设样本集中，并将当前目标样本从当前所述原始训练样本集中剔除，得到更新后的所述原始训练样本集，以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除，得到更新后的所述权重矩阵；步骤A6：判断当前所述预设样本集中样本数量是否为第一预设数量，如果否，则重新进入步骤A3，直到所述预设样本集中样本数量为所述第一预设数量为止，然后将所述预设样本集确定为所述处理后训练样本集。

7.一种手写体数据分类装置，其特征在于，包括：

数据获取模块，用于获取待分类手写体数据；

数据分类模块，用于将所述待分类手写体数据输入至利用如权利要求6所述的手写体数据分类模型训练装置得到的训练后模型，得到相应的手写体分类结果。

8.一种手写体数据分类模型训练设备，其特征在于，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至4任一项所述的手写体数据分类模型训练方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的手写体数据分类模型训练方法。