CN108710907B - 手写体数据分类方法、模型训练方法、装置、设备及介质 - Google Patents

手写体数据分类方法、模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN108710907B
CN108710907B CN201810461229.3A CN201810461229A CN108710907B CN 108710907 B CN108710907 B CN 108710907B CN 201810461229 A CN201810461229 A CN 201810461229A CN 108710907 B CN108710907 B CN 108710907B
Authority
CN
China
Prior art keywords
original training
training sample
sample set
handwriting
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810461229.3A
Other languages
English (en)
Other versions
CN108710907A (zh
Inventor
张莉
徐志强
王邦军
张召
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810461229.3A priority Critical patent/CN108710907B/zh
Publication of CN108710907A publication Critical patent/CN108710907A/zh
Application granted granted Critical
Publication of CN108710907B publication Critical patent/CN108710907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种手写体数据分类方法、模型训练方法、装置、设备及介质,包括:获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。本申请在获取到原始训练样本集之后,会对原始训练样本集进行去噪处理,并且只保留能够保持流形结构的非噪声数据,从而降低了用于训练模型的样本数据的冗余度,减少样本数据量的同时还提升了样本数据的准确度,由此使得后续训练得到的模型具有非常出色的分类精度。

Description

手写体数据分类方法、模型训练方法、装置、设备及介质
技术领域
本申请涉及数据分类技术领域,特别涉及一种手写体数据分类方法、模型训练方法、装置、设备及介质。
背景技术
在现有的对手写体数据进行分类的技术中,通常会直接利用采集到的原始数据来构建分类器模型,或者在构建分类器模型之前先利用随机采集方式或K均值聚类算法来实现减少原始数据量的效果。然而,不论是上述的哪种模型构建方式,所构建出来的分类器模型的分类精确度还比较低,很难适应实际的应用需要。
综上,如何提升手写体数据分类结果的精确度是目前有待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种手写体数据分类方法、模型训练方法、装置、设备及介质,能够有效提升手写体数据分类结果的精确度。其具体方案如下:
第一方面,本申请公开了一种手写体数据分类模型训练方法,包括:
获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;
对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;
利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。
可选的,所述对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集,包括:
步骤A1:分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;
步骤A2:基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;
步骤A3:分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加,得到当前所述原始训练样本集中每个原始训练样本的度;
步骤A4:从当前所述原始训练样本集中确定出度最大的原始训练样本,得到相应的当前目标样本;
步骤A5:将当前目标样本保存至预设样本集中,并将当前目标样本从当前所述原始训练样本集中剔除,得到更新后的所述原始训练样本集,以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵;
步骤A6:判断当前所述预设样本集中样本数量是否为第一预设数量,如果否,则重新进入步骤A3,直到所述预设样本集中样本数量为所述第一预设数量为止,然后将所述预设样本集确定为所述处理后训练样本集。
可选的,所述分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量,包括:
确定所述原始训练样本集中每一原始训练样本的第二预设数量的近邻样本;
利用第一预设公式,确定出所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;
其中,所述第一预设公式为:
Figure BDA0001660957520000021
式中,yi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签,n表示所述原始训练样本集中的原始训练样本的数量,
Figure BDA0001660957520000022
表示第i个原始训练样本的第s个近邻样本的手写体类别标签,k表示所述第二预设数量,qi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签的标签质量。
可选的,所述基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵,包括:
利用第二预设公式,确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;
其中,所述第二预设公式为:
Figure BDA0001660957520000031
式中,xi表示所述原始训练样本集中的第i个原始训练样本,xj表示所述原始训练样本集中的第j个原始训练样本,Wij表示第i个原始训练样本与第j个原始训练样本的权重系数,σ表示高斯核函数的宽度参数。
可选的,所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵,包括:
从当前所述权重矩阵中去除与当前目标样本xp对应的第p行权重系数和第p列权重系数,得到更新后的所述权重矩阵;
其中,
Figure BDA0001660957520000032
式中,X表示当前所述原始训练样本集,d(xi)表示当前所述原始训练样本集中的第i个原始训练样本的度。
第二方面,本申请公开了一种手写体数据分类方法,包括:
获取待分类手写体数据;
将所述待分类手写体数据输入至利用如前述公开的手写体数据分类模型训练方法得到的训练后模型,得到相应的手写体分类结果。
第三方面,本申请公开了一种手写体数据分类模型训练装置,包括:
样本集获取模块,用于获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;
数据预处理模块,用于对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;
模型训练模块,用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。
第四方面,本申请公开了一种手写体数据分类装置,包括:
数据获取模块,用于获取待分类手写体数据;
数据分类模块,用于将所述待分类手写体数据输入至利用如前述公开的手写体数据分类模型训练装置得到的训练后模型,得到相应的手写体分类结果。
第五方面,本申请公开了一种手写体数据分类模型训练设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如前述公开的手写体数据分类模型训练方法。
第六方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时实现如前述公开的手写体数据分类模型训练方法。
可见,本申请在进行模型训练之前,先对原始训练样本集进行数据预处理,以从原始训练样本集中选取出能够保持流形结构的非噪声数据,然后利用上述处理后得到的训练样本集进行稀疏支持向量机模型的训练,从而得到相应的训练后模型,由此可知,本申请在获取到原始训练样本集之后,会对原始训练样本集进行去噪处理,并且只保留能够保持流形结构的非噪声数据,从而降低了用于训练模型的样本数据的冗余度,减少样本数据量的同时还提升了样本数据的准确度,由此使得后续训练得到的模型具有非常出色的分类精度。也即,本申请中的技术方案提升了手写体数据分类结果的精确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种手写体数据分类模型训练方法流程图;
图2为本申请公开的一种具体的手写体数据分类模型训练方法流程图;
图3为本申请公开的一种手写体数据分类方法流程图;
图4为本申请公开的一种手写体数据分类模型训练装置结构示意图;
图5为本申请公开的一种手写体数据分类装置结构示意图;
图6为本申请公开的三种分类方法精确度比较示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种手写体数据分类模型训练方法,参见图1所示,该方法包括:
步骤S11:获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集。
本实施例中,原始训练样本集中包括多个类别的手写体数据样本以及与每个手写体样本对应的类别标签,例如,在一种具体实施方式中,上述原始训练样本集中可以包括手写体“1”、“2”、“3”、“4”和“5”等五种手写体数据样本,以及与上述五种手写体分别一一对应的五种标签。
步骤S12:对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集。
也即,本实施例步骤S12中,对原始训练样本集进行数据预处理,目的是为了从原始训练样本集中选取出非噪声的流形数据,从而得到上述处理后训练样本集。
步骤S13:利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。
本实施例中,用于对手写体数据进行分类的分类器模型是基于稀疏支持向量机的模型。在得到上述处理后训练样本集之后,本实施例将利用上述处理后训练样本集进行稀疏支持向量机模型的训练,从而得到能够对待分类手写体数据进行分类的训练后模型。
可见,本申请实施例在进行模型训练之前,先对原始训练样本集进行数据预处理,以从原始训练样本集中选取出能够保持流形结构的非噪声数据,然后利用上述处理后得到的训练样本集进行稀疏支持向量机模型的训练,从而得到相应的训练后模型,由此可知,本申请实施例在获取到原始训练样本集之后,会对原始训练样本集进行去噪处理,并且只保留能够保持流形结构的非噪声数据,从而降低了用于训练模型的样本数据的冗余度,减少样本数据量的同时还提升了样本数据的准确度,由此使得后续训练得到的模型具有非常出色的分类精度。也即,本申请实施例中的技术方案提升了手写体数据分类结果的精确度。
参见图2所示,本申请实施例公开了一种具体的手写体数据分类模型训练方法,包括:
步骤S11:获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集。
步骤A1:分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量。
其中,上述步骤A1,具体可以包括:
确定所述原始训练样本集中每一原始训练样本的第二预设数量的近邻样本;利用第一预设公式,确定出所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;
其中,所述第一预设公式为:
Figure BDA0001660957520000061
式中,yi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签,n表示所述原始训练样本集中的原始训练样本的数量,
Figure BDA0001660957520000062
表示第i个原始训练样本的第s个近邻样本的手写体类别标签,k表示所述第二预设数量,qi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签的标签质量。
步骤A2:基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵。
其中,上述步骤A2,具体可以包括:
利用第二预设公式,确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;
其中,所述第二预设公式为:
Figure BDA0001660957520000071
式中,xi表示所述原始训练样本集中的第i个原始训练样本,xj表示所述原始训练样本集中的第j个原始训练样本,Wij表示第i个原始训练样本与第j个原始训练样本的权重系数,σ表示高斯核函数的宽度参数。本实施例中,任意两个原始训练样本的权重系数反映了这两个原始训练样本的相似度,因此本实施例的权重矩阵本质上就是相似度矩阵,该矩阵中的各个元素反映了相应原始训练样本之间的相似度。
可以理解的是,通过上述第二预设公式,可以构建得到权重矩阵W,其中,所述权重矩阵中的第i行第j列对应的元素即为Wij
步骤A3:分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加,得到当前所述原始训练样本集中每个原始训练样本的度。
也即,本实施例可以通过下面的公式计算当前所述原始训练样本集中每个原始训练样本的度:
Figure BDA0001660957520000072
式中,n′表示当前所述原始训练样本集中原始训练样本的数量,d(xi)表示当前所述原始训练样本集中的第i个原始训练样本的度。
步骤A4:从当前所述原始训练样本集中确定出度最大的原始训练样本,得到相应的当前目标样本。
步骤A5:将当前目标样本保存至预设样本集中,并将当前目标样本从当前所述原始训练样本集中剔除,得到更新后的所述原始训练样本集,以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵。
其中,所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵,具体可以包括:
从当前所述权重矩阵中去除与当前目标样本xp对应的第p行权重系数和第p列权重系数,得到更新后的所述权重矩阵;
其中,
Figure BDA0001660957520000081
式中,X表示当前所述原始训练样本集,d(xi)表示当前所述原始训练样本集中的第i个原始训练样本的度。
步骤A6:判断当前所述预设样本集中样本数量是否为第一预设数量,如果否,则重新进入步骤A3,直到所述预设样本集中样本数量为所述第一预设数量为止,然后将所述预设样本集确定为所述处理后训练样本集。
步骤S13:利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。
进一步的,本申请还公开了一种手写体数据分类方法,参见图3所示,该方法包括:
步骤S21:获取待分类手写体数据;
步骤S22:将所述待分类手写体数据输入至利用前述手写体数据分类模型训练方法得到的训练后模型,得到相应的手写体分类结果。
关于上述手写体数据分类模型训练方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
相应的,本申请实施例还公开了一种手写体数据分类模型训练装置,参见图4所示,该装置包括:
样本集获取模块11,用于获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;
数据预处理模块12,用于对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;
模型训练模块13,用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型。
关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
相应的,本申请实施例还公开了一种手写体数据分类装置,参见图5所示,该装置包括:
数据获取模块21,用于获取待分类手写体数据;
数据分类模块22,用于将所述待分类手写体数据输入至利用前述手写体数据分类模型训练装置得到的训练后模型,得到相应的手写体分类结果。
关于上述手写体数据分类模型训练装置的更具体的构造可以参考前述实施例公开的相应内容,在此不再进行赘述。
进一步的,本申请还公开了一种手写体数据分类模型训练设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述手写体数据分类模型训练方法。
关于上述手写体数据分类模型训练方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时实现前述实施例公开的手写体数据分类模型训练方法。
关于上述手写体数据分类模型训练方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
下面对本申请技术方案的应用实例作详细说明:本应用实例在以本申请技术方案为前提下进行实施,给出了详细的实施方式和过程,但本申请的保护范围不限于下述的应用实例。
本申请在手写体数据集MINST上进行了测试,该数据集包含60000个训练样本和10000个测试样本,从中挑选手写体数字“3”和“8”这两个类别的手写体,共有11982的训练样本和1984个测试样本。每个图像包含28×28个像素。本应用实例随机对每类抽取百分之10的样本作为训练样本,则训练集包含1198个样本,其中613个样本为手写体数字“3”,其余的样本为手写体数字“8”。
具体实施步骤如下:
第一、数据预处理模块:
1)输入两类手写体数据训练样本集
Figure BDA0001660957520000101
其中xi∈Rd,yi是xi的标签,表明xi的类别,yi∈{-1,+1},n是训练样本的总个数,d是样本的维数。这里n=1198,d=784。
2)对训练样本集构造权值矩阵W:
(1)预先确定第二预设数量k,这里k=3。
(2)确定样本点xi的标签质量:
Figure BDA0001660957520000102
式中,
Figure BDA0001660957520000103
表示第i个原始训练样本的第s个近邻样本的手写体类别标签,j=1,...k。
(3)xi和xj之间的权重由下式确定:
Figure BDA0001660957520000104
3)选取训练样本。
(1)预先确定第一预设数量m,并初始化预设样本集
Figure BDA0001660957520000105
(2)根据下式计算出当前训练样本集X中每个训练样本xi的度:
Figure BDA0001660957520000106
式中,n′表示当前训练样本集中训练样本的数量。
(3)将拥有最大度的训练样本挑选出来放入预设样本集
Figure BDA0001660957520000107
中,并从当前训练样本集X中剔除,得到更新后的训练样本集。也即,如果
Figure BDA0001660957520000108
Figure BDA0001660957520000109
X=X-{(xp,yp)},并且把W矩阵中第p行和第p列均去掉,使之成为一个新的权重矩阵。
(4)若预设样本集
Figure BDA00016609575200001010
中的样本个数为m,则结束,否则转到步骤(2)。
第二、模型训练:
对上述预处理后得到的预设样本集
Figure BDA0001660957520000111
采用稀疏支持向量机分类器对之进行建模,则获得的模型函数为f(x)。
第三、类别预测:
输入待分类的手写体数据xt,其中xt∈Rd。把xt输入到稀疏支持向量机模型中,得到
Figure BDA0001660957520000112
Figure BDA0001660957520000113
的值就是对待分类手写体xt的分类结果。
本申请对1984个784维的测试样本进行分类,对比方法有随机取样算法(Ran),图约减算法(MPGR)。分类器为稀疏支持向量机。随机取1198个训练样本10次,图6给出了三种方法各自在选取不同数量目标数据集样本个数时,稀疏支持向量机的分类精确度。很明显,本申请的分类表现明显优于其他两种方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种手写体数据分类方法、模型训练方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种手写体数据分类模型训练方法,其特征在于,包括:
获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;
对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;
利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型;
其中,所述对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集,包括:
步骤A1:分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;
步骤A2:基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;
步骤A3:分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加,得到当前所述原始训练样本集中每个原始训练样本的度;
步骤A4:从当前所述原始训练样本集中确定出度最大的原始训练样本,得到相应的当前目标样本;
步骤A5:将当前目标样本保存至预设样本集中,并将当前目标样本从当前所述原始训练样本集中剔除,得到更新后的所述原始训练样本集,以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵;
步骤A6:判断当前所述预设样本集中样本数量是否为第一预设数量,如果否,则重新进入步骤A3,直到所述预设样本集中样本数量为所述第一预设数量为止,然后将所述预设样本集确定为所述处理后训练样本集。
2.根据权利要求1所述的手写体数据分类模型训练方法,其特征在于,所述分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量,包括:
确定所述原始训练样本集中每一原始训练样本的第二预设数量的近邻样本;
利用第一预设公式,确定出所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;
其中,所述第一预设公式为:
Figure FDA0003501452570000021
式中,yi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签,n表示所述原始训练样本集中的原始训练样本的数量,
Figure FDA0003501452570000022
表示第i个原始训练样本的第s个近邻样本的手写体类别标签,k表示所述第二预设数量,qi表示所述原始训练样本集中第i个原始训练样本的手写体类别标签的标签质量。
3.根据权利要求2所述的手写体数据分类模型训练方法,其特征在于,所述基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵,包括:
利用第二预设公式,确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;
其中,所述第二预设公式为:
Figure FDA0003501452570000023
式中,xi表示所述原始训练样本集中的第i个原始训练样本,xj表示所述原始训练样本集中的第j个原始训练样本,Wij表示第i个原始训练样本与第j个原始训练样本的权重系数,σ表示高斯核函数的宽度参数。
4.根据权利要求3所述的手写体数据分类模型训练方法,其特征在于,所述将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵,包括:
从当前所述权重矩阵中去除与当前目标样本xp对应的第p行权重系数和第p列权重系数,得到更新后的所述权重矩阵;
其中,
Figure FDA0003501452570000024
式中,X表示当前所述原始训练样本集,d(xi)表示当前所述原始训练样本集中的第i个原始训练样本的度。
5.一种手写体数据分类方法,其特征在于,包括:
获取待分类手写体数据;
将所述待分类手写体数据输入至利用如权利要求1至4任一项所述的手写体数据分类模型训练方法得到的训练后模型,得到相应的手写体分类结果。
6.一种手写体数据分类模型训练装置,其特征在于,包括:
样本集获取模块,用于获取包含手写体数据样本和相应的手写体类别标签的原始训练样本集;
数据预处理模块,用于对所述原始训练样本集进行数据预处理,以从所述原始训练样本集中选取出能够保持流形结构的非噪声数据,得到处理后训练样本集;
模型训练模块,用于利用所述处理后训练样本集进行稀疏支持向量机模型的训练,得到训练后模型;
其中,所述数据预处理模块,具体用于:
步骤A1:分别确定所述原始训练样本集中每个原始训练样本的手写体类别标签的标签质量;步骤A2:基于标签质量确定出所述原始训练样本集中每两个原始训练样本之间的权重系数,以构成相应的权重矩阵;步骤A3:分别对当前所述权重矩阵中每个原始训练样本对应的所有权重系数进行累加,得到当前所述原始训练样本集中每个原始训练样本的度;步骤A4:从当前所述原始训练样本集中确定出度最大的原始训练样本,得到相应的当前目标样本;步骤A5:将当前目标样本保存至预设样本集中,并将当前目标样本从当前所述原始训练样本集中剔除,得到更新后的所述原始训练样本集,以及将与当前目标样本对应的所有权重系数从当前所述权重矩阵中去除,得到更新后的所述权重矩阵;步骤A6:判断当前所述预设样本集中样本数量是否为第一预设数量,如果否,则重新进入步骤A3,直到所述预设样本集中样本数量为所述第一预设数量为止,然后将所述预设样本集确定为所述处理后训练样本集。
7.一种手写体数据分类装置,其特征在于,包括:
数据获取模块,用于获取待分类手写体数据;
数据分类模块,用于将所述待分类手写体数据输入至利用如权利要求6所述的手写体数据分类模型训练装置得到的训练后模型,得到相应的手写体分类结果。
8.一种手写体数据分类模型训练设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至4任一项所述的手写体数据分类模型训练方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的手写体数据分类模型训练方法。
CN201810461229.3A 2018-05-15 2018-05-15 手写体数据分类方法、模型训练方法、装置、设备及介质 Active CN108710907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810461229.3A CN108710907B (zh) 2018-05-15 2018-05-15 手写体数据分类方法、模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810461229.3A CN108710907B (zh) 2018-05-15 2018-05-15 手写体数据分类方法、模型训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN108710907A CN108710907A (zh) 2018-10-26
CN108710907B true CN108710907B (zh) 2022-05-17

Family

ID=63867923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810461229.3A Active CN108710907B (zh) 2018-05-15 2018-05-15 手写体数据分类方法、模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN108710907B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754014B (zh) * 2018-12-29 2021-04-27 北京航天数据股份有限公司 工业模型训练方法、装置、设备及介质
CN110163252B (zh) * 2019-04-17 2023-11-24 平安科技(深圳)有限公司 数据分类方法及装置、电子设备、存储介质
CN112529172A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 数据处理方法和数据处理设备
CN111860671A (zh) * 2020-07-28 2020-10-30 中山大学 分类模型训练方法、装置、终端设备和可读存储介质
CN112200255B (zh) * 2020-10-16 2021-09-14 浙江大学 一种针对样本集的信息去冗余方法
CN113435900A (zh) * 2021-07-12 2021-09-24 中国工商银行股份有限公司 交易风险确定方法、装置和服务器
CN113822357B (zh) * 2021-09-18 2024-01-05 广东工业大学 一种分类模型的训练方法、分类方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093235A (zh) * 2012-12-30 2013-05-08 北京工业大学 一种基于改进距离核主成分分析的手写体数字识别方法
CN106845358A (zh) * 2016-12-26 2017-06-13 苏州大学 一种手写体字符图像特征识别的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093235A (zh) * 2012-12-30 2013-05-08 北京工业大学 一种基于改进距离核主成分分析的手写体数字识别方法
CN106845358A (zh) * 2016-12-26 2017-06-13 苏州大学 一种手写体字符图像特征识别的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Investigation of Manifold Learning for Chinese Handwriting Analysis;Chen Guoming等;《International Journal of Systems and Control》;20070930;第2卷(第3期);第213-220页 *
一种基于流形学习的手写体数字识别;杨晓敏等;《光电子·激光》;20071231;第18卷(第12期);第1478-1481页 *
基于流形学习与SVM的手写字符识别方法;李学华等;《微计算机信息》;20091231;第25卷(第8-3期);第154-155和224页 *

Also Published As

Publication number Publication date
CN108710907A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN108710907B (zh) 手写体数据分类方法、模型训练方法、装置、设备及介质
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN112561080A (zh) 样本筛选方法、样本筛选装置及终端设备
CN114627102B (zh) 一种图像异常检测方法、装置、系统及可读存储介质
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN111914159A (zh) 一种信息推荐方法及终端
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN109960730B (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN109271544B (zh) 自动挑选画家代表作的方法及装置
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110704678A (zh) 评估排序方法、评估排序系统、计算机装置及储存介质
CN107368464B (zh) 一种获取招标产品信息的方法及装置
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
Rodin et al. Document image quality assessment via explicit blur and text size estimation
CN114358284A (zh) 一种基于类别信息对神经网络分步训练的方法、装置、介质
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN115420866A (zh) 药物活性检测方法、装置、电子设备和存储介质
CN113139382A (zh) 命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant