CN110414622A

CN110414622A - 基于半监督学习的分类器训练方法及装置

Info

Publication number: CN110414622A
Application number: CN201910721182.4A
Authority: CN
Inventors: 冯俊耀; 肖燕珊; 刘波; 曾博; 温劲; 李鹏程; 郝志峰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-05
Anticipated expiration: 2039-08-06
Also published as: CN110414622B

Abstract

本发明涉及机器学习技术领域，特别是涉及一种基于半监督学习的分类器训练方法及装置。该方法包括：当接收到模型训练指令时，获取初始分类模型及各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，生成训练数据集，将训练数据集输入初始分类模型触发其进行训练，训练结束后获得目标分类模型，并计算分类准确度；当分类准确度达到预设准确阈值，确定该目标分类模型为分类器。通过各种携带标签的样本数据和无标签样本数据，为初始分类模型提供更多的分类和识别信息，该初始分类模型可以根据各个样本数据学习每种数据对应的标签，以提高对各个数据进行识别和分类精度，提高分类器的性能。

Description

基于半监督学习的分类器训练方法及装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于半监督学习的分类器训练方法及装置。

背景技术

在机器学习技术领域中，为了训练一个具有良好分类性能的分类器，需要通过大量的样本数据进行训练。半监督学习是结合监督学习和无监督学习的一种机器学习方法，通过给定大量正标签数据、负标签数据和无标签数据进行多次的迭代训练，以获得性能良好的分类器。其中，该分类器主要用于对数据进行数据分类，即根据二分类问题，确定需要进行分类的数据是正类还是负类。因此，通过半监督学习方式进行机器训练，可以提高分类器的分类性能。

当利用分类器进行字符识别时，分类器对字符的识别还是无法达到最优，例如：字母“O”和数字“0”之间的相似度极高，在进行利用分类对字符“O”识别时，容易识别成数字“0”，无法正确地对字母和数字进行分类，且如果分类器要进行分类及识别的字符为用户手写字符时，由于每个用户的写字风格不同，若字符书写太潦草则无法识别，且笔画较多的字符容易在书写的过程中出现过多的连笔，使得机器在对用户的手写字符进行识别时，识别成功率极低。因此，需要对分类器的分类性能做进一步的优化，减小分类器对字符进行识别及分类时的误差概率。

发明内容

本发明所要解决的技术问题是提供一种基于半监督学习的分类器训练方法，通过该方法，可以对分类器进行训练，提高对字符的分类和识别性能，减少识别误差概率。

本发明还提供了一种基于半监督学习的分类器训练装置，用以保证上述方法在实际中的实现及应用。

一种基于半监督学习的分类器训练方法，包括：

当接收到用户发送的模型训练指令时，获取与所述模型训练指令对应的初始分类模型，并确定所述初始分类模型待分类的正类标签和负类标签，所述正类标签为数字字符的标签，所述负类标签为字母字符的标签；

获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，所述第三类标签包括除所述正类标签和所述负类标签之外的所有标签；

依据各个所述携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成训练数据集；

将所述训练数据集输入所述初始分类模型中，触发所述初始分类模型应用预先生成的训练算法，并依据所述训练数据集中的各个样本数据进行分类训练；

当所述初始分类模型完成分类训练时，获得目标分类模型，并计算所述目标分类模型的分类准确度；

判断所述分类准确度是否达到预先设置的准确阈值；

当所述分类准确度达到预先设置的准确阈值时，将所述目标分类模型确定为分类器。

上述的方法，可选的，所述获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，包括：

调用预先设置的网络爬虫从网络的各个数据库中获取各个样本数据；

对各个所述样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

上述的方法，可选的，所述对各个所述样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，包括：

调用预先设置的预处理规则，对各个所述样本数据进行去噪、复原和二值化，获得归一化的各个第一样本数据；

将各个所述第一样本数据输入预先设置的向量模型，触发所述向量模型按照预先设置的特征提取算法对各个所述第一样本数据进行特征提取，获得与每个所述第一样本数据对应的特征向量；

基于每个所述第一样本数据对应的特征向量，对各个所述第一样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

上述的方法，可选的，所述训练算法的生成过程，包括：

获取与所述初始分类模型对应的模型训练公式；

调用预先设置的拉格朗日乘子，代入所述模型训练公式，获得拉格朗日函数；

对所述拉格朗日函数求偏导，获得与所述拉格朗日函数对应的各个偏导值，将每个所述偏导值代入所述模型训练公式，获得所述训练算法。

上述的方法，可选的，所述计算所述目标分类模型的分类准确度，包括：

获取预先设置的测试数据集，所述测试数据集中包含多个特征向量数据，各个所述特征向量数据为字母图片和数字图片，所述字母图片和数字图片不携带标签；

将所述测试数据集中的各个所述特征向量数据输入所述目标分类模型，触发所述目标分类模型对各个所述特征向量数据进行分类；

确定已完成分类的特征向量数据的正确分类数量，并对所述正确分类数量及所述测试数据集中各个所述特征向量数据的总数进行计算，获得所述目标分类模型的分类准确度。

上述的方法，可选的，还包括：

当所述目标分类模型的准确度未达到预先设置的准确阈值时，重新获取各个新的携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据；

将各个所述新的携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成新的训练数据集；

依据所述新的训练数据集及所述训练算法，训练所述目标分类模型，直至所述目标分类模型的分类准确度达到所述准确阈值。

一种基于半监督学习的分类器训练装置，包括：

第一获取单元，用于当接收到用户发送的模型训练指令时，获取与所述模型训练指令对应的初始分类模型，并确定所述初始分类模型待分类的正类标签和负类标签，所述正类标签为数字字符的标签，所述负类标签为字母字符的标签；

第二获取单元，用于获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，所述第三类标签包括除所述正类标签和所述负类标签之外的所有标签；

生成单元，用于依据各个所述携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成训练数据集；

触发单元，用于将所述训练数据集输入所述初始分类模型中，触发所述初始分类模型应用预先生成的训练算法，并依据所述训练数据集中的各个样本数据进行分类训练；

计算单元，用于当所述初始分类模型完成分类训练时，获得目标分类模型，并计算所述目标分类模型的分类准确度；

判断单元，用于判断所述分类准确度是否达到预先设置的准确阈值；

确定单元，用于当所述分类准确度达到预先设置的准确阈值时，将所述目标分类模型确定为分类器。

上述的装置，可选的，所述第二获取单元，包括：

第一获取子单元，用于调用预先设置的网络爬虫从网络的各个数据库中获取各个样本数据；

分类子单元，用于对各个所述样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

上述的装置，可选的，所述分类子单元，包括：

处理子单元，用于调用预先设置的预处理规则，对各个所述样本数据进行去噪、复原和二值化，获得归一化的各个第一样本数据；将各个所述第一样本数据输入预先设置的向量模型，触发所述向量模型按照预先设置的特征提取算法对各个所述第一样本数据进行特征提取，获得与每个所述第一样本数据对应的特征向量；基于每个所述第一样本数据对应的特征向量，对各个所述第一样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

上述的装置，可选的，所述计算单元，包括：

第二获取子单元，用于获取预先设置的测试数据集，所述测试数据集中包含多个特征向量数据，各个所述特征向量数据为字母图片和数字图片，所述字母图片和数字图片不携带标签；

输入子单元，用于将所述测试数据集中的各个所述特征向量数据输入所述目标分类模型，触发所述目标分类模型对各个所述特征向量数据进行分类；

计算子单元，用于确定已完成分类的特征向量数据的正确分类数量，并对所述正确分类数量及所述测试数据集中各个所述特征向量数据的总数进行计算，获得所述目标分类模型的分类准确度。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的基于半监督学习的分类器训练方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的基于半监督学习的分类器训练方法。

与现有技术相比，本发明包括以下优点：

本发明提供一种基于半监督学习的分类器训练方法，包括：当接收到用户发送的模型训练指令时，获取初始分类模型，并获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，生成训练数据集，将训练数据集输入初始分类模型触发初始分类模型进行训练，训练结束后获得目标分类模型，并计算该目标分类模型的分类准确度；当目标分类模型的分类准确度达到预设准确阈值，确定该目标分类模型为分类器。通过各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，使初始分类模型在训练过程中提供更多的分类和识别信息，该初始分类模型可以根据各个样本数据学习每个数据对应的标签，以提高对各个字符进行识别和分类精度，提高分类器的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于半监督学习的分类器训练方法的方法流程图；

图2为本发明实施例提供的一种基于半监督学习的分类器训练方法的又一方法流程图；

图3为本发明实施例提供的一种基于半监督学习的分类器训练方法的又一方法流程图；

图4为本发明实施例提供的一种基于半监督学习的分类器训练装置的装置结构图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种基于半监督学习的分类器训练方法，该方法可以应用在多种系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101：当接收到用户发送的模型训练指令时，获取与所述模型训练指令对应的初始分类模型，并确定所述初始分类模型待分类的正类标签和负类标签，所述正类标签为数字字符的标签，所述负类标签为字母字符的标签；

在本发明实施例中，当接收到用户向处理器发送模型训练指令时，根据该模型训练指令，获取待训练的初始分类模型，并确定该初始分类模型需要进行分类和识别的正类标签和负类标签。其中，该正类标签为数字字符字标签、负类标签为字母字符标签。

需要说明的是，数字字符标签以及字母字符标签均指的是当前数据为数字或字母。例如数字0～9均携带数字字符标签，大写字母A～Z及小写字母a～z均携带字母字符标签。

S102：获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，所述第三类标签包括除所述正类标签和所述负类标签之外的所有标签；

在本发明实施例中，获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，其中，第三类标签指的是除正类标签和负类标签之外的所有标签；该第三类标签具体可以是符号“@、#、￥”等所携带的符号字符标签，携带第三类标签的样本数据具体可以是Universum样本数据。无标签样本数据可以是不携带任何标签的所有数据。

需要说明的是，该初始分类模型具体可以是初始Universum直推式向量机(transductive svm with Universum，U-TSVM)

S103：依据各个所述携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成训练数据集；

在本发明实施例中，将获取到的各个标签生成训练数据集。其中，该训练数据集中包括携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

S104：将所述训练数据集输入所述初始分类模型中，触发所述初始分类模型应用预先生成的训练算法，并依据所述训练数据集中的各个样本数据进行分类训练；

在本发明实施例中，将该训练数据集输入到初始分类模型当中，以使该初始分类模型应用训练算法，同时依据该训练数据集中的各个样本数据进行分类训练。即，通过半监督学习的方式，使初始分类模型得知哪些是正类标签的样本数据、哪些是负类标签的样本数据、哪些样本数据既不属于正类标签也不属于负类标签，以及哪些样本数据是不携带标签，并开始对各个样本数据进行学习。

S105：当所述初始分类模型完成分类训练时，获得目标分类模型，并计算所述目标分类模型的分类准确度；

在本发明实施例中，当初始分类模型在应用该训练算法及训练数据集进行学习训练结束后，完成对各个数据的分类训练，获得目标分类模型。并计算目标分类模型对数据进行分类和识别的分类准确度。

S106：判断所述分类准确度是否达到预先设置的准确阈值；

在本发明实施例中，判断该目标分类模型的分类准确度是否达到预先设置的准确阈值，即，确定该目标分类模型对字符进行分类和识别的性能是否达到最优。

S107：当所述分类准确度达到预先设置的准确阈值时，将所述目标分类模型确定为分类器。

在本发明实施例中，当该目标分类模型的分类准确度达到该准确阈值时，确定该目标分类模型为用户所需要的分类器。

本发明实施例提供的方法中，当接收到用户发送的模型训练指令时，获取与该模型训练指令对应的初始分类模型。其中，该初始分类模型在未训练前，无法准确地对各个字符进行分类和识别。在获取到初始分类模型后，确定该初始分类模型需要进行分类和识别的正类标签和负类标签。其中，该初始分类模型需要进行识别的正类标签和负类标签可以由用户进行设定。具体地，本发明实施例中的正类标签可以为数字字符的标签，负类标签可以为字母字符的标签。在训练该初始分类模型之前，先获取大量的样本数据，其中，该样本数据中包括多个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。并由各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成训练数据集。该训练数据集具体可以为如下集合：

其中，T⁺为携带正类标签的样本数据集合；T^-为携带负类标签的样本数据集合；U为无标签样本数据集合；S_u为既不属于正类标签，也不属于负类标签的第三类标签的样本数据集合。其中，x⁺、x^-、x^*、x均为样本数据，y⁺、y^-分别为正类标签和负类标签。

在生成训练数据集后，将该训练数据集数入该初始分类模型，触发该模型进行训练。其中，该分类模型应用训练算法及训练数据集中的各个样本数据进行分类训练。当该初始分类模型完成训练时，获得已完成训练的目标分类模型，并计算该目标分类模型的准确度，判断该准确度是否达到了预先设置的准确阈值，若已达到，则确定该目标分类模型为最终用户所需的分类器。

需要说明的是，初始分类模型在进行学习训练的过程中，基本只要完成一次学习训练，就能达到用户所需要的分类和识别的性能。

可选的，正类标签也可以为字母字符标签或其他形式字符的标签，负类标签也可以为数字字符标签或其他形式的标签。

在本发明实施例中，可以应用于翻译识别领域当中，当用户需要对字母和数据进行分类和识别时，可执行对分类器训练的过程。当接收到用户需要训练模型，并将该模型应用于翻译识别领域时，获取初始分类模型和大量的样本数据。由各个样本数据生成训练数据集，其中包括了数字、字母、符号等数据。将训练数据集输入到初始分类模型中，该初始分类模型将应用预先生成的训练算法和训练数据集进行训练和学习，当训练结束后获得目标分类模型，对其进行分类准确度计算后，判断该分类准确度达到预先设置的准确阈值，若达到，则确定该目标分类模型为该用户所需的分类器，用户可应用该分类器在英文翻译领域中，例如用户拍摄一张带有英文段落的图片，该分类器可对该英文段落进行分类和识别，确定该段落中哪些是字母，哪些是数字，在将各个数字和字母进行组合后进行翻译。可选的，由于英文段落中存在逗号、句号、感叹号等符号，该分类器不会对其进行识别，在输出已翻译好的内容时，直接将无法识别的符号在对应的位置进行输出。

应用本发明实施例提供的方法，通过携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据、无标签样本数据和训练算法使初始分类模型自主进行训练，为初始分类模型提供更多的分类和识别信息，该初始分类模型可以根据各个样本数据清楚地区分每个数据对应的标签，以提高对各个数据进行识别和分类精度，提高分类器的性能。

本发明实施例提供的方法中，基于上述步骤S102，所述获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，具体包括：

本发明实施例提供的方法中，通过网络爬虫进行数据查找，并在查找到样本数据后，从各个样本数据所在的数据库中获取。在获取到各个样本数据后，将各个样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

基于上述实施例提供的方法，对各个样本数据进行分类后，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据的过程如图2所示，具体包括：

S201：调用预先设置的预处理规则，对各个所述样本数据进行去噪、复原和二值化，获得归一化的各个第一样本数据；

在本发明实施例中，通过预先设置的预处理规则，对各个样本数据进行语出里，具体预处理过程包括对数据进行去噪处理、复原处理和二值化处理。由于各个样本数据的格式均不同，有些可能是手写、有些可能是不同设备拍摄的数据等。在进行预处理后，将获得归一化的第一样本数据。即，获得大小一致的第一样本数据，使该第一样本数据中的各个特征显现出来。

S202：将各个所述第一样本数据输入预先设置的向量模型，触发所述向量模型按照预先设置的特征提取算法对各个所述第一样本数据进行特征提取，获得与每个所述第一样本数据对应的特征向量；

在本发明实施例中，在将进行预处理后获得的第一样本数据输入向量模型当中，触发向量模型按照特征提取算法提取各个第一样本数据的特征，获得与每个样本数据对应的特征向量。

需要说明的是，该特征提取算法具体可以是尺度不变特征变换SIFT算法或方向梯度直方图HOG算法。

S203：基于每个所述第一样本数据对应的特征向量，对各个所述第一样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

在本发明实施例中，在获得每个第一样本数据的特征向量后，基于该特征向量将各个第一样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

本发明实施例提供的基于半监督学习的分类器训练方法中，在通过网络爬虫获取各个样本数据后，由于各个数据之间存在差异或模糊不清的情况，先对各个样本数据进行按照预处理规则对各个样本数据进行预处理，以使每个样本数据的特征显现出来，获得已预处理的各个第一样本数据。并通过预先设置的向量模型，将每个第一样本数据的数据特征转换成特征向量，并按照特征向量对各个样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。

应用本发明实施例提供的方法，通过网络爬虫获取样本数据，并对各个样本数据进行预处理和特征向量提取后，将各个样本数据进行分类，以提高初始分类模型训练后获得的分类器对应的分类器性能。

本发明实施例提供的方法中，基于上述步骤S104，在将训练数据集输入初始分类模型训练后，初始分类模型将应用预先生成的训练算法进行分类训练，其中，训练算法的生成过程如图3所示，具体包括：

S301：获取与所述初始分类模型对应的模型训练公式；

在本发明实施例中，获取模型训练公式，该模型训练公式是针对训练数据进行设置。具体地，该初始分类模型为U-TSVM时，该模型训练公式为U-TSVM的最优模型公式。

S302：调用预先设置的拉格朗日乘子，代入所述模型训练公式，获得拉格朗日函数；

在本发明实施例中，调用预先设置的各个拉格朗日乘子，并将各个拉格朗日乘子代入模型训练共识当中，获得拉格朗日函数。

需要说明的是，由于初始分类模型的训练和学习过程为凸二次规划问题，满足KKT条件，因此可以使用拉格朗日对偶性，引入拉格朗日乘子获得拉格朗日函数。

S303：对所述拉格朗日函数求偏导，获得与所述拉格朗日函数对应的各个偏导值，将每个所述偏导值代入所述模型训练公式，获得所述训练算法。

在本发明实施例中，对拉格朗日函数求偏导，获得各个偏导值，并将各个偏导值导入模型训练公式，获得训练算法。

本发明实施例提供的基于半监督学习的分类器训练方法中，在获取训练算法过程中，先获取初始分类模型的模型训练公式，其中该模型性训练公式具体可以为U-TSVM的最优模型公式：

s.t.

y_i(w^Tx_i+b)≥1-ξ_i

其中w为向量，C,C_u,C^*≥0为惩罚参数，而ε≥0,ξ_i(i＝1,2,...,l),以及ψ_m(m＝1,2,...,u),均为松弛变量。

由于上述最优模型公式满足KKT条件，可引入拉格朗日乘子：λ_i,δ_p,α_m,β_m,η_i,k_m,得到拉格朗日函数：

对拉格朗日函数偏导，获得各个偏导值：

再把各个偏导值代入原先的最优模型公式中，获得训练算法：

s.t.

0≤λ_i≤C,0≤δ_P≤C^*,0≤α_m≤C_u,0≤β_m≤C_u

其中，该训练算法具体可以为U-TSVM的对偶公式。

应用本发明实施例提供的方法，引入拉格朗日乘子，获得拉格朗日函数后对拉格朗日函数求偏导，获得各个偏导值代入模型训练公式中，最终获得训练算法，从而提高初始分类模型在进行训练和学习过程中的精度，提高初始分类模型的性能。

本发明实施例提供的方法中。基于上述步骤S105，所述计算已完成训练初始分类模型的准确度，包括：

本发明实施例提供的基于半监督学习的分类器训练方法中，在完成对初始分类模型的训练后，获取预先设置的测试数据集。其中，该测试数据集中包含大量的特征向量数据。特征向量数据具体为已知是正类标签和负类的数据。相当于上述训练数据集中的由于初始分类模型可以是向量机，因此，根据向量机的二分类问题，该初始分类模型能识别两类数据，及正类和负类。例如正类为数字，负类为字母。当初始分类模型训练完成后，可通过测试数据集进行测试，其中，该测试数据集中包含多个不携带标签的数据和字母的相关图片。将测试训练集输入目标分类模型当中，以使目标分类模型对各测试数据集中的各个特征向量数据进行分类，并学习和识别哪些特征向量是字母，哪些是数字。当分类完成后，确定正确分类的数量和测试数据集中特征向量数据的总数。对正确分类的数量和特征向量数据的总数进行计算，获得分类准确度，即：

应用本发明实施例提供的方法，对目标分类模型进行测试，确定该目标分类模型在进行一次训练学习后的分类准确度能否达到阈值，以保证该目标分类模型的性能达到最优。

本发明实施例提供的方法中，当目标分类模型的准确度未达到预先设置的准确阈值时，具体还包括：

本发明实施例提供的方法中，当目标分类模型的准确度未达到预先设置的准确阈值时，重新获取各个新的携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据。其中，目标分类模型未达到预先设置的准确阈值则证明原先的训练数据集不满足训练要求，重新获取新的样本数据生成新的训练数据集进行训练，直至该目标分类模型的分类准确度达到预先设置的分类阈值。其中，在生成新的训练数据集后，重新训练目标分类模型的过程与上述步骤S101～S107的过程一致，此处不复赘述。

应用本发明实施例提供的方法，在目标分类模型的分类准确度未达到预先设置的分类阈值时，重新对目标分类模型进行训练，以保证获得的分类器性能达到最优。

基于上述实施例提供的方法，对最终获得的分类器，与其他分类器进行实验，其实验结果如下：

本实验先从网络中获取手写数字数据集，此数据集主要包含了60000张的训练图像和10000张的测试图像，数据库的里的图像都是28*28大小的灰度图像，每个像素的是一个八位字节，每张图像均为手写的由0到9的数字图像。

为了充分比较本发明所提方法和其它分类方法的分类性能，对本发明所提方法和其它分类方法进行了性能对比将手写数据集数据集进行实验。以分类准确度为标准，实验平台为Windows10系统，Core I7处理器，32G内存。具体实验结果参见下表1。

算法	U-TSVM	USVM	TSVM	SVM
					准确度	0.964	0.876	0.859	0.782

表1

本发明提出的算法为U-TSVM算法，即上述实施例中的训练算法，由此可见分类准确率比之Universum标准向量机USVM、直推式向量机TSVM和标准向量机SVM要高。因此，本发明在字符识别的手写数字识别中，利用无标签数据以及第三类标签数据所提供的分类信息，得到了比传统模型更好的性能。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种基于半监督学习的分类器训练装置，用于对图1中方法的具体实现，本发明实施例提供的基于半监督学习的分类器训练装置可以应用计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

第一获取单元401，用于当接收到用户发送的模型训练指令时，获取与所述模型训练指令对应的初始分类模型，并确定所述初始分类模型待分类的正类标签和负类标签，所述正类标签为数字字符的标签，所述负类标签为字母字符的标签；

第二获取单元402，用于获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，所述第三类标签包括除所述正类标签和所述负类标签之外的所有标签；

生成单元403，用于依据各个所述携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成训练数据集；

触发单元404，用于将所述训练数据集输入所述初始分类模型中，触发所述初始分类模型应用预先生成的训练算法，并依据所述训练数据集中的各个样本数据进行分类训练；

计算单元405，用于当所述初始分类模型完成分类训练时，获得目标分类模型，并计算所述目标分类模型的分类准确度；

判断单元406，用于判断所述分类准确度是否达到预先设置的准确阈值；

确定单元407，用于当所述分类准确度达到预先设置的准确阈值时，将所述目标分类模型确定为分类器。

本发明实施例提供的装置中，所述第二获取单元402，包括：

本发明实施例提供的装置中，所述分类子单元，包括：

本发明实施例提供的装置中，还包括：

第三获取单元，用于获取与所述初始分类模型对应的模型训练公式；

第一代入单元，用于调用预先设置的拉格朗日乘子，代入所述模型训练公式，获得拉格朗日函数；

第二代入单元，用于对所述拉格朗日函数求偏导，获得与所述拉格朗日函数对应的各个偏导值，将每个所述偏导值代入所述模型训练公式，获得所述训练算法。

本发明实施例提供的装置中，所述计算单元405，包括：

本发明实施例提供的装置中，还包括：

第四获取单元，用于当所述目标分类模型的准确度未达到预先设置的准确阈值时，重新获取各个新的携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据；

执行单元，用于将各个所述新的携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据生成新的训练数据集；

训练单元，用于依据所述新的训练数据集及所述训练算法，训练所述目标分类模型，直至所述目标分类模型的分类准确度达到所述准确阈值。

以上本发明实施例公开的基于半监督学习的分类器训练装置中的第一获取单元401、第二获取单元402、生成单元403、触发单元404、计算单元405、判断单元406及确定单元407的具体工作过程，可参见本发明上述实施例公开的基于半监督学习的分类器训练方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述基于半监督学习的分类器训练方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

判断所述分类准确度是否达到预先设置的准确阈值；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于半监督学习的分类器训练方法，其特征在于，包括：

判断所述分类准确度是否达到预先设置的准确阈值；

2.根据权利要求1所述的方法，其特征在于，所述获取各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述对各个所述样本数据进行分类，获得各个携带正类标签的样本数据、携带负类标签的样本数据、携带第三类标签的样本数据和无标签样本数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述训练算法的生成过程，包括：

获取与所述初始分类模型对应的模型训练公式；

5.根据权利要求1所述的方法，其特征在于，所述计算所述目标分类模型的分类准确度，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种基于半监督学习的分类器训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二获取单元，包括：

9.根据权利要求8所述的装置，其特征在于，所述分类子单元，包括：

10.根据权利要求7所述的装置，其特征在于，所述计算单元，包括：