CN106127257A

CN106127257A - 一种数据分类方法及电子设备

Info

Publication number: CN106127257A
Application number: CN201610509623.0A
Authority: CN
Inventors: 蒋树强; 李雪; 贺志强
Original assignee: Lenovo Beijing Ltd; Institute of Computing Technology of CAS
Current assignee: Lenovo Beijing Ltd; Institute of Computing Technology of CAS
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-11-16
Anticipated expiration: 2036-06-30
Also published as: CN106127257B

Abstract

本发明公开了一种数据分类方法，用于提供一种较好的增量学习的方式。所述方法包括：获取待学习的第一数据；通过分类器根据所述第一数据确定N个分界面；所述分界面用于对数据进行分类；N为正整数；基于所述N个分界面确定至少两个数据类别，且将所述第一数据分配到所述至少两个数据类别中的第一数据类别；所述第一数据类别为根据所述第一数据新增的数据类别或原有的数据类别。本发明还公开了相应的电子设备。

Description

一种数据分类方法及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种数据分类方法及电子设备。

背景技术

人机交互系统(Human-computer interaction，HCI)是研究人与电子设备，如计算机之间通过相互理解的交流与通信，在最大程度上为人们完成信息管理，服务和处理等功能，使电子设备真正成为人们工作学习的和谐助手的一门技术科学。在人机交互系统中，往往需要电子设备不断地对新数据进行自我学习，而基于视觉的增量学习是一种较为常见，也较为重要的方式。

根据新数据所属的类别的不同，可以将需要学习的新数据分为两种：一种新数据可以是属于电子设备已知的数据类别但未学习过的数据，另一种新数据可以是属于电子设备未知的数据类别的数据。然而，现有的基于视觉的增量学习方法要么只能对电子设备已知的类别但未学习过的数据进行学习，要么只能对电子设备未知的类别的数据进行学习，可见，现有的增量学习方式较为单一，电子设备的数据处理能力有限。

发明内容

本发明实施例提供一种数据分类方法及电子设备，用于提供一种较好的增量学习的方式。

第一方面，提供一种数据分类方法，包括：

获取待学习的第一数据；

通过分类器根据所述第一数据确定N个分界面；所述分界面用于对数据进行分类；N为正整数；

基于所述N个分界面确定至少两个数据类别，且将所述第一数据分配到所述至少两个数据类别中的第一数据类别；所述第一数据类别为根据所述第一数据新增的数据类别或原有的数据类别。

可选的，通过分类器根据所述第一数据确定N个分界面，包括：

将所述第一数据输入能够实现所述分类器的功能的目标函数，以得到所述N个分界面；所述目标函数用于学习新数据，且将所述新数据分配到新增的数据类别或原有的数据类别。

若确定所述第一数据的数据类别为所述原有的数据类别，则基于所述目标函数，调整N个原始分界面中的至少一个原始分界面的位置，以得到所述N个分界面；其中，所述原始分界面为在获取所述第一数据之前已有的分界面。

若确定所述第一数据的数据类别为所述原有的数据类别中未包括的数据类别，则基于所述目标函数，在N-1个原始分界面的基础上增加一个分界面，以得到所述N个分界面；其中，所述原始分界面为在获取所述第一数据之前已有的分界面。

可选的，所述方法还包括：

若所述第一数据的数据类别为所述原有的数据类别中未包括的数据类别，基于所述目标函数，对所述N-1个原始分界面中的至少一个原始分界面所在的位置进行调整。

第二方面，提供一种电子设备，包括：

存储器，用于存储指令；

处理器，用于执行所述指令：

获取待学习的第一数据；

可选的，所述处理器用于：

可选的，所述处理器还用于：

第三方面，提供一种电子设备，包括：

获取模块，用于获取待学习的第一数据；

确定模块，用于通过分类器根据所述第一数据确定N个分界面；所述分界面用于对数据进行分类；N为正整数；

分配模块，用于基于所述N个分界面确定至少两个数据类别，且将所述第一数据分配到所述至少两个数据类别中的第一数据类别；所述第一数据类别为根据所述第一数据新增的数据类别或原有的数据类别。

本发明实施例中，电子设备通过分类器可以将待学习的第一数据分配到第一数据类别中，第一数据类别既可以是根据第一数据新增的数据类别，也可以是原有的数据类别。通过这样的方式，电子设备既能够学习属于已知的数据类别但未学习过的数据，也能够学习属于未知的数据类别的数据，电子设备学习新数据的能力较强，同时也提升了电子设备的数据处理能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中数据分类方法的流程图；

图2为本发明实施例中第一种确定分界面的方式的示意图；

图3为本发明实施例中第二种确定分界面的方式的示意图；

图4为本发明实施例中电子设备的结构示意图；

图5为本发明实施例中电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的电子设备可以是人工智能设备(比如机器人等)、个人计算机(PC)、平板电脑(PAD)等等不同的电子设备，本发明对此不作限制。

下面结合附图对本发明优选的实施方式进行详细说明。

请参见图1，本发明实施例提供一种数据分类方法，该方法可以应用于电子设备，该方法的流程描述如下。

步骤101：获取待学习的第一数据；

步骤102：通过分类器根据第一数据确定N个分界面；分界面用于对数据进行分类；N为正整数；

步骤103：基于N个分界面确定至少两个数据类别，且将第一数据分配到至少两个数据类别中的第一数据类别；第一数据类别为根据第一数据新增的数据类别或原有的数据类别。

第一数据可以是任意的需要电子设备进行学习的数据，本发明实施例对此不作限定。例如，电子设备要学习的内容包括认识黄色的苹果，那么第一数据可以是能够指示黄色的苹果的数据，比如可以是用于指示黄色的苹果的特征向量以及黄色的苹果所述的数据类别，等等。

分界面可以用来将数据进行分类，对于分界面的表现形式，本发明实施例不作限定，比如，可以表现为数学中的超平面，通过超平面可以将空间划分成多个区域，不同的区域可以存储不同数据类别的数据，等等。电子设备学习数据的过程实质上就是调整分界面的过程，学习新类别的数据实质上是要新增加分界面，以划分新的空间来容纳新的类别的数据，学习原有的类别的新数据实质上是改变原有的分界面的位置，以让原有的类别的空间增加进而能够容纳新的数据。

在获得待学习的第一数据后，可以通过分类器根据第一数据确定N个分界面，对于如何通过分类器根据第一数据确定N个分界面，本发明实施例不作限定。

在一种实施方式中，可以将第一数据输入能够实现分类器的功能的目标函数，以得到N个分界面；目标函数可以用于学习新数据，且能够将新数据分配到新增的数据类别或原有的数据类别。

例如，能够实现分类器的功能的目标函数可以是基于支持向量机(SupportVector Machine，SVM)的目标函数。

\begin{matrix} \min_{W, b, e} J_{p} (W, e) = \frac{1}{2} | | W - W^{'} | |^{T} | | W - W^{'} | | + \frac{1}{2} | | w_{n + 1} - W^{'} β | |^{T} | | w_{n + 1} - W^{'} β | | \\ + \frac{C}{2} (\underset{i &Element; I}{Σ} e_{i}^{2} + L \underset{j &Element; S}{Σ} e_{j}^{2}) \end{matrix} - - - (1)

在上述公式中，x是特征向量，y是数据类别，b是偏移量，C是常量参数，e是误差，W是原来的全部的分界面，W’是学习第一数据后的全部的分界面，w_n+1是当第一数据属于未知数据类别的数据时，新学习的一个分界面，I表示未知的数据集合，S表示已知的数据集合。

在进行学习时，可以输入获得的第一数据，也就是训练对(x，y)，在满足公式(2)和公式(3)的情况下，可以求公式(1)的最优解。通过将(x，y)输入公式(2)，可以得到e_i，电子设备可自行通过公式(3)计算得到e_j，将e_i和e_j代入公式(1)，便能够求得W’，也就是新的N个分界面。

和可以使得函数模型最简单，泛化能力最强，并且新得到的N个分界面，也就是W’与原来的分界面W相近，因此不会丢失以前学习到的信息。可以使得函数模型误差最小，正确率最高，L可以增大的权重，是支持向量可以代表以前学习过的所有数据。

通过以上的方式，无论待学习的第一数据是属于已知的数据类别还是属于未知的数据类别，电子设备都能够通过同一个目标函数来学习第一数据，以及获得用于将数据进行分类的N个分界面，电子设备学习数据的能力以及数据处理能力较强。

在一种实施方式中，若确定第一数据的数据类别为原有的数据类别，则可以基于目标函数，调整N个原始分界面中的至少一个原始分界面的位置，以得到N个分界面；其中，原始分界面可以是在获取第一数据之前已有的分界面。

同样以上述的目标函数为例，在对属于原有的数据类别的第一数据进行学习时，同样将第一数据(x，y)输入公式(2)中求得e_i，电子设备可自行通过公式(3)计算得到e_j，将e_i和e_j代入公式(1)，便能够求得W’，也就是对原来的N个分界面中的部分或全部分界面的位置进行调整后的新的N个分界面，由于第一数据是属于原有的数据类别的，因此，只需调整原有的分界面的位置而无需增加新的分界面，在这种情况下，不需要新增加分界面w_n+1，公式(1)中的第二项即为0。

例如，如图2所示，图2是为了方便描述而以二维的坐标环境来说明调整分界面的方式，并不构成对实际调整分界面的方式的限定。如图2左边的图所示，原有三个分界面，将数据划分成了三个数据类别，比如为图中的加号数据类别、圆形数据类别、直线数据类别，待学习的第一数据比如为图中所示的虚线，可以认为虚线是属于直线数据类别的，因此将第一数据代入目标函数后，最终得到的W’可以是对原来的三个分界面中至少一个分界面进行调整后的新的三个分界面，如图2右边的图所示，可以是将原来分类出直线数据类别的一个分界面的位置向加号数据类别方向调整，进而使得直线数据类别所在的空间容纳第一数据。

通过以上的方式，通过一个目标函数就能够实现对旧类别的新数据进行学习，电子设备的学习能力以及数据处理能力较强。

在一种实施方式中，若确定第一数据的数据类别为原有的数据类别中未包括的数据类别，则可以基于目标函数，在N-1个原始分界面的基础上增加一个分界面，以得到N个分界面；其中，原始分界面可以是在获取第一数据之前已有的分界面。

同样以上述的目标函数为例，在对属于原有的数据类别中未包括的数据类别的第一数据时，同样将第一数据(x，y)输入公式(2)中求得e_i，电子设备可自行通过公式(3)计算得到e_j，将e_i和e_j代入公式(1)，便能够求得W’，由于需要在原有的数据类别中新增加一个数据类别，因此原来的W可以包括N-1个分界面，而求得的W’可以包括新增的分界面w_n+1而具有N个分界面。

例如，如图3所述，图3是为了方便描述而以二维的坐标环境来说明增加分界面的方式，并不构成对实际增加、调整分界面的方式的限定。如图3左边的图所示，原有三个分界面，将数据划分成了三个数据类别，比如为图中的加号数据类别、圆形数据类别、直线数据类别，待学习的第一数据比如为图中所示的星型数据，不属于原有的数据类别，因此，如图3右边的图所示，将第一数据代入目标函数后得到W’可以包括四个分界面，从而将数据划分成了四个数据类别，也就是新增加了星型数据类别。

通过以上的方式，通过同一个目标函数不仅能实现对属于原有的数据类别的新数据进行学习，还能够学习属于新的数据类别的新数据，电子设备的学习能力以及数据处理能力较强。

在一种实施方式中，若第一数据的数据类别为原有的数据类别中未包括的数据类别，那么可以基于目标函数，对N-1个原始分界面中的至少一个原始分界面所在的位置进行调整。

也就是说，在学习属于新的数据类别的新数据时，需要新生成一个分界面来划分新数据对应的类别，这有可能会对原有的数据类别产生影响，因此可以适当地调整分界面来提升划分数据类别的准确性。

例如，请继续参见图3，如图3右边的图所示，在根据第一数据新增加分界面w_n+1的同时还可以对原始分界面中的至少一个原始分界面的位置进行调整，比如，将图3右边的图所示的分界面1由原来的位置A调整到新的位置B，等等。

通过以上的方式，可以使得获得的分界面能够更为准确的分类数据，有利于电子设备在学习数据之后预测数据所述的数据类别时的准确性。

在通过分类器根据第一数据确定N个分界面之后，便能够通过N个分界面对包括第一数据在内的数据分类，也就是说，如果第一数据属于新增的数据类别，那么可以将第一数据分配到新增的第一数据类别中，或者如果第一数据属于原有的数据类别，那么可以将第一数据分配到原有的第一数据类别中。这样，完成了对第一数据的分类，进而也就完成了对第一数据的学习，电子设备不仅能实现对属于原有的数据类别的新数据进行学习，还能够学习属于新的数据类别的新数据，电子设备的学习能力以及数据处理能力较强。

参见图4，基于同一发明构思，本发明实施例提供一种电子设备，该电子设备可以包括：

存储器401，用于存储指令；

处理器402，用于调用存储器401存储的指令：

获取待学习的第一数据；

通过分类器根据第一数据确定N个分界面；分界面用于对数据进行分类；N为正整数；

基于N个分界面确定至少两个数据类别，且将第一数据分配到至少两个数据类别中的第一数据类别；第一数据类别为根据第一数据新增的数据类别或原有的数据类别。

可选的，处理器402用于：

将第一数据输入能够实现分类器的功能的目标函数，以得到N个分界面；目标函数用于学习新数据，且将新数据分配到新增的数据类别或原有的数据类别。

可选的，处理器402用于：

若确定第一数据的数据类别为原有的数据类别，则基于目标函数，调整N个原始分界面中的至少一个原始分界面的位置，以得到N个分界面；其中，原始分界面为在获取第一数据之前已有的分界面。

可选的，处理器402用于：

若确定第一数据的数据类别为原有的数据类别中未包括的数据类别，则基于目标函数，在N-1个原始分界面的基础上增加一个分界面，以得到N个分界面；其中，原始分界面为在获取第一数据之前已有的分界面。

可选的，处理器402还用于：

若第一数据的数据类别为原有的数据类别中未包括的数据类别，基于目标函数，对N-1个原始分界面中的至少一个原始分界面所在的位置进行调整。

本发明实施例中，存储器401和处理器402可以通过总线连接，也可以通过专门的连接线连接，图4以通过总线连接为例。

请参见图5，基于同一发明构思，本发明实施例提供另一种电子设备，该电子设备可以包括：

获取模块501，用于获取待学习的第一数据；

确定模块502，用于通过分类器根据第一数据确定N个分界面；分界面用于对数据进行分类；N为正整数；

分配模块503，用于基于N个分界面确定至少两个数据类别，且将第一数据分配到至少两个数据类别中的第一数据类别；第一数据类别为根据第一数据新增的数据类别或原有的数据类别。

可选的，确定模块502用于：

可选的，电子设备还包括：

调整模块，用于若第一数据的数据类别为原有的数据类别中未包括的数据类别，基于目标函数，对N-1个原始分界面中的至少一个原始分界面所在的位置进行调整。

本发明实施例中，图4与图5中的电子设备可以完成图1流程所介绍的数据分类方法，其中设备中的各个模块所执行的步骤等均可参考图1流程中的描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存驱动器(Universal Serial Bus flash drive)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本发明实施例中的一种数据分类方法对应的计算机程序指令可以被存储在光盘，硬盘，通用串行总线闪存驱动器等存储介质上，当存储介质中的与一种数据分类方法对应的计算机程序指令被一电子设备读取或被执行时，包括如下步骤：

获取待学习的第一数据；

可选的，所述存储介质中存储的与步骤：通过分类器根据所述第一数据确定N个分界面，对应的计算机指令在被执行过程中，包括：

可选的，所述存储介质中还存储有另外一些步骤，该另外一些步骤对应的计算机指令在被执行过程中，包括：

以上所述，以上实施例仅用以对本发明的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据分类方法，包括：

获取待学习的第一数据；

2.如权利要求1所述的方法，其特征在于，通过分类器根据所述第一数据确定N个分界面，包括：

3.如权利要求2所述的方法，其特征在于，通过分类器根据所述第一数据确定N个分界面，包括：

4.如权利要求2所述的方法，其特征在于，通过分类器根据所述第一数据确定N个分界面，包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种电子设备，包括：

存储器，用于存储指令；

处理器，用于执行所述指令：

获取待学习的第一数据；

7.如权利要求6所述的电子设备，其特征在于，所述处理器用于：

8.如权利要求7所述的电子设备，其特征在于，所述处理器用于：

9.如权利要求7所述的电子设备，其特征在于，所述处理器用于：

10.如权利要求9所述的电子设备，其特征在于，所述处理器还用于：

11.一种电子设备，包括：

获取模块，用于获取待学习的第一数据；