CN103678419B

CN103678419B - 一种数据识别方法及装置

Info

Publication number: CN103678419B
Application number: CN201210362300.5A
Authority: CN
Inventors: 李建强; 刘春辰
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2016-09-14
Anticipated expiration: 2032-09-25
Also published as: CN103678419A

Abstract

本发明公开了一种数据识别方法及装置，涉及数据处理技术，根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集，使得各识别器分别根据各数据子集进行训练，保证了各个识别器的差异性，因此，在对待识别数据进行数据识别时，获得训练后的识别器给出的识别结果，再根据各个识别结果确定该待识别数据的最终识别结果，提高了大数据识别的精确度。

Description

一种数据识别方法及装置

技术领域

本发明涉及数据处理技术，尤其涉及一种数据识别方法及装置。

背景技术

目前，现实和虚拟世界的数据产生速度越来越大，对数据进行自动识别会便于用户对数据的查找和使用，因此，很多应用或系统在获得新的数据时，需要通过对已有数据的识别方式，对所获得的数据进行数据识别。

目前进行数据识别的方法主要为：先从标注数据中选取相应训练数据由识别器进行学习，在获得新的数据时，即可使用学习后的识别器对该数据进行数据识别。

在进行识别器的学习时，和本专利最相关的技术包括大规模机器学习以及集成学习，下面分别对这两种学习方式进行具体说明：

大规模机器学习是指能够利用大规模数据来监督识别器学习以解决大数据分析基本问题的理论或方法，大数据（大规模数据，通常至少包括10W标注数据样本）概念的出现使很多只关心识别精度的传统的机器学习方法不再适用。

集成学习是通过利用不同的训练标注数据集合或者不同的特征集合训练得到多个识别器，在应用过程中这多个识别器以某种组合策略，比如投票，来解决某个识别问题。集成学习主要用来改善单个识别器的识别或预测等的性能精度。这种机器学习范式相对于单个识别器的学习算法来说，更容易扩展到大规模数据的学习任务。比较有影响的集成学习方法包括boosting（增强学习方法），bagging（基于可放回采样的学习方法）等。

集成学习方法可以使得识别精度较高，其主要原因是它能够通过群体决策的方式来克服单个识别器可能犯得一些识别错误，而这主要归功于多个识别器的差异性。因此，要实现多个弱识别器的组合以实现强识别器，需要不同的个体识别器在不同的识别任务中需要犯不同的错误，以造成这种差异性。

基于不同的训练集合，不同的识别器参数，或者不同的特征集合而获得的多个识别器模型需要以某种策略组合起来使用来最终决定某个测试实例的最终识别结果，这种群体决策的策略就是识别器组合。

集成学习方法具有对于大规模数据上的机器学习具有很强的可扩展性，但如果直接将他们应用到大规模数据学习问题中，由于差异性不明显，会造成最终的数据挖掘精度不是很高，不能取得理想的效果。虽然实现了大规模数据学习，但不能充分体现大规模数据学习的优势。

目前，可以通过重采样技术和划分子集的方式，使得集成学习方法能够应用到大规模学习中去，可是，不同的识别器通过不同的采样技术在大数据中进行采样，能够实现所训练的识别器的差异性，但由于只有部分的训练数据被采样并用来识别器的构建，所以标注样本中蕴含的知识并没有都用于识别器的训练。而直接将整个标注数据集分成多个子集，这种随机的标注数据集拆分的方法不能保证不同子标注集合之间的差异性，从而不能保证多个识别器之间差异性。

发明内容

本发明实施例提供一种数据识别方法及装置，以提高大数据识别的精确度。

一种数据识别方法，包括：

分别确定多个识别器对待识别数据进行数据识别的识别结果，所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

根据各个识别结果确定该待识别数据的最终识别结果。

一种数据识别装置，包括：

第一确定单元，用于分别确定多个识别器对待识别数据进行数据识别的识别结果，所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

第二确定单元，用于根据各个识别结果确定该待识别数据的最终识别结果。

本发明实施例提供一种数据识别方法及装置，根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集，使得各识别器分别根据各数据子集进行训练，保证了各个识别器的差异性，因此，在对待识别数据进行数据识别时，获得训练后的识别器给出的识别结果，再根据各个识别结果确定该待识别数据的最终识别结果，提高了大数据识别的精确度。

附图说明

图1为本发明实施例提供的数据识别方法流程图；

图2为本发明实施例提供的根据标注数据样本的差异性将包含标注数据样本的标注数据集划分多个数据子集的方法流程图；

图3为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之一；

图4为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之二；

图5为本发明实施例提供的数据识别装置结构示意图。

具体实施方式

在将整个标注集合分成多个子集过程中，将数据子集之间的差异性作为一个优化的指标来考虑进来，从而保证最后获得的多个子集之间具有最大的差异性。

进一步，在进行数据识别时，可以基于标注数据样本的差异性对多个识别器进行选择（只有最相关的领域专家才参加最后的投票），同时在投票过程中，不只是多个识别器之间的差异性被考虑进来，还将每个识别器局部的特征，即每个识别器的置信度信息也考虑到最后的识别器组合过程中，从而进一步提高识别的精度。

具体的，如图1所示，本发明实施例提供的数据识别方法，包括：

步骤S101、分别确定多个识别器对待识别数据进行数据识别的识别结果，多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

步骤S102、根据各个识别结果确定该待识别数据的最终识别结果。

由于将包含标注数据样本的标注数据集根据样本差异性划分成了多个数据子集，又通过各个数据子集分别对各个识别器进行训练，保证了各个识别器之间的差异性，从而提高了对数据进行识别的精度。

具体的，在将包含标注数据样本的标注数据集划分成多个数据子集时，需要进行如下三个方面的考虑：

1）每个数据子集应该足够大，从而能够被用来训练单个的识别器；

2）每个数据子集的大小应该使其在进行识别器的训练时，训练时间不能过长，即每个子标注数据集不能过大到不能顺利完成单个识别器的构建；

3）为了实现识别器的差异性(这一点是能够保证集成学习方法能够具有较高识别精度的关键），需要使多个数据子集之间的相似度尽量低。在本发明以下的实施例中，是通过图论来表示数据子集之间的相似度。如果数据子集之间的相似度越高，则在图中两者的距离则越小。本领域内技术人员可以理解，还可以应用其他方式来表示数据子集之间的相似度，在此不再赘述。

本发明实施例提供一种标注数据集的划分方法，将实现多个标注数据集合之间距离的最大化（也就是差异最大化）转换为它的对偶问题，也就是，找到一个拆分方案使每个子标注数据集合中的样本之间的距离之和最小化，此时，可以首先获取数据集中的标注数据样本；再从标注数据样本中，确定每组相似度最大的设定数量的标注数据样本为一个数据子集，直至数据集中的每个标注数据样本均被划分至数据子集中。进而使得每一数据子集内所包含的标注数据样本之间的相似度最高，且数据子集之间的相似度最低。

具体的，如图2所示，根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集，具体包括：

步骤S201、将标注数据集中的每个标注数据样本作为初始的数据子集；

步骤S202、对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集，将其和与其距离最小的数据子集合并，对每个所包含标注数据样本数量大于设定的第二阈值的数据子集，将其切分为多个数据子集，并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值，且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值，其中，数据子集间的距离可以通过图论的方式来进行量化，也可以通过其它方式进行量化；

步骤S203、确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时，将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。

其中，第一阈值根据条件1）设定，即，使得每个数据子集足够大，从而能够被用来训练单个的识别器，第二阈值根据条件2）设定，即，使得每个子标注数据集不能过大到不能顺利完成单个识别器的构建。

根据步骤S202可知，第二阈值必然大于第一阈值，当第二阈值小于第一阈值的二倍时，可能出现切分后的数据子集中，有一个数据子集必然不能满足条件1）或条件2），此时，则保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值，且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值，从而可以使得小于设定的第一阈值的数据子集与其它子集进行进一步合并，当然，为进一步便于标注数据集的划分，第二阈值设定为第一阈值的整数倍较佳。

通常，数据子集的大小和训练识别器的关系为，随着数据子集中的数据数量从0开始增大，训练识别器的效果越来越好，直至数据子集中的数据数量达到某一最佳值，此时训练识别器的效果达到最佳，随后，随着数据子集中的数据数量继续增大，训练识别器的效果也越来越差，因此，第一阈值和第二阈值的设定，可以参考数据子集的大小和训练识别器的关系曲线进行。

当然，在本实施例中是每次只与一个相似度最高的数据子集进行合并。本领域内技术人员可以理解，还可以每次与两个或多个数据子集进行合并，其原理与上述实施例相似，在此不再赘述。

进一步，在对待识别数据进行识别时，可以仅使用与该待识别数据关联程度较大的识别器进行识别，从而避免与该待识别数据关联程度较小的识别器给出的错误识别结果造成的干扰，从而进一步提高识别精度。

具体的，在步骤S101分别确定多个识别器对待识别数据进行数据识别的识别结果前，还包括：

确定将与待识别数据关联程度最大的设定个数的识别器，作为多个识别器；或者

确定将与待识别数据的关联程度大于设定阈值的识别器，作为多个识别器。

其中，确定将与待识别数据关联程度最大的设定个数的识别器，作为多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数最高的设定个数个识别器，作为多个识别器；

相应的，确定将与待识别数据的关联程度大于设定阈值的识别器，作为多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数超过设定分数值的识别器，作为多个识别器。

各个识别器可以根据待识别数据与训练自身的数据子集中各数据的关联程度给出该待识别数据的关联程度分数，具体的，本发明实施例中确定各识别器给出的该待识别数据的关联程度分数，具体为：

各识别器分别计算待识别数据和该识别器对应的数据子集的相似度，并将该相似度作为该待识别数据的关联程度分数；或者

从标注数据集中选取设定数量的与待识别数据最相近的标注数据样本，各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值，为该待识别数据的关联程度分数。

在步骤S102中，根据各个识别结果确定该待识别数据的最终识别结果，可以直接采用相同识别结果数量最多的识别结果作为该待识别数据的最终识别结果，为进一步提高识别精度，本发明实施例还提供一种较佳的根据各个识别结果确定该待识别数据的最终识别结果的方式，此时，如图3所示，步骤S102包括：

步骤S301、对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重；

步骤S302、根据多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果。

其中，步骤S301中，对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重，具体为：

对于每个识别器，确定该识别器的投票权重为该识别器给出的该待识别数据的关联程度分数与该识别器对该待识别数据进行识别后给出的置信值的乘积。

如图4所示，步骤S302中，根据多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果，具体包括：

步骤S401、根据多个识别器的识别结果将多个识别器进行分组；

步骤S402、根据各个识别器的投票权重，确定每个分组的加权求和值；

步骤S403、将加权求和值最大的分组所对应的识别结果，确定为该待识别数据的最终识别结果。

例如，若10个识别器对待识别数据进行识别，其中3个识别器给出的识别结果为A，且权重分别为0.1、0.2、0.3，3个识别器给出的识别结果为B，且权重分别为0.5、0.5、0.4，4个识别器给出的识别结果为C，且权重分别为0.2、0.2、0.3、0.1，可以得出，识别结果为A的分组的加权求和值为0.1+0.2+0.3=0.6，识别结果为B的分组的加权求和值为0.5+0.5+0.4=1.4，识别结果为C的分组的加权求和值为0.2+0.2+0.3+0.1=0.8，则可以确定识别结果为B的分组的加权求和值最大，最终识别结果为B。

相应的，本发明实施例还提供一种数据识别装置，如图5所示，该装置包括：

第一确定单元501，用于分别确定多个识别器对待识别数据进行数据识别的识别结果，多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

第二确定单元502，用于根据各个识别结果确定该待识别数据的最终识别结果。

其中，第一确定单元501根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集，具体包括：

获取数据集中的标注数据样本；

从标注数据样本中，确定每组相似度最大的设定数量的标注数据样本为一个数据子集，直至数据集中的每个标注数据样本均被划分至数据子集中。

具体的，第一确定单元501根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集，具体包括：

将标注数据集中的每个标注数据样本作为初始的数据子集；

对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集，将其和与其距离最小的数据子集合并，对每个所包含标注数据样本数量大于设定的第二阈值的数据子集，将其切分为多个数据子集，并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值，且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值；

确定每个数据子集中所包含标注数据样本数量均大于设定的第一阈值且小于设定的第二阈值时，将当前所划分的数据子集结果作为根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集。

第一确定单元501还用于：

在分别确定多个识别器对待识别数据进行数据识别的识别结果前，确定将与待识别数据关联程度最大的设定个数的识别器，作为多个识别器；或者

在分别确定多个识别器对待识别数据进行数据识别的识别结果前，确定将与待识别数据的关联程度大于设定阈值的识别器，作为多个识别器。

第一确定单元501确定将与待识别数据关联程度最大的设定个数的识别器，作为多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数最高的设定个数个识别器，作为多个识别器；

第一确定单元501确定将与待识别数据的关联程度大于设定阈值的识别器，作为多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数超过设定分数值的识别器，作为多个识别器。

其中，各识别器给出的该待识别数据的关联程度分数，具体为：

第二确定单元502具体用于：

对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重；

根据多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果。

第二确定单元502对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重，具体为：

第二确定单元502根据多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果，具体包括：

根据多个识别器的识别结果将多个识别器进行分组；

根据各个识别器的投票权重，确定每个分组的加权求和值；

将加权求和值最大的分组所对应的识别结果，确定为该待识别数据的最终识别结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据识别方法，其特征在于，包括：

根据各个识别结果确定该待识别数据的最终识别结果；

其中，所述根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集，具体包括：

将标注数据集中的每个标注数据样本作为初始的数据子集；

对于每个所包含标注数据样本数量小于设定的第一阈值的数据子集，根据该数据子集与其他数据子集之间的相似度，将该数据子集与其他数据子集进行合并；对每个所包含标注数据样本数量大于设定的第二阈值的数据子集，将其切分为多个数据子集，并保证切分后的每个数据子集中所包含标注数据样本数量均小于设定的第二阈值，且至多有一个数据子集中所包含标注数据样本数量小于设定的第一阈值；

2.如权利要求1所述的方法，其特征在于，所述分别确定多个识别器对待识别数据进行数据识别的识别结果前，还包括：

确定将与待识别数据关联程度最大的设定个数的识别器，作为所述多个识别器；或者

确定将与待识别数据的关联程度大于设定阈值的识别器，作为所述多个识别器。

3.如权利要求2所述的方法，其特征在于，所述确定将与待识别数据关联程度最大的设定个数的识别器，作为所述多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数最高的设定个数个识别器，作为所述多个识别器；

所述确定将与待识别数据的关联程度大于设定阈值的识别器，作为所述多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数超过设定分数值的识别器，作为所述多个识别器。

4.如权利要求3所述的方法，其特征在于，所述各识别器给出的该待识别数据的关联程度分数，具体为：

从所述标注数据集中选取设定数量的与所述待识别数据最相近的标注数据样本，各识别器分别确定该识别器对应的数据子集包含的所选取的标注数据样本的数量与该识别器对应的数据子集中的标注数据样本数量的比值，为该待识别数据的关联程度分数。

5.如权利要求3所述的方法，其特征在于，所述根据各个识别结果确定该待识别数据的最终识别结果，具体包括：

根据所述多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果。

6.如权利要求5所述的方法，其特征在于，所述对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重，具体为：

7.如权利要求5所述的方法，其特征在于，所述根据所述多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果，具体包括：

根据多个识别器的识别结果将所述多个识别器进行分组；

根据各个识别器的投票权重，确定每个分组的加权求和值；

8.一种数据识别装置，其特征在于，包括：

第二确定单元，用于根据各个识别结果确定该待识别数据的最终识别结果；

其中，所述第一确定单元根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成多个数据子集，具体包括：

将标注数据集中的每个标注数据样本作为初始的数据子集；

9.如权利要求8所述的装置，其特征在于，所述第一确定单元还用于：

在分别确定多个识别器对待识别数据进行数据识别的识别结果前，确定将与待识别数据关联程度最大的设定个数的识别器，作为所述多个识别器；或者

在分别确定多个识别器对待识别数据进行数据识别的识别结果前，确定将与待识别数据的关联程度大于设定阈值的识别器，作为所述多个识别器。

10.如权利要求9所述的装置，其特征在于，所述第一确定单元确定将与待识别数据关联程度最大的设定个数的识别器，作为所述多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数最高的设定个数个识别器，作为所述多个识别器；

所述第一确定单元确定将与待识别数据的关联程度大于设定阈值的识别器，作为所述多个识别器，具体包括：

确定各识别器给出的该待识别数据的关联程度分数；

将分数超过设定分数值的识别器，作为所述多个识别器。

11.如权利要求10所述的装置，其特征在于，所述各识别器给出的该待识别数据的关联程度分数，具体为：

12.如权利要求10所述的装置，其特征在于，所述第二确定单元具体用于：

13.如权利要求12所述的装置，其特征在于，所述第二确定单元对于每个识别器，根据该识别器给出的该待识别数据的关联程度分数以及该识别器对该待识别数据进行识别后给出的置信值，确定该识别器的投票权重，具体为：

14.如权利要求12所述的装置，其特征在于，所述第二确定单元根据所述多个识别器的识别结果以及其投票权重，确定该待识别数据的最终识别结果，具体包括：

根据多个识别器的识别结果将所述多个识别器进行分组；

根据各个识别器的投票权重，确定每个分组的加权求和值；