CN109740693B

CN109740693B - 数据识别方法和装置

Info

Publication number: CN109740693B
Application number: CN201910051530.1A
Authority: CN
Inventors: 黄丰喜
Original assignee: Beijing Xitui Technology Co ltd
Current assignee: Beijing Xitui Technology Co ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2021-05-18
Anticipated expiration: 2039-01-18
Also published as: CN109740693A

Abstract

本发明涉及一种数据识别方法和装置，若接收到待识别数据，基于预先构建的k‑means‑SVM树形模型，确定识别数据库的搜索范围；检测待识别数据与搜索范围中的验证数据是否相匹配；若待识别数据与验证数据相匹配，确定识别成功；若待识别数据与验证数据不匹配，确定识别失败，实现了对大量验证数据进行分类，快速识别待识别数据，减少了识别时间，提高了识别效率。

Description

数据识别方法和装置

技术领域

本发明涉及数据识别方法技术领域，具体涉及一种数据识别方法和装置。

背景技术

近年来，随着通信技术、互联网、云计算、大数据等技术的快速发展，对图像、指纹等数据进行识别称为国内外研究的热点。

现有技术中，在进行数据识别时，需要将待识别数据与识别数据库中的验证数据进行比对，得到比对结果，从而对待识别数据进行识别。

但是，识别数据库中的验证数据的数量往往比较大，这样，在将待识别数据与识别数据库中的验证数据进行比对时，需要花费的时间比较长，效率比较低。

发明内容

有鉴于此，本发明的目的在于提供一种数据识别方法和装置，以解决在将待识别数据与识别数据库中的验证数据进行比对时，需要花费的时间比较长，效率比较低的问题。

为实现以上目的，本发明提供一种数据识别方法，包括：

若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；

检测所述待识别数据与所述搜索范围中的验证数据是否相匹配；

若所述待识别数据与所述验证数据相匹配，确定识别成功；

若所述待识别数据与所述验证数据不匹配，确定识别失败。

进一步地，上述所述的方法，还包括：

基于k-means聚类算法，对当前根节点中的根数据进行聚类处理，得到至少两簇数据集；其中，所述当前根节点对应至少两个子节点；

基于SVM分类算法对每簇数据集中的当前数据进行训练，得到SVM分类器；

基于所述SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据；

基于所述根数据和所述分类数据，构建所述k-means-SVM树形模型。

进一步地，上述所述的方法，所述基于SVM分类算法对每簇数据集中的当前数据进行训练，得到SVM分类器之后，还包括：

基于迭代规则，对所述SVM分类器进行更新，得到目标SVM分类器，并在更新过程中执行以下操作：

利用当前SVM分类器对所述根数据中的未聚类数据进行预测，得到预测成功数据；

基于SVM分类算法对所述预测成功数据进行训练，以便更新所述当前SVM分类器，得到下一级SVM分类器；

当检测到所述当前SVM分类器的所述预测成功数据的第一数目与所述下一级SVM分类器的所述预测成功数据的第二数目一致时，停止更新，并将所述下一级SVM分类器作为所述目标SVM分类器；

对应地，所述基于所述SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据，包括：

基于所述目标SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据。

进一步地，上述所述的方法，所述确定识别数据库的搜索范围之后，还包括：

确定所述搜索范围对应的候选节点；

确定所述候选节点中所述分类数据对应的中心点数据和所述分类数据对应的数据标签；

根据所述数据标签和所述中心点数据，确定所述验证数据。

进一步地，上述所述的方法，所述确定识别数据库的搜索范围，包括：

基于knn算法，确定所述识别数据库的搜索范围。

本发明还提供一种数据识别装置，包括：

第一确定模块，用于若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；

检测模块，用于检测所述待识别数据与所述搜索范围中的验证数据是否相匹配；

第二确定模块，用于若所述待识别数据与所述验证数据相匹配，确定识别成功；若所述待识别数据与所述验证数据不匹配，确定识别失败。

进一步地，上述所述的装置，还包括：

处理模块，用于基于k-means聚类算法，对当前根节点中的根数据进行聚类处理，得到至少两簇数据集；其中，所述当前根节点对应至少两个子节点；

训练模块，用于基于SVM分类算法，对每簇数据集中的当前数据进行训练，得到SVM分类器；

第三确定模块，用于基于所述SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据；

构建模块，用于基于所述根数据和所述分类数据，构建所述k-means-SVM树形模型。

进一步地，上述所述的装置，还包括：

更新模块，用于基于迭代规则，对所述SVM分类器进行更新，得到目标SVM分类器，并在更新过程中执行以下操作：

对应地，所述第三确定模块，用于基于所述目标SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据。

进一步地，上述所述的装置，所述第一确定模块，还用于：

确定所述搜索范围对应的候选节点；

根据所述数据标签和所述中心点数据，确定所述验证数据。

进一步地，上述所述的装置，所述第一确定模块，还用于：

基于knn算法，确定所述识别数据库的搜索范围。

本发明的数据识别方法和装置，若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；检测待识别数据与搜索范围中的验证数据是否相匹配；若待识别数据与验证数据相匹配，确定识别成功；若待识别数据与验证数据不匹配，确定识别失败，实现了对大量验证数据进行分类，快速识别待识别数据，减少了识别时间，提高了识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的数据识别方法实施例的流程图；

图2为本发明的数据识别装置实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1为本发明的数据识别方法实施例的流程图，如图1所示，本实施例的数据识别方法具体可以包括如下流程：

100、若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；

在一个具体实现过程中，可以预先建立数据识别库，该数据识别库中存在大量的验证数据，本实施例中，可以基于树形结构，针对这些大量的验证数据进行分析，建立相应的树形模型，以便对大量验证数据进行分类。

例如，k-means算法是一种基于样本间相似性度量的间接聚类方法，属于非监督学习方法。此算法以k为参数，把n个对象分为k个簇，以使簇内具有较高的相似度，而且簇间的相似度较低。支持向量机(Support Vector Machine，SVM)是在特征空间或者特征的高维映射空间里建立一个最大间隔超平面，在分割数据的超平面的两边建有两个互相平行的超平面，建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化，其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。本实施例中可以基于k-means算法和SVM对大量验证数据进行分析，从而将大量的验证数据分散在树形结构上，从而构建k-means-SVM树形模型。

具体地，本实施例中可以将每次进行分裂的节点作为树形结构的当前根节点。本实施例中，可以基于k-means聚类算法，对当前根节点中的根数据进行聚类处理，得到至少两簇数据集；其中，当前根节点对应至少两个子节点；基于SVM分类算法对每簇数据集中的当前数据进行训练，得到SVM分类器；基于SVM分类器，对根数据进行分类，确定每个子节点的分类数据；当满足树形结构的终止生长条件时不再进行生长，此时可以基于当前根数据和分类数据，构建k-means-SVM树形模型，使所有验证数据分裂在k-means-SVM树形模型中。其中，当某个子节点的数据的数目小于预设阈值时，则不再生长，或者，当树形结构生长到指定层时，不再生长。

当建立好k-means-SVM树形模型后，若接收到待识别数据，可以基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；例如，可以基于knn算法，确定该识别数据库的搜索范围。

101、检测待识别数据与搜索范围中的验证数据是否相匹配；若待识别数据与验证数据相匹配，执行步骤102，否则，若待识别数据与验证数据不匹配，执行步骤103；

当确定识别数据库的搜索范围后，可以确定该搜索范围对应的候选节点；确定候选节点中分类数据对应的中心点数据和分类数据对应的数据标签；根据所述数据标签和所述中心点数据，确定验证数据。

例如，每个叶子节点上面保存的有该叶子节点一共有多少个具体的实际类别标签的验证数据，进行数据识别的时候会指定一个数字范围，比如说指定100，就是说进行数据识别的时候返回100个标签，如果叶子节点上面实际类别标签个数小于100就会从该叶子节点附近从近到远取够100个，如果叶子节点上面实际类别标签大于100就选择可能性最大的前100个标签，可能性可以将待识别数据距离每一类的类中心的距离值作为判定标准，该距离值越小可能性越大。

在确定搜索范围中的验证数据后，可以检测待识别数据与搜索范围中的验证数据是否相匹配，若待识别数据与验证数据相匹配，执行步骤102，否则，若待识别数据与验证数据不匹配，执行步骤103。

由于该搜索范围只包括所有验证数据中的部分数据，且与待识别数据的类别相匹配，所以，在进行数据识别时，缩小了验证数据的数量，能够快速进行识别待识别数据与验证数据的关系，所需时间较短，提高了识别效率。

102、确定识别成功；

若待识别数据与验证数据相匹配，确定对待识别数据识别成功。

103、确定识别失败。

若待识别数据与验证数据不匹配，确定对待识别数据识别失败。

本实施例的数据识别方法，若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；检测待识别数据与搜索范围中的验证数据是否相匹配；若待识别数据与验证数据相匹配，确定识别成功；若待识别数据与验证数据不匹配，确定识别失败，实现了对大量验证数据进行分类，快速识别待识别数据，减少了识别时间，提高了识别效率。

在一个具体实现过程中，基于SVM分类算法对每簇数据集中的当前数据进行训练，得到的SVM分类器可能误差较大，导致构建的k-means-SVM树形模型并不精确，因此，为了解决上述技术问题，本实施例还提供了以下技术方案。

例如，本实施例中，可以基于迭代规则，对SVM分类器进行更新，得到目标SVM分类器，并在更新过程中执行以下操作：

a、利用当前SVM分类器对根数据中的未聚类数据进行预测，得到预测成功数据；

b、基于SVM分类算法对预测成功数据进行训练，以便更新当前SVM分类器，得到下一级SVM分类器；

c、当检测到当前SVM分类器的预测成功数据的第一数目与下一级SVM分类器的预测成功数据的第二数目一致时，停止更新，并将下一级SVM分类器作为目标SVM分类器；

对应地，可以基于目标SVM分类器，对根数据进行分类，确定每个子节点的分类数据。

例如，以聚类成2簇为例，k-means聚类结束后把分得的两簇分别标记为0和1两个标签，然后用这两簇有标签的数据训练一个SVM的二分类器，找到一个平面把尽可能多的0和1分别分割在一个平面的两侧，SVM训练完成以后拿训练好的平面测试k-means聚类时的未聚类数据，把SVM分类器预测准确的数据拿来重新训练SVM分类器的分割平面，其中，SVM分类器预测准确的数据为同一类的数据全部落在一侧的数据，照此方法迭代更新SVM分类器的分割平面直到用SVM分类器预测数据的误差个数不在发生变化为止，得到目标SVM分类器。

基于目标分类器中对应的两个0和1的数据集，在根据样本的实际标签进行分类，确定每个子节点的分类数据。若同一类中的数据被完全划分到0或者1中，则这类样本不做处理；若同一类中的数据既有一部分划分到了0中，又有一部分数据划分到了1中，则这类数据的全部数据既要放入0中，又要放入1中。

图2为本发明的数据识别装置实施例的结构示意图，如图2所示，本实施例的数据识别装置包括第一确定模块10、检测模块11和第二确定模块12。

第一确定模块10，用于若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；例如，基于knn算法，确定所述识别数据库的搜索范围。

如图2所示，本实施例的数据识别装置还可以包括处理模块13、训练模块14、第三确定模块15和构建模块16。

处理模块13，用于基于k-means聚类算法，对当前根节点中的根数据进行聚类处理，得到至少两簇数据集；其中，当前根节点对应至少两个子节点；

训练模块14，用于基于SVM分类算法，对每簇数据集中的当前数据进行训练，得到SVM分类器；第三确定模块15，用于基于SVM分类器，对根数据进行分类，确定每个子节点的分类数据；构建模块16，用于基于根数据和分类数据，构建k-means-SVM树形模型。

检测模块11，用于检测待识别数据与搜索范围中的验证数据是否相匹配；

本实施例中，第一确定模块10还可以确定搜索范围对应的候选节点；确定候选节点中分类数据对应的中心点数据和分类数据对应的数据标签；根据数据标签和中心点数据，确定搜索范围中的验证数据。

在确定搜索范围中的验证数据后，检测模块11可以检测待识别数据与搜索范围中的验证数据是否相匹配。

第二确定模块12，用于若待识别数据与验证数据相匹配，确定识别成功；若待识别数据与验证数据不匹配，确定识别失败。

本实施例的数据识别装置，若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；检测待识别数据与搜索范围中的验证数据是否相匹配；若待识别数据与验证数据相匹配，确定识别成功；若待识别数据与验证数据不匹配，确定识别失败，实现了对大量验证数据进行分类，快速识别待识别数据，减少了识别时间，提高了识别效率。

如图2所示，本实施例的数据识别装置还可以包括更新模块17，更新模块17，用于基于迭代规则，对SVM分类器进行更新，得到目标SVM分类器，并在更新过程中执行以下操作：利用当前SVM分类器对根数据中的未聚类数据进行预测，得到预测成功数据；基于SVM分类算法对预测成功数据进行训练，以便更新当前SVM分类器，得到下一级SVM分类器；当检测到当前SVM分类器的预测成功数据的第一数目与下一级SVM分类器的预测成功数据的第二数目一致时，停止更新，并将下一级SVM分类器作为目标SVM分类器。对应地，第三确定模块15，用于基于目标SVM分类器，对根数据进行分类，确定每个子节点的分类数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据识别方法，其特征在于，包括：

基于所述根数据和所述分类数据，构建k-means-SVM树形模型；

若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；所述确定识别数据库的搜索范围，包括：基于knn算法，确定所述识别数据库的搜索范围；

确定所述搜索范围对应的候选节点；

确定所述候选节点中分类数据对应的中心点数据和分类数据对应的数据标签；

根据所述数据标签和所述中心点数据，确定验证数据；

若所述待识别数据与所述验证数据相匹配，确定识别成功；

若所述待识别数据与所述验证数据不匹配，确定识别失败。

2.根据权利要求1所述的方法，其特征在于，所述基于SVM分类算法对每簇数据集中的当前数据进行训练，得到SVM分类器之后，还包括：

3.一种数据识别装置，其特征在于，包括：

第一确定模块，用于基于k-means聚类算法，对当前根节点中的根数据进行聚类处理，得到至少两簇数据集；其中，所述当前根节点对应至少两个子节点；基于SVM分类算法对每簇数据集中的当前数据进行训练，得到SVM分类器；基于所述SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据；基于所述根数据和所述分类数据，构建k-means-SVM树形模型；若接收到待识别数据，基于预先构建的k-means-SVM树形模型，确定识别数据库的搜索范围；所述确定识别数据库的搜索范围，包括：基于knn算法，确定所述识别数据库的搜索范围；

确定所述搜索范围对应的候选节点，确定所述候选节点中分类数据对应的中心点数据和分类数据对应的数据标签，根据所述数据标签和所述中心点数据，确定验证数据；

4.根据权利要求3所述的装置，其特征在于，还包括：

对应地，第三确定模块，用于基于所述目标SVM分类器，对所述根数据进行分类，确定每个所述子节点的分类数据。