CN110263155A

CN110263155A - 数据分类方法、数据分类模型的训练方法及系统

Info

Publication number: CN110263155A
Application number: CN201910426028.4A
Authority: CN
Inventors: 林博
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-20
Anticipated expiration: 2039-05-21
Also published as: CN110263155B

Abstract

本说明书公开了数据分类方法、数据分类模型的训练方法及系统，获得用于处理所述待分类数据字段的数据库操作语句；对所述数据库操作语句进行解析，获得用于处理所述待分类数据字段的操作参数；针对所述操作参数进行特征提取，获得对应的操作特征；调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。

Description

数据分类方法、数据分类模型的训练方法及系统

技术领域

本申请涉及互联网技术领域，尤其涉及数据分类方法、数据分类模型的训练方法及系统。

背景技术

目前针对数据库中的结构化数据的分类，主要基于对字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类。

例如，基于字段的语义信息，提取出带分类字段的名称和字段注释，通过正则表达式匹配其中可能存在的敏感信息，如若匹配到“card”，则可归类于“银行卡”这一类别。或者，基于字段的内容对字段内容进行抽样，然后利用以往经验对内容进行分析，例如身份证号，便可以在抽取的字段内容中用正则匹配+校验位的方式进行检验。

但是，上述分类方式存在分类准确率不高的问题。

发明内容

本说明书提供了数据分类方法、数据分类模型的训练方法及系统，以解决或者部分解决当前分类方式的分类精度不高的技术问题。

为解决上述技术问题，本说明书公开了一种数据分类方法，所述方法包括：

获得用于处理所述待分类数据字段的数据库操作语句；

对所述数据库操作语句进行解析，获得用于处理所述待分类数据字段的操作参数；

针对所述操作参数进行特征提取，获得对应的操作特征；

调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。

本说明书公开了一种数据分类模型的训练方法，所述方法包括：

获得用于处理数据字段样本的数据库操作语句样本；其中，所述数据字段样本具有分类类别；

对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本；

针对所述操作参数样本进行特征提取，获得对应的操作特征样本；

通过所述操作特征样本确定对应的待训练模型；

通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。

本说明书公开了一种数据分类系统，包括：

第一获得单元，用于获得用于处理所述待分类数据字段的数据库操作语句；

第一解析单元，用于对所述数据库操作语句进行解析，获得用于处理所述待分类数据字段的操作参数；

第一提取单元，用于针对所述操作参数进行特征提取，获得对应的操作特征；

分类单元，用于调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。

本说明书公开了一种数据分类模型的训练系统，包括：

获得模块，用于获得用于处理数据字段样本的数据库操作语句样本；其中，所述数据字段样本具有分类类别；

解析模块，用于对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本；

提取模块，用于针对所述操作参数样本进行特征提取，获得对应的操作特征样本；

确定模块，用于通过所述操作特征样本确定对应的待训练模型；

训练模块，用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。

本说明书公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本说明书公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

通过本说明书的一个或者多个技术方案，本说明书具有以下有益效果或者优点：

本说明书公开了数据分类方法、数据分类模型的训练方法及系统，本说明书的数据分类方法，并没有针对结构化数据本身，而是从调用结构化数据的数据操作语句入手，通过对待分类数据字段对应的数据操作语句进行解析、提取得到数据操作语句的操作特征，调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果，由于数据操作语句能够可以更加客观的揭示结构化数据中数据字段的真实含义，进而对数据操作语句进行分类提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

进一步的，本说明书的训练方法并没有针对结构化数据本身，而是从调用结构化数据的数据操作语句入手，通过获得数据操作语句样本，并对所述数据操作语句样本进行解析、提取等操作得到数据操作语句样本的操作特征样本，然后通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型，来对结构化数据的种类的判断。通过多维度数据的积累可以更加客观的揭示结构化数据中数据字段的真实含义，进而提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

上述说明仅是本说明书技术方案的概述，为了能够更清楚了解本说明书的技术手段，而可依照说明书的内容予以实施，并且为了让本说明书的上述和其它目的、特征和优点能够更明显易懂，以下特举本说明书的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本说明书的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本说明书一个实施例的一种数据分类模型的训练方法的实施过程图；

图2示出了根据本说明书一个实施例的一种数据分类方法的实施过程图；

图3示出了根据本说明书一个实施例的一种数据分类模型的训练系统的示意图；

图4示出了根据本说明书一个实施例的一种数据分类系统的示意图；

图5示出了根据本说明书一个实施例的一种计算机设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

对于数据库中的结构化数据，目前仅仅根据字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类，如果命名不当，或者缺少注释，或者没有明显特征的字段内容，就会存在分类不准的问题。故而，本说明书的一个或者多个实施例提供了一种数据分类方法、数据分类模型的训练方法及系统。在数据分类过程和数据分类模型的训练过程中，都没有针对存储在数据库中的结构化数据本身进行分类，而是从调用结构化数据的数据操作语句入手，通过对数据操作语句的分析得到更多维度的信息，用于对结构化数据的种类的判断。通过多维度数据的积累可以更加客观的揭示结构化数据中数据字段的真实含义，进而提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

当然，本实施例的数据分类方法和数据分类模型的训练方法不仅仅针对内容和语义特征不明显的结构化数据，而是针对所有结构化数据。因为所有结构化数据都对应有各自的数据操作语句，因此利用本方案可以覆盖所有的结构化数据，提升所有结构化数据的分类精度。

在下面的一个或者多个实施例中，先介绍数据分类模型的训练方法，该方法训练出的数据分类模型分类精度较高。能够针对所有结构化数据进行分类，不管数据库中的数据是何种形式，都能够准确的对其分类。

数据操作语句，也称为DML(Data Manipulation Language，数据操作语言)，负责对数据库对象运行数据访问工作的指令集。

下面请参看图1，是本实施例公开的一种数据分类模型的训练方法的实施过程图，主要是根据数据操作语句样本和该语句样本对应的数据字段样本的分类结果进行模型训练，该方法具体包括如下步骤：

步骤11，获得用于处理数据字段样本的数据库操作语句样本。

所述数据操作语句样本，是用来操作数据字段样本的数据操纵语言，数据字段样本是以字段表示的结构化数据样本。数据字段样本已经经过类别划分，具有一个或者多个分类类别。关于数据字段样本的分类类别，目前所有类别都应当包含在本实施例的分类类别中。

步骤12，对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本。

本实施例的操作参数样本包括：参数as后面的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合。

在具体的实施过程中，数据操作语句中的通常按照操作参数的格式对数据操作语句进行解析。解析后可以从数据操作语句样本中抽取出以下一种或者多种组合的操作参数样本：

Alias参数，即参数as后面的字段别名。字段别名是对字段名称和注释的补充。由于数据字段的字段名称和注释在存储表中可能并不明显，而使用该数据字段的用户群会通过别名的形式给出这个数据字段的明确含义，所以该字段别名也可以作为参考参数。

统计函数，如sum、count等统计函数。对于一些交易金额等数字类型的字段，用户在使用的过程中可能会进行一些如sum、count等操作，这些函数也是标识数据字段类型的重要特征。

where条件参数，包括“>＝”、“like”等操作符，也包括具体的值。where条件参数中也包含数据字段的重要信息，比如从like“％北京％”中可以判定该数据字段很可能是个地名。

连接join条件参数，也即join条件中的信息，join条件中暗含了种类的等价关系，如a.id＝b.card_num，表示可以通过b表中card_num辅助判断a表id字段很可能是卡号。

case when参数：case when语句中then的部分和when的部分参数。case when语句中then的部分是对于when部分的解释，从中可以对then字段种类进一步理解。

步骤13，针对所述操作参数样本进行特征提取，获得对应的操作特征样本。

在具体的实施过程中，所述操作特征样本包括以下一种或者多种组合：

语义特征样本，如alias名称、where条件的值。

统计特征样本，如alias名称的分布、count/sum函数的统计量等。

行为特征样本，执行语句的用户信息及时间分布。

血缘特征样本，通过Join信息发现的字段血缘关系。

关键字特征样本，从数据操作语句中抽取的信息种类和特征还可以有更丰富的信息，通过正则表达式匹配出一些特定关键字信息。

由于操作特征样本和操作参数样本相关，故对操作参数样本进行特征提取便可以得到对应的操作特征样本。

步骤14，通过所述操作特征样本确定对应的待训练模型。

由于操作特征样本不同，其对应的待训练模型也不同。故而在确定待训练模型的过程中，基于不同的操作特征样本会执行不同的操作。

具体来说，通过所述操作特征样本确定出对应的待训练模型，具体包括以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述行为特征样本确定待训练人员-行为-字段关系图模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

从上述步骤可知，操作特征样本可以只是一种类型的操作特征样本，也可以是多种组合得到的操作特征样本。若操作特征样本为多种组合的情况下，也是根据不同类型的操作特征样本分别确定各自的待训练模型。

由此可见，本实施例能够实现将操作特征样本分为不同的类型，并对各类型的操作特征分别确定出各自对应的待训练模型，能够精细化的处理数据库操作语句样本，确定出各自不同的待训练模型进行训练，进而训练出的模型也能够精细化对数据库操作语句进行分类，进而提高分类精度。

步骤15，通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。

在具体的实施过程中，各个操作特征样本对应的待训练模型不同，其训练方式也不同。

具体来说，包括以下一种或者多种训练方法：

通过所述语义特征样本和所述数据字段样本的分类类别，对待训练NLP模型进行训练，获得关联语义的数据分类模型；

通过所述统计特征样本和所述数据字段样本的分类类别，对待训练决策树模型进行训练，获得关联统计的数据分类模型；

通过所述行为特征样本和所述数据字段样本的分类类别，对待训练人员-行为-字段关系图模型进行训练，获得关联行为的数据分类模型；

通过所述血缘特征样本和所述数据字段样本的分类类别，对待训练字段流转模型进行训练，获得关联血缘的数据分类模型；

通过所述关键字特征样本和所述数据字段样本的分类类别，对待训练专家经验模型进行训练，获得关联关键字的数据分类模型。

通过上述训练方法，能够针对不同的操作特征训练出不同的数据分类模型进行分类，故而能够精细化对数据库操作语句进行分类，进而提高分类精度。

基于与前述实施例中同样的发明构思，本说明书实施例还提供一种数据分类方法，该方法根据如上述一个或者多个实施例训练的数据分类模型进行分类。对于数据库中的结构化数据，目前仅仅根据字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类，如果命名不当，或者缺少注释，或者没有明显特征的字段内容，那么原有的分类方式就会存在分类不准的问题。故而本说明书的实施例提供了一种分类方法，主要用于解决数据分类不准的问题。本说明书的数据分类方法的核心点在于，并没有针对结构化数据本身，而是从调用结构化数据的数据操作语句入手，通过对数据操作语句的分析得到更多维度的信息，然后提取出数据操作语句的特征用于对结构化数据的种类的判断。通过多维度特征的积累可以更加客观的揭示结构化数据中数据字段的真实含义，进而提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

本说明书一个或者多个实施例中的方法如图2所示，包括如下步骤：

步骤21，获得用于处理所述待分类数据字段的数据库操作语句。

在需要对待分类数据字段进行分类的过程中，由于待分类数据字段都有各自对应的数据操作语句(数量为一个或者多个)，因此，可基于待分类数据字段获得其对应的数据操作语句。

步骤22，对所述数据库操作语句进行解析，获得用于处理所述待分类数据字段的操作参数。

所述数据操作语句对应的操作参数包括：参数as后的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数等一种或者多种组合。

在具体的实施过程中，由于本说明书使用的模型是对数据操作语句的特征进行分类，故而需要先将数据操作语句进行解析，而数据操作语句包括各种参数，故而在对其进行解析时，从数据操作语句中划分出以下一种或者多种组合参数：

步骤23，针对所述操作参数进行特征提取，获得对应的操作特征。

所述待分类数据字段包括：语义特征、统计特征、行为特征、血缘特征，关键字特征中的一种或者多种组合。

由于操作特征和操作参数是相关的，所以能够根据操作参数提取得到数据操作语句样本的操作特征。

步骤24，调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。

在此之前，本实施例中会预先进行数据分类模型训练。

在具体的实施过程中，利用数据库操作语句样本作为训练样本训练得到数据分类模型，所述数据库操作语句样本用于处理数据字段样本。

进一步的，在训练过程中，先获得所述数据库操作语句样本；其中，所述数据字段样本具有分类类别；对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本；针对所述操作参数样本进行特征提取，获得对应的操作特征样本；通过所述操作特征样本确定对应的待训练模型；通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。具体的训练过程在上述实施例中已经说明，本实施例的训练方式和上述实施例的训练方式一样，故而不再赘述。

在通过所述操作特征样本确定出对应的待训练模型的过程中，由于操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合。故而其确定过程具体包括以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

作为一种可选的实施例，对应上述根据不同的操作特征样本确定出的待训练模型，在具体的训练过程中，具体包括以下一种或者多种组合方式：

在具体的分类过程中，数据分类模型包括：关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型一种或者多种组合方式。

针对不同的操作特征，调用不同的操作特征各自对应的数据分类模型对操作特征进行分类。故而，在获得操作特征之后，需要根据操作特征确定出对应的数据分类模型，然后在利用该数据分类模型对其进行分类。

在调用训练得到的数据分类模型对所述操作特征进行分类的过程中，具体包括以下一种或者多种组合方式：

调用所述关联语义的数据分类模型对所述语义特征进行分类；

调用所述关联统计的数据分类模型对所述统计特征进行分类；

调用所述关联行为的数据分类模型对所述行为特征进行分类；

调用所述关联血缘的数据分类模型对所述血缘特征进行分类；

调用所述关联关键字的数据分类模型对所述关键字特征进行分类。

由于本说明书的分类方法并不是从结构化数据本身进行分类，而是根据和其关联的数据操作语句进行分类，而数据操作语句能够可以更加客观的揭示结构化数据中数据字段的真实含义，进而提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

举例来说，比如需要对table1的某个字段样本column1进行分类标注。涉及到该字段的数据操作语句样本可能是select sum(column1)as business_amount from table1。

因此通过对数据操作语句的解析，就可以知道sum(column1)对应的alias name是business_amout，这个business_amout就是alias信息，sum就是对应的函数信息。然后将相关信息转换为操作特征，就比如可以从business_amount中提取出amount这样一个语义特征，然后sum就是用户对这个字段进行操作的行为特征，如果涉及到多条语句，还可以统计出column1字段每天被访问的次数等统计特征。再根据各特征调用已经训练好的对应的数据分类模型进行训练，例如调用关联统计的数据分类模型对统计特征进行分类。调用关联语义的数据分类模型对语义特征进行分类。所有的分类结果都是该column1字段的分类结果。

作为一种可选的实施例，调用训练得到的数据分类模型对所述操作特征进行分类之后，具体包括：按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。

在具体的实施过程中，本说明书的各个分类类别具有级别划分，例如待分类数据字段的分类类别为：年龄、性别。那么年龄的级别为1级，性别的级别为2级(1级的级别要高于2级)。

通过对分类结果进行分级之后，能够区分出分类结果中的各个分类类别的重要程度。进一步的，还可以按照预设级别阈值对分类类别的级别进行判断，以保留高于预设级别阈值的类别，放弃低于预设级别阈值的类别。

基于与前述实施例中同样的发明构思，参看图3，还公开了一种数据分类模型的训练系统，包括：

获得模块31，用于获得用于处理数据字段样本的数据库操作语句样本；其中，所述数据字段样本具有分类类别。

解析模块32，用于对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本。

提取模块33，用于针对所述操作参数样本进行特征提取，获得对应的操作特征样本；

确定模块34，用于通过所述操作特征样本确定对应的待训练模型；

训练模块35，用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。

作为一种可选的实施例，所述操作参数样本包括：参数as后面的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合；

所述操作特征样本包括：所述操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合。

作为一种可选的实施例，所述确定模块34，具体用于以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

作为一种可选的实施例，所述训练模块35，具体用于以下一种或者多种组合方式：

基于相同的发明构思，参看图4，本说明书的实施例公开了一种数据分类系统，所述系统根据如上述实施例训练的数据分类模型集合进行分类，包括：

第一获得单元41，用于获得用于处理所述待分类数据字段的数据库操作语句。

第一解析单元42，用于对所述数据库操作语句进行解析，获得用于处理所述待分类数据字段的操作参数；

第一提取单元43，用于针对所述操作参数进行特征提取，获得对应的操作特征；

分类单元44，用于调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。

作为一种可选的实施例，所述操作参数包括：参数as后的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合

所述操作特征包括：语义特征、统计特征、行为特征、血缘特征，关键字特征中的一种或者多种组合。

作为一种可选的实施例，所述系统还包括，模型训练单元，用于利用数据库操作语句样本作为训练样本训练得到数据分类模型，所述数据库操作语句样本用于处理数据字段样本。

作为一种可选的实施例，所述模型训练模块，包括：

第二获得单元，用于获得所述数据库操作语句样本；其中，所述数据字段样本具有分类类别；

第二解析单元，用于对所述数据库操作语句样本进行解析，获得用于处理所述数据字段样本的操作参数样本；

第二提取单元，用于针对所述操作参数样本进行特征提取，获得对应的操作特征样本；

确定单元，用于通过所述操作特征样本确定对应的待训练模型；

训练单元，用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型。

作为一种可选的实施例，所述操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合；

所述确定单元，具体用于实施以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

作为一种可选的实施例，所述训练单元，具体用于实施以下一种或者多种组合方式：

作为一种可选的实施例，所述数据分类模型包括：关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型。

所述分类单元44，具体用于实施以下一种或者多种组合方式：

作为一种可选的实施例，所述系统还包括：

分级单元，用于按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。

基于与前述实施例中同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本说明书的实施例还提供一种计算机设备，如图5所示，包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序，所述处理器502执行所述程序时实现前文任一所述方法的步骤。

其中，在图5中，总线架构(用总线500来代表)，总线500可以包括任意数量的互联的总线和桥，总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器505之间提供接口。接收器501和发送器505可以是同一个元件，即收发机，提供用于在传输介质上与各种其他终端设备通信的单元。处理器502负责管理总线500和通常的处理，而存储器504可以被用于存储处理器502在执行操作时所使用的数据。

通过本说明书的一个或者多个实施例，本说明书具有以下有益效果或者优点：

本说明书公开了数据分类方法、数据分类模型的训练方法及系统，本说明书的方法并没有针对结构化数据本身，而是从调用结构化数据的数据操作语句入手，通过获得数据操作语句样本，并对所述数据操作语句样本进行解析、提取操作得到数据操作语句样本的操作特征样本，通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型用于对结构化数据的种类的判断。通过多维度数据的积累可以更加客观的揭示结构化数据中数据字段的真实含义，进而提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

进一步的，本说明书的数据分类方法，也并没有针对结构化数据本身，而是从调用结构化数据的数据操作语句入手，通过对待分类数据字段对应的数据操作语句进行解析、提取得到数据操作语句的操作特征，并调用训练得到的数据分类模型对所述操作特征进行分类，以获得所述待分类数据字段的分类结果。由于数据操作语句能够可以更加客观的揭示结构化数据中数据字段的真实含义，进而对数据操作语句进行分类提升数据分类的覆盖率和准确率，特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等)，能够大幅提升分类精度。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本说明书也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本说明书的内容，并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本说明书的示例性实施例的描述中，本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本说明书的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本说明书的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种数据分类方法，所述方法包括：

获得用于处理所述待分类数据字段的数据库操作语句；

针对所述操作参数进行特征提取，获得对应的操作特征；

2.如权利要求1所述的方法，所述操作参数包括：参数as后的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合；

3.如权利要求1所述的方法，所述调用训练得到的数据分类模型对所述操作特征进行分类之前，所述方法还包括：

利用数据库操作语句样本作为训练样本训练得到数据分类模型，所述数据库操作语句样本用于处理数据字段样本。

4.如权利要求3所述的方法，所述利用数据库操作语句样本作为训练样本训练得到数据分类模型，具体包括：

获得所述数据库操作语句样本；其中，所述数据字段样本具有分类类别；

通过所述操作特征样本确定对应的待训练模型；

5.如权利要求4所述的方法，所述操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合；

所述通过所述操作特征样本确定出对应的待训练模型，具体包括以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

6.如权利要求5所述的方法，所述通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型，获得对应的数据分类模型，具体包括以下一种或者多种组合方式：

7.如权利要求2所述的方法，所述数据分类模型包括：关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型；

所述调用训练得到的数据分类模型对所述操作特征进行分类，具体包括以下一种或者多种组合方式：

8.如权利要求1-7任一权项所述的方法，所述调用训练得到的数据分类模型对所述操作特征进行分类之后，具体包括：

按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。

9.一种数据分类模型的训练方法，所述方法包括：

通过所述操作特征样本确定对应的待训练模型；

10.如权利要求9所述的方法，所述操作参数样本包括：参数as后面的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合；

所述操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本，关键字特征样本中的一种或者多种组合。

11.一种数据分类系统，包括：

12.如权利要求11所述的系统，所述操作参数包括：参数as后的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合

13.如权利要求11所述的系统，所述系统还包括，模型训练单元，用于利用数据库操作语句样本作为训练样本训练得到数据分类模型，所述数据库操作语句样本用于处理数据字段样本。

14.如权利要求13所述的系统，所述模型训练模块，包括：

15.如权利要求14所述的系统，所述操作特征样本包括：语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合；

所述确定单元，具体用于实施以下一种或者多种组合方式：

通过所述语义特征样本确定待训练自然语言处理NLP模型；

通过所述统计特征样本确定待训练决策树模型；

通过所述血缘特征样本确定待训练字段流转模型；

通过所述关键字特征样本确定待训练专家经验模型。

16.如权利要求15所述的系统，所述训练单元，具体用于实施以下一种或者多种组合方式：

17.如权利要求12所述的系统，所述数据分类模型包括：关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型；

所述分类单元，具体用于实施以下一种或者多种组合方式：

18.如权利要求11-17任一权项所述的系统，所述系统还包括：

19.一种数据分类模型的训练系统，包括：

20.如权利要求19所述的系统，所述操作参数样本包括：参数as后面的字段别名，统计函数，位置where条件参数，连接join条件参数，case when函数，关键字参数中的一种或者多种组合；

21.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。

22.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。