CN114647687A

CN114647687A - 一种基于决策树算法的etl文件数据采集到库的方法

Info

Publication number: CN114647687A
Application number: CN202210183305.5A
Authority: CN
Inventors: 李晓俊; 孙朝晖; 孙启明; 万虹博
Original assignee: Shanghai Tianhao Information Technology Co ltd
Current assignee: Shanghai Tianhao Information Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-21

Abstract

本发明公开了一种基于决策树算法的ETL文件数据采集到库的方法，采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明的一种基于决策树算法的ETL文件数据采集到库的方法，以算法为基础，充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率，加强了对数据的掌控与可分析数据的上限，同时内置大量规则，基础数据元，可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作，并且同时也能结合用户的实际业务应用，适用于各种数据场景。本发明的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单，应用场景广，采集效率高的优点。

Description

一种基于决策树算法的ETL文件数据采集到库的方法

技术领域

本发明涉及数据采集技术领域，尤其涉及一种配置简单，采集效率高的基于决策树算法的ETL文件数据采集到库的方法。

背景技术

现有的ELT将数据采集到库的方法，包括将数据从来源抽取、转换、加载到数据库目的端，ETL是极其复杂的过程，每次搭建采集任务的时候都需要先配置相对应的模板规则等，配置相对繁琐，并且，结构越复杂的数据采集，占用内存越多，采集效率较低。

因此，有必要提出一种改进，以克服现有技术缺陷。

发明内容

本发明的目的是解决现有技术中的问题，提供一种配置简单，采集效率高的基于决策树算法的ETL文件数据采集到库的方法。

本发明的技术方案是：

一种基于决策树算法的ETL文件数据采集到库的方法，包括以下步骤：S1、管理员根据要采集的目标数据进行采集规则的配置；S2、使用ETL工具进行数据抽取，存入数据集；S3、使用决策树算法，根据熵值比较构建最优规则筛选树结构；将数据集与规则集进行计算，得到各个规则与数据集对应的熵，将多个熵进行对比，得到最优熵，将最优熵所代表的规则属性从规则集中删除，直至规则集中只剩一条规则得到最终叶子节点；S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式；S5、将正则表达式导入ETL运行，进行清洗与筛选，得到结果，将结果导入数据库。

作为一种优选的技术方案，所述步骤S3具体为：S31、识别查看父级规则下是否有任意子集，若有子集则将所有子集存入规则集，进行步骤S32；若无，则将该父级规则生成正则表达式；S32、将数据集与规则集进行计算，得到各个规则与数据集对应的熵，将多个熵进行对比，得到最优熵；S33、查看规则集现有规则数量，若还有两个以上，将当前最优熵所代表的规则属性从规则集中删除，进行步骤S34；若只有两个，则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构；S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集，循环S32、S33。

作为一种进一步优选的技术方案，所述步骤S32中，熵的计算公式为：

其中，a为属性，V为属性a可能取值的数量，D为数据，选取属性a对数据D进行划分，会产生V个分支，其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数，记为Du。

作为另一种进一步优选的技术方案，所述步骤S32求熵若为首次计算，则该节点为决策树的根节点。

本发明的一种基于决策树算法的ETL文件数据采集到库的方法，采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明的一种基于决策树算法的ETL文件数据采集到库的方法，以算法为基础，充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率，加强了对数据的掌控与可分析数据的上限，同时内置大量规则，基础数据元，可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作，并且同时也能结合用户的实际业务应用，适用于各种数据场景。本发明的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单，应用场景广，采集效率高的优点。

附图说明

图1为本发明一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

如图1所示为本发明的一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式。本实施例的一种基于决策树算法的ETL文件数据采集到库的方法，包括以下步骤：

S1、管理员根据要采集的目标数据进行采集规则的配置；

S2、使用ETL工具进行数据抽取，存入数据集；

S3、使用决策树算法，根据熵值比较构建最优规则筛选树结构；将数据集与规则集进行计算，得到各个规则与数据集对应的熵，将多个熵进行对比，得到最优熵，将最优熵所代表的规则属性从规则集中删除，直至规则集中只剩一条规则得到最终叶子节点；

S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式；

S5、将正则表达式导入ETL运行，进行清洗与筛选，得到结果，将结果导入数据库。

其中，熵是用来定量表示信息的聚合程度的，是信息的期望值也是度量样本集合纯度的一种常用指标。决策树算法关键就在于怎么去选择最优的划分属性分类，所谓的最优对于二元分类也就是判断次数最少，就是尽量使划分的数据属于同一类别，即“纯度”最高的属性。

具体的，所述步骤S3具体为：

S31、识别查看父级规则下是否有任意子集，若有子集则将所有子集存入规则集，进行步骤S32；若无，则将该父级规则生成正则表达式；

S32、将数据集与规则集进行计算，得到各个规则与数据集对应的熵，将多个熵进行对比，得到最优熵；

S33、查看规则集现有规则数量，若还有两个以上，将当前最优熵所代表的规则属性从规则集中删除，进行步骤S34；若只有两个，则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构；

S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集，循环S32、S33。

在步骤S32中，熵的计算公式为：

其中，某离散属性a有V个可能的取值，如舆情新闻数据属性状态方面有2个可能的取值：喜爱、厌恶。若选取属性a对数据D划分，那就会产生V个分支，其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数，记为Du。可以根据上面信息熵的公式计算出信息熵，根据各分支拥有的样本与总样本数的比值作为各分支节点的权重。

比如选取属性为a＝新闻状态，那么V＝2也就是喜爱与厌恶，比如数据D有6个样本，那么经过新闻状态的分类后出现了D1与D2两个样本，其中D1有4个，D2有2个。那么：

Ent(D1)＝-2/4*log2*2/4-2/4*log2*2/4＝1；

Ent(D2)＝-2/2*log2*2/2＝0；

Gain(D,petalcolor)＝Ent(D)-4/6Ent(D1)-2/6Ent(D2)＝0.2516；

熵为0.2516。

熵越大，就说明使用该属性来区分所得的集合的纯度越大那就是最优。在同一级别中如果还有其他规则类别属性的话同理按照方式计算出相对应的熵，将所有熵相互比较，将比较后最大的也就是最优的熵所代表的属性去作为节点分支，如果是首次比较，那就是根节点也就是初次判断的条件。

综上所述仅为本发明较佳的实施例，并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化及修饰，皆应属于本发明的技术范畴。

Claims

1.一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：包括以下步骤：

S1、管理员根据要采集的目标数据进行采集规则的配置；

S2、使用ETL工具进行数据抽取，存入数据集；

2.根据权利要求1所述的一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：所述步骤S3具体为：

3.根据权利要求2所述的一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：所述步骤S32中，熵的计算公式为：

4.根据权利要求2所述的一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：所述步骤S32求熵若为首次计算，则该节点为决策树的根节点。