CN114647687A - 一种基于决策树算法的etl文件数据采集到库的方法 - Google Patents

一种基于决策树算法的etl文件数据采集到库的方法 Download PDF

Info

Publication number
CN114647687A
CN114647687A CN202210183305.5A CN202210183305A CN114647687A CN 114647687 A CN114647687 A CN 114647687A CN 202210183305 A CN202210183305 A CN 202210183305A CN 114647687 A CN114647687 A CN 114647687A
Authority
CN
China
Prior art keywords
data
rule
decision tree
entropy
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210183305.5A
Other languages
English (en)
Inventor
李晓俊
孙朝晖
孙启明
万虹博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tianhao Information Technology Co ltd
Original Assignee
Shanghai Tianhao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tianhao Information Technology Co ltd filed Critical Shanghai Tianhao Information Technology Co ltd
Priority to CN202210183305.5A priority Critical patent/CN114647687A/zh
Publication of CN114647687A publication Critical patent/CN114647687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于决策树算法的ETL文件数据采集到库的方法,采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明的一种基于决策树算法的ETL文件数据采集到库的方法,以算法为基础,充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率,加强了对数据的掌控与可分析数据的上限,同时内置大量规则,基础数据元,可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作,并且同时也能结合用户的实际业务应用,适用于各种数据场景。本发明的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单,应用场景广,采集效率高的优点。

Description

一种基于决策树算法的ETL文件数据采集到库的方法
技术领域
本发明涉及数据采集技术领域,尤其涉及一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
背景技术
现有的ELT将数据采集到库的方法,包括将数据从来源抽取、转换、加载到数据库目的端,ETL是极其复杂的过程,每次搭建采集任务的时候都需要先配置相对应的模板规则等,配置相对繁琐,并且,结构越复杂的数据采集,占用内存越多,采集效率较低。
因此,有必要提出一种改进,以克服现有技术缺陷。
发明内容
本发明的目的是解决现有技术中的问题,提供一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
本发明的技术方案是:
一种基于决策树算法的ETL文件数据采集到库的方法,包括以下步骤:S1、管理员根据要采集的目标数据进行采集规则的配置;S2、使用ETL工具进行数据抽取,存入数据集;S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。
作为一种优选的技术方案,所述步骤S3具体为:S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;S32、将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵;S33、查看规则集现有规则数量,若还有两个以上,将当前最优熵所代表的规则属性从规则集中删除,进行步骤S34;若只有两个,则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构;S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集,循环S32、S33。
作为一种进一步优选的技术方案,所述步骤S32中,熵的计算公式为:
Figure BDA0003522496360000021
其中,a为属性,V为属性a可能取值的数量,D为数据,选取属性a对数据D进行划分,会产生V个分支,其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数,记为Du。
作为另一种进一步优选的技术方案,所述步骤S32求熵若为首次计算,则该节点为决策树的根节点。
本发明的一种基于决策树算法的ETL文件数据采集到库的方法,采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明的一种基于决策树算法的ETL文件数据采集到库的方法,以算法为基础,充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率,加强了对数据的掌控与可分析数据的上限,同时内置大量规则,基础数据元,可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作,并且同时也能结合用户的实际业务应用,适用于各种数据场景。本发明的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单,应用场景广,采集效率高的优点。
附图说明
图1为本发明一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
如图1所示为本发明的一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式。本实施例的一种基于决策树算法的ETL文件数据采集到库的方法,包括以下步骤:
S1、管理员根据要采集的目标数据进行采集规则的配置;
S2、使用ETL工具进行数据抽取,存入数据集;
S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;
S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;
S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。
其中,熵是用来定量表示信息的聚合程度的,是信息的期望值也是度量样本集合纯度的一种常用指标。决策树算法关键就在于怎么去选择最优的划分属性分类,所谓的最优对于二元分类也就是判断次数最少,就是尽量使划分的数据属于同一类别,即“纯度”最高的属性。
具体的,所述步骤S3具体为:
S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;
S32、将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵;
S33、查看规则集现有规则数量,若还有两个以上,将当前最优熵所代表的规则属性从规则集中删除,进行步骤S34;若只有两个,则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构;
S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集,循环S32、S33。
在步骤S32中,熵的计算公式为:
Figure BDA0003522496360000061
其中,某离散属性a有V个可能的取值,如舆情新闻数据属性状态方面有2个可能的取值:喜爱、厌恶。若选取属性a对数据D划分,那就会产生V个分支,其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数,记为Du。可以根据上面信息熵的公式计算出信息熵,根据各分支拥有的样本与总样本数的比值作为各分支节点的权重。
比如选取属性为a=新闻状态,那么V=2也就是喜爱与厌恶,比如数据D有6个样本,那么经过新闻状态的分类后出现了D1与D2两个样本,其中D1有4个,D2有2个。那么:
Ent(D1)=-2/4*log2*2/4-2/4*log2*2/4=1;
Ent(D2)=-2/2*log2*2/2=0;
Gain(D,petalcolor)=Ent(D)-4/6Ent(D1)-2/6Ent(D2)=0.2516;
熵为0.2516。
熵越大,就说明使用该属性来区分所得的集合的纯度越大那就是最优。在同一级别中如果还有其他规则类别属性的话同理按照方式计算出相对应的熵,将所有熵相互比较,将比较后最大的也就是最优的熵所代表的属性去作为节点分支,如果是首次比较,那就是根节点也就是初次判断的条件。
本发明的一种基于决策树算法的ETL文件数据采集到库的方法,采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明的一种基于决策树算法的ETL文件数据采集到库的方法,以算法为基础,充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率,加强了对数据的掌控与可分析数据的上限,同时内置大量规则,基础数据元,可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作,并且同时也能结合用户的实际业务应用,适用于各种数据场景。本发明的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单,应用场景广,采集效率高的优点。
综上所述仅为本发明较佳的实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化及修饰,皆应属于本发明的技术范畴。

Claims (4)

1.一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:包括以下步骤:
S1、管理员根据要采集的目标数据进行采集规则的配置;
S2、使用ETL工具进行数据抽取,存入数据集;
S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;
S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;
S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。
2.根据权利要求1所述的一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:所述步骤S3具体为:
S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;
S32、将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵;
S33、查看规则集现有规则数量,若还有两个以上,将当前最优熵所代表的规则属性从规则集中删除,进行步骤S34;若只有两个,则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构;
S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集,循环S32、S33。
3.根据权利要求2所述的一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:所述步骤S32中,熵的计算公式为:
Figure FDA0003522496350000021
其中,a为属性,V为属性a可能取值的数量,D为数据,选取属性a对数据D进行划分,会产生V个分支,其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数,记为Du。
4.根据权利要求2所述的一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:所述步骤S32求熵若为首次计算,则该节点为决策树的根节点。
CN202210183305.5A 2022-02-28 2022-02-28 一种基于决策树算法的etl文件数据采集到库的方法 Pending CN114647687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210183305.5A CN114647687A (zh) 2022-02-28 2022-02-28 一种基于决策树算法的etl文件数据采集到库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210183305.5A CN114647687A (zh) 2022-02-28 2022-02-28 一种基于决策树算法的etl文件数据采集到库的方法

Publications (1)

Publication Number Publication Date
CN114647687A true CN114647687A (zh) 2022-06-21

Family

ID=81993348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210183305.5A Pending CN114647687A (zh) 2022-02-28 2022-02-28 一种基于决策树算法的etl文件数据采集到库的方法

Country Status (1)

Country Link
CN (1) CN114647687A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
CN107016080A (zh) * 2017-03-29 2017-08-04 安庆师范大学 一种高效网络报文分类方法
CN107122594A (zh) * 2017-04-10 2017-09-01 湖南中车时代电动汽车股份有限公司 一种新能源车辆电池的健康预测方法和系统
CN107168995A (zh) * 2017-03-29 2017-09-15 联想(北京)有限公司 一种数据处理方法及服务器
US20200250554A1 (en) * 2019-02-01 2020-08-06 Jabil Circuit (Shanghai) Co., Ltd. Method and storage medium for predicting the dosage based on human physiological parameters
CN113254641A (zh) * 2021-05-27 2021-08-13 中国电子科技集团公司第十五研究所 一种情报数据融合方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
CN107016080A (zh) * 2017-03-29 2017-08-04 安庆师范大学 一种高效网络报文分类方法
CN107168995A (zh) * 2017-03-29 2017-09-15 联想(北京)有限公司 一种数据处理方法及服务器
CN107122594A (zh) * 2017-04-10 2017-09-01 湖南中车时代电动汽车股份有限公司 一种新能源车辆电池的健康预测方法和系统
US20200250554A1 (en) * 2019-02-01 2020-08-06 Jabil Circuit (Shanghai) Co., Ltd. Method and storage medium for predicting the dosage based on human physiological parameters
CN113254641A (zh) * 2021-05-27 2021-08-13 中国电子科技集团公司第十五研究所 一种情报数据融合方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
化柏林: "基于句子匹配分析的知识抽取", 30 April 2014, 科学技术文献出版社, pages: 155 *

Similar Documents

Publication Publication Date Title
JP6307169B2 (ja) 迅速なデータ解析のためのシステム及び方法
JP4429236B2 (ja) 分類ルール作成支援方法
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
CN109684374B (zh) 一种时间序列数据的键值对的提取方法及装置
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN110287219B (zh) 一种数据处理方法及系统
CN112383644A (zh) 一种启发式IPv6地址扫描目标生成方法及相关设备
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
CN112396428B (zh) 一种基于用户画像数据的客群分类管理方法及装置
CN108876644B (zh) 一种基于社交网络的相似账号计算方法及装置
CN117828539B (zh) 数据智能融合分析系统及方法
CN111866196A (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
JPWO2016006276A1 (ja) インデックス生成装置及びインデックス生成方法
CN115982132A (zh) 一种外销扇面图像数据样本库构建系统
CN111898637A (zh) 一种基于ReliefF-DDC特征选择算法
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN114780606A (zh) 一种大数据挖掘方法及系统
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN113515450A (zh) 一种环境异常检测方法和系统
JP2013191194A (ja) 文書カテゴライズ装置とその方法とプログラム
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN114647687A (zh) 一种基于决策树算法的etl文件数据采集到库的方法
CN111427875A (zh) 一种数据质量检测的抽样方法、系统及存储介质
CN113516200B (zh) 模型训练方案生成的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination