CN117591572A

CN117591572A - 大数据定向挖掘的高价值数据筛选系统

Info

Publication number: CN117591572A
Application number: CN202311439866.8A
Authority: CN
Inventors: 江帆; 史秀杰; 伍波涛; 李玥; 姚文健
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-02-23

Abstract

本发明涉及大数据定向挖掘技术领域，具体涉及大数据定向挖掘的高价值数据筛选系统，包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块，具体的，数据接入模块：用于从多种数据源获取原始数据，并获取的原始数据进行标准化；预处理模块：用于接收数据接入模块输出的标准化数据，并进行数据清洗、缺失值填充和数据转换；特征选择模块：从预处理数据中筛选与目标分析相关的特征，根据结果评估模块的反馈自动选取特征集；挖掘算法模块：使用统计方法挖掘接收的特征集。本发明，实现了多源、多类型数据的高效、自动化处理，并通过动态特征选择和多指标综合评价机制，大大提高了挖掘高价值信息的准确性和效率。

Description

大数据定向挖掘的高价值数据筛选系统

技术领域

本发明涉及大数据定向挖掘技术领域，尤其涉及大数据定向挖掘的高价值数据筛选系统。

背景技术

在大数据时代，数据挖掘和分析已经成为各个行业和研究领域中不可或缺的一部分，随着数据来源的多样化和数据量的激增，如何从庞大的数据集中挖掘出高价值的信息成为了一个关键的挑战，现有的数据挖掘技术通常需要人工参与，包括数据预处理、特征选择以及算法调优等步骤，这不仅费时费力，而且容易产生错误。

尽管现有的数据挖掘解决方案尝试通过自动化处理和机器学习算法来解决这些问题，但在多源、多类型数据的处理效率和一致性上仍存在局限性，例如，多数现有解决方案在数据预处理阶段通常使用固定的数据清洗和转换规则，这可能会导致信息的丢失或扭曲，此外，现有系统中的特征选择通常是静态的，很少能够根据目标任务动态地调整选取的特征集。

同时，多数现有解决方案缺乏有效的结果评估和反馈机制，尽管一些系统使用单一指标(如准确度)进行评估，但这通常无法全面地反映挖掘任务的多方面需求，更为严重的是，即便有结果评估，这些评估通常无法被用于自动地优化特征选择或挖掘算法的参数。

因此，急需一种能够高效、自动化地从大数据中挖掘出高价值信息的综合性解决方案。

发明内容

基于上述目的，本发明提供了大数据定向挖掘的高价值数据筛选系统。

大数据定向挖掘的高价值数据筛选系统，包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块，具体的，

数据接入模块：用于从多种数据源获取原始数据，并获取的原始数据进行标准化；

预处理模块：用于接收数据接入模块输出的标准化数据，并进行数据清洗、缺失值填充和数据转换；

特征选择模块：从预处理数据中筛选与目标分析相关的特征，根据结果评估模块的反馈自动选取特征集，然后传递给挖掘算法模块；

挖掘算法模块：使用统计方法挖掘接收的特征集，并根据结果评估模块的多指标评价进行自我优化；

结果评估模块：根据挖掘算法模块的输出结果，采用多指标综合评价机制进行评估，并将评价结果反馈给特征选择模块和挖掘算法模块，用以调整特征集和算法参数；

输出模块：用于将结果评估模块认定为高价值的数据进行可视化展示或导出。

进一步的，所述数据接入模块具体包括：

数据源配置单元：用于存储和管理各种数据源的配置信息，该配置信息包括数据源的类型、地址、认证信息和访问权限；

数据抓取单元：根据配置信息，定时或根据触发条件从指定的数据源中获取原始数据，该单元还具有数据抓取策略，该抓取策略包括批量抓取和流式抓取；

数据适配器单元：由多个数据适配器组成，每个适配器针对一种特定类型的数据源，每个数据适配器都有一个与之相匹配的解析引擎，用于将原始数据转换成统一的内部格式；

适配器选择逻辑单元：根据数据源配置单元的信息，选择相应的数据适配器进行数据抓取和转换；

标准化输出单元：接收来自数据适配器单元的统一格式数据，并将其整合为一致的数据结构，以供后续模块使用。

进一步的，所述预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器，具有的，

数据清洗单元：接收从数据接入模块传入的标准化数据，使用预设的规则库，识别并去除错误的、冗余的或者不一致的数据条目；

缺失值填充单元：针对数据清洗单元传入的数据，识别数据中的缺失值，并通过多种算法包括均值、中位数或者基于邻近数据的插值方法进行填充，该单元能够根据数据属性和上下文自动选择最合适的填充算法；

数据转换单元：对缺失值填充单元处理后的数据进行进一步的转换，具体转化为数据标准化、编码类别变量、以及数据维度的降低；

预处理控制器：协调以上三个单元的工作流程，根据数据的特性和目标任务，动态地调整数据清洗、缺失值填充和数据转换的顺序和参数。

进一步的，所述预处理控制器运行步骤具体包括：

S1：用于接收目标任务描述和数据特性标签，识别数据预处理需要优先解决的问题；

S2：基于任务分析单元的输出，使用一种基于熵的权重调整算法来确定数据清洗单元、缺失值填充单元、数据转换单元的执行顺序，该算法公式表示为：

其中，W_i是第i个预处理单元的权重，p(j)是第j个数据特性标签在数据集中的出现概率；

S3：使用遗传算法来动态调整各预处理单元的参数，具体来说，采用参数组合，然后通过交叉和变异操作来搜索最优参数组合，遗传算法的适应性函数F(x)可以由以下公式表示：

F(x)＝α×准确性+β×执行时间

其中，α和β是权重因子，用于平衡预处理结果的准确性和执行时间。

进一步的，所述特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元，具体的，

特征评分单元：用于接收从预处理模块传入的数据，使用多种评分算法对每个特征与目标变量的相关性进行评分，所述评分算法的计算可以用以下公式表示：

其中，S(f)是特征f的评分，N是样本数量，Σx和Σy分别是特征f和目标变量的总和；

特征排序单元：基于特征评分单元的输出结果，对所有特征进行排序，选出评分最高的K个特征；

动态特征调整单元：接收来自结果评估模块的反馈，根据反馈信息自动调整选取的特征集，当结果评估模块发现当前特征集的分类效果不佳时，动态特征调整单元将重新调整K的值。

进一步的，所述挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元，具体的，

统计方法单元：使用预定义的统计方法对接收的特征集进行分析，具体的，统计方法为k-均值聚类，目标函数J用以下公式表示：

其中，C_i是第i个聚类，μ_i是该聚类的中心；

自我优化单元：接收来自结果评估模块的多指标综合评价反馈，用于自动调整统计方法或其参数，当准确率和召回率的评价指标低于阈值时，则自我优化单元将根据预设规则自动调整当前方法的参数；

参数更新公式：当收到结果评估模块的反馈后，采用梯度下降方法进行参数优化，参数更新公式可表示为：

其中，θ是统计方法的参数，α是学习率，J是目标函数。

进一步的，所述结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元，其中，

多指标计算单元：用于计算多个性能指标，该性能指标包括准确率Accuracy、精确率Precision、召回率Recall和F1分数，计算性能指标的公式具体如下：

准确率

精确率

召回率

F1分数

其中，TP,TN,FP,FN分别是真正例、真负例、假正例和假负例的数量；

综合评价算法单元：用于整合上述多个指标，生成一个综合评价得分，然后通过加权平均算法进行优化，设加权平均的综合评价得分为S，计算公式为

S＝w₁×Accuracy+w₂×Precision+w₃×Recall+w₄×F1

其中，w₁,w₂,w₃,w₄是各指标的权重；

反馈机制单元：将综合评价得分S反馈到特征选择模块和挖掘算法模块中，用以调整特征集和算法参数。

进一步的，所述输出模块包括可视化引擎和导出控制器，其中，

可视化引擎：用于将结果评估模块认定为高价值的数据通过图表、曲线或热图等形式可视化展示，可视化引擎具有多种预设的可视化模板，该模板包括柱状图、折线图和热图，用户将根据具体需求选择适当的模板；

导出控制器：用于将高价值数据或可视化结果导出到不同的文件格式或数据存储服务中，所述文件格式支持的导出格式包括CSV、Excel、JSON和XML。

进一步的，所述动态特征调整单元内嵌有一个梯度提升的优化算法，具体的，当接收来自结果评估模块的反馈后将自动触发该优化算法，具体的，设反馈信息以向量的形式给出，其中f_i表示第i个评价指标，该单元运用优化算法来最大化一个目标函数J(F)，该函数是评价指标F的组合，具体公式表示为：

J(F)＝w₁·f₁+w₂·f₂+…+w_n·f_n

其中，w_i是第i个评价指标的权重，优化算法会动态地调整当前选取的特征集，以在下一次数据挖掘周期中实现更优的结果评估指标。

本发明的有益效果：

本发明，通过整合数据接入、预处理、特征选择、数据挖掘、结果评估和输出等多个模块，实现了对多源、多类型数据的高效、自动化处理，特别是通过数据接入模块和数据适配器的设计，能够解决现有技术中在处理多源、多类型数据时的效率和一致性问题，为后续的数据预处理和挖掘提供了更为稳健和高质量的输入数据。

本发明，通过采用动态特征选择和多指标综合评价机制，不仅能够自适应地调整特征集，还能全面评估挖掘结果，以实现更准确和更有针对性的数据挖掘，这些设计使得系统能够更好地适应不同的挖掘任务和数据特性，大大提高了挖掘出高价值信息的准确性和效率，减少了人工参与和潜在错误，具有显著的实用价值和商业潜力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的定向挖掘的高价值数据筛选系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，大数据定向挖掘的高价值数据筛选系统，包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块，具体的，

数据接入模块具体包括：

标准化输出单元：接收来自数据适配器单元的统一格式数据，并将其整合为一致的数据结构，以供后续模块使用；

通过上述单元的紧密协作，数据接入模块确保从多种不同类型的数据源中获取的原始数据能够被有效地抓取、标准化和整合，进而解决现有技术在处理多源、多类型数据方面的局限性。

预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器，具有的，

预处理控制器运行步骤具体包括：

S1：用于接收目标任务描述和数据特性标签，识别数据预处理需要优先解决的问题，例如，如果目标任务为分类，并且数据特性标签显示数据存在高度不平衡，则任务分析单元将优先级设置为数据平衡；

F(x)＝α×准确性+β×执行时间

特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元，具体的，

特征评分单元：用于接收从预处理模块传入的数据，使用多种评分算法对每个特征与目标变量的相关性进行评分，评分算法的计算可以用以下公式表示：

挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元，具体的，

其中，C_i是第i个聚类，μ_i是该聚类的中心；

其中，θ是统计方法的参数，α是学习率，J是目标函数。

结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元，其中，

准确率

精确率

召回率

F1分数

S＝w₁×Accuracy+w₂×Precision+w₃×Recall+w₄×F1

其中，w₁,w₂,w₃,w₄是各指标的权重；

输出模块包括可视化引擎和导出控制器，其中，

导出控制器：用于将高价值数据或可视化结果导出到不同的文件格式或数据存储服务中，文件格式支持的导出格式包括CSV、Excel、JSON和XML。

动态特征调整单元内嵌有一个梯度提升的优化算法，具体的，当接收来自结果评估模块的反馈后将自动触发该优化算法，具体的，设反馈信息以向量的形式给出，其中f_i表示第i个评价指标(例如准确性、查全率等)，该单元运用优化算法来最大化(或最小化)一个目标函数J(F)，该函数是评价指标F的组合，具体公式表示为：

J(F)＝w₁·f₁+w₂·f₂+…+w_n·f_n

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.大数据定向挖掘的高价值数据筛选系统，其特征在于，包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块，具体的，

2.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述数据接入模块具体包括：

3.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器，具有的，

4.根据权利要求3所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述预处理控制器运行步骤具体包括：

F(x)＝α×准确性+β×执行时间

5.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元，具体的，

6.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元，具体的，

其中，C_i是第i个聚类，μ_i是该聚类的中心；

其中，θ是统计方法的参数，α是学习率，J是目标函数。

7.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元，其中，

准确率

精确率

召回率

F1分数

S＝w₁×Accuracy+w₂×Precision+w₃×Recall+w₄×F1

其中，w₁,w₂,w₃,w₄是各指标的权重；

8.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述输出模块包括可视化引擎和导出控制器，其中，

9.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统，其特征在于，所述动态特征调整单元内嵌有一个梯度提升的优化算法，具体的，当接收来自结果评估模块的反馈后将自动触发该优化算法，具体的，设反馈信息以向量的形式给出，其中f_i表示第i个评价指标，该单元运用优化算法来最大化一个目标函数J(F)，该函数是评价指标F的组合，具体公式表示为：

J(F)＝w₁·f₁+w₂·f₂+…+w_n·f_n