CN117591572A - 大数据定向挖掘的高价值数据筛选系统 - Google Patents

大数据定向挖掘的高价值数据筛选系统 Download PDF

Info

Publication number
CN117591572A
CN117591572A CN202311439866.8A CN202311439866A CN117591572A CN 117591572 A CN117591572 A CN 117591572A CN 202311439866 A CN202311439866 A CN 202311439866A CN 117591572 A CN117591572 A CN 117591572A
Authority
CN
China
Prior art keywords
data
module
unit
mining
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311439866.8A
Other languages
English (en)
Inventor
江帆
史秀杰
伍波涛
李玥
姚文健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Original Assignee
State Grid Co ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center filed Critical State Grid Co ltd Customer Service Center
Priority to CN202311439866.8A priority Critical patent/CN117591572A/zh
Publication of CN117591572A publication Critical patent/CN117591572A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Fuzzy Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据定向挖掘技术领域,具体涉及大数据定向挖掘的高价值数据筛选系统,包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块,具体的,数据接入模块:用于从多种数据源获取原始数据,并获取的原始数据进行标准化;预处理模块:用于接收数据接入模块输出的标准化数据,并进行数据清洗、缺失值填充和数据转换;特征选择模块:从预处理数据中筛选与目标分析相关的特征,根据结果评估模块的反馈自动选取特征集;挖掘算法模块:使用统计方法挖掘接收的特征集。本发明,实现了多源、多类型数据的高效、自动化处理,并通过动态特征选择和多指标综合评价机制,大大提高了挖掘高价值信息的准确性和效率。

Description

大数据定向挖掘的高价值数据筛选系统
技术领域
本发明涉及大数据定向挖掘技术领域,尤其涉及大数据定向挖掘的高价值数据筛选系统。
背景技术
在大数据时代,数据挖掘和分析已经成为各个行业和研究领域中不可或缺的一部分,随着数据来源的多样化和数据量的激增,如何从庞大的数据集中挖掘出高价值的信息成为了一个关键的挑战,现有的数据挖掘技术通常需要人工参与,包括数据预处理、特征选择以及算法调优等步骤,这不仅费时费力,而且容易产生错误。
尽管现有的数据挖掘解决方案尝试通过自动化处理和机器学习算法来解决这些问题,但在多源、多类型数据的处理效率和一致性上仍存在局限性,例如,多数现有解决方案在数据预处理阶段通常使用固定的数据清洗和转换规则,这可能会导致信息的丢失或扭曲,此外,现有系统中的特征选择通常是静态的,很少能够根据目标任务动态地调整选取的特征集。
同时,多数现有解决方案缺乏有效的结果评估和反馈机制,尽管一些系统使用单一指标(如准确度)进行评估,但这通常无法全面地反映挖掘任务的多方面需求,更为严重的是,即便有结果评估,这些评估通常无法被用于自动地优化特征选择或挖掘算法的参数。
因此,急需一种能够高效、自动化地从大数据中挖掘出高价值信息的综合性解决方案。
发明内容
基于上述目的,本发明提供了大数据定向挖掘的高价值数据筛选系统。
大数据定向挖掘的高价值数据筛选系统,包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块,具体的,
数据接入模块:用于从多种数据源获取原始数据,并获取的原始数据进行标准化;
预处理模块:用于接收数据接入模块输出的标准化数据,并进行数据清洗、缺失值填充和数据转换;
特征选择模块:从预处理数据中筛选与目标分析相关的特征,根据结果评估模块的反馈自动选取特征集,然后传递给挖掘算法模块;
挖掘算法模块:使用统计方法挖掘接收的特征集,并根据结果评估模块的多指标评价进行自我优化;
结果评估模块:根据挖掘算法模块的输出结果,采用多指标综合评价机制进行评估,并将评价结果反馈给特征选择模块和挖掘算法模块,用以调整特征集和算法参数;
输出模块:用于将结果评估模块认定为高价值的数据进行可视化展示或导出。
进一步的,所述数据接入模块具体包括:
数据源配置单元:用于存储和管理各种数据源的配置信息,该配置信息包括数据源的类型、地址、认证信息和访问权限;
数据抓取单元:根据配置信息,定时或根据触发条件从指定的数据源中获取原始数据,该单元还具有数据抓取策略,该抓取策略包括批量抓取和流式抓取;
数据适配器单元:由多个数据适配器组成,每个适配器针对一种特定类型的数据源,每个数据适配器都有一个与之相匹配的解析引擎,用于将原始数据转换成统一的内部格式;
适配器选择逻辑单元:根据数据源配置单元的信息,选择相应的数据适配器进行数据抓取和转换;
标准化输出单元:接收来自数据适配器单元的统一格式数据,并将其整合为一致的数据结构,以供后续模块使用。
进一步的,所述预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器,具有的,
数据清洗单元:接收从数据接入模块传入的标准化数据,使用预设的规则库,识别并去除错误的、冗余的或者不一致的数据条目;
缺失值填充单元:针对数据清洗单元传入的数据,识别数据中的缺失值,并通过多种算法包括均值、中位数或者基于邻近数据的插值方法进行填充,该单元能够根据数据属性和上下文自动选择最合适的填充算法;
数据转换单元:对缺失值填充单元处理后的数据进行进一步的转换,具体转化为数据标准化、编码类别变量、以及数据维度的降低;
预处理控制器:协调以上三个单元的工作流程,根据数据的特性和目标任务,动态地调整数据清洗、缺失值填充和数据转换的顺序和参数。
进一步的,所述预处理控制器运行步骤具体包括:
S1:用于接收目标任务描述和数据特性标签,识别数据预处理需要优先解决的问题;
S2:基于任务分析单元的输出,使用一种基于熵的权重调整算法来确定数据清洗单元、缺失值填充单元、数据转换单元的执行顺序,该算法公式表示为:
其中,Wi是第i个预处理单元的权重,p(j)是第j个数据特性标签在数据集中的出现概率;
S3:使用遗传算法来动态调整各预处理单元的参数,具体来说,采用参数组合,然后通过交叉和变异操作来搜索最优参数组合,遗传算法的适应性函数F(x)可以由以下公式表示:
F(x)=α×准确性+β×执行时间
其中,α和β是权重因子,用于平衡预处理结果的准确性和执行时间。
进一步的,所述特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元,具体的,
特征评分单元:用于接收从预处理模块传入的数据,使用多种评分算法对每个特征与目标变量的相关性进行评分,所述评分算法的计算可以用以下公式表示:
其中,S(f)是特征f的评分,N是样本数量,Σx和Σy分别是特征f和目标变量的总和;
特征排序单元:基于特征评分单元的输出结果,对所有特征进行排序,选出评分最高的K个特征;
动态特征调整单元:接收来自结果评估模块的反馈,根据反馈信息自动调整选取的特征集,当结果评估模块发现当前特征集的分类效果不佳时,动态特征调整单元将重新调整K的值。
进一步的,所述挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元,具体的,
统计方法单元:使用预定义的统计方法对接收的特征集进行分析,具体的,统计方法为k-均值聚类,目标函数J用以下公式表示:
其中,Ci是第i个聚类,μi是该聚类的中心;
自我优化单元:接收来自结果评估模块的多指标综合评价反馈,用于自动调整统计方法或其参数,当准确率和召回率的评价指标低于阈值时,则自我优化单元将根据预设规则自动调整当前方法的参数;
参数更新公式:当收到结果评估模块的反馈后,采用梯度下降方法进行参数优化,参数更新公式可表示为:
其中,θ是统计方法的参数,α是学习率,J是目标函数。
进一步的,所述结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元,其中,
多指标计算单元:用于计算多个性能指标,该性能指标包括准确率Accuracy、精确率Precision、召回率Recall和F1分数,计算性能指标的公式具体如下:
准确率
精确率
召回率
F1分数
其中,TP,TN,FP,FN分别是真正例、真负例、假正例和假负例的数量;
综合评价算法单元:用于整合上述多个指标,生成一个综合评价得分,然后通过加权平均算法进行优化,设加权平均的综合评价得分为S,计算公式为
S=w1×Accuracy+w2×Precision+w3×Recall+w4×F1
其中,w1,w2,w3,w4是各指标的权重;
反馈机制单元:将综合评价得分S反馈到特征选择模块和挖掘算法模块中,用以调整特征集和算法参数。
进一步的,所述输出模块包括可视化引擎和导出控制器,其中,
可视化引擎:用于将结果评估模块认定为高价值的数据通过图表、曲线或热图等形式可视化展示,可视化引擎具有多种预设的可视化模板,该模板包括柱状图、折线图和热图,用户将根据具体需求选择适当的模板;
导出控制器:用于将高价值数据或可视化结果导出到不同的文件格式或数据存储服务中,所述文件格式支持的导出格式包括CSV、Excel、JSON和XML。
进一步的,所述动态特征调整单元内嵌有一个梯度提升的优化算法,具体的,当接收来自结果评估模块的反馈后将自动触发该优化算法,具体的,设反馈信息以向量的形式给出,其中fi表示第i个评价指标,该单元运用优化算法来最大化一个目标函数J(F),该函数是评价指标F的组合,具体公式表示为:
J(F)=w1·f1+w2·f2+…+wn·fn
其中,wi是第i个评价指标的权重,优化算法会动态地调整当前选取的特征集,以在下一次数据挖掘周期中实现更优的结果评估指标。
本发明的有益效果:
本发明,通过整合数据接入、预处理、特征选择、数据挖掘、结果评估和输出等多个模块,实现了对多源、多类型数据的高效、自动化处理,特别是通过数据接入模块和数据适配器的设计,能够解决现有技术中在处理多源、多类型数据时的效率和一致性问题,为后续的数据预处理和挖掘提供了更为稳健和高质量的输入数据。
本发明,通过采用动态特征选择和多指标综合评价机制,不仅能够自适应地调整特征集,还能全面评估挖掘结果,以实现更准确和更有针对性的数据挖掘,这些设计使得系统能够更好地适应不同的挖掘任务和数据特性,大大提高了挖掘出高价值信息的准确性和效率,减少了人工参与和潜在错误,具有显著的实用价值和商业潜力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的定向挖掘的高价值数据筛选系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1所示,大数据定向挖掘的高价值数据筛选系统,包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块,具体的,
数据接入模块:用于从多种数据源获取原始数据,并获取的原始数据进行标准化;
预处理模块:用于接收数据接入模块输出的标准化数据,并进行数据清洗、缺失值填充和数据转换;
特征选择模块:从预处理数据中筛选与目标分析相关的特征,根据结果评估模块的反馈自动选取特征集,然后传递给挖掘算法模块;
挖掘算法模块:使用统计方法挖掘接收的特征集,并根据结果评估模块的多指标评价进行自我优化;
结果评估模块:根据挖掘算法模块的输出结果,采用多指标综合评价机制进行评估,并将评价结果反馈给特征选择模块和挖掘算法模块,用以调整特征集和算法参数;
输出模块:用于将结果评估模块认定为高价值的数据进行可视化展示或导出。
数据接入模块具体包括:
数据源配置单元:用于存储和管理各种数据源的配置信息,该配置信息包括数据源的类型、地址、认证信息和访问权限;
数据抓取单元:根据配置信息,定时或根据触发条件从指定的数据源中获取原始数据,该单元还具有数据抓取策略,该抓取策略包括批量抓取和流式抓取;
数据适配器单元:由多个数据适配器组成,每个适配器针对一种特定类型的数据源,每个数据适配器都有一个与之相匹配的解析引擎,用于将原始数据转换成统一的内部格式;
适配器选择逻辑单元:根据数据源配置单元的信息,选择相应的数据适配器进行数据抓取和转换;
标准化输出单元:接收来自数据适配器单元的统一格式数据,并将其整合为一致的数据结构,以供后续模块使用;
通过上述单元的紧密协作,数据接入模块确保从多种不同类型的数据源中获取的原始数据能够被有效地抓取、标准化和整合,进而解决现有技术在处理多源、多类型数据方面的局限性。
预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器,具有的,
数据清洗单元:接收从数据接入模块传入的标准化数据,使用预设的规则库,识别并去除错误的、冗余的或者不一致的数据条目;
缺失值填充单元:针对数据清洗单元传入的数据,识别数据中的缺失值,并通过多种算法包括均值、中位数或者基于邻近数据的插值方法进行填充,该单元能够根据数据属性和上下文自动选择最合适的填充算法;
数据转换单元:对缺失值填充单元处理后的数据进行进一步的转换,具体转化为数据标准化、编码类别变量、以及数据维度的降低;
预处理控制器:协调以上三个单元的工作流程,根据数据的特性和目标任务,动态地调整数据清洗、缺失值填充和数据转换的顺序和参数。
预处理控制器运行步骤具体包括:
S1:用于接收目标任务描述和数据特性标签,识别数据预处理需要优先解决的问题,例如,如果目标任务为分类,并且数据特性标签显示数据存在高度不平衡,则任务分析单元将优先级设置为数据平衡;
S2:基于任务分析单元的输出,使用一种基于熵的权重调整算法来确定数据清洗单元、缺失值填充单元、数据转换单元的执行顺序,该算法公式表示为:
其中,Wi是第i个预处理单元的权重,p(j)是第j个数据特性标签在数据集中的出现概率;
S3:使用遗传算法来动态调整各预处理单元的参数,具体来说,采用参数组合,然后通过交叉和变异操作来搜索最优参数组合,遗传算法的适应性函数F(x)可以由以下公式表示:
F(x)=α×准确性+β×执行时间
其中,α和β是权重因子,用于平衡预处理结果的准确性和执行时间。
特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元,具体的,
特征评分单元:用于接收从预处理模块传入的数据,使用多种评分算法对每个特征与目标变量的相关性进行评分,评分算法的计算可以用以下公式表示:
其中,S(f)是特征f的评分,N是样本数量,Σx和Σy分别是特征f和目标变量的总和;
特征排序单元:基于特征评分单元的输出结果,对所有特征进行排序,选出评分最高的K个特征;
动态特征调整单元:接收来自结果评估模块的反馈,根据反馈信息自动调整选取的特征集,当结果评估模块发现当前特征集的分类效果不佳时,动态特征调整单元将重新调整K的值。
挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元,具体的,
统计方法单元:使用预定义的统计方法对接收的特征集进行分析,具体的,统计方法为k-均值聚类,目标函数J用以下公式表示:
其中,Ci是第i个聚类,μi是该聚类的中心;
自我优化单元:接收来自结果评估模块的多指标综合评价反馈,用于自动调整统计方法或其参数,当准确率和召回率的评价指标低于阈值时,则自我优化单元将根据预设规则自动调整当前方法的参数;
参数更新公式:当收到结果评估模块的反馈后,采用梯度下降方法进行参数优化,参数更新公式可表示为:
其中,θ是统计方法的参数,α是学习率,J是目标函数。
结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元,其中,
多指标计算单元:用于计算多个性能指标,该性能指标包括准确率Accuracy、精确率Precision、召回率Recall和F1分数,计算性能指标的公式具体如下:
准确率
精确率
召回率
F1分数
其中,TP,TN,FP,FN分别是真正例、真负例、假正例和假负例的数量;
综合评价算法单元:用于整合上述多个指标,生成一个综合评价得分,然后通过加权平均算法进行优化,设加权平均的综合评价得分为S,计算公式为
S=w1×Accuracy+w2×Precision+w3×Recall+w4×F1
其中,w1,w2,w3,w4是各指标的权重;
反馈机制单元:将综合评价得分S反馈到特征选择模块和挖掘算法模块中,用以调整特征集和算法参数。
输出模块包括可视化引擎和导出控制器,其中,
可视化引擎:用于将结果评估模块认定为高价值的数据通过图表、曲线或热图等形式可视化展示,可视化引擎具有多种预设的可视化模板,该模板包括柱状图、折线图和热图,用户将根据具体需求选择适当的模板;
导出控制器:用于将高价值数据或可视化结果导出到不同的文件格式或数据存储服务中,文件格式支持的导出格式包括CSV、Excel、JSON和XML。
动态特征调整单元内嵌有一个梯度提升的优化算法,具体的,当接收来自结果评估模块的反馈后将自动触发该优化算法,具体的,设反馈信息以向量 的形式给出,其中fi表示第i个评价指标(例如准确性、查全率等),该单元运用优化算法来最大化(或最小化)一个目标函数J(F),该函数是评价指标F的组合,具体公式表示为:
J(F)=w1·f1+w2·f2+…+wn·fn
其中,wi是第i个评价指标的权重,优化算法会动态地调整当前选取的特征集,以在下一次数据挖掘周期中实现更优的结果评估指标。
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.大数据定向挖掘的高价值数据筛选系统,其特征在于,包括数据接入模块、预处理模块、特征选择模块、挖掘算法模块、结果评估模块以及输出模块,具体的,
数据接入模块:用于从多种数据源获取原始数据,并获取的原始数据进行标准化;
预处理模块:用于接收数据接入模块输出的标准化数据,并进行数据清洗、缺失值填充和数据转换;
特征选择模块:从预处理数据中筛选与目标分析相关的特征,根据结果评估模块的反馈自动选取特征集,然后传递给挖掘算法模块;
挖掘算法模块:使用统计方法挖掘接收的特征集,并根据结果评估模块的多指标评价进行自我优化;
结果评估模块:根据挖掘算法模块的输出结果,采用多指标综合评价机制进行评估,并将评价结果反馈给特征选择模块和挖掘算法模块,用以调整特征集和算法参数;
输出模块:用于将结果评估模块认定为高价值的数据进行可视化展示或导出。
2.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述数据接入模块具体包括:
数据源配置单元:用于存储和管理各种数据源的配置信息,该配置信息包括数据源的类型、地址、认证信息和访问权限;
数据抓取单元:根据配置信息,定时或根据触发条件从指定的数据源中获取原始数据,该单元还具有数据抓取策略,该抓取策略包括批量抓取和流式抓取;
数据适配器单元:由多个数据适配器组成,每个适配器针对一种特定类型的数据源,每个数据适配器都有一个与之相匹配的解析引擎,用于将原始数据转换成统一的内部格式;
适配器选择逻辑单元:根据数据源配置单元的信息,选择相应的数据适配器进行数据抓取和转换;
标准化输出单元:接收来自数据适配器单元的统一格式数据,并将其整合为一致的数据结构,以供后续模块使用。
3.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述预处理模块包括数据清洗单元、缺失值填充单元、数据转换单元以及预处理控制器,具有的,
数据清洗单元:接收从数据接入模块传入的标准化数据,使用预设的规则库,识别并去除错误的、冗余的或者不一致的数据条目;
缺失值填充单元:针对数据清洗单元传入的数据,识别数据中的缺失值,并通过多种算法包括均值、中位数或者基于邻近数据的插值方法进行填充,该单元能够根据数据属性和上下文自动选择最合适的填充算法;
数据转换单元:对缺失值填充单元处理后的数据进行进一步的转换,具体转化为数据标准化、编码类别变量、以及数据维度的降低;
预处理控制器:协调以上三个单元的工作流程,根据数据的特性和目标任务,动态地调整数据清洗、缺失值填充和数据转换的顺序和参数。
4.根据权利要求3所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述预处理控制器运行步骤具体包括:
S1:用于接收目标任务描述和数据特性标签,识别数据预处理需要优先解决的问题;
S2:基于任务分析单元的输出,使用一种基于熵的权重调整算法来确定数据清洗单元、缺失值填充单元、数据转换单元的执行顺序,该算法公式表示为:
其中,Wi是第i个预处理单元的权重,p(j)是第j个数据特性标签在数据集中的出现概率;
S3:使用遗传算法来动态调整各预处理单元的参数,具体来说,采用参数组合,然后通过交叉和变异操作来搜索最优参数组合,遗传算法的适应性函数F(x)可以由以下公式表示:
F(x)=α×准确性+β×执行时间
其中,α和β是权重因子,用于平衡预处理结果的准确性和执行时间。
5.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述特征选择模块包括特征评分单元、特征排序单元以及动态特征调整单元,具体的,
特征评分单元:用于接收从预处理模块传入的数据,使用多种评分算法对每个特征与目标变量的相关性进行评分,所述评分算法的计算可以用以下公式表示:
其中,S(f)是特征f的评分,N是样本数量,Σx和Σy分别是特征f和目标变量的总和;
特征排序单元:基于特征评分单元的输出结果,对所有特征进行排序,选出评分最高的K个特征;
动态特征调整单元:接收来自结果评估模块的反馈,根据反馈信息自动调整选取的特征集,当结果评估模块发现当前特征集的分类效果不佳时,动态特征调整单元将重新调整K的值。
6.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述挖掘算法模块包括统计方法单元、自我优化单元以及自我优化单元,具体的,
统计方法单元:使用预定义的统计方法对接收的特征集进行分析,具体的,统计方法为k-均值聚类,目标函数J用以下公式表示:
其中,Ci是第i个聚类,μi是该聚类的中心;
自我优化单元:接收来自结果评估模块的多指标综合评价反馈,用于自动调整统计方法或其参数,当准确率和召回率的评价指标低于阈值时,则自我优化单元将根据预设规则自动调整当前方法的参数;
参数更新公式:当收到结果评估模块的反馈后,采用梯度下降方法进行参数优化,参数更新公式可表示为:
其中,θ是统计方法的参数,α是学习率,J是目标函数。
7.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述结果评估模块包括多指标计算单元、综合评价算法单元以及反馈机制单元,其中,
多指标计算单元:用于计算多个性能指标,该性能指标包括准确率Accuracy、精确率Precision、召回率Recall和F1分数,计算性能指标的公式具体如下:
准确率
精确率
召回率
F1分数
其中,TP,TN,FP,FN分别是真正例、真负例、假正例和假负例的数量;
综合评价算法单元:用于整合上述多个指标,生成一个综合评价得分,然后通过加权平均算法进行优化,设加权平均的综合评价得分为S,计算公式为
S=w1×Accuracy+w2×Precision+w3×Recall+w4×F1
其中,w1,w2,w3,w4是各指标的权重;
反馈机制单元:将综合评价得分S反馈到特征选择模块和挖掘算法模块中,用以调整特征集和算法参数。
8.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述输出模块包括可视化引擎和导出控制器,其中,
可视化引擎:用于将结果评估模块认定为高价值的数据通过图表、曲线或热图等形式可视化展示,可视化引擎具有多种预设的可视化模板,该模板包括柱状图、折线图和热图,用户将根据具体需求选择适当的模板;
导出控制器:用于将高价值数据或可视化结果导出到不同的文件格式或数据存储服务中,所述文件格式支持的导出格式包括CSV、Excel、JSON和XML。
9.根据权利要求1所述的大数据定向挖掘的高价值数据筛选系统,其特征在于,所述动态特征调整单元内嵌有一个梯度提升的优化算法,具体的,当接收来自结果评估模块的反馈后将自动触发该优化算法,具体的,设反馈信息以向量的形式给出,其中fi表示第i个评价指标,该单元运用优化算法来最大化一个目标函数J(F),该函数是评价指标F的组合,具体公式表示为:
J(F)=w1·f1+w2·f2+…+wn·fn
其中,wi是第i个评价指标的权重,优化算法会动态地调整当前选取的特征集,以在下一次数据挖掘周期中实现更优的结果评估指标。
CN202311439866.8A 2023-11-01 2023-11-01 大数据定向挖掘的高价值数据筛选系统 Withdrawn CN117591572A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311439866.8A CN117591572A (zh) 2023-11-01 2023-11-01 大数据定向挖掘的高价值数据筛选系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311439866.8A CN117591572A (zh) 2023-11-01 2023-11-01 大数据定向挖掘的高价值数据筛选系统

Publications (1)

Publication Number Publication Date
CN117591572A true CN117591572A (zh) 2024-02-23

Family

ID=89910589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311439866.8A Withdrawn CN117591572A (zh) 2023-11-01 2023-11-01 大数据定向挖掘的高价值数据筛选系统

Country Status (1)

Country Link
CN (1) CN117591572A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331952A (zh) * 2024-06-14 2024-07-12 青岛云创智通科技有限公司 一种基于大数据的财务数据清洗管理系统及方法
CN118503768A (zh) * 2024-07-18 2024-08-16 厦门渊亭信息科技有限公司 基于k均值聚类的数据识别方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331952A (zh) * 2024-06-14 2024-07-12 青岛云创智通科技有限公司 一种基于大数据的财务数据清洗管理系统及方法
CN118503768A (zh) * 2024-07-18 2024-08-16 厦门渊亭信息科技有限公司 基于k均值聚类的数据识别方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN117591572A (zh) 大数据定向挖掘的高价值数据筛选系统
CN109902954B (zh) 一种基于工业大数据的柔性作业车间动态调度方法
JP5165033B2 (ja) 通信テキスト分類方法及び装置
CN110782123B (zh) 决策方案的匹配方法、装置、计算机设备及存储介质
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN110750524A (zh) 一种有源配电网故障特征的确定方法及系统
CN110188919A (zh) 一种基于长短期记忆网络的负荷预测方法
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
CN111325487A (zh) 一种流水生产车间智能调度优化方法及系统
CN117851490A (zh) 基于大数据的数据分析处理系统
CN117473152A (zh) 一种会员标签管理方法及系统
CN109840536A (zh) 一种电网供电可靠性水平聚类方法及系统
CN116340845A (zh) 标签生成方法、装置、存储介质及电子设备
CN115660730A (zh) 基于分类算法的流失用户分析方法及系统
CN115880508A (zh) 图像数据处理方法、装置、设备以及存储介质
CN110378560B (zh) 仲裁员数据筛选方法、装置、计算机设备和存储介质
CN107480428B (zh) 基于多元向量空间扭曲概念的电子病历检索优化系统
Li et al. Parameters optimization of back propagation neural network based on memetic algorithm coupled with genetic algorithm
CN107302222B (zh) 一种基于粗糙集的无功优化设备动作次数分析方法
CN112906723A (zh) 一种特征选择的方法和装置
TWI759785B (zh) 整合定性資料及定量資料進行稽核準則推薦的系統及方法
CN117237130B (zh) 一种税务风险数据采集监控方法及系统
WO2022227213A1 (zh) 行业推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20240223

WW01 Invention patent application withdrawn after publication