CN114510518B - 一种海量结构化数据的自适应聚合方法、系统及电子设备 - Google Patents

一种海量结构化数据的自适应聚合方法、系统及电子设备 Download PDF

Info

Publication number
CN114510518B
CN114510518B CN202210396158.XA CN202210396158A CN114510518B CN 114510518 B CN114510518 B CN 114510518B CN 202210396158 A CN202210396158 A CN 202210396158A CN 114510518 B CN114510518 B CN 114510518B
Authority
CN
China
Prior art keywords
data
aggregation
attribute
reduction
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210396158.XA
Other languages
English (en)
Other versions
CN114510518A (zh
Inventor
骆彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fast Cube Technology Co ltd
Original Assignee
Beijing Fast Cube Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fast Cube Technology Co ltd filed Critical Beijing Fast Cube Technology Co ltd
Priority to CN202210396158.XA priority Critical patent/CN114510518B/zh
Publication of CN114510518A publication Critical patent/CN114510518A/zh
Application granted granted Critical
Publication of CN114510518B publication Critical patent/CN114510518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量结构化数据的自适应聚合方法、系统及电子设备,涉及人工智能领域,尤其涉及一种海量结构化数据的约减聚合方法、系统及电子设备。所述方法包括:通过第一聚合需求、数据属性集,利用层级属性约减处理器获得第一处理结果;构建可聚合性支持向量机获得第一输出结果;人工判断确定第一属性集;依次提取获得多个提取数据;根据第一聚合需求对多个提取数据聚合处理。解决了现有技术数据聚合时存在处理数据量大、聚合效率低,数据筛选后聚合存在精度不稳定、聚合可靠性低的技术问题。通过合理、有效的数据属性约减,达到了在保障聚合精度的基础上有效降低聚合处理数据量,提高聚合可靠性、针对性和聚合效率的技术效果。

Description

一种海量结构化数据的自适应聚合方法、系统及电子设备
技术领域
本发明涉及人工智能领域,尤其涉及一种海量结构化数据的自适应聚合方法、系统及电子设备。
背景技术
随着计算机技术的快速发展,各行各业逐步进入信息化管理阶段,因此产生大量的数据信息。通过数据融合可以实现海量数据信息价值的充分挖掘,从而促进产业提质增效升级。现有数据融合从交互程度上,可以分为数据组合、数据整合、数据聚合三个层次,且三个层次的数据交互深度由低到高。其中,数据聚合是指由多方数据聚合孵化产生新的产品、模式,或者发现新的规律、价值,举例如分期贷款,通过大数据风控能力,不仅减少审核流程,而且也能进行贷中监控和贷后管理,还能够对失联用户进行定位和催收。现有技术在进行数据聚合分析时,通过计算机直接选取全部结构化数据进行智能化聚合分析,存在聚合数据量大、聚合效率低的问题,而通过计算机或人为筛选数据进行聚合,存在聚合针对性差、聚合结果可靠性低,从而无法有效提升数据内涵价值的技术问题。研究利用计算机技术对海量结构化数据进行合理、有效的约减,具有重要的意义。
然而,现有技术在进行数据聚合分析时,由计算机直接选取全部结构化数据进行分析存在处理数据量大、聚合效率低的问题,而经过计算机或人为筛选数据进行聚合分析,存在聚合精度不稳定、聚合针对性差,进而导致聚合结果可靠性低的技术问题。
发明内容
本发明的目的是提供一种海量结构化数据的自适应聚合方法、系统及电子设备,用以解决现有技术在进行数据聚合分析时,由计算机直接选取全部结构化数据进行分析存在处理数据量大、聚合效率低的问题,而经过计算机或人为筛选数据进行聚合分析,存在聚合精度不稳定、聚合针对性差,进而导致聚合结果可靠性低的技术问题。
鉴于上述问题,本发明提供了一种海量结构化数据的自适应聚合方法、系统及电子设备。
第一方面,本发明提供了一种海量结构化数据的自适应聚合方法,所述方法通过一种海量结构化数据的自适应聚合系统实现,其中,所述方法包括:通过获得第一结构化数据的第一聚合需求;对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;基于历史数据聚合记录构建可聚合性支持向量机;将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;根据所述第一聚合需求对所述多个提取数据进行聚合处理。
另一方面,本发明还提供了一种海量结构化数据的自适应聚合系统,用于执行如第一方面所述的一种海量结构化数据的自适应聚合方法,其中,所述系统包括:第一获得单元:所述第一获得单元用于获得第一结构化数据的第一聚合需求;第一组建单元:所述第一组建单元用于对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;第二获得单元:所述第二获得单元用于将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;第一构建单元:所述第一构建单元用于基于历史数据聚合记录构建可聚合性支持向量机;第三获得单元:所述第三获得单元用于将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;第一确定单元:所述第一确定单元用于通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;第四获得单元:所述第四获得单元用于根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;第一执行单元:所述第一执行单元用于根据所述第一聚合需求对所述多个提取数据进行聚合处理。
第三方面,一种电子设备,其中,包括处理器和存储器;
该存储器,用于存储;
该处理器,用于通过调用,执行上述第一方面中任一项所述的方法。
第四方面,一种计算机程序产品,包括计算机程序和/或指令,该计算机程序和/或指令被处理器执行时实现上述第一方面中任一项所述方法的步骤。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.通过分析待聚合处理的第一结构化数据得到数据属性集,进而利用层级属性约减处理器对数据属性集进行约减处理,得到约减后的数据属性;然后利用可聚合性支持向量机对约减后的数据属性进行智能分类,并人工依次分析智能分类结果,判断各属性的可聚合性,从而得到满足第一聚合需求的第一属性集;最后基于第一属性集中各属性依次对第一结构化数据进行数据提起,并对提取到的数据进行聚合处理。通过在数据聚合前利用层级属性约减处理器对海量结构化数据进行合理、有效的约减,达到了在保障聚合精度的基础上,有效降低聚合处理数据量,从而提高聚合可靠性、针对性和聚合效率的技术效果。
2.通过基于数据属性的关联度、重要性计算,确定各历史属性的可聚合指数,实现了将数据属性的可融合、可聚合性直观化、量化的目标,进而提高可聚合性支持向量机验证对约减情况的准确性,并达到了保证约减合理、有效的技术效果。
3.通过计算确定各约减方案的聚合误差,实现了将各数据约减方案的约减误差直观化、数据化的目标,进而基于实际聚合需求确定聚合误差合适的最佳约减方案,达到了提高数据属性约减合理性,确保约减精度可控,进而保证数据聚合效果的技术效果。
4.基于多个符合聚合精度的数据属性约减方案,确定聚合误差最大的数据属性约减方案进行约减处理,达到了降低系统聚合处理数据量、减轻系统处理负担,同时提高聚合效率的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种海量结构化数据的自适应聚合方法的流程示意图;
图2为本发明一种海量结构化数据的自适应聚合方法中确定所述第一处理结果的流程示意图;
图3为本发明一种海量结构化数据的自适应聚合方法中计算获得所述n个约减聚合结果的n个聚合误差的流程示意图;
图4为本发明一种海量结构化数据的自适应聚合方法中反向匹配第一约减结果,并将所述第一约减结果作为所述第一处理结果的流程示意图;
图5为本发明一种海量结构化数据的自适应聚合系统的结构示意图;
图6为本发明示例性电子设备的结构示意图。
附图标记说明:
第一获得单元11,第一组建单元12,第二获得单元13,第一构建单元14,第三获得单元15,第一确定单元16,第四获得单元17,第一执行单元18,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。
具体实施方式
本发明通过提供一种海量结构化数据的自适应聚合方法、系统及电子设备,解决了现有技术在进行数据聚合分析时,由计算机直接选取全部结构化数据进行分析存在处理数据量大、聚合效率低的问题,而经过计算机或人为筛选数据进行聚合分析,存在聚合精度不稳定、聚合针对性差,进而导致聚合结果可靠性低的技术问题。通过在数据聚合前利用层级属性约减处理器对海量结构化数据进行合理、有效的约减,达到了在保障聚合精度的基础上,有效降低聚合处理数据量,从而提高聚合可靠性、针对性和聚合效率的技术效果。
本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
下面,将参考附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
本发明提供了一种海量结构化数据的自适应聚合方法,所述方法应用于一种海量结构化数据的自适应聚合系统,其中,所述方法包括:通过获得第一结构化数据的第一聚合需求;对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;基于历史数据聚合记录构建可聚合性支持向量机;将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;根据所述第一聚合需求对所述多个提取数据进行聚合处理。
在介绍了本发明基本原理后,下面将结合说明书附图来具体介绍本发明的各种非限制性的实施方式。
实施例一
请参阅附图1,本发明提供了一种海量结构化数据的自适应聚合方法,其中,所述方法应用于一种海量结构化数据的自适应聚合系统,所述方法具体包括如下步骤:
步骤S100:获得第一结构化数据的第一聚合需求;
具体而言,所述一种海量结构化数据的自适应聚合方法应用于所述一种海量结构化数据的自适应聚合系统,可以在数据聚合前利用层级属性约减处理器对海量结构化数据进行合理、有效的约减。结构化数据是指可通过二维表结构进行逻辑表达和实现的数据,其中,二维表结构的表格第一行一般为数据属性名,且表格内部所有数据元素和表格第一行的属性名都不可再分。举例如一个班级所有学生、所有科目的考试成绩,或者一个公司的采购物料清单等。所述第一结构化数据是指任一待使用所述自适应聚合系统进行数据聚合分析的数据信息。所述第一聚合需求是指经过所述自适应聚合系统的智能化处理和分析后,应当从所述第一结构化数据中得到的规律、价值等。
通过获得第一结构化数据,达到了为后续智能采集数据属性特征提供数据基础的技术效果,通过获得第一聚合需求,达到了为后续对第一结构化数据进行属性筛选、约减等提供标准的技术效果。
步骤S200:对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;
具体而言,所述自适应聚合系统对所述第一结构化数据分析,得到第一结构化数据对应的所有数据属性,即所述数据属性集。举例如先利用计算机技术将第一结构化数据进行转换,生成对应的二维表结构形式,则对应二维表结构中首行数据即所述第一结构化数据的数据属性。举例如成绩单中的语文、数学、英语、历史、政治等各个科目即为成绩单的数据属性,进而语文、数学、英语、历史、政治等各个科目组成成绩单的数据属性集。通过分析得到数据属性集,达到了为后续基于数据属性分析进行数据约减提供基础的技术效果。
步骤S300:将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;
具体而言,所述层级属性约减处理器为所述自适应聚合系统的前端处理器,用于对聚合处理前的海量结构化数据进行约减处理的智能处理器。其中,所述约减是指合理减少总数据量,从而提高系统处理速度、提高系统整体性能的技术。此外,所述层级属性约减处理器包括多层级的属性约减处理。通过所述层级属性约减处理器对第一结构化数据所有数据属性的智能约减处理,从而确定用于所述自适应聚合系统进行聚合处理的数据属性,即所述第一处理结果。也就是说,所述第一处理结果为所述层级属性约减处理器对所述数据属性集中各数据属性智能分析后,筛选得到的数据属性。其中,所述第一处理结果中的数据属性个数少于或等于所述数据属性集中的数据属性个数。通过确定第一处理结果,达到了为后续系统智能聚合处理降低数据量,进而提高聚合处理效率提供基础的技术效果。
步骤S400:基于历史数据聚合记录构建可聚合性支持向量机;
进一步的,本发明步骤S400还包括:
步骤S410:基于大数据采集历史数据聚合记录,获得第一历史数据聚合的第一历史数据属性集,其中,所述第一历史数据属性集包括第一历史属性、第二历史属性;
步骤S420:依次获得所述第一历史属性、所述第二历史属性的第一可聚合指数、第二可聚合指数;
步骤S430:将所述第一历史属性、所述第二历史属性、所述第一可聚合指数、所述第二可聚合指数作为训练数据,训练获得所述可聚合性支持向量机。
具体而言,利用计算机爬取历史数据聚合数据,所述第一历史数据聚合是指计算机爬取到的任意一次数据聚合的详细记录信息。根据聚合记录确定第一历史数据聚合中,参与数据聚合的所有数据属性,即所述第一历史数据属性集。进而分别智能化计算得到所述第一历史数据属性集中,各个参数数据聚合的数据属性的可聚合指数。也就是说,分别计算得到第一历史属性的第一可聚合指数、第二历史属性的第二可聚合指数。其中,可聚合指数是指各数据属性与其他数据属性之间的可融合程度。最后根据所述第一历史数据属性集中各个数据属性、和各个数据属性对应的可聚合指数,进行支持向量机训练,从而得到所述可聚合性支持向量机。其中,所述支持向量机是一种经过监督学习之后,可以对数据进行二元分类的智能线性分类器。通过训练得到可聚合性支持向量机,达到了为后续智能化判断层级属性约减处理器约减后各个数据属性的可聚合性提供智能模型,也就是对约减情况快速验证,保证约减合理、有效的技术效果。
步骤S500:将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;
具体而言,将所述层级属性约减处理器得到的所述约减后的各个数据属性,即所述第一处理结果,输入基于历史数据聚合记录构建的所述可聚合性支持向量机中,经过所述可聚合性支持向量机的智能分析和分类,得到第一输出结果,其中,所述第一输出结果包括两个类别的数据属性,分别为可聚合性符合要求的数据属性类别、可聚合性不符合要求的数据属性类别,即所述第一类别数据属性和所述第二类别数据属性。通过可聚合性支持向量机的智能分析,并对所述层级属性约减处理器在约减处理后,得到的不符合聚合条件的数据属性进行智能划分和筛选,实现了对约减后的数据属性,即第一处理结果进行校验的目标,达到了提高数据属性约减合理、有效性,并提高后续数据聚合分析可靠性的技术效果。
步骤S600:通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;
具体而言,对所述可聚合性支持向量机智能化分析得到的所述第一类别数据属性、所述第二类别数据属性进行分析,并对数据属性个数较少的类别进行人工分析判断,也就是说,所述可聚合性支持向量机经过智能化处理分析,得到聚合性和其他数据属性聚合性有较大偏差的数据属性。举例如第一处理结果中各数据属性的可聚合指数分别为0.89、0.76、0.91、0.68、0.06、0.72、0.96、0.13,经过可聚合性支持向量机处理,将0.89、0.76、0.91、0.68、0.72、0.96归为一类,将0.06、0.13归为另一类,其中,0.06、0.13所在的类别为不符合聚合性要求的类别,0.06、0.13为不符合聚合性要求的数据属性的可聚合指数。也就是说,对比所述第一类别数据属性、所述第二类别数据属性,内含数据属性个数少的类别即为不符合聚合性要求的类别,并对不符合聚合性要求的类别进行人工分析,而内含数据属性个数多的类别即为符合聚合性要求的类别,即完成对该类别中各数据属性的校验,并将该类别中所有数据属性添加到第一属性集。其中,所述第一属性集是指用于后续系统聚合分析的数据属性的集合。举例如当第一类别数据属性内含数据属性个数比第二类别数据属性内含数据属性个数少时,系统自动发出提醒,用于提醒相关人员对第一类别数据属性中,含有的各个数据属性进行人工判断,即得到所述第一人工判断结果。最后,将所述第一人工判断结果中,相关人员认为应当进行融合分析的数据属性添加到所述第一属性集中,将所述第一人工判断结果中,相关人员认为不应当进行融合分析的数据属性进行剔除。
通过确定第一属性集,实现了对第一处理结果中各数据属性的校正,达到了为后续系统进行数据聚合分析提供分析数据基础的技术效果。
步骤S700:根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;
步骤S800:根据所述第一聚合需求对所述多个提取数据进行聚合处理。
具体而言,基于所述第一属性集中的各个数据属性,即所述第一属性、所述第二属性,依次在第一结构化数据中进行对应属性的数据提取,第一属性集中所有数据属性提取得到的数据组成所述第一提取数据集合。其中,所述第一属性是指所述第一属性集中的任意一个数据属性,所述第二属性是指所述第一属性集中,与所述第一属性不同的其他数据属性。最后,对提取得到的所述第一提取数据集合中的所述多个提取数据进行聚合处理,即完成所述第一聚合需求。通过基于约减并验证得到数据属性,依次提取对应的数据信息,并进行聚合处理,达到了保证聚合精度、聚合可靠性的同时,有效降低系统聚合处理复杂度、提高聚合效率的技术效果。
进一步的,如附图2所示,本发明步骤S300还包括:
步骤S310:将所述多个数据属性依次上传至所述层级属性约减处理器,其中,所述层级属性约减处理器包括第一层级属性约减器、第二层级属性约减器、第三层级属性约减器;
步骤S320:将所述第一层级属性约减器、所述第二层级属性约减器、所述第三层级属性约减器分别记作方案A、方案B、方案C;
步骤S330:将所述方案A、所述方案B、所述方案C进行排列运算,生成第一约减方案集,其中,所述第一约减方案集包括n个约减方案,且n=15;
步骤S340:利用所述n个约减方案依次对所述多个数据属性进行约减处理,获得n个约减结果;
步骤S350:根据所述第一聚合需求对所述n个约减结果进行分析,确定所述第一处理结果。
具体而言,所述层级属性约减处理器包括第一层级属性约减器、第二层级属性约减器、第三层级属性约减器,且各层级属性约减器对应不同的约减处理思路和方案,其中,所述第一层级属性约减器基于方案A进行数据属性约减,所述第二层级属性约减器基于方案B进行数据属性约减,所述第三层级属性约减器基于方案C进行数据属性约减。
进一步的,在对所述第一结构化数据的所有数据属性,即所述多个数据属性进行约减时,所述层级属性约减处理器对其三个层级属性约减器进行不同排列,即不同组合、不同组合顺序的约减。其中包括仅以方案A、方案B、方案C进行约减,以先方案A后方案B、先方案A后方案C、先方案B后方案A、先方案B后方案C、先方案C后方案A、先方案C后方案B的两层级组合进行约减,以先方案A后方案B最后方案C、先方案A后方案C最后方案B、先方案B后方案A最后方案C、先方案B后方案C最后方案A、先方案C后方案A最后方案B、先方案C后方案B最后方案A的三层级排列组合进行约减。也就是说,经过所述方案A、所述方案B、所述方案C的排列运算,得到对所述多个数据属性进行约减的n个约减方案,并组成所述第一约减方案集。根据排列运算结果可知,所述第一约减方案集共包括15种约减方案,即n=15。
最后,根据所述第一约减方案集中的所述n个约减方案依次对所述多个数据属性进行约减处理,分别得到对应的数据属性约减结果,即所述n个约减结果。进而根据所述第一聚合需求的实际情况,对所述n个约减结果进行分析,并针对性分析确定满足第一聚合需求的数据属性约减方案,以及对应方案约减后得到的数据属性,即所述第一处理结果。
通过层级属性约减处理器中三个层级属性约减器的不同排列得到n个数据属性约减方案,并对应生成n个约减结果,最终基于实际聚合需求选定一个最佳约减方案,并得到最佳约减方案处理后的第一处理结果,达到了提高数据属性约减合理性,确保约减精度可控,进而保证数据聚合效果的技术效果。
进一步的,如附图3所示,本发明步骤S350还包括:
步骤S351:根据所述n个约减结果,获得n个约减属性集;
步骤S352:根据所述n个约减属性集,依次对所述第一结构化数据进行数据提取,获得n个约减数据集合;
步骤S353:根据所述第一聚合需求,依次对所述n个约减数据集合进行聚合处理,组成n个约减聚合结果;
步骤S354:根据所述第一聚合需求,对所述第一结构化数据进行聚合,获得第一聚合结果;
步骤S355:依次对比所述n个约减聚合结果和所述第一聚合结果,分别计算获得所述n个约减聚合结果的n个聚合误差。
进一步的,本发明步骤S354还包括:
步骤S3541:将所述第一结构化数据转换为二维表结构,记作第一二维表结构数据;
步骤S3542:根据所述多个数据属性,依次对所述第一二维表结构数据进行数据提取,获得第二提取数据集合;
步骤S3543:根据所述第一聚合需求对所述第二提取数据集合中的数据进行聚合处理,获得所述第一聚合结果。
具体而言,基于所述层级属性约减处理器的n个数据属性约减方案,对应生成所述n个约减结果,且所述n个约减结果中的每个约减结果均对应一个约减后的数据属性集,即所述n个约减属性集。然后基于所述n个约减属性集中的每个约减属性集,依次对第一结构化数据进行对应属性的数据提取,进而得到n个约减数据集合,并分别聚合得到对应聚合结果,即所述n个约减聚合结果。
进一步的,将所述层级属性约减处理器的n个数据属性约减方案对应得到的n个约减聚合结果,分别与未进行数据属性约减的第一聚合结果进行对比,并基于二者比值计算可以得到各个约减方案的误差率,即经过各约减方案对数据属性进行约减处理后,对应保留下来的用于聚合分析的数据不同,进而对应聚合误差不同,即得到所述n个聚合误差。其中,所述第一聚合结果是指未对第一结构化数据中所有数据属性进行约减,即保留第一结构化数据中所有数据进行聚合处理得到的聚合结果。首先将所述第一结构化数据转换为第一二维表结构数据,并基于所述第一二维表结构数据中的所有数据,即所述第二提取数据集合进行数据聚合处理,得到所述第一聚合结果。
通过依次将各数据属性约减后的聚合结果和未经约减的聚合结果进行对比计算,得到各约减方案的聚合误差,达到了将各数据约减方案的聚合误差直观化、数据化的技术效果。
进一步的,如附图4所示,本发明还包括步骤S360:
步骤S361:根据所述第一聚合需求,获得第一聚合精度需求;
步骤S362:根据所述第一聚合精度需求,确定第一预设误差范围;
步骤S363:对所述n个聚合误差进行遍历,生成满足所述第一预设误差范围的第一聚合误差集,其中,所述第一聚合误差集包括m个聚合误差,且0≤m≤n;
步骤S364:将所述m个聚合误差进行降序排列,获得第一降序列表;
步骤S365:获得所述第一降序列表的第一聚合误差,其中,所述第一聚合误差是指位于所述第一降序列表中第一个的聚合误差;
步骤S366:根据所述第一聚合误差,反向匹配第一约减结果,并将所述第一约减结果作为所述第一处理结果。
具体而言,根据所述第一聚合需求中,对数据聚合精度的实际需求,实现设置所述自适应聚合系统的最大聚合误差,从而确定所述第一预设误差范围。然后对层级属性约减处理器的n个约减方案,对应的所述n个聚合误差依次进行判断分析,并将所有判断结果认定聚合误差在所述第一预设误差范围的所有误差记作第一聚合误差集。其中,所述第一聚合误差集中可能包括不同数量的聚合误差,即包括m个聚合误差,且0≤m≤n。举例如包括0、1、3个聚合误差。当所述第一聚合误差集中没有符合第一预设误差范围的聚合误差时,则不对第一结构化数据的多个数据属性进行约减;当所述第一聚合误差集中仅有一个符合第一预设误差范围的聚合误差时,则以该聚合误差对应的数据属性约减方案作为最终的约减方案,其对应的约减结果即第一处理结果;当所述第一聚合误差集中存在两个及两个以上的符合第一预设误差范围的聚合误差时,则将符合第一预设误差范围的所述m个聚合误差进行降序排列,并将第一降序列表中的第一个聚合误差对应的约减方案作为最终的数据属性约减方案,对应的约减结果即所述第一处理结果。也就是说,当多个数据属性约减后,对应聚合误差均符合精度要求,则选择聚合误差最大的数据属性约减方案进行处理,从而达到降低系统聚合处理数据量、减轻系统处理负担,同时提高聚合效率的技术效果。
进一步的,本发明步骤S420还包括:
步骤S421:利用灰色关联分析算法计算所述第一历史属性与所述第一历史数据属性集中各数据属性的关联度,均值计算后获得所述第一历史属性的第一平均关联度;
步骤S422:利用Pawlak粗糙集理论,计算获得所述第一历史属性的第一历史属性权重;
步骤S423:根据所述第一平均关联度、所述第一历史属性权重,加权计算获得所述第一可聚合指数。
具体而言,利用灰色关联分析算法计算所述第一历史属性与所述第一历史数据属性集中各数据属性的关联度,并计算各关联度平均值,得到所述第一历史属性的第一平均关联度。举例如语文与数学、英语、政治、历史、地理的关联度分别为0.40、0.85、0.55、0.35、0.15,则计算得到语文的综合关联度为0.46,归一化处理得到语文这一数据属性的关联度指数为46。然后利用Pawlak粗糙集理论中的条件熵权重法,计算所述第一历史属性的第一历史属性权重。其中,所述Pawlak粗糙集理论是指将待评估权重的数据属性在聚合处理时删除,分析删除后的聚合结果和未删除时的聚合结果,基于聚合结果变化情况确定对应权重,其中,引起聚合结果变化越大的数据属性的重要程度越高,对应权重越大,反之权重越小。最后根据所述第一平均关联度和所述第一历史属性权重,加权计算获得所述第一可聚合指数。
通过基于数据属性的关联度、重要性计算,确定各历史属性的可聚合指数,达到了将数据属性的可融合、聚合性直观化、具体化、量化的效果,进而提高可聚合性支持向量机的准确度的技术效果。
综上所述,本发明所提供的一种海量结构化数据的自适应聚合方法具有如下技术效果:
1.通过分析待聚合处理的第一结构化数据得到数据属性集,进而利用层级属性约减处理器对数据属性集进行约减处理,得到约减后的数据属性;然后利用可聚合性支持向量机对约减后的数据属性进行智能分类,并人工依次分析智能分类结果,判断各属性的可聚合性,从而得到满足第一聚合需求的第一属性集;最后基于第一属性集中各属性依次对第一结构化数据进行数据提起,并对提取到的数据进行聚合处理。通过在数据聚合前利用层级属性约减处理器对海量结构化数据进行合理、有效的约减,达到了在保障聚合精度的基础上,有效降低聚合处理数据量,从而提高聚合可靠性、针对性和聚合效率的技术效果。
2.通过基于数据属性的关联度、重要性计算,确定各历史属性的可聚合指数,实现了将数据属性的可融合、可聚合性直观化、量化的目标,进而提高可聚合性支持向量机验证对约减情况的准确性,并达到了保证约减合理、有效的技术效果。
3.通过计算确定各约减方案的聚合误差,实现了将各数据约减方案的约减误差直观化、数据化的目标,进而基于实际聚合需求确定聚合误差合适的最佳约减方案,达到了提高数据属性约减合理性,确保约减精度可控,进而保证数据聚合效果的技术效果。
4.基于多个符合聚合精度的数据属性约减方案,确定聚合误差最大的数据属性约减方案进行约减处理,达到了降低系统聚合处理数据量、减轻系统处理负担,同时提高聚合效率的技术效果。
实施例二
基于与前述实施例中一种海量结构化数据的自适应聚合方法,同样发明构思,本发明还提供了一种海量结构化数据的自适应聚合系统,请参阅附图5,所述系统包括:
第一获得单元11,所述第一获得单元11用于获得第一结构化数据的第一聚合需求;
第一组建单元12,所述第一组建单元12用于对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;
第二获得单元13,所述第二获得单元13用于将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;
第一构建单元14,所述第一构建单元14用于基于历史数据聚合记录构建可聚合性支持向量机;
第三获得单元15,所述第三获得单元15用于将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;
第一确定单元16,所述第一确定单元16用于通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;
第四获得单元17,所述第四获得单元17用于根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;
第一执行单元18,所述第一执行单元18用于根据所述第一聚合需求对所述多个提取数据进行聚合处理。
进一步的,所述系统还包括:
第一上传单元,所述第一上传单元用于将所述多个数据属性依次上传至所述层级属性约减处理器,其中,所述层级属性约减处理器包括第一层级属性约减器、第二层级属性约减器、第三层级属性约减器;
第一设置单元,所述第一设置单元用于将所述第一层级属性约减器、所述第二层级属性约减器、所述第三层级属性约减器分别记作方案A、方案B、方案C;
第一生成单元,所述第一生成单元用于将所述方案A、所述方案B、所述方案C进行排列运算,生成第一约减方案集,其中,所述第一约减方案集包括n个约减方案,且n=15;
第五获得单元,所述第五获得单元用于利用所述n个约减方案依次对所述多个数据属性进行约减处理,获得n个约减结果;
第二确定单元,所述第二确定单元用于根据所述第一聚合需求对所述n个约减结果进行分析,确定所述第一处理结果。
进一步的,所述系统还包括:
第六获得单元,所述第六获得单元用于根据所述n个约减结果,获得n个约减属性集;
第七获得单元,所述第七获得单元用于根据所述n个约减属性集,依次对所述第一结构化数据进行数据提取,获得n个约减数据集合;
第一组成单元,所述第一组成单元用于根据所述第一聚合需求,依次对所述n个约减数据集合进行聚合处理,组成n个约减聚合结果;
第八获得单元,所述第八获得单元用于根据所述第一聚合需求,对所述第一结构化数据进行聚合,获得第一聚合结果;
第九获得单元,所述第九获得单元用于依次对比所述n个约减聚合结果和所述第一聚合结果,分别计算获得所述n个约减聚合结果的n个聚合误差。
进一步的,所述系统还包括:
第十获得单元,所述第十获得单元用于根据所述第一聚合需求,获得第一聚合精度需求;
第三确定单元,所述第三确定单元用于根据所述第一聚合精度需求,确定第一预设误差范围;
第二生成单元,所述第二生成单元用于对所述n个聚合误差进行遍历,生成满足所述第一预设误差范围的第一聚合误差集,其中,所述第一聚合误差集包括m个聚合误差,且0≤m≤n;
第十一获得单元,所述第十一获得单元用于将所述m个聚合误差进行降序排列,获得第一降序列表;
第十二获得单元,所述第十二获得单元用于获得所述第一降序列表的第一聚合误差,其中,所述第一聚合误差是指位于所述第一降序列表中第一个的聚合误差;
第二设置单元,所述第二设置单元用于根据所述第一聚合误差,反向匹配第一约减结果,并将所述第一约减结果作为所述第一处理结果。
进一步的,所述系统还包括:
第三设置单元,所述第三设置单元用于将所述第一结构化数据转换为二维表结构,记作第一二维表结构数据;
第十三获得单元,所述第十三获得单元用于根据所述多个数据属性,依次对所述第一二维表结构数据进行数据提取,获得第二提取数据集合;
第十四获得单元,所述第十四获得单元用于根据所述第一聚合需求对所述第二提取数据集合中的数据进行聚合处理,获得所述第一聚合结果。
进一步的,所述系统还包括:
第十五获得单元,所述第十五获得单元用于基于大数据采集历史数据聚合记录,获得第一历史数据聚合的第一历史数据属性集,其中,所述第一历史数据属性集包括第一历史属性、第二历史属性;
第十六获得单元,所述第十六获得单元用于依次获得所述第一历史属性、所述第二历史属性的第一可聚合指数、第二可聚合指数;
第十七获得单元,所述第十七获得单元用于将所述第一历史属性、所述第二历史属性、所述第一可聚合指数、所述第二可聚合指数作为训练数据,训练获得所述可聚合性支持向量机。
进一步的,所述系统还包括:
第十八获得单元,所述第十八获得单元用于利用灰色关联分析算法计算所述第一历史属性与所述第一历史数据属性集中各数据属性的关联度,均值计算后获得所述第一历史属性的第一平均关联度;
第十九获得单元,所述第十九获得单元用于利用Pawlak粗糙集理论,计算获得所述第一历史属性的第一历史属性权重;
第二十获得单元,所述第二十获得单元用于根据所述第一平均关联度、所述第一历史属性权重,加权计算获得所述第一可聚合指数。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,前述图1实施例一中的一种海量结构化数据的自适应聚合方法和具体实例同样适用于本实施例的一种海量结构化数据的自适应聚合系统,通过前述对一种海量结构化数据的自适应聚合方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种海量结构化数据的自适应聚合系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
示例性电子设备
下面参考图6来描述本发明的电子设备。
图6图示了根据本发明的电子设备的结构示意图。
基于与前述实施例中一种海量结构化数据的自适应聚合方法的发明构思,本发明还提供一种海量结构化数据的自适应聚合系统,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种海量结构化数据的自适应聚合方法的任一方法的步骤。
其中,在图6中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本发明提供了一种海量结构化数据的自适应聚合方法,所述方法应用于一种海量结构化数据的自适应聚合系统,其中,所述方法包括:通过获得第一结构化数据的第一聚合需求;对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;基于历史数据聚合记录构建可聚合性支持向量机;将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;根据所述第一聚合需求对所述多个提取数据进行聚合处理。解决了现有技术在进行数据聚合分析时,由计算机直接选取全部结构化数据进行分析存在处理数据量大、聚合效率低的问题,而经过计算机或人为筛选数据进行聚合分析,存在聚合精度不稳定、聚合针对性差,进而导致聚合结果可靠性低的技术问题。通过在数据聚合前利用层级属性约减处理器对海量结构化数据进行合理、有效的约减,达到了在保障聚合精度的基础上,有效降低聚合处理数据量,从而提高聚合可靠性、针对性和聚合效率的技术效果。
本发明还提供一种电子设备,其中,包括处理器和存储器;
该存储器,用于存储;
该处理器,用于通过调用,执行上述实施例一中任一项所述的方法。
本发明还提供一种计算机程序产品,包括计算机程序和/或指令,该计算机程序和/或指令被处理器执行时实现上述实施例一中任一项所述方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全软件实施例、完全硬件实施例、或结合软件和硬件方面实施例的形式。此外,本发明为可以在一个或多个包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。而所述的计算机可用存储介质包括但不限于:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁盘存储器、只读光盘(Compact Disc Read-Only Memory,简称CD-ROM)、光学存储器等各种可以存储程序代码的介质。
本发明是参照本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种海量结构化数据的自适应聚合方法,其特征在于,所述方法应用于一种海量结构化数据的自适应聚合系统,所述方法包括:
获得第一结构化数据的第一聚合需求;
对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;
将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;
基于历史数据聚合记录构建可聚合性支持向量机;
将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;
通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;
根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;
根据所述第一聚合需求对所述多个提取数据进行聚合处理;
所述将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果,包括:
将所述多个数据属性依次上传至所述层级属性约减处理器,其中,所述层级属性约减处理器包括第一层级属性约减器、第二层级属性约减器、第三层级属性约减器;
将所述第一层级属性约减器、所述第二层级属性约减器、所述第三层级属性约减器分别记作方案A、方案B、方案C;
将所述方案A、所述方案B、所述方案C进行排列运算,生成第一约减方案集,其中,所述第一约减方案集包括n个约减方案,且n=15;
利用所述n个约减方案依次对所述多个数据属性进行约减处理,获得n个约减结果;
根据所述第一聚合需求对所述n个约减结果进行分析,确定所述第一处理结果;
所述根据所述第一聚合需求对所述n个约减结果进行分析,确定所述第一处理结果,之前包括:
根据所述n个约减结果,获得n个约减属性集;
根据所述n个约减属性集,依次对所述第一结构化数据进行数据提取,获得n个约减数据集合;
根据所述第一聚合需求,依次对所述n个约减数据集合进行聚合处理,组成n个约减聚合结果;
根据所述第一聚合需求,对所述第一结构化数据进行聚合,获得第一聚合结果;
依次对比所述n个约减聚合结果和所述第一聚合结果,分别计算获得所述n个约减聚合结果的n个聚合误差;
所述获得所述n个约减聚合结果的n个聚合误差,之后包括:
根据所述第一聚合需求,获得第一聚合精度需求;
根据所述第一聚合精度需求,确定第一预设误差范围;
对所述n个聚合误差进行遍历,生成满足所述第一预设误差范围的第一聚合误差集,其中,所述第一聚合误差集包括m个聚合误差,且0≤m≤n;
将所述m个聚合误差进行降序排列,获得第一降序列表;
获得所述第一降序列表的第一聚合误差,其中,所述第一聚合误差是指位于所述第一降序列表中第一个的聚合误差;
根据所述第一聚合误差,反向匹配第一约减结果,并将所述第一约减结果作为所述第一处理结果;
所述基于历史数据聚合记录构建可聚合性支持向量机,包括:
基于大数据采集历史数据聚合记录,获得第一历史数据聚合的第一历史数据属性集,其中,所述第一历史数据属性集包括第一历史属性、第二历史属性;
依次获得所述第一历史属性、所述第二历史属性的第一可聚合指数、第二可聚合指数;
将所述第一历史属性、所述第二历史属性、所述第一可聚合指数、所述第二可聚合指数作为训练数据,训练获得所述可聚合性支持向量机;
所述获得第一可聚合指数,包括:
利用灰色关联分析算法计算所述第一历史属性与所述第一历史数据属性集中各数据属性的关联度,均值计算后获得所述第一历史属性的第一平均关联度;
利用Pawlak粗糙集理论,计算获得所述第一历史属性的第一历史属性权重;
根据所述第一平均关联度、所述第一历史属性权重,加权计算获得所述第一可聚合指数。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一聚合需求,对所述第一结构化数据进行聚合,获得第一聚合结果,包括:
将所述第一结构化数据转换为二维表结构,记作第一二维表结构数据;
根据所述多个数据属性,依次对所述第一二维表结构数据进行数据提取,获得第二提取数据集合;
根据所述第一聚合需求对所述第二提取数据集合中的数据进行聚合处理,获得所述第一聚合结果。
3.一种海量结构化数据的自适应聚合系统,其特征在于,所述系统应用于权利要求1~2任一所述方法,所述系统包括:
第一获得单元:所述第一获得单元用于获得第一结构化数据的第一聚合需求;
第一组建单元:所述第一组建单元用于对所述第一结构化数据进行特征分析,组建数据属性集,其中,所述数据属性集包括多个数据属性;
第二获得单元:所述第二获得单元用于将所述多个数据属性依次上传至层级属性约减处理器,获得第一处理结果;
第一构建单元:所述第一构建单元用于基于历史数据聚合记录构建可聚合性支持向量机;
第三获得单元:所述第三获得单元用于将所述第一处理结果输入可聚合性支持向量机,获得第一输出结果,其中,所述第一输出结果包括第一类别数据属性、第二类别数据属性;
第一确定单元:所述第一确定单元用于通过人工分析所述第一类别数据属性、所述第二类别数据属性,获得第一人工判断结果,并根据所述第一人工判断结果确定第一属性集,其中,所述第一属性集包括第一属性、第二属性;
第四获得单元:所述第四获得单元用于根据所述第一属性、所述第二属性,依次对所述第一结构化数据进行数据提取,获得第一提取数据集合,其中,所述第一提取数据集合包括多个提取数据;
第一执行单元:所述第一执行单元用于根据所述第一聚合需求对所述多个提取数据进行聚合处理;
第一上传单元,所述第一上传单元用于将所述多个数据属性依次上传至所述层级属性约减处理器,其中,所述层级属性约减处理器包括第一层级属性约减器、第二层级属性约减器、第三层级属性约减器;
第一设置单元,所述第一设置单元用于将所述第一层级属性约减器、所述第二层级属性约减器、所述第三层级属性约减器分别记作方案A、方案B、方案C;
第一生成单元,所述第一生成单元用于将所述方案A、所述方案B、所述方案C进行排列运算,生成第一约减方案集,其中,所述第一约减方案集包括n个约减方案,且n=15;
第五获得单元,所述第五获得单元用于利用所述n个约减方案依次对所述多个数据属性进行约减处理,获得n个约减结果;
第二确定单元,所述第二确定单元用于根据所述第一聚合需求对所述n个约减结果进行分析,确定所述第一处理结果;
第六获得单元,所述第六获得单元用于根据所述n个约减结果,获得n个约减属性集;
第七获得单元,所述第七获得单元用于根据所述n个约减属性集,依次对所述第一结构化数据进行数据提取,获得n个约减数据集合;
第一组成单元,所述第一组成单元用于根据所述第一聚合需求,依次对所述n个约减数据集合进行聚合处理,组成n个约减聚合结果;
第八获得单元,所述第八获得单元用于根据所述第一聚合需求,对所述第一结构化数据进行聚合,获得第一聚合结果;
第九获得单元,所述第九获得单元用于依次对比所述n个约减聚合结果和所述第一聚合结果,分别计算获得所述n个约减聚合结果的n个聚合误差;
第十获得单元,所述第十获得单元用于根据所述第一聚合需求,获得第一聚合精度需求;
第三确定单元,所述第三确定单元用于根据所述第一聚合精度需求,确定第一预设误差范围;
第二生成单元,所述第二生成单元用于对所述n个聚合误差进行遍历,生成满足所述第一预设误差范围的第一聚合误差集,其中,所述第一聚合误差集包括m个聚合误差,且0≤m≤n;
第十一获得单元,所述第十一获得单元用于将所述m个聚合误差进行降序排列,获得第一降序列表;
第十二获得单元,所述第十二获得单元用于获得所述第一降序列表的第一聚合误差,其中,所述第一聚合误差是指位于所述第一降序列表中第一个的聚合误差;
第二设置单元,所述第二设置单元用于根据所述第一聚合误差,反向匹配第一约减结果,并将所述第一约减结果作为所述第一处理结果;
第十五获得单元,所述第十五获得单元用于基于大数据采集历史数据聚合记录,获得第一历史数据聚合的第一历史数据属性集,其中,所述第一历史数据属性集包括第一历史属性、第二历史属性;
第十六获得单元,所述第十六获得单元用于依次获得所述第一历史属性、所述第二历史属性的第一可聚合指数、第二可聚合指数;
第十七获得单元,所述第十七获得单元用于将所述第一历史属性、所述第二历史属性、所述第一可聚合指数、所述第二可聚合指数作为训练数据,训练获得所述可聚合性支持向量机;
第十八获得单元,所述第十八获得单元用于利用灰色关联分析算法计算所述第一历史属性与所述第一历史数据属性集中各数据属性的关联度,均值计算后获得所述第一历史属性的第一平均关联度;
第十九获得单元,所述第十九获得单元用于利用Pawlak粗糙集理论,计算获得所述第一历史属性的第一历史属性权重;
第二十获得单元,所述第二十获得单元用于根据所述第一平均关联度、所述第一历史属性权重,加权计算获得所述第一可聚合指数。
4.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储;
所述处理器,用于通过调用,执行权利要求1~2中任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现权利要求1~2中任一项所述方法的步骤。
CN202210396158.XA 2022-04-15 2022-04-15 一种海量结构化数据的自适应聚合方法、系统及电子设备 Active CN114510518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210396158.XA CN114510518B (zh) 2022-04-15 2022-04-15 一种海量结构化数据的自适应聚合方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210396158.XA CN114510518B (zh) 2022-04-15 2022-04-15 一种海量结构化数据的自适应聚合方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN114510518A CN114510518A (zh) 2022-05-17
CN114510518B true CN114510518B (zh) 2022-07-12

Family

ID=81555471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210396158.XA Active CN114510518B (zh) 2022-04-15 2022-04-15 一种海量结构化数据的自适应聚合方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN114510518B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761532A (zh) * 2014-01-20 2014-04-30 清华大学 基于特征相关隐式编码的标签空间降维方法及系统
CN104809474A (zh) * 2015-05-06 2015-07-29 西安电子科技大学 基于自适应分组多层网络的大型数据集约减方法
CN105488539A (zh) * 2015-12-16 2016-04-13 百度在线网络技术(北京)有限公司 分类模型的生成方法及装置、系统容量的预估方法及装置
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN107451224A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种基于大数据并行计算的聚类方法及系统
CN108009195A (zh) * 2017-10-23 2018-05-08 苏州市环亚数据技术有限公司 一种基于大数据的降维转换方法、电子设备、存储介质
CN108470074A (zh) * 2018-04-04 2018-08-31 河北北方学院 一种基于大数据环境下的多源数据聚合抽样系统
CN109271555A (zh) * 2018-09-19 2019-01-25 上海哔哩哔哩科技有限公司 信息聚类方法、系统、服务器及计算机可读存储介质
CN111081381A (zh) * 2019-11-08 2020-04-28 李静 院内致命性消化道再出血预测关键指标的智能筛选方法
CN111611323A (zh) * 2020-04-09 2020-09-01 山东财经大学 一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质
US11030408B1 (en) * 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
CN113312434A (zh) * 2021-07-29 2021-08-27 北京快立方科技有限公司 一种海量结构化数据的预聚合处理方法
CN113449098A (zh) * 2020-03-25 2021-09-28 中移(上海)信息通信科技有限公司 日志的聚类方法、装置、设备及存储介质
CN114205355A (zh) * 2021-12-13 2022-03-18 南方电网数字电网研究院有限公司 一种变电网关附属设备性能测试方法及系统
CN114298170A (zh) * 2021-12-08 2022-04-08 上海交通大学 一种多模态会议数据结构化方法、装置及计算机设备
CN114329240A (zh) * 2021-11-25 2022-04-12 腾讯科技(深圳)有限公司 选址特征筛选方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10692601B2 (en) * 2016-08-25 2020-06-23 Hitachi, Ltd. Controlling devices based on hierarchical data
CN107292317B (zh) * 2017-06-26 2020-07-28 西安电子科技大学 基于浅层特征与t矩阵深度学习的极化sar分类方法
US11455637B2 (en) * 2018-08-01 2022-09-27 Coupa Software Incorporated System and method for repeatable and interpretable divisive analysis
US11113397B2 (en) * 2019-05-16 2021-09-07 Cisco Technology, Inc. Detection of malicious executable files using hierarchical models
CN111985815A (zh) * 2020-08-21 2020-11-24 国网能源研究院有限公司 一种能源电力运营评价指标的筛选方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761532A (zh) * 2014-01-20 2014-04-30 清华大学 基于特征相关隐式编码的标签空间降维方法及系统
CN104809474A (zh) * 2015-05-06 2015-07-29 西安电子科技大学 基于自适应分组多层网络的大型数据集约减方法
CN105488539A (zh) * 2015-12-16 2016-04-13 百度在线网络技术(北京)有限公司 分类模型的生成方法及装置、系统容量的预估方法及装置
CN107451224A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种基于大数据并行计算的聚类方法及系统
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN108009195A (zh) * 2017-10-23 2018-05-08 苏州市环亚数据技术有限公司 一种基于大数据的降维转换方法、电子设备、存储介质
US11030408B1 (en) * 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
CN108470074A (zh) * 2018-04-04 2018-08-31 河北北方学院 一种基于大数据环境下的多源数据聚合抽样系统
CN109271555A (zh) * 2018-09-19 2019-01-25 上海哔哩哔哩科技有限公司 信息聚类方法、系统、服务器及计算机可读存储介质
CN111081381A (zh) * 2019-11-08 2020-04-28 李静 院内致命性消化道再出血预测关键指标的智能筛选方法
CN113449098A (zh) * 2020-03-25 2021-09-28 中移(上海)信息通信科技有限公司 日志的聚类方法、装置、设备及存储介质
CN111611323A (zh) * 2020-04-09 2020-09-01 山东财经大学 一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质
CN113312434A (zh) * 2021-07-29 2021-08-27 北京快立方科技有限公司 一种海量结构化数据的预聚合处理方法
CN114329240A (zh) * 2021-11-25 2022-04-12 腾讯科技(深圳)有限公司 选址特征筛选方法、装置、电子设备及存储介质
CN114298170A (zh) * 2021-12-08 2022-04-08 上海交通大学 一种多模态会议数据结构化方法、装置及计算机设备
CN114205355A (zh) * 2021-12-13 2022-03-18 南方电网数字电网研究院有限公司 一种变电网关附属设备性能测试方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于文化算法的层次属性约减入侵检测模型;申元等;《计算机工程》;20160927(第07期);181-187页 *
基于聚类和PEDCC-Loss的CNN分类器的分类性能提升;赵璐等;《工业控制计算机》;20200425(第04期);第43-44页 *

Also Published As

Publication number Publication date
CN114510518A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
Huang et al. An empirical analysis of data preprocessing for machine learning-based software cost estimation
US10606862B2 (en) Method and apparatus for data processing in data modeling
CN110781406B (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
CN111340614A (zh) 基于联邦学习的样本采样方法、设备及可读存储介质
CN103853786A (zh) 数据库参数的优化方法与系统
EP3846034A1 (en) Systems and methods for automated testing using artificial intelligence techniques
WO2021012894A1 (zh) 获取神经网络测试报告的方法、装置、设备和存储介质
CN102541736A (zh) 一种软件可靠性执行过程加速测试方法
US20190220924A1 (en) Method and device for determining key variable in model
CN114529228A (zh) 一种面向电力监控系统供应链的风险预警方法及系统
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN112766402A (zh) 算法选择方法、装置和电子设备
CN114239949A (zh) 一种基于双阶段注意力机制的网站访问量预测方法及系统
CN111027318A (zh) 基于大数据的行业分类方法、装置、设备及存储介质
CN113762795A (zh) 一种基于层次分析的产业链诊断方法及系统
CN114510518B (zh) 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN115860141A (zh) 一种自动化机器学习交互式黑箱可视建模方法及系统
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
Zarghami et al. Sensitivity analysis of the OWA operator
CN118196567B (zh) 基于大语言模型的数据评价方法、装置、设备及存储介质
CN113656267B (zh) 设备能效的计算方法、装置、电子设备及存储介质
CN114004492B (zh) 基于人工智能的企业环境管理方法、装置、介质及设备
CN115829144B (zh) 电网业务优化模型的建立方法及电子设备
CN112559848B (zh) 最优加权有向图的流形搜索方法
CN116739395A (zh) 一种企业外迁预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant