CN112052241A - 一种大数据存储用数据分类方法 - Google Patents

一种大数据存储用数据分类方法 Download PDF

Info

Publication number
CN112052241A
CN112052241A CN202010880145.0A CN202010880145A CN112052241A CN 112052241 A CN112052241 A CN 112052241A CN 202010880145 A CN202010880145 A CN 202010880145A CN 112052241 A CN112052241 A CN 112052241A
Authority
CN
China
Prior art keywords
data
classification
big
establishing
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010880145.0A
Other languages
English (en)
Inventor
王海燕
曾东
汤智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Jurong Science And Technology Information Consulting Co ltd
Original Assignee
Anhui Jurong Science And Technology Information Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jurong Science And Technology Information Consulting Co ltd filed Critical Anhui Jurong Science And Technology Information Consulting Co ltd
Priority to CN202010880145.0A priority Critical patent/CN112052241A/zh
Publication of CN112052241A publication Critical patent/CN112052241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种大数据存储用数据分类方法,包括如下步骤:建立汇总模型,用于描述给定的数据集合;对数据进行基础分类,得到已知类数据对象;建立评估模型,用于对数据分类进行评估;建立监控模块,对数据分类结果进行监控,并最终得到数据分类结果;其技术要点为,利用评估模型,对数据评估后进行后续的二次分类,可对部分未知类的数据进行单独筛分,方便后续工作人员查找的同时,也能将其收录到大数据中,从而完善整个大数据存储体系;同时采用数据监控的形式,能够抓取未被分类的数据,保证分类工作的顺利进行,从而提高整个分类作业的工作效率和准确率。

Description

一种大数据存储用数据分类方法
技术领域
本发明属于大数据领域,具体是一种大数据存储用数据分类方法。
背景技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量、高速、多样、低价值密度、真实性。它并没有统计学的抽样方法,只是观察和追踪发生的事情。
在对大数据内的数据进行存储分类时,常常会出现数据遗漏或是分类不细致的现象,从而造成整个分类工作准确率低,对一些较为不常见的偏僻数据无法快速找寻,而造成工作效率较低的问题。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种大数据存储用数据分类方法。
为实现上述目的,本发明采用了如下技术方案:
一种大数据存储用数据分类方法,包括如下步骤:
建立汇总模型,用于描述给定的数据集合;
对数据进行基础分类,得到已知类数据对象;
建立评估模型,用于对数据分类进行评估;
建立监控模块,对数据分类结果进行监控,并最终得到数据分类结果。
优选的,在所述建立汇总模型的过程中,通过分析由属性描述的数据集合来建立反映数据集合特性的模型。
优选的,在对数据进行基础分类的过程中,得到的单个已知类数据对象属于同属性下的数据集合。
优选的,在所述建立评估模型与建立监控模块之间的步骤中,具体为:
开始评估数据分类,判断数据分类是否精准;
若否,则仅能完成对已知类数据对象进行分类;
若是,则对已知类数据对象和未知类数据对象进行分类。
优选的,在判断数据分类是否精准的步骤中,评估数据精确的标准为:
该数据属性是否为大数据内所记录的数据属性,即为该数据属性是否能够存在于大数据中。
优选的,在所述建立监控模块中,对数据分类结果进行监控时,需要判断是否出现数据遗漏,
若是,则抓取该遗漏的数据,并添加到建立汇总模型与对数据进行基础分类之间的步骤中;
若否,则直接输出分类结果。
优选的,在抓取该遗漏的数据的过程中,同时需要对该数据属性进行分析,并与大数据内的数据进行对比,若该数据存在于大数据中,则进行后续步骤,若不存在与大数据中,则将数据添加到大数据中后,进行后续步骤。
与现有技术相比,本发明提供了一种大数据存储用数据分类方法,具有如下有益效果:
本发明利用评估模型,对数据评估后进行后续的二次分类,可对部分未知类的数据进行单独筛分,方便后续工作人员查找的同时,也能将其收录到大数据中,从而完善整个大数据存储体系;
同时采用数据监控的形式,能够抓取未被分类的数据,保证分类工作的顺利进行,从而提高整个分类作业的工作效率和准确率。
附图说明
图1是本发明的整体流程框图。
具体实施方式
以下结合附图1,进一步说明本发明一种大数据存储用数据分类方法的具体实施方式。本发明一种大数据存储用数据分类方法不限于以下实施例的描述。
本实施例给出一种大数据存储用数据分类方法的具体结构,如图1所示,一种大数据存储用数据分类方法,包括如下步骤:
建立汇总模型,用于描述给定的数据集合;
对数据进行基础分类,得到已知类数据对象;
建立评估模型,用于对数据分类进行评估;
建立监控模块,对数据分类结果进行监控,并最终得到数据分类结果
如图1所示,在建立汇总模型的过程中,通过分析由属性描述的数据集合来建立反映数据集合特性的模型。
如图1所示,在对数据进行基础分类的过程中,得到的单个已知类数据对象属于同属性下的数据集合。
如图1所示,在建立评估模型与建立监控模块之间的步骤中,具体为:
开始评估数据分类,判断数据分类是否精准;
若否,则仅能完成对已知类数据对象进行分类;
若是,则对已知类数据对象和未知类数据对象进行分类。
如图1所示,在判断数据分类是否精准的步骤中,评估数据精确的标准为:
该数据属性是否为大数据内所记录的数据属性,即为该数据属性是否能够存在于大数据中。
如图1所示,在建立监控模块中,对数据分类结果进行监控时,需要判断是否出现数据遗漏,
若是,则抓取该遗漏的数据,并添加到建立汇总模型与对数据进行基础分类之间的步骤中;
若否,则直接输出分类结果;
上述具体的监控形式可以选择网络数据监控;网络数据监控即对于网上流动的数据,首先按事先设定的截获原则完成有效截取,然后对截获下的数据进行数据还原,最后对还原后的数据进行分析并作出某种控制决定;
加强网络监控的功能不仅需要减少网络监控系统的数据处理数量提高其处理的效率,而且由于监控的目标范围不同,其所要收集的网络通信中数据范围自然也就不同。
如图1所示,在抓取该遗漏的数据的过程中,同时需要对该数据属性进行分析,并与大数据内的数据进行对比,若该数据存在于大数据中,则进行后续步骤,若不存在与大数据中,则将数据添加到大数据中后,进行后续步骤。
上述利用评估模型,对数据评估后进行后续的二次分类,可对部分未知类的数据进行单独筛分,方便后续工作人员查找的同时,也能将其收录到大数据中,从而完善整个大数据存储体系;
同时采用数据监控的形式,能够抓取未被分类的数据,保证分类工作的顺利进行,从而提高整个分类作业的工作效率和准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种大数据存储用数据分类方法,其特征在于,包括如下步骤:
建立汇总模型,用于描述给定的数据集合;
对数据进行基础分类,得到已知类数据对象;
建立评估模型,用于对数据分类进行评估;
建立监控模块,对数据分类结果进行监控,并最终得到数据分类结果。
2.如权利要求1所述的一种大数据存储用数据分类方法,其特征在于:在所述建立汇总模型的过程中,通过分析由属性描述的数据集合来建立反映数据集合特性的模型。
3.如权利要求1所述的一种大数据存储用数据分类方法,其特征在于:在对数据进行基础分类的过程中,得到的单个已知类数据对象属于同属性下的数据集合。
4.如权利要求1所述的一种大数据存储用数据分类方法,其特征在于:在所述建立评估模型与建立监控模块之间的步骤中,具体为:
开始评估数据分类,判断数据分类是否精准;
若否,则仅能完成对已知类数据对象进行分类;
若是,则对已知类数据对象和未知类数据对象进行分类。
5.如权利要求4所述的一种大数据存储用数据分类方法,其特征在于:在判断数据分类是否精准的步骤中,评估数据精确的标准为:
该数据属性是否为大数据内所记录的数据属性,即为该数据属性是否能够存在于大数据中。
6.如权利要求1所述的一种大数据存储用数据分类方法,其特征在于:在所述建立监控模块中,对数据分类结果进行监控时,需要判断是否出现数据遗漏,
若是,则抓取该遗漏的数据,并添加到建立汇总模型与对数据进行基础分类之间的步骤中;
若否,则直接输出分类结果。
7.如权利要求6所述的一种大数据存储用数据分类方法,其特征在于:在抓取该遗漏的数据的过程中,同时需要对该数据属性进行分析,并与大数据内的数据进行对比,若该数据存在于大数据中,则进行后续步骤,若不存在与大数据中,则将数据添加到大数据中后,进行后续步骤。
CN202010880145.0A 2020-08-27 2020-08-27 一种大数据存储用数据分类方法 Pending CN112052241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010880145.0A CN112052241A (zh) 2020-08-27 2020-08-27 一种大数据存储用数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010880145.0A CN112052241A (zh) 2020-08-27 2020-08-27 一种大数据存储用数据分类方法

Publications (1)

Publication Number Publication Date
CN112052241A true CN112052241A (zh) 2020-12-08

Family

ID=73599529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010880145.0A Pending CN112052241A (zh) 2020-08-27 2020-08-27 一种大数据存储用数据分类方法

Country Status (1)

Country Link
CN (1) CN112052241A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443921A (zh) * 2022-02-09 2022-05-06 吉林农业科技学院 一种用于计算机大数据的高效处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN108763961A (zh) * 2018-06-04 2018-11-06 中国电子信息产业集团有限公司第六研究所 一种基于大数据的隐私数据分级方法和装置
CN110175655A (zh) * 2019-06-03 2019-08-27 中国科学技术大学 数据识别方法及装置、存储介质及电子设备
CN110458094A (zh) * 2019-08-09 2019-11-15 国家计算机网络与信息安全管理中心 基于指纹相似度的设备分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN108763961A (zh) * 2018-06-04 2018-11-06 中国电子信息产业集团有限公司第六研究所 一种基于大数据的隐私数据分级方法和装置
CN110175655A (zh) * 2019-06-03 2019-08-27 中国科学技术大学 数据识别方法及装置、存储介质及电子设备
CN110458094A (zh) * 2019-08-09 2019-11-15 国家计算机网络与信息安全管理中心 基于指纹相似度的设备分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443921A (zh) * 2022-02-09 2022-05-06 吉林农业科技学院 一种用于计算机大数据的高效处理方法及装置

Similar Documents

Publication Publication Date Title
CN106708815B (zh) 数据处理方法、装置和系统
CN107145445A (zh) 软件自动化测试的报错日志的自动分析方法和系统
CN111090776A (zh) 一种视频审核的方法、装置、审核服务器和存储介质
CN112036755A (zh) 一种建筑工程质量检测的监管方法及系统
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN113037567B (zh) 一种用于电网企业的网络攻击行为仿真系统的仿真方法
CN115511398B (zh) 一种基于时间敏感网络的焊接质量智能检测方法及系统
JP5370486B2 (ja) プログラム動作をフィルタリング・モニタリングするための方法とシステム
CN113409555B (zh) 一种基于物联网的实时报警联动方法及系统
CN105955876A (zh) 一种数据监控处理方法以及装置
CN109088903A (zh) 一种基于流式的网络异常流量检测方法
CN110493221A (zh) 一种基于聚簇轮廓的网络异常检测方法
CN112052241A (zh) 一种大数据存储用数据分类方法
KR100522464B1 (ko) 네트워크 트래픽 측정 시스템 및 방법과 그 프로그램을기록한 기록매체
CN111651760B (zh) 一种设备安全状态综合分析的方法及计算机可读存储介质
CN115391425A (zh) 一种基于属性传递的流程一致性检验方法与系统
CN111080325A (zh) 一种民航客户关系关系分析系统及方法
CN111898916A (zh) 一种煤炭产业链风险监控系统及其监控方法
CN116127300B (zh) 采煤机截割部负载识别方法、装置及计算机可读存储介质
Gong et al. MSTP Network Data Traffic Anomaly Optimization Detection Algorithm
CN117376022B (zh) 一种基于深度学习的检测未知网络攻击的异常检测系统
CN111314170B (zh) 一种基于连接统计规律分析的特征模糊p2p协议识别方法
CN110650506B (zh) 面向演进网络的人工智能乒乓切换原因定位方法及装置
CN110109968B (zh) 基于网络数据捕获的信号系统时序一致性分析方法
CN115204671A (zh) 一种基于大数据的上市公司年报分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201208

RJ01 Rejection of invention patent application after publication