CN112306757A - 一种新型分布式大数据筛选过滤装置及方法 - Google Patents

一种新型分布式大数据筛选过滤装置及方法 Download PDF

Info

Publication number
CN112306757A
CN112306757A CN202011339055.7A CN202011339055A CN112306757A CN 112306757 A CN112306757 A CN 112306757A CN 202011339055 A CN202011339055 A CN 202011339055A CN 112306757 A CN112306757 A CN 112306757A
Authority
CN
China
Prior art keywords
data
module
screening
computer
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011339055.7A
Other languages
English (en)
Inventor
王碧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengyang Langmai Technology Co ltd
Original Assignee
Hengyang Langmai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengyang Langmai Technology Co ltd filed Critical Hengyang Langmai Technology Co ltd
Priority to CN202011339055.7A priority Critical patent/CN112306757A/zh
Publication of CN112306757A publication Critical patent/CN112306757A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种新型分布式大数据筛选过滤装置及方法,包括计算机,计算机的数据输出接口通过数据线穿过服务器外壳正面安装的数据接收端口电性连接,服务器外壳内部底端的四个边角处均固定安装有支撑柱,四个支撑柱的顶端分别与支撑板底端的四个边角处固定连接。本发明一种新型分布式大数据筛选过滤装置,通过在服务器的内部安装有数据备份模块,对输入的数据和清洗后的数据分别备份,避免数据丢失,影响数据的清洗,给公司带来损失,通过计算机与服务器电性连接,便于通过计算机将需要清洗的数据输入至服务内部进行筛选,同时将筛选后的数据通过计算机进行展示,通过服务器外壳两侧开设的散热窗,便于散出服务器在运行时产生的热量。

Description

一种新型分布式大数据筛选过滤装置及方法
技术领域
本发明涉及一种数据筛选过滤装置,特别涉及一种新型分布式大数据筛选过滤装置及方法。
背景技术
“大数据”是指以多元形式,许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4大特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据环境下数据量快速的积累,要想分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。而数据筛选在整个数据处理流程中处于至关重要的地位;数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。
现有的数据在筛选过程中没有对原始数据进行备份,容易造成数据在筛选过程中发生错误,造成数据丢失,从而影响数据筛选的继续进行,给使用者或企业带来严重的损失。
发明内容
本发明的目的在于提供一种新型分布式大数据筛选过滤装置及方法,以解决上述背景技术中提出的数据在筛选过程中没有对原始数据进行备份,容易造成数据在筛选过程中发生错误,造成数据丢失的问题。
为实现上述目的,本发明提供如下技术方案:一种新型分布式大数据筛选过滤装置,包括计算机,所述计算机的数据输出接口通过数据线穿过服务器外壳正面安装的数据接收端口电性连接,所述服务器外壳内部底端的四个边角处均固定安装有支撑柱,四个所述支撑柱的顶端分别与支撑板底端的四个边角处固定连接,所述支撑板的顶端固定安装有服务器,所述服务器内部分别设有数据存储模块、数据采集模块、数据清洗模块、数据筛选模块、数据输出模块和数据备份模块,所述数据存储模块分别与数据采集模块、计算机和数据备份模块电性连接,所述数据采集模块与数据清洗模块电性连接,所述数据清洗模块与数据筛选模块电性连接,所述数据筛选模块与数据输出模块电性连接,所述数据输出模块分别与计算机和数据备份模块电性连接,所述计算机和服务器均与外接电源电性连接。
作为本发明的一种优选技术方案,所述服务器外壳的两侧均开设有散热窗,两个所述散热窗的内部均固定安装有防尘网。
作为本发明的一种优选技术方案,所述服务器外壳底端的四个边角处均固定安装有支撑腿,四个所述支撑腿的底端均垫设有防潮垫。
作为本发明的一种优选技术方案,所述支撑板的顶端垫设有橡胶垫,所述橡胶垫的表面固定设有若干个均匀分布的凸起。
一种新型分布式大数据筛选过滤装置的方法,其特征在于:当需要使用该数据筛选过滤装置时,首先通过计算机控制开关打开计算机,接着通过计算机将需要筛选的数据导入至服务器内部安装的数据存储模块中,同时将导入至数据存储模块中的数据进行备份,避免原始数据丢失,接着通过服务器内部安装的数据采集模块从数据存储模块中采集需要筛选的数据,数据采集模块将采集的数据传送给数据清洗模块进行清洗,将包含的缺失数据、重复数据、异常数据和不一致数据进行清洗删除,接着数据清洗模块将清洗后的数据传送至数据筛选模块进行筛选,将筛选的数据送至数据备份模块再次进行备份,同时将筛选的数据传输至数据输出模块,通过数据输出模块传入至计算机中进行显示,数据在筛选的任何一个环节出现错误时,可以通过数据备份模块,将原始数据调出,进行重新数据筛选。
与现有技术相比,本发明的有益效果是:本发明一种新型分布式大数据筛选过滤装置,通过在服务器的内部安装有数据备份模块,对输入的数据和清洗后的数据分别备份,避免数据丢失,影响数据的清洗,给公司带来损失,通过计算机与服务器电性连接,便于通过计算机将需要清洗的数据输入至服务内部进行筛选,同时将筛选后的数据通过计算机进行展示,通过服务器外壳两侧开设的散热窗,便于散出服务器在运行时产生的热量。
附图说明
图1为本发明结构示意图;
图2为本发明的服务器外壳内部结构示意图;
图3为本发明的模块结构示意图。
图中:1、计算机;2、服务器外壳;3、数据接收端口;4、数据线;5、支撑柱;6、支撑板;7、服务器;8、数据存储模块;9、数据采集模块;10、数据清洗模块;11、数据筛选模块;12、数据输出模块;13、数据备份模块;14、散热窗。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供了一种新型分布式大数据筛选过滤装置,包括计算机1,计算机1的数据输出接口通过数据线4穿过服务器外壳2正面安装的数据接收端口3电性连接,服务器外壳2内部底端的四个边角处均固定安装有支撑柱5,四个支撑柱5的顶端分别与支撑板6底端的四个边角处固定连接,支撑板6的顶端固定安装有服务器7,服务器7内部分别设有数据存储模块8、数据采集模块9、数据清洗模块10、数据筛选模块11、数据输出模块12和数据备份模块13,数据存储模块8分别与数据采集模块9、计算机1和数据备份模块13电性连接,数据采集模块9与数据清洗模块10电性连接,数据清洗模块10与数据筛选模块11电性连接,数据筛选模块11与数据输出模块12电性连接,数据输出模块12分别与计算机1和数据备份模块13电性连接,计算机1和服务器7均与外接电源电性连接。
优选的,服务器外壳2的两侧均开设有散热窗14,两个散热窗14的内部均固定安装有防尘网,通过开设的散热窗14,便于将服务器7运行产生的热量散出。
优选的,服务器外壳2底端的四个边角处均固定安装有支撑腿,四个支撑腿的底端均垫设有防潮垫,通过垫设的防潮垫,避免水分进入服务器7内部,影响服务器7的运行。
优选的,支撑板6的顶端垫设有橡胶垫,橡胶垫的表面固定设有若干个均匀分布的凸起,通过垫设的橡胶垫,便于服务器7稳定。
具体使用时,本发明一种新型分布式大数据筛选过滤装置,当需要使用该数据筛选过滤装置时,首先通过计算机控制开关打开计算机1,接着通过计算机1将需要筛选的数据导入至服务器7内部安装的数据存储模块8中,同时将导入至数据存储模块8中的数据进行备份,避免原始数据丢失,接着通过服务器7内部安装的数据采集模块9从数据存储模块8中采集需要筛选的数据,数据采集模块9将采集的数据传送给数据清洗模块10进行清洗,将包含的缺失数据、重复数据、异常数据和不一致数据进行清洗删除,接着数据清洗模块10将清洗后的数据传送至数据筛选模块11进行筛选,将筛选的数据送至数据备份模块13再次进行备份,同时将筛选的数据传输至数据输出模块12,通过数据输出模块12传入至计算机1中进行显示,数据在筛选的任何一个环节出现错误时,可以通过数据备份模块13,将原始数据调出,进行重新数据筛选。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种新型分布式大数据筛选过滤装置,包括计算机(1),其特征在于,所述计算机(1)的数据输出接口通过数据线(4)穿过服务器外壳(2)正面安装的数据接收端口(3)电性连接,所述服务器外壳(2)内部底端的四个边角处均固定安装有支撑柱(5),四个所述支撑柱(5)的顶端分别与支撑板(6)底端的四个边角处固定连接,所述支撑板(6)的顶端固定安装有服务器(7),所述服务器(7)内部分别设有数据存储模块(8)、数据采集模块(9)、数据清洗模块(10)、数据筛选模块(11)、数据输出模块(12)和数据备份模块(13),所述数据存储模块(8)分别与数据采集模块(9)、计算机(1)和数据备份模块(13)电性连接,所述数据采集模块(9)与数据清洗模块(10)电性连接,所述数据清洗模块(10)与数据筛选模块(11)电性连接,所述数据筛选模块(11)与数据输出模块(12)电性连接,所述数据输出模块(12)分别与计算机(1)和数据备份模块(13)电性连接,所述计算机(1)和服务器(7)均与外接电源电性连接。
2.根据权利要求1所述的一种新型分布式大数据筛选过滤装置,其特征在于:所述服务器外壳(2)的两侧均开设有散热窗(14),两个所述散热窗(14)的内部均固定安装有防尘网。
3.根据权利要求1所述的一种新型分布式大数据筛选过滤装置,其特征在于:所述服务器外壳(2)底端的四个边角处均固定安装有支撑腿。
4.根据权利要求1所述的一种新型分布式大数据筛选过滤装置,其特征在于:所述支撑板(6)的顶端垫设有橡胶垫,所述橡胶垫的表面固定设有若干个均匀分布的凸起。
5.根据权利要求3所述的一种新型分布式大数据筛选过滤装置,其特征在于:四个所述支撑腿的底端均垫设有防潮垫。
6.一种新型分布式大数据筛选过滤装置的方法,其特征在于:当需要使用该数据筛选过滤装置时,首先通过计算机控制开关打开计算机(1),接着通过计算机(1)将需要筛选的数据导入至服务器(7)内部安装的数据存储模块(8)中,同时将导入至数据存储模块(8)中的数据进行备份,避免原始数据丢失,接着通过服务器(7)内部安装的数据采集模块(9)从数据存储模块(8)中采集需要筛选的数据,数据采集模块(9)将采集的数据传送给数据清洗模块(10)进行清洗,将包含的缺失数据、重复数据、异常数据和不一致数据进行清洗删除,接着数据清洗模块(10)将清洗后的数据传送至数据筛选模块(11)进行筛选,将筛选的数据送至数据备份模块(13)再次进行备份,同时将筛选的数据传输至数据输出模块(12),通过数据输出模块(12)传入至计算机(1)中进行显示,数据在筛选的任何一个环节出现错误时,可以通过数据备份模块(13),将原始数据调出,进行重新数据筛选。
CN202011339055.7A 2020-11-25 2020-11-25 一种新型分布式大数据筛选过滤装置及方法 Withdrawn CN112306757A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011339055.7A CN112306757A (zh) 2020-11-25 2020-11-25 一种新型分布式大数据筛选过滤装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011339055.7A CN112306757A (zh) 2020-11-25 2020-11-25 一种新型分布式大数据筛选过滤装置及方法

Publications (1)

Publication Number Publication Date
CN112306757A true CN112306757A (zh) 2021-02-02

Family

ID=74335770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011339055.7A Withdrawn CN112306757A (zh) 2020-11-25 2020-11-25 一种新型分布式大数据筛选过滤装置及方法

Country Status (1)

Country Link
CN (1) CN112306757A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242256A (zh) * 2021-05-26 2021-08-10 刘艳 一种数据采集智能处理终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491508A (zh) * 2018-03-22 2018-09-04 安徽八六物联科技有限公司 一种大数据清洗规范系统
CN209390542U (zh) * 2018-09-04 2019-09-13 云南电网有限责任公司信息中心 一种vga图像数据综合显示服务器
CN210627044U (zh) * 2019-07-09 2020-05-26 云南电网有限责任公司信息中心 一种数据库的数据处理服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491508A (zh) * 2018-03-22 2018-09-04 安徽八六物联科技有限公司 一种大数据清洗规范系统
CN209390542U (zh) * 2018-09-04 2019-09-13 云南电网有限责任公司信息中心 一种vga图像数据综合显示服务器
CN210627044U (zh) * 2019-07-09 2020-05-26 云南电网有限责任公司信息中心 一种数据库的数据处理服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242256A (zh) * 2021-05-26 2021-08-10 刘艳 一种数据采集智能处理终端
CN113242256B (zh) * 2021-05-26 2023-08-11 艾普科创(北京)控股有限公司 一种数据采集智能处理终端

Similar Documents

Publication Publication Date Title
US11240126B2 (en) Distributed tracing for application performance monitoring
Sacerdoti et al. Wide area cluster monitoring with ganglia
US20070150600A1 (en) Method and apparatus for collecting data for characterizing HTTP session workloads
US8406096B1 (en) Methods for predicting tape drive and media failures
US9099162B2 (en) Media and drive validation in tape libraries
JP6511438B2 (ja) 連続データストリームにおけるリレーションに対する値ベースのウィンドウ
US7636708B2 (en) Distributed data gathering and aggregation agent
US7603340B2 (en) Automatic workload repository battery of performance statistics
CN110413599A (zh) 数据实时处理与存储系统及方法
US8730778B2 (en) Data storage tape analytics method and system
JP5815563B2 (ja) eコマーストランザクションデータ会計のための方法およびシステム
US20080010497A1 (en) Selecting a Logging Method via Metadata
CN105490833A (zh) 一种信息系统的巡检系统与方法
CN108508990A (zh) 分布式云计算用存储模块化安装结构
US20180307735A1 (en) Integrating relational and non-relational databases
CN112306757A (zh) 一种新型分布式大数据筛选过滤装置及方法
US20090217103A1 (en) Logical to physical connectivity verification in a predefined networking environment
CN104104734A (zh) 日志分析方法和装置
Malony et al. An integrated performance data collection, analysis, and visualization system
Wiedemann et al. Towards I/O analysis of HPC systems and a generic architecture to collect access patterns
US10579506B2 (en) Real-time analytics of machine generated instrumentation data
US8028044B1 (en) Flexible storage planning
CN107948297A (zh) 适用于政务云的云管理系统
US20230031872A1 (en) Enhanced platform and processes for scalability
JP2005018751A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210202