CN113835877A - 一种基于大数据的远程数据信息存储系统 - Google Patents

一种基于大数据的远程数据信息存储系统 Download PDF

Info

Publication number
CN113835877A
CN113835877A CN202110955529.9A CN202110955529A CN113835877A CN 113835877 A CN113835877 A CN 113835877A CN 202110955529 A CN202110955529 A CN 202110955529A CN 113835877 A CN113835877 A CN 113835877A
Authority
CN
China
Prior art keywords
data
rules
storage
rule
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110955529.9A
Other languages
English (en)
Inventor
徐志广
樊斐
陈建
余法
邹清权
卓霞
梁明哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Engu Information Technology Co ltd
Original Assignee
Chongqing Engu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Engu Information Technology Co ltd filed Critical Chongqing Engu Information Technology Co ltd
Priority to CN202110955529.9A priority Critical patent/CN113835877A/zh
Publication of CN113835877A publication Critical patent/CN113835877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于大数据的远程数据信息存储系统,包括:总服务器,用于对整个系统的软硬件进行控制、调度;区服务器,作为总服务器的下一级,负责某一区域的数据采集、存储;数据采集装置,用于根据预先设计的数据采集规则采集数据;客户端通过访问接口,利用访问信息及权限模块授予的访问权限获取总服务器中数据库集群的数据;而总服务器采集访问信息,包括与数据相关的特征、规则信息,训练大数据模型,从而根据访问信息的频率、访问量、数据要求生成需要采集存储的数据规则,数据规则包括丢弃规则、筛选规则、分类规则,并根据分别更新现有的丢弃规则、筛选规则、分类规则,以使得最终采集、存储的数据更加贴近用户的实际需求。

Description

一种基于大数据的远程数据信息存储系统
技术领域
本发明涉及远程数据存储技术,特别是涉及一种基于大数据的远程数据信息存储系统。
背景技术
在远程数据采集存储的过程中,考虑到带宽、数据传输的问题,一般需要选择性采集,采集后根据需要选择存储,从而实现数据采集、存储尽量精准以降低对系统资源的消耗。
目前这类数据大多通过人为设置条件、阈值进行筛选,其算法简单,但是无法根据数据需求者的实际需求灵活调节需要采集、存储的数据。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于大数据的远程数据信息存储系统,其可以根据用户对数据的访问信息调节对数据的采集、存储条件。
为实现上述目的,本发明提供了一种基于大数据的远程数据信息存储系统,包括:
总服务器,用于对整个系统的软硬件进行控制、调度;
区服务器,作为总服务器的下一级,负责某一区域的数据采集、存储,包括缓冲器、存储系统,缓冲器用于将数据采集器送来的数据包快速缓存,等待后续存储系统分存储器进行存储;
数据采集装置,用于根据预先设计的数据采集规则采集数据,并按照要求将采集的数据按照分类规则预先粗略分类、将未分类的数据粗略关联筛选特征规则,再丢弃不需要的数据,最后将所有需要的数据生成数据包后发送至区服务器处理;
客户端通过访问接口,利用访问信息及权限模块授予的访问权限获取总服务器中数据库集群的数据;而总服务器采集访问信息,包括与数据相关的特征、规则信息,训练大数据模型,从而根据访问信息的频率、访问量、数据要求生成需要采集存储的数据规则,数据规则包括丢弃规则、筛选规则、分类规则,并根据分别更新现有的丢弃规则、筛选规则、分类规则,以使得最终采集、存储的数据更加贴近用户的实际需求。
优选地,总服务器包括:
权限模块,用于控制数据存储、访问权限,以及系统硬件资源的调用权限;
资源管理器,用于控制、调用整个系统的计算资源、存储资源;
数据库集群,用于将各个区服务器的数据库构成一个虚拟单一数据库逻辑映像,像单数据库系统那样,向客户端提供透明的数据服务。
优选地,区服务器接收到数据包并通过缓冲器缓存后会按照预先设定的存储规则形成存储队列,以进行排队存储,使存储系统依次将数据存储;
存储系统将可用的存储资源按照设备分别设为多个存储节点,每个存储节点对应至少一个存储器,而存储系统将一个或多个存储节点进行虚拟分区,每个区对应存储不同类型的数据,而每个区根据实际需要的容量进行容量自动调节;另外在数据的存储、筛选规则发生变化后,根据筛选数据的类型自动分区,以做到不同类型的数据分别存放在不同的虚拟区内,确保数据的快速存储及后续的快速读取。
优选地,存储规则默认按照先入先出原则,对于一些重要数据预先设置优先级,优先级的数据排在没有优先级的数据前,而优先级越高越排在前,以保证重要数据优先存储。
优选地,数据采集端根据粗略的分类规则对采集的数据进行分类,并生成相应的数据分类表;未分类的数据根据筛选规则中的筛选特征进行粗略的筛选、关联,并生成相应的特征索引表;对于需要明确丢弃的数据直接丢弃,但是要建立丢弃数据表,丢弃数据表包括数据的大小、来源、拟进行的分类或关联的特征;然后将分类数据及对应的数据分类表、非分类数据及特征索引表、丢弃数据表打包成数据包,并进行压缩、加密,最后发送至区服务器即可。
优选地,数据采集端将数据包发送至区服务器后,去服务器对数据包进行解密、解压,然后将数据分为上传数据、丢弃数据表;
上传数据为分类数据和非分类数据,上传数据进入分类器中,分类器按照分类规则对上传数据进行分类,以获得结构化数据、半结构化数据、非结构化数据,结构化数据优先存储在数据库内;而半结构化数据通过抽取规则抽取出一部分后存储在数据库内,另一部分分流至非结构化数据进行下一步处理;
非结构化数据通过筛选器按照筛选规则进行筛选,筛选通过的数据存储在元数据库内,而未通过的数据则作为二级数据按照先后顺序循环、覆盖存储在专门的分区内,对于覆盖的数据则做丢弃处理。
优选地,区服务器将丢弃数据表存储在丢弃数据表库中,然后将丢弃数据表进行融合,按照丢弃数据表的类目、特征获取丢弃数据的明细。
本发明的有益效果是:
本发明能够根据设计的规则直接在数据采集端丢弃一些不需要的数据,从而降低整个系统的数据传输压力,对于已经采集的数据再按照分类规则、筛选规则进行提取,从而可以有效地获取需要的数据。对于提取后的数据采用循环覆盖式存储,不仅能够为后续的再次提取提供条件,还能够避免存储资源的过度浪费。另外本发明通过用户的访问信息判断用户对数据的实际需求,结合大数据算法判断用户的具体数据要求,从而活动调整丢弃规则、筛选规则、分类规则,以使得最终采集、存储的数据更加贴近用户的实际需要,从而既满足用户需求又降低系统资源的占用。
附图说明
图1是本发明的原理框图。
图2是本发明采集、存储数据的原理框图。
图3是数据采集端采集数据的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参见图1,本实施例的远程数据信息存储系统,包括:
总服务器,用于对整个系统的软硬件进行控制、调度;
区服务器,作为总服务器的下一级,主要负责某一区域的数据采集、存储,包括缓冲器,用于将数据采集器送来的数据包快速缓存,等待后续存储系统分存储器进行存储;
数据采集装置,用于根据预先设计的数据采集规则采集数据,并按照要求将采集的数据按照分类规则预先粗略分类、将未分类的数据粗略关联筛选特征规则,再丢弃不需要的数据,最后将所有需要的数据生成数据包后发送至区服务器处理。
优选地,总服务器包括:
权限模块,用于控制数据存储、访问权限,以及系统硬件资源的调用权限;
资源管理器,用于控制、调用整个系统的计算资源、存储资源;
数据库集群,用于将各个区服务器的数据库构成一个虚拟单一数据库逻辑映像,像单数据库系统那样,向客户端提供透明的数据服务;客户端通过访问接口,利用访问信息及权限模块授予的访问权限获取数据库集群的数据;而总服务器采集访问信息,包括与数据相关的特征、规则信息,训练大数据模型,从而根据访问信息的频率、访问量、数据要求生成需要采集存储的数据规则,数据规则包括丢弃规则、筛选规则、分类规则,并根据分别更新现有的丢弃规则、筛选规则、分类规则,以使得最终采集、存储的数据更加贴近用户的实际需求。
优选地,区服务器接收到数据包并通过缓冲器缓存后会按照预先设定的存储规则形成存储队列,以进行排队,使后续的存储系统依次将数据存储。本实施例中存储规则默认按照先入先出原则,对于一些重要数据可以预先设置优先级,优先级的数据排在没有优先级的数据前,而优先级越高越排在前,以保证重要数据优先存储;
存储系统将可用的存储资源按照设备分别设为多个存储节点,每个存储节点对应至少一个存储器,而存储系统根据各个存储节点的容量、读写速度、稳定性等特性分别将一个或多个存储节点进行虚拟分区,每个区可以对应存储不同类型的数据,以使得后续写入、读取数据的速度更快,而每个区可以根据实际需要的容量进行容量自动调节,也就是将容量占用较小的区主动分配给容量紧缺的区;另外在数据的存储、筛选规则发生变化后,可以根据筛选数据的类型自动分区,以做到不同类型的数据分别存放在不同的虚拟区内,以确保数据的快速存储及后续的快速读取。
参见图3,在使用时,数据采集端根据粗略的分类规则对采集的数据进行分类,并生成相应的数据分类表;未分类的数据根据筛选规则中的筛选特征进行粗略的筛选、关联,并生成相应的特征索引表;对于需要明确丢弃的数据直接丢弃,但是要建立丢弃数据表,丢弃数据表包括数据的大小、来源、拟进行的分类或关联的特征等;然后将分类数据及对应的数据分类表、非分类数据及特征索引表、丢弃数据表打包成数据包,并进行压缩、加密,最后发送至区服务器即可。本实施例中,数据采集端的分类不用细分,为了降低对数据采集端资源的占用,一般采用大类进行分类,特征关联也只关联直观可见的特征,这主要时为了降低后续数据分类、筛选的计算量,因此在数据采集时进行了粗略分类,后续详细分类只需要在此基础上完善即可。
参见图2,数据采集端将数据包发送至区服务器后,去服务器对数据包进行解密、解压,然后将数据分为上传数据、丢弃数据表,区服务器将丢弃数据表存储在丢弃数据表库中,然后将丢弃数据表进行融合,按照丢弃数据表的类目、特征等获取丢弃数据的明细,以为后续需要重新获取相应数据时提供索引基础。
上传数据为分类数据和非分类数据,上传数据进入分类器中,分类器按照分类规则对上传数据进行分类,以获得结构化数据、半结构化数据、非结构化数据,结构化数据优先存储在数据库内;而半结构化数据通过抽取规则抽取出一部分后存储在数据库内,另一部分分流至非结构化数据进行下一步处理。抽取规则为预先设定,主要是根据系统的要求提取符合要求的数据。
非结构化数据通过筛选器按照筛选规则进行筛选,筛选通过的数据存储在元数据库内,而未通过的数据则作为二级数据按照先后顺序循环、覆盖存储在专门的分区内,对于覆盖的数据则做丢弃处理。二级数据主要是进行周期性存储,一旦客户端需要获取时,可以直接提取,但是这部分数据的价值不高,因此采用循环覆盖存储的方式,既能够尽量少地占用存储资源,又能够为后续可能的提取提供一定的保留时间。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种基于大数据的远程数据信息存储系统,其特征在于,包括:
总服务器,用于对整个系统的软硬件进行控制、调度;
区服务器,作为总服务器的下一级,负责某一区域的数据采集、存储,包括缓冲器、存储系统,缓冲器用于将数据采集器送来的数据包快速缓存,等待后续存储系统分存储器进行存储;
数据采集装置,用于根据预先设计的数据采集规则采集数据,并按照要求将采集的数据按照分类规则预先粗略分类、将未分类的数据粗略关联筛选特征规则,再丢弃不需要的数据,最后将所有需要的数据生成数据包后发送至区服务器处理;
客户端通过访问接口,利用访问信息及权限模块授予的访问权限获取总服务器中数据库集群的数据;而总服务器采集访问信息,包括与数据相关的特征、规则信息,训练大数据模型,从而根据访问信息的频率、访问量、数据要求生成需要采集存储的数据规则,数据规则包括丢弃规则、筛选规则、分类规则,并根据分别更新现有的丢弃规则、筛选规则、分类规则,以使得最终采集、存储的数据更加贴近用户的实际需求。
2.如权利要求1所述的远程数据信息存储系统,其特征在于,总服务器包括:
权限模块,用于控制数据存储、访问权限,以及系统硬件资源的调用权限;
资源管理器,用于控制、调用整个系统的计算资源、存储资源;
数据库集群,用于将各个区服务器的数据库构成一个虚拟单一数据库逻辑映像,像单数据库系统那样,向客户端提供透明的数据服务。
3.如权利要求1所述的远程数据信息存储系统,其特征在于,区服务器接收到数据包并通过缓冲器缓存后会按照预先设定的存储规则形成存储队列,以进行排队存储,使存储系统依次将数据存储;
存储系统将可用的存储资源按照设备分别设为多个存储节点,每个存储节点对应至少一个存储器,而存储系统将一个或多个存储节点进行虚拟分区,每个区对应存储不同类型的数据,而每个区根据实际需要的容量进行容量自动调节;另外在数据的存储、筛选规则发生变化后,根据筛选数据的类型自动分区,以做到不同类型的数据分别存放在不同的虚拟区内,确保数据的快速存储及后续的快速读取。
4.如权利要求3所述的远程数据信息存储系统,其特征在于,存储规则默认按照先入先出原则,对于一些重要数据预先设置优先级,优先级的数据排在没有优先级的数据前,而优先级越高越排在前,以保证重要数据优先存储。
5.如权利要求1所述的远程数据信息存储系统,其特征在于,数据采集端根据粗略的分类规则对采集的数据进行分类,并生成相应的数据分类表;未分类的数据根据筛选规则中的筛选特征进行粗略的筛选、关联,并生成相应的特征索引表;对于需要明确丢弃的数据直接丢弃,但是要建立丢弃数据表,丢弃数据表包括数据的大小、来源、拟进行的分类或关联的特征;然后将分类数据及对应的数据分类表、非分类数据及特征索引表、丢弃数据表打包成数据包,并进行压缩、加密,最后发送至区服务器即可。
6.如权利要求5所述的远程数据信息存储系统,其特征在于,数据采集端将数据包发送至区服务器后,去服务器对数据包进行解密、解压,然后将数据分为上传数据、丢弃数据表;
上传数据为分类数据和非分类数据,上传数据进入分类器中,分类器按照分类规则对上传数据进行分类,以获得结构化数据、半结构化数据、非结构化数据,结构化数据优先存储在数据库内;而半结构化数据通过抽取规则抽取出一部分后存储在数据库内,另一部分分流至非结构化数据进行下一步处理;
非结构化数据通过筛选器按照筛选规则进行筛选,筛选通过的数据存储在元数据库内,而未通过的数据则作为二级数据按照先后顺序循环、覆盖存储在专门的分区内,对于覆盖的数据则做丢弃处理。
7.如权利要求6所述的远程数据信息存储系统,其特征在于,区服务器将丢弃数据表存储在丢弃数据表库中,然后将丢弃数据表进行融合,按照丢弃数据表的类目、特征获取丢弃数据的明细。
CN202110955529.9A 2021-08-19 2021-08-19 一种基于大数据的远程数据信息存储系统 Pending CN113835877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110955529.9A CN113835877A (zh) 2021-08-19 2021-08-19 一种基于大数据的远程数据信息存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110955529.9A CN113835877A (zh) 2021-08-19 2021-08-19 一种基于大数据的远程数据信息存储系统

Publications (1)

Publication Number Publication Date
CN113835877A true CN113835877A (zh) 2021-12-24

Family

ID=78960912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110955529.9A Pending CN113835877A (zh) 2021-08-19 2021-08-19 一种基于大数据的远程数据信息存储系统

Country Status (1)

Country Link
CN (1) CN113835877A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857826A (zh) * 2022-12-27 2023-03-28 铭派技术开发有限公司 一种船舶工控软件数据存储显示系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494555A (zh) * 2008-12-15 2009-07-29 丽水电业局 一种处理千兆以上网络在线数据库行为的筛选方法及设备
EP2084864A1 (en) * 2006-10-24 2009-08-05 Medianet Innovations A/S Method and system for firewall friendly real-time communication
CN103888481A (zh) * 2014-04-21 2014-06-25 黑龙江中医药大学 一种局域网dhcp数据包过滤方法及系统
CN108769121A (zh) * 2018-04-24 2018-11-06 浙江正泰电器股份有限公司 智能工业装备物联网数据采集系统及采集数据的上传方法
CN111431821A (zh) * 2020-03-27 2020-07-17 国家计算机网络与信息安全管理中心江苏分中心 一种在网络大流量中快速检测与识别特定信息的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2084864A1 (en) * 2006-10-24 2009-08-05 Medianet Innovations A/S Method and system for firewall friendly real-time communication
CN101494555A (zh) * 2008-12-15 2009-07-29 丽水电业局 一种处理千兆以上网络在线数据库行为的筛选方法及设备
CN103888481A (zh) * 2014-04-21 2014-06-25 黑龙江中医药大学 一种局域网dhcp数据包过滤方法及系统
CN108769121A (zh) * 2018-04-24 2018-11-06 浙江正泰电器股份有限公司 智能工业装备物联网数据采集系统及采集数据的上传方法
CN111431821A (zh) * 2020-03-27 2020-07-17 国家计算机网络与信息安全管理中心江苏分中心 一种在网络大流量中快速检测与识别特定信息的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857826A (zh) * 2022-12-27 2023-03-28 铭派技术开发有限公司 一种船舶工控软件数据存储显示系统
CN115857826B (zh) * 2022-12-27 2023-09-22 铭派技术开发有限公司 一种船舶工控软件数据存储显示系统

Similar Documents

Publication Publication Date Title
US11587367B2 (en) Systems and methods for processing vehicle sensor data
US7274700B2 (en) Router providing differentiated quality of service (QoS) and fast internet protocol packet classifying method for the router
JP5863076B2 (ja) パケットを再構築し再順序付けするための方法、装置、およびシステム
KR101583325B1 (ko) 가상 패킷을 처리하는 네트워크 인터페이스 장치 및 그 방법
CN111510395B (zh) 业务消息上报方法、装置、设备及介质
US7372857B1 (en) Methods and apparatus for scheduling tasks
US5974465A (en) Method and apparatus for prioritizing the enqueueing of outbound data packets in a network device
US7948976B2 (en) Efficient management of queueing resources for switches
US7333502B2 (en) Services processor having a queue operations unit and an output scheduler
CN107659419A (zh) 网络切片方法和系统
WO2020125652A1 (zh) 报文转发方法、装置、网络设备及计算机可读介质
CN113836176A (zh) 一种云数据的信息集成服务系统
KR100942141B1 (ko) 복수 송/수신 채널을 갖는 케이블모뎀의 대역―할당 정보처리 장치 및 방법
CN113835877A (zh) 一种基于大数据的远程数据信息存储系统
CN114579657B (zh) 一种基于车路协同的v2x边缘云控方法及系统
CN110768829A (zh) 一种基于dpdk实现流量分析业务性能线性增长的方法
CN106878042A (zh) 基于sla的容器资源调度方法和系统
CN111522786A (zh) 日志处理系统及方法
CN112118125B (zh) 一种can报文高负荷率接收方法及系统
CN107085579A (zh) 一种数据采集分发方法及装置
US10951550B2 (en) Logging infrastructure with time sustain requirements
CN115665218B (zh) 一种物联网设备远程控制方法、系统及相关设备
CN114640630B (zh) 一种流量管控方法、装置、设备及可读存储介质
CN110297785A (zh) 一种基于fpga的金融数据流控装置和流控方法
CN113538081B (zh) 商城订单系统及其实现资源自适应调度的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination