CN114238388A - 一种基于多协议的异构数据收集及检索系统 - Google Patents
一种基于多协议的异构数据收集及检索系统 Download PDFInfo
- Publication number
- CN114238388A CN114238388A CN202111485879.XA CN202111485879A CN114238388A CN 114238388 A CN114238388 A CN 114238388A CN 202111485879 A CN202111485879 A CN 202111485879A CN 114238388 A CN114238388 A CN 114238388A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- service
- database
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/18—Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多协议的异构数据收集与检索系统,包括有数据采集前端代理模块、数据协议解析模块、数据存储模块、数据清洗模块、数据服务模块和数据业务模块,充分利用通信层不同协议转换技术、关系型和非关系型数据存储技术、数据建模技术来实现不同协议的数据收集治理并快速检索的方法,可以有效的避免数据源头多协议、数据资源碎片化以及数据检索效率低这些问题,还可以有效地避免数据存储资源庞大以及存储资源浪费的问题。
Description
技术领域
本发明涉及工业大数据技术领域,特别涉及一种基于多协议的异构数据收集及检索系统。
背景技术
社会经济的快速发展,信息化和工业化的技术不断发展创新,智能制造的理念被提出了,智能制造在工业领域引起了新一轮的工业革命。随着智能制造的发展以及互联网技术的发展,工业大数据作为贯穿整个产品生产的新的要素,在一定程度上推动了智能制造的升级。
大数据分析计算实现的常用手段是利用Spark、Flink等技术,数据湖把协议解析网关解析后的原始数据按照不同类别进行存储,在各数据池中可将数据清洗、计算、转化为统一的可直接检索的格式,这种方式具有极大的商业价值,对工业大数据有着极大贡献。
然而在实现这个流程的过程中,往往需要面对原始数据来源复杂,处理流程繁琐,对原始数据处理后需要庞大的存储资源来进行存储等一系列的问题,针对这些问题本申请提出了一种解决方案。
发明内容
发明目的:本发明的目的是提供一种基于多协议的异构数据收集及检索系统,能够有效的避免数据源头多协议、数据资源碎片化以及数据检索效率低的问题,还可以有效地避免数据存储资源庞大以及存储资源浪费的问题,并提供一整套的数据存储和检索服务。
技术方案:本发明所述的一种基于多协议的异构数据收集及检索系统,其特征在于:包括有数据采集前端代理模块、数据协议解析模块、数据存储模块、数据清洗模块、数据服务模块和数据业务模块;
所述数据采集前端代理模块用于完成多源头异构数据的采集,并进行接入到网关层或者直接和数据存储模块通信;
所述数据协议解析模块将采集端上传的标准协议转换成JSON报文后与数据存储模块进行数据交换;
所述数据存储模块包括分布式文件系统、非关系型数据库和关系型数据库,用于存储数据采集前端代理模块和数据协议解析模块传输过来的数据;
所述数据清洗模块用于批量或者实时清洗和计算存储在数据存储模块中的数据,并将治理后的数据按照用户的建模形成相应的数据检索库、数据持久库和内存计算库,存储在数据服务模块中;
所述数据服务模块包括分布式全文检索ES数据库、持久化数据库RDS、分布式内存型数据库(Redis、TSDB)三个部分;
所述数据业务模块在数据服务模块、数据存储模块、数据清洗模块、数据采集前端代理模块和数据协议解析模块的基础上用于为用户提供数据业务和分析服务,提供标准对外接口。
作为优选,所述数据采集前端代理模块采集的数据包括如下关键参数:数据的版本信息、认证信息、状态信息、来源、日志信息、采集时间、业务数据结构报文和警报异常信息;所述数据采集前端代理模块支持采集的数据协议有:Tcp、Http、Zigbee、三菱PLC、西门子PLC、欧姆龙PLC和Modbus。
作为优选,所述数据采集前端代理模块和数据协议解析模块实现数据提取及数据协议解析的步骤如下:
S3.1:多个数据采集前端代理模块分别部署在不同的设备前端或者数据源业务系统,设备前端对接数据协议解析模块中的协议转换网关服务,数据源业务系统直接和数据存储服务模块通信;
S3.2:采集到的数据通过采集前端代理模块后经过协议网关认证接入,按照相关对应标准协议报文转换为存储模块所能识别的JSON报文,并为报文打上标签,所述标签的信息包括:设备类型、数据来源、采集时间、数据结构信息以及状态位置信息;
S3.3:根据数据不同的数据来源、不同的数据类型分类、特殊的文件标签存储到数据存储服务模块中的分布式文件中心、非关系型数据库和关系型数据库;
S3.4:数据存储完后,按照用户的数据建模,进行数据抽取,清洗,计算;将业务数据信息与数据之间的关联关系信息存储在分布式全文检索ES数据库中。
作为优选,所述数据服务模块具备冷热数据的自动切换功能,具体的实施步骤如下:
S4.1:数据业务人员向数据服务模块发送数据业务请求,其中数据服务模块包括数据检索服务模块和数据分析服务模块;
S4.2:数据服务模块按照不同业务类型,将任务分发给不同的数据服务处理模块进行处理;
S4.3:数据服务处理模块完成数据相关业务处理后,将处理分析结果反馈给数据业务模块;
S4.4:数据服务处理模块记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间戳为当前时间戳;
S4.5:数据服务模块在启动时,启动定时检查冷热数据任务,该任务按照定时调度周期性工作的方式定时检测分布式全文检索数据库中的数据更新时间;
S4.6:如果是冷数据,将分布式内存数据库中的冷数据删除;如果是热数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、数据主键等信息检索出热点数据,并将热点数据转存到时序数据库,以供高性能方式检索。
作为优选,所述分布式全文检索ES数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据分析后的搜索类数据,所述分布式全文检索ES数据库的工作流程为:在用户进行高速计算类相关业务时,首先从分布式全文检索ES数据库中查询数据,当分布式全文检索ES数据库中有此类数据时,直接将数据合并反馈给用户;当分布式全文检索ES数据库中不存在数据时,数据服务模块会自动从数据存储持久层模块中检索相关数据,并将查询汇总好的数据存储在分布式全文检索ES数据库中,然后再反馈给用户。
作为优选,所述数据协议解析模块解析主流设备常用协议,并转换成标准化JSON序列化的报文,上报数据存储模块。
作为优选,所述数据业务模块用于为用户提供数据快速查询、数据分析、数据计算、数据可视化和数据画像的业务服务。
有益效果:本发明充分利用通信层不同协议转换技术、关系型和非关系型数据存储技术、数据建模技术来实现不同协议的数据收集治理并快速检索的方法,可以有效的避免数据源头多协议、数据资源碎片化以及数据检索效率低这些问题,还可以有效地避免数据存储资源庞大以及存储资源浪费的问题。
附图说明
图1是本发明中各个组成模块的数据交互示意图;
图2是本发明中业务数据处理流程图;
图3是本发明中数据服务模块的冷数据处理流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
如图1所示,是本发明中各个组成模块的数据交互示意图,本发明包括有数据采集前端代理模块、数据协议解析模块、数据存储模块、数据清洗模块、数据服务模块和数据业务模块;
数据采集前端代理模块用于完成多源头异构数据的采集,并进行接入到网关层或者直接和数据存储模块通信,其中采集的数据包括如下关键参数:数据的版本信息、认证信息、状态信息、来源、日志信息、采集时间、业务数据结构报文和警报异常信息;支持采集的数据协议有:Tcp、Http、Zigbee、三菱PLC、西门子PLC、欧姆龙PLC和Modbus;
数据协议解析模块解析主流设备常用协议,将采集端上传的标准协议转换成JSON报文后与数据存储模块进行数据交换;
数据存储模块包括分布式文件系统、非关系型数据库和关系型数据库,用于存储数据采集前端代理模块和数据协议解析模块传输过来的数据,采用大数据技术,提供时序数据库系统、非关系型数据库、关系型数据库存储能力,能够解决海量异构数据的存储问题,同时系统支持横向可扩展,纵向单体资源可升级的能力;
数据清洗模块用于批量或者实时清洗和计算存储在数据存储模块中的数据,并将治理后的数据按照用户的建模形成相应的数据检索库、数据持久库和内存计算库,存储在数据服务模块中;
数据服务模块包括分布式全文检索ES数据库、持久化数据库RDS、分布式内存型数据库(Redis、TSDB)三个部分,其中分布式全文检索ES数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据分析后的搜索类数据,分布式全文检索ES数据库的工作流程为:在用户进行高速计算类相关业务时,首先从分布式全文检索ES数据库中查询数据,当分布式全文检索ES数据库中有此类数据时,直接将数据合并反馈给用户;当分布式全文检索ES数据库中不存在数据时,数据服务模块会自动从数据存储持久层模块中检索相关数据,并将查询汇总好的数据存储在分布式全文检索ES数据库中,然后再反馈给用;
数据业务模块在数据服务模块、数据治理模块、数据存储模块、数据协议解析模块等模块的基础上用于为用户提供数据业务和分析服务,提供标准对外接口,如图2所示为本申请中业务数据处理流程图,为用户提供数据快速检索、数据分析、数据计算、数据画像等业务服务。便于数据用户方便快捷检索数据、分析数据、应用数据、管理数据。
在本申请中,数据采集前端代理模块和数据协议解析模块实现数据提取及数据协议解析的步骤如下:
S3.1:多个数据采集前端代理模块分别部署在不同的设备前端或者数据源业务系统,设备前端对接数据协议解析模块中的协议转换网关服务,数据源业务系统直接和数据存储服务模块通信;
S3.2:采集到的数据通过采集前端代理模块后经过协议网关认证接入,按照相关对应标准协议报文转换为存储模块所能识别的JSON报文,并为报文打上标签,所述标签的信息包括:设备类型、数据来源、采集时间、数据结构信息以及状态位置信息;
S3.3:根据数据不同的数据来源、不同的数据类型分类、特殊的文件标签存储到数据存储服务模块中的分布式文件中心、非关系型数据库和关系型数据库;
S3.4:数据存储完后,按照用户的数据建模,进行数据抽取,清洗,计算;将业务数据信息与数据之间的关联关系信息存储在分布式全文检索ES数据库中。
在本申请中,数据服务模块具备冷热数据的自动切换功能,具体的实施步骤如下:
S4.1:数据业务人员向数据服务模块发送数据业务请求,其中数据服务模块包括数据检索服务模块和数据分析服务模块;
S4.2:数据服务模块按照不同业务类型,将任务分发给不同的数据服务处理模块进行处理;
S4.3:数据服务处理模块完成数据相关业务处理后,将处理分析结果反馈给数据业务模块;
S4.4:数据服务处理模块记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间戳为当前时间戳;
S4.5:数据服务模块在启动时,启动定时检查冷热数据任务,该任务按照定时调度周期性工作的方式定时检测分布式全文检索数据库中的数据更新时间;
S4.6:如果是冷数据,将分布式内存数据库中的冷数据删除,如图3所示;如果是热数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、数据主键等信息检索出热点数据,并将热点数据转存到时序数据库,以供高性能方式检索。
Claims (7)
1.一种基于多协议的异构数据收集及检索系统,其特征在于:包括有数据采集前端代理模块、数据协议解析模块、数据存储模块、数据清洗模块、数据服务模块和数据业务模块;
所述数据采集前端代理模块用于完成多源头异构数据的采集,并进行接入到网关层或者直接和数据存储模块通信;
所述数据协议解析模块将采集端上传的标准协议转换成JSON报文后与数据存储模块进行数据交换;
所述数据存储模块包括分布式文件系统、非关系型数据库和关系型数据库,用于存储数据采集前端代理模块和数据协议解析模块传输过来的数据;
所述数据清洗模块用于批量或者实时清洗和计算存储在数据存储模块中的数据,并将治理后的数据按照用户的建模形成相应的数据检索库、数据持久库和内存计算库,存储在数据服务模块中;
所述数据服务模块包括分布式全文检索ES数据库、持久化数据库RDS、分布式内存型数据库(Redis、TSDB)三个部分;
所述数据业务模块在数据服务模块、数据存储模块、数据清洗模块、数据采集前端代理模块和数据协议解析模块的基础上用于为用户提供数据业务和分析服务,提供标准对外接口。
2.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述数据采集前端代理模块采集的数据包括如下关键参数:数据的版本信息、认证信息、状态信息、来源、日志信息、采集时间、业务数据结构报文和警报异常信息;所述数据采集前端代理模块支持采集的数据协议有:Tcp、Http、Zigbee、三菱PLC、西门子PLC、欧姆龙PLC和Modbus。
3.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述数据采集前端代理模块和数据协议解析模块实现数据提取及数据协议解析的步骤如下:
S3.1:多个数据采集前端代理模块分别部署在不同的设备前端或者数据源业务系统,设备前端对接数据协议解析模块中的协议转换网关服务,数据源业务系统直接和数据存储服务模块通信;
S3.2:采集到的数据通过采集前端代理模块后经过协议网关认证接入,按照相关对应标准协议报文转换为存储模块所能识别的JSON报文,并为报文打上标签,所述标签的信息包括:设备类型、数据来源、采集时间、数据结构信息以及状态位置信息;
S3.3:根据数据不同的数据来源、不同的数据类型分类、特殊的文件标签存储到数据存储服务模块中的分布式文件中心、非关系型数据库和关系型数据库;
S3.4:数据存储完后,按照用户的数据建模,进行数据抽取,清洗,计算;将业务数据信息与数据之间的关联关系信息存储在分布式全文检索ES数据库中。
4.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述数据服务模块具备冷热数据的自动切换功能,具体的实施步骤如下:
S4.1:数据业务人员向数据服务模块发送数据业务请求,其中数据服务模块包括数据检索服务模块和数据分析服务模块;
S4.2:数据服务模块按照不同业务类型,将任务分发给不同的数据服务处理模块进行处理;
S4.3:数据服务处理模块完成数据相关业务处理后,将处理分析结果反馈给数据业务模块;
S4.4:数据服务处理模块记录当前处理的数据,并更新分布式全文检索数据库中相应数据的数据更新时间戳为当前时间戳;
S4.5:数据服务模块在启动时,启动定时检查冷热数据任务,该任务按照定时调度周期性工作的方式定时检测分布式全文检索数据库中的数据更新时间;
S4.6:如果是冷数据,将分布式内存数据库中的冷数据删除;如果是热数据,则根据数据存储在分布式全文检索数据库中的数据关联关系、数据主键等信息检索出热点数据,并将热点数据转存到时序数据库,以供高性能方式检索。
5.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述分布式全文检索ES数据库中存储的是用户通过数据治理模块完成数据清洗、数据治理、数据分析后的搜索类数据,所述分布式全文检索ES数据库的工作流程为:在用户进行高速计算类相关业务时,首先从分布式全文检索ES数据库中查询数据,当分布式全文检索ES数据库中有此类数据时,直接将数据合并反馈给用户;当分布式全文检索ES数据库中不存在数据时,数据服务模块会自动从数据存储持久层模块中检索相关数据,并将查询汇总好的数据存储在分布式全文检索ES数据库中,然后再反馈给用户。
6.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述数据协议解析模块解析主流设备常用协议,并转换成标准化JSON序列化的报文,上报数据存储模块。
7.根据权利要求1所述的一种基于多协议的异构数据收集及检索系统,其特征在于:所述数据业务模块用于为用户提供数据快速查询、数据分析、数据计算、数据可视化和数据画像的业务服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485879.XA CN114238388A (zh) | 2021-12-07 | 2021-12-07 | 一种基于多协议的异构数据收集及检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485879.XA CN114238388A (zh) | 2021-12-07 | 2021-12-07 | 一种基于多协议的异构数据收集及检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238388A true CN114238388A (zh) | 2022-03-25 |
Family
ID=80753709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485879.XA Pending CN114238388A (zh) | 2021-12-07 | 2021-12-07 | 一种基于多协议的异构数据收集及检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238388A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115333967A (zh) * | 2022-10-11 | 2022-11-11 | 南京中孚信息技术有限公司 | 数据上报方法、系统、设备及存储介质 |
CN116303730A (zh) * | 2023-05-18 | 2023-06-23 | 安徽泛联信息科技有限公司 | 一种数据可视化平台用异步数据源连接系统 |
CN117520597A (zh) * | 2023-09-11 | 2024-02-06 | 北京国卫星通科技有限公司 | 惯导数据采集与分析系统的数据记录实现方法 |
CN117874114A (zh) * | 2024-01-11 | 2024-04-12 | 智参软件科技(上海)有限公司 | 一种多类型数据库上位访问方法及系统 |
-
2021
- 2021-12-07 CN CN202111485879.XA patent/CN114238388A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115333967A (zh) * | 2022-10-11 | 2022-11-11 | 南京中孚信息技术有限公司 | 数据上报方法、系统、设备及存储介质 |
CN116303730A (zh) * | 2023-05-18 | 2023-06-23 | 安徽泛联信息科技有限公司 | 一种数据可视化平台用异步数据源连接系统 |
CN117520597A (zh) * | 2023-09-11 | 2024-02-06 | 北京国卫星通科技有限公司 | 惯导数据采集与分析系统的数据记录实现方法 |
CN117520597B (zh) * | 2023-09-11 | 2024-04-26 | 北京国卫星通科技有限公司 | 惯导数据采集与分析系统的数据记录实现方法 |
CN117874114A (zh) * | 2024-01-11 | 2024-04-12 | 智参软件科技(上海)有限公司 | 一种多类型数据库上位访问方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114238388A (zh) | 一种基于多协议的异构数据收集及检索系统 | |
CN105045820B (zh) | 一种处理海量级数据的视频图像信息的方法及数据库系统 | |
CN107256219B (zh) | 应用于自动列车控制系统海量日志的大数据融合分析方法 | |
CN111460236A (zh) | 基于数据湖的大数据采集治理快速检索系统 | |
CN103942210A (zh) | 海量日志信息的处理方法、装置与系统 | |
CN105608144B (zh) | 一种基于多层模型迭代的大数据分析平台装置及方法 | |
CN105045932B (zh) | 一种基于降序存储的数据分页查询方法 | |
CN112231296B (zh) | 一种分布式日志处理方法、装置、系统、设备及介质 | |
CN106446085A (zh) | 一种大数据管理系统 | |
CN102200979A (zh) | 一种分布式并行信息检索系统及其方法 | |
CN102110109A (zh) | 一种数字报专题的制作方法及系统 | |
CN103995807A (zh) | 一种基于Web架构下海量数据查询和二次处理的方法 | |
CN102880854A (zh) | 基于分布式和哈希映射的室外海量物体识别方法和系统 | |
CN111104302A (zh) | 一种用于集群系统的改进elk日志分析方法 | |
CN115391444A (zh) | 一种异构数据采集与交互方法、装置、设备及存储介质 | |
CN106250406A (zh) | 一种日志处理方法 | |
CN109189873A (zh) | 一种气象服务大数据监测分析系统平台 | |
CN117472682A (zh) | 一种ftp持久化数据处理方法及系统 | |
CN111209314A (zh) | 一种电力信息系统海量日志数据实时处理系统 | |
CN111552683A (zh) | 一种基于大数据的水务数据信息管理方法及装置 | |
CN109165203A (zh) | 基于Hadoop架构的大型公共建筑能耗数据存储分析方法 | |
CN115081679A (zh) | 基于cdc的工业数据动态变化自动感知处理系统 | |
CN110990430A (zh) | 一种大规模数据并行处理系统 | |
CN105843724A (zh) | 一种it系统监测状态指标压缩分析方法 | |
CN110765173A (zh) | 一种大数据环境下的数据管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |