CN112181920A - 一种车联网大数据高性能压缩存储方法及系统 - Google Patents
一种车联网大数据高性能压缩存储方法及系统 Download PDFInfo
- Publication number
- CN112181920A CN112181920A CN202011016191.2A CN202011016191A CN112181920A CN 112181920 A CN112181920 A CN 112181920A CN 202011016191 A CN202011016191 A CN 202011016191A CN 112181920 A CN112181920 A CN 112181920A
- Authority
- CN
- China
- Prior art keywords
- data
- internet
- memory
- vehicles
- txt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于车联网技术领域,涉及一种车联网大数据高性能压缩存储方法及系统,通过把车联网终端上报的数据经过多次不同格式转存后,最终进行结构化的压缩存储,极大化的减少了存储资源的开销,并且半结构化的存储使得后期的数据导出、监控和计算都变得简单起来,解决了在线车辆数量随时间为线性增长,而随着时间的推移,现有硬件已经无法满足存储的数据量迅速增长以及灵活快速检索的需求的问题。
Description
技术领域
本发明属于车联网技术领域,涉及一种车联网大数据高性能压缩存储方法及系统。
背景技术
车联网即车辆物联网,是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与车、车与人、车与路、车与服务平台之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,同时提高交通运行效率,提升社会交通服务的智能化水平。车联网通过新一代信息通信技术,实现车与云平台、车与车、车与路、车与人、车内等全方位网络链接,主要实现了“三网融合”,即将车内网、车际网和车载移动互联网进行融合。车联网是利用传感技术感知车辆的状态信息,并借助无线通信网络与现代智能信息处理技术实现交通的智能化管理,以及交通信息服务的智能决策和车辆的智能化控制。
车联网行业最大的特点就是,在线车辆数量随时间为线性增长。而随着时间的推移,需要存储的数据量对硬件的存储提出了极大的挑战,同时对数据的读取性能也有快速、灵活的性能要求。这就要求必须能够实现既可以高强度压缩存储,又可以高性能检索、过滤的存储方法。然而目前各大厂商存储和压缩均采用snappy。总所周知,Snappy是一个C++的用来压缩和解压缩的开发包。其目标不是最大限度压缩或者兼容其他压缩格式,而是旨在提供高速压缩速度和合理的压缩率。因而,目前的车联网数据存储无法满足日益增长的高强度压缩存储以及高性能检索、过滤的需求。因此急需一种新的高性能压缩方法。
发明内容
本发明解决技术问题所采取的技术方案是:一种车联网大数据高性能压缩存储方法,包括如下步骤:步骤一:将车联网终端上报的数据收集至缓冲数据;步骤二:将步骤一中收集的缓冲数据经过多线程消费写入到hdfs集群并以txt的明文格式存储;步骤三:将步骤二中得到的txt的明文格式存储的文件写入到新的hdfs集群并压缩为orc格式存储;步骤四:将步骤二中写入到hdfs集群以txt的明文格式存储文件删除。
优选的,所述步骤一中车联网终端上报的数据为kafka集群数据。
优选的,所述步骤三中采用zstd压缩算法压缩为orc格式。
优选的,所述步骤三中存储方式采用列存储,存储时内部自带索引,存储时数据号和数据时间作为独立的列存储。
优选的,所述步骤二中txt的明文格式存储的文件写入为周期性写入。
更优的,所述周期包括小时、天、周、月、年。
本发明还提供一种车联网大数据高性能压缩存储系统,包括车联网移动终端、车联网服务平台、缓冲数据存储器、txt存储器、orc存储器,车联网移动终端、缓冲数据存储器分别数据连接车联网服务平台,缓冲数据存储器依次数据连接txt存储器和orc存储器;车联网移动终端用于采集车辆信息;车联网服务平台用于接收来自于车辆的信息并将信息转发至缓冲数据存储器;缓冲数据存储器用于存储kafka中的无界流数据;txt存储器用于接收来自于缓冲数据存储器的转换为txt格式的数据;orc存储器用于接收来自于txt存储器的转换为orc格式的数据。
本发明的有益效果是:
1、本发明相比现有的存储方式,在相同数据量的前提下,可以为企业节省超过50%的服务器存储资源,也就是超过50%的财务支出,因此,本发明相对于现有技术极大地节约了车联网数据存储的成本。
2、本发明存储方式采用列存储,存储时内部自带索引,存储时数据号和数据时间作为独立的列存储,如此以来,数据后期检索调用可以直接根据数据号和数据时间进行检索索引,因而检索调用更加迅捷;因而本发明相比现有的存储方案,在相同数据量的前提下,数据后期的使用性能也大大提高了,由于采用单个文件的存储,使用的灵活性也提高了,因此,本发明相对与现有技术提高了后期数据检索及调用的效率。
附图说明
图1是一种车联网大数据高性能压缩存储方法及系统的流程图。
图2是设计原理图;
图3是现有技术与本发明压缩方式框架对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的相关技术进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1-3,一种车联网大数据高性能压缩存储方法,包括如下步骤:步骤一:将车联网终端上报的数据收集至缓冲数据;步骤二:将步骤一中收集的缓冲数据经过多线程消费写入到hdfs集群并以txt的明文格式存储;步骤三:将步骤二中得到的txt的明文格式存储的文件写入到新的hdfs集群并压缩为orc格式存储;步骤四:将步骤二中写入到hdfs集群以txt的明文格式存储文件删除。
进一步的,所述步骤一中车联网终端上报的数据为kafka集群数据。
进一步的,所述步骤三中采用zstd压缩算法压缩为orc格式。
进一步的,所述步骤三中存储方式采用列存储,存储时内部自带索引,存储时数据号和数据时间作为独立的列存储。
进一步的,所述步骤二中txt的明文格式存储的文件写入为周期性写入。
更进一步的,所述周期包括小时、天、周、月、年。
本发明还提供一种车联网大数据高性能压缩存储系统,包括车联网移动终端、车联网服务平台、缓冲数据存储器、txt存储器、orc存储器,车联网移动终端、缓冲数据存储器分别数据连接车联网服务平台,缓冲数据存储器依次数据连接txt存储器和orc存储器;车联网移动终端用于采集车辆信息;车联网服务平台用于接收来自于车辆的信息并将信息转发至缓冲数据存储器;缓冲数据存储器用于存储kafka中的无界流数据;txt存储器用于接收来自于缓冲数据存储器的转换为txt格式的数据;orc存储器用于接收来自于txt存储器的转换为orc格式的数据。
实施例
本实施例是基于kafka集群的缓冲数据,经过多线程消费写入到hdfs集群以txt的明文存储,该明文的存储只保存7天,是为了存储终端在T+7天内上报的补报数据,保证了数据的完整性;然后会被另外一个定时调度器压缩为orc格式的存储,同时还有一个定时调度器会删除7天前的明文数据。
因此,采用两种方式进行压缩对比,一种方式为现有技术中的将kafka集群的缓冲数据储存到hbase分布数据库,然后再使用EC2方式压缩。另一种方式采用本发明的先将kafka集群的缓冲数据储存到hdfs文件系统,先转换为txt格式的数据,然后再压缩为orc格式文件。两种方法的压缩结果如下表1:
表1
由表1可见:
Ec2的缺点:存储占用资源大、使用性能差、使用不方便、没法二次聚集(计算)。
Orc的优势:存储资源减少50%,使用支持主流的hive、spark、jdbc等方式,容易做二次计算。
实时数据,还是采用hbase,并不影响行车记录的检索,历史数据ec2是无法检索的,而orc不仅可以检索而且可以快速导出为excel。
不直接把kafka的数据压缩为orc存储的原因在于:首先,kafka中的数据是无界流,orc不能追加写(append=false),这个是由其内部设计决定的无法改变,所以采取明文按天写,最终一天内的明文形成一个orc文件;其次,车联网终端在没有网络的情况下,数据会延迟上报,就是所谓的补报数据。如果直接压缩,就会丢失大量的补报数据的存储。
综上所述,本发明提供了一种车联网大数据高性能压缩存储方法及系统,通过把车联网终端上报的数据经过多次转存后,最终进行结构化的存储,极大化的压缩了存储资源的开销,并且半结构化的存储使得后期的数据导出、监控和计算都变得简单起来。因此本发明拥有广泛的应用前景。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种车联网大数据高性能压缩存储方法,其特征在于,包括如下步骤:
步骤一:将车联网终端上报的数据收集至缓冲数据;
步骤二:将步骤一中收集的缓冲数据经过多线程消费写入到hdfs集群并以txt的明文格式存储;
步骤三:将步骤二中得到的txt的明文格式存储的文件写入到新的hdfs集群并压缩为orc格式存储;
步骤四:将步骤二中写入到hdfs集群以txt的明文格式存储文件删除。
2.根据权利要求1所述的一种车联网大数据高性能压缩存储方法,其特征在于,所述步骤一中车联网终端上报的数据为kafka集群数据。
3.根据权利要求1所述的一种车联网大数据高性能压缩存储方法,其特征在于,所述步骤三中采用zstd压缩算法压缩为orc格式。
4.根据权利要求1所述的一种车联网大数据高性能压缩存储方法,其特征在于,所述步骤三中存储方式采用列存储,存储时内部自带索引,存储时数据号和数据时间作为独立的列存储。
5.根据权利要求1所述的一种车联网大数据高性能压缩存储方法,其特征在于,所述步骤二中txt的明文格式存储的文件写入为周期性写入。
6.根据权利要求5所述的一种车联网大数据高性能压缩存储方法,其特征在于,所述周期包括小时、天、周、月、年。
7.一种车联网大数据高性能压缩存储系统,其特征在于,包括车联网移动终端、车联网服务平台、缓冲数据存储器、txt存储器、orc存储器,所述车联网移动终端、缓冲数据存储器分别数据连接所述车联网服务平台,所述缓冲数据存储器依次数据连接所述txt存储器和所述orc存储器;
所述车联网移动终端用于采集车辆信息;
所述车联网服务平台用于接收来自于车辆的信息并将信息转发至缓冲数据存储器;
所述缓冲数据存储器用于存储kafka中的无界流数据;
所述txt存储器用于接收来自于缓冲数据存储器的转换为txt格式的数据;
所述orc存储器用于接收来自于txt存储器的转换为orc格式的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011016191.2A CN112181920A (zh) | 2020-09-24 | 2020-09-24 | 一种车联网大数据高性能压缩存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011016191.2A CN112181920A (zh) | 2020-09-24 | 2020-09-24 | 一种车联网大数据高性能压缩存储方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112181920A true CN112181920A (zh) | 2021-01-05 |
Family
ID=73956593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011016191.2A Pending CN112181920A (zh) | 2020-09-24 | 2020-09-24 | 一种车联网大数据高性能压缩存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112181920A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221134A (zh) * | 2022-07-18 | 2022-10-21 | 陕西天行健车联网信息技术有限公司 | 一种车联网数据的分布式实时压缩方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256206A (zh) * | 2017-05-24 | 2017-10-17 | 北京京东尚科信息技术有限公司 | 字符流格式转换的方法和装置 |
CN110321329A (zh) * | 2019-06-18 | 2019-10-11 | 中盈优创资讯科技有限公司 | 基于大数据的数据处理方法及装置 |
CN111352897A (zh) * | 2020-03-02 | 2020-06-30 | 广东科徕尼智能科技有限公司 | 一种实时数据存储方法、设备、存储介质 |
-
2020
- 2020-09-24 CN CN202011016191.2A patent/CN112181920A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256206A (zh) * | 2017-05-24 | 2017-10-17 | 北京京东尚科信息技术有限公司 | 字符流格式转换的方法和装置 |
CN110321329A (zh) * | 2019-06-18 | 2019-10-11 | 中盈优创资讯科技有限公司 | 基于大数据的数据处理方法及装置 |
CN111352897A (zh) * | 2020-03-02 | 2020-06-30 | 广东科徕尼智能科技有限公司 | 一种实时数据存储方法、设备、存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221134A (zh) * | 2022-07-18 | 2022-10-21 | 陕西天行健车联网信息技术有限公司 | 一种车联网数据的分布式实时压缩方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102906751B (zh) | 一种数据存储、数据查询的方法及装置 | |
CN104462141B (zh) | 一种数据存储与查询的方法、系统及存储引擎装置 | |
CN101853287B (zh) | 数据压缩快速检索文件系统及其方法 | |
CN106033324B (zh) | 一种数据存储的方法和装置 | |
CN104486777B (zh) | 一种实现数据处理的方法及装置 | |
CN107317838A (zh) | 一种基于流式数据处理架构的天文元数据归档方法及系统 | |
CN102497450B (zh) | 一种基于两级体系的分布式数据压缩处理方法 | |
CN109408501A (zh) | 一种位置数据的处理方法、装置、服务器及存储介质 | |
CN107798062A (zh) | 一种变电站历史数据统一存储方法和系统 | |
CN112181920A (zh) | 一种车联网大数据高性能压缩存储方法及系统 | |
CN105871382B (zh) | 一种Micaps第四类格点数据无损压缩算法 | |
CN106844556A (zh) | 一种基于HBase的智能电网时标量测数据存储方法 | |
CN109471864A (zh) | 一种面向并行文件系统双层索引方法和系统 | |
CN110990340B (zh) | 一种大数据多层次存储架构 | |
CN105868365A (zh) | 一种基于Hadoop的传统网管数据处理方法 | |
CN110377757A (zh) | 一种实时知识图谱构建系统 | |
CN108196797B (zh) | 一种基于云计算的数据处理系统 | |
CN107436848B (zh) | 一种实现用户数据和压缩数据间转换的方法及装置 | |
CN105631000A (zh) | 基于移动终端位置特征信息的终端缓存的数据压缩方法 | |
CN101540689B (zh) | 一种自适应xml内容发布方法 | |
CN112597205A (zh) | 一种基于流及消息调度的实时数据计算及存储方法 | |
CN113947498A (zh) | 一种融合终端数据中心的数据存储与检索方法 | |
Waluyo et al. | Global index for multi channel data dissemination in mobile databases | |
Feng et al. | Edge node data classification method for power internet of things | |
CN114490525B (zh) | 基于hadoop远程超大非结构化文本文件解析出入库系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |