CN116894016A - 轨道交通信号的日志压缩方法及装置 - Google Patents
轨道交通信号的日志压缩方法及装置 Download PDFInfo
- Publication number
- CN116894016A CN116894016A CN202310712201.3A CN202310712201A CN116894016A CN 116894016 A CN116894016 A CN 116894016A CN 202310712201 A CN202310712201 A CN 202310712201A CN 116894016 A CN116894016 A CN 116894016A
- Authority
- CN
- China
- Prior art keywords
- dynamic dictionary
- log
- target dynamic
- index value
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 66
- 230000006835 compression Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000000470 constituent Substances 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种轨道交通信号的日志压缩方法及装置。其中,该方法包括:获取轨道交通信号的日志文件;从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。通过本发明,解决了相关技术轨道交通信号的日志文件的压缩效率低的技术问题,提高了轨道交通信号的日志文件的压缩效率和压缩速度,也减少了压缩文件的数据量。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种轨道交通信号的日志压缩方法及装置。
背景技术
相关技术中,日志功能是城市轨道交通信号系统的一项重要功能,在产品开发和运营的过程中,由于不能实时观察信号系统的运行系统,当发生问题或调试过程中,想找到原因只能通过所存储的日志来分析解决,但由于信号系统为嵌入式软件,存储介质空间通常受到严格的限制,因此无法存储大量的系统日志,这给系统问题的分析和定位带来了巨大的挑战,因此,如何在有限的存储介质中提升存储的系统日志内容具有重要意义。
相关技术中,在日志压缩方面,存在着多种压缩方法,但这些方法对于城市轨道交通信号系统日志的压缩效果并不理想。对于城市轨道交通信号系统日志压缩采用的大多为传统的文本压缩方法,如LL77、LZ78等,其都是基于以单个字符为单位进行处理的,其文本被认为是由一个个杂乱无章的、彼此间没有相关性的单一字符组成字符序列,其每次只读取一个字符,并用这个字符去做相应的词典匹配搜索,导致压缩效率低下。
针对相关技术中存在的上述问题,暂未发现有效的解决方案。
发明内容
本发明提供了一种轨道交通信号的日志压缩方法及装置。
根据本申请实施例的一个方面,提供了一种轨道交通信号的日志压缩方法,所述方法包括:获取轨道交通信号的日志文件;从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
进一步,加载所述日志文件的目标动态词典包括:在初始词典中加载ASCII码及标点表,得到第一动态词典;在所述第一动态词典中加载高频单词集合,得到所述目标动态词典,并在压缩文件的首字节中记录所述目标动态词典的词典标识。
进一步,在所述第一动态词典中加载高频单词集合,得到所述目标动态词典包括:解析所述日志文件的源信号系统的系统类型,其中,所述源信号系统是所述日志文件的生成系统;在高频单词库中查找与所述系统类型匹配的高频单词集合,在所述第一动态词典中加载高频单词集合,其中,每个系统类型对应一个高频单词集合。
进一步,采用所述目标动态词典对所述日志短语进行压缩,输出所述日志短语的压缩文件包括:读取所述目标动态词典中的初始字符串,其中,所述初始字符串包括第一字符串变量和第二字符串变量,所述第一字符串变量为所述第二字符串变量的前置;将所述日志短语赋值至所述初始字符串中的第二字符串变量,以将所述初始字符串转换为组合字符串;采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典;根据所述目标索引值对所述日志短语进行压缩编码,直到所述日志文件中的所有日志短语压缩完毕,输出所述日志文件的压缩文件。
进一步,采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典包括:在所述目标动态词典中搜索所述组合字符串的第一索引值;判断所述目标动态词典是否存在所述组合字符串的第一索引值;若所述目标动态词典存在所述组合字符串的第一索引值,将所述第一索引值输出为目标索引值,令所述组合字符串为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
进一步,在判断所述目标动态词典是否存在所述组合字符串的第一索引值之后,所述方法还包括:若所述目标动态词典不存在所述组合字符串的第一索引值,判断所述目标动态词典是否存在所述第二字符串变量的第二索引值;若所述目标动态词典存在所述第二字符串变量的第二索引值,将所述第二索引值输出为目标索引值,将所述组合字符串添加至所述目标动态词典,令所述第二字符串变量为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
进一步,在判断所述目标动态词典是否存在所述第二字符串变量的第二索引值之后,所述方法还包括:若所述目标动态词典不存在所述第二字符串变量的第二索引值,将所述第二字符串变量拆分为若干个单字符,在所述目标动态词典搜索每个单字符的第三索引值,将所述第三索引值输出为目标索引值,将所述第二字符串变量添加至所述目标动态词典。
根据本申请实施例的另一个方面,还提供了一种轨道交通信号的日志压缩装置,包括:获取模块,用于获取轨道交通信号的日志文件;读取模块,用于从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;加载模块,用于加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;压缩模块,用于采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
进一步,所述加载模块包括:第一加载单元,用于在初始词典中加载ASCII码及标点表,得到第一动态词典;第二加载单元,用于在所述第一动态词典中加载高频单词集合,得到所述目标动态词典,并在压缩文件的首字节中记录所述目标动态词典的词典标识。
进一步,所述第二加载单元包括:解析子单元,用于解析所述日志文件的源信号系统的系统类型,其中,所述源信号系统是所述日志文件的生成系统;加载子单元,用于在高频单词库中查找与所述系统类型匹配的高频单词集合,在所述第一动态词典中加载高频单词集合,其中,每个系统类型对应一个高频单词集合。
进一步,所述压缩模块包括:读取单元,用于读取所述目标动态词典中的初始字符串,其中,所述初始字符串包括第一字符串变量和第二字符串变量,所述第一字符串变量为所述第二字符串变量的前置;赋值单元,用于将所述日志短语赋值至所述初始字符串中的第二字符串变量,以将所述初始字符串转换为组合字符串;处理单元,用于采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典;压缩单元,用于根据所述目标索引值对所述日志短语进行压缩编码,直到所述日志文件中的所有日志短语压缩完毕,输出所述日志文件的压缩文件。
进一步,所述处理单元包括:搜索子单元,用于在所述目标动态词典中搜索所述组合字符串的第一索引值;第一判断子单元,用于判断所述目标动态词典是否存在所述组合字符串的第一索引值;第一处理子单元,用于若所述目标动态词典存在所述组合字符串的第一索引值,将所述第一索引值输出为目标索引值,令所述组合字符串为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
进一步,所述处理单元还包括:第二判断子单元,用于在所述第一判断子单元判断所述目标动态词典是否存在所述组合字符串的第一索引值之后,若所述目标动态词典不存在所述组合字符串的第一索引值,判断所述目标动态词典是否存在所述第二字符串变量的第二索引值;第二处理子单元,用于若所述目标动态词典存在所述第二字符串变量的第二索引值,将所述第二索引值输出为目标索引值,将所述组合字符串添加至所述目标动态词典,令所述第二字符串变量为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
进一步,所述处理单元还包括:第三处理子单元,用于在所述第二判断子单元判断所述目标动态词典是否存在所述第二字符串变量的第二索引值之后,若所述目标动态词典不存在所述第二字符串变量的第二索引值,将所述第二字符串变量拆分为若干个单字符,在所述目标动态词典搜索每个单字符的第三索引值,将所述第三索引值输出为目标索引值,将所述第二字符串变量添加至所述目标动态词典。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,获取轨道交通信号的日志文件,从日志文件中读取日志短语,其中,日志短语的最小组成单位为单词,加载日志文件的目标动态词典,其中,动态词典包括多个单词的索引值,采用目标动态词典对日志短语进行压缩,输出日志文件的压缩文件,通过将日志文件中的日志短语作为被压缩的最小数据,每次压缩时取一个单词,提高了对轨道交通信号系统相关性的适配性,提高了算法的压缩效率,匹配城市轨道交通信号系统日志的特点,解决了相关技术轨道交通信号的日志文件的压缩效率低的技术问题,提高了轨道交通信号的日志文件的压缩效率和压缩速度,也减少了压缩文件的数据量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种计算机的硬件结构框图;
图2是根据本发明实施例的一种轨道交通信号的日志压缩方法的流程图;
图3是本发明实施例的压缩流程图;
图4是根据本发明实施例的一种轨道交通信号的日志压缩装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在存储器、服务器、计算机、平板或者类似的处理装置中执行。以运行在计算机上为例,图1是本发明实施例的一种计算机的硬件结构框图。如图1所示,计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成限定。例如,计算机还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种轨道交通信号的日志压缩方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种轨道交通信号的日志压缩方法,图2是根据本发明实施例的一种轨道交通信号的日志压缩方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取轨道交通信号的日志文件;
本实施例的轨道交通信号可以是地铁,火车等车辆的交通信号系统产生的运行信号,故障检测信号等。
步骤S204,从日志文件中读取日志短语,其中,日志短语的最小组成单位为单词;
本实施例的日志短语是一个单词或一个标点符号组成,每次压缩时取一个单词,由于日志短语是一个单词(单词包括多个字符),而不是一个字符,这个单词可以是英文单词,也可以是标点符号。
本实施例的轨道交通信号的日志文件的文本的组成单位(单词)并不是杂乱无章、毫无关联的单一字符的序列。这种情况下,传统压缩算法暴露出对多字符词汇的相关性适应速度慢,对相关性的合理利用能力低的弱点,直接导致了算法的压缩效率下降,基于此,本申请的压缩算法以日志文件中的单词作为被压缩的最小单位。
步骤S206,加载日志文件的目标动态词典,其中,动态词典包括多个单词的索引值;
本实施例的动态词典是在压缩过程中动态更新的词典,可以通过键值对(key-value)进行存储,分别对应日志短语和索引值。
步骤S208,采用目标动态词典对日志短语进行压缩,输出日志文件的压缩文件。
通过上述步骤,获取轨道交通信号的日志文件,从日志文件中读取日志短语,其中,日志短语的最小组成单位为单词,加载日志文件的目标动态词典,其中,动态词典包括多个单词的索引值,采用目标动态词典对日志短语进行压缩,输出日志文件的压缩文件,通过将日志文件中的日志短语作为被压缩的最小数据,每次压缩时取一个单词,提高了对轨道交通信号系统相关性的适配性,提高了算法的压缩效率,匹配城市轨道交通信号系统日志的特点,解决了相关技术轨道交通信号的日志文件的压缩效率低的技术问题,提高了轨道交通信号的日志文件的压缩效率和压缩速度,也减少了压缩文件的数据量。
在本实施例的一个实施方式中,加载日志文件的目标动态词典包括:
S11,在初始词典中加载ASCII码及标点表,得到第一动态词典;
S12,在第一动态词典中加载高频单词集合,得到目标动态词典,并在压缩文件的首字节中记录目标动态词典的词典标识。
可选的,在第一动态词典中加载高频单词集合,得到目标动态词典包括:解析日志文件的源信号系统的系统类型,其中,源信号系统是日志文件的生成系统;在高频单词库中查找与系统类型匹配的高频单词集合,在第一动态词典中加载高频单词集合,其中,每个系统类型对应一个高频单词集合。
本实施例的方案引入基于单词模式的取词方式的策略,并建立动态词典模型,进行压缩处理。在英文文本中所有的可见字符一共分为两类:一类是所有可以组成单词的字符集合,称为字母表;另一类是除了字母表中的字符以外的字符的集合,称为标点表。字母表中包含了所有大、小写的26个英文字母、0~9十个数码。标点表中包括了字符所组成的标点符号,这些标点符号是文本中单词与单词之间的分隔符而存在的。信号系统的日志每次读入的日志短语是一个单词或一个标点符号组成。
轨道交通信号的系统中常用单词词典英文文本中有很多高频单词如:tiain、speed等,使用的频率非常高,为了确保第一时间能使压缩算法直接利用此类常用单词的索引值作为压缩代码输出,在初始化基于单词的压缩算法的词典时,除了载入LZ算法中ASCII码的之外,再载入一个提前生成好了的常用信号系统单词词典,并对这些单词进行编码,每一个单词在词典中都有对应的索引值。备有这样一个常用单词词典,压缩算法在处理某个文件输入流中即使是第一次遇到某个常用的单词,它也可以直接从动态词典中搜索到这个单词的索引值,并直接输出。构造常用词典时,本实施例考虑尽可能多地覆盖信号系统中互不相同的常用单词,以达到通用的目的;载入选定的常用词典后,压缩进程在压缩文件的第一个字节中记录所选用词典的代号;解压缩时解压缩进程自动提取选用词典的代号,并载入相应词典。
在本实施例中,采用目标动态词典对日志短语进行压缩,输出日志短语的压缩文件包括:
S21,读取目标动态词典中的初始字符串,其中,初始字符串包括第一字符串变量和第二字符串变量,第一字符串变量为第二字符串变量的前置;
本实施例基于单词模式的日志压缩算法由初始化阶段和循环编码阶段两部分组成。其中初始化阶段包括:向空的动态词典中载入256个ASCII码及标点表;动态词典中载入信号系统高频单词词典,并向压缩文件中输出一个字节的词典代号,以适配不同信号系统的压缩;定义两个字符串变量W(对应第一字符串变量)和W’(对应第二字符串变量),其中W为W’的前置,置W为空。
S22,将日志短语赋值至初始字符串中的第二字符串变量,以将初始字符串转换为组合字符串;
S23,采用目标动态词典输出组合字符串的目标索引值,并动态更新目标动态词典;
在一个示例中,采用目标动态词典输出组合字符串的目标索引值,并动态更新目标动态词典包括:在目标动态词典中搜索组合字符串的第一索引值;判断目标动态词典是否存在组合字符串的第一索引值;若目标动态词典存在组合字符串的第一索引值,将第一索引值输出为目标索引值,令组合字符串为第一字符串变量,并采用更新后的第一字符串变量更新目标动态词典中的初始字符串。
在另一个示例中,在判断目标动态词典是否存在组合字符串的第一索引值之后,还包括:若目标动态词典不存在组合字符串的第一索引值,判断目标动态词典是否存在第二字符串变量的第二索引值;若目标动态词典存在第二字符串变量的第二索引值,将第二索引值输出为目标索引值,将组合字符串添加至目标动态词典,令第二字符串变量为第一字符串变量,并采用更新后的第一字符串变量更新目标动态词典中的初始字符串。
在另一些示例中,在判断目标动态词典是否存在第二字符串变量的第二索引值之后,还包括:若目标动态词典不存在第二字符串变量的第二索引值,将第二字符串变量拆分为若干个单字符,在目标动态词典搜索每个单字符的第三索引值,将第三索引值输出为目标索引值,将第二字符串变量添加至目标动态词典。
S24,根据目标索引值对日志短语进行压缩编码,直到日志文件中的所有日志短语压缩完毕,输出日志文件的压缩文件。
图3是本发明实施例的压缩流程图,在压缩过程中,包括:
1),从日志文件输入流中读入一个短语,赋给W’;
2),在动态词典中搜索组合字符串WW’:如果WW’在词典中,则令WW’为W,用于下一次压缩循环的前置W,并根据动态词典中的单词索引值进行压缩编码,转入5);如果WW’不在词典中,转入3);
3),输出字符串W在词典中的索引值;
4),搜索字符串W’是否在词典中:如果W’在词典中,将字符串WW’加入动态词典,令W’为W,用于下一次压缩循环的前置W,转入5);如果W’不在词典中,则将字符串W’中的每一个字符都按照该字符在词典中的索引值(如该字符的ASCII码值)在压缩文件中输出,然后将字符串W’加入动态词典,最后字符串W置为空,转入5);
5),判断是否已经压缩完毕,若是,结束循环编码阶段;若否,返回1);
在上述流程的步骤中,在1)中从输入流中读入的是一个单词,而不是一个字符。这个单词可以是一个单词也可以是一个标点。其次是在4),在输出前导字符串W的索引值之后,不是直接将字符串WW’加入词典,并另W’为W,而是要判断W’是否在动态词典中,如果W’不在动态词典中,那就说明W’不是一个常用单词,并且在该压缩过程中还是第一次碰到,所以要将此陌生单词按照未压缩的形式输出到压缩文件中去。以保证在3)中输出的字符串W都是已存在于动态词典中的。
本实施例以信号系统中日志中大量重复的单词和数据为出发点,采用了一种基于单词模式的数据压缩方法,基于单词模式的设计策略,并建立动态词典模型,进行压缩处理。结合了城市轨道交通信号系统日志的特点,即信号系统的日志每次读入的短语将会是一个单词或一个标点符号组成,每次压缩时取一个单词,提高对信号系统相关性的适配性,提高算法的压缩效率,匹配城市轨道交通信号系统日志的特点。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种轨道交通信号的日志压缩装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种轨道交通信号的日志压缩装置的结构框图,如图4所示,该装置包括:获取模块40,读取模块42,加载模块44,压缩模块46,其中,
获取模块40,用于获取轨道交通信号的日志文件;
读取模块42,用于从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;
加载模块44,用于加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;
压缩模块46,用于采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
可选的,所述加载模块包括:第一加载单元,用于在初始词典中加载ASCII码及标点表,得到第一动态词典;第二加载单元,用于在所述第一动态词典中加载高频单词集合,得到所述目标动态词典,并在压缩文件的首字节中记录所述目标动态词典的词典标识。
可选的,所述第二加载单元包括:解析子单元,用于解析所述日志文件的源信号系统的系统类型,其中,所述源信号系统是所述日志文件的生成系统;加载子单元,用于在高频单词库中查找与所述系统类型匹配的高频单词集合,在所述第一动态词典中加载高频单词集合,其中,每个系统类型对应一个高频单词集合。
可选的,所述压缩模块包括:读取单元,用于读取所述目标动态词典中的初始字符串,其中,所述初始字符串包括第一字符串变量和第二字符串变量,所述第一字符串变量为所述第二字符串变量的前置;赋值单元,用于将所述日志短语赋值至所述初始字符串中的第二字符串变量,以将所述初始字符串转换为组合字符串;处理单元,用于采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典;压缩单元,用于根据所述目标索引值对所述日志短语进行压缩编码,直到所述日志文件中的所有日志短语压缩完毕,输出所述日志文件的压缩文件。
可选的,所述处理单元包括:搜索子单元,用于在所述目标动态词典中搜索所述组合字符串的第一索引值;第一判断子单元,用于判断所述目标动态词典是否存在所述组合字符串的第一索引值;第一处理子单元,用于若所述目标动态词典存在所述组合字符串的第一索引值,将所述第一索引值输出为目标索引值,令所述组合字符串为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
可选的,所述处理单元还包括:第二判断子单元,用于在所述第一判断子单元判断所述目标动态词典是否存在所述组合字符串的第一索引值之后,若所述目标动态词典不存在所述组合字符串的第一索引值,判断所述目标动态词典是否存在所述第二字符串变量的第二索引值;第二处理子单元,用于若所述目标动态词典存在所述第二字符串变量的第二索引值,将所述第二索引值输出为目标索引值,将所述组合字符串添加至所述目标动态词典,令所述第二字符串变量为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
可选的,所述处理单元还包括:第三处理子单元,用于在所述第二判断子单元判断所述目标动态词典是否存在所述第二字符串变量的第二索引值之后,若所述目标动态词典不存在所述第二字符串变量的第二索引值,将所述第二字符串变量拆分为若干个单字符,在所述目标动态词典搜索每个单字符的第三索引值,将所述第三索引值输出为目标索引值,将所述第二字符串变量添加至所述目标动态词典。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取轨道交通信号的日志文件;
S2,从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;
S3,加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;
S4,采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取轨道交通信号的日志文件;
S2,从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;
S3,加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;
S4,采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种轨道交通信号的日志压缩方法,其特征在于,所述方法包括:
获取轨道交通信号的日志文件;
从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;
加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;
采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
2.根据权利要求1所述的方法,其特征在于,加载所述日志文件的目标动态词典包括:
在初始词典中加载ASCII码及标点表,得到第一动态词典;
在所述第一动态词典中加载高频单词集合,得到所述目标动态词典,并在压缩文件的首字节中记录所述目标动态词典的词典标识。
3.根据权利要求2所述的方法,其特征在于,在所述第一动态词典中加载高频单词集合,得到所述目标动态词典包括:
解析所述日志文件的源信号系统的系统类型,其中,所述源信号系统是所述日志文件的生成系统;
在高频单词库中查找与所述系统类型匹配的高频单词集合,在所述第一动态词典中加载高频单词集合,其中,每个系统类型对应一个高频单词集合。
4.根据权利要求1所述的方法,其特征在于,采用所述目标动态词典对所述日志短语进行压缩,输出所述日志短语的压缩文件包括:
读取所述目标动态词典中的初始字符串,其中,所述初始字符串包括第一字符串变量和第二字符串变量,所述第一字符串变量为所述第二字符串变量的前置;
将所述日志短语赋值至所述初始字符串中的第二字符串变量,以将所述初始字符串转换为组合字符串;
采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典;
根据所述目标索引值对所述日志短语进行压缩编码,直到所述日志文件中的所有日志短语压缩完毕,输出所述日志文件的压缩文件。
5.根据权利要求4所述的方法,其特征在于,采用所述目标动态词典输出所述组合字符串的目标索引值,并动态更新所述目标动态词典包括:
在所述目标动态词典中搜索所述组合字符串的第一索引值;
判断所述目标动态词典是否存在所述组合字符串的第一索引值;
若所述目标动态词典存在所述组合字符串的第一索引值,将所述第一索引值输出为目标索引值,令所述组合字符串为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
6.根据权利要求5所述的方法,其特征在于,在判断所述目标动态词典是否存在所述组合字符串的第一索引值之后,所述方法还包括:
若所述目标动态词典不存在所述组合字符串的第一索引值,判断所述目标动态词典是否存在所述第二字符串变量的第二索引值;
若所述目标动态词典存在所述第二字符串变量的第二索引值,将所述第二索引值输出为目标索引值,将所述组合字符串添加至所述目标动态词典,令所述第二字符串变量为所述第一字符串变量,并采用更新后的第一字符串变量更新所述目标动态词典中的初始字符串。
7.根据权利要求6所述的方法,其特征在于,在判断所述目标动态词典是否存在所述第二字符串变量的第二索引值之后,所述方法还包括:
若所述目标动态词典不存在所述第二字符串变量的第二索引值,将所述第二字符串变量拆分为若干个单字符,在所述目标动态词典搜索每个单字符的第三索引值,将所述第三索引值输出为目标索引值,将所述第二字符串变量添加至所述目标动态词典。
8.一种轨道交通信号的日志压缩装置,其特征在于,包括:
获取模块,用于获取轨道交通信号的日志文件;
读取模块,用于从所述日志文件中读取日志短语,其中,所述日志短语的最小组成单位为单词;
加载模块,用于加载所述日志文件的目标动态词典,其中,所述动态词典包括多个单词的索引值;
压缩模块,用于采用所述目标动态词典对所述日志短语进行压缩,输出所述日志文件的压缩文件。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310712201.3A CN116894016A (zh) | 2023-06-15 | 2023-06-15 | 轨道交通信号的日志压缩方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310712201.3A CN116894016A (zh) | 2023-06-15 | 2023-06-15 | 轨道交通信号的日志压缩方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894016A true CN116894016A (zh) | 2023-10-17 |
Family
ID=88310106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310712201.3A Pending CN116894016A (zh) | 2023-06-15 | 2023-06-15 | 轨道交通信号的日志压缩方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894016A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117278054A (zh) * | 2023-11-21 | 2023-12-22 | 湖北华中电力科技开发有限责任公司 | 一种智慧电网监控数据存储方法及系统 |
-
2023
- 2023-06-15 CN CN202310712201.3A patent/CN116894016A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117278054A (zh) * | 2023-11-21 | 2023-12-22 | 湖北华中电力科技开发有限责任公司 | 一种智慧电网监控数据存储方法及系统 |
CN117278054B (zh) * | 2023-11-21 | 2024-02-02 | 湖北华中电力科技开发有限责任公司 | 一种智慧电网监控数据存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101783788B (zh) | 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置 | |
JP3152868B2 (ja) | 検索装置および辞書/テキスト検索方法 | |
CN103236847A (zh) | 基于多层哈希结构与游程编码的数据无损压缩方法 | |
CN109684290B (zh) | 日志存储方法、装置、设备及计算机可读存储介质 | |
CN116894016A (zh) | 轨道交通信号的日志压缩方法及装置 | |
CN110942763A (zh) | 语音识别方法及装置 | |
CN105095236A (zh) | 广告过滤方法和装置 | |
CN108255411A (zh) | 一种数据压缩方法与装置和数据解压缩方法与装置 | |
CN102014374A (zh) | 一种预设文件的处理方法及移动终端 | |
CN104133883B (zh) | 电话号码归属地数据压缩方法 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
CN104734722A (zh) | 数据压缩方法及数据解压缩装置 | |
CN111767280A (zh) | 数据处理方法、装置及存储介质 | |
CN108829872B (zh) | 无损压缩文件的快速处理方法、设备、系统及存储介质 | |
WO2022021876A1 (en) | Method and device for compressing finite-state transducers data | |
KR102497634B1 (ko) | 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치 | |
CN109271209A (zh) | 一种解析并提取qcow2及qcow3镜像文件的方法 | |
CN113891088A (zh) | Png图像解压逻辑电路及装置 | |
CN110059321B (zh) | 一种数据处理方法及装置、一种计算设备及存储介质 | |
CN114070471B (zh) | 一种测试数据包传输方法、装置、系统、设备和介质 | |
CN100490331C (zh) | 信息压缩方法及系统 | |
CN112527753B (zh) | Dns解析记录无损压缩方法、装置、电子设备及存储介质 | |
CN111538914A (zh) | 地址信息的处理方法和装置 | |
CN117406996B (zh) | 硬件描述代码的语义分析方法及装置 | |
CN111898387A (zh) | 翻译方法及装置、存储介质、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |