CN117290407A - 基于日志的列车制动能力影响分析方法、系统及介质 - Google Patents

基于日志的列车制动能力影响分析方法、系统及介质 Download PDF

Info

Publication number
CN117290407A
CN117290407A CN202311192825.3A CN202311192825A CN117290407A CN 117290407 A CN117290407 A CN 117290407A CN 202311192825 A CN202311192825 A CN 202311192825A CN 117290407 A CN117290407 A CN 117290407A
Authority
CN
China
Prior art keywords
log
data
train
analyzing
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311192825.3A
Other languages
English (en)
Inventor
张诣元
肖骁
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202311192825.3A priority Critical patent/CN117290407A/zh
Publication of CN117290407A publication Critical patent/CN117290407A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60TVEHICLE BRAKE CONTROL SYSTEMS OR PARTS THEREOF; BRAKE CONTROL SYSTEMS OR PARTS THEREOF, IN GENERAL; ARRANGEMENT OF BRAKING ELEMENTS ON VEHICLES IN GENERAL; PORTABLE DEVICES FOR PREVENTING UNWANTED MOVEMENT OF VEHICLES; VEHICLE MODIFICATIONS TO FACILITATE COOLING OF BRAKES
    • B60T17/00Component parts, details, or accessories of power brake systems not covered by groups B60T8/00, B60T13/00 or B60T15/00, or presenting other characteristic features
    • B60T17/18Safety devices; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种基于日志的列车制动能力影响分析方法、系统、设备及介质,其中,该方法包括采集CBTC车载日志;根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;基于数据仓库构建用于分析影响列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。本公开可提高业务人员的分析效率,降低系统维护人员工作量,帮助工作人员诊断定位故障原因并帮助运维人员分析改进策略。

Description

基于日志的列车制动能力影响分析方法、系统及介质
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于日志的列车制动能力影响分析方法、系统、设备及介质。
背景技术
在城市轨道交通的列车运行过程中,时常出现由于车载信号故障等问题造成的列车运营风险或影响。据统计,该类故障已经成为信号系统中对运营影响最大的因素,部分故障还呈现出一定的规律性。对于此类问题,若不能及时进行分析处理,可能造成列车运行风险,不利于轨道交通安全、高效运营以及乘客出行。
目前,通过对车载日志进行分析是排查车载信号故障的主要方法之一,大多数线路通过维护人员上车拷取日志文件,部分线路可实现通过人工远程下载的方式获取车载日志,再通过人工逐条回放来分析诊断故障原因,但存在两个问题:
(1)通过人工下载的方式很难实现所有列车全量日志的收集,无法充分挖掘车载日志规律性价值,则充分分析到列车可能存在的隐患。
(2)日志分析过程通过人为经验分析诊断故障原因,依赖程度高,分析效率较低,无法快速高效完成故障排查。
发明内容
为克服相关技术中存在的问题,本公开提供一种基于日志的列车制动能力影响分析方法、系统、设备及介质,以解决上述相关技术中的技术问题。
本说明书一个或多个实施例提供了一种基于日志的列车制动能力影响分析方法,包括以下步骤:
采集CBTC车载日志;
根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;
基于数据仓库构建用于分析影响列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
进一步的,所述通过Drain算法对列车制动的第一日志进行解析;并对解析后的匹配正确的日志事件分入相应的日志组包括步骤:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
进一步的,所述基于数据仓库构建用于分析列车制动能力的数据模型具体为:
ODS层对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层中的DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性及规则。
进一步的,所述数据挖掘方法包括通过决策树方法、关联分析方法或序列模式分析方法挖掘第一日志中字段间的内在联系;
关联分析方法为FP-Growth算法,用于分析确定影响列车制动能力的因素及各因素间的关联性。
进一步的,所述FP-Growth算法用于分析确定影响列车制动能力的因素及各因素间的关联性规则步骤如下:
挖掘各日志组中可能影响制动能力的各字段及其出现频率构建项集,并根据设定的最小支持度构建FP树,其中,每个项集会以路径的方式存储在FP树中;
确定FP树中各元素项及对应的各条件模式基,利用各条件模式基分别构建条件FP树;
基于条件FP-tree和FP树递归的查找获得第一频繁项集;
根据设定的最小可信度与最小支持度筛选不满足条件的第一频繁项集,获得影响制动能力强弱的字段的第二频繁项集。
本说明书一个或多个实施例提供了一种基于日志的列车制动能力影响分析系统,包括:
采集模块,用于采集CBTC车载日志;
解析模块,用于根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;
分析模块,用于基于数据仓库构建用于分析列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
进一步的,所述解析模块通过Drain算法对列车制动的第一日志进行解析,并对解析后的匹配正确的日志事件分入相应的日志组具体为:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
进一步的,所述分析模块中数据模型包括:
ODS层,用于对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层,包括DWD明细数据层和DIM公共维度层,其中,DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层,用于根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性。
本说明书一个或多个实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述基于日志的列车制动能力影响分析方法。
本说明书一个或多个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述基于日志的列车制动能力影响分析方法的步骤。
本实施例提供的基于日志的列车制动能力影响分析方法、系统、设备及介质,本公开允许用户自定义正则表达式解析相应日志并提取关键字和逻辑,提取日志中关键信息的方法,其基于正则表达式的分析方法通用性和灵活性都很强,再将获得的日志通过Drain算法进行聚类,存入到数据仓库数据库,通过数据仓库各构建分析影响列车制动能力的数据模型,确定影响列车制动能力的因素及各因素间的关联性规则,本方法在此多维模型的基础之上进行数据挖掘等更高层次的深入分析,从而从众多的日志信息中发现原始日志中隐藏的影响列车制动能力因素及其内在联系,对车载日志数据进行数据分析,提高系统安全风险的监控能力,提高业务人员的分析效率,降低系统维护人员工作量,帮助工作人员诊断定位故障原因并帮助运维人员分析改进策略。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种基于日志的列车制动能力影响分析方法流程图;
图2为本说明书一个或多个实施例提供的车载ITO日志的截取图;
图3为本说明书一个或多个实施例提供的正则表达式提取关键信息的示例图;
图4为本说明书一个或多个实施例提供的Drain解析树格式图;
图5为本说明书一个或多个实施例提供的Drain遍历节点过程图;
图6为本说明书一个或多个实施例提供的数据仓库结构框图;
图7为本说明书一个或多个实施例提供的FP树结构示例图;
图8为本说明书一个或多个实施例提供的根据图7中提供的FP树为基础构建的头指针示例图;
图9为本说明书一个或多个实施例提供的剔除非频繁项集的超集场景示例图;
图10为本说明书一个或多个实施例提供的车载日志曲线分析图;
图11为本说明书一个或多个实施例提供的一种基于日志的列车制动能力影响分析系统框图;
图12为本说明书一个或多个实施例提供的一种计算机的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明件的保护范围。
下面结合具体实施方式和说明书附图对本发明做出详细的说明。
方法实施例
根据本发明实施例,提供了一种基于日志的列车制动能力影响分析方法,如图1所示,为本实施例提供的基于日志的列车制动能力影响分析方法流程图,根据本发明实施例的基于日志的列车制动能力影响分析方法,包括:
步骤S10、采集CBTC车载日志。
本实施例中,可通过主动获取或被动接收的方式获取,其中日志类型可包括ATO与ATP日志等。日志的获取可通过开发人员编写的监听脚本定时获取车载日志文件至本地,并按批次进行归档,自动解压日志文件,过滤出需求的例如ATO与ATP日志。
步骤S20、根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库。
在一些实施例中,对接收到的车载日志,根据日志的类型进行到不同种类的日志信息提取逻辑中,如ATO日志、ATP日志、其他设备日志等。每一种类日志设置有其对应的解析提取关键字和提取逻辑,并且使用多线程加快处理速度,将获取的日志依次使用预设的正则表达式进行关键数据匹配,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来,提高匹配的准确性以及提取速度;
再提取出关键数据之后汇总到一起,再通过Drain算法进行日志与日志组的匹配,并进行字段的校验,不符合逻辑需求的日志被剔除掉,比如列车位置link不在正确范围内、train的ID为0等等。最后将符合要求的日志写入csv文件中,供分析使用。
具体的,步骤S20中,通过Drain算法对列车制动的第一日志进行解析;并对解析后的匹配正确的日志事件分入相应的日志组包括步骤:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
正则表达式(Regular Expression)是一种文本模式,是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。在大文本中匹配字符串时,有些情况用str自带的函数(比如find,in,split)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和Vcm相关的句子,这个时候就需要使用正则表达式。在一具体例子中,参考图2-3,图2为车载ITO日志的截取图,图3本实施例提供的正则表达式提取关键信息的示例图,参考图2,需要获取的关键信息已经用方框标出。值得注意的是,关键信息中既有字母也有数字,而且希望去掉不必要的符号如逗号中括号等,现有可以使用java语言或者python语言自带的split逗号进行分割再提取信息,但还需要处理中括号[]、dtg:-457、tms:0这样的字符串,为了解决这些麻烦,在此使用一个简单的正则表达式就可以节省掉处理符号带来的麻烦,从而提取关键信息。以在python语言中举例,使用re.findall(r'(\w+)',line)就可以顺利提取到字符串line中的字母和数字,其中re是python的处理正则表达式模块;\w表示匹配所有字母、数字和下划线;+加号表示匹配一个或者多个\w字符。图3是处理带有“key”这一行日志的相关示例图。
本实施例中,通过Drain算法对列车制动的第一日志进行解析,Drain是一种基于固定深度树的在线日志解析〈日志解析的目标是将原始日志信息转换为结构化的日志消息,如图4所示,为本实施例提供的Drain解析树格式图,结构化的日志分为常量部分例如src、dest和变量部分例如blk_3587)方法。当新的原始日志消息到达时,Drain将根据领域知识通过简单的正则表达式对其进行预处理Q。然后,Drain按照树内部节点中编码的特殊设计规则搜索日志组(即树的叶子节点)。如果找到合适的日志组,则日志消息将与存储在该日志组中的日志事件相匹配。否则,将根据日志信息创建新的日志组。本质上来讲,Drain就是将不同类型的日志区分开来,进行一个聚类。
当原始日志消息到达时,在线日志解析器需要为它搜索最合适的日志组,或者创建一个新的日志组。
具体的,依据正则表达式对列车制动相关的日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
其中,具体处理步骤如下:
固定深度的解析树算法来引导日志组搜索,解析树中的每一条路径都以一个叶子结点为结束,叶子结点中存储了一个日志组的列表;每一个日志组都由两部分组成:日志模板和属于该日志组的所有日志;日志模板是描述该组日志消息的模板,包含日志消息的常量部分。
日志消息长度搜索,Drain将预处理日志消息的长度值通过解析树进行日志组的遍历,确定具有相同日志消息长度值日志模板的日志组列表。
日志前缀字段(即tokens)搜索,在前面选出的日志组列表中,再次检索筛选出与预处理日志消息的前缀字段相同的日志组列表。
日志字段token相似度搜索,通过计算预处理日志消息和上面筛选出的每个日志组的日志事件之间的相似性,从日志组列表中选择相似度最高的日志组,其中,计算每个日志组的日志事件之间的相似性simSeq具体如下式:
其中seq1(i)和seq2(i)分别代表日志消息和日志事件,Seq(i)为序列的第i个token,n为日志消息中的字段个数,equ函数定义如下:
其中,t1,t2为字段,在找到simSeq最大的日志组后,将其与预定义的相似度阈值st进行比较,如果simSeq≥st,那么Drain就会返回该组作为最佳匹配,否则返回一个标志位表示没有合适的。
解析树的更新,当返回相似度最高的日志组,则无需更新日志组;否则,通过Drain进行日志组的更新。
具体的,如果在相似度搜索步骤中返回了合适的日志组,则Drain将当前日志消息的日志ID添加到返回的日志组中的日志ID中。此外,将更新返回日志组中的日志事件。
Drain扫描日志消息和日志事件相同位置的token,如果两个token相同,则不修改该token位置上的token。否则,在日志事件中通过通配符*更新该token位置上的token。
如果无法找到合适的日志组,则根据当前日志消息创建一个新的日志组,其中日志ID只包含日志消息的ID,日志事件就是这个日志消息。然后,Drain将用新的日志组更新解析树。
直观地,Drain从根节点遍历到应该包含新日志组的叶节点,并相应地沿着这条路径添加确实的内部节点和叶子节点。下图5展示了Drain遍历节点过程图,可以看到接受消息Receive 120bytes,在解析树中被编码成了最右边这条路径,第三层的内部节点被编码为了通配符*,因为120是数字,该树depth=4。
步骤S30、基于数据仓库构建用于分析列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
在本实施例中,参考图6所示,为本实施例提供的数据仓库结构框图,基于数据仓库构建用于分析列车制动能力的数据模型具体为:
ODS层对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层中的DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计,获取DW提供的数据按照不同的维度进行分析、加工、处理最后提供给业务需求方;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性及规则;TMP临时数据层(计算过程中需要创建的临时中间表)。
首先开发人员根据数据模型与指标计算逻辑对日志组数据进行进一步的数据开发与指标计算。加载解析后数据,会调用指标计算脚本将解析后数据加载到数仓模型ODS层,数据类型包括ATP、ATO等数据,对数据模型ODS层数据处理具体如下:
操作包括ATP与ATO数据关联、数据格式转如时间转换、区间ID数据清洗后,最后形成明细层DWD。对DWD层包括设计有单车表明细数据、编组车表数据。编组车表数据,基于编组车对,对明细处理为编组明细数据表。
基于单车表明细数据、编组车表数据形成ADS层数据。ADS层数据设置包括指标类指标表、曲线明细数据。
本实施例中,设置车载日志分析指标参考如下:
(1)以单车为对象,曲线分析功能-速度(纵坐标)-时间(横坐标)图中,包括前车速度、后车速度、前车EBI速度、后车EBI速度、前车目标速度及后车目标速度指标。
(2)以单车为对象,曲线分析功能-位移(纵坐标)-时间(横坐标)图中,包括前车位置和后车位置曲线指标。
(3)以双车为对象,曲线分析功能-速度(纵坐标)-时间(横坐标)图中,包括后车EBI与后车实际速度差值、前后车目标速度与实际速度差值曲线指标。
(4)以双车为对象,曲线分析功能-速度(纵坐标)-时间(横坐标)图中,包括两车速度差曲线指标。
(5)以双车为对象,曲线分析功能-位移(纵坐标)-时间(横坐标)图中,包括两车间距曲线指标。
(6)曲线分析功能-级位(纵坐标)-位置(横坐标)图中,包括的级位标识和级位值曲线指标。
编组车包括如下指标:
两车停车精度指标、两车运行时分指标、两车平均旅行速度指标、两车发车时间差指标、两车停车时间差指标和两车停车间距指标。
本实施例中,所述数据挖掘方法包括通过决策树方法、关联分析方法或序列模式分析方法挖掘第一日志中字段间的内在联系;
关联分析方法为FP-Growth算法,用于分析确定影响列车制动能力的因素及各因素间的关联性。
在一具体实施例中,所述FP-Growth算法用于分析确定影响列车制动能力的因素及各因素间的关联性规则步骤如下:
步骤301、挖掘各日志组中可能影响制动能力的各字段及其出现频率构建项集,并根据设定的最小支持度构建FP树,其中,每个项集会以路径的方式存储在FP树中;
步骤302、确定FP树中各元素项及对应的各条件模式基,利用各条件模式基分别构建条件FP树;
步骤303、基于条件FP-tree和FP树递归的查找获得第一频繁项集;
步骤304、根据设定的最小可信度与最小支持度筛选不满足条件的第一频繁项集,获得影响制动能力强弱的字段的第二频繁项集。
下面说明FP-Growth算法对离散化处理后的日志集(日志组)进行迭代,最终得到各个影响因素之间的关联性规则。
根据已知的数据开始构建FP树,根据不同的字段,将所有的数据生成FP树,具体规则为:
FP树会存储项集,即每个可能影响制动能力且发生变化的字段,例如,列车载重、风缸压力、空簧压力、轮轨黏着等字段的出现频率,而每个项集会以路径的方式存储在树中。存在相似元素的项集会共享树的一部分。只有当项集之间完全不同时,树才会分叉。树节点上给出项集中的单个元素及其在日志序列中的出现次数,路径会给出该日志序列的出现次数。相似项之间的链接称为节点链接(node link),用于快速发现相似项的位置。具体FP树结构图如图7所示,路径{t,s,y,x,z}出现过两次,路径{t,r,y,x,z}出现了一次,而z独自出现过1次。而像这也,FP树的解读方式为:读取某个节点开始到根节点的路径,路径上的元素构成一个频繁项集,开始节点的值表示这个项集的支持度。支持度的定义如下式所示:
support(A=> B) = P(A∪B) 式3;
再根据频繁项集构建头指针表,参考图8所示,为依据图7构建的头指针示意图,头指针表即为用来记录各个元素项的总出现次数的数组,再附带一个指针指向FP树中该元素项的第一个节点。这样每个元素项都构成一条单链表。
接下来,开始从FP树上挖掘频繁项集,包括以下实现步骤:
步骤S3021、从FP树中获得条件模式基;
条件模式基是以所查找元素项(例如t:2)为结尾的路径集合,每一条路径其实都是一条前缀路径(prefix path),具体的,一条前缀路径是介于所查找元素项与树根节点之间的所有内容,例如选取当日折返能力为频繁项,获取其相应的所有前缀路径,即条件模式基。
步骤S3022、利用条件模式基,构建一个条件FP树;
步骤S3023、迭代重复步骤S3021和步骤S3022,直到树包含一个元素项为止,有了FP树和条件FP树,就可以在前两步的基础上递归的查找获得第一频繁项集。
需要说明的是,本实施例在使用FP树进行频繁项集的查找工程中,通过Apriori算法的两大定律进行查找来优化大部分无用递归的查找,具体为:
Apriori定律1:如果一个集合是频繁项集,则它的所有子集都是频繁项集;
Apriori定律2:如果一个集合不是频繁项集,那么它的所有超集都不是频繁项集,即将不是频繁项集的所有超集全部剔除掉,迭代时将不再考虑其超集,参考图9所示,虚线圈出部分判定为不是频繁项集,因此全部剔除掉,最终获得第一频繁项集。
进一步的,本实施例通过最小可信度与最小支持度筛选过滤获得第一频繁项集获得影响制动能力强弱的字段的第二频繁项集,具体实现过程如下:
基于上述例子,最终获取到所有的与当日列车折返能力相关的第一频繁项集,但其中可能有许多的不相干频繁项集合,所以需要将其过滤剔除掉,留下需要进行分析调整的重要影响因子,这里就需要先去定义频繁项集的最小支持度与最小置信度,其中,
置信度的计算规则如下式所示:
将定义的最小支持度与最小置信度作为筛选条件。
其中,按照“support≥minsup threshold”的标准筛选满足最小支持度的频繁项集;按照“confidence≥minconf threshold”的标准筛选满足最小置信度的强规则。
在第一次遍历数据集的时候获取折返能力发生变化的字段出现频率,去掉不满足最小支持度的元素项,生成头指针表。
接下来对元素项排序,合并相同的频繁项集(或相同的部分),排序按照元素项的绝对出现率(也就是总出现次数),在进行第二次遍历时,去掉不满足最小支持项的元素项,然后对元素进行重排序,依次迭代,最后获得第二频繁项集。
本实施例中,通过筛选判断出最后所需的列车制动第二频繁项集并加以分析评价,并进行指标关联性的可视化展示,参考图10所示,为本实施例提供的车载日志曲线分析图,包括上图(a)为以双车为对象的曲线分析功能图,下图(b)为以双车为对象的曲线分析功能图。
本实施例提供的基于日志的列车制动能力影响分析方法,允许用户自定义正则表达式解析相应日志并提取关键字和逻辑,提取日志中关键信息的方法,其基于正则表达式的分析方法通用性和灵活性都很强,可以满足快速准确的解析需求,再将获得的日志通过Drain算法进行聚类,存入到数据仓库数据库,通过数据仓库各构建分析影响列车制动能力的数据模型,确定影响列车制动能力的因素及各因素间的关联性规则,本方法在此多维模型的基础之上进行数据挖掘等更高层次的深入分析,从而从众多的日志信息中发现原始日志中隐藏的影响列车制动能力因素及其内在联系,对车载日志数据进行数据分析,提高系统安全风险的监控能力,提高业务人员的分析效率,降低系统维护人员工作量,帮助工作人员诊断定位故障原因并帮助运维人员分析改进策略。
本实施例,还基于流程自动化的日志大数据分析方法具有良好的可视化展示性及实用性,在实际生产部署时可以根据日志分析需求增加日志分析计算的节点数量,以此实现车载日志大数据分析平台的可扩展性。该平台为解决城市轨道交通信号系统的车载日志分析提供了一种解决方案,弥补了目前城轨信号系统在运维管理方面的不足之处,通过大数据分析平台对于车载日志获取、解析、指标计算、分析的自动化过程的实现,大大提高了业务人员发现问题与解决问题的效率。是对今后城轨信号系统向智能化运维发展的一次应用探索。
系统实施例
根据本发明实施例,提供了一种基于日志的列车制动能力影响分析系统,如图11所示,为本实施例提供的基于日志的列车制动能力影响分析系统框图,根据本发明实施例的基于日志的列车制动能力影响分析系统,包括:
采集模块10,用于采集CBTC车载日志。
解析模块20,用于根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;
分析模块30,用于基于数据仓库构建用于分析列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
本实施例提供的系统,允许用户自定义正则表达式解析相应日志并提取关键字和逻辑,解析模块20提取日志中关键信息的方法,其基于正则表达式的分析方法通用性和灵活性都很强,可以满足需求,再将获得的日志通过Drain算法进行聚类,存入到数据仓库数据库,分析模块30通过数据仓库各构建分析影响列车制动能力的数据模型,确定影响列车制动能力的因素及各因素间的关联性规则,本方法在此多维模型的基础之上进行数据挖掘等更高层次的深入分析,从而从众多的日志信息中发现原始日志中隐藏的影响列车制动能力因素及其内在联系,对车载日志数据进行数据分析,提高系统安全风险的监控能力,提高业务人员的分析效率,降低系统维护人员工作量,帮助工作人员诊断定位故障原因并帮助运维人员分析改进策略。
本实施例中,所述解析模块20通过Drain算法对列车制动的第一日志进行解析,并对解析后的匹配正确的日志事件分入相应的日志组具体为:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
本实施例中,参考图6,所述分析模块30中数据模型包括:
ODS层,用于对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层,包括DWD明细数据层和DIM公共维度层,其中,DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层,用于根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块处理步骤的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
如图12所示,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于日志的列车制动能力影响分析方法,或者计算机程序被处理器执行时实现上述实施例中基于日志的列车制动能力影响分析方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,且本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (10)

1.基于日志的列车制动能力影响分析方法,其特征在于,包括以下步骤:
采集CBTC车载日志;
根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;
基于数据仓库构建用于分析影响列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
2.如权利要求1所述的基于日志的列车制动能力影响分析方法,其特征在于,所述通过Drain算法对列车制动的第一日志进行解析,并对解析后的匹配正确的日志事件分入相应的日志组包括步骤:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
3.如权利要求1所述的基于日志的列车制动能力影响分析方法,其特征在于,所述基于数据仓库构建用于分析列车制动能力的数据模型具体为:
ODS层对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层中的DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性及规则。
4.如权利要求1-3任意一项所述的基于日志的列车制动能力影响分析方法,其特征在于,所述数据挖掘方法包括通过决策树方法、关联分析方法或序列模式分析方法挖掘第一日志中字段间的内在联系;
关联分析方法为FP-Growth算法,用于分析确定影响列车制动能力的因素及各因素间的关联性。
5.如权利要求4所述的基于日志的列车制动能力影响分析方法,其特征在于,所述FP-Growth算法用于分析确定影响列车制动能力的因素及各因素间的关联性规则步骤如下:
挖掘各日志组中可能影响制动能力的各字段及其出现频率构建项集,并根据设定的最小支持度构建FP树,其中,每个项集会以路径的方式存储在FP树中;
确定FP树中各元素项及对应的各条件模式基,利用各条件模式基分别构建条件FP树;
基于条件FP-tree和FP树递归的查找获得第一频繁项集;
根据设定的最小可信度与最小支持度筛选不满足条件的第一频繁项集,获得影响制动能力强弱的字段的第二频繁项集。
6.基于日志的列车制动能力影响分析系统,其特征在于,包括:
采集模块,用于采集CBTC车载日志;
解析模块,用于根据日志的类型,分别通过预设的正则表达式解析相应日志并提取关键字和逻辑,获得与列车制动相关的第一日志,通过Drain算法对第一日志进行解析,并对解析后的匹配正确的第一日志事件分入相应的日志组,并存入数据库;
分析模块,用于基于数据仓库构建用于分析列车制动能力的数据模型,并结合数据挖掘方法和关联分析方法对数据库中日志数据进行数据挖掘,确定影响列车制动能力的因素及各因素间的关联性规则。
7.如权利要求6所述的基于日志的列车制动能力影响分析系统,其特征在于,所述解析模块通过Drain算法对列车制动的第一日志进行解析,并对解析后的匹配正确的日志事件分入相应的日志组具体为:
依据正则表达式对第一日志进行预处理,Drain根据预设的树内部节点中编码的设计规则搜索日志组,将列车制动相关的日志存入匹配到的日志组,若未匹配到,则根据日志信息创建新的日志组;其中,各日志组由日志事件和日志id组成。
8.如权利要求6所述的基于日志的列车制动能力影响分析系统,其特征在于,所述分析模块中数据模型包括:
ODS层,用于对日志组数据进行存储,并对DW统一数仓层所需数据提供源数据;
DW统一数仓层,包括DWD明细数据层和DIM公共维度层,其中,DWD明细数据层根据DIM公共维度层设计的公共维度表对ODS原始层数据进行事实明细表结构的设计;
ADS数据应用层,用于根据不同的业务需求场景,根据DW统一数仓层的数据服务进行应用表结构的设计;且ADS数据应用层根据在数据库的基础上采用数据挖掘方法及关联分析方法进行数据挖掘,确定各种列车制动相关的日志之间量的内在联系,用以分析确定影响列车制动能力的因素及各因素间的关联性。
9.计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于日志的列车制动能力影响分析方法。
10.计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于日志的列车制动能力影响分析方法的步骤。
CN202311192825.3A 2023-09-15 2023-09-15 基于日志的列车制动能力影响分析方法、系统及介质 Pending CN117290407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311192825.3A CN117290407A (zh) 2023-09-15 2023-09-15 基于日志的列车制动能力影响分析方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311192825.3A CN117290407A (zh) 2023-09-15 2023-09-15 基于日志的列车制动能力影响分析方法、系统及介质

Publications (1)

Publication Number Publication Date
CN117290407A true CN117290407A (zh) 2023-12-26

Family

ID=89251024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311192825.3A Pending CN117290407A (zh) 2023-09-15 2023-09-15 基于日志的列车制动能力影响分析方法、系统及介质

Country Status (1)

Country Link
CN (1) CN117290407A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993894A (zh) * 2024-04-03 2024-05-07 四川航天职业技术学院(四川航天高级技工学校) 基于人工智能的轨道交通运维状态数据处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993894A (zh) * 2024-04-03 2024-05-07 四川航天职业技术学院(四川航天高级技工学校) 基于人工智能的轨道交通运维状态数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN108229567B (zh) 驾驶员身份识别方法及装置
CN107391353A (zh) 基于日志的复杂软件系统异常行为检测方法
CN110458214B (zh) 驾驶员更换识别方法和装置
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
DE102011106550A1 (de) Methodik zur Wissensextraktion für unstrukturierte Daten mittels ontologiebasiertem Text-Mining
CN117290407A (zh) 基于日志的列车制动能力影响分析方法、系统及介质
Park et al. Large imbalance data classification based on mapreduce for traffic accident prediction
LU503512B1 (en) Operating method for construction of knowledge graph based on naming rule and caching mechanism
US20190130028A1 (en) Machine-based extraction of customer observables from unstructured text data and reducing false positives therein
CN114299742B (zh) 一种高速公路的限速信息动态识别与更新推荐方法
CN106372105A (zh) 一种基于Spark平台的微博数据预处理方法
CN113626400A (zh) 基于日志树和解析树的日志事件提取方法及系统
CN106781442B (zh) 一种车辆行为预警系统
Žunić et al. Innovative GPS data anomaly detection algorithm inspired by QRS complex detection algorithms in ECG signals
CN116860977B (zh) 一种面向矛盾纠纷调解的异常检测系统及方法
CN114490235A (zh) 智能化识别日志数据中的数量关系及其异常的算法模型
CN114647640B (zh) 一种基于人工智能的动车组转向架业务数据清洗方法
CN114880584B (zh) 一种基于社区发现的发电机组故障分析方法
CN116432099A (zh) 日志分类方法、装置、电子设备及存储介质
CN115841750A (zh) 一种轨道交通的故障预测方法、装置、设备及存储介质
Reddy et al. Accident analysis and severity prediction of road accidents in United States using machine learning algorithms
CN118333503B (zh) 一种疑似源头企业研判的方法及系统
CN111552862A (zh) 基于交叉支持度评价的模板自动挖掘系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination