CN113626508A - 列车特征库管理方法、装置、电子设备及可读存储介质 - Google Patents

列车特征库管理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113626508A
CN113626508A CN202110790470.2A CN202110790470A CN113626508A CN 113626508 A CN113626508 A CN 113626508A CN 202110790470 A CN202110790470 A CN 202110790470A CN 113626508 A CN113626508 A CN 113626508A
Authority
CN
China
Prior art keywords
online
offline
driving data
attribute information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110790470.2A
Other languages
English (en)
Inventor
王殿文
肖骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202110790470.2A priority Critical patent/CN113626508A/zh
Publication of CN113626508A publication Critical patent/CN113626508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本申请实施例中提供了列车特征库管理方法、装置、电子设备及可读存储介质,旨在通过该列车特征库管理方法提高模型训练效率。其中,列车特征库管理方法包括:获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将离线特征存入离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联;获得查询请求,查询请求携带目标属性信息;根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征;根据获取的离线特征,对预设模型进行训练。

Description

列车特征库管理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及轨道交通技术领域,具体地,涉及列车特征库管理方法、装置、电子设备及可读存储介质。
背景技术
相关技术中,在利用模型提供预测服务之前,通常需要对模型进行训练,使得模型在训练中学习到预测能力。在模型训练期间,通常需要经历两大阶段,分别为特征工程和训练过程。在特征工程阶段,需要采集大量的样本数据,然后对大量样本数据进行处理,从而获得多个特征数据。在训练过程阶段,需要将获得的特征数据输入模型,并根据模型输出的预测结果确定损失值,以及根据损失值更新模型。对于轨道交通领域而言,在训练与列车运行相关的模型时,由于特征工程阶段通常会花费很长的时间,导致模型的整个训练耗时很长。
发明内容
本申请实施例中提供了一种列车特征库管理方法、装置、电子设备及可读存储介质,旨在通过该列车特征库管理方法提高模型训练效率。
根据本申请实施例的第一个方面,提供了一种列车特征库管理方法,所述特征库包括离线特征库,所述方法包括:获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将所述离线特征存入所述离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联;获得查询请求,所述查询请求携带目标属性信息;根据所述查询请求携带的目标属性信息,从所述离线特征库中获取与所述目标属性信息相关联的离线特征;根据获取的离线特征,对预设模型进行训练。
根据本申请实施例的第二个方面,提供了一种列车特征库管理装置,所述特征库包括离线特征库,所述装置包括:离线特征存储模块、查询请求获得模块、离线特征获取模块以及模型训练模块;其中,离线特征存储模块用于获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将所述离线特征存入所述离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联;查询请求获得模块用于获得查询请求,所述查询请求携带目标属性信息;离线特征获取模块用于根据所述查询请求携带的目标属性信息,从所述离线特征库中获取与所述目标属性信息相关联的离线特征;模型训练模块用于根据获取的离线特征,对预设模型进行训练。
根据本申请实施例的第三方面,提供了一种电子设备,所述电子设备包括:处理器、存储器以及总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行上述列车特征库管理方法。
根据本申请实施例的第四方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述列车特征库管理方法。
采用本申请实施例中提供的列车特征库管理方法,通过获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,并将离线特征存入离线特征库,从而使得离线特征库汇合了多种离线特征。每种离线特征与相应原始行车数据对应的属性信息相关联,因此可以通过属性信息区分不同的离线特征。在获得查询请求后,可以根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征,从而根据获取的离线特征训练预设模型。可见,通过采用本申请实施例中提供的列车特征库管理方法,在训练与列车运行相关的模型时,可以直接从离线特征库获取离线特征,从而有效缩短了特征工程阶段地耗时,有利于提高模型训练效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明一实施例提出的列车特征库管理方法的流程示意图;
图2是本申请一实施例提出的列车特征库管理方法的示意图;
图3是本申请另一实施例提出的列车特征库管理方法的流程示意图;
图4是本申请一实施例提出的列车特征库管理装置400的示意图;
图5是本申请另一实施例提出的列车特征库管理装置400的示意图;
图6是本申请一实施例提供的电子设备的结构框图。
具体实施方式
在实现本申请的过程中,发明人发现,在模型训练期间,通常需要经历两大阶段,分别为特征工程和训练过程。在特征工程阶段,需要采集大量的样本数据,然后对大量样本数据进行处理,从而获得多个特征数据。在训练过程阶段,需要将获得的特征数据输入模型,并根据模型输出的预测结果确定损失值,以及根据损失值更新模型。对于轨道交通领域而言,在训练与列车运行相关的模型时,由于特征工程阶段通常会花费很长的时间,导致模型的整个训练耗时很长。
针对上述问题,本申请实施例中提供了一种列车特征库管理方法,通过获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,并将离线特征存入离线特征库,从而使得离线特征库汇合了多种离线特征。每种离线特征与相应原始行车数据对应的属性信息相关联,因此可以通过属性信息区分不同的离线特征。在获得查询请求后,可以根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征,从而根据获取的离线特征训练预设模型。可见,通过采用本申请实施例中提供的列车特征库管理方法,在训练与列车运行相关的模型时,可以直接从离线特征库获取离线特征,从而有效缩短了特征工程阶段地耗时,有利于提高模型训练效率。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1,图1是本发明一实施例提出的列车特征库管理方法的流程示意图,其中,特征库包括离线特征库。如图1所示,列车特征库管理方法包括以下步骤:
S110:获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将离线特征存入离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联。
本申请中,原始行车数据和下文提及的实时行车数据是两个相对的概念,实时行车数据是在模型提供实时预测服务期间需要采集的数据,并且需要从该数据中获取到特征并输入模型,从而实现实时预测。而原始行车数据是用于训练模型的数据。
本申请中,离线特征和下文提及的在线特征是两个相对的概念,在线特征是由实时行车数据转换得到的特征,在线特征用于输入模型,从而实现实时预测。而离线特征是由原始行车数据转换得到的,离线特征用于训练模型。
本申请中,离线特征库和下文提及的在线特征库是两个相对的概念,离线特征库用于存放离线特征,而在线特征库用于存放在线特征。离线特征库和在线特征库均可以是数据库,离线特征库的数据库类型与在线特征库的数据库类型可以互不相同。
其中,列车的多种原始行车数据包括以下多种行车数据中的一种或几种:列车车速、轨道坡度、转弯半径、列车控制指令、转辙机电流、转辙机电压、转辙机功率等。需要说明的是,原始行车数据不限于上述多种行车数据,原始行车数据还可以包括其他类型的行车数据。
参考图2,图2是本申请一实施例提出的列车特征库管理方法的示意图。如图2所示,在一些可能的实现方式中,可以从数据仓库获得原始行车数据,而数据仓库以数据库、消息队列以及数据池作为数据来源。在获得数据仓库发送的多种原始行车数据后,可以针对每种原始行车数据,根据该种原始行车数据对应的转换算法,将该种原始行车数据转换为符合模型要求的离线特征,例如将该种原始行车数据转换为特定长度或维度的特征向量。
示例性地,每种原始行车数据对应的转换算法可以包括以下若干算法中的一种或多种:
最小值函数min:用于从原始行车数据的多个数值中确定并保留最小值;
最大值函数max:用于从原始行车数据的多个数值中确定并保留最大值;
标准差函数std:用于针对原始行车数据的多个数值,计算多个数值的标准差;
统计函数count:用于针对原始行车数据的多个数值,统计多个数值的数量;
滑动窗口算法:用于每隔预设时间段,对相应时间段内的数据进行统计;
分组算法:用于对多个原始行车数据进行分组;
筛选算法:用于根据预设筛选规则,筛选出或者筛选掉某些原始行车数据;
自定义算法:用于将自定义逻辑添加到特征计算中,例如针对指定的特征乘以数值10。
本申请中,根据原始行车数据对应的转换算法,从而将原始行车数据转换成离线特征,并将离线特征存入离线特征库,从而使得离线特征库汇合了多种离线特征。此外,每种离线特征与相应原始行车数据对应的属性信息相关联,因此可以通过属性信息区分不同的离线特征。
示例性地,原始行车数据的属性信息可以用于表征原始行车数据的采集时间和来源。例如原始行车数据的属性信息可以包括时间信息和目标设备的设备标识。其中,时间信息表征原始行车数据的采集时间,设备标识表征原始行车数据来源于该设备标识对应的设备。本申请中,目标设备是用于监测列车行车数据的设备,例如目标设备可以是安装在列车上或轨道旁的传感器,或者可以是列车上的处理器和测量表等。
S120:获得查询请求,查询请求携带目标属性信息。
本申请中,用户在需要训练新的模型时,可以首先确定需要使用哪种离线特征,从而向本申请的执行主体发出相应的查询请求,该查询请求携带所需离线特征的属性信息。如图2所示,本申请的执行主体具体可以通过提供给用户的查询服务接口,获得查询请求。
S130:根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征。
在一些可能的实现方式中,离线特征库可以是一种key-value数据库,每个离线特征关联的属性信息作为关键字key,每个离线特征作为值value。为了从离线特征库中获取与目标属性信息相关联的离线特征,可以将目标属性信息作为关键字key,从而以该关键字key为索引,从离线特征库中查询相应的值value,从而获得与目标属性信息相关联的离线特征。
在一些可能的实现方式中,查询请求携带的目标属性信息包括时间信息和目标设备的设备标识,目标设备是用于监测列车行车数据的设备。在执行S130时,可以根据查询请求携带的时间信息和设备标识,从离线特征库中获取与该时间信息和设备标识相关联的离线特征。
本申请中,用户通过在查询请求中指定时间信息和设备标识,从而可以获得相应设备在相应时间的原始行车数据对应的离线特征。例如查询请求携带的设备标识为ZDJ9-B-1002,查询请求携带的时间信息为202107011555(2021年7月1日15点55分)。则在执行S130时,可以根据设备标识ZDJ9-B-1002,从离线特征库中获取与ZDJ9-B-1002相关联的离线特征,然后针对获取到的离线特征,根据时间信息202107011555,从这些离线特征中筛选出2021年7月1日15点55分期间的离线特征。例如某一离线特征携带属性信息包括ZDJ9-B-1002和20210701155509(2021年7月1日15点55分09秒),则该离线特征将会被筛选出。又例如某一离线特征携带属性信息包括ZDJ9-B-1002和20210701155822(2021年7月1日15点58分22秒),则该离线特征不会被筛选出。
S140:根据获取的离线特征,对预设模型进行训练。
本申请中,如图2所示,在获得离线特征后,可以基于获得的多个离线特征,批量地训练预设模型,使得预设模型在训练中学习到预测能力,后续可以利用训练完成的预设模型提供批量预测服务和实时预测服务。其中,批量预测服务是指在获得多个非实时的行车数据后,从多个非实时的行车数据中获取到特征,并将获取的特征输入训练完成的预设模型,从而得到预测结果。
在一些可能的实现方式中,在获得离线特征后,可以针对每个离线特征,将该离线特征输入预设模型,从而获得预设模型输出的预测结果,再根据该预测结果计算损失值,接着利用损失值对预设模型进行更新,使得预设模型中的参数得到优化。
在一些可能的实现方式中,在S130中,根据查询请求携带的时间信息和设备标识,从离线特征库中获取到多种离线特征。在执行S140时,对获取的多种离线特征进行拼接,并根据拼接后的离线特征,对预设模型进行训练。如图2所示,预设模型在训练完成后,需要被部署至目标列车。
为便于理解,示例性地,假设查询请求携带的设备标识为ZDJ9-B-1002,查询请求携带的时间信息为202107011555,在执行S130时,从离线特征库中查询到相应的三种离线特征,三种离线特征分别为电流特征、电压特征以及功率特征。其中,电流特征表征ZDJ9-B-1002设备在2021年7月1日15点55分期间采集的电流,电压特征表征ZDJ9-B-1002设备在2021年7月1日15点55分期间采集的电压,功率特征表征ZDJ9-B-1002设备在2021年7月1日15点55分期间采集的功率。
在执行S140时,可以对电流特征、电压特征以及功率特征进行拼接,拼接后的特征的长度或维度符合预设模型的要求。然后将拼接后的特征输入预设模型,从而获得预设模型输出的预测结果。再根据预测结果计算损失值,并利用损失值对预设模型进行更新,使得预设模型中的参数得到优化。
本申请中,通过对离线特征进行拼接,从而提高特征的维度和丰富程度,再根据拼接后的特征对预设模型进行训练,以利于提升模型训练效果,提升模型的预测能力。
通过执行上述包括S110至S140的列车特征库管理方法,在训练与列车运行相关的模型时,可以直接从离线特征库获取离线特征,从而有效缩短了特征工程阶段地耗时,有利于提高模型训练效率。
此外,存储在离线特征库中的离线特征还可以被复用。为便于理解,示例性地,离线特征库中存储的离线特征包括:转辙机A的电流特征、转辙机A的电压特征、转辙机A的功率特征、转辙机B的电流特征、以及转辙机B的功率特征。
假设在训练第一个模型时,需要将转辙机A的电流特征、转辙机A的功率特征、转辙机B的电流特征、以及转辙机B的功率特征作为训练样本,则可以生成查询请求,该查询请求携带4个目标属性信息,4个目标属性信息分别为:转辙机A的设备标识及电流标识I、转辙机A的设备标识及功率标识P、转辙机B的设备标识及电流标识I、转辙机B的设备标识及功率标识P。本申请的执行主体在获得该查询请求后,根据查询请求携带的目标属性信息,从离线特征库中获取到:转辙机A的电流特征、转辙机A的功率特征、转辙机B的电流特征、以及转辙机B的功率特征。从而根据获取到的这些特征,对第一个模型进行训练。
假设在训练第二个模型时,需要将转辙机A的电流特征、转辙机A的电压特征、转辙机B的电流特征、以及转辙机B的电压特征作为训练样本,则可以生成查询请求,该查询请求携带4个目标属性信息,4个目标属性信息分别为:转辙机A的设备标识及电流标识I、转辙机A的设备标识及电压标识U、转辙机B的设备标识及电流标识I、转辙机B的设备标识及电压标识U。本申请的执行主体在获得该查询请求后,根据查询请求携带的目标属性信息,从离线特征库中获取到:转辙机A的电流特征、转辙机A的电压特征、以及转辙机B的电流特征,但是没有获取到转辙机B的电压特征,执行主体可以输出转辙机B电压特征获取失败的提示信息。如此,用户可以手动获取转辙机B的电压数据,并手动将转辙机B的电压数据转换成电压特征。从而可以根据从离线特征库中获得的转辙机A的电流特征、转辙机A的电压特征、以及转辙机B的电流特征,并根据手动转换成的转辙机B的电压特征,对第二个模型进行训练。此外,用户还可以生成特征存储请求,从而将手动转换成的转辙机B的电压特征,存储至离线特征库。
可见,在训练第二个模型时,对转辙机A的电流特征和转辙机B的电流特征进行了复用。
参考图3,图3是本申请另一实施例提出的列车特征库管理方法的流程示意图,其中,特征库除了包括离线特征库和在线特征库。如图3所示,列车特征库管理方法包括以下步骤:
S310:获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将离线特征存入离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联。
S320:获得查询请求,查询请求携带目标属性信息。
S330:根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征。
S340:根据获取的离线特征,对预设模型进行训练。
其中,对于S310至S340的具体实现方式,可参考前述S110至S140的具体实现方式,为避免重复,此处不做赘述。
S350:在利用训练完成的预设模型提供实时预测服务期间,采集目标列车的实时行车数据,并根据实时行车数据对应的转换算法,将实时行车数据转换为对应的在线特征,以及将在线特征存入在线特征库,在线特征与实时行车数据对应的属性信息相关联。
本申请中,如图2所示,利用训练完成的预设模型提供实时预测服务期间,可以从实时行车数据源采集实时行车数据。其中,实时行车数据源可以是目标列车上的测量表,例如电流表或者电压表,则采集的实时行车数据可以是实时的电流值或者电压值。或者实时行车数据源也可以是目标列车上的处理器,该处理器用于计算实时的功率值,则采集的实时行车数据可以是实时的功率值。或者实时行车数据源还可以是目标列车上的传感器,例如速度传感器或者角度传感器,则采集的实时行车数据可以是实时的速度值和坡度值。
在实时行车数据源采集到实时行车数据后,可以根据实时行车数据对应的转换算法,将实时行车数据转换为符合模型要求的在线特征,例如将实时行车数据转换为特定长度或维度的特征向量,然后将转换成的在线特征存入在线特征库。其中,在线特征携带实时行车数据对应的属性信息,因此可以通过属性信息区分不同的在线特征。
为便于理解,示例性地,例如实时行车数据可以是电流表每隔2秒传输的过去2秒内的电流变化曲线。则根据电流变化曲线对应的转换算法,从电流变化曲线中采集电流最大值、电流最低值、电流曲线的最大曲率、平均电流值等数据,然后将采集的数据作为在线特征。
需要说明的是,在S350中转换成的在线特征的数据结构,应当与训练预设模型的离线特征的数据结构相同。
示例性地,实时行车数据对应的转换算法可以包括以下若干算法中的一种或多种:最小值函数min、最大值函数max、标准差函数std、统计函数count、滑动窗口算法、分组算法、筛选算法以及自定义算法。
在一些可能的实现方式中,如图2所示,实时行车数据是一种流式数据,可以通过流式计算引擎如kafka或kinesis将流式数据转换成在线特征,并存入在线特征库。
S360:将在线特征输入预设模型,以获得预设模型输出的预测结果,该预测结果是在线特征对应的预测结果。
本申请中,如图2所示,每获得一份实时行车数据,就通过S350将该实时行车数据转换成在线特征,接着通过S360将该在线特征输入预设模型,从而获得预设模型输出的预测结果,进而实现了实时预测服务。
在一些可能的实现方式中,在将实时行车数据转换成在线特征后,可以直接将在线特征输入预设模型。
或者在另一些可能的实现方式中,在将实时行车数据转换成在线特征后,需要先将在线特征存入在线特征库,然后再从在线特征库中读取出在线特征,并将读取出的在线特征输入预设模型。为了实现实时预测服务,提高预测效率,在线特征库需要以非常低的延迟(例如<10ms)返回在线特征,因此可以选用面向行或键值存储类型的数据库作为在线特征库,例如Redis数据库或者MangoDB数据库。
在一些可能的实现方式中,预测模型的输入数据不仅包括当前的在线特征,还包括当前在线特征之前的在线特征。如此,在执行S140时,可以根据在线特征关联的属性信息,从在线特征库中读取对应的历史在线特征,将历史在线特征和在线特征输入预设模型,以获得预设模型输出的预测结果。其中,历史在线特征是指在获得在线特征之前已经被存入在线特征库的特征。
具体地,在将实时行车数据转换成在线特征后,可以根据在线特征的属性信息(例如设备标识),从在线特征库中查询与该设备标识相关联的在线特征,然后将查询到的在线特征和当前转换成的在线特征一起作为输入数据,输入预设模型,从而获得预设模型输出的预测结果。
或者在执行S140时,可以根据在线特征关联的属性信息,从离线特征库中读取对应的历史特征,将历史特征和在线特征输入预设模型,以获得预设模型输出的预测结果。其中,历史特征是指在获得在线特征之前已经从在线特征库迁移至离线特征库的特征。
具体地,在将实时行车数据转换成在线特征后,可以根据在线特征的属性信息(例如设备标识),从离线特征库中查询与该设备标识相关联的特征,然后将查询到的特征和当前转换成的在线特征一起作为输入数据,输入预设模型,从而获得预设模型输出的预测结果。
在一些可能的实现方式中,当获得预设模型输出的预测结果后,可以将预测结果存入在线特征库,预测结果与相应的在线特征共同组成一条数据。
S370:在满足预设条件的情况下,将在线特征库中存储的多个在线特征迁移至离线特征库。
在一些可能的实现方式中,预设条件可以是与时间相关的条件。例如可以周期性地将在线特征库中存储的在线特征迁移至离线特征库,比如当时间达到每天上午的10:30:00时刻时,需要将昨天上午10:30:00时刻至今天上午10:30:00时刻之间存入在线特征库的多个在线特征,迁移至离线特征库。
在一些可能的实现方式中,预设条件可以是与在线特征库剩余存储容量相关的条件。例如可以根据在线特征库的剩余存储容量,判断是否触发将在线特征库中存储的多个在线特征迁移至离线特征库。例如当在线特征库的剩余存储容量低于20%时,会将在线特征库中存储的多个在线特征迁移至离线特征库。
本申请中,由于每个在线特征关联有属性信息,因此迁移至离线特征库的在线特征也可以通过属性信息被区分,也可以通过属性信息被查询到。本申请通过将在线特征库中的在线特征迁移至离线特征库,从而可以扩充离线特征库的特征量,在后续训练其他模型时,可以提供更多的样本,进而有利于进一步提升模型训练效果。
在一些可能的实现方式中,为了将在线特征库中存储的多个在线特征迁移至离线特征库,具体可以在满足预设条件的情况下,针对在线特征库中的每个在线特征,如果该在线特征对应的预测结果的置信度大于预设阈值,则将该在线特征迁移至所述离线特征库。此外,如果在线特征对应的预测结果的置信度不大于预设阈值,则不将该在线特征迁移至所述离线特征库。
本申请中,如果在线特征对应的预测结果的置信度大于预设阈值,则说明该预测结果的可信程度很高,换言之,说明该预测结果具有很高的准确性。因此,如果预测结果的置信度大于预设阈值,则可以将该预测结果对应的在线特征迁移至离线特征库,同时将该预测结果也迁移至离线特征库,该预测结果可以作为该在线特征的标签。
在一些可能的实现方式中,在将在线特征存入在线特征库之前,可以根据实时行车数据对应的数据清理算法,判断实时行车数据是否包含离群值或者空值。在实时行车数据既不包含离群值也不包含空值的情况下,才将在线特征存入在线特征库。
示例性地,一方面,数据清理算法可以每隔预设时间段,对过于一段时间内采集的实时行车数据进行统计,从而获得相应的统计信息,该统计信息可以包括平均值和标准差。另一方面,每获得一份实时行车数据时,数据清理算法可以针对该实时行车数据中的每个数值,根据最新获得的平均值和标准差,基于奈尔检验法,判断该数值是否为离群值。
本申请中,通过判断实时行车数据是否包含离群值或者空值等坏数据,在实时行车数据不包含坏数据的情况下,才将实时行车数据转换成的在线特征存入在线特征库,从而有利于提升特征库的特征质量,进而在后续训练其他模型时,有利于进一步提升模型训练效果。
如图3所示,列车特征库管理方法还可以包括以下步骤:
S381:针对在线特征库中与目标属性信息相关联的多个在线特征,确定多个在线特征的第一统计信息。
其中,多个在线特征的第一统计信息可以是多个在线特征的均值和方差。
在一些可能的实现方式中,可以对预设模型输出的预测结果进行监控,从而根据预测结果的置信度确定是否执行S381。例如在过去的100个预测结果中,置信度低于0.8的预测结果的数量超过了50%,说明预设模型的预测结果的可信度不太高。因此可以通过执行S381至S383,从而判断预设模型是否维持有效。
在一些可能的实现方式中,也可以周期性地执行S381至S383。例如每隔一个星期,执行一次S381至S383。
S382:针对离线特征库中与目标属性信息相关联的多个离线特征,确定多个离线特征的第二统计信息。
其中,多个离线特征的第二统计信息可以是多个离线特征的均值和方差。
S383:根据第一统计信息和第二统计信息,判断预设模型是否维持有效。
本申请中,可以通过对比第一统计信息和第二统计信息,从而判断预设模型是否维持有效。如果第一统计信息和第二统计信息差异较大(例如第一统计信息和第二统计信息的差值超过预设阈值),则说明在线特征已经偏离了用于训练预设模型的离线特征,换言之,实时行车数据相比于用于训练预设模型的原始行车数据,已经发生了数据漂移。因此预设模型对于实时行车数据已经不再适用,预设模型不再有效。而如果第一统计信息和第二统计信息差异较小(例如第一统计信息和第二统计信息的差值未超过预设阈值),则说明在线特征没有偏离用于训练预设模型的离线特征,换言之,实时行车数据相比于用于训练预设模型的原始行车数据,没有发生数据漂移。因此预设模型对于实时行车数据仍然适用,预设模型维持有效。
S384:在预设模型不再有效的情况下,根据与目标属性信息相关联的多个在线特征,重新训练预设模型。
本申请中,实时行车数据相比于用于训练预设模型的原始行车数据,已经发生了数据漂移,导致预设模型不再有效的情况下,根据实时行车数据的多个在线特征重新训练预设模型,可以重新获得有效模型。
参考图4,图4是本申请一实施例提出的列车特征库管理装置400的示意图,其中,特征库包括离线特征库。如图4所示,列车特征库管理装置400包括:
离线特征存储模块410,用于获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将离线特征存入离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联。
查询请求获得模块420,用于获得查询请求,查询请求携带目标属性信息。
离线特征获取模块430,用于根据查询请求携带的目标属性信息,从离线特征库中获取与目标属性信息相关联的离线特征。
模型训练模块440,用于根据获取的离线特征,对预设模型进行训练。
在一些可能的实现方式中,查询请求携带的目标属性信息包括时间信息和目标设备的设备标识,其中,目标设备是用于监测列车行车数据的设备。
离线特征获取模块430具体用于:根据查询请求携带的时间信息和设备标识,从离线特征库中获取与时间信息和设备标识相关联的离线特征。
模型训练模块440具体用于:在获取到多种离线特征的情况下,对获取的多种离线特征进行拼接,并根据拼接后的离线特征,对预设模型进行训练,该预设模型是用于部署至目标列车的模型。
参考图5,图5是本申请一实施例提出的列车特征库管理装置400的示意图,该特征库除了包括离线特征库以外,还包括在线特征库。
如图5所示,在一些可能的实现方式中,列车特征库管理装置400还包括:
在线特征存储模块450,用于在利用训练完成的预设模型提供实时预测服务期间,采集目标列车的实时行车数据,并根据实时行车数据对应的转换算法,将实时行车数据转换为对应的在线特征,以及将在线特征存入在线特征库,在线特征与实时行车数据对应的属性信息相关联。
预测结果获得模块460,用于将在线特征输入预设模型,以获得预设模型输出的预测结果,该预测结果是在线特征对应的预测结果。
在线特征迁移模块470,用于在满足预设条件的情况下,将在线特征库中存储的多个在线特征迁移至离线特征库。
在一些可能的实现方式中,预测结果获得模块460具体用于:根据在线特征关联的属性信息,从在线特征库中读取对应的历史在线特征,将历史在线特征和在线特征输入预设模型,以获得预设模型输出的预测结果。其中,历史在线特征是指在获得在线特征之前已经被存入在线特征库的特征。
或者在一些可能的实现方式中,预测结果获得模块460具体用于:根据在线特征关联的属性信息,从离线特征库中读取对应的历史特征,将历史特征和在线特征输入预设模型,以获得预设模型输出的预测结果。其中,历史特征是指在获得在线特征之前已经从在线特征库迁移至离线特征库的特征。
在一些可能的实现方式中,在线特征迁移模块470具体用于:在满足预设条件的情况下,针对在线特征库中的每个在线特征,如果该在线特征对应的预测结果的置信度大于预设阈值,则将该在线特征迁移至离线特征库。
在一些可能的实现方式中,列车特征库管理装置400还包括:
坏数据判断模块480,用于根据实时行车数据对应的数据清理算法,判断实时行车数据是否包含离群值或者空值。
在线特征迁移模块470具体用于:在实时行车数据既不包含离群值也不包含空值的情况下,将在线特征存入在线特征库。
在一些可能的实现方式中,模型训练模块440还用于:针对在线特征库中与目标属性信息相关联的多个在线特征,确定多个在线特征的第一统计信息;针对离线特征库中与目标属性信息相关联的多个离线特征,确定多个离线特征的第二统计信息;根据第一统计信息和第二统计信息,判断预设模型是否维持有效;在预设模型不再有效的情况下,根据与目标属性信息相关联的多个在线特征,重新训练预设模型。
采用本申请实施例中提供的列车特征库管理装置,离线特征存储模块通过获得多种原始行车数据,并针对多种原始行车数据中的每种原始行车数据,根据该种原始行车数据对应的转换算法,将该种原始行车数据转换为对应的离线特征,并将离线特征存入离线特征库,从而使得离线特征库汇合了多种离线特征。每种离线特征携带有属性信息,因此可以通过属性信息区分不同的离线特征。在查询请求获得模块获得查询请求后,离线特征获取模块可以根据查询请求携带的目标属性信息,从离线特征库中获取携带有目标属性信息的离线特征。模型训练模块可以根据离线特征获取模块获取的离线特征,训练预设模型。可见,通过采用本申请实施例中提供的列车特征库管理装置,可以直接从离线特征库获取离线特征,从而有效缩短了特征工程阶段地耗时,从而有利于提高模型训练效率。
请参阅图6,图6是本申请一实施例提供的电子设备的结构框图,该电子设备600包括处理器610以及存储器620以及一个或多个应用程序,其中一个或多个应用程序被存储在存储器620中并被配置为由一个或多个处理器610执行,一个或多个程序配置用于执行上述列车特征库管理方法。
本申请中的电子设备600可以包括一个或多个如下部件:处理器610、存储器620、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器620内的指令、程序、代码集或指令集,以及调用存储在存储器620内的数据,执行电子设备600的各种功能和处理数据。可选地,处理器610可以采用数字信号处理(DigitalSignalProcessing,DSP)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、可编程逻辑阵列(ProgrammableLogicArray,PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessingUnit,CPU)、图像处理器(GraphicsProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器610中,单独通过一块通信芯片进行实现。
存储器620可以包括随机存储器(RandomAccessMemory,RAM),也可以包括只读存储器(Read-OnlyMemory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种列车特征库管理方法,其特征在于,所述特征库包括离线特征库,所述方法包括:
获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将所述离线特征存入所述离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联;
获得查询请求,所述查询请求携带目标属性信息;
根据所述查询请求携带的目标属性信息,从所述离线特征库中获取与所述目标属性信息相关联的离线特征;
根据获取的离线特征,对预设模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述查询请求携带的目标属性信息包括时间信息和目标设备的设备标识,所述目标设备是用于监测列车行车数据的设备;
所述根据所述查询请求携带的目标属性信息,从所述离线特征库中获取与所述目标属性信息相关联的离线特征,包括:
根据所述查询请求携带的所述时间信息和所述设备标识,从所述离线特征库中获取与所述时间信息和所述设备标识相关联的离线特征;
所述根据获取的离线特征,对预设模型进行训练,包括:
在获取到多种离线特征的情况下,对获取的所述多种离线特征进行拼接,并根据拼接后的离线特征,对所述预设模型进行训练,所述预设模型是用于部署至目标列车的模型。
3.根据权利要求1所述的方法,其特征在于,所述特征库还包括在线特征库,所述方法还包括:
在利用训练完成的所述预设模型提供实时预测服务期间,采集目标列车的实时行车数据,并根据所述实时行车数据对应的转换算法,将所述实时行车数据转换为对应的在线特征,以及将所述在线特征存入所述在线特征库,所述在线特征与所述实时行车数据对应的属性信息相关联;
将所述在线特征输入所述预设模型,以获得所述预设模型输出的预测结果,所述预测结果是所述在线特征对应的预测结果;
在满足预设条件的情况下,将所述在线特征库中存储的多个在线特征迁移至所述离线特征库。
4.根据权利要求3所述的方法,其特征在于,所述将所述在线特征输入所述预设模型,以获得所述预设模型输出的预测结果,包括:
根据所述在线特征关联的属性信息,从所述在线特征库中读取对应的历史在线特征,将所述历史在线特征和所述在线特征输入所述预设模型,以获得所述预设模型输出的预测结果,所述历史在线特征是指在获得所述在线特征之前已经被存入所述在线特征库的特征;或者,
根据所述在线特征关联的属性信息,从所述离线特征库中读取对应的历史特征,将所述历史特征和所述在线特征输入所述预设模型,以获得所述预设模型输出的预测结果,所述历史特征是指在获得所述在线特征之前已经从所述在线特征库迁移至所述离线特征库的特征。
5.根据权利要求3所述的方法,其特征在于,所述在满足预设条件的情况下,将所述在线特征库中存储的多个在线特征迁移至所述离线特征库,包括:
在满足预设条件的情况下,针对所述在线特征库中的每个在线特征,如果该在线特征对应的预测结果的置信度大于预设阈值,则将该在线特征迁移至所述离线特征库。
6.根据权利要求3所述的方法,其特征在于,在将所述在线特征存入所述在线特征库之前,所述方法还包括:
根据所述实时行车数据对应的数据清理算法,判断所述实时行车数据是否包含离群值或者空值;
所述将所述在线特征存入所述在线特征库,包括:
在所述实时行车数据既不包含离群值也不包含空值的情况下,将所述在线特征存入所述在线特征库。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
针对所述在线特征库中与所述目标属性信息相关联的多个在线特征,确定所述多个在线特征的第一统计信息;
针对所述离线特征库中与所述目标属性信息相关联的多个离线特征,确定所述多个离线特征的第二统计信息;
根据所述第一统计信息和所述第二统计信息,判断所述预设模型是否维持有效;
在所述预设模型不再有效的情况下,根据与所述目标属性信息相关联的多个在线特征,重新训练所述预设模型。
8.一种列车特征库管理装置,其特征在于,所述特征库包括离线特征库,所述装置包括:
离线特征存储模块,用于获得列车的多种原始行车数据,并根据每种原始行车数据对应的转换算法,将每种原始行车数据转换为对应的离线特征,以及将所述离线特征存入所述离线特征库,其中,每种原始行车数据对应的离线特征与相应原始行车数据对应的属性信息相关联;
查询请求获得模块,用于获得查询请求,所述查询请求携带目标属性信息;
离线特征获取模块,用于根据所述查询请求携带的目标属性信息,从所述离线特征库中获取与所述目标属性信息相关联的离线特征;
模型训练模块,用于根据获取的离线特征,对预设模型进行训练。
9.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器以及总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的方法。
CN202110790470.2A 2021-07-13 2021-07-13 列车特征库管理方法、装置、电子设备及可读存储介质 Pending CN113626508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790470.2A CN113626508A (zh) 2021-07-13 2021-07-13 列车特征库管理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790470.2A CN113626508A (zh) 2021-07-13 2021-07-13 列车特征库管理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113626508A true CN113626508A (zh) 2021-11-09

Family

ID=78379710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790470.2A Pending CN113626508A (zh) 2021-07-13 2021-07-13 列车特征库管理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113626508A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5746097B1 (zh) * 1969-08-13 1982-10-01 Burroughs Corp
KR20010001051A (ko) * 1999-06-01 2001-01-05 정선종 비동기 전달방식 교환기에서 오프라인 통계 처리시스템 및 그 방법
US6879971B1 (en) * 1995-12-22 2005-04-12 Pavilion Technologies, Inc. Automated method for building a model
US20110231423A1 (en) * 2006-04-19 2011-09-22 Google Inc. Query Language Identification
CN103118120A (zh) * 2013-02-17 2013-05-22 北京量子伟业时代信息技术有限公司 一种智能离线数据上传系统
CN106294776A (zh) * 2016-08-12 2017-01-04 北京东方车云信息技术有限公司 一种数据处理方法及装置
CN109857809A (zh) * 2019-01-31 2019-06-07 浙江小泰科技有限公司 一种原始数据库数据同步到目标数据库的同步方法及系统
CN110442598A (zh) * 2019-07-22 2019-11-12 阿里巴巴集团控股有限公司 一种数据查询方法和装置
CN110716825A (zh) * 2018-07-12 2020-01-21 阿里巴巴集团控股有限公司 数据容灾处理方法、装置及系统
CN112947853A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 数据存储方法、装置、服务器、介质及程序产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5746097B1 (zh) * 1969-08-13 1982-10-01 Burroughs Corp
US6879971B1 (en) * 1995-12-22 2005-04-12 Pavilion Technologies, Inc. Automated method for building a model
KR20010001051A (ko) * 1999-06-01 2001-01-05 정선종 비동기 전달방식 교환기에서 오프라인 통계 처리시스템 및 그 방법
US20110231423A1 (en) * 2006-04-19 2011-09-22 Google Inc. Query Language Identification
CN103118120A (zh) * 2013-02-17 2013-05-22 北京量子伟业时代信息技术有限公司 一种智能离线数据上传系统
CN106294776A (zh) * 2016-08-12 2017-01-04 北京东方车云信息技术有限公司 一种数据处理方法及装置
CN110716825A (zh) * 2018-07-12 2020-01-21 阿里巴巴集团控股有限公司 数据容灾处理方法、装置及系统
CN109857809A (zh) * 2019-01-31 2019-06-07 浙江小泰科技有限公司 一种原始数据库数据同步到目标数据库的同步方法及系统
CN110442598A (zh) * 2019-07-22 2019-11-12 阿里巴巴集团控股有限公司 一种数据查询方法和装置
CN112947853A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 数据存储方法、装置、服务器、介质及程序产品

Similar Documents

Publication Publication Date Title
CN111754024B (zh) 一种基于回归分析的电力行业时间序列的预测方法和系统
CN105930257B (zh) 一种确定目标测试用例的方法及装置
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN113361578A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN115122155A (zh) 基于工业互联网大数据的机床远程诊断方法及系统
CN115085196A (zh) 电力负荷预测值确定方法、装置、设备和计算机可读介质
CN117110748A (zh) 一种基于融合终端的变电站主设备运行状态异常检测方法
CN115347915A (zh) 一种电力线载波通信设备运行状态的检测方法及装置
US20230297095A1 (en) Monitoring device and method for detecting anomalies
CN112651172B (zh) 一种降雨峰值类型划分方法、装置、设备和存储介质
CN117094535B (zh) 基于人工智能的能源补给管理方法及系统
CN112783508B (zh) 文件的编译方法、装置、设备以及存储介质
CN112363465B (zh) 一种专家规则集训练方法、训练器和工业设备预警系统
CN111090401B (zh) 存储设备性能预测方法及装置
US11663679B2 (en) Generating mode change alerts with automatic detection from sensor data
CN113626508A (zh) 列车特征库管理方法、装置、电子设备及可读存储介质
CN114157486B (zh) 通信流量数据异常检测方法、装置、电子设备及存储介质
CN110874601A (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
CN114530163A (zh) 基于密度聚类的采用声音识别设备生命周期的方法及系统
JP2023042919A (ja) 機械学習モデル評価システム及び方法
CN114676002A (zh) 基于phm技术的系统运维方法及装置
CN111611117A (zh) 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN117667606B (zh) 基于用户行为的高性能计算集群能耗预测方法及系统
CN114926154B (zh) 一种多场景数据识别的保护切换方法及系统
CN116684306B (zh) 一种故障预测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination