CN107563426B - 一种机车运行时序特征的学习方法 - Google Patents
一种机车运行时序特征的学习方法 Download PDFInfo
- Publication number
- CN107563426B CN107563426B CN201710738298.XA CN201710738298A CN107563426B CN 107563426 B CN107563426 B CN 107563426B CN 201710738298 A CN201710738298 A CN 201710738298A CN 107563426 B CN107563426 B CN 107563426B
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- feature
- learning
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003137 locomotive effect Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000005065 mining Methods 0.000 claims description 44
- 238000013136 deep learning model Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 13
- 230000010365 information processing Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000009412 basement excavation Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000005406 washing Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 210000001503 joint Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种机车运行时序特征学习方法,其首先完成数据的补全融合和特征选择,对源数据进行去冗余和降维得出初始特征集合;并从中找出关键特征子集;然后具备时序数据学习能力的目标应用模型,直接将这些关键特征子集作为输入并进行深度学习;针对不具备时序数据学习能力的目标应用模型,则提取出关键特征的时序特征信息,并针对这些时序特征信息进行深度学习,扩充该目标应用模型的学习能力。本发明能够根据应用场景的不同,为不同特征数据的输入提供相应的目标应用模型。
Description
技术领域
本发明涉及机车数据处理领域,尤其涉及一种机车运行时序特征的学习方法。
背景技术
数据分析是智能制造的基础,随着机器学习技术的快速发展,越来越多的机器学习模型被用于工业数据的挖掘和分析中,机车自动驾驶便是其中一个重要的应用方向。然而由于所采数据具有大体量、多源性、连续采样、价值密度低、复杂度高和动态性强等特点,这些特点使其不同于互联网等数据流,分析难度与对分析精度的要求相对较高。这就使得特征学习越来越成为工业数据学习和分析的关键步骤。因此,为了更加准确地进行数据的分析与预测,需对数据进行有效的特征学习来实现工业数据的降维和有效紧致表达,利用原始的特征空间构建一个新的低维空间,从而消除原始数据中的冗余特征及不相关特征,有效降低数据的维度,优化数据挖掘和分析效果。
机车自动驾驶所用到的司机历史驾驶数据与机车运行监控日志具有明显的时序性,可以被看做时序数据。时序数据和其它数据相比具有如下特征:(1)时序数据往往包含更多的噪声数据并且维度更高;(2)往往不能确定所能够得到的时序数据集对于挖掘出其潜在变化规律来说规模是否足够;(3)时间序列对时间变量有明确的依赖。这些特征使得时序数据在进行特征提取时往往会面临着更大的挑战。近年来深度学习在模式识别、计算机视觉、语音识别等问题上取得了突破性的进展,如何将深度学习的高功效应用于时间序列的分析目前还缺乏标志性的研究成果。
发明内容
本发明针对现有技术的问题,提出了一种机车运行时序特征的学习方法,其能够解决工业数据冗余性强、数据量大、纬度高等问题,能够减小数据获取对人的依赖度,从而能够显著提高工程设计与实现的效率。
本发明通过如下技术方案实现:
本发明提供一种机车运行时序特征学习方法,其包括:
步骤S101,提取司机历史驾驶数据和机车监控日志作为源数据;
步骤S102,对源数据进行数据清洗;对清洗后得到的有效数据进行数据补全和数据融合,得到去冗降维后的初始特征集合;
步骤103,从初始特征集合中搜索出重要特征子集,并针对重要特征子集进行特征选择,得出关键特征子集;
步骤S104,调取应用场景所使用的挖掘模型;
步骤S105,判断应用场景所使用的挖掘模型是否具有时序信息处理能力,若挖掘模型不具有时序信息处理能力,则执行步骤S106-步骤S107;若挖掘模型具有时序信息处理能力,则直接转入执行步骤S108;
步骤S106,提取出关键特征子集的时序特征信息;
步骤S107,将该时序特征信息作为挖掘模型的输入,利用该挖掘模型进行时序特征信息的学习;
步骤S108,直接将关键特征子集中的关键特征作为这类挖掘模型的输入,利用该挖掘模型进行时序特征信息的学习,挖掘模型的输出为所需的时序特征信息。
更优选地,所述步骤S103包括:
采用先验知识确定包含重要特征数据的样本空间,在包含重要特征数据的样本空间中进行随机搜索,从初始特征集合中搜索出重要特征子集;
采用独立评价函数从搜索出的多个重要特征子集中选出关键特征,并组成关键特征子集。
更优选地,所述步骤S106包括:利用深度学习模型提取关键特征子集中的时序特征信息;所述深度学习模型包括但不限于如下的深度学习模型:深度自编码器、深度信念网络。
更优选地,所述步骤S102中的对源数据进行数据清洗的过程包括如下中的一种或多种:
检查工业数据的完整性和一致性,去噪声,填补丢失数据,删除无效数据。
更优选地,步骤S102中的对清洗后得到的有效数据进行数据补全和数据融合得到去冗降维后的初始特征集合的过程包括:
计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率,选取概率最大的属性值对清洗后得到的有效数据进行数据补全,得到完整特征数据;
针对数据补全后得到的完整特征数据进行数据融合,经过数据融合去冗降维处理后得到初始特征集合。
由上述本发明的技术方案可以看出,本发明具有如下技术效果:
面向机车自动驾驶所用到的司机历史驾驶数据与机车运行监控日志数据,设计一种较为个性化的特征学习方案,利用相应的数据清洗、补全融合等处理过程解决工业数据冗余性强、数据量大、纬度高等问题,利用深度学习模型中的非监督或半监督的思想克服工业数据进行样本标注需要过高成本的瓶颈,极大减小数据获取对人的依赖度,显著提高工程设计与实现的效率。同时,根据应用场景所使用的挖掘模型是否具有时序信息处理能力作为划分,分别为两类模型提供不同的特征学习方案,实现不同类型的特征对接的目标。
附图说明
图1为本发明的实施流程图。
具体实施方式
为使本发明更为清晰,下面结合附图对本发明进行详细地说明。
实施例一:
本实施例一提供一种机车运行时序特征的学习方法,其面向时序工业数据,首先完成数据的补全融合和特征选择,对源数据进行去冗余和降维得出初始特征集合;并从中找出关键特征子集;然后具备时序数据学习能力的目标应用模型,直接将这些关键特征子集作为输入并进行深度学习;针对不具备时序数据学习能力的目标应用模型,则提取出关键特征的时序特征信息,使用机器学习算法进行工业数据的时序特征信息学习,扩充该目标应用模型的学习能力。最终实现根据应用场景的不同,为不同特征数据的输入提供相应的目标应用模型。
实施例一的实施流程如图1所示,其包括:
步骤S101,提取司机历史驾驶数据和机车监控日志作为源数据。
从铁路机车中的LKJ(列车运行控制记录装置)能够获得铁路机车司机的历史驾驶数据和机车运行监控日志。针对一个特定的司机在特定的路线上的机车驾驶数据,应该收集的数据包括:机车属性、线路属性以及机车行驶日志。其中,机车属性包括车重、车长、重车辆数和轻车辆数。线路属性包括线路的坡度、限速信息、车站信息、两站之间的运行时间信息。机车行驶日志包括时间戳、行驶速度、机车行驶档位、耗油量记录等信息。将收集到的数据构成源数据。
步骤S102,对源数据进行数据清洗,包括但不限于如下中的一种或多种:检查工业数据的完整性和一致性,去噪声,填补丢失数据,删除无效数据;对清洗后得到的有效数据进行数据补全和数据融合,得到去冗降维后的初始特征集合。
初始特征集合的形成需要数据补全和数据融合两个关键步骤:
第一个步骤是数据补全。数据缺失在工业数据中非常常见,产生原因可能是设备异常、与其它数据不一致而被删除,或者数据改变没有进行日志记载等等。对于其它规模不大的数据,一般可以手工补全或者忽略相关数据;而针对数据量规模非常庞大的工业数据,这类手工补全或者忽略的方法效率过低且会丢失大量信息,因此是十分不适用的。本实施例针对数据量规模非常庞大的工业数据进行数据补全时,先计算每个属性的先验概率;然后计算当某个属性值Xi=CK(其中Ck表示样本空间,Xi表示样本空间Ck的任一属性)时,Xi的条件概率;最后如果属性Xi缺失了一个属性值并且此属性值属于Xi,设J为X记录里所有非缺失值的索引集合,计算该属性值的后验概率。该数据补全过程的具体执行情况如下:
取C1,…Ck,…CL是样本空间,对于样本空间Ck的任一属性X,采用贝叶斯定理,都满足如下公式1:
其中,P(Ck|X)是属性X的后验概率,P(Ck)是属性X的先验概率, P(X|k)是在样本空间Ck中X发生的概率。
对于P(Ck),容易从源数据中计算出,但是当计算高维数据的P(X|k),需要花费大量的计算过程,为了避免这个问题,本实施例采用朴素贝叶斯方法假设属性间是互相条件独立的。这样采用公式2就容易计算出P(X|k):
设共有M个属性,X=(X1,X2,…,XM)这样分类,其中属性Xj划分为样本空间Ck,k=1,…,L中,则有下面的公式2成立。
公式2中,X是指属性集;Xj是指属性集X所包含的第j个属性; Pxj|Ck)是样本空间Ck发生时属性集X中的某一属性Xj的属性值的概率。
将贝叶斯方法应用在数据补全方面,具体应用方法可描述如下:
给定数据集有N条记录和M个属性X1,…,XM,Li代表属性Xi的分类个数,Ni代表包含已知Xi属性的记录个数,Nik是当Xi等于它的第K个分类cik的记录个数,Njr|ik是当Xj等于它的第r个分类cjr的记录个数,且当 Xi=cik,j≠i时,执行如下步骤:
首先计算每个属性的先验概率:
P(Xi=cik)=Nik/Ni,i=1,…,Li
................公式3
公式3中,Xi表示给定数据属性集X中的第i个属性;Li表示属性Xi的分类个数;Ni表示包含属性Xi的记录个数;Nik表示当属性Xi等于它的第K个分类cik时的记录个数。
其次计算当Xi=cik时,Xj的条件概率:
P(Xj=cjr|(Xi=cik))=Njr|ik/Nik,j=1,…,M,j≠i,r=1,…Lj
................公式4
公式4中,Njr|ik是当属性Xj等于它的第r个分类cjr时的记录个数;Nik表示当属性Xi等于它的第K个分类cik时的记录个数;Li表示属性Xi的分类个数;M表示给定数据集中属性集X中的属性个数;Xj表示X中的第j 个属性;Xi表示X中的第i个属性。
如果属性集X中的某一属性Xi缺失了一个属性值,并且此属性值属于 Xi,设J为属性集X记录里所有非缺失值的索引集合,利用公式5计算属性集X的后验概率。这里P(XJ)值不需要计算出来,因为在计算过程中可以约掉。
公式5中,J为属性Xj的记录里所有非缺失值的索引集合;XJ表示Xj属性值为某一缺失值这一事件发生;Xi表示给定数据集中的属性集X中的第i个属性;Li表示属性Xi的分类个数;cik表示给定数据集中的第K个分类;cjr表示给定数据集中的第r个分类。
通过以上步骤分别计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率,选取概率最大的属性值对清洗后得到的有效数据进行数据补全,得到完整特征数据。
第二个步骤是针对数据补全后得到的完整特征数据进行数据融合,经过数据融合去冗降维处理后得到初始特征集合。
数据融合解决的第一个问题主要是模式集成和对象匹配问题。来源不同机车驾驶数据在类型、表现形式、内容上存在极大差异。数据语义的异构和结构对数据集成提出了巨大挑战。模式集成需要合并这些来自多个数据源中的数据,同意原始数据中的所有矛盾之处,如数据的同名异义、异名同义等问题,把这些原始数据在最低层次上加以转换、提炼和聚集。对象匹配过程中,需要针对来自多个信息源的现实工业过程中的等价实体的进行实体识别。以机车驾驶数据为例,一个数据源的train_num和另一个数据源的locomotive_id为等价实体,则二者属于同一个属性。
数据融合解决的第二个问题是数据冗余问题,一个属性可能是冗余的,它能由另一个或另一组属性导出,比如机车自动驾驶数据中,机车所运行的公里数是可以由其经过的站台数计算出来的。属性或维命名的不一致也可能导致结果数据集中的冗余,有些冗余可以被相关分析检测到。对于数值属性,通过计算属性A和B之间的相关系数又称皮尔逊积矩系数,可以估计这两个属性的相关系数rA,B。相关系数的计算公式如下:
根据公式6计算得到属性A和B之间的相关系数rA,B后,将rA,B与0 进行比较,如果rA,B等于0则属性A和B毫无关联,则无需进行去除数据冗余操作;如果rA,B大于0,则表示属性A和B正相关;如果rA,B小于0,则表示属性A和B是负相关;无论属性A和B之间呈正相关或者负相关,则表示属性A和B为冗余属性,则需要进行去冗余操作,只保留其中一个属性。
步骤103,从初始特征集合中搜索出重要特征子集,并针对重要特征子集进行特征选择,得出关键特征子集。
经过上述步骤S102预处理过程,可以得到时序工业数据的初始特征集合。但由于工业数据的规模很庞大,这些初始特征集合中的特征数目往往非常大,其中包含了大量不重要的或者不相关的特征。为了解决因特征数目不断增加、维度多且复杂而导致分类系统分类性能下降的问题,需要从大量的工业数据特征中选择出初始特征集合中的关键特征子集。为此,本实施例采用设定的特征搜索策略和特征搜索结果评价规则,对初始特征集合进行搜索,搜索出重要特征子集;然后从这些重要特征子集中进行特征选择,得出关键特征子集。具体执行过程如下:
首先,采用先验知识确定包含重要特征数据的样本空间,在包含重要特征数据的样本空间中进行随机搜索,从初始特征集合中搜索出重要特征子集。
因为列车运行数据是从实际驾驶现场搜集来的,往往各个现场均有大量的工作人员在负责,这些工作人员积累了大量的工作经验,这些工作经验被称之为先验知识。可以把这些先验知识加入到特征搜索策略中进行搜索。根据先验知识确定可能出现最优解的样本空间,并利用特征搜索策略对可能出现最优解的样本空间进行搜索,最终得到多个重要特征子集。以机车自动驾驶应用场景为例,机车的车重车场、所运行的线路场景和运行过程中的速度和档位等都是非常重要的特征数据,通过特征搜索算略可以引导特征搜索算法从包含这些数据的样本空间进行搜索,这样既利用了先验知识,又避免了随机搜索过于发散。
然后,采用独立评价函数从搜索出的多个重要特征子集中选出关键特征,并组成关键特征子集。
独立评价函数是指与学习算法无关,根据训练样本的固有特征去评价每个特征优劣的函数。其中固有特征包括特征的相关度等等。从搜索出的重要特征子集中选取出其中一个特征作为当前特征,利用评价函数判断当前特征的优劣,如果当前特征优于之前的特征,则用当前特征替代之前的特征,迭代此过程直至最终得到关键特征。将每个重要特征子集中选出的关键特征归集到关键特征子集中。通过上述独立评价函数,得出的关键特征子集能适用于多种应用模型,灵活性更强,且需要更少的计算成本。
步骤S104,调取应用场景所使用的挖掘模型。
步骤S105,判断应用场景所使用的挖掘模型是否具有时序信息处理能力,若挖掘模型不具有时序信息处理能力,则执行步骤S106-步骤S107;若挖掘模型具有时序信息处理能力,则直接转入执行步骤S108。
利用应用场景所使用的挖掘模型是否具有时序特征信息处理能力作为划分依据,分别为两类挖掘模型提供不同的特征学习方案,可以实现不同类型特征的对接。
经过上述步骤S101至步骤S103后,筛选出关键特征子集,此时对于很多应用场景来说,这些关键特征子集已经可以直接作为其挖掘模型的输入,因为它们使用的挖掘模型大都具备对输入数据有很强的时序特征信息学习能力,如LSTM、HMM等挖掘模型。而部分应用场景所采用的挖掘模型不适合直接用于时序性很强的学习,而有些应用场景所使用的挖掘模型不能挖掘出数据的时序特征信息,比如超图模型等,不适合直接用于时序性很强的工业数据(如机车驾驶数据)的学习,针对此类挖掘模型,需要执行后续的步骤S106至步骤S107。
步骤S106,提取出关键特征子集的时序特征信息。
本发明利用深度学习模型提取关键特征子集中的时序特征信息。深度学习模型得出的结果即为所需要提取的时序特征信息。
在选深度学习模型时,需要从以下几个方面考虑:
(1)可生成性:所选的深度学习模型需要能够重构源数据,重构后的数据可以表征源数据的一些隐藏信息并可用于后期分类模型。
(2)时序性:所选的深度学习模型需要对时序特征信息敏感,可以挖掘出输入数据的时序特征信息。
(3)非监督or半监督性:所选的深度学习模型需要适应机车驾驶数据标签不均衡的特征,对于少标或者无标的数据也可以有效地进行学习。
针对上述考虑,筛选出的深度学习模型包括但不限于如下的深度学习模:深度自编码器、深度信念网络。
其中的深度自动编码器是一种特殊类型的深度神经网络,网络的输入层和输出层有相同的维度,所期望得到的输出即为网络原始输入,可以提取数据在隐含层的特征。深度自动编码器不需要预先知道训练样本的类别信息,以原始输入作为校验,进行无监督地特征学习,非常适合对海量未标注工业数据的处理。特别的,当设置的隐含层节点数比输入层少时,该深度自动编码器还可实现特征压缩。
其中的深度信念网络(DBN)是一种深层次的神经网络,它也是无监督学习算法的一种。DBN采用若干RBM级联的方式逐层贪婪训练,通过对比散度(ContrastiveDivergence,CD)的高效近似算法,能够较好的提取出训练数据中的层次化结构性特征,更适合处理本发明所要研究的时序机车驾驶数据。
步骤S107,将该时序特征信息作为挖掘模型的输入,利用该挖掘模型进行时序特征信息的学习。
对于不具有时序特征信息处理能力的挖掘模型,比如DBN挖掘模型,需要将步骤S106得到的时序特征信息进行抽象表示,作为该类挖掘模型的输入,利用该挖掘模型进行时序特征信息学习。这类挖掘模型采用的学习方法非常统一,比如采用梯度下降法等等机器学习算法进行时序特征信息学习。通过上述步骤S107,能够解决时序工业数据隐含的时序特征信息丢失的问题。
步骤S108,直接将关键特征子集中的关键特征作为这类挖掘模型的输入,挖掘模型的输出即为所需的时序特征信息。
对于具有时序信息能力挖掘的挖掘模型,如LSTM、HMM等挖掘模型,直接将关键特征子集中的关键特征作为这类挖掘模型的输入,挖掘模型的输出即为所需的时序特征信息。
本发明面向时序工业数据,设计一种较为个性化的特征学习方案,利用相应的数据清洗、特征子集搜索方法完成特征选择、对源数据进行去冗余和降维等处理过程解决工业数据冗余性强、数据量大、纬度高等问题;
利用深度学习模型中的非监督或半监督的思想克服了工业数据进行样本标注需要过高成本的瓶颈,极大减小数据获取对人的依赖度,显著提高工程设计与实现的效率。
根据应用场景所使用的挖掘模型是否具有时序信息处理能力作为划分,分别为两类模型提供不同的特征学习方案:对于不具备时序数据学习能力的目标应用挖掘模型,先提取出关键特征中的时序特征信息,然后将该时序特征信息作为该类挖掘模型的输入,并进行后续的时序特征信息学习,通过这种方法能够扩充该类挖掘模型的学习能力;对于具备时序特征信息学习能力的目标应用挖掘模型,直接将关键特征作为其输入。本发明能够实现不同类型的机车运行特征对接到适合的目标应用挖掘模型。
虽然本发明已以较佳实施例公开如上,但实施例并不是用来限定本发明的。在不脱离本发明之精神和范围内,所做的任何等效变化或润饰,同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。
Claims (4)
1.一种机车运行时序特征学习方法,其特征在于,所述的方法包括:
步骤S101,提取司机历史驾驶数据和机车监控日志作为源数据;
步骤S102,对源数据进行数据清洗;计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率,选取概率最大的属性值对清洗后得到的有效数据进行数据补全,得到完整特征数据;针对数据补全后得到的完整特征数据进行数据融合,经过数据融合去冗降维处理后得到初始特征集合;
步骤S103,从初始特征集合中搜索出重要特征子集,并针对重要特征子集进行特征选择,得出关键特征子集;
步骤S104,调取应用场景所使用的挖掘模型;
步骤S105,判断应用场景所使用的挖掘模型是否具有时序信息处理能力,若挖掘模型不具有时序信息处理能力,则执行步骤S106-步骤S107;若挖掘模型具有时序信息处理能力,则直接转入执行步骤S108;
步骤S106,提取出关键特征子集的时序特征信息;
步骤S107,将该时序特征信息作为挖掘模型的输入,利用该挖掘模型进行时序特征信息的学习;
步骤S108,直接将关键特征子集中的关键特征作为挖掘模型的输入,利用该挖掘模型进行时序特征信息的学习,挖掘模型的输出为所需的时序特征信息。
2.根据权利要求1所述的机车运行时序特征学习方法,其特征在于,所述步骤S103包括:
采用先验知识确定包含重要特征数据的样本空间,在包含重要特征数据的样本空间中进行随机搜索,从初始特征集合中搜索出重要特征子集;
采用独立评价函数从搜索出的多个重要特征子集中选出关键特征,并组成关键特征子集。
3.根据权利要求1或2所述的机车运行时序特征学习方法,其特征在于,
所述步骤S106包括:利用深度学习模型提取关键特征子集中的时序特征信息;
所述深度学习模型包括但不限于如下的深度学习模型:深度自编码器、深度信念网络。
4.根据权利要求3所述的机车运行时序特征学习方法,其特征在于,所述步骤S102中的对源数据进行数据清洗的过程包括如下中的一种或多种:
检查工业数据的完整性和一致性,去噪声,填补丢失数据,删除无效数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710738298.XA CN107563426B (zh) | 2017-08-25 | 2017-08-25 | 一种机车运行时序特征的学习方法 |
PCT/CN2018/095176 WO2019037557A1 (zh) | 2017-08-25 | 2018-07-10 | 一种机车运行时序特征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710738298.XA CN107563426B (zh) | 2017-08-25 | 2017-08-25 | 一种机车运行时序特征的学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107563426A CN107563426A (zh) | 2018-01-09 |
CN107563426B true CN107563426B (zh) | 2020-05-22 |
Family
ID=60976873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710738298.XA Active CN107563426B (zh) | 2017-08-25 | 2017-08-25 | 一种机车运行时序特征的学习方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107563426B (zh) |
WO (1) | WO2019037557A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563426B (zh) * | 2017-08-25 | 2020-05-22 | 清华大学 | 一种机车运行时序特征的学习方法 |
CN108415938A (zh) * | 2018-01-24 | 2018-08-17 | 中电科华云信息技术有限公司 | 一种基于智能模式识别的数据自动标注的方法及系统 |
CN108460481B (zh) * | 2018-01-30 | 2021-11-19 | 中国航天电子技术研究院 | 基于循环神经网络的无人机侦察目标演变规律预测方法 |
CN108490782B (zh) * | 2018-04-08 | 2019-04-09 | 中南大学 | 一种基于选择性双层集成学习适用于复杂工业过程产品质量指标缺失数据补全的方法及系统 |
CN110824912B (zh) * | 2018-08-08 | 2021-05-18 | 华为技术有限公司 | 训练用于生成自动驾驶策略的控制策略模型的方法和装置 |
CN110865625A (zh) * | 2018-08-28 | 2020-03-06 | 中国科学院沈阳自动化研究所 | 一种基于时间序列的工艺数据异常检测方法 |
CN109635246B (zh) * | 2018-12-06 | 2021-07-13 | 西南交通大学 | 一种基于深度学习的多属性数据建模方法 |
CN110263846B (zh) * | 2019-06-18 | 2021-12-28 | 华北电力大学 | 基于故障数据深度挖掘及学习的故障诊断方法 |
CN112466401B (zh) * | 2019-09-09 | 2024-04-09 | 华为云计算技术有限公司 | 利用人工智能ai模型组分析多类数据的方法及装置 |
CN111563560B (zh) * | 2020-05-19 | 2023-05-30 | 上海飞旗网络技术股份有限公司 | 基于时序特征学习的数据流分类方法及装置 |
CN113467457A (zh) * | 2021-07-08 | 2021-10-01 | 无锡太机脑智能科技有限公司 | 一种用于无人环卫车贴边清扫的图优化路径规划方法 |
CN113703923B (zh) * | 2021-08-31 | 2024-05-28 | 深信服科技股份有限公司 | 一种业务问题的识别方法、装置、设备和介质 |
CN114882860B (zh) * | 2022-06-14 | 2023-04-07 | 南京工程学院 | 一种基于聚类分析的充电桩降噪控制方法、装置和系统 |
CN116226911B (zh) * | 2023-01-06 | 2023-10-27 | 中电车联信安科技有限公司 | 一种基于车云通信的防轨迹泄漏用信息处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844949A (zh) * | 2017-01-18 | 2017-06-13 | 清华大学 | 一种用于实现机车节能操纵的双向lstm模型的训练方法 |
CN106980746A (zh) * | 2016-12-16 | 2017-07-25 | 清华大学 | 一种基于时序分析的通用无创血糖预测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080104101A1 (en) * | 2006-10-27 | 2008-05-01 | Kirshenbaum Evan R | Producing a feature in response to a received expression |
CN104992050A (zh) * | 2015-06-12 | 2015-10-21 | 哈尔滨工业大学 | 基于统计信号处理的时间序列特性评价的预测模型选择方法 |
CN105205111A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种挖掘时序数据故障模式的系统及方法 |
CN105205113A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常变化过程的挖掘系统及方法 |
CN106649579A (zh) * | 2016-11-17 | 2017-05-10 | 苏州航天系统工程有限公司 | 一种用于管网建模的时序数据清洗方法 |
CN106803204A (zh) * | 2017-01-17 | 2017-06-06 | 上海聚赟大数据有限公司 | 一种基于机器学习的债券发行人违约分析方法 |
CN106842925B (zh) * | 2017-01-20 | 2019-10-11 | 清华大学 | 一种基于深度强化学习的机车智能操纵方法与系统 |
CN107563426B (zh) * | 2017-08-25 | 2020-05-22 | 清华大学 | 一种机车运行时序特征的学习方法 |
-
2017
- 2017-08-25 CN CN201710738298.XA patent/CN107563426B/zh active Active
-
2018
- 2018-07-10 WO PCT/CN2018/095176 patent/WO2019037557A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980746A (zh) * | 2016-12-16 | 2017-07-25 | 清华大学 | 一种基于时序分析的通用无创血糖预测方法 |
CN106844949A (zh) * | 2017-01-18 | 2017-06-13 | 清华大学 | 一种用于实现机车节能操纵的双向lstm模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107563426A (zh) | 2018-01-09 |
WO2019037557A1 (zh) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563426B (zh) | 一种机车运行时序特征的学习方法 | |
CN107122594B (zh) | 一种新能源车辆电池的健康预测方法和系统 | |
CN112149316A (zh) | 基于改进的cnn模型的航空发动机剩余寿命预测方法 | |
CN105893208A (zh) | 基于隐半马尔可夫模型的云计算平台系统故障预测方法 | |
CN111898639B (zh) | 基于降维的分层时间记忆工业异常检测方法与装置 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN110011990B (zh) | 内网安全威胁智能分析方法 | |
CN116599857B (zh) | 一种适用于物联网多场景的数字孪生应用系统 | |
Vychuzhanin et al. | Analysis and structuring diagnostic large volume data of technical condition of complex equipment in transport | |
CN116719936B (zh) | 一种基于集成学习的网络不可靠信息早期检测方法 | |
KR20210126378A (ko) | 슬라이딩 윈도우 기법을 이용한 제조설비의 실시간 다변량 이상감지 시스템 | |
CN117077071A (zh) | 一种基于数据分级的数据分析方法及系统 | |
CN114781450B (zh) | 一种基于参数优化momeda-mia-cnn的列车滚动轴承状态识别方法 | |
CN111210085A (zh) | 一种基于多视图集成学习的煤矿瓦斯浓度预警方法 | |
CN115130599A (zh) | 时间序列gan数据增强下露天矿卡状态识别的半监督方法 | |
CN116910574A (zh) | 基于元学习和时间卷积网络的机械设备诊断方法及装置 | |
CN113326371B (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
CN111626508B (zh) | 基于xgboost模型的轨道交通车载数据预测方法 | |
Hao et al. | New fusion features convolutional neural network with high generalization ability on rolling bearing fault diagnosis | |
CN116524723B (zh) | 一种货车轨迹异常识别方法及系统 | |
CN112287996A (zh) | 一种基于机器学习的重大事件关键因子挖掘方法 | |
CN115174421B (zh) | 基于自监督解缠绕超图注意力的网络故障预测方法及装置 | |
Tejbeer et al. | Analysis of various air pollution predictions methods | |
Ju et al. | ChunkFormer: Learning Long Time Series with Multi-stage Chunked Transformer | |
CN113887718A (zh) | 一种基于相对激活率的通道剪枝方法和装置及轻量级流量特征提取网络模型简化的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |