CN111079827B - 一种铁路数据状态评估方法及系统 - Google Patents

一种铁路数据状态评估方法及系统 Download PDF

Info

Publication number
CN111079827B
CN111079827B CN201911285086.6A CN201911285086A CN111079827B CN 111079827 B CN111079827 B CN 111079827B CN 201911285086 A CN201911285086 A CN 201911285086A CN 111079827 B CN111079827 B CN 111079827B
Authority
CN
China
Prior art keywords
state
data
cold
hot
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911285086.6A
Other languages
English (en)
Other versions
CN111079827A (zh
Inventor
程智博
王同军
赵正阳
吴艳华
马建军
李平
刘军
朱建生
马志强
马小宁
徐温雅
邵赛
杨连报
赵冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Original Assignee
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Railway Sciences Corp Ltd CARS, Institute of Computing Technologies of CARS, Beijing Jingwei Information Technology Co Ltd filed Critical China Academy of Railway Sciences Corp Ltd CARS
Priority to CN201911285086.6A priority Critical patent/CN111079827B/zh
Publication of CN111079827A publication Critical patent/CN111079827A/zh
Application granted granted Critical
Publication of CN111079827B publication Critical patent/CN111079827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种铁路数据状态评估方法及系统,该方法包括:收集系统运行时产生的与待处理数据相对应的外部特征参数集;将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。本发明实施例提供的铁路数据状态评估方法及系统,利用隐马尔可夫模型建立的冷热状态分析模型,通过数据外部特征参数准确地预测数据的内部状态,并根据内部状态梳理铁路现有业务系统及数据使用模式,确定铁路分类分级存储方案,很大程度上提高了铁路系统的数据服务能力。

Description

一种铁路数据状态评估方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种铁路数据状态评估方法及系统。
背景技术
近年来,随着铁路信息化建设的逐步深入,系统覆盖面越来越广,积累的数据量越来越大。据初步统计,铁路数据总量已达PB级,日增长量超TB级。目前,我国铁路系统业已建立涵盖车、机、工、电、辆各专业的PB级大数据湖,实现了铁路数据的大集中、统一管理、按需搬运,消除了跨行业、跨专业、跨系统信息孤岛和数据鸿沟。铁路数据湖主要包括:铁路总公司统建的各专业数据资源、需向各业务系统或用户提供面向业务分析的各种数据资源以及计算资源等,同专业和跨专业的数据存储、分配和提取是数据资产湖的研究重点和难点之一。
目前,采用的数据按需分区存储,本质上是一个离散的匹配方法,由于业务系统使用数据的复杂性,管理者很难对业务系统抽取数据和使用数据实际状态进行准确地评估和预测。例如:常用的阈值监测法,其往往需要人为预先设定阈值,导致自适应性差,主观性强,且业务系统包含多个子系统,每个子系统又可由多个特征参数表征,仅凭部分参数无法准确地推断系统数据使用实际状态。因此,该办法有着很大的局限性。
另外,现今热门的基于人工神经网络进行数据处理的方法,利用一组已知类别的样本,调整模型分类器的参数,使其达到最佳的分类性能。但采用该方法对业务系统数据使用状态评估缺点较为明显:1)很难获取已知类别的样本,即业务系统抽取数据特征很难通过人工或者经验判断其所反映的真实状态;2)无法建立起数据使用过去、现在和未来状态之间的联系。
再者,也有不少学者提出利用隐马尔可夫模型开展状态评估及预测,但大多面向实体机器或网络安全等方面,目前暂无应用于数据领域的研究,更未针对铁路大数据自身的特点进行过研究。
综上所述,亟需提供一种先进、高效的,且针对铁路数据特点的状态评估方法,以优化数据存储方式,提高铁路系统业务数据使用及检索效率。
发明内容
本发明实施例提供一种铁路数据状态评估方法及系统,用以解决现有技术中对于铁路数据存储方式落后缺陷,实现数据冷温热存储划分,优化数据存储设备和业务分析执行效率。
第一方面,本发明实施例提供一种铁路数据状态评估方法,包括:收集系统运行时产生的与待处理数据相对应的外部特征参数集;将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
进一步地,在取冷热状态分析模型输出的冷热状态分析结果之后,还包括:基于铁路数据的温度以及业务类别,将数据湖存储区域划分为冷数据区、温数据区和热数据区;根据冷热状态分析结果将待处理数据归入冷数据区、温数据区或热数据区。
进一步地,隐马尔可夫模型用五元组{S,O,A,Bi,π}表示,其中,S为隐含状态分类集合,O为模型输出的观测值集合,A表示隐含状态概率转移矩阵,B表示观测转移概率矩阵,π表示初始状态分布。
进一步地,上述隐含状态分类集合S为:
S=(s1,s2,s3)
其中,s1表示待处理数据的隐含状态为冷状态,s2表示待处理数据的隐含状态为温状态,s3表示待处理数据的隐含状态为热状态;
所述隐含状态概率转移矩阵A为:
Figure BDA0002317754170000031
其中,
Figure BDA0002317754170000032
aij表示状态i转移到状态j的概率;
所述观测转移概率矩阵B为:
Figure BDA0002317754170000033
m表示观测值的个数,bj(k)=P(Ot=vk|qt=Sj)表示待处理数据温度状态为j时可观测的模型输出值为vk的概率,vk表示在k时刻观测到的观测值,k为观测时刻,Ot表示t时刻模型输出的观测值,Sj表示待处理数据温度状态为j;所述初始状态分布π为:
π={π12,…,πm},πi=P(qi=Si)
其中,qi为马尔科夫链在i时刻所处的状态,πm为第m个业务类别对应的初始状态,Si为第i个业务类别的铁路数据对应的隐含状态,1≤i≤m。
进一步地,上述观测转移概率矩阵的获取方法,包括:构建状态向量组,并对状态向量组进行离散化和归一化处理,获取标准状态向量组;将外部特征参数集输入至标准状态向量组,并利用基于密度聚类的DBSCAN算法,给定Eps邻域半径及最小数目Minpts,生成多个聚类簇,每个聚类簇对应一种业务类别的观测状态;由多个聚类簇构建观测转移概率矩阵。
进一步地,上述冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的,具体包括以下步骤:
将隐马尔可夫模型用{A,Bi,π}三元组进行简化;根据先验知识对隐含状态概率转移矩阵、观测转移概率矩阵以及初始状态分布进行赋值,完成对隐马尔可夫模型的模型参数的初始化;利用“前向-后向”算法不断迭代更新初始化后的隐马尔可夫模型的模型参数;根据不同业务类别确定平均时间内的期望值确定更新阈值;若平均时间内的期望值小于更新阈值,则停止迭代,获取符合要求的模型参数,获取冷热状态分析模型。
进一步地,上述利用“前向-后向”算法不断迭代更新初始化后的隐马尔可夫模型的模型参数,包括:
Figure BDA0002317754170000041
Figure BDA0002317754170000042
Figure BDA0002317754170000043
Figure BDA0002317754170000044
其中,更新后的参数模型设为
Figure BDA0002317754170000045
为状态转移矩阵,T为状态序列,m为观测值的个数,ξt(i,j)为在t时刻处于隐含状态Si,在t+1时刻转移到隐含状态Sj的概率,γt(i)为在t时刻处于Si隐含状态的概率,αt(i)为在t时刻处于状态Si且产生观测状态序列的概率,bj(ot+1)为在t+1时刻在隐含状态Sj产生观测状态的概率,βt+1(j)为在时刻t处于状态Si情况下,产生观测状态序列的概率。第二方面,本发明实施例提供一种铁路数据状态评估系统,包括:特征参数获取单元和冷热状态分析单元,其中:
特征参数获取单元,用于收集系统运行时产生的每个待处理数据相对应的所有外部特征组建成参数外部特征参数集;
冷热状态分析单元,其中存储有冷热状态分析模型,用于接收外部特征参数集,并输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;
其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面任一项所述铁路数据状态评估方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面任一项所述铁路数据状态评估方法的步骤。
本发明实施例提供的铁路数据状态评估方法及系统,利用隐马尔可夫模型建立的冷热状态分析模型,通过数据外部特征参数准确地预测数据的内部状态,并根据内部状态梳理铁路现有业务系统及数据使用模式,确定铁路分类分级存储方案,很大程度上提高了铁路系统的数据服务能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种铁路数据状态评估方法的流程示意图;
图2为本发明实施例提供的另一种食用菌干燥状态在线评估方法的流程示意图;
图3为本发明实施例提供的一种食用菌干燥状态在线评估系统的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
热数据一般是指被计算节点频繁访问的在线类数据,而冷数据则是对于离线类不经常访问的数据的称呼,比如企业备份数据、业务与操作日志数据、话单与统计数据。日常数据处理方式中,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据则由于访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对该类数据进行压缩、去重等降低成本的方法进行处理;温数据的活跃度则是介于冷数据和热数据之间。
为了实现对铁路数据湖的数据存储方式进行优化,如图1所示,本发明实施例提供一种铁路数据状态评估方法,包括但不限于以下步骤:
步骤S1:收集系统运行时产生的与待处理数据相对应的外部特征参数集;
步骤S2:将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;
其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
隐马尔可夫模型(Hidden Markov Model,简称HMM),是一种统计模型,可用于描述一个含有隐含未知参数的马尔可夫过程,主要用于从可观察的参数中确定该过程的隐含参数,然后利用这些隐含参数来作进一步的分析。
在本发明实施例提供的铁路数据状态评估方法,主要涉及铁路全专业冷、温、热数据的分区技术,重点分析和研究涵盖铁路车、机、工、电、辆等专业基于温度和粒度结合方式的冷热状态分析模型,实现冷温热数据自动分区。其中,冷温热数据分区本质上是结合数据访问、业务分析、存储成本、传输方式等数据查询与抽取的优化问题,通过构建隐马尔可夫HMM模型,先建立铁路专业数据湖和业务分析流向,以及确定所需优化的HMM模型参数,将数据区域划分及归属问题映射成一个HMM。
具体地,本发明实施例通过分析铁路的业务系统及数据使用现状,确定铁路数据分类分级存储方案,提出一种基于隐马尔可夫模型的铁路冷温热数据状态预测方法,该方法通过收集每个待处理数据的所有外部特征参数,组建一个外部特征参数集,然后利用隐马尔可夫模型建立数据内部状态与外部特征参数集之间联系,实时了解并预测待处理数据的使用状态,即冷热状态分析结果。
其中,外部特征参数可以包括数据库后台进程状态参数、数据分析时间参数等。在本发明实施例中,将外部特征参数集作为冷热状态分析模型的输入,即视为隐马尔可夫模型的可观测状态集;将与每个外部特征参数集对应的模型输出作为隐含状态集,可以根据隐含状态集确定出待处理数据的冷热状态。
本发明实施例提供的铁路数据状态评估方法,利用隐马尔可夫模型建立的冷热状态分析模型,通过数据外部特征参数准确地预测数据的内部状态,并根据内部状态梳理铁路现有业务系统及数据使用模式,确定铁路分类分级存储方案,很大程度上提高了铁路系统的数据服务能力。
基于上述实施例的内容,作为一种可选实施例,在获取冷热状态分析模型输出的冷热状态分析结果之后,还包括:基于铁路数据的温度以及业务类别,将数据湖存储区域划分为冷数据区、温数据区和热数据区;根据冷热状态分析结果将所述待处理数据归入冷数据区、温数据区或热数据区。
可以基于铁路大数据温度的区别,将数据湖存储区域分为冷数据区、温数据区、热数据区。因此,在本发明实施例中,通过将数据初始存储区域分为冷、温、热三个状态存储区。进一步地,在每个状态存储区内,根据铁路数据分类方式,将每个状态存储区分为客运、货运、调度、财务管理、资产经营、物资管理等业务类别区域,从而实现将整个数据湖存储区域划分为多个不同温度状态的不同业务类别区域。
其中,状态存储区的划分可以根据已有统计结果、数据的活跃程度甚至历史经验等进行划分,例如:将客运的服务反馈数据、历史客流数据等归类为冷数据;将客户关系数据、客运站管理数据等归类为温数据;将售票数据、行包数据、检票数据等归类为热数据。
其中,在本发明实施例中为表述方便,可以将数据所属状态存储区的隐含状态集合用S表示,S=(s1,s2,s3),其中,s1,s2,s3分别代表数据的隐含状态,即冷、温、热三个状态。
其中,根据上述数据湖存储区域的划分,对每一个待处理数据进行冷、温、热状态的分析,并根据分析的结果将其归入至相应的状态存储区内。进一步地,根据每个待处理数据的业务类别,在进行进一步地细分,归入至相应的业务类别区域内,从而完成对整个铁路大数据库的分类分级存储。
基于上述实施例的内容,作为一种可选实施例,其中的隐马尔可夫模型可以用五元组{S,O,A,Bi,π}表示,其中,S为隐含状态分类集合,O为模型输出的观测值集合,A表示隐含状态概率转移矩阵,B表示观测转移概率矩阵,π表示初始状态分布。
具体地,通过对五元组{S,O,A,Bi,π}参数的设置,实现隐马尔可夫模型的状态空间的构建,主要包括以下内容:
首先,确定隐马尔可夫模型的观测状态集。在本发明实施例中,将隐含状态分为冷、温、热三个状态,即隐含状态个数N=3,则隐含状态概率转移矩阵A:
Figure BDA0002317754170000081
其中,
Figure BDA0002317754170000082
N=3,i∈(1,2,3),aij=P(qt+1=Sk|qt=Si)表示将观测状态状态i转移到隐含状态j的概率。
进一步地,确定隐马尔可夫模型的观测转移概率矩阵B,包括但不限于以下步骤:构建状态向量组,并对状态向量组进行离散化和归一化处理,获取标准状态向量组;将外部特征参数集输入至标准状态向量组,并利用基于密度聚类的DBSCAN算法,并给定Eps邻域半径及最小数目Minpts,生成多个聚类簇,每个聚类簇对应一种业务类别的观测状态;由多个聚类簇构建所述观测转移概率矩阵。
具体地,在本发明实施例中,采用基于密度聚类的DBSCAN算法构造观测状态集,即初始化观测状态的特征参数B,主要步骤为:获取包括Web服务器抽取数据时间及命中率,数据库表空间抽取时间及命中率,数据库抽取数据响应时间及命中率,面向业务分析数据所用时间等特征参,将这些参数构成一个向量组表示可观测状态;并上述可观测状态进行离散化和归一化等标准化处理后,构建标准状态向量组。输入初始数据(即待处理数据对应的外部特征参数集),根据DBSCAN算法,给定Eps邻域半径及最小数目Minpts,对外部特征参数集进行标准化处理。
进一步地,可以消除外部特征参数集中的异常值和噪音,避免外部特征参数集等极端值对数状态分布结果产生过多影响,形成K个聚类簇,每一个聚类簇对应一类观测状态,由此可得观测转移概率矩阵Bi
Figure BDA0002317754170000091
其中,矩阵的行表示可观测状态,列表示3个隐藏状态,其中,
Figure BDA0002317754170000092
k∈(1,m),i表示铁路数据业务类别为第i个i∈(1,2,3,4,…,m),m为总类别数,对应的业务类别分别为客运、货运、调度、财务管理、资产经营、物资管理等。B为观测转移概率矩阵,bjk=P(Ot=vk|qt=Sj)表示数据观测状态为j时外部可观测到的模型输出值为vk的概率。
进一步地,在本发明实施例中,初始状态分布为:
π={π12,…,πm},πi=P(qi=Si)
其中,qi为马尔科夫链在i时刻所处的状态,πm为第m个业务类别对应的初始状态,1≤i≤m。
Si为第i个业务类别的铁路数据对应的隐含状态。
基于上述实施例的内容,作为一种可先实施例,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。其中,HMM可定义为一个五元组λ={S,O,A,B,π},由于隐含状态分类集合S和模型输出的观测值集合O可以通过观测获取,因此建立隐马尔可夫模型的过程可以简化为确定模型参数集合λ={A,B,π}这一五元组来决定。
具体地,为便于说明,对说明书中各实施例出现的参数进行预先定义:任一时刻t输出数据的隐含状态为qt,qt∈{S1,S2,L,Sm};O为模型输出的观测值集合,O=(O1,O2,…,On),n为输入的外部特征参数集中观测值的个数;A表示隐含状态概率转移矩阵,aij=P(qt+1=Sk|qt=Si)表示数据从观测状态状态i转移到隐含状态j的概率,B表示观测转移概率矩阵,bjk=P(Ot=vk|qt=Sj)表示数据为隐含状态j时外部可观测到的模型输出值为vk的概率,π表示初始状态分布π={π12,…,πm},πi=P(qi=Si),m为总类别数。
其中,本发明实施例提供的冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的,如图2所示,具体包括以下步骤:
将所述隐马尔可夫模型用{A,Bi,π}三元组进行简化;
根据先验知识对所述隐含状态概率转移矩阵、所述观测转移概率矩阵以及所述初始状态分布进行赋值,完成对所述隐马尔可夫模型的模型参数的初始化;
利用“前向-后向”算法不断迭代更新所述初始化后的隐马尔可夫模型的模型参数;
根据不同业务类别确定平均时间内的期望值确定更新阈值;
若所述平均时间内的期望值小于更新阈值,则停止迭代,获取符合要求的模型参数,获取所述冷热状态分析模型。
第一步:首先对模型参数集合λ进行初始化,即根据先验知识和专家经验对A,B,π进行赋值。可以基于非监督学习算法,对不同业务类别的模型参数集合λ进行训练,根据观测状态序列推导出模型参数的最大似然估计。
具体为:设定外部特征参数集样本中时刻处于可观测状态i,在时刻t+1转移到隐含状态j的频数为Aij,则状态转移概率为aij的估计为:
Figure BDA0002317754170000111
样本中,隐含状态为j并观测状态为k的频数是Bjk,则隐含状态为j观测状态为k的概率bj(k)的估计为:
Figure BDA0002317754170000112
第二步,利用“前向-后向”算法不断迭代更新HMM的参数。其中,对上一步骤中获取的初始化后的模型参数进行更新,设更新后新的参数模型
Figure BDA0002317754170000113
更新参数步骤如下:
Figure BDA0002317754170000114
Figure BDA0002317754170000115
Figure BDA0002317754170000116
其中,
Figure BDA0002317754170000117
第三步,为了避免参数
Figure BDA0002317754170000118
陷入局部最优的问题,根据不同业务类别分析平均时间内的期望值设为更新阈值ε,通过判断
Figure BDA0002317754170000119
是否成立来决定迭代是否结束。若成立,则结束迭代,获得模型参数
Figure BDA00023177541700001110
为最终的冷热状态分析模型中隐马尔可夫模型的参数;反之,令
Figure BDA00023177541700001111
再次进行迭代计算,获取新的
Figure BDA00023177541700001112
重复判断,直到获得符合要求的模型参数
Figure BDA00023177541700001113
结束迭代,完成整个模型的预训练。
进一步地,根据迭代结果,更新模型输出的观测状态序列Ot使Ot-1∪Ot,合并观测值序列使Ot=Ot-1∪Ot,最终形成冷、温、热三个状态数据集合。其中,P(O|λ)代表模型参数为λ,预设时间范围内产生观测状态序列O的概率,
Figure BDA0002317754170000121
其中,αt(i)为在t时刻处于状态Si且产生观测状态序列的概率,βt(i)为在时刻t处于状态Si情况下,产生观测状态序列的概率。
本发明实施例提供一种铁路数据状态评估系统,如图3所示,包括但不限于特征参数获取单元11和冷热状态分析单元12,其中:
特征参数获取单元11,用于收集系统运行时产生的每个待处理数据相对应的所有外部特征组建成参数外部特征参数集;
冷热状态分析单元12,其中存储有冷热状态分析模型,用于接收特征参数获取单元11输入的外部特征参数集,并将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
本发明实施例提供的铁路数据状态评估系统,在实际运用中执行上述实施例中任一状态评估方法的步骤,在本实施例将不作赘述。
本发明实施例提供的铁路数据状态评估系统,利用隐马尔可夫模型建立的冷热状态分析模型,通过数据外部特征参数准确地预测数据的内部状态,并根据内部状态梳理铁路现有业务系统及数据使用模式,确定铁路分类分级存储方案,很大程度上提高了铁路系统的数据服务能力。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:收集系统运行时产生的与待处理数据相对应的外部特征参数集;将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:收集系统运行时产生的与待处理数据相对应的外部特征参数集;将外部特征参数集输入至冷热状态分析模型,获取冷热状态分析模型输出的冷热状态分析结果;其中,冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种铁路数据状态评估方法,其特征在于,包括:
收集系统运行时产生的与待处理数据相对应的外部特征参数集,所述外部特征参数集中的外部特征参数包括所述系统运行时数据库的后台进程状态参数和数据分析时间参数;
将所述外部特征参数集输入至冷热状态分析模型,获取所述冷热状态分析模型输出的冷热状态分析结果;
其中,所述冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的;
在所述获取所述冷热状态分析模型输出的冷热状态分析结果之后,还包括:
基于铁路数据的温度以及业务类别,将数据湖存储区域划分为冷数据区、温数据区和热数据区;
根据所述冷热状态分析结果将所述待处理数据归入冷数据区、温数据区或热数据区。
2.根据权利要求1所述的铁路数据状态评估方法,其特征在于,所述隐马尔可夫模型用五元组{S,O,A,Bi,π}表示,其中,S为隐含状态分类集合,O为模型输出的观测值集合,A表示隐含状态概率转移矩阵,B表示观测转移概率矩阵,π表示初始状态分布。
3.根据权利要求2所述的铁路数据状态评估方法,其特征在于,所述隐含状态分类集合为:
S=(s1,s2,s3)
其中,s1表示待处理数据的隐含状态为冷状态,s2表示待处理数据的隐含状态为温状态,s3表示待处理数据的隐含状态为热状态;
所述隐含状态概率转移矩阵为:
其中,aij表示状态i转移到状态j的概率,N为隐含状态个数;
所述观测转移概率矩阵为:
其中,j表示隐藏状态,k表示待处理数据业务类别,m表示业务类别的总数,bjk=P(Ot=vk|qt=Sj)表示待处理数据温度状态为j时可观测的模型输出值为vk的概率,vk表示在待处理数据业务类别为k时冷热状态分析模型输出的观测值,k表示观测时刻,Ot表示待处理数据业务类别为t时冷热状态分析模型输出的观测值,Sj为隐含状态分类集合;
所述初始状态分布为:
π={π12,…,πm},πk=P(q1=sj)
其中,q1为马尔科夫链在初始状态,πk为第k个业务类别对应的初始状态。
4.根据权利要求2所述的铁路数据状态评估方法,其特征在于,所述观测转移概率矩阵的获取方法,包括:
构建状态向量组,并对所述状态向量组进行离散化和归一化处理,获取标准状态向量组;
将所述外部特征参数集输入至所述标准状态向量组,并利用基于密度聚类的DBSCAN算法,并给定Eps邻域半径及最小数目Minpts,生成多个聚类簇,每个所述聚类簇对应一种业务类别的观测状态;
由所述多个聚类簇构建所述观测转移概率矩阵。
5.根据权利要求4所述的铁路数据状态评估方法,其特征在于,所述冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的,具体包括以下步骤:
将所述隐马尔可夫模型用{A,Bi,π}三元组进行简化;
根据先验知识对所述隐含状态概率转移矩阵、所述观测转移概率矩阵以及所述初始状态分布进行赋值,完成对所述隐马尔可夫模型的模型参数的初始化;
利用“前向-后向”算法不断迭代更新初始化后的隐马尔可夫模型的模型参数;
根据不同业务类别确定平均时间内的期望值确定更新阈值;
若所述平均时间内的期望值小于更新阈值,则停止迭代,获取符合要求的模型参数,获取所述冷热状态分析模型。
6.根据权利要求5所述的铁路数据状态评估方法,其特征在于,所述利用“前向-后向”算法不断迭代更新所述初始化后的隐马尔可夫模型的模型参数,包括:
其中,更新后的参数模型设为为更新后的状态转移矩阵,为更新后的观测转移概率矩阵;T为状态序列,m为观测值的个数,ξt(i,j)为在t时刻处于隐含状态Si在t+1时刻转移到隐含状态Sj的概率,γt(i)为在t时刻处于Si隐含状态的概率,αt(i)为在t时刻处于状态Si且产生观测状态序列的概率,bj(ot+1)为在t+1时刻在隐含状态Sj产生观测状态的概率,βt+1(j)为在时刻t+1处于隐含状态Si情况下,产生观测状态序列的概率;Ok表示待处理数据业务类别为k时冷热状态分析模型输出的观测值。
7.一种铁路数据状态评估系统,其特征在于,包括:
特征参数获取单元,用于收集系统运行时产生的每个待处理数据相对应的所有外部特征组建成参数外部特征参数集,所述外部特征参数集中的外部特征参数包括所述系统运行时数据库的后台进程状态参数和数据分析时间参数;
冷热状态分析单元,其中存储有冷热状态分析模型,用于接收所述外部特征参数集,并输入至所述冷热状态分析模型,获取所述冷热状态分析模型输出的冷热状态分析结果;
在所述获取所述冷热状态分析模型输出的冷热状态分析结果之后,还包括:基于铁路数据的温度以及业务类别,将数据湖存储区域划分为冷数据区、温数据区和热数据区;根据所述冷热状态分析结果将所述待处理数据归入冷数据区、温数据区或热数据区;
其中,所述冷热状态分析模型是基于隐马尔可夫模型建立,并利用外部特征参数集样本以及与所述外部特征参数集样本对应的冷热状态分析结果标签训练后得到的。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述铁路数据状态评估方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述铁路数据状态评估方法的步骤。
CN201911285086.6A 2019-12-13 2019-12-13 一种铁路数据状态评估方法及系统 Active CN111079827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911285086.6A CN111079827B (zh) 2019-12-13 2019-12-13 一种铁路数据状态评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911285086.6A CN111079827B (zh) 2019-12-13 2019-12-13 一种铁路数据状态评估方法及系统

Publications (2)

Publication Number Publication Date
CN111079827A CN111079827A (zh) 2020-04-28
CN111079827B true CN111079827B (zh) 2023-04-07

Family

ID=70314457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911285086.6A Active CN111079827B (zh) 2019-12-13 2019-12-13 一种铁路数据状态评估方法及系统

Country Status (1)

Country Link
CN (1) CN111079827B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657025A (zh) * 2021-07-23 2021-11-16 上海睿而维科技有限公司 一种轨道结构多传感器动态匹配系统
CN114817174B (zh) * 2022-04-02 2023-08-15 中新社(北京)国际传播集团有限公司 一种根据区域范围在移动互联网内进行数据预取的方法及系统
CN117009303B (zh) * 2023-07-06 2024-02-13 苏州领威电子科技有限公司 一种芯片视觉测试数据的存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773450A (zh) * 2004-11-08 2006-05-17 刘荣杰 直数
CN103955616A (zh) * 2014-05-04 2014-07-30 兰州交通大学 基于动态故障树的ctcs-3级atp系统可靠性评估方法
CN107357282A (zh) * 2017-07-06 2017-11-17 中国民航大学 一种基于多维隐马尔可夫模型的飞行控制系统评估方法
CN107958269A (zh) * 2017-11-28 2018-04-24 江苏大学 一种基于隐马尔可夫模型的行车危险度预测方法
WO2019086097A1 (en) * 2017-10-30 2019-05-09 Konux Gmbh Method for determining an element characteristic of a railroad element

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877056A (zh) * 2009-12-21 2010-11-03 北京中星微电子有限公司 人脸表情识别方法及系统、表情分类器的训练方法及系统
US10922567B2 (en) * 2010-06-07 2021-02-16 Affectiva, Inc. Cognitive state based vehicle manipulation using near-infrared image processing
CN103364159A (zh) * 2013-07-10 2013-10-23 浙江金鹰股份有限公司 一种细纱机罗拉故障诊断装置
CN103487749B (zh) * 2013-09-18 2016-04-13 国家电网公司 高压断路器机械状态在线监测诊断系统及方法
CN105620511B (zh) * 2016-02-01 2017-12-01 中信重工开诚智能装备有限公司 铁路车辆列检制动试验效果确认机器人系统及检测方法
RU2719499C1 (ru) * 2016-12-07 2020-04-20 Сименс Мобилити Гмбх Способ, устройство и железнодорожное транспортное средство, в частности рельсовое транспортное средство, для распознавания препятствий в железнодорожном сообщении, в частности в рельсовом сообщении
US10678233B2 (en) * 2017-08-02 2020-06-09 Strong Force Iot Portfolio 2016, Llc Systems and methods for data collection and data sharing in an industrial environment
CN109425319B (zh) * 2017-08-25 2020-06-23 宝山钢铁股份有限公司 一种检测酸洗过程对横向断面影响程度的方法
CN111149141A (zh) * 2017-09-04 2020-05-12 Nng软件开发和商业有限责任公司 用于收集并使用来自交通工具的传感器数据的方法和装置
CN107622279A (zh) * 2017-09-05 2018-01-23 重庆邮电大学 高炉内部状态的分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773450A (zh) * 2004-11-08 2006-05-17 刘荣杰 直数
CN103955616A (zh) * 2014-05-04 2014-07-30 兰州交通大学 基于动态故障树的ctcs-3级atp系统可靠性评估方法
CN107357282A (zh) * 2017-07-06 2017-11-17 中国民航大学 一种基于多维隐马尔可夫模型的飞行控制系统评估方法
WO2019086097A1 (en) * 2017-10-30 2019-05-09 Konux Gmbh Method for determining an element characteristic of a railroad element
CN107958269A (zh) * 2017-11-28 2018-04-24 江苏大学 一种基于隐马尔可夫模型的行车危险度预测方法

Also Published As

Publication number Publication date
CN111079827A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
CN111079827B (zh) 一种铁路数据状态评估方法及系统
CN107122594A (zh) 一种新能源车辆电池的健康预测方法和系统
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
US10963802B1 (en) Distributed decision variable tuning system for machine learning
CN112363896A (zh) 日志异常检测系统
WO2021103823A1 (zh) 模型更新系统、模型更新方法及相关设备
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN115311205A (zh) 一种基于图神经网络联邦学习的工业设备故障检测方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN112257914A (zh) 一种基于随机森林的航空安全因果预测方法
CN115099326A (zh) 基于人工智能的行为预测方法、装置、设备及存储介质
Hüttel et al. Modeling censored mobility demand through censored quantile regression neural networks
Davis et al. On network science and mutual information for explaining deep neural networks
Gerrits Soul of a new machine: Self-learning algorithms in public administration
WO2017131696A1 (en) Database server to predict sales
CN109961085B (zh) 基于贝叶斯估计的航班延误预测模型的建立方法及装置
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及系统
Khoussi et al. Neural networks for classifying probability distributions
Chang Software risk modeling by clustering project metrics
Fiandrino et al. AIChronoLens: advancing explainability for time series AI forecasting in mobile networks
CN111353523A (zh) 一种对铁路客户进行分类的方法
SS et al. Analysis of Flight Delay Data Using Different Machine Learning Algorithms
CN116187895B (zh) 一种智能仓储货流规划方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant