CN112416732A

CN112416732A - 一种基于隐马尔可夫模型的数据采集运行异常检测方法

Info

Publication number: CN112416732A
Application number: CN202110072713.9A
Authority: CN
Inventors: 吴菲; 李志强; 康芳; 叶君健; 胡开斌; 陈静
Original assignee: Guoneng Xinkong Internet Technology Co Ltd
Current assignee: Guoneng Xinkong Internet Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-02-26
Anticipated expiration: 2041-01-20
Also published as: CN112416732B

Abstract

一种基于隐马尔可夫模型的数据采集运行异常检测方法，包括数据采集运行日志历史数据获取与数据清洗；采集流程模板建立；对每一类采集流程进行序列特征提取；根据提取的序列特征，对每一类采集流程进行隐马尔可夫模型HMM的训练；根据训练得到的HMM模型，对数据采集运行日志数据进行异常检测。数据采集运行日志数据是非结构化数据，通过简单的采集流程模板设置，可以实现对日志数据的有效信息提取，方便对日志数据的利用。采集过程中的异常种类繁多，难以进行标注，采用隐马尔可夫模型将异常检测问题转化为对日志序列特征的路径异常概率判断问题，无需标注数据便可进行训练，只需要简单设置概率阈值便可实现异常判断，实现成本大大降低。

Description

一种基于隐马尔可夫模型的数据采集运行异常检测方法

技术领域

本发明属于数据采集运行智能分析领域，涉及一种基于隐马尔可夫模型的数据采集运行异常检测方法。

背景技术

数据采集系统帮助企业更好更快更精准地采集多源异构数据信息，并且进行数据整合。这类系统大多设计为全天候运行，所以高可用性和可靠性成为必须。这类系统的任何事件，包括服务中断和服务质量下降，都会导致应用程序崩溃、数据获取不准确不及时，将严重影响数据质量、数据价值发掘等，为企业生产运营决策会带来重大失误，造成企业的经济损失，甚至引起生产事故的发生。

数据采集运行异常检测旨在及时发现异常系统行为，在采集事件管理中发挥着重要作用。及时的异常检测允许数据采集系统运维人员(或开发人员)及时发现问题并立即解决，从而减少数据采集系统停机时间。数据采集系统通常会生成日志，记录系统运行期间的详细运行时信息。这种广泛可用的日志被用作系统异常检测的主要数据源。基于日志的异常检测已经成为学术界和工业界具有实际重要性的研究课题。对于传统的数据采集系统，开发人员或运维人员根据他们的领域知识手动检查系统日志或编写规则来检测异常，并额外使用关键字搜索(例如，失败、异常)或正则表达式匹配。然而，这种严重依赖人工检查日志的异常检测对于大规模采集系统来说已经变得不充分。因此，针对数据采集运行的异常检测自动分析研究是很有必要的。

发明内容

本发明的一种基于隐马尔可夫模型的数据采集运行异常检测方法，通过简单的采集流程模板设置，可以实现对日志数据的有效信息提取，方便对日志数据的利用。采集过程中的异常种类繁多，难以进行标注，采用隐马尔可夫模型将异常检测问题转化为对日志序列特征的路径异常概率判断问题，无需标注数据便可进行训练，只需要简单设置概率阈值便可实现异常判断，实现成本大大降低。

为了实现上述目标，本发明具体采用如下技术方案：

一种基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于，所述方法包括以下步骤：

步骤1：采集数据采集运行日志的历史数据，所述数据采集运行日志包括生产数据采集运行日志以及经营数据采集日志；

步骤2：对所述历史数据进行清洗，即剔除所述历史数据中标注有异常和/或错误的关键词的数据，表示异常和/或错误的关键词包括exception、error、fatal；

步骤3：建立采集流程模型，所述采集流程模型包括被采集设备的监测点关键词列表、采集流程状态关键词列表以及数据库关键词列表，通过所述采集流程模型能够从所述数据采集运行日志中提取采集流程从采集开始到采集结束的完整采集流程的日志；

步骤4：将所述步骤2中进行清洗处理的历史数据输入到所述步骤3中建立的采集流程模型提取从开始到结束的完整采集流程日志；

步骤5：根据步骤4中提取的完整采集流程日志，提取特征，所述特征包括日志的文字记录状态特征、时间记录状态特征以及参数数字状态特征；

步骤6：根据所述步骤5提取的文字记录状态特征、时间记录状态特征以及参数数字状态特征，分别进行训练获得文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型；

步骤7：采集数据采集运行日志的实时数据，并根据步骤6得到的文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型，判断数据采集运行日志的实时数据是否异常。

本发明还进一步采用以下优选技术方案：

在所述步骤3中，根据被采集设备的监测点关键词，采集流程状态关键词以及数据库关键词建立采集模型，所述采集流程模型格式为：

[监测点关键词列表，状态关键词列表，数据关键词]

其中，第一部分是被采集设备的监测点关键词列表，对监测点关键词按照出现顺序排列，关键词长度为n_i，即监测点关键词列表所包含的关键词数量为n_i个；第二部分为采集过程的状态关键词列表，按照每个状态里的子步骤定义的关键词顺序进行排列，关键词长度为m_{i ,}即状态关键词列表所包含的关键词数量为m_i个；第三部分为涉及的数据库关键词。

所述采集流程模型包括采集开始模式P1、采集数据转化模式P2以及采集结束模式P3；

所述采集开始模式P1的被采集设备的监测点关键词包括包括监测点a₁、监测点a₂、...、监测点a_q；采集流程状态关键词包括init_success, start，分别表示初始成功、开始采集；数据库关键词包括VeStore、mysql、oracle，表示采用VeStore、mysql、oracle数据库进行采集；其中，下标_q是指在采集开始模式中监测点关键词数量；

所述采集数据转化模式P2的被采集设备的监测点关键词包括监测点b₁、监测点b₂、...、监测点b_s；采集流程状态关键词包括arrive, trans, success，分别表示数据到达、开始转换、转换成功；数据库关键词处为空白，表示该模式涉及的流程不涉及数据库操作；其中，下标_s是指在采集数据转化模式中监测点关键词数量；

所述采集结束模式P3的被采集设备的监测点关键词包括监测点c₁、监测点c₂、...、监测点c_y；采集流程状态关键词包括write, over，表示数据开始写入、采集结束；数据库关键词包括VeStore，表示在该模式中将数据写入VeStore数据库;其中，下标_y是指在采集结束模式中监测点关键词数量。

所述步骤4包括以下步骤：

步骤401：将历史数据中的关键词与采集开始模式P1进行匹配，筛选出属于符合该采集开始模式P1的日志；

步骤402：将历史数据中的关键词与采集数据转化模式P2进行匹配，筛选出属于符合该采集数据转化模式P2的日志；

步骤403：将历史数据中的关键词与采集结束模式P3进行匹配，筛选出属于符合该采集结束模式P3的日志；

步骤404：选取按顺序连续匹配上所述采集开始模式P1、采集数据转化模式P2以及采集结束模式P3的日志，该日志为采集流程的从开始到结束的一次完整采集流程日志。

对于采集流程模型中的关键词列表中只有一个关键词的情况，直接进行匹配；

对于采集流程模型中有多个关键词的列表，需要按照关键词出现顺序依次进行匹配。

步骤5中，提取文字记录状态特征包括以下步骤：

步骤501：将一次完整采集流程的每条日志的内容分为文字记录、时间记录以及参数数字记录部分；

步骤502：设置停用词，并在所述文字记录部分中去除停用词后，获得第一词库，所述停用词包括and、or、to、for、is、from；

步骤503：计算第一词库中的每个词的词频，取词频最多的前N₁个词作为该采集流程的第二词库，第一词库中其余词使用unknown代替，将步骤501中的文字记录转化为由所述第二词库中的词和unknown构成的词串；

步骤504：根据步骤501-503得到所述完整采集流程日志的所有词串后，进行统计排序，选取出现次数前N₂的词串作为所述完整采集流程的文字状态集，其余词串则用unknown代替；

步骤505：对于所述完整采集流程日志的文字状态集，将属于排序前N₂的文字状态集映射到0~N₂-1，其余文字状态集映射为N₂，形成该采集流程日志的文字记录特征。

所述步骤5中，提取时间记录特征包括以下步骤：

步骤506：计算一次完整采集流程T日志前后两条日志的时间差，得到执行时间；

步骤507：根据步骤506的计算结果，在最短时间差与最长时间差范围内，将时间差均匀分割为K份，并将分割后的时间差范围映射到[0，K-1]；

步骤508：对于属于第n份的时间差范围的计算结果标记为n，组成一个一维序列，其中0≤n≤K-1。

在所述步骤5中，提取参数数字记录特征包括以下步骤：

步骤509：对于相同采集流程日志，去除时间戳后，统计相同采集流程日志在每个位置上出现的数值，统计出的该采集流程的采集流程日志的参数数字有L个，则得到一个由L个整数数字组成的参数序列；

步骤510：统计相同采集流程日志的的参数序列，取出现次数前N₃的参数序列作为该采集流程日志的参数数字状态集，其余参数序列则用unknown代替；

步骤511：对于相同采集流程日志的参数序列，将属于排序前N₃的参数数字状态集的参数序列映射为N₃-1，其余参数序列映射为N₃，形成该采集流程日志的参数数字特征；

步骤512：根据步骤509-511得到一次完整采集流程日志的参数数字特征。

所述步骤509还包括以下子步骤：

步骤509-1：统计所述采集流程日志的相同位置上参数值的最大值Vmax和最小值Vmin，将参数取值范围[Vmin, Vmax]分割为S份，并将分割后的参数取值范围映射到[0，S-1]；

步骤509-2：对于属于第m份的参数取值范围的参数值标记为m，组成一个一维序列，其中0≤m≤S-1；

步骤509-3：根据所述步骤509-1以及步骤509-2获得所述采集流程日志参数序列。

若任意一个位置数据值为唯一一个，取值为V，则将其映射为0；且数据采集日志的实时数据中，在该位置的值若为V，则映射为0；若不是V，是新的值，则映射为1；

若任意位置上的值有多个，且取值范围为[Vmin, Vmax]，则将并将其映射到[0, S-1]；且数据采集日志的实时数据中，在该位置上的值的取值范围不属于[Vmin, Vmax]时，将其映射为S。

所述步骤7包括以下步骤：

步骤701：根据以下公式计算文字状态特征序列的概率：

P1=P_HMM文字（x）

其中，x表示输入的文字状态特征序列，下标HMM_文字代表文字状态隐马尔可夫模型；

步骤702：根据以下公式计算时间记录状态特征序列的概率：

P2 = P_HMM时间（t）

其中，t表示输入的时间记录状态特征序列，下标HMM_时间代表时间记录状态隐马尔可夫模型；

步骤703：根据以下公式计算参数数字状态特征序列的概率：

P3 = PHMM_参数数字（z）

其中，z表示输入的参数数字状态特征序列，下标HMM_参数数字代表参数数字状态隐马尔可夫模型；

步骤704：根据以下公式计算一次完整采集流程日志的最终概率P：

P = P1 * P2 * P3

步骤705：对所述步骤704的计算结果和阈值进行比较，如果最终概率不小于阈值，则判断本次采集过程正常进行，否则判断本次采集过程存在异常。

设定所述阈值的方式包括以下步骤：

步骤705-1：根据所述步骤701-704计算属于完整采集流程的所有完整采集流程日志的最终概率P；

步骤705-2：将所述步骤705-1的计算结果按逐渐变小的顺序进行排序，获得概率值列表；

步骤705-3：从所述概率值列表中取第90%的概率值为阈值，并对与该阈值对应的历史数据进行人工核对；若该历史数据正常，则取小于当前阈值的概率值作为新的阈值，再次进行人工核对；若该历史数据异常，则取大于当前阈值的概率值作为新的阈值，再次进行人工核对；直到最终概率值大于阈值w的历史数据中，有99%为正常，且最终概率之小于阈值w的历史数据中，有99%的历史数据为异常时，选定该阈值w作为最终判断阈值。

本申请所达到的有益效果：

1）只需进行简单的采集流程模板以及概率阈值设置，无需标注数据便可进行训练，实现异常判断，实现成本低廉；

2）采用隐马尔可夫模型HMM进行时序日志数据的处理，将异常检测采集流程实例转化为路径异常概率问题，采集流程实例求解难度降低；

3）将采集日志数据转化为文字、时间、参数数字三部分特征序列，有效利用了采集日志数据。

附图说明

图1是一种基于隐马尔可夫模型的数据采集运行异常检测方法的流程图；

图2是本发明方法实施例示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1、图2所示，本发明的一种基于隐马尔可夫模型的数据采集运行异常检测方法，具体包括以下步骤：

步骤1：采集数据采集运行日志的历史数据，所述数据采集运行日志包括生产数据采集运行日志以及经营数据采集日志。

步骤2：对历史数据进行清洗。具体地，在日志记录中，会有exception、error、fatal等关键词标注异常和/或错误，对于这类明显含有错误的日志，进行数据清洗，保留下的日志大部分为为正常日志。

步骤3：建立采集流程模型，采集流程模型包括被采集设备的监测点关键词列表、采集流程状态关键词列表以及数据库关键词列表，通过该采集流程模型能够从数据采集运行日志中提取采集流程从采集开始到采集结束的完整采集流程的日志。

在数据的实际采集过程中，根据需求会有多种采集流程，每种采集流程都是由一串流程组成。

比如一个时序数据采集流程由以下组件按照顺序组成：

1.从VeStore数据库a采集n个磨煤机相关测点数据；

2.按照预定好的编码表进行数据编码转化；

3.将转化好的n个磨煤机相关测点数据写入到VeStore数据库b。

通过日志中的关键词可以来分辨采集流程名、采集流程的流程状态，比如使用coal_mill关键词表示这是磨煤机采集流程，start、trans、over等则分别表示处于采集开始、数据转化、采集结束状态，VeStore、mysql、oracle表示涉及的数据库信息。

具体地，在步骤3中，根据被采集设备的监测点关键词，采集流程状态关键词以及数据库关键词建立采集模型，采集流程模型格式如下：

[监测点关键词列表，状态关键词列表，数据关键词]

其中，第一部分是被采集设备的监测点关键词列表，对监测点关键词按照出现顺序排列，其长度为n_i, 按照出现顺序排列，关键词长度为n_i，即监测点关键词列表所包含的关键词数量为n_i个。第二部分为采集过程的状态关键词列表，按照每个状态里的子步骤定义的关键词顺序进行排列，关键词长度为m_i，即状态关键词列表所包含的关键词数量为m_i个。第三部分为涉及的数据库关键词。

需要说明的是，在采集程序开发过程中，工作人员可按照预定规则定义日志的记录格式，在这个过程中，会定义好各个关键词在不同位置出现的意义，从而方便调试与问题追踪，因此，在本发明中设定关键词列表时，应照程序开发过程中定义的日志格式来定义关键词的列表与顺序。

并且，采集流程模型包括采集开始模式P1、采集数据转化模式P2以及采集结束模式P3。

所述采集开始模式P1的被采集设备的监测点关键词包括包括监测点a₁、监测点a₂、...、监测点a_q；采集流程状态关键词包括init_success, start，分别表示初始成功、开始采集；数据库关键词包括VeStore、mysql、oracle，表示采用VeStore、mysql、oracle数据库进行采集。其中，下标_q是指在采集开始模式中监测点关键词数量。

在本发明的一个实施例中，采集开始模式P1为[(coal_mill, bear_position,rotating_parts,drive_part), (init_success, start),VeStore]，则其中设备关键词列表中的coal_mill表示磨煤机，bear_position, rotating_parts,drive_part则分别表示磨煤机的轴承部位、转动部位、传动部这3个主要部件；状态关键词列表中的init_success,start分别表示初始成功、开始采集；VeStore表示本次采集是从VeStore数据库进行采集。

所述采集数据转化模式P2的被采集设备的监测点关键词包括监测点b₁、监测点b₂、...、监测点b_s；采集流程状态关键词包括arrive, trans, success，分别表示数据到达、开始转换、转换成功；数据库关键词处为空白，表示该模式涉及的流程不涉及数据库操作。其中，下标_s是指在采集开始模式中监测点关键词数量。

在本发明的一个实施例中，磨煤机采集数据转化模式P2为[(coal_mill,intermediate_conversion_part), (arrive, trans, success), “”]，其中设备关键词列表中的coal_mill表示磨煤机， intermediate_conversion_part表示中间数据转换设备；状态关键词列表中的arrive, trans, success表示数据到达、开始转换、转换成功；数据库关键词为””表示本模式涉及的流程不涉及数据库操作。

所述采集结束模式P3的被采集设备的监测点关键词包括监测点c₁、监测点c₂、...、监测点c_y；采集流程状态关键词包括write, over，表示数据开始写入、采集结束；数据库关键词包括VeStore，表示在该模式中将数据写入VeStore数据库。其中，下标_y是指在采集结束模式中监测点关键词数量。

在本发明的一个实施例中，磨煤机采集结束模式P3为[(coal_mill, write_part), (write, over), VeStore]，其中设备关键词列表中的coal_mill表示磨煤机，write_part表示写入设备；状态关键词列表中的write, over表示数据开始写入、采集结束；VeStore表示本模式是将数据往VeStore数据库写入。

步骤4：将所述步骤2中进行清洗处理的历史数据输入到所述步骤3中建立的采集流程模型提取从开始到结束的完整采集流程日志。

具体地，步骤4具体包括以下详细步骤：

步骤401：将历史数据中的关键词与采集开始模式P1进行匹配，筛选出属于符合该采集开始模式P1的日志。

步骤402：将历史数据中的关键词与采集数据转化模式P2进行匹配，筛选出属于符合该采集数据转化模式P2的日志。

步骤403：将历史数据中的关键词与采集结束模式P3进行匹配，筛选出属于符合该采集结束模式P3的日志。

并且，在进行匹配的过程中，对于采集流程模型中的关键词列表中只有一个关键词的情况，直接进行匹配；对于采集流程模型中有多个关键词的列表，需要按照关键词出现顺序依次进行匹配。

在本发明的一个实施例中，采用多模匹配算法AC自动机通过python语言实现采集流程模型，采集流程模型属于多模匹配，它可以是一个词构成，也可以是多个词按照一定顺序构成，比如【coal】可以是一个模式，【coal mill start】也可以是一个模式。

对于模式【coal】，只有日志中出现这个词就算匹配上，比如【coal feed is 100】,【coal mill 1 starts】都是匹配上的日志数据；

对于模式【coal, mill, start】,它需要coal, mill, start这3个词都出现，并且是按照coal,mill,start的顺序出现才算匹配上，比如【coal mill 1 start to work】是匹配上的，但是【start to boot coal mill】和【coal start, next to start mill】虽然出现3个词，但顺序不对，都不算匹配上。

比如对于磨煤机采集开始模式P1，它需要匹配的模式有如下三个：

(coal_mill, bear_position, rotating_parts, drive_part)

(init_success, start)

VeStore

当一条日志都完全匹配上上面3个模式后，即可认为它匹配上模式P1，属于磨煤机采集开始的日志。对于磨煤机采集日志，需要连续匹配上P1、P2、P3这3个模式，便可抽取出磨煤机采集的采集开始、数据转换、采集结束这3条日志，从而组成一次完整的磨煤机采集日志。

步骤5：根据步骤4中提取的完整采集流程日志，提取特征，所述特征包括日志的文字记录状态特征、时间记录状态特征以及参数数字状态特征。

具体地，步骤5中，提取文字记录状态特征包括以下步骤：

步骤501：将一次完整采集流程的每条日志的内容分为文字记录、时间记录以及参数数字记录部分。

步骤502：设置停用词，并在所述文字记录部分中去除停用词后，获得第一词库，所述停用词包括and、or、to、for、is、from。

步骤503：计算第一词库中的每个词的词频，取词频最多的前N₁个词作为该采集流程的第二词库，第一词库中其余词使用unknown代替，将步骤501中的文字记录转化为由所述第二词库中的词和unknown构成的词串。

步骤504：根据步骤501-503得到所述完整采集流程日志的所有词串后，进行统计排序，选取出现次数前N₂的词串作为所述完整采集流程的文字状态集，其余词串则用unknown代替。

在本发明的一个实施例中，假定采集流程实例T的一次完整采集流程实例日志条数为N。

对于这个采集流程实例中的每条日志，系统首先将日志分为文字记录、时间记录以及参数数字记录三部分。

假定对于一个磨煤机数据采集流程实例，有以下日志记录：

2020-07-16 09:24:40: start collect from VeStore, collect 1000 coal_millpoints,status is ok.

2020-07-16 09:24:45: trans for 1000 coal_mill points, cost 0.05s.

2020-07-16 09:24:47: write to VeStore for 1000 coal_mill points, cost0.15s.

对于文字记录，因为日志为全英文，所以直接根据空格进行分词，预先设置一批停用词（比如and、or这类无实际意义的词），去除停用词后得到一个词库。统计属于采集流程实例T的日志中该词库的词频，取排序前N1的词作为该采集流程实例的词库，其余词都用unknown代替。由此可以用词库中的词组成的一个词串来表示一条日志。

文字记录为：

start collect from VeStore, collect coal_mill points,status is ok

trans for coal_mill points, cost

write to VeStore for coal_mill points, cost

设置停用词为to、for、is、from，选择词库为trans、coal_mill、write、start、trans、collect、VeStore，则文字日志数据转化为：

start collect VeStore collect coal_mill unknown,unknown unknown.

trans coal_mill unknown unknown

write VeStore coal_mill unknown unknown

将词串作为日志的文字状态，可以得到采集流程T的日志中所有的文字状态，对这些文字状态进行统计排序，取出现次数前N₂的词串作为采集流程T的文字状态集，其余词串则用unknown代替，最终用数字序号表示采集流程实例的文字状态词串。

由此得到采集流程实例的文字记录状态特征，为一个1维整数，取值范围为0~N₂。一次完整采集流程实例的日志的文字记录特征便可以用一个N维整数序列来表示。

假定上述文字记录在磨煤机数据采集流程文字状态集中下标分别为0，5，9，则上述文字记录特征转化为[0, 5, 9]。

步骤5中，提取时间记录特征包括以下步骤：

在本发明的一个实施例中，上述磨煤机数据采集流程实例时间差结果为[5，2]，假设磨煤机数据采集流程时间差最大为9，最小为1，并且将时间差分为[1, 3],(3,5],(5,7],(7,9]这4个部分，它们对应的映射整数分别是[0，1，2，3]，则时间差记录特征为[1, 0]。

在步骤5中，提取参数数字记录特征包括以下步骤：

步骤509：对于相同采集流程日志，去除时间戳后，统计相同采集流程日志在每个位置上出现的数值，假设统计出的该采集流程的采集流程日志参数数字有L个，则得到一个由L个整数数字组成的参数序列。

具体地，通过以下具体步骤获得参数序列：

步骤509-1：统计所述采集流程日志的相同位置上参数值的最大值V_max和最小值V_min，将参数取值范围[V_min, V_max]分割为S份，并将分割后的参数取值范围映射到[0，S-1]。其中，若任意一个位置数据值为唯一一个，取值为V，则将其映射为0；且数据采集日志的实时数据中，在该位置的值若为V，则映射为0；若不是V，是新的值，则映射为1。

若任意位置上的值有多个，且取值范围为[V_min, V_max]，则将并将其映射到[0, S-1]；且数据采集日志的实时数据中，在该位置上的值的取值范围不属于[V_min, V_max]时，将其映射为S。

步骤510：统计相同采集流程日志的的参数序列，取出现次数前N₃的参数序列作为该采集流程日志的参数数字状态集，其余参数序列则用unknown代替。

步骤511：对于相同采集流程日志的参数序列，将属于排序前N₃的参数数字状态集的参数序列映射为N₃-1，其余参数序列映射为N₃，形成该采集流程日志的参数数字特征。

在本发明的一个实施例中，上述磨煤机数据采集流程实例参数数字记录如下：

流程1：1000 .

流程2：230，0.005.

流程3：1000，0.15.

假设磨煤机数据采集流程历史数据中，在流程1的第一个数字统计得到最小最大数字分为为100,2100，均匀分为20份：[100, 200), [200, 300), [300, 400), [400, 500),[500, 600), [600, 700), [700, 800), [800, 900), [900, 1000), [1000, 1100),[1100, 1200), [1200, 1300), [1300, 1400), [1400, 1500), [1500,1600), [1600,1700), [1700, 1800), [1800, 1900), [1900, 2000), [2000, 2100]，这20个范围分别对应[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]的整数。

假设N₃=10，在磨煤机数据采集流程历史数据中，在流程1这一个数字上，在这20个范围的日志，按照出现次数排序，排在前10的10个范围按照出现次序逆序排序为：[1000,1100), [1100, 1200), [1200, 1300), [100, 200), [200, 300), [300, 400), [600,700), [700, 800), [1800, 1900), [1900, 2000)，它们对应的映射整数分别是9,10,11,0,1,2,5,6,17,18。

因为N₃=10，所以我们保留排在前10的9,10,11,0,1,2,5,6,17,18，其余数字都变为unknown。需要说明的是，在实际情况中，如果出现不在上述20个范围的数字，将它对应到unknown状态。

因此，我们收集到磨煤机数据采集流程历史数据中，在流程1的参数数字状态集为{9,10,11,0,1,2,5,6,17,18, unknown}，按照状态的出现次序逆序排序。

其中排在第一的9在状态集中下标为0，排在第二的10转化为1，排在第三的11转化为2，unknown则转化为10，从而将流程1的数字参数转化为了0~N₃大小的数字特征。

因为1000在在[1000, 1100)范围，映射为整数9，所以在状态集的下标结果就是0了。

同理，假设流程2第一个数字最小最大数字分为为100,2100，均匀分为20份：[100,200), [200, 300), [300, 400), [400, 500), [500, 600), [600, 700), [700, 800),[800, 900), [900, 1000), [1000, 1100), [1100, 1200), [1200, 1300), [1300,1400), [1400, 1500), [1500,1600), [1600, 1700), [1700, 1800), [1800, 1900),[1900, 2000), [2000, 2100]，这20个范围分别对应[0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10, 11, 12, 13, 14, 15, 16, 17, 18, 19]的整数；第二个数字最小最大数字分为为0,0.2，均匀分为20份：[ [0.0, 0.01), [0.01, 0.02), [0.02, 0.03), [0.03, 0.04),[0.04, 0.05), [0.05, 0.06), [0.06, 0.07), [0.07, 0.08), [0.08, 0.09), [0.09,0.1), [0.1, 0.11), [0.11, 0.12), [0.12, 0.13), [0.13,0.14), [0.14, 0.15),[0.15, 0.16), [0.16, 0.17), [0.17, 0.18), [0.18, 0.19), [0.19, 0.2]]，它们对应的整数分别是[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17,18, 19]的整数。

假设流程2中两个数字按出现次数排序前10，逆序结果为

([900, 1000),[0.05, 0.06))，对应的映射整数序列为(8, 5)；

([1000, 1100), [0.06, 0.07))，对应的映射整数序列为(9,6)；

([200, 300),[0.0, 0.01))，对应的映射整数序列为(1,0)；

([300, 400),[0.01, 0.02))，对应的映射整数序列为(2, 1)；

([1500,1600), [0.15, 0.16))，对应的映射整数序列为(14, 15)；

([1600, 1700),[0.16, 0.17))，对应的映射整数序列为(15, 16)；

([1200, 1300), [0.19, 0.2])，对应的映射整数序列为(11, 19)；

([100, 200), [0.18, 0.19))，对应的映射整数序列为 (0, 18)；

([700, 800),[0.1, 0.11))，对应的映射整数序列为(6, 1)；

([2000, 2100], [0.11, 0.12))，对应的映射整数序列为(19, 11)；

上述10个状态加上unknown便是流程2的状态集。

因此，上述流程2，230，0.005的结果对应的映射整数序列为(1,0)，为状态集中排序第3的状态，因此在状态集中下标为3。

同理，假设流程3参数数字转化为[1,5]，它在磨煤机数据采集流程3的参数数字状态集中下标是8。则上述数据转化为的参数数字序列特征为[0, 3, 8]。

值得注意的是，所属领域技术人员可以清楚地认识到，给出的文字、参数数字状态映射到整数仅是一种非限制的举例，可以采用任意其它映射法将状态转化为整数，实现类似的技术效果。

步骤6：根据所述步骤5提取的文字记录状态特征、时间记录状态特征以及参数数字状态特征，分别进行训练获得文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型。

对于属于采集流程T的日志数据，假设可以根据采集流程模板得到NT个完整的采集流程实例日志，则可用的训练数据有NT个。

对于这3类特征，分别训练一个隐马尔可夫模型HMM(文字)、HMM(时间)、HMM(参数数字)。HMM的隐藏状态数设置为采集流程T在采集流程模板中的流程数。

对于文字状态特征序列，HMM(文字)的观测状态集合便是步骤2中的采集流程T的文字状态集，为排序前M2的文字状态加一个unknown状态。

对于时间记录状态特征序列，HMM(时间)的观测状态集合便是步骤2中的时间差映射集合[0, K-1]中的K个整数。

对于参数数字状态特征序列，HMM(参数数字)的观测状态集合便是步骤2中的采集流程T的参数数字状态集，为排序前M3的参数数字状态加一个unknown状态。

在本发明的一个实施例中，可通过python的hmmlearn库进行模型训练。以上述文字状态特征序列为例，对于磨煤机数据采集流程，它有3个流程，所以每条数据为一个长度为3的数字序列，序列中每个数的取值范围为0~M2。

假设共有N条磨煤机数据采集数据，则对于磨煤机的数据采集过程，可以提取出N条3维的数据，它们是HMM模型的观测序列数据，作为训练输入数据X。创建hmm.GaussianHMM对象，其中n_components为3，n_iter=500,covariance_type=’full’。

对象调用fit方法，X作为输入参数进行训练。

步骤7：根据步骤6得到的文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型，判断数据采集运行日志的数据是否异常。

具体地，步骤7包括以下步骤：

步骤701：根据以下公式计算文字状态特征序列的概率：

P1=P_HMM文字（x）

步骤702：根据以下公式计算时间记录状态特征序列的概率：

P2 = P_HMM时间（t）

步骤703：根据以下公式计算参数数字状态特征序列的概率：

P3 = P_{HMM参数数字}（z）

P = P1 * P2 * P3

在本发明中，通过以下方式设定阈值：

步骤705-1：根据所述步骤701-704计算属于完整采集流程的所有完整采集流程日志的最终概率P。

步骤705-2：将所述步骤705-1的计算结果统计排序后，根据经验排除可能存在的异常(比如未测试出的功能类bug)导致的过小概率，对剩余概率数据按逐渐变小的顺序进行排序，获得概率值列表。

本发明的方法只需进行简单的采集流程模板以及概率阈值设置，无需标注数据便可进行训练，实现异常判断，实现成本低廉。并且，采用隐马尔可夫模型HMM进行时序日志数据的处理，将异常检测采集流程实例转化为路径异常概率问题，采集流程实例求解难度降低。将采集日志数据转化为文字、时间、参数数字三部分特征序列，有效利用了采集日志数据。

本发明结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

[监测点关键词列表，状态关键词列表，数据关键词]；

其中，第一部分是被采集设备的监测点关键词列表，对监测点关键词按照出现顺序排列，其长度为n_i，即监测点关键词列表所包含的关键词数量为n_i个；第二部分为采集过程的状态关键词列表，按照每个状态里的子步骤定义的关键词顺序进行排列，关键词长度为m_i，即状态关键词列表所包含的关键词数量为m_i个；第三部分为涉及的数据库关键词。

3.根据权利要求2所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

所述采集开始模式P1的被采集设备的监测点关键词包括监测点a₁、监测点a₂、...、监测点a_q；采集流程状态关键词包括init_success, start，分别表示初始成功、开始采集；数据库关键词包括VeStore、mysql、oracle，表示采用VeStore、mysql、oracle数据库进行采集；其中，下标_q是指在采集开始模式中监测点关键词数量；

所述采集结束模式P3的被采集设备的监测点关键词包括监测点c₁、监测点c₂、...、监测点c_y；采集流程状态关键词包括write, over，表示数据开始写入、采集结束；数据库关键词包括VeStore，表示在该模式中将数据写入VeStore数据库；其中，下标_y是指在采集结束模式中监测点关键词数量。

4.根据权利要求3所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

所述步骤4包括以下步骤：

5.根据权利要求4所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

对于采集流程模型中的关键词列表中只有一个关键词的情况，直接进行匹配；对于采集流程模型中有多个关键词的列表，需要按照关键词出现顺序依次进行匹配。

6.根据权利要求1-4任意一项所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

步骤5中，提取文字记录状态特征包括以下步骤：

7.根据权利要求1-4任意一项所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

所述步骤5中，提取时间记录特征包括以下步骤：

8.根据权利要求1-4任意一项所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

在所述步骤5中，提取参数数字记录特征包括以下步骤：

步骤510：统计相同采集流程日志的参数序列，取出现次数前N₃的参数序列作为该采集流程日志的参数数字状态集，其余参数序列则用unknown代替；

9.根据权利要求8所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

所述步骤509还包括以下子步骤：

10.根据权利要求9所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

11.根据权利要求1-4任意一项所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

所述步骤7包括以下步骤：

步骤701：根据以下公式计算文字状态特征序列的概率：

P1 = P_HMM文字（x）

步骤702：根据以下公式计算时间记录状态特征序列的概率：

P2 =P_HMM时间（t）

步骤703：根据以下公式计算参数数字状态特征序列的概率：

P3 =P_{HMM参数数字}（z）

P = P1 * P2 * P3

12.根据权利要求11所述的基于隐马尔可夫模型的数据采集运行异常检测方法，其特征在于：

设定所述阈值的方式包括以下步骤：