CN116306937A - 一种基于时间序列离线数据的规则提取方法、介质及设备 - Google Patents

一种基于时间序列离线数据的规则提取方法、介质及设备 Download PDF

Info

Publication number
CN116306937A
CN116306937A CN202310288184.5A CN202310288184A CN116306937A CN 116306937 A CN116306937 A CN 116306937A CN 202310288184 A CN202310288184 A CN 202310288184A CN 116306937 A CN116306937 A CN 116306937A
Authority
CN
China
Prior art keywords
data
duration
character
time sequence
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310288184.5A
Other languages
English (en)
Other versions
CN116306937B (zh
Inventor
唐红武
王殿胜
张凯伦
苏茹梅
马泽龙
邓翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202310288184.5A priority Critical patent/CN116306937B/zh
Publication of CN116306937A publication Critical patent/CN116306937A/zh
Application granted granted Critical
Publication of CN116306937B publication Critical patent/CN116306937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理领域,特别是涉及一种基于时间序列离线数据的规则提取方法、介质及设备。包括:获取目标事件每一时序阶段的持续时长集。对每一时序阶段的持续时长集进行时长区间提取处理,生成每一时序阶段对应的标准持续区间。根据每一时序阶段对应的标准持续区间,生成对应时序阶段的判定规则。本发明通过对每一时序阶段对应多的多个已有的持续时长进行时长区间提取处理,可以更加准确的确定出对应的时序阶段最有可能对应的持续时长。也即相当于通过时长区间提取处理,可以更加准确的挖掘出历史数据中存在的普适规律,并将该规律作为对应的异常判定规则,以更加准确的判定出数据中存在的异常数据,提高目标事件的描述信息的准确度。

Description

一种基于时间序列离线数据的规则提取方法、介质及设备
技术领域
本发明涉及数据处理领域,特别是涉及一种基于时间序列离线数据的规则提取方法、介质及设备。
背景技术
随着互联网技术的发展,在越来越多的行业中,会将一个事件对应的多个方面的描述信息存放在对应的字段中,以形成事件的描述数据包进行记录保存或传递。如以航空领域的航班信息为例进行说明。对于一个航班的描述数据包可以包括如下字段内容:航班号、出发地到达地、登机开始时间、登机结束时间、关舱门时间、撤轮档时间、起飞时间、到达时间及行李转盘号等。
在如此大量的字段信息中,可能会由于设备故障或解析规则故障等原因,造成某些描述字段的数据或者整个描述数据包的信息出现异常。现有技术中,缺少对上述异常信息进行有效辨识的方法,进而导致事件的描述信息准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本发明的一个方面,提供了一种基于时间序列离线数据的规则提取方法,该方法包括如下步骤:
获取目标事件每一时序阶段的持续时长集;G1,G2,…,Gk,…,Gy;其中,Gk为第k个时序阶段的持续时长集;k=1,2,…,y;y为目标事件的时序阶段的总数量;每一持续时长集中包括至少一个对应的持续时长;
对每一时序阶段的持续时长集进行时长区间提取处理,生成每一时序阶段对应的标准持续区间;
根据每一时序阶段对应的标准持续区间,生成对应时序阶段的判定规则;
时长区间提取处理包括:
根据持续时长集中包括的持续时长,生成时序阶段对应的时长占比曲线,其中,横轴为持续时长值,纵轴为每一持续时长的数量与持续时长集中包括的持续时长的总数量之比;
根据时长占比曲线,生成每一累计时长对应的第一可信度;第一可信度满足如下条件:
Figure BDA0004140466240000021
其中,/>
Figure BDA0004140466240000022
为第a个累计时长对应的第一可信度;f(x)为时长占比曲线对应的函数;W0为时长占比曲线与横轴围合成的总面积;g1为持续时长集中持续时长的最小值;
Figure BDA0004140466240000023
首次大于第一可信阈值时,将/>
Figure BDA0004140466240000024
对应的累计时长作为目标区间长度L;
根据持续时长集中包括的持续时长,生成时长占比曲线的偏度S;
根据偏度及目标区间长度,生成每一待选时长区间对应的第二可信度,第二可信度满足如下条件:
Figure BDA0004140466240000025
其中,/>
Figure BDA0004140466240000026
为第b个待选时长区间对应的第二可信度;/>
Figure BDA0004140466240000027
为第b个待选时长区间的第一端点值;/>
Figure BDA0004140466240000028
为第b个待选时长区间的第二端点值;g4为持续时长集中持续时长的最大值;
Figure BDA0004140466240000029
满足如下条件:/>
Figure BDA00041404662400000210
Figure BDA00041404662400000211
满足如下条件:/>
Figure BDA00041404662400000212
Figure BDA00041404662400000213
大于或等于第二可信阈值时,将/>
Figure BDA00041404662400000214
作为时序阶段对应的标准持续区间。
根据本发明的第二个方面,提供了一种非瞬时性计算机可读存储介质,非瞬时性计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于时间序列离线数据的规则提取方法。
根据本发明的第三个方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种基于时间序列离线数据的规则提取方法。
本发明至少具有以下有益效果:
本发明通过对每一时序阶段对应多的多个已有的持续时长进行时长区间提取处理,可以更加准确的确定出对应的时序阶段最有可能对应的持续时长。也即相当于通过时长区间提取处理,可以更加准确的挖掘出历史数据中存在的普适规律,并将该规律作为对应的异常判定规则,以更加准确的判定出数据中存在的异常数据,以此提高目标事件的描述信息的准确度。
另外,由于在实际使用中每一时序阶段中的多个持续时长的大体分布,会更加近似左偏分布、对称分布及右偏分布的任意一种形式。为适应上述分布情况,本发明中将
Figure BDA0004140466240000031
与/>
Figure BDA0004140466240000032
分别作为对目标区间长度L进行左右分配的系数。当数据分布为对称分布时,S=0,
Figure BDA0004140466240000033
由此可以对L进行平均分配。当数据分布为左偏分布时,数据的集中分布更加靠近右侧,S<0,/>
Figure BDA0004140466240000034
由此,可以将L更多的分配给位于右侧的第二端点值。同理,当数据分布为右偏分布时,可以将L更多的分配给位于左侧的第二端点值。由此,本发明在确定每一时序阶段对应的标准持续区间时加入了偏度S这一影响因素,由此,在不同的数据分布形式中,可以更加准确快速的确定出标准持续区间的两个端点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于时间序列离线数据的规则提取方法流的程图。
图2为本发明实施例提供的一种基于离线数据的规则提取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为本发明一种可能的实施例,如图1所示,提供了一种基于时间序列离线数据的规则提取方法,该方法包括如下步骤:
S100:获取目标事件每一时序阶段的持续时长集G1,G2,…,Gk,…,Gy。其中,Gk为第k个时序阶段的持续时长集。k=1,2,…,y。y为目标事件的时序阶段的总数量。每一持续时长集中包括至少一个对应的持续时长。
每一时序阶段的持续时长集中的数据可以采用已存在的离线数据。本实施例可用于航空领域。如以获取机场航班的登机开始时间到登机结束时间形成的时序阶段的数据规则为例进行说明。
本示例中的持续时长即为该机场各个航班的登机结束时间与登机开始时间的差值。
若要提高精度,可以将目标事件设置为更加单一且具体的事件。如某一航班的登机开始时间到登机结束时间形成的时序阶段。
S200:对每一时序阶段的持续时长集进行时长区间提取处理,生成每一时序阶段对应的标准持续区间。
S300:根据每一时序阶段对应的标准持续区间,生成对应时序阶段的判定规则。
若经过处理后确定的标准持续区间为[10min,35min],则将该标准持续区间中包含的所有持续时长,作为该时序阶段的正常持续时长值。若后续出现一个该时序阶段的新数据中的持续时长不在上述区间中,则认为该数据存在异常。当然,也可以通过确定出标准持续区间,来对对应的时序阶段的持续时长进行预测。
时长区间提取处理包括:
S201:根据持续时长集中包括的持续时长,生成时序阶段对应的时长占比曲线,其中,横轴为持续时长值,纵轴为每一持续时长的数量与持续时长集中包括的持续时长的总数量之比。
S202:根据时长占比曲线,生成每一累计时长对应的第一可信度。第一可信度满足如下条件:
Figure BDA0004140466240000041
其中,/>
Figure BDA0004140466240000042
为第a个累计时长对应的第一可信度。f(x)为时长占比曲线对应的函数。W0为时长占比曲线与横轴围合成的总面积;为g1为持续时长集中持续时长的最小值。W0具体为时长占比曲线与[g1,g4]部分的横轴围合成的总面积。
本步骤中,累计时长可以按照1分钟进行累计。由此,第a个累计时长即为a分钟,对应的积分区间则为[g1,g1+a]。
S203:当
Figure BDA0004140466240000043
首次大于第一可信阈值时,将/>
Figure BDA0004140466240000044
对应的累计时长作为目标区间长度L。
第一可信阈值可以为90%。
S204:根据持续时长集中包括的持续时长,生成时长占比曲线的偏度S。
进一步的,S满足如下条件:
Figure BDA0004140466240000045
其中,Xu为持续时长集中的第u个持续时长。u为持续时长集中包含的持续时长的总数量。μ为持续时长集中持续时长的平均数。σ为持续时长集中持续时长的标准差。
本步骤中,当持续时长集中包括的持续时长分布为对称分布(正态分布)时,S=0。
当持续时长集中包括的持续时长分布为左偏分布时,S<0。
当持续时长集中包括的持续时长分布为右偏分布时,S>0。
S205:根据偏度及目标区间长度,生成每一待选时长区间对应的第二可信度,第二可信度满足如下条件:
Figure BDA0004140466240000051
其中,/>
Figure BDA0004140466240000052
为第b个待选时长区间对应的第二可信度。/>
Figure BDA0004140466240000053
为第b个待选时长区间的第一端点值。/>
Figure BDA0004140466240000054
为第b个待选时长区间的第二端点值。g4为持续时长集中持续时长的最大值。
Figure BDA0004140466240000055
满足如下条件:/>
Figure BDA0004140466240000056
Figure BDA0004140466240000057
满足如下条件:/>
Figure BDA0004140466240000058
本步骤中每两个相邻的待选时长区间的基础起始时间相差1分钟。g1+b-1则表示第b个待选时长区间的基础起始时间。由此,第一个待选时长区间的基础起始时间为g1,则第二个待选时长区间的基础起始时间为g1+1。同时,
Figure BDA0004140466240000059
和/>
Figure BDA00041404662400000510
最终的值只取整数部分的值,作为最终输出。
以g1=5min,g4=50min,S=0.353,L=36进行实例说明:
对应的
Figure BDA00041404662400000511
取整后为21;/>
Figure BDA00041404662400000512
取整后为11。
对应的第1个待选时长区间为[5min,16min];对应的第30个待选时长区间为[13min,45min]。
S206:当
Figure BDA00041404662400000513
大于或等于第二可信阈值时,将/>
Figure BDA00041404662400000514
作为时序阶段对应的标准持续区间。
由此,以本实施例中的方式可以每隔一分钟确定出一个待选时长区间,并求在每一个待选时长区间中时长占比曲线的定积分。本实施例中可以将所有的待选时长区间对应的定积分的最大值作为第二可信阈值。
由于,本发明中将
Figure BDA00041404662400000515
与/>
Figure BDA00041404662400000516
分别作为对目标区间长度L进行左右分配的系数。当数据分布为对称分布时,S=0,/>
Figure BDA00041404662400000517
由此可以对L进行平均分配。当数据分布为左偏分布时,数据的集中分布更加靠近右侧,S<0,/>
Figure BDA00041404662400000518
由此,可以将L更多的分配给位于右侧的第二端点值。同理,当数据分布为右偏分布时,可以将L更多的分配给位于左侧的第二端点值。由此,本发明在确定每一时序阶段对应的标准持续区间时加入了偏度S这一影响因素,由此,使得确定出的待选时长区间的形式与数据分布形式更加贴合,进而可以更加准确快速的确定出标准持续区间的两个端点。本实施例更加适用于对具有多个时序阶段的目标事件的数据判定规则的提取。如航班运行事件,购物流程事件等。
作为本发明一种可能的实施例,如图2所示,还提供了一种基于离线数据的规则提取方法,该方法还包括:
S400:获取目标事件的多个描述字段的初始数据集A1,A2,…,Ai,…,Az。其中,Ai为第i个描述字段对应的初始数据集。i=1,2,…,z。z为目标事件的描述字段的总数量。每一初始数据集中包括至少一个对应的字段数据。
具体的,以航空领域为例进行说明,对航班的描述字段可以包括航班号、出发地到达地、起飞时间、到达时间及行李转盘号等。航班号中可以包括MU1234、3U1234及中航1254等字段数据。
S500:对每一字段数据进行字符类型转化处理,生成每一字段数据对应的字符数据。每一初始数据集中包括至少一种类型的字符数据。
S600:根据每一初始数据集中包含的字段数据对应的字符数据,生成每一初始数据集对应的字符置信度集B1,B2,…,Bi,…,Bz,Bi={Ai1,Ai2,…,Ain,…,Af(Ai)}。其中,Bi为Ai对应的字符置信度集。Ain为Ai中第n种类型的字符数据对应的置信度。n=1,2,…,f(Ai)。f(Ai)为Ai中字符数据的种类总数。Ain满足如下条件:
Ain=Yin/Yi。其中,Yin为Ai中第n种类型的字符数据的总数量。Yi为Ai中所有字符数据的总数量。
S700:根据每一初始数据集对应的字符置信度集中的置信度分布情况,生成目标事件每一初始数据集对应的描述字段的数据判定规则。
进一步的,本方法还包括:
S800:根据每一描述字段对应的数据判定规则,对对应描述字段新增的字段数据进行判定。
若新增的字段数据的字符数据,与对应数据判定规则中存在的任意字符数据不同,则判定新增的字段数据为异常数据。
字符类型转化处理包括:
S501:使用split函数对组成字段数据中的每一字符进行切分,生成多个独立字符。
若独立字符为数字,则标记为第一字符标识。
若独立字符为字母,则标记为第二字符标识。
若独立字符为汉字,则标记为第三字符标识。
S502:将多个独立字符分别对应的字符标识,拼合成字段数据对应的字符数据。字符标识包括第一字符标识、第二字符标识及第三字符标识。
本实施例中,第一字符标识为1,第一字符标识为A,第一字符标识为C。
以SC1234为例进行说明,首先通过split函数炸开为S,C,1,2,3,4,然后对每一独立字符进行判断,确定每一位是否为数字、是否为字母、是否为中文,或者其他符号。最后得到对应的字符数据为AA1111。以此规则转化后,可以得到每一描述字段中,每一种组成形式的描述数据的占比,进而可以便于得出对应的规律。
如在航班编号字段中大量存在三种格式,分别为AA、A1及1A。对于时间类字段,比如起飞时间字段,仅有一种格式1111-11-1111:11:11:11,即为yyyy-MM-dd hh:mm:ss。由此,经过本实施例中的字符类型转化处理后,可以更加明显的突出每一个描述字段中,描述数据的字符组成形式的规律。进而可以根据该规律,更加准确的确定出每一描述字段对应的异常数据形式的判定规则。本实施例主要为对数据的组成形式的判定,更加适用于对描述数据进行异常的初步判定。
作为本发明一种可能的实施例,S700:根据每一初始数据集对应的字符置信度集中的置信度分布情况,生成目标事件每一初始数据集对应的描述字段的数据判定规则,包括:
S701:对字符置信度集中的置信度进行降序排序,生成置信度序列。
S702:将置信度序列中前m个置信度分别对应的字符数据,作为目标数据格式。m为置信度序列中置信度累计和首次大于第一置信阈值时置信度的个数。
S703:根据每一描述字段对应的目标数据格式,生成目标事件每一描述字段的数据判定规则。
以航班编号字段进行说明:该字段中大量存在三种格式,分别为AA、A1及1A;还极少量的存在11和C1。每种格式对应的置信度分别为AA=0.38,A1=0.33,AA=0.21,11=0.07,C1=0.04。第一置信阈值为0.9。
所以m=3。对应的,将AA、A1及1A目标数据格式。
本实施例中,可以将描述数据中出现的极少数情况进行自动去除。由于,在历史数据中同样会存在一些异常数据,且这些异常数据的出现次数较小,对应的置信度也为极小值。由此,本实施例可以滤除异常数据,进而保证获取出来的目标数据格式,为更加符合实际情况的且出现次数较多的正常数据,以提高最终生成的数据判定规则的准确度。
作为本发明一种可能的实施例,在S702:将置信度序列中前m个置信度分别对应的字符数据,作为目标数据格式之后,方法还包括:
S704:根据置信度序列中剩余的多个置信度分别对应的字符数据,生成补充数据格式。
S705:根据每一描述字段对应的补充数据格式,生成目标事件每一描述字段的数据判定规则。
由于,在一些字段中极小值对应的数据格式也可能是正常的数据,只是出现频率较低。如在航班编号中,国内航班编号与国际编号规则不同,由此组成格式也不同,但是由于在某些机场中国际航班极少,所以会导致对应的置信度极小。
由此,本实施例中通过对置信度序列中剩余的多个极小值,进行再次辨认,可以确定出更多的正常数据格式作为补充。由此,可以进一步提高数据判定规则的准确度。
作为本发明一种可能的实施例,在S600之后,方法还包括:
S601:获取目标事件的多个历史时序向量C1,C2,…,Cp,…,Cq。其中,Cp=(D1,D2,…,Dr),Cp为第p个历史时序向量。p=1,2,…,q。q为目标事件的历史时序向量的总数量。Dr为目标事件的第r个与第r+1个运行节点之间的时间间隔。
具体的,以登机开始时间9:00、登机结束时间9:30、关舱门时间9:40及起飞时间9:56为运行节点进行示例说明:
上述运行节点对应的时序向量为(30,10,16)。由此,根据历史积累的数据可以得到大量的历史时序向量。
S602:对多个历史时序向量进行聚类,生成多个时序族群。
可以使用现有的聚类方法进行聚类,最终生成多个时序族群。该聚类族群的数量可以通过人进行设置,如5个。
S603:获取待测事件对应的待测时序向量。待测事件与目标事件为相同类型的事件。
S604:若待测时序向量属于任意时序族群,则对待测时序向量进行二次判定。
通过聚类可以依据数据的相似性对数据进行大致划分。大量的历史时序向量大致确定出各个时序族群,可以形成一个初步的异常判定条件,若新的待测时序向量属于任意时序族群,则进行更为严格的二次判定。若不属于,则可以快速确定出该待测时序向量属于异常。
二次判定包括:
S614:获取待测时序向量对应的标准时序向量。标准时序向量对应的事件与待测事件的相关度大于相关阈值。
本步骤中的相关度可以由不同航班之间的相同点进行确定。如待测事件与标准时序向量对应的事件的航班号、出发地及到达地均相同,则为标准时序向量对应的事件与待测事件的相关度大于相关阈值。也即,标准时序向量为该待测事件的历史数据,通常由于同一航班的数据之间的相似度更高,由此参考性也更强。
S624:根据待测时序向量及对应的标准时序向量,生成待测时序向量的偏移度。偏移度满足如下条件:
Figure BDA0004140466240000091
其中,Es为第s个待测时序向量的偏移度。tsj为第s个待测时序向量对应的事件中第j个与第j+1个运行节点之间的时间间隔。Tsj为第s个待测时序向量对应的标准时序向量对应的事件中第j个与第j+1个运行节点之间的时间间隔。j=1,2,…,r。
S634:若待测时序向量的偏移度大于偏移阈值,则确定待测事件的时序数据为异常数据。
偏移阈值可以为0.8。
本实施例中,通过多个时序族群可以对待测数据进行初步快速判定,通过二次判定可以更加精确的进行异常判定。由此,可以在保证准确度的情况下,兼顾判定效率。
作为本发明一种可能的实施例,S603:获取待测事件对应的待测时序向量,包括:
S613:获取待测事件的时序数据F1,F2,…,Fh,…,Fr+1。其中,Fh为待测事件的第h个运行节点的时间。h=1,2,…,r+1。r+1为待测事件的运行节点的总数量。
S623:根据F1,F2,…,Fh,…,Fr+1,生成待测事件对应的待测时序向量(f1,f2,…,fh,…,fr)。其中,fh为待测时序向量的第h个元素。fh满足如下条件:fh=Fh+1-Fh
具体的,以待测事件的时序数据包括登机开始时间9:00、登机结束时间9:30、关舱门时间9:40及起飞时间9:56为运行节点进行示例说明:
则上述运行节点对应的时序向量为(30,10,16)。
作为本发明一种可能的实施例,S601:获取目标事件的多个历史时序向量,包括:
S611:从目标事件的多个描述字段中确定出目标时序字段。目标时序字段为多个。
S621:将每一目标时序字段中符合对应目标数据格式的字段数据,作为目标时序数据。
S631:根据目标时序数据,生成目标事件的多个历史时序向量。
本实施例中,在进行选择用于提取规则的历史时序向量时,仅选择符合目标数据格式的字段数据。也即选择每一字段中占比更大的字段数据,进而可以进一步保证选择到的字段数据基本为对应描述字段的常见数据,去除了极少数的异常数据的干扰。由此,可以基于此数据,更加准确的得出常见分类。
作为本发明一种可能的实施例,在得到目标时序数据之后,该方法还包括:
S700:去除目标时序数据中的噪声数据。噪声数据为空集所对应的记录数据。
具体的,以目标时序数据中的某一记录数据包括登机开始时间9:00、登机结束时间
Figure BDA0004140466240000101
关舱门时间9:40及起飞时间9:56这4个目标时序字段进行示例说明,由于登机结束时间为/>
Figure BDA0004140466240000102
则需要将该记录数据删除。
本实施例可以将目标时序字段中存在空白数据的记录数据进行去除,以保证最终得到的目标时序数据的每一目标时序字段均为有值字段。通过本实施例中的去噪步骤可以去除空集数据,进一步提高最终得到的目标时序数据具有更高的可用性。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (10)

1.一种基于时间序列离线数据的规则提取方法,其特征在于,所述方法包括如下步骤:
获取目标事件每一时序阶段的持续时长集;G1,G2,…,Gk,…,Gy;其中,Gk为第k个时序阶段的持续时长集;k=1,2,…,y;y为目标事件的时序阶段的总数量;每一所述持续时长集中包括至少一个对应的持续时长;
对每一时序阶段的持续时长集进行时长区间提取处理,生成每一时序阶段对应的标准持续区间;
根据每一时序阶段对应的标准持续区间,生成对应时序阶段的判定规则;
所述时长区间提取处理包括:
根据持续时长集中包括的持续时长,生成所述时序阶段对应的时长占比曲线,其中,横轴为持续时长值,纵轴为每一持续时长的数量与持续时长集中包括的持续时长的总数量之比;
根据时长占比曲线,生成每一累计时长对应的第一可信度;第一可信度满足如下条件:
Figure FDA0004140466220000011
其中,/>
Figure FDA0004140466220000012
为第a个累计时长对应的第一可信度;f(x)为时长占比曲线对应的函数;W0为时长占比曲线与横轴围合成的总面积;g1为持续时长集中持续时长的最小值;
Figure FDA0004140466220000013
首次大于第一可信阈值时,将/>
Figure FDA0004140466220000014
对应的累计时长作为目标区间长度L;
根据所述持续时长集中包括的持续时长,生成所述时长占比曲线的偏度S;
根据所述偏度及目标区间长度,生成每一待选时长区间对应的第二可信度,所述第二可信度满足如下条件:
Figure FDA0004140466220000015
其中,/>
Figure FDA0004140466220000016
为第b个待选时长区间对应的第二可信度;
Figure FDA0004140466220000017
为第b个待选时长区间的第一端点值;/>
Figure FDA0004140466220000018
为第b个待选时长区间的第二端点值;g4为持续时长集中持续时长的最大值;
Figure FDA0004140466220000019
满足如下条件:/>
Figure FDA00041404662200000110
Figure FDA00041404662200000111
满足如下条件:/>
Figure FDA00041404662200000112
Figure FDA00041404662200000113
大于或等于第二可信阈值时,将/>
Figure FDA00041404662200000114
作为所述时序阶段对应的标准持续区间。
2.根据权利要求1所述的方法,其特征在于,S满足如下条件:
Figure FDA0004140466220000021
其中,Xu为所述持续时长集中的第u个持续时长;u为所述持续时长集中包含的持续时长的总数量;μ为所述持续时长集中持续时长的平均数;σ为所述持续时长集中持续时长的标准差。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标事件的多个描述字段的初始数据集A1,A2,…,Ai,…,Az;其中,Ai为第i个描述字段对应的初始数据集;i=1,2,…,z;z为目标事件的描述字段的总数量;每一所述初始数据集中包括至少一个对应的字段数据;
对每一字段数据进行字符类型转化处理,生成每一所述字段数据对应的字符数据;每一所述初始数据集中包括至少一种类型的字符数据;
根据每一初始数据集中包含的字段数据对应的字符数据,生成每一初始数据集对应的字符置信度集B1,B2,…,Bi,…,Bz,Bi={Ai1,Ai2,…,Ain,…,Af(Ai)};其中,Bi为Ai对应的字符置信度集;Ain为Ai中第n种类型的字符数据对应的置信度;n=1,2,…,f(Ai);f(Ai)为Ai中字符数据的种类总数;Ain满足如下条件:
Ain=Yin/Yi;其中,Yin为Ai中第n种类型的字符数据的总数量;Yi为Ai中所有字符数据的总数量;
根据每一初始数据集对应的字符置信度集中的置信度分布情况,生成所述目标事件每一初始数据集对应的描述字段的数据判定规则;
所述字符类型转化处理包括:
使用split函数对组成所述字段数据中的每一字符进行切分,生成多个独立字符;
若所述独立字符为数字,则标记为第一字符标识;
若所述独立字符为字母,则标记为第二字符标识;
若所述独立字符为汉字,则标记为第三字符标识;
将所述多个独立字符分别对应的字符标识,拼合成所述字段数据对应的字符数据;所述字符标识包括第一字符标识、第二字符标识及第三字符标识。
4.根据权利要求3所述的方法,其特征在于,根据每一初始数据集对应的字符置信度集中的置信度分布情况,生成所述目标事件每一初始数据集对应的描述字段的数据判定规则,包括:
对字符置信度集中的置信度进行降序排序,生成置信度序列;
将所述置信度序列中前m个置信度分别对应的字符数据,作为目标数据格式;m为所述置信度序列中置信度累计和首次大于第一置信阈值时置信度的个数;
根据每一所述描述字段对应的目标数据格式,生成所述目标事件每一描述字段的数据判定规则。
5.根据权利要求4所述的方法,其特征在于,在将所述置信度序列中前m个置信度分别对应的字符数据,作为目标数据格式之后,所述方法还包括:
根据置信度序列中剩余的多个置信度分别对应的字符数据,生成补充数据格式;
根据每一所述描述字段对应的补充数据格式,生成所述目标事件每一描述字段的数据判定规则。
6.根据权利要求5所述的方法,其特征在于,在生成所述目标事件每一初始数据集对应的描述字段的数据判定规则之后,所述方法还包括:
根据每一所述描述字段对应的数据判定规则,对对应描述字段新增的字段数据进行判定;
若新增的字段数据的字符数据,与对应数据判定规则中存在的任意字符数据不同,则判定所述新增的字段数据为异常数据。
7.根据权利要求4所述的方法,其特征在于,在生成每一初始数据集对应的字符置信度集之后,所述方法还包括:
获取目标事件的多个历史时序向量C1,C2,…,Cp,…,Cq;其中,Cp=(D1,D2,…,Dr),Cp为第p个历史时序向量;p=1,2,…,q;q为目标事件的历史时序向量的总数量;Dr为所述目标事件的第r个与第r+1个运行节点之间的时间间隔;
对所述多个历史时序向量进行聚类,生成多个时序族群;
获取待测事件对应的待测时序向量;所述待测事件与所述目标事件为相同类型的事件;
若待测时序向量属于任意时序族群,则对所述待测时序向量进行二次判定;
所述二次判定包括:
获取所述待测时序向量对应的标准时序向量;所述标准时序向量对应的事件与所述待测事件的相关度大于相关阈值;
根据所述待测时序向量及对应的标准时序向量,生成所述待测时序向量的偏移度;偏移度满足如下条件:
Figure FDA0004140466220000041
其中,Es为第s个待测时序向量的偏移度;tsj为第s个待测时序向量对应的事件中第j个与第j+1个运行节点之间的时间间隔;Tsj为第s个待测时序向量对应的标准时序向量对应的事件中第j个与第j+1个运行节点之间的时间间隔;j=1,2,…,r;
若所述待测时序向量的偏移度大于偏移阈值,则确定所述待测事件的时序数据为异常数据。
8.根据权利要求7所述的方法,其特征在于,所述获取待测事件对应的待测时序向量,包括:
获取所述待测事件的时序数据F1,F2,…,Fh,…,Fr+1;其中,Fh为待测事件的第h个运行节点的时间;h=1,2,…,r+1;r+1为待测事件的运行节点的总数量;
根据F1,F2,…,Fh,…,Fr+1,生成待测事件对应的待测时序向量(f1,f2,…,fh,…,fr);其中,fh为待测时序向量的第h个元素;fh满足如下条件:fh=Fh+1-Fh
9.一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种基于时间序列离线数据的规则提取方法。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的一种基于时间序列离线数据的规则提取方法。
CN202310288184.5A 2023-03-22 2023-03-22 一种基于时间序列离线数据的规则提取方法、介质及设备 Active CN116306937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310288184.5A CN116306937B (zh) 2023-03-22 2023-03-22 一种基于时间序列离线数据的规则提取方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310288184.5A CN116306937B (zh) 2023-03-22 2023-03-22 一种基于时间序列离线数据的规则提取方法、介质及设备

Publications (2)

Publication Number Publication Date
CN116306937A true CN116306937A (zh) 2023-06-23
CN116306937B CN116306937B (zh) 2023-11-10

Family

ID=86822034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310288184.5A Active CN116306937B (zh) 2023-03-22 2023-03-22 一种基于时间序列离线数据的规则提取方法、介质及设备

Country Status (1)

Country Link
CN (1) CN116306937B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610746A (zh) * 2024-01-23 2024-02-27 中航信移动科技有限公司 一种预测模型监测方法、存储介质及电子设备

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093246A1 (en) * 2001-11-14 2003-05-15 Daw Charles Stuart Application of symbol sequence analysis and temporal irreversibility to monitoring and controlling boiler flames
WO2004107246A1 (en) * 2003-05-13 2004-12-09 Electric Power Research Institute, Inc. Application of symbol sequence analysis and temporal irreversibility to monitoring and controlling boiler flames
US20060015298A1 (en) * 2001-11-14 2006-01-19 Daw Charles S Methods for monitoring and controlling boiler flames
WO2014111860A2 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Eliminating motion effects in medical images caused by physiological function
US20150032752A1 (en) * 2013-07-24 2015-01-29 Compuware Corporation Method and system for real-time, false positive resistant, load independent and self-learning anomaly detection of measured transaction execution parameters like response times
CN105512466A (zh) * 2015-11-30 2016-04-20 华北电力大学 基于极值理论的电网工程实施阶段风险预警方法
CN105550490A (zh) * 2014-10-31 2016-05-04 陕西盛迈石油有限公司 一种etc系统的评测方法
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置
WO2018130284A1 (en) * 2017-01-12 2018-07-19 Telefonaktiebolaget Lm Ericsson (Publ) Anomaly detection of media event sequences
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
US20190219994A1 (en) * 2018-01-18 2019-07-18 General Electric Company Feature extractions to model large-scale complex control systems
US20190370704A1 (en) * 2018-06-01 2019-12-05 Conduent Business Services, Llc Crime analysis using domain level similarity
WO2020125929A1 (en) * 2018-12-17 2020-06-25 Huawei Technologies Co., Ltd. Apparatus and method for detecting an anomaly among successive events and computer program product therefor
CN112836905A (zh) * 2021-04-22 2021-05-25 中航信移动科技有限公司 航班事件发生时间预测方法、装置、设备及存储介质
CN112882889A (zh) * 2021-01-22 2021-06-01 北京奇艺世纪科技有限公司 异常监控方法、系统、电子设备和存储介质
WO2021212752A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 基于设备指标数据的异常检测方法、装置、设备及存储介质
CN113572206A (zh) * 2021-07-26 2021-10-29 大连理工大学 一种风电出力区间预测方法
WO2021250971A1 (ja) * 2020-06-12 2021-12-16 株式会社村田製作所 グリップ判定装置、グリップ判定方法及びグリップ判定プログラム
CN114220189A (zh) * 2021-12-15 2022-03-22 震坤行工业超市(上海)有限公司 一种监测方法、预测系统、电子设备及存储介质
CN114493322A (zh) * 2022-02-11 2022-05-13 携程旅游网络技术(上海)有限公司 客运中心区域监测和告警方法、系统、设备及存储介质
CN114627642A (zh) * 2022-02-25 2022-06-14 青岛海信网络科技股份有限公司 一种交通拥堵识别方法及装置
CN114999665A (zh) * 2022-06-24 2022-09-02 联仁健康医疗大数据科技股份有限公司 数据处理方法、装置、电子设备及存储介质
CN115056682A (zh) * 2022-06-23 2022-09-16 蔚来汽车科技(安徽)有限公司 异常单体电池检测方法、设备、电动汽车和介质
US20220342901A1 (en) * 2021-04-27 2022-10-27 Adobe Inc. Mapping of unlabeled data onto a target schema via semantic type detection
US20220413075A1 (en) * 2021-06-29 2022-12-29 Siemens Healthcare Gmbh Computer-implemented method for operating a magnetic resonance device, magnetic resonance device, computer program, and electronically- readable storage medium
CN115587764A (zh) * 2021-06-22 2023-01-10 国网上海市电力公司 一种用于电网物资管理的供应链导期优化方法和系统

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093246A1 (en) * 2001-11-14 2003-05-15 Daw Charles Stuart Application of symbol sequence analysis and temporal irreversibility to monitoring and controlling boiler flames
US20060015298A1 (en) * 2001-11-14 2006-01-19 Daw Charles S Methods for monitoring and controlling boiler flames
WO2004107246A1 (en) * 2003-05-13 2004-12-09 Electric Power Research Institute, Inc. Application of symbol sequence analysis and temporal irreversibility to monitoring and controlling boiler flames
WO2014111860A2 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Eliminating motion effects in medical images caused by physiological function
US20150032752A1 (en) * 2013-07-24 2015-01-29 Compuware Corporation Method and system for real-time, false positive resistant, load independent and self-learning anomaly detection of measured transaction execution parameters like response times
CN105550490A (zh) * 2014-10-31 2016-05-04 陕西盛迈石油有限公司 一种etc系统的评测方法
CN105512466A (zh) * 2015-11-30 2016-04-20 华北电力大学 基于极值理论的电网工程实施阶段风险预警方法
WO2018130284A1 (en) * 2017-01-12 2018-07-19 Telefonaktiebolaget Lm Ericsson (Publ) Anomaly detection of media event sequences
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置
US20190219994A1 (en) * 2018-01-18 2019-07-18 General Electric Company Feature extractions to model large-scale complex control systems
US20190370704A1 (en) * 2018-06-01 2019-12-05 Conduent Business Services, Llc Crime analysis using domain level similarity
WO2020125929A1 (en) * 2018-12-17 2020-06-25 Huawei Technologies Co., Ltd. Apparatus and method for detecting an anomaly among successive events and computer program product therefor
WO2021212752A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 基于设备指标数据的异常检测方法、装置、设备及存储介质
WO2021250971A1 (ja) * 2020-06-12 2021-12-16 株式会社村田製作所 グリップ判定装置、グリップ判定方法及びグリップ判定プログラム
CN112882889A (zh) * 2021-01-22 2021-06-01 北京奇艺世纪科技有限公司 异常监控方法、系统、电子设备和存储介质
CN112836905A (zh) * 2021-04-22 2021-05-25 中航信移动科技有限公司 航班事件发生时间预测方法、装置、设备及存储介质
US20220342901A1 (en) * 2021-04-27 2022-10-27 Adobe Inc. Mapping of unlabeled data onto a target schema via semantic type detection
CN115587764A (zh) * 2021-06-22 2023-01-10 国网上海市电力公司 一种用于电网物资管理的供应链导期优化方法和系统
US20220413075A1 (en) * 2021-06-29 2022-12-29 Siemens Healthcare Gmbh Computer-implemented method for operating a magnetic resonance device, magnetic resonance device, computer program, and electronically- readable storage medium
CN113572206A (zh) * 2021-07-26 2021-10-29 大连理工大学 一种风电出力区间预测方法
CN114220189A (zh) * 2021-12-15 2022-03-22 震坤行工业超市(上海)有限公司 一种监测方法、预测系统、电子设备及存储介质
CN114493322A (zh) * 2022-02-11 2022-05-13 携程旅游网络技术(上海)有限公司 客运中心区域监测和告警方法、系统、设备及存储介质
CN114627642A (zh) * 2022-02-25 2022-06-14 青岛海信网络科技股份有限公司 一种交通拥堵识别方法及装置
CN115056682A (zh) * 2022-06-23 2022-09-16 蔚来汽车科技(安徽)有限公司 异常单体电池检测方法、设备、电动汽车和介质
CN114999665A (zh) * 2022-06-24 2022-09-02 联仁健康医疗大数据科技股份有限公司 数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, CHENGYU: "Tsagen: synthetic time series generation for kpi anomaly detection", 《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》, vol. 19, no. 1, pages 130 - 145 *
潘志新等: "基于边缘计算的智能配电网多源数据处理与融合技术研究", 《电气传动》, vol. 51, no. 22, pages 74 - 80 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610746A (zh) * 2024-01-23 2024-02-27 中航信移动科技有限公司 一种预测模型监测方法、存储介质及电子设备
CN117610746B (zh) * 2024-01-23 2024-04-19 中航信移动科技有限公司 一种预测模型监测方法、存储介质及电子设备

Also Published As

Publication number Publication date
CN116306937B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN116306937B (zh) 一种基于时间序列离线数据的规则提取方法、介质及设备
Steck et al. Bayesian belief networks for data mining
CN107145516B (zh) 一种文本聚类方法及系统
US9720986B2 (en) Method and system for integrating data into a database
US11562262B2 (en) Model variable candidate generation device and method
CN106815265B (zh) 裁判文书的搜索方法及装置
CN115618100B (zh) 用于关联事件推荐的数据处理方法、存储介质及电子设备
US10877989B2 (en) Data conversion system and method of converting data
CN116402136B (zh) 一种基于离线数据的规则提取方法、存储介质及电子设备
CN110580337A (zh) 一种基于实体相似度计算的专业实体消歧实现方法
CN111191710A (zh) 一种基于大数据的异常航班识别方法
KR101432697B1 (ko) 대용량 다중 클래스 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN113468418A (zh) 一种政策数据智能推荐方法及系统
CN104573095B (zh) 基于Hadoop框架的大规模对象识别方法
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
JPH0535484A (ja) 故障診断方法
CN115936010A (zh) 文本缩写数据处理方法、装置
CN110909551B (zh) 语言预训练模型更新方法、装置、电子设备及存储介质
US11409773B2 (en) Selection device, selection method, and non-transitory computer readable storage medium
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
CN116244106B (zh) 一种民航数据的数据检测方法、存储介质及电子设备
CN111639496A (zh) 一种基于智能加权分词技术的文本相似度计算方法和系统
EP2130140A1 (en) Method of comparing data sequences
CN112069374B (zh) 一种银行多个客户编号的识别方法及装置
CN113297213B (zh) 一种实体对象的动态多属性匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant