CN115526224A

CN115526224A - 用于信息技术操作的人工智能的随机事件分类

Info

Publication number: CN115526224A
Application number: CN202210642742.9A
Authority: CN
Inventors: 井手刚; G·科利亚斯; D·T·潘; N·阿贝
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-06-08
Filing date: 2022-06-08
Publication date: 2022-12-27
Also published as: JP2022188009A; US20220391736A1

Abstract

本公开涉及用于信息技术操作的人工智能的随机事件分类。一种用于随机事件分类的计算机实现的方法、计算机程序产品和计算机系统。计算机接收包括时间戳和事件类型的事件日志。计算机通过基数正则化确定表示事件类型之间的因果关系的稀疏影响矩阵。计算机通过利用似然函数的变分界限来确定表示各个事件实例之间的因果关联概率的触发概率。计算机为用户提供所述触发概率以用于事件分类。计算机通过迭代类型级因果分析和实例级因果分析来学习模型参数。

Description

用于信息技术操作的人工智能的随机事件分类

技术领域

本发明一般涉及用于信息技术操作的人工智能(AIOps)的随机事件分类，并且更具体地涉及不仅学习事件类型之间的因果关系而且确定事件实例之间的因果关联概率的框架。

背景技术

通常对“警报”事件的事件分类是指对大量事件进行优先级排序以产生重要事件的短列表的任务。针对该目标的关键子任务是对与感兴趣事件因果上关联的时序事件实例进行识别和优先级排序。

使用点过程对加时间戳的事件进行建模是机器学习(ML)中的新兴研究主题，其获得了相当多的新近关注。与针对独立同分布的向量数据的主流ML问题不同，它们需要将各个事件作为随机对象来处理而不进行聚集。特别地，Hawkes过程是在此背景下使用的流行的点过程模型(Hawkes,Spectra of some self-exciting and mutually exciting pointprocesses,Biometrika,Vol.58,1971)。在ML文献中，迄今为止在Hawkes过程的研究中有两个主要的里程碑。一个是最小化-最大化(MM)算法(Hunter et al.,A tutorial on MMalgorithms,The American Statistician,58(1),2004)，另一个是通过Hawkes过程的Granger因果发现(Granger,Investigating causal relations by econometric modelsand cross-spectral methods,Econometrica,37(3),1969)。

第一里程碑由Veen和Schoenberg(Estimation of space–time branchingprocess models in seismology using an EM–type algorithm,Journal of theAmerican Statistical Association,103(482),2008)标志。基于对地震余震的分支过程的直觉，他们引入了第一基于MM的最大似然算法，由于其相似性，通常将其不严格地称为EM(期望最大化)(Neal et al.,A view of the EM algorithm that justifiesincremental,sparse,and other variants,Learning in graphical models,1998)。多变量Hawkes过程的基于标准梯度的最大似然估计(MLE)遭受数值稳定性问题，限制了它们在实践中的适用性。第二里程碑通过基于Hawkes的Granger因果建模中的一些开拓性工作来实现。Kim等(A Granger causality measure for point process models of ensembleneural spiking activity,PLoS Comput Biol,7(3),2011)提出了基于Hawkes的因果学习。Zhou等人(Learning social infectivity in sparse low-rank networks usingmulti-dimensional Hawkes processes,Proceedings of the 16th InternationalConference on Artificial Intelligence and Statistics,2013)在多变量Hawkes过程的MLE中引入了l₁正则化。Eichler等人(Graphical modeling for multivariate Hawkesprocesses with nonparametric link functions,arXiv:1605.06759v1,2016)理论上建立了基于Hawkes的因果关系和Granger因果关系之间的等价关系。

考虑到这些成就和在Granger因果学习中稀疏性的公知重要性(Arnold et al.,Temporal causal modeling with graphical Granger methods.In Proc.ACM SIGKDD,2007；Lozano et al.,Grouped graphical granger modeling for gene expressionregulatory networks discovery,Bioinformatics,2009)，与稀疏强制正则化项组合的MM算法将看起来是用于固态解决方案(solid solution)的有希望的路径。然而，有趣的是，MM算法的似然函数具有奇异性，其实际上禁止任何稀疏解。不理其重要性如何，但迄今为止在ML团体中很少注意到这个问题。

发明内容

在一个方面，提供了一种用于随机事件分类的计算机实现的方法。该计算机实现的方法包括接收事件日志，其中该事件日志包括时间戳和事件类型。该计算机实现的方法还包括经由基数正则化确定表示事件类型之间的因果关系的稀疏影响矩阵。该计算机实现的方法还包括通过利用似然函数的变分界限来确定表示各个事件实例之间的因果关联概率的触发概率。该计算机实现的方法还包括向用户提供用于事件分类的所述触发概率。

用于随机事件分类的计算机实现的方法还包括确定事件类型中的相应事件类型的基线强度，其中基线强度提供关于事件类型中的每个事件类型如何在没有任何触发事件的情况下具有独立发生的趋势的信息。该计算机实现的方法还包括确定事件类型中的相应事件类型的衰减速率，其中衰减速率提供关于事件类型中的相应事件类型的时间尺度的信息。

用于随机事件分类的计算机实现的方法还包括通过迭代类型级别因果分析和实例级别因果分析来学习模型参数。所述类型级因果分析包括确定所述稀疏影响矩阵、所述事件类型中的相应事件类型的基线强度以及所述事件类型中的相应事件类型的衰减速率。实例级因果分析包括确定触发概率。

用于随机事件分类的计算机实现的方法还包括生成初始触发概率。该计算机实现的方法还包括基于初始触发概率计算基线强度、衰减速率和稀疏影响矩阵。

用于随机事件分类的计算机实现的方法还包括在当前轮计算中基于在前一轮计算中计算的基线强度、衰减速率和稀疏影响矩阵来更新触发概率。该计算机实现的方法还包括基于已经更新的触发概率来更新基线强度、衰减速率和稀疏影响矩阵。该计算机实现的方法还包括响应于确定基线强度、衰减速率和稀疏影响矩阵收敛，输出在当前轮计算中已经更新的触发概率。该计算机实现的方法还包括响应于确定基线强度、衰减速率和稀疏影响矩阵不收敛，迭代地更新触发概率、基线强度、衰减速率和稀疏影响矩阵。

在另一方面，提供了一种用于随机事件分类的计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有包含其中的程序指令，并且该程序指令可由一个或多个处理器执行。所述程序指令可执行以：接收包括时间戳和事件类型的事件日志；经由基数正则化确定表示所述事件类型之间的因果关系的稀疏影响矩阵；通过利用似然函数的变分界限来确定表示各个事件实例之间的因果关联概率的触发概率；并向用户提供用于事件分类的所述触发概率。

在用于随机事件分类的计算机程序产品中，程序指令还可执行以确定事件类型中的相应事件类型的基线强度，其中，基线强度提供关于事件类型中的每个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息。所述程序指令还可执行以确定所述事件类型中的相应事件类型的衰减速率，其中，所述衰减速率提供关于所述事件类型中的相应事件类型的时间尺度的信息。

在用于随机事件分类的计算机程序产品中，程序指令还可执行以通过迭代类型级因果分析和实例级因果分析来学习模型参数，其中类型级因果分析包括确定稀疏影响矩阵、事件类型中的相应事件类型的基线强度以及事件类型中的相应事件类型的衰减速率，其中实例级因果分析包括确定触发概率。

在用于随机事件分类的计算机程序产品中，程序指令还可执行以生成初始触发概率。所述程序指令进一步可执行以基于所述初始触发概率计算所述基线强度、所述衰减速率和所述稀疏影响矩阵。

在用于随机事件分类的计算机程序产品中，程序指令还可执行以：在当前轮计算中，基于在前一轮计算中计算的所述基线强度、所述衰减速率和所述稀疏影响矩阵来更新所述触发概率；基于已经更新的所述触发概率，更新所述基线强度、所述衰减速率和所述稀疏影响矩阵；响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，输出在当前轮计算中已经更新的触发概率；以及响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵不收敛，迭代更新所述触发概率、所述基线强度、所述衰减速率和所述稀疏影响矩阵。

在又一方面，提供了一种用于随机事件分类的计算机系统。该计算机系统包括一个或多个处理器、一个或多个计算机可读有形存储设备、以及存储在一个或多个计算机可读有形存储设备中的至少一个上的用于由一个或多个处理器中的至少一个执行的程序指令。所述程序指令可执行以接收包含时间戳和事件类型的事件日志。所述程序指令还可执行以经由基数正则化确定表示所述事件类型之间的因果关系的稀疏影响矩阵。所述程序指令还可执行以通过利用似然函数的变分界限来确定表示各个事件实例之间的因果关联概率的触发概率。所述程序指令进一步可执行以向用户提供事件分类的触发概率。

在用于随机事件分类的计算机系统中，所述程序指令还可执行以：确定所述事件类型中的相应事件类型的基线强度，其中，所述基线强度提供关于所述事件类型中的每个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息；以及确定所述事件类型中的相应事件类型的衰减速率，其中，所述衰减速率提供关于所述事件类型中的相应事件类型的时间尺度的信息。

在用于随机事件分类的计算机系统中，程序指令还可执行以通过迭代类型级因果分析和实例级因果分析来学习模型参数。所述类型级因果分析包括确定所述稀疏影响矩阵、所述事件类型中的相应事件类型的基线强度以及所述事件类型中的相应事件类型的衰减速率。实例级因果分析包括确定触发概率。

在用于随机事件拣别的计算机系统中，所述程序指令还可执行以：生成初始触发概率；以及基于初始触发概率计算基线强度、衰减速率和稀疏影响矩阵。

在用于随机事件分类的计算机系统中，所述程序指令还可执行以在当前轮计算中基于在前一轮计算中计算的所述基线强度、所述衰减速率和所述稀疏影响矩阵来更新所述触发概率。所述程序指令进一步可执行以基于已经更新的所述触发概率来更新所述基线强度、所述衰减速率和所述稀疏影响矩阵。所述程序指令进一步可执行以响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，输出在所述当前轮计算中已经更新的所述触发概率。所述程序指令进一步可执行以响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵不收敛，迭代地更新所述触发概率、所述基线强度、所述衰减速率和所述稀疏影响矩阵。

在又一方面，提供了一种用于在随机事件分类中学习模型参数的计算机实现的方法。该计算机实现的方法包括基于触发概率更新事件类型中的相应事件类型的基线强度，其中基线强度提供关于事件类型中的每个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息，其中触发概率表示各个事件实例之间的因果关联概率。该计算机实现的方法还包括基于触发概率来更新事件类型中的相应事件类型的衰减速率，其中衰减速率提供关于事件类型中的相应事件类型的时间尺度的信息。该计算机实现的方法还包括基于触发概率更新稀疏影响矩阵，其中稀疏影响矩阵表示事件类型之间的因果关系。该计算机实现的方法还包括基于基线强度、衰减速率和稀疏影响矩阵更新触发概率。该计算机实现的方法还包括响应于确定基线强度、衰减速率和稀疏影响矩阵收敛，向用户提供用于事件分类的触发概率。

用于在随机事件分类中学习模型参数的计算机实现的方法还包括接收用于正则化强度的预定常数。该计算机实现的方法还包括生成初始触发概率。该计算机实现的方法还包括基于初始触发概率计算基线强度、衰减速率和稀疏影响矩阵。

用于在随机事件分类中学习模型参数的计算机实现的方法还包括响应于确定基线强度、衰减速率和稀疏影响矩阵不收敛，迭代更新基线强度、衰减速率、稀疏影响矩阵收敛以及触发概率。

在又一方面，提供了一种用于在随机事件分类中学习模型参数的计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有包含在其中的程序指令，并且该程序指令可由一个或多个处理器执行。所述程序指令可执行以：基于触发概率更新事件类型中的相应事件类型的基线强度，其中所述基线强度提供关于所述事件类型中的每个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息，其中所述触发概率表示各个事件实例之间的因果关联概率；基于所述触发概率来更新所述事件类型中的所述相应事件类型的衰减速率，其中，所述衰减速率提供关于所述事件类型中的所述相应事件类型的时间尺度的信息；基于所述触发概率更新稀疏影响矩阵，其中所述稀疏影响矩阵表示所述事件类型之间的因果关系；基于所述基线强度、所述衰减速率和所述稀疏影响矩阵来更新所述触发概率；以及响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，向用户提供用于事件分类的所述触发概率。

在用于在随机事件分类中学习模型参数的计算机程序产品中，所述程序指令还可执行以：接收用于正则化强度的预定常数；生成初始触发概率；以及基于初始触发概率计算基线强度、衰减速率和稀疏影响矩阵。

在用于在随机事件分类中学习模型参数的计算机程序产品中，程序指令还可执行以响应于确定基线强度、衰减速率和稀疏影响矩阵不收敛，迭代地更新基线强度、衰减速率、稀疏影响矩阵收敛和触发概率。

附图说明

图1(A)和图1(B)示出了根据本发明的一个实施例的本发明中所提出的框架的两个主要结果，触发概率和影响矩阵。

图2示出了根据本发明的一个实施例的不同事件类型的强度函数和衰减函数。

图3示出了根据本发明一个实施例的在本发明中所提出的框架的总体计算过程。

图4呈现了示出根据本发明的一个实施例的学习模型参数和基于模型参数确定触发概率的操作步骤的流程图。

图5(A)、图5(B)和图5(C)示出了由本发明中提出的框架估计的影响矩阵A的稀疏度模式与现有技术中的现有方法的比较。

图6(A)示出了根据本发明一个实施例的触发概率的非零元素。

图6(B)示出了根据本发明一个实施例的第150个实例的触发概率。

图7是示出根据本发明一个实施例的计算设备或服务器的组件的图。

图8描述了根据本发明一个实施例的云计算环境。

图9示出了根据本发明一个实施例的云计算环境中的抽象模型层。

具体实施方式

本发明的实施例提出了一种针对问题的统一方法，其中不仅学习了各种事件类型之间的因果关系，而且确定了各个事件实例之间的因果关联概率。对于前者，本发明的实施例在拟合多变量Hawkes过程中开发了基数正则化技术。这实现了既准确又稀疏的因果估计，从而有助于实现有效的事件合并。对于后者，本发明中提出的框架利用似然函数的变分界限来发现因果关联概率，从而实现同时的实例级因果分析和类型级因果分析。

本发明的实施例提供了对事件数据进行稀疏因果关系学习的数学上定义明确的解，尤其是在我们称为事件分类的场景下。具体地，考虑云数据中心管理的用例。各种计算机设备连续地产生大量事件日志。由于设备的互连性，来自一个设备的一个警告事件，诸如“响应时间太长”，可能触发下游服务中的许多相关事件。原始错误越关键，则所得到的事件集合往往越冗余。事件分类或列出高优先级事件的短列表的动作要求将关联和合并因果上关联的事件实例的任务作为先决条件。注意，这需要实例特定的因果关系以便进行精确判断。例如，即使第i个事件类型平均起来可能与第j个事件类型具有因果关系，第i个事件类型的一个具体实例也可能已经自发地发生。因此，事件分类的实际解决方案必须同时执行类型级因果分析和实例级因果分析，同时充分处理事件的随机性质。尽管“警告疲劳”问题在许多行业中盛行(Elshoush et al,Alert correlation in collaborativeintelligent intrusion detection systems-A survey.Applied Soft Computing,2011；Moyne et al.,Big data analytics for smart manufacturing:Case studies insemiconductor manufacturing,Processes,2017；Dominiak et al.,Prioritizingalarms from sensor-based detection models in livestock production–A review onmodel performance and alarm reducing methods,Computers and Electronics inAgriculture,2017)，但是迄今为止，在该场景下利用随机随机事件因果建模的工作是有限的。

本发明的实施例提出了基于新的基数正则化MM算法的事件分类的新颖框架。与现有的l₁正则化和l_2,1-正则化方法(Zhou et al.,2013；Xu et al.,Learning Grangercausality for Hawkes processes,In Proc.International conference on machinelearning,2016)不同，它没有由于零处的对数奇异性引起的病理问题，并且实现数学上明确定义的稀疏性。本发明提出的框架利用MM算法的变分界限来发现实例级因果关联，从而同时实现实例级因果学习和类型级因果学习，如图1(A)和图1(B)所示。图1(A)和图1(B)分别示出了所提出的框架的两个主要结果：(1)触发概率量化事件分类的实例性因果关系，以及(2)影响矩阵表示事件类型/类别之间的Granger因果关系。

下一段提供了问题设置并概括了随机点过程的基础。

问题设置：

我们给出N+1个事件实例的事件序列：

其中，t_n和d_n分别是第n个事件的时间戳和事件类型。时间戳以非降序t₀≤t₁≤…≤t_N排序。存在D个事件类型{1,2,…,D}，其中D＜＜N。第一时间戳t₀被取为时间原点。因此，剩余的N个实例被认为是给定d₀的随机变量的实现。作为一般规则，我们使用t或u作为表示时间的自由变量，而具有下标的那些表示实例。

事件分类的主要目标是计算实例触发概率{q_n,i}，其中q_n,i是第n个事件(n＝1,...,N)实例被第i个事件(i＝0,...,n)触发的概率。通过定义，n≥i，以及

q_n,n被称为自触发(或简称为自)概率。注意，提供实例触发概率{q_n,i}相当于提供候选者的加权排名，其中权重合计为1。希望借助于稀疏因果学习而具有尽可能少的候选者。

实际上，事件分类主要是无监督的学习任务。一种典型的用例是事件过滤，其作为现有监视系统的增强。例如，终端用户可以是管理计算机系统的系统管理员(sysadmin)。系统管理员从外部信息源(例如来自客户的投诉呼叫)认识到系统中存在某种故障，然后系统管理员检查感兴趣事件的触发概率。

相关事件的可能性：

由于所有事件都被假定是相关的，因此最一般的概率模型是N个事件的联合分布。通过概率密度函数(pdf)的链式规则，联合分布可以表示为

其中

表示直到t_n-1的事件历史，即，

我们用f(·)来符号化地表示pdf。这种分解容易得到基本似然函数L₀的定义：

该分布

被定义在t_n-1≤t<∞上，并且在该域中满足归一化条件。

对于事件分类任务，等式(5)的求和中的第一项扮演中心角色。假设第二项

是常数，则在求和中省略第二项。

强度函数：

给定

强度函数被定义为第一事件自t_n-1那以后发生的概率密度。这是有条件的密度。当考虑t处的密度时，条件读作“[t_n-1,t)中没有事件发生”。因此，

其中

是给定历史

的第d个事件类型的强度函数。注意，等式(6)的右手侧可以写为

将方程(6)的两边积分并排列各项，得到

其允许根据强度表示L₀：

注意第二项中事件间隔对n的依赖性。当D>1，由于dn依赖于n而不能在第二项中执行对n的求和。在文献中有时会错误地忽略这一事实。

接下来的段落提供了强度函数的具体模型，并引入了实例触发概率{q_b,i}。

强度函数和Granger因果关系：

等式(6)和(9)适用于任何点过程。这里，我们引入了Hawkes过程的具体参数化：

其中μ_d≥0被称为第d类型的基线强度，

是影响矩阵

的(d,d_i)元素，并且φ_d(t-t_i)是第d类型的衰减函数。基线强度(μ_d)给出关于第d个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息。影响矩阵A给出事件类型之间的因果关系。影响矩阵也被称为内核或触发矩阵。φ_d常用的选择是指数和功率分布。对于指数分布，

并且对于功率分配，

其中，β_d≥0被称为第d个类型的衰减速率，并且它给出了关于第d个事件类型的时间尺度的信息，并且η>1是超参数。倒数1/β_d可以称为第d个事件类型的有效窗口大小。为了后面使用，我们还将无量纲版本定义为：

图2示出了等式(10)，其中示出

具有指数分布φ_d。我们假设

和

由于时间衰减，第2实例的影响比第4实例的影响更大，尽管

更大。另一方面，如虚线所示，第1和第3事件实例在任何未来时间点对假定的第d事件类型的发生概率没有影响。事实上这就是Eichler等人(2016)如何在Hawkes模型中定义Granger非因果性的(还参见Achab et al.,Uncovering causality from multivariateHawkes integrated cumulants,Journal of Machine Learning Research,18,2018)。具体地，如果过去的d′类型的事件实例的存在对第d类型的事件发生概率没有影响，则第d′类型是第d类型的Granger无因式。等式(10)的加法形式在与Granger因果关系连接方面具有明显的优点。影响矩阵A表示Granger因果关系。为此，将对d_k的依赖性引入衰减函数可能是冗余的。

引入触发概率：

如图2所示，实现影响矩阵A中的稀疏性在事件分类中是至关重要的。这直接导致减少要合并的事件候选的数量。为了保证稀疏性，我们提出以下基数正则化的最大似然：

其中‖A‖₀是A的基数，即非零元素的数量，‖·‖₂是2范数，并且‖·‖_s是Frobenius范数。

并且

β表示D个事件类型{1,2,…,D}中的相应事件类型的衰减速率，并且其给出关于D个事件类型中的相应事件类型的时间尺度的信息。μ表示D个事件类型{1,2,…,D}中的相应事件类型的基线强度，并且它给出关于D个事件类型中的每个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息。τ、v_β、v_μ和v_A是正则化强度的常数。

即使τ＝0，主要由于等式(9)中的非线性对数项，数值求解最大似然估计(MLE)也已知是具有挑战性的。最小化-最大化(MM)算法利用等式(10)中的Hawkes过程的加性结构，以便以与用于混合模型的期望-最大化(EM)算法(Neal等人，1998)类似的方式应用Jensen的不等式。具体地，我们首先将等式(10)重写为

其中

通过i上的任意分布q_n,i，使得

对于

Jensen不等式保证了

通过关于归一化条件下的q_n,i最大化等式的右手侧来获得最紧的界限：

虽然在Jensen的不等式中q_n,i作为数学假象引入，但它打开了实例级因果分析的新大门。我们将q_n,i解释为第n个实例已经被第i个实例触发的实例触发概率。当(1)第i个实例更接近第n个实例，以及(2)其事件类型d_i与第n个实例的事件类型在因果上更相关时，第i个实例具有更高的触发概率。

注意，等式(19)在事件合并中实现软和自适应加窗。文献中实例级因果发现的一种标准方法是“硬加窗”(例如，Lin et al.,Microscope:Pinpoint performance issueswith causal graphs in micro-service environments,International Conference onService-Oriented Computing,2018)，这意味着如果事件实例在给定大小的相同时间窗口内发生，则它们是因果关联的。在实际应用中，通常不同的事件类型具有不同的影响时间尺度，并且手动调整窗口大小可能是困难的任务。

学习模型参数：

我们利用不等式(18)进行参数估计。现在似然函数的下限为：

其中我们定义Δ_n,i和h_n,i如下：

虽然实例触发概率{q_n,i}取决于未知的模型参数，但是假设它们已经以某种方式在数值上获得。MM算法交替地重复{q_n,i}和(μ,β,A)的估计。如果我们定义

则整个过程可以简洁地归纳为

μ,β,A＝argmaxL,给定{q_n,i}, (24)

{q_n,i}＝(equation(19)),给定μ,β,A. (25)

接下来的段落提供了基线强度μ、衰减速率β和影响矩阵A的参数估计过程的细节。

基线强度μ的估计：

现在，假设我们具有{q_n,i}的数值估计，我们考虑μ的最大似然解。最优条件是

其中

为Kronecker差。如果我们定义

将方程(26)简化为简单的二次方程

我们从中得到解

衰减速率β的估计：

接着，对于β，通过下式给出导数

其中，(n,i)在n＝1,…,N和i＝1,…,n-1上变化。与μ情况类似，我们也定义了

最优性条件

再次成为二次方程

得到解

利用基数正则化估计影响矩阵A：

现在，讨论如何找到A。在等式(24)中，关于A的目标函数L可以被重写为

其中我们定义通过以下等式定义矩阵Q和H

为了易于分解，定义：

我们考虑问题的向量化版本

其中保持q_m≥0，h_m≥0，v_a>0。这是我们在利用基数正则化估计影响矩阵A时考虑的主要问题。

在得到细节之前，让我们看看如果我们在这里使用或流行的l₁或l_2,1正则化项将发生什么。MM过程是迭代的。为了使所有实例符合事件合并的候选资格，我们需要从初始化q_m≥0开始。在这种情况下，由于该项lnx_m，所以，x_m＝0不会是解，并且因此将不会实现稀疏性。换句话说，MM算法与标准稀疏正则化项不兼容。

这使人联想到了Phan等人所讨论的混合模型的问题(l₀-regularized sparsityfor probabilistic mixture models.In Proc.SIAM Intl.Conf.Data Mining,SIAM,2019)。这里，我们利用它们的概念“ε-稀疏性”。我们引入小的常数ε>0用于稀疏性的判断，其可以直观地理解为阈值，低于该阈值则元素“关闭”。现在我们的问题是

其中I(·)是指示符函数，当自变量为真时返回1，否则返回0。我们针对每个k和m＝D²-‖x‖₀的每个值求解问题。令

是满足x_m≤∈的索引的集合。现在，问题重写为

利用拉格朗日乘数ξ_m，Karush-Kuhn-Tucker(KKT)条件由下式给出

对于

我们求解方程(48)以得到

其中

对于

有两种可能性：

最后的问题是如何选择该集合

这可以通过针对

计算下式容易地完成

因为ΔΨ_m被看作是关闭x_m的增益，所以我们无论何时ΔΨ_m>0都将m置入

用于利用基数正则化来估计影响矩阵的算法被用作等式(24)中的迭代MM过程的一部分。总的复杂度是

与现有MM算法的相同。对于输入参数，ε可以通过其是关闭阈值的直觉来确定。对于τ，我们注意到，等式(36)可以看作是具有伯努利先验

的MAP(最大后验)估计，其中γ是在矩阵元素中得到0的概率，我们从矩阵元素得到

用户在0.5<γ<1中选择的值决定τ。在等式(24)中的迭代MM过程中，参数ν_A、v_β和v_μ对于稳定收敛是关键的。建议以小的正值开始，例如10^-5，并且如果出现数值问题则增大它。最终应当利用事件数据的独立情节来交叉验证参数。如果验证数据集不可用，则Akaike信息准则(AIC)的使用可以是一种可行的方法，假定‖A‖₀逼近所拟合的自由参数的总数。表1总结了L0Hawkes，即所提出的算法，其用作等式(24)中的迭代MM过程的一部分。

表1一种利用基数正则化估计影响矩阵的算法

图3示出了根据本发明一个实施例的在本发明中所提出的框架的总体计算过程。所提出的框架的计算过程由计算设备或服务器实现。在稍后的段落中参考图7更详细地描述了计算设备或服务器。在一些实施例中，操作步骤可以在云计算环境中实现。在稍后的段落中参考图8和图9描述云计算环境。

参考图3，计算设备或服务器接收事件日志作为输入。事件日志包括N+1个事件实例：

其中t_n是时间戳，并且d_n是第n个事件的事件类型。

进一步参考图3，计算设备或服务器执行宏(类型级)因果分析。计算设备或服务器通过宏(类型级)因果分析来确定各种事件类型之间的因果关系。影响矩阵A给出事件类型之间的因果关系。在影响矩阵A中实现稀疏性在事件分类中是至关重要的；因此，计算设备或服务器经由基数正则化确定稀疏影响矩阵(A)。

进一步参考图3，在宏(类型级)因果分析中，计算设备或服务器确定衰减速率(β)。β表示D个事件类型{1,2,…,D}中的相应事件类型的衰减速率，并且提供关于D个事件类型中的相应事件类型的时间尺度的信息。

进一步参考图3，在宏(类型级)因果分析中，计算设备或服务器确定基线强度(μ)。μ表示D个事件类型中的相应事件类型的基线强度。基线强度(μ)提供关于D事件类型中的每一个事件类型在没有任何触发事件的情况下如何具有独立发生的趋势的信息。

进一步参考图3，计算设备或服务器执行微(实例级)因果分析。计算设备或服务器确定各个事件实例之间的因果关联概率。触发概率量化用于事件分类的实例性因果关系。计算设备或服务器通过利用似然函数的变分界限来确定触发概率{q_n,i}。所提出的框架的两个主要结果是实例触发概率{q_n,i}和影响矩阵A。实现了同时的实例级因果分析和类型级因果分析，作为用于事件分类的实用解决方案。计算设备或服务器提供触发概率{q_n,i}作为输出。向终端用户提供触发概率{q_n,i}以用于事件分类。典型的用例是增强现有监视系统的事件过滤。在管理计算机系统的示例中，终端用户意识到系统中存在某些错误，然后检查感兴趣事件的触发概率。

进一步参考图3，计算设备或服务器通过迭代宏(类型-级别)因果分析和微(实例-级别)因果分析来学习模型参数，包括基线强度μ、衰减速率β和影响矩阵A。计算设备或服务器迭代分析，直到基线强度μ、衰减速率β和影响矩阵A收敛。学习模型参数的操作步骤将在稍后的段落中参考图4讨论。

图4呈现了示出根据本发明的一个实施例的学习模型参数和基于模型参数确定触发概率的操作步骤的流程图。图4中所示的操作步骤由计算设备或服务器实现。在稍后的段落中参考图7更详细地描述了计算设备或服务器。在一些实施例中，操作步骤可以在云计算环境中实现。在稍后的段落中参考图8和图9描述云计算环境。

在步骤401，计算设备或服务器接收用于正则化强度的预定常数(τ,v_β,ν_μ,ν_A,∈)。在先前的段落中已经讨论了预定常数τ,ν_β,ν_μ,v_A,∈，并且在稍后的段落中参考实际用例呈现了它们的值的示例。

在步骤402，计算设备或服务器生成初始触发概率{q_n,i}。例如，使用卡方分布(对于正性)随机生成下三角矩阵，然后将下三角矩阵归一化，使得每行上的总和变为1。

在步骤403，计算设备或服务器通过使用初始触发概率{q_n,i}最大化似然函数来计算基线强度(μ)。基于初始触发概率{q_n,i}，可以使用等式(30)来计算事件类型中的相应事件类型的基线强度(μ)。在计算基线强度(μ)时，似然函数被最大化。

在步骤404，计算设备或服务器通过使用初始触发概率{q_n,i}最大化似然函数来计算衰减速率(β)。基于初始触发概率{q_n,i}，可以使用等式(35)来计算事件类型中的相应事件类型的衰减速率(β)。在计算衰减速率(β)时，似然函数被最大化。

在步骤405，计算设备或服务器使用初始触发概率{q_n,i}利用基数正则化计算稀疏影响矩阵(A)。基于初始触发概率{q_n,i}，通过使用表1中给出的算法来计算稀疏影响矩阵(A)。

应当理解，步骤403和405不需要以上述的顺序执行。步骤403-405可以以不同于上述顺序的顺序执行，或者可以同时执行。可以重新排列计算基线强度(μ)、衰减速率(β)和影响矩阵(A)的顺序。基线强度(μ)、衰减速率(β)和影响矩阵(A)的计算可以在一个步骤中完成。

在步骤406，计算设备或服务器通过基于基线强度(μ)、衰减速率(β)和影响矩阵(A)利用似然函数的变分界限来更新触发概率{q_n,i}。一旦估计了基线强度(μ)、衰减速率(β)和影响矩阵(A)，就可以通过使用等式(19)来更新触发概率{q_n,i}。

在步骤407，计算设备或服务器使用在步骤406更新的触发概率来更新基线强度(μ)、衰减速率(β)和影响矩阵(A)。类似于步骤403-405，通过使用等式(30)来更新事件类型中的各个事件类型的基线强度(μ)，通过使用等式(35)来更新事件类型中的各个事件类型的衰减速率(β)，并且通过使用表1中给出的算法来更新稀疏影响矩阵(A)。

在步骤408，计算设备或服务器确定基线强度(μ)、衰减速率(β)和影响矩阵(A)是否收敛。通过比较在前一轮计算中获得的基线强度(μ)、衰减速率(β)和影响矩阵(A)与在当前一轮计算中获得的基线强度(μ)、衰减速率(β)和影响矩阵(A)来确定基线强度(μ)、衰减速率(β)和影响矩阵(A)的收敛。

响应于确定基线强度(μ)、衰减速率(β)和影响矩阵(A)不收敛(判定框408的“否”分支)，计算设备或服务器迭代步骤406。响应于确定基线强度(μ)、衰减速率(β)和影响矩阵(A)收敛(判定块408的“是”分支)，在步骤409，计算设备或服务器输出触发概率{q_n,i}，向用户提供触发概率以用于事件分类。

我们用两个真实用例验证了所提出的框架，一个来自电网，另一个来自云数据中心。我们的焦点是演示所提出的框架(L₀Hawkes)与现有方法相比如何改进MM算法，并示出其在现实世界用例中的效用。我们将L₀Hawkes与两种已知的基于MM的稀疏推理方法进行了比较：基于l₁-正则化(Zhou等人，2013)和基于l_2,1-正则化(Xu等人，2016)。

在第一种实际用例中，与公共和私人实体合作，我们获得美国电网的故障事件数据。故障事件表示利用相量测量单元(PMU)测量的电压和/或电流信号的突变，该相量测量单元部署在电网中的地理上分布的位置。我们感兴趣的是仅从时间事件数据中以数据驱动的方式发现隐藏因果关系。

数据集记录了2016年超过10个月的时期的来自D＝22PMU的标记为“线路中断”的N＝3811个故障事件。我们基于AIC对模型参数进行网格搜索以对于(p_μ,v_β,μ_A)得到5×(10^-3,10^-4,10^-4)并且对于(τ,ε)得到(1,1)。ε的值相当于max_k,lA_k,l的约3％。我们将针对l₁和l_2,1正则化项使用相同的τ。我们使用能量衰减η＝2来捕获长尾行为。

图5(A)示出了利用L₀Hawkes估计的影响矩阵A的稀疏模式，图5(B)示出了利用l₁正则化项估计的影响矩阵A的稀疏模式，以及图5(C)示出了利用l_2,1正则化项估计的影响矩阵A的稀疏模式。这些图比较计算的A，其中非零矩阵元素以黑色示出。利用l₁正则化项和l_2,1正则化项，零项仅在碰巧在数值上为零时才出现。相反，L₀Hawkes享有保证的稀疏性。从计算的A来看，成功地发现了PMU之间的隐藏因果结构。

在第二种实际用例中，我们将L₀Hawkes应用于真实事件分类任务。我们从真实云数据中心管理系统获得N＝718个警告事件。这些事件是通过过滤由网络设备发出的日志而产生的，并且每个事件具有其类型：在我们的数据集中存在D＝14个独特的事件类型。在这种真实用例下，我们集中于示出实例级因果分析的示例。

图6(A)可视化实例触发概率{q_n,i}的非零条目，其中省略了那些q_n,i<0.01的条目。如所期望的，{q_n,i}是相当稀疏的，因此可以通过选取非零触发概率来直接执行事件合并。图6(B)示出了一个q_150,i的例子，其中最右边的槽(ETH_INIT)对应于自概率q_150,150。对于每个i，其事件类型d_i在条下方示出。所讨论的事件的类型ETH_INIT与初始化以太网接口的过程有关。注意，在图6(B)中，该实例的自概率被计算为0，而相同类型的若干先前实例具有正触发概率，导致重复的成功抑制。

由于A的稀疏性，许多实例尽管时间接近但具有零触发概率(具有正概率的六个事件在从第150个事件起的27秒内)。例如，该数据集包含添加了相当大的噪声但被所提议的平台L₀Hawkes适当忽略的事件类型UPDOWN的416个实例。与单纯的硬开窗方法不同，我们的框架能够筛选真正的因果关系。

图7是示出根据本发明一个实施例的计算设备或服务器700的组件的图。应当理解，图7仅提供了一种实现的说明，而不暗示对其中可实现不同实施例的环境的任何限制。

参考图7，计算设备或服务器700包括(一个或多个)处理器720、存储器710和(一个或多个)有形存储设备730。在图7中，计算设备或服务器700的上述组件之间的通信由标号790表示。存储器710包括ROM(只读存储器)711、RAM(随机存取存储器)713和(一个或多个)高速缓存715。一个或多个操作系统731和一个或多个计算机程序733驻留在(一个或多个)计算机可读有形存储设备730上。

计算设备或服务器700还包括(一个或多个)I/O接口750。(一个或多个)I/O接口750允许利用可以连接到计算设备或服务器700的(一个或多个)外部设备760输入和输出数据。计算设备或服务器700还包括用于计算设备或服务器700与计算机网络之间的通信的(一个或多个)网络接口740。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程编程语言(例如C编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以作为一个步骤来实现，同时、基本同时、以部分或全部时间重叠的方式执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所陈述的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明性。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图8，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如移动设备54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，计算设备54A-N的类型仅旨在说明，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图9，示出了由云计算环境50(图8)提供的一组功能抽象层。应当预先理解，图9中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储装置65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户机75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的开帐单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)规划和履行85提供对云计算资源的预安排和采购，其中根据SLA预期未来需求。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理92；虚拟教室教育传送93；数据分析处理94；交易处理95；以及函数96。本发明中的函数96是用于云计算环境中的信息技术操作的人工智能的随机事件分类(AIOP)的功能。

Claims

1.一种用于随机事件分类的计算机实现的方法，所述计算机实现的方法包括：

接收包括时间戳和事件类型的事件日志；

经由基数正则化确定表示所述事件类型之间的因果关系的稀疏影响矩阵；

通过利用似然函数的变分界限来确定表示各个事件实例之间的因果关联概率的触发概率；以及

为用户提供所述触发概率以用于事件分类。

2.根据权利要求1所述的计算机实现的方法，还包括：

确定所述事件类型中的相应事件类型的基线强度，其中，所述基线强度提供关于所述事件类型中的每个事件类型如何在没有任何触发事件的情况下具有独立发生的趋势的信息；以及

确定所述事件类型中的所述相应事件类型的衰减速率，其中，所述衰减速率提供关于所述事件类型中的所述相应事件类型的时间尺度的信息。

3.根据权利要求1所述的计算机实现的方法，还包括：

通过迭代类型级因果分析和实例级因果分析来学习模型参数；

其中所述类型级因果分析包括确定所述稀疏影响矩阵、所述事件类型中的相应事件类型的基线强度以及所述事件类型中的相应事件类型的衰减速率，其中所述基线强度提供关于所述事件类型中的每个事件类型如何在没有任何触发事件的情况下具有独立发生的趋势的信息，其中所述衰减速率提供关于所述事件类型中的所述相应事件类型的时间尺度的信息；以及

其中所述实例级因果分析包括确定所述触发概率。

4.根据权利要求3所述的计算机实现的方法，还包括：

生成初始触发概率；以及

基于所述初始触发概率来计算所述基线强度、所述衰减速率和所述稀疏影响矩阵。

5.根据权利要求4所述的计算机实现的方法，还包括：

在当前轮计算中，基于在前一轮计算中计算的所述基线强度、所述衰减速率和所述稀疏影响矩阵来更新所述触发概率；

基于已经更新的所述触发概率，更新所述基线强度、所述衰减速率和所述稀疏影响矩阵；

响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，输出已经在所述当前轮计算中更新的所述触发概率；以及

响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵不收敛，迭代更新所述触发概率、所述基线强度、所述衰减速率和所述稀疏影响矩阵。

6.一种用于随机事件分类的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有被包含在其中的程序指令，所述程序指令可由一个或多个处理器执行，所述程序指令能够执行以：

接收包括时间戳和事件类型的事件日志；

为用户提供所述触发概率以用于事件分类。

7.根据权利要求6所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

8.根据权利要求6所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

其中所述实例级因果分析包括确定所述触发概率。

9.根据权利要求8所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

生成初始触发概率；以及

10.根据权利要求9所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，输出在所述当前轮计算中已经更新的所述触发概率；以及

11.一种用于随机事件分类的计算机系统，所述计算机系统包括：

一个或多个处理器、一个或多个计算机可读有形存储设备、以及存储在所述一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上以供所述一个或多个处理器中的至少一个处理器执行的程序指令，所述程序指令能够执行以：

接收包括时间戳和事件类型的事件日志；

为用户提供所述触发概率以用于事件分类。

12.根据权利要求11所述的计算机系统，还包括能够执行以进行以下操作的程序指令：

13.根据权利要求11所述的计算机系统，还包括能够执行以进行以下操作的程序指令：

其中所述实例级因果分析包括确定所述触发概率。

14.根据权利要求13所述的计算机系统，还包括能够执行以进行以下操作的程序指令：

生成初始触发概率；以及

15.根据权利要求14所述的计算机系统，还包括能够执行以进行以下操作的程序指令：

16.一种用于在随机事件分类中学习模型参数的计算机实现的方法，所述计算机实现的方法包括：

基于触发概率更新事件类型中的相应事件类型的基线强度，其中，所述基线强度提供关于所述事件类型中的每个事件类型如何在没有任何触发事件的情况下具有独立发生的趋势的信息，其中，所述触发概率表示各个事件实例之间的因果关联概率；

基于所述触发概率来更新所述事件类型中的所述相应事件类型的衰减速率，其中，所述衰减速率提供关于所述事件类型中的所述相应事件类型的时间尺度的信息；

基于所述触发概率更新稀疏影响矩阵，其中所述稀疏影响矩阵表示所述事件类型之间的因果关系；

基于所述基线强度、所述衰减速率和所述稀疏影响矩阵更新所述触发概率；以及

响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵收敛，向用户提供用于事件分类的所述触发概率。

17.根据权利要求16所述的计算机实现的方法，还包括：

接收用于正则化强度的预定常数；

生成初始触发概率；以及

18.根据权利要求16所述的计算机实现的方法，还包括：

响应于确定所述基线强度、所述衰减速率和所述稀疏影响矩阵不收敛，迭代更新所述基线强度、所述衰减速率、所述稀疏影响矩阵收敛以及所述触发概率。

19.根据权利要求16所述的计算机实现的方法，其中，通过最大化似然函数来更新所述基线强度和所述衰减速率，其中，经由基数正则化来更新所述稀疏影响矩阵收敛。

20.根据权利要求16所述的计算机实现的方法，其中通过利用似然函数的变分界限来更新所述触发概率。

21.一种用于在随机事件分类中学习模型参数的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有被包含在其中的程序指令，所述程序指令能够由一个或多个处理器执行，所述程序指令能够执行以：

基于所述基线强度、所述衰减速率和所述稀疏影响矩阵来更新所述触发概率；以及

22.根据权利要求21所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

接收用于正则化强度的预定常数；

生成初始触发概率；以及

23.根据权利要求21所述的计算机程序产品，还包括能够执行以进行以下操作的程序指令：

24.根据权利要求21所述的计算机程序产品，其中通过最大化似然函数更新所述基线强度和所述衰减速率，其中经由基数正则化更新所述稀疏影响矩阵收敛。

25.根据权利要求21所述的计算机程序产品，其中通过利用似然函数的变分界限更新所述触发概率。

26.一种系统，包括分别用于执行权利要求1-5、16-20中任一项的方法的步骤的模块。