CN117010962A

CN117010962A - 收益根因分析方法、装置、软件程序、设备及存储介质

Info

Publication number: CN117010962A
Application number: CN202211054388.4A
Authority: CN
Inventors: 李时奇; 赵实; 吴佩涛; 刘烽彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-11-07

Abstract

本发明提供了一种收益根因分析方法、装置、软件程序、电子设备及存储介质，方法包括：获取与目标事件相匹配的根因元素；根据所述根因分析参考方式，对根因元素进行维度交叉组合处理，得到第一根因元素组合；基于根因元素和第一根因元素组合，计算根因分析请求对应的排序算子；对根因元素进行一级排序处理，得到至少两个根因元素；对所述至少两个根因元素进行组合，由此，能够实现通过排序算子，对根因元素进行一级排序处理和一级排序处理，准确地发现目标事件对应的根因元素，提高了目标事件对应的根因元素的查找效率，及时做出相应的处置决策，同时，能够广泛收集可能的事件发生的根因元素。

Description

收益根因分析方法、装置、软件程序、设备及存储介质

技术领域

本发明涉及根因分析技术，尤其涉及收益根因分析方法、装置、系统、软件程序、电子设备及存储介质。

背景技术

相关技术中，随着云业务的发展，需要对核心运营业务的各种关键性能指标(KPI)进行实时异常检测，然后需要对检测出的异常指标进行异常定位和根因分析(RCA rootcause analysis)，以便进一步的修复止损等操作。但是，对于收益分析事件集合中的一个目标事件，由于收益分析事件的类型不同，同时根因元素可以形成的根因元素组合数量巨大，因此无法及时准确地发现目标事件对应的根因元素。

发明内容

有鉴于此，本发明实施例提供一种收益根因分析方法、装置、软件程序、电子设备及存储介质，能够实现通过排序算子，对根因元素进行一级排序处理和一级排序处理，准确地发现目标事件对应的根因元素，提高了目标事件对应的根因元素的查找效率，及时做出相应的处置决策，同时，能够广泛收集可能的事件发生的根因元素，使得根因分析结果更加准确。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种收益根因分析方法，所述方法包括：

响应于根因分析请求，获取与目标事件相匹配的根因元素，其中，所述目标事件为收益分析事件集合中的一个收益分析事件；

确定与所述根因分析请求相对应的根因分析参考方式；

根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合；

基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子；

通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素；

对所述至少两个根因元素进行组合，得到第二根因元素组合；

通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素，以达到通过所述根因元素对所述目标事件的收益变化进行分析的效果。

本发明实施例还提供了一种收益根因分析装置，包括：

信息传输装置，用于响应于根因分析请求，获取与目标事件相匹配的根因元素；

信息处理装置，用于确定与所述根因分析请求相对应的根因分析参考方式；

所述信息处理装置，用于根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合；

所述信息处理装置，用于基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子；

所述信息处理装置，用于通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素；

所述信息处理装置，用于对所述至少两个根因元素进行组合，得到第二根因元素组合；

所述信息处理装置，用于通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素。

上述方案中，

所述信息处理装置，用于确定与所述根因分析请求相对应的分析频率；

所述信息处理装置，用于确定与所述根因分析请求相对应的分析维度；

所述信息处理装置，用于确定与所述根因分析请求相对应的分析指标；

所述信息处理装置，用于确定与所述根因分析请求相对应的分析对比方式；

所述信息处理装置，用于根据所述分析频率、所述分析维度、所述分析指标以及所述分析对比方式，

计算所述根因分析请求相对应的根因分析参考方式。

上述方案中，

所述信息处理装置，用于获取每一个根因元素的实际值和参考值；

所述信息处理装置，用于获取每一个第一根因元素组合的实际值和参考值；

所述信息处理装置，用于根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因元素和所述第一根因元素组合的综合实际值和参考值；

所述信息处理装置，用于基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述根因分析请求对应的第一排序算子。

上述方案中，

所述信息处理装置，用于根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因分析请求对应的第二排序算子。

上述方案中，

所述信息处理装置，用于计算所述第一排序算子和所述第二排序算子的乘积；

所述信息处理装置，用于对所述第一排序算子和所述第二排序算子的乘积进行绝对值计算，得到所述根因分析请求对应的第三排序算子。

上述方案中，

所述信息处理装置，用于基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述每一个根因元素和所述第一根因元素组合的相对熵，得到所述根因分析请求对应的第四排序算子。

上述方案中，

所述信息处理装置，用于计算所述第一排序算子和所述第四排序算子的乘积；

所述信息处理装置，用于对所述第一排序算子和所述第四排序算子的乘积进行绝对值计算，得到所述根因分析请求对应的第五排序算子。

上述方案中，

所述信息处理装置，用于根据所述根因分析参考方式，对所述第一根因元素组合进行预剪枝处理，删除无效的根因元素组合。

上述方案中，

所述信息处理装置，用于对所述至少两个根因元素进行组合维度后剪枝处理，删除所述至少两个根因元素中的重复根因元素；或者

所述信息处理装置，用于对所述至少两个根因元素进行层级维度后剪枝处理，删除所述至少两个根因元素中的包含层级维度关系的根因元素。

上述方案中，

所述信息处理装置，用于当所述目标事件为多媒体信息播放时，根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光率进行动态调整；或者

所述信息处理装置，用于根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光渠道进行调整；或者

所述信息处理装置，用于根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光位置进行调整。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的收益根因分析方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的收益根因分析方法。

本发明实施例具有以下有益效果：

本发明实施例通过响应于根因分析请求，获取与目标事件相匹配的根因元素；确定与所述根因分析请求相对应的根因分析参考方式；根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合；基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子；通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素；对所述至少两个根因元素进行组合，得到第二根因元素组合；通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素。由此，能够实现通过排序算子，对根因元素进行一级排序处理和一级排序处理，准确地发现目标事件对应的根因元素，提高了目标事件对应的根因元素的查找效率，及时做出相应的处置决策，同时，能够广泛收集可能的事件发生的根因元素，使得根因分析结果更加准确。

附图说明

图1是本发明实施例提供的收益根因分析方法的使用环境示意图；

图2为本发明实施例提供的收益根因分析装置的组成结构示意图；

图3为本发明实施例提供的收益根因分析方法一个可选的流程示意图；

图4为本发明实施例中收益根因分析方法一个可选的实施过程示意图；

图5为本发明实施例中一个可选的多媒体信息播放的示意图；

图6为本发明实施例提供的收益根因分析方法一个可选的流程示意图；

图7为本发明实施例中根因分析平台用户端模型选择界面图；

图8为本发明实施例中资源配置示意图；

图9为本发明实施例中分析参考方式配置示意图；

图10为本发明实施例中根因分析结果的展示示意图；

图11为本发明实施例中收益根因分析装置部署示意图；

图12为本发明实施例中收益根因分析方法的效果示意图；

图13为使用小程序的根因分析交互逻辑示意图；

图14为使用某个公开数据应用小程序进行根因分析的一个效果示意图；

图15为使用某个公开数据应用小程序进行根因分析的一个效果示意图；

图16为本发明实施例中收益根因分析方法测试效果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)终端，包括但不限于：普通终端、专用终端，其中所述普通终端与发送通道保持长连接和/或短连接，所述专用终端与所述发送通道保持长连接。

3)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行报表制作的功能或者进行报表展示的功能。

4)小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，在社交网络客户端中可以下载、运行用于实现机票购买、报表制作、数据展示等各种服务的小程序，也可以获取针对目标事件的根因元素，并做出相应的调整。

5)“植入广告”，将产品或品牌信息以一个实物或者一张图片或者一段视频的形式，植入视频内容中，给观众留下品牌印象，以达到营销目的。其中，“广告“的表现形式为多媒体信息，所述多媒体信息的类型包括但不限于：图片、文字、视频、音频。“植入广告”隐藏于载体并和载体融为一体，同时将广告信息用非广告表现方法精心编码，使受众在无意识的状态下，感受到商品和品牌信息，从而接受了广告信息的刺激，由于受众在非对抗状态下接受广告，所以这种广告效果是普通广告所不能达到的。

6)曝光：满足有效条件时，向用户推送相应的多媒体信息，或者由用户选择观看，例如：在满足视频的推送条件时，向用户推送不同的视频，以供用户观看。

图1为本发明实施例提供的收益根因分析方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够播放植入多媒体信息的相应客户端，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，多媒体信息包括但不限于视频、图片、GIF动画和广告信息。其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的多媒体信息类型既可以相同也可以不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取广告主所投放的视频广告，也可以通过网络300从相应的服务器200中获取广告主所投放的图像广告，具体类型本申请不做限制。服务器200中可以保存有不同的多媒体信息，其中作为广告的多媒体信息可以为不同的动态格式的内容，例如gif、mp4、mov等。

终端(终端10-1和/或终端10-2)在通过网络300向服务器200获取并中现相应的带有植入多媒体信息的业务的过程中，用户可以通过终端(终端10-1和/或终端10-2)对多媒体信息播放窗口中呈现所述多媒体信息进行不同的操作，产生不同的多媒体信息收益，例如，当所述多媒体信息为视频广告时，用户在观看信息的过程中可以分享和/或点赞所曝光的短视频，也可以通过点击。当多媒体信息为动态GIF广告时，在广告的通过终端(终端10-1和/或终端10-2)的曝光过程中，用户可以对广告进行转发和/或评论，也可以通过GIF广告跳转至相应的产品购买链接页面。

作为一个示例，服务器200在确定向用户的终端10-1或者10-2推荐何种多媒体信息进行播放时，需要及时地获取广告投放过程中的收益以及用户对广告进行转发和/或评论的操作次数，当服务器200的运营商发现广告收益出现变化时，需要查找发生变化的原因，这一过程中，目标事件即为广告收益出现变化，根因元素包括：1.日期2.广告流量位3.广告所在行业4.广告主5.广告流水6.广告曝光量7.广告点击量，此时，服务器200需要响应于根因分析请求，获取与目标事件相匹配的根因元素；确定与所述根因分析请求相对应的根因分析参考方式；根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合；基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子；通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素；对所述至少两个根因元素进行组合，得到第二根因元素组合；通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素，并最终根据目标事件对应的根因元素做出相应的决策，以增加广告投放的收益。

下面对本发明实施例的收益根因分析装置的结构做详细说明，收益根因分析装置可以各种形式来实施，如带有收益根因分析装置处理功能的专用终端，也可以为设置有收益根因分析装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的收益根因分析装置的组成结构示意图，可以理解，图2仅仅示出了收益根因分析装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的收益根因分析装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。收益根因分析装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的收益根因分析装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的收益根因分析装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的收益根因分析方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的收益根因分析装置采用软硬件结合实施的示例，本发明实施例所提供的收益根因分析装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的收益根因分析方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的收益根因分析装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的收益根因分析方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持收益根因分析装置的操作。这些数据的示例包括：用于在收益根因分析装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从收益根因分析方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的收益根因分析装置可以采用软件方式实现，图2示出了存储在存储器202中的收益根因分析装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括收益根因分析装置，收益根因分析装置中包括以下的软件模块：信息传输模块2081和信息处理模块2082。当收益根因分析装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的收益根因分析方法，其中，收益根因分析装置中各个软件模块的功能，包括：

信息传输装置2081，用于响应于根因分析请求，获取与目标事件相匹配的根因元素。

信息处理装置2082，用于确定与所述根因分析请求相对应的根因分析参考方式。

所述信息处理装置2082，用于根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合。

所述信息处理装置2082，用于基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子。

所述信息处理装置2082，用于通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素。

所述信息处理装置2082，用于对所述至少两个根因元素进行组合，得到第二根因元素组合。

所述信息处理装置2082，用于通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述收益根因分析方法的各种可选实现方式中所提供的方法。

结合图2示出的收益根因分析装置说明本发明实施例提供的收益根因分析方法，

为解决上述缺陷，参考图4，本发明实施例提供了一种收益根因分析方法，能够基于多维表所提供的根因元素通过一级排序处理和二级排序处理，得到目标事件对应的根因元素。其中，本发明实施例可结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。对于用户使用云服务器存储数据或者部署不同应用进程时，检测每个用户所提出的目标事件的根因元素，并把目标事件对应的根因元素保存在云服务器网络中，以供用户随时调取查看。

云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

在说明本申请所提供的收益根因分析方法之前，首先对相关技术中的收益根因分析方法进行介绍，图3为本发明实施例中收益根因分析方法一个可选的实施过程示意图，adtributor方法首先需要计算出每个维度下所有维度值的异常度，其次将每个维度的维度值按照异常度的大小降序排列，然后计算每个维度值的贡献度，剔除贡献度小的维度值，将满足贡献度阈值条件的维度组合添加入根因集合，计算维度组合的总异常度值，最后将根因集合内的维度组合按照总异常度值大小降序排列输出。R-Adtributer，通过递归的调用Adtributer并优化了其筛选的逻辑，取消了维度的贡献度阈值只保留元素的贡献度阈值。如图3所示，在进行一次Adtributer过程之后，使用第一次运行的结果作为源表的筛序条件，从而减少了一个维度，再在这个表上继续进行Adtributer过程。当维度足够多时，可以多次迭代。但是该方法存在的问题是：假设指标波动的归因是一个维度的元素组合，会忽略多个维度之间可能存在的内在联系，不适用于多维度的维度组合造成的目标事件波动分析。

图4为本发明实施例提供的收益根因分析方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行收益根因分析装置的各种电子设备执行，例如可以是如带有根因分析功能的服务器或者云服务器群组。其中，带有根因分析功能的服务器可以封装于图1所示的服务器200中，以执行前序图2所示的收益根因分析装置中的相应软件模块。下面针对图4示出的步骤进行说明。

步骤401：收益根因分析装置响应于根因分析请求，获取与目标事件相匹配的根因元素。

其中，通过执行本申请所提供的收益根因分析方法，收益分析事件集合中的任意一个收益分析事件都可以作为进行收益根因分析的目标事件，例如收益分析事件集合中的收益分析事件可以包括但不限于：广告收益变化根因分析，电话销售额变化根因分析，金融投资收益变化根因分析以及学生成绩变化根因分析，用户可以根据不同的使用需求，调整收益分析事件集合中的收益分析事件的数量以及类型。

在本发明的一些实施例中，与目标事件相匹配的根因元素可以通过分析目标事件的多维表获得，一个含有描述性的维度列、代表核心指标的数值型度量列以及代表时间信息的时间列的表。多维表可以存在于任意目标事件的使用场景。

以短视频的广告投放为例，一个广告数据多维表可以有这些字段“1.日期2.广告流量位3.广告所在行业4.广告主5.广告流水6.广告曝光量7.广告点击量”等等。其中“广告流量位”，“广告所在行业”，“广告主”都是维度列，用于描述后面数值型核心指标的属性。“广告流水”，“广告曝光量”，“广告点击量”都是度量列，即业务场景所关心的核心指标。“日期”为时间列，用于标识数据发生的时间。

表1为可以用于根因分析的典型表结构。其中，表1包括了5个维度列，用于描述3个度量列。表2为以表1数据为例的根因分析，说明本申请中维度和度量的含义。其中Ax，Ay，Az为层级维度关系，即给定Ay的值，Ax的值就确定了；给定Az的值，Ax和Ay也确定了。例如中国的行政区域，知道了XX市，就可以确定是在XX省；知道了南山区，就能确定是XX市以及XX省。

表1

表2

由表2中的定义可知，针对上面提到的广告数据：对于维度“广告流量位”，其下的元素值可能为“即时通讯客户端广告”、“XX视频广告”等，这些都是不同的广告流量位。对于维度“广告所在行业”，其下的元素值有可能为“游戏”，“房地产”，“电商”，“教育”等等，代表这些广告属于这些行业。“广告所在行业&广告流量位”为组合维度，“即时通讯客户端广告&教育”则为组合元素。“教育；电商”这种则为元素集合，表示广告流水的异动变化可能同时发生在这两个根因元素的位置。实际值可以是这个月的值，参考值则可以是上个月的值，即相对于上个月哪些指标发生了异常变化。当然，参考值还可以是这个月的理论预估值、去年这个月的值、历史平均值，甚至也可以是根据业务经验设定的一个标准值。

步骤402：收益根因分析装置确定与所述根因分析请求相对应的根因分析参考方式。

在本发明的一些实施例中，由于不同的用户对同一类的目标事件的分析方式不同，同时同一目标事件有多种不同的分析方式来确定相应的根因元素，因此，通过不同的分析参考方式，可以对根因元素进行维度交叉组合处理，确定与所述根因分析请求相对应的根因分析参考方式，可以通过以下方式实现：确定与所述根因分析请求相对应的分析频率；确定与所述根因分析请求相对应的分析维度；确定与所述根因分析请求相对应的分析指标；确定与所述根因分析请求相对应的分析对比方式；根据所述分析频率、所述分析维度、所述分析指标以及所述分析对比方式，计算所述根因分析请求相对应的根因分析参考方式。其中，分析频率代表对于数据进行不同频率的分析，例如对于日频数据可以每天分析一次，也可以每个月聚合后分析一次，也可以每季度分析一次。月频数据可以每月分析一次，也可以每季度分析一次。分析频率必须不大于数据更新频率。分析方法则是根因分析的关键参数配置，即参考方式的选取，提供了环比和同比两种参考方式。

步骤403：收益根因分析装置根据所述根因分析参考方式，对所述根因元素进行维度交叉组合处理，得到第一根因元素组合。

步骤404：收益根因分析装置基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子。

在本申请中，根因分析请求对应的排序算子一共有五种，下面分别进行介绍。

其中，结合表1所示的根因元素，选定某个度量后，可以选择上个时间周期(t1)的值作为参考值，当前时间周期(t2)的值作为实际值。

表4为可用于排序算子计算的示例表。其中，作为目标事件的根因元素即可以是元素(例如：“ax0”)也可以是根因元素组合(例如：“ax0；b6”)。表中给出了每个候选根因的实际值、参考值、总体的实际值、总体的参考值以及实际值相对于参考值的变化量和变化率。排序算子的目的就是通过这些值来判断每个根因的重要性从而对其进行排序。其中，本申请实施例汇总所有表格中的参考值和实际值都只针对某一个选定的度量。

表4

候选根因	参考值(t1)	实际值(t2)	变化量	变化率
					候选根因1	22	27	+5	+18.2％
候选根因2	40	44	+4	+10％
					候选根因3	2	6	+4	+200％
候选根因4	10	2	-8	-40％
					…	…	…	…	…
总体	100	120	+20	+20％

在本发明的一些实施例中，第一排序算子的计算方式为：获取每一个根因元素的实际值和参考值；获取每一个第一根因元素组合的实际值和参考值；根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因元素和所述第一根因元素组合的综合实际值和参考值；基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述根因分析请求对应的第一排序算子。其中，变化量越大的越有可能是异常根因。当然，可以做一个简单的除法从而将绝对的变化量变成一个相对整体的变化量，即用每个根因的变化量除以总体的变化量，可以得到第一排序算子，第一排序算子可以表示贡献度(EP Explanatory Power)。设R_i和A_i为每个候选根因的参考值和实际值。设R和A分别为总体的实际值和参考值，第一排序算子的计算过程参考公式1：

其中，总体实际值和参考值并不等于所有候选根因直接求和，因为根因之间可能会存在重复的元素。例如上面表4所示的“ax0”和“ax0；b6”如果简单求和会把ax0的值计算两遍，造成重复计算，因此，公式1中的总体值是从形如表1的原始表中，给定筛选的时间(例如t1或者t2)和度量(例如度量1或者度量2)，将度量的值求和而得到。

在本发明的一些实施例中，第二排序算子的计算方法如下：获取每一个根因元素的实际值和参考值；获取每一个第一根因元素组合的实际值和参考值；根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因分析请求对应的第二排序算子。其中，第一排序算子虽然考虑到了变化量，但是却忽略了变化率的信息。例如候选根因2和候选根因3，两者变化量相同，即第一排序算子相同，但是候选根因2的变化率只有10％而候选根因3直接翻了3倍。在某些场景下，10％左右的变化可能就是属于正常的波动范围。这种情况下显然候选根因3相较于候选根因2更加“异常”，也就是说其排序应该排在后者的前面。

因此第二排序算子用于表征偏离度(Deviation，Dev)，可以从变化率的角度重新定义一个异常的衡量指标。需要说明的是第二排序算子不表征变化率是因为分母(即表4中的参考值)可能为0或者是一个极小值，这会导致变化率失去意义或者特别大，第二排序算子的计算公式2如下：

第一排序算子和第二排序算子为两个基础的排序算子，分别单独对变化量和变化率两个指标进行了新的诠释从而使其更加合理。第一排序算子更加关注于个体变化对整体的影响，而第二排序算子更加关注于个体本身的变化特性。在实际的数据情况下可以观察的是，通常第一排序算子大的候选根因体量也大，即使相对小的变化率也能导致大的第一排序算子；而第二排序算子大的通常体量特别小，或者参考值为0，第一排序算子相对较小。当第一排序算子和第二排序算子同时大时，对应的根因元素的出现异常的概率会更大。

因此，为了更好地融合第一排序算子和第二排序算子，本申请还提供了第三排序算子，在本发明的一些实施例中，第三排序算子的计算方法如下：

计算所述第一排序算子和所述第二排序算子的乘积的绝对值，得到所述根因分析请求对应的第三排序算子。其中，第三排序算子对于第一排序算子和第二排序算子的偏导都是正数，因此任何一方的绝对值增大对于乘积的影响都是正向的。将第三排序算子命名为EPD，计算过程参考公式3：

EPD_i＝abs(EP_i*Dev_i) 公式3

在本发明的一些实施例中，第四排序算子的计算方法如下：获取每一个根因元素的实际值和参考值；获取每一个第一根因元素组合的实际值和参考值；根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因元素和所述第一根因元素组合的综合实际值和参考值；基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述每一个根因元素和所述第一根因元素组合的相对熵，得到所述根因分析请求对应的第四排序算子。其中，是通过占比变化的相对熵(即KL散度)来实现的。设R_i和A_i为每个候选根因的参考值和实际值。设R和A分别为总体的实际值和参考值，设分别为实际值和参考值相对于总体的占比，则第四排序算子的计算公式4如下：

在本发明的一些实施例中，第五排序算子的计算方法如下：计算所述第一排序算子和所述第四排序算子的乘积的绝对值，得到所述根因分析请求对应的第五排序算子。

将第四排序算子和第一排序算子的绝对值相乘，命名为EPS。则EPS对于第四排序算子和第一排序算子的绝对值的偏导都为正，任何一个提升都可以导致EPS的提升，因此，第五排序算子和第一排序算子公式5如下：

EPS_i＝abs(EP_i*S_i) 公式5

在本发明的一些实施例中，由于根因元素的维度不同，对于派生度量(例如表1中的度量3＝度量1/度量2)，第四排序算子和第一排序算子的计算可以如下执行，设度量1～3分别为m1，m2，m3则度量3的第四排序算子和第一排序算子的计算公式6如下：

S_i(m₃)＝S_i(m₁)+S_i(m₂) 公式7

表5为所有排序算子的计算结果示意表。其中，候选根因4的EPD，S和EPS都最高，在这四个中排名第一。如果只算正向根因(与总体变化方向相同)，那么候选根因3的“异常”程度最高。通常情况下会选取EPD或者EPS作为最终的排序指标。但是对于一些特殊场景，比如用户只关心变化量或者只关心变化率的情况，可以根据情况选取合适的排序算子。

表5

对于数据表5中有负数的情况，Dev和S将失去实际含义。因此，对于存在负数的原始表，首先将其所有数据通过归一化手段缩放到正数区间中，再对其Dev，S，EPS，EPD的计算。

上面定义了五种不同的排序基础的排序算子，但使用哪一种取决于实际情况：例如，当分析人员想知道某个产品10％的增长是由哪个维度造成的时，那些在变化前后所占比例非常小的元素，即使变化率高达300％，也应该被忽略，因为它几乎不影响总量。在这种情况下，EP可用作排序依据；某些场景的目标是在大量维度组合中发现隐藏的异常，这些异常可能变化量不大，但是变化率很大。这种情况下，Dev，S可以用作排序依据。例如，一些日志数据具有稳定的警告计数，其波动在稳定范围内，EP较高的元素可能只是因为其数量很大，相反，较高的Dev可能恰恰意味着更大的风险。

步骤405：收益根因分析装置通过所述排序算子，对所述根因元素进行一级排序处理，得到至少两个根因元素。

在本发明的一些实施例中，在进行一级排序处理之前，可以根据所述根因分析参考方式，对所述第一根因元素组合进行预剪枝处理，删除无效的根因元素组合。其中，预剪枝的目的是在一级排序之前将无效的维度组合删除。而这种无效维度组合来源于层级维度。结合表1所示，表1中的“Dim Ax&Dim Ay”就是无效维度组合，“Ax”和“Ay”为层级维度且“Ax”为父维度，Ay为子维度，当Ay确定时，Ax也唯一确定。此时“Dim Ax&Dim Ay”和“Dim Ay”等价，因此可以将“Dim Ax&Dim Ay”删除。

参考表6对于层级维度较多的原始表，预剪枝可以极大程度的减少计算量。假设有一个表有10列，其中只有4个独立维度，维度列分别为Ax，Ay，Ax，Bx，By，Bz，Cx，Cy，Cz，D。其中A，B，C，D为独立维度，x，y，z之间分别为独立维度内部含父子关系的层级维度。表10记录了当维度组合数量限制l_c变化时，所需要的Cuboid数量，即聚合表的数量。

表6

无预剪枝的情况，所需要的聚合表的数量为而经过预剪枝操作后可以看到，这个数量大幅缩减，而且l_c超过4之后就数量不再变化，这是因为独立维度只有4个。在实际情况中几乎每一个多维表都会有层级维度，这样可以极大减少计算量并且提高结果的可解释性。

在进行一级排序处理时，由于一级排序是对所有根因元素的排序，因此，不考虑元素间的集合。首先对所有的单维度以及组合维度进行聚合求和操作。对于表1中的例子，可以得到形如表7和表8的结果。表6是对单维度Ax进行聚合并求和，表7是对组合维度“Ax&C”进行聚合并求和。这种类型的表的数量Cube图中的Cuboid的数量相同。

表7：按照维度Ax聚合

Dim Ax	参考值(t1)	实际值(t2)
			ax0	234364	234255
ax1	253136	253122
			…	…	…
求和	1186534	1212763

表8：按照维度Ax&C聚合

将所有这种表计算完并拼接起来后就可以进行一级排序了。如表9所示，将所有元素放在一起使用排序算子对其进行计算，得到各种指标的结果并按照选定的指标排序。这里采用EPS进行排序。一级排序的目标是将所有“异常”程度较大的根因元素选出来，这样能极大程度的减少后续元素集合的计算量。

表9：一级排序示例

步骤406：收益根因分析装置对所述至少两个根因元素进行组合，得到第二根因元素组合。

在本发明的一些实施例中，在进行二级排序处理之前，还需要对至少两个根因元素进行后剪枝处理，其中，至少两个根因元素进行后剪枝处理包括两种方式：1)对所述至少两个根因元素进行组合维度后剪枝处理，删除所述至少两个根因元素中的重复根因元素；其中，组合维度后剪枝处理的伪代码如下所示：

例1：假设“ax0&c7”是最终的根因结果之一，那么一级排序的结果很有可能是这样的1.“ax0&c7”2.“ax0”3.“c7”4.“b8”.前三名的元素实际上都来源于“ax0&c7”。在这里排在后面的“ax0”和“c7”具有误导性，需要将其删除。

例2：假设“ax0”为最终的根因结果之一，一级排序的结果可能为1.“ax0”2.“ax0&c6”3.“ax0&c7”，同样的，后面两个也需要被剪枝掉，因为它们和第一名同源。

例3：对于1.“ax0&c6”2.“ax0&c7”，这种情况两个都应该保留。虽然两个都含有“ax0”，但是在源表中这两个元素没有重合的行，理论上是可以独立各自发生异常变动并引起整体的变化。

2)对所述至少两个根因元素进行层级维度后剪枝处理，删除所述至少两个根因元素中的包含层级维度关系的根因元素。

其中，假如一级排序的结果是1.“ax1->ay4&c8”，2.“ax1&c8”，3.“d9”，这种情况也可以后剪枝。这是因为ax1是ay4的父维度，也就是说第二名“ax1&c8”中ax1的实际上是由ay4引起的，层级维度后剪枝时，可以不用删除第二名，而是在二次排序之前将这种包含层级维度关系的集合删除，即删除“ax1->ay4&c8；ax1&c8”这个元素集合，不对其进行二次排序。

层级维度后剪枝处理的伪代码如下：

组合维度后剪枝和层级维度后剪枝这两种后剪枝方法可以去除大量的重复元素，减少计算量。当组合维度个数限制l_c以及元素集合个数限制l_u确定时，合理的剪枝能让排在前面的候选根因价值更高，从而能提升准确率。

步骤407：收益根因分析装置通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素。

在本发明的一些实施例中，二级排序是对根因元素以及根因元素的集合进行排序，并选择出最优的根因元素或者集合。首先将一级排序中排名靠前的元素挑选出来，再进行组合。对表8的例子来说，可以组合成(az15；ax4)，(az4；ay13&c1)，(az15；ay13&c1)，(az15；az4；ay13&c1)这4种集合。再加上原来的三个单一元素，那么二次排序的候选根因就有7个，如表10所示。再在这7个当中利用排序算子计算每个候选者的重要性，并将第一名的根因选出来。可以看到“az15”的EPS最高，那最终的根因就是它。因此，虽然一些集合的EP更大，但是通过EPS的计算后，“az15”还是排在第一。当然，无论是两个还是三个元素集合的EPS，根据相应的计算计算结果都有可能排到第一位。

表10：二级排序示例

由此，得到目标事件对应的根因元素，通过根因元素对可以目标事件的收益变化进行分析，便于用户准确地获知目标事件的收益变化的产生原因，用户不但可以及时地做出调整，同时还能够根据本申请提供的收益根因分析方法继续对收益分析事件集合中的所有收益分析事件继续进行根因分析。

下面以多媒体信息为商品广告为例，对本发明所提供的收益根因分析方法进行说明，随着商品广告的播放，广告主的收益变化可以作为收益分析事件集合中的一个收益分析事件，参考图5，图5为本发明实施例中一个可选的多媒体信息播放的示意图，其中，可以在多媒体信息播放的窗口1、窗口2以及窗口3中根据多媒体信息的播放顺序，通过多媒体信息播放窗口的索引信息依次播放视频广告，也可以将同一个视频广告的图像帧分为三部分，分别在窗口1、窗口2以及窗口3中进行呈现，以实现用户通过观看窗口1、窗口2以及窗口3获得完整的多媒体信息。进一步地，当多媒体信息为广告时，终端既可以通过网络30从相应的服务器200中获取广告主所投放的视频广告，也可以通过网络300从相应的服务器200中获取广告主所投放的图像广告，具体类型本申请不做限制。服务器200中可以保存有不同的多媒体信息，其中作为广告的多媒体信息可以为不同的动态格式的内容，例如gif、mp4、mov等，通过不同的动态格式的广告内容进行图像帧的分割与调整，可以实现广告内容与多媒体信息播放窗口的数量相适配。

其中，在本发明的一些实施例中，当通过短视频的多媒体信息播放窗口中所播放的多媒体信息为视频广告时，接收针对所述多媒体信息播放窗口的触发操作；响应于所述触发操作，呈现所述业务处理界面跳转至所述多媒体信息所指示的商品展示界面，由此，用户可以更加方便地购买针对所述多媒体信息播放窗口所呈现的商品，通过本申请所提供的收益根因分析方法，在进行广告投放时，可以使得多媒体信息的播放策略调整后的流量分配更加显著，同时减少多媒体信息的投放成本，使得用户触发所观看的广告的次数提升。

在图5所示的广告投放过程中，广告收益也是变化的，例如，总体“广告流水”本月增加了20％，核心影响因子可能是在“即时通讯客户端广告”这个“广告流量位”上的“房地产”这个行业的广告流水的增加。这里的根因就是“即时通讯客户端广告&房地产”。如果总体的流水变化除了“房地产”的“即时通讯客户端广告”，还有教育行业的所有广告，那最终的根因就是“即时通讯客户端广告&房地产；教育”，这两个部分分别独立影响了总体流水的变化，短视频运营商为了更好对广告收益变化的原因进行分析，可以通过本申请提供的收益根因分析方法，获取目标事件(广告收益)对应的根因元素。

参考图6，图6为本发明实施例提供的收益根因分析方法一个可选的流程示意图，具体包括以下步骤：

步骤601：配置与目标事件相匹配的根因元素和根因分析参考方式。

参考图7，图7为本发明实施例中根因分析平台用户端模型选择界面图，当需要知道广告投放中某个KPI指标的变动是由哪些维度的哪些元素引起时，可以将原始表上传到平台上或者在平台已有的数据库选定相关数据表，同时配置好参数和任务目标。后台可以采用定时任务运行的方式周期性调用或者实时调用这些任务，计算得出结果并输出到页面，供分析师分析或者下载结果。

参考图8，图8为本发明实施例中资源配置示意图，用户可以选择一个数据源来进行分析。并通过图8所示的资源配置示意图获取数据源的基本信息，包括名称、更新频率、负责人。

参考图9，图9为本发明实施例中分析参考方式配置示意图，分析频率代表对于数据进行不同频率的分析，例如对于日频数据可以每天分析一次，也可以每个月聚合后分析一次，也可以每季度分析一次。月频数据可以每月分析一次，也可以每季度分析一次。分析频率必须不大于数据更新频率。分析方法则是根因分析的关键参数配置，即参考方式的选取，提供了环比和同比两种参考方式。这里有如下设置：对于日频分析频率，环比是和昨天的数据对比，同比是和7天前的数据对比；对于月频数据，环比是和上个月对于，同比是和去年的这个月对比；对于季度数据，环比是和上个季度对比，同比是和去年的该季度对比。对于年度数据，环比是和去年相比，没有同比。分析菜单名称则是用户自己为该分析命名。推送方式则是选择如何给用户推送根因分析结果。版本设置可以让用户自行选择是否保留全量历史分析结果，如果只保留最近一次结果则可以减少存储空间占用。

参考图10，图10为本发明实施例中根因分析结果的展示示意图。可以看到查询条件可以选择分析起点的维度和分析起点的值，也可以选择影响维度和分析指标。这里默认起点是总体。当然如果前面配置了多个分析方法和分析频率，这里也可以筛选分析方法是“同比”还是“环比”，频率是“日”还是“月”。查询结果会展示选中的指标，和分析起点条件下根因的结果。同时会按照模型计算出的排序方式输出结果。

参考图11，图11为本发明实施例中收益根因分析装置部署示意图，需要说明的是，其中，收益根因分析装置应用于云产品时，云产品的前端可以为Web UI组件，用于接收用户填写的Spark相关参数，并根据该Spark相关参数生成作业数据。其中，集群管理器(ClusterManager)即可以是YARN、Mesos或Kubernetes等开源集群资源调度平台。Spark本身已经支持了这些开源平台，即Spark组件和ClusterManager组件间的协议是兼容的。Driver是作业驱动器，Work Node是工作节点，Executor是任务执行组件，task是最小的执行单位。进一步地，结构化数据的程序包(spark SQL)是Spark用来操作结构化数据的程序包，通过该SparkSQL，可以使用SQL语言来查询数据，该Spark SQL支持多种数据源，比如数据仓库工具(Hive)表等。该流式计算的组件是Spark提供的对实时数据进行流式计算的组件，提供了用来操作数据流的应用程序编程接口(API Application Programming Interface)。

步骤602：根据根因分析参考方式，对根因元素进行维度交叉组合处理，得到第一根因元素组合。

步骤603：基于所述根因元素和第一根因元素组合，计算并选用至少一种排序算子。

步骤604：进行预剪枝处理，并通过排序算子，对所因元素进行一级排序处理，得到至少两个根因元素。

步骤605：对至少两个根因元素进行组合维度后剪枝处理和组合处理，得到第二根因元素组合。

步骤606：通过排序算子，对至少两个根因元素和所述第二根因元素组合进行二级排序处理，筛选第一个根因元素作为目标事件对应的根因元素。

在进行一级排序处理和二级排序(即双排序法DoSo)处理时，双排序法(DoSo)伪代码如下：首先要选定需要分析的度量，然后根据参考方式的选取对原始输入表进行变形，将时间列去除，并将选中的度量列转化为实际值和参考值两列。

图12为本发明实施例中收益根因分析方法的效果示意图，其中，“(ax3->ay13)&c7；b5”，这意味着根因来源在两个地方，一个是“b5”，另一个是“ay13&c7”.也就是原始表中“Ay＝ay13”并且“C＝c7”的所有行，以及“B＝b5”的所有行出现了异常。

步骤607：根据目标事件对应的根因元素，调整多媒体信息播放策略。

在本发明的一些实施例中，调整多媒体信息播放策略时，可以对多媒体信息播放环境中的广告位中所播放的广告信息进行替换，由广告A替换为广告B，达到为广告B配置更多的播放流量，实现用户获得更好的观看体验。具体来说，基于广告信息的播放策略匹配的流量参数以及迭代实验参数，对广告信息的播放策略进行动态调整时，对于广告曝光率可以增加，在本发明的一些实施例中，还可以将广告A的曝光渠道由当前的短视频客户端中曝光调整至即时通讯客户端的联系人状态信息中进行广告投放，当然广告A的曝光位置进行调整时可以由即时通讯客户端的朋友圈广告调整至开屏广告，以符合不同的动态调整的播放策略。

在本发明的一些实施例中，用户还可以通过小程序对目标事件对应的根因元素的展示方式进行调整，图13为使用小程序的根因分析交互逻辑示意图。将数据源上传小程序后，专业的数据分析开发工程师可以帮助分析师设计一套合适的根因分析面板，保留一些设置参数模块。这样财务分析师就可以按需求设置参数，从而得到分析结果。当然，对于小程序较为熟悉的财务分析师可以自行设计面板逻辑和交互方式。小程序能够自动进行聚合以及递归的聚合计算，利用这一点，可以将每一个聚合表得出的实际值和参考值输入编辑模块，也就是python函数，模块中集成的排序算子可以返回计算结果给小程序从而进行排序。当然小程序还可以很方便的实现递归的维度下钻功能，即第一次分析得出的结论作为第二次分析的起点，再一次进行根因分析。

图14为使用某个公开数据应用小程序进行根因分析的一个效果示意图。这里只保留了维度选取的功能，其余功能没有开放给用户。左上图为利润的历史趋势图，可以看到11月份总体的利润有一个大幅下降，根因分析就可以以10月的值为参考值，以11月的值为实际值进行分析，从而得到究竟是哪些下降的比较厉害导致整体下降这么多。右上图选择了地区为下钻维度，则表格中会显示每个地区上月利润和这月利润的对比，这里的先后顺序是模型通过排序算子计算得出来的顺序。可以看到，从地区来看，“中南”地区利润下降的最厉害；从客户来看，“苏涛”这个客户利润变化影响最大。

当图14中的行未被选中时，图14左下显示的是所有客户上月利润和本月利润的对比，同样也是按照模型计算出的重要性从大到小排序。右下图显示的是选中的项目利润的趋势变化图，图14没有选中任何项目，显示的是总体的利润趋势变化图。

图15为使用某个公开数据应用小程序进行根因分析的一个效果示意图。如图15所示。此时选中了“电话”，可以看到左下的客户明细数据相比于上一张图有所变化。这是因为分析起点变成了“电话”，也就是“电话”这一个“子类别”中，所有客户的利润变化。右下图也变成“电话”的历史利润趋势图。这里明细就是一个递归调用根因分析的过程，第一步首先得到“电话”是影响最大的因素，其次在“电话”里，“朱XX”是影响最大的客户。当然这里的下钻维度用户可以自行选择。可以以任何一个维度来分析根因。

为了更好地对本申请所提供的收益根因分析方法进行准确性检测，本申请还基于广告数据合成了一个新的数据。该数据集有7个维度，其中4个维度是独立的，包含A，B两个层级维度。如表11所示。

表11：广告数据结构

将该数据集命名为Ad.根因植入方法与公开数据集类似，但是异常的定义与数据集B略有不同。对于广告情况，分析师的目标是搞清楚什么导致了广告利润的变化。因此，将使用可观的变化量和变化率来定义根因。植入的误差服从3σ从0到0.9的标准正态分布。因此数据集可分为Ad0～Ad9，其中Ad0代表没有误差和，Ad9代表3σ＝0.9.设为x原始值，那么植入误差后的值y＝x(1+ε)，其中σ～N(0,σ)。

图16为本发明实施例中收益根因分析方法测试效果图，展示了Ad9数据集和B4数据集异常行(灰色)和正常行(黑色)的Dev分布直方图。可以看到，对于数据集B4，异常和正常部分明显分了两个簇。而对于数据集Ad9，异常和正常都纠缠在一起。这说明Ad数据的难度远高于数据集B，且一些Squeeze中的分簇策略在Ad数据集中无法奏效。

为评估查找的准确性，这里采用F1-score.F1-score是准确率和召回率的调和均值。准确率意味着模型给出的根因结果中，有多少是真正的根因；召回率意味着真正的根因中，有多少被模型找到了。设TP为真正例，FP为假正例，FN为假反例，TN为真反例。准确率，召回率，F1-score参考公式9和10公式如下。

表12为所有相关方法在A和B数据集上的平均F1-score，表中除了双排序法(DoSo)，其余数据均来自Squeeze.从表中可以看出，对于每一个数据集，双排序法的平均准确率相较于最好的模型都有接近10％的提升。从B0～B4可以看出，双排序法准确率下降的不多，其对于误差的敏感程度较低。在F1-score较高的几个模型中，双排序法受误差的影响最小。

表12：公开数据集上各模型的F1-score

表13为各个模型在基于广告的半合成数据集上的效果。由于之前的多数模型都没有考虑到层级维度，并且有严格的根因分布假设，将这些模型原封不动地应用到数据集上效果极差，或者耗时太长无法在可以接受的时间范围内得出有效结果。因此对每一种方法都有一些优化：对Adtributer和R-Adtributer，分别取S(Surprise)作为排序算子的单元素第一名和组合元素第一名作为最终的结果；对于HotSpot和Squeeze，将其原生的(Potential Score，PS)和(General Potential Score，GPS)分别作为二级排序过程中用于计算候选根因重要性的方法。可以看到双排序法准确率最高。

表13：半合成数据集Ad上各模型的F1-score

表14为双排序法在各个数据集上通过试验得出的最佳超参数。组合维度个数限制l_c和元素集合个数限制l_u取决于数据集根因的最大组合数和最大元素集合数。如果数据集的植入根因最多只有3个维度组合或者不超过3个元素集合，那么l_c和l_u没有必要设置高于这个值。由于数据集A和B限定了根因分布只能在Cube图的同一层，因此可以采取如下剪枝策略：只保留和一级排序第一名的元素在Cube图中处在相同层的元素。

表14：双排序法在不同数据集上的最佳超参数

排序算子的选择取决于每个数据集的“异常”定义：如果数据集更看重变化率(如数据集B)，将S作为一级排序效果更好。通常情况下，对于一个不明情况的新数据集，对一级排序和二级排序都使用EPS效果最佳。

为了进一步检测本申请所提供的收益根因分析方法的查找速度，表15为各模型核心计算逻辑的耗时对比。

表15：核心计算逻辑耗时

从表15中可以看到，对与每个候选根因，排序算子的耗时远低于其他方法，甚至少1-3个数量级。其次，数据行数的增加对于排序算子的耗时影响不大，甚至行数增多后，每个候选根因的平均耗时还会减少，这是因为算法包的底层计算逻辑有优化，向量长度在该范围内对计算的影响并不大。反观PS和GPS的耗时大幅增加，因为每一个候选根因的计算与向量长度有关，长度越长，计算效率越低。

表16为每个样本最终耗时的结果。这里随机在每个数据集中取了100个样本来计算总的时间消耗。可以看到除了Adtributer外，双排序法耗时最短。实际上Adtributer就是在单维度上进行了一次排序算子为贡献度和惊喜度的计算，可以理解为双排序法的部分一级排序，所以其耗时肯定小于双排序法。对于另外两种模型，双排序法快了1-2个数量级。尤其对于数据集Ad，由于Ad植入了层级维度，列数较多，Squeeze的耗时指数增加，HotSpot在甚至无法在可以接受的时间范围内得出结果。

表16：各模型耗时表

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种收益根因分析方法，其特征在于，所述方法包括：

确定与所述根因分析请求相对应的根因分析参考方式；

2.根据权利要求1所述的方法，其特征在于，所述确定与所述根因分析请求相对应的根因分析参考方式，包括：

确定与所述根因分析请求相对应的分析频率；

确定与所述根因分析请求相对应的分析维度；

确定与所述根因分析请求相对应的分析指标；

确定与所述根因分析请求相对应的分析对比方式；

根据所述分析频率、所述分析维度、所述分析指标以及所述分析对比方式，计算所述根因分析请求相对应的根因分析参考方式。

3.根据权利要求1所述的方法，其特征在于，所述基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子，包括：

获取每一个根因元素的实际值和参考值；

获取每一个第一根因元素组合的实际值和参考值；

根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因元素和所述第一根因元素组合的综合实际值和参考值；

基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述根因分析请求对应的第一排序算子。

4.根据权利要求1所述的方法，其特征在于，所述基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子，包括：

获取每一个根因元素的实际值和参考值；

获取每一个第一根因元素组合的实际值和参考值；

根据每一个根因元素的实际值和参考值和所述每一个第一根因元素组合的实际值和参考值，计算所述根因分析请求对应的第二排序算子。

5.根据权利要求1所述的方法，其特征在于，所述基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子，包括：

获取所述根因分析请求对应的第一排序算子和第二排序算子；

计算所述第一排序算子和所述第二排序算子的乘积；

对所述第一排序算子和所述第二排序算子的乘积进行绝对值计算，得到所述根因分析请求对应的第三排序算子。

6.根据权利要求1所述的方法，其特征在于，所述基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子，包括：

获取每一个根因元素的实际值和参考值；

获取每一个第一根因元素组合的实际值和参考值；

基于所述每一个根因元素的实际值和参考值、所述每一个第一根因元素组合的实际值和参考值，以及所述根因元素和所述第一根因元素组合的综合实际值和参考值，计算所述每一个根因元素和所述第一根因元素组合的相对熵，得到所述根因分析请求对应的第四排序算子。

7.根据权利要求1所述的方法，其特征在于，所述基于所述根因元素和所述第一根因元素组合，计算所述根因分析请求对应的排序算子，包括：

获取所述根因分析请求对应的第一排序算子和第四排序算子；

计算所述第一排序算子和所述第四排序算子的乘积；

对所述第一排序算子和所述第四排序算子的乘积进行绝对值计算，得到所述根因分析请求对应的第五排序算子。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述根因分析参考方式，对所述第一根因元素组合进行预剪枝处理，删除无效的根因元素组合。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述至少两个根因元素进行组合维度后剪枝处理，删除所述至少两个根因元素中的重复根因元素；或者

对所述至少两个根因元素进行层级维度后剪枝处理，删除所述至少两个根因元素中的包含层级维度关系的根因元素。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述目标事件为多媒体信息播放时，根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光率进行动态调整；或者

根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光渠道进行调整；或者

根据所述目标事件对应的根因元素，对与所述多媒体信息相对应的曝光位置进行调整。

11.一种收益根因分析装置，其特征在于，所述装置包括：

信息传输装置，用于响应于根因分析请求，获取与目标事件相匹配的根因元素，其中，所述目标事件为收益分析事件集合中的一个收益分析事件；

所述信息处理装置，用于通过所述排序算子，对所述至少两个根因元素和所述第二根因元素组合进行二级排序处理，得到所述目标事件对应的根因元素，以达到通过所述根因元素对所述目标事件的收益变化进行分析的效果。

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至10任一项所述的收益根因分析方法。

13.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至10任一项所述的收益根因分析方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的收益根因分析方法。