CN113537685A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN113537685A
CN113537685A CN202011080605.8A CN202011080605A CN113537685A CN 113537685 A CN113537685 A CN 113537685A CN 202011080605 A CN202011080605 A CN 202011080605A CN 113537685 A CN113537685 A CN 113537685A
Authority
CN
China
Prior art keywords
dimension
item
items
determining
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011080605.8A
Other languages
English (en)
Inventor
王欢
胡仲旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011080605.8A priority Critical patent/CN113537685A/zh
Publication of CN113537685A publication Critical patent/CN113537685A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理方法和装置,其中,方法包括:通过确定待分析指标的维度集合中的维度项,该维度集合中的维度项包括单一维度项和交叉维度项,根据获取的分析日期和参考日期中各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,基于维度筛选系数,从剪枝后的维度集合中确定候选维度;基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。本申请实施例可以实现交叉维度的剪枝问题,且当维度较多时仍能快速准确处理得到归因结果,提高数据异常归因处理的效率和准确率。

Description

一种数据处理方法和装置
技术领域
本申请涉及数据处理领域,具体涉及一种数据处理方法和装置。
背景技术
所有业务都会面对“为什么涨、为什么降、原因是什么?”这种简单粗暴又不易定位的业务问题。如在业务发展过程中,由于投放、产品迭代、热点事件等因素的变化,会带来业务核心指标的波动,业务面临每次较大波动都需要进行问题定位分析,然后再采取进一步措施。例如,在产品研发和迭代过程中,需要时刻关注各种指标及其变化。如:每日活跃用户、用户总时长、留存率等。由于产品迭代、关键事件营销、投放策略等的改变可能会影响指标的变化,但由于影响指标的因子的多样性,因此在某些指标出现异常波动时,需要逐项去排查可疑因素。
传统的解决方案中,由分析师针对目标指标,按照目标指标所涉及的维度一个一个的逐项去排查可疑因素,单次执行一个维度所对应的任务的时间占用在5~10min之间,通常维度有30~50个,在所有维度排查完之后,才能找到最关键的指标影响维度因素,如此耗时较长,如耗时0.5天~2天等。这种传统数据异常归因方式非常耗时,且精准度较低容易遗漏关键因子,难以沉淀系统的知识库,降低了数据异常归因的效率和准确率。
发明内容
本申请实施例提供一种数据处理方法和装置,可提高数据异常归因的效率和准确率。
本申请实施例提供了一种数据处理方法,包括:
获取待分析指标、以及分析日期和参考日期;
获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;
获取分析日期和参考日期中各维度项的剪枝参数;
根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成;
基于维度筛选参数,从剪枝后的维度集合中确定候选维度;
基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
本申请实施例还提供了一种数据处理装置,包括:
第一获取单元,用于获取待分析指标、以及分析日期和参考日期;
第二获取单元,用于获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;
第三获取单元,用于获取分析日期和参考日期中各维度项的剪枝参数;
剪枝单元,用于根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成;
候选确定单元,用于基于维度筛选参数,从剪枝后的维度集合中确定候选维度;
目标确定单元,用于基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
本申请实施例还提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述处理器和所述存储器相连接,所述一个或多个计算机程序被存储于所述存储器中,并配置为由所述处理器执行以实现上述任一种数据处理方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时,实现上述任一种数据处理方法。
本申请实施例通过确定待分析指标的维度集合中的维度项,该维度集合中的维度项包括单一维度项和交叉维度项,根据获取的分析日期和参考日期中各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,如此,一方面,在对指标异常归因的过程中,加入交叉维度项,以使地指标异常归因的归因结果更细分,使地指标异常归因的归因结果更准确;另一方面,根据剪枝参数对待分析的维度集合中的维度项进行剪枝,降低处理的维度项的数量,且当维度较多时仍能快速准确的得到归因结果。对维度集合中的维度项进行剪枝后,基于维度筛选系数,从剪枝后的维度集合中确定候选维度,以从剪枝后的维度集合中筛选出维度项波动较大的维度,将维度项波动较大的维度确定为候选维度;确定候选维度之后,基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项,以从波动较大的维度中确定目标维度项。本申请实施例可以实现交叉维度的剪枝问题,且当维度较多时仍能快速准确处理得到归因结果,提高数据异常归因处理的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的数据处理系统的场景示意图;
图1b是本申请实施例提供的请求界面的示意图;
图2是本申请实施例提供的数据处理方法的流程示意图;
图3a是本申请实施例提供的基尼系数的原始应用场景示意图;
图3b是本申请实施例提供的三个不同维度的每个维度项的JS散度值的示意图;
图4a是本申请实施例提供的数据处理方法的流程示意图;
图4b是本申请实施例提供的结果界面的示意图;
图5是本申请实施例提供的数据处理方法的另一流程示意图;
图6是本申请实施例提供的数据处理装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
本申请实施例提供一种数据处理方法、装置、电子设备和存储介质。
本申请实施例提供了一种数据处理系统,包括本申请实施例任一提供的数据处理装置。该数据处理装置可以集成在电子设备等网络设备中。电子设备可以是服务器,也可以是终端设备,如包括台式机、智能手机、便携式电脑、掌上电脑(Personal DigitalAssistant,PDA)、穿戴式设备、机器人等。
如图1a所示,为本申请实施例提供的数据处理系统的一场景示意图。该数据处理系统中包括电子设备11(该电子设备11相当于服务器的作用)和终端设备12。其中,电子设备11和终端设备12之间通过网络连接。网络中包括路由器、网关等网络实体。终端设备12通过请求界面发送指标异常归因处理请求,电子设备11接收到该指标异常归因处理请求后,根据指标异常归因处理请求获取指标异常归因处理请求所对应的业务、该业务所对应的待分析指标、分析日期和参考日期等信息,并进行一系列的处理,以得到待分析指标的目标维度项。具体的处理流程包括:获取待分析指标的归因维度,每个归因维度包括至少两个维度项;获取分析日期和参考日期中的维度项剪枝参数;根据维度项剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,该维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由至少两个不同归因维度的单一维度项组合形成;基于维度筛选参数,从剪枝后的维度集合中确定候选维度;基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。并将待分析指标的目标维度项以及对应目标维度项的维度项参数值信息以及维度项排序参数等作为指标异常归因的处理结果发送至终端设备12,并在终端设备12上的结果界面进行显示。
其中,当终端设备用户选择对应的业务后,可进入对应的请求界面,终端设备12上的请求界面可如图1b所示。在图1b中,用户可选择待分析指标,确定分析日期和参考日期,确定指标异常归因处理的任务名称,确定通知人、通知渠道等信息。其中,业务可理解为各种不同应用或者其他业务,如应用1、应用2,比如微信、手机QQ等。假设用户选择的业务为应用1,在图1b所对应的请求界面上选择的待分析指标为:发消息的人数,那么可理解为应用1发消息的人数;在请求界面上确定的分析日期为2020-7-24至2020-7-30,确定的参考日期为2020-7-17至2020-7-23;确定指标异常归因处理的任务名称为AA,并确定通知人以及通知渠道等信息,以方便将AA的指标异常归因处理结果通过所确定的通知渠道发送至通知人。在请求界面上设置完这些值后,触发“提交”按钮,如点击“提交”按钮,生成指标异常归因处理请求,并向电子设备11发送该指标异常归因处理请求。电子设备11接收到该指标异常归因处理请求后,进行一系列的处理以得到目标维度项。
在一些情况下,如图1b所示,终端设备用户可在请求界面上直接选择某一个看板,看板实现对某一个指标的数据进行展示,因此选择了某一个看板之后,获取该看板所对应的指标,将该指标作为待分析指标,并在请求界面上显示看板所对应的待分析指标。如此,以实现对已生成的看板进行维度归因,提升指标异常归因的处理效率。
需要注意的是,图1b仅是一个实例,并不构成对请求界面的限制。
图2是本申请实施例提供的数据处理方法流程示意图,该方法应用于电子设备中,该数据处理方法的具体流程可以如下:
101,获取待分析指标、以及分析日期和参考日期。
其中,获取待分析指标、以及分析日期和参考日期可以根据上图中的指标异常归因处理请求来进行获取,如获取指标异常归因处理请求中携带的业务标识、待分析指标标识、分析日期和参考日期;根据业务标识确定所对应的业务,根据待分析指标标识确定业务中的待分析指标。其中,需要注意的是,分析日期和参考日期可以是两个不同年月日时间所确定的时间范围,如2020-7-24至2020-7-30,也可以是两个相同年月日时间所确定的时间范围,如2020-7-24至2020-7-24,则表示从2020-7-24的凌晨0点开始到24点结束的时间范围,即对应一天的时间。
本申请实施例还可以直接通过指令的方式来确定业务所需分析的待分析指标、分析日期和参考日期等信息。还可以根据其他方式来获取待分析指标、以及分析日期和参考日期等信息。
102,获取待分析指标的归因维度,每个归因维度包括至少两个维度项。
每个指标都预先配置有对应的归因维度,将预先配置的归因维度保存,确定了待分析指标后,从预先配置的归因维度中确定待分析指标的归因维度。如假设待分析指标为:发消息的人数,那么预先配置的归因维度包括:年龄、性别、聊天类型、地域等维度信息。
每个维度包括至少两个维度项。如年龄维度包括:0~18,18~30,30~40,40~50,50以上等维度项;性别维度包括:男,女等维度项;聊天类型维度包括:群聊、单聊等维度项;地域维度包括东北地区、华南地区、珠三角地区等维度项。可以理解地,每个归因维度包括至少两个维度项。
获取了待分析指标的归因维度后,后续就可以对归因维度进行处理,以对待分析指标异常的原因进行定位。本申请实施例中将维度项的解释度或者维度的解释度(如维度项的解释度可使用后文中的贡献度来表示)记为Ei。对待分析指标异常的原因进行定位,通常通过下钻很多维度,确定维度所对应的每个维度项Ei的指标变化幅度是否和整体变化一致,如果一致则可能就是根因。由于下钻维度项的量很大,因此,本申请实施例中将对待分析指标异常的原因定位的问题简化为两个步骤:一,确定维度项波动较大的维度;二,在所确定的维度中确定波动较大的维度项Ei
首先,确定维度项波动较大的维度可通过对待分析指标的维度集合中的交叉维度项进行剪枝,再利用维度筛选参数,从剪枝后的维度集合中确定候选维度,以从待分析指标的维度集合中确定维度项波动较大的维度。
103,获取分析日期和参考日期中各维度项的剪枝参数。
根据上文中可知,一个维度对应多个维度项,每个维度项只有一个指标值。如业务:微信;维度:聊天类型;维度项:群聊、单聊;维度项的指标值:群聊发消息的人数,单聊发消息的人数。
设维度项的剪枝参数包括Xa、Xb、Ωa、Ωb,其中,Xa表示分析日期的维度指标值,即表示某一个维度项在分析日期的指标值,如在分析日期群聊对应的发消息的人数,Xb表示参考日期的维度指标值,如某一个维度项在参考日期的指标值,如在参考日期群聊对应的发消息的人数,Ωa表示分析日期的整体指标值(大盘指标值),如分析日期的微信整体发消息的人数,Ωb表示参考日期的整体指标值(大盘指标值),如在参考日期的微信整体发消息的人数。整体指标值指的是业务所对应的所有维度的指标值。
需要注意的是,若分析日期是两个不同年月日时间所确定的时间范围,则分析日期的维度指标值通过以下步骤确定:将该维度项在分析日期所对应的时间范围内的指标值进行平均,以得到平均值;将该平均值作为分析日期的维度指标值。参考日期的维度指标值也按照同样的方式进行确定。
其中,获取分析日期和参考日期中各维度项的剪枝参数的步骤,包括:获取分析日期和参考日期中的数据源;根据数据源确定分析日期和参考日期中各维度项的剪枝参数。具体地,按照所涉及的维度对数据源按照分析日期和参考日期进行统计处理,以得到各个维度的维度项数据以及大盘数据,如分析日期的维度指标值、参考日期的维度指标值、分析日期的大盘指标值、参考日期的大盘指标值等,将得到的各个维度的维度项数据以及大盘数据,作为分析日期和参考日期中各维度项的剪枝参数。其中,数据源中涉及的是基础数据,如对于应用1的发消息的人数来说,所获取的数据源中包括每个用户ID下的发消息的数量等数据。
104,根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,该维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成。
先确定待分析指标的维度集合。待分析指标的维度集合可通过如下方式确定:根据归因维度中的单一维度确定归因维度中的交叉维度;将单一维度和交叉维度作为待分析指标的维度集合。
其中,聊天类型、性别、地域等都为单一维度,根据单一维度确定归因维度中的交叉维度,其中,交叉维度是由至少两个不同归因维度组合形成。可以理解地,若单一维度包括:聊天类型、性别,交叉维度包括:聊天类型&性别。
确定待分析指标的维度集合后,确定维度集合中的维度项。其中,维度项包括单一维度项和交叉维度项,单一维度所对应的维度项为单一维度项,交叉维度所对应的维度项为交叉维度项。例如,“聊天类型”该单一维度所对应的单一维度项包括:群聊、单聊;“聊天类型&性别”该交叉维度的维度项包括:群聊和男性,理解为群聊男性的发消息的人数;群聊和女性,理解为群聊女性的发消息的人数;单聊和男性,理解为单聊男性的发消息的人数;单聊和女性,理解为单聊女性的发消息的人数。
使用交叉维度的好处是,交叉维度指标异常归因的归因结果更细分。拿性别和年龄来进行说明,如果是单一维度的话,那就是性别一个维度,年龄一个维度,如此,就没法得到到底是男性30岁的发消息的人数的变化,还是说男性十几岁的发消息的人数的变化。交叉维度使地指标异常的原因更加细分。
假设归因维度中的单一维度为A、B、C,则根据单一维度确定的交叉维度包括AB、AC、BC、ABC。则待分析指标的维度集合包括A、B、C、AB、AC、BC、ABC。
确定了待分析指标的维度集合以及维度集合中的维度项后,根据各维度项的剪枝参数,对待分析指标的维度项进行剪枝。具体地,根据各维度项的剪枝参数,对待分析指标的维度项进行剪枝的步骤,包括:根据各维度项的剪枝参数,确定各维度项的离析度值;根据离析度值,对待分析指标的交叉维度项进行剪枝。
其中,根据各维度项的剪枝参数,确定各维度项的离析度值的步骤,包括:获取预设离析度值计算公式;根据各维度项的剪枝参数,通过预设离析度计算公式,确定各维度项的离析度值。利用离析度值来解决交叉维度项的剪枝问题。
具体地,预设离析度值计算公式如公式(1)所示,某维度项X的离析度值用IP(X)来表示:
Figure BDA0002718510260000081
其中,
Figure BDA0002718510260000082
Figure BDA0002718510260000083
Xa为分析日期的维度指标值,Xb为参考日期的维度指标值,Ωa为分析日期的大盘指标值,Ωb为参考日期的大盘指标值。
确定了各维度项的离析度值后,根据离析度值,对待分析指标的交叉维度项进行剪枝。具体地,根据离析度值,对待分析指标的交叉维度项进行剪枝的步骤,包括:当交叉维度项的离析度值大于各单一维度项的离析度值时,则确定交叉维度项无需进行剪枝,保留交叉维度项,单维度项不做剪枝操作;当交叉维度项的离析度值不大于各单维度项的离析度值时,确定交叉维度项需进行剪枝,并对交叉维度项进行剪枝。其中,对交叉维度项进行剪枝,意味着将交叉维度项从维度集合中删除。
如交叉维度项A1B1的离析度值用IP(A1B1)来表示,单一维度项A1的离析度值用IP(A1)来表示,单一维度项B1的离析度值用IP(B1)来表示,交叉维度项的离析度值大于各单一维度项的离析度值,理解为:IP(A1B1)>IP(A1),且IP(A1B1)>IP(B1)。
对交叉维度项进行剪枝,一方面意味着在对指标异常归因的过程中,加入交叉维度项,以使得指标异常归因的归因结果更细分,使得指标异常归因的归因结果更准确;另一方面,降低处理的维度项的数量,当维度较多时仍能快速准确的得到归因结果,解决当维度较多时计算的复杂度呈指数级增长而导致的无法定位出归因结果的问题。下文中还将会进一步描述交叉维度剪枝的重要性。
105,基于维度筛选参数,从剪枝后的维度集合中确定候选维度。
具体地,步骤105,包括:确定分析日期和参考日期中各维度项的维度项参数值;根据维度项参数值确定维度筛选参数;根据维度筛选参数,从剪枝后的维度集合中确定候选维度。
其中,每个维度项分析日期和参考日期对应的维度项参数如表1所示。
表1每个维度项分析日期和参考日期对应的维度项参数
Figure BDA0002718510260000091
Figure BDA0002718510260000101
在应用1中,以操作系统、终端类型为交叉维度统计的每日活跃用户数为例进行说明。操作系统的维度项包括:安卓操作系统(android)、苹果操作系统(ios)或者其他操作系统。终端类型的维度项包括:客户端(Client)和PC端(PC)。对该交叉维度的交叉维度项进行剪枝后,只剩下3个交叉维度项。该3个交叉维度项统计的每日活跃用户如下表2所示。
表2应用1中以操作系统、终端类型为交叉维度统计的每日活跃用户数
操作系统 终端类型 观测值(2019-11-23) 参考值(2019-11-22)
android Client 58548 53320
ios Client 17418 15506
unknown PC 3780 4251
其中,该交叉维度项对应的维度项参数值的计算方式如下:
total观测值:58548+17418+3780=79746;
total参考值:53320+15506+4251=73077;
total变化值:58548+17418+3780-53320-15506-4251=6669;
total变化率:6669/73077=9.13%;
维度项观测值:58548(android),17418(ios),3780(PC);
维度项参考值:53320(android),15506(ios),4251(PC);
维度项观测值占比:58548/79746=73.42%(android),17418/79746=21.50%(ios),3780/79746=4.74%(PC);
维度项参考值占比:53320/73077=72.96%(android),15506/73077=21.22%(ios),4251/73077=5.82%(PC);
维度项变化值:5228(android),1912(ios),-471(PC);
维度项变化率:5228/53320=9.80%(android),15506/17418=12.33%(ios),-471/3780=-11.08%(PC);
维度项贡献度:5228/6669=78.39%(android),1912/6669=28.67%(ios),-471/6669=-7.06%(PC)。
针对简单可加性指标a(例如每日活跃用户数)出现异动的情况:cur(a)表示观测值,base(a)表示参考值,d=cur(a)-base(a),对于所有维度Ai(0<i<m)下的每个维度项Aij(0<j<=i(n))对大盘(整体)的波动贡献值,即维度项变化值,记为dij:dij=cur(aij)-base(aij),波动贡献百分比,即维度项贡献度rij=dij/(cur(ai)-base(ai))。
根据以上所对应的维度项参数计算方式确定各维度项所对应的维度项参数值。确定各维度项的维度项参数值后,根据维度项参数值确定维度筛选参数;根据维度筛选参数,从剪枝后的维度项集合中确定候选维度。
从剪枝后的维度集合中确定候选维度,以最终确定维度项波动较大的维度。本申请实施例中尝试了两种方法:基尼系数和散度。对应地,维度筛选参数包括基尼系数值和散度值。
先对基尼系数进行描述。基尼系数最初是经济学上用来评估贫富差距,即用来衡量一组序列内部的不均衡程度。基尼系数的原始应用场景如图3a所示,Yj-Yi表示任一两个样本之间的差值,n表示样本总数量,u为收入均值。初始的基尼系数公式如公式(2)所示:
Figure BDA0002718510260000111
其中,Yi表示分析日期的样本值,Yj表示参考日期的样本值,u表示所有样本分析日期和参考日期的均值,n表示样本总数量。以应用1的待分析指标:发消息的人数为例,若总共分析的用户数为100个,则样本指的是所分析的每个用户的信息,样本总数量即为100。在本申请实施例中,使用基尼系数来衡量一组序列内部的不均衡程度,即一个维度下的不同维度项的不均衡程度。
在实际应用过程中,使用公式(2)并不能较好的来衡量某一个维度的维度项的不均衡程度,或者理解为不能较好的来衡量某一个维度的维度项的波动程度。因此,为了适用现有场景将公式(2)进行了改进,以得到预设基尼系数计算公式,该预设基尼系数计算公式如公式(3)所示:
Figure BDA0002718510260000112
其中,G(y,x)表示基尼系数,N:base(M),表示大盘在参考日期的样本数,其中M指大盘样本数,Pi表示每个维度项的样本数,Y:{di/Pi|di为维度项Ai对大盘的波动贡献值(维度项变化值)},T+:对所有符号为正的Yj求sum(Yj*Pj),T-:对所有符号为负的Yj求abs(sum(Yj*Pj))。
具体地,根据维度项参数值确定维度筛选参数的步骤,包括:根据预设基尼系数计算公式和维度项参数值,确定剪枝后的维度集合中的各维度的基尼系数值,将基尼系数值确定为维度筛选参数。
将各维度的基尼系数值确定为维度筛选参数后,根据维度筛选参数,从剪枝后的维度集合中确定候选维度。具体地,按照基尼系数值从高到低的顺序排列,从剪枝后的维度集合中选取第一预设数量的基尼系数值高的维度作为候选维度。其中,第一预设数量可以为5等正整数。
以上根据基尼系数值从剪枝后的维度集合中确定候选维度,将候选维度作为维度项波动较大的维度。
此处将进一步描述交叉维度项剪枝的重要性。本申请实施例中先对维度集合中的维度项进行剪枝,然后再使用预设基尼系数计算公式来计算各维度的基尼系数值,将基尼系数值作为维度筛选参数,并根据维度筛选参数,从剪枝后的维度集合中确定候选维度,可提高指标异常归因的归因结果的效率和准确率。
假设先不对维度集合中的维度项进行剪枝,直接使用预设基尼系数计算公式来计算各维度的基尼系数值,将基尼系数值作为维度筛选参数。在该种情况下,当维度集合中的维度较少时,归因结果很符合预期,准确率很高。当维度较多时,包括单一维度以及各种交叉维度,维度集合中的维度项爆炸式增长,计算复杂度指数级增长,利用预设基尼系数计算公式导致无法计算出结果。因此,为了提高指标异常归因的归因结果的效率和准确率,先对维度集合中的维度项进行剪枝,以降低维度集合中的维度项,减少计算量,最后再从剪枝后的维度集合中确定维度项波动较大的维度。可以理解地,维度项波动不太的维度不会导致指标异常。
下面将对散度值进行描述,散度值可以用来衡量两个分布的差异。散度值包括第一散度值和第二散度值。其中,第一散度值为KL散度(Kullback-Leibler divergence),也称为相对熵;第二散度值为JS散度(Jensen-Shannondivergence)。
在指标异常归因的场景中,维度的波动程度相当于比较该维度分析日期和参考日期的分布差异。
在一种情况下,当利用KL散度来计算第一散度值时,具体可使用第一散度计算公式,如公式(4)所示:
Figure BDA0002718510260000121
其中,DKL(P||Q)表示分析日期和参考日期的KL散度值,即第一散度值,P(x)和Q(x)分别是分析日期和参考日期的占比分布,其中,占比分布指的是维度项的指标值与大盘指标值的占比,X表示一个维度下的所有维度项。
具体地,根据维度参数值确定维度筛选参数的步骤,包括:根据第一散度计算公式和维度参数值,确定剪枝后的维度集合中的各维度的第一散度值,将第一散度值确定为维度筛选参数。
将各维度的第一散度值确定为维度筛选参数后,根据维度筛选参数,从剪枝后的维度集合中确定候选维度。具体地,按照第一散度值从高到低的顺序排列,从剪枝后的维度集合中选取第一预设数量的第一散度值高的维度作为候选维度。
在一种情况下,当使用JS散度来计算第二散度值时,具体可使用第二散度计算公式,如公式(5)所示:
Figure BDA0002718510260000131
其中,DJS(P||Q)表示分析日期和参考日期的JS散度值,即第二散度值,P(x)和Q(x)分别是分析日期和参考日期的占比分布,其中,占比分布指的是维度项的指标值与大盘指标值的占比,X表示一个维度下的所有维度项。
具体地,根据维度项参数值确定维度筛选参数的步骤,包括:根据第二散度计算公式和维度项参数值,确定剪枝后的维度集合中的各维度的第二散度值,将第二散度值确定为维度筛选参数。
将各维度的第二散度值确定为维度筛选参数后,根据维度筛选参数,从剪枝后的维度集合中确定候选维度。具体地,按照第二散度值从高到低的顺序排列,从剪枝后的维度集合中选取第一预设数量的第二散度值高的维度作为候选维度。
以上涉及根据散度值从剪枝后的维度集合中确定候选维度,将候选维度作为维度项波动较大的维度。
此处将进一步描述交叉维度剪枝的重要性。以第二散度值即JS散度值为例进行说明。JS散度在单一维度上能很好的选择波动较大的维度,但在交叉维度上,有一些缺陷,如果根因在某个单一维度,那与该单一维度交叉的交叉维度对应的JS散度值一定大于该单一维度的JS散度值,然而该交叉维度不是根因。
如图3b所示为本申请实施例提供的三个不同维度的每个维度项的JS散度值。其中,三个不同维度分别为:启动方式、是否搜索、启动方式和是否搜索,其中,启动方式、是否搜索为单一维度,启动方式和是否搜索为交叉维度。在图3b中,纵轴表示维度项的JS散度值,白色圆圈对应的是“启动方式”的维度项,灰色圆圈对应的是“是否搜索”的维度项,黑色圆圈对应的是“启动方式和是否搜索”的维度项。从图中可以看出,白色圆圈对应的维度项的JS散度值非常低,肯定不是根因,灰色圆圈对应的维度项的JS散度值较高,可能是根因,黑色圆圈对应的维度项较多且同时包含了根因信息,所以黑色圆圈所对应的维度的总JS散度值必然高于灰色圆圈所对应的总JS散度值,因此,根据JS散度值的方式会将黑色圆圈所对应的维度也作为候选维度,但实际上该黑色圆圈所对应的维度并不是候选维度,导致归因结果混入不符合预期的维度。
使用离析度值来对交叉维度进行剪枝,则会把这种情况利用离析度值剪枝掉,如对于图3b中的情况,利用离析度值剪枝,则黑色圆圈所对应的维度会被剪枝掉,如此,避免直接使用JS散度值的方式导致归因结果不符合预期的情况,提高数据异常归因处理的准确率。
以上步骤104和步骤105先对维度集合中的交叉维度进行剪枝,然后在利用维度筛选参数,从剪枝后的维度集合中确定候选维度,以将候选维度确定为维度项波动较大的维度。确定了维度项波动较大的维度后,在维度中确定波动较大的维度项Ei
106,基于候选维度中的维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
具体地,步骤106,包括:确定分析日期和参考日期中各维度项的维度项参数值;根据维度项参数值确定候选维度的维度项排序参数;根据维度项排序参数,从候选维度的维度项中确定目标维度项。
确定维度项的维度项参数值可以如上文中的所述的方式进行,其中,维度项参数值包括某一个维度项在分析日期的指标值,参考日期的指标值,分析日期的大盘指标值,参考日期的整体指标值等。
在一种情况下,根据维度项参数值确定候选维度的的维度项排序参数的步骤,包括:根据维度项参数值确定候选维度中的维度项的贡献度;将贡献度作为候选维度的维度项排序参数。
假设应用1中某维度D下的维度项D(i),对应的分析日期的指标值为Dai,参考日期的指标值为Dbi,分析日期的大盘指标值为Ta和参考日期的大盘指标值为Tb,则贡献度使用公式(6)来计算:
G=(Dai-Dbi)/(Ta-Tb) (6)
将贡献度作为候选维度的维度项排序参数后,根据维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。具体地,按照贡献度值从高到低的顺序排列,从候选维度的维度项中选取第二预设数量的贡献度值高的维度项作为目标维度项。其中,第二预设数量可以为5等正整数。
在一种情况下,根据维度项参数值确定候选维度的的维度项排序参数的步骤,包括:根据维度项参数值确定候选维度中的维度项的渗透率;将渗透率作为候选维度的维度项排序参数。
其中,渗透率为某一维度项的指标值与大盘指标值的占比。如男性发消息的人数与整体发消息的人数的占比即为渗透率。
将渗透率作为候选维度的维度项排序参数后,根据维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。具体地,按照渗透率值从高到低的顺序排列,从候选维度的维度项中选取第二预设数量的渗透率高的维度项作为目标维度项。
还可以使用其他的方式来确定候选维度的维度项排序参数,并根据维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。从候选维度的维度项中确定待分析指标的目标维度项,以从波动较大的维度中选择波动较大的目标维度项,将目标维度项作为指标异常归因的归因结果。归因结果中除了包括目标维度项外,还可以包括目标维度项所对应的异动维度、目标维度项的维度项参数值、维度项排序参数等信息。
该方法实施例通过确定待分析指标的维度集合中的维度项,该维度集合中的维度项包括单一维度项和交叉维度项,根据获取的分析日期和参考日期中各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,如此,一方面,在对指标异常归因的过程中,加入交叉维度项,以使地指标异常归因的归因结果更细分,使地指标异常归因的归因结果更准确;另一方面,根据剪枝参数对待分析的维度集合中的维度项进行剪枝,降低处理的维度项的数量,且当维度较多时仍能快速准确的得到归因结果。对维度集合中的维度项进行剪枝后,基于维度筛选系数,从剪枝后的维度集合中确定候选维度,以从剪枝后的维度集合中筛选出维度项波动较大的维度,将维度项波动较大的维度确定为候选维度;确定候选维度之后,基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项,以从波动较大的维度中确定目标维度项。本申请实施例可以实现交叉维度的剪枝问题,且当维度较多时仍能快速准确处理得到归因结果,提高数据异常归因处理的效率和准确率。
图4a是本申请实施例提供的数据处理方法的流程示意图,如图4a所示,数据处理方法的流程包括:获取数据源;将数据源进行数据转化,以得到各个维度的维度项数据和大盘数据,再对转化后得到的维度项数据和大盘数据进行异常数据检测和异常数据处理,以去除异常数据;对去除异常数据后的维度项数据进行智能归因的处理;将智能归因的处理结果显示在前端UI(User Interface,用户界面)上,如结果界面。
其中,数据源中涉及的是基础数据,如对于应用1的发消息的人数来说,所获取的数据源中包括每个用户ID下的发消息的数量等数据。其中,可通过集群导入数据源、或者通过SDK(Software Development Kit,软件开发工具包)的方式导入数据源等。
导入的数据源中包括每个用户ID下的发消息的数量等数据,如总共用户为1万,样本总数量即为1万,每个用户的数据为一个样本。数据源中的数据一般情况下是不能直接使用的,需要对数据源进行数据转化以便于可进行维度归因。如可按照所涉及的维度对数据源进行统计处理,以得到各个维度的维度项数据以及大盘数据。例如,统计所有发消息的人数、男性发消息的人数、女性发消息的人数;所有地域发消息的人数、每个不同地域发消息的人数;所有年龄段发消息的人数、每个不同年龄段发消息的人数等。
对转换后得到的维度项数据和大盘数据进行异常数据检测和异常数据处理。异常数据检测包括长尾数据检测、无效的维度数据检测等。其中,长尾数据包括维度项数据和大盘数据中的非常小的数据,如省1的发消息的人数为10000,省2发消息的人数为9800,省3发消息的人数为100,则将省3的数据确定为长尾数据。无效的维度数据包括明显异常的数据,如大盘数据中发消息的人数为100,男性发消息的人数为50,女性发消息的人数为50,则男女比例正常,对应的数据正常;若大盘数据中发消息的人数为100,男性发消息的人数为99,女性发消息的人数为1,则男女比例严重失调,数据明显异常,确定为无效的维度数据。确定了异常数据后,将异常数据进行删除/过滤。需要注意的是,上文中的长尾数据和无效的维度数据只是为了举例说明而已。异常数据还包括其他类型的异常数据。
对去除异常数据后的维度项数据进行智能归因的处理,包括:获取待分析指标、分析日期和参考日期,获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;获取分析日期和参考日期中各维度项的剪枝参数;根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,该维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成;基于维度筛选参数,从剪枝后的维度集合中确定候选维度;基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。将目标维度项作为指标异常归因的归因结果。归因结果中除了包括目标维度项外,还可以包括目标维度项所对应的异动维度、目标维度项的维度项参数值、维度项排序参数等信息。具体地,进行智能归因的处理请参看上文中的对应描述。
得到智能归因的归因结果之后,将归因结果显示在结果界面上,以方便用户进行查看。如图4b所示,结果界面上包括上述的待分析指标,分析日期,参考日期,目标维度项,目标维度项所对应的异动维度,目标维度项的贡献率(异动影响程度)、目标维度项的维度项变化值和维度项变化率等数据。
图5是本申请实施例提供的数据处理方法的另一流程示意图,该方法应用于电子设备中,该方法的具体流程包括如下步骤:
201,获取指标异常归因处理请求,该指标异常归因处理请求中携带业务标识、看板标识、待分析指标标识、分析日期和参考日期。
业务标识理解为业务ID,如应用1、应用2的ID等;看板标识理解为看板ID,如看板1、看板2等;待分析指标标识理解为待分析指标的ID等。根据业务ID可确定具体业务,根据看板ID可确定待分析指标ID,根据待分析指标ID可确定待分析指标。
202,检测缓存中是否存在指标异常归因处理请求所对应的处理结果。
若缓存中存在指标异常归因处理请求所对应的处理结果,则执行步骤203,以将缓存中的处理结果返回;若缓存中不存在指标异常归因处理请求所对应的处理结果,执行步骤204。
203,返回处理结果。即向终端设备发送指标异常归因处理请求所对应的处理结果。
204,根据指标异常归因处理请求确定待分析指标。
205,获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项。
206,根据归因维度生成单一维度和交叉维度的维度集合,并确定维度集合中的维度项。
具体地,根据归因维度中的单一维度项确定归因维度项中的交叉维度;将单一维度和交叉维度作为待分析指标的维度集合;并确定维度集合的维度项。其中,单一维度的维度项为单一维度项,交叉维度的维度项为交叉维度项。
207,获取分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值。
具体地,包括分析日期的维度指标值、参考日期的维度指标值、分析日期的大盘指标值、参考日期的大盘指标值等。需要注意的是,若分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值为空,则返回异常。
以上步骤201~步骤206可简单理解为数据处理方法中的数据准备流程。数据准备完毕后,后续将进行数据处理流程。
208,对所获取的分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值进行异常数据处理。
其中,异常数据处理通常包括长尾数据和无效的维度数据的异常处理等。首先检测异常数据,并对异常数据进行删除/过滤,以降低异常数据对指标异常归因的处理结果的影响。
209,检测进行异常数据处理后的维度数量是否为零。
若进行异常数据处理后的维度数量为0,则执行步骤210,以返回异常;若进行异常数据处理后的维度数量不为0,执行步骤211。
210,返回异常。即向终端设备发送异常提醒。
211,根据分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值,确定分析日期和参考日期中各维度项的维度项参数值。
212,根据分析日期和参看日期中各维度项的剪枝参数,确定各维度项的离析度值;并根据离析度值,对待分析指标的维度结合中的维度项进行剪枝。
213,根据各维度项的维度项参数值确定JS散度值,根据JS散度值,从剪枝后的维度集合中确定候选维度。
214,根据各维度项的维度项参数值确定贡献度,根据贡献度,从候选维度的维度项中确定待分析指标的目标维度项。
215,向终端设备发送目标维度项、目标维度项所属的异动维度、目标维度项的JS散度值、贡献度等指标异常归因的处理结果。
该实施例的步骤中与上文中的步骤一致的请参看上文中对应的描述,在此不再赘述。
该实施例涉及指标异常归因处理的数据准备流程和数据处理流程(智能归因流程),以便于理解本申请实施例中的方案。本申请实施例可以实现交叉维度的剪枝问题,且当维度较多时仍能快速准确处理得到归因结果,提高数据异常归因处理的效率和准确率。
根据上述实施例所描述的方法,本实施例将从数据处理装置的角度进一步进行描述,该数据处理装置具体可以作为独立的实体来实现,也可以集成在电子设备中来实现。
如图6所示,该数据处理装置包括第一获取单元301、第二获取单元302、第三获取单元303、剪枝单元304、候选确定单元305以及目标确定单元306。
第一获取单元301,用于获取待分析指标、以及分析日期和参考日期。
第二获取单元302,用于获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项。
第三获取单元303,用于获取分析日期和参考日期中各维度项的剪枝参数。
剪枝单元304,用于根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,该维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成。
其中,剪枝单元304,具体用于根据归因维度中的单一维度确定归因维度中的交叉维度;将单一维度和交叉维度作为待分析指标的维度集合;确定维度集合中的维度项;根据各维度项的剪枝参数,对待分析指标的维度项进行剪枝。
剪枝单元304在执行根据各维度项的剪枝参数,对待分析指标的维度项进行剪枝的步骤时,具体执行:根据各维度项的剪枝参数,确定各维度项的离析度值;根据离析度值,对待分析指标的交叉维度项进行剪枝。
剪枝单元304在执行根据各维度项的剪枝参数,确定各维度项的离析度值的步骤时,具体执行:获取预设离析度值计算公式;根据各维度项的剪枝参数,通过预设离析度计算公式,确定各维度项的离析度值。
剪枝单元304在执行根据离析度值,对待分析指标的交叉维度项进行剪枝的步骤时,具体执行:当交叉维度项的离析度值大于交叉维度项中各单一维度项的离析度值时,确定交叉维度项无需进行剪枝;当交叉维度项的离析度值不大于交叉维度项中各单一维度项的离析度值时,确定交叉维度项需进行剪枝,并对交叉维度项进行剪枝。
候选确定单元305,用于基于维度筛选参数,从剪枝后的维度集合中确定候选维度。
候选确定单元305,具体用于确定分析日期和参考日期中各维度项的维度项参数值;根据各维度项的维度项参数值确定维度筛选参数;根据维度筛选参数,从剪枝后的维度集合中确定候选维度。
候选确定单元305在执行根据各维度项的维度项参数值确定维度筛选参数的步骤时,具体执行:根据各维度项的维度项参数值,确定剪枝后的维度集合中的各维度的散度值;将散度值确定为维度筛选参数。
候选确定单元305在执行根据各维度项的维度项参数值确定维度筛选参数的步骤时,具体执行:根据预设基尼系数计算公式和各维度项的维度项参数值,确定剪枝后的维度集合中的各维度的基尼系数值,预设基尼系数计算公式是在初始基尼系数计算公式的基础上进行改进得到的;将基尼系数值确定为维度筛选参数。
目标确定单元306,用于基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
目标确定单元306,具体用于确定分析日期和参考日期中各维度项的维度项参数值;根据各维度项的维度项参数值确定候选维度的维度项排序参数;根据维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
目标确定单元306在执行根据各维度项的维度项参数值确定候选维度的维度项排序参数时,具体执行:根据维度项参数值确定候选维度的维度项的贡献度;将贡献度作为候选维度的维度项排序参数。
目标确定单元306在执行根据各维度项的维度项参数值确定候选维度的维度项排序参数时,具体执行:根据维度项参数值确定候选维度的维度项的渗透率;将渗透率作为候选维度的维度项排序参数。
在一实施例中,该数据处理装置还包括检测单元、异常处理单元、参数确定单元。其中,
第一获取单元,还用于获取指标异常归因处理请求,该指标异常归因处理请求中携带业务标识、看板标识、待分析指标标识、分析日期和参考日期。
检测单元,用于检测缓存中是否存在指标异常归因处理请求所对应的处理结果。
第一获取单元,还用于若缓存中不存在指标异常归因处理请求所对应的处理结果,根据指标异常归因处理请求确定待分析指标。
第三获取单元,还用于获取分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值。
异常处理单元,用于对所获取的分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值进行异常数据处理。
检测单元,还用于检测进行异常数据处理后的维度数量是否为零。在检测进行异常数据处理后的维度数量是否不为零时,触发参数确定单元,以根据分析日期的大盘指标值和维度指标值,参考日期的大盘指标值和维度指标值,确定分析日期和参考日期中各维度项的维度项参数值。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。以上装置和各单元的具体实现过程,以及所达到的有益效果,可以参考前述应用于电子设备中的方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
本申请实施例还提供一种电子设备,如图7所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、射频(Radio Frequency,RF)电路703、电源704、输入单元705、以及显示单元706等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器702内的软件程序(计算机程序)和/或模块,以及调用存储在存储器702内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
RF电路703可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器701处理;另外,将涉及上行的数据发送给基站。通常,RF电路703包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路703还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
电子设备还包括给各个部件供电的电源704(比如电池),优选的,电源704可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源704还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元705,该输入单元705可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元705可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器701,并能接收处理器701发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元705还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该电子设备还可包括显示单元706,该显示单元706可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元706可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器701以确定触摸事件的类型,随后处理器701根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:
获取待分析指标、以及分析日期和参考日期;获取待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;获取分析日期和参考日期中各维度项的剪枝参数;根据各维度项的剪枝参数,对待分析指标的维度集合中的维度项进行剪枝,维度集合中的维度项包括单一维度项和交叉维度项,交叉维度项由属于不同归因维度的单一维度项组合形成;基于维度筛选参数,从剪枝后的维度集合中确定候选维度;基于维度项排序参数,从候选维度的维度项中确定待分析指标的目标维度项。
该电子设备可以实现本申请实施例所提供的应用于电子设备中的数据处理方法任一实施例中的步骤,因此,可以实现本申请实施例所提供的应用于电子设备中的任一数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的应用于电子设备中的数据处理方法中任一实施例的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一数据处理方法实施例中的步骤,因此,可以实现本发明实施例所提供的任一数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据处理方法、装置、电子设备以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待分析指标、以及分析日期和参考日期;
获取所述待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;
获取所述分析日期和所述参考日期中各维度项的剪枝参数;
根据所述各维度项的剪枝参数,对所述待分析指标的维度集合中的维度项进行剪枝,所述维度集合中的维度项包括单一维度项和交叉维度项,所述交叉维度项由属于不同归因维度的单一维度项组合形成;
基于维度筛选参数,从剪枝后的维度集合中确定候选维度;
基于维度项排序参数,从所述候选维度的维度项中确定所述待分析指标的目标维度项。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述各维度项的剪枝参数,对所述待分析指标的维度集合中的维度项进行剪枝的步骤,包括:
根据所述归因维度中的单一维度确定所述归因维度中的交叉维度;
将所述单一维度和所述交叉维度作为所述待分析指标的维度集合;
确定所述维度集合中的维度项;
根据所述各维度项的剪枝参数,对所述待分析指标的所述维度项进行剪枝。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述各维度项的剪枝参数,对所述待分析指标的所述维度项进行剪枝的步骤,包括:
根据所述各维度项的剪枝参数,确定所述各维度项的离析度值;
根据所述离析度值,对所述待分析指标的交叉维度项进行剪枝。
4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述离析度值,对所述待分析指标的交叉维度项进行剪枝的步骤,包括:
当所述交叉维度项的离析度值大于所述交叉维度项中各单一维度项的离析度值时,确定所述交叉维度项无需进行剪枝;
当所述交叉维度项的离析度值不大于所述交叉维度项中各单一维度项的离析度值时,确定所述交叉维度项需进行剪枝,并对所述交叉维度项进行剪枝。
5.根据权利要求1所述的数据处理方法,其特征在于,所述基于维度筛选参数,从剪枝后的维度集合中确定候选维度的步骤,包括:
确定所述分析日期和所述参考日期中各维度项的维度项参数值;
根据所述各维度项的维度项参数值确定维度筛选参数;
根据所述维度筛选参数,从剪枝后的维度集合中确定候选维度。
6.根据权利要求5所述的数据处理方法,其特征在于,所述根据所述各维度项的维度项参数值确定维度筛选参数的步骤,包括:
根据所述各维度项的维度项参数值,确定剪枝后的维度集合中的各维度的散度值;
将所述散度值确定为所述维度筛选参数。
7.根据权利要求5所述的数据处理方法,其特征在于,所述根据所述各维度项的维度项参数值确定维度筛选参数的步骤,包括:
根据预设基尼系数计算公式和所述各维度项的维度项参数值,确定剪枝后的维度集合中的各维度的基尼系数值,所述预设基尼系数计算公式是在初始基尼系数计算公式的基础上进行改进得到的;
将所述基尼系数值确定为所述维度筛选参数。
8.根据权利要求1所述的数据处理方法,其特征在于,所述基于维度项排序参数,从所述候选维度的维度项中确定所述待分析指标的目标维度项的步骤,包括:
确定所述分析日期和所述参考日期中各维度项的维度项参数值;
根据所述各维度项的维度项参数值确定候选维度的维度项排序参数;
根据所述维度项排序参数,从所述候选维度的维度项中确定所述待分析指标的目标维度项。
9.根据权利要求8所述的数据处理方法,其特征在于,所述根据所述各维度项的维度项参数值确定候选维度的维度项排序参数的步骤,包括:
根据所述维度项参数值确定所述候选维度的维度项的贡献度;
将所述贡献度作为候选维度的维度项排序参数。
10.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取待分析指标、以及分析日期和参考日期;
第二获取单元,用于获取所述待分析指标的至少两个归因维度,各归因维度包括至少两个单一维度项;
第三获取单元,用于获取所述分析日期和所述参考日期中各维度项的剪枝参数;
剪枝单元,用于根据所述各维度项的剪枝参数,对所述待分析指标的维度集合中的维度项进行剪枝,所述维度集合中的维度项包括单一维度项和交叉维度项,所述交叉维度项由属于不同归因维度的单一维度项组合形成;
候选确定单元,用于基于维度筛选参数,从剪枝后的维度集合中确定候选维度;
目标确定单元,用于基于维度项排序参数,从所述候选维度的维度项中确定所述待分析指标的目标维度项。
CN202011080605.8A 2020-10-10 2020-10-10 一种数据处理方法和装置 Pending CN113537685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011080605.8A CN113537685A (zh) 2020-10-10 2020-10-10 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011080605.8A CN113537685A (zh) 2020-10-10 2020-10-10 一种数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN113537685A true CN113537685A (zh) 2021-10-22

Family

ID=78094290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011080605.8A Pending CN113537685A (zh) 2020-10-10 2020-10-10 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113537685A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022051A (zh) * 2021-12-31 2022-02-08 阿里云计算有限公司 一种指标波动分析方法,存储介质和电子设备
CN114547133A (zh) * 2022-01-17 2022-05-27 北京元年科技股份有限公司 基于多维数据集的对话式归因分析方法、装置及设备
CN117407444A (zh) * 2023-12-14 2024-01-16 厦门她趣信息技术有限公司 一种基于维度推荐的异动归因系统和方法及其设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022051A (zh) * 2021-12-31 2022-02-08 阿里云计算有限公司 一种指标波动分析方法,存储介质和电子设备
CN114547133A (zh) * 2022-01-17 2022-05-27 北京元年科技股份有限公司 基于多维数据集的对话式归因分析方法、装置及设备
CN117407444A (zh) * 2023-12-14 2024-01-16 厦门她趣信息技术有限公司 一种基于维度推荐的异动归因系统和方法及其设备和介质
CN117407444B (zh) * 2023-12-14 2024-03-12 厦门她趣信息技术有限公司 一种基于维度推荐的异动归因系统和方法及其设备和介质

Similar Documents

Publication Publication Date Title
CN106250837B (zh) 一种视频的识别方法、装置和系统
CN111339327B (zh) 作品推荐方法及装置、服务器和存储介质
CN113537685A (zh) 一种数据处理方法和装置
EP3467752A1 (en) Method, apparatus and system for delivering promotion information, and storage medium
US20120130940A1 (en) Real-time analytics of streaming data
CN108334887A (zh) 一种用户选取方法和装置
CN104572889A (zh) 一种搜索词推荐方法、装置和系统
CN111125523B (zh) 搜索方法、装置、终端设备及存储介质
CN108470253A (zh) 一种用户识别方法、装置及存储设备
CN110263939A (zh) 一种表示学习模型的评估方法、装置、设备及介质
WO2014169661A1 (en) Method and system for processing report information
CN112540996B (zh) 一种业务数据的校验方法、装置、电子设备及存储介质
CN110019825A (zh) 一种分析数据语义的方法及装置
US20190223141A1 (en) Device positioning method and apparatus
CN111090877B (zh) 数据生成、获取方法及对应的装置、存储介质
CN106294087B (zh) 一种对业务执行操作的操作频率的统计方法及装置
CN106156246B (zh) 一种公众号的查询方法、装置和系统
CN108616637B (zh) 信息处理方法和装置、电子设备、计算机可读存储介质
CN108632054B (zh) 信息传播量的预测方法及装置
CN114840565A (zh) 抽样查询方法、装置、电子设备及计算机可读存储介质
CN109544241A (zh) 一种点击率预估模型的构建方法、点击率预估方法和装置
CN112862289B (zh) 一种临床研究从业者的信息匹配方法和装置
CN106060021B (zh) 一种电子邮件识别方法、装置和系统
CN115330522A (zh) 基于聚类的信用卡审批方法、装置、电子设备和介质
CN112801837B (zh) 设备聚类方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053603

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination