CN114331227B - 数据分析的方法、装置、电子设备和可读介质 - Google Patents

数据分析的方法、装置、电子设备和可读介质 Download PDF

Info

Publication number
CN114331227B
CN114331227B CN202210218613.7A CN202210218613A CN114331227B CN 114331227 B CN114331227 B CN 114331227B CN 202210218613 A CN202210218613 A CN 202210218613A CN 114331227 B CN114331227 B CN 114331227B
Authority
CN
China
Prior art keywords
service
sequence
matrix
sequences
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210218613.7A
Other languages
English (en)
Other versions
CN114331227A (zh
Inventor
钟子宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210218613.7A priority Critical patent/CN114331227B/zh
Publication of CN114331227A publication Critical patent/CN114331227A/zh
Application granted granted Critical
Publication of CN114331227B publication Critical patent/CN114331227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据分析的方法、装置、电子设备和可读介质。该方法包括:获取M个业务特征序列和N个业务指标序列,M和N为大于或等于1的整数;根据M个业务特征序列和N个业务指标序列生成归因概率矩阵,归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;根据归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定M个业务特征序列对于每个业务指标序列的特征排序;根据M个业务特征序列对于各个业务指标序列的特征排序,分析M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。本申请实施例的技术方案可以降低数据分析方案的人力成本,提高了数据分析方案的整体效率。

Description

数据分析的方法、装置、电子设备和可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据分析的方法、装置、电子设备和可读介质。
背景技术
随着计算机技术的快速发展,越来越多的业务和服务转移到互联网上办理或者利用计算机来进行办理。在服务过程中会积累大量业务相关的数据,如何对积累下的数据进行分析来获取业务相关的信息成为热门方向。
在相关技术中,对业务数据进行分析的方法会采用机器学习模型进行,利用专家标注好的数据来对机器模型进行训练,再利用训练好的机器模型来进行数据分析。
然而,上述的方式需要专家对大量数据进行分析和标注以用于训练,才能得到准确的机器模型,因此需要投入的人力较多,因此提高方案的人工成本,影响方案的整体效率。
发明内容
基于上述技术问题,本申请提供一种数据分析的方法、装置、电子设备和可读介质,可以降低数据分析方案的人力成本,提高数据分析方案的整体效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据分析方法,包括:
获取M个业务特征序列和N个业务指标序列,所述M和N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的;
根据所述M个业务特征序列和所述N个业务指标序列生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;
根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序;
根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
根据本申请实施例的一个方面,提供一种数据分析装置,包括:
序列获取模块,用于获取M个业务特征序列和N个业务指标序列,所述M和N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的;
概率计算模块,用于根据所述M个业务特征序列和所述N个业务指标序列生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;
特征排序模块,用于根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序;
影响分析模块,用于根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
在本申请的一些实施例中,基于以上技术方案,影响分析模块包括:
特征序列确定子模块,用于对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列;
归因矩阵重算子模块,用于根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵;
分析结果确定子模块,用于根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果。
在本申请的一些实施例中,基于以上技术方案,所述M个业务特征序列和所述N个业务指标序列为第T个时间周期中收集的数据,T为大于1的整数;分析结果确定子模块包括:
历史矩阵获取单元,用于从区块链中获取历史归因矩阵,所述历史归因矩阵是根据所述M个业务特征序列和所述N个业务指标序列在第T-1个时间周期中对应的历史数据生成的;
概率修正单元,用于根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵;
打包上链单元,用于将所述修正归因矩阵和所述历史修正矩阵确定为数据分析结果并在所述区块链中打包上链。
在本申请的一些实施例中,基于以上技术方案,概率修正单元包括:
修正概率确定子单元,用于根据所述修正归因矩阵中所述M个业务特征序列对所述N个业务指标序列的影响,确定修正概率;
修正子单元,用于根据所述修正概率对所述历史归因矩阵中的对应概率进行概率修正,得到历史修正矩阵。
在本申请的一些实施例中,基于以上技术方案,特征序列确定子模块包括:
特征分析单元,用于按照每个业务指标序列对应的所述特征排序依次分析各个业务特征序列对每个业务指标序列的影响;
分析结果确定单元,用于对于每个业务指标序列,若存在业务特征序列的影响满足归因分析条件,则将满足所述归因分析条件的业务特征序列确定为对所述业务指标序列产生影响的业务特征序列,得到对所述N个业务指标序列产生影响的N个业务特征序列。
在本申请的一些实施例中,基于以上技术方案,归因矩阵重算子模块包括:
变化序列确定单元,用于根据所确定的产生影响的业务特征序列,生成特征影响序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
变化矩阵确定单元,用于根据所确定的产生影响的业务特征序列和所述N个业务指标序列,生成指标影响矩阵,所述指标影响矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化情况与对应的业务特征序列的变化情况之间的对应关系;
概率计算单元,用于根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成修正归因矩阵。
在本申请的一些实施例中,基于以上技术方案,每个业务特征序列中包含多个业务特征值;概率计算模块包括:
特征序列确定单元,用于根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
变化矩阵确定单元,用于根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,所述指标变化矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系;
概率计算单元,用于根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成所述归因概率矩阵。
在本申请的一些实施例中,基于以上技术方案,特征序列确定单元包括:
第一比例计算子单元,用于分别计算各个业务特征序列的业务特征值发生变化的次数与所述M个业务特征序列所包含的业务特征值的总数之间的比例,得到M个比例值;
变化序列构建子单元,用于将所述M个比例值作为序列元素,构建所述特征变化序列;
在本申请的一些实施例中,基于以上技术方案,每个业务指标序列中包含多个指标值;变化矩阵确定单元包括:
第二比例计算子单元,用于分别计算各个业务指标序列的指标值与所述业务特征值同时变化的次数与所述M个业务特征序列所包含业务特征值的总数之间的比例,得到M×N个比例值;
变化矩阵构建子单元,用于将所述M×N个比例值作为矩阵元素,构建所述指标变化矩阵。
在本申请的一些实施例中,基于以上技术方案,概率计算单元包括:
模型构建子单元,用于根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型;
概率矩阵计算子单元,用于将所述指标变化矩阵中的M×N个元素和所述特征变化序列的M个元素中的对应元素分别输入到所述归因分析概率模型中进行计算,得到M×N个结果,将所述M×N个结果作为矩阵元素,构成所述归因概率矩阵。
在本申请的一些实施例中,基于以上技术方案,所述方法应用于车联网;序列获取模块包括:
数据获取单元,用于从所述车联网中获取业务数据和系统数据,所述业务数据为所述车联网提供的服务业务的日志数据,所述系统数据为所述车联网运行记录的日志数据;
特征提取单元,用于对所述业务数据和所述系统数据进行特征提取,得到M个业务特征序列;
数据统计单元,用于根据预设的业务指标对所述业务数据和所述系统数据进行数据统计,得到N个业务指标序列。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的数据分析方法。
根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的数据分析方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的数据分析方法。
在本申请的实施例中,首先通过业务特征序列和业务指标序列进行概率计算来构建归因概率矩阵,归因概率矩阵中的每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率,随后根据归因概率矩阵中对应的元素,对于每个业务指标序列确定各个业务特征序列的特征排序,在根据所确定的特征排序,分析各个业务特征序列对业务指标序列的影响,得到数据分析结果。由于在进行数据分析的过程中,利用构建出归因概率矩阵来确定特征排序,再按照特征排序的顺序进行分析特征对指标的影响,使得整个数据分析的过程基于原始的数据进行,免去了专家对数据进行分析和标注的过程,从而降低了数据分析方案的人力成本,提高了数据分析方案的整体效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一个实施环境的示意图。
图2为本申请实施例中应用在车联网中的整体方案的示意流程图。
图3为本申请实施例中一种数据分析方法的示意流程图。
图4为图3所示实施例中步骤S340在一示例性实施例中的示意流程图。
图5为图4所示实施例中步骤S430在一示例性实施例中的示意流程图。
图6为本申请实施例中构建历史修正矩阵的示意性顺序图。
图7为图5所示实施例中步骤S520在一示例性实施例中的示意流程图。
图8为图4所示实施例中步骤S410在一示例性实施例中的示意流程图。
图9为图4所示实施例中步骤S420在一示例性实施例中的示意流程图。
图10为图9所示实施例中步骤S910在一示例性实施例中的示意流程图。
图11为图9所示实施例中步骤S920在一示例性实施例中的示意流程图。
图12为图9所示实施例中步骤S930在一示例性实施例中的示意流程图。
图13为图3所示实施例中步骤S310在一示例性实施例中的示意流程图。
图14示意性地示出了本申请实施例中数据分析装置的组成框图。
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,本申请中的数据分析方法可以应用于基于数据进行归因分析的场景中,并且具体可以应用在车联网中的优惠加油、出行服务运行活动的场景和产品中。以优惠加油为例,连接车联网的车辆在日常行驶和加油的过程中会积累大量的行驶数据和加油数据,而在不同时间,例如加油站等商家在推出不同的加油优惠策略时或者油价即将上涨时,车主们的加油行为也会与常规的方式有所不同,而也会导致加油相关的各项数据发生变化,例如销量的变化或者用户数量的变化等。通过本申请的方案,可以基于车辆网中收集到的车辆相关数据的特征数据,分析出优惠加油业务相关的指标受到哪些数据特征的影响,从而能够对经营变化产生的原因进行分析和相对应的调整。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
车联网的概念源于物联网,即车辆物联网,是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与车、人、路、服务平台等之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,同时提高交通运行效率,提升社会交通服务的智能化水平。
本申请的方案还可以与区块链技术相结合,通过将生成的数据分析结果上传到区块链上进行保存来建立按照时间序列的数据分析结果序列,从而能够将多次数据分析的结果关联,进一步导致业务指标发生变化的原因的变化过程,从而能够得出更加准确的数据分析结果。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营检测等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供异常控制的规则配置;基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营检测模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、检测网络情况、检测节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
下面结合具体实施方式对本申请提供的技术方案做出详细说明。请参阅图1,图1为本申请实施例中一个实施环境的示意图。该实施环境包括服务器110、客户端120和管理终端130,服务器110与客户端120之间通过有线或者无线网络进行通信;其中服务器110上部署有数据分析装置,数据分析装置会对从客户端120中收集到的数据进行分析,生成数据分析结果。用户也可以通过管理终端130来浏览服务器上的数据分析结果。具体地,在日常服务过程中,客户端120会将需要收集的数据发送给服务器110。服务器110会在收集到足够的数据后对所收集到的数据进行数据分析,从而得到数据分析结果以供服务的经营人员或者管理人员了解服务中发生的变化以及产生变化的原因。以加油为例,管理人员发现在一段时间内的销量出现了下降,则可以通过数据分析结果来寻找销量下降的原因,根据数据分析结果,可能会发现数据特征中日期对于销量产生了影响,从而可以了解是由于节假日而导致的销量下降。
服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。
客户端120和管理终端130可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。客户端120以及服务器110可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。客户端120以及服务器110的数量也不做限制。
下面以车联网为例对本申请的方案的整体流程进行介绍。请参阅图2,图2为本申请实施例中应用在车联网中的整体方案的示意流程图。如图2所示,方案总体包括六个阶段,分别为:数据采集阶段210、先验概率构建阶段220、归因概率模型构建阶段230、结果归因阶段240、索源及概率修正阶段250以及时间区块构建阶段260。数据采集阶段210从第t期车联网出行服务中优惠加油业务的日志数据中提取出优惠活动数据、节假日加油数据、行为数据、数据采集过程中的链路数据、价格变动数据等特征数据和业务指标,其中,业务指标可以是预先规定的数据维度或者由用户选定的数据维度,也可以是输入的指标数据。在先验概率构建阶段220中,根据数据采集阶段210中收集的数据构建对应于特征数据的先验特征数据,包括根据每个特征变化的次数计算特征先验概率,以及根据特征变化下指标变化的次数,计算特征变化下指标变化的先验概率矩阵。在归因概率模型构建阶段230中,根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型。在结果归因阶段240中,将先验概率构建阶段220得到特征先验概率和先验概率矩阵带入到归因概率模型构建阶段230得到的归因分析概率模型,计算出归因概率矩阵。随后,在索源及概率修正阶段250中,对于发生变化的第j个指标,根据结果归因阶段240得到的归因概率矩阵提取出第j个指标对应的归因概率序列,并进行从大到小降序排列,根据排序后的归因概率的大小顺序进行原因查询,直到找到导致结果变化的最终特征位置,从而得到影响每个指标结果变化的特征因素。根据t期影响结果的真实特征重新计算归因概率矩阵。在时间区块构建阶段260中,时间区块构建阶段。输入t-n、t-n+1、…、t期的归因概率矩阵,存储在每个时间对应区块中,构建基于时间的区块链,并通过t+1期的引起结果变化的真实特征统计的概率,更新t期的归因概率矩阵。
以下对本申请实施例中的数据分析方法进行进一步介绍。请参阅图3,图3为本申请实施例中一种数据分析方法的示意流程图。如图3所示,该数据分析方法至少包括步骤S310至S340,详细介绍如下:
步骤S310,获取M个业务特征序列和N个业务指标序列,所述M和N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的。
具体地,业务特征序列和业务指标序列是根据预先设置的条件从待分析数据中提取出来的。业务特征序列是基于待分析数据生成的,而业务指标序列是基于待分析数据所产生的数据结果生成的。业务指标序列中的数据通常是基于对业务特征序列中的数据进行计算、挖掘或提取而产生的数据结果生成的,以加油数据为例,业务特征序列可以指的是加油站日常运行过程中所记录的数据,包括消费数据以及加油站的成本信息等,而业务指标数据则是基于这些数据进行进一步计算、挖掘或提取而得到的数据,例如每日销售额、平均客流量或者转化率和增长率等信息。待分析数据可以是业务运行的日志数据。每个业务特征序列为对应于一个预定业务特征在一段时间内的数据,每个业务指标序列为对应于一个预定业务指标在一段时间内的数据。例如,M个业务特征序列分别对应于优惠活动数据、节假日加油数据、行为数据、数据采集过程中的链路数据和价格变动数据,N个业务指标序列分别对应于用户数量、车流量和销售金额。业务特征序列和业务指标序列均可以包括一个或多个元素。每个元素通常表示业务特征和业务指标在不同时间或者不同维度下的数值。根据业务特征序列和业务指标序列,可以得到业务特征和业务指标在一段时间内的变化趋势。例如,业务特征序列是一周内每天的加油数据,则其具体是包括7个元素的序列,每个元素表示一天的加油数据。业务指标序列也是类似,例如是一周每天的优惠额度,则其也是包括7个元素的序列,每个元素表示一天的优惠额度。
步骤S320,根据所述M个业务特征序列和所述N个业务指标序列进行概率计算生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率。
具体地,归因概率矩阵是一个后验概率矩阵。在计算归因概率矩阵,可以首先根据M个业务特征序列和N个业务指标序列计算相关先验概率,再根据先验概率计算后验概率。先验概率的计算可以采用全概率公式或者条件概率公式等方式进行运算,而后验概率可以采用贝叶斯公式结合先验概率和似然函数计算得到。归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率。在归因概率矩阵中,每个元素会对应于一个业务特征序列和一个业务指标序列,元素可以表示在业务指标发生变化的情况下业务特征序列发生变化的概率。例如,对于3个业务特征序列A、B、C和3个业务指标序列X、Y、Z的情况,归因概率矩阵为3×3的矩阵,包括3×3=9个元素,其中一个元素可以表示指标X发生变化时特征A也发生变化的概率。
步骤S330,根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序。
具体地,在归因概率矩阵中,每个业务指标序列均会对应于M个元素,每个元素对应于M个业务特征序列中的一个序列。根据元素大小进行排序,可以将对应的M个业务特征序列进行重新排序,得到特征序列。因此对于每个业务指标序列都会得到对应的特征序列。特征序列表示的是M个业务特征序列对该业务指标序列产生影响的概率。可以理解,业务特征序列对该业务指标序列的产生影响的概率越高,业务特征序列是业务指标序列发生变化的真实因素的概率也越高。
步骤S340,根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
具体地,对于每个业务指标序列,根据对应的特征排序来分析M个业务特征序列对其产生的影响。对于二分类分析,分析结果通常为有影响或者无影响,在此情况下,可以选择影响最大的业务特征序列作为分析结果,也可以将所有有影响的业务特征序列都加入分析结果。而对于权重分析,则可以计算各个业务特征序列对业务指标序列影响的大小或者重要程度,从而确定出影响业务指标序列变化的多个业务特征序列作为数据分析结果。数据分析结果也可以采用矩阵的形式,例如,建立M×N的矩阵,其中元素值为1表示业务特征序列对业务指标序列有影响,为0则表示无影响。数据分析结果也可以序列形式,对于每个业务指标序列建立一个原因序列,其中包含产生影响的业务特征序列以及影响的程度或者权重等。
在本申请的实施例中,首先通过业务特征序列和业务指标序列进行概率计算来构建归因概率矩阵,归因概率矩阵中的每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率,随后根据归因概率矩阵中对应的元素,对于每个业务指标序列确定各个业务特征序列的特征排序,在根据所确定的特征排序,分析各个业务特征序列对业务指标序列的影响,得到数据分析结果。由于在进行数据分析的过程中,利用构建出归因概率矩阵来确定特征排序,再按照特征排序的顺序进行分析特征对指标的影响,使得整个数据分析的过程基于原始的数据进行,免去了专家对数据进行分析和标注的过程,从而降低了方案的人力成本,提高方案的整体效率。
在本申请的一个实施例中,基于上述的技术方案,请参阅图4,图4为图3所示实施例中步骤S340在一示例性实施例中的示意流程图。如图4所示,上述步骤S340,根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果的过程具体包括如下步骤S410至S430:
步骤S410,对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列;
步骤S420,根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵;
步骤S430,根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果。
具体地,每个业务指标序列都对应于一个特征排序。特征排序中将M个业务特征序列按照对业务指标序列的变化产生影响的概率从大到小排序。按照特征排序依次分析M个业务特征序列,能够优先分析影响概率高的业务特征序列。取决于数据分析的目的,对M个业务特征序列进行分析的过程可以提前结束。例如,对于寻找一个主要原因的数据分析,在按照特征排序确定第一个有影响的业务特征序列后就可以停止分析过程。进行业务特征序列的分析的方式可以采用相关性分析等计算方式来计算业务特征序列与业务指标序列的变化之间的相关性分数,再根据相关性阈值或者通过相互比较的方式来判断是否对业务指标序列产生影响。分析时也可以进一步结合外部输入的数据和指令来进行,例如,由分析人员根据特征排序分析并确认对业务指标序列产生影响的业务特征序列,并在展示出的图形界面中选定结果。在确定对业务指标序列产生影响的业务特征序列后,根据所确定的业务特征序列,重新计算归因概率矩阵。重新计算的方式采用与首次计算归因概率矩阵相同的方式,区别在于所采用的计算数据是根据确定的实际结果作为输入数据来进行计算,从而得到能够表示业务特征数据对业务指标数据的实际影响情况的修正归因矩阵。随后,根据业务特征序列和修正归因矩阵确定数据分析结果。根据想要确认影响原因的业务指标序列,可以从修正归因矩阵中得到对应的序列,即修正归因矩阵中的一行或一列数据序列,该数据序列中每个元素值会表示对应的业务特征序列对该业务指标序列产生影响的概率。根据修正归因矩阵获取想要分析的各个业务指标序列对应的数据序列,从而得到对应的数据分析结构。
在本申请的实施例中,根据特征排序确定对业务指标序列产生影响的业务特征序列,再根据对业务指标序列产生影响的业务特征序列来重新计算归因概率矩阵,从而能够基于真实影响情况对计算结果进行修正,从而提高数据分析结果的准确性。
在本申请的一个实施例中,基于上述的技术方案,所述M个业务特征序列和所述N个业务指标序列为第T个时间周期中收集的数据,T为大于1的整数;请参阅图5,图5为图4所示实施例中步骤S430在一示例性实施例中的示意流程图。如图5所示,上述步骤S430,根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果的过程包括如下的步骤S510至S530:
步骤S510,从区块链中获取历史归因矩阵,所述历史归因矩阵是根据所述M个业务特征序列和所述N个业务指标序列在第T-1个时间周期中对应的历史数据生成的;
步骤S520,根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵;
步骤S530,将所述修正归因矩阵和所述历史修正矩阵确定为数据分析结果并在所述区块链中打包上链。
具体地,区块链是用于存储各个时间周期中收集的数据所生成的归因概率矩阵以及修正归因矩阵的区块链。在基于第T个周期收集的数据计算归因概率矩阵时,区块链中应保存了基于第T-1个时间周期中的历史数据计算得到的修正归因矩阵,即历史归因矩阵。第T-1个时间周期中的历史归因矩阵和第T个时间周期中的修正归因矩阵是基于相同的业务特征和业务指标生成的,区别在于序列中的具体元素值不同。
根据修正归因矩阵,能够对历史归因矩阵进行概率修正,得到历史修正矩阵。具体地,将修正归因矩阵中含有的对于当前时间周期影响情况与历史归因矩阵的内容相融合,具体可以将相对应位置的元素值进行求和、乘积、加权、数值修正或者重新计算等方式来计算。可以理解的是,第T-1个时间周期的历史修正矩阵是基于第T-2个时间周期的历史归因矩阵生成的,以此类推,而第一个时间周期可以直接将修正归因矩阵作为历史修正矩阵。具体地,请参阅图6,图6为本申请实施例中构建历史修正矩阵的示意性顺序图。如图6所示,第T-1期的历史修正矩阵通过第T期的修正概率来进行修正,第T期的历史修正矩阵通过第T+1期的修正概率来进行修正,以此类推。
因此,历史修正矩阵是基于所有时间周期的数据建立的矩阵,因此能够体现各个业务特征序列对业务指标数据的整体影响情况。在确定历史修正矩阵后,可以将修正归因矩阵和历史修正矩阵在所述区块链中打包上链。可见,区块链中会包括对应于各个时间周期的修正归因矩阵,以及能够体现整体影响情况的历史修正矩阵。
在本申请的实施例中,在计算得到修正归因矩阵后,根据修正归因矩阵,对历史归因矩阵进行概率修正,得到历史修正矩阵,从而能够得到整体的影响情况,提升数据分析结果的准确性。
在本申请的一个实施例中,基于上述的技术方案,请参阅图7,图7为图5所示实施例中步骤S520在一示例性实施例中的示意流程图。如图7所示,上述步骤S520,根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵的过程具体包括如下步骤S710和S720:
步骤S710,根据所述修正归因矩阵中所述M个业务特征序列对所述N个业务指标序列的影响,确定修正概率;
步骤S720,根据所述修正概率对所述历史归因矩阵中的对应概率进行概率修正,得到历史修正矩阵。
具体地,修改概率是在根据修正归因矩阵确定各个业务指标序列受哪个或者哪些业务特征序列的影响后,修正业务特征序列所对应的影响次数,例如将影响次数加1。例如,在历史归因矩阵中,特征A对指标B发生过10次影响。在当前的修正归因矩阵中,特征A对指标B也发生了影响,则可以将特征A对指标B的影响次数加1,然后根据修正后的结果重新计算特征A对指标B产生影响的概率(例如,基于影响次数与总次数的比例等计算方式),从而得到修正概率。
在得到修正概率后,数据分析装置则根据修正概率对历史归因矩阵中的对应概率进行概率修正,得到历史修正矩阵。具体地,可以用计算得到的修正概率替换历史归因矩阵中对应的位置的元素值,或者将修正概率与历史归因矩阵中对应的位置的元素值进行加权求和来对历史归因矩阵进行修正。
在本申请的实施例中,基于修正归因矩阵确定修正概率,再根据修正概率对历史归因矩阵进行修正,得到历史修正矩阵,提供了计算历史修正矩阵的具体实现方式,提升了方案的可实施性。
在本申请的一个实施例中,基于上述的技术方案,请参阅图8,图8为图4所示实施例中步骤S410在一示例性实施例中的示意流程图。如图8所示,上述步骤S410,对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列的过程具体包括如下步骤S810和S820:
步骤S810,按照每个业务指标序列对应的所述特征排序依次分析各个业务特征序列对每个业务指标序列的影响;
步骤S820,对于每个业务指标序列,若存在业务特征序列的影响满足归因分析条件,则将满足所述归因分析条件的业务特征序列确定为对所述业务指标序列产生影响的业务特征序列,得到对所述N个业务指标序列产生影响的N个业务特征序列。
在本实施例中,对于每个业务指标序列分析出一个产生影响的业务特征序列。对此,首先按照每个业务指标序列对应的特征排序依次分析各个业务特征序列的影响。具体地,业务指标序列对应的特征排序会将M个业务特征序列按照对业务指标序列产生影响的可能性从大到小进行排列。按照特征排序依次进行分析,若存在业务特征序列的影响满足归因分析条件,则可以并且将满足条件的业务特征序列确定为业务指标序列的分析结果并停止对当前业务指标序列的变化原因的分析,转而分析下一个业务指标序列的变化原因。例如,对于两个业务指标序列X和Y和三个业务特征序列A、B、C的情况,X对应的特征排序为{B,A,C},Y对应的特征序列为{A,C,B},对于业务指标序列Y,按照B-A-C的顺序进行分析,并且分析时确定业务特征序列B对业务指标序列X的影响满足归因分析条件,则对于业务指标序列X不继续分析业务特征序列A和C,直接开始对业务指标序列Y进行分析过程,假定影响业务指标序列Y的业务特征序列也是为B,则会得到对应于两个业务指标序列的两个业务特征序列。归因分析条件用于评估业务特征序列对业务指标序列的影响程度。例如,归因分析条件可以设定为二者的变化幅度的相关性的阈值,或者二者相对自身的变化幅度的阈值等。
在本申请的实施例中,按照特征排序进行数据分析,能够有效缩小查找范围和减少分析时间,提高分析效率。
在本申请的一个实施例中,基于上述的技术方案,请参阅图8,图8为本申请实施例中一种数据分析方法的示意流程图。如图8所示,上述步骤,根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵的过程具体包括如下步骤:
根据所确定的产生影响的业务特征序列,生成特征影响序列,所述特征影响序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
根据所确定的产生影响的业务特征序列和所述N个业务指标序列,生成指标影响矩阵,所述指标影响矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化情况与对应的业务特征序列的变化情况之间的对应关系;
根据所述特征影响序列和所述指标影响矩阵进行概率计算,以生成修正归因矩阵。
具体地,特征影响序列中的各个元素与业务特征序列相对应,因此对于M个业务特征序列,在特征影响序列中会包括M个元素。每个元素表示对应业务特征序列的变化程度。由于特征影响序列是根据实际产生影响的业务特征序列确定的,其能够体现出实际上各个业务特征序列对业务指标序列的影响概率。根据所确定的产生影响的业务特征序列和所述N个业务指标序列,生成指标影响矩阵,具体地,对于N个业务指标序列所确定的产生影响的业务特征序列可以是不同的,因此,对于N个业务指标序列中的每个序列都有对应的所确定的产生影响的业务特征序列。指标影响矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化情况与对应的业务特征序列的变化情况之间的对应关系。可以理解的是,每行的M个元素对应于M个业务特征序列,其中,产生影响的业务特征序列的元素值是根据实际的影响概率统计得到的,不产生影响的业务特征序列对应的元素值则可以设置为默认值,来表示在该指标影响矩阵中,二者不会相互影响或者相互影响不明显。根据所述特征影响序列和所述指标影响矩阵进行概率计算,以生成修正归因矩阵。具体地,计算修正归因矩阵的方式与计算归因概率矩阵的方式是相同的,例如可以采用贝叶斯函数进行计算,区别在于归因概率矩阵是根据数据得到的预测的概率,而修正归因矩阵中根据确定实际产生影响的数据计算得到的实际概率。
在本申请的实施例中,利用所确定的产生影响的业务特征序列来计算特征影响序列和指标影响矩阵,再根据特征影响序列和指标影响矩阵来计算修正归因矩阵,从而能够根据实际的影响情况建立归因矩阵,使得数据分析结果的过程能够基于实际情况进行修正,从而提升数据分析结果的准确性。
在本申请的一个实施例中,基于上述的技术方案,每个业务特征序列中包含多个业务特征值;请参阅图9,图9为图4所示实施例中步骤S420在一示例性实施例中的示意流程图。如图9所示,上述步骤S420,根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵的过程具体包括如下步骤S910至S930:
步骤S910,根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
步骤S920,根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,所述指标变化矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系;
步骤S930,根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成所述归因概率矩阵。
具体地,业务特征值是在特征提取时从实际数据中提取出的特征值,业务特征值的变化情况可以体现出业务数据中所发生的变化。例如,业务特征序列中包括一周内每天的加油量,则业务特征序列会包括7个业务特征值,对应于每天的加油量。特征变化序列则表示的是业务特征序列中业务特征值的变化程度。例如,如果加油量的涨幅或者跌幅超过了5%,则在特征变化序列中对应于加油量的元素可以记录该变化量或者被标记为1来表示发生了变化。指标变化矩阵是用于表示各个业务指标序列的变化与各个业务特征序列的变化之间的对应关系的矩阵。对于M个业务特征序列和N个业务指标序列,指标变化矩阵包括M×N个元素。指标变化矩阵中的元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系,并且具体可以表示在业务特征序列发生变化时业务指标序列也发生变化的情况或者概率。对应关系可以根据业务指标序列和业务特征序列是否发生变化、变化程度或者变化曲线是否相匹配的方式来确定。根据特征变化序列和指标变化矩阵进行概率计算,以生成归因概率矩阵。其中,归因概率矩阵的计算可以根据条件概率模型或者贝叶斯函数等方式来进行计算。
在本申请的实施例中,通过构建从结果到特征的归因概率矩阵,从而能够从结果的变化反向推断造成分类结果变化的原因,从而达到实现自动化归因的目的,提高方案的准确性。
在本申请的一个实施例中,基于上述的技术方案,请参阅图10,图10为图9所示实施例中步骤S910在一示例性实施例中的示意流程图。如图10所示,上述步骤S910,根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列的过程具体包括如下步骤:
步骤S1010,分别计算各个业务特征序列的业务特征值发生变化的次数与所述M个业务特征序列所包含的业务特征值的总数之间的比例,得到M个比例值;
步骤S1020,将所述M个比例值作为序列元素,构建所述特征变化序列。
在本实施例中将业务特征值发生变化的次数与M个业务特征序列所包含的业务特征值的总数的比例作为每个业务特征序列的先验概率。具体地,业务特征序列
Figure 840740DEST_PATH_IMAGE001
。分别统计每个业务特征序列
Figure 289039DEST_PATH_IMAGE002
Figure 350667DEST_PATH_IMAGE003
表示特征个数)出现变化的次数
Figure 542614DEST_PATH_IMAGE004
占样本总数
Figure 888145DEST_PATH_IMAGE005
的比例
Figure 445028DEST_PATH_IMAGE006
,作为每个特征的先验概率,从而能够得到M个元素,再根据M个元素构建得到特征变化的先验概率序列作为特征变化序列。例如,假定存在3个业务特征序列A、B和C,每个包括10个业务特征值,对于业务特征序列A,10个业务特征值中发生了5次变化,对于业务特征序列B,10个业务特征值中发生了4次变化,对于业务特征序列C,10个业务特征值中发生了7次变化,则特征变化序列为{5/30,4/30,7/30}。
在本申请的一个实施例中,基于上述的技术方案,每个业务指标序列中包含多个指标值;请参阅图11,图11为图9所示实施例中步骤S920在一示例性实施例中的示意流程图。如图11所示,上述步骤S920,根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵的过程具体包括如下步骤:
步骤S1110,分别计算各个业务指标序列的指标值与所述业务特征值同时变化的次数与所述M个业务特征序列所包含业务特征值的总数之间的比例,得到M×N个比例值;
步骤S1120,将所述M×N个比例值作为矩阵元素,构建所述指标变化矩阵。
在本实施例中将业务特征值发生变化的情况下指标值同时发生变化的与M个业务特征序列所包含的总数的比例作为每个业务指标序列的先验概率。具体地,计算特征
Figure 243220DEST_PATH_IMAGE007
变化情况下指标
Figure 721081DEST_PATH_IMAGE008
同时发生变化所发生的次数
Figure 921118DEST_PATH_IMAGE009
占样本总数
Figure 445641DEST_PATH_IMAGE010
的比例
Figure 996708DEST_PATH_IMAGE011
,当作在特征
Figure 15610DEST_PATH_IMAGE012
发生变化的条件下第j个业务指标序列
Figure 70154DEST_PATH_IMAGE013
Figure 31157DEST_PATH_IMAGE014
表示指标数)发生变化的先验概率,从而得到M×N个元素。根据得到的M×N个元素可以构建出指标变化矩阵:
Figure 7203DEST_PATH_IMAGE015
例如,假定存在3个业务特征序列A、B和C,和3个业务指标序列X、Y和Z,每个业务特征序列包括10个业务特征值,每个业务指标序列包括10个指标值,示例性的指标变化矩阵如下:
Figure 813485DEST_PATH_IMAGE016
其中,从第一行中可以看出,业务特征序列A与业务指标序列X同时发生了5次变化,业务特征序列A与业务指标序列Y同时发生了4次变化,业务特征序列A与业务指标序列Z同时发生了3次变化。
在本申请的一个实施例中,基于上述的技术方案,请参阅图12,图12为图9所示实施例中步骤S930在一示例性实施例中的示意流程图。如图12所示,上述步骤S930,根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成所述归因概率矩阵的过程具体包括如下步骤:
步骤S1210,根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型;
步骤S1220,将所述指标变化矩阵中的M×N个元素和所述特征变化序列的M个元素中的对应元素分别输入到所述归因分析概率模型中进行计算,得到M×N个结果,将所述M×N个结果作为矩阵元素,构成所述归因概率矩阵。
具体地,根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型:
Figure 738847DEST_PATH_IMAGE017
其中,
Figure 870751DEST_PATH_IMAGE018
为指标变化矩阵的元素值,
Figure 130831DEST_PATH_IMAGE019
为特征变化序列的元素值。将指标变化矩阵中的M×N个元素和特征变化序列的M个元素中的对应元素带入到该归因分析概率模型中进行计算,就可以得到每个指标结果变化条件下每个特征因素变化的归因概率矩阵:
Figure 740804DEST_PATH_IMAGE020
在本申请中,提供了计算归因概率矩阵的具体实现方式,提升了本申请方案的可实施性。
在本申请的一个实施例中,基于上述的技术方案,方法应用于车联网;请参阅图13,图13为图3所示实施例中步骤S310在一示例性实施例中的示意流程图。如图13所示,上述步骤S310,获取M个业务特征序列和N个业务指标序列的过程具体包括如下的步骤:
步骤S1310,从所述车联网中获取业务数据和系统数据,所述业务数据为所述车联网提供的服务业务的日志数据,所述系统数据为所述车联网运行记录的日志数据;
步骤S1320,对所述业务数据和所述系统数据进行特征提取,得到M个业务特征序列;
步骤S1330,根据预设的业务指标对所述业务数据和所述系统数据进行数据统计,得到N个业务指标序列。
具体地,车联网中的设备在日常的服务过程中会记录相关的业务数据和系统数据,业务数据通常可以包括优惠活动数据、节假日加油数据、行为数据以及价格变动数据等与服务业务直接相关的数据,而系统数据则可以包括数据采集过程中的链路数据和系统运行记录等日志数据。从车联网中获取业务数据和系统数据。对所获取到的业务数据和系统数据进行特征提取,得到M个业务特征序列。其中,特征提取的方式可以按照预定算法来进行,例如,计算平均值等方式,取决于业务特征序列所针对的数据维度,可以采用采样、过滤或者提取等方式来进行特征提取的过程。业务指标数据可以从业务数据和系统数据中统计得到,根据预设的业务指标对业务数据和系统数据进行数据统计,可以得到N个业务指标序列。
在本申请实施例中,在收集数据时从业务数据和系统数据中获取数据,从而能够从多个维度进行数据分析,提升数据分析结果的完整性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施,可以用于执行本申请上述实施例中的数据分析方法。图14示意性地示出了本申请实施例中数据分析装置的组成框图。如图14所示,数据分析装置1400主要可以包括:
序列获取模块1410,用于获取M个业务特征序列和N个业务指标序列,所述M和N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的;
概率计算模块1420,用于根据所述M个业务特征序列和所述N个业务指标序列生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;
特征排序模块1430,用于根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序;
影响分析模块1440,用于根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
在本申请的一些实施例中,基于以上技术方案,影响分析模块1440包括:
特征序列确定子模块,用于对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列;
归因矩阵重算子模块,用于根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵;
分析结果确定子模块,用于根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果。
在本申请的一些实施例中,基于以上技术方案,所述M个业务特征序列和所述N个业务指标序列为第T个时间周期中收集的数据,T为大于1的整数;分析结果确定子模块包括:
历史矩阵获取单元,用于从区块链中获取历史归因矩阵,所述历史归因矩阵是根据所述M个业务特征序列和所述N个业务指标序列在第T-1个时间周期中对应的历史数据生成的;
概率修正单元,用于根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵;
打包上链单元,用于将所述修正归因矩阵和所述历史修正矩阵确定为数据分析结果并在所述区块链中打包上链。
在本申请的一些实施例中,基于以上技术方案,概率修正单元包括:
修正概率确定子单元,用于根据所述修正归因矩阵中所述M个业务特征序列对所述N个业务指标序列的影响,确定修正概率;
修正子单元,用于根据所述修正概率对所述历史归因矩阵中的对应概率进行概率修正,得到历史修正矩阵。
在本申请的一些实施例中,基于以上技术方案,特征序列确定子模块包括:
特征分析单元,用于按照每个业务指标序列对应的所述特征排序依次分析各个业务特征序列对每个业务指标序列的影响;
分析结果确定单元,用于对于每个业务指标序列,若存在业务特征序列的影响满足归因分析条件,则将满足所述归因分析条件的业务特征序列确定为对所述业务指标序列产生影响的业务特征序列,得到对所述N个业务指标序列产生影响的N个业务特征序列。
在本申请的一些实施例中,基于以上技术方案,归因矩阵重算子模块包括:
影响序列确定单元,用于根据所确定的产生影响的业务特征序列,生成特征变化序列,所述特征影响序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
影响矩阵确定单元,用于根据所确定的产生影响的业务特征序列和所述N个业务指标序列,生成指标影响矩阵,所述指标影响矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化情况与对应的业务特征序列的变化情况之间的对应关系;
概率计算单元,用于根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成修正归因矩阵。
在本申请的一些实施例中,基于以上技术方案,每个业务特征序列中包含多个业务特征值;概率计算模块1420包括:
特征序列确定单元,用于根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
变化矩阵确定单元,用于根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,所述指标变化矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系;
概率计算单元,用于根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成所述归因概率矩阵。
在本申请的一些实施例中,基于以上技术方案,特征序列确定单元包括:
第一比例计算子单元,用于分别计算各个业务特征序列的业务特征值发生变化的次数与所述M个业务特征序列所包含的业务特征值的总数之间的比例,得到M个比例值;
变化序列构建子单元,用于将所述M个比例值作为序列元素,构建所述特征变化序列;
在本申请的一些实施例中,基于以上技术方案,每个业务指标序列中包含多个指标值;变化矩阵确定单元包括:
第二比例计算子单元,用于分别计算各个业务指标序列的指标值与所述业务特征值同时变化的次数与所述M个业务特征序列所包含业务特征值的总数之间的比例,得到M×N个比例值;
变化矩阵构建子单元,用于将所述M×N个比例值作为矩阵元素,构建所述指标变化矩阵。
在本申请的一些实施例中,基于以上技术方案,概率计算单元包括:
模型构建子单元,用于根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型;
概率矩阵计算子单元,用于将所述指标变化矩阵中的M×N个元素和所述特征变化序列的M个元素中的对应元素分别输入到所述归因分析概率模型中进行计算,得到M×N个结果,将所述M×N个结果作为矩阵元素,构成所述归因概率矩阵。
在本申请的一些实施例中,基于以上技术方案,所述方法应用于车联网;序列获取模块1410包括:
数据获取单元,用于从所述车联网中获取业务数据和系统数据,所述业务数据为所述车联网提供的服务业务的日志数据,所述系统数据为所述车联网运行记录的日志数据;
特征提取单元,用于对所述业务数据和所述系统数据进行特征提取,得到M个业务特征序列;
数据统计单元,用于根据预设的业务指标对所述业务数据和所述系统数据进行数据统计,得到N个业务指标序列。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图15示出的电子设备的计算机系统1500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图15所示,计算机系统1500包括中央处理单元(Central Processing Unit,CPU)1501,其可以根据存储在只读存储器(Read-Only Memory,ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(Random Access Memory,RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有系统操作所需的各种程序和数据。CPU1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input /Output,I/O)接口1505也连接至总线1504。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1507;包括硬盘等的储存部分1508;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入储存部分1508。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (13)

1.一种数据分析方法,其特征在于,包括:
获取M个业务特征序列和N个业务指标序列,所述M和所述N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的,每个业务特征序列中包含多个业务特征值;
根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,所述指标变化矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系;
根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;
根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序;
根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果,包括:
对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列;
根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵;
根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果。
3.根据权利要求2所述的方法,其特征在于,所述M个业务特征序列和所述N个业务指标序列为第T个时间周期中收集的数据,所述T为大于1的整数;所述根据所确定的业务特征序列和所述修正归因矩阵确定所述数据分析结果,包括:
从区块链中获取历史归因矩阵,所述历史归因矩阵是根据所述M个业务特征序列和所述N个业务指标序列在第T-1个时间周期中对应的历史数据生成的;
根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵;
将所述修正归因矩阵和所述历史修正矩阵确定为数据分析结果并在所述区块链中打包上链。
4.根据权利要求3所述的方法,其特征在于,所述根据所述修正归因矩阵,对所述历史归因矩阵进行概率修正,得到历史修正矩阵,包括:
根据所述修正归因矩阵中所述M个业务特征序列对所述N个业务指标序列的影响,确定修正概率;
根据所述修正概率对所述历史归因矩阵中的对应概率进行概率修正,得到历史修正矩阵。
5.根据权利要求2所述的方法,其特征在于,所述对于每个业务指标序列,按照所述特征排序依次分析所述M个业务特征序列,确定对所述业务指标序列产生影响的业务特征序列,包括:
按照每个业务指标序列对应的所述特征排序依次分析各个业务特征序列对每个业务指标序列的影响;
对于每个业务指标序列,若存在业务特征序列的影响满足归因分析条件,则将满足所述归因分析条件的业务特征序列确定为对所述业务指标序列产生影响的业务特征序列,以得到对所述N个业务指标序列产生影响的N个业务特征序列。
6.根据权利要求2所述的方法,其特征在于,所述根据所确定的业务特征序列,重新计算所述归因概率矩阵,得到修正归因矩阵,包括:
根据所确定的产生影响的业务特征序列,生成特征影响序列,所述特征影响序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
根据所确定的产生影响的业务特征序列和所述N个业务指标序列,生成指标影响矩阵,所述指标影响矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化情况与对应的业务特征序列的变化情况之间的对应关系;
根据所述特征影响序列和所述指标影响矩阵进行概率计算,以生成修正归因矩阵。
7.根据权利要求1所述的方法,其特征在于,所述根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,包括:
分别计算各个业务特征序列的业务特征值发生变化的次数与所述M个业务特征序列所包含的业务特征值的总数之间的比例,得到M个比例值;
将所述M个比例值作为序列元素,构建所述特征变化序列。
8.根据权利要求1所述的方法,其特征在于,每个业务指标序列中包含多个指标值;所述根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,包括:
分别计算各个业务指标序列的指标值与所述业务特征值同时变化的次数与所述M个业务特征序列所包含业务特征值的总数之间的比例,得到M×N个比例值;
将所述M×N个比例值作为矩阵元素,构建所述指标变化矩阵。
9.根据权利要求1所述的方法,其特征在于,所述根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成所述归因概率矩阵,包括:
根据条件概率模型、联合概率模型及先验概率模型,构建归因分析概率模型;
将所述指标变化矩阵中的M×N个元素和所述特征变化序列的M个元素中的对应元素分别输入到所述归因分析概率模型中进行计算,得到M×N个结果,将所述M×N个结果作为矩阵元素构成所述归因概率矩阵。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法应用于车联网;所述获取M个业务特征序列和N个业务指标序列,包括:
从所述车联网中获取业务数据和系统数据,所述业务数据为所述车联网提供的服务业务的日志数据,所述系统数据为所述车联网运行记录的日志数据;
对所述业务数据和所述系统数据进行特征提取,得到M个业务特征序列;
根据预设的业务指标对所述业务数据和所述系统数据进行数据统计,得到N个业务指标序列。
11.一种数据分析装置,其特征在于,包括:
序列获取模块,用于获取M个业务特征序列和N个业务指标序列,所述M和所述N为大于或等于1的整数,所述业务特征序列是基于待分析数据生成的,所述业务指标序列是基于所述待分析数据所产生的数据结果生成的,每个业务特征序列中包含多个业务特征值;
特征序列确定单元,用于根据所述M个业务特征序列中业务特征值的变化情况,生成特征变化序列,所述特征变化序列中包括M个元素,每个元素表示对应业务特征序列的变化程度;
变化矩阵确定单元,用于根据所述M个业务特征序列和所述N个业务指标序列,生成指标变化矩阵,所述指标变化矩阵包括M×N个元素,每个元素表示对应的业务指标序列的变化与对应的业务特征序列的变化之间的对应关系;
概率计算单元,用于根据所述特征变化序列和所述指标变化矩阵进行概率计算,以生成归因概率矩阵,所述归因概率矩阵包括M×N个元素,每个元素表示对应的业务指标序列受对应的业务特征序列影响的概率;
特征排序模块,用于根据所述归因概率矩阵中与每个业务指标序列对应的行或列中的元素,确定所述M个业务特征序列对于每个业务指标序列的特征排序;
影响分析模块,用于根据所述M个业务特征序列对于各个业务指标序列的特征排序,分析所述M个业务特征序列对各个业务指标序列的影响,得到数据分析结果。
12.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任意一项所述的数据分析方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的数据分析方法。
CN202210218613.7A 2022-03-08 2022-03-08 数据分析的方法、装置、电子设备和可读介质 Active CN114331227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210218613.7A CN114331227B (zh) 2022-03-08 2022-03-08 数据分析的方法、装置、电子设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210218613.7A CN114331227B (zh) 2022-03-08 2022-03-08 数据分析的方法、装置、电子设备和可读介质

Publications (2)

Publication Number Publication Date
CN114331227A CN114331227A (zh) 2022-04-12
CN114331227B true CN114331227B (zh) 2022-06-14

Family

ID=81033437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210218613.7A Active CN114331227B (zh) 2022-03-08 2022-03-08 数据分析的方法、装置、电子设备和可读介质

Country Status (1)

Country Link
CN (1) CN114331227B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647891A (zh) * 2018-05-14 2018-10-12 口口相传(北京)网络技术有限公司 数据异常归因分析方法及装置
CN111507782A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种用户流失归因聚焦方法、装置、存储介质及电子设备
CN111626898A (zh) * 2020-03-20 2020-09-04 贝壳技术有限公司 用于实现事件归因的方法、装置、介质和电子设备
CN112286772A (zh) * 2020-10-14 2021-01-29 北京易观智库网络科技有限公司 归因分析方法、装置和电子设备
CN113344369A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 画像数据的归因方法、装置、电子设备及存储介质
CN113361954A (zh) * 2021-06-29 2021-09-07 平安普惠企业管理有限公司 归因分析方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420261B (zh) * 2021-08-23 2021-11-09 平安科技(深圳)有限公司 基于归因分析的课程推荐方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647891A (zh) * 2018-05-14 2018-10-12 口口相传(北京)网络技术有限公司 数据异常归因分析方法及装置
CN111626898A (zh) * 2020-03-20 2020-09-04 贝壳技术有限公司 用于实现事件归因的方法、装置、介质和电子设备
CN111507782A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种用户流失归因聚焦方法、装置、存储介质及电子设备
CN112286772A (zh) * 2020-10-14 2021-01-29 北京易观智库网络科技有限公司 归因分析方法、装置和电子设备
CN113344369A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 画像数据的归因方法、装置、电子设备及存储介质
CN113361954A (zh) * 2021-06-29 2021-09-07 平安普惠企业管理有限公司 归因分析方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本数据分析的上市公司业绩归因研究;杨林林 等;《北京信息科技大学学报》;20191031;78-83 *

Also Published As

Publication number Publication date
CN114331227A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US11048530B1 (en) Predictive action modeling to streamline user interface
Polato et al. Data-aware remaining time prediction of business process instances
CN103294592B (zh) 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统
EP3482353A1 (en) Machine learning and prediction using graph communities
US20140358694A1 (en) Social media pricing engine
CN111652280B (zh) 基于行为的目标物数据分析方法、装置及存储介质
CN113283948B (zh) 预测模型的生成方法、装置、设备和可读介质
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN112686717B (zh) 一种广告召回的数据处理方法及系统
CN111680382A (zh) 等级预测模型训练方法、等级预测方法、装置及电子设备
CN110910201A (zh) 信息推荐的控制方法、装置、计算机设备及存储介质
CN110543565A (zh) 基于卷积神经网络模型的审计方法、系统和可读存储介质
CN110033123A (zh) 用于业务评估的方法和装置
CN117235811A (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
CN114493686A (zh) 一种运营内容生成推送方法及装置
CN114091684A (zh) 增强业务结果可解释性的方法及装置
CN107644042B (zh) 软件程序点击率预估排序方法及服务器
CN113010659A (zh) 一种问卷样本处理方法及装置
CN114331227B (zh) 数据分析的方法、装置、电子设备和可读介质
CN110213239B (zh) 可疑交易报文生成方法、装置及服务器
CN115330490A (zh) 一种产品推荐方法、装置、存储介质及设备
CN113449184B (zh) 触达渠道的推荐方法、装置、计算机设备和存储介质
CN110516075A (zh) 基于机器学习的预警报告生成方法、装置和计算机设备
CN117332212B (zh) 一种基于混沌工程故障实验的智能化风险探索方法及系统
WO2023149120A1 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant