CN117056663B - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117056663B
CN117056663B CN202311327391.3A CN202311327391A CN117056663B CN 117056663 B CN117056663 B CN 117056663B CN 202311327391 A CN202311327391 A CN 202311327391A CN 117056663 B CN117056663 B CN 117056663B
Authority
CN
China
Prior art keywords
periodic component
determining
distribution
component number
preset probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311327391.3A
Other languages
English (en)
Other versions
CN117056663A (zh
Inventor
石志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311327391.3A priority Critical patent/CN117056663B/zh
Publication of CN117056663A publication Critical patent/CN117056663A/zh
Application granted granted Critical
Publication of CN117056663B publication Critical patent/CN117056663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取目标业务的业务数据集,每个业务数据表征指定事件在对应采样时间的发生次数;利用多个不同的周期成分数分别对业务数据集进行余弦拟合,基于每个周期成分数对应的余弦拟合程度确定最佳周期成分数;基于最佳周期成分数对应的余弦拟合结果,确定每个采样时间对应的预测业务数据得到预测业务数据集;利用多个不同的预设概率分布分别对预测业务数据集进行分布拟合,基于每个预设概率分布对应的分布拟合程度确定最佳预设概率分布;基于最佳预设概率分布所对应分布拟合结果的分布参数,确定目标业务的业务特征信息。本申请提高了对统计数据类型的业务数据集规律分析的准确性。

Description

一种数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着大数据时代的到来,对业务的大量数据进行分析处理以发现业务的规律性,已成为提高业务处理效率和准确性的重要方式。其中,业务的规律性是指业务数据集中存在的周期性、重复性或者趋势性的规律。
相关技术中,在进行数据规律分析处理时主要针对用连续变量描述的连续数据进行,而统计数据是一种仅能取非负整数值并且通常是通过计算特定事件的发生次数而获得的数据类型,因此统计数据不同于连续数据,相关技术对统计数据进行规律分析处理的结果不够准确。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
获取目标业务的业务数据集;所述业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;
利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数;所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;
基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;
利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;
基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息。
另一方面,提供了一种数据处理装置,所述装置包括:
业务数据集获取模块,用于获取目标业务的业务数据集;所述业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;
最佳周期成分数确定模块,用于利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数;所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;
预测业务数据集确定模块,用于基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;
最佳概率分布确定模块,用于利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;
业务特征确定模块,用于基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息。
在一个示例性的实施方式中,所述最佳周期成分数确定模块,包括:
第一确定模块,用于基于所述多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数;
残差计算模块,用于对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;
第二确定模块,用于确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值;
第一统计量确定模块,用于基于所述第一残差平方和、所述第二残差平方和、所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量;所述第一目标统计量表征所述第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性;
第三确定模块,用于基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数;
第四确定模块,用于基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数。
在一个示例性的实施方式中,所述第一统计量确定模块,包括:
第五确定模块,用于确定所述第一残差平方和与所述第二残差平方和之间的差值,得到第三差值;
第六确定模块,用于确定所述第三差值与所述第二残差平方和之比,得到第一比值;
第七确定模块,用于确定所述第一差值与所述第二差值之间的差异,并确定所述差异与所述第二差值之比,得到第二比值;
第八确定模块,用于将所述第一比值除以所述第二比值,得到所述待测试周期成分数对应的第一目标统计量。
在一个示例性的实施方式中,所述预测业务数据集确定模块,具体用于:基于预设对数链接函数,将所述最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个所述采样时间对应的预测业务数据。
在一个示例性的实施方式中,所述最佳概率分布确定模块,包括:
似然值确定模块,用于对于所述多个不同的预设概率分布中的任意两个预设概率分布,基于所述预测业务数据集确定所述任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值;
第九确定模块,用于基于所述第一似然值与所述第二似然值之间的差值得到似然差值,基于所述第一似然值与所述第二似然值之间的比值得到对数似然比;
参数量差值确定模块,用于确定所述任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值;
第十确定模块,用于基于所述似然差值、所述对数似然比、所述参数量差值和所述预测业务数据集的长度,确定所述任意两个预设概率分布对应的第二目标统计量;
候选概率分布确定模块,用于基于所述任意两个预设概率分布所对应第二目标统计量的显著程度,从所述任意两个预设概率分布中确定候选预设概率分布;
第十一确定模块,用于基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则的指标值,基于每个候选预设概率分布对应目标信息准则的指标值,从所述至少一个候选预设概率分布确定最佳预设概率分布。
在一个示例性的实施方式中,所述最佳概率分布确定模块,还包括:
选择结果获取模块,用于获取针对多个预设信息准则的选择结果;
第十二确定模块,用于在所述选择结果指示存在被选取的预设信息准则时,将所述被选取的预设信息准则确定为所述目标信息准则;所述被选取的预设信息准则基于响应于针对所述多个预设信息准则的选择指令确定;
第十三确定模块,用于在所述选择结果指示不存在被选取的预设信息准则时,将预置信息准则确定为所述目标信息准则。
在一个示例性的实施方式中,所述业务特征确定模块,包括:
参数估计值确定模块,用于基于所述最佳预设概率分布对应的分布拟合结果,确定所述最佳预设概率分布所对应分布参数的参数估计值;所述分布参数包括均值参数和标准差参数;
置信范围确定模块,用于基于所述均值参数的参数估计值和所述标准差参数的参数估计值,确定预设概率的置信范围,得到所述目标业务的业务特征信息。
在一个示例性的实施方式中,所述装置还包括:
待处理数据获取模块,用于获取所述目标业务的待处理业务数据;
异常数据确定模块,用于在所述待处理业务数据与所述业务特征信息不匹配的情况下,确定所述待处理业务数据为异常业务数据。
在一个示例性的实施方式中,所述装置还包括:
分布视图生成模块,用于基于所述最佳预设概率分布对应的分布拟合结果,生成分布视图;
视图展示模块,用于展示所述分布视图。
在一个示例性的实施方式中,所述业务数据集获取模块,包括:
待分析数据集获取模块,用于获取目标业务的待分析数据集;所述待分析数据集中的每个待分析数据对应有预设分组属性的属性值,每个所述待分析数据表征指定事件在对应采样时间的发生次数;
划分模块,用于基于所述待分析数据集中各待分析数据的所述属性值,将所述待分析数据集划分为多个待分析数据组;每个所述待分析数据组中的待分析数据具有相同的所述属性值;
业务数据集确定模块,用于将所述多个待分析数据组中的各待分析数据组分别作为所述业务数据集;
其中,所述目标业务的业务特征信息基于每个所述业务数据集对应所述目标业务的业务特征信息得到。
另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述任一方面的数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述任一方面的数据处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一方面的数据处理方法。
本发明实施例通过获取目标业务的业务数据集,利用多个不同的周期成分数分别对该业务数据集进行余弦拟合,并基于每个周期成分数对应的余弦拟合程度,从该多个不同的周期成分数中确定最佳周期成分数,进而基于该最佳周期成分数对应的余弦拟合结果确定每个采样时间对应的预测业务数据得到预测业务数据集,并进一步利用多个不同的预设概率分布分别对该预测业务数据集进行分布拟合,基于每个预设概率分别对应的分布拟合程度从多个不同的预设概率分布中确定最佳预设概率分布,进而基于该最佳预设概率分布所对应分布拟合结果的分布参数确定目标业务的业务特征信息,从而结合了余弦回归和多个不同的预设概率分布来处理统计数据类型的业务数据集,并自动匹配最适合该业务数据集的最佳成分数和最佳预设概率分布,提高了对该业务数据集规律分析的准确性,进而提高了相应目标业务对应业务特征信息的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图2是本发明实施例提供的另一种数据处理方法的流程示意图;
图3是本发明实施例提供的另一种数据处理方法的流程示意图;
图4是本发明实施例提供的另一种数据处理方法的流程示意图;
图5是本发明实施例提供的另一种数据处理方法的流程示例;
图6是本发明实施例提供的一种数据处理装置的结构框图;
图7是本发明实施例提供的一种电子设备的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提供了一种数据处理方法,该数据处理方法可应用于本申请实施例的数据处理装置,该数据处理装置可以配置于电子设备中。其中,电子设备可以终端或者服务器。
终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。
服务器可以是为终端提供后台数据处理服务的服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个示例性的实施方式中,终端和服务器均可以是区块链系统中的节点设备,能够将获取到以及生成的信息共享给区块链系统中的其他节点设备,实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链,该区块链由多个区块组成,并且前后相邻的区块具有关联关系,使得任一区块中的数据被篡改时都能通过下一区块检测到,从而能够避免区块链中的数据被篡改,保证区块链中数据的安全性和可靠性。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
而随着云时代的来临,大数据也吸引了越来越多的关注,大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本申请实施例的数据处理方法可以应用于广告、金融、云服务领域的数据分析系统,基于本申请实施例的数据处理方法可以分析数据的规律性,从而可以应用于相应领域的具体业务中。例如,广告领域的广告推荐业务,金融领域和云服务领域的异常检测业务等。
请参阅图1,其所示为本申请实施例提供的一种数据处理方法的流程示意图。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,该方法可以包括:
S101,获取目标业务的业务数据集,该业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数。
以目标业务是异常交易检测业务为例,业务数据集中的每个业务数据可以为相应采样时间内的交易(即指定事件)的发生次数。以目标业务是广告推荐业务为例,业务数据集中的每个业务数据可以为相应采样时间内的广告点击(即指定事件)的次数。
S103,利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数。
其中,最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度。该剩余周期成分数为多个不同的周期成分数中除最佳周期成分数之外的任一周期成分数。例如,多个不同的周期成分数为{1,2,3,4},假设最佳周期成分数为3,则剩余周期成分数包括1、2、4。
其中,周期成分数是指周期成分的数量。周期成分是指余弦回归模型中用于描述数据规律的组成部分,余弦回归模型可以通过多个余弦波的线性组合来描述数据的周期变化,其中,用于描述数据规律的组成部分例如可以包括规律性参数中线估计统计(表示某个周期内数据的中间水平)、振幅和峰值等参数。
通常当使用一个周期成分数的余弦回归模型无法很好地描述给定数据集时,就需要增加周期成分的数量,但增加周期成分的数量会增加余弦回归模型的复杂度,可能会导致余弦回归模型过拟合,进而无法实现对给定数据集的准确描述。
本申请实施例中,最佳周期成分数对应的余弦拟合结果也可以称之为余弦回归模型或余弦拟合对象,可以确保既不过拟合也不欠拟合,实现对业务数据集的准确描述。
其中,多个不同的周期成分数可以为预先设定,例如为{1,2,3,4}。
具体的实施中,对业务数据集的余弦拟合可以基于以下公式(1)实现:
(1)
其中,t表示采样时间;N表示周期成分数;和/>表示相应周期成分数的振幅;M表示规律的中线统计量;P表示观察到的规律的主周期;/>是误差项,具体实施中可以忽略。实际应用中,通常规律的主周期P是已知的,例如在分析昼夜规律时,主周期被设置为24小时。当规律的主周期P已知时,上述公式(1)可以简化为以下公式(2)的线性表示:
(2)
其中,;/>
在一些示例性的实施方式中,基于更复杂的模型不能更好地描述给定数据集的假设,上述步骤S103在实施基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数时,可以包括以下步骤:
(1)基于所述多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对,每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数。
(2)对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和。
(3)确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值。
(4)基于所述第一残差平方和、所述第二残差平方和、所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量,该第一目标统计量表征所述第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性。
具体的实施中,可以确定第一残差平方和与第二残差平方和之间的差值得到第三差值;接着,确定该第三差值与第二残差平方和之比得到第一比值;确定第一差值与第二差值之间的差异,并确定该差异与第二差值之比得到第二比值;然后,将第一比值除以第二比值,得到待测试周期成分数对应的第一目标统计量。
具体的实施中,可以基于以下公式(3)来计算第一目标统计量:
(3)
其中,F表示第一目标统计量;表示第一残差平方和,/>表示第二残差平方和;/>表示第一差值,/>,n表示业务数据集的长度(即业务数据集中业务数据的数量),r1表示第一周期成分数;/>表示第二差值,/>,r2表示第二周期成分数。
(5)基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数,进而可以得到至少一个候选周期成分数。
具体的,若第一目标统计量表征第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间没有显著差异性,则将第一周期成分数确定为该待测试周期成分数对应的候选周期成分数;反之,若第一目标统计量表征第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间有显著差异性,则将第二周期成分数确定为该待测试周期成分数对应的候选周期成分数。
(6)基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数。
具体的,可以基于至少一个候选周期成分数分别对应的残差平方和,选取最小残差平方和对应的候选周期成分数作为最佳周期成分数。
上述实施方式自动识别出业务数据集对应余弦回归模型的最佳周期成分数,从而可以在确保准确描述业务数据集的同时避免过度拟合,降低余弦拟合结果的复杂度,有利于节省后续计算资源。
S105,基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集。
具体的,可以基于预设对数链接函数,将最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个采样时间对应的预测业务数据。
示例性的,预设对数链接函数可以采用以下公式(4)所示的自然对数链接函数:
(4)
其中,r表示自变量的数量;表示回归系数;/>表示预测值。
那么,将上述自然对数链接函数与最佳周期成分数的余弦拟合结果相结合可以得到以下公式(5):
(5)
其中,表示最佳周期成分数。
举例而言,假设最佳周期成分数为1,则其对应的余弦拟合结果可以表示为,那么基于以上公式(5)可以得到:,进而可以将该余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个采样时间对应的预测业务数据,进而得到最终的预测业务数据集。
S107,利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布。
其中,最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度。
本申请实施例中,多个不同的预设概率分布可以包括泊松分布、广义泊松分布、零膨胀泊松分布、负二项式分布、零膨胀负二项分布。每个预设概率分布对预测业务数据集进行分布拟合得到的分布拟合结果也可以称之为预设概率分布模型或者预设概率分布对象。
泊松分布属于广义线性分布的类型,若观测数据服从参数为/>的泊松分布可以表示为以下公式(6):
(6)
其中,参数是平均期望值,表示单位时间内事件发生次数的平均值。泊松分布的均值/>等于平均期望值/>。因此该分布假设方差/>等于均值/>
广义泊松分布是泊松分布的扩展,主要区别是广义泊松分布能够放宽泊松分别的限制,即平均值不必等于方差/>。这使得广义泊松分布适用于过度离散和欠离散的数据,通过引入一个新参数/>来描述离散程度的水平,则广义泊松分布可以表示为以下公式(7):
(7)
其中,均值等于/>,方差/>等于/>。利用以下公式(8)可以估计参数离散度/>的初始值:
(8)
其中,p可以取值为1;n为观察数据集的大小即观察数据集中观察数据的数量;表示第i个观察数据;/>表示观察数据集中观察数据的平均值。具体的实施中,可以利用最大似然估计来估计参数/>的真实值以及其他回归系数。
规律事件通常会产生一些数据,其中值为0的频率远高于其他值的频率。零膨胀泊松分布考虑到零的过剩,在分布中添加了一个额外的因素,即它遵循以下公式(9)所示的分布:
(9)
其中,是额外零的概率,/>是预期泊松统计。
负二项式分布可用于描述过度分散和欠分散数据,该分布的方差定义为,其中/>是分散参数,/>是均值。如果将参数/>设为0,则方差趋于均值,负二项式分布就成为泊松分布。负二项式分布的一种可能的参数化形式如以下公式(10)所示:
(10)
其中,表示伽马函数;参数/>可以用不同的方法估计,例如使用辅助的OLS(Ordinary Least Squares,普通最小二乘回归)回归。
零膨胀负二项分布具有与零膨胀泊松分布相似的特点,因此适用于处理具有过多零值的数据。零膨胀负二项分可以表示为以下公式(11):
(11)
其中,表示额外零值的概率;/>表示负二项分布(参见前述公式(10))。
在一些示例性的实施方式中,上述步骤S107在实施基于每个预设概率分布对应的分布拟合程度,从多个不同的预设概率分布中确定最佳预设概率分布时可以包括以下步骤:
(1)对于所述多个不同的预设概率分布中的任意两个预设概率分布,基于所述预测业务数据集确定所述任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值。
(2)基于所述第一似然值与所述第二似然值之间的差值得到似然差值,基于所述第一似然值与所述第二似然值之间的比值得到对数似然比。
(3)确定所述任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值。
(4)基于所述似然差值、所述对数似然比、所述参数量差值和所述预测业务数据集的长度,确定所述任意两个预设概率分布对应的第二目标统计量。
具体的实施中,可以基于以下公式(12)和公式(13)确定任意两个预设概率分布对应的第二目标统计量:
(12)
(13)
其中,Z表示第二目标统计量;A、B表示任意两个预设概率分布;表示任意两个预设概率分布中预设概率分布A的似然值(可以称之为第一似然值);/>表示任意两个预设概率分布中预设概率分布B的似然值(可以称之为第二似然值);/>表示预设概率分布A对应的参数数量,/>表示预设概率分布B对应的参数数量,/>表示参数量差值;n表示预测业务数据集的长度(即预测业务数据集中预测业务数据的数量);/>表示点间对数似然比的平方和均值,/>,其中,/>为对数似然比。
(5)基于所述任意两个预设概率分布所对应第二目标统计量的显著程度,从所述任意两个预设概率分布中确定候选预设概率分布。
具体的,可以将该第二目标统计量与预设显著性阈值进行对比,若该第二目标统计量小于预设显著性阈值,以上述公式(12)和公式(13)所示的预设概率分布A和预设概率分布B为例,则将预设概率分布B确定为候选预设概率分布;反之,若该第二目标统计量大于或者等于预设显著性阈值,则预设概率分布A确定为候选预设概率分布。其中,预设显著性阈值可以基于实际经验进行设定,例如可以设置为0.05。
采用上述步骤(1)至(5),针对多个不同的预设概率分布可以得到至少一个候选预设概率分布。
(6)基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则的指标值,基于每个候选预设概率分布对应目标信息准则的指标值,从所述至少一个候选预设概率分布确定最佳预设概率分布。
其中,目标信息准则可以是AIC(Akaike Information Criterion)准则、贝叶斯准则等。具体的,可以将目标信息准则的指标值所指示的最优候选预设概率分布确定为最佳预设概率分布。
在一些可能的实施方式中,为了提高数据处理的灵活性,在上述步骤(6)之前,该方法还可以包括:
获取针对多个预设信息准则的选择结果;
在该选择结果指示存在被选取的预设信息准则时,将该被选取的预设信息准则确定为目标信息准则,其中被选取的预设信息准则基于响应于针对所述多个预设信息准则的选择指令确定;
在该选择结果指示不存在被选取的预设信息准则时,将预置信息准则确定为所述目标信息准则。
具体的,多个预设信息准则可以基于实际需要进行设定,例如可以是AIC准则和贝叶斯准则。预置信息准则可以理解为默认的信息准则,可以基于实际经验设定为任意的信息准则。
具体的实施中,可以向用户展示多个预设信息准则,并允许用户从多个预设信息准则中选取期望采用的预设信息准则,若用户选取了期望的预设信息准则,那么选取结果中将存在被选取的预设信息准则;若用户为选取任何的预设信息准则,那么选取结果中将不存在被选取的预设信息准则。实际应用中,每个预设信息准则可以配置对应的标签值,如采用不同的编号1,2,3等指示不同的预设信息准则,若用户选取了期望的预设信息准则,则选取结果基于该被选取的预设信息准则的标签值生成。
上述实施方式自动识别出最适合数据集的预设概率分布,提高了数据处理的准确性。
S109,基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息。
具体的,目标业务的业务特征信息的确定可以是:首先,基于最佳预设概率分布对应的分布拟合结果,确定该最佳预设概率分布对应分布参数的参数估计值,其中分布参数包括均值参数和标准差参数;接着,基于所述均值参数的参数估计值和所述标准差参数的参数估计值,确定预设概率的置信范围,该预设概率的置信范围作为目标业务的业务特征信息。
其中,预设概率也可以称之为置信度,以预设概率是95%为例,则置信范围可以通过以下公式(14)计算得到:
(14)
其中,均值参数的参数估计值;/>为标准差参数的参数估计值。
由本申请实施例的上述技术方案可见,本申请实施例通过结合了余弦回归和多个不同的预设概率分布来处理统计数据类型的业务数据集,并自动匹配最适合该业务数据集的最佳成分数和最佳预设概率分布,提高了对该业务数据集规律分析的准确性,进而提高了相应目标业务对应业务特征信息的准确性。
在一些示例性的实施方式中,如图2所示的另一种数据处理方法的流程示意图,在得到目标业务的业务特征信息之后,该方法还可以包括:
S201,获取所述目标业务的待处理业务数据。
S203,在所述待处理业务数据与所述业务特征信息不匹配的情况下,确定所述待处理业务数据为异常业务数据。
具体的,若待处理业务数据属于预设概率的置信范围内,则该待处理业务数据与业务特征信息相匹配;反之,若待处理业务数据超出预设概率的置信范围,则该待处理业务数据与业务特征信息不匹配,此时可以确定待处理业务数据为异常业务数据,从而提高了对于异常业务数据检测的准确性。
在一些示例性的实施方式中,如图3所示的另一种数据处理方法的流程示意图,该方法还可以包括:
S301,基于所述最佳预设概率分布对应的分布拟合结果,生成分布视图。
S303,展示所述分布视图。
通过将最佳预设概率分布对应的分布拟合结果生成分布视图并展示,可用于直观解释所获得的数据处理结果。
在一些示例性的实施方式中,如图4所示的另一种数据处理方法的流程示意图,前述步骤S101,获取目标业务的业务数据集可以包括:
S401,获取目标业务的待分析数据集。
其中,待分析数据集中的每个待分析数据对应有预设分组属性的属性值,每个待分析数据表征指定事件在对应采样时间的发生次数。
其中,预设分组属性可以基于实际应用中需要来选取,例如可以是性别属性,则属性值可以包括男性、女性、其他。
S403,基于所述待分析数据集中各待分析数据的所述属性值,将所述待分析数据集划分为多个待分析数据组,每个所述待分析数据组中的待分析数据具有相同的所述属性值。
以上述分组属性是性别属性为例,可以将待分析数据集划分为第一待分析数据组、第二待分析数据组和第三待分析数据组,其中,第一待分析数据组中各待分析数据对应性别属性的属性值均为男性,第二待分析数据组中各待分析数据对应性别属性的属性值均为女性,第三待分析数据组中各待分析数据对应性别属性的属性值均为其他。
S405,将所述多个待分析数据组中的各待分析数据组分别作为所述业务数据集。
那么,对于每个待分析数据组可以执行前述图1所示的方法实施例,从而可以得到每个待分析数据组(即业务数据集)对应目标业务的业务特征信息。
S407,基于每个所述业务数据集对应目标业务的业务特征信息,得到最终目标业务的业务特征信息。
示例性的,可以计算多个待分析数据组分别对应目标业务的业务特征信息的均值,将该均值作为最终目标业务的业务特征信息。
当然,还可以对各待分析数据组对应目标业务的业务特征信息进行比较分析处理。
实际应用中,业务数据集可以通过pandas函数read_csv()导入,该函数将一个逗号分隔的值(CSV)文件读取到一个DataFrame中。输入CSV文件有两列名为X列和Y列,X列为采样时间(例如一天的小时数或一周的某一天),Y列为指定事件在采样时间的发生次数。基于本申请实施例的数据处理方法针对CSV文件可以回归得到一个以列X为自变量,列Y为因变量的最佳分布拟合对象,进而得到业务特征信息。CSV文件还可以有一个名为任意名称的附加列(表示分组属性,如性别)。
另外,本申请实施例中参数值的数值估计可以使用Python内置函数(如min和max)和SciPy函数signal.find_peaks。
为了便于理解本申请实施例的技术方案,下面结合图5的示例进行说明。
如图5所示,首先,读取业务数据集(X,Y)并对该业务数据集进行清洗。具体的,可以使用pandas函数读取数据,以确保业务数据集的完整性和准确性;清洗业务数据集可以包括处理缺失值、异常值和重复值等,以确保数据的质量。
接着,判断是否存在用户指定的预设概率分布,若判断的结果为是,则从预设概率分布列表中获取用户指定的预设概率分布作为最佳预设概率分布,进而利用该最佳预设概率分布对读取的业务数据集进行分布拟合并基于该分布拟合结果的分布参数,确定业务特征信息。若判断的结果为不存在用户指定的预设概率分布,那么进一步判断是否存在用户指定的周期成分数,若存在用户指定的周期成分数,则从周期成分数列表中获取用户指定的周期成分数作为最佳周期成分数N。若判断的结果为不存在用户指定的周期成分数,则遍历多个不同的周期成分数,对于遍历到的每个周期成分数使用该周期成分数对业务数据集进行余弦拟合并确定对应的余弦拟合程度,进而在遍历结束时基于每个周期成分数对应的余弦拟合程度选取最佳周期成分数N。
接着,可以利用最佳周期成分数N对业务数据集进行余弦拟合的余弦拟合结果确定采样时间X对应的预测业务数据得到预测业务数据集。利用多个预设概率分布分别对预测业务数据集进行分布拟合,并基于各预设概率分布对应的分布拟合程度确定最佳预设概率分布。在确定了最佳预设概率分布之后,可以基于最佳预设概率分布所对应分布拟合结果中的分布参数确定业务特征信息,还可以利用该最佳预设概率分布对应的分布拟合结果生成预测回归值
实际应用中,为了确保分布拟合结果的准确性和鲁棒性,在生成预设分布值之后,还可以再次遍历多个不同的周期成分数,以进一步优化所选取的最佳预设概率分布,进而提高最终业务特征信息的准确性。
与上述几种实施例提供的数据处理方法相对应,本发明实施例还提供一种数据处理装置,由于本发明实施例提供的数据处理装置与上述几种实施例提供的数据处理方法相对应,因此前述数据处理方法的实施方式也适用于本实施例提供的数据处理装置,在本实施例中不再详细描述。
请参阅图6,其所示为本发明实施例提供的一种数据处理装置的结构示意图,该装置具有实现上述方法实施例中数据处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图6所示,该数据处理装置600可以包括:
业务数据集获取模块610,用于获取目标业务的业务数据集;该业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;
最佳周期成分数确定模块620,用于利用多个不同的周期成分数分别对该业务数据集进行余弦拟合,基于每个该周期成分数对应的余弦拟合程度,从该多个不同的周期成分数中确定最佳周期成分数;该最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;
预测业务数据集确定模块630,用于基于该最佳周期成分数对应的余弦拟合结果,确定每个该采样时间对应的预测业务数据,得到预测业务数据集;
最佳概率分布确定模块640,用于利用多个不同的预设概率分布分别对该预测业务数据集进行分布拟合,基于每个该预设概率分布对应的分布拟合程度,从该多个不同的预设概率分布中确定最佳预设概率分布;该最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;
业务特征确定模块650,用于基于该最佳预设概率分布所对应分布拟合结果的分布参数,确定该目标业务的业务特征信息。
在一个示例性的实施方式中,该最佳周期成分数确定模块620,包括:
第一确定模块,用于基于该多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个该待测试周期成分数对包括第一周期成分数和第二周期成分数,该第一周期成分数小于该第二周期成分数;
残差计算模块,用于对于每个该待测试周期成分数,基于该第一周期成分数和该第二周期成分数分别对应的余弦拟合结果,分别对该业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;
第二确定模块,用于确定该业务数据集的长度与该第一周期成分数之间的第一差值,以及该业务数据集的长度与该第二周期成分数之间的第二差值;
第一统计量确定模块,用于基于该第一残差平方和、该第二残差平方和、该第一差值和该第二差值,确定该待测试周期成分数对应的第一目标统计量;该第一目标统计量表征该第一周期成分数对应的余弦拟合程度与该第二周期成分数对应的余弦拟合程度之间的显著差异性;
第三确定模块,用于基于该待测试周期成分数对应的第一目标统计量,从该待测试周期成分数中确定候选周期成分数;
第四确定模块,用于基于至少一个候选周期成分数分别对应的残差平方和,从该至少一个候选周期成分数中确定最佳周期成分数。
在一个示例性的实施方式中,该第一统计量确定模块,包括:
第五确定模块,用于确定该第一残差平方和与该第二残差平方和之间的差值,得到第三差值;
第六确定模块,用于确定该第三差值与该第二残差平方和之比,得到第一比值;
第七确定模块,用于确定该第一差值与该第二差值之间的差异,并确定该差异与该第二差值之比,得到第二比值;
第八确定模块,用于将该第一比值除以该第二比值,得到该待测试周期成分数对应的第一目标统计量。
在一个示例性的实施方式中,该预测业务数据集确定模块630,具体用于:基于预设对数链接函数,将该最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个该采样时间对应的预测业务数据。
在一个示例性的实施方式中,该最佳概率分布确定模块640,包括:
似然值确定模块,用于对于该多个不同的预设概率分布中的任意两个预设概率分布,基于该预测业务数据集确定该任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值;
第九确定模块,用于基于该第一似然值与该第二似然值之间的差值得到似然差值,基于该第一似然值与该第二似然值之间的比值得到对数似然比;
参数量差值确定模块,用于确定该任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值;
第十确定模块,用于基于该似然差值、该对数似然比、该参数量差值和该预测业务数据集的长度,确定该任意两个预设概率分布对应的第二目标统计量;
候选概率分布确定模块,用于基于该任意两个预设概率分布所对应第二目标统计量的显著程度,从该任意两个预设概率分布中确定候选预设概率分布;
第十一确定模块,用于基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则的指标值,基于每个候选预设概率分布对应目标信息准则的指标值,从该至少一个候选预设概率分布确定最佳预设概率分布。
在一个示例性的实施方式中,该最佳概率分布确定模块640,还包括:
选择结果获取模块,用于获取针对多个预设信息准则的选择结果;
第十二确定模块,用于在该选择结果指示存在被选取的预设信息准则时,将该被选取的预设信息准则确定为该目标信息准则;该被选取的预设信息准则基于响应于针对该多个预设信息准则的选择指令确定;
第十三确定模块,用于在该选择结果指示不存在被选取的预设信息准则时,将预置信息准则确定为该目标信息准则。
在一个示例性的实施方式中,该业务特征确定模块650,包括:
参数估计值确定模块,用于基于该最佳预设概率分布对应的分布拟合结果,确定该最佳预设概率分布所对应分布参数的参数估计值;该分布参数包括均值参数和标准差参数;
置信范围确定模块,用于基于该均值参数的参数估计值和该标准差参数的参数估计值,确定预设概率的置信范围,得到该目标业务的业务特征信息。
在一个示例性的实施方式中,该装置600还包括:
待处理数据获取模块,用于获取该目标业务的待处理业务数据;
异常数据确定模块,用于在该待处理业务数据与该业务特征信息不匹配的情况下,确定该待处理业务数据为异常业务数据。
在一个示例性的实施方式中,该装置600还包括:
分布视图生成模块,用于基于该最佳预设概率分布对应的分布拟合结果,生成分布视图;
视图展示模块,用于展示该分布视图。
在一个示例性的实施方式中,该业务数据集获取模块610,包括:
待分析数据集获取模块,用于获取目标业务的待分析数据集;该待分析数据集中的每个待分析数据对应有预设分组属性的属性值,每个该待分析数据表征指定事件在对应采样时间的发生次数;
划分模块,用于基于该待分析数据集中各待分析数据的该属性值,将该待分析数据集划分为多个待分析数据组;每个该待分析数据组中的待分析数据具有相同的该属性值;
业务数据集确定模块,用于将该多个待分析数据组中的各待分析数据组分别作为该业务数据集。
其中,该目标业务的业务特征信息基于每个该业务数据集对应该目标业务的业务特征信息得到。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的任意一种数据处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行,即上述电子设备可以包括计算机终端、服务器或者类似的运算装置。以运行在服务器上为例,图7是本申请实施例提供的运行一种数据处理方法的服务器的硬件结构框图,如图7所示,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730,一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中,存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器710可以设置为与存储介质720通信,在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口740,和/或,一个或一个以上操作系统721,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中,输入输出接口740包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口740可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种数据处理方法相关的至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的任意一种数据处理方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一方面的数据处理方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标业务的业务数据集;所述目标业务为异常交易检测业务,所述业务数据集中的业务数据为在对应采样时间内的交易的发生次数;
利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于所述多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数;对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值;基于所述第一残差平方和、所述第二残差平方和、所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量,所述第一目标统计量表征所述第一周期成 分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性;其中,所述周期成分数是指周期成分的数量,所述周期成分是指余弦回归模型中用于描述数据规律的参数;
基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数;基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数,所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;
基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;
利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;
基于所述最佳预设概率分布对应的分布拟合结果,确定所述最佳预设概率分布所对应分布参数的参数估计值,所述分布参数包括均值参数和标准差参数;基于所述均值参数的参数估计值和所述标准差参数的参数估计值,确定预设概率的置信范围;
获取所述目标业务的待处理业务数据,在所述待处理业务数据与所述置信范围不匹配的情况下,确定所述待处理业务数据为异常业务数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一残差平方和、所述第二残差平方和、所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量包括:
确定所述第一残差平方和与所述第二残差平方和之间的差值,得到第三差值;
确定所述第三差值与所述第二残差平方和之比,得到第一比值;
确定所述第一差值与所述第二差值之间的差异,并确定所述差异与所述第二差值之比,得到第二比值;
将所述第一比值除以所述第二比值,得到所述待测试周期成分数对应的第一目标统计量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,包括:
基于预设对数链接函数,将所述最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个所述采样时间对应的预测业务数据。
4.根据权利要求1所述的方法,其特征在于,所述基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布,包括:
对于所述多个不同的预设概率分布中的任意两个预设概率分布,基于所述预测业务数据集确定所述任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值;
基于所述第一似然值与所述第二似然值之间的差值得到似然差值,基于所述第一似然值与所述第二似然值之间的比值得到对数似然比;
确定所述任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值;
基于所述似然差值、所述对数似然比、所述参数量差值和所述预测业务数据集的长度,确定所述任意两个预设概率分布对应的第二目标统计量;
基于所述任意两个预设概率分布所对应第二目标统计量的显著程度,从所述任意两个预设概率分布中确定候选预设概率分布;
基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则的指标值,基于每个候选预设概率分布对应目标信息准则的指标值,从所述至少一个候选预设概率分布确定最佳预设概率分布。
5.根据权利要求4所述的方法,其特征在于,在所述基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应预设信息准则的指标值之前,所述方法还包括:
获取针对多个预设信息准则的选择结果;
在所述选择结果指示存在被选取的预设信息准则时,将所述被选取的预设信息准则确定为所述目标信息准则;所述被选取的预设信息准则基于响应于针对所述多个预设信息准则的选择指令确定;
在所述选择结果指示不存在被选取的预设信息准则时,将预置信息准则确定为所述目标信息准则。
6.根据权利要求1所述的方法,其特征在于,所述基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息,包括:
基于所述最佳预设概率分布对应的分布拟合结果,确定所述最佳预设概率分布所对应分布参数的参数估计值;所述分布参数包括均值参数和标准差参数;
基于所述均值参数的参数估计值和所述标准差参数的参数估计值,确定预设概率的置信范围,得到所述目标业务的业务特征信息。
7.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:
基于所述最佳预设概率分布对应的分布拟合结果,生成分布视图;
展示所述分布视图。
8.根据权利要求1~5中任一项所述的方法,其特征在于,所述获取目标业务的业务数据集,包括:
获取目标业务的待分析数据集;所述待分析数据集中的每个待分析数据对应有预设分组属性的属性值,每个所述待分析数据表征指定事件在对应采样时间的发生次数;
基于所述待分析数据集中各待分析数据的所述属性值,将所述待分析数据集划分为多个待分析数据组;每个所述待分析数据组中的待分析数据具有相同的所述属性值;
将所述多个待分析数据组中的各待分析数据组分别作为所述业务数据集;
其中,所述目标业务的业务特征信息基于每个所述业务数据集对应所述目标业务的业务特征信息得到。
9.一种数据处理装置,其特征在于,所述装置包括:
业务数据集获取模块,用于获取目标业务的业务数据集;所述目标业务为异常交易检测业务,所述业务数据集中的业务数据为在对应采样时间内的交易的发生次数;
最佳周期成分数确定模块,用于基于多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数;对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值;基于所述第一残差平方和、所述第二残差平方和、所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量,所述第一目标统计量表征所述第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性;基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数;基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数,所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;其中,所述周期成分数是指周期成分的数量,所述周期成分是指余弦回归模型中用于描述数据规律的参数;
预测业务数据集确定模块,用于基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;
最佳概率分布确定模块,用于利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;
业务特征确定模块,用于基于所述最佳预设概率分布对应的分布拟合结果,确定所述最佳预设概率分布所对应分布参数的参数估计值,所述分布参数包括均值参数和标准差参数;基于所述均值参数的参数估计值和所述标准差参数的参数估计值,确定预设概率的置信范围;
待处理数据获取模块,用于获取所述目标业务的待处理业务数据;
异常数据确定模块,用于在所述待处理业务数据与所述置信范围不匹配的情况下,确定所述待处理业务数据为异常业务数据。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1~8任一项所述的数据处理方法。
CN202311327391.3A 2023-10-13 2023-10-13 一种数据处理方法、装置、电子设备及存储介质 Active CN117056663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311327391.3A CN117056663B (zh) 2023-10-13 2023-10-13 一种数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311327391.3A CN117056663B (zh) 2023-10-13 2023-10-13 一种数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117056663A CN117056663A (zh) 2023-11-14
CN117056663B true CN117056663B (zh) 2024-02-13

Family

ID=88667835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311327391.3A Active CN117056663B (zh) 2023-10-13 2023-10-13 一种数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117056663B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム
CN105491043A (zh) * 2015-12-08 2016-04-13 广州华多网络科技有限公司 一种数据处理方法以及装置
CN105637331A (zh) * 2013-10-21 2016-06-01 株式会社日立高新技术 异常检测装置、异常检测方法及计算机可读取的存储介质
KR20180117460A (ko) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 트랜드 분석에 기반하는 이슈 검출방법 및 그 장치
CN112800116A (zh) * 2021-04-08 2021-05-14 腾讯科技(深圳)有限公司 一种业务数据的异常检测方法及装置
CN113626492A (zh) * 2021-07-21 2021-11-09 上海浦东发展银行股份有限公司 周期规律检测方法、装置、计算机设备和存储介质
CN116662526A (zh) * 2023-04-26 2023-08-29 广东石油化工学院 一种面向时空多源数据的数据挖掘与融合方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム
CN105637331A (zh) * 2013-10-21 2016-06-01 株式会社日立高新技术 异常检测装置、异常检测方法及计算机可读取的存储介质
CN105491043A (zh) * 2015-12-08 2016-04-13 广州华多网络科技有限公司 一种数据处理方法以及装置
KR20180117460A (ko) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 트랜드 분석에 기반하는 이슈 검출방법 및 그 장치
CN112800116A (zh) * 2021-04-08 2021-05-14 腾讯科技(深圳)有限公司 一种业务数据的异常检测方法及装置
CN113626492A (zh) * 2021-07-21 2021-11-09 上海浦东发展银行股份有限公司 周期规律检测方法、装置、计算机设备和存储介质
CN116662526A (zh) * 2023-04-26 2023-08-29 广东石油化工学院 一种面向时空多源数据的数据挖掘与融合方法

Also Published As

Publication number Publication date
CN117056663A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
US20210326729A1 (en) Recommendation Model Training Method and Related Apparatus
US10489363B2 (en) Distributed FP-growth with node table for large-scale association rule mining
CN114116828A (zh) 多维网络指标的关联规则分析方法、设备和存储介质
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113867966A (zh) 一种混合云模式的云资源调度方法
US20140214826A1 (en) Ranking method and system
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116578911A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN109409411B (zh) 基于运维管理的问题定位方法、装置及存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN110968835A (zh) 一种近似分位数计算方法及装置
CN111815442B (zh) 一种链接预测的方法、装置和电子设备
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN113961797A (zh) 资源推荐方法、装置、电子设备和可读存储介质
CN110362603B (zh) 一种特征冗余性分析方法、特征选择方法和相关装置
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112799928A (zh) 基于知识图谱的工业app关联性分析方法、装置及介质
CN112527622A (zh) 一种性能测试结果分析方法和装置
WO2014117566A1 (en) Ranking method and system
CN113643080B (zh) 一种密封制品的营销对象匹配方法及系统
CN116383520A (zh) 识别关键异常用户的方法、装置、电子设备和介质
CN116610581A (zh) 一种测试结果生成方法及装置
CN113850499A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN118096413A (zh) 营业收入的计算方法及装置、程序产品、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant