CN117950880B - 一种业务数据处理方法、装置、设备及存储介质 - Google Patents
一种业务数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117950880B CN117950880B CN202410351698.5A CN202410351698A CN117950880B CN 117950880 B CN117950880 B CN 117950880B CN 202410351698 A CN202410351698 A CN 202410351698A CN 117950880 B CN117950880 B CN 117950880B
- Authority
- CN
- China
- Prior art keywords
- data
- participation
- index
- business
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 200
- 230000003993 interaction Effects 0.000 claims abstract description 151
- 238000000034 method Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种业务数据处理方法、装置、设备及存储介质。本发明实施例应用于人工智能等场景,包括:获取包括针对业务任务的参与对象和非参与对象的多个业务对象各自的业务关联数据;基于业务关联数据中的参与倾向指标数据将业务关联数据进行重分配,得到多个数据处理节点各自的参与对象数据集合和非参与对象数据集合;控制每个指标子范围的数据处理节点,基于每个指标子范围的参与对象顺序信息和非参与对象顺序信息,确定每个指标子范围的参与对象匹配数据和非参与对象匹配数据;基于多个指标子范围的参与对象匹配数据和非参与对象匹配数据,确定业务关联数据中业务交互反馈数据对应的业务交互增量指标,从而降低了业务数据处理的时间复杂度。
Description
技术领域
本申请涉及计算机信息处理技术领域,尤其涉及一种业务数据处理方法、装置、设备及存储介质。
背景技术
在业务数据处理领域,可以使用倾向得分匹配算法来评估业务推广活动对内容运营业务的促进效果。现有技术中,通常使用单机的计算资源对业务对象的业务数据进行效果分析,并且在进行倾向得分匹配时,需要采用双重循环遍历的匹配方法将参与对象组中每一参与对象和非参与对象组中每一非参与对象进行数据匹配,匹配需要的时间随着数据量的增加会指数级增加,计算耗时较长。
发明内容
本申请提供了一种业务数据处理方法、装置、设备及存储介质,可以减少倾向得分匹配所需的时间,提升倾向得分匹配的效率和科学性,进而可以高效地评估业务任务对目标业务的业务交互的促进效果,本申请技术方案如下:
一方面,提供了一种业务数据处理方法,所述方法包括:
获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;所述多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的业务关联数据包括:所述每个业务对象对应的参与倾向指标数据和所述每个业务对象对应的业务交互反馈数据;
基于所述参与倾向指标数据,将所述业务关联数据重分配至所述分布式业务数据集合对应的多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;所述每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据;所述目标数据集合包括:参与对象数据集合和非参与对象数据集合;
控制每个指标子范围对应的数据处理节点,基于所述参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息;所述数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息;
基于所述每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对所述每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到所述每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据;
基于所述多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对所述目标业务进行针对所述业务交互反馈数据的业务交互增量分析,得到所述业务任务对应的业务交互增量指标。
另一方面,提供了一种业务数据处理装置,所述装置包括:
业务关联数据获取模块,用于获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;所述多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的业务关联数据包括:所述每个业务对象对应的参与倾向指标数据和所述每个业务对象对应的业务交互反馈数据;
数据重分配模块,用于基于所述参与倾向指标数据,将所述业务关联数据重分配至所述分布式业务数据集合对应的多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;所述每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据;所述目标数据集合包括:参与对象数据集合和非参与对象数据集合;
数据排序模块,用于控制每个指标子范围对应的数据处理节点,基于所述参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息;所述数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息;
对象匹配模块,用于基于所述每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对所述每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到所述每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据;
业务交互增量分析模块,用于基于所述多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对所述目标业务进行针对所述业务交互反馈数据的业务交互增量分析,得到所述业务任务对应的业务交互增量指标。
另一方面,提供了一种业务数据处理设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的业务数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的业务数据处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如第一方面所述的业务数据处理方法。
本申请提供的一种业务数据处理方法、装置、设备及存储介质,具有如下技术效果:
本申请的技术方案采用分布式业务数据集合作为数据存储结构,利用分布式系统的计算资源,使得数据计算可以在多个数据处理节点上并行进行,显著提高了业务数据的处理效率,将多个业务对象各自对应的业务关联数据分区至不同的数据处理节点,该多个业务对象可以包括:针对目标业务的业务任务的多个参与对象和多个非参与对象,每个业务对象对应的业务关联数据包括有每个业务对象对应的参与倾向指标数据和每个业务对象对应的业务交互反馈数据,每个数据处理节点对应的目标数据集合中仅包含有对应参与倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据,每个指标子范围对应的目标数据集合可以包括每个指标子范围对应的参与对象数据集合和每个指标子范围对应的非参与对象数据集合,然后基于参与对象数据集合对应的参与对象顺序信息和非参与对象数据集合对应的非参与对象顺序信息,对同一指标子范围内的参与对象数据集合和非参与对象数据集合进行数据匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,可以将倾向得分匹配的时间复杂度从O(n²)降到O(n),n表示对象匹配数量,匹配耗时从指数级增加优化为线性增加,大大减少倾向得分匹配所需的时间,提升倾向得分匹配的效率和科学性,进而基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标,可以高效地评估业务任务对目标业务的业务交互的促进效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种业务数据处理方法的流程示意图;
图3是本申请实施例提供的一种每个业务对象对应的参与倾向指标数据的生成过程的流程示意图;
图4是本申请实施例提供的另一种每个业务对象对应的参与倾向指标数据的生成过程的流程示意图;
图5是本申请实施例提供的一种基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合的流程示意图;
图6a-6c是本申请实施例提供的一种数据分区排序的示意图;
图7是本申请实施例提供的一种基于每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据的流程示意图;
图8是本申请实施例提供的一种基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标的流程示意图;
图9是本申请实施例提供的一种业务数据处理装置的组成框图;
图10是本申请实施例提供的一种业务数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于对本申请实施例的理解,下面先对几个概念进行简单介绍:
人工智能(Artificial Intelligence,AI):利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术:一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning, ML):一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
Spark:一个开源的分布式集群运算框架。
Spark.DataFrame:定义为指定到列的分布式数据集合(Dataset),一个具有良好优化技术的关系表,允许处理大量结构化数据,支持分布式计算能力,用于简化分布式大数据处理。
PySpark:是Spark的Python API,它提供了Python语言接口,并且可以通过Python编写Spark程序。
Executor:是占用设定CPU和内存资源的进程,实际执行spark任务的进程。
倾向得分匹配:简称PSM,是使用非实验数据或观测数据进行干预效应分析的一类统计方法。
本申请实施例提供的业务数据处理方法,可以应用于如图1所示的应用环境中,该应用环境中可以包括客户端10和服务器端20,客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。对象可以通过客户端10向服务器端20发送针对目标业务的业务任务的业务数据处理请求。服务器端20获取分布式业务数据集合中多个业务对象各自对应的业务关联数据,该多个业务对象可以包括:针对业务任务的多个参与对象和多个非参与对象,每个业务对象对应的业务关联数据可以包括:每个业务对象对应的参与倾向指标数据和每个业务对象对应的业务交互反馈数据,然后基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合,每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围,每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于每个数据处理节点对应的指标子范围的业务关联数据,该目标数据集合可以包括:参与对象数据集合和非参与对象数据集合,接着控制每个指标子范围对应的数据处理节点,基于参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息,该数据顺序信息可以包括:参与对象顺序信息和非参与对象顺序信息,再基于每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,最后基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标,并将业务交互增量指标反馈至客户端10。需要说明的是,图1仅仅是一种示例,本申请实施例提供的业务数据处理方法可以由客户端或服务器执行,也可以由客户端和服务器共同执行,本申请对此不做任何限制。
客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、智能家电、车载终端、飞行器等类型的实体设备,也可以是运行于实体设备中的软体,比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。
服务器端可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。
上述客户端10和服务器端20可以用于构建一个有关业务数据处理的系统,该系统可以是分布式系统。以分布式系统为区块链系统为例,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(Peer ToPeer)网络,点对点协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
上述区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
以下介绍本申请提供的一种业务数据处理方法的具体实施例,图2是本申请实施例提供的一种业务数据处理方法的流程示意图,本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的业务关联数据包括:每个业务对象对应的参与倾向指标数据和每个业务对象对应的业务交互反馈数据。
在本说明书实施例中,分布式业务数据集合可以为分布式系统中用于存储业务数据的分布式结构的数据集合,具体的,分布式业务数据集合的类型可以终端上运行的分布式计算框架确定,示意性的,分布式计算框架可以为Spark,相应的分布式业务数据集合可以为Spark.DataFrame;分布式计算框架可以为Hadoop,相应的分布式业务数据集合可以为MapReduce。
在本说明书实施例中,目标业务可以为任意需要与业务对象产生交互行为的内容运营业务,业务任务可以为内容运营业务中针对运营内容发起的业务推广活动,示意性的,目标业务可以为商品销售业务,相应的,业务任务可以为商品促销活动或者优惠券投放活动;目标业务可以为游戏运营业务,业务任务可以为游戏竞赛活动。
在本说明书实施例中,业务对象可以为与内容运营业务产生交互行为的对象,其中,参与对象可以为参与业务任务的业务对象,非参与对象可以为未参加业务任务的业务对象。可选的,这里的业务对象可以为用户,也可以为用户账号。
在本说明书实施例中,业务关联数据可以为与业务对象在目标业务中的业务交互行为关联的数据,具体的,每个业务对象对应的业务关联数据包括:每个业务对象对应的参与倾向指标数据和每个业务对象对应的业务交互反馈数据。
在本说明书实施例中,参与倾向指标数据可以表征对应业务对象被预测为参与对象的概率,具体的,参与倾向指标数据对应的数值大小与业务对象被预测为参与对象的概率呈正比。在一个具体的实施例中,参与倾向指标数据的表现形式可以为参与倾向得分。
在一个具体的实施例中,参与倾向指标数据是基于每个业务对象对应的对象特征数据,对每个业务对象进行针对业务任务的参与倾向预测后得到的。一般地,如果两个业务对象的参与倾向指标数据接近,可以认为两个业务对象的对象特征数据相似。具体的,每个业务对象对应的对象特征数据可以包括:每个业务对象对应的对象属性特征数据和每个业务对象对应的业务交互特征数据。
在一个具体的实施例中,每个业务对象对应的对象属性特征数据可以表征每个业务对象自身的基础属性特征,示意性的,对象属性特征数据可以包括但不限于:年龄、性别、对象终端型号等。
在一个具体的实施例中,每个业务对象对应的业务交互特征数据可以表征业务对象针对目标业务的业务交互行为的统计特征,业务交互特征数据可以包括:多个业务交互指标各自的指标特征数据,其中,业务交互指标可以为与目标业务的业务特性相关的用于衡量业务对象的交互行为的指标,具体的,业务交互指标可以包括但不限于:交互时长特征、交互次数特征、交互资源量特征等,业务交互指标的指标特征数据可以为业务对象在该业务交互指标下具体的特征值;例如,当目标业务为商品销售业务时,多个业务交互指标可以包括:购物车商品数量、订单数量、订单金额、商品浏览时长等;当目标业务为游戏运营业务时,多个业务交互指标可以包括:游戏登录次数、游戏在线时长、游戏充值金额等。
在本说明书实施例中,业务交互反馈数据可以用于衡量业务任务对业务对象的业务交互影响,在一些实施例中,可以从用于进行参与倾向预测的多个业务交互指标各自的指标特征数据中选择一个业务交互指标的指标特征数据作为业务交互反馈数据;在另一些实施例中,还可以选择未进行过参与倾向预测的业务交互指标的指标特征数据作为业务交互反馈数据。
在一个具体的实施例中,如图3所示,上述每个业务对象对应的参与倾向指标数据是通过如下方式生成的:
S301,获取多个业务对象各自对应的业务交互特征数据。
S302,将多个业务对象各自对应的业务交互特征数据加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合。
S303,控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据;目标业务对象为每个数据处理节点对应的特征数据集合中任一业务对象。
在本说明书实施例中,多个数据处理节点可以为用于运行分布式数据集合的分布式系统中的多个节点,具体的,数据处理节点可以指数据处理终端,也可以指数据处理终端中的数据处理进程,可选的实施例中,每个数据处理终端可以包含有至少一个数据处理进程。
在一个可选的实施例中,可以从分布式系统的分布式数据库中提取出多个业务对象各自对应的对象特征数据,再将多个业务对象各自对应的对象特征数据分配到多个数据处理节点中。
具体的,上述将多个业务对象各自对应的对象特征数据分配到多个数据处理节点中可以采用现有技术中任意的数据分区算法,本申请对此不进行特别的限定。示意性的,这里的数据分区算法可以包括但不限于:哈希分区算法、随机分区算法、轮询分区算法等。
具体的,每个数据处理节点对应的特征数据集合可以用于存储分配到自身的至少一个业务对象的对象特征数据,其中,每个业务对象对应的对象特征数据可以包括:业务交互特征数据。
在一个可选的实施例中,参与倾向预测模型可以用于根据目标业务对象对应的业务交互特征数据预测目标业务对象参与业务任务(即被预测为参与对象)的概率。具体的,参与倾向预测模型可以为现有技术中任意可以实现参与倾向预测的逻辑回归模型,本申请对此不进行特别的限定。示意性的,参与倾向预测模型可以包括但不限于:二项分布的广义线性模型等用于对连续变量进行预测的逻辑回归模型。
由以上实施例可见,将多个业务对象各自对应的业务交互特征数据加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合,并控制每个数据处理节点分别将自身特征数据集合中目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据,可以在提升参与倾向预测效率的同时,提升参与倾向指标数据的精准性。
在一个具体的实施例中,如图4所示,在上述控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据之前,上述方法还可以包括:
S304,获取多个业务对象各自对应的对象属性特征信息。
S305,将业务交互特征数据和对象属性特征信息加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合。
相应的,上述控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据可以包括:
S3031,控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据和目标业务对象对应的对象属性特征信息输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据。
具体的,每个数据处理节点对应的特征数据集合可以用于存储分配到自身的至少一个业务对象各自对应的对象特征数据,其中,每个业务对象对应的对象特征数据可以包括:每个业务对象对应的业务交互特征数据和每个业务对象对应的对象属性特征信息。
在一个可选的实施例中,参与倾向预测模型还可以用于根据目标业务对象对应的业务交互特征数据和目标业务对象对应的对象属性特征信息,对目标业务对象进行针对业务任务的参与倾向预测。具体的,参与倾向预测模型可以为现有技术中任意可以实现参与倾向预测的逻辑回归模型,本申请对此不进行特别的限定。示意性的,参与倾向预测模型可以包括但不限于:二项分布的广义线性模型等用于对连续变量进行预测的逻辑回归模型。
由以上实施例可见,控制每个数据处理节点分别将自身特征数据集合中目标业务对象对应的业务交互特征数据和目标业务对象对应的对象属性特征信息输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据,可以进一步提升参与倾向指标数据的精准性。
在一个具体的实施例中,上述参与倾向预测模型是通过如下方式训练得到的:
S10,获取样本对象对应的样本交互特征数据和样本对象对应的标注倾向指标数据。
S20,以样本交互特征数据为训练样本,标注倾向指标数据为训练样本对应的参与倾向分类结果,对待训练线性模型进行针对业务任务的参与倾向预测的回归拟合,得到训练后的线性模型。
在实际应用中,在进行模型训练之前,可以先确定训练数据,具体的,本申请实施例中,可以获取包含有标注倾向指标数据的样本对象的样本交互特征数据作为训练数据。具体的,标注倾向指标数据可以为对样本对象预先标注的任务参与分类标签。
在一个可选的实施例中,可以将步骤S201中的多个业务对象作为多个样本对象,在某一业务对象为参与对象的情况下,将该业务对象对应的样本对象的标注倾向指标数据确定为1,在某一业务对象为非参与对象的情况下,将该业务对象对应的样本对象的标注倾向指标数据确定为0。可选的,可以将每个业务对象对应的业务交互特征数据作为对应样本对象的样本交互特征数据,也可以将每个业务对象对应的业务交互特征数据和对象属性特征信息作为对应样本对象的样本交互特征数据。
在一个可选的实施例中,上述以样本交互特征数据为训练样本,标注倾向指标数据为训练样本对应的参与倾向分类结果,对待训练线性模型进行针对业务任务的参与倾向预测的回归拟合,得到训练后的线性模型可以包括:将样本对象样本交互特征数据输入待训练线性模型进行针对业务任务的参与倾向预测,得到样本对象对应的预测倾向指标数据;基于样本对象对应的预测倾向指标数据和标注倾向指标数据,确定参与预测损失信息;基于参与预测损失信息,训练待训练线性模型,得到训练后的线性模型。
S30,将训练后的线性模型,作为参与倾向预测模型。
由以上实施例可见,以样本交互特征数据为训练样本,标注倾向指标数据为训练样本对应的参与倾向分类结果,对待训练线性模型进行针对业务任务的参与倾向预测的回归拟合,得到训练后的线性模型,并将训练后的线性模型,作为参与倾向预测模型,可以提升参与倾向预测模型的预测精准性。
S202,基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于每个数据处理节点对应的指标子范围的业务关联数据;目标数据集合包括:参与对象数据集合和非参与对象数据集合。
在本说明书实施例中,预设指标范围可以表示参与倾向指标数据的取值范围,该预设指标范围可由相关业务人员根据实际应用场景设置,例如,预设指标范围可以为0~1,也可以为0~10000。
在一个具体的实施例中,预设指标范围的多个指标子范围可以结合实际应用中的对象分区数量需求和对象匹配精度需求进行预先设置,示意性的,以预设指标范围为0~1,对象分区数量为10为例,可以对预设指标范围进行平均分配确定10个指标子范围的区间长度,该10个指标子范围可以分别表示为:[0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8),[0.8,0.9),[0.9,1]。
具体的,每个数据处理节点可以对应多个指标子范围中的一个指标子范围,每个数据处理节点对应的目标数据集合可以包含有对应参与倾向指标数据属于每个数据处理节点对应的指标子范围的业务对象的业务关联数据。
其中,可以理解的是,由于每个数据处理节点对应一个指标子范围,且每个数据处理节点对应一个目标数据集合,因此,目标数据集合也与指标子范围存在一一对应关系,每个指标子范围对应的目标数据集合可以包括:每个指标子范围对应的参与对象数据集合和每个指标子范围对应的非参与对象数据集合,每个指标子范围对应的参与对象数据集合可以包含有对应参与倾向指标数据属于对应指标子范围的参与对象的业务关联数据,每个指标子范围对应的非参与对象数据集合可以包含有对应参与倾向指标数据属于对应指标子范围的非参与对象的业务关联数据。
在一个具体的实施例中,每个指标子范围对应的数据处理节点可以包括:每个指标子范围对应的第一处理节点和每个指标子范围对应的第二处理节点,相应的,每个指标子范围对应的目标数据集合可以包括:第一处理节点对应的参与对象数据集合和第二处理节点对应的非参与对象数据集合,第一处理节点用于对参与倾向指标数据属于对应指标子范围的参与对象的业务关联数据进行数据处理,第二处理节点用于对参与倾向指标数据属于对应指标子范围的非参与对象的业务关联数据进行数据处理;相应的,上述基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合可以包括:
基于参与倾向指标数据,将多个参与对象各自对应的业务关联数据重分配至多个指标子范围各自对应的第一处理节点,得到每个指标子范围对应的第一处理节点的参与对象数据集合;
基于参与倾向指标数据,将多个非参与对象各自对应的业务关联数据重分配至多个指标子范围各自对应的第二处理节点,得到每个指标子范围对应的第二处理节点的非参与对象数据集合。
在一个具体的实施例中,上述基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合可以包括:
1)基于预设指标范围对应的子范围区间长度,对每个业务对象对应的参与倾向指标数据进行哈希处理,得到每个业务对象对应的节点索引信息。
2)将每个业务对象对应的业务关联数据分配至多个数据处理节点中与节点索引信息对应的数据处理节点。
在一个具体的实施例中,上述基于预设指标范围对应的子范围区间长度,对每个业务对象对应的参与倾向指标数据进行哈希处理,得到每个业务对象对应的节点索引信息可以包括:基于预设指标范围对应的子范围区间长度,对每个业务对象对应的参与倾向指标数据进行取模处理,得到节点索引信息。
示意性的,以预设指标范围为0~1,对象分区数量为10为例,子范围区间长度为0.1,设置有10个数据处理节点(节点1~节点10),节点1对应的指标子范围为[0,0.1),节点2对应的指标子范围为[0.1,0.2),……,节点10对应的指标子范围为[0.9,1]。业务对象A对应的参与倾向指标数据为0.10002,将0.10002%0.1的结果1作为业务对象A的节点索引信息,因此将业务对象A对应的业务关联数据分配至节点1;业务对象B对应的参与倾向指标数据为0.30002,将0.30002%0.1的结果3作为业务对象B的节点索引信息,因此将业务对象B对应的业务关联数据分配至节点3。
S203,控制每个指标子范围对应的数据处理节点,基于参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息;数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息。
在本说明书实施例中,每个指标子范围对应的数据顺序信息可以为将每个指标子范围对应的目标数据集合中的业务关联数据按照参与倾向指标数据的数值大小进行排列后得到的顺序信息。
在一个具体的实施例中,每个指标子范围对应的数据顺序信息可以包括:每个指标子范围对应的参与对象顺序信息和每个指标子范围对应的非参与对象顺序信息,每个指标子范围对应的参与对象顺序信息可以为将每个指标子范围对应的参与对象数据集合中参与对象的业务关联数据按照参与倾向指标数据的数值大小进行排列后得到的顺序信息,每个指标子范围对应的非参与对象顺序信息可以为将每个指标子范围对应的非参与对象数据集合中非参与对象的业务关联数据按照参与倾向指标数据的数值大小进行排列后得到的顺序信息;相应的,上述控制每个指标子范围对应的数据处理节点,基于参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息可以包括:
控制每个指标子范围对应的第一处理节点,基于参与倾向指标数据,对自身参与对象数据集合中参与对象的业务关联数据进行排序,得到每个指标子范围对应的参与对象顺序信息;
控制每个指标子范围对应的第二处理节点,基于参与倾向指标数据,对自身非参与对象数据集合中非参与对象的业务关联数据进行排序,得到每个指标子范围对应的非参与对象顺序信息。
在一个具体的实施例中,上述每个业务对象对应的参与倾向指标数据可以包括:每个业务对象对应的基础倾向指标数据和每个业务对象对应的匹配倾向指标数据,具体的,每个业务对象对应的基础倾向指标数据可以为参与倾向预测模型输出的未经处理的原始指标数据,每个业务对象对应的匹配倾向指标数据可以为对每个业务对象对应的基础倾向指标数据进行指标转换后得到的指标数据,每个业务对象对应的匹配倾向指标数据可以用于对每个业务对象进行对象匹配。
由于参与倾向预测模型用于根据目标业务对象对应的业务交互特征数据预测目标业务对象参与业务任务(即被预测为参与对象)的概率,考虑到实际应用中概率的表示范围通常为0~1,可以将基础倾向指标数据的取值范围设置为0~1;此外,在数据处理领域中,由于浮点数类型相比整数类型需要占用更大的存储空间,处理数据难度更大且数据处理效率更低,因此,可以根据基础倾向指标数据对应的小数取值位数,对基础倾向指标数据进行扩大处理,得到基础倾向指标数据对应的指标扩大整数,将基础倾向指标数据对应的指标扩大整数作为匹配倾向指标数据。
示意性的,以基础倾向指标数据表示为n位数小数为例,可以将基础倾向指标数据扩大10n-1倍后得到指标扩大整数,即将基础倾向指标数据×10n-1作为指标扩大整数。
在一个具体的实施例中,如图5所示,上述基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合可以包括:
S2021,基于匹配倾向指标数据,将多个业务对象各自对应的业务关联数据重分配至多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合。
具体的,可以根据匹配倾向指标数据的取值范围确定预设指标范围,从而确定预设指标范围的多个指标子范围,相应的,每个数据处理节点对应的目标数据集合可以包含有对应匹配倾向指标数据属于每个数据处理节点对应的指标子范围的业务对象的业务关联数据,每个指标子范围对应的目标数据集合可以包括:每个指标子范围对应的参与对象数据集合和每个指标子范围对应的非参与对象数据集合,每个指标子范围对应的参与对象数据集合可以包含有对应匹配倾向指标数据属于对应指标子范围的参与对象的业务关联数据,每个指标子范围对应的非参与对象数据集合可以包含有对应匹配倾向指标数据属于对应指标子范围的非参与对象的业务关联数据。
相应的,上述控制每个指标子范围对应的数据处理节点,基于参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息可以包括:
S2031,控制每个指标子范围对应的数据处理节点,基于基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息。
具体的,每个指标子范围对应的数据顺序信息可以为将每个指标子范围对应的目标数据集合中的业务关联数据按照基础倾向指标数据的数值大小进行排列后得到的顺序信息;数据顺序信息可以包括:参与对象顺序信息和非参与对象顺序信息,相应的,每个指标子范围对应的参与对象顺序信息可以为将每个指标子范围对应的参与对象数据集合中参与对象的业务关联数据按照基础倾向指标数据的数值大小进行排列后得到的顺序信息,每个指标子范围对应的非参与对象顺序信息可以为将每个指标子范围对应的非参与对象数据集合中非参与对象的业务关联数据按照基础倾向指标数据的数值大小进行排列后得到的顺序信息。
在一个具体的实施例中,当根据匹配倾向指标数据的取值范围确定预设指标范围时,每个指标子范围可以包含有匹配倾向指标数据的多个取值,上述控制每个指标子范围对应的数据处理节点,基于基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息可以包括:控制每个指标子范围对应的数据处理节点,以每个指标子范围中匹配倾向指标数据的每个取值为窗口,基于基础倾向指标数据,对具有相同匹配倾向指标数据的业务关联数据进行排序,得到每个取值对应的顺序信息。
参见图6a-6c,图6a-6c是本申请实施例提供的一种数据分区排序的示意图,具体的,以多个参与对象各自对应的业务关联数据为例,基础倾向指标数据orgin_score表示为5位数小数,可以将基础倾向指标数据×104作为基础倾向指标数据对应的匹配倾向指标数据match_score,因此,匹配倾向指标数据对应的预设指标范围可以为0~10000,并将预设指标范围划分为3个指标子范围,节点1对应的指标子范围为[0,4000),节点2对应的指标子范围为[4000,7000),节点3对应的指标子范围为[7000,10000],将如图6a所示的未分区的业务关联数据重分配至节点1~3,得到如图6b所示的3个参与对象数据集合,再如图6c所示,控制节点1分别以匹配倾向指标数据的取值1000、2000和3000为窗口,基于基础倾向指标数据,对具有相同匹配倾向指标数据的业务关联数据进行排序,得到每个取值对应的参与对象顺序信息即生成每条业务关联数据对应的排序序号rank,控制节点2分别以匹配倾向指标数据的取值4000、5000和6000为窗口,基于基础倾向指标数据,对具有相同匹配倾向指标数据的业务关联数据进行排序,得到每个取值对应的参与对象顺序信息即生成每条业务关联数据对应的排序序号rank,以及控制节点3分别以匹配倾向指标数据的取值7000、8000和9000为窗口,基于基础倾向指标数据,对具有相同匹配倾向指标数据的业务关联数据进行排序,得到每个取值对应的参与对象顺序信息即生成每条业务关联数据对应的排序序号rank。
由以上实施例可见,通过对每个业务对象对应的基础倾向指标数据进行指标转换后得到每个业务对象对应的匹配倾向指标数据,可以将每个业务对象的倾向指标数据从小数转化为整数,以节约数据存储空间,然后基于匹配倾向指标数据,将多个业务对象各自对应的业务关联数据重分配至多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合,并控制每个指标子范围对应的数据处理节点,基于基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息,可以在节约数据存储空间的基础上,进一步降低数据处理难度,提升倾向得分匹配的效率。
S204,基于每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据。
在本说明书实施例中,每个指标子范围对应的参与对象匹配数据是基于每个指标子范围对应的参与对象顺序信息对每个指标子范围对应的参与对象数据集合中的业务关联数据进行数据筛选后得到的,每个指标子范围对应的非参与对象匹配数据是基于每个指标子范围对应的非参与对象顺序信息对每个指标子范围对应的非参与对象数据集合中的业务关联数据进行数据筛选后得到的。
在一个具体的实施例中,如图7所示,上述基于每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据可以包括:
S2041,确定目标指标子范围对应的参与对象数据集合的参与对象数量和每个指标子范围对应的非参与对象数据集合的非参与对象数量;目标指标子范围为多个指标子范围中任一指标子范围;
S2042,将参与对象数量与非参与对象数量中的较小数量作为目标指标子范围对应的对象匹配数量;
S2043,基于目标指标子范围对应的参与对象顺序信息,将目标指标子范围对应的参与对象数据集合中对应顺序的数值大小小于等于对象匹配数量的业务关联数据,作为目标指标子范围对应的参与对象匹配数据;
S2044,基于目标指标子范围对应的非参与对象顺序信息,将目标指标子范围对应的非参与对象数据集合中对应顺序的数值大小小于等于对象匹配数量的业务关联数据,作为目标指标子范围对应的非参与对象匹配数据。
在本说明书实施例中,目标指标子范围对应的对象匹配数量可以为目标指标子范围内对象匹配对的数量,这里的对象匹配对可以指一个参与对象与一个非参与对象之间的匹配对。
具体的,选取每个指标子范围中参与对象数量和非参与对象数量之间的更小数量作为对象匹配数量,是保证每个参与对象都能有与之匹配的非参与对象,也即保证每个非参与对象都能有与之匹配的参与对象,然后分别在参与对象数据集合和非参与对象数据集合中将每个指标子范围内排名序号>对象匹配数量m的业务关联数据过滤掉,将排序序号第一的参与对象与排序序号第一的非参与对象进行匹配,将排序序号第二的参与对象与排序序号第二的非参与对象进行匹配,以此类推,将排序序号第m的参与对象与排序序号第m的非参与对象进行匹配,因此,只有对应排序序号小于等于对象匹配数量的参与对象和非参与对象才是最终匹配成功的对象,保留参与对象组(多个参与对象)和非参与参与对象组(多个非参与对象)中一一匹配的业务对象的业务关联数据,舍弃没有匹配的业务对象的业务关联数据,可以得到更准确的业务交互增量分析结果。
由以上实施例可见,选取每个指标子范围中参与对象数量和非参与对象数量之间的更小数量作为对象匹配数量,以保证每个参与对象都能有与之匹配的非参与对象,将对应排序序号小于等于对象匹配数量的参与对象和非参与对象才是最终匹配成功的对象,保留参与对象组(多个参与对象)和非参与参与对象组(多个非参与对象)中一一匹配的业务对象的业务关联数据,舍弃没有匹配的业务对象的业务关联数据,可以在减少倾向得分匹配所需的时间,提升倾向得分匹配的效率和科学性的基础上,提升业务交互增量分析结果的准确性。
S205,基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标。
在本说明书实施例中,业务交互增量指标可以用于衡量业务任务对目标业务的业务推广效果,在一个具体的实施例中,业务交互增量指标可以为用于衡量多个参与对象与多个非参与对象之间针对业务交互反馈数据的差异的量化指标,示意性的,以目标业务为商品销售业务,业务交互反馈数据为订单数量为例,业务交互增量指标可以为订单相对增长率或订单相对增长量;以目标业务为游戏运营业务,业务交互反馈数据为游戏在线时长为例,业务交互增量指标可以为在线时长相对提升率或在线时长相对增长量。
在一个具体的实施例中,如图8所示,上述基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标可以包括:
S2051,对多个指标子范围对应的参与对象匹配数据中的业务交互反馈数据进行指标分析,得到多个参与对象的第一反馈指标。
具体的,第一反馈指标可以为对多个指标子范围对应的参与对象匹配数据中参与对象的业务交互反馈数据进行指标分析后得到的总体指标参量,在一些实施例中,第一反馈指标可以是零一分布的率相关的指标,如点击率、注册率、登录率、下单转化率等,也可以是连续分布的均值类指标,如人均点击量等等,具体的根据实际情况进行选择,本说明书实施例不作限定。
S2052,对多个指标子范围对应的非参与对象匹配数据中的业务交互反馈数据进行指标分析,得到多个非参与对象的第二反馈指标。
具体的,第二反馈指标可以为对多个指标子范围对应的非参与对象匹配数据中非参与对象的业务交互反馈数据进行指标分析后得到的总体指标参量,在一些实施例中,第二反馈指标可以是零一分布的率相关的指标,也可以是连续分布的均值类指标,具体的根据实际情况进行选择,本说明书实施例不作限定。
S2053,基于第一反馈指标和第二反馈指标,对目标业务进行业务交互增量分析,得到业务交互增量指标。
具体的,业务交互增量指标可以为用于衡量第二反馈指标与第一反馈指标的差异的量化指标,可选的实施例中,业务交互增量指标可以为第二反馈指标与第一反馈指标之间的差值,也可以为第二反馈指标与第一反馈指标之间的比值。
由以上实施例可见,根据多个指标子范围对应的非参与对象匹配数据与参与对象匹配数据进行针对业务交互反馈数据的交互增量分析,可以在提升倾向得分匹配的效率和科学性的基础上,高效地评估业务任务对目标业务的业务交互的促进效果。
示意性,以目标业务为游戏运营业务,业务任务为游戏竞赛活动为例,利用本申请提供的业务数据处理方法可以更加高效且科学地评估游戏竞赛活动对游戏运营业务的促进作用,具体的,S1,收集多个游戏玩家各自的玩家数据记录,玩家数据记录可以包括游戏特征数据(包含游戏玩家的基础特征数据和行为特征数据)和活动参与分类数据(是否参与游戏竞赛活动);S2,采用Spark.DataFrame作为分布式数据集合,将玩家数据记录从类Hive分布式数据仓库加载到Spark.DataFrame中,根据活动参与分类数据将玩家数据记录分为活动参与组和活动非参与组两组数据,使用Spark.DataFrame数据结构作为玩家数据后续处理和计算的数据结构,支持分布式计算,可以显著提升处理效率,极大提升数据处理的规模上限,突破现有方案的单机资源限制;S3,对多个游戏玩家的游戏特征数据和活动参与分类数据进行逻辑回归模型的拟合,得到倾向得分模型,通过该倾向得分模型来预测游戏玩家参与活动的概率,此处可以使用pyspark.ml.regression基于游戏玩家的游戏特征数据和游戏玩家的活动参与分类数据对二项分布的广义线性模型进行拟合得到倾向得分模型;S4,使用拟合好的倾向得分模型对步骤S2中分完组的玩家数据进行活动参与倾向预测,输入为游戏玩家的游戏特征数据(与拟合模型用的特征维度一致),输出为游戏玩家的原始倾向得分origin_score,origin_score表示游戏玩家被倾向得分模型预测为参与组的概率,origin_score的数值范围在[0-1];S5,将步骤S3中预测的原始倾向得分origin_score扩大1万倍转换成数值为[0-10000]的匹配倾向得分match_score;S6,统计每个匹配倾向得分的记录数量,取min(参与组记录数,非参与组记录数)作为每个匹配倾向得分的玩家匹配数量sample_size,这里选取每个匹配倾向得分中参与组和非参与组中的更小数量作为玩家匹配数量,是保证每个参与组玩家/非参与玩家都能有与之匹配的非参与组玩家/参与组玩家;S7,按匹配倾向得分将所有玩家数据记录重分配至多个节点,实现将相同匹配倾向得分的数据记录分配到同一个节点进行处理,然后以每个匹配倾向得分为窗口按照原始倾向得分进行排序,对每条玩家数据记录生成一个rank表示排序的序号;S8,在每个匹配倾向得分窗口内,分别将参与组和非参与组中rank>sample_size的数据记录过滤掉,将排序序号rank小于等于玩家匹配数量sample_size的玩家数据记录作为匹配成功的数据记录;S9,将步骤S8中所有的匹配成功数据进行合并,得到匹配参与组的玩家数据记录和匹配非参与组的玩家数据记录;S10,使用匹配完成的玩家数据记录中的在线时长数据进行指标计算,首先得到匹配完成的玩家数据记录中每个游戏玩家在活动举办周期内的总在线时长,然后确定匹配参与组的人均在线时长指标和匹配非参与组的人均在线时长指标,最后使用匹配参与组的人均在线时长指标减去匹配非参与组的人均在线时长指标,得到人均在线时长指标的差值,使用差值除以匹配非参与组的人均在线时长指标,得到在线时长相对提升率,通过活动在线时长相对提升率来评估游戏竞赛活动对游戏运营的促进效果,避免了现有技术中的匹配遍历实现,通过数据分区、分区排序和过滤不符合条件的数据,将匹配的耗时从指数级降为线性级,可以有效提升业务交互增量分析的效率。
由以上本申请实施例提供的技术方案可见,本申请采用分布式业务数据集合作为数据存储结构,利用分布式系统的计算资源,使得数据计算可以在多个数据处理节点上并行进行,显著提高了业务数据的处理效率,通过获取多个业务对象各自对应的对象特征信息,该多个业务对象可以包括:针对目标业务的业务任务的多个参与对象和多个非参与对象,每个业务对象对应的对象特征信息包括有业务交互特征数据和对象属性特征信息,然后将多个业务对象各自对应的对象特征信息加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合,并控制每个数据处理节点分别将自身特征数据集合中目标业务对象对应的对象特征信息输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据,可以在提升参与倾向预测效率的同时,提升参与倾向指标数据的精准性,接着将多个业务对象各自对应的业务关联数据分区至不同的数据处理节点,每个业务对象对应的业务关联数据包括有参与倾向指标数据和业务交互反馈数据,通过对每个业务对象对应的基础倾向指标数据进行指标转换后得到每个业务对象对应的匹配倾向指标数据,可以将每个业务对象的倾向指标数据从小数转化为整数,以节约数据存储空间,然后基于匹配倾向指标数据,将多个业务对象各自对应的业务关联数据重分配至多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合,每个数据处理节点对应的目标数据集合中仅包含有对应匹配倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据,每个指标子范围对应的目标数据集合可以包括每个指标子范围对应的参与对象数据集合和每个指标子范围对应的非参与对象数据集合,并控制每个指标子范围对应的数据处理节点,基于基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息,可以在节约数据存储空间的基础上,进一步降低数据处理难度,然后选取每个指标子范围中参与对象数量和非参与对象数量之间的更小数量作为对象匹配数量,以保证每个参与对象都能有与之匹配的非参与对象,将每个指标子范围内对应排序序号小于等于对象匹配数量的参与对象和非参与对象作为每个指标子范围最终匹配成功的对象,保留参与对象组(多个参与对象)和非参与参与对象组(多个非参与对象)中一一匹配的业务对象的业务关联数据,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,舍弃没有匹配的业务对象的业务关联数据,可以将倾向得分匹配的时间复杂度从O(n²)降到O(n),n表示对象匹配数量,匹配耗时从指数级增加优化为线性增加,在减少倾向得分匹配所需的时间,提升倾向得分匹配的效率和科学性的基础上,进而基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标,可以在提升业务交互增量分析结果的准确性的基础上,高效地评估业务任务对目标业务的业务交互的促进效果。
本申请实施例还提供了一种业务数据处理装置,如图9所示,该业务数据处理装置可以包括:
业务关联数据获取模块910,用于获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的参与倾向指标数据和每个业务对象对应的业务交互反馈数据;
数据重分配模块920,用于基于参与倾向指标数据,将业务关联数据重分配至分布式业务数据集合对应的多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于每个数据处理节点对应的指标子范围的业务关联数据;目标数据集合包括:参与对象数据集合和非参与对象数据集合;
数据排序模块930,用于控制每个指标子范围对应的数据处理节点,基于参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息;数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息;
对象匹配模块940,用于基于每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据;
业务交互增量分析模块950,用于基于多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对目标业务进行针对业务交互反馈数据的业务交互增量分析,得到业务任务对应的业务交互增量指标。
在一个具体的实施例中,上述每个业务对象对应的参与倾向指标数据是通过如下装置生成的:
业务交互特征数据获取模块,用于获取多个业务对象各自对应的业务交互特征数据;
第一数据加载模块,用于将多个业务对象各自对应的业务交互特征数据加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合;
第一参与倾向预测模块,用于控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据;目标业务对象为每个数据处理节点对应的特征数据集合中任一业务对象。
在一个具体的实施例中,上述装置还可以包括:
对象属性特征信息获取模块,用于获取多个业务对象各自对应的对象属性特征信息;
第二数据加载模块,用于将业务交互特征数据和对象属性特征信息加载到多个数据处理节点中,得到每个数据处理节点对应的特征数据集合;
相应的,上述第一参与倾向预测模块可以包括:
第二参与倾向预测模块,用于控制每个数据处理节点分别将目标业务对象对应的业务交互特征数据和目标业务对象对应的对象属性特征信息输入参与倾向预测模型,对目标业务对象进行针对业务任务的参与倾向预测,得到目标业务对象对应的参与倾向指标数据。
在一个具体的实施例中,上述参与倾向预测模型是通过如下装置训练得到的:
样本获取模块,用于获取样本对象对应的样本交互特征数据和样本对象对应的标注倾向指标数据;
模块训练模块,用于以样本交互特征数据为训练样本,标注倾向指标数据为训练样本对应的参与倾向分类结果,对待训练线性模型进行针对业务任务的参与倾向预测的回归拟合,得到训练后的线性模型;
参与倾向预测模型模块,用于将训练后的线性模型,作为参与倾向预测模型。
在一个具体的实施例中,上述参与倾向指标数据可以包括:基础倾向指标数据和基础倾向指标数据对应的匹配倾向指标数据,上述数据重分配模块920可以包括:
数据重分配单元,用于基于匹配倾向指标数据,将多个业务对象各自对应的业务关联数据重分配至多个数据处理节点,得到多个数据处理节点各自对应的目标数据集合;
上述数据排序模块930可以包括:
数据排序单元,用于控制每个指标子范围对应的数据处理节点,基于基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到每个指标子范围对应的数据顺序信息。
在一个具体的实施例中,上述对象匹配模块940可以包括:
对象数量确定单元,用于确定目标指标子范围对应的参与对象数据集合的参与对象数量和每个指标子范围对应的非参与对象数据集合的非参与对象数量;目标指标子范围为多个指标子范围中任一指标子范围;
匹配数量确定单元,用于将参与对象数量与非参与对象数量中的较小数量作为目标指标子范围对应的对象匹配数量;
参与对象匹配数据确定单元,用于基于目标指标子范围对应的参与对象顺序信息,将目标指标子范围对应的参与对象数据集合中对应顺序的数值大小小于等于对象匹配数量的业务关联数据,作为目标指标子范围对应的参与对象匹配数据;
非参与对象匹配数据确定单元,用于基于目标指标子范围对应的非参与对象顺序信息,将目标指标子范围对应的非参与对象数据集合中对应顺序的数值大小小于等于对象匹配数量的业务关联数据,作为目标指标子范围对应的非参与对象匹配数据。
在一个具体的实施例中,上述业务交互增量分析模块950可以包括:
第一反馈指标单元,用于对多个指标子范围对应的参与对象匹配数据中的业务交互反馈数据进行指标分析,得到多个参与对象的第一反馈指标;
第二反馈指标单元,用于对多个指标子范围对应的非参与对象匹配数据中的业务交互反馈数据进行指标分析,得到多个非参与对象的第二反馈指标;
增量分析单元,用于基于第一反馈指标和第二反馈指标,对目标业务进行业务交互增量分析,得到业务交互增量指标。
需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
本申请实施例提供了一种业务数据处理设备,该业务数据处理设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的业务数据处理方法。
进一步地,图10示出了一种用于实现本申请实施例所提供的业务数据处理方法的业务数据处理设备的硬件结构示意图,所述业务数据处理设备可以参与构成或包含本申请实施例所提供的业务数据处理装置。如图10所示,业务数据处理设备100可以包括一个或多个(图10中采用1002a、1002b,……,1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,业务数据处理设备100还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到业务数据处理设备100(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1004可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的业务数据处理方法对应的程序指令/数据存储装置,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种业务数据处理方法。存储器1004可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至业务数据处理设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括业务数据处理设备100的通信供应商提供的无线网络。在一个实例中,传输装置1006包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中,传输装置1006可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与业务数据处理设备100(或移动设备)的用户界面进行交互。
本申请的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于业务数据处理设备之中以保存用于实现方法实施例中业务数据处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的业务数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如方法实施例提供的业务数据处理方法。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种业务数据处理方法,其特征在于,所述方法包括:
获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;所述多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的业务关联数据包括:所述每个业务对象对应的参与倾向指标数据和所述每个业务对象对应的业务交互反馈数据;
基于所述参与倾向指标数据,将所述业务关联数据重分配至所述分布式业务数据集合对应的多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;所述每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据;所述目标数据集合包括:参与对象数据集合和非参与对象数据集合;
控制每个指标子范围对应的数据处理节点,基于所述参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息;所述数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息;
基于所述每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对所述每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到所述每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据;
基于所述多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对所述目标业务进行针对所述业务交互反馈数据的业务交互增量分析,得到所述业务任务对应的业务交互增量指标。
2.根据权利要求1所述的方法,其特征在于,所述基于所述每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对所述每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到所述每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据包括:
确定目标指标子范围对应的参与对象数据集合的参与对象数量和所述每个指标子范围对应的非参与对象数据集合的非参与对象数量;所述目标指标子范围为所述多个指标子范围中任一指标子范围;
将所述参与对象数量与所述非参与对象数量中的较小数量作为所述目标指标子范围对应的对象匹配数量;
基于所述目标指标子范围对应的参与对象顺序信息,将所述目标指标子范围对应的参与对象数据集合中对应顺序的数值大小小于等于所述对象匹配数量的业务关联数据,作为所述目标指标子范围对应的参与对象匹配数据;
基于所述目标指标子范围对应的非参与对象顺序信息,将所述目标指标子范围对应的非参与对象数据集合中对应顺序的数值大小小于等于所述对象匹配数量的业务关联数据,作为所述目标指标子范围对应的非参与对象匹配数据。
3.根据权利要求1所述的方法,其特征在于,所述参与倾向指标数据包括:基础倾向指标数据和所述基础倾向指标数据对应的匹配倾向指标数据,所述基于所述参与倾向指标数据,将所述业务关联数据重分配至所述分布式业务数据集合对应的多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合包括:
基于所述匹配倾向指标数据,将所述多个业务对象各自对应的业务关联数据重分配至所述多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合;
所述控制每个指标子范围对应的数据处理节点,基于所述参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息包括:
控制所述每个指标子范围对应的数据处理节点,基于所述基础倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对所述目标业务进行针对所述业务交互反馈数据的业务交互增量分析,得到所述业务任务对应的业务交互增量指标包括:
对所述多个指标子范围对应的参与对象匹配数据中的业务交互反馈数据进行指标分析,得到所述多个参与对象的第一反馈指标;
对所述多个指标子范围对应的非参与对象匹配数据中的业务交互反馈数据进行指标分析,得到所述多个非参与对象的第二反馈指标;
基于所述第一反馈指标和所述第二反馈指标,对所述目标业务进行业务交互增量分析,得到所述业务交互增量指标。
5.根据权利要求1所述的方法,其特征在于,所述每个业务对象对应的参与倾向指标数据是通过如下方式生成的:
获取所述多个业务对象各自对应的业务交互特征数据;
将所述多个业务对象各自对应的业务交互特征数据加载到所述多个数据处理节点中,得到所述每个数据处理节点对应的特征数据集合;
控制所述每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对所述目标业务对象进行针对所述业务任务的参与倾向预测,得到所述目标业务对象对应的参与倾向指标数据;所述目标业务对象为所述每个数据处理节点对应的特征数据集合中任一业务对象。
6.根据权利要求5所述的方法,其特征在于,在所述控制所述每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对所述目标业务对象进行针对所述业务任务的参与倾向预测,得到所述目标业务对象对应的参与倾向指标数据之前,所述方法还包括:
获取所述多个业务对象各自对应的对象属性特征信息;
将所述业务交互特征数据和所述对象属性特征信息加载到所述多个数据处理节点中,得到所述每个数据处理节点对应的所述特征数据集合;
所述控制所述每个数据处理节点分别将目标业务对象对应的业务交互特征数据输入参与倾向预测模型,对所述目标业务对象进行针对所述业务任务的参与倾向预测,得到所述目标业务对象对应的参与倾向指标数据包括:
控制所述每个数据处理节点分别将所述目标业务对象对应的业务交互特征数据和所述目标业务对象对应的对象属性特征信息输入所述参与倾向预测模型,对所述目标业务对象进行针对所述业务任务的参与倾向预测,得到所述目标业务对象对应的参与倾向指标数据。
7.根据权利要求5所述的方法,其特征在于,所述参与倾向预测模型是通过如下方式训练得到的:
获取样本对象对应的样本交互特征数据和所述样本对象对应的标注倾向指标数据;
以所述样本交互特征数据为训练样本,所述标注倾向指标数据为所述训练样本对应的参与倾向分类结果,对待训练线性模型进行针对所述业务任务的参与倾向预测的回归拟合,得到训练后的线性模型;
将所述训练后的线性模型,作为所述参与倾向预测模型。
8.一种业务数据处理装置,其特征在于,所述装置包括:
业务关联数据获取模块,用于获取分布式业务数据集合中多个业务对象各自对应的业务关联数据;所述多个业务对象包括:针对目标业务的业务任务的多个参与对象和多个非参与对象;每个业务对象对应的业务关联数据包括:所述每个业务对象对应的参与倾向指标数据和所述每个业务对象对应的业务交互反馈数据;
数据重分配模块,用于基于所述参与倾向指标数据,将所述业务关联数据重分配至所述分布式业务数据集合对应的多个数据处理节点,得到所述多个数据处理节点各自对应的目标数据集合;每个数据处理节点对应预设指标范围的多个指标子范围中的一个指标子范围;所述每个数据处理节点对应的目标数据集合包含有对应参与倾向指标数据属于所述每个数据处理节点对应的指标子范围的业务关联数据;所述目标数据集合包括:参与对象数据集合和非参与对象数据集合;
数据排序模块,用于控制每个指标子范围对应的数据处理节点,基于所述参与倾向指标数据,对自身目标数据集合中的业务关联数据进行排序,得到所述每个指标子范围对应的数据顺序信息;所述数据顺序信息包括:参与对象顺序信息和非参与对象顺序信息;
对象匹配模块,用于基于所述每个指标子范围对应的参与对象顺序信息和非参与对象顺序信息,对所述每个指标子范围对应的参与对象数据集合和非参与对象数据集合进行对象匹配,得到所述每个指标子范围对应的参与对象匹配数据和非参与对象匹配数据;
业务交互增量分析模块,用于基于所述多个指标子范围对应的参与对象匹配数据和非参与对象匹配数据,对所述目标业务进行针对所述业务交互反馈数据的业务交互增量分析,得到所述业务任务对应的业务交互增量指标。
9.一种业务数据处理设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的业务数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的业务数据处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的业务数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410351698.5A CN117950880B (zh) | 2024-03-26 | 2024-03-26 | 一种业务数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410351698.5A CN117950880B (zh) | 2024-03-26 | 2024-03-26 | 一种业务数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117950880A CN117950880A (zh) | 2024-04-30 |
CN117950880B true CN117950880B (zh) | 2024-06-28 |
Family
ID=90796592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410351698.5A Active CN117950880B (zh) | 2024-03-26 | 2024-03-26 | 一种业务数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117950880B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567112A (zh) * | 2010-12-09 | 2012-07-11 | 上海杉达学院 | 集群系统中业务与计算设备的匹配装置 |
CN113449011A (zh) * | 2021-06-20 | 2021-09-28 | 卢洪亮 | 基于大数据预测的信息推送更新方法及大数据预测系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667956A (zh) * | 2023-10-11 | 2024-03-08 | 赢火虫信息科技(上海)有限公司 | 业务主体关系信息更新方法、装置、设备及存储介质 |
CN117114105B (zh) * | 2023-10-25 | 2024-01-30 | 中国科学技术信息研究所 | 基于科研大数据信息的目标对象推荐方法和系统 |
-
2024
- 2024-03-26 CN CN202410351698.5A patent/CN117950880B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567112A (zh) * | 2010-12-09 | 2012-07-11 | 上海杉达学院 | 集群系统中业务与计算设备的匹配装置 |
CN113449011A (zh) * | 2021-06-20 | 2021-09-28 | 卢洪亮 | 基于大数据预测的信息推送更新方法及大数据预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117950880A (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138624B (zh) | 一种基于在线课程用户数据的个性化推荐方法 | |
CN111708641B (zh) | 一种内存管理方法、装置、设备及计算机可读存储介质 | |
CN112328646B (zh) | 多任务课程推荐方法、装置、计算机设备及存储介质 | |
CN110472016B (zh) | 文章推荐方法、装置、电子设备及存储介质 | |
CN108133390A (zh) | 用于预测用户行为的方法和装置以及计算设备 | |
CN110347781A (zh) | 文章倒排方法、文章推荐方法、装置、设备及存储介质 | |
CN110837567A (zh) | 实现知识图谱嵌入的方法和系统 | |
CN114924684A (zh) | 基于决策流图的环境建模方法、装置和电子设备 | |
CN110659023B (zh) | 一种程序化内容生成的方法以及相关装置 | |
CN115938600A (zh) | 一种基于关联分析的心理健康状态预测方法与系统 | |
CN112395499B (zh) | 信息推荐方法及装置、电子设备、存储介质 | |
CN117950880B (zh) | 一种业务数据处理方法、装置、设备及存储介质 | |
CN110942345B (zh) | 种子用户的选取方法、装置、设备及存储介质 | |
CN113971455A (zh) | 一种分布式模型训练方法、装置、存储介质及计算机设备 | |
Moreno et al. | A hybrid approach for composing groups in collaborative learning contexts | |
CN116703520A (zh) | 基于改进K-means算法的产品推荐方法及其相关设备 | |
CN115018471B (zh) | 数据处理方法及相关装置 | |
CN114841165B (zh) | 用户数据分析及展示方法、装置、电子设备及存储介质 | |
CN110634019A (zh) | 基于企业与地区的匹配方法、电子设备和存储介质 | |
CN110990706A (zh) | 语料推荐方法及装置 | |
Chang et al. | Applying intelligent data traffic adaptation to high-performance multiple big data analytics platforms | |
CN115238179A (zh) | 项目推送方法、装置、电子设备及计算机可读存储介质 | |
CN117009631A (zh) | 投放对象筛选方法、装置、设备和存储介质 | |
CN114357242A (zh) | 基于召回模型的训练评估方法及装置、设备、存储介质 | |
CN113934612A (zh) | 用户画像更新方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |