CN114330866B - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114330866B CN114330866B CN202111605314.0A CN202111605314A CN114330866B CN 114330866 B CN114330866 B CN 114330866B CN 202111605314 A CN202111605314 A CN 202111605314A CN 114330866 B CN114330866 B CN 114330866B
- Authority
- CN
- China
- Prior art keywords
- data
- target object
- communication service
- service platform
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 67
- 230000003068 static effect Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 10
- 238000012423 maintenance Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、装置、电子设备及计算机可读存储介质。其中,该方法包括:获取预定时间段内第一目标对象的对象数据,其中,对象数据包括:第一目标对象使用预定通信服务平台的动态行为数据,以及第一目标对象的静态属性数据;提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征;基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率。本发明解决了相关技术中难以依据用户的多种数据,综合性地判断用户是否有离网倾向的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,随着通信服务平台行业的快速发展,以及携号转网等措施的开放,运营商体系存在大量用户会因为随着对服务的需求不同,而出现离网转向其他服务提供商的行为。为了避免用户流失,分析用户流失原因,提前感知用户离网倾向,快速维挽是该领域共性需求。但是目前业内大多采用采取人为经验判断,或者基础的规则类数据分析来进行相关的分析,会存在较大的限制。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质,以至少解决相关技术中难以依据用户的多种数据,综合性地判断用户是否有离网倾向的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取预定时间段内第一目标对象的对象数据,其中,所述对象数据包括:所述第一目标对象使用预定通信服务平台的动态行为数据,以及所述第一目标对象的静态属性数据;提取所述对象数据中所述动态行为数据对应的动态数据特征,以及提取所述对象数据中所述静态属性数据对应的静态数据特征;基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率。
可选地,所述提取所述对象数据中所述动态行为数据对应的动态数据特征,包括:确定所述动态行为数据的类型;按照时间顺序排列所述类型相同的动态行为数据;提取所述按照时间顺序排列后的动态行为数据对应的动态数据特征。
可选地,所述基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率,包括:将所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率。
可选地,所述将所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率,包括:分配预定的权重至所述动态数据特征与所述静态数据特征;将分配预定的权重后的所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率。
可选地,采用以下方式,得到所述预测网络模型:获取样本集,其中,所述样本集包括正样本集和负样本集,所述正样本集包括:多组第二目标对象的数据,所述负样本集包括:多组第三目标对象的数据,所述第二目标对象为离开所述预定通信服务平台的对象,所述第三目标对象为未离开所述预定通信服务平台的对象;采用所述样本集对初始网络模型进行训练,得到所述预测网络模型。
可选地,所述采用所述样本集对初始网络模型进行训练,得到所述预测网络模型,包括:采用所述样本集对初始网络模型进行训练;确定所述初始网络模型预测的准确率,以及召回率;在所述初始网络模型预测的准确率,以及召回率均大于预定阈值的情况下,得到所述预测网络模型。
根据本发明实施例的一个方面,提供了一种数据处理装置,包括:获取模块,用于获取预定时间段内第一目标对象的对象数据,其中,所述对象数据包括:所述第一目标对象使用预定通信服务平台的动态行为数据,以及所述第一目标对象的静态属性数据;提取模块,用于提取所述对象数据中所述动态行为数据对应的动态数据特征,以及提取所述对象数据中所述静态属性数据对应的静态数据特征;预测模块,用于基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率。
根据本发明实施例的一个方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的数据处理方法。
根据本发明实施例的一个方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的数据处理方法。
根据本发明实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的数据处理方法。
在本发明实施例中,获取预定时间段内第一目标对象的对象数据,进而提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征,基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率。因为概率是基于动态数据特征与静态数据特征预测得到的,因此,有效的利用了动态类型数据与静态属性数据,综合性的对第一目标对象离开预定通信服务平台的概率进行了预测,进而解决了相关技术中难以依据用户的多种数据,综合性地判断用户是否有离网倾向的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法的流程图;
图2为本发明可选实施方式提供的预测用户离网的原理框图;
图3为本发明可选实施方式提供的预测用户离网方法的流程图;
图4为本发明可选实施方式提供的预测用户离网模型更新的结构示意图;
图5是根据本发明实施例的数据处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取预定时间段内第一目标对象的对象数据,其中,对象数据包括:第一目标对象使用预定通信服务平台的动态行为数据,以及第一目标对象的静态属性数据;
步骤S104,提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征;
步骤S106,基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率。
通过上述步骤,获取预定时间段内第一目标对象的对象数据,进而提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征,基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率。因为概率是基于动态数据特征与静态数据特征预测得到的,因此,有效的利用了动态类型数据与静态属性数据,综合性的对第一目标对象离开预定通信服务平台的概率进行了预测,进而解决了相关技术中难以依据用户的多种数据,综合性地判断用户是否有离网倾向的技术问题。
作为一种可选的实施例,获取预定时间段内第一目标对象的对象数据,其中,预定时间段可以进行自定义的设置,或者可以根据预测的精度进行相应的调整。第一目标对象可以为使用预定通信服务平台的用户,即可以是各通信运营商的用户,对象数据可以为该第一目标对象使用预定通信服务平台所涉及的多种数据,例如,对象数据可以包括第一目标对象使用预定通信服务平台的动态行为数据,还可以包括第一目标对象的静态属性数据。动态行为数据多是指的是时序性的、连续的数据,例如,用户消费金额,用户流量使用情况,用户通话分钟数,用户短信发送量,主流app使用的频率,等等。静态属性数据多是指的非时序性的、离散的数据,例如,用户的年龄,用户的性别,用户的入网时长,用户对投诉运营商服务情况,用户的手机型号,等等。通过获取预定时间段内第一目标对象的对象数据,且对上述对象数据进行了动态行为数据与静态属性数据的划分。不仅获得了第一目标对象使用通信服务平台的大量数据,能够更全面的判断出第一目标对象的离网概率,而且通过分类,能够更好地对上述对象数据进行处理,达到针对性地处理对象数据的目的,实现更高精度的预测。
作为一种可选的实施例,提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征。对上述对象数据中的动态行为数据与静态属性数据分别进行提取,能够更具针对性地对数据进行处理。因为动态行为数据是具有时序性的,数据之间是有联系的,因此,在提取对象数据中动态行为数据对应的动态数据特征的过程中,需要先确定动态行为数据的类型,即该动态行为数据为用户消费金额,用户流量使用情况,用户通话分钟数,用户短信发送量,主流app使用的频率中的哪一种,按照时间顺序排列类型相同的动态行为数据,将相同类型的动态行为数据按照时间顺序排列在一起,提取按照时间顺序排列后的动态行为数据对应的动态数据特征。通过将相同类型的动态行为数据按照时间顺序排列后提取特征,能够更好地注意到数据间的在时间方面的联系。
作为一种可选的实施例,基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率时,可以通过神经网络模型进行预测,例如,可以通过预测网络模型对第一目标对象离开预定通信服务平台的概率进行预测。可以通过如下步骤:将动态数据特征与静态数据特征输入至预测网络模型中,得到第一目标对象离开预定通信服务平台的概率。其中,预测网络模型是通过训练得到的,对预测网络模型进行训练的过程可以通过如下步骤:获取样本集,其中,样本集包括正样本集和负样本集,正样本集包括:多组第二目标对象的数据,负样本集包括:多组第三目标对象的数据,第二目标对象为离开预定通信服务平台的对象,第三目标对象为未离开预定通信服务平台的对象,进而采用上述样本集对初始网络模型进行训练,得到预测网络模型。采用样本集对初始网络模型进行训练的过程中,可以定时的确定初始网络模型预测的准确率,以及召回率,在初始网络模型预测的准确率,以及召回率均大于预定阈值的情况下,认为该初始网络模型预测得到的精度已经较高了,可以使用,得到预测网络模型。得到预测网络模型后,可能会随着数据的更新,出现模型的准确率有所下降的问题,因此,需要不断的获取最新的数据,对模型进行训练,以对模型进行更新,保证模型的可用性。对模型进行更新的过程,可以实时进行,也可以周期性进行,可以根据实际应用的需求进行多方面的考虑。例如,出于成本考虑进行周期性模型优化,可以设定为以1-3个月为周期。在考虑进行周期性模型优化时,还可以在训练得到预测网络模型过后,对预测网络模型进行测试验证,验证模型预测的准确性,以根据测试验证结果,设置相应的周期。
作为一种可选的实施例,本可选实施例中提供了预测网络模型,下面对预测网络模型进行详细介绍:本可选实施例提供的预测网络模型包括多个层,大致上可以分为全连接层(多层感知层),拼接层,注意力层,嵌入层,输入层。多个层之间相互联系相互作用,构成了完整的预测网络模型。其中,输入层作为模型的入口,可以包括多种输入,例如,动态数据特征的输入,静态数据特征的输入。嵌入层主要针对离散类型数据的输入起作用,即主要对上述静态数据特征起作用,将高维稀疏的变量转换为低维稠密的变量,使得数据之间的联系更加紧密。拼接层连接于注意力层之后,主要是将注意力层的多种输出拼接在一起,最后送入感知层中进行训练。多层感知层其本质为一个含有多个隐藏层的全连接网络,用于学习数据之间的规律与联系,其最终的输出就是整个模型最终的预测结果,即得到的是第一目标对象离开预定通信服务平台的概率。注意力层,作为模型的核心,主要分为两个部分,包括多头注意力层与自我注意力层。多头注意力层主要用于提取第一目标用户的多种兴趣特征,生成动态的嵌入,表征出第一目标对象的实时兴趣倾向。自我注意力层可以对特征进行选择性的记忆,满足了长时间记忆信息和遗忘信息的需求,能够提取并联系上述特征所表示的第一目标对象行为序列中的上下文信息。其作用类似于深度兴趣网络DIN模型,以及长短期记忆神经网络LSTM模型。但是,本发明可选实施方式所提供的模型,在这两个模型的基础上,将深度兴趣网络DIN模型,以及长短期记忆神经网络LSTM模型的优势相结合,达到了一加一大于二的效果,能够更好的用于预测预定通信服务平台的场景中。而且,本发明可选实施方式提供的模型通过注意力层即可达到了上述效果,克服了使用两个模型的过程中可能会存在的数据冲突,以及使用两个模型会带来的过于繁琐的步骤。因此,通过上述两个方面,能够使得预测得到的概率更加精准。解决了相关技术中无法展现用户在一个时间段内的行为的趋势变化,无法将不同时间的用户行为作为记忆向下传递,会损失很多有用的信息,而造成的预测概率低的问题。
作为一种可选的实施例,将动态数据特征与静态数据特征输入至预测网络模型中,得到第一目标对象离开预定通信服务平台的概率时,还可以分配预定的权重至动态数据特征与静态数据特征,使得代表不同数据的特征拥有对应的权重,将分配预定的权重后的动态数据特征与静态数据特征输入至预测网络模型中,得到第一目标对象离开预定通信服务平台的概率。解决了相关技术中分析更多的是对单一特征,或者是对少量的特征,出现的预测信息不全面,导致的预测准确度低的问题,以及对大量的特征进行分析时,没有进行设置相应的侧重,广泛的进行分析,分析的准确性急剧下降,甚至会出现与真实结果完全相反的情况的问题。
基于上述实施例及可选实施例,提供了一种可选实施方式,下面具体说明。
在相关技术中,离网用户数据量庞大,纯人工方式只能部分分析,无法全量分析。相关技术中还采用了基础规则数据分析,以及字段数据分析。其中,基础规则数据分析则受限于模式,导致资源损耗极大,且耗时极长。字段数据分析更多的是对单一或少量的数据进行分析,且时序数据周期会受到限制。当字段数量庞大且周期很长时,分析的准确性会急剧下降。在对数据进行分析时,往往采用传统的机器学习方式进行训练,预测结果的准确性较采用神经网络训练的方式得出的结果存在较大差距。且采用普通的神经网络训练的方式进行离网预测时,无法关注长达6-12月的时序性变化趋势,所以实际效果也存在较大差距。
因此,目前大多数离网分析发现用户离网倾向时,用户已经无法挽留,所以越早发现在理论上对用户的维挽起到的作用越大。误判率较高,导致无须维挽部分用户成本增加。
鉴于此,本发明可选实施方式中提供了一种预测用户离网的方法,图2为本发明可选实施方式提供的预测用户离网的原理框图,如图2所示,采用本发明可选实施方式所示的方法其能够通过获取用户的使用预定通信服务平台的数据作为预测模型的输入,基于时序性神经网络框架,采用大量样本对模型进行训练,最终得出准确率较高的模型。图3为本发明可选实施方式提供的预测用户离网方法的流程图,下面对本发明可选实施方式进行详细介绍:
S1,获取用户近12个月的数据,其中,用户包括一部分离网用户以及一部分非离网用户,数据包括动态行为数据,也可以称为时序性字段数据,与静态属性数据,也可以称为非时序性基础字段数据;
需要说明的是,上述数据可以为从大数据平台获取的,先对上述数据进行预处理,对多维度行为数据进行数据清洗,去除异常数据,同时由于本模型运用了长短期记忆神经网络,所以需要将用户的动态行为数据按照时间进行排序并且按照统一的分隔符进行分割组装成对应数据格式,再执行以下步骤。
S2,对获取的时序性字段数据进行时序性排列,按照时间顺序排列后,提取动态数据特征;
需要说明的是,上述时序性字段数据至少要包括以下几种:用户消费金额,用户流量使用情况,用户通话分钟数,用户短信发送量,主流app使用的频率。后续如有新的时序性字段数据拓展可以融合入模型中进行拓展。
S3,非时序性基础字段数据进行特征提取,得到静态数据特征;
需要说明的是,上述非时序性基础字段数据至少包含以下一种:年龄,性别,入网时长,投诉情况,手机型号,app偏好。后续如有新的非时序性基础字段数据拓展可以融合入模型中进行拓展。
S4,将用户的上述动态数据特征与静态数据特征作为输入变量导入训练模型,是否离网作为模型的输出变量。需要说明的是,可以对该模型进行训练,在导入训练模型之前,可以先确定样本中离网用户与非离网用户数据比例,并确定训练集和测试集数据划分比例,将训练集和测试集数据导入训练模型中,进行迭代训练,达到预期效果后生成离网模型。模型在训练中可以持续性观察损失函数值得变化,看是否持续下降,当下降到极限时一般变化可以忽略。对模型训练的过程中,也持续观察模型的准确率与召回率值,当准确率与召回率值均达到预期目标后,则可以停止训练,生成最终模型,可用该模型对用户是否离网进行预测,输出结果为离网概率。如果准确率,召回率值未达到预期目标,则可以通过参数的调整来对模型进行调整优化,最终达到预期目标。
该预测模型的关键点在于,本发明可选实施方式采用的模型在传统机器学习或者神经网络算法之上,在注意力层中包括了多头注意力层与自我注意力层,不仅能够展现用户在一个时间段内的行为的趋势变化,将不同时间的用户行为作为记忆向下传递,还能实时表征用户的实时兴趣倾向,达到了一加一大于二的效果。
模型中,自我注意力层:最主要的贡献就是通过门控状态对信息进行选择性的记忆,满足了长时间记忆信息和遗忘信息的需求,因此用户的特征会进行一个长时间内的记忆,并且进行上下文的关联,解决了相关技术中用户离网的预测方法不能将不同时间的用户行为作为记忆向下传递,会造成信息的损失的问题。
模型中,多头注意力层可以表征出用户广泛的兴趣倾向,由于每一个用户的行为都是多种多样的,并且是随着时间变化的,通过多头注意力层中的Activation Unit注意力单元,最终可以生成动态的embedding嵌入,映射出来的向量是动态的。即随着用户的各项属性发生变化,embedding嵌入也随之改变。相对于相关技术中,传统神经网络算法使用的embedding嵌入技术中,映射出来的向量都是固定的,能够生成动态的embedding,表征出用户广泛的兴趣倾向,解决了相关技术中提前预知用户离网的时效性无法得到保证的问题,使得时效性问题得到了保障。
需要说明的是,上述损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型,能够较为准确地求解和评估模型;上述准确率=预测为离网且实际离网+预测为非离网且实际非离网/(所有预测数据),得到准确率越高,预测模型的预测效果越好,代表了更准确的预测出离网和非离网用户,能够降低维挽成本;上述召回率=预测为离网且实际离网/(预测为离网且实际离网+预测为非离网且实际离网);召回率越高,预测模型的预测效果越好,代表了能更多的预测出即将离网的用户。经测验,本模型的预测准确性达到了85%以上,解决了相关技术中准确率无法达到85%以上,使通信服务平台运营商在维挽过程中,因维挽非真实离网意向用户付出的成本较高的问题。
S5,根据预测模型,对待测用户进行离网预测;
预测用户是否离网本身是一个二分类的问题,得到的最终预测结果是范围在0-1之间的值,可以设置一个预值比如0.5,大于等于0.5则输出为用户离网,小于0.5则输出为用户非离网。当然这个值也是可以根据实际业务需求的调整而调整的。
通过此模型,可以提前3-6个月预测出用户离网的可能性,从而采取合适的维挽方式留住用户,减少损失。即通过该模型得到离网高危用户后,将高危用户数据推送至运营商分析系统,制定对应维挽措施开始维挽。并获取实际离网用户数据与预测离网用户之间的重合部分,通时计算环比同比对应离网率下降的比例,来判定最终实施效果。后续实际离网用户数据,再次通过离网模型,进行持续性优化,提升模型的效果与性能。
另外,实际生产中一个模型随着用户的各项属性发生变化,准确率也会随之改变。这时模型就需要有持续优化能力。本发明可选实施方式中提供的模型会持续的从大数据平台获取最新的离网用户数据进行实时更新,保证模型的可用性。图4为本发明可选实施方式提供的预测用户离网模型更新的结构示意图,如图4所示,具体方式是通过接口形式从运行商大数据平台获取最新的数据,即后续新离网用户样本数据,经过数据预处理以及特征构造后作为增量训练数据导入训练好的离网模型,获取原有离网模型的各项属性参数,对原有模型进行增量训练,当模型达到预期效果后,得到升级版本的离网模型,替代旧版本模型,进行应用。本动作可以实时进行,也可以周期性进行。例如,可以是出于成本考虑就进行周期性模型优化,以1-3个月为周期。
通过上述可选实施方式,可以达到至少以下几点有益效果:
(1)通过对用户离网行为的提前预测,提前感知用户离网的倾向,从而提前对用户实行维挽行为,降低通信服务平台运营商的损失;
(2)可以更充分地利用到用户的数据,并且能够更早,更快,更准的发现用户离网倾向,从而更早的维挽用户,同时降低维挽成本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述数据处理方法的装置,图5是根据本发明实施例的数据处理装置的结构框图,如图5所示,该装置包括:获取模块502,提取模块504和预测模块506,下面对该装置进行详细说明。
获取模块502,用于获取预定时间段内第一目标对象的对象数据,其中,对象数据包括:第一目标对象使用预定通信服务平台的动态行为数据,以及第一目标对象的静态属性数据;提取模块504,连接于上述获取模块502,用于提取对象数据中动态行为数据对应的动态数据特征,以及提取对象数据中静态属性数据对应的静态数据特征;预测模块506,连接于上述提取模块504,用于基于动态数据特征和静态数据特征对第一目标对象离开预定通信服务平台的概率进行预测,得到第一目标对象离开预定通信服务平台的概率。
此处需要说明的是,上述获取模块502,提取模块504和预测模块506对应于实施数据处理方法中的步骤S102至步骤S106,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。
实施例3
根据本发明实施例的另外一个方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器被配置为执行指令,以实现上述任一项的数据处理方法。
实施例4
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项的数据处理方法。
实施例5
根据本发明实施例的另外一个方面,还提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的数据处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种数据处理方法,其特征在于,包括:
获取预定时间段内第一目标对象的对象数据,其中,所述第一目标对象为使用预定通信服务平台的用户,所述对象数据包括:所述第一目标对象使用所述预定通信服务平台的动态行为数据,以及所述第一目标对象的静态属性数据;
提取所述对象数据中所述动态行为数据对应的动态数据特征,以及提取所述对象数据中所述静态属性数据对应的静态数据特征;
基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率;
其中,所述基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率,包括:
将所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率,其中,所述预测网络模型包括全连接层,拼接层,注意力层,嵌入层,输入层,所述注意力层包括多头注意力层与自我注意力层,所述多头注意力层用于表征所述第一目标对象的实时兴趣倾向,所述自我注意力层用于表征所述第一目标对象的行为序列的上下文信息;
其中,采用以下方式,得到所述预测网络模型:获取样本集,其中,所述样本集包括正样本集和负样本集,所述正样本集包括:多组第二目标对象的数据,所述负样本集包括:多组第三目标对象的数据,所述第二目标对象为离开所述预定通信服务平台的对象,所述第三目标对象为未离开所述预定通信服务平台的对象;采用所述样本集对初始网络模型进行训练,得到所述预测网络模型;
其中,所述采用所述样本集对初始网络模型进行训练,得到所述预测网络模型,包括:采用所述样本集对初始网络模型进行训练;确定所述初始网络模型预测的准确率,以及召回率;在所述初始网络模型预测的准确率,以及召回率均大于预定阈值的情况下,得到所述预测网络模型。
2.根据权利要求1所述的方法,其特征在于,所述提取所述对象数据中所述动态行为数据对应的动态数据特征,包括:
确定所述动态行为数据的类型;
按照时间顺序排列所述类型相同的动态行为数据;
提取所述按照时间顺序排列后的动态行为数据对应的动态数据特征。
3.根据权利要求1所述的方法,其特征在于,所述将所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率,包括:
分配预定的权重至所述动态数据特征与所述静态数据特征;
将分配预定的权重后的所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率。
4.一种数据处理装置,其特征在于,包括:
获取模块,用于获取预定时间段内第一目标对象的对象数据,其中,所述第一目标对象为使用预定通信服务平台的用户,所述对象数据包括:所述第一目标对象使用所述预定通信服务平台的动态行为数据,以及所述第一目标对象的静态属性数据;
提取模块,用于提取所述对象数据中所述动态行为数据对应的动态数据特征,以及提取所述对象数据中所述静态属性数据对应的静态数据特征;
预测模块,用于基于所述动态数据特征和所述静态数据特征对所述第一目标对象离开所述预定通信服务平台的概率进行预测,得到所述第一目标对象离开所述预定通信服务平台的概率;
其中,所述预测模块,还用于将所述动态数据特征与所述静态数据特征输入至预测网络模型中,得到所述第一目标对象离开所述预定通信服务平台的概率,其中,所述预测网络模型包括全连接层,拼接层,注意力层,嵌入层,输入层,所述注意力层包括多头注意力层与自我注意力层,所述多头注意力层用于表征所述第一目标对象的实时兴趣倾向,所述自我注意力层用于表征所述第一目标对象的行为序列的上下文信息;
其中,所述预测模块,还用于采用以下方式,得到所述预测网络模型:获取样本集,其中,所述样本集包括正样本集和负样本集,所述正样本集包括:多组第二目标对象的数据,所述负样本集包括:多组第三目标对象的数据,所述第二目标对象为离开所述预定通信服务平台的对象,所述第三目标对象为未离开所述预定通信服务平台的对象;采用所述样本集对初始网络模型进行训练,得到所述预测网络模型;
其中,所述预测模块,还用于采用所述样本集对初始网络模型进行训练;确定所述初始网络模型预测的准确率,以及召回率;在所述初始网络模型预测的准确率,以及召回率均大于预定阈值的情况下,得到所述预测网络模型。
5.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至3中任一项所述的数据处理方法。
6.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至3中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111605314.0A CN114330866B (zh) | 2021-12-24 | 2021-12-24 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111605314.0A CN114330866B (zh) | 2021-12-24 | 2021-12-24 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114330866A CN114330866A (zh) | 2022-04-12 |
CN114330866B true CN114330866B (zh) | 2023-11-24 |
Family
ID=81012177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111605314.0A Active CN114330866B (zh) | 2021-12-24 | 2021-12-24 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330866B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447583A (zh) * | 2014-07-30 | 2016-03-30 | 华为技术有限公司 | 一种预测用户离网的方法及装置 |
CN109784959A (zh) * | 2017-11-10 | 2019-05-21 | 广州腾讯科技有限公司 | 一种目标用户预测方法、装置、后台服务器及存储介质 |
CN110855474A (zh) * | 2019-10-21 | 2020-02-28 | 广州杰赛科技股份有限公司 | Kqi数据的网络特征提取方法、装置、设备及存储介质 |
CN112307344A (zh) * | 2020-11-05 | 2021-02-02 | 完美世界(北京)软件科技发展有限公司 | 对象推荐模型、对象推荐方法、装置及电子设备 |
CN113064944A (zh) * | 2020-01-02 | 2021-07-02 | 广州越秀金融科技有限公司 | 数据的处理方法和装置 |
CN113537623A (zh) * | 2021-07-30 | 2021-10-22 | 烟台大学 | 基于注意力机制及多模态的服务需求动态预测方法及系统 |
CN113610552A (zh) * | 2021-06-25 | 2021-11-05 | 清华大学 | 一种用户流失预测方法及装置 |
-
2021
- 2021-12-24 CN CN202111605314.0A patent/CN114330866B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447583A (zh) * | 2014-07-30 | 2016-03-30 | 华为技术有限公司 | 一种预测用户离网的方法及装置 |
CN109784959A (zh) * | 2017-11-10 | 2019-05-21 | 广州腾讯科技有限公司 | 一种目标用户预测方法、装置、后台服务器及存储介质 |
CN110855474A (zh) * | 2019-10-21 | 2020-02-28 | 广州杰赛科技股份有限公司 | Kqi数据的网络特征提取方法、装置、设备及存储介质 |
CN113064944A (zh) * | 2020-01-02 | 2021-07-02 | 广州越秀金融科技有限公司 | 数据的处理方法和装置 |
CN112307344A (zh) * | 2020-11-05 | 2021-02-02 | 完美世界(北京)软件科技发展有限公司 | 对象推荐模型、对象推荐方法、装置及电子设备 |
CN113610552A (zh) * | 2021-06-25 | 2021-11-05 | 清华大学 | 一种用户流失预测方法及装置 |
CN113537623A (zh) * | 2021-07-30 | 2021-10-22 | 烟台大学 | 基于注意力机制及多模态的服务需求动态预测方法及系统 |
Non-Patent Citations (4)
Title |
---|
"基于电信数据的用户离网预测";杨晨;《中国优秀硕士学位论文全文数据库 信息科技辑》(第05期);I136-909 * |
"基于聚合支付平台交易数据的商户流失预测";徐一文 等;《华东师范大学学报(自然科学版)》(第05期);第176-187页 * |
"融合CNN与LSTM的网络质量KQI数据特征提取与投诉预警";蒋仕宝 等;《移动通信》(第02期);第73-79页 * |
基于动静"表征的众筹协同预测方法";张凯 等;《软件学报》;第31卷(第04期);第967-980页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114330866A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN112702224B (zh) | 一种针对家庭宽带用户质差的分析方法和装置 | |
KR102592402B1 (ko) | 연합 학습을 활용한 사용자 특성 분석을 위한 딥 러닝 모델 생성 방법 | |
CN103607309B (zh) | 一种业务kqi与qoe的映射方法 | |
CN111538873A (zh) | 一种基于端对端模型的电信客户流失概率预测方法及系统 | |
CN113099475B (zh) | 网络质量检测方法、装置、电子设备及可读存储介质 | |
CN111582341A (zh) | 用户异常操作预测方法及装置 | |
KR101450453B1 (ko) | 컨텐츠 추천 방법 및 장치 | |
CN112200375A (zh) | 预测模型生成方法、预测模型生成装置和计算机可读介质 | |
CN113947260B (zh) | 用户满意度预测方法、装置及电子设备 | |
CN111177500A (zh) | 数据对象分类方法、装置、计算机设备和存储介质 | |
CN116452747B (zh) | 一种基于多场景的bim模型渲染方法及系统 | |
CN114330866B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN115982646B (zh) | 一种基于云平台的多源测试数据的管理方法及系统 | |
CN107222319B (zh) | 一种通信操作分析方法及装置 | |
CN114491093B (zh) | 多媒体资源推荐、对象表征网络的生成方法及装置 | |
CN114510627A (zh) | 对象推送方法、装置、电子设备及存储介质 | |
CN113297417B (zh) | 视频推送方法、装置、电子设备和存储介质 | |
CN113393047A (zh) | 一种业务场景关键表预测方法及装置 | |
CN110874612B (zh) | 时段预测方法、装置、计算机设备和存储介质 | |
CN113313615A (zh) | 一种对企业司法风险进行量化评分定级的方法及装置 | |
AU2020335019A1 (en) | Evaluation method based on mobile news client and system thereof | |
CN117351993B (zh) | 一种基于音频分发的音频传输质量评价方法及系统 | |
CN113742243B (zh) | 应用评测方法、装置、电子设备和计算机可读介质 | |
CN110401727B (zh) | 一种ip地址分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240205 Address after: 200233, 3rd floor, Building 7, No. 418 Guilin Road, Xuhui District, Shanghai Patentee after: SHANGHAI HANGDONG TECHNOLOGY CO.,LTD. Country or region after: China Address before: Room 406, building 5, No. 23, Huashen Avenue, Yuhuatai District, Nanjing, Jiangsu 210012 Patentee before: Jiangsu Weihao Intelligent Technology Co.,Ltd. Country or region before: China |