CN109903095A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109903095A
CN109903095A CN201910157618.1A CN201910157618A CN109903095A CN 109903095 A CN109903095 A CN 109903095A CN 201910157618 A CN201910157618 A CN 201910157618A CN 109903095 A CN109903095 A CN 109903095A
Authority
CN
China
Prior art keywords
user
feature
default
history
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910157618.1A
Other languages
English (en)
Inventor
周小又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lazhasi Information Technology Co Ltd
Original Assignee
Shanghai Lazhasi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lazhasi Information Technology Co Ltd filed Critical Shanghai Lazhasi Information Technology Co Ltd
Priority to CN201910157618.1A priority Critical patent/CN109903095A/zh
Publication of CN109903095A publication Critical patent/CN109903095A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种数据处理方法、装置、电子设备及计算机可读存储介质,所述数据处理方法包括:获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;利用所述第一特征向量训练得到数据处理模型;获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。该技术方案能够提高用户重复下单概率等数据处理的时效性和准确性,为平台、为商户提供可靠的数据支持。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务。为了提高服务质量、提升用户的使用体验,很多平台都根据历史用户的特征信息确定当前用户重复下单的概率。但现有技术在进行重复下单概率的预测时,或者是发生了实际下单行为之后才能计算,无法保证时效性,或者依赖于人工经验进行预测,由于人工考虑因素有限,因此无法保证准确性,进而无法为平台、为商户提供可靠的数据支持。
发明内容
本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种数据处理方法。
具体的,所述数据处理方法,包括:
获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
利用所述第一特征向量训练得到数据处理模型;
获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
结合第一方面,本公开在第一方面的第一种实现方式中,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,所述获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量,包括:
将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,还包括:
对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本发明实施例在第一方面的第七种实现方式中,所述对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理,包括:
获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;
获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本发明实施例在第一方面的第八种实现方式中,所述数据处理模型为FM模型或DeepFM模型。
第二方面,本公开实施例中提供了一种数据处理装置。
具体的,所述数据处理装置,包括:
提取模块,被配置为获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
训练模块,被配置为利用所述第一特征向量训练得到数据处理模型;
处理模块,被配置为获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。
结合第二方面和第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述提取模块包括:
划分子模块,被配置为将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
第一提取子模块,被配置为获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
第二提取子模块,被配置为获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
组合子模块,被配置为将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本发明实施例在第二方面的第四种实现方式中,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第二标签特征值。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式,本发明实施例在第二方面的第六种实现方式中,还包括:
预处理模块,被配置为对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式,本发明实施例在第二方面的第七种实现方式中,所述预处理模块包括:
第一预处理子模块,被配置为获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;
第二预处理子模块,被配置为获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式和第二方面的第七种实现方式,本发明实施例在第二方面的第八种实现方式中,所述数据处理模型为FM模型或DeepFM模型。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持数据处理装置执行上述第一方面中数据处理方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据处理装置还可以包括通信接口,用于数据处理装置与其他设备或通信网络通信。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储数据处理装置所用的计算机指令,其包含用于执行上述第一方面中数据处理方法为数据处理装置所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
上述技术方案对于不同历史时间段内的用户历史数据进行区分处理,得到更具时效性的重复下单概率等数据处理模型,进而处理得到准确性较高的用户重复下单概率等数据。该技术方案能够提高用户重复下单概率等数据处理的时效性和准确性,为平台、为商户提供可靠的数据支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的数据处理方法的流程图;
图2示出根据图1所示实施方式的数据处理方法的步骤S101的流程图;
图3示出根据本公开另一实施方式的数据处理方法的流程图;
图4示出根据图3所示实施方式的数据处理方法的预处理步骤的流程图;
图5示出根据本公开一实施方式的数据处理装置的结构框图;
图6示出根据图5所示实施方式的数据处理装置的提取模块501的结构框图;
图7示出根据本公开另一实施方式的数据处理装置的结构框图;
图8示出根据图7所示实施方式的数据处理装置的预处理模块704的结构框图;
图9示出根据本公开一实施方式的电子设备的结构框图;
图10是适于用来实现根据本公开一实施方式的数据处理方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
本公开实施例提供的技术方案对于不同历史时间段内的用户历史数据进行区分处理,得到更具时效性的重复下单概率等数据处理模型,进而处理得到准确性较高的用户重复下单概率等数据。该技术方案能够提高用户重复下单概率等数据处理的时效性和准确性,为平台、为商户提供可靠的数据支持。
图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示,所述数据处理方法包括以下步骤S101-S103:
在步骤S101中,获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
在步骤S102中,利用所述第一特征向量训练得到数据处理模型;
在步骤S103中,获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
上文提及,随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务。为了提高服务质量、提升用户的使用体验,很多平台都根据历史用户的特征信息确定当前用户重复下单的概率。但现有技术在进行重复下单概率的预测时,或者是发生了实际下单行为之后才能计算,无法保证时效性,或者依赖于人工经验进行预测,由于人工考虑因素有限,因此无法保证准确性,进而无法为平台、为商户提供可靠的数据支持。
考虑到上述缺陷,在该实施方式中,提出一种数据处理方法,该方法对于不同历史时间段内的用户历史数据进行区分处理,得到更具时效性的重复下单概率等数据处理模型,进而处理得到准确性较高的用户重复下单概率等数据。该技术方案能够提高用户重复下单概率等数据处理的时效性和准确性,为平台、为商户提供可靠的数据支持。
在本实施例的一个可选实现方式中,所述用户历史数据指的是所述用户曾经发生的数据,比如,某一个用户在某一个平台上的下单数据、交易数据、点击数据、浏览数据、使用的优惠数据等等。其中,所述用户可以为一个用户也可以为多个用户,当然,为了保证后续数据处理的准确性,所述用户可设为多个用户。
其中,所述数据指的是与某一或者某些用户相关的、具有一定特质的数据,比如,用户行为数据、用户操作数据等等。更具体地,在本实施例的一个可选实现方式中,待处理的数据可包括针对某一行为对象所发生的行为数据,比如下单、发生交易、点击、浏览等等。其中,所述行为对象比如可以为某一商家、某一卖家、某一商户、某一服务提供商等对象。
在本实施例的一个可选实现方式中,所述历史数据的第一特征向量可包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。其中,所述标识特征用于对于所述用户的唯一识别性进行标识,比如该用户的ID等等;所述属性特征用于表征所述用户的属性信息,比如年龄、性别、职业、健康状况等信息;所述位置特征用于表征所述用户所在的位置,比如地理位置、经纬度信息、地图兴趣点信息等等;所述喜好特征用于表征所述用户的喜好信息,比如服务偏好、产品偏好、商家偏好、菜式口味偏好、优惠敏感度、价格偏好、服务偏好、资源偏好等等;所述行为特征用于表征所述用户的行为信息,比如是否下单、下单的对象、是否点击、点击的对象、是否浏览、浏览的对象、优惠前客单价、优惠后客单价、无优惠单占比、下单概率、下单频次、累计代金券金额、代金券使用率、下单渠道、点击频次、浏览频次、访问频次、总完成单量等等;所述优惠特征指的是所述用户是否使用优惠、使用哪种优惠、优惠门槛是多少、优惠金额是多少等等;所述标签特征指的是所述用户的行为标签,比如,若待确定的目标行为设置为下单操作,则若所述用户在预设时间段内下过单,则其对应的标签特征就设为1,否则,若所述用户在预设时间段内没有下过单,则其对应的标签特征就设为0。
由于第二特征向量用于作为所述数据处理模型的输入,得到目标时间段内的数据处理结果,因此,所述第二特征向量中不包括标签特征,即所述第二特征向量可包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
其中,所述预设历史时间段指的是当前时间之前的一个时间段,比如当前时间之前的90天,当前时间之前的3天等等。所述预设历史时间段的具体长度可根据实际应用的需要进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,将预设历史时间段分为第一预设历史时间段和第二预设历史时间段,第一预设历史时间段内的第一用户历史数据用作训练数据处理模型,第二预设历史时间段内的第二用户历史数据用作数据处理模型的输入,以获得目标时间段内的数据处理结果。在本实施例的一个可选实现方式中,所述目标时间段比如可以为当前时间或者当前时间所在的一个时间段。
在本实施例的一个可选实现方式中,所述数据处理模型选为FM模型或DeepFM模型,其中,所述FM模型为因子分解机(Factorization Machine,FM),是一种基于矩阵分解的机器学习算法,它可以高效地学习特征之间的关系,更好地挖掘特征组合;所述DeepFM模型是一种同时提取到低阶组合特征与高阶组合特征的模型,它的结构中包含了因子分解机(Factorization Machine)部分以及深度神经网络(Deep Neural Networks)部分,因此能够有效结合神经网络与因子分解机在特征学习中的优点,让特征组合更为有效。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S101,即获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量的步骤,包括步骤S201-S204:
在步骤S201中,将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
在步骤S202中,获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
在步骤S203中,获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
在步骤S204中,将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
为了训练得到准确性更高的数据处理模型,在该实施方式中,先将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,第一预设历史子时间段早于第二预设历史子时间段;然后获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,用作数据处理模型的特征数据,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;然后获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,用作数据处理模型的标签数据,其中,所述第二特征子向量包括:标识特征和标签特征;最后基于所述标识特征,将具有相同标识特征的所述第一特征子向量和第二特征子向量组合起来得到所述第一特征向量,进行后续数据处理模型的训练。
以待处理的数据为在某一商户重复下单的行为数据为例,假设待处理的目标时间段为今天,标识为T,则第一预设历史子时间段可选为第T-2天,即前天,第一用户历史子数据即为前天下单用户在该商户产生的订单数据及相应的用户数据,相应提取得到的第一特征子向量可表示为:[用户ID,value11,value12...],其中,用户ID表示该用户的标识特征,value11,value12...表示该用户的属性特征、位置特征、喜好特征、行为特征和优惠特征,比如某一用户的第一特征子向量可表示为:[ID11268,性别:1,年龄:30,位置:110108,金额:36,口味食材:{1000447":1,"1000744":2,"1000742":3}...],其中,性别1代表男性,位置110108代表北京市海淀区,口味食材{1000447":1,"1000744":2,"1000742":3}用于表示不同的口味和食材。
第二预设历史子时间段可选为第T-1天,即昨天,第二用户历史子数据即为前天下单的用户昨天在该商户产生的订单数据,用于产生标签数据,相应提取得到的第二特征子向量可表示为:[用户ID,value21],其中,用户ID表示该用户的标识特征,value21表示该用户的标签特征,如果第T-2天在该商户下单的用户第二天继续在该商户下单,则相应的标签为1,否则为0,比如某一用户的第二特征子向量可表示为:[ID11268,标签:1],即若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。
然后将具有相同标识特征的所述第一特征子向量和第二特征子向量组合起来得到所述第一特征向量,进行后续数据处理模型的训练。比如,上述第一特征子向量和第二特征子向量就可以组合起来得到第一特征向量:[ID11268,标签:1,性别:1,年龄:30,位置:110108,金额:36,口味食材:{1000447":1,"1000744":2,"1000742":3}...]。
在实际应用中,所述第一特征向量、第二特征向量、第一特征子向量和第二特征子向量的具体内容可根据实际应用的需要、目标处理数据的特点进行选择,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述步骤103中获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量的步骤,包括步骤:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
其中,获取用户历史数据以及根据用户历史数据提取第二特征向量的具体实现细节前述实现细节相似,本发明在此不再赘述。
在本实施例的一个可选实现方式中,所述方法还包括对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理的步骤,即如图3所示,所述方法包括步骤S301-S303:
在步骤S301中,获取第一预设历史时间段内的第一用户历史数据,提取得到所述第一用户历史数据的第一特征向量,并对于所述第一特征向量中的离散特征和连续特征分别进行预处理;
在步骤S302中,利用所述第一特征向量训练得到数据处理模型;
在步骤S303中,获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,对于所述第二特征向量中的离散特征和连续特征分别进行预处理,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
考虑到现有技术中对于所有特征通常执行相同的处理操作,没有考虑特征的特点,这就使得现有技术中执行数据处理的准确性较为低下,为了解决这个问题,提高数据处理的准确性,在该实施方式中,对于第一特征向量和第二特征向量中的离散特征和连续特征进行区分处理,以充分利用不同特征的不同特点。
在本实施例的一个可选实现方式中,在步骤S302中,使用FM模型作为数据处理模型,FM模型可以对特征进行组合,深入挖掘特征之间的关系,以重复下单概率为例,所述FM模型可以表达为:
其中,y表示要处理的重复下单概率,n表示样本特征数量,xi表示第i个特征,xj表示第j个特征,ωi表示第i个特征的权重,ωij表示特征组合xi,xj的权重。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S301和S303中对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理的步骤,包括步骤S401-S402:
在步骤S401中,获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;
在步骤S402中,获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。
考虑到所述特征向量中有可能存在不同类型的特征,比如类别特征和连续特征,在该实施方式中,对于不同类型的特征进行区分处理。具体地,对于类别特征进行离散化处理,对于连续特征进行标准化处理。
比如,上述口味食材特征就是一种类别特征,在上文中,其表示为[口味食材={"1000447":1,"1000744":2,"1000742":3}],对其进行离散化处理之后变为[口味食材=1000447:1,口味食材=1000744:2,口味食材=1000742:3]。考虑到后续使用的FM数据处理模型中存在线性组合部分,因此需要对于所述连续特征进行标准化处理,以提高FM数据处理模型找到最优解的速度。比如,可使用Z-Score标准化方法对于连续特征进行标准化处理,Z-Score标准化方式是数据处理的一种常用方法,通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。
后续在得到目标时间段内的数据处理结果后,还可以根据处理结果进行数值大小的排列,以获取符合预设要求的结果。以重复下单概率处理为例,假设经过上述数据处理后,得到228个处理结果,对应于228个可能会重复下单的用户,根据处理结果的数值大小进行降序排列,取前20个用户作为最有可能重复下单的用户进行输出。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图5示出根据本公开一实施方式的数据处理装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,所述数据处理装置包括:
提取模块501,被配置为获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
训练模块502,被配置为利用所述第一特征向量训练得到数据处理模型;
处理模块503,被配置为获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
上文提及,随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务。为了提高服务质量、提升用户的使用体验,很多平台都根据历史用户的特征信息确定当前用户重复下单的概率。但现有技术在进行重复下单概率的处理时,或者是发生了实际下单行为之后才能计算,无法保证时效性,或者依赖于人工经验进行处理,由于人工考虑因素有限,因此无法保证准确性,进而无法为平台、为商户提供可靠的数据支持。
考虑到上述缺陷,在该实施方式中,提出一种数据处理装置,该装置对于不同历史时间段内的用户历史数据进行区分处理,得到更具时效性的重复下单概率等数据处理模型,进而处理得到准确性较高的用户重复下单概率等数据。该技术方案能够提高用户重复下单概率等数据处理的时效性和准确性,为平台、为商户提供可靠的数据支持。
在本实施例的一个可选实现方式中,所述用户历史数据指的是所述用户曾经发生的数据,比如,某一个用户在某一个平台上的下单数据、交易数据、点击数据、浏览数据、使用的优惠数据等等。其中,所述用户可以为一个用户也可以为多个用户,当然,为了保证后续数据处理的准确性,所述用户可设为多个用户。
其中,所述数据指的是与某一或者某些用户相关的、具有一定特质的数据,比如,用户行为数据、用户操作数据等等。更具体地,在本实施例的一个可选实现方式中,待处理的数据可包括针对某一行为对象所发生的行为数据,比如下单、发生交易、点击、浏览等等。其中,所述行为对象比如可以为某一商家、某一卖家、某一商户、某一服务提供商等对象。
在本实施例的一个可选实现方式中,所述历史数据的第一特征向量可包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。其中,所述标识特征用于对于所述用户的唯一识别性进行标识,比如该用户的ID等等;所述属性特征用于表征所述用户的属性信息,比如年龄、性别、职业、健康状况等信息;所述位置特征用于表征所述用户所在的位置,比如地理位置、经纬度信息、地图兴趣点信息等等;所述喜好特征用于表征所述用户的喜好信息,比如服务偏好、产品偏好、商家偏好、菜式口味偏好、优惠敏感度、价格偏好、服务偏好、资源偏好等等;所述行为特征用于表征所述用户的行为信息,比如是否下单、下单的对象、是否点击、点击的对象、是否浏览、浏览的对象、优惠前客单价、优惠后客单价、无优惠单占比、下单概率、下单频次、累计代金券金额、代金券使用率、下单渠道、点击频次、浏览频次、访问频次、总完成单量等等;所述优惠特征指的是所述用户是否使用优惠、使用哪种优惠、优惠门槛是多少、优惠金额是多少等等;所述标签特征指的是所述用户的行为标签,比如,若待确定的目标行为设置为下单操作,则若所述用户在预设时间段内下过单,则其对应的标签特征就设为1,否则,若所述用户在预设时间段内没有下过单,则其对应的标签特征就设为0。
由于第二特征向量用于作为所述数据处理模型的输入,得到目标时间段内的数据处理结果,因此,所述第二特征向量中不包括标签特征,即所述第二特征向量可包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
其中,所述预设历史时间段指的是当前时间之前的一个时间段,比如当前时间之前的90天,当前时间之前的3天等等。所述预设历史时间段的具体长度可根据实际应用的需要进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,将预设历史时间段分为第一预设历史时间段和第二预设历史时间段,第一预设历史时间段内的第一用户历史数据用作训练数据处理模型,第二预设历史时间段内的第二用户历史数据用作数据处理模型的输入,以获得目标时间段内的数据处理结果。在本实施例的一个可选实现方式中,所述目标时间段比如可以为当前时间或者当前时间所在的一个时间段。
在本实施例的一个可选实现方式中,所述数据处理模型选为FM模型或DeepFM模型,其中,所述FM模型为因子分解机(Factorization Machine,FM),是一种基于矩阵分解的机器学习算法,它可以高效地学习特征之间的关系,更好地挖掘特征组合;所述DeepFM模型是一种同时提取到低阶组合特征与高阶组合特征的模型,它的结构中包含了因子分解机(Factorization Machine)部分以及深度神经网络(Deep Neural Networks)部分,因此能够有效结合神经网络与因子分解机在特征学习中的优点,让特征组合更为有效。
在本实施例的一个可选实现方式中,如图6所示,所述提取模块501包括:
划分子模块601,被配置为将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
第一提取子模块602,被配置为获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
第二提取子模块603,被配置为获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
组合子模块604,被配置为将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
为了训练得到准确性更高的数据处理模型,在该实施方式中,划分子模块601将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,第一预设历史子时间段早于第二预设历史子时间段;第一提取子模块602获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,用作数据处理模型的特征数据,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;第二提取子模块603获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,用作数据处理模型的标签数据,其中,所述第二特征子向量包括:标识特征和标签特征;组合子模块604基于所述标识特征,将具有相同标识特征的所述第一特征子向量和第二特征子向量组合起来得到所述第一特征向量,进行后续数据处理模型的训练。
以待处理的数据为在某一商户重复下单的行为数据为例,假设待处理的目标时间段为今天,标识为T,则第一预设历史子时间段可选为第T-2天,即前天,第一用户历史子数据即为前天下单用户在该商户产生的订单数据及相应的用户数据,相应提取得到的第一特征子向量可表示为:[用户ID,value11,value12...],其中,用户ID表示该用户的标识特征,value11,value12...表示该用户的属性特征、位置特征、喜好特征、行为特征和优惠特征,比如某一用户的第一特征子向量可表示为:[ID11268,性别:1,年龄:30,位置:110108,金额:36,口味食材:{1000447":1,"1000744":2,"1000742":3}...],其中,性别1代表男性,位置110108代表北京市海淀区,口味食材{1000447":1,"1000744":2,"1000742":3}用于表示不同的口味和食材。
第二预设历史子时间段可选为第T-1天,即昨天,第二用户历史子数据即为前天下单的用户昨天在该商户产生的订单数据,用于产生标签数据,相应提取得到的第二特征子向量可表示为:[用户ID,value21],其中,用户ID表示该用户的标识特征,value21表示该用户的标签特征,如果第T-2天在该商户下单的用户第二天继续在该商户下单,则相应的标签为1,否则为0,比如某一用户的第二特征子向量可表示为:[ID11268,标签:1],即若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。
然后将具有相同标识特征的所述第一特征子向量和第二特征子向量组合起来得到所述第一特征向量,进行后续数据处理模型的训练。比如,上述第一特征子向量和第二特征子向量就可以组合起来得到第一特征向量:[ID11268,标签:1,性别:1,年龄:30,位置:110108,金额:36,口味食材:{1000447":1,"1000744":2,"1000742":3}...]。
在实际应用中,所述第一特征向量、第二特征向量、第一特征子向量和第二特征子向量的具体内容可根据实际应用的需要、目标处理数据的特点进行选择,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述处理模块503在获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量时,可被配置为:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
其中,获取用户历史数据以及根据用户历史数据提取第二特征向量的具体实现细节前述实现细节相似,本发明在此不再赘述。
在本实施例的一个可选实现方式中,所述装置还包括对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理的部分,即如图7所示,所述装置包括:
提取模块701,被配置为获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
训练模块702,被配置为利用所述第一特征向量训练得到数据处理模型;
处理模块703,被配置为获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果;
预处理模块704,被配置为对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理,即在提取模块701提取得到所述第一特征向量后,对于所述第一特征向量中的离散特征和连续特征分别进行预处理,在处理模块703提取得到所述第二特征向量后,对于所述第二特征向量中的离散特征和连续特征分别进行预处理。
考虑到现有技术中对于所有特征通常执行相同的处理操作,没有考虑特征的特点,这就使得现有技术中执行数据处理的准确性较为低下,为了解决这个问题,提高数据处理的准确性,在该实施方式中,设置有预处理模块704,以对于第一特征向量和第二特征向量中的离散特征和连续特征进行区分处理,以充分利用不同特征的不同特点。
在本实施例的一个可选实现方式中,所述处理模块703使用FM模型作为数据处理模型,FM模型可以对特征进行组合,深入挖掘特征之间的关系,以重复下单概率为例,所述FM模型可以表达为:
其中,y表示要处理的重复下单概率,n表示样本特征数量,xi表示第i个特征,xj表示第j个特征,ωi表示第i个特征的权重,ωij表示特征组合xi,xj的权重。
在本实施例的一个可选实现方式中,如图8所示,所述预处理模块704包括:
第一预处理子模块801,被配置为获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;
第二预处理子模块802,被配置为获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。
考虑到所述特征向量中有可能存在不同类型的特征,比如类别特征和连续特征,在该实施方式中,所述预处理模块704对于不同类型的特征进行区分处理。具体地,对于类别特征进行离散化处理,对于连续特征进行标准化处理。
比如,上述口味食材特征就是一种类别特征,在上文中,其表示为[口味食材={"1000447":1,"1000744":2,"1000742":3}],对其进行离散化处理之后变为[口味食材=1000447:1,口味食材=1000744:2,口味食材=1000742:3]。考虑到后续使用的FM数据处理模型中存在线性组合部分,因此需要对于所述连续特征进行标准化处理,以提高FM数据处理模型找到最优解的速度。比如,可使用Z-Score标准化方法对于连续特征进行标准化处理,Z-Score标准化方式是数据处理的一种常用方法,通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。
后续在得到目标时间段内的数据处理结果后,还可以根据处理结果进行数值大小的排列,以获取符合预设要求的结果。以重复下单概率处理为例,假设经过上述数据处理后,得到228个处理结果,对应于228个可能会重复下单的用户,根据处理结果的数值大小进行降序排列,取前20个用户作为最有可能重复下单的用户进行输出。
本公开还公开了一种电子设备,图9示出根据本公开一实施方式的电子设备的结构框图,如图9所示,所述电子设备900包括存储器901和处理器902;其中,
所述存储器901用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器902执行以实现以下方法步骤:
获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
利用所述第一特征向量训练得到数据处理模型;
获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
在本实施例的一个可选实现方式中,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。
在本实施例的一个可选实现方式中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
在本实施例的一个可选实现方式中,所述获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量,包括:
将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
在本实施例的一个可选实现方式中,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。
在本实施例的一个可选实现方式中,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
在本实施例的一个可选实现方式中,还包括:
对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。
在本实施例的一个可选实现方式中,所述对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理,包括:
获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;
获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。
在本实施例的一个可选实现方式中,所述数据处理模型为FM模型或DeepFM模型。
图10适于用来实现根据本公开实施方式的数据处理方法的计算机系统的结构示意图。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行上述实施方式中的各种处理。在RAM1003中,还存储有系统1000操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1012也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1012上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述数据处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
本公开公开了A1、一种数据处理方法,包括:获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;利用所述第一特征向量训练得到数据处理模型;获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。A2、根据A1所述的方法,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。A3、根据A1或A2所述的方法,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。A4、根据A1-A3任一所述的方法,所述获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量,包括:将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。A5、根据A4所述的方法,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。A6、根据A1-A5任一所述的方法,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。A7、根据A1-A6任一所述的方法,还包括:对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。A8、根据A7所述的方法,所述对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理,包括:获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。A9、根据A1-A8任一所述的方法,所述数据处理模型为FM模型或DeepFM模型。
本公开公开了B10、一种数据处理装置,包括:提取模块,被配置为获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;训练模块,被配置为利用所述第一特征向量训练得到数据处理模型;处理模块,被配置为获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。B11、根据B10所述的装置,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。B12、根据B10或B11所述的装置,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。B13、根据B10-B12任一所述的装置,所述提取模块包括:划分子模块,被配置为将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;第一提取子模块,被配置为获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;第二提取子模块,被配置为获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;组合子模块,被配置为将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。B14、根据B13所述的装置,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第二标签特征值。B15、根据B10-B14任一所述的装置,所述处理模块包括:获取子模块,被配置为获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;第三提取子模块,被配置为根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。B16、根据B10-B15任一所述的装置,还包括:预处理模块,被配置为对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。B17、根据B16所述的装置,所述预处理模块包括:第一预处理子模块,被配置为获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;第二预处理子模块,被配置为获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。B18、根据B10-B17任一所述的装置,所述数据处理模型为FM模型或DeepFM模型。
本公开公开了C19、一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;利用所述第一特征向量训练得到数据处理模型;获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。C20、根据C19所述的电子设备,所述第一特征向量包括以下特征中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征、优惠特征和标签特征。C21、根据C19或C20所述的电子设备,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。C22、根据C19-C21任一所述的电子设备,所述获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量,包括:将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。C23、根据C22所述的电子设备,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。C24、根据C19-C23任一所述的电子设备,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。C25、根据C19-C24任一所述的电子设备,还包括:对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理。C26、根据C25所述的电子设备,所述对于所述第一特征向量和第二特征向量中的离散特征和连续特征分别进行预处理,包括:获取所述第一特征向量和第二特征向量中的类别特征,对于所述类别特征进行离散化处理;获取所述第一特征向量和第二特征向量中的连续特征,对于所述连续特征进行标准化处理。C27、根据C19-C26任一所述的电子设备,所述数据处理模型为FM模型或DeepFM模型。
本公开还公开了D28、一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现A1-A9任一项所述的方法步骤。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
利用所述第一特征向量训练得到数据处理模型;
获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
2.根据权利要求1所述的方法,其特征在于,所述获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量,包括:
将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
3.根据权利要求2所述的方法,其特征在于,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则将所述标签特征设置为第二标签特征值。
4.根据权利要求1-3任一所述的方法,其特征在于,所述获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,包括:
获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
5.一种数据处理装置,其特征在于,包括:
提取模块,被配置为获取第一预设历史时间段内的第一用户历史数据,并提取得到所述第一用户历史数据的第一特征向量;
训练模块,被配置为利用所述第一特征向量训练得到数据处理模型;
处理模块,被配置为获取第二预设历史时间段内的第二用户历史数据,并提取得到所述第二用户历史数据的第二特征向量,将所述第二特征向量输入至所述数据处理模型中,得到目标时间段内的数据处理结果。
6.根据权利要求5所述的装置,其特征在于,所述提取模块包括:
划分子模块,被配置为将所述第一预设历史时间段划分为第一预设历史子时间段和第二预设历史子时间段,其中,所述第一预设历史子时间段早于所述第二预设历史子时间段;
第一提取子模块,被配置为获取所述第一预设历史子时间段内第一预设用户的第一用户历史子数据,根据所述第一用户历史子数据提取得到第一特征子向量,其中,所述第一预设用户为在所述第一预设历史子时间段内发生有效操作的用户,所述第一特征子向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征;
第二提取子模块,被配置为获取所述第一预设用户在所述第二预设历史子时间段内的第二用户历史子数据,根据所述第二用户历史子数据提取得到第二特征子向量,其中,所述第二特征子向量包括:标识特征和标签特征;
组合子模块,被配置为将具有相同标识特征的所述第一特征子向量和第二特征子向量组合得到所述第一特征向量。
7.根据权利要求6所述的装置,其特征在于,若所述第一预设用户在所述第二预设历史子时间段内发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第一标签特征值;若所述第一预设用户在所述第二预设历史子时间段内未发生所述有效操作,则所述第二提取子模块将所述标签特征设置为第二标签特征值。
8.根据权利要求5-7任一所述的装置,其特征在于,所述处理模块包括:
获取子模块,被配置为获取所述第二预设历史时间段内第二预设用户的第二用户历史数据,其中,所述第二预设用户为在所述第二预设历史时间段内发生有效操作的用户;
第三提取子模块,被配置为根据所述第二用户历史数据提取得到第二特征向量,其中,所述第二特征向量包括以下特征向量中的一种或多种:标识特征、属性特征、位置特征、喜好特征、行为特征和优惠特征。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-4任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-4任一项所述的方法步骤。
CN201910157618.1A 2019-03-01 2019-03-01 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN109903095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910157618.1A CN109903095A (zh) 2019-03-01 2019-03-01 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910157618.1A CN109903095A (zh) 2019-03-01 2019-03-01 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109903095A true CN109903095A (zh) 2019-06-18

Family

ID=66946099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910157618.1A Pending CN109903095A (zh) 2019-03-01 2019-03-01 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109903095A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110457361A (zh) * 2019-07-05 2019-11-15 中国平安人寿保险股份有限公司 特征数据获取方法、装置、计算机设备和存储介质
CN111125446A (zh) * 2019-12-20 2020-05-08 北京睦合达信息技术股份有限公司 一种数据管理平台及数据管理方法
CN111460140A (zh) * 2020-03-05 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111666309A (zh) * 2020-06-08 2020-09-15 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111831630A (zh) * 2019-12-30 2020-10-27 北京骑胜科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112541669A (zh) * 2020-12-10 2021-03-23 支付宝(杭州)信息技术有限公司 风险识别方法、系统及装置
CN112784008A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 案件相似度确定方法及装置、存储介质、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032468A1 (en) * 2012-07-30 2014-01-30 Krishna Kumar Anandaraj Predicting user activity based on usage data received from client devices
CN105335875A (zh) * 2015-10-30 2016-02-17 小米科技有限责任公司 购买力预测方法和装置
CN107220845A (zh) * 2017-05-09 2017-09-29 北京小度信息科技有限公司 用户复购概率预测/用户质量确定方法、装置及电子设备
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032468A1 (en) * 2012-07-30 2014-01-30 Krishna Kumar Anandaraj Predicting user activity based on usage data received from client devices
CN105335875A (zh) * 2015-10-30 2016-02-17 小米科技有限责任公司 购买力预测方法和装置
CN107220845A (zh) * 2017-05-09 2017-09-29 北京小度信息科技有限公司 用户复购概率预测/用户质量确定方法、装置及电子设备
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110457361A (zh) * 2019-07-05 2019-11-15 中国平安人寿保险股份有限公司 特征数据获取方法、装置、计算机设备和存储介质
CN110457361B (zh) * 2019-07-05 2023-12-05 中国平安人寿保险股份有限公司 特征数据获取方法、装置、计算机设备和存储介质
CN111125446A (zh) * 2019-12-20 2020-05-08 北京睦合达信息技术股份有限公司 一种数据管理平台及数据管理方法
CN111831630A (zh) * 2019-12-30 2020-10-27 北京骑胜科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111831630B (zh) * 2019-12-30 2023-12-05 北京骑胜科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111460140A (zh) * 2020-03-05 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111666309A (zh) * 2020-06-08 2020-09-15 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN112784008A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 案件相似度确定方法及装置、存储介质、终端
CN112541669A (zh) * 2020-12-10 2021-03-23 支付宝(杭州)信息技术有限公司 风险识别方法、系统及装置

Similar Documents

Publication Publication Date Title
CN109903095A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN109460513A (zh) 用于生成点击率预测模型的方法和装置
CN108268934A (zh) 基于深度学习的推荐方法和装置、电子设备、介质、程序
CN105224623B (zh) 数据模型的训练方法及装置
CN108109008A (zh) 用于预估广告的点击率的方法、装置、设备和存储介质
CN107908740A (zh) 信息输出方法和装置
CN110659657B (zh) 训练模型的方法和装置
CN109948851A (zh) 用于预测事件发生概率的方法和装置
CN107908616B (zh) 预测趋势词的方法和装置
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN113763093A (zh) 一种基于用户画像的物品推荐方法和装置
CN109685574A (zh) 数据确定方法、装置、电子设备及计算机可读存储介质
CN108932625A (zh) 用户行为数据的分析方法、装置、介质和电子设备
CN115033801B (zh) 物品推荐方法、模型训练方法及电子设备
WO2022156589A1 (zh) 一种直播点击率的确定方法和装置
CN110866625A (zh) 促销指标信息生成方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN109978594B (zh) 订单处理方法、装置及介质
CN111488517A (zh) 用于训练点击率预估模型的方法和装置
CN111325614B (zh) 电子对象的推荐方法、装置和电子设备
CN110310162B (zh) 样本生成的方法及装置
CN113360816A (zh) 点击率预测的方法和装置
CN111507471B (zh) 一种模型训练方法、装置、设备及存储介质
CN112182386B (zh) 一种基于知识图谱的目标推荐方法及装置
CN114357242A (zh) 基于召回模型的训练评估方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190618

RJ01 Rejection of invention patent application after publication