CN108734327A

CN108734327A - 一种数据处理方法、装置及服务器

Info

Publication number: CN108734327A
Application number: CN201710261884.XA
Authority: CN
Inventors: 郑巧玲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2018-11-02
Also published as: WO2018192348A1

Abstract

本发明实施例提供一种数据处理方法、装置及服务器，该方法包括：从至少一个数据源获取待挖掘用户的用户特征；获取预训练的目标资产状态预测模型，所述目标资产状态预测模型根据从所述至少一个数据源获取的正样本用户和负样本用户的用户特征训练得到；其中，正样本用户具有目标资产的可能性，大于负样本用户具有目标资产的可能性；所述用户特征至少包括：用户行为特征；根据所述待挖掘用户的用户特征，与所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率；如果所述待挖掘用户具有目标资产的概率大于概率阈值，确定所述待挖掘用户具有目标资产。本发明实施例可提高用户资产状态挖掘的处理效率。

Description

一种数据处理方法、装置及服务器

技术领域

本发明涉及数据处理技术领域，具体涉及一种数据处理方法、装置及服务器。

背景技术

用户资产状态作为用户信息的一部分，就像用户的年龄、性别、国家、省份、城市等基础属性一样，是描述用户非常重要的信息，在用户画像生成、信息推荐等场景下应用广泛；为更好的实现用户画像生成、信息推荐等目的，优化用户资产状态的挖掘方式具有重要意义；用户资产状态是对用户是否拥有某一资产的表示，比如表示用户有无房产、或有无车产等。

目前在对某一用户进行资产状态的挖掘时，需要前往银行、房管局、车管所等登记有用户资产数据的机构进行人工查询，从而基于人工查询结果，判断某一用户是否具有特定资产，实现用户资产状态的挖掘；这种需要前往特定的登记有用户资产数据的机构，才能查询出用户是否具有特定资产的方式，存在用户资产状态挖掘的处理效率低的问题。

发明内容

有鉴于此，本发明实施例提供一种数据处理方法、装置及服务器，以提高用户资产状态挖掘的处理效率。

为实现上述目的，本发明实施例提供如下技术方案：

一种数据处理方法，应用于服务器，所述方法包括：

从至少一个数据源获取待挖掘用户的用户特征；

获取预训练的目标资产状态预测模型，所述目标资产状态预测模型根据从所述至少一个数据源获取的正样本用户和负样本用户的用户特征训练得到；其中，正样本用户具有目标资产的可能性，大于负样本用户具有目标资产的可能性；所述用户特征至少包括：用户行为特征；

根据所述待挖掘用户的用户特征，与所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率；

如果所述待挖掘用户具有目标资产的概率大于概率阈值，确定所述待挖掘用户具有目标资产。

本发明实施例还提供一种数据处理装置，应用于服务器，所述数据处理装置包括：

特征获取模块，用于从至少一个数据源获取待挖掘用户的用户特征；

模型调取模块，用于获取预训练的目标资产状态预测模型，所述目标资产状态预测模型根据从所述至少一个数据源获取的正样本用户和负样本用户的用户特征训练得到；其中，正样本用户具有目标资产的可能性，大于负样本用户具有目标资产的可能性；所述用户特征至少包括：用户行为特征；

概率预测模块，用于根据所述待挖掘用户的用户特征，与所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率；

第一结果确定模块，用于如果所述待挖掘用户具有目标资产的概率大于概率阈值，确定所述待挖掘用户具有目标资产。

本发明实施例还提供一种服务器，包括上述所述的数据处理装置。

基于上述技术方案，本发明实施例可以至少根据正样本用户和负样本用户在数据源对应的行为特征，训练出目标资产状态预测模型；进而在对待挖掘用户进行目标资产状态挖掘时，可以根据待挖掘用户在至少一个数据源的用户特征，通过所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率，并在所述待挖掘用户具有目标资产的概率大于概率阈值时，确定所述待挖掘用户具有目标资产，实现目标资产状态的挖掘。

由于本发明实施例可至少根据用户行为特征训练出目标资产状态预测模型，再利用目标资产状态预测模型进行用户具有目标资产的概率进行预测，实现目标资产状态的自动挖掘，而不需要前往银行、房管局、车管所等机构人工查询用户资产数据，提升了用户资产状态挖掘的处理效率；同时，相比用户资产数据的查询获取，需要银行、房管局、车管所等机构授权同意，本发明实施例可至少使用社交、搜索等数据源中记录的用户行为特征，实现目标资产状态的挖掘，挖掘方式的使用局限性得以降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的数据处理方法的流程图；

图2为本发明实施例提供的训练目标资产状态预测模型的方法流程图；

图3为本发明实施例提供的确定目标用户的方法流程图；

图4为本发明实施例提供的确定初选用户的分值的方法流程图；

图5为本发明实施例的处理示意图；

图6为本发明实施例提供的数据处理装置的结构框图；

图7为本发明实施例提供的数据处理装置的另一结构框图；

图8为本发明实施例提供的数据处理装置的再一结构框图；

图9为本发明实施例提供的数据处理装置的又一结构框图；

图10为服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

设定房产、车产等用户资产类型中的任一种为目标资产，本发明实施例可通过数据处理方式，实现用户是否具有目标资产的挖掘(即实现目标资产状态的挖掘)，数据处理过程可以如图1所示；图1为本发明实施例提供的数据处理方法的流程图，该方法可应用于服务器；服务器可以是位于网络侧的具有数据处理能力的服务设备，也可能是位于用户侧的具有数据处理能力的PC(个人计算机)等计算设备；

参照图1，该方法可以包括：

步骤S100、从至少一个数据源获取待挖掘用户的用户特征。

待挖掘用户为待挖掘目标资产的用户，即本发明实施例需要判断待挖掘用户是否具有目标资产，以实现具有目标资产的用户挖掘；

可选的，待挖掘用户的用户特征可以包括：待挖掘用户的基础属性(如年龄、性别、学历等)、用户行为特征、兴趣特征等至少一种，优选在用户特征中至少使用用户行为特征；

待挖掘用户的用户特征可以根据待挖掘用户的用户账号、身份证号、手机号等用户ID，从至少一个数据源中获取；数据源可以是社交平台、搜索平台等记录有用户数据的应用平台，这类应用平台可以提供用户注册功能(用户注册时，可以要求填写用户的年龄、性别、学历等基础属性)，并对于注册用户，可以根据注册用户在应用平台的行为，记录相应的用户行为数据(数据源所记录的用户行为数据可以通过用户行为日志的形式存在)，甚至是基于注册用户一段时间的历史行为，分析出用户的兴趣特征。

从社交平台、搜索平台等数据源获取用户特征的方式，可以是通过网络抓取实现；也可能是数据源与服务器属于同一服务提供商，服务器可以通过数据源对应的应用平台的接口获取到待挖掘用户的用户特征；

在一种可选实现方式中，服务器和数据源对应的应用平台可以使用同一账号体系，服务器可以接入数据源对应的应用平台的用户账号，从而使得待挖掘用户可以使用在数据源对应的应用平台注册的用户账号，登录服务器。

步骤S110、调取预训练的目标资产状态预测模型，所述目标资产状态预测模型根据从所述至少一个数据源获取的正样本用户和负样本用户的用户特征训练得到；其中，正样本用户具有目标资产的可能性，大于负样本用户具有目标资产的可能性；所述用户特征至少包括：用户行为特征。

本发明实施例可以预先训练出目标资产状态预测模型，该目标资产状态预测模型能够预测出某一用户具有目标资产的概率；在具体训练时，可以从所述至少一个数据源中获取多条用户行为数据，通过对该多条用户行为数据进行分析，从该多条用户行为数据对应的用户中选取出正样本用户和负样本用户，从而获取正样本用户在所述至少一个数据源对应的用户特征，和负样本用户在所述至少一个数据源对应的用户特征，以机器学习方法训练出目标资产状态预测模型；

可选的，正样本用户可以是对该多条用户行为数据进行分析后，确定的具有目标资产的可能性较大的用户，相对而言，负样本用户具有目标资产的可能性，小于正样本用户具有目标资产的可能性；

可选的，正样本用户和负样本用户的用户特征可以包括：用户的基础属性(如年龄、性别、学历等)、用户行为特征、兴趣特征等至少一种，优选在用户特征中至少包括用户行为特征。

步骤S120、根据所述待挖掘用户的用户特征，与所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率。

将待挖掘用户的用户特征作为目标资产状态预测模型的输入数据，输入到目标资产状态预测模型中，可以通过目标资产状态预测模型，预测出待挖掘用户具有目标资产的概率。

步骤S130、如果所述待挖掘用户具有目标资产的概率大于概率阈值，确定所述待挖掘用户具有目标资产。

本发明实施例可以设定用户具有目标资产的概率下限值，得到所述概率阈值，从而在目标资产状态预测模型预测的待挖掘用户具有目标资产的概率，大于所述概率阈值时，认为所述待挖掘用户具有目标资产，从而实现目标资产状态挖掘。

可以看出，本发明实施例可以至少根据正样本用户和负样本用户在数据源对应的行为特征，训练出目标资产状态预测模型；进而在对待挖掘用户进行目标资产状态挖掘时，可以根据待挖掘用户在至少一个数据源的用户特征，通过所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率，并在所述待挖掘用户具有目标资产的概率大于概率阈值时，确定所述待挖掘用户具有目标资产，实现目标资产状态的挖掘。

由于本发明实施例可至少根据用户行为特征训练出目标资产状态预测模型，再利用目标资产状态预测模型对用户具有目标资产的概率进行预测，实现目标资产状态的自动挖掘，而不需要前往银行、房管局、车管所等机构人工查询用户资产数据，提升了用户资产状态挖掘的处理效率；同时，相比用户资产数据的查询获取，需要银行、房管局、车管所等机构授权同意，本发明实施例可至少使用社交、搜索等数据源中记录的用户行为特征，实现目标资产状态的挖掘，减少经银行、房管局、车管所等机构授权同意，才能获取用户资产数据的情况，降低用户资产状态挖掘的使用局限。

可选的，进一步，如果步骤S120所预测的待挖掘用户具有目标资产的概率，小于所述概率阈值，则可确定所述待挖掘用户不具有目标资产。

下面对目标资产状态预测模型的训练过程进行介绍，目标资产状态预测模型的训练思路主要是：选定具有目标资产的可能性较大的正样本用户，以及具有目标资产的可能性较小的负样本用户，通过正样本用户和负样本用户在至少一个数据源中的用户特征，作为模型训练的输入特征，来实现模型训练；

在此思路下，图2示出了一种训练目标资产状态预测模型的方法流程，该方法可应用于服务器，该方法主要是通过用户行为特征的匹配处理，来实现正样本用户的选取；

参照图2，该方法可以包括：

步骤S200、从用户集中确定目标用户；所述目标用户的用户行为特征与目标资产预定的正向特征词相匹配，且所述目标用户的用户行为特征不与目标资产预定的负向特征词匹配。

可选的，用户集可以是从所述至少一个数据源收集的行为数据集合(包含多条行为数据)对应的用户集合，用户集中对应了从所述至少一个数据源收集的多条行为数据所属的用户。

可选的，目标资产预定的正向特征词可以表示目标资产的关键词(keywords)，是对目标资产的正向特征(与目标资产匹配的特征)的描述，以目标资产为具有车产为例，则正向特征词可以为“车友、车险、违章、车贷、卖车”等；

目标资产预定的负向特征词可以是目标资产的过滤词(filter words)，是对目标资产的反向特征(与目标资产不匹配的特征)的描述，以目标资产为具有车产为例，则负向特征词可以是“租车、驾校、买车”等；

可选的，上述以具有车产为目标资产为例，描述的目标资产预定的正向特征词和负向特征词仅是示例性说明，目标资产预定的正向特征词和负向特征词是非常丰富的，本发明实施例可以尽可能的列举目标资产预定的正向特征词及负向特征词，使得目标用户的确定结果尽可能的准确；

在设定了目标资产预定的正向特征词和负向特征词后，本发明实施例可将各用户的用户行为数据表示的用户行为特征，与目标资产预定的正向特征词和负向特征词进行匹配，确定出用户行为特征与目标资产预定的正向特征词相匹配，且所述目标用户的用户行为特征不与目标资产预定的负向特征词匹配的目标用户；

以上文的目标资产为具有车产为例，则目标用户(具有车产的用户)的用户行为特征的特征词应与“车友、车险、违章、车贷、卖车”等正向特征词相匹配，且不与“租车、驾校、买车”等负向特征词相匹配。

即在确定出行为特征与所述正向特征词相匹配的用户行为数据后，还需通过所述负向特征词过滤掉，虽然能与正向特征词相匹配，但是噪音的用户行为数据，从而使得目标用户的确定结果更为准确；

具体的，以上文的目标资产为具有车产为例，在通过车产的“车友、车险、违章、车贷、卖车”等正向特征词匹配出初步的用户后，这些用户中可能存在真正具有车产的用户，也可能存在不具有车产但希望了解车辆信息的用户(如不具有车产，但搜索了与车辆贷款，保险相关信息的用户)；因此需要从通过正向特征词匹配出的初步的用户中，过滤掉不具有车产但希望了解车辆信息的用户(即噪音用户)，保留出准确的真正具有车产的用户，此时就需要通过车产的“租车、驾校、买车”等负向特征词，从正向特征词匹配出的初步的用户中，过滤掉与具有车产状态的用户极可能不相关的存在“租车、驾校、买车”等负向特征词行为的用户，从而过滤噪音的用户行为数据，使得所确定的具有车产的目标用户的确定结果更为准确。

可选的，确定目标用户的过程也可直接通过目标资产预定的正向特征词实现，而不需通过目标资产预定的负向特征词；即本发明实施例可将用户集中，用户行为特征与目标资产预定的正向特征词相匹配的用户，直接作为目标用户；在确定出用户行为特征与目标资产预定的正向特征词相匹配的用户后，再通过与目标资产预定的负向特征词进行噪音用户过滤的手段，仅是提高目标用户确定准确率的一种可选方式；在设置合理的目标资产预定的正向特征词的基础上，本发明实施例也可将用户行为特征与目标资产预定的正向特征词相匹配的用户，直接确定为目标用户，且确定结果具有一定的准确性。

步骤S210、将所述目标用户作为训练目标资产状态预测模型所使用的正样本用户，并从用户集中选取训练目标资产状态预测模型所使用的负样本用户。

由于目标用户的用户行为特征与目标资产预定的正向特征词相匹配，且不与目标资产预定的负向特征词匹配，因此目标用户具有目标资产的可能性较大，可以将目标用户作为训练目标资产状态预测模型所使用的正样本用户；

在确定了正样本用户后，可以从所述用户集中随机选取出负样本用户；

正样本用户和负样本用户的比例可以根据实际情况设定，比如正样本用户和负样本用户的比例可以是1:1，或者N:1等，N为设定数值。

步骤S220、从所述至少一个数据源，获取正样本用户的用户特征及负样本用户的用户特征。

在确定正样本用户和负样本用户后，本发明实施例可从所述至少一个数据源，获取正样本用户的用户特征及负样本用户的用户特征；可选的，本发明实施例可将用户的基础属性(如年龄、性别、学历等)、用户行为特征、兴趣特征等作为用户特征使用；用户特征的具体形式可根据实际情况定义，优选至少包括用户行为特征。

步骤S230、根据正样本用户的用户特征和负样本用户的用户特征，通过机器训练方法，训练出目标资产状态预测模型。

可选的，本发明实施例可以将正样本用户的用户特征，和负样本用户的用户特征，作为机器训练方法的输入数据，通过机器训练方法，训练出目标资产状态预测模型；

本发明实施例所使用的机器训练方法可以包括：决策树(Decision Tree)、LR(Logistic Regression)、贝叶斯网络( Bayes)、随机森林(Random Forest)、支持向量机SVM(Support Vector Machine)及boosting模型xgboost等；优选的，可以使用二分类比较经典的模型LR，也可以选精度高速度快的xgboost模型。

可选的，在训练目标资产状态预测模型的过程中，可以调整模型的参数，如xgboost模型，可以调整树深度、eta(收缩步长)，以及迭代次数，以得到了质量较优的目标资产状态预测模型(根据模型输出的auc、错误率、召回率recall、准确率precision判断模型质量)，优化模型训练结果。

可选的，对于从至少一个数据源收集的多条用户行为数据，本发明实施例可进行预处理，得到多条用户行为记录，从而通过用户行为记录所表示的用户行为特征与目标资产预定的正向特征词和负向特征词的匹配，确定出目标用户；

可选的，图3示出了本发明实施例提供的确定目标用户的方法流程图，该方法可应用于服务器，参照图3，该方法可以包括：

步骤S300、获取从至少一个数据源收集的多条用户行为数据，所述多条用户行为数据对应的用户包含于所述用户集中。

可选的，用户行为数据可以用户行为日志的形式存在，本发明实施例可从至少一个数据源收集到海量的用户行为数据，用户行为数据是对某一用户在数据源对应的应用平台的行为的描述，所收集的海量的用户行为数据涉及到的用户，与前文描述的用户集相应。

步骤S310、对所述多条用户行为数据进行预处理，得到预处理后的用户行为数据，提炼出各条预处理后的用户行为数据对应的用户行为记录，得到多条用户行为记录；一条用户行为记录表示一个用户在一个时间点的用户行为特征。

可选的，对于所收集的多条用户行为数据，本发明实施例可以进行预处理，然后提炼出各条预处理后的用户行为数据对应的用户行为记录，得到多条用户行为记录；所得到的用户行为记录的数量，不大于所收集的多条用户行为数据的数量，且一条用户行为记录可对应一条预处理后的用户行为数据；

可选的，对用户行为数据进行预处理的过程可以是，删除为数据噪声的用户行为数据，和/或，补齐用户行为数据中的缺失值，得到预处理后的用户行为数据；具体的，本发明实施例可从所述多条用户行为数据中删除为数据噪声的用户行为数据，和/或，对所述多条用户行为数据中缺失属性值的用户行为数据，进行属性值的补齐处理；

数据噪声是指包含错误属性值或存在偏离期望的孤立点的属性值，出现噪声的原因可能有多种原因，比如收集数据的设备出现故障，数据输入时出现错误，数据传输过程中出现错误，存储介质出现损坏等；对于为数据噪声的用户行为数据，本发明实施例可通过预处理进行删除；比如，收集的用户行为数据中，存在一条时间属性为2050年的行为数据，那么明显的，由于当前的年份还未到达2050年，那么此条行为数据可能是由于数据输入时，年份出现错误，或者设备故障所导致，需要通过预处理方式进行删除，显然此处的举例仅是行为数据包含错误属性值或存在偏离期望的孤立点的属性值的情况的一种形式；

从数据源中收集的用户行为数据缺失属性值的情况经常发全，甚至是不可避免的，比如有些属性值是无法获取的，有些属性值是被遗漏等；因此需要对缺失属性值的用户行为数据进行处理，可选的处理方式可以是：补齐用户行为数据中的缺失的属性值，比如使用预定值去填充缺失的属性值等；比如，一条用户行为数据中缺失了年龄属性的属性值，则本发明实施例可使用预定的年龄值填充年龄属性的属性值，以补齐用户行为数据中的缺失的属性值，显然，此处所描述的缺少年龄值的属性值填充举例仅是示意，实际使用中，可以根据需要设定需要填充缺失的属性值的属性类型。

可选的，由于对用户行为数据进行预处理的过程涉及噪声数据的删除，因此预处理后的用户行为数据的数量，可能会小于用户行为数据集合中的用户行为数据的数量；

在得到预处理后的用户行为数据后，对于各条预处理后的用户行为数据，本发明实施例可提炼出各条预处理后的用户行为数据所对应的用户行为记录，得到多条用户行为记录，且一条用户行为记录对应一条预处理后的用户行为数据；

一条用户行为记录可以表示一个用户在一个时间点的用户行为特征，比如某一用户在某一时间点所执行的行为及行为次数，一种可选的用户行为记录的形式可以是{用户id，行为时间，行为类型，行为次数，行为描述}；其中，用户id可用于唯一标识一个用户，行为时间可用于表示该用户id对应的用户执行行为的时间点；

通过对用户行为集合中的多条用户行为数据进行预处理，得到预处理后的用户行为数据，且提炼出各条预处理后的用户行为数据对应的用户行为记录，来进行后续目标资产状态预测模型的训练，可以极大的缩减数据处理量。

相应的，所得到的多条用户行为记录对应至少一个数据源，且所述多条用户行为记录对应的多个用户属于所述用户集。

步骤S320、根据目标资产预定的正向特征词和负向特征词，从所述多条用户行为记录中确定用户行为特征与所述正向特征词相匹配，且不与所述负向特征词匹配的用户行为记录。

步骤S330、将所确定的用户行为记录对应的用户确定为初选用户。

步骤S340、从所述初选用户中确定目标用户。

可见，本发明实施例可以对从至少一个数据源收集的多条用户行为数据进行预处理，并提炼出用户行为记录，获取到多条用户行为记录，从而根据目标资产预定的正向特征词和负向特征词，从所述多条用户行为记录中确定用户行为特征与所述正向特征词相匹配，且不与所述负向特征词匹配的用户行为记录；进而将所确定的用户行为记录对应的用户确定为初选用户，从所述初选用户中确定出目标用户。

可选的，在确定出初选用户后，本发明实施例可以直接将初选用户作为目标用户。

进一步，也可以从初选用户中进行选取，得到目标用户；具体的，本发明实施例可以确定各初选用户的分值；一个初选用户的分值表示该初选用户具有目标资产的可能性；从而根据各初选用户的分值，从初选用户中确定第一数量的目标用户；第一数量小于初选用户的数量。

可选的，一个初选用户的分值确定过程可以如图4所示，对于每一个初选用户均执行如图4所示处理，则可得到各初选用户的分值；图4为本发明实施例提供的确定初选用户的分值的方法流程图，参照图4，该方法可以包括：

步骤S400、确定初选用户的用户行为记录所对应的数据源，得到初选用户对应的数据源；及确定初选用户在所对应的各数据源中对应的行为次数，和行为发生时间。

对于一个初选用户，本发明实施例可确定该初选用户对应的用户行为记录，得到该初选用户的用户行为记录(该用户行为记录的用户行为特征与所述正向特征词相匹配，且不与所述负向特征词匹配)；即本发明实施例需要分析出初选用户对应的用户行为记录，具体是步骤S320所确定的用户行为记录中的哪些，比如步骤S320所确定的用户行为记录是100条，该100条用户行为记录记录的是A、B和C三个用户的用户行为特征，则对于初选用户A，需要确定出该100条用户行为记录中哪些是初选用户A的用户行为记录(可选的，可通过各用户行为记录中的用户账号等用户id，区分各个用户，相应的，可从步骤S320所确定的用户行为记录中确定与初选用户A的用户id相应的用户行为记录，获取到初选用户A的用户行为记录)；从而对于每一初选用户均作此处理，可得到各初选用户对应的用户行为记录。

在确定初选用户对应的用户行为记录后，本发明实施例可确定初选用户的用户行为记录所对应的数据源；比如在确定初选用户A的用户行为记录为，步骤S320所确定的第1至20条的用户行为记录，则该第1至20条的用户行为记录可能来自不同的数据源，本发明实施例需要确定该第1至20条的用户行为记录中，各用户行为记录的数据源，从而确定初选用户A的用户行为记录所对应的数据源，得到初选用户A对应的数据源；对于每一初选用户均作此处理，可得到各初选用户对应的数据源。

在得到初选用户的所对应的数据源后，本发明实施例可确定初选用户的用户行为记录在所对应的各数据源中对应的用户行为次数，及行为发生时间，得到初选用户在所对应的各数据源中对应的行为次数，和行为发生时间(可选的，可通过初选用户在各个数据源对应的用户行为记录所记录的行为时间和行为次数等信息，确定初选用户在所对应的各数据源中对应的行为次数，和行为发生时间)；

可选的，同一用户的多条用户行为记录中，相同数据源的用户行为记录可进行聚合；在聚合时，可将一用户在一数据源的多条用户行为记录中，最近的行为发生时间，作为该用户在该数据源对应的行为发生时间；将一用户在一数据源的多条用户行为记录中，行为次数的累加值，作为该用户在该数据源对应的用户行为次数；

比如初选用户A在数据源1中具有20条用户行为记录，则初选用户在数据源1中对应的行为次数可以是，该20条用户行为记录的行为次数的累加值，初选用户在数据源1中对应的行为发生时间可以是，该20条用户行为记录中最近的行为发生时间。

步骤S410、对于初选用户所对应的各数据源，将数据源的数据源权重，初选用户在数据源中对应的用户行为次数，及行为发生时间相结合，以得到初选用户在所对应的各数据源的分值。

可选的，以第u个初选用户为例，设w_i表示第i个数据源的权重，m为该第u个初选用户在第i个数据源的用户行为次数，t表示该第u个初选用户在第i个数据源的行为发生时间，则可根据如下公式确定第u个初选用户在第i个数据源的分值：

其中，sigmoid函数进行归一化处理，表示行为频次越多，分值越高，即初选用户在一数据源对应的用户行为次数，与初选用户在该数据源的分值为正相关关系；

t₀表示当前系统时间，α为时间衰减参数。函数表示行为发生时间距离当前系统时间越近，则分值越大，距离当前系统时间越远，分值越小；即当前系统时间，和初选用户在一数据源对应的行为发生时间的差值，与初选用户在该数据源的分值为负相关关系。

步骤S420、将初选用户在所对应的各数据源的分值相加，得到初选用户的分值。

设s_u表示第u个初选用户的分值，则第u个初选用户的分值的确定公式可以为：

其中，N表示第u个初选用户对应的数据源个数。

可见，初选用户的分值的因素包含以下几个：首先由于不同数据源表示的行为不同，不同数据源的权重(weight)将不同(前面提到数据源包括：社交、搜索、电商等；相应的用户在不同数据源的行为可能是社交行为、搜索行为、电商交易行为等)，举个例子，购买车险、汽车配件行为明确的表明用户是有车状态的用户，而搜索某款汽车或者浏览汽车相关信息，只能表示用户对汽车感兴趣；其次，用户行为次数(频次)也是一个重要影响因素，还是上面的例子来说明下，用户多次购买汽车配件、车险，那么行为权重会叠加，相对于偶尔购买一次的用户更能明确表明用户是有车状态的；另外，用户行为发生时间不同，其权重也不同，越是近期发生的行为越能说明用户现在的资产状态。

因此，对于各初选用户，本发明实施例可确定初选用户的用户行为记录所对应的数据源，以得到各初选用户对应的数据源；及对于各初选用户，本发明实施例可确定初选用户在所对应的各数据源中对应的行为次数，和行为发生时间；

从而对于各初选用户，确定初选用户在所对应的各数据源的分值，以分别得到各初选用户在所对应的各数据源中的分值；其中，一个初选用户在所对应的一个数据源的分值的确定过程包括：将该数据源的数据源权重，该初选用户在该数据源中对应的用户行为次数，及行为发生时间相结合，得到该初选用户在该数据源中的分值；

进而对于各初选用户，将初选用户在所对应的各数据源的分值相加，得到各初选用户的分值。

可选的，本发明实施例可对每个数据源都赋一个统一的权重值；

另一方面，不同的数据源的权重可以不同；具体的，对于一个数据源，可以选取数据源中部分初选用户作为正样本，然后从数据源对应的用户集中随机挑选一定比例的负样本，对该数据源赋一个初始权重值，将数据源的正、负样本的特征输入LR模型进行训练，最后模型迭代收敛输出的结果，则认为是该数据源的权重值；对于每一数据源均作此处理，则可得到每一个数据源的权重；这里不限于使用LR模型学习数据源权重，还可以根据具体需要选择其它机器学习方法。

可选的，在确定各初选用户的分值后，本发明实施例选取分值最大的第一数量的初选用户，作为目标用户；也可以是，确定分值大于分值阈值的初选用户，从分值大于分值阈值的初选用户中随机选取第一数量的初选用户，作为目标用户。

可选的，除通过上述描述的方式实现正样本用户的确定外，本发明实施例还可采用主题模型对用户行为记录进行分类，也就是通过相似度方法计算用户行为记录的用户行为特征，与正样本用户的主题关键词的相似度，得到各用户行为记录对应的相似度，取相似度最高的用户行为记录所对应第一数量的用户作为正样本用户。

可选的，在通过图2所示方法训练出目标资产状态预测模型后，本发明实施例可从初选用户中随机选取第二数量的用户作为测试样本用户，通过测试样本用户的用户特征来评估训练出的目标资产状态预测模型的准确率；

具体的，可将各测试样本用户的用户特征输入目标资产状态预测模型中，通过目标资产状态预测模型，预测出测试样本用户具有目标资产的结果的比例，来确定目标资产状态预测模型的准确率；比如测试样本用户有100个，目标资产状态预测模型预测测试样本用户后，预测出80个测试样本用户具有目标资产，那么准确率＝80/100＝80％。

进一步，本发明实施例可将目标资产状态预测模型，预测测试样本用户的结果，采用ROC曲线表示；即将各测试样本用户的用户特征输入目标资产状态预测模型，得到测试样本用户的预测结果，然后将所述预测结果采用ROC曲线表示；其中，ROC曲线是指受试者工作特征曲线/接收器操作特性曲线(receiver operating characteristic)，是反映敏感性和特异性连续变量的综合指标，是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高；本发明实施例可将测试样本的各个预测结果作为连续变量，从而通过计算一系列敏感性和特异性，构建出ROC曲线；

相应的，可将ROC曲线下的面积，介于0.1和1之间，作为概率阀值；也即概率阈值可通过资产的测试样本的ROC曲线进行选择。

比如，在一个二分类模型中，对于所得到的连续结果，假设已确定一个概率阀值，比如说0.6，目标资产状态预测模型预测一个用户具有目标资产的概率，大于这个概率阈值，则该用户划归为正类(即具有目标资产)；目标资产状态预测模型预测一个用户具有目标资产的概率，小于这个概率阈值，则该用户划归为负类(即不具有目标资产)；那么，如果减小概率阀值，比如减到0.5，固然能识别出更多的正类，也就是提高了识别出的正类所占的比例，但同时也将更多的原本应是负类的用户当作了正类，本发明实施例可通过ROC曲线形象化这一变化，即可通过ROC曲线形象化不同概率阀值选择上，正类用户识别准确性的变化，从而可评价目标资产状态预测模型的预测准确性；如一概率阈值下，测试样本有100个，模型预测测试样本时，预测对了80个，那么准确率＝80/100＝80％，而如果再次调整概率阈值，则准确率降为70％，则可通过这一变化来评价目标资产状态预测模型的预测准确性；

本发明实施例可根据不同资产类型来调整模型，并根据模型在各资产的测试样本用户上的ROC曲线，来选择不同的概率阀值，以平衡真正类率(真正的正类被预测出的比率)及负正类率(实际上不是正类，但被预测成正类的比率)，提升模型的预测准确性。如不同的资产(有房、有车)对应的阀值理论是不同的，应该根据不同资产的测试样本调整该资产的预测模型，从而根据该资产的预测模型在测试样本上的ROC曲线，来选择该资产的预测模型的概率阀值，即对于每一资产，本发明实施例在构建出该资产的预测模型后，可通过该资产的测试样本的预测结果的ROC曲线，来选择该资产的预测模型的概率阀值，从而对于每一资产均作此处理，得到每一资产的预测模型的概率阈值。

可选的，以目标资产状态预测模型的形式为分类器为例，本发明实施例的可选处理示意可以如图5所示，参照图5，在从至少一个数据源收集到多条用户行为数据后，本发明实施例可以进行预处理，提炼出用户行为记录，并且设置出目标资产的关键词和过滤词；从而以目标资产的关键词和过滤词，对用户行为记录进行文本语义挖掘处理，分析出用户行为特征与所述正向特征词相匹配，且不与所述负向特征词匹配的用户行为记录，从而从提炼的用户行为记录中进一步的筛选出，行为特征与目标资产匹配的用户行为记录；从而将筛选出的用户行为记录对应的用户作为初选用户，实现初选用户的确定；

进而确定各初选用户的分值，根据分值确定出模型训练使用的正样本用户，并选取出负样本用户；

将正样本用户的用户特征，和负样本用户的用户特征导入分类器训练模型中，训练得到目标资产状态预测分类器；

从而将待挖掘用户的用户特征，导入该目标资产状态预测分类器中，得到待挖掘用户具有目标资产的概率，将该概率与概率阈值进行比对，确定出待挖掘用户是否具有目标资产的结果。

可选的，在确定出待挖掘用户具有目标资产的结果后，本发明实施例可根据所确定的所述待挖掘用户具有目标资产的结果，生成所述待挖掘用户的用户画像(如可将待挖掘用户具有目标资产的结果，作为该待挖掘用户的用户画像生动的一个数据维度，以实现该待挖掘用户的用户画像的生成)，以实现用户资产状态的挖掘结果在用户画像生成中的应用；

在另一种应用中，本发明实施例也可以根据所确定的所述待挖掘用户具有目标资产的结果，向所述待挖掘用户推荐与所述目标资产相关联的信息。以目标资产为具有车产为例，与目标资产相关联的信息比如新车信息，车辆限行信息等。

本发明实施例可至少根据用户行为特征训练出目标资产状态预测模型，再利用目标资产状态预测模型进行用户具有目标资产的概率进行预测，实现目标资产状态的自动挖掘，而不需要前往银行、房管局、车管所等机构人工查询用户资产数据，提升了用户资产状态挖掘的处理效率；同时，相比用户资产数据的查询获取，需要银行、房管局、车管所等机构授权同意，本发明实施例可至少使用社交、搜索等数据源中记录的用户行为特征，实现目标资产状态的挖掘，挖掘方式的使用局限性得以降低。

下面对本发明实施例提供的数据处理装置进行介绍，下文描述的数据处理装置可以认为是服务器为实现本发明实施例提供的数据处理方法所需设置的功能模块结构。

图6为本发明实施例提供的数据处理装置的结构框图，该装置可应用于服务器，参照图6，该装置可以包括：

特征获取模块100，用于从至少一个数据源获取待挖掘用户的用户特征；

模型调取模块200，用于获取预训练的目标资产状态预测模型，所述目标资产状态预测模型根据从所述至少一个数据源获取的正样本用户和负样本用户的用户特征训练得到；其中，正样本用户具有目标资产的可能性，大于负样本用户具有目标资产的可能性；所述用户特征至少包括：用户行为特征；

概率预测模块300，用于根据所述待挖掘用户的用户特征，与所述目标资产状态预测模型，预测所述待挖掘用户具有目标资产的概率；

第一结果确定模块400，用于如果所述待挖掘用户具有目标资产的概率大于概率阈值，确定所述待挖掘用户具有目标资产。

可选的，如图6所示，该装置还可以包括：

第二结果确定模块500，用于如果所述待挖掘用户具有目标资产的概率小于所述概率阈值，确定所述待挖掘用户不具有目标资产。

可选的，图7示出了本发明实施例提供的数据处理装置的另一结构框图，结合图6和图7所示，该装置还可以包括：

模型训练模块600，用于从用户集中确定目标用户；所述目标用户的用户行为特征与目标资产预定的正向特征词相匹配，且所述目标用户的用户行为特征不与目标资产预定的负向特征词匹配；将所述目标用户作为训练目标资产状态预测模型所使用的正样本用户，并从用户集中选取训练目标资产状态预测模型所使用的负样本用户；从所述至少一个数据源，获取正样本用户的用户特征及负样本用户的用户特征，所述正样本用户的用户特征及负样本用户的用户特征均至少包括：用户行为特征；根据正样本用户的用户特征和负样本用户的用户特征，通过机器训练方法，训练出目标资产状态预测模型。

可选的，模型训练模块600，用于从用户集中确定目标用户，具体包括：

获取多条用户行为记录，所述多条用户行为记录对应至少一个数据源，且所述多条用户行为记录对应的多个用户属于所述用户集；其中，一条用户行为记录表示一个用户在一个时间点的用户行为特征；

根据目标资产预定的正向特征词和负向特征词，从所述多条用户行为记录中确定用户行为特征与所述正向特征词相匹配，且不与所述负向特征词匹配的用户行为记录；

将所确定的用户行为记录对应的用户确定为初选用户；

从所述初选用户中确定目标用户。

可选的，模型训练模块600，用于从所述初选用户中确定目标用户，具体包括：

确定各初选用户的分值；一个初选用户的分值表示该初选用户具有目标资产的可能性；

根据各初选用户的分值，从初选用户中确定第一数量的目标用户。

可选的，模型训练模块600，用确定一个初选用户的分值，具体包括：

确定初选用户的用户行为记录所对应的数据源，得到初选用户对应的数据源；及确定初选用户在所对应的各数据源中对应的行为次数，和行为发生时间；

对于初选用户所对应的各数据源，将数据源的数据源权重，初选用户在数据源中对应的用户行为次数，及行为发生时间相结合，以得到初选用户在所对应的各数据源的分值；

将初选用户在所对应的各数据源的分值相加，得到初选用户的分值。

可选的，模型训练模块600，用于根据各初选用户的分值，从初选用户中确定第一数量的目标用户，具体包括：

选取分值最大的第一数量的初选用户，作为目标用户；

或，确定分值大于分值阈值的初选用户，从分值大于分值阈值的初选用户中随机选取第一数量的初选用户，作为目标用户。

可选的，模型训练模块600，用于获取多条用户行为记录，具体包括：

获取从至少一个数据源收集的多条用户行为数据，所述多条用户行为数据对应的用户包含于所述用户集中；

对所述多条用户行为数据进行预处理，得到预处理后的用户行为数据，提炼出各条预处理后的用户行为数据对应的用户行为记录，得到多条用户行为记录。

可选的，模型训练模块600，用于对所述多条用户行为数据进行预处理，具体包括：

从所述多条用户行为数据中删除为数据噪声的用户行为数据；

和/或，对所述多条用户行为数据中缺失属性值的用户行为数据，进行属性值的补齐处理。

可选的，图8示出了本发明实施例提供的数据处理装置的再一结构框图，结合图7和图8所示，该装置还可以包括：

模型测试模块700，用于从初选用户中随机选取第二数量的用户作为测试样本用户；

将各测试样本用户的用户特征输入，训练出的目标资产状态预测模型，得到训练出的目标资产状态预测模型，对测试样本用户的预测结果；

将所述预测结果采用ROC曲线表示；

根据所述ROC曲线调整所述概率阈值。

可选的，所述用户特征还包括：基础属性信息，兴趣特征。

可选的，图9示出了本发明实施例提供的数据处理装置的又一结构框图，结合图6和图9所示，该装置还可以包括：

画像生成模块800，用于根据所确定的所述待挖掘用户具有目标资产的结果，生成所述待挖掘用户的用户画像；

信息推荐模块900，用于根据所确定的所述待挖掘用户具有目标资产的结果，向所述待挖掘用户推荐与所述目标资产相关联的信息。

可选的，画像生成模块800和信息推荐模块900也可择一应用在图6所示装置中。

本发明实施例还提供一种服务器，该服务器可以包括上述所述的数据处理装置。

可选的，图10示出了服务器的硬件结构框图，参照图10，该服务器可以包括：处理器10，通信接口20，存储器30和通信总线40；

其中处理器10、通信接口20、存储器30通过通信总线40完成相互间的通信；

可选的，通信接口20可以为通信模块的接口，如GSM模块的接口；

处理器10可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器30可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器10具体用于：

从至少一个数据源获取待挖掘用户的用户特征；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，应用于服务器，所述方法包括：

从至少一个数据源获取待挖掘用户的用户特征；

2.根据权利要求1所述的数据处理方法，其特征在于，还包括：

如果所述待挖掘用户具有目标资产的概率小于所述概率阈值，确定所述待挖掘用户不具有目标资产。

3.根据权利要求1或2所述的数据处理方法，其特征在于，还包括：

从用户集中确定目标用户；所述目标用户的用户行为特征与目标资产预定的正向特征词相匹配，且所述目标用户的用户行为特征不与目标资产预定的负向特征词匹配；

将所述目标用户作为训练目标资产状态预测模型所使用的正样本用户，并从用户集中选取训练目标资产状态预测模型所使用的负样本用户；

从所述至少一个数据源，获取正样本用户的用户特征及负样本用户的用户特征，所述正样本用户的用户特征及负样本用户的用户特征均至少包括：用户行为特征；

根据正样本用户的用户特征和负样本用户的用户特征，通过机器训练方法，训练出目标资产状态预测模型。

4.根据权利要求3所述的数据处理方法，其特征在于，所述从用户集中确定目标用户包括：

将所确定的用户行为记录对应的用户确定为初选用户；

从所述初选用户中确定目标用户。

5.根据权利要求4所述的数据处理方法，其特征在于，所述从所述初选用户中确定目标用户包括：

6.根据权利要求5所述的数据处理方法，其特征在于，一个初选用户的分值确定过程包括：

7.根据权利要求6所述的数据处理方法，其特征在于，所述根据各初选用户的分值，从初选用户中确定第一数量的目标用户包括：

选取分值最大的第一数量的初选用户，作为目标用户；

8.根据权利要求4所述的数据处理方法，其特征在于，所述获取多条用户行为记录包括：

9.根据权利要求8所述的数据处理方法，其特征在于，所述对所述多条用户行为数据进行预处理包括：

10.根据权利要求4-9任一项所述的数据处理方法，其特征在于，还包括：

从初选用户中随机选取第二数量的用户作为测试样本用户；

将各测试样本用户的用户特征输入目标资产状态预测模型，得到测试样本用户的预测结果；

将所述预测结果采用ROC曲线表示；

根据所述ROC曲线调整所述概率阈值。

11.根据权利要求1所述的数据处理方法，其特征在于，所述用户特征还包括：基础属性信息，兴趣特征。

12.根据权利要求1所述的数据处理方法，其特征在于，还包括：

根据所确定的所述待挖掘用户具有目标资产的结果，生成所述待挖掘用户的用户画像；

或，根据所确定的所述待挖掘用户具有目标资产的结果，向所述待挖掘用户推荐与所述目标资产相关联的信息。

13.一种数据处理装置，其特征在于，应用于服务器，所述数据处理装置包括：

14.根据权利要求13所述的数据处理装置，其特征在于，还包括：

模型训练模块，用于从用户集中确定目标用户；所述目标用户的用户行为特征与目标资产预定的正向特征词相匹配，且所述目标用户的用户行为特征不与目标资产预定的负向特征词匹配；将所述目标用户作为训练目标资产状态预测模型所使用的正样本用户，并从用户集中选取训练目标资产状态预测模型所使用的负样本用户；从所述至少一个数据源，获取正样本用户的用户特征及负样本用户的用户特征，所述正样本用户的用户特征及负样本用户的用户特征均至少包括：用户行为特征；根据正样本用户的用户特征和负样本用户的用户特征，通过机器训练方法，训练出目标资产状态预测模型。

15.一种服务器，其特征在于，包括权利要求13-14任一项所述的数据处理装置。