CN111158732B

CN111158732B - 访问数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111158732B
Application number: CN201911342388.2A
Authority: CN
Inventors: 黄碧宇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2024-04-02
Anticipated expiration: 2039-12-23
Also published as: CN111158732A

Abstract

本发明公开了一种访问数据处理方法、装置、计算机设备及存储介质。所述方法包括：在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；通过组合PSI值确定第一访问特征指标数据集为第一入模访问特征指标数据集；通过变异系数和第一入模访问特征指标数据集组成第二入模访问特征指标数据集；通过衰减因子和第二入模访问特征指标数据集组成第三入模访问特征指标数据集；通过第三入模访问特征指标数据集和第一IV值组成目标访问特征指标数据集。通过本发明提供的访问数据处理方法进行数据分析，得到的目标访问特征指标数据集可用于对预测模型进行训练，进而提高预测模型对某一个网站的某一个时间段的用户访问量的预测性能。

Description

访问数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种访问数据处理方法、装置、计算机设备及存储介质。

背景技术

通过特征指标数据筛选方法可以为预测模型筛选出稳定的、重要的、饱和度高的、多样性高的特征指标数据，从而可提升预测模型的稳定性和预测性，加强预测模型的理解以及解释能力。但目前的特征指标数据筛选方法为了保证预测模型的稳定性，牺牲了部分具有较强预测能力的特征指标数据；且在将预测模型用于对一个网站的一个时间段的用户访问量的预测的场景中，目前的特征指标数据筛选方法无法跟上特征指标数据集合的变化而导致该预测模型的预测能力有待提高，且目前大部分的特征指标数据筛选方法也是采用大量的专家经验对特征指标数据进行分析，筛选专家结合自己的经验筛选出符合要求的特征指标数据，但在特征指标数据的数据量较大时，会出现人工处理速度较慢、对特征指标数据筛选的准确性较低的问题，从而会降低该预测模型的预测性能，使预测模型得到的特征指标数据并不能准确有效预测某一个网站的某一个时间段的用户访问量。因此，亟需寻找一种访问数据处理方法解决上述提到的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种访问数据处理方法、装置、计算机设备及存储介质，用于提高用于训练预测模型的数据集的质量，进而通过该数据集训练得到的预测模型能对某一个网站的某一个将要发生的时间段的用户访问量进行准确和高效地预测。

一种访问数据处理方法，包括：

在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；

基于所述访问时间属性从所述第一访问特征指标数据集划分出符合第一预设访问时间属性的多个第二访问特征指标数据集，按照预设计算规则计算多个指定第二访问特征指标数据集组合的组合PSI值，并计算统计所述组合PSI 值小于预设目标PSI值的个数；所述指定第二访问特征指标数据集组合包括预设的两个所述第二访问特征指标数据集，且任意一个所述第二访问特征指标数据集至少在一个所述指定第二访问特征指标数据集组合中出现；

若所述组合PSI值小于所述预设目标PSI值的个数小于预设数量阈值，则确定所述第一访问特征指标数据集为第一入模访问特征指标数据集；

计算所述第一入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第二入模访问特征指标数据集；

计算所述第二入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第三入模访问特征指标数据集；

计算所述第三入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第一IV值，提取出所述第一IV值大于第一预设特征阈值的所述访问特征指标数据，组成进行过所述入模特征性评估的目标访问特征指标数据集；

根据预设机器学习算法对所述目标访问特征指标数据集进行训练，获得预测模型；

将一个预设访问时间段的访问对象关联的访问特征指标数据输入所述预测模型中，获取该预测模型输出的对下一个所述预设访问时间段中的用户访问量的预测结果；所述预设访问时间段根据与所述访问特征指标数据关联的所述访问时间属性确定。

一种访问数据处理装置，包括：

第一获取模块，用于在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；

计算模块，用于基于所述访问时间属性从所述第一访问特征指标数据集划分出符合第一预设访问时间属性的多个第二访问特征指标数据集，按照预设计算规则计算多个指定第二访问特征指标数据集组合的组合PSI值，并计算统计所述组合PSI值小于预设目标PSI值的个数；所述指定第二访问特征指标数据集组合包括预设的两个所述第二访问特征指标数据集，且任意一个所述第二访问特征指标数据集至少在一个所述指定第二访问特征指标数据集组合中出现；

确定模块，用于若所述组合PSI值小于所述预设目标PSI值的个数小于预设数量阈值，则确定所述第一访问特征指标数据集为第一入模访问特征指标数据集；

第一组成模块，用于计算所述第一入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第二入模访问特征指标数据集；

第二组成模块，用于计算所述第二入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第三入模访问特征指标数据集；

第三组成模块，用于计算所述第三入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第一IV值，提取出所述第一IV值大于第一预设特征阈值的所述访问特征指标数据，组成进行过所述入模特征性评估的目标访问特征指标数据集；

训练模块，用于根据预设机器学习算法对所述目标访问特征指标数据集进行训练，获得预测模型；

第二获取模块，用于将一个预设访问时间段的访问对象关联的访问特征指标数据输入所述预测模型中，获取该预测模型输出的对下一个所述预设访问时间段中的用户访问量的预测结果；所述预设访问时间段根据与所述访问特征指标数据关联的所述访问时间属性确定。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述访问数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述访问数据处理方法。

上述访问数据处理方法、装置、计算机设备及存储介质，通过未进行过入模特征性评估的第一访问特征指标数据集进行多次筛选，获得包含稳定性高、重要性高、饱和度高、多样性高和预测性高的访问特征指标数据的目标访问特征指标数据集；因此使用目标访问特征指标数据集训练获得的预测模型具有良好的预测性能，且通过该预测模型可以根据该网站预设访问时间段(一个小时、一天、一个月等)的访问对象关联的访问特征指标数据来高效准确地预测出下一个预设访问时间段的用户访问量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中访问数据处理方法的一应用环境示意图；

图2是本发明一实施例中访问数据处理方法的一流程图；

图3是本发明一实施例中访问数据处理方法步骤S60之后的流程示意图；

图4是本发明一实施例中访问数据处理装置的结构示意图；

图5是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的访问数据处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种访问数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤S10-S60：

S10，在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；

可理解地，第一访问特征指标数据集由多个访问特征指标数据组成，访问特征指标数据具体是指某网站的用户访问量，访问时间属性是指用户访问该网站的时间，每个访问特征指标数据特征至少关联一个访问特征标签，也即一个访问特征指标数据可关联一个访问特征标签，也可关联另一个访问特征标签 (具体可根据访问特征标签的代表性，比如一个访问特征标签代表网站一天的累计访问特征指标数据，另一个标签代表两天网站的累计访问特征指标数据，且2天的累计访问特征指标数据包含了1天的累计访问特征指标数据，且每个访问特征指标数据关联的一个访问时间属性为一天时，所以代表一天的访问特征指标数据同时关联了两个访问特征标签)。访问特征标签指访问特征指标数据所包含的特征信息，即访问特征标签可代表一个给后续步骤中数据处理过程所识别的标签。具体地，可采用特征提取算法提取第一访问特征指标数据集中的各个访问特征指标数据的各个访问特征标签，或者通过从服务端的数据库获取预先编译好的访问特征标签提取脚本，然后采用对应的访问特征标签提取脚本提取第一访问特征指标数据集中的各个访问特征指标数据的各个访问特征标签，且提取的访问特征标签可包括各个日期、各个月份的累计的某网站的用户访问量(包括三转月的用户访问量，其中，三转月指首活月的前六个月，首活月为训练月的前三个月，训练月为预测月的上一个月，预测月指预测模型进行训练的当月。由于三转月的用户访问量是六个月的用户访问量，所以在每个访问特征指标数据关联的一个访问时间属性为一天时，多个访问特征指标数据可同时关联一个相同的访问特征标签)。可以理解地，上述筛选数据的入模过程是指为与用户访问量相关的预测模型筛选入模数据，预测模型是用于对某一个网站某一个时间段的用户访问量进行准确的预测。

S20，基于所述访问时间属性从所述第一访问特征指标数据集划分出符合第一预设访问时间属性的多个第二访问特征指标数据集，按照预设计算规则计算多个指定第二访问特征指标数据集组合的组合PSI值，并计算统计所述组合 PSI值小于预设目标PSI值的个数；所述指定第二访问特征指标数据集组合包括预设的两个所述第二访问特征指标数据集，且任意一个所述第二访问特征指标数据集至少在一个所述指定第二访问特征指标数据集组合中出现；

可理解地，访问时间属性由于是指用户访问该网站的时间，因此具体可以为一小时、两小时和一天所对应的时间等。第一预设访问时间属性包括但不限于累计日(预测模型进行模型迭代的当月当日的前几日，例如2019年4月7 日进行模型迭代日期，则4月1日-4月6日为累计日)、迭代月(预测模型进行模型迭代当月的上一个月，例如2019年4月进行模型迭代当月，则2019 年3月为迭代月)、首活月(迭代月的前三个月，例如2019年4月进行模型迭代当月，则2019年3月为迭代月，2019年1月-2019年3月为首活月)、三转月(首活月的前六个月，例如2019年4月进行模型迭代当月，则2019 年3月为迭代月，2019年1月-2019年3月为首活月，2018年7月-2018年12 月为三转月)等。PSI为群体稳定性指标(PSI全称为Population Stability Index)。预设计算规则是指从所有的第二访问特征指标数据集选取出其中两个第二访问特征指标数据集组成指定第二访问特征指标数据集组合并进行计算其对应的组合PSI值。

具体地，首先从第一访问特征指标数据集中的各个访问特征指标数据中获取出各个访问时间属性。接着判断各个访问时间属性是否符合第一预设访问时间属性，从第一访问特征指标数据集取出访问时间属性符合第一预设访问时间属性的各个访问特征指标数据，并将各个访问特征指标数据组成第二访问特征指标数据集(由于第一预设访问时间属性包括多个，因此取出的各个访问特征指标数据可组成多个第二访问特征指标数据集，且每个第二访问特征指标数据集都关联一个第一预设访问时间属性)。

最后按照预设计算规则，从所有的第二访问特征指标数据集选取出其中两个第二访问特征指标数据集组成指定第二访问特征指标数据集组合(指定第二访问特征指标数据集组合包括累计日与首活月关联的第二访问特征指标数据集、累计日与三转月关联的第二访问特征指标数据集、累计日与首活月对应的累计日关联的第二访问特征指标数据集、累计日与三转月对应的累计日关联的第二访问特征指标数据集和首活月与迭代月关联的第二访问特征指标数据集)。通过预设PSI计算公式计算指定第二访问特征指标数据集组合对应的组合PSI值，直至所有的指定第二访问特征指标数据集组合全部被计算完，并判断指定第二访问特征指标数据集组合对应的组合PSI值是否小于预设目标PSI 值(预设目标PSI值为0.25，适合于本方案中的应用场景)。在计算第二访问特征指标数据集组合对应的组合PSI值时，可以第二访问特征指标数据集组合内每个第二访问特征指标数据集的PSI值，再计算组合内所有第二访问特征指标数据集的PSI值的加和值，即组合PSI值。

其中，第二访问特征指标数据集的PSI值的计算公式(预设PSI计算公式) 为：

PSI值＝(实际占比-预期占比)*ln(实际占比/预期占比)。

上式中，实际占比指的是一个第二访问特征指标数据集的访问特征指标数据的数量与所有的第一访问特征指标数据集中的访问特征指标数据的数量的比值，预期占比指的是根据历史访问特征指标数据的实验所设定的一个期望占比。

S30，若所述组合PSI值小于所述预设目标PSI值的个数小于预设数量阈值，则确定所述第一访问特征指标数据集为第一入模访问特征指标数据集；

可理解地，预设数量根据具体的应用场景设定，按照本方案中的应用场景，可确认预设数量为至少三个。

在步骤S20至步骤S30的实施例中，通过计算所有指定第二访问特征指标数据集组合中对应的组合PSI值，并判断组合PSI值是否小于预设目标PSI 值，可见本实施例中只考虑PSI值，而不考虑IV值，从而能保证筛选出来的第一入模访问特征指标数据集中的访问特征指标数据满足于数据分布的稳定性。

另外，若所述组合PSI值小于所述预设目标PSI值的个数大于或等于预设数量阈值，则确定所述第一访问特征指标数据集不为第一入模访问特征指标数据集。

S40，计算所述第一入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第二入模访问特征指标数据集；

可理解地，变异系数是通过计算访问特征指标数据关联的访问特征标签的IV(信息量值，IV全称为Information Value)值来进行确定的(变异系数具体的运算过程可参照步骤S401至步骤S404所在的实施例)。

具体地，采用公式计算中第一入模访问特征指标数据集中每一个访问特征指标数据关联的每一样本访问特征标签的信息量值；其中，r为访问特征标签所取值的类别个数，n_i0为访问特征标签取第i个值，对应可选变量为0的个数；n_*0为所有可选变量取值为0的个数， n_i1为访问特征标签取第i个值，对应可选变量为1的个数；n_*1为所有可选变量取值为1的个数。

在本实施例中，通过预设变异阈值可在PSI稳定的时候，剔除掉第一入模访问特征指标数据集中震荡剧烈的访问特征指标数据，避免后续在将该访问特征指标数据输入至模型进行训练的过程中影响预测模型的整体训练，从而也避免影响到预测模型的性能(也即模型的入模特征性)。

进一步地，所述步骤S40，包括：

S401，从所述第一入模访问特征指标数据集中获取符合第二预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；

S402，计算符合所述第二预设访问时间属性的所述访问特征标签的IV标准差和IV总均值，再计算所述IV标准差和IV总均值之间的第一比值，并将该第一比值作为所述变异系数；

S403，判断所述变异系数是否小于所述预设变异阈值；

S404，若所述变异系数小于所述预设变异阈值，则提取出该变异系数对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第二入模访问特征指标数据集。

具体地，由于第一入模访问特征指标数据集中的访问特征指标数据都关联一个访问特征标签，且访问特征指标数据也关联一个访问时间属性，因此访问特征标签也可以说关联了一个访问时间属性。首先通过第二预设访问时间属性 (比如三转月)和访问时间属性去筛选出访问时间属性落入第二预设访问时间属性的访问特征指标数据关联的访问特征标签；然后采用公式计算各个筛选出来的访问特征标签的IV 值，通过计算出来的IV值计算符合第二预设访问时间属性对应的访问特征标签的IV标准差和IV总均值(IV均值计算公式为：/>IV标准差计算公式为/>X_i为第i个访问特征标签，n为访问特征标签的个数)；接着通过IV标准差和IV总均值之间的第一比值，并将此第一比值作为变异系数；最后将变异系数与预设变异阈值(本应用场景可设定为1)进行比较，剔除掉变异系数大于或等于预设变异阈值对应的访问特征指标数据，保留变异系数小于预设变异阈值对应的访问特征指标数据，并将保留的访问特征指标数据组成第二入模访问特征指标数据集。

另外，若所述变异系数大于或等于所述预设变异阈值，则剔除该变异系数对应的多个所述访问特征指标数据。

S50，计算所述第二入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第三入模访问特征指标数据集；

可理解地，衰减因子也是通过计算访问特征指标数据关联的访问特征标签的IV(信息量值，IV全称为Information Value)值来进行确定的(衰减因子具体的运算过程可参照步骤S501至步骤S504所在的实施例)。

在本实施例中，通过预设衰减阈值可在PSI稳定的时候，剔除掉第二入模访问特征指标数据集中衰减明显的访问特征指标数据，避免后续在将该访问特征指标数据输入至模型进行训练的过程中影响预测模型的整体训练，从而也避免影响到预测模型的性能。

进一步地，所述步骤S50，包括：

S501，从所述第二入模特征指标数据中获取符合第三预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；所述第三预设访问时间属性包括第一时间属性、第二时间属性和第三时间属性；

S502，计算符合所述第一时间属性的所述访问特征标签的第一IV均值、所述第二时间属性的所述访问特征标签的第二IV均值和所述第三时间属性的所述访问特征标签的第三IV均值；

S503，计算所述第一IV均值和所述第三IV均值之间差值结果，计算所述差值结果与所述第二IV均值的第二比值，并将所述第二比值作为所述衰减因子；

S504，判断所述衰减因子是否小于预所述设衰减阈值；

S505，若所述衰减因子小于所述预设衰减阈值，则提取出该衰减因子对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第三入模访问特征指标数据集。

可理解地，第三预设访问时间属性中的第一时间属性(三转月的前四个月)、第二时间属性(三转月)和第三时间属性(三转月的后四个月)。

具体地，首先通过第三预设访问时间属性和访问时间属性去筛选出访问时间属性落入第三预设访问时间属性的访问特征指标数据关联的访问特征标签；然后采用公式计算各个筛选出来的访问特征标签的IV值，通过计算出来的IV值计算符合第三预设访问时间属性对应的访问特征标签的IV均值，包括第一时间属性(三转月的前四个月)的第一IV 均值、第二时间属性(三转月)的第二IV均值和第三时间属性(三转月的后四个月的)的第三IV均值；接着采用求衰减因子的公式α＝(A–C)/B计算出第二入模特征指标数据中访问特征指标数据关联的访问特征标签的衰减因子,其中A为第一IV均值、B为第二IV均值和C为第三IV均值；最后将衰减因子与预设衰减阈值(本方案应用场景可设定为1)进行比较，剔除掉衰减因子大于或等于预设衰减阈值对应的访问特征指标数据，保留衰减因子小于预设衰减阈值对应的访问特征指标数据，并将保留的访问特征指标数据组成第三入模访问特征指标数据集。

另外，若所述衰减因子大于或等于所述预设衰减阈值，则剔除该衰减因子对应的多个所述访问特征指标数据。

S60，计算所述第三入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第一IV值，提取出所述第一IV值大于第一预设特征阈值的所述访问特征指标数据，组成进行过所述入模特征性评估的目标访问特征指标数据集；

具体地，可通过上述的方法求出第三入模访问特征指标数据集中访问特征指标数据关联的访问特征标签的各个第一IV值，并将各个第一IV值与第一预设特征阈值(本方案应用场景可设定为0.001)进行一一比较，筛选出第一IV 值大于第一预设特征阈值的访问特征指标数据并组成目标访问特征指标数据集。

在本实施例中，通过第一预设特征阈值可剔除掉第三入模访问特征指标数据集中IV特别小的访问特征指标数据，避免后续在将该访问特征指标数据输入至模型进行训练的过程中影响预测模型的整体训练，从而也避免影响到预测模型的性能；且在本实施例中也实现了对第三入模访问特征指标数据集进行入模特征性筛选的目的，从而目标访问特征指标数据集中的访问特征指标数据将存在稳定的、重要的、饱和度高的、多样性高的和预测性高的访问特征指标数据；且通过目标访问特征指标数据集训练得到的预测模型将具有良好的预测性能，可以对该网站每个时间段(一个小时、一天、一个月等)的用户访问量进行准确有效的预测。

进一步地，所述访问数据处理方法，还包括：

获取第三访问特征指标数据集；所述第三访问特征指标数据集由多个访问特征指标数据组成，且每个所述访问特征指标数据关联一个访问时间属性和一个访问特征标签；

所述获取第三访问特征指标数据集之后，还包括

基于所述访问时间属性从所述第三访问特征指标数据集划分出符合第四预设访问时间属性的多个第四访问特征指标数据集，按照预设计算规则计算多个指定第四访问特征指标数据集组合的组合PSI值，并计算统计所述组合PSI 值小于预设目标PSI值的个数；所述指定第四访问特征指标数据集组合包括预设的两个所述第四访问特征指标数据集，且任意一个所述第四访问特征指标数据集至少在一个所述指定第四访问特征指标数据集组合中出现；

若所述组合PSI值小于所述预设目标PSI值的个数小于预设数量阈值，则确定所述第三访问特征指标数据集为第四入模访问特征指标数据集；或

计算所述第三访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第五入模访问特征指标数据集；或

计算所述第三访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第六入模访问特征指标数据集；或

计算所述第三访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第一IV值，提取出所述第一IV值大于第一预设特征阈值的所述访问特征指标数据，组成第七入模访问特征指标数据集。

其中，上述步骤具体的过程和方法与上述步骤S10至步骤S60相同，此处不做冗余赘述。此处将各个步骤分别进行运行，是根据访问特征指标数据集设定的数据情况(可通过初步分析确定数据情况)来进行确定，上述数据情况包括只需要考虑保留访问特征指标数据集中的访问特征指标数据的数据分布的稳定性(只运行步骤S602至步骤S603)，只需要考虑剔除震荡剧烈的访问特征指标数据(只运行步骤S604)，只需要考虑剔除衰减明显的访问特征指标数据(只运行步骤S605)和只需要考虑剔除IV特别小的访问特征指标数据(只运行步骤S606)。且在步骤S601至步骤S606所在的实施例中，同样可实现对第三访问特征指标数据集进行入模特征性筛选的目的，从而也可进一步提高了获取的访问特征指标数据的准确性。

S70，根据预设机器学习算法对所述目标访问特征指标数据集进行训练，获得预测模型；

可理解地，预设机器算法可包括但不限于随机森林学习算法和向量量化方法等。

S80，将一个预设访问时间段的访问对象关联的访问特征指标数据输入所述预测模型中，获取该预测模型输出的对下一个所述预设访问时间段中的用户访问量的预测结果；所述预设访问时间段根据与所述访问特征指标数据关联的所述访问时间属性确定。

可理解地，下一个预设访问时间段是位于一个预设访问时间段之后的一个将要发生的时间段(时间段等长)，该预设时间段可根据访问特征指标数据关联的访问时间属性来确定，比如该访问时间属性被设定为一小时的访问特征指标数据，因此该预设访问时间段也可以被确定为一个小时，通过该访问时间属性来确定，因此该预设访问时间段也可以为一天、一个月等；预测趋势结果是预测模型是对某一个网站某一个将要发生的时间段的用户访问量的预测结果。在本实施例中通过该预测模型能根据访问对象关联的访问特征指标数据来对下一个预设访问时间段中的用户访问量进行高效准确地预测。

进一步地，如图3所示，所述步骤S60之后，还包括：

S90，对所述目标访问特征指标数据集进行数据分箱处理，生成多组分箱数据，计算各组所述分箱数据的PSI值和IV值，统计同时满足PSI值阈值和 IV值阈值的所述分箱数据的组数，在所述组数与所有分箱数据的总组数的比值大于预设权重阈值时，提取同时满足所述PSI值阈值和所述IV值阈值的所述分箱数据内的所述访问特征指标数据，组成第一目标访问特征指标数据集；

可理解地，分箱数据是通过数据分箱处理完成的，数据分箱处理是一种数据预处理技术，用于减少次要观察误差的影响，是一种将多个连续的访问特征指标数据分组为较少数量的分箱的方法。其中，一个分箱可容乃一种数据类型(比如可通过访问特征指标数据关联的访问时间属性划分为分箱，2天关联的访问特征指标数据为一组分箱数据等)的分箱数据，一个分箱包括多个同种数据类型的访问特征指标数据组成的一组分箱数；PSI值阈值是指所有分箱数据的PSI均值；IV值阈值指所有分箱数据的IV均值。

具体地，首先可将所有的访问特征指标数据进行数据分箱处理，从而每组分箱中包含了一定数量的访问特征指标数据(也即分箱数据)，因此可计算出每组分箱数据的PSI值和IV值。然后获取数据分箱处理后总组数的所有分箱数据，因此也可计算出所有分箱数据的PSI均值和IV均值。接着比较每组分箱的PSI值是否小于所有分箱数据的PSI均值，同时比较各个分箱的IV值是否大于所有分箱数据的IV均值。再接着统计同时符合分箱的PSI值小于所有分箱数据的PSI均值，各分箱的IV值大于所有分箱数据的IV均值的组数。最后通过组数和总组数的比值来与预设贡献权重阈值(本方案应用场景可设定为 0.7)进行判断，并筛选出权重值较高的各组分箱数据内的访问特征指标数据组成第一目标访问特征指标数据集。

在本实施例中，由于上述步骤S10至步骤S60的通用规则只考虑PSI，容易剔除那些PSI值较大的访问特征指标数据，且由于贡献较大的PSI值对应的分箱数据的IV值比较小，因此需要通过数据分箱和判断预设贡献权重阈值将较大的IV值、PSI值，和贡献较大的PSI值且较小的IV值所对应的分箱数据内的访问特征指标数据(也即权重值较高的访问特征指标数据)加入第一目标访问特征指标数据集中。

S100，确定所述目标访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第二IV值，提取出所述第二IV值大于第二预设特征阈值的所述访问特征指标数据，组成第二目标访问特征指标数据集；

本实施例与步骤S60所对应的实施例相反，是为了强制保留IV值较大的访问特征指标数据，保留部分对预测模型训练过程有用的访问特征指标数据，但本实施例中的第二预设特征阈值(本方案应用场景可设定为2)不与第一预设特征阈值一致，但总的判断的方式基本相同，在此不再赘述。

S110，对所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集进行合并处理，得到第三目标访问特征指标数据集。

在本实施例中，可通过预设合并规则指用于对第一目标访问特征指标数据集和第二目标访问特征指标数据集进行合并处理的方法，也即对两者没有重复出现的访问特征指标数据进行整合，并只保留两者重复出现的访问特征指标数据中的其中一份访问特征指标数据，从而进一步提高了对访问特征指标数据筛选的准确性，也进一步提高预测模型的训练后的性能，也即进一步地提高预测模型有的理解与解释能力。

进一步地，所述步骤S110，包括：

计算所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集的并集；

对所述并集进行数据分箱处理，获得多个子集分箱数据；

分别从各个所述子集分箱数据提取出数量不高于或等于预设限制数量阈值的所述访问特征指标数据，组合成所述第三目标访问特征指标数据集。

具体地，首先计算第一目标访问特征指标数据集和第二目标访问特征指标数据集的并集(并集中并不会出现两份相同的访问特征指标数据)，并获取对并集进行数据分箱处理后的多个子集分箱数据(即各个分箱内的分箱数据，也即各个分箱内的访问特征指标数据)的数量。然后通过预设限制数量阈值和各子集分箱数据的数量确定出各个分箱内的分箱数据的最大提取数量(也即分别从各个子集分箱数据提取出数量不高于或等于预设限制数量阈值的访问特征指标数据)，比如，一个分箱对应的预设限制数量阈值为10个，而一个子集分箱数据中的访问特征指标数据的数量为9个，则确定该分箱内的分箱数据的最大提取数量为9个，一个分箱对应的预设限制数量阈值为10个，而一个子集分箱数据中的访问特征指标数据的数量为11个，则确定该分箱内的分箱数据的最大提取数量为10个。最后通过确定出来的该分箱内的分箱数据的最大提取数量从各个分箱中随机提取出访问特征指标数据组合成目标访问特征指标数据集。本实施例也可避免了第三目标访问特征指标数据集中的各个分箱容纳过多的访问特征指标数据，从而可进一步地提高预测模型的模型训练能力，也能高预测模型对网站的用户访问量在某一个时间段的准确预测。需要说明的是，上述提到的阈值可根据具体业务场景的情况进行调整。

综上所述，上述提供了一种访问数据处理方法，通过未进行过入模特征性评估的第一访问特征指标数据集进行多次筛选，获得包含稳定性高、重要性高、饱和度高、多样性高和预测性高的访问特征指标数据的目标访问特征指标数据集；因此使用目标访问特征指标数据集训练获得的预测模型具有良好的预测性能，且通过该预测模型可以根据该网站预设访问时间段(一个小时、一天、一个月等)的访问对象关联的访问特征指标数据来高效准确地预测出下一个预设访问时间段的用户访问量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种访问数据处理装置，该访问数据处理装置与上述实施例中访问数据处理方法一一对应。如图4所示，该访问数据处理装置包括第一获取模块11、计算模块12、确定模块13、第一组成模块14、第二组成模块15、第三组成模块16、训练模块17和第二获取模块18。各功能模块详细说明如下：

第一获取模块11，用于在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；

计算模块12，用于基于所述访问时间属性从所述第一访问特征指标数据集划分出符合第一预设访问时间属性的多个第二访问特征指标数据集，按照预设计算规则计算多个指定第二访问特征指标数据集组合的组合PSI值，并计算统计所述组合PSI值小于预设目标PSI值的个数；所述指定第二访问特征指标数据集组合包括预设的两个所述第二访问特征指标数据集，且任意一个所述第二访问特征指标数据集至少在一个所述指定第二访问特征指标数据集组合中出现；

确定模块13，用于若所述组合PSI值小于所述预设目标PSI值的个数小于预设数量阈值，则确定所述第一访问特征指标数据集为第一入模访问特征指标数据集；

第一组成模块14，用于计算所述第一入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第二入模访问特征指标数据集；

第二组成模块15，用于计算所述第二入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第三入模访问特征指标数据集；

第三组成模块16，用于计算所述第三入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第一IV值，提取出所述第一IV 值大于第一预设特征阈值的所述访问特征指标数据，组成进行过所述入模特征性评估的目标访问特征指标数据集；

训练模块17，用于根据预设机器学习算法对所述目标访问特征指标数据集进行训练，获得预测模型；

第二获取模块18，用于将一个预设访问时间段的访问对象关联的访问特征指标数据输入所述预测模型中，获取该预测模型输出的对下一个所述预设访问时间段中的用户访问量的预测结果；所述预设访问时间段根据与所述访问特征指标数据关联的所述访问时间属性确定。

进一步地，所述第一组成模块包括：

第一获取子模块，用于从所述第一入模访问特征指标数据集中获取符合第二预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；

第一计算子模块，用于计算符合所述第二预设访问时间属性的所述访问特征标签的IV标准差和IV总均值，再计算所述IV标准差和IV总均值之间的第一比值，并将该第一比值作为所述变异系数；

第一判断子模块，用于判断所述变异系数是否小于所述预设变异阈值；

第一组成子模块，用于若所述变异系数小于所述预设变异阈值，则提取出该变异系数对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第二入模访问特征指标数据集。

进一步地，所述第二组成模块包括：

第二获取子模块，用于从所述第二入模特征指标数据中获取符合第三预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；所述第三预设访问时间属性包括第一时间属性、第二时间属性和第三时间属性；

第二计算子模块，用于计算符合所述第一时间属性的所述访问特征标签的第一IV均值、所述第二时间属性的所述访问特征标签的第二IV均值和所述第三时间属性的所述访问特征标签的第三IV均值；

第三计算子模块，用于计算所述第一IV均值和所述第三IV均值之间差值结果，计算所述差值结果与所述第二IV均值的第二比值，并将所述第二比值作为所述衰减因子；

第二判断子模块，用于判断所述衰减因子是否小于预所述设衰减阈值；

第二组成子模块，用于若所述衰减因子小于所述预设衰减阈值，则提取出该衰减因子对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第三入模访问特征指标数据集。

进一步地，所述访问数据处理装置还包括：

第四组成模块，用于对所述目标访问特征指标数据集进行数据分箱处理，生成多组分箱数据，计算各组所述分箱数据的PSI值和IV值，统计同时满足 PSI值阈值和IV值阈值的所述分箱数据的组数，在所述组数与所有分箱数据的总组数的比值大于预设权重阈值时，提取同时满足所述PSI值阈值和所述IV 值阈值的所述分箱数据内的所述访问特征指标数据，组成第一目标访问特征指标数据集；

第五组成模块，用于确定所述目标访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第二IV值，提取出所述第二IV值大于第二预设特征阈值的所述访问特征指标数据，组成第二目标访问特征指标数据集；

处理模块，用于对所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集进行合并处理，得到第三目标访问特征指标数据集。

进一步地，所述处理模块包括：

第四计算子模块，用于计算所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集的并集；

获得子模块，用于对所述并集进行数据分箱处理，获得多个子集分箱数据；

第三组成子模块，用于分别从各个所述子集分箱数据提取出数量不高于或等于预设限制数量阈值的所述访问特征指标数据，组合成所述第三目标访问特征指标数据集。

关于访问数据处理装置的具体限定可以参见上文中对于访问数据处理方法的限定，在此不再赘述。上述访问数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储访问数据处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种访问数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中访问数据处理方法的步骤，例如图2所示的步骤S10至步骤S80。或者，处理器执行计算机程序时实现上述实施例中访问数据处理装置的各模块 /单元的功能，例如图4所示模块11至模块18的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中访问数据处理方法的步骤，例如图2所示的步骤S10至步骤S80。或者，计算机程序被处理器执行时实现上述实施例中访问数据处理装置的各模块/单元的功能，例如图4所示模块11 至模块18的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种访问数据处理方法，其特征在于，包括：

在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；访问特征指标数据具体是指某网站的用户访问量，访问时间属性是指用户访问该网站的时间；

基于所述访问时间属性从所述第一访问特征指标数据集划分出符合第一预设访问时间属性的多个第二访问特征指标数据集，按照预设计算规则计算多个指定第二访问特征指标数据集组合的组合PSI值，并计算统计所述组合PSI值小于预设目标PSI值的个数；所述指定第二访问特征指标数据集组合包括预设的两个所述第二访问特征指标数据集，且任意一个所述第二访问特征指标数据集至少在一个所述指定第二访问特征指标数据集组合中出现；

所述计算所述第一入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的变异系数，提取出所述变异系数小于或等于预设变异阈值的所述访问特征指标数据，组成第二入模访问特征指标数据集，包括：

从所述第一入模访问特征指标数据集中获取符合第二预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；

计算符合所述第二预设访问时间属性的所述访问特征标签的IV标准差和IV总均值，再计算所述IV标准差和IV总均值之间的第一比值，并将该第一比值作为所述变异系数；

判断所述变异系数是否小于所述预设变异阈值；

若所述变异系数小于所述预设变异阈值，则提取出该变异系数对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第二入模访问特征指标数据集；

所述计算所述第二入模访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的衰减因子，提取出所述衰减因子小于预设衰减阈值的所述访问特征指标数据，组成第三入模访问特征指标数据集，包括：

从所述第二入模访问特征指标数据中获取符合第三预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；所述第三预设访问时间属性包括第一时间属性、第二时间属性和第三时间属性；

计算符合所述第一时间属性的所述访问特征标签的第一IV均值、所述第二时间属性的所述访问特征标签的第二IV均值和所述第三时间属性的所述访问特征标签的第三IV均值；

计算所述第一IV均值和所述第三IV均值之间差值结果，计算所述差值结果与所述第二IV均值的第二比值，并将所述第二比值作为所述衰减因子；

判断所述衰减因子是否小于预所述设衰减阈值；

若所述衰减因子小于所述预设衰减阈值，则提取出该衰减因子对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第三入模访问特征指标数据集；

2.根据权利要求1所述的访问数据处理方法，其特征在于，所述组成进行过所述入模特征性评估的目标访问特征指标数据集之后，还包括：

对所述目标访问特征指标数据集进行数据分箱处理，生成多组分箱数据，计算各组所述分箱数据的PSI值和IV值，统计同时满足PSI值阈值和IV值阈值的所述分箱数据的组数，在所述组数与所有分箱数据的总组数的比值大于预设权重阈值时，提取同时满足所述PSI值阈值和所述IV值阈值的所述分箱数据内的所述访问特征指标数据，组成第一目标访问特征指标数据集；

确定所述目标访问特征指标数据集中与所述访问特征指标数据关联的所述访问特征标签的第二IV值，提取出所述第二IV值大于第二预设特征阈值的所述访问特征指标数据，组成第二目标访问特征指标数据集；

对所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集进行合并处理，得到第三目标访问特征指标数据集。

3.根据权利要求2所述的访问数据处理方法，其特征在于，所述对所述第一目标访问特征指标数据集和所述第二目标访问特征指标数据集进行合并处理，得到第三目标访问特征指标数据集，包括：

对所述并集进行数据分箱处理，获得多个子集分箱数据；

4.一种访问数据处理装置，其特征在于，包括：

第一获取模块，用于在筛选数据的入模过程中，获取未进行过入模特征性评估的第一访问特征指标数据集；所述第一访问特征指标数据集包括多个访问特征指标数据，且每个所述访问特征指标数据关联一个访问时间属性和至少一个访问特征标签；访问特征指标数据具体是指某网站的用户访问量，访问时间属性是指用户访问该网站的时间；

所述第一组成模块包括：

第一组成子模块，用于若所述变异系数小于所述预设变异阈值，则提取出该变异系数对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第二入模访问特征指标数据集；

所述第二组成模块包括：

第二获取子模块，用于从所述第二入模访问特征指标数据中获取符合第三预设访问时间属性的所述访问特征指标数据关联的所述访问特征标签；所述第三预设访问时间属性包括第一时间属性、第二时间属性和第三时间属性；

第二组成子模块，用于若所述衰减因子小于所述预设衰减阈值，则提取出该衰减因子对应的多个所述访问特征指标数据，并将该访问特征指标数据组成所述第三入模访问特征指标数据集；

5.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述访问数据处理方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述访问数据处理方法。