CN111190940B

CN111190940B - 用户访问的离散数据处理方法、装置、设备及介质

Info

Publication number: CN111190940B
Application number: CN201911381085.1A
Authority: CN
Inventors: 杜宇衡
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2024-04-02
Anticipated expiration: 2039-12-27
Also published as: CN111190940A

Abstract

本发明公开了一种用户访问的离散数据处理方法、装置、计算机设备及存储介质，所述方法包括：自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；通过等频分箱法划分为若干第一数据区域，并获取含有第一人数占比的区域访问数据；确定历史时间段，并获取历史时间段内的历史离散数据，通过包含相同划分参数的等频分箱法划分为若干第二数据区域，并获取第二人数占比；根据第一人数占比和第二人数占比获取群体稳定指标值；获取相对命中率和信息量值；通过预设评估函数，获取第一数据区域的总评分值，并确定价值区域。如此，实现了从离散数据中提取有价值用户数据，确定用户维护措施，进而制定针对性更强的用户维护措施。

Description

用户访问的离散数据处理方法、装置、设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种用户访问的离散数据处理方法、装置、计算机设备及存储介质。

背景技术

目前，在大数据信息化时代，数据库变得越来越大，人们迫切的需要对庞大的数据库进行数据挖掘以得到有价值信息，现有技术中，由于不稳定的离散数据会使得数据计算复杂化，因此，为了更好地进行规则提取，从大数据中进行数据挖掘的方式往往是首先摒弃大数据中的离散数据，之后对除离散数据之外的连续型数据中进行数据处理。比如，针对用户访问的大数据中的有价值用户数据的提取，往往只是首先提取用户访问数据中除离散型数据之外的稳定的连续型数据，进而根据该连续型数据确定有价值用户数据，以最终制定吸引该有价值用户数据对应的用户群体的用户维护措施。该方案的不足之处在于，离散数据中也会存在部分有用的数据，可以对吸引部分类型的用户群体具有可参考价值，而直接摒弃该部分离散数据，显然也放弃了针对吸引该部分类型的用户群体的用户维护措施的制定，因此，对于用户运营状态将产生不良影响。

发明内容

本发明提供一种用户访问的离散数据处理方法、装置、计算机设备及存储介质，实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据，进而，根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施，如此，制定的用户维护措施的针对性更强，适用范围更广，通过该用户维护措施可以更好地吸引更多用户。

一种用户访问的离散数据处理方法，包括：

自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据；

通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域，并获取每一个所述第一数据区域内的区域访问数据；所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比；

确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段，并获取所述历史时间段内的历史离散数据，并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域，并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比；其中，所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据；

根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值；

根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值；

将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施。

一种用户访问的离散数据处理装置，包括：

第一获取模块，用于自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据；

第二获取模块，用于通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域，并获取每一个所述第一数据区域内的区域访问数据；所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比；

第三获取模块，用于确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段，并获取所述历史时间段内的历史离散数据，并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域，并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比；其中，所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据；

第一计算模块，用于根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值；

第二计算模块，用于根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值；

确定模块，用于将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施。

本发明提供的用户访问的离散数据处理方法、装置、计算机设备及存储介质，通过获取待识别图像；通过自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；通过等频分箱法将所述待处理离散数据划分为若干第一数据区域，并获取每一个所述第一数据区域内的区域访问数据(包含第一人数占比)；确定历史时间段，并获取历史时间段内的所述历史离散数据，并将所述历史离散数据通过包含上述划分参数的等频分箱法划分为若干第二数据区域，并获取每一个所述第二数据区域的第二人数占比；根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值；根据所有所述第一数据区域的区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值；通过预设评估函数，获取每一个所述第一数据区域的总评分值，并根据总评分值确定所述待处理离散数据中的价值区域，以供根据价值区域确定用户维护措施。如此，通过对用户访问的离散数据进行划分区域，获取每一个区域的人数占比、群体稳定指标值、相对命中率和信息量值并输入至预设评估函数，以获取每一个区域的总评分值，并确定离散数据中的价值区域，从而能快速提取出离散数据中有价值用户数据。实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据，进而，根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施，如此，制定的用户维护措施的针对性更强，适用范围更广，通过该用户维护措施可以更好地吸引更多用户。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中用户访问的离散数据处理方法的应用环境示意图；

图2是本发明一实施例中用户访问的离散数据处理方法的流程图；

图3是本发明一实施例中用户访问的离散数据处理方法的步骤S10之前的流程图；

图4是本发明一实施例中用户访问的离散数据处理方法的步骤S60之后的流程图；

图5是本发明一实施例中用户访问的离散数据处理装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的用户访问的离散数据处理方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种用户访问的离散数据处理方法，其技术方案主要包括以下步骤S10-S60：

S10，自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据。

可理解地，所述预设时间段可以根据需求进行设定时间段，比如当前月份、上一周等等，其中，从数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据，所述数据库可以在数据服务器中，所述用户访问数据包括待处理离散数据和待处理稳定数据，其中，所述待处理离散数据为在所述预设时间段内不符合稳定性要求的用户访问数据，所述待稳定数据为在所述预设时间段内符合稳定性要求的用户访问数据。所述符合稳定性要求是指在所述预设时间段内的信息量值符合指定的信息量值以及在预设时间段内的群体稳定指标值符合指定的群体稳定指标值。所述群体稳定指标值(Populationstability index，PSI)为衡量测试样本及模型样本稳定度评估的指标。所述信息量值(Information value，IV)为衡量自变量的预测能力的大小。所述群体稳定指标值和所述信息量值都为衡量在预设时间段内的指标数据的稳定性，所述符合稳定性要求可以根据需求或者实验数据进行确定。例如：符合稳定性要求可以确定为一个区域的信息量值大于0.02(指定的信息量值)，且该区域的群体稳定指标值小于0.1(指定的群体稳定指标值)。

S20，通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域，并获取每一个所述第一数据区域内的区域访问数据；所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比。

可理解地，所述等频分箱法中包含划分参数，所述等频分箱法为根据数据的边界值范围内进行划分相等的每个区域,每个区域的参数为划分参数，例如：当前月内用户访问次数的数据的边界值范围为1到100，对这个范围进行10％区域范围的划分，即分成第一个第一数据区域为1到10，第二个第一数据区域为11到20，……，第10个第一数据区域为91到100。

也即对所述待处理离散数据进行等频分箱法划分得到若干个不同的所述第一数据区域，并获取每一个所述第一数据区域内的区域访问数据，其中，将一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数比值的百分比确定为第一人数占比，即每一个所述第一数据区域内的所述区域访问数据包括该所述第一数据区域的所述第一人数占比，例如：第一个第一数据区域为1到10的访问数据中的访问人数为10人，总访问人数为80人，则访问数据包括第一人数占比为20％。

S30，确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段，并获取所述历史时间段内的历史离散数据，并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域，并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比；其中，所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据。

可理解地，所述历史时间段为所述预设时间段之前、与所述预设时间段连续并且与所述预设时间段等长的时间段，从数据库中获取所述历史时间段内的历史离散数据，其中，所述历史离散数据为在所述历史时间段内不符合稳定性要求的用户访问数据，并且根据所述划分参数的等频分箱法对所述历史离散数据进行划得到若干不同的所述第二数据区域，即每一个所述第二数据区域的划分参数与所述第一数据区域的划分参数一样，例如：所述预设时间段为当前月，所述历史时间段为上一个月，当前月内用户访问次数的数据分成第一个第一数据区域为1到10，第二个第一数据区域为11到20，……，第10个第一数据区域为91到100，则上一个月内用户访问次数的数据分成第一个第二数据区域为1到10，第二个第二数据区域为11到20，……，第10个第二数据区域为91到100。其中，所述第一数据区域和所述第二数据区域为存储于数据库中不同的区域。同样，将一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数比值的百分比确定为第二人数占比，获取每一个所述第二数据区域的所述第二人数占比。

S40，根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值。

可理解地，通过将每一所述第一数据区域的所述第一人数占比和对应的所述第一数据区域的所述第二人数占比输入稳定指标计算模型中的输出群体稳定指标值的公式中，计算出每一所述第一数据区域的群体稳定指标值，所述群体稳定指标值(Populationstability index，PSI)为衡量测试样本及模型样本稳定度评估的指标，通过计算出每一所述第一数据区域的群体稳定指标值能够衡量该区域的数据稳定程度。

在一实施例中，所述步骤S40中，即所述根据所述第一人数占比和所述第二人数占比获取每一所述第一数据区域的群体稳定指标值，包括：

S401，将所述第一人数占比和所述第二人数占比输入以下稳定指标计算模型中，以获取每一所述第一数据区域的群体稳定指标值：

Z_i＝(X_i-L_i)×ln(X_i/L_i)

其中：

Z_i为第i个所述第一数据区域的群体稳定指标值；

X_i为第i个所述第一数据区域的所述第一人数占比；

L_i为第i个所述第一数据区域的所述第二人数占比。

例如：第一数据区域有10个区域，第1(i＝1)个所述第一数据区域的第一人数占比为X₁，第1(i＝1)个所述第一数据区域的第二人数占比为L₁，计算获得第1(i＝1)个所述第一数据区域的群体稳定指标值为Z₁，其中，Z₁＝(X₁-L₁)×ln(X₁/L₁)，如此类推，第10(i＝10)个所述第一数据区域的第一人数占比为X₁₀，第10(i＝10)个所述第一数据区域的第二人数占比为L₁₀，计算获得第10(i＝10)个所述第一数据区域的群体稳定指标值为Z₁₀，其中，Z₁₀＝(X₁₀-L₁₀)×ln(X₁₀/L₁₀)。

S50，根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值。

可理解地，所述区域访问数据包含符合命中要求的用户访问数据和不符合命中要求的用户访问数据，所述命中要求根据需求进行设定，比如命中要求为1个月访问内符合重复访问同一路径的要求，连续两个月内均有访问的要求，连续两周均有2次访问的要求等等。根据所述预设时间段内的每一个所述第一数据区域的所述区域访问数据，通过相对命中率模型中的相对命中率公式计算得出每一个所述第一数据区域的相对命中率；根据所述预设时间段内的每一个所述第一数据区域的所述区域访问数据，通过信息量计算模型中的信息量值公式计算得出每一个所述第一数据区域的信息量值。

在一实施例中，每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据；

所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的相对命中率，包括：

S501，将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下命中率计算模型中，以获取每一个所述第一数据区域的相对命中率：

A_i＝(P_i-P_T)/P_T

其中：

A_i为第i个所述第一数据区域的相对命中率；

P_i为第i个所述第一数据区域中所有符合命中要求的用户访问数据在该第一数据区域中的所有用户访问数据中所占的百分比；

P_T为所有所述第一数据区域中所有符合命中要求的用户访问数据在所有所述第一数据区域中的用户访问数据中所占的百分比。

可理解地，所述第一数据区域的所述区域访问数据包含符合命中要求的用户访问数据(可以为符合命中要求的用户访问个数)和不符合命中要求的用户访问数据(可以为不符合命中要求的用户访问个数)，例如：第一数据区域有10个区域，命中要求为连续两个月均有访问的要求，其中，所有第一数据区域中的用户访问数据为80，所有第一数据区域中所有符合命中要求的用户访问数据为40，则所有所述第一数据区域中所有符合命中要求的用户访问数据在所有所述第一数据区域中的用户访问数据中所占的百分比P_T为50％(即40/80×100％＝50％)，第1(i＝1)个所述第一数据区域中所有用户访问数据(用户访问个数)为8，第1(i＝1)个所述第一数据区域中所有符合命中要求的用户访问数据(用户访问个数)为2，则第1(i＝1)个所述第一数据区域中所有符合命中要求的用户访问数据在该第一数据区域中的所有用户访问数据中所占的百分比P₁为25％(即2/8×100％＝25％)，从而计算出第1(i＝1)个所述第一数据区域的有符合命中要求的相对命中率A₁为-50％，如此类推，可以计算出所述第一数据区域中剩余区域的相对命中率。

所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的信息量值，包括：

S502，将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下信息量计算模型中，以获取每一个所述第一数据区域的信息量值：

其中：

Y_i为第i个所述第一数据区域的信息量值；

#y_i为第i个所述第一数据区域中所有符合命中要求的用户访问数据的总数；

#y_T为所有所述第一数据区域中所有符合命中要求的用户访问数据的总数；

#n_i为第i个所述第一数据区域中所有不符合命中要求的用户访问数据的总数；

#n_T为所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数。

可理解地，所有所述第一数据区域中所有符合命中要求的用户访问数据的总数和所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数之和为所述第一数据区域中的用户访问数据的总数。例如：第一数据区域有10个区域，命中要求为连续两个月均有访问的要求，其中，所有第一数据区域中的用户访问数据的总数为80，所有第一数据区域中所有符合命中要求的用户访问数据的总数#y_T为40，则所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数#n_T为40(即80-40＝40)，第1(i＝1)个所述第一数据区域中所有符合命中要求的用户访问数据的总数为8，第1(i＝1)个所述第一数据区域中所有不符合命中要求的用户访问数据的总数为2，从而计算出第1(i＝1)个所述第一数据区域的信息量值Y₁为0.2，如此类推，可以计算出所述第一数据区域中剩余区域的信息量值，所述信息量值(Information value，IV)为衡量自变量的预测能力的大小，通过计算出每一所述第一数据区域的信息量值能够预测该区域的数据稳定程度大小。

S60，将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施，所述用户维护措施为维系或吸引用户继续访问而提供的措施，比如所述用户维护措施包括提供吸引用户的优惠卷、提供吸引用户的奖励积分、根据用户的偏好推送相关资讯等等。

可理解地，将第i个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率和所述信息量值输入至预设评估函数中，得出第i个所述第一数据区域的总评分值，根据所有所述第一数据区域的总评分值确定出一个所述待处理离散数据中的价值区域，优选地，选择所有所述第一数据区域的总评分值中最大值对应的所述第一数据区域确定为所述价值区域。

如此，通过对用户访问的离散数据进行划分区域，获取每一个区域的人数占比、群体稳定指标值、相对命中率和信息量值并输入至预设评估函数，以获取每一个区域总评分值，并确定离散数据中的价值区域，从而能快速提取出离散数据中有价值用户数据，实现了用户访问的大数据中的离散数据中快速地、准确地提取有价值用户数据，进一步提供吸引用户群体的有价值用户数据，有助于制定用户群体的用户维护措施。

在一实施例中，所述预设评估函数为：

S_i＝w₁A_i+w₂X_i+w₃Y_i+w₄Z_i

其中：

S_i为第i个所述第一数据区域的总评分值；

A_i为第i个所述第一数据区域的所述相对命中率；

X_i为第i个所述第一数据区域的所述第一人数占比；

Y_i为第i个所述第一数据区域的所述群体稳定指标值；

Z_i为第i个所述第一数据区域的所述信息量值；

w₁为第i个所述第一数据区域的所述相对命中率的权重值；

w₂为第i个所述第一数据区域的所述第一人数占比的权重值；

w₃为第i个所述第一数据区域的所述信息量值的权重值；

w₄为第i个所述第一数据区域的所述群体稳定指标值的权重值。

可理解地，所述预设评估函数为线性函数，通过加权重的方式，能够快速地计算得出总评分值，优选地，所述相对命中率的权重值为6，所述第一人数占比的权重值为1，所述信息量值的权重值为1，所述群体稳定指标值的权重值为-1，通过实验数据得出以上权重值的取值能够计算出最准确的总评分值。

如此，通过含权重的预设评估函数(线性函数)能快速获取出待处理离散数据中所有第一数据区域的总评分值，而无需经过复杂计算过程，将所有第一数据区域的总评分值中最大的值确定为待处理离散数据中的价值区域。实现了大数据中快速提取离散数据中有价值区域，提高了处理速度，不会因为离散数据的复杂化导致计算复杂而造成等待，大大减少了大数据处理的等待时间，从而减少了运营成本。

本发明通过自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；通过等频分箱法将所述待处理离散数据划分为若干第一数据区域，并获取每一个所述第一数据区域内的区域访问数据(包含第一人数占比)；确定历史时间段，并获取历史时间段内的所述历史离散数据，并将所述历史离散数据通过包含上述划分参数的等频分箱法划分为若干第二数据区域，并获取每一个所述第二数据区域的第二人数占比；根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值；根据所有所述第一数据区域的区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值；通过预设评估函数，获取每一个所述第一数据区域的总评分值，并根据总评分值确定所述待处理离散数据中的价值区域，以供根据价值区域确定用户维护措施。

如此，通过对用户访问的离散数据进行划分区域，获取每一个区域的人数占比、群体稳定指标值、相对命中率和信息量值并输入至预设评估函数，以获取每一个区域的总评分值，并确定离散数据中的价值区域，从而能快速提取出离散数据中有价值用户数据。实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据，进而，根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施，如此，制定的用户维护措施的针对性更强，适用范围更广，通过该用户维护措施可以更好地吸引更多用户。

在一实施例中，如图3所示，所述步骤S10之前，还包括：

S70，自数据库中获取用户在所述预设时间段内访问的所有用户访问数据；

可理解地，自数据库中获取用户在预设时间段内访问的所有用户访问数据，即所述用户访问数据为用户访问的相关数据，所述用户访问数据包括用户访问次数、用户的每次访问路径等等，所有所述用户访问数据包含所述待处理离散数据。

S80，根据预设的稳定性要求筛选出所述预设时间段内访问的所有所述用户访问数据中的待处理稳定数据，并将筛选出所述待处理稳定数据之后的剩余的所述用户访问数据标记为所述待处理离散数据；所述待处理稳定数据是指所述预设时间段内符合所述稳定性要求的用户访问数据。

可理解地，符合稳定性要求是指在预设时间段内的信息量值符合指定的信息量值以及在预设时间段内的群体稳定指标值符合指定的群体稳定指标值，所述符合稳定性要求可以根据需求或者实验数据进行确定，例如：符合稳定性要求可以确定为一个区域的信息量值大于0.02(指定的信息量值)，且该区域的群体稳定指标值小于0.1(指定的群体稳定指标值)。也即，首先，通过等频分箱法对所述预设时间段内访问的用户访问数据进行划分，划分为若干区域，比如划分区域为1到100,101到200,201到300……等等；其次，根据划分的若干区域，获取每一个区域的群体稳定指标值和信息量值，同时，获取所述指定的信息量值和所述指定的群体稳定指标值；最后，将每一个区域的群体稳定指标值与所述指定的群体稳定指标值进行对比，以及将每一个区域的信息量值与所述指定的信息量值进行对比，在每一个区域的群体稳定指标值符合所述指定的群体稳定指标值，且每一个区域的信息量值符合所述指定的信息量值时，将该区域的所述用户访问数据标记为待处理稳定数据，将所有所述待处理稳定数据之后的剩余的所述用户访问数据标记为所述待处理离散数据。

通过对所述预设时间段内访问的用户访问数据进行处理，将符合稳定性要求的所述预设时间段内访问的用户访问数据确定为待处理稳定数据，将筛选出所述待处理稳定数据之后的剩余的所述用户访问数据确定为所述待处理离散数据。

如此，对所述用户访问数据进行筛选区分处理，可以将所述符合筛选规则要求的用户访问数据(待处理稳定数据)与所述不符合筛选规则要求的用户访问数据(待处理离散数据)进行隔离，可以减少所述待处理稳定数据对所述待处理离散数据进行数据提取的干扰。

在一实施例中，所述步骤S60中，即所述以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施，包括：

获取所有所述第一数据区域的总评分值中最大的值对应的所述第一数据区域，将所述总评分值中最大的值对应的所述第一数据区域确定为所述待处理离散数据中的价值区域。可理解地，所有所述第一数据区域的总评分值中的最大值说明所述总评分值中最大的值对应的所述第一数据区域是在用户访问的离散数据中有价值的区域，因此，将所述总评分值中最大的值对应的所述第一数据区域确定为所述待处理离散数据中的价值区域。

在一实施例中，如图4所示，所述步骤S60之后，包括：

S100，获取所述预设时间段内的所述待处理离散数据中的价值区域的区域访问数据，同时获取所述预设时间段内的所述待处理稳定数据。

可理解地，自数据库中获取所述预设时间段内访问的用户访问数据中所述待处理离散数据中的价值区域的区域访问数据和所述预设时间段内访问的用户访问数据中的待处理稳定数据。

S110，将所述区域访问数据和所述待处理稳定数据输入预设的用户访问模型中，并接受所述用户访问模型输出的用户维护措施。

可理解地，将所述区域访问数据和所述待处理稳定数据同时输入预设的所述用户访问模型中，根据所述用户访问模型确定所有用户群体的用户维护措施，从而接受所有用户群体制定出相应的用户维护措施，进而根据所述相应的用户维护措施避免用户流失，所述用户维护措施为维系或吸引用户继续访问而提供的措施，比如所述用户维护措施包括提供吸引用户的优惠券；提供吸引用户的奖励积分；根据用户的偏好推送相关资讯等等。

如此，通过将稳定数据和离散数据中有价值的数据同时输入模型中能够提升模型的泛化能力和准确率，实现精准提取出有价值数据作为模型输入样本数据以制定用户群体的用户维护措施。

在一实施例中，提供一种用户访问的离散数据处理装置，该用户访问的离散数据处理装置与上述实施例中用户访问的离散数据处理方法一一对应。如图5所示，该用户访问的离散数据处理装置包括第一获取模块11、第二获取模块12、第三获取模块13、第一计算模块14、第二计算模块15和确定模块16。各功能模块详细说明如下：

第一获取模块11，用于自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据；

第二获取模块12，用于通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域，并获取每一个所述第一数据区域内的区域访问数据；所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比；

第三获取模块13，用于确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段，并获取所述历史时间段内的历史离散数据，并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域，并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比；其中，所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据；

第一计算模块14，用于根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值；

第二计算模块15，用于根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据，获取每一个所述第一数据区域的相对命中率和信息量值；

确定模块16，用于将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施。

在一实施例中，所述第一计算模块14包括：

第一计算单元41，用于将所述第一人数占比和所述第二人数占比输入以下稳定指标计算模型中，以获取每一所述第一数据区域的群体稳定指标值

Z_i＝(X_i-L_i)×ln(X_i/L_i)

其中：

Z_i为第i个所述第一数据区域的群体稳定指标值；

X_i为第i个所述第一数据区域的所述第一人数占比；

L_i为第i个所述第一数据区域的所述第二人数占比。

在一实施例中，所述第二计算模块15包括：

第二计算单元，用于将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下命中率计算模型中，以获取每一个所述第一数据区域的相对命中率：

A_i＝(P_i-P_T)/P_T

其中：

A_i为第i个所述第一数据区域的相对命中率；

在一实施例中，所述第二计算模块15还包括：

第三计算单元，用于将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下信息量计算模型中，以获取每一个所述第一数据区域的信息量值：

其中：

Y_i为第i个所述第一数据区域的信息量值；

在一实施例中，所述预设评估函数为：

S_i＝w₁A_i+w₂X_i+w₃Y_i+w₄Z_i

其中：

S_i为第i个所述第一数据区域的总评分值；

A_i为第i个所述第一数据区域的所述相对命中率；

X_i为第i个所述第一数据区域的所述第一人数占比；

Y_i为第i个所述第一数据区域的所述群体稳定指标值；

Z_i为第i个所述第一数据区域的所述信息量值；

w₁为第i个所述第一数据区域的所述相对命中率的权重值；

w₃为第i个所述第一数据区域的所述信息量值的权重值；

在一实施例中，所述第一获取模块11包括：

第一获取单元，用于自数据库中获取用户在所述预设时间段内访问的所有用户访问数据；

筛选单元，用于根据预设的稳定性要求筛选出所述预设时间段内访问的所有所述用户访问数据中的待处理稳定数据，并将筛选出所述待处理稳定数据之后的剩余的所述用户访问数据标记为所述待处理离散数据；所述待处理稳定数据是指所述预设时间段内符合所述稳定性要求的用户访问数据。

在一实施例中，所述确定模块16包括：

第二获取单元，用于获取所述预设时间段内的所述待处理离散数据中的价值区域的区域访问数据，同时获取所述预设时间段内的所述待处理稳定数据；

输出单元，用于将所述区域访问数据和所述待处理稳定数据输入预设的用户访问模型中，并接受所述用户访问模型输出的用户维护措施。

关于用户访问的离散数据处理装置的具体限定可以参见上文中对于用户访问的离散数据处理方法的限定，在此不再赘述。上述用户访问的离散数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户访问的离散数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中用户访问的离散数据处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中用户访问的离散数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种用户访问的离散数据处理方法，其特征在于，包括：

将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施；

所述自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据；所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据之前，包括：

自数据库中获取用户在所述预设时间段内访问的所有用户访问数据；

根据预设的稳定性要求筛选出所述预设时间段内访问的所有所述用户访问数据中的待处理稳定数据，并将筛选出所述待处理稳定数据之后的剩余的所述用户访问数据标记为所述待处理离散数据；所述待处理稳定数据是指所述预设时间段内符合所述稳定性要求的用户访问数据；

每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据；

将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下命中率计算模型中，以获取每一个所述第一数据区域的相对命中率：

其中：

为第i个所述第一数据区域的相对命中率；

为第i个所述第一数据区域中所有符合命中要求的用户访问数据在该第一数据区域中的所有用户访问数据中所占的百分比；

为所有所述第一数据区域中所有符合命中要求的用户访问数据在所有所述第一数据区域中的用户访问数据中所占的百分比；

将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下信息量计算模型中，以获取每一个所述第一数据区域的信息量值：

其中：

为第i个所述第一数据区域的信息量值；

为第i个所述第一数据区域中所有符合命中要求的用户访问数据的总数；

为所有所述第一数据区域中所有符合命中要求的用户访问数据的总数；

为第i个所述第一数据区域中所有不符合命中要求的用户访问数据的总数；

为所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数。

2.如权利要求1所述的用户访问的离散数据处理方法，其特征在于，所述根据所述第一人数占比和所述第二人数占比获取每一所述第一数据区域的群体稳定指标值，包括：

将所述第一人数占比和所述第二人数占比输入以下稳定指标计算模型中，以获取每一所述第一数据区域的群体稳定指标值：

其中：

为第i个所述第一数据区域的群体稳定指标值；

为第i个所述第一数据区域的所述第一人数占比；

为第i个所述第一数据区域的所述第二人数占比。

3.如权利要求1所述的用户访问的离散数据处理方法，其特征在于，所述预设评估函数为：

其中：

为第i个所述第一数据区域的总评分值；

为第i个所述第一数据区域的所述相对命中率；

为第i个所述第一数据区域的所述第一人数占比；

为第i个所述第一数据区域的所述群体稳定指标值；

为第i个所述第一数据区域的所述信息量值；

为第i个所述第一数据区域的所述相对命中率的权重值；

为第i个所述第一数据区域的所述第一人数占比的权重值；

为第i个所述第一数据区域的所述信息量值的权重值；

为第i个所述第一数据区域的所述群体稳定指标值的权重值。

4.如权利要求1所述的用户访问的离散数据处理方法，其特征在于，所述将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施之后，包括：

获取所述预设时间段内的所述待处理离散数据中的价值区域的区域访问数据，同时获取所述预设时间段内的所述待处理稳定数据；

将所述区域访问数据和所述待处理稳定数据输入预设的用户访问模型中，并接受所述用户访问模型输出的用户维护措施。

5.一种用户访问的离散数据处理装置，其特征在于，包括：

确定模块，用于将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数，以获取每一个所述第一数据区域的总评分值，并根据所述总评分值确定所述待处理离散数据中的价值区域，以供根据所述价值区域确定用户维护措施；

所述第一获取模块包括：

筛选单元，用于根据预设的稳定性要求筛选出所述预设时间段内访问的所有所述用户访问数据中的待处理稳定数据，并将筛选出所述待处理稳定数据之后的剩余的所述用户访问数据标记为所述待处理离散数据；所述待处理稳定数据是指所述预设时间段内符合所述稳定性要求的用户访问数据；

所述第二计算模块包括：

其中：

为第i个所述第一数据区域的相对命中率；

所述第二计算模块还包括：

其中：

为第i个所述第一数据区域的信息量值；

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述用户访问的离散数据处理方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述用户访问的离散数据处理方法。