CN111209929A

CN111209929A - 访问数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111209929A
Application number: CN201911318496.6A
Authority: CN
Inventors: 王钧宇; 吕志尊; 许沥文; 杨阳; 杨杰
Original assignee: Ping An Trust Co Ltd
Current assignee: Ping An Trust Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-29

Abstract

本发明公开了一种访问数据处理方法、装置、计算机设备及存储介质。所述方法包括：对访问数据样本中的正样本和负样本组成训练集进行训练，得到分类模型；对访问数据样本中的未知访问数据样本进行分类得到第一价值标签；对访问数据样本进行聚类运算得到第二价值标签；若第一价值标签和第二价值标签一致，则确定未知访问数据样本的最终价值标签，根据最终价值标签的未知访问数据样本，训练价值识别模型；将与访问对象关联的访问数据输入训练完成的价值识别模型中，获取访问对象价值结果。本发明可以准确确定出充足的访问数据样本，进而通过根据已确定的访问数据样本训练的价值识别模型，高效、准确地确定有潜在价值客户。

Description

访问数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种访问数据处理方法、装置、计算机设备及存储介质。

背景技术

在将人工智能应用于实践的过程中，AI模型的优劣决定了实际应用的效果；而在训练AI模型的过程中，如何合理的选择具有标签的访问数据样本又决定了AI模型的准确率。

访问数据样本的标签往往是根据人为经验或历史数据进行标注的。若在没有足够多历史数据的情况下，则无法形成有效的具有标签的访问数据样本，进而影响AI模型训练的准确性。

例如，为访问网站确定潜在价值客户的应用，一个访问对象的访问数据样本应该被标注为正样本标签或是负样本标签，需要根据访问对象历史数据是否经常访问过该网站的客观事件来确定。

通常情况下，当访问对象经常访问该网站时，某项访问数据样本将被标注为正样本，同时，该项访问数据样本之外的其他访问数据样本将被标注为负样本。然而，这样划分正负样本，容易以偏概全，也不能保证负样本中存在潜在价值客户的可能性，使得根据上述确定的正负样本训练出的模型的准确率受到影响，进而导致该模型不能准确根据访问该网站的访问对象确定出有潜在价值客户。

发明内容

基于此，有必要针对上述技术问题，提供一种访问数据处理方法、装置、计算机设备及存储介质，本发明可以准确确定出充足的访问数据样本，进而通过根据已确定的访问数据样本训练的价值识别模型，高效、准确地确定有潜在价值客户。

一种访问数据处理方法，包括：

获取访问数据样本，并根据预设数据标准，对访问数据样本进行分类，得到正样本、负样本和未知访问数据样本；所述未知访问数据样本包括第一未知样本和第二未知样本；

将所述正样本和所述负样本组成训练集，并对所述训练集进行训练，得到分类模型；

使用所述分类模型对第一未知样本和第二未知样本进行分类，得到所有所述未知访问数据样本的第一价值标签；

采用聚类算法，对所述访问数据样本进行聚类运算，得到所述未知访问数据样本的第二价值标签；

对所述未知访问数据样本的第一价值标签和第二价值标签进行比较，若两者一致，则将一致的所述第一价值标签确定为所述未知访问数据样本的最终价值标签，并根据所述最终价值标签将所述未知访问数据样本加入训练集；所述最终价值标签包含有价值标签和无价值标签；

若两者不一致，则返回至将所述正样本和所述负样本组成训练集，直至所述训练集中加入预设数量的已确定所述最终价值标签的所述未知访问数据样本；

根据所述训练集中包含的预设数量的已确定所述最终价值标签的所述未知访问数据样本，训练价值识别模型；

将与访问对象关联的访问数据输入训练完成的所述价值识别模型中，获取访问对象价值结果并将其与所述访问对象关联；其中，所述访问对象价值结果包括访问对象为有潜在价值客户或无潜在价值客户；所述有潜在价值客户具有的所述最终价值标签为所述有价值标签，所述无潜在价值客户具有的所述最终价值标签为所述无价值标签。

一种访问数据处理装置，包括：

第一分类模块，用于获取访问数据样本，并根据预设数据标准，对访问数据样本进行分类，得到正样本、负样本和未知访问数据样本；所述未知访问数据样本包括第一未知样本和第二未知样本；

第一训练模块，用于将所述正样本和所述负样本组成训练集，并对所述训练集进行训练，得到分类模型；

第二分类模块，用于使用所述分类模型对第一未知样本和第二未知样本进行分类，得到所有所述未知访问数据样本的第一价值标签；

聚类运算模块，用于采用聚类算法，对所述访问数据样本进行聚类运算，得到所述未知访问数据样本的第二价值标签；

第一确定模块，用于对所述未知访问数据样本的第一价值标签和第二价值标签进行比较，若两者一致，则将一致的所述第一价值标签确定为所述未知访问数据样本的最终价值标签，并根据所述最终价值标签将所述未知访问数据样本加入训练集；所述最终价值标签包含有价值标签和无价值标签；

返回模块，用于若两者不一致，则返回至将所述正样本和所述负样本组成训练集，直至所述训练集中加入预设数量的已确定所述最终价值标签的所述未知访问数据样本；

第二训练模块，用于根据所述训练集中包含的预设数量的已确定所述最终价值标签的所述未知访问数据样本，训练价值识别模型；

获取模块，用于将与访问对象关联的访问数据输入训练完成的所述价值识别模型中，获取访问对象价值结果并将其与所述访问对象关联；其中，所述访问对象价值结果包括访问对象为有潜在价值客户或无潜在价值客户；所述有潜在价值客户具有的所述最终价值标签为所述有价值标签，所述无潜在价值客户具有的所述最终价值标签为所述无价值标签。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述访问数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述访问数据处理方法。

上述访问数据处理方法、装置、计算机设备及存储介质，将访问数据样本初步划分成正样本、负样本、第一未知样本和第二未知样本四类；通过对四类样本的训练和聚类运算，得到未知访问数据样本的最终价值标签；即，当访问数据样本中只出现少量正负样本时，通过对大量未知访问数据样本进行标注最终价值标签，使得访问数据样本能够包含充足和准确的样本价值标签，也即，本发明可以准确确定出充足的访问数据样本，而通过上述已确定的访问数据样本训练得到的价值识别模型能高效和客观地为一个网站(或其他可提供访问途径的被访问对象)确定访问对象(通过价值识别模型识别访问对象的访问数据)是否为有潜在价值客户，同时也提升了该价值识别模型的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中访问数据处理方法的一应用环境示意图；

图2是本发明一实施例中访问数据处理方法的一流程图；

图3是本发明一实施例中访问数据处理方法步骤S4的流程示意图；

图4是本发明一实施例中访问数据处理装置的结构示意图；

图5是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的访问数据处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种访问数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S1：获取访问数据样本，并根据预设数据标准，对访问数据样本进行分类，得到正样本、负样本和未知访问数据样本；所述未知访问数据样本包括第一未知样本和第二未知样本；

可理解地，预设数据标准是指人为设置的样本划分标准，且可用于将访问数据样本进行分类。分类后的访问数据样本，将用于价值识别模型训练，使得模型训练后的价值识别模型能高效地对新的访问数据进行确定，从而进一步地确定出访问对象是否为有潜在价值客户(包括该访问对象是否能经常在本网站购买物品和该访问对象是否能持续使用本网站进行浏览和听歌等)。

以目前的二分类的模型(一种逻辑回归模型)为例，二分类的模型需要正反两种访问数据样本进行训练；而在现实生活中，访问数据样本并不能完全、准确和高效的被标注为正样本或负样本，即可能存在可能大量未知访问数据样本，有待于对其进行标签化的数据化处理，使之成为正样本或负样本。

在本实施例中，对访问数据样本进行分类，能筛选确定出未知访问数据样本，进而对该数据样本可再一步地进行数据确定处理。

进一步地，所述步骤S1，具体可以包括如下步骤：

根据预设数据库，从所述访问数据样本中确定所述正样本、所述负样本和所述未知访问数据样本；

可理解地，预设数据库，其中包括可对访问数据样本进行判断的历史访问数据，比如，访问对象曾多次游览该网站相关的模块，该模块可为该网站中的某种商品的商品介绍、付费歌曲库等。

正样本，是与价值识别模型识别的目的相关的访问数据样本；负样本，即与价值识别模型识别的目的相反的访问数据样本。在本应用场景下正样本是指包含有潜在价值标签的访问数据样本，负样本为包含无价潜在值标签的访问数据样本，未知访问数据样本为不确定是否包含潜在价值标签的的访问数据样本。

举例来说，一个价值识别模型，能使得确定访问对象价值为潜在价值客户的访问数据样本为正样本；其他不能确定访问对象为潜在价值客户的访问数据样本为负样本。

访问数据样本的类型除正样本或负样本之外，还可能包括未知访问数据样本。未知访问数据样本，是尚不能确定为正样本或负样本的。

具体地，服务端可以将访问数据样本与预设数据库中的历史数据进行比较，从而确定访问数据样本的类型。

例如，若访问数据样本中包含某些关键字或关键词(经常访问某个商品的模块)，或访问数据样本的数值在一定范围内(访问的持续时间和次数)，则服务端将访问数据样本的关键字/词，或数值与预设数据库中的历史访问数据进行一致性比较，若比较结果一致，则可以确定出正样本或负样本；若比较结果不一致，则可以归为未知访问数据样本。

从所述未知访问数据样本中确定所述第一未知样本和所述第二未知样本；

可理解地，未知访问数据样本可以分为两类，即第一未知样本和第二未知样本。其中，第一未知样本是基于公开的数据或信息可以推定出具有较大概率作为正样本或负样本的；第二未知样本是除第一未知样本之外的。在本应用场景第一未知样本是指有概率包含潜在价值标签的访问数据样本，第二未知样本是除第一未知样本之外的访问数据样本。

第一未知样本的确定，依赖于预设的第三方工具。举例来说，对其他网站中访问对象曾购买过的商品的数据来确定访问对象的潜在客户价值。假设，某人虽然以往并未在本网站购买过任何一件商品的情况，但智能评估系统根据其以往在其他网站曾购买过的商品的数据来确定访问对象是否具有购买相同商品的潜在客户价值，例如，在本网站进行购物相同商品的概率为70％，在本网站进行不购物的概率为30％，也即，该第一未知样本作为正样本的概率为70％，作为负样本的概率为30％。

对于无法确定为正样本、负样本或第一未知样本的访问数据样本，即为第二未知样本。

以上四种访问数据样本可以用符号表示为：正样本X_P，负样本X_n，第一未知样本X_u1，第二未知样本X_u2。

S2：将所述正样本和所述负样本组成训练集，并对所述训练集进行训练，得到分类模型；

具体地，服务端将正样本X_P和负样本X_n的集合作为训练集，采用朴素贝叶斯(

bayesian)模型进行训练，得到的分类模型M。分类模型M包含分类计算概率时用到的基本概率，即在训练集的训练下，分类模型M能够利用训练得到的基本概率进行朴素贝叶斯概率计算，得到一个新的待分类数据为正样本的概率，以及为负样本的概率。

其中，朴素贝叶斯模型作为一个初始模型，得到的分类模型M用于后续对第一未知样本和第二未知样本进行分类。

S3：使用所述分类模型对第一未知样本和第二未知样本进行分类，得到所有所述未知访问数据样本的第一价值标签；

具体地，服务端使用分类模型M对第一未知样本和第二未知样本进行分类，可以得到未知样本的标签，即第一价值标签，设为y_i1。在应用场景中，第一价值标签是指通过分类模型初步确定出是否为有价值标签和无价值标签。

进一步地，所述步骤S3，具体可以包括如下步骤：

基于所述分类模型中的贝叶斯法则统计出所述第一未知样本和所述第二未知样本所占的概率分布，选取出概率分布中最大概率值对应的价值标签作为所有所述未知访问数据样本的第一价值标签；其中，每一个所述概率值都对应一个所述价值标签。

可理解地，贝叶斯法则是指当分析样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。且由于分类模型是基于正样本和负样本训练完成的，因此分类模型中能对存在正样本和负样本相似特征的第一未知样本和第二未知样本进行分类，从而确定第一未知样本和第二未知样本在各个类别中所占取的概率，进而统计出第一未知样本和第二未知样本最大概率所对应的类别，最后通过该类别确定出所有未知访问数据样本的第一价值标签。在本实施例中通过分类模型中的贝叶斯法则能对未知访问数据样本的类别进行概率上的统计，能从概率分布中直观了解到数据分类情况。

S4：采用聚类算法，对所述访问数据样本进行聚类运算，得到所述未知访问数据样本的第二价值标签；

可理解地，服务端可以采用聚类算法对正样本、负样本、第一未知样本和第二未知样本进行聚类运算，运算结果可以得到第一未知样本和第二未知样本的新标签，称为第二价值标签，设为y_i3。在应用场景中，第二价值标签是指通过聚类算法初步确定出是否为有价值标签和无价值标签。

其中，聚类算法包括但不限于KMeans聚类算法，基于KMeans聚类算法的分类模型等。KMeans算法是一种无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。

进一步地，如图3所示，所述步骤S4，具体实现过程包括如下步骤：

S41：使用KMeans聚类模型对所述访问数据样本进行聚类运算，得到所述未知数据样本访问数据样本的临时价值标签；

具体地，服务端可以调用现有的基于KMeans聚类算法的库对访问数据样本进行聚类运算。聚类运算的结果中，第一未知样本和第二未知样本均可以获得标签，称为临时价值标签。在应用场景中，临时价值标签是指通过KMeans 聚类模型暂时确定出是否为有价值标签和无价值标签。

举例来说，聚类运算之后，访问数据样本被分成不同的聚类簇。由于正样本和负样本之间具有明显的差别，因此，正负样本被分到不同的聚类簇；第一未知样本和第二未知样本既可能被分到正负样本相同的聚类簇中，也可能被分到单独的聚类簇中。

服务端可以根据每个访问数据样本所属的不同聚类簇对访问数据样本进行标注，其中，由于正负样本已经明确，不需再关注，服务端只需对第一未知样本和第二未知样本进行标注，得到临时价值标签，设为y_i2。

进一步地，所述步骤S41，具体实现过程包括如下步骤：

在进行KMeans聚类之前，通过所述KMeans聚类模型随机选取出k个所述访问数据样本作为初始的聚类中心；可理解地，在确定出聚类中心之前，可通过数据归一化将访问数据样本转换成坐标的形式。

通过所述KMeans聚类模型分别计算每个所述访问数据样本到各个所述初始的聚类中心的距离，将所述访问数据样本分配到距离最近的所述初始的聚类中心中；可理解地，所述计算每个所述访问数据样本到各个所述初始的聚类中心的距离对应于每个所述访问数据样本与初始的聚类中心存在的数据相似度。

通过所述KMeans聚类模型去根据各个所述初始的聚类中心中所有的所述访问数据样本的平均距离重新计算出K个新的聚类中心；可理解地，平均距离指的是初始的聚类中心中所有的所述访问数据样本关于数据相似度的平均值。

通过所述KMeans聚类模型确定初始的聚类中心与新的聚类中心之间的变化程度是在预设变化范围内后，确定KMeans聚类完成，得到K个新的聚类中心所对应的聚类簇；所述聚类簇包括聚类完成后的所述访问数据样本；可理解地，在变化程度是在预设变化范围内时，可以说明新的聚类中心趋于稳定。

根据预设标签确定规则为所述聚类簇进行标注，得到所述未知数据样本访问数据样本的所述临时价值标签。可理解地，一个聚类簇代表一种数据类型，根据聚类簇中未知数据样本访问数据样本反映最多的数据属性为聚类簇中所有的未知数据样本访问数据样本标注与数据属性关联的临时价值标签。

进一步地，通过所述KMeans聚类模型根据各个所述初始的聚类中心中所有的所述访问数据样本的平均距离重新计算出K个新的聚类中心之后，还包括如下步骤：

通过所述KMeans聚类模型确定初始的聚类中心与新的聚类中心的变化程度是超出预设变化范围内后，则重复步骤S411至S413直到所述KMeans 聚类模型确定初始的聚类中心与新的聚类中心的变化程度是在预设变化范围内。

S42：使用KNN算法对所述未知访问数据样本进行过滤，并将过滤后剩下的所述未知访问数据样本的所述临时价值标签作为所述第二价值标签。

可理解地，KNN算法，即K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟分类方法。

进一步地，所述步骤S42，具体实现过程包括如下步骤：

使用KNN算法查找进行过KMeans聚类后各个聚类簇中的各个所述未知访问数据样本的近邻点，统计各个所述未知访问数据样本对应的近邻点的数量；一个所述未知访问数据样本对应一个所述近邻点的数量；

将每一个所述未知访问数据样本对应的所述近邻点的数量与第一预设数量阈值比较，在一个所述未知访问数据样本对应的所述近邻点的数量小于第一预设数量阈值时，确定该所述未知访问数据样本所在的所述聚类簇的聚类无效，并将该未知访问数据样本进行过滤清除；

将每一个所述未知访问数据样本对应的所述近邻点的数量与第二预设数量阈值比较，在一个所述未知访问数据样本对应的所述近邻点的数量大于等于第二预设数量阈值时，确定该所述未知访问数据样本所在的所述聚类簇的聚类有效，保留该未知访问数据样本并将该未知访问数据样本的所述临时价值标签作为所述第二价值标签。

具体地，服务端在聚类运算得到的多个聚类簇的基础上，使用KNN算法找出每个未知访问数据样本(包括第一未知样本和第二未知样本)的近邻点，统计近邻点的数量N；然后设置一个上阈值N_up(第二预设数量阈值)，当N 大于等于N_up，则认为该聚类结果有效；同时，设置一个下阈值N_down(第一预设数量阈值)，当N小于N_down，则认为该聚类结果无效。即，服务端根据上下阈值对未知访问数据样本进行过滤，从而实现对临时价值标签y_i2的过滤，将聚类结果在有效情况下的未知访问数据样本的标签作为第二价值标签 (y_i3)。可理解地，第一预设数量阈值和第二预设数量阈值可以相等；也即，具有第二价值标签的均为该步骤中已被鉴定的聚类结果为有效的未知访问数据样本。

在步骤S41和步骤S42的实施例中，通过KMeans聚类和KNN进行过滤，有效地剔除了聚类簇边缘地带的特殊样本(如孤立点)，过滤剩下的结果代表更准确的分类结果。

S5：对所述未知访问数据样本的第一价值标签和第二价值标签进行比较，若两者一致，则将一致的所述第一价值标签确定为所述未知访问数据样本的最终价值标签，并根据所述最终价值标签将所述未知访问数据样本加入训练集；所述最终价值标签包含有价值标签和无价值标签。

具体地，针对每一个未知访问数据样本，服务端将其具有的标签y_i1(第一价值标签)和y_i3(第二价值标签)进行一致性比较，若两者一致，则代表未知访问数据样本经过步骤S2和S4的处理，其标签具有稳定性，可以将该标签作为未知访问数据样本的最终价值标签，并且，将未知访问数据样本加入到步骤S2中由正负样本组成的训练集(具有最终价值标签的未知访问数据样本是正样本或负样本)中。

S6：若两者不一致，则返回至将所述正样本和所述负样本组成训练集，直至所述训练集中加入预设数量的已确定所述最终价值标签的所述未知访问数据样本；

可理解地，若y_i1与y_i3不一致，则代表未知访问数据样本的标签不稳定；在预先设置最终价值标签的数量的情况下，服务端可以重复执行步骤S2至步骤S4，直到未知访问数据样本被标注为正样本或负样本的总数达到预设数量。

其中，预设数量，是指进行模型训练前，对最终价值标签的数量进行规划，即确定训练集中需要确保有足够数量的正负样本，例如，训练集中正负样本的总数量需要达到1万个。

进一步地，服务端在S3中，可以为未知访问数据样本(包括第一未知样本和第二未知样本)设置一个初始概率值，然后在步骤S6中，即当y_i1与y_i3不一致时，对初始概率值进行调整，并最终确定未知访问数据样本属于正样本还是负样本。

具体地，初始概率值，是根据人为经验确定的，用于表示未知访问数据样本属于正样本或负样本的可能性。

例如，若正样本用1表示，负样本用0表示，则若未知访问数据样本的初始概率值越接近0，则越可能为负样本；反之，若未知访问数据样本的初始概率值越接近1，则越可能为正样本。若认为一个未知访问数据样本可能是正样本，则可以设置其初始概率值为0.6(大于0.5，0.5是正样本与负样本之间的临界值)，代表其属于正样本的可能性为60％；若认为一个未知访问数据样本可能是负样本，可以设置其初始概率值为0.4(小于0.5)，代表其属于负样本的可能性为40％。

进一步地，所述对所述未知访问数据样本的第一价值标签和第二价值标签进行比较之后，还包括如下步骤：

若两者(y_i1与y_i3)不一致，则将该未知访问数据样本的初始概率值(假设为0.6时，倾向于正样本)与一个正样本预设阈值(假设为0.95)进行比较；

若该未知访问数据样本的初始概率值(为0.6)小于正样本预设阈值 (0.95)，则根据预设步长(如0.05)对初始概率值进行一次递增(如 0.6+0.05＝0.65)，得到一个第一目标概率值(即0.65)；

若所述第一目标概率值未超过正样本预设阈值，则根据预设步长对所述第一目标概率值进行递增；

若所述第一目标概率值超过正样本预设阈值，则确定该未知访问数据样本为正样本。

若两者(y_i1与y_i3)不一致，则将该未知访问数据样本的初始概率值(假设为0.4时，倾向于负样本)与一个负样本预设阈值(假设为0.1)进行比较；

若该未知访问数据样本的初始概率值(为0.4)大于负样本预设阈值(0.1)，则根据预设步长(如0.05)对初始概率值进行一次递增(如0.4-0.05＝0.35)，得到一个第二目标概率值(即0.35)；

若所述第二目标概率值超过负样本预设阈值，则根据预设步长对所述第二目标概率值进行递减；若所述第二目标概率值小于负样本预设阈值，则确定该未知访问数据样本为负样本。

需要说明的时，服务端重复执行步骤S2至步骤S5，即，利用重复执行步骤S2到步骤S5，实现一个迭代计算，并在经过预设迭代次数(比如500次) 后即停止迭代计算。其中，针对每次迭代计算的结果，服务端都将目标概率值与正样本预设阈值或负样本预设阈值进行比较。

在本实施例中由于为未知访问数据样本设置了初始概率值，并通过迭代方式修正概率值，从而确定未知数据是否为正负样本，有利于减少直接通过比较y_i1与y_i3来确定正负样本所带来的误差。

S7：根据所述训练集中包含的预设数量的已确定所述最终价值标签的所述未知访问数据样本，训练价值识别模型；

可理解地，在对所有的未知访问数据样本确定出最终价值标签，进而可用于训练出一个价值识别模型(能根据访问对象的访问数据确定出访问对象是否对于本网站是一个有潜在价值客户)。

S8：将与访问对象关联的访问数据输入训练完成的所述价值识别模型中，获取访问对象价值结果并将其与所述访问对象关联；其中，所述访问对象价值结果包括访问对象为有潜在价值客户或无潜在价值客户；所述有潜在价值客户具有的所述最终价值标签为所述有价值标签，所述无潜在价值客户具有的所述最终价值标签为所述无价值标签。

可理解地，通过本实施例得到的价值识别模型，由于价值识别模型是用充足的访问数据样本训练得到(包括大量的已被标注的最终价值标签的未知访问数据样本、正样本和负样本)，因此价值识别模型能高效、准确和客观地为一个网站确定访问对象是否为潜在价值客户，从而为后续网站在对潜在价值客户转换为实际客户起到了一个准确的数据参考作用。

综上所述，上述提供了一种访问数据处理方法，将访问数据样本初步划分成正样本、负样本、第一未知样本和第二未知样本四类；通过对四类样本的训练和聚类运算，得到未知访问数据样本的最终价值标签；即，当访问数据样本中只出现少量正负样本时，通过对大量未知访问数据样本进行标注最终价值标签，使得访问数据样本能够包含充足和准确的样本价值标签，也即，本发明可以准确确定出充足的访问数据样本，而通过上述已确定的访问数据样本训练得到的价值识别模型能高效和客观地为一个网站(或其他可提供访问途径的被访问对象)确定访问对象(通过价值识别模型识别访问对象的访问数据)是否为有潜在价值客户，同时也提升了该价值识别模型的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种访问数据处理装置，该访问数据处理装置与上述实施例中访问数据处理方法一一对应。如图4所示，该访问数据处理装置包括第一分类模块11、第一训练模块12、第二分类模块13、聚类运算模块14、第一确定模块15、返回模块16、第二训练模块17和获取模块18。各功能模块详细说明如下：

第一分类模块11，用于获取访问数据样本，并根据预设数据标准，对访问数据样本进行分类，得到正样本、负样本和未知访问数据样本；所述未知访问数据样本包括第一未知样本和第二未知样本；

第一训练模块12，用于将所述正样本和所述负样本组成训练集，并对所述训练集进行训练，得到分类模型；

第二分类模块13，用于使用所述分类模型对第一未知样本和第二未知样本进行分类，得到所有所述未知访问数据样本的第一价值标签；

聚类运算模块14，用于采用聚类算法，对所述访问数据样本进行聚类运算，得到所述未知访问数据样本的第二价值标签；

第一确定模块15，用于对所述未知访问数据样本的第一价值标签和第二价值标签进行比较，若两者一致，则将一致的所述第一价值标签确定为所述未知访问数据样本的最终价值标签，并根据所述最终价值标签将所述未知访问数据样本加入训练集；所述最终价值标签包含有价值标签和无价值标签；

返回模块16，用于若两者不一致，则返回至将所述正样本和所述负样本组成训练集，直至所述训练集中加入预设数量的已确定所述最终价值标签的所述未知访问数据样本；

第二训练模块17，用于根据所述训练集中包含的预设数量的已确定所述最终价值标签的所述未知访问数据样本，训练价值识别模型；

获取模块18，用于将与访问对象关联的访问数据输入训练完成的所述价值识别模型中，获取访问对象价值结果并将其与所述访问对象关联；其中，所述访问对象价值结果包括访问对象为有潜在价值客户或无潜在价值客户；所述有潜在价值客户具有的所述最终价值标签为所述有价值标签，所述无潜在价值客户具有的所述最终价值标签为所述无价值标签。

进一步地，所述聚类运算模块包括：

聚类运算子模块，用于使用KMeans聚类模型对所述访问数据样本进行聚类运算，得到所述未知数据样本访问数据样本的临时价值标签；

过滤子模块，用于使用KNN算法对所述未知访问数据样本进行过滤，并将过滤后剩下的所述未知访问数据样本的所述临时价值标签作为所述第二价值标签。

进一步地，所述聚类运算子模块包括：

选取单元，用于在进行KMeans聚类之前，通过所述KMeans聚类模型随机选取出k个所述访问数据样本作为初始的聚类中心；

分配单元，用于通过所述KMeans聚类模型分别计算每个所述访问数据样本到各个所述初始的聚类中心的距离，将所述访问数据样本分配到距离最近的所述初始的聚类中心中；

计算单元，用于通过所述KMeans聚类模型去根据各个所述初始的聚类中心中所有的所述访问数据样本的平均距离重新计算出K个新的聚类中心；

确定单元，用于通过所述KMeans聚类模型确定初始的聚类中心与新的聚类中心之间的变化程度是在预设变化范围内后，确定KMeans聚类完成，得到 K个新的聚类中心所对应的聚类簇；所述聚类簇包括聚类完成后的所述访问数据样本；

标注单元，用于根据预设标签确定规则为所述聚类簇进行标注，得到所述未知数据样本访问数据样本的所述临时价值标签。

进一步地，所述聚类运算子模块包括：

统计单元，用于使用KNN算法查找进行过KMeans聚类后各个聚类簇中的各个所述未知访问数据样本的近邻点，统计各个所述未知访问数据样本对应的近邻点的数量；一个所述未知访问数据样本对应一个所述近邻点的数量；

过滤单元，用于将每一个所述未知访问数据样本对应的所述近邻点的数量与第一预设数量阈值比较，在一个所述未知访问数据样本对应的所述近邻点的数量小于第一预设数量阈值时，确定该所述未知访问数据样本所在的所述聚类簇的聚类无效，并将该未知访问数据样本进行过滤清除；

保留单元，用于将每一个所述未知访问数据样本对应的所述近邻点的数量与第二预设数量阈值比较，在一个所述未知访问数据样本对应的所述近邻点的数量大于等于第二预设数量阈值时，确定该所述未知访问数据样本所在的所述聚类簇的聚类有效，保留该未知访问数据样本并将该未知访问数据样本的所述临时价值标签作为所述第二价值标签。

进一步地，所述访问数据处理装置还包括：

比较模块，用于若两者不一致，则将该未知访问数据样本的初始概率值与一个正样本预设阈值进行比较；

第一递增模块，用于若该未知访问数据样本的初始概率值小于正样本预设阈值，则根据预设步长对初始概率值进行一次递增，得到一个第一目标概率值；

第二递增模块，用于若所述第一目标概率值未超过正样本预设阈值，则根据预设步长对所述第一目标概率值进行递增；

第二确定模块，用于若所述第一目标概率值超过正样本预设阈值，则确定该未知访问数据样本为正样本。

关于访问数据处理装置的具体限定可以参见上文中对于访问数据处理方法的限定，在此不再赘述。上述访问数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储访问数据处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种访问数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中访问数据处理方法的步骤，例如图2所示的步骤S1至步骤S8。或者，处理器执行计算机程序时实现上述实施例中访问数据处理装置的各模块/ 单元的功能，例如图4所示模块11至模块18的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中访问数据处理方法的步骤，例如图2所示的步骤S1至步骤S8。或者，计算机程序被处理器执行时实现上述实施例中访问数据处理装置的各模块/单元的功能，例如图4所示模块11至模块18的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种访问数据处理方法，其特征在于，包括：

2.根据权利要求1所述的访问数据处理方法，其特征在于，所述采用聚类算法，对所述访问数据样本进行聚类运算，得到所述未知访问数据样本的第二价值标签，包括：

使用KMeans聚类模型对所述访问数据样本进行聚类运算，得到所述未知数据样本访问数据样本的临时价值标签；

使用KNN算法对所述未知访问数据样本进行过滤，并将过滤后剩下的所述未知访问数据样本的所述临时价值标签作为所述第二价值标签。

3.根据权利要求2所述的访问数据处理方法，其特征在于，所述使用KMeans聚类模型对所述访问数据样本进行聚类运算，得到所述未知数据样本访问数据样本的临时价值标签，包括：

在进行KMeans聚类之前，通过所述KMeans聚类模型随机选取出k个所述访问数据样本作为初始的聚类中心；

通过所述KMeans聚类模型分别计算每个所述访问数据样本到各个所述初始的聚类中心的距离，将所述访问数据样本分配到距离最近的所述初始的聚类中心中；

通过所述KMeans聚类模型去根据各个所述初始的聚类中心中所有的所述访问数据样本的平均距离重新计算出K个新的聚类中心；

通过所述KMeans聚类模型确定初始的聚类中心与新的聚类中心之间的变化程度是在预设变化范围内后，确定KMeans聚类完成，得到K个新的聚类中心所对应的聚类簇；所述聚类簇包括聚类完成后的所述访问数据样本；

根据预设标签确定规则为所述聚类簇进行标注，得到所述未知数据样本访问数据样本的所述临时价值标签。

4.根据权利要求2所述的访问数据处理方法，其特征在于，所述使用KNN算法对所述未知访问数据样本进行过滤，并将过滤后剩下的所述未知访问数据样本的所述临时价值标签作为所述第二价值标签，包括：

5.根据权利要求1所述的访问数据处理方法，其特征在于，所述对所述未知访问数据样本的第一价值标签和第二价值标签进行比较之后，还包括：

若两者不一致，则将该未知访问数据样本的初始概率值与一个正样本预设阈值进行比较；

若该未知访问数据样本的初始概率值小于正样本预设阈值，则根据预设步长对初始概率值进行一次递增，得到一个第一目标概率值；

6.一种访问数据处理装置，其特征在于，包括：

返回模块，用于若两者不一致，则返回至将所述正样本和所述负样本组成训练集，直至所述训练集中加入预设数量的已确定所述最终价值标签的所述未知访问数据样本。

7.根据权利要求1所述的访问数据处理装置，其特征在于，所述聚类运算模块，包括：

8.根据权利要求1所述的访问数据处理装置，其特征在于，所述聚类运算子模块，包括：

确定单元，用于通过所述KMeans聚类模型确定初始的聚类中心与新的聚类中心之间的变化程度是在预设变化范围内后，确定KMeans聚类完成，得到K个新的聚类中心所对应的聚类簇；所述聚类簇包括聚类完成后的所述访问数据样本；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述访问数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述访问数据处理方法。