CN109784370A

CN109784370A - 基于决策树的数据地图生成方法、装置和计算机设备

Info

Publication number: CN109784370A
Application number: CN201811535040.0A
Authority: CN
Inventors: 陈丽; 郑昊敏
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-21
Anticipated expiration: 2038-12-14
Also published as: CN109784370B

Abstract

本申请揭示了一种基于决策树的数据地图生成方法、装置、计算机设备和存储介质，所述方法包括：获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；输出所述第一流量的分类结果；根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。从而实现了自动准确区分正常流量与异常流量，并能够对异常流量进行预警。

Description

基于决策树的数据地图生成方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到一种基于决策树的数据地图生成方法、装置、计算机设备和存储介质。

背景技术

网络活动中常以流量作为指标，来判断例如网站活跃性、虚拟产品的受欢迎程度等，其中，若将所有的流量均作为判断的基础，无疑会使判断的准确度受到影响，这是因为有些流量并非是有效流量，例如刷单、刷广告等异常流量，会对以流量作为指标的判断行为造成影响。

现有技术一般会用以下几个指标来判断虚假流量，如流量产生的时间；流量的地理位置；使用的网络接入方式；跳出率；网站停留时间；进入路径和点击分布图；目标的完成；pageviews(综合浏览量)/unique pageviews(唯一身份综合浏览量)；访客忠诚度分析(回访频率)；访客重合度分析；页面访问长尾分析等。但目前主要依靠单个指标进行人为分析，不能做到几个指标同时进行综合分析，其次，也不能有效输出紧急程度的预警，再次，结果也不能直观的展现。

发明内容

本申请的主要目的为提供一种基于决策树的数据地图生成方法、装置、计算机设备和存储介质，旨在解决现有技术中无法自动准确区分正常流量与异常流量的问题，以及无法对异常流量进行预警。

为了实现上述发明目的，本申请提出一种基于决策树的数据地图生成方法，包括以下步骤：

获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；

将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；

输出所述第一流量的分类结果；

根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

进一步地，所述流量决策树的获得方法，包括：

获取指定量的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树；

利用所述测试集的样本数据验证所述初步CHAID决策树；

如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

进一步地，所述将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树的步骤，包括：

设置所述CHAID决策树模型的建模标准参数，所述建模标准参数包括决策树的最大层数、母节点的可再分的显著水平、母节点包含的最小样本数和子节点包含的最小样本数；

将训练集的样本数据输入到采用卡方自动交互检测法建立的所述CHAID决策树模型中进行训练，得到初步CHAID决策树。

进一步地，所述流量决策树的获得方法，包括:

获取指定量的样本数据作为测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

以已经训练完成的CHAID决策树作为初步CHAID决策树，其中所述已经训练完成的CHAID决策树的训练数据的预测变量及目标变量，与所述样本数据的预测变量及目标变量完全相同；

利用所述测试集的样本数据验证所述初步CHAID决策树；

进一步地，所述根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图的步骤，包括：

若所述分类结果为异常流量，则在预设的地图中的所述异常流量的地理位置采用第一颜色进行标记；

若所述分类结果为正常流量，则在预设的地图中的所述正常流量的地理位置采用第二颜色进行标记，获得所述数据地图。

进一步地，所述若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记的步骤之后，包括：

在指定时间后，获取在所述异常流量的地理位置上发送的第二流量数据；

将所述第二流量数据输入所述流量决策树进行分类；

若所述第二流量的分类结果为异常流量，在预设的地图中的所述异常流量的地理位置上标注特殊形状。

进一步地，所述获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置的步骤，包括：

接收第一流量的访问请求；

对所述第一流量进行分析，以获取所述第一流量的IP地址与所述第一流量的注册信息；

根据所述第一流量的IP地址确定所述第一流量的地理位置，根据所述第一流量的注册信息确定所述第一流量数据的注册时长、访问时长、访问页面数、是否购买过保险、对应用户的性别和对应用户的年龄数据。

本申请提供一种基于决策树的数据地图生成装置，包括：

第一流量数据获取单元，用于获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；

流量决策树分类单元，用于将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；

第一流量分类结果输出单元，用于输出所述第一流量的分类结果；

特殊标记单元，用于根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于决策树的数据地图生成方法、装置、计算机设备和存储介质，通过流量决策树将第一流量进行分类，根所述分类结果，在预设的地图中的生成所述第一流量的地理位置进行特殊标记，获得所述数据地图，使流量分类更准确且流量显示更直观，更能够对异常流量进行预警。

并且，本申请采用了决策树进行流量真伪的分类决策判断，即将流量数据输入决策树，则决策树能综合考虑输入的流量数据的所有流量参数，以进行自动准确分类，在分类决策过程中，是对所有流量参数进行综合分析的过程，能够解决现有技术不能做到几个指标(流量参数)同时进行综合分析的技术问题。

附图说明

图1为本申请一实施例的基于决策树的数据地图生成方法的流程示意图；

图2为本申请一实施例的基于决策树的数据地图生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于决策树的数据地图生成方法，包括以下步骤：

S1、获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；

S2、将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；

S3、输出所述第一流量的分类结果；

S4、根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

如上述步骤S1所述，获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置。所述第一流量数据指第一流量的相关数据，包括：注册时长、访问时长、访问页面数、是否出过单、性别、年龄或者地理位置等等。具体地，例如注册时长(1＝1个月以内；2＝3个月内；3＝6个月内；4＝半年以上)访问时长(1-5s以内；2-6s-10s；3-10s以上)；访问页面数(1-1个页面；2-2、3个页面；3-4个页面以上)；是否出过单(1-是；2-否)；性别(1-男；2-女)；年龄(1-19岁及以下；2-20-35岁；3-36岁-45岁；4-46岁及以上)等等。上述第一流量数据将作为决策树分类时的预测数据，用以预测出所述第一流量的目标数据(是异常流量，还是正常流量)。其中获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置包括服务器接收第一流量的访问请求，对该第一流量进行分析(获得第一流量对应的注册用户的个人信息，第一流量的IP地址等)，从而获得第一流量数据。

如上述步骤S2所述，将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量。其中，决策树是一种机器学习方法,可用于数据分类，本申请用于将流量分类为异常流量或正常流量。以决策树的初始节点为根节点，不再被进一步划分的节点为叶节点，在根节点与叶节点之间的节点为子节点。其中，所述流量决策树可以为任意决策树，例如卡方自动交互检测法(CHAID)、穷举型卡方自动交互检测法(Exhaustive CHAID)、分类和回归树(C&RT)、快速无偏有效统计数法(QUEST)建立的决策树，本实施方式优选采用卡方自动交互检测法建立的CHAID决策树。具体的卡方自动交互检测法为已有技术，在此不再赘述。其中，所述基于流量数据，以及与流量数据关联的流量类别组成的样本数据，包括已有流量数据，以及人工对所述已有流量数据进行人为的分类，所述人为的分类将所述流量数据分类为异常流量或正常流量。

如上述步骤S3所述，输出所述第一流量的分类结果。所述分类结果(即目标数据)为异常流量或者正常流量。据此，可以预测出所述第一流量的目标数据是异常流量或者是正常流量。

如上述步骤S4所述，根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。如前所述，可知第一流量的目标数据(正常流量或者是异常流量)。为了直观地显现数量状态，将所述目标数据直接反应到预设的地图中，从而得到所述数据地图。其中，特征标记可以是颜色标记、形状标记等，用以将正常流量区域与异常流量区域区分开来。

一实施方式中，所述流量决策树的获得方法，包括：

S201、获取指定量的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

S202、将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树；

S203、利用所述测试集的样本数据验证所述初步CHAID决策树；

S204、如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

如上所述，实现了获得所述流量决策树。其中流量数据的预测数据包括：注册时长、访问时长、访问页面数、是否出过单、性别、年龄等等。具体地，例如注册时长(1＝1个月以内；2＝3个月内；3＝6个月内；4＝半年以上)访问时长(1-5s以内；2-6s-10s；3-10s以上)；访问页面数(1-1个页面；2-2、3个页面；3-4个页面以上)；是否出过单(1-是；2-否)；性别(1-男；2-女)；年龄(1-19岁及以下；2-20-35岁；3-36岁-45岁；4-46岁及以上)等等。与流量数据关联的流量类别指通过人为判定为正常流量或者异常流量的流量类别。CHAID决策树模型指采用卡方自动交互检测法CHAID的决策树模型。在此简单介绍CHAID决策树的原理：1、合并组内对决策变量影响差别不显著的组值；2、选取卡方值最大的变量作为树分类变量；3、重复1、2步骤，至不能选取卡方值大于某值或P值不再小于某临界值，或样本小于某数。其中，所述CHAID的决策树模型的建模标准参数例如为树的最大层数为3层、母节点可再分的显著水平为0.05、母节点包含的最小样本数为100、子节点包含的最小样本数为50。采用训练集的样本训练CHAID决策树模型，再用测试集的样本进行验证，若通过，则获得所述流量决策树。

一实施方式中，所述将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树的步骤S202，包括：

S2021、设置所述CHAID决策树模型的建模标准参数，所述建模标准参数包括决策树的最大层数、母节点的可再分的显著水平、母节点包含的最小样本数和子节点包含的最小样本数；

S2022、将训练集的样本数据输入到采用卡方自动交互检测法建立的所述CHAID决策树模型中进行训练，得到初步CHAID决策树。

如上所述，实现了得到初步CHAID决策树。其中设置所述CHAID决策树模型的建模标准参数，才可确定所述CHAID决策树模型。所述建模标准参数包括决策树的最大层数、母节点的可再分的显著水平、母节点包含的最小样本数和子节点包含的最小样本数，例如树的最大层数为3-5层、母节点可再分的显著水平为0.05、母节点包含的最小样本数为100-200、子节点包含的最小样本数为50-100。

一实施方式中，所述流量决策树的获得方法，包括:

S211、获取指定量的样本数据作为测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

S212、以已经训练完成的CHAID决策树作为初步CHAID决策树，其中所述已经训练完成的CHAID决策树的训练数据的预测变量及目标变量，与所述样本数据的预测变量及目标变量完全相同；

S213、利用所述测试集的样本数据验证所述初步CHAID决策树；

S214、如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

如上所述，实现了获得流量决策树。本实施方式采用已经训练完成的CHAID决策树作为初步CHAID决策树，从而免去了再次训练的过程。为了确定已经训练完成的CHAID决策树的确适用，采用预先获取的指定量的样本数据作为测试集，以验证CHAID决策树。当验证通过，即可将所述初步CHAID决策树记为所述流量决策树。

一实施方式中，所述根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图的步骤S4，包括：

S401、若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记；

S402、若所述分类结果为正常流量，则在预设的地图中的生成所述正常流量的地理位置采用第二颜色进行标记。

如上所述，实现了根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记。为了直观地显现数量状态，将所述目标数据直接反应到预设的地图中，从而得到所述数据地图。本实施方式中，采用颜色标记以将正常流量区域与异常流量区域区分开来。其中第一颜色可为深色调例如为红色、黄色或者紫色；第二颜色与第一颜色不同，优选为绿色或者青色。

一实施方式中，所述若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记的步骤S401之后，包括：

S411、在指定时间后，获取在所述生成所述异常流量的地理位置上生成的第二流量数据；

S412、将所述第二流量数据输入所述流量决策树进行分类；

S413、若所述第二流量的分类结果为异常流量，在预设的地图中的所述生成所述异常流量的地理位置上标注特殊形状。

如上所述，实现了标注特殊形状。其中，第二流量数据与被判定为异常流量数据的生成地址相同，即在同一地址的不同时间，生成了异常数据，据此有必要对此地址着重关注。采用标注特殊形状的方法，在所述地理位置上进行标注特殊形状，从而更为醒目。进一步地，可对标注有特殊形状的地理位置上生成的流量，均标识为异常流量，并执行不采信措辞。所述不采信措辞例如为不允许注册、不允许登陆、不允许购买保险单等。其中，特殊形状例如为三角形、矩形、圆形、五角星形或者六角星形。

一实施方式中，所述获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置的步骤S1，包括：

S101、接收第一流量的访问请求；

S102、对所述第一流量进行分析，以获取所述第一流量的IP地址与所述第一流量的注册信息；

S103、根据所述第一流量的IP地址确定所述第一流量的地理位置，根据所述第一流量的注册信息确定所述第一流量数据的注册时长、访问时长、访问页面数、是否购买过保险、对应用户的性别和对应用户的年龄数据。

如上所述，实现了获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置。其中第一流量数据包括注册时长、访问时长、访问页面数、是否购买过保险、性别、年龄和地址位置数据。其中地址位置数据可作为在预设的地图上进行标识的基础。将除了地址位置数据的其他第一流量数据，或者以包括地址位置数据在内的第一流量数据，作为第一流量的预测数据，用于输入所述预设的流量决策树，以预测第一流量数据是否为异常流量(目标数据)。进一步地，在生成的数据地图中，所述第一流量数据的地理位置上标注有例如包括所述第一流量数据的具体信息，例如注册时长、访问时长、访问页面数、是否购买过保险、对应用户的性别和对应用户的年龄数据等。用户在所述数据地图中获知所述第一流量数据的具体信息的方式可以为任意方式，例如点击所述第一流量数据的地理位置，从而展示出(可以以窗口形式展示出)第一流量数据的具体信息；鼠标划过所述第一流量数据的地理位置，从而展示出(可以以窗口形式展示出)第一流量数据的具体信息。

本申请的基于决策树的数据地图生成方法，通过流量决策树将第一流量进行分类，根所述分类结果，在预设的地图中的生成所述第一流量的地理位置进行特殊标记，获得所述数据地图，使流量分类更准确且流量显示更直观，更能够对异常流量进行预警。

参照图2，本申请实施例提供一种基于决策树的数据地图生成装置，包括：

第一流量数据获取单元10，用于获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；

流量决策树分类单元20，用于将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；

第一流量分类结果输出单元30，用于输出所述第一流量的分类结果；

特殊标记单元40，用于根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

如上述单元10所述，获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置。所述第一流量数据指第一流量的相关数据，包括：注册时长、访问时长、访问页面数、是否出过单、性别、年龄或者地理位置等等。具体地，例如注册时长(1＝1个月以内；2＝3个月内；3＝6个月内；4＝半年以上)访问时长(1-5s以内；2-6s-10s；3-10s以上)；访问页面数(1-1个页面；2-2、3个页面；3-4个页面以上)；是否出过单(1-是；2-否)；性别(1-男；2-女)；年龄(1-19岁及以下；2-20-35岁；3-36岁-45岁；4-46岁及以上)等等。上述第一流量数据将作为决策树分类时的预测数据，用以预测出所述第一流量的目标数据(是异常流量，还是正常流量)。其中获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置包括服务器接收第一流量的访问请求，对该第一流量进行分析(获得第一流量对应的注册用户的个人信息，第一流量的IP地址等)，从而获得第一流量数据。

如上述单元20所述，将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量。其中，决策树是一种机器学习方法,可用于数据分类，本申请用于将流量分类为异常流量或正常流量。以决策树的初始节点为根节点，不再被进一步划分的节点为叶节点，在根节点与叶节点之间的节点为子节点。其中，所述流量决策树可以为任意决策树，例如卡方自动交互检测法(CHAID)、穷举型卡方自动交互检测法(Exhaustive CHAID)、分类和回归树(C&RT)、快速无偏有效统计数法(QUEST)建立的决策树，本实施方式优选采用卡方自动交互检测法建立的CHAID决策树。具体的卡方自动交互检测法为已有技术，在此不再赘述。其中，所述基于流量数据，以及与流量数据关联的流量类别组成的样本数据，包括已有流量数据，以及人工对所述已有流量数据进行人为的分类，所述人为的分类将所述流量数据分类为异常流量或正常流量。

如上述单元30所述，输出所述第一流量的分类结果。所述分类结果(即目标数据)为异常流量或者正常流量。据此，可以预测出所述第一流量的目标数据是异常流量或者是正常流量。

如上述单元40所述，根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。如前所述，可知第一流量的目标数据(正常流量或者是异常流量)。为了直观地显现数量状态，将所述目标数据直接反应到预设的地图中，从而得到所述数据地图。其中，特征标记可以是颜色标记、形状标记等，用以将正常流量区域与异常流量区域区分开来。

一实施方式中，所述基于决策树的数据地图生成装置包括流量决策树的获得单元，所述流量决策树的获得单元，包括：

指定量的样本数据获得子单元，用于获取指定量的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

初步CHAID决策树获得子单元，用于将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树；

验证子单元，用于利用所述测试集的样本数据验证所述初步CHAID决策树；

流量决策树获得子单元，用于如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

一实施方式中，所述初步CHAID决策树获得子单元，包括：

建模标准参数设置模块，用于设置所述CHAID决策树模型的建模标准参数，所述建模标准参数包括决策树的最大层数、母节点的可再分的显著水平、母节点包含的最小样本数和子节点包含的最小样本数；

初步CHAID决策树获得模块，用于将训练集的样本数据输入到采用卡方自动交互检测法建立的所述CHAID决策树模型中进行训练，得到初步CHAID决策树。

测试集获取子单元，用于获取指定量的样本数据作为测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；

初步CHAID决策树获取子单元，用于以已经训练完成的CHAID决策树作为初步CHAID决策树，其中所述已经训练完成的CHAID决策树的训练数据的预测变量及目标变量，与所述样本数据的预测变量及目标变量完全相同；

初步CHAID决策树验证子单元，用于利用所述测试集的样本数据验证所述初步CHAID决策树；

流量决策树通过子单元，用于如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

一实施方式中，所述特殊标记单元40，包括：

第一颜色标记子单元，用于若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记；

第二颜色标记子单元，用于若所述分类结果为正常流量，则在预设的地图中的生成所述正常流量的地理位置采用第二颜色进行标记。

一实施方式中，所述基于决策树的数据地图生成装置，包括：

第二流量数据获取单元，用于在指定时间后，获取在所述生成所述异常流量的地理位置上生成的第二流量数据；

第二流量数据分类单元，用于将所述第二流量数据输入所述流量决策树进行分类；

第二流量标注单元，用于若所述第二流量的分类结果为异常流量，在预设的地图中的所述生成所述异常流量的地理位置上标注特殊形状。

一实施方式中，所述第一流量数据获取单元10，包括：

第一流量访问请求接收子单元，用于接收第一流量的访问请求；

第一流量分析子单元，用于对所述第一流量进行分析，以获取所述第一流量的IP地址与所述第一流量的注册信息；

第一流量数据获取子单元，用于根据所述第一流量的IP地址确定所述第一流量的地理位置，根据所述第一流量的注册信息确定所述第一流量数据的注册时长、访问时长、访问页面数、是否购买过保险、对应用户的性别和对应用户的年龄数据。

本申请的基于决策树的数据地图生成装置，通过流量决策树将第一流量进行分类，根所述分类结果，在预设的地图中的生成所述第一流量的地理位置进行特殊标记，获得所述数据地图，使流量分类更准确且流量显示更直观，更能够对异常流量进行预警。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于决策树的数据地图生成方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于决策树的数据地图生成方法。

上述处理器执行上述基于决策树的数据地图生成方法，包括以下步骤：获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；输出所述第一流量的分类结果；根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

在一个实施方式中，所述流量决策树的获得方法，包括：获取指定量的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树；利用所述测试集的样本数据验证所述初步CHAID决策树；如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

在一个实施方式中，所述将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树的步骤，包括：设置所述CHAID决策树模型的建模标准参数，所述建模标准参数包括决策树的最大层数、母节点的可再分的显著水平、母节点包含的最小样本数和子节点包含的最小样本数；将训练集的样本数据输入到采用卡方自动交互检测法建立的所述CHAID决策树模型中进行训练，得到初步CHAID决策树。

在一个实施方式中，所述流量决策树的获得方法，包括:获取指定量的样本数据作为测试集；其中，所述样本数据包括流量数据，以及与流量数据关联的流量类别组成的样本数据；以已经训练完成的CHAID决策树作为初步CHAID决策树，其中所述已经训练完成的CHAID决策树的训练数据的预测变量及目标变量，与所述样本数据的预测变量及目标变量完全相同；利用所述测试集的样本数据验证所述初步CHAID决策树；如果验证通过，则将所述初步CHAID决策树记为所述流量决策树。

在一个实施方式中，所述根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图的步骤，包括：若所述分类结果为异常流量，则在预设的地图中的所述异常流量的地理位置采用第一颜色进行标记；若所述分类结果为正常流量，则在预设的地图中的所述正常流量的地理位置采用第二颜色进行标记，获得所述数据地图。

在一个实施方式中，所述若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记的步骤之后，包括：在指定时间后，获取在所述异常流量的地理位置上发送的第二流量数据；将所述第二流量数据输入所述流量决策树进行分类；若所述第二流量的分类结果为异常流量，在预设的地图中的所述异常流量的地理位置上标注特殊形状。

在一个实施方式中，所述获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置的步骤S1，包括：接收第一流量的访问请求；对所述第一流量进行分析，以获取所述第一流量的IP地址与所述第一流量的注册信息；根据所述第一流量的IP地址确定所述第一流量的地理位置，根据所述第一流量的注册信息确定所述第一流量数据的注册时长、访问时长、访问页面数、是否购买过保险、对应用户的性别和对应用户的年龄数据。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，通过流量决策树将第一流量进行分类，根所述分类结果，在预设的地图中的生成所述第一流量的地理位置进行特殊标记，获得所述数据地图，使流量分类更准确且流量显示更直观，更能够对异常流量进行预警。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于决策树的数据地图生成方法，包括以下步骤：获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置；将所述第一流量数据输入预设的流量决策树进行分类，其中所述流量决策树基于流量数据，以及与流量数据关联的流量类别组成的样本数据训练而成，所述流量类别包括异常流量或正常流量；输出所述第一流量的分类结果；根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图。

本申请的计算机可读存储介质，通过流量决策树将第一流量进行分类，根所述分类结果，在预设的地图中的生成所述第一流量的地理位置进行特殊标记，获得所述数据地图，使流量分类更准确且流量显示更直观，更能够对异常流量进行预警。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于决策树的数据地图生成方法，其特征在于，包括：

输出所述第一流量的分类结果；

2.根据权利要求1所述的基于决策树的数据地图生成方法，其特征在于，所述流量决策树的获得方法，包括：

利用所述测试集的样本数据验证所述初步CHAID决策树；

3.根据权利要求2所述的基于决策树的数据地图生成方法，其特征在于，所述将训练集的样本数据输入到CHAID决策树模型中进行训练，得到初步CHAID决策树的步骤，包括：

4.根据权利要求1所述的基于决策树的数据地图生成方法，其特征在于，所述流量决策树的获得方法，包括:

利用所述测试集的样本数据验证所述初步CHAID决策树；

5.根据权利要求1所述的基于决策树的数据地图生成方法，其特征在于，所述根据所述分类结果，在预设的地图中的所述第一流量的地理位置处进行特殊标记，获得所述数据地图的步骤，包括：

6.根据权利要求5所述的基于决策树的数据地图生成方法，其特征在于，所述若所述分类结果为异常流量，则在预设的地图中的生成所述异常流量的地理位置采用第一颜色进行标记的步骤之后，还包括：

将所述第二流量数据输入所述流量决策树进行分类；

7.根据权利要求1所述的基于决策树的数据地图生成方法，其特征在于，所述获取第一流量数据，所述第一流量数据包括所述第一流量的地理位置的步骤，包括：

接收第一流量的访问请求；

8.一种基于决策树的数据地图生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。