CN110288467B

CN110288467B - 数据挖掘方法、装置、电子设备及存储介质

Info

Publication number: CN110288467B
Application number: CN201910629847.9A
Authority: CN
Inventors: 刘卉; 王秋施; 贾怡; 巫金凯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-19
Filing date: 2019-07-12
Publication date: 2023-07-25
Anticipated expiration: 2039-07-12
Also published as: CN110288467A

Abstract

本发明涉及数据分析技术领域，揭示了一种数据挖掘方法、装置、电子设备及存储介质。所述方法包括：将样本数据转换为业务网络关系图，并计算得到样本的第一概率；对符合预定标准的标准样本数据进行处理，得到标准样本模型，并使用标准样本模型处理样本数据得到样本的第二概率；结合第一概率和第二概率计算得到样本符合预定标准的最终概率。此方法下，通过构建样本的业务网络关系图，可跨业务线分析得到样本符合预定标准的第一概率，而不局限于在垂直领域中检测样本的行为。此外，还通过构建标准样本模型处理样本数据，得到样本符合预定标准的第二概率；通过分析第一概率和第二概率，可及时得到该样本符合预定标准且准确的最终概率。

Description

数据挖掘方法、装置、电子设备及存储介质

技术领域

本发明涉及数据分析技术领域，特别涉及一种数据挖掘方法、装置、电子设备及存储介质。

背景技术

为了能够预测样本行为，从而及时地向样本用户提供对应的服务，通常会在某个垂直领域中由资深人士根据样本用户的历史信息挖掘用户的样本特征，以建立样本行为与样本特征相对应的样本数据库，实现通过分析样本特征来预测样本用户的行为。然而，上述样本特征挖掘方法只适用于对特定垂直领域中的用户进行分析，在面对跨业务线的用户时，由于不同垂直领域的用户信息同步不及时，将造成对样本特征的挖掘滞后，对样本行为的预测失准。

发明内容

为了解决传统数据挖掘方法存在的具有滞后性，对样本行为预测失准的问题，本发明提供了一种数据挖掘方法、装置、电子设备及存储介质。

本发明实施例第一方面公开了一种数据挖掘方法，所述方法包括：

将样本数据转换为图数据，得到所述样本的业务网络关系图，所述业务网络关系图包括所述样本数据对应的各个业务节点与信息节点，存在业务联系的任意两个所述节点间使用边进行连接；

提取在预设维度内与所述样本对应的信息节点存在业务联系的关联业务节点和关联信息节点；

根据所述关联业务节点和关联信息节点计算所述样本对应的信息节点的关联数，并根据计算得到的所述关联数计算所述样本符合所述预定标准的第一概率；

采集跨业务线的符合预定标准的标准样本数据，并基于所述符合预定标准的标准样本数据构建训练数据集合；

对所述训练数据集合进行训练，得到标准样本模型；

使用所述标准样本模型对所述样本数据进行处理，得到所述样本符合所述预定标准的第二概率；

结合所述第一概率和所述第二概率，得到所述样本符合所述预定标准的最终概率。

本发明实施例第二方面公开了一种数据挖掘装置，所述数据挖掘装置包括：

转换单元，用于将样本数据转换为图数据，得到所述样本的业务网络关系图；

节点提取单元，用于提取在预设维度内与所述样本对应的信息节点存在业务联系的关联业务节点和关联信息节点；

第一概率单元，用于根据所述关联业务节点和关联信息节点计算所述样本对应的信息节点的关联数，并根据所述样本对应的信息节点的关联数计算得到所述样本符合所述预定标准的第一概率；

采集单元，用于采集跨业务线的符合所述预定标准的标准样本数据，并基于所述符合所述预定标准的标准样本数据构建训练数据集合；

训练单元，用于对所述训练数据集合进行训练，得到标准样本模型；

第二概率单元，用于使用所述标准样本模型对所述样本的数据进行处理，得到所述样本符合所述预定标准的第二概率；

最终概率单元，用于结合所述第一概率和所述第二概率，得到所述样本符合所述预定标准的最终概率。

本发明实施例第三方面公开了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现本发明实施例第一方面公开的一种数据挖掘方法。

本发明实施例第四方面公开了一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种数据挖掘方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明所提供的一种数据挖掘方法包括如下步骤：将样本数据转换为图数据，得到样本的业务网络关系图，提取在预设维度内与样本对应的信息节点存在业务联系的关联业务节点和关联信息节点，根据关联业务节点和关联信息节点计算样本对应的信息节点的关联数，并根据计算得到的关联数计算样本符合预定标准的第一概率；此外，还采集跨业务线的符合预定标准的标准样本数据，并基于符合预定标准的标准样本数据构建训练数据集合，对训练数据集合进行训练，得到标准样本模型，使用标准样本模型对样本数据进行处理，得到样本符合预定标准的第二概率，最终结合第一概率和第二概率，得到样本符合所述预定标准的最终概率。

此方法下，通过构建样本的业务网络关系图，可跨业务线分析得到样本符合预定标准的第一概率，而不局限于在垂直领域中检测样本的行为。此外，还通过样本画像构建标准样本模型并处理样本数据，得到样本符合预定标准的第二概率，通过分析第一概率和第二概率，可得到该样本符合预定标准的最终概率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明实施例公开的一种数据挖掘装置的结构示意图；

图2是本发明实施例公开的一种数据挖掘方法的流程图；

图3是本发明实施例公开的另一种数据挖掘方法的流程图；

图4是本发明实施例公开的一种数据挖掘装置的结构示意图；

图5是本发明实施例公开的另一种数据挖掘装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例一

本发明的实施环境可以是电子设备，例如智能手机、平板电脑、台式电脑。对于电子设备获取跨业务线符合预定标准的样本数据，其中的跨业务线可以是指同一用户所申请的不同类别的信用贷款；符合预定标准的样本数据可以是指在申请信用贷款时进行欺诈行为的黑名单样本数据。

图1是本发明实施例公开的一种数据挖掘装置的结构示意图。数据挖掘装置100可以是上述电子设备。如图1所示，数据挖掘装置100可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件110，传感器组件114以及通信组件116。

处理组件102通常控制数据挖掘装置100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，用于便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，用于以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在数据挖掘装置100的操作。这些数据的示例包括用于在数据挖掘装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器104中还存储有一个或多个模块，用于该一个或多个模块被配置成由该一个或多个处理器118执行，以完成如下所示方法中的全部或者部分步骤。

电源组件106为数据挖掘装置100的各种组件提供电力。电源组件106可以包括电源管理系统，一个或多个电源，及其他与为数据挖掘装置100生成、管理和分配电力相关联的组件。

多媒体组件108包括在数据挖掘装置100和样本之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自样本的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件110被配置为输出和/或输入音频信号。例如，音频组件110包括一个麦克风(Microphone，简称MIC)，当数据挖掘装置100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中，音频组件110还包括一个扬声器，用于输出音频信号。

传感器组件114包括一个或多个传感器，用于为数据挖掘装置100提供各个方面的状态评估。例如，传感器组件114可以检测到数据挖掘装置100的打开/关闭状态，组件的相对定位，传感器组件114还可以检测数据挖掘装置100或数据挖掘装置100一个组件的位置改变以及数据挖掘装置100的温度变化。在一些实施例中，该传感器组件114还可以包括磁传感器，压力传感器或温度传感器。

通信组件116被配置为便于数据挖掘装置100和其他设备之间有线或无线方式的通信。数据挖掘装置100可以接入基于通信标准的无线网络，如WiFi(Wireless-Fidelity，无线保真)。在本发明实施例中，通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中，通信组件116还包括近场通信(Near FieldCommunication，简称NFC)模块，用于以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(InfraredDataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，数据挖掘装置100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

实施例二

请参阅图2，图2是本发明实施例公开的一种数据挖掘方法的流程示意图。如图2所示该数据挖掘方法可以包括以下步骤：

201、将样本数据转换为图数据，得到样本的业务网络关系图。

本发明实施例中，由于采用跨业务线的方式对样本进行鉴别，所以对用于本步骤的样本数据有具体要求，例如需包括样本办理至少两个业务时所提供的样本数据，才能对样本进行跨业务线样本特征挖掘。

本发明实施例中，业务网络关系图包括样本数据对应的各个业务节点与信息节点，存在业务联系的任意两个节点间使用边进行连接，例如，在信用贷款行业中，信息节点可以体现为用户的个人资料、用户的手机号码及用户的设备识别码等与申请贷款业务时所提交的用户数据；业务节点可以体现为用户所申请的贷款业务。而且，上述业务节点和信息节点对应的数据可以从不同的数据源(例如不同的公司)获得。

作为一种可选的实施方式，将样本数据转换为图数据，得到样本的业务网络关系图，可以通过以下方式实现：提取样本数据中的各项详细信息，将各项详细信息分别设为信息节点或业务节点，并将存在业务联系的任意两个所述节点间使用边进行连接，例如，提取样本数据的详细信息得到如下信息节点：A(用户姓名)、B(用户设备的识别码)、C(用户手机号码)，以及如下业务节点：Z(用户所申请的贷款Z)、Y(用户所申请的贷款Y)、X(用户所申请的贷款X)，其中，该用户在申请X(用户所申请的贷款X)时使用的是A(用户姓名)和B(用户设备的识别码)，则将A与X、B与X用边进行连接，参考上述连接方法，可将从样本数据中提取到的信息节点和业务节点两两之间用边进行连接，从而得到样本的业务网络关系图。可见，通过实施本实施方式，可通过构建业务网络关系图将样本的每项详细信息清晰地列出，且通过边将详细信息间的关联体现出来。

202、提取在预设维度内与样本对应的信息节点存在业务联系的关联业务节点和关联信息节点。

本发明实施例中，由于与样本对应的信息节点存在业务联系的关联业务节点和关联信息节点，其自身也可能存在不少于一个的关联业务节点或关联信息节点，在不对维度进行限定的情况下，业务网络关系图的范围将会变得不可控，所以需要设置预设维度，以将业务网络关系图控制在预设维度设定的范围内，避免产生大量的无效的关联业务节点或关联信息节点。

203、根据关联业务节点和关联信息节点计算样本对应的信息节点的关联数，并根据计算得到的关联数计算样本符合预定标准的第一概率。

本发明实施例中，关联数是各节点在业务网络关系图中与多个业务或者多个信息关联度高低的体现，可直观体现用户的行为，例如，用户对应的信息节点的关联数可以体现该用户的行为特征，当一个用户对应的信息节点的关联数较高时，说明其可能使用了多个身份、多个地址或者多个号码申请了多个业务，上述行为可用于掩盖其真实身份，则根据信用贷款行业的经验，该用户进行欺诈行为的概率较高。

作为一种可选的实施方式，根据业务网络关系图确定在预设维度内与样本对应的信息节点存在业务联系的各个关联业务节点和关联信息节点的维度；根据各个关联业务节点和关联信息节点的维度确定各个关联业务节点和关联信息节点的权重，以使维度低的关联信息节点的权重高于维度高的关联信息节点的权重，以及，使维度低的关联业务节点的权重高于维度高的关联业务节点的权重，可以通过以下方式实现：

在业务网络关系图上选定用户姓名对应的信息节点，计算其余各个与用户姓名对应的信息节点存在关联的信息节点与业务节点的维度，以步骤201所述的业务网络关系图为例，A作为与用户姓名对应的信息节点，由于X与A直接通过边进行连接，则设X的维度为1，此外，由于B与X通过边进行连接，而X与A直接通过边进行连接，则设B的维度为2；当某个节点可以有多个维度，如A也直接通过边与B连接，那么B维度既可以为1也可以为2，此时，选取该节点最小的维度设为该节点的维度，则B的维度为1，以此类推，可得到业务网络关系图上各个节点相对于A的维度。可见，通过对业务网络关系图上的各节点以维度进行标识，可以更明晰地了解各节点与用户姓名对应的信息节点的关联度。

可以理解，各节点与用户姓名对应的信息节点之间的关联可以拓展得很远，假设A与D为居住在同一间宿舍的两个用户对应的用户姓名，A与D可能由于设备使用同一局域网W(该局域网IP地址)的原因，而形成A与B、B与W、W与E(D的设备)、E与D的连接，此时，D相对于A的维度为4，然而在现实中，A与D的经济互相独立，在贷款行业的业务信息关系图上不应具有连接关系，所以，可采取设立预设维度的方法，如将预设维度设为3，则维度大于3的信息节点和业务节点将被淘汰，从而将维度过高或无关联的信息淘汰掉，可只在业务网络关系图中留存具有代表性的关联信息节点和关联业务节点。

在获取到关联信息节点和关联业务节点的维度之后，按照各个节点的维度高低为其设定权重，维度低的节点更能体现用户符合预定标准的行为，所以将给维度低的节点设定比维度高的节点更高的权重，可依据专家经验，为每个不同维度设立不同的权重，并使用以下公式计算各个节点相对与用户姓名对应的信息节点的关联数：

其中，上述公式采用n个预设维度，ω₁、……、ω_n是n个预设维度所对应的权重值，x₁、……、x_n是各个节点的维度值，y₁、……、y_n是与用户姓名对应的信息节点的维度值，在本发明实施例中默认为0，d为与用户姓名对应的信息节点的关联数。

在得到用户姓名对应的信息节点的关联数后，将根据用户对应的信息节点的关联数计算得到用户的第一概率，如将A的关联数G与预设关联数H相除，可得到A对应用户的第一概率P(A)＝G/H。

可见，通过实施本发明实施例，可根据用户的业务网络关系图跨业务线初步地分析得到用户符合预定标准的第一概率，对该用户的可能进行的用户行为进行了解。

204、采集跨业务线的符合预定标准的标准样本数据，并基于标准样本数据构建训练数据集合。

本发明实施例中，假设预定标准指信用贷款行业中具有欺诈行为历史的黑名单样本，则训练数据集合可包括多个黑名单样本特征向量，每个黑名单样本特征向量对应一个黑名单样本。

作为一种可选的实施方式，采集跨业务线的符合预定标准的标准样本数据，并基于符合预定标准的标准样本数据构建训练数据集合，可以通过以下方式实现：根据符合预定标准的黑名单标准样本数据分析得到黑名单样本的特征指标，特征指标包括所述黑名单样本的个人信息、设备指纹和行为数据；根据特征指标构建每个黑名单样本对应的黑名单样本特征向量；以黑名单样本特征向量组成训练数据集合，具体地，根据黑名单标准样本数据可提取到每个黑名单样本的每项详细信息，如黑名单样本的年龄、学历、工作及年均申请贷款业务数量等详细信息，上述详细信息即为该黑名单样本的特征指标，将该黑名单样本的特征指标按照特定顺序进行排列，可构成该黑名单样本的特征向量，如某个用户的特征向量可以为(30岁，本科，无业，年申请贷款业务4次，居住于广州市)，将黑名单标准样本数据中的每个黑名单样本数据按照上述方法处理成对应的黑名单样本的特征向量，将黑名单样本的特征向量按照标准格式进行打包，即可得到训练数据集合。通过实施本实施方式，可将零散杂乱的标准样本数据整理成为标准格式的训练数据集合。

205、对训练数据集合进行训练，得到标准样本模型。

本发明实施例中，将使用k-means聚类算法对数据量庞大的训练数据集合进行训练，从而将由步骤204得到的训练数据集合中对应的各个黑名单样本划分在多个聚类集合中，每个聚类集合中的黑名单样本特征向量都具有较高的相似度，可理解为每个聚类集合中对应的样本，都是具有相似行为特征且进行了相似欺诈行为的黑名单样本。

可以理解，为了将训练数据集合划分为若干个合理的聚类集合，依靠人工经验并不适用，可采用更为科学合理的方法来协助构建聚类集合。

作为一种可选的实施方式，在根据符合预定标准的标准样本数据分析得到符合预定标准的样本的特征指标之后，以及在根据特征指标构建每个符合预定标准的样本对应的样本特征向量之前，还将根据专家规则计算各个特征指标的卡方值，将小于预设边限的卡方值对应的特征指标设为目标特征指标；并根据目标特征指标构建每个符合预定标准的样本对应的样本特征向量。具体地，根据专家规则计算黑名单标准样本数据中的各个特征指标的卡方值，特征指标的卡方值越小，说明该特征指标在黑名单标准样本数据中的贡献度越大，即该特征指标与黑名单样本的关联紧密，通过筛选出小于预设边限的卡方值对应的目标特征指标，可将目标特征指标构建黑名单样本对应的若干黑名单样本特征向量。可见，通过对黑名单样本的特征指标求取卡方值，可在对训练数据集合进行训练前筛选出若干具备代表性的黑名单样本特征向量。

作为一种可选的实施方式，对训练数据集合进行训练，得到标准模型，可以通过以下方式实现：在将上述若干具备代表性的黑名单样本特征向量设为聚类中心点后，使用k-means聚类算法对训练数据集合进行训练，将得到以聚类中心点为中心的若干个聚类集合，用每个聚类集合中的黑名单样本特征向量的数量除以训练数据集合中包含的总的黑名单样本特征向量，可得到每个聚类集合所代表的样本的欺诈概率，每个黑名单样本的欺诈概率即为其所在聚类集合所代表的样本的欺诈概率。可见，使用k-means聚类算法可对训练数据集合进行良好的聚类，得出每类黑名单样本的欺诈概率。

206、使用标准样本模型对样本数据进行处理，得到样本符合预定标准的第二概率。

本发明实施例中，先将样本的样本数据整理成标准样本模型所能识别的样本特征向量并输入标准样本模型，可鉴别该样本特征向量是否符合预定标准，并将符合预定标准的样本特征向量聚类到某个聚类集合中，从而将该聚类集合所代表的样本符合预定标准的概率，设为该样本的第二概率。可见，通过分析样本画像，构建标准样本模型，可方便地对样本的行为进行鉴别。

207、结合第一概率和第二概率，得到样本符合预定标准的最终概率。

本发明实施例中，步骤202获取到用户的第一概率，步骤205获取到用户的第二概率，其中，第一概率基于用户的关联行为得到，揭示了用户跨业务线的行为，第二概率则是基于以往的黑名单用户画像构造而成的标准用户模型计算得到，其概率精准，但是受限于黑用户名单的历史局限性，在面对新型欺诈行为时表现不佳，所以，结合上述第一概率和第二概率，可准确地衡量某个新用户进行欺诈行为的最终概率。

作为一种可选的实施方式，结合第一概率和第二概率，得到用户符合预定标准的最终概率，可以通过以下方式实现：根据用户在业务网络关系图中的关联数，确定第一概率的权重；根据用户的目标特征指标的卡方值与预设边限的比值，确定第二概率的权重；结合第一概率的权重和第二概率的权重，可对第一概率和第二概率进行加权平均计算，得到用户符合预定标准的最终概率，具体地，先获取该用户在业务网络关系图中的关联数，计算其与预设关联数的比值，将其确定为第一概率的权重，再计算该用户各个目标特征指标在标准用户模型中的卡方值，并计算其与预设边限的比值，将其确定为第二概率的权重，根据第一概率的权重和第二概率的权重，对第一概率和第二概率进行加权平均计算，得到的结果即为该用户符合预定标准的最终概率。可见，加权平均计算较好地兼顾了两个概率的考量因素，得到的最终概率更为准确。

可见，实施图2所描述的方法，通过构建样本的业务网络关系图，可跨业务线分析得到样本符合预定标准的第一概率，而不局限于在垂直领域中检测样本的行为。此外，还通过样本画像构建标准样本模型并处理样本数据，得到样本符合预定标准的第二概率，通过分析第一概率和第二概率，可及时得到该样本符合预定标准且准确的最终概率。

实施例三

请参阅图3，图3是本发明实施例公开的另一种数据挖掘方法的流程示意图。如图3所示，该数据挖掘方法可以包括以下步骤：

301、将办理至少两个业务的样本所产生的样本数据转换为图数据，得到样本的业务网络关系图。

302、提取在预设维度内与样本对应的信息节点存在业务联系的关联业务节点和关联信息节点。

303、根据关联业务节点和关联信息节点计算样本对应的信息节点的关联数，并根据计算得到的关联数计算样本符合预定标准的第一概率。

304、显示业务网络关系图中的各个业务节点和/或信息节点，以及显示业务网络关系图中的各个业务节点和/或信息节点的关联数，从而在业务节点或信息节点的关联数超过预设关联数时，确定业务节点或信息节点符合预定标准。

本发明实施例中，将业务网络关系图在终端设备的显示屏上进行显示，例如可将各个信息节点显示为蓝色的长方形边框，并在长方形边框中显示该信息节点所代表的详细信息及该信息节点的关联数，各个业务节点显示为红色的圆形边框，并在圆形边框显示该业务节点所代表的详细信息及该业务节点的关联数，管理人员可根据需求调整该业务网络关系图的预设维度，此外，管理人员在发现某个节点的关联数超过预设关联数时，可确定该节点符合预定标准。可见，通过可视化的方式，管理人员可直观地发现数据难以体现出来的样本行为。

进一步地，在显示业务网络关系图中的各个业务节点和/或信息节点的关联数，在业务节点或信息节点的关联数超过预设关联数时，确定业务节点或信息节点符合预定标准之后，还可提取符合预定标准的业务节点或信息节点所对应的目标样本的信息，在业务网络关系图中查找与目标样本存在关联关系的潜在目标样本，当检测潜在目标样本的业务申请时，对潜在目标样本的业务申请执行与对目标样本的业务申请所执行的操作相同的操作。具体地，信用贷款领域的管理人员在通过可视化的方式查出欺诈行为后，还可以将涉及欺诈行为业务网络关系图的预设维度调高，得到更多的与涉嫌欺诈的节点相关联的节点，从而在业务网络关系图上查找与涉嫌欺诈的节点存在关联性的多个节点，将上述节点对应的样本设为潜在目标样本，以便在潜在目标样本提交业务申请时，拒绝其业务申请。可见，通过查找出与欺诈样本存在关联关系的潜在欺诈样本，可高效率地将上述潜在欺诈样本列入黑名单，减少了后续的鉴别工作。

305、采集跨业务线的符合预定标准的标准样本数据，并基于标准样本数据构建训练数据集合。

306、对训练数据集合进行训练，得到标准样本模型。

307、使用标准样本模型对样本数据进行处理，得到样本符合预定标准的第二概率。

308、结合第一概率和第二概率，得到样本符合预定标准的最终概率。

可见，实施图3所描述的方法，管理人员可通过可视化的方式查找符合预定标准的样本，并进一步挖掘出与目标样本相关联的潜在目标样本，加快了对样本的鉴别效率，方便了管理人员的工作。

实施例四

请参阅图4，图4是本发明实施例公开的一种数据挖掘装置的结构示意图。如图4所示，该数据挖掘装置可以包括：转换单元401、节点提取单元402、第一概率单元403、采集单元404、训练单元405、第二概率单元406以及最终概率单元407，其中，

转换单元401，用于将样本数据转换为图数据，得到样本的业务网络关系图。

节点提取单元402，用于提取在预设维度内与样本对应的信息节点存在业务联系的关联业务节点和关联信息节点；

第一概率单元403，用于根据关联业务节点和关联信息节点计算样本对应的信息节点的关联数，并根据样本对应的信息节点的关联数计算得到样本符合预定标准的第一概率；

采集单元404，用于采集跨业务线的符合预定标准的标准样本数据，并基于符合预定标准的标准样本数据构建训练数据集合；

训练单元405，用于对训练数据集合进行训练，得到标准样本模型；

第二概率单元406，用于使用标准样本模型对样本的数据进行处理，得到样本符合预定标准的第二概率；

最终概率单元407，用于结合第一概率和第二概率，得到样本符合预定标准的最终概率。

本发明实施例中，第一概率单元403根据转换单元401及节点提取单元402所提供的信息计算得到样本符合预定标准的第一概率，第二概率单元406根通过训练单元405所构建的标准样本模型计算得到样本符合预定标准的第二概率，从而最终概率单元407结合第一概率和第二概率，计算得到样本符合预定标准的最终概率。

作为一种可选的实施方式，转换单元401将样本数据转换为图数据，得到样本的业务网络关系图，可以通过以下方式实现：提取样本数据中的各项详细信息，将各项详细信息分别设为信息节点或业务节点，并将存在业务联系的任意两个所述节点间使用边进行连接，例如，提取样本数据的详细信息得到如下信息节点：A(用户姓名)、B(用户设备的识别码)、C(用户手机号码)，以及如下业务节点：Z(用户所申请的贷款Z)、Y(用户所申请的贷款Y)、X(用户所申请的贷款X)，其中，该用户在申请X(用户所申请的贷款X)时使用的是A(用户姓名)和B(用户设备的识别码)，则将A与X、B与X用边进行连接，参考上述连接方法，可将从用户数据中提取到的信息节点和业务节点两两之间用边进行连接，从而得到用户的业务网络关系图。可见，通过实施本实施方式，可通过构建业务网络关系图将样本的每项详细信息清晰地列出，且通过边将详细信息间的关联体现出来。

作为一种可选的实施方式，第一概率单元403根据业务网络关系图确定在预设维度内与样本对应的信息节点存在业务联系的各个关联业务节点和关联信息节点的维度；根据各个关联业务节点和关联信息节点的维度确定各个关联业务节点和关联信息节点的权重，以使维度低的关联信息节点的权重高于维度高的关联信息节点的权重，以及，使维度低的关联业务节点的权重高于维度高的关联业务节点的权重，可以通过以下方式实现：

第一概率单元403在业务网络关系图上选定用户姓名对应的信息节点，计算其余各个与用户姓名对应的信息节点存在关联的信息节点与业务节点的维度，以上述转换单元401所转换得到的业务网络关系图为例，A作为与用户姓名对应的信息节点，由于X与A直接通过边进行连接，则设X的维度为1，此外，由于B与X通过边进行连接，而X与A直接通过边进行连接，则设B的维度为2；当某个节点可以有多个维度，如A也直接通过边与B连接，那么B维度既可以为1也可以为2，此时，选取该节点最小的维度设为该节点的维度，则B的维度为1，以此类推，可得到业务网络关系图上各个节点相对于A的维度。可见，通过对业务网络关系图上的各节点以维度进行标识，可以更明晰地了解各节点与用户姓名对应的信息节点的关联度。

第一概率单元403在获取到关联信息节点和关联业务节点的维度之后，按照各个节点的维度高低为其设定权重，维度低的节点更能体现用户的欺诈行为，所以将给维度低的节点设定比维度高的节点更高的权重，可依据专家经验，为每个不同维度设立不同的权重，并使用以下公式计算各个节点相对与用户姓名对应的信息节点的关联数：

可见，通过实施本发明实施例，可跨领域分析得到样本的第一概率，先对该样本的基本行为进行了解。

作为一种可选的实施方式，采集单元404采集跨业务线的符合预定标准的标准样本数据，并基于符合预定标准的标准样本数据构建训练数据集合，可以通过以下方式实现：采集单元404根据符合预定标准的黑名单标准样本数据分析得到黑名单样本的特征指标，特征指标包括所述黑名单样本的个人信息、设备指纹和行为数据；根据特征指标构建每个黑名单样本对应的黑名单样本特征向量；以黑名单样本特征向量组成训练数据集合，具体地，根据黑名单标准样本数据可提取到每个黑名单样本的每项详细信息，如黑名单样本的年龄、学历、工作及年均申请贷款业务数量等详细信息，上述详细信息即为该黑名单样本的特征指标，将该黑名单样本的特征指标按照特定顺序进行排列，可构成该黑名单样本的特征向量，如某个样本的特征向量可以为(30岁，本科，无业，年申请贷款业务4次，居住于广州市)，将黑名单标准样本数据中的每个黑名单样本数据按照上述方法处理成对应的黑名单样本的特征向量，将黑名单样本的特征向量按照标准格式进行打包，即可得到训练数据集合。通过实施本实施方式，可将零散杂乱的黑名单标准样本数据整理成为标准格式的训练数据集合。

作为一种可选的实施方式，训练单元405在根据符合预定标准的标准样本数据分析得到符合预定标准的样本的特征指标之后，以及在根据特征指标构建每个符合预定标准的样本对应的样本特征向量之前，还将根据专家规则计算各个特征指标的卡方值，将小于预设边限的卡方值对应的特征指标设为目标特征指标；并根据目标特征指标构建每个符合预定标准的样本对应的样本特征向量。具体地，训练单元405根据专家规则计算黑名单标准样本数据中的各个特征指标的卡方值，特征指标的卡方值越小，说明该特征指标在黑名单标准样本数据中的贡献度越大，即该特征指标与欺诈样本的关联紧密，通过筛选出小于预设边限的卡方值对应的目标特征指标，可将目标特征指标构建黑名单样本对应的若干黑名单样本特征向量。可见，通过对黑名单样本的特征指标求取卡方值，可在对训练数据集合进行训练前筛选出若干具备代表性的黑名单样本特征向量。

作为一种可选的实施方式，训练单元405对训练数据集合进行训练，得到标准样本模型，可以通过以下方式实现：训练单元405在将上述若干具备代表性的黑名单样本特征向量设为聚类中心点后，使用k-means聚类算法对训练数据集合进行训练，将得到以聚类中心点为中心的若干个聚类集合，用每个聚类集合中的黑名单样本特征向量的数量除以训练数据集合中包含的总的黑名单样本特征向量，可得到每个聚类集合所代表的样本的欺诈概率，每个黑名单样本的欺诈概率即为其所在聚类集合所代表的样本的欺诈概率。可见，使用k-means聚类算法可对训练数据集合进行良好的聚类，得出每类黑名单样本的欺诈概率

本发明实施例中，第二概率单元406先将样本的样本数据整理成标准样本模型所能识别的样本特征向量并输入标准样本模型，可鉴别该样本特征向量是否符合预定标准，并将符合预定标准的样本特征向量聚类到某个聚类集合中，从而将该聚类集合所代表的样本符合预定标准的概率，设为该样本的第二概率。可见，通过分析标准样本画像，构建标准样本模型，可方便地对样本的行为进行鉴别.

作为一种可选的实施方式，最终概率单元407结合第一概率和第二概率，得到样本的最终概率可以通过以下方式实现：根据样本在业务网络关系图中的关联数，确定第一概率的权重；根据样本的目标特征指标的卡方值与预设边限的比值，确定第二概率的权重；结合第一概率的权重和第二概率的权重，可对第一概率和第二概率进行加权平均计算，得到最终概率，具体地，先获取该样本在业务网络关系图中的关联数，计算其与预设关联数的比值，将其确定为第一概率的权重，再计算该样本各个目标特征指标在标准样本模型中的卡方值，并计算其与预设边限的比值，将其确定为第二概率的权重，根据第一概率的权重和第二概率的权重，对第一概率和第二概率进行加权平均计算，得到的结果即为该样本的最终概率。可见，加权平均计算较好地兼顾了两个概率的考量因素，得到的最终概率较为准确。

可见，实施图4所描述的数据挖掘装置，通过转换单元401构建样本的业务网络关系图，第一概率单元403可跨业务线分析得到样本符合预定标准的第一概率，而不局限于在单一领域中检测样本行为。此外，训练单元405还通过历史样本的样本画像构建标准样本模型，从而第二概率单元406处理样本数据得到样本的第二概率，最终概率单元407通过分析第一概率和第二概率，可得到该样本符合预定标准的最终概率

实施例五

请参阅图5，图5是本发明实施例公开的又一种数据挖掘装置的结构示意图。图5所示的数据挖掘装置是由图4所示的数据挖掘装置进行优化得到的。与图4所示的数据挖掘装置相比较，图5所示的数据挖掘装置还可以包括：可视化单元408，其中，

可视化单元408，用于显示业务网络关系图中的各个业务节点和/或信息节点，以及显示业务网络关系图中的各个业务节点和/或信息节点的关联数，从而在业务节点或信息节点的关联数超过预设关联数时，确定业务节点或信息节点符合预定标准；

可视化单元408，还用于提取符合预定标准的业务节点或信息节点所对应的目标样本的信息，在业务网络关系图中查找与目标样本存在关联关系的潜在目标样本，当检测潜在目标样本的业务申请时，对潜在目标样本的业务申请执行与对目标样本的业务申请所执行的操作相同的操作。

作为一种可选的实施方式，可视化单元408将业务网络关系图在终端设备的显示屏上进行显示，例如可将各个信息节点显示为蓝色的长方形边框，并在长方形边框中显示该信息节点所代表的详细信息及该信息节点的关联数，各个业务节点显示为红色的圆形边框，并在圆形边框显示该业务节点所代表的详细信息及该业务节点的关联数，管理人员可根据需求调整该业务网络关系图的预设维度，此外，管理人员在发现某个节点的关联数超过预设关联数时，可确定该节点符合预定标准。可见，通过可视化的方式，管理人员可直观地发现数据难以体现出来的样本行为。

进一步可选地，可视化单元408在显示业务网络关系图中的各个业务节点和/或信息节点的关联数，在业务节点或信息节点的关联数超过预设关联数时，确定业务节点或信息节点符合预定标准之后，还可提取符合预定标准的业务节点或信息节点所对应的目标样本的信息，在业务网络关系图中查找与目标样本存在关联关系的潜在目标样本，当检测潜在目标样本的业务申请时，对潜在目标样本的业务申请执行与对目标样本的业务申请所执行的操作相同的操作。具体地，信用贷款领域的管理人员在通过可视化的方式查出欺诈行为后，还可以将涉及欺诈行为业务网络关系图的预设维度调高，得到更多的与涉嫌欺诈的节点相关联的节点，从而在业务网络关系图上查找与涉嫌欺诈的节点存在关联性的多个节点，将上述节点对应的样本设为潜在目标样本，以便在潜在目标样本提交业务申请时，拒绝其业务申请。可见，通过查找出与欺诈样本存在关联关系的潜在欺诈样本，可高效率地将上述潜在欺诈样本列入黑名单，减少了后续的鉴别工作。

可见，实施图5所描述的方法，管理人员可通过可视化的方式查找符合预定标准的样本，并进一步挖掘出与目标样本相关联的潜在目标样本，加快了对样本的鉴别效率，方便了管理人员的工作。

本发明还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的一种数据挖掘方法。

该电子设备可以是图1所示数据挖掘装置100。

在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的一种数据挖掘方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据挖掘方法，其特征在于，包括：

提取在预设维度内与所述样本对应的信息节点存在业务联系的关联业务节点和关联信息节点;

根据所述业务网络关系图确定在预设维度内与所述样本对应的信息节点存在业务联系的各个所述关联业务节点和所述关联信息节点的维度；

根据各个所述关联业务节点和所述关联信息节点的维度确定各个所述关联业务节点和所述关联信息节点的权重，以使维度低的所述关联信息节点的权重高于维度高的所述关联信息节点的权重，以及，使维度低的所述关联业务节点的权重高于维度高的所述关联业务节点的权重；

根据各个所述关联业务节点和所述关联信息节点的权重计算所述样本对应的信息节点的关联数；

根据计算得到的所述关联数计算所述样本符合预定标准的第一概率；

采集跨业务线的符合所述预定标准的标准样本数据，并基于所述标准样本数据构建训练数据集合，所述标准样本数据包括符合所述预定标准的样本的特征指标，所述特征指标包括符合所述预定标准的样本的个人信息、设备指纹和行为数据；对所述训练数据集合进行训练，得到标准样本模型；

根据专家规则计算各个所述特征指标的卡方值；

将小于预设边限的所述卡方值对应的所述特征指标设为目标特征指标；

根据所述样本在所述业务网络关系图中的关联数，确定所述第一概率的权重；

根据所述样本的所述目标特征指标的卡方值与所述预设边限的比值，确定所述第二概率的权重；

结合所述第一概率的权重和所述第二概率的权重，对所述第一概率和所述第二概率进行加权平均计算，得到所述样本符合所述预定标准的最终概率。

2.根据权利要求1所述的数据挖掘方法，其特征在于，在所述根据各个所述关联业务节点和所述关联信息节点的权重计算所述样本对应的信息节点的关联数之后，所述方法还包括：

显示所述业务网络关系图中的各个所述业务节点和/或所述信息节点；

显示所述业务网络关系图中的各个所述业务节点和/或所述信息节点的关联数，从而在所述业务节点或所述信息节点的所述关联数超过预设关联数时，确定所述业务节点或所述信息节点符合所述预定标准。

3.根据权利要求2所述的数据挖掘方法，其特征在于，在所述显示所述业务网络关系图中的各个所述业务节点和/或所述信息节点的关联数，从而在所述业务节点或所述信息节点的所述关联数超过预设关联数时，确定所述业务节点或所述信息节点符合所述预定标准之后，所述方法还包括：

提取符合所述预定标准的所述业务节点或所述信息节点所对应的目标样本的信息；

在所述业务网络关系图中查找与所述目标样本存在关联关系的潜在目标样本；

当检测所述潜在目标样本的业务申请时，对所述潜在目标样本的业务申请执行与对所述目标样本的业务申请所执行的操作相同的操作。

4.根据权利要求1~3任一项所述的数据挖掘方法，其特征在于，所述采集跨业务线的符合预定标准的标准样本数据，并基于所述符合预定标准的标准样本数据构建训练数据集合，包括：

根据所述符合预定标准的标准样本数据分析得到所述符合预定标准的样本的特征指标，所述特征指标包括所述符合预定标准的样本的个人信息、设备指纹和行为数据；

根据所述特征指标构建每个符合预定标准的样本对应的样本特征向量；

以所述样本特征向量组成所述训练数据集合。

5.根据权利要求4所述的数据挖掘方法，其特征在于，在所述根据所述符合预定标准的标准样本数据分析得到所述符合预定标准的样本的特征指标之后，以及在所述根据所述特征指标构建每个符合预定标准的样本对应的样本特征向量之前，所述方法还包括：

所述根据所述特征指标构建每个符合预定标准的样本对应的所述符合预定标准的样本特征向量，包括：

根据所述目标特征指标构建每个符合预定标准的样本对应的样本特征向量。

6.一种数据挖掘装置，其特征在于，包括：

第一概率单元，用于根据所述业务网络关系图确定在预设维度内与所述样本对应的信息节点存在业务联系的各个所述关联业务节点和所述关联信息节点的维度；

采集单元，用于采集跨业务线的符合所述预定标准的标准样本数据，并基于所述符合所述预定标准的标准样本数据构建训练数据集合，所述标准样本数据包括符合预定标准的样本的特征指标，所述特征指标包括符合预定标准的样本的个人信息、设备指纹和行为数据；

最终概率单元，用于：

根据专家规则计算各个所述特征指标的卡方值；

结合所述第一概率的权重和所述第二概率的权重，对所述第一概率和所述第二概率进行加权平均计算，得到所述样本符合预定标准的最终概率。

7.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~5中任一项所述的数据挖掘方法的步骤。

8.一种计算机可读存储介质，其特征在于，其存储计算机程序，所述计算机程序使得计算机执行权利要求1~5任一项所述的数据挖掘方法。