CN112785112A

CN112785112A - 一种风险规则提取方法及风险规则提取装置

Info

Publication number: CN112785112A
Application number: CN201911097202.1A
Authority: CN
Inventors: 段戎; 黄文文; 潘柱新
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-11

Abstract

本申请实施例公开了一种风险规则提取方法及风险规则提取装置，涉及计算机数据挖掘领域，能够输出多变量的风险规则，能够满足多种风控业务的需求。包括：获取N组样本数据；所述N组样本数据中任意一组样本数据包括M个变量对应的属性值；所述N为大于等于2的整数，所述M为大于等于2的整数；利用自动编码算法、关联规则算法对所述N组样本数据进行处理，确定X个变量；所述X个变量对应的样本数据的风险系数大于第一阈值且所述X个变量的关联度大于第二阈值；所述X个变量属于所述M个变量，所述X为小于等于所述M的整数；根据所述X个变量确定风险规则，所述风险规则用于指示所述X个变量导致风险事件所满足的条件。

Description

一种风险规则提取方法及风险规则提取装置

技术领域

本申请实施例涉计算机数据挖掘领域，尤其涉及一种风险规则提取方法及风险规则提取装置。

背景技术

目前，很多业务场景中需要进行风险检测，例如财务报销异常检测，网络入侵检测，信用卡盗刷检测，健康风险检测、产品缺陷检测等等。具体地，输入样本数据后，利用已知规则对输入的样本数据进行异常识别，输出不符合已知规则的异常样本数据。此外，还可以对异常样本数据进行学习，生成单变量的风险规则，即由一个变量导致风险的规则。

现有技术中，依赖于某个业务的已知规则识别风险，只能面向单一的业务场景，无法灵活应用在其他业务场景中。另外，现有技术只能提取单变量的风险规则，单变量的规则过滤能力偏低，无法适应场景的多样性，不能满足日益复杂的风控业务需求。

发明内容

本申请实施例提供一种风险规则提取方法及风险规则提取装置，能够输出多变量的风险规则，能够满足多种风控业务的需求。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，提供了一种风险规则提取方法，包括：首先获取N组样本数据；N组样本数据中任意一组样本数据包括M个变量对应的属性值；N为大于等于2的整数，M为大于等于2的整数；还可以利用自动编码算法、关联规则算法对N组样本数据进行处理，确定X个变量；X个变量对应的样本数据的风险系数大于第一阈值且X个变量的关联度大于第二阈值；X个变量属于M个变量，X为小于等于M的整数；最后，可以根据X个变量确定风险规则，风险规则用于指示X个变量导致风险事件所满足的条件。

本申请实施例提供一种风险规则提取方法，首先获取N组样本数据；其中，一组样本数据包括M个变量对应的属性值。随后，还可以利用自动编码(AE)算法、关联规则算法对上述N组样本数据进行处理，确定X个高风险且关联度较大的变量，最后根据这X个变量确定风险规则，所述风险规则用于指示所述X个变量导致风险事件所满足的条件。本申请实施例提供的方法中，可以根据自动编码算法对样本数据进行学习确定风险较大的样本数据(即风险系数大于第一阈值)，还可以利用关联规则算法学习高风险的样本数据确定上述强关联的多个变量，根据高风险样本数据确定的强关联的变量可能导致风险，因此最终可以输出强关联的多个变量构成的多变量风险规则。通过提取风险规则，可以为风险检测结果的解释提供依据。同时，本申请实施例可以提取多变量的风险规则，可以覆盖各种风险场景，相对于单变量风险规则，过滤能力较高，可以满足日益复杂的风控业务需求。

结合第一方面，利用自动编码算法、关联规则算法对N组样本数据进行处理，确定X个变量，包括：

首先可以根据AE模型的神经元的权重系数确定M个变量的重要性系数，筛选出重要性系数大于第三阈值的T个变量，即重要变量；还可以利用自动编码算法确定N组样本数据中风险系数大于第一阈值的S组样本数据，且S组样本数据仅包括T个变量对应的属性值；利用关联规则算法处理S组样本数据，确定T个变量中关联度大于第二阈值的X个变量。

本申请实施例提供的方法中，可以利用AE模型对输入的样本数据进行学习，获得高风险的样本数据，并且可以去除样本数据中的非重要变量。此外，还可以利用关联规则算法处理AE模型的输出，确定多个强关联的高风险变量，从而可以创建多变量的风险规则。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，利用自动编码算法确定N组样本数据中风险系数大于第一阈值的S组样本数据，包括：

针对N组样本数据中的每一组样本数据，对样本数据进行编码，获得第一向量，第一向量包括K个分量，K为小于等于M的整数；对第一向量进行解码获得重构样本数据；计算样本数据与重构样本数据之间的误差分数；对误差分数大于第一阈值的S组样本数据进行过滤，仅保留T个变量对应的属性值，获得S组样本数据。

本申请实施例中，可以对样本数据进行编码再解码，获得重构的样本数据。重构的样本数据与初始的样本数据之间的误差越大，表明样本数据的风险越高。

结合第一方面的第一或第二种可能的实现方式，在第一方面的第三种可能的实现方式中，利用关联规则算法处理S组样本数据，确定T个变量中关联度大于第三阈值的X个变量，包括：根据S组样本数据确定第一矩阵；第一矩阵的行数为S、列数为T，第一矩阵中第i行第j列的元素为第一数值或第二数值，第一数值表示第i组样本数据中第j个变量对应的属性值异常，第二数值表示第i组样本数据中第j个变量对应的属性值正常，第i组样本数据为S组样本数据中的第i组样本数据，第j个变量为T个变量中的第j个变量，i∈[1，2，….S]，j∈[1，2，….T]；还可以利用关联规则算法处理第一矩阵确定关联度大于第二阈值的X个变量。

本申请实施例中，确定了高风险的样本数据之后，还可以利用bar(直方)值检测方法对高风险的样本数据进行检测，确定每一个样本数据中每一个变量是否异常，得到布尔矩阵。从而可以利用关联规则算法对布尔矩阵(例如，本申请实施例所述的第一矩阵)进行处理，获得强关联的多个高风险变量。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，利用关联规则算法处理第一矩阵获得X个变量，包括：

根据第一矩阵确定至少一个候选项集；候选项集的属性为T个变量中的任意一个或多个，候选项集的值为第一数值或第二数值；根据至少一个候选项集确定确定关联度大于第二阈值的X个变量。

本申请实施例中，提供了根据关联规则确定强关联高风险变量的一种可能的实现。候选项集的支持度(即所述关联度)越高，候选项集中的变量同时出现的概率越高。由于布尔矩阵体现的是高风险重要变量的分布，因此利用关联规则算法处理第一矩阵可以确定多个高风险变量同时出现的概率。高风险变量同时出现的概率越大，证明高风险变量之间的关联度越高，从而可以确定多变量的风险规则。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，根据至少一个候选项集确定确定关联度大于第二阈值的X个变量，包括：

X个变量满足：

其中，Q代表第一矩阵中目标行的数量，目标行中X个目标列上的元素均为第一数值，X个目标列与X个变量对应，p₁为第二阈值。

本申请实施例提供了采用不带权重的关联规则算法确定多个强相关高风险变量的一种实现。

结合第一方面的第四种可能的实现方式，在第一方面的第六种可能的实现方式中，根据至少一个候选项集确定确定关联度大于第二阈值的X个变量，包括：

X个变量满足：

其中，Q代表第一矩阵中目标行的数量，目标行中X个目标列上的元素均为第一数值，X个目标列与X个变量对应，p₂为第二阈值，y_t代表Q个目标行中第t个目标行对应的样本数据的误差分数，Z代表S组样本数据的误差分数之和。

第二方面，公开了一种装置，包括：

数据获取模块，用于获取N组样本数据；N组样本数据中任意一组样本数据包括M个变量对应的属性值；N为大于等于2的整数，M为大于等于2的整数；

风险规则提取模块，用于利用自动编码算法、关联规则算法对N组样本数据进行处理，确定X个变量；X个变量对应的样本数据的风险系数大于第一阈值且X个变量的关联度大于第二阈值；X个变量属于M个变量，X为小于等于M的整数；

风险规则提取模块还用于，根据X个变量确定风险规则，风险规则用于指示X个变量导致风险事件所满足的条件。

结合第二方面，在第二方面的第一种可能的实现方式中，风险规则提取模块具体用于，

确定M个变量中重要性系数大于第三阈值的T个变量；利用自动编码算法确定N组样本数据中风险系数大于第一阈值的S组样本数据，且S组样本数据仅包括T个变量对应的属性值；利用关联规则算法处理S组样本数据，确定T个变量中关联度大于第二阈值的X个变量。

结合第二方面的第一种可能的实现方式中，在第二方面的第二种可能的实现方式中，风险规则提取模块具体用于，

结合第二方面的第一或第二种可能的实现方式，在第二方面的第三种可能的实现方式中，风险规则提取模块具体用于，根据S组样本数据确定第一矩阵；第一矩阵的行数为S、列数为T，第一矩阵中第i行第j列的元素为第一数值或第二数值，第一数值表示第i组样本数据中第j个变量对应的属性值异常，第二数值表示第i组样本数据中第j个变量对应的属性值正常，第i组样本数据为S组样本数据中的第i组样本数据，第j个变量为T个变量中的第j个变量，i∈[1，2，….S]，j∈[1，2，….T]；利用关联规则算法处理第一矩阵确定关联度大于第二阈值的X个变量。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，风险规则提取模块具体用于，根据第一矩阵确定至少一个候选项集；候选项集的属性为T个变量中的任意一个或多个，候选项集的值为第一数值或第二数值；

根据至少一个候选项集确定确定关联度大于第二阈值的X个变量。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，

X个变量满足：

结合第二方面的第四种可能的实现方式，在第二方面的第六种可能的实现方式中，

X个变量满足：

第三方面，本申请提供了一种装置，所述装置包括至少一个处理器和存储器，至少一个处理器与存储器耦合；存储器，用于存储计算机程序；至少一个处理器，用于执行存储器中存储的计算机程序，以使得装置执行如上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

该装置可以为终端设备或服务器等。这里的终端设备包括但不限于智能手机、车载装置(例如自动驾驶设备)、个人计算机、人工智能设备、平板电脑、个人数字助理、智能穿戴式设备(例如智能手表或手环、智能眼镜)、智能语音设备(例如智能音箱等)、虚拟现实/混合现实/增强显示设备或网络接入设备(例如网关等)等。服务器可以包括存储服务器或计算服务器等。

第四方面，本申请公开了一种计算机可读存储介质，包括：计算机可读存储介质中存储有指令；当计算机可读存储介质在上述第二方面以及第二方面任意一种实现方式、第三方面所述的装置上运行时，使得装置执行如上述第一方面以及第一方面任意一种实现方式所述的方法。

第五方面，本申请提供一种芯片，包括接口和处理器，所述处理器用于通过所述接口获取计算机程序并实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。

第六方面，本申请提供一种芯片，包括多个电路模块，所述多个电路模块用于实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。在一些实现方式下，所述多个电路模块与软件程序一起实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。

附图说明

图1为本申请实施例提供的装置的结构框图；

图2为本申请实施例提供的功能模块示意图；

图3为本申请实施例提供的风险规则提取方法的流程示意图；

图4为本申请实施例提供的bar值检测方法的示意图；

图5为本申请实施例提供的风险规则提取方法的另一流程示意图；

图6为本申请实施例提供的数据处理的流程示意图；

图7为本申请实施例提供的布尔矩阵的仿真示意图；

图8为本申请实施例提供的装置的另一结构框图；

图9为本申请实施例提供的装置的另一结构框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

首先，对本申请实施例涉及的术语进行解释说明：

(1)风险检测

风险检测指的是通过数据挖掘手段识别出样本数据中的“异常样本数据(outlier)”。其中，异常数据明显偏离样本数据中的其他样本数据，也可以称为离群值。

(2)风险规则

风险规则用于指示指某些变量导致风险事件所满足的条件。例如，一条风险规则为：报销单中的“金额”大于3000，即“金额”导致报销单异常的条件是大于3000。通常，可以对“异常样本数据”进行学习，获得风险规则。

单变量风险规则，即一个变量导致风险事件所满足的条件。多变量风险规则，即多个变量导致风险事件所满足的条件。

(3)无监督学习

无监督学习是指对无标签的样本数据进行学习的机器学习任务。例如，直接对原始数据样本进行学习。

(4)有监督学习

有监督学习是指对有标签的样本数据进行学习的机器学习任务。其中，样本数据的标签可以是人工添加的。

(5)自动编码(auto encoder，AE)算法

AE模型是一种无监督学习的模型，AE模型可以用于风险检测。具体地，将样本数据输入AE模型，AE模型可以从输入的样本数据学习到样本数据，AE模型的输出是学习到的样本数据与输入的样本数据之间的偏差。根据学习到的样本数据与输入的样本数据之间的偏差可以确定该样本数据是否为高风险样本，达到风险检测的目的。

(6)关联规则算法

关联规则算法可以挖掘出变量之间的关联关系，例如，购买鞋的顾客，有10％的可能也会买袜子；买面包的顾客有60％的可能也会买也会买牛奶。

具体地，可以通过支持度(Support)衡量关联规则。其中，支持度表示多个变量同时出现在一组样本数据中的概率，支持度越大表示变量之间的关联性越强。例如，在所有的交易记录中，顾客既购买商品A又购买商品B的概率。假设共有5条交易记录中，既购买商品A又购买商品B的记录有2条，则此条规则(即“既购买商品A又购买B”)的支持度为2/5＝0.4。

此外，包含一个或多个变量的集合可以称为项集，频繁项集指的是支持度大于预设阈值的项集。例如，项集可以包括{商品A、商品B}，假设预设阈值为0.3，{商品A、商品B}的支持度为0.4，则{商品A、商品B}是一个频繁项集。

(7)项集

在计算关联规则时，是以项集为粒度进行的。项集是一个集合，包括“属性和值”，其中，“属性”可以是本申请实施例所述的变量，“值”可以是变量的属性值。

首先根据样本数据确定出候选项集，在根据阈值筛选出支持度大于预设阈值的项集，即频繁项集。还可以根据频繁项集确定强关联的变量，即频繁项集中的多个变量是强相关的，强关联的变量之间的支持度大于预设的阈值。

(8)布尔矩阵

布尔矩阵指的是元素为0或1的矩阵，还可以称为0-1矩阵。

现有技术只能提取单变量的风险规则，无法提取多变量的风险规则，无法适应数据样本的多样性，效率较低。

本申请实施例提供的方法适用于通用的计算机。上述计算机可以通过图1中的计算机10来实现。图1所示为本申请实施例提供的计算机10的硬件结构示意图。该计算机10包括处理器101、存储器102以及至少一个网络接口(图1中仅是示例性的以包括网络接口103为例进行说明)。其中，处理器101、存储器102以及网络接口103之间互相连接。

处理器101可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

网络接口103，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器102可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，也可以与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器102用于存储执行本申请方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器102中存储的计算机执行指令，从而实现本申请下述实施例提供的意图处理方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机10可以包括多个处理器，例如图1中的处理器101和处理器106。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机10还可以包括输出设备104和输入设备105。输出设备104和处理器101通信，可以以多种方式来显示信息。例如，输出设备104可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备105和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备105可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机10可以是一个通用设备或者是一个专用设备。在具体实现中，计算机10可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端装置、嵌入式设备或有图1中类似结构的设备。本申请实施例不限定计算机10的类型。

需要说明的是，计算机10可以是整机，也可以是实现计算机上的功能部件或组件，也可以是芯片。

图2所示的各个功能模块用于实现本申请实施例提供的方法。具体地，处理器101可以调用存储器102中的代码执行图2所示的各个功能模块的功能。

参考图2，数据获取模块30，用于获取样本数据；

风险检测模型40，用于对数据获取模块30获取的样本数据进行风险检测，识别出高风险的样本数据；

风险规则提取模型50，用于自动提取风险规则；

风险规则存储模块60，用于将提取的风险规则或者人工添加的风险规则存储在存储器102中；

数据管理模块70，用于将数据样本划分样本数据，将标记的样本数据和无标记的样本数据分布存储在存储器102中。

本申请实施例提供一种风险规则提取方法，如图3所示，所述方法包括以下步骤：

步骤301、获取N组样本数据；所述N组样本数据中任意一组样本数据包括M个变量对应的属性值。

其中，所述N组样本数据是用来提取多变量风险规则的训练数据，可以对所述N组样本数据进行学习获得多变量的风险规则。示例的，样本数据可以是报销数据，通过对报销数据的学习，获得报销中会出现风险的规则。

一组样本数据包括多个变量的属性值。其中，变量可以是“时间”“金额”等，变量的属性值是变量的具体值，例如，“金额”的属性值可是任意一个数字，“时间”的属性值可以是“****年**月**日”。此外，所述N为大于等于2的整数，所述M为大于等于2的整数。

步骤302、利用自动编码算法、关联规则算法对所述N组样本数据进行处理，确定X个变量；所述X个变量对应的样本数据的风险系数大于第一阈值且所述X个变量的关联度大于第二阈值。

其中，所述X个变量属于所述M个变量，所述X为小于等于所述M的整数。风险系数用于描述样本数据的风险，例如，可以是样本系数重构的误差风险，误差分数越大，样本数据的风险越大。关联度用于描述不同变量之间的关联性，关联度可以是本申请实施例所述的支持度，不同变量之间的关联度越高，不同变量在同一样本数据中出现的概率越高。此外，所述X个变量对应的样本数据，即用于提取关联规则的高风险样本数据，例如，本申请实施例所述的所述N组样本数据中风险系数大于所述第一阈值的S组样本数据。

本申请实施例中，可以对初始出入的样本数据进行学习，输出高风险的样本数据，还可以采用关联规则、强关联的多个变量，从而根据多个变量确定风险规则，为风险检测的结果提供支撑。

一种可能的实现方式中，可以通过以下三个步骤在上述M个变量中确定高风险、强关联的多个变量：

步骤S1、利用自动编码算法确定所述N组样本数据中风险系数大于所述第一阈值的S组样本数据。

具体地，可以利用AE模型来筛选高风险的样本数据。AE模型的工作原理参考图3，具体地编码器首先对输入的数据进行编码，解码器再对编码器的输出进行解码，解码器输出的是对原始数据重构后的数据。还可以计算原始数据与重构数据之间的误差分数，误差分数越大，表明原始样本数据的重构难度越大，即原始样本数据的风险越高。其中，误差分数可以是本申请实施例所述的风险系数，可以用误差分数来表征样本数据的风险，误差分数越大的样本数据的风险系数越高。此外，误差分数对应的门限阈值可以是风险系数对应的第一阈值，风险系数大于所述第一阈值的S组样本数据可以是误差分数大于所述第一阈值的S组样本数据。

示例的，首先针对所述N组样本数据中的每一组样本数据，对所述样本数据进行编码，获得第一向量，所述第一向量包括K个分量，K为小于等于M的整数；

还可以对所述第一向量进行解码获得重构样本数据；计算所述样本数据与所述重构样本数据之间的误差分数；

最后可以筛选出误差分数大于所述第一阈值的S组样本数据。

需要说明的是，第一阈值是根据风险设置的门限值，误差分数大于第一阈值的样本数据认为是高风险的样本数据，后续可以对高风险的样本数据进行学习确定高风险变量之间的强关联规则。

步骤S2、对步骤S1获得S组样本数据进行过滤，去除各个样本数据中的非重要变量，过滤后所得的S组样本数据中的每一组样本数据仅包括T个变量对应的属性值。其中，所述T个变量为所述M个变量中重要性系数大于第三阈值的T个变量。

需要说明的是，AE模型是多层神经网络模型，根据AE模型不仅可以确定高风险的样本数据，还可以确定变量的重要性，从而筛选出较为重要的多个变量。

具体地，变量的重要性是根据AE模型前两层网络神经元的权重值计算的。第i个变量的重要性系数满足以下公式(2)：

其中，|w¹ _ij|表示第一层网络神经元权重的绝对值，max表示取最大值进行归一化处理。

根据上述公式(2)可以确定所述M个变量中的重要变量，即重要性系数大于(或等于)第三阈值的T个变量。随后还可以去除S组高风险样本数据中非重要变量(即重要性系数小于第三阈值的变量)的属性值，仅保留T个变量的属性值，获得样本数据。

步骤S3、利用关联规则算法处理所述S组样本数据，确定所述T个变量中关联度大于所述第二阈值的所述X个变量。

具体地，首先可以根据所述S组样本数据确定第一矩阵。所述第一矩阵的行数为S、列数为T，所述第一矩阵中第i行第j列的元素为第一数值或第二数值，所述第一数值表示第i组样本数据中第j个变量对应的属性值异常，所述第二数值表示所述第i组样本数据中第j个变量对应的属性值正常，所述第i组样本数据为所述S组样本数据中的第i组样本数据，所述第j个变量为所述T个变量中的第j个变量，i∈[1，2，….S]，j∈[1，2，….T]；

还可以利用关联规则算法处理所述第一矩阵确定关联度大于所述第二阈值的所述X个变量。其中，关联度即本申请实施例所述的支持度。

示例的，可以设置单变量的Bar值，根据单变量风险检测方法确定一组样本数据中某个变量的属性值是否异常。示例的，参考图4，横轴表示单个重要变量x，纵轴表示变量的属性值P(x)，图中的虚线就是一个Bar值。如果P(x)在Bar值下方，那么变量的属性值P(x)就是异常值(Outlier)。例如，第i组样本数据中第j个变量的属性值大于第j个变量的Bar值，则第i组样本数据中第j个变量的属性值为异常，第一矩阵的第i行第j列的元素为第一数值“1”；若第i组样本数据中第j个变量的属性值小于第j个变量的Bar值，则第i组样本数据中第j个变量的属性值为正常，第一矩阵的第i行第j列的元素为第一数值“0”。

需要说明的是，图4所示的检测方法适用于多峰分布的变量，能够检测出一些中间大小的异常值，而传统的基于统计的方法(例如Z-Score，Box-Plot等)通常只能检测出两端的异常值。此外，通过调节Bar值，可以调节异常值的所占的比例，简单高效地实现了对变量的检测。

通过图4所示的检测方法后，可以得到一个S行T列的布尔矩阵，例如，本申请实施例所述的第一矩阵。该矩阵可以体现每组样本数据中每个重要变量的属性值是否异常。以下矩阵(1)是第一矩阵的一种可能的实现：

一种可能的实现方式，所述利用关联规则算法处理所述第一矩阵获得所述X个变量，包括：首先根据所述第一矩阵确定至少一个候选项集；所述候选项集包括所述T个变量中的任意一个或多个变量，所述候选项集的值为所述第一数值或所述第二数值。

还可以根据所述至少一个候选项集确定确定关联度大于第二阈值的所述X个变量。所述第二阈值可以是支持度阈值。

具体地，所述根据所述至少一个候选项集确定确定关联度大于所述第二阈值的所述X个变量，包括：

所述X个变量满足：

其中，Q代表所述第一矩阵中目标行的数量，所述目标行中X个目标列上的元素均为第一数值，所述X个目标列与所述X个变量对应，p₁为所述第二阈值。

需要说明的是，所述X个目标列与所述X个变量一一对应，即第一矩阵中第i列的元素代表各个样本数据中第i个变量是否异常。其中，第i列与第i个变量关联，例如，第一矩阵中的第一列与变量“金额”。

如果第一矩阵中某一行中X个目标列对应的元素均为第一数值，表示这行对应的样本数据中这X个变量均为异常。

示例的，假设候选项集包括：{ABC}三个变量，假设变量A、B、C对应第i列、第j列、第t列，第一矩阵中有Q行的第i列、第j列、第t列的元素均为第一数值，即所述S个样本数据中，有Q个样本中同时出现变量A、B、C，且变量A、B、C均异常，则该候选项集的支持度为Q/S。

需要说明的是，假设第一矩阵中第i行第j列的元素为第一数值，例如“1”，则代表第i样本数据中第j个变量异常。以变量A为例，假设第一矩阵中的第一列元素代表各个样本数据中变量A的状态，假设第2行第1列的元素为“1”，代表所述S个样本数据中的第2个样本数据的变量A为异常。

当候选项集的支持度大于第二阈值，则输出候选项集中的变量，即确定的高风险强关联变量为候选项集中的变量。当候选项集的支持度等于第二阈值，则输出候选项集中的变量，即确定的高风险强关联变量为候选项集中的变量。反之，当候选项集的支持度小于第二阈值，则候选项集中的变量不能成为最终输出的高风险强关联变量。

本申请实施例将关联规则算法应用于风险规则提取，通过计算多个重要高风险变量之间的关联性，输出多个强相关的重要高风险变量。

303、根据所述X个变量确定风险规则，所述风险规则用于指示所述X个变量导致风险事件所满足的条件。

具体实现中，在确定多个强相关的重要高风险变量之后，可以根据这些变量以及这些变量对应的bar值创建风险规则。其中，“风险规则用于指示至少两个变量导致风险事件所满足的条件”。

示例的，在步骤302确定的强相关高风险变量是“申请次数”、“金额”，其中，“申请次数”这一变量对应的bar值是10，“金额”这一变量对应的bar值是3000，因此得出的风险规则是：当样本数据中的“申请次数”大于10且“金额”大于3000，样本数据为异常的样本数据。

需要说明的是，前文所述方法中，在利用关联规则算法对第一矩阵进行处理时，样本数据的权重系数均为1。例如，假设候选项集包括：{ABC}三个变量，在所述S个样本数据中，有X个样本中同时出现变量A、B、C，且变量A、B、C均异常，这S个样本数据数据的权重值均为1。

一种可能的实现方式中，可以采用带权重的关联规则算法确定多个强关联的高风险变量，其中，样本数据的权重值为样本数据的示例的，所述根据所述至少一个候选项集确定确定关联度大于所述第二阈值的所述X个变量，包括：

所述X个变量满足：

其中，Q代表所述第一矩阵中目标行的数量，所述目标行中X个目标列上的元素均为第一数值，所述X个目标列与所述X个变量对应，p₂为所述第二阈值，y_t代表Q个目标行中第t个目标行对应的样本数据的误差分数，Z代表所述S组样本数据的误差分数之和。

例如，假设候选项集包括：{ABC}三个变量，在所述S个样本数据中，有X个样本中同时出现变量A、B、C，且变量A、B、C均异常，这S个样本数据数据的风险分数为0.35、0.4、0.65，S组样本数据的误差分数之和为11.28，则候选项集{ABC}的支持度为(0.32+0.4+0.65)/11.28≈0.81，假设大于预设的门限p₂，则输出的强关联高风险变量可以是：ABC，还可以确定风险规则：当A大于y1，B大于y2，C大于y3，样本数据异常。其中，y1为变量A对应的bar值，y2为变量B对应的bar值，y3为变量C对应的bar值。

需要说明的是，采用带权重的关联规则算法确定多个强关联的高风险变量时可以重新设置支持度阈值。示例的，p₂与p₁不同，p₂是采用带权重的关联规则算法的支持度阈值，p₁是不带权重的关联规则算法的支持度阈值。

以下结合具体示例，详细介绍本申请实施例所述的风险规则提取方法。如图5所示，所述方法包括以下步骤：

501、准备数据。

以公司报销数据为例，介绍本申请实施例提供的风险规则提取方法。在步骤501中准确的数据，包括训练数据和验证数据。其中，训练数据用于提取风险规则，验证数据用于验证提取出的风险规则。数据包括多个变量的属性值，例如“金额”、“时间”、“地区”等。

具体实现中，可以从数据库中抽取一段时间(例如，过去一年内的报销数据)的报销数据作为训练数据，抽取这段时间之后的一段时间内的报销数据作为验证数据。

502、对数据进行预处理。

步骤502中需要对训练数据和验证数据分布进行预处理，但是对两种数据的预处理是一致的。

具体地，参考图6，数据的预处理包括以下几个步骤：

5021、删除无效数据。

删除无效数据包括删除重复数据、删除异常数据、删除无效变量的属性值。

首先，如果数据中某个数据出现重复，则可以将重复数据删除，保证数据的有效性。

另外，如果一条报销数据中大部分变量的属性值都是缺失的，则判断这一条报销数据是无效的，则可以删除这条报销数据。

最后，还可以将不影响风险规则提取结果的变量删除。需要说明的是，报销数据中的一些是没有意义的，或者是不影响影响最后结果的，为了减少数据量，可以将这些变量的属性值删除。例如：变量“报销单编号”不会影响风险规则提取的结果，属于没有意义的变量，可以将报销数据中“报销单编号”对应的属性值删除。又如，变量“是否违规”是报销数据中的标记变量，会严重干扰风险规则提取的结果，也应该将这一变量对应的属性值删除。

5022、补全缺失的属性值。

在删除某些变量之后，如果数据中某些变量仍存在缺失值，需要补全这些变量的缺失值。不同类型的变量补全的方法不同：对于数值型变量，使用该变量所有属性值的平均值补全该变量的缺失值；对于类别型变量，使用类别数目最大的类别值进行补全。

5023、对数据进行标准化。

具体地，可以将所有变量的平均值平移到零，并将方差都归一化。对于类别型变量，对每个变量的每个类别进行0或1的编码，例如，变量属于某个类别则变量的属性值为1，变量不属于该类型则变量的标记为0。

503、根据步骤502处理后的数据训练AE模型。

需要说明的是，AE模型是由神经网络结构的编码器(Encoder)和解码器(Decoder)组成，编码器和解码器各包含三层神经网络。

具体地，使用无监督学习方法训练处理后的数据得到AE模型，首先设计初始的AE模型。初始的AE模型构建完成后，还可以随机值对AE模型各层神经网络的权重参数进行初始化。

初始的AE模型建成后，我们将整个数据切成数据块，并输入初始的AE模型对AE模型的权重参数进行训练，得到最终的AE模型。AE模型的训练过程是对代价函数进行最优化的过程，AE模型的代价函数就是输入和输出的均方误差(mean square error，MSE)与L2惩罚项的和。其中，L2惩罚项的作用是防止模型过拟合。

504、利用AE模型确定高风险的重要变量。

具体地，将验证数据输入AE模型，AE模型的输出是每一条报销数据的误差分数(即本申请实施例所述的风险系数)以及各个变量的重要性系数。还可以根据误差分数对报销数据进行排序，确定误差较高的前S条报销数据。具体地，可以挑选出误差分数大于第一阈值的S条报销数据。此外，AE模型还可以输出每一个变量的重要性系数，可以根据重要性系数对报销数据中的变量进行排序，确定重要性系数较高的前T个变量。具体地，可以挑选出误差分数大于第三阈值的T个变量。

通过步骤504可以确定S条高风险的报销数据，其中，每条报销数据包括T个变量。

505、根据AE模型确定高风险的重要变量生成布尔矩阵。

首先，根据Bar值检测方法上述S条高风险的报销数据中每一条报销数据中T个变量每一个变量的值是否异常，根据检测结果生成S行T列的布尔矩阵。

Bar值检测方法的原理在前文已进行详细说明，在此不做赘述。布尔矩阵中的元素为0或1，其中，1表示相应的报销数据中相应变量的值为正常，0表示相应的报销数据中相应变量的值为异常。

图7所示，是三个不同的数据集生成的布尔矩阵的仿真示意图。这三个布尔矩阵对应的数据集从左到右分别为AE误差分数最高的500条报销数据、标记为违规记录的500条报销数据、随机抽取的500条报销数据。参考图7可知，如果利用AE模型检测出一条报销数据的误差分数比较高，那么利用Bar值检测方法得出它的重要变量为异常的概率也比较大。而且误差分数越高的报销数据得到的异常值的越多。此外，在根据违规记录的500条报销数据确定的布尔矩阵中，异常值也比较多，明显高于根据随机样本确定的布尔矩阵中的异常值。可见，Bar值检测方法能有效地检测出单变量的异常值，并且AE模型输出的误差分数也是能反映数据的风险程度的。

在后续进行风险规则提取时，只采用最左边的布尔矩阵，即根据AE模型输出的高风险的重要变量生成的布尔矩阵。

506、利用关联规则算法对第一矩阵进行处理，获得强关联的重要高风险变量。

在步骤506中，采用不带权重的关联规则分析步骤505生成的布尔矩阵，即根据第一矩阵确定的频繁项集的权重系数均为1。

确定好频繁项集后，可以将各个项集代入以上公式(1)确定各个项集的支持度(即本申请实施例所述的关联度)，输出支持度大于预设阈值(即本申请实施例所述的第二阈值，假设为0.3)的项集，项集中的变量为强相关的变量，可以根据强相关的变量创建多个变量的风险规则。

根据强关联的重要高风险变量可以确定多变量的风险规则，这些风险规则指示了多个变量导致风险规则。以下表1是多变量风险规则的示意。

表1

编号	支持度	规则包括的变量	变量数
				43	0.564	AB	2
50	0.544	AC	2
				73	0.544	ABC	3
132	0.574	ABC	3

需要说明的是，表1中的第一列为风险规则的编号，第二列为不带权重的关联规则计算出的风险规则的支持度；第三列为风险规则包括的变量，第四列为风险规则所包含变量的数目。参考表1结合各个变量的bar值可以生成风险规则。参考表1可知，得到了2个两个变量的风险规则，2个三个变量的风险规则。

507、使用带权重关联规则算法对步骤506确定的关联规则进行二次筛选。

步骤507中，可以采用带权重的关联规则算法重新确定多个强关联的高风险变量，从而重新确定风险规则。采用带权重的关联规则算法确定多个强关联变量的详细步骤参考前文，在此不做赘述。

需要说明的是，上述权重系数是AE模型得到的报销数据的误差分数。在进行二次筛选的时候，还可以重新设置最小的支持度，例如，重新设置为0.7。

现有技术中，仅仅能提取简单的单变量风险规则，无法对多变量的引起的风险进行归纳，也无法提取多变量的风险规则。本申请实施例中，采用了关联规则算法对高风险样本数据进行学习，确定多个强关联的高风险变量。还可以结合各个变量的bar值，确定多变量的风险规则，从而可以解决无法提取归纳多变量风险规则的问题，为风险检测的结果提供了依据。

在采用对应各个功能划分各个功能模块的情况下，图8示出上述实施例中所涉及的装置的一种可能的结构示意图。例如，图8所示的装置可以是本申请实施例所述的计算机，也可以是计算机中实现上述方法的部件。如图8所示，装置包括处理单元801以及收发单元802。处理单元可以是一个或多个处理器，收发单元可以是收发器。

处理单元801，用于支持计算机执行图3、图5所述的方法，和/或用于本文所描述的技术的其它过程。处理单元801可以包括：数据获取模块30以及风险规则提取模块40。

收发单元802，用于支持该计算机与其他装置之间的通信，和/或用于本文所描述的技术的其它过程。可以是装置的接口电路或网络接口。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

一种可能的实现方式中，图8所示的装置也可以是应用于计算机中的芯片。所述芯片可以是片上系统(System-On-a-Chip，SOC)或者是具备通信功能的基带芯片等。

示例性的，在采用集成的单元的情况下，本申请实施例提供的装置的结构示意图如图9所示。在图9中，该装置包括：处理模块901和通信模块902。处理模块901用于对装置的动作进行控制管理，例如，执行上述处理单元1601执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块902用于执行上述收发单元1602执行的步骤，支持装置与其他设备之间的交互，如与其他终端装置之间的交互。如图9所示，装置还可以包括存储模块903，存储模块903用于存储装置的程序代码和数据。

当处理模块901为处理器，通信模块902为收发器，存储模块903为存储器时，装置为图1所示的装置。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令；指令用于执行如图3或图5所示的方法。

本申请实施例提供一种包括指令的计算机程序产品，当其在装置上运行时，使得装置实现如图3或图5所示的方法。

本申请实施例一种无线装置，包括：无线装置中存储有指令；当无线装置在图1、图8、图9所示的装置上运行时，使得装置实现如图3或图5所示的方法。该装置可以为芯片等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将数据库访问装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的数据库访问装置和方法，可以通过其它的方式实现。例如，以上所描述的数据库访问装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，数据库访问装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种风险规则提取方法，其特征在于，包括：

获取N组样本数据；所述N组样本数据中任意一组样本数据包括M个变量对应的属性值；所述N为大于等于2的整数，所述M为大于等于2的整数；

利用自动编码算法、关联规则算法对所述N组样本数据进行处理，确定X个变量；所述X个变量对应的样本数据的风险系数大于第一阈值且所述X个变量的关联度大于第二阈值；所述X个变量属于所述M个变量，所述X为小于等于所述M的整数；

根据所述X个变量确定风险规则，所述风险规则用于指示所述X个变量导致风险事件所满足的条件。

2.根据权利要求1所述的方法，其特征在于，所述利用自动编码算法、关联规则算法对所述N组样本数据进行处理，确定X个变量，包括：

确定所述M个变量中重要性系数大于第三阈值的T个变量；

利用自动编码算法确定所述N组样本数据中风险系数大于所述第一阈值的S组样本数据，且所述S组样本数据仅包括所述T个变量对应的属性值；

利用关联规则算法处理所述S组样本数据，确定所述T个变量中关联度大于所述第二阈值的所述X个变量。

3.根据权利要求2所述的方法，其特征在于，所述利用自动编码算法确定所述N组样本数据中风险系数大于所述第一阈值的S组样本数据，包括：

针对所述N组样本数据中的每一组样本数据，对所述样本数据进行编码，获得第一向量，所述第一向量包括K个分量，所述K为小于等于所述M的整数；

对所述第一向量进行解码获得重构样本数据；计算所述样本数据与所述重构样本数据之间的误差分数；

对误差分数大于所述第一阈值的S组样本数据进行过滤，仅保留所述T个变量对应的属性值，获得所述S组样本数据。

4.根据权利要求2或3所述的方法，其特征在于，所述利用关联规则算法处理所述S组样本数据，确定所述T个变量中关联度大于第三阈值的所述X个变量，包括：

根据所述S组样本数据确定第一矩阵；所述第一矩阵的行数为S、列数为T，所述第一矩阵中第i行第j列的元素为第一数值或第二数值，所述第一数值表示第i组样本数据中第j个变量对应的属性值异常，所述第二数值表示所述第i组样本数据中第j个变量对应的属性值正常，所述第i组样本数据为所述S组样本数据中的第i组样本数据，所述第j个变量为所述T个变量中的第j个变量，i∈[1，2，….S]，j∈[1，2，….T]；

利用关联规则算法处理所述第一矩阵确定关联度大于所述第二阈值的所述X个变量。

5.根据权利要求4所述的方法，其特征在于，所述利用关联规则算法处理所述第一矩阵获得所述X个变量，包括：

根据所述第一矩阵确定至少一个候选项集；所述候选项集的属性为所述T个变量中的任意一个或多个，所述候选项集的值为所述第一数值或所述第二数值；

根据所述至少一个候选项集确定关联度大于所述第二阈值的所述X个变量。

6.根据权利要求5所述的方法，其特征在于，根据所述至少一个候选项集确定关联度大于所述第二阈值的所述X个变量，包括：

所述X个变量满足：

7.根据权利要求5所述的方法，其特征在于，根据所述至少一个候选项集确定关联度大于所述第二阈值的所述X个变量，包括：

所述X个变量满足：

8.一种装置，其特征在于，包括：

数据获取模块，用于获取N组样本数据；所述N组样本数据中任意一组样本数据包括M个变量对应的属性值；所述N为大于等于2的整数，所述M为大于等于2的整数；

风险规则提取模块，用于利用自动编码算法、关联规则算法对所述N组样本数据进行处理，确定X个变量；所述X个变量对应的样本数据的风险系数大于第一阈值且所述X个变量的关联度大于第二阈值；所述X个变量属于所述M个变量，所述X为小于等于所述M的整数；

所述风险规则提取模块还用于，根据所述X个变量确定风险规则，所述风险规则用于指示所述X个变量导致风险事件所满足的条件。

9.根据权利要求8所述的装置，其特征在于，所述风险规则提取模块具体用于，

确定所述M个变量中重要性系数大于第三阈值的T个变量；

利用自动编码算法确定所述N组样本数据中风险系数大于所述第一阈值的S组样本数据，且所述S组样本数据仅包括T个变量对应的属性值；

10.根据权利要求9所述的装置，其特征在于，所述风险规则提取模块具体用于，

11.根据权利要求9或10所述的装置，其特征在于，所述风险规则提取模块具体用于，

12.根据权利要求11所述的装置，其特征在于，所述风险规则提取模块具体用于，

13.根据权利要求12所述的装置，其特征在于，所述风险规则提取模块具体用于，

所述X个变量满足：

14.根据权利要求12所述的装置，其特征在于，所述风险规则提取模块具体用于，

所述X个变量满足：

15.一种装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合；

所述存储器，用于存储计算机程序；

所述至少一个处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序或指令，当所述计算机程序或指令被运行时，实现如权利要求1至7中任一项所述的方法。