CN106384282A

CN106384282A - 构建决策模型的方法和装置

Info

Publication number: CN106384282A
Application number: CN201610423436.0A
Authority: CN
Inventors: 吴双双; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2017-02-08
Also published as: AU2017101866A4; US20180307948A1; KR102178295B1; JP6402265B2; JP2018522343A; AU2017268626A1; SG11201709934XA; EP3358476A1; EP3358476A4; WO2017215370A1; KR20190019892A

Abstract

本发明涉及一种构建决策模型的方法和装置。上述方法包括以下步骤：获取规则模板数据，并提取所述规则模板数据中的各个变量对象及各个模板样本；对所述变量对象进行聚类分析，得到聚类结果；根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配，并将匹配后的聚类结果作为第一特征；分别计算各个变量对象的黑样本概率，并将所述各个变量对象的黑样本概率作为第二特征；通过所述第一特征与所述第二特征构建决策模型。上述构建决策模型的方法和装置，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响。

Description

构建决策模型的方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种构建决策模型的方法和装置。

背景技术

在保险、医疗等行业中，经常有许多单据或项目审核，例如保险公司核保初步审查、银行贷款资质审查、医保欺诈案例审查等，这些单据或项目审查大多完全依靠人工或者基于复杂规则进行审核。依靠人工审核需消耗大量人力与时间，而复杂规则通常涉及对多维度、分类层级较复杂的因素进行判断，建模困难且更新缓慢，灵活性差，且数据涉及的维度及层级过多会对模型的表现产生影响，不利于业务决策。

发明内容

基于此，有必要提供一种构建决策模型的方法，能降低数据涉及的维度及层级，适于构建决策模型。

此外，还有必要提供一种构建决策模型的装置，能降低数据涉及的维度及层级，适于构建决策模型。

一种构建决策模型的方法，包括以下步骤：

获取规则模板数据，并提取所述规则模板数据中的各个变量对象及各个模板样本；

对所述变量对象进行聚类分析，得到聚类结果；

根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配，并将匹配后的聚类结果作为第一特征；

分别计算各个变量对象的黑样本概率，并将所述各个变量对象的黑样本概率作为第二特征；

通过所述第一特征与所述第二特征构建决策模型。

在其中一个实施例中，在所述分别计算各个变量对象的黑样本概率，并将所述各个变量对象的黑样本概率作为第二特征的步骤之后，还包括：

按照预设算法将各个变量对象映射到预先定义的标签中；

根据所述规则模板数据将所述标签与各个模板样本进行匹配，并将匹配后的标签作为第三特征；

所述通过所述第一特征与所述第二特征构建决策模型，具体包括：

通过所述第一特征、所述第二特征及所述第三特征构建决策模型。

在其中一个实施例中，所述通过所述第一特征、所述第二特征及所述第三特征构建决策模型，包括：

建立原始节点；

根据所述规则模板数据获取各个模板样本的结果类型；

分别遍历读取所述第一特征、所述第二特征及所述第三特征，生成读取记录；

根据所述各个模板样本的结果类型计算各条读取记录的分割纯度，并根据所述分割纯度确定分割点；

获取与所述分割点对应的特征，并建立新的节点。

在其中一个实施例中，所述对所述变量对象进行聚类分析，得到聚类结果，包括：

从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心，每个第一聚类中心对应一个聚类；

分别计算各个变量对象到各个第一聚类中心的距离；

根据计算结果对各个变量对象进行划分，将变量对象划分到距离最短的第一聚类中心对应的聚类中；

分别计算划分后的各个聚类的第二聚类中心；

判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值，若是，则将各个聚类作为聚类结果输出，若否，则将第二聚类中心替代对应的聚类的第一聚类中心，并继续执行所述分别计算各个变量对象到各个第一聚类中心的距离的步骤。

在其中一个实施例中，所述分别计算各个变量对象到各个第一聚类中心的距离，包括：

根据所述规则模板数据获取各个变量对象的多维数据；

根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。

一种构建决策模型的装置，包括：

提取模块，用于获取规则模板数据，并提取所述规则模板数据中的各个变量对象及各个模板样本；

聚类模块，用于对所述变量对象进行聚类分析，得到聚类结果；

第一特征模块，用于根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配，并将匹配后的聚类结果作为第一特征；

第二特征模块，分别计算各个变量对象的黑样本概率，并将所述各个变量对象的黑样本概率作为第二特征；

构建模块，用于通过所述第一特征与所述第二特征构建决策模型。

在其中一个实施例中，所述装置还包括：

映射模块，用于按照预设算法将各个变量对象映射到预先定义的标签中；

第三特征模块，用于根据所述规则模板数据将所述标签与各个模板样本进行匹配，并将匹配后的标签作为第三特征；

所述构建模块还用于通过所述第一特征、所述第二特征及所述第三特征构建决策模型。

在其中一个实施例中，所述构建模块包括：

建立单元，用于建立原始节点；

获取单元，用于根据所述规则模板数据获取各个模板样本的结果类型；

遍历单元，用于分别遍历读取所述第一特征、所述第二特征及所述第三特征，生成读取记录；

计算纯度单元，用于根据所述各个模板样本的结果类型计算各条读取记录的分割纯度，并根据所述分割纯度确定分割点；

所述建立单元还用于获取与所述分割点对应的特征，并建立新的节点。

在其中一个实施例中，所述聚类模块包括：

选择单元，用于从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心，每个第一聚类中心对应一个聚类；

计算距离单元，用于分别计算各个变量对象到各个第一聚类中心的距离；

划分单元，用于根据计算结果对各个变量对象进行划分，将变量对象划分到距离最短的第一聚类中心对应的聚类中；

计算中心单元，用于分别计算划分后的各个聚类的第二聚类中心；

判断单元，用于判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值，若是，则将各个聚类作为聚类结果输出，若否，则将第二聚类中心替代对应的聚类的第一聚类中心，并继续由所述计算距离单元分别计算各个变量对象到各个第一聚类中心的距离。

在其中一个实施例中，所述计算距离单元包括：

获取子单元，用于根据所述规则模板数据获取各个变量对象的多维数据；

计算子单元，用于根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。

上述构建决策模型的方法和装置，通过提取规则模板数据中的各个变量对象及各个模板样本，对变量对象进行聚类分析，得到聚类结果，并根据规则模板数据将聚类结果与各个模板样本进行匹配，匹配后的聚类结果作为第一特征，分别计算各个变量对象的黑样本概率，并将各个变量对象的黑样本概率作为第二特征，再通过第一特征与第二特征构建决策模型，通过对变量对象进行聚类分析，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响。此外，通过第一特征与第二特征构建的决策模型，使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

附图说明

图1为一个实施例中构建决策模型的方法的流程示意图；

图2为另一个实施例中构建决策模型的方法的流程示意图；

图3为一个实施例中如何构建决策模型的流程示意图；

图4为一个实施例中对变量对象进行聚类分析的流程示意图；

图5为一个实施例中构建决策模型的装置的结构示意图；

图6为另一个实施例中构建决策模型的装置的结构示意图；

图7为一个实施例中构建模块的内部结构示意图；

图8为一个实施例中聚类模块的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种构建决策模型的方法，包括以下步骤：

步骤S110，获取规则模板数据，并提取规则模板数据中的各个变量对象及各个模板样本。

具体的，规则模板指的是用于帮助确定审核结果的一套标准，一个单据或项目的审核可能对应一个或多个规则模板，例如，审核贷款人信用度，可包括“货款人在哪几个分行进行贷款”、“贷款人曾在哪个机关机构有过不良记录”等规则模板。每个不同的规则模板均有其对应的规则模板数据，其中，规则模板数据中可包括各个变量对象、各个模板样本，以及变量对象与模板样本之间的匹配关系，变量对象为定性类型的变量，每个变量对象对应规则模板中一个不同的类别，例如，规则模板为“货款人在哪几个分行进行贷款”，对应的规则模板数据可包括用户1在A分行进行贷款、用户2在B分行进行贷款、用户3在C分行进行贷款……，其中，A分行、B分行、C分行等各个分行即为变量对象，用户1、用户2、用户3等即为模板样本。

步骤S120，对变量对象进行聚类分析，得到聚类结果。

具体的，可提取各个变量对象的多维数据，并根据多维数据对变量对象进行聚类分析，多维数据指的是变量对象各个维度的相关数据，例如，变量对象为各个分行，多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。聚类分析指的是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，通过对变量对象进行聚类分析，可将相似或相近的变量对象进行聚类，可降低变量对象的层级。例如，变量对象包括A分行、B分行、C分行、D分行……，对变量对象进行聚类分析，A分行与B分析较为相似，分到A组，C分行与D分行较为相似，分到B组……，变量对象由原来的各个分行的层级降为各个组别的层级。对变量对象进行聚类分析后，可得到由各个聚类组成的聚类结果。

步骤S130，根据规则模板数据将聚类结果与各个模板样本进行匹配，并将匹配后的聚类结果作为第一特征。

具体的，对变量对象进行聚类分析，得到聚类结果后，可根据规则模板数据中变量对象与模板样本的匹配关系将聚类结果与各个模板样本进行匹配。例如，规则模板为“贷款人曾在哪个相关机构有过不良记录”，规则模板数据包括用户1曾在FK机构有过不良记录、用户2曾在CE机构有过不良记录、用户3曾在KD机构有过不良记录……，对变量对象FK机构、CE机构、KD机构……进行聚类分析，得到分别以组A、组B、组C……命名的各个聚类，并将聚类结果与模板样本用户1、用户2、用户3……进行匹配。可如下表所示，表1表示规则模板数据中变量对象与模板样本的匹配关系，表2表示聚类结果与各个模板样本的匹配关系，可用“1”表示变量对象与模板样本或聚类结果的匹配关系，但不限于此。

表1

表2

通过对变量对象进行聚类分析，明显可降低变量对象的层级，有利于建模。

步骤S140，分别计算各个变量对象的黑样本概率，并将各个变量对象的黑样本概率作为第二特征。

具体的，决策模型通常的输出结果为黑样本或白样本，黑样本指的是不通过审核的样本，白样本则指的是通过审核的样本，例如决策模型用于银行贷款资质审查，黑样本则指的是不通过贷款资质审查的用户，白样本则指的是通过贷款资质审查的用户。分别计算各个变量对象的黑样本概率，即对于各个变量对象在规则模板数据中，模板样本的结果类型为黑样本的概率占比多少，例如，规则模板为“贷款人曾在哪个相关机构有过不良记录”，则可计算“在KD机构有过不良记录的用户最终为黑样本的概率是多少”等。变量对象的黑样本概率的计算公式可为：黑样本概率＝该变量对象的黑样本个数/该变量对象的模板样本总数。可将计算得到的各个变量对象的黑样本概率以连续型变量的形式作为第二特征。在其它的实施例中，也可分别计算各个变量对象的WOE(weight-of-evidence，证据权重)值，其计算公式为WOE＝ln(该变量对象的黑样本个数占总的黑样本个数的比例/该变量对象的白样本个数占总的白样本个数的比例)，WOE值越高，则表示该变量对象的模板样本是黑样本的概率越低。

步骤S150，通过第一特征与第二特征构建决策模型。

具体的，目前构建决策模型的方式是将所有的规则模板数据输入进行建模，规则模板数据多且层级复杂，不利于建模且会对模型的表现产生影响。通过将匹配后的聚类结果作为第一特征，将各个变量对象的黑样本概率作为第二特征，替代原有的规则模板数据输入进行构建决策模型，不仅降低了数据涉及的层级，且保留了各个变量对象对决策结果的影响，使决策结果更为准确。决策模型可包括决策树、GBDT(Gradient BoostingDecision Tree)树模型、LDA(Linear Discriminant Analysis，线性判别式分析)模型等机器学习模型。当构建某个单据或是项目的审核决策模型时，可能对应一个或多个规则模板，则需分别得到各个规则模板对应的第一特征、第二特征，并替代原有的规则模板数据输入构建决策模型，当某些规则模板中的变量对象少时，可直接输入规则模板数据构建模型。

上述构建决策模型的方法，通过提取规则模板数据中的各个变量对象及各个模板样本，对变量对象进行聚类分析，得到聚类结果，并根据规则模板数据将聚类结果与各个模板样本进行匹配，匹配后的聚类结果作为第一特征，分别计算各个变量对象的黑样本概率，并将各个变量对象的黑样本概率作为第二特征，再通过第一特征与第二特征构建决策模型，通过对变量对象进行聚类分析，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响。此外，通过第一特征与第二特征构建的决策模型，使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图2所示，在一个实施例中，上述构建决策模型的方法，还包括：

步骤S210，按照预设算法将各个变量对象映射到预先定义的标签中。

具体的，标签用于指代各个变量对象映射之后对应的元素，可预先定义各个标签，并将变量对象映射到预先定义的标签中，预设算法可包括哈希方程，例如MD5(Message-Digest Algorithm 5，消息摘要算法第五版)、SHA(Secure Hash Algorithm，安全哈希算法)等，但不限于此。按照预设算法将各个变量对象映射到预先定义的标签中，例如，变量对象为A分行、B分行、C分行……，利用SHA算法将A分行及C分行映射到标签A中，将B分行映射到标签K中等，标签的个数可根据实际情况进行设定，一个标签下不会包含过多的变量对象，既能降低数据涉及的维度和层级，也能保留原有的一部分信息。

步骤S220，根据规则模板数据将标签与各个模板样本进行匹配，并将匹配后的标签作为第三特征。

具体的，可根据规则模板数据中变量对象与模板样本的匹配关系将标签与各个模板样本进行匹配，并将匹配后的标签作为第三特征进行建模。

步骤S230，通过第一特征、第二特征及第三特征构建决策模型。

具体的，将匹配后的聚类结果作为第一特征，将各个变量对象的黑样本概率作为第二特征，将匹配后的标签作为第三特征，并将第一特征、第二特征及第三特征替代所有的规则模板数据输入进行构建决策模型，不仅降低了数据涉及的层级，且保留了各个变量对象对决策结果的影响，使决策结果更为准确。

上述构建决策模型的方法，通过第一特征、第二特征及第三特征构建决策模型，通过对变量对象进行聚类分析及映射至预先定义的标签，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响，能使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图3所示，在一个实施例中，步骤S230通过第一特征、第二特征及第三特征构建决策模型，包括以下步骤：

步骤S302，建立原始节点。

具体的，在本实施例中，决策模型可为决策树模型，可先建立决策树的原始节点。

步骤S304，根据规则模板数据获取各个模板样本的结果类型。

具体的，模板样本的结果类型指的是模板样本的最终结果，例如黑样本、白样本等，从规则模板数据中可获取各个模板样本的结果类型。

步骤S306，分别遍历读取第一特征、第二特征及第三特征，生成读取记录。

具体的，分别遍历读取第一特征、第二特征及第三特征，生成读取记录，即分别遍历每一个可能的决策树分支，例如分别遍历读取第一特征，并生成用户1在组A有过不良贷款记录、用户2在组A有过不良贷款记录……的读取记录，分别遍历读取第二特征，并生成FK机构的黑样本概率为20％、CE机构的黑样本概率为15％……的读取记录等，每条读取记录均可能是决策树的一个分支。

步骤S308，根据各个模板样本的结果类型计算各条读取记录的分割纯度，并根据分割纯度确定分割点。

具体的，可通过计算基尼不纯度、熵、信息增益等来确定各条读取记录的分割纯度，其中，基尼不纯度指的是将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率，熵用于度量系统的混乱程度，信息增益则用来衡量一条读取记录区分模板样本的能力。计算各条读取记录的分割纯度可解释为若是按该读取记录划分模板样本，则预测得到的结果类型与真实的结果类型的差异有多大，差异越小，分割纯度越大，表示该条读取记录越纯。例如，基尼不纯度的计算公式可为：

G i n i = 1 - Σ_{i = 1}^{m} P {(i)}^{2},

则分割纯度＝1-基尼不纯度，其中，i∈{1，2，……，m}是指决策模型的m种最终结果，P(i)则是模板样本在使用该读取记录作为判断条件时的结果类型为该种最终结果的比例。

可按照各条读取记录的分割纯度的大小确定最佳分割点，分割纯度越大的读取条件优先作为分支，对原始节点进行分割。

步骤S310，获取与分割点对应的特征，并建立新的节点。

具体的，可获取与分割点对应的特征，并建立新的节点，例如，对各条读取记录计算分割纯度，可得到拥有最大分割纯度的读取记录为“用户1在组A有过不良贷款记录”，则可将原始节点分割成两个分支，一条为在组A有过不良贷款记录，另一条为在组A没有过不良贷款记录，并生成对应的节点，再对新的节点分别寻找下一个分割点，进行分割，直至所有的读取记录被添加到决策树中。

步骤S312，当满足预设条件时，停止建立新的节点，决策树构建完成。

具体的，预设条件可为所有的读取记录均作为节点被添加到决策树中，也可预先设定决策树的节点数据，当决策树的节点数据达到该设定的节点数据量，即停止建立新的节点，但不限于此。构建完决策树模型后，可对决策树进行修剪，剪除分割纯度小于预设的纯度值的读取记录对应的节点，使决策树的每个分支都具有较高的分割纯度。

上述构建决策模型的方法，分别遍历读取第一特征、第二特征及第三特征，生成读取记录，并根据各个模板样本的结果类型计算各条读取记录的分割纯度，根据分割纯度的大小确定分割点，构建决策模型，能使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图4所示，在一个实施例中，步骤S120对变量对象进行聚类分析，得到聚类结果，包括：

步骤S402，从变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心。

具体的，可从所有的变量对象中随机选择多个变量对象，并将选择的每个变量对象分别作为各个聚类的第一聚类中心，并分别对各个聚类进行命名，每个第一聚类中心对应一个聚类，也即聚类的个数与选择的变量对象的个数相同。

步骤S404，分别计算各个变量对象到各个第一聚类中心的距离。

在一个实施例中，步骤S404分别计算各个变量对象到各个第一聚类中心的距离，包括：

(a)根据规则模板数据获取各个变量对象的多维数据。

具体的，可从规则模板数据中获取各个变量对象的多维数据，多维数据指的是变量对象各个维度的相关数据，例如，变量对象为各个分行，多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。

(b)根据各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。

具体的，根据获取的各个变量对象的多维数据，可利用欧式距离、余弦相似度等公式计算两个变量对象之间的距离，分别计算各个变量对象到各个第一聚类中心的距离，例如，共有4个聚类，分别对应有4个第一聚类中心，则分别计算各个变量对象到第1个第一聚类中心的距离、到第2个第一聚类中心的距离……。

步骤S406，根据计算结果对各个变量对象进行划分，将变量对象划分到距离最短的第一聚类中心对应的聚类中。

具体的，分别计算各个变量对象到各个第一聚类中心的距离后，可将变量对象划分到距离最短的第一聚类中心对应的聚类中。在其它的实施例中，也可将计算得到的距离与预设的距离阈值比较，当变量对象与某第一聚类中心距离小于该距离阈值时，则将变量对象划分到该第一聚类中心对应的聚类中。

步骤S408，分别计算划分后的各个聚类的第二聚类中心。

具体的，划分完成后，每个聚类均可包括一个或多个变量对象，可利用均值公式重新计算各个聚类的第二聚类中心，重新选定各个聚类的中心。

步骤S410，判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值，若是，则执行步骤S414，若否，则执行步骤S412。

具体的，计算各个聚类的第一聚类中心与第二聚类中心的距离，并判断距离是否小于预设阈值，若是所有聚类的第一聚类中心与第二聚类中心的距离均小于预设阈值，说明每个聚类趋于稳定，不再发生变化，则可将各个聚类作为聚类结果输出。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值，则需要重新对各个聚类的变量对象进行划分。

步骤S412，将第二聚类中心替代对应的聚类的第一聚类中心，并继续执行步骤S404。

具体的，若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值，则将该聚类的第二聚类中心替代第一聚类中心，并重新执行分别计算各个变量对象到各个第一聚类中心的距离的步骤，重复执行步骤S404至S412，直至每个聚类趋于稳定，不再发生变化。

步骤S414，将各个聚类作为聚类结果输出。

上述构建决策模型的方法，对变量对象进行聚类分析，将相似的变量对象合并在一个聚类中，可减少数据涉及的层级，有利于构建决策模型。

如图5所示，一种构建决策模型的装置，包括提取模块510、聚类模块520、第一特征模块530、第二特征模块540及构建模块550。

提取模块510，用于获取规则模板数据，并提取规则模板数据中的各个变量对象及各个模板样本。

聚类模块520，用于对变量对象进行聚类分析，得到聚类结果。

第一特征模块530，用于根据规则模板数据将聚类结果与各个模板样本进行匹配，并将匹配后的聚类结果作为第一特征。

具体的，对变量对象进行聚类分析，得到聚类结果后，可根据规则模板数据中变量对象与模板样本的匹配关系将聚类结果与各个模板样本进行匹配。例如，规则模板为“贷款人曾在哪个相关机构有过不良记录”，规则模板数据包括用户1曾在FK机构有过不良记录、用户2曾在CE机构有过不良记录、用户3曾在KD机构有过不良记录……，对变量对象FK机构、CE机构、KD机构……进行聚类分析，得到分别以组A、组B、组C……命名的各个聚类，并将聚类结果与模板样本用户1、用户2、用户3……进行匹配。可如下表所示，表1表示规则模板数据中变量对象与模板样本的匹配关系，表2表示聚类结果与各个模板样本的匹配关系，可用“1”表示变量对象与模板样本或聚类结果的匹配关系，但不限于此。通过对变量对象进行聚类分析，明显可降低变量对象的层级，有利于建模。

第二特征模块540，分别计算各个变量对象的黑样本概率，并将各个变量对象的黑样本概率作为第二特征。

具体的，决策模型通常的输出结果为黑样本或白样本，黑样本指的是不通过审核的样本，白样本则指的是通过审核的样本，例如决策模型用于银行贷款资质审查，黑样本则指的是不通过贷款资质审查的用户，白样本则指的是通过贷款资质审查的用户。分别计算各个变量对象的黑样本概率，即对于各个变量对象在规则模板数据中，模板样本的结果类型为黑样本的概率占比多少，例如，规则模板为“贷款人曾在哪个相关机构有过不良记录”，则可计算“在KD机构有过不良记录的用户最终为黑样本的概率是多少”等。变量对象的黑样本概率的计算公式可为：黑样本概率＝该变量对象的黑样本个数/该变量对象的模板样本总数。可将计算得到的各个变量对象的黑样本概率以连续型变量的形式作为第二特征。在其它的实施例中，也可分别计算各个变量对象的WOE值，其计算公式为WOE＝ln(该变量对象的黑样本个数占总的黑样本个数的比例/该变量对象的白样本个数占总的白样本个数的比例)，WOE值越高，则表示该变量对象的模板样本是黑样本的概率越低。

构建模块550，用于通过第一特征与第二特征构建决策模型。

具体的，目前构建决策模型的方式是将所有的规则模板数据输入进行建模，规则模板数据多且层级复杂，不利于建模且会对模型的表现产生影响。通过将匹配后的聚类结果作为第一特征，将各个变量对象的黑样本概率作为第二特征，替代原有的规则模板数据输入进行构建决策模型，不仅降低了数据涉及的层级，且保留了各个变量对象对决策结果的影响，使决策结果更为准确。决策模型可包括决策树、GBDT树模型、LDA模型等机器学习模型。当构建某个单据或是项目的审核决策模型时，可能对应一个或多个规则模板，则需分别得到各个规则模板对应的第一特征、第二特征，并替代原有的规则模板数据输入构建决策模型，当某些规则模板中的变量对象少时，可直接输入规则模板数据构建模型。

上述构建决策模型的装置，通过提取规则模板数据中的各个变量对象及各个模板样本，对变量对象进行聚类分析，得到聚类结果，并根据规则模板数据将聚类结果与各个模板样本进行匹配，匹配后的聚类结果作为第一特征，分别计算各个变量对象的黑样本概率，并将各个变量对象的黑样本概率作为第二特征，再通过第一特征与第二特征构建决策模型，通过对变量对象进行聚类分析，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响。此外，通过第一特征与第二特征构建的决策模型，使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图6所示，在一个实施例中，上述构建决策模型的装置，除了包括提取模块510、聚类模块520、第一特征模块530、第二特征模块540及构建模块550，还包括映射模块560及第三特征模块570。

映射模块560，用于按照预设算法将各个变量对象映射到预先定义的标签中。

具体的，标签用于指代各个变量对象映射之后对应的元素，可预先定义各个标签，并将变量对象映射到预先定义的标签中，预设算法可包括哈希方程，例如MD5、SHA等，但不限于此。按照预设算法将各个变量对象映射到预先定义的标签中，例如，变量对象为A分行、B分行、C分行……，利用SHA算法将A分行及C分行映射到标签A中，将B分行映射到标签K中等，标签的个数可根据实际情况进行设定，一个标签下不会包含过多的变量对象，既能降低数据涉及的维度和层级，也能保留原有的一部分信息。

第三特征模块570，用于根据规则模板数据将标签与各个模板样本进行匹配，并将匹配后的标签作为第三特征。

构建模块550还用于通过第一特征、第二特征及第三特征构建决策模型。

上述构建决策模型的装置，通过第一特征、第二特征及第三特征构建决策模型，通过对变量对象进行聚类分析及映射至预先定义的标签，能降低数据涉及的维度及层级，有利于构建决策模型且减少对模型的表现的影响，能使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图7所示，在一个实施例中，构建模块550包括建立单元552、获取单元554、遍历单元556及计算纯度单元558。

建立单元552，用于建立原始节点。

获取单元554，用于根据规则模板数据获取各个模板样本的结果类型。

遍历单元556，用于分别遍历读取第一特征、第二特征及第三特征，生成读取记录。

计算纯度单元558，用于根据各个模板样本的结果类型计算各条读取记录的分割纯度，并根据分割纯度确定分割点。

G i n i = 1 - Σ_{i = 1}^{m} P {(i)}^{2},

建立单元552还用于获取与分割点对应的特征，并建立新的节点。

所述建立单元还用于当满足预设条件时，停止建立新的节点，决策树构建完成。

上述构建决策模型的装置，分别遍历读取第一特征、第二特征及第三特征，生成读取记录，并根据各个模板样本的结果类型计算各条读取记录的分割纯度，根据分割纯度的大小确定分割点，构建决策模型，能使模型的表现更为准确，能有效帮助快速处理需要进行复杂规则审核的业务，提高决策效率。

如图8所示，在一个实施例中，聚类模块520包括选择单元521、计算距离单元523、划分单元525、计算中心单元527及判断单元529。

选择单元521，用于从变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心，每个第一聚类中心对应一个聚类。

计算距离单元523，用于分别计算各个变量对象到各个第一聚类中心的距离。

计算距离单元523包括获取子单元232及计算子单元234。

获取子单元232，用于根据规则模板数据获取各个变量对象的多维数据。

计算子单元234，用于根据各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。

划分单元525，用于根据计算结果对各个变量对象进行划分，将变量对象划分到距离最短的第一聚类中心对应的聚类中。

计算中心单元527，用于分别计算划分后的各个聚类的第二聚类中心。

判断单元529，用于判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值，若是，则将各个聚类作为聚类结果输出，若否，则将第二聚类中心替代对应的聚类的第一聚类中心，并继续由计算距离单元523分别计算各个变量对象到各个第一聚类中心的距离。

具体的，计算各个聚类的第一聚类中心与第二聚类中心的距离，并判断距离是否小于预设阈值，若是所有聚类的第一聚类中心与第二聚类中心的距离均小于预设阈值，说明每个聚类趋于稳定，不再发生变化，则可将各个聚类作为聚类结果输出。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值，则需要重新对各个聚类的变量对象进行划分。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值，则将该聚类的第二聚类中心替代第一聚类中心，并重新执行分别计算各个变量对象到各个第一聚类中心的距离的步骤，重复执行步骤S404至S412，直至每个聚类趋于稳定，不再发生变化。

上述构建决策模型的装置，对变量对象进行聚类分析，将相似的变量对象合并在一个聚类中，可减少数据涉及的层级，有利于构建决策模型。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种构建决策模型的方法，其特征在于，包括以下步骤：

对所述变量对象进行聚类分析，得到聚类结果；

通过所述第一特征与所述第二特征构建决策模型。

2.根据权利要求1所述的构建决策模型的方法，其特征在于，在所述分别计算各个变量对象的黑样本概率，并将所述各个变量对象的黑样本概率作为第二特征的步骤之后，还包括：

按照预设算法将各个变量对象映射到预先定义的标签中；

3.根据权利要求2所述的构建决策模型的方法，其特征在于，所述通过所述第一特征、所述第二特征及所述第三特征构建决策模型，包括：

建立原始节点；

根据所述规则模板数据获取各个模板样本的结果类型；

获取与所述分割点对应的特征，并建立新的节点。

4.根据权利要求1所述的构建决策模型的方法，其特征在于，所述对所述变量对象进行聚类分析，得到聚类结果，包括：

分别计算各个变量对象到各个第一聚类中心的距离；

分别计算划分后的各个聚类的第二聚类中心；

5.根据权利要求4所述的构建决策模型的方法，其特征在于，所述分别计算各个变量对象到各个第一聚类中心的距离，包括：

根据所述规则模板数据获取各个变量对象的多维数据；

6.一种构建决策模型的装置，其特征在于，包括：

7.根据利要求6所述的构建决策模型的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的构建决策模型的装置，其特征在于，所述构建模块包括：

建立单元，用于建立原始节点；

9.根据权利要求6所述的构建决策模型的装置，其特征在于，所述聚类模块包括：

10.根据权利要求9所述的构建决策模型的装置，其特征在于，所述计算距离单元包括：