CN106384282A - 构建决策模型的方法和装置 - Google Patents

构建决策模型的方法和装置 Download PDF

Info

Publication number
CN106384282A
CN106384282A CN201610423436.0A CN201610423436A CN106384282A CN 106384282 A CN106384282 A CN 106384282A CN 201610423436 A CN201610423436 A CN 201610423436A CN 106384282 A CN106384282 A CN 106384282A
Authority
CN
China
Prior art keywords
cluster
variable object
feature
decision model
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610423436.0A
Other languages
English (en)
Inventor
吴双双
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201610423436.0A priority Critical patent/CN106384282A/zh
Publication of CN106384282A publication Critical patent/CN106384282A/zh
Priority to PCT/CN2017/083632 priority patent/WO2017215370A1/zh
Priority to EP17800988.2A priority patent/EP3358476A4/en
Priority to AU2017101866A priority patent/AU2017101866A4/en
Priority to SG11201709934XA priority patent/SG11201709934XA/en
Priority to KR1020187015350A priority patent/KR102178295B1/ko
Priority to AU2017268626A priority patent/AU2017268626A1/en
Priority to US15/579,240 priority patent/US20180307948A1/en
Priority to JP2017565704A priority patent/JP6402265B2/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

本发明涉及一种构建决策模型的方法和装置。上述方法包括以下步骤:获取规则模板数据,并提取所述规则模板数据中的各个变量对象及各个模板样本;对所述变量对象进行聚类分析,得到聚类结果;根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征;分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征;通过所述第一特征与所述第二特征构建决策模型。上述构建决策模型的方法和装置,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响。

Description

构建决策模型的方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种构建决策模型的方法和装置。
背景技术
在保险、医疗等行业中,经常有许多单据或项目审核,例如保险公司核保初步审查、银行贷款资质审查、医保欺诈案例审查等,这些单据或项目审查大多完全依靠人工或者基于复杂规则进行审核。依靠人工审核需消耗大量人力与时间,而复杂规则通常涉及对多维度、分类层级较复杂的因素进行判断,建模困难且更新缓慢,灵活性差,且数据涉及的维度及层级过多会对模型的表现产生影响,不利于业务决策。
发明内容
基于此,有必要提供一种构建决策模型的方法,能降低数据涉及的维度及层级,适于构建决策模型。
此外,还有必要提供一种构建决策模型的装置,能降低数据涉及的维度及层级,适于构建决策模型。
一种构建决策模型的方法,包括以下步骤:
获取规则模板数据,并提取所述规则模板数据中的各个变量对象及各个模板样本;
对所述变量对象进行聚类分析,得到聚类结果;
根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征;
分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征;
通过所述第一特征与所述第二特征构建决策模型。
在其中一个实施例中,在所述分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征的步骤之后,还包括:
按照预设算法将各个变量对象映射到预先定义的标签中;
根据所述规则模板数据将所述标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征;
所述通过所述第一特征与所述第二特征构建决策模型,具体包括:
通过所述第一特征、所述第二特征及所述第三特征构建决策模型。
在其中一个实施例中,所述通过所述第一特征、所述第二特征及所述第三特征构建决策模型,包括:
建立原始节点;
根据所述规则模板数据获取各个模板样本的结果类型;
分别遍历读取所述第一特征、所述第二特征及所述第三特征,生成读取记录;
根据所述各个模板样本的结果类型计算各条读取记录的分割纯度,并根据所述分割纯度确定分割点;
获取与所述分割点对应的特征,并建立新的节点。
在其中一个实施例中,所述对所述变量对象进行聚类分析,得到聚类结果,包括:
从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心,每个第一聚类中心对应一个聚类;
分别计算各个变量对象到各个第一聚类中心的距离;
根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中;
分别计算划分后的各个聚类的第二聚类中心;
判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则将各个聚类作为聚类结果输出,若否,则将第二聚类中心替代对应的聚类的第一聚类中心,并继续执行所述分别计算各个变量对象到各个第一聚类中心的距离的步骤。
在其中一个实施例中,所述分别计算各个变量对象到各个第一聚类中心的距离,包括:
根据所述规则模板数据获取各个变量对象的多维数据;
根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
一种构建决策模型的装置,包括:
提取模块,用于获取规则模板数据,并提取所述规则模板数据中的各个变量对象及各个模板样本;
聚类模块,用于对所述变量对象进行聚类分析,得到聚类结果;
第一特征模块,用于根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征;
第二特征模块,分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征;
构建模块,用于通过所述第一特征与所述第二特征构建决策模型。
在其中一个实施例中,所述装置还包括:
映射模块,用于按照预设算法将各个变量对象映射到预先定义的标签中;
第三特征模块,用于根据所述规则模板数据将所述标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征;
所述构建模块还用于通过所述第一特征、所述第二特征及所述第三特征构建决策模型。
在其中一个实施例中,所述构建模块包括:
建立单元,用于建立原始节点;
获取单元,用于根据所述规则模板数据获取各个模板样本的结果类型;
遍历单元,用于分别遍历读取所述第一特征、所述第二特征及所述第三特征,生成读取记录;
计算纯度单元,用于根据所述各个模板样本的结果类型计算各条读取记录的分割纯度,并根据所述分割纯度确定分割点;
所述建立单元还用于获取与所述分割点对应的特征,并建立新的节点。
在其中一个实施例中,所述聚类模块包括:
选择单元,用于从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心,每个第一聚类中心对应一个聚类;
计算距离单元,用于分别计算各个变量对象到各个第一聚类中心的距离;
划分单元,用于根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中;
计算中心单元,用于分别计算划分后的各个聚类的第二聚类中心;
判断单元,用于判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则将各个聚类作为聚类结果输出,若否,则将第二聚类中心替代对应的聚类的第一聚类中心,并继续由所述计算距离单元分别计算各个变量对象到各个第一聚类中心的距离。
在其中一个实施例中,所述计算距离单元包括:
获取子单元,用于根据所述规则模板数据获取各个变量对象的多维数据;
计算子单元,用于根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
上述构建决策模型的方法和装置,通过提取规则模板数据中的各个变量对象及各个模板样本,对变量对象进行聚类分析,得到聚类结果,并根据规则模板数据将聚类结果与各个模板样本进行匹配,匹配后的聚类结果作为第一特征,分别计算各个变量对象的黑样本概率,并将各个变量对象的黑样本概率作为第二特征,再通过第一特征与第二特征构建决策模型,通过对变量对象进行聚类分析,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响。此外,通过第一特征与第二特征构建的决策模型,使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
附图说明
图1为一个实施例中构建决策模型的方法的流程示意图;
图2为另一个实施例中构建决策模型的方法的流程示意图;
图3为一个实施例中如何构建决策模型的流程示意图;
图4为一个实施例中对变量对象进行聚类分析的流程示意图;
图5为一个实施例中构建决策模型的装置的结构示意图;
图6为另一个实施例中构建决策模型的装置的结构示意图;
图7为一个实施例中构建模块的内部结构示意图;
图8为一个实施例中聚类模块的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种构建决策模型的方法,包括以下步骤:
步骤S110,获取规则模板数据,并提取规则模板数据中的各个变量对象及各个模板样本。
具体的,规则模板指的是用于帮助确定审核结果的一套标准,一个单据或项目的审核可能对应一个或多个规则模板,例如,审核贷款人信用度,可包括“货款人在哪几个分行进行贷款”、“贷款人曾在哪个机关机构有过不良记录”等规则模板。每个不同的规则模板均有其对应的规则模板数据,其中,规则模板数据中可包括各个变量对象、各个模板样本,以及变量对象与模板样本之间的匹配关系,变量对象为定性类型的变量,每个变量对象对应规则模板中一个不同的类别,例如,规则模板为“货款人在哪几个分行进行贷款”,对应的规则模板数据可包括用户1在A分行进行贷款、用户2在B分行进行贷款、用户3在C分行进行贷款……,其中,A分行、B分行、C分行等各个分行即为变量对象,用户1、用户2、用户3等即为模板样本。
步骤S120,对变量对象进行聚类分析,得到聚类结果。
具体的,可提取各个变量对象的多维数据,并根据多维数据对变量对象进行聚类分析,多维数据指的是变量对象各个维度的相关数据,例如,变量对象为各个分行,多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。聚类分析指的是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,通过对变量对象进行聚类分析,可将相似或相近的变量对象进行聚类,可降低变量对象的层级。例如,变量对象包括A分行、B分行、C分行、D分行……,对变量对象进行聚类分析,A分行与B分析较为相似,分到A组,C分行与D分行较为相似,分到B组……,变量对象由原来的各个分行的层级降为各个组别的层级。对变量对象进行聚类分析后,可得到由各个聚类组成的聚类结果。
步骤S130,根据规则模板数据将聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征。
具体的,对变量对象进行聚类分析,得到聚类结果后,可根据规则模板数据中变量对象与模板样本的匹配关系将聚类结果与各个模板样本进行匹配。例如,规则模板为“贷款人曾在哪个相关机构有过不良记录”,规则模板数据包括用户1曾在FK机构有过不良记录、用户2曾在CE机构有过不良记录、用户3曾在KD机构有过不良记录……,对变量对象FK机构、CE机构、KD机构……进行聚类分析,得到分别以组A、组B、组C……命名的各个聚类,并将聚类结果与模板样本用户1、用户2、用户3……进行匹配。可如下表所示,表1表示规则模板数据中变量对象与模板样本的匹配关系,表2表示聚类结果与各个模板样本的匹配关系,可用“1”表示变量对象与模板样本或聚类结果的匹配关系,但不限于此。
表1
表2
通过对变量对象进行聚类分析,明显可降低变量对象的层级,有利于建模。
步骤S140,分别计算各个变量对象的黑样本概率,并将各个变量对象的黑样本概率作为第二特征。
具体的,决策模型通常的输出结果为黑样本或白样本,黑样本指的是不通过审核的样本,白样本则指的是通过审核的样本,例如决策模型用于银行贷款资质审查,黑样本则指的是不通过贷款资质审查的用户,白样本则指的是通过贷款资质审查的用户。分别计算各个变量对象的黑样本概率,即对于各个变量对象在规则模板数据中,模板样本的结果类型为黑样本的概率占比多少,例如,规则模板为“贷款人曾在哪个相关机构有过不良记录”,则可计算“在KD机构有过不良记录的用户最终为黑样本的概率是多少”等。变量对象的黑样本概率的计算公式可为:黑样本概率=该变量对象的黑样本个数/该变量对象的模板样本总数。可将计算得到的各个变量对象的黑样本概率以连续型变量的形式作为第二特征。在其它的实施例中,也可分别计算各个变量对象的WOE(weight-of-evidence,证据权重)值,其计算公式为WOE=ln(该变量对象的黑样本个数占总的黑样本个数的比例/该变量对象的白样本个数占总的白样本个数的比例),WOE值越高,则表示该变量对象的模板样本是黑样本的概率越低。
步骤S150,通过第一特征与第二特征构建决策模型。
具体的,目前构建决策模型的方式是将所有的规则模板数据输入进行建模,规则模板数据多且层级复杂,不利于建模且会对模型的表现产生影响。通过将匹配后的聚类结果作为第一特征,将各个变量对象的黑样本概率作为第二特征,替代原有的规则模板数据输入进行构建决策模型,不仅降低了数据涉及的层级,且保留了各个变量对象对决策结果的影响,使决策结果更为准确。决策模型可包括决策树、GBDT(Gradient BoostingDecision Tree)树模型、LDA(Linear Discriminant Analysis,线性判别式分析)模型等机器学习模型。当构建某个单据或是项目的审核决策模型时,可能对应一个或多个规则模板,则需分别得到各个规则模板对应的第一特征、第二特征,并替代原有的规则模板数据输入构建决策模型,当某些规则模板中的变量对象少时,可直接输入规则模板数据构建模型。
上述构建决策模型的方法,通过提取规则模板数据中的各个变量对象及各个模板样本,对变量对象进行聚类分析,得到聚类结果,并根据规则模板数据将聚类结果与各个模板样本进行匹配,匹配后的聚类结果作为第一特征,分别计算各个变量对象的黑样本概率,并将各个变量对象的黑样本概率作为第二特征,再通过第一特征与第二特征构建决策模型,通过对变量对象进行聚类分析,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响。此外,通过第一特征与第二特征构建的决策模型,使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图2所示,在一个实施例中,上述构建决策模型的方法,还包括:
步骤S210,按照预设算法将各个变量对象映射到预先定义的标签中。
具体的,标签用于指代各个变量对象映射之后对应的元素,可预先定义各个标签,并将变量对象映射到预先定义的标签中,预设算法可包括哈希方程,例如MD5(Message-Digest Algorithm 5,消息摘要算法第五版)、SHA(Secure Hash Algorithm,安全哈希算法)等,但不限于此。按照预设算法将各个变量对象映射到预先定义的标签中,例如,变量对象为A分行、B分行、C分行……,利用SHA算法将A分行及C分行映射到标签A中,将B分行映射到标签K中等,标签的个数可根据实际情况进行设定,一个标签下不会包含过多的变量对象,既能降低数据涉及的维度和层级,也能保留原有的一部分信息。
步骤S220,根据规则模板数据将标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征。
具体的,可根据规则模板数据中变量对象与模板样本的匹配关系将标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征进行建模。
步骤S230,通过第一特征、第二特征及第三特征构建决策模型。
具体的,将匹配后的聚类结果作为第一特征,将各个变量对象的黑样本概率作为第二特征,将匹配后的标签作为第三特征,并将第一特征、第二特征及第三特征替代所有的规则模板数据输入进行构建决策模型,不仅降低了数据涉及的层级,且保留了各个变量对象对决策结果的影响,使决策结果更为准确。
上述构建决策模型的方法,通过第一特征、第二特征及第三特征构建决策模型,通过对变量对象进行聚类分析及映射至预先定义的标签,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响,能使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图3所示,在一个实施例中,步骤S230通过第一特征、第二特征及第三特征构建决策模型,包括以下步骤:
步骤S302,建立原始节点。
具体的,在本实施例中,决策模型可为决策树模型,可先建立决策树的原始节点。
步骤S304,根据规则模板数据获取各个模板样本的结果类型。
具体的,模板样本的结果类型指的是模板样本的最终结果,例如黑样本、白样本等,从规则模板数据中可获取各个模板样本的结果类型。
步骤S306,分别遍历读取第一特征、第二特征及第三特征,生成读取记录。
具体的,分别遍历读取第一特征、第二特征及第三特征,生成读取记录,即分别遍历每一个可能的决策树分支,例如分别遍历读取第一特征,并生成用户1在组A有过不良贷款记录、用户2在组A有过不良贷款记录……的读取记录,分别遍历读取第二特征,并生成FK机构的黑样本概率为20%、CE机构的黑样本概率为15%……的读取记录等,每条读取记录均可能是决策树的一个分支。
步骤S308,根据各个模板样本的结果类型计算各条读取记录的分割纯度,并根据分割纯度确定分割点。
具体的,可通过计算基尼不纯度、熵、信息增益等来确定各条读取记录的分割纯度,其中,基尼不纯度指的是将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率,熵用于度量系统的混乱程度,信息增益则用来衡量一条读取记录区分模板样本的能力。计算各条读取记录的分割纯度可解释为若是按该读取记录划分模板样本,则预测得到的结果类型与真实的结果类型的差异有多大,差异越小,分割纯度越大,表示该条读取记录越纯。例如,基尼不纯度的计算公式可为:
G i n i = 1 - Σ i = 1 m P ( i ) 2 ,
则分割纯度=1-基尼不纯度,其中,i∈{1,2,……,m}是指决策模型的m种最终结果,P(i)则是模板样本在使用该读取记录作为判断条件时的结果类型为该种最终结果的比例。
可按照各条读取记录的分割纯度的大小确定最佳分割点,分割纯度越大的读取条件优先作为分支,对原始节点进行分割。
步骤S310,获取与分割点对应的特征,并建立新的节点。
具体的,可获取与分割点对应的特征,并建立新的节点,例如,对各条读取记录计算分割纯度,可得到拥有最大分割纯度的读取记录为“用户1在组A有过不良贷款记录”,则可将原始节点分割成两个分支,一条为在组A有过不良贷款记录,另一条为在组A没有过不良贷款记录,并生成对应的节点,再对新的节点分别寻找下一个分割点,进行分割,直至所有的读取记录被添加到决策树中。
步骤S312,当满足预设条件时,停止建立新的节点,决策树构建完成。
具体的,预设条件可为所有的读取记录均作为节点被添加到决策树中,也可预先设定决策树的节点数据,当决策树的节点数据达到该设定的节点数据量,即停止建立新的节点,但不限于此。构建完决策树模型后,可对决策树进行修剪,剪除分割纯度小于预设的纯度值的读取记录对应的节点,使决策树的每个分支都具有较高的分割纯度。
上述构建决策模型的方法,分别遍历读取第一特征、第二特征及第三特征,生成读取记录,并根据各个模板样本的结果类型计算各条读取记录的分割纯度,根据分割纯度的大小确定分割点,构建决策模型,能使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图4所示,在一个实施例中,步骤S120对变量对象进行聚类分析,得到聚类结果,包括:
步骤S402,从变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心。
具体的,可从所有的变量对象中随机选择多个变量对象,并将选择的每个变量对象分别作为各个聚类的第一聚类中心,并分别对各个聚类进行命名,每个第一聚类中心对应一个聚类,也即聚类的个数与选择的变量对象的个数相同。
步骤S404,分别计算各个变量对象到各个第一聚类中心的距离。
在一个实施例中,步骤S404分别计算各个变量对象到各个第一聚类中心的距离,包括:
(a)根据规则模板数据获取各个变量对象的多维数据。
具体的,可从规则模板数据中获取各个变量对象的多维数据,多维数据指的是变量对象各个维度的相关数据,例如,变量对象为各个分行,多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。
(b)根据各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
具体的,根据获取的各个变量对象的多维数据,可利用欧式距离、余弦相似度等公式计算两个变量对象之间的距离,分别计算各个变量对象到各个第一聚类中心的距离,例如,共有4个聚类,分别对应有4个第一聚类中心,则分别计算各个变量对象到第1个第一聚类中心的距离、到第2个第一聚类中心的距离……。
步骤S406,根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中。
具体的,分别计算各个变量对象到各个第一聚类中心的距离后,可将变量对象划分到距离最短的第一聚类中心对应的聚类中。在其它的实施例中,也可将计算得到的距离与预设的距离阈值比较,当变量对象与某第一聚类中心距离小于该距离阈值时,则将变量对象划分到该第一聚类中心对应的聚类中。
步骤S408,分别计算划分后的各个聚类的第二聚类中心。
具体的,划分完成后,每个聚类均可包括一个或多个变量对象,可利用均值公式重新计算各个聚类的第二聚类中心,重新选定各个聚类的中心。
步骤S410,判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则执行步骤S414,若否,则执行步骤S412。
具体的,计算各个聚类的第一聚类中心与第二聚类中心的距离,并判断距离是否小于预设阈值,若是所有聚类的第一聚类中心与第二聚类中心的距离均小于预设阈值,说明每个聚类趋于稳定,不再发生变化,则可将各个聚类作为聚类结果输出。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值,则需要重新对各个聚类的变量对象进行划分。
步骤S412,将第二聚类中心替代对应的聚类的第一聚类中心,并继续执行步骤S404。
具体的,若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值,则将该聚类的第二聚类中心替代第一聚类中心,并重新执行分别计算各个变量对象到各个第一聚类中心的距离的步骤,重复执行步骤S404至S412,直至每个聚类趋于稳定,不再发生变化。
步骤S414,将各个聚类作为聚类结果输出。
上述构建决策模型的方法,对变量对象进行聚类分析,将相似的变量对象合并在一个聚类中,可减少数据涉及的层级,有利于构建决策模型。
如图5所示,一种构建决策模型的装置,包括提取模块510、聚类模块520、第一特征模块530、第二特征模块540及构建模块550。
提取模块510,用于获取规则模板数据,并提取规则模板数据中的各个变量对象及各个模板样本。
具体的,规则模板指的是用于帮助确定审核结果的一套标准,一个单据或项目的审核可能对应一个或多个规则模板,例如,审核贷款人信用度,可包括“货款人在哪几个分行进行贷款”、“贷款人曾在哪个机关机构有过不良记录”等规则模板。每个不同的规则模板均有其对应的规则模板数据,其中,规则模板数据中可包括各个变量对象、各个模板样本,以及变量对象与模板样本之间的匹配关系,变量对象为定性类型的变量,每个变量对象对应规则模板中一个不同的类别,例如,规则模板为“货款人在哪几个分行进行贷款”,对应的规则模板数据可包括用户1在A分行进行贷款、用户2在B分行进行贷款、用户3在C分行进行贷款……,其中,A分行、B分行、C分行等各个分行即为变量对象,用户1、用户2、用户3等即为模板样本。
聚类模块520,用于对变量对象进行聚类分析,得到聚类结果。
具体的,可提取各个变量对象的多维数据,并根据多维数据对变量对象进行聚类分析,多维数据指的是变量对象各个维度的相关数据,例如,变量对象为各个分行,多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。聚类分析指的是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,通过对变量对象进行聚类分析,可将相似或相近的变量对象进行聚类,可降低变量对象的层级。例如,变量对象包括A分行、B分行、C分行、D分行……,对变量对象进行聚类分析,A分行与B分析较为相似,分到A组,C分行与D分行较为相似,分到B组……,变量对象由原来的各个分行的层级降为各个组别的层级。对变量对象进行聚类分析后,可得到由各个聚类组成的聚类结果。
第一特征模块530,用于根据规则模板数据将聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征。
具体的,对变量对象进行聚类分析,得到聚类结果后,可根据规则模板数据中变量对象与模板样本的匹配关系将聚类结果与各个模板样本进行匹配。例如,规则模板为“贷款人曾在哪个相关机构有过不良记录”,规则模板数据包括用户1曾在FK机构有过不良记录、用户2曾在CE机构有过不良记录、用户3曾在KD机构有过不良记录……,对变量对象FK机构、CE机构、KD机构……进行聚类分析,得到分别以组A、组B、组C……命名的各个聚类,并将聚类结果与模板样本用户1、用户2、用户3……进行匹配。可如下表所示,表1表示规则模板数据中变量对象与模板样本的匹配关系,表2表示聚类结果与各个模板样本的匹配关系,可用“1”表示变量对象与模板样本或聚类结果的匹配关系,但不限于此。通过对变量对象进行聚类分析,明显可降低变量对象的层级,有利于建模。
第二特征模块540,分别计算各个变量对象的黑样本概率,并将各个变量对象的黑样本概率作为第二特征。
具体的,决策模型通常的输出结果为黑样本或白样本,黑样本指的是不通过审核的样本,白样本则指的是通过审核的样本,例如决策模型用于银行贷款资质审查,黑样本则指的是不通过贷款资质审查的用户,白样本则指的是通过贷款资质审查的用户。分别计算各个变量对象的黑样本概率,即对于各个变量对象在规则模板数据中,模板样本的结果类型为黑样本的概率占比多少,例如,规则模板为“贷款人曾在哪个相关机构有过不良记录”,则可计算“在KD机构有过不良记录的用户最终为黑样本的概率是多少”等。变量对象的黑样本概率的计算公式可为:黑样本概率=该变量对象的黑样本个数/该变量对象的模板样本总数。可将计算得到的各个变量对象的黑样本概率以连续型变量的形式作为第二特征。在其它的实施例中,也可分别计算各个变量对象的WOE值,其计算公式为WOE=ln(该变量对象的黑样本个数占总的黑样本个数的比例/该变量对象的白样本个数占总的白样本个数的比例),WOE值越高,则表示该变量对象的模板样本是黑样本的概率越低。
构建模块550,用于通过第一特征与第二特征构建决策模型。
具体的,目前构建决策模型的方式是将所有的规则模板数据输入进行建模,规则模板数据多且层级复杂,不利于建模且会对模型的表现产生影响。通过将匹配后的聚类结果作为第一特征,将各个变量对象的黑样本概率作为第二特征,替代原有的规则模板数据输入进行构建决策模型,不仅降低了数据涉及的层级,且保留了各个变量对象对决策结果的影响,使决策结果更为准确。决策模型可包括决策树、GBDT树模型、LDA模型等机器学习模型。当构建某个单据或是项目的审核决策模型时,可能对应一个或多个规则模板,则需分别得到各个规则模板对应的第一特征、第二特征,并替代原有的规则模板数据输入构建决策模型,当某些规则模板中的变量对象少时,可直接输入规则模板数据构建模型。
上述构建决策模型的装置,通过提取规则模板数据中的各个变量对象及各个模板样本,对变量对象进行聚类分析,得到聚类结果,并根据规则模板数据将聚类结果与各个模板样本进行匹配,匹配后的聚类结果作为第一特征,分别计算各个变量对象的黑样本概率,并将各个变量对象的黑样本概率作为第二特征,再通过第一特征与第二特征构建决策模型,通过对变量对象进行聚类分析,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响。此外,通过第一特征与第二特征构建的决策模型,使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图6所示,在一个实施例中,上述构建决策模型的装置,除了包括提取模块510、聚类模块520、第一特征模块530、第二特征模块540及构建模块550,还包括映射模块560及第三特征模块570。
映射模块560,用于按照预设算法将各个变量对象映射到预先定义的标签中。
具体的,标签用于指代各个变量对象映射之后对应的元素,可预先定义各个标签,并将变量对象映射到预先定义的标签中,预设算法可包括哈希方程,例如MD5、SHA等,但不限于此。按照预设算法将各个变量对象映射到预先定义的标签中,例如,变量对象为A分行、B分行、C分行……,利用SHA算法将A分行及C分行映射到标签A中,将B分行映射到标签K中等,标签的个数可根据实际情况进行设定,一个标签下不会包含过多的变量对象,既能降低数据涉及的维度和层级,也能保留原有的一部分信息。
第三特征模块570,用于根据规则模板数据将标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征。
具体的,可根据规则模板数据中变量对象与模板样本的匹配关系将标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征进行建模。
构建模块550还用于通过第一特征、第二特征及第三特征构建决策模型。
具体的,将匹配后的聚类结果作为第一特征,将各个变量对象的黑样本概率作为第二特征,将匹配后的标签作为第三特征,并将第一特征、第二特征及第三特征替代所有的规则模板数据输入进行构建决策模型,不仅降低了数据涉及的层级,且保留了各个变量对象对决策结果的影响,使决策结果更为准确。
上述构建决策模型的装置,通过第一特征、第二特征及第三特征构建决策模型,通过对变量对象进行聚类分析及映射至预先定义的标签,能降低数据涉及的维度及层级,有利于构建决策模型且减少对模型的表现的影响,能使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图7所示,在一个实施例中,构建模块550包括建立单元552、获取单元554、遍历单元556及计算纯度单元558。
建立单元552,用于建立原始节点。
具体的,在本实施例中,决策模型可为决策树模型,可先建立决策树的原始节点。
获取单元554,用于根据规则模板数据获取各个模板样本的结果类型。
具体的,模板样本的结果类型指的是模板样本的最终结果,例如黑样本、白样本等,从规则模板数据中可获取各个模板样本的结果类型。
遍历单元556,用于分别遍历读取第一特征、第二特征及第三特征,生成读取记录。
具体的,分别遍历读取第一特征、第二特征及第三特征,生成读取记录,即分别遍历每一个可能的决策树分支,例如分别遍历读取第一特征,并生成用户1在组A有过不良贷款记录、用户2在组A有过不良贷款记录……的读取记录,分别遍历读取第二特征,并生成FK机构的黑样本概率为20%、CE机构的黑样本概率为15%……的读取记录等,每条读取记录均可能是决策树的一个分支。
计算纯度单元558,用于根据各个模板样本的结果类型计算各条读取记录的分割纯度,并根据分割纯度确定分割点。
具体的,可通过计算基尼不纯度、熵、信息增益等来确定各条读取记录的分割纯度,其中,基尼不纯度指的是将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率,熵用于度量系统的混乱程度,信息增益则用来衡量一条读取记录区分模板样本的能力。计算各条读取记录的分割纯度可解释为若是按该读取记录划分模板样本,则预测得到的结果类型与真实的结果类型的差异有多大,差异越小,分割纯度越大,表示该条读取记录越纯。例如,基尼不纯度的计算公式可为:
G i n i = 1 - Σ i = 1 m P ( i ) 2 ,
则分割纯度=1-基尼不纯度,其中,i∈{1,2,……,m}是指决策模型的m种最终结果,P(i)则是模板样本在使用该读取记录作为判断条件时的结果类型为该种最终结果的比例。
可按照各条读取记录的分割纯度的大小确定最佳分割点,分割纯度越大的读取条件优先作为分支,对原始节点进行分割。
建立单元552还用于获取与分割点对应的特征,并建立新的节点。
具体的,可获取与分割点对应的特征,并建立新的节点,例如,对各条读取记录计算分割纯度,可得到拥有最大分割纯度的读取记录为“用户1在组A有过不良贷款记录”,则可将原始节点分割成两个分支,一条为在组A有过不良贷款记录,另一条为在组A没有过不良贷款记录,并生成对应的节点,再对新的节点分别寻找下一个分割点,进行分割,直至所有的读取记录被添加到决策树中。
所述建立单元还用于当满足预设条件时,停止建立新的节点,决策树构建完成。
具体的,预设条件可为所有的读取记录均作为节点被添加到决策树中,也可预先设定决策树的节点数据,当决策树的节点数据达到该设定的节点数据量,即停止建立新的节点,但不限于此。构建完决策树模型后,可对决策树进行修剪,剪除分割纯度小于预设的纯度值的读取记录对应的节点,使决策树的每个分支都具有较高的分割纯度。
上述构建决策模型的装置,分别遍历读取第一特征、第二特征及第三特征,生成读取记录,并根据各个模板样本的结果类型计算各条读取记录的分割纯度,根据分割纯度的大小确定分割点,构建决策模型,能使模型的表现更为准确,能有效帮助快速处理需要进行复杂规则审核的业务,提高决策效率。
如图8所示,在一个实施例中,聚类模块520包括选择单元521、计算距离单元523、划分单元525、计算中心单元527及判断单元529。
选择单元521,用于从变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心,每个第一聚类中心对应一个聚类。
具体的,可从所有的变量对象中随机选择多个变量对象,并将选择的每个变量对象分别作为各个聚类的第一聚类中心,并分别对各个聚类进行命名,每个第一聚类中心对应一个聚类,也即聚类的个数与选择的变量对象的个数相同。
计算距离单元523,用于分别计算各个变量对象到各个第一聚类中心的距离。
计算距离单元523包括获取子单元232及计算子单元234。
获取子单元232,用于根据规则模板数据获取各个变量对象的多维数据。
具体的,可从规则模板数据中获取各个变量对象的多维数据,多维数据指的是变量对象各个维度的相关数据,例如,变量对象为各个分行,多维数据可包括各个分行的总贷款人数、总贷款量、贷款平均周期、分行规模、地理位置等。
计算子单元234,用于根据各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
具体的,根据获取的各个变量对象的多维数据,可利用欧式距离、余弦相似度等公式计算两个变量对象之间的距离,分别计算各个变量对象到各个第一聚类中心的距离,例如,共有4个聚类,分别对应有4个第一聚类中心,则分别计算各个变量对象到第1个第一聚类中心的距离、到第2个第一聚类中心的距离……。
划分单元525,用于根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中。
具体的,分别计算各个变量对象到各个第一聚类中心的距离后,可将变量对象划分到距离最短的第一聚类中心对应的聚类中。在其它的实施例中,也可将计算得到的距离与预设的距离阈值比较,当变量对象与某第一聚类中心距离小于该距离阈值时,则将变量对象划分到该第一聚类中心对应的聚类中。
计算中心单元527,用于分别计算划分后的各个聚类的第二聚类中心。
具体的,划分完成后,每个聚类均可包括一个或多个变量对象,可利用均值公式重新计算各个聚类的第二聚类中心,重新选定各个聚类的中心。
判断单元529,用于判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则将各个聚类作为聚类结果输出,若否,则将第二聚类中心替代对应的聚类的第一聚类中心,并继续由计算距离单元523分别计算各个变量对象到各个第一聚类中心的距离。
具体的,计算各个聚类的第一聚类中心与第二聚类中心的距离,并判断距离是否小于预设阈值,若是所有聚类的第一聚类中心与第二聚类中心的距离均小于预设阈值,说明每个聚类趋于稳定,不再发生变化,则可将各个聚类作为聚类结果输出。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值,则需要重新对各个聚类的变量对象进行划分。若聚类的第一聚类中心与第二聚类中心的距离不小于预设阈值,则将该聚类的第二聚类中心替代第一聚类中心,并重新执行分别计算各个变量对象到各个第一聚类中心的距离的步骤,重复执行步骤S404至S412,直至每个聚类趋于稳定,不再发生变化。
上述构建决策模型的装置,对变量对象进行聚类分析,将相似的变量对象合并在一个聚类中,可减少数据涉及的层级,有利于构建决策模型。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种构建决策模型的方法,其特征在于,包括以下步骤:
获取规则模板数据,并提取所述规则模板数据中的各个变量对象及各个模板样本;
对所述变量对象进行聚类分析,得到聚类结果;
根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征;
分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征;
通过所述第一特征与所述第二特征构建决策模型。
2.根据权利要求1所述的构建决策模型的方法,其特征在于,在所述分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征的步骤之后,还包括:
按照预设算法将各个变量对象映射到预先定义的标签中;
根据所述规则模板数据将所述标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征;
所述通过所述第一特征与所述第二特征构建决策模型,具体包括:
通过所述第一特征、所述第二特征及所述第三特征构建决策模型。
3.根据权利要求2所述的构建决策模型的方法,其特征在于,所述通过所述第一特征、所述第二特征及所述第三特征构建决策模型,包括:
建立原始节点;
根据所述规则模板数据获取各个模板样本的结果类型;
分别遍历读取所述第一特征、所述第二特征及所述第三特征,生成读取记录;
根据所述各个模板样本的结果类型计算各条读取记录的分割纯度,并根据所述分割纯度确定分割点;
获取与所述分割点对应的特征,并建立新的节点。
4.根据权利要求1所述的构建决策模型的方法,其特征在于,所述对所述变量对象进行聚类分析,得到聚类结果,包括:
从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心,每个第一聚类中心对应一个聚类;
分别计算各个变量对象到各个第一聚类中心的距离;
根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中;
分别计算划分后的各个聚类的第二聚类中心;
判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则将各个聚类作为聚类结果输出,若否,则将第二聚类中心替代对应的聚类的第一聚类中心,并继续执行所述分别计算各个变量对象到各个第一聚类中心的距离的步骤。
5.根据权利要求4所述的构建决策模型的方法,其特征在于,所述分别计算各个变量对象到各个第一聚类中心的距离,包括:
根据所述规则模板数据获取各个变量对象的多维数据;
根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
6.一种构建决策模型的装置,其特征在于,包括:
提取模块,用于获取规则模板数据,并提取所述规则模板数据中的各个变量对象及各个模板样本;
聚类模块,用于对所述变量对象进行聚类分析,得到聚类结果;
第一特征模块,用于根据所述规则模板数据将所述聚类结果与各个模板样本进行匹配,并将匹配后的聚类结果作为第一特征;
第二特征模块,分别计算各个变量对象的黑样本概率,并将所述各个变量对象的黑样本概率作为第二特征;
构建模块,用于通过所述第一特征与所述第二特征构建决策模型。
7.根据利要求6所述的构建决策模型的装置,其特征在于,所述装置还包括:
映射模块,用于按照预设算法将各个变量对象映射到预先定义的标签中;
第三特征模块,用于根据所述规则模板数据将所述标签与各个模板样本进行匹配,并将匹配后的标签作为第三特征;
所述构建模块还用于通过所述第一特征、所述第二特征及所述第三特征构建决策模型。
8.根据权利要求7所述的构建决策模型的装置,其特征在于,所述构建模块包括:
建立单元,用于建立原始节点;
获取单元,用于根据所述规则模板数据获取各个模板样本的结果类型;
遍历单元,用于分别遍历读取所述第一特征、所述第二特征及所述第三特征,生成读取记录;
计算纯度单元,用于根据所述各个模板样本的结果类型计算各条读取记录的分割纯度,并根据所述分割纯度确定分割点;
所述建立单元还用于获取与所述分割点对应的特征,并建立新的节点。
9.根据权利要求6所述的构建决策模型的装置,其特征在于,所述聚类模块包括:
选择单元,用于从所述变量对象中随机选择多个变量对象分别作为聚类的第一聚类中心,每个第一聚类中心对应一个聚类;
计算距离单元,用于分别计算各个变量对象到各个第一聚类中心的距离;
划分单元,用于根据计算结果对各个变量对象进行划分,将变量对象划分到距离最短的第一聚类中心对应的聚类中;
计算中心单元,用于分别计算划分后的各个聚类的第二聚类中心;
判断单元,用于判断各个聚类中的第一聚类中心与第二聚类中心的距离是否小于预设阈值,若是,则将各个聚类作为聚类结果输出,若否,则将第二聚类中心替代对应的聚类的第一聚类中心,并继续由所述计算距离单元分别计算各个变量对象到各个第一聚类中心的距离。
10.根据权利要求9所述的构建决策模型的装置,其特征在于,所述计算距离单元包括:
获取子单元,用于根据所述规则模板数据获取各个变量对象的多维数据;
计算子单元,用于根据所述各个变量对象的多维数据分别计算各个变量对象到各个第一聚类中心的距离。
CN201610423436.0A 2016-06-14 2016-06-14 构建决策模型的方法和装置 Pending CN106384282A (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201610423436.0A CN106384282A (zh) 2016-06-14 2016-06-14 构建决策模型的方法和装置
PCT/CN2017/083632 WO2017215370A1 (zh) 2016-06-14 2017-05-09 构建决策模型的方法、装置、计算机设备及存储设备
EP17800988.2A EP3358476A4 (en) 2016-06-14 2017-05-09 METHOD AND APPARATUS FOR CONSTRUCTING DECISION MODEL, COMPUTER DEVICE, AND STORAGE DEVICE
AU2017101866A AU2017101866A4 (en) 2016-06-14 2017-05-09 Method and device of constructing decision model, computer device and storage apparatus
SG11201709934XA SG11201709934XA (en) 2016-06-14 2017-05-09 Method and device of constructing decision model, computer device and storage apparatus
KR1020187015350A KR102178295B1 (ko) 2016-06-14 2017-05-09 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
AU2017268626A AU2017268626A1 (en) 2016-06-14 2017-05-09 Method and device of constructing decision model, computer device and storage apparatus
US15/579,240 US20180307948A1 (en) 2016-06-14 2017-05-09 Method and device of constructing decision model, computer device and storage apparatus
JP2017565704A JP6402265B2 (ja) 2016-06-14 2017-05-09 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610423436.0A CN106384282A (zh) 2016-06-14 2016-06-14 构建决策模型的方法和装置

Publications (1)

Publication Number Publication Date
CN106384282A true CN106384282A (zh) 2017-02-08

Family

ID=57916659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610423436.0A Pending CN106384282A (zh) 2016-06-14 2016-06-14 构建决策模型的方法和装置

Country Status (8)

Country Link
US (1) US20180307948A1 (zh)
EP (1) EP3358476A4 (zh)
JP (1) JP6402265B2 (zh)
KR (1) KR102178295B1 (zh)
CN (1) CN106384282A (zh)
AU (2) AU2017268626A1 (zh)
SG (1) SG11201709934XA (zh)
WO (1) WO2017215370A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017215370A1 (zh) * 2016-06-14 2017-12-21 平安科技(深圳)有限公司 构建决策模型的方法、装置、计算机设备及存储设备
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN107992295A (zh) * 2017-12-29 2018-05-04 西安交通大学 一种面向粒的动态算法选择方法
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN109426700A (zh) * 2017-08-28 2019-03-05 腾讯科技(北京)有限公司 数据处理方法、装置、存储介质和电子装置
CN110083815A (zh) * 2019-05-07 2019-08-02 中冶赛迪重庆信息技术有限公司 一种同义变量识别方法和系统
CN110245186A (zh) * 2019-05-21 2019-09-17 深圳壹账通智能科技有限公司 一种基于区块链的业务处理方法及相关设备
CN110298568A (zh) * 2019-06-19 2019-10-01 国网上海市电力公司 一种基于数字化审查规范条文的审查方法
CN110851687A (zh) * 2019-11-11 2020-02-28 厦门市美亚柏科信息股份有限公司 一种数据识别方法、终端设备及存储介质
CN111091197A (zh) * 2019-11-21 2020-05-01 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111125448A (zh) * 2019-12-23 2020-05-08 中国航空工业集团公司沈阳飞机设计研究所 一种大规模空中任务决策方法及系统
CN111652278A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 用户行为检测方法、装置、电子设备及介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064343B (zh) * 2018-08-13 2023-09-26 中国平安人寿保险股份有限公司 风险模型建立方法、风险匹配方法、装置、设备及介质
CN109670971A (zh) * 2018-11-30 2019-04-23 平安医疗健康管理股份有限公司 异常就诊费用的判断方法、装置、设备及计算机存储介质
KR102419481B1 (ko) 2019-02-20 2022-07-12 주식회사 엘지화학 올레핀계 중합체
CN110335134A (zh) * 2019-04-15 2019-10-15 梵界信息技术(上海)股份有限公司 一种基于woe转换实现信贷客户资质分类的方法
CN110322142A (zh) * 2019-07-01 2019-10-11 百维金科(上海)信息科技有限公司 一种大数据风控模型及线上系统配置技术
CN110929752B (zh) * 2019-10-18 2023-06-20 平安科技(深圳)有限公司 基于知识驱动和数据驱动的分群方法及相关设备
CN112929916B (zh) * 2021-03-19 2023-04-07 中国联合网络通信集团有限公司 无线传播模型的构建方法和装置
KR102571826B1 (ko) * 2022-07-14 2023-08-29 (주)뤼이드 사용자의 검색 정보에 기초하여 웹 페이지를 추천하는 방법, 장치, 및 시스템
CN116737940B (zh) * 2023-08-14 2023-11-07 成都飞航智云科技有限公司 一种智能决策方法、决策系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6564197B2 (en) * 1999-05-03 2003-05-13 E.Piphany, Inc. Method and apparatus for scalable probabilistic clustering using decision trees
JP4538757B2 (ja) * 2007-12-04 2010-09-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US8069012B2 (en) * 2008-06-05 2011-11-29 Bank Of America Corporation Sampling sufficiency testing
CN103795612B (zh) * 2014-01-15 2017-09-12 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法
CN103793484B (zh) * 2014-01-17 2017-03-15 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别系统
CN105279382B (zh) * 2015-11-10 2017-12-22 成都数联易康科技有限公司 一种医疗保险异常数据在线智能检测方法
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017215370A1 (zh) * 2016-06-14 2017-12-21 平安科技(深圳)有限公司 构建决策模型的方法、装置、计算机设备及存储设备
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
WO2019019630A1 (zh) * 2017-07-24 2019-01-31 平安科技(深圳)有限公司 反欺诈识别方法、存储介质、承载平安脑的服务器及装置
CN109426700A (zh) * 2017-08-28 2019-03-05 腾讯科技(北京)有限公司 数据处理方法、装置、存储介质和电子装置
CN107992295B (zh) * 2017-12-29 2021-01-19 西安交通大学 一种面向粒的动态算法选择方法
CN107992295A (zh) * 2017-12-29 2018-05-04 西安交通大学 一种面向粒的动态算法选择方法
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN108763171B (zh) * 2018-04-20 2021-12-07 中国船舶重工集团公司第七一九研究所 一种基于格式模板的文档自动化生成方法
CN110083815A (zh) * 2019-05-07 2019-08-02 中冶赛迪重庆信息技术有限公司 一种同义变量识别方法和系统
CN110083815B (zh) * 2019-05-07 2023-05-23 中冶赛迪信息技术(重庆)有限公司 一种同义变量识别方法和系统
CN110245186A (zh) * 2019-05-21 2019-09-17 深圳壹账通智能科技有限公司 一种基于区块链的业务处理方法及相关设备
CN110298568A (zh) * 2019-06-19 2019-10-01 国网上海市电力公司 一种基于数字化审查规范条文的审查方法
CN110851687A (zh) * 2019-11-11 2020-02-28 厦门市美亚柏科信息股份有限公司 一种数据识别方法、终端设备及存储介质
CN111091197A (zh) * 2019-11-21 2020-05-01 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111091197B (zh) * 2019-11-21 2022-03-01 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111125448A (zh) * 2019-12-23 2020-05-08 中国航空工业集团公司沈阳飞机设计研究所 一种大规模空中任务决策方法及系统
CN111125448B (zh) * 2019-12-23 2023-04-07 中国航空工业集团公司沈阳飞机设计研究所 一种大规模空中任务决策方法及系统
CN111652278A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 用户行为检测方法、装置、电子设备及介质
CN111652278B (zh) * 2020-04-30 2024-04-30 中国平安财产保险股份有限公司 用户行为检测方法、装置、电子设备及介质

Also Published As

Publication number Publication date
AU2017101866A4 (en) 2019-11-14
US20180307948A1 (en) 2018-10-25
KR102178295B1 (ko) 2020-11-13
JP6402265B2 (ja) 2018-10-10
JP2018522343A (ja) 2018-08-09
AU2017268626A1 (en) 2018-01-04
SG11201709934XA (en) 2018-05-30
EP3358476A1 (en) 2018-08-08
EP3358476A4 (en) 2019-05-22
WO2017215370A1 (zh) 2017-12-21
KR20190019892A (ko) 2019-02-27

Similar Documents

Publication Publication Date Title
CN106384282A (zh) 构建决策模型的方法和装置
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN106339942A (zh) 一种金融信息处理方法和系统
WO2023024407A1 (zh) 基于相邻卷积的模型剪枝方法、装置及存储介质
US20150032708A1 (en) Database analysis apparatus and method
CN107480694A (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN102567464A (zh) 基于扩展主题图的知识资源组织方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN111831629A (zh) 一种数据处理方法及装置
CN114022269A (zh) 一种公共信用领域企业信用风险评估方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN112329857A (zh) 一种基于改进残差网络的图像分类方法
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN113051317A (zh) 一种数据探查方法和系统、数据挖掘模型更新方法和系统
CN103412878A (zh) 基于领域知识地图社区结构的文档主题划分方法
CN106780258A (zh) 一种未成年人犯罪决策树的建立方法及装置
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN106126523A (zh) 一种假币犯罪信息分析系统及分析方法
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
CN108710967A (zh) 基于数据融合和支持向量机的高速路交通事故严重度预测方法
CN103793714A (zh) 多分类识别器、数据识别装置、多分类识别方法及数据识别方法
CN107391533A (zh) 生成图形数据库查询结果的方法及装置
KR20220079476A (ko) 전력소모예측시스템 및 방법
CN112529712A (zh) 用户运营分析rfm的建模方法与系统
Aher et al. A comparative study for selecting the best unsupervised learning algorithm in e-learning system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170208