CN109034201A - 模型训练及规则挖掘方法和系统 - Google Patents

模型训练及规则挖掘方法和系统 Download PDF

Info

Publication number
CN109034201A
CN109034201A CN201810672460.7A CN201810672460A CN109034201A CN 109034201 A CN109034201 A CN 109034201A CN 201810672460 A CN201810672460 A CN 201810672460A CN 109034201 A CN109034201 A CN 109034201A
Authority
CN
China
Prior art keywords
sample
supervised learning
learning model
optimal parameters
sample characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810672460.7A
Other languages
English (en)
Other versions
CN109034201B (zh
Inventor
陈永环
邹泊滔
李思平
麥永賢
孙清清
王鑫云
钱宣统
赵云
顾曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810672460.7A priority Critical patent/CN109034201B/zh
Publication of CN109034201A publication Critical patent/CN109034201A/zh
Application granted granted Critical
Publication of CN109034201B publication Critical patent/CN109034201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种模型训练及规则挖掘方法和系统,通过各个样本特征的优化参数计算由样本特征训练出的监督学习模型的优化参数,并根据监督学习模型的优化参数设置目标函数,从而能够自动从监督学习模型中筛选出满足条件的目标监督学习模型,无需人工干预。

Description

模型训练及规则挖掘方法和系统
技术领域
本说明书涉及数据处理技术领域,尤其涉及模型训练及规则挖掘方法和系统。
背景技术
目前,医疗诊断、自动驾驶、法律判决、反洗钱、反欺诈、反作弊等领域,需要依赖机器学习模型生成规则来进行辅助的诊断、驾驶、判决、以及识别风险等。
发明内容
基于此,本说明书提供了模型训练及规则挖掘方法和系统。
根据本说明书实施例的第一方面,提供一种模型训练方法,所述方法包括:分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
可选地,分别计算各个样本特征的优化参数的步骤包括:分别计算所述样本特征在各条样本数据中的优化参数;将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
可选地,根据所述样本特征对监督学习模型进行训练的步骤包括:对所述样本特征进行排列组合,得到若干个样本特征集;分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
可选地,根据所述样本标签的优化参数计算所述监督学习模型的优化参数的步骤包括:将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
可选地,所述优化参数包括可解释分值参数和/或可信度参数。
可选地,所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
可选地,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。
可选地,所述GINI不纯度参数目标函数为:式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
可选地,所述方法还包括:对样本数据进行分词;根据分词结果构建DTM矩阵;根据所述DTM矩阵获取样本特征。
可选地,在分别计算各个样本特征在每条样本数据中的优化参数之前,所述方法还包括:对样本数据执行以下至少任一操作,得到所述样本特征:数据清洗;和/或归一化处理;和/或特征工程。
可选地,所述监督学习模型为决策树模型。
根据本说明书实施例的第二方面,提供一种规则挖掘方法,所述方法包括:根据决策树模型上从根节点到叶子节点之间的路径生成规则;其中,所述决策树模型根据任一实施例所述的模型训练方法进行训练,且所述模型训练方法中的监督学习模型为决策树模型。
根据本说明书实施例的第三方面,提供一种模型训练装置,所述装置包括:第一计算模块,用于分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;训练模块,用于根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;选择模块,用于根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
可选地,第一计算模块包括:计算单元,用于分别计算所述样本特征在各条样本数据中的优化参数;第一求和单元,用于将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
可选地,训练模块包括:排列组合单元,用于对所述样本特征进行排列组合,得到若干个样本特征集;训练单元,用于分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
可选地,训练模块包括:第二求和单元,用于将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
可选地,所述优化参数包括可解释分值参数和/或可信度参数。
可选地,所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
可选地,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。
可选地,所述GINI不纯度参数目标函数为:式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
可选地,所述装置还包括:分词模块,用于对样本数据进行分词;矩阵构建模块,用于根据分词结果构建DTM矩阵;特征获取模块,用于根据所述DTM矩阵获取样本特征。
可选地,所述装置还包括:预处理模块,用于对样本数据执行以下至少任一操作,得到所述样本特征:数据清洗;和/或归一化处理;和/或特征工程。
可选地,所述监督学习模型为决策树模型。
根据本说明书实施例的第四方面,提供一种规则挖掘装置,所述装置包括:规则生成模块,用于根据决策树模型上从根节点到叶子节点之间的路径生成规则;其中,所述决策树模型根据任一实施例所述的模型训练方法进行训练,且所述模型训练方法中的监督学习模型为决策树模型。
根据本说明书实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。
根据本说明书实施例的第六方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
应用本说明书实施例方案,通过各个样本特征的优化参数计算由样本特征训练出的监督学习模型的优化参数,并根据监督学习模型的优化参数设置目标函数,从而能够自动从监督学习模型中筛选出满足条件的目标监督学习模型,无需人工干预。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书一个实施例中规则生成过程的示意图。
图2是本说明书一个实施例中模型训练方法的流程图。
图3(A)和图3(B)是本说明书一个实施例中监督学习模型的优化参数的示意图。
图4是本说明书一个实施例中根据样本特征对监督学习模型进行训练的示意图。
图5是本说明书一个实施例中构建DTM矩阵的示意图。
图6是本说明书一个实施例中规则挖掘方法的流程图。
图7是本说明书一个实施例中模型训练装置的框图。
图8是本说明书一个实施例中规则挖掘装置的框图。
图9是是本说明书一个实施例中用于实施本说明书实施例方法的计算机设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,是本说明书一个实施例中规则生成过程的示意图。在很多领域中都需要通过规则来辅助判断。例如,在医疗诊断、自动驾驶、法律判决、反洗钱、反欺诈、反作弊等领域,需要通过一定的规则来进行辅助的诊断、驾驶、判决、以及识别风险等。为了生成上述规则,可以提取电脑、手机、平板电脑等电子设备102产生的底层数据,并将提取到的底层数据存储至数据库104中。服务器106可以从数据库104中采集训练样本,并按照一定的算法生成一系列的风控规则。然而,对于许多应用场景而言,生成的规则必须是可解释和/或具有高可信度的规则,这就需要对规则的生成方式进行改进,以满足实际应用的需求。
基于此,本说明书实施例提供一种模型训练方法。如图2所示,所述方法可包括:
步骤202:分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;
步骤204:根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;
步骤206:根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
在本实施例中,样本特征对样本标签的贡献度是指样本特征对于样本数据最终获得何种样本标签的决定性程度。举例来说,关于学生的样本数据中可能存在以下几个样本特征:学习成绩、出勤率、是否学生会成员、性别。假设最终需要获得的样本标签是好学生或者坏学生,那么,学习成绩和出勤率对该样本标签的贡献程度可能是最大的,是否学生会成员对该样本标签的贡献程度次之,性别对该样本标签的贡献程度则最小。
在一种常见的情况下,样本标签可以包括正样本标签和负样本标签。在上述的例子中,“好学生”对应的样本标签可以是正样本标签;“坏学生”对应的样本标签可以是负样本标签。当然,在实际应用中,样本标签的种类可不限于此。为了便于表示,可以将正样本标签记为1,将负样本标签记为0。
根据所述样本特征对监督学习模型进行训练,可以从样本特征中选择一个或多个样本特征对监督学习模型进行训练。不同的样本特征可以训练出不同的监督学习模型。然后,可以分别计算训练出的各个监督学习模型的优化参数。最后,通过目标函数对监督学习模型进行筛选,从而获取符合条件的目标监督学习模型。其中,目标函数可以仅根据监督学习模型的优化参数设定,也可以根据监督学习模型的优化参数和其他因素共同设定。
本说明书实施例通过各个样本特征的优化参数计算由样本特征训练出的监督学习模型的优化参数,并根据监督学习模型的优化参数设置目标函数,从而从监督学习模型中自动筛选出满足条件的目标监督学习模型,无需人工干预。
在一个实施例中,分别计算各个样本特征的优化参数的步骤包括:分别计算所述样本特征在各条样本数据中的优化参数;将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
在本实施例中,假设共有N条样本数据,第j个样本特征在第i条样本数据中的优化参数为gij,则第j个样本特征的优化参数wj可记为:
样本特征在一条样本数据中的优化参数的取值越大,说明该样本特征对这条样本数据的样本标签的贡献度越大。反之,样本特征的优化参数的取值越小,说明该样本特征对这条样本数据的样本标签的贡献度越小。
如图3(A)和图3(B)所示,是样本特征在一条样本数据中的优化参数对样本标签的贡献程度的示意图。在图3(A)中,样本数据1的样本标签为1(即,通过/正确),起决定性正面作用的是样本特征1、样本特征3和样本特征4等。在图3(B)中,样本数据2的样本标签为0(即,拒绝/错误),起决定性负面作用的是样本特征1、样本特征2和样本特征5等。图中F1,i、F2,i等表示对应样本特征的优化参数。
在计算样本特征T在某条样本数据X中的优化参数时,可以首先通过模型获取一组参考数据集的优化参数,该参考数据集中包括若干条已经被充分研究过的样本数据。然后,通过样本特征T对应的样本数据与组参考数据集中各样本数据的距离对参考数据集进行加权,最后,以加权后的参考数据集作为自变量做L1正则化线性回归,得到样本特征T在样本数据X中的优化参数。具体可通过LIME(Local Interpretable Model-agnosticExplanation,模型无关的局部可解释性描述)实现。
在一个实施例中,根据所述样本特征对监督学习模型进行训练的步骤包括:对所述样本特征进行排列组合,得到若干个样本特征集;分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
在本实施例中,可以遍历样本特征的各种可能的排列组合方式,根据每种组合方式分别构建样本特征集,并分别根据各个样本特征集对监督学习模型进行训练。
如图4所示,假设共有A、B、C、D四个样本特征,则可以对这四个样本特征进行排列组合,得到几种可能的样本特征集。图中示出了其中3种样本特征集,分别是包括样本特征A和B的样本特征集1;包括样本特征A、B和C的样本特征集2;以及包括样本特征A、B、C和D的样本特征集3。训练出的监督学习模型如模型402、404和406所示。在图中,圆圈中的是样本特征,带数字的方框是样本标签,从根节点到叶子节点之间的路径(包括各个节点以及各个节点之间的规则条件)为一条规则。例如模型402中,A-(A>1)-B-(B>2)-C-(C>3)-1为一条规则。
在一个实施例中,根据所述样本标签的优化参数计算所述监督学习模型的优化参数的步骤包括:将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
仍以上面的模型402为例进行说明。模型402中包括样本特征A、B、C和D,则可以分别计算样本特征A、B、C和D的优化参数,然后将其进行求和,得到模型402的优化参数。因此,监督学习模型的优化参数w可记为:
式中,wj为监督学习模型中第j个样本特征的优化参数,n为监督学习模型中样本特征的数量。假设样本特征A、B、C和D的优化参数分别为0.4,-0.1,0.25和-0.05,则模型402的优化参数为0.4-0.1+0.25-0.05=0.5。
在一个实施例中,所述优化参数包括可解释分值参数和/或可信度参数。可解释分值参数用于表征根据样本特征生成规则的可解释性,可信度参数用于表征根据样本特征生成规则的可信度。所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
若步骤202中采用的样本特征的优化参数是样本特征的可解释分值参数,则步骤204中监督学习模型的优化参数为监督学习模型的可解释分值参数;若步骤202中采用的样本特征的优化参数是样本特征的可信度参数,则步骤204中监督学习模型的优化参数为监督学习模型的可信度参数。监督学习模型的可解释分值参数可用于表征通过监督学习模型获取样本标签的可解释度;监督学习模型的可信度参数可用于表征通过监督学习模型获取样本标签的可信度。
其中,可解释分值阈值和/或可信度阈值可以根据业务类型设置,例如,对于要求高可解释/可信度的业务,可设置一个较高的可解释分值阈值和/或可信度阈值;对于要求较低可解释/可信度的业务,可设置一个较低的可解释分值阈值和/或可信度阈值。进一步地,若优化参数高于预设值的监督学习模型的数量为多个,可以将优化参数最高的监督学习模型作为目标监督学习模型。
在一个实施例中,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。其中,所述GINI不纯度参数目标函数可记为:
式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
例如,对于二分类问题而言,n的取值为1,p(0)表示实际具有样本标签0的样本数据中,目标监督学习模型判别为具有的样本标签0的样本数据所占的比例。即,目标监督学习模型判别为具有样本标签0、且实际也具有样本标签0的样本数据的数量与实际具有样本标签0的样本数据的数量之比。p(1)表示实际具有样本标签1的样本数据中,目标监督学习模型判别为具有的样本标签1的样本数据所占的比例。即,目标监督学习模型判别为具有样本标签1、且实际也具有样本标签1的样本数据的数量与实际具有样本标签1的样本数据的数量之比。
例如,实际具有样本标签0的样本数据包括D1、D3、D4和D5,监督学习模型划分出的具有样本标签0的样本数据包括D1、D2和D3,则目标监督学习模型判别为具有样本标签0、且实际也具有样本标签0的样本数据的数量为2(包括D1和D3),实际具有样本标签0的样本数据的数量为4(包括D1、D3、D4和D5),p(0)的取值为2/4=0.5。对于多分类问题而言,n的取值为大于1的整数,p(i)的含义与二分类问题类似,此处不再赘述。
因此,最终的目标函数可记为:
式中,GINIth和wth分别为GINI不纯度参数阈值和监督学习模型的优化参数的阈值,若优化参数为可解释分值参数,则优化参数的阈值为可解释分值阈值;若优化参数为可信度参数,则优化参数的阈值为可信度阈值。通过将优化参数目标函数和GINI不纯度参数目标函数共同作为目标函数,提高了规则产生的可用性,减少了传统方案需要人工再次修正的流程。
对于样本特征的每种可能的排列组合方式,可以通过递归的方式判断样本特征建立的监督学习模型是否满足目标函数,如果不满足,则重新生成监督学习模型,直到获得满足目标函数的监督学习模型。也可以获取若干个满足目标函数的监督学习模型,再从中选择较优(例如,可解释分值参数最大)的模型。
在一个实施例中,如果样本数据是文本情感识别等非结构化文本数据,还可以对样本数据进行分词;根据分词结果构建DTM(Document Term Matrix)矩阵;并根据所述DTM矩阵获取样本特征。如图5所示,假设存在两条样本数据,即,文本S1:“今天天气好”和文本S2:“今天天气坏”。则可以分别对这两句文本进行分词,对应的分词结果分别为{“今天”、“天气”、“好”}和{“今天”、“天气”、“坏”}。取分词结果的并集,以去掉重复的分词,得到{“今天”、“天气”、“好”、“坏”}。若去重后的分词结果在原样本数据中出现,则该分词结果在样本数据中对应的样本特征记为1;若去重后的分词结果在原样本数据中未出现,则该分词结果在样本数据中对应的样本特征记为0。因此,可以分别得到两条样本数据的样本特征为:[1,1,1,0]和[1,1,0,1]。
在一个实施例中,在分别计算各个样本特征在每条样本数据中的优化参数之前,还可以对样本数据执行以下至少任一操作,得到所述样本特征:数据清洗;和/或归一化处理;和/或特征工程。
表1特征衍生
特征1 特征2 特征3 特征4 …… 特征N 标签
F11 F12 F13 F14 …… F1N 1
F21 F22 F23 F24 …… F2N 0
F31 F32 F33 F34 …… F3N 1
F41 F42 F43 F44 …… F4N 0
其中,数据清洗的作用是数据清洗是指发现并纠正数据文件中可识别的错误。特征工程的作用是对特征进行衍生,以获取更多特征。特征衍生过程如表1所示。在表1中,特征1至特征N是原样本特征,F11、F12等是衍生出来的样本特征,1和0是样本标签。假设特征1是姓名(如,王二),则F11可以是该样本特征在其他语种中的表达形式(如,Wang Er),F12可以是该样本特征对应的繁体形式(如,王贰),F13可以是在该样本特征中增加字符后对应的形式(如,王i二),F14可以是将该样本特征中的字符顺序对调后对应的形式(如,二王)。还有其他特征衍生方式,此处不再一一列举。
在上述任一实施例中,所述监督学习模型可以是决策树模型。通过采用决策树模型,提高了模型的可用性。
如图6所示,本说明书实施例还提供一种规则挖掘方法,所述方法包括:
步骤602:根据决策树模型上从根节点到叶子节点之间的路径生成规则。其中,所述决策树模型根据任一实施例中的模型训练方法进行训练。
本说明书实施例至少具有以下优点:
(1)能够通过挖掘海量大数据实现规则自动挖掘,无需专家经验。
(2)通过评估样本特征对样本标签的正面作用/负面作用值,从而可以对产生规则的可信度评估,将可信度参数/可解释分值参数作为目标函数来决定规则条件是否继续分裂,从而提高可信度/可解释性,以及优选出可信度/可解释性高的规则,规则的质量也会提高。另外,将可信度参数/可解释分值参数作为规则分裂的目标函数之一,会分裂出提升可信度/可解释性的规则条件,同时提高了规则长度,从而提升在医疗诊断、反洗钱等场景的可信度,另外也降低这些场景中的风险。
(3)以可信度/可解释分值的绝对值以及GINI不纯度作为目标函数,决定规则分裂策略,提高了规则产生的可用性,减少了传统方案需要人工再次修正的流程。
(4)评估每个样本特征的可信度参数/可解释分值参数,参数累计之和决定了整个规则是通过或者拒绝,提升了规则的可信度/可解释性。
以上实施例中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
如图7所示,是本说明书一个实施例中模型训练装置的框图。所述装置可包括:
第一计算模块702,用于分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;
训练模块704,用于根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;
选择模块706,用于根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
上述装置中各个模块的功能和作用的实现过程具体详情见上述模型训练方法中对应步骤的实现过程,在此不再赘述。
如图8所示,是本说明书一个实施例中规则挖掘装置的框图。所述装置可包括:
规则生成模块802,用于根据决策树模型上从根节点到叶子节点之间的路径生成规则;其中,所述决策树模型根据任一实施例所述的模型训练方法进行训练,且所述模型训练方法中的监督学习模型为决策树模型。
上述装置中各个模块的功能和作用的实现过程具体详情见上述规则挖掘方法中对应步骤的实现过程,在此不再赘述。
本说明书项目创建装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图9所示,为本说明书项目创建装置所在计算机设备的一种硬件结构图,除了图9所示的处理器902、内存904、网络接口906、以及非易失性存储器908之外,实施例中装置所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应地,本说明书实施例还提供一种计算机存储介质,所述存储介质中存储有程序,所述程序被处理器执行时实现上述任一实施例中的方法。
相应地,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例中的方法。
本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的说明书后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (16)

1.一种模型训练方法,所述方法包括:
分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;
根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;
根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
2.根据权利要求1所述的方法,分别计算各个样本特征的优化参数的步骤包括:
分别计算所述样本特征在各条样本数据中的优化参数;
将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
3.根据权利要求1所述的方法,根据所述样本特征对监督学习模型进行训练的步骤包括:
对所述样本特征进行排列组合,得到若干个样本特征集;
分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
4.根据权利要求1所述的方法,根据所述样本标签的优化参数计算所述监督学习模型的优化参数的步骤包括:
将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
5.根据权利要求1所述的方法,所述优化参数包括可解释分值参数和/或可信度参数。
6.根据权利要求5所述的方法,所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;
其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
7.根据权利要求6所述的方法,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。
8.根据权利要求7所述的方法,所述GINI不纯度参数目标函数为:
式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
9.根据权利要求1所述的方法,所述方法还包括:
对样本数据进行分词;
根据分词结果构建DTM矩阵;
根据所述DTM矩阵获取样本特征。
10.根据权利要求1所述的方法,在分别计算各个样本特征在每条样本数据中的优化参数之前,所述方法还包括:
对样本数据执行以下至少任一操作,得到所述样本特征:
数据清洗;和/或
归一化处理;和/或
特征工程。
11.根据权利要求1至10任意一项所述的方法,所述监督学习模型为决策树模型。
12.一种规则挖掘方法,所述方法包括:
根据决策树模型上从根节点到叶子节点之间的路径生成规则;
其中,所述决策树模型根据权利要求11所述的方法进行训练。
13.一种模型训练装置,所述装置包括:
第一计算模块,用于分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;
训练模块,用于根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;
选择模块,用于根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
14.一种规则挖掘装置,所述装置包括:
规则生成模块,用于根据决策树模型上从根节点到叶子节点之间的路径生成规则;
其中,所述决策树模型根据权利要求11所述的方法进行训练。
15.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至12任意一项所述的方法。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至12任意一项所述的方法。
CN201810672460.7A 2018-06-26 2018-06-26 模型训练及规则挖掘方法和系统 Active CN109034201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810672460.7A CN109034201B (zh) 2018-06-26 2018-06-26 模型训练及规则挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810672460.7A CN109034201B (zh) 2018-06-26 2018-06-26 模型训练及规则挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN109034201A true CN109034201A (zh) 2018-12-18
CN109034201B CN109034201B (zh) 2022-02-01

Family

ID=64611072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810672460.7A Active CN109034201B (zh) 2018-06-26 2018-06-26 模型训练及规则挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN109034201B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801151A (zh) * 2019-01-07 2019-05-24 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN110222087A (zh) * 2019-05-15 2019-09-10 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN111352965A (zh) * 2020-02-18 2020-06-30 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111708810A (zh) * 2020-06-17 2020-09-25 北京世纪好未来教育科技有限公司 模型优化推荐方法、装置和计算机存储介质
CN115142513A (zh) * 2022-05-25 2022-10-04 中科云谷科技有限公司 用于挖掘机的控制方法及装置、处理器及存储介质
CN117725527A (zh) * 2023-12-27 2024-03-19 北京领雁科技股份有限公司 一种基于机器学习分析规则的分值型模型优化方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488224A (zh) * 2008-01-16 2009-07-22 中国科学院自动化研究所 基于相关性度量的特征点匹配方法
CN104504366A (zh) * 2014-11-24 2015-04-08 上海闻泰电子科技有限公司 基于光流特征的笑脸识别系统及方法
CN105718600A (zh) * 2016-03-08 2016-06-29 上海晶赞科技发展有限公司 一种异构数据集特征质量可视化方法
US20160342963A1 (en) * 2015-05-22 2016-11-24 Fair Isaac Corporation Tree pathway analysis for signature inference
CN106250913A (zh) * 2016-07-21 2016-12-21 江苏大学 一种基于局部典型相关分析的分类器集成车牌识别方法
CN106611183A (zh) * 2016-05-30 2017-05-03 四川用联信息技术有限公司 基尼指数与误分类代价敏感决策树构建方法
CN106611185A (zh) * 2016-06-07 2017-05-03 四川用联信息技术有限公司 多标准误分类代价敏感决策树构建方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
US20180268237A1 (en) * 2014-10-01 2018-09-20 Apple Inc. Method and system for determining at least one property related to at least part of a real environment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488224A (zh) * 2008-01-16 2009-07-22 中国科学院自动化研究所 基于相关性度量的特征点匹配方法
US20180268237A1 (en) * 2014-10-01 2018-09-20 Apple Inc. Method and system for determining at least one property related to at least part of a real environment
CN104504366A (zh) * 2014-11-24 2015-04-08 上海闻泰电子科技有限公司 基于光流特征的笑脸识别系统及方法
US20160342963A1 (en) * 2015-05-22 2016-11-24 Fair Isaac Corporation Tree pathway analysis for signature inference
CN105718600A (zh) * 2016-03-08 2016-06-29 上海晶赞科技发展有限公司 一种异构数据集特征质量可视化方法
CN106611183A (zh) * 2016-05-30 2017-05-03 四川用联信息技术有限公司 基尼指数与误分类代价敏感决策树构建方法
CN106611185A (zh) * 2016-06-07 2017-05-03 四川用联信息技术有限公司 多标准误分类代价敏感决策树构建方法
CN106250913A (zh) * 2016-07-21 2016-12-21 江苏大学 一种基于局部典型相关分析的分类器集成车牌识别方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801151A (zh) * 2019-01-07 2019-05-24 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN109801151B (zh) * 2019-01-07 2023-09-05 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN110222087A (zh) * 2019-05-15 2019-09-10 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN110222087B (zh) * 2019-05-15 2023-10-17 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN111352965A (zh) * 2020-02-18 2020-06-30 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111352965B (zh) * 2020-02-18 2023-09-08 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111708810A (zh) * 2020-06-17 2020-09-25 北京世纪好未来教育科技有限公司 模型优化推荐方法、装置和计算机存储介质
CN111708810B (zh) * 2020-06-17 2022-05-27 北京世纪好未来教育科技有限公司 模型优化推荐方法、装置和计算机存储介质
CN115142513A (zh) * 2022-05-25 2022-10-04 中科云谷科技有限公司 用于挖掘机的控制方法及装置、处理器及存储介质
CN115142513B (zh) * 2022-05-25 2024-05-07 中科云谷科技有限公司 用于挖掘机的控制方法及装置、处理器及存储介质
CN117725527A (zh) * 2023-12-27 2024-03-19 北京领雁科技股份有限公司 一种基于机器学习分析规则的分值型模型优化方法

Also Published As

Publication number Publication date
CN109034201B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN109034201A (zh) 模型训练及规则挖掘方法和系统
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN106649550B (zh) 一种基于代价敏感学习的联合知识嵌入方法
CN111310860B (zh) 改进梯度提升决策树性能的方法及计算机可读存储介质
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN110738247A (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN110704616B (zh) 设备告警工单识别方法及装置
CN114462489A (zh) 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN109840676B (zh) 基于大数据的风控方法、装置、计算机设备及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN113076738A (zh) Gnn编码器及基于图上下文学习的异常点检测方法
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN109657096A (zh) 一种基于低学龄教学音视频的辅助统计报告生成方法
CN115641443A (zh) 训练图像分割网络模型的方法、处理图像的方法及产品
CN113343123A (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN107305565A (zh) 信息处理装置、信息处理方法以及信息处理设备
CN110109005B (zh) 一种基于序贯测试的模拟电路故障测试方法
CN111046912A (zh) 特征衍生方法、装置及计算机设备
CN111984842B (zh) 银行客户数据处理方法及装置
CN114579761A (zh) 信息安全知识实体关系连接预测方法、系统及介质
CN114360653A (zh) 一种基于数据遗传变异的样本生成及生存评估方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant