CN114139725A - 业务对象的预测方法、设备及存储介质 - Google Patents
业务对象的预测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114139725A CN114139725A CN202111456114.3A CN202111456114A CN114139725A CN 114139725 A CN114139725 A CN 114139725A CN 202111456114 A CN202111456114 A CN 202111456114A CN 114139725 A CN114139725 A CN 114139725A
- Authority
- CN
- China
- Prior art keywords
- rule
- analyzed
- frequent pattern
- pattern tree
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 155
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims abstract description 36
- 230000007613 environmental effect Effects 0.000 claims description 58
- 238000004458 analytical method Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 36
- 230000009977 dual effect Effects 0.000 claims description 33
- 238000007689 inspection Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 22
- 230000002159 abnormal effect Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000012423 maintenance Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种业务对象的预测方法、设备及存储介质,其中方法包括:获取待分析的业务对象对应的特征;将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因;其中,所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。本申请可以通过规则学习模型对待分析的业务对象是否满足要求进行预测,具有较强的可解释性,能够有效提高用户体验度,建立用户对规则学习模型的信任,此外,基于列生成技术和频繁模式树生成的规则学习模型也可以有效提高规则学习的效果,满足不同场景、不同维度数据的需求,提高学习和预测的整体效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种业务对象的预测方法、设备及存储介质。
背景技术
随着各行业的数据规模日益增加,人工分析数据的难度也随之变大。很多复杂的任务和系统已经通过采用和拓展机器学习系统来实现自动化和智能化。
当针对业务对象进行预测时,用户可能不仅需要机器学习系统能够给出预测结果,还想要知道得到预测结果的原因。然而,很多机器学习系统本质上仍然属于黑盒模型,例如,神经网络模型,其结构复杂、处理效率较低,并且缺乏可解释性,导致用户体验较差。
发明内容
本申请实施例的主要目的在于提供一种业务对象的预测方法、设备及存储介质,以提升预测效率和可解释性,进而提升用户体验。
第一方面,本申请实施例提供一种业务对象的预测方法,包括:
获取待分析的业务对象对应的特征;
将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因;
其中,所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。
第二方面,本申请实施例提供一种电力负荷预测方法,包括:
获取待分析的环境特征;
根据所述环境特征与规则学习模型,预测所述环境特征对应的电力负荷是否满足要求,和/或,输出确定电力负荷预测结果的原因;
其中,所述规则学习模型为基于列生成技术和/或频繁模式树生成的规则学习模型。
第三方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行第一方面或第二方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现第一方面或第二方面所述的方法。
本申请提供的业务对象的预测方法、设备及存储介质,可以通过规则学习模型对待分析的业务对象是否满足要求进行预测,具有较强的可解释性,能够有效提高用户体验度,建立用户对规则学习模型的信任,此外,基于列生成技术和频繁模式树生成的规则学习模型也可以有效提高规则学习的效果,满足不同场景、不同维度数据的需求,提高学习和预测的整体效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种应用场景示意图;
图2为一种基于神经网络模型确定审批结果的原理示意图;
图3为本申请实施例提供的一种基于规则学习模型确定审批结果的原理示意图;
图4为本申请实施例提供的一种审批不通过的原因解释示意图;
图5为本申请实施例提供的一种业务对象的预测方法的流程示意图;
图6为本申请实施例提供的一种频繁模式树的示意图;
图7为本申请实施例提供的一种基于非空规则头构建的频繁模式树的示意图;
图8为本申请实施例提供的一种递归过程中的集合示意图;
图9为本申请实施例提供的一种节点链表的示意图;
图10为本申请实施例提供的一种规则学习方法的流程示意图;
图11为本申请实施例提供的一种电力负荷预测方法的流程示意图;
图12为本申请实施例提供的一种电力负荷预测结果的示意图;
图13为本申请实施例提供的一种业务指标异常预测结果的示意图;
图14为本申请实施例提供的一种推荐信息的示意图;
图15为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
规则学习:一种机器学习模型,用于学习一组IF-THEN(若…则…)的规则集合,描述和解释数据集中的指定群体。
BitMap(位图):一种对整数进行比特位转换的映射。
FP-Tree(Frequent Pattern Tree,频繁模式树):一种支持频繁项集挖掘的特定数据结构。
分支定界:一种对搜索空间进行分割形成小的子空间,并利用子空间里解的上下界进行剪枝的技术。
列生成:一种用于求解大规模线性优化问题的高效算法。
定价问题:一种在列生成算法中求解最优生成列的整数规划问题。
检验数:定价问题的目标函数。
随着大数据处理技术的不断发展,机器学习的应用也越来越广泛。传统的机器学习可以基于已有数据训练模型,并使用训练好的模型进行预测。
图1为本申请实施例提供的一种应用场景示意图。如图1所示,可以将用户的特征,例如年龄、收入、流水、资产情况、违约次数等,输入到电子设备训练得到的模型中,进而确定审批结果,即,针对用户的请求是通过还是不通过。
常规的机器学习模型,例如神经网络模型,往往是黑盒模型,不具有可解释性,将数据输入模型后虽然可以给出审批通过或不通过的结果,但是无法给出审批通过或不通过的原因。
图2为一种基于神经网络模型确定审批结果的原理示意图。如图2所示,神经网络模型可以包括多层,如卷积层、池化层、全连接层等,输入的数据在神经网络模型中一层一层进行计算并向后传递,最终确定结果后,已经无法区分是输入数据中的哪些原因导致了最终的结果,因此,在可解释性方面表现较差。
图3为本申请实施例提供的一种基于规则学习模型确定审批结果的原理示意图。如图3所示,规则学习模型包含审批不通过对应的多条规则,每一条规则对应至少一个特征如违约次数、流水等,若目标用户的特征与规则学习模型中的某条规则匹配,则可以确定对应的结果为审批不通过,且可以向审批人员或者用户反馈对应的原因。
图4为本申请实施例提供的一种审批不通过的原因解释示意图。如图4所示,用户A的违约次数、资产、流水和收入与规则学习模型中的某一条规则相匹配,则用户A对应的审批结果为不通过,且向审批人员或用户反馈对应的原因。
除了以上所述的金融领域,规则学习模型在其他领域也有着很强的应用需求。例如,在电力领域负荷预测场景中,预测人员首先需要了解生成预测值的成因,才能将预测结果上报到调度部门,从而为后续电力调度、发电计划、电价动态定价提供参照;在企业经营领域,对关键经营指标异动,算法如能给出异动原因,即能大幅度提升分析和决策人员工作效率,使之做出更加科学合理的决策;在个性化推荐场景中,用户希望了解推荐结果的原因,以便于用户对推荐系统产生更多信任和更高的满意度;等等。
因此,规则学习模型,以其优秀的简洁性和可解释性,可以实现关键领域的辅助决策制定,并自动发掘数据中的业务价值。
然而,目前规则学习仍然面临较大的挑战。首先,同时优化模型的预测能力、规则复杂度和多样性非常地困难。大部分的规则学习算法通常分为两个阶段,即规则生成和规则选择阶段。由于缺乏考虑全局的优化目标,规则生成阶段通常与最终的规则集合效果联系较弱,导致产出不准确或者重合度较高的规则。需要说明的是,减少规则的重合度可以鼓励每条规则覆盖和描述特征空间中的独立子空间,进而提升结果的可解释性。这点在多分类任务的可解释性上尤其的重要,因为来自不同类别的规则如果重合度较高,那么重合部分的样本其所属的类别群体就会因为冲突而变得模糊,导致规则学习模型的预测性能较差。并且,目前能够有效处理大规模数据的模型非常有限,随着样本规模特别是特征数量的增加,结果通常较为复杂,模型的可解释性要求变得尤为重要。不幸的是,随着特征维度而指数型增加的规则空间为开发快速的算法提出了严峻挑战。
有鉴于此,本申请实施例提供一种业务对象的预测方法,可以基于列生成技术和频繁模式树生成规则学习模型,在获取待分析的业务对象对应的特征后,可以将特征与规则学习模型中的规则进行匹配,根据匹配结果可以确定所述业务对象是否满足要求,若满足要求,还可以进一步确定满足要求的原因。基于列生成技术可以有效减少数据处理量,提升效率,基于频繁模式树能够直观地表征各种可能的规则出现的频率,进而可以实现数据的高效表征,快速访问满足一定规则的样本,从而能够实现规则的快速搜索,进一步提升规则学习和预测的整体效率。生成的规则学习模型可以应用于各个业务领域,为各个业务领域的预测结果提供缘由解释,提升用户体验度。
下面结合附图,对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图5为本申请实施例提供的一种业务对象的预测方法的流程示意图。本实施例中方法的执行主体可以为任意具有数据处理功能的设备。如图5所示,所述方法可以包括:
步骤501、获取待分析的业务对象对应的特征。
可选的,所述业务对象可以为任意可能的业务对象,包括但不限于:用户、时间、地点、事件等等。所述业务对象对应的特征可以是能够表征该业务对象信息的任意特征,例如,用户的画像特征、一定时间内的环境信息的变化情况、地点对应的图像、事件的各个发展阶段等等。
步骤502、将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因。
其中,所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。
可选的,所述规则学习模型可以为通过本申请任一实施例所述的规则学习方法生成的。将业务对象的特征与规则学习模型中的规则进行匹配,若与其中至少一个规则相匹配,则认为所述业务对象满足要求,反之则不满足要求。
可选的,还可以展示所述业务对象是否满足要求,和/或,满足要求的原因。具体的,可以仅展示是否满足要求,也可以仅展示原因,也可以两者都展示。其中,所述原因通过与所述待分析的业务对象对应的特征相匹配的规则确定。
本实施例提供的预测方法,可以应用于任一领域。示例性地,所述规则学习模型具体可以用于预测下述至少一项:待分析时间节点的电力负荷是否满足要求、待分析时间节点对应的业务指标是否异常、待分析用户是否会接受推荐信息、待分析用户是否审批通过、待分析用户是否有维护需求。
相应的,对于不同的领域,在规则学习时,可以找到满足要求以及不满足要求的正负样本,并基于正负样本进行规则学习,学习到的规则可以用于在该领域进行预测。
综上,本实施例提供的预测方法,通过规则学习模型对待分析的业务对象是否满足要求进行预测,具有较强的可解释性,能够有效提高用户体验度,建立用户对规则学习模型的信任,此外,基于列生成技术和频繁模式树生成的规则学习模型也可以有效提高规则学习的效果,满足不同场景、不同维度数据的需求,提高学习和预测的整体效率。
本申请的一个或多个实施例中还可以包括规则学习方法,其中,规则学习方法可以包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括满足要求的业务对象对应的特征,所述负样本包括不满足要求的业务对象对应的特征;根据所述训练样本集,生成初始的多条规则,每条规则包括至少一个特征;基于列生成技术不断添加新的规则,直至得到规则学习模型;其中,列生成过程中,基于频繁模式树生成新的规则。
其中,正样本包括满足要求的业务对象对应的特征,所述负样本包括不满足要求的业务对象对应的特征。
其中,所述正样本组包括多个正样本,所述负样本组包括多个负样本。所述正样本可以是用户感兴趣的结果对应的样本,所述负样本正好相反,可以是用户不感兴趣的结果对应的样本。每一业务对象可以对应一个样本,所述业务对象可以是需要进行分析的任意业务对象。每一业务对象对应的样本可以包括该业务对象的至少一个特征。
以金融审批领域为例,满足要求可以是指审批不通过,相应的,所述正样本可以为审批不通过的样本,所述负样本可以为审批通过的样本,所述业务对象可以为发起审批的用户,每个用户的样本可以包括该用户的至少一个特征,可以包括但不限于下述至少一项:年龄、收入、银行流水、学历、职业、违约次数、资产情况。
示例性地,所述训练样本集可以包括如下多个样本。
审批不通过的正样本包括:
样本P1:违约次数3、收入0、流水0、资产无抵押;
样本P2:违约次数5、收入1、流水2、资产有抵押;
样本P3:……。
审批通过的负样本包括:
样本N1:违约次数0、收入1、流水1、资产无抵押;
样本N2:违约次数1、收入5、流水5、资产有抵押;
样本N3:……。
可选的,可以根据实际需要确定初始生成的多条规则,本实施例对此不作限制。在后续迭代过程中,会对初始生成的多条规则不断进行优化。
其中,每条规则可以包括至少一个特征,隐含的意义是若目标业务对象涵盖了规则包含的所有特征,则被认为是满足要求的(如审批不通过)。
示例性地,初始生成的规则以及新的规则可以采用如下的表现形式。
规则1:违约次数为3;
规则2:违约次数为1、资产有抵押;
规则3:……。
在规则学习领域,规则的数量随着特征规模的增长会爆炸式的增长,因此难以把所有的规则都显性地在模型中表达出来。在本申请实施例中,可以基于列生成技术来实现规则学习。
列生成技术是一种用于求解大规模线性优化问题的非常高效的算法,能够通过不断生成新的列来求解问题。本实施例中,基于列生成技术,可以先初始生成多条规则放入规则池中,根据规则池中已有规则的表现,不断生成新的规则,直至新生成的规则不能使最终结果更优,则结束模型学习。
可选的,在列生成过程中,可以基于频繁模式树生成新的规则。频繁模式树能够用来挖掘频繁项集。在规则学习中,频繁模式树可以直观地列出每条规则覆盖正样本的次数,即,规则的频繁程度,从而基于频繁模式树可以快速确定较多地覆盖正样本的规则或者较少地覆盖负样本的规则,为生成新的规则提供参考。
可选的,在列生成过程中,可以基于频率模式树,考虑较多地覆盖正样本的规则或者较少地覆盖负样本的规则,计算这些规则对应的确定检验数,并在检验数满足要求时添加新的规则,从而无需遍历全部的检验数,提高生成新的规则的效率。
示例性地,频繁模式树中每一节点可以对应于一个特征,每一路径上的至少部分特征构成一条规则,若某一规则只覆盖负样本没有覆盖正样本,或者,某一规则覆盖负样本的次数大于覆盖正样本的次数,或者,某一规则覆盖正样本的次数与覆盖负样本的次数之差小于预设阈值,则可以不考虑该规则,在其他规则中选择检验数最小的规则作为新的规则添加到规则池中进行进一步的迭代处理。
综上,本申请实施例提供的规则学习方法,可以获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括满足要求的业务对象对应的特征,所述负样本包括不满足要求的业务对象对应的特征,根据所述训练样本集,生成初始的多条规则,每条规则包括至少一个特征,基于列生成技术不断添加新的规则,直至得到规则学习模型,其中,列生成过程中,基于频繁模式树生成新的规则,从而可以基于列生成技术,减少每次迭代处理的数据量,并基于频繁模式树表征的各种可能的规则出现的频繁程度选择新的规则添加到规则池中,能够提升规则学习的效率,满足各个业务领域下的规则学习需求,为预测结果提供缘由解释,提升用户体验度。
在本申请的一个或者多个实施例中,可选的,基于列生成技术不断添加新的规则,直至得到规则学习模型,可以包括:构建限制主问题,所述限制主问题包括下述至少一项:规则学习模型的准确度、复杂度、重合度;重复执行下述步骤,直至没有新的规则可被添加:基于现有规则求解所述限制主问题,得到对偶变量;根据得到的对偶变量,基于频繁模式树生成新的规则。
其中,列生成技术的每一列可以对应一个规则,初始生成多个规则后,可以构建限制主问题,限制主问题通常是一个最大化或者最小化的问题。在构建限制主问题后,可以求解限制主问题得到对偶变量,再基于对偶变量去寻找新的规则。
可选的,在本申请实施例中,所述限制主问题可以包括规则学习模型的准确度、复杂度、重合度中的至少一项。其中,准确度可以用于表示模型能够准确预测结果的能力,复杂度可以用于表示模型包含的规则的复杂程度,具体可以为规则包含的特征数量,重合度可以用于表示模型包含的规则的多样性,如果每一正样本都被多条规则覆盖,则说明重合度较高,规则不够多样化,多样性较差。
示例性地,所述限制主问题可以被描述为:准确度最高,或者,复杂度最低,或者,复杂度与重合度的加权和最低,等等。
通过将各种可能的规则映射为列生成技术中的列,进而根据规则学习模型的准确度、复杂度、重合度等构建限制主问题,再基于限制主问题生成新的规则,能够有效根据对规则学习模型的要求构建并求解限制主问题以完成规则学习模型的生成,优化规则学习模型的准确度、复杂度、重合度。
在本申请的一个或者多个实施例中,可选的,生成初始的多条规则,包括:根据所述正样本组和/或负样本组包含的特征,生成初始的多条规则;其中,初始生成的规则为包含单个特征的规则。生成初始的规则可以放入规则池中。
可选的,不同取值的单个特征被划分为不同的规则。示例性地,“违约次数等于3”可以作为一条规则,“违约次数等于2”也可以作为一条规则。假设共有4类特征:违约次数、流水、收入、资产信息;每类特征有n种取值,则一共可以生成4n条包含单个特征的规则。
在一种可选的实现方式中,可以基于正样本组生成初始的规则。具体的,在正样本中出现的单个特征初始的规则,而没有在正样本中出现的规则不予考虑,减少数据量,提升效率。
在另一种可选的实现方式中,可以基于正样本组和负样本组生成初始的规则。具体的,正样本组和负样本组中出现的单个特征作为初始的规则,在后续计算过程中,通过决策变量区分一条初始的规则是否被采纳。这种方式可以更加全面地覆盖各种规则,提升规则学习的效果。
在其他可选的实现方式中,也可以根据负样本组来生成初始的规则,例如,在所有可能的单特征中,选择没有在负样本中出现过、或者在负样本中出现频率较低的单特征作为初始的规则。
根据所述正样本组和/或负样本组包含的特征,生成初始的多条规则,每条规则包含单个特征,能够使初始生成的规则简单、全面,提高规则学习的整体效率。
可选的,根据对规则学习模型的优化目标,可以构建原始主问题:
θ∈{0,1}q,
μ≥0,v≥0,ω≥0
其中,P代表正样本组,N代表负样本组,ωi为负样本i被描述正样本的规则错误覆盖的次数,向量用于表示样本i是否被规则j覆盖的情况,如果第j条规则覆盖样本i,则pij=1,反之pij=0,μi表示正样本i是否没有被任何描述正样本的规则覆盖,vi为正样本i被多个描述正样本的规则重复覆盖的次数,cTθ表示描述正样本的规则的长度之和,θ为决策变量,用于表示各规则是否被采纳为描述正样本的规则,α、β1、β2分别为复杂度系数、准确度系数、重复度系数。
为了提高求解效率,可以将原始主问题经过等效替换,并将考虑的规则限制在一个小的规则池里,且决策变量松弛为0到1之间,就得到了限制主问题。
在本申请的一个或者多个实施例中,可选的,构建限制主问题,可以包括:根据现有规则的决策变量,构建限制主问题;每一规则对应的决策变量用于表示该规则是否被采纳。
其中,所述限制主问题的目标函数可以包括下述至少一项:被采纳的规则覆盖的负样本数量和/或被采纳的规则没有覆盖的正样本数量,用于表征规则学习模型的准确度;被采纳的规则多次覆盖的正样本的数量,用于表征规则学习模型的重合度;被采纳的规则的长度之和,用于表征规则学习模型的复杂度。
所述限制主问题的约束条件可以包括:对于任一正样本,所述正样本的未覆盖结果与多次覆盖结果之和大于等于1;其中,若被采纳的规则没有覆盖所述正样本,则未覆盖结果为1,反之为0;若被采纳的规则多次覆盖所述正样本,则所述多次覆盖结果为覆盖次数减1;决策变量在0至1之间取值。
具体地,可以基于规则池中的现有规则构建限制主问题,规则池中包含的规则记为现有规则。规则池中的每一条规则,可以通过其对应的决策变量确定其是否被采纳。在迭代完成后,模型包含的规则为所有被采纳的规则,在预测时,若待分析的业务对象的特征与模型中的某一规则相匹配,则认为满足要求。
可选的,所述限制主问题可以采用如下式子表示。
0≤θj≤1,j∈R′
μ≥0,v≥0,ω≥0
其中,θj为第j个规则的决策变量,取值为0或者1,1代表该规则被采纳,0代表该规则不被采纳,被采纳的规则对应于原始主问题中的描述正样本的规则。cj为第j个样本的长度。向量表示样本i被现有规则覆盖的情况,但此时对应的现有规则是限制版本,因而与原始主问题中的全量版本不同。
在限制主问题中,目标函数可以包括四部分,这四个部分中每个部分都可以有其相应的系数,通过线性加权方式构建限制主问题。下面分别进行解释说明。
第一部分为被采纳的规则覆盖的所有负样本的数量。假设当前被采纳的有10条规则,训练样本集中共有50个负样本,对于每一负样本来说,若该负样本包含了被采纳的规则中的一条或多条规则,则认为被采纳的规则覆盖了该负样本。
可选的,负样本组可以通过一个二维矩阵来表示,在负样本矩阵中,行用于表示样本,列用于表示规则,第i行可以为第i个负样本,第j列可以为第j个规则,若第j个规则覆盖了第i个样本,则矩阵中第i行第j列的元素为1,反之则为0。现有的多个规则的决策变量可以表示为一个向量,向量中第j个元素为第j个规则对应的决策变量。这样,直接将负样本矩阵和决策变量的向量相乘,即可得到被采纳的规则覆盖的所有负样本。
第二部分为被采纳的规则没有覆盖的正样本的数量。在实际应用中,总是希望被采纳的规则覆盖的正样本越多越好,而规则没有覆盖的负样本越少越好,因此,第一部分和第二部分结合起来,可以用于表征规则学习模型的准确度。在其他可选的实现方式中,也可以仅保留第一部分或者仅保留第二部分。
可选的,正样本组也可以通过二维矩阵来表示,从而通过正样本矩阵和决策变量的向量能够更加准确快速地确定规则覆盖的正样本。
第三部分为被采纳的规则多次覆盖的正样本的数量,对应于重合度。具体地,一个正样本可能被一个或多个规则覆盖,也可能没有被任何规则覆盖。对于每一个正样本来说,如果没有规则覆盖,其对应的第二部分和第三部分分别为1和0,如果其被多条规则覆盖,则第二部分为0,第三部分为覆盖次数减去1。
举例来说,规则1:违约次数=1;规则2:收入=0。如果某一正样本为:违约次数=1且收入=0,那这个正样本就被这个两个规则覆盖,第三部分的取值应该为2-1=1。在实际应用中,可能会希望被多次覆盖的情况越少越好,以减少重合度,提升多样性。
第四部分为被采纳的规则的长度之和,对应于复杂度。其中,每一规则的长度为该规则包含的特征数量,例如,规则包含2个特征,则长度为2,规则越长,复杂度越高。
在限制主问题中,第一类约束条件是:对于任一正样本来说,该正样本对应的第二部分与第三部分之和大于1。其含义为,对于每一正样本来说,要么没有被覆盖,要么被覆盖至少一次。具体地,对于任一正样本来说,若其没有被已采纳的规则覆盖,则第二部分和第三部分分别为1和0,若其被至少一个已采纳的规则覆盖,则第二部分为0,第三部分为大于等于1的整数,因此,无论正样本是否被已采纳的规则覆盖,其对应的第二部分和第三部分之和均大于等于1。
第二类约束条件为决策变量的范围为0到1之间。具体地,决策变量的取值应该为0或者1,但是,限制决策变量取值为0或者1会增加求解难度,因此,可以将决策变量的范围松弛到1至0之间,能够更快地求解限制主问题,并且,求解出的决策变量的取值最终会落到1或者0。
通过上述式子构建限制主问题,可以将规则学习与列生成技术结合起来,实现规则生成对应的限制主问题的建模,并且可以从准确度、重合度、复杂度等维度进行求解,满足规则学习的实际要求。
在实际应用中,上述四个部分也可以不都是必须的,可以根据需要增加、减少或修改一个或多个部分。例如,可以删除复杂度或重合度等部分。又例如,可以增加在目标函数中增加:规则覆盖正样本的支持度越大越好、被采纳的规则的总数量越小越好。或者,在进行规则搜索时,可以设置新的规则覆盖正样本的支持度不能小于第一阈值,在约束条件中增加被采纳的规则的总数量不能超过第二阈值,其中,第一阈值和第二阈值可以采用默认值,也可以由用户输入,也可以随着样本总数量而动态变化。
在构建目标函数和约束条件后,可以采用现有的列生成技术求解限制主问题,得到决策变量和对偶变量。其中,每个正样本的约束条件可以对应一个对偶变量,每一次迭代中,当限制主问题求解完成,对应每个约束的对偶变量会被提取,用于后续计算检验数。
在本申请的一个或多个实施例中,可选的,所述限制主问题中的每一项对应设置有系数;所述方法还包括:获取用户输入的准确度系数、重合度系数、复杂度系数中的至少一项;相应的,所述限制主问题通过用户输入的系数、根据样本数量确定的系数、默认设置的系数中的至少一项构建。
具体地,增加系数可以调节各个指标的重要程度,系数越大,惩罚力度越大。这些系数可以是用户输入的,或者采用默认的推荐值,或者,可以由用户输入部分系数,其余系数采用默认值。通过允许用户输入系数,能够满足不同用户以及不同训练场景下的学习需求,具有较强的适应性。
可选的,还可以根据训练样本集动态调整各个系数,例如,复杂度系数可以是样本量的1%,样本越多,复杂度系数越大,使得系数的选择能够更加匹配实际训练样本,提高学习效果。
在本申请的一个或多个实施例中,可选的,还可以统计各个特征覆盖正样本的位图(BitMap)信息和覆盖负样本的位图信息,其中,所述位图信息用于实现下述至少一项:根据任一特征对应的位图信息,确定所述特征覆盖的正样本和/或负样本;根据至少两个特征对应的位图信息,计算所述至少两个特征对应的规则覆盖的正样本和/或负样本。
示例性地,每个特征是否覆盖一个样本,可以用1、0来表示,例如1表示覆盖了该样本,0表示没有覆盖,因此,对于每一特征,可以构建其对应的BitMap,BitMap里第i位用于表示该特征是否覆盖第i个样本。考虑违约次数=3这一特征,在样本数量为100的正样本组里,假设第1、3、5个正样本中违约次数=3,其它正样本中都不包含违约次数=3这一特征,则该特征对应的正样本BitMap可以包含100位,第1、3、5位是1,其它位是0。在实际应用中,当需要查看特征覆盖的正样本的情况时,BitMap可以返回覆盖的正样本的标识,例如,返回1、3、5,即表示特征覆盖了第1、3、5个正样本。同理,可以构建每个特征对应的负样本BitMap。
根据BitMap可以去辅助求解限制主问题。具体地,限制主问题里可能会用到规则覆盖的正负样本,每一规则可能包含至少一个特征。当规则包含一个特征时,可以直接根据规则对应的BitMap确定覆盖了哪些正负样本,当规则包含多个特征时,可以将多个特征对应的BitMap求交集,确定规则覆盖了哪些正负样本。
示例性地,当需要确定特征违约次数=3、收入=0这一规则覆盖的正样本时,直接将违约次数=3对应的正样本BitMap与收入=0对应的正样本BitMap求交集,得到的结果中,第i位若为1,说明覆盖了第i个正样本。
除了用于计算限制主问题以外,BitMap还可以用于后续分析频繁模式树或者计算检验数下界,凡是需要查找规则覆盖的样本时,都可以使用BitMap来实现,BitMap能够有效提升查找覆盖的正负样本的效率和准确率,进而提升规则学习的整体效率和准确率。
在本申请的一个或多个实施例中,可选的,根据得到的对偶变量,基于频繁模式树生成新的规则,包括:通过任一规则头构建对应频繁模式树,根据对偶变量计算所述规则头对应的检验数下界,以确定所述规则头是否需要被分析,并针对需要被分析的规则头对应的频繁模式树进行递归分析,找到的检验数最小的规则为所述新的规则;其中,所述频繁模式树中,节点用于表示特征,所述规则头包括一个或多个特征;所述规则头对应的频繁模式树为根据包含所述规则头的正样本构建的频繁模式树;所述规则头对应的检验数下界用于表示所述规则头对应的频繁模式树中各路径规则对应的检验数下界。
可选的,通过求解限制主问题可以得到对偶变量,进而可以根据对偶变量去计算各个规则对应的检验数,最小检验数对应的规则可以作为新的规则添加到规则池中进行下一次的迭代。
示例性地,对于规则cj来说,可以通过如下式子计算其对应的检验数。
其中,λi为第i个样本对应的对偶变量,如果第j条规则覆盖样本i,则pij=1,反之则pij=0,其余参数含义可以参见前述实施例。
在查找最小检验数时,如果对每个规则进行逐一计算,需要消耗大量的算力。本实施例中,可以基于不同的规则头构建频繁模式树,计算频繁模式树对应的检验数下界,并基于检验数下界确定一个规则头是否有必要继续分析,仅对有必要分析的频繁模式树包含的规则进行分析,能够有效减少计算量,提高处理效率。
下面对频繁模式树的构建方法进行解释说明。可选的,构建频繁模式树可以包括以下步骤1a)至1b)。
步骤1a)、统计正样本组中单特征的频率,并舍弃频率小于预设频率阈值的特征。
表1为样本示例,每个样本可以包括:样本ID、特征、权重、标签。其中,所述样本包含的特征中,A、B、C可以指不同维度的特征,例如分别为违约次数、收入、流水,a1、b1、c1等可以为具体的取值,例如,A=a1、B=b1、C=c1分别指:违约次数=3、收入=0、流水=0。权重可以表示样本出现的次数,例如,有两个样本的特征完全一致,则可以只记录一次,其权重为2,表示有两个这样的样本。标签可以用于区分正负样本,其中,1为正样本、0为负样本,例如可以分别表示审批不通过或者审批通过。
表1样本示例
样本ID | 特征 | 权重 | 标签 |
1 | A=a1、B=b1、C=c1 | 1 | 1 |
2 | A=a1、B=b2、C=c1 | 2 | 1 |
3 | A=a1、B=b3、C=c1 | 2 | 1 |
4 | A=a2、B=b1、C=c2 | 1 | 1 |
5 | A=a2、B=b1、C=c3 | 3 | 1 |
6 | A=a3、B=b1、C=c3 | 1 | 1 |
7 | A=a1、B=b1、C=c1 | 1 | 0 |
… | … | … | … |
1000 | A=a2、B=b2、C=c2 | 2 | 1 |
可选的,可以将正样本组扫描一次,统计所有正样本中单个特征出现的频率,例如,A=a1出现的频率,A=a2出现的频率、B=b1出现的频率,等等。在统计得到单个特征的频率后,可以丢掉频率小于阈值的特征,进一步提高处理效率。表2为单特征频率示例,其中示出了各个单特征在正样本中出现的频率。
表2单特征频率示例
特征 | 权重 |
B=b1 | 6 |
A=a1 | 5 |
C=c1 | 5 |
A=a2 | 4 |
C=c3 | 4 |
B=b2 | 2 |
B=b3 | 2 |
步骤1b)、根据当前规则头初始化根节点,并基于统计的单特征的频率构建频繁模式树。
其中,不同的规则头用于构建不同的频繁模式树,每一规则头对应的频繁模式树,是基于包含该规则头的所有正样本进行构建的。
一示例中,所述规则头为空,即根据所有正样本构建对应的频繁模式树。图6为本申请实施例提供的一种频繁模式树的示意图。如图6所示,对于每一正样本,可以按照上一步骤中统计的单特征频率进行降序排序其包含的特征。具体的,对于其中的每一个特征,如果已经存在了一条从根节点到其的路径,则将其对应的频率添加至对应的节点上,图中特征右侧的数字用于表示频率,下方括号中的数字表示出现该特征的样本ID;如果不存在,则为这一特征构建一个新的下游节点。
另一示例中,所述规则头可以包括一个特征,例如,规则头为B=b1,则可以找出包含B=b1这一特征的所有正样本,基于这些正样本构建频繁模式树,该频繁模式树中的根节点可以为B=b1。
另一示例中,所述规则头可以包括多个特征,例如,规则头为B=b1且A=a1,则可以找出包含B=b1、A=a1这两个特征的所有正样本,基于这些正样本构建频繁模式树,该频繁模式树中的根节点可以为B=b1且A=a1。
在实际应用中,可以基于至少一个规则头构建频繁模式树,通过计算该规则头对应的检验数下界,可以确定是否需要对该规则头对应的频繁模式树中的各个规则进行进一步分析,只有在有必要时才进行分析。
可选的,若规则头对应的检验数下界大于等于0,说明该规则头对应的频繁模式树中,各个规则的检验数都是大于等于0的,那就没有进一步分析的必要。或者,若在寻找新的规则的过程中,已经计算了一部分规则对应的检验数,且所述规则头对应的检验数下界大于等于这部分检验数中的最小检验数,说明所述规则头对应的频繁模式树中,各个规则的检验数不会比当前计算出的最小检验数更小,也没有分析的必要。
示例性地,假设当前规则池已经有100个规则,在寻找新的规则作为第101个规则时,可以设计至少一个规则头,并且对每个规则头分别进行分析,若规则头对应的检验数下界大于等于0,则跳过分析该规则头对应的频繁模式树中的各个规则,或者,可以依据当前的对偶变量先计算部分规则对应的检验数,假设计算得到的检验数中最小检验数为-0.5,若某一规则头对应的检验数下界为-0.3,则也可以跳过该规则头对应的频繁模式树中的各个规则,不必对其进行进一步分析。
在找到新的规则后并添加到规则池中后,可以根据规则池中的101个规则,重新求解限制主问题得到对偶变量,并根据对偶变量和频繁模式树继续寻找新的规则。
通过计算计算至少一个规则头对应的检验数下界,以确定所述规则头是否需要被分析,并针对需要被分析的规则头对应的频繁模式树进行递归分析,不需要分析的规则头直接跳过,可以基于检验数下界实现剪枝,减少计算量,提高寻找新的规则的效率。
在本申请的一个或多个实施例中,可选的,通过任一规则头构建对应频繁模式树,根据对偶变量计算所述规则头对应的检验数下界,以确定所述规则头是否需要被分析,并针对需要被分析的规则头对应的频繁模式树进行递归分析,找到的检验数最小的规则为所述新的规则,可以包括如下步骤2a)至2d)。
步骤2a)、初始化最优检验数为0,初始的规则头设置为空。
可选的,最优检验数记为BestScore,初始的规则头Cond为Null(空)。
步骤2b)、基于满足当前规则头的正样本构建频繁模式树,并重复执行下述步骤2c)至2d),直至正样本组包含的规则被分析完毕。
其中,规则头为空的情况下,可以扫描所有的正样本,构建对应的频繁模式树。可选的,构建频繁模式树时可以参见前述的步骤1a)至步骤1b)来实现。
步骤2c)、根据当前规则头对应的频繁模式树,确定出现频率大于等于预设频率阈值的单特征节点的集合,对于集合中每一元素,确定该元素与当前规则头构成的规则对应的检验数,并在所述对应的检验数小于所述最优检验数时,将所述最优检验数更新为所述对应的检验数。
对于出现频率大于等于预设频率阈值的所有单特征节点,无论其是否直接与根节点相连,都可以添加到集合中。
对于所述集合中的每一元素,以该元素加当前规则头构成一个规则,并计算该规则对应的检验数,例如,B=b1为集合中的一个元素,B=b1与当前规则头Null结合,得到的规则为B=b1,计算该规则对应的检验数,若优于BestScore,则更新BestScore,本实施例中,优于可以是指小于。
步骤2d)、对于所述集合中的每一元素,计算所述元素对应的检验数下界,若检验数下界大于等于所述最优检验数,则跳过分析所述元素,反之则基于深度优先递归方法构建新的规则头及对应的频繁模式树。
其中,所述元素对应的检验数下界,可以是指所述元素加当前规则头构成一个新的规则头时,所述新的规则头对应的频繁模式树的检验数下界。
示例性地,当前规则头为Null,集合中的某一元素为e,则计算规则头Cond=Null&e对应的检验数下界,若检验数下界大于等于BestScore,则跳过分析该元素。
若检验数下界小于BestScore,则说明可以对当前元素继续进行分析,可以在该元素的基础上,进一步增加特征构建新的规则头及对应的频繁模式树。
可选的,在增加特征时,可以基于深度优先递归方法确定增加的特征。深度优先递归方法可以是指,在搜索过程中,一直往深度方向走,把最长的路径分析完成后,再退回,从上一个分叉的地方重新搜索。
每次构建新的规则头后,重新执行上述的步骤2c)和步骤2d),直至正样本组包含的所有规则被分析完毕,此处的被分析完毕,可以是指被计算出检验数,或者,被跳过。在所有可能的规则中,部分已经计算过检验数了,剩余部分被跳过了,则可以认为完成了本次寻找新的规则的过程,找到新的规则为检验数最小的规则。
通过初始化最优检验数以及规则头并构建对应的频繁模式树,再基于当前的频繁模式树的单特征优化最小检验数,作为计算得到的检验数下界的比较基准,相对于仅将检验数下界与0进行比较,能够更加快速地实现全规则的遍历以及更加快速地找到最小检验数,进一步提升处理效率。
在本申请的一个或多个实施例中,可选的,步骤2d)可以包括:对于所述集合中的每一元素,若所述元素与当前规则头构成的规则在初始频繁模式树中所在的路径上,从所述元素出发沿深度方向还存在待分析的节点,则计算所述元素对应的检验数下界,若检验数下界大于等于所述最优检验数,则跳过分析所述元素;若检验数下界小于最优检验数,则根据当前规则头与所述元素构成新的规则头构建频繁模式树;若沿深度方向不存在待分析的节点,则在初始频繁模式树中,从所述元素退回查找待分析的下一节点,并基于下一节点对应的规则头,构建频繁模式树。
在实际应用中,以规则头Null构建的频繁模式树如图6所示,该频繁模式树中涵盖了所有在正样本组出现过的特征。而可能的规则,不仅包含从根节点到叶子节点的路径对应的规则,例如:B=b1、A=a1、C=c1这三个特征构成的规则,也包含从根节点到中间节点的路径对应的规则,例如:B=b1、A=a1这两个特征构成的规则,也包含从中间节点到叶子节点的路径对应的规则,例如:A=a1、C=c1这两个特征构成的规则,甚至还包含不相邻的节点组合对应的规则,例如,B=b1、C=c1这两个特征构成的规则。如果只分析当前频繁模式树上各个路径对应的规则,可能并不能涵盖所有的规则,因此,可以对当前频繁模式树的各个节点进行分析并进一步基于各个节点构建新的规则头进行分析,直至所有可能的规则都被分析完毕。
可选的,在以规则头Null构建频繁模式树后,可以先对当前频繁模式树中的叶子节点进行分析,按照从叶子节点到中间节点到根节点的方向,逐渐深入。对于集合中的每一元素,若沿深度方向还存在待分析的节点,则说明需要对其进行进一步分析,可以计算所述元素对应的检验数下界,若检验数下界大于所述最优检验数,则跳过分析所述元素。若所述元素沿深度方向出发不存在待分析的节点,则没有必要对其进行进一步分析,因此无需计算对应的检验数下界。
下面以深度方向为从叶子节点到根节点为例,描述根据频繁模式数进行规则搜索的具体实现方案。结合步骤2a)至步骤2d),首先设置初始的BestScore为0,初始的规则头为Null,在以规则头Null构建频繁模式树后,在出现频率大于等于预设频率阈值的单特征节点构成的集合E1中,计算每个元素e与规则头Null构成的规则即规则e对应的检验数,并在所述元素e对应的检验数小于当前的BestScore时,更新BestScore,使得BestScore总是小于0的且和当前已经计算过的检验数中的最小值保持一致。
进一步的,对于所述集合E1中的每一元素e进行分析,可选的,由于深度方向为从叶子节点到根节点,因此可以先从叶子节点开始进行分析,例如B=b3。
由于B=b3朝向根节点还存在其它节点C=c1以及A=a1,即元素B=b3与当前规则头Null构成的规则B=b3,在初始频繁模式树中所在的路径上,从所述元素B=b3出发朝向根节点的方向还存在待分析的节点,因此可以计算所述元素B=b3对应的检验数下界,若检验数下界大于所述最优检验数,则跳过分析所述元素,无需再以元素B=b3为规则头构建新的频繁模式树。若检验数下界小于BestScore,则可以基于B=b3作为规则头构建频繁模式树进行分析。
图7为本申请实施例提供的一种基于非空规则头构建的频繁模式树的示意图。如图7所示,在以B=b3作为规则头时,根据所有包含B=b3这一特征的正样本,构建频繁模式树,构建的频繁模式树中包含B=b3、C=c1、A=a1这一路径。
对于当前频繁模式树中的单特征节点C=c1、A=a1组成的集合E2中,每一元素分别计算对应的检验数,并在检验数优于BestScore时更新BestScore。
对于所述集合E2中的每一元素,若所述元素与当前规则头构成的规则在初始频繁模式树中所在的路径上,从所述元素出发沿深度方向还存在待分析的节点,则计算所述元素对应的检验数下界。
以集合E2中的元素C=c1为例,其与当前规则头B=b3在初始频繁模式树中所在的路径上,从所述元素C=c1出发,沿深度方向(朝向根节点的方向)还存在待分析的节点A=a1,则需要对其进行进一步分析:计算元素C=c1这一节点对应的检验数下界,该检验数下界,用于表示以元素C=c1和当前规则头B=b3构成的新的规则头,即规则头<C=c1且B=b3>对应的频繁模式树的检验数下界,假设其大于等于BestScore,则没有必要以<C=c1且B=b3>作为规则头构建频繁模式树进行进一步分析,假设其小于BestScore,则可以以<C=c1且B=b3>作为规则头构建频繁模式树。
由于训练样本集中,包含B=b3的正样本与包含C=c1、B=b3的正样本完全一致,因此,以<C=c1且B=b3>作为规则头构建的频繁模式树也与图7一致。
需要说明的是,基于某一节点构建的新的频繁模式树可能与初始频繁模式中包含该节点的路径并不完全一致,例如,构建新的频繁模式树时,会去掉出现频率不满足要求的特征,导致新的频繁模式树中滤除了初始频繁树中该节点所在路径上的某些特征,因此分析新的频繁模式树时可以跳过分析这些特征。另外,当一个特征在初始频繁模式树中对应多个叶子节点时,构建的新的频繁模式树可能会包含初始频繁模式树中的多个规则路径,在分析时需要将多个规则路径都分析完。
在这个频繁模式树中,C=c1且B=b3是规则头,单特征节点只有A=a1,因此当前频繁模式树对应的单特征节点集合E3中只包含A=a1这一元素,计算元素A=a1对应的检验数,若检验数优于BestScore则更新BestScore。
然后,对于元素A=a1,判断所述元素与当前规则头在初始频繁模式树中所在的路径上,从所述元素出发沿深度方向是否还存在待分析的节点。从初始频繁模式树中可以看出,元素A=a1与当前规则头<C=c1且B=b3>所在的路径上,在元素A=a1沿着朝向根节点的方向已经不存在其它需要分析的节点了,因此,对于元素A=a1,不需要计算其对应的检验数下界,以当前规则头<C=c1且B=b3>构建的频繁模式树就被分析完毕了。因此,在图7中,分析的方向是从叶子节点到中间节点再到根节点逐步深入的,如箭头所示。
在沿深度方向不存在待分析的节点时,可以在初始频繁模式树中,从所述元素退回查找待分析的下一节点,并基于下一节点对应的规则头,构建频繁模式树。假设初始频繁模式树中,节点C=c1除了通过节点A=a1连接到根节点以外,还额外通过其它节点连接到根节点,那么可以退回到节点C=c1,再沿深度方向分析所述其它节点,直至节点C=c1沿深度方向的各个节点都被遍历到。
从集合的角度来看,在对集合E3中的元素分析完毕后,对集合E2中未分析的元素进行进一步分析。具体的,集合E2中,元素C=c1已经被分析完,对于元素A=a1,可以看其是否还有分析的必要,在图7中,包含A=a1和规则头B=b3的路径中,可能的规则都被分析完了,要么已经被计算过检验数,要么已经被跳过,则无需再对A=a1计算检验数下界,假设A=a1与根节点之间还存在其它节点,则可以进一步针对A=a1计算检验数下界。
在对集合E2分析完毕后,可以再退回对集合E1中的其余元素进行分析。具体的实现方式与前述分析B=b3的实现方式类似,此处不再赘述。
通过如上方案,可以按照深度优先递归方法,对各种可能的规则进行遍历,通过对深度方向上的信息不断探寻,能够快速准确地找出所有未被分析的规则进行分析处理,并跳过已经被分析过的规则,从而进一步提高寻找最小检验数的效率。
在另外一些可选的实现方式中,在根据当前规则头对应的频繁模式树,确定出现频率大于等于预设频率阈值的单特征节点的集合之后,还可以对集合中已经分析过的节点进行剔除。
举例来说,在初始频繁模式树中对应的集合E1中,至少包括B=b3和C=c1两个元素,先对叶子节点B=b3作为规则头对应的频繁模式树进行分析,在分析过程中,会计算B=b3、C=c1构成的规则对应的检验数。在对B=b3分析完毕后,在当需要分析集合E1中的C=c1作为规则头对应的频繁模式树进行分析,而C=c1作为规则头对应的频繁模式树中,包含了节点B=b3,此时,由于B=b3、C=c1构成的规则对应的检验数已经被计算过,因此可以无需再次计算,也就是说,在初始频繁模式树中,针对集合E1中的每个元素进行分析时,总是沿着所述元素朝向根节点的方向进行分析,而所述元素背离根节点方向的节点可以从该元素作为规则头对应的频繁模式树的单特征节点集合中删除,从而可以按照一定的次序进行递归处理,减少重复计算次数,降低计算量,进一步提升效率。
图8为本申请实施例提供的一种递归过程中的集合示意图。如图8所示,在构建初始频繁模式树后,对应的单特征节点集合E1可以为{B=b3、B=b2、……},在以其中的元素B=b3作为规则头构建频繁模式树后,对应的单特征节点集合E2可以为{C=c1、A=a1},进一步的,在以其中的元素C=c1加当前规则头B=b3构成新的规则头并构建频繁模式树后,对应的单特征节点集合E3可以为{A=a1},可以依次对各个层级的集合进行分析,在将E1中的元素B=b3分析完后,可以继续分析元素B=b2,直至正样本组包含的各种可能的规则都被分析到。
在一些可选的实现方式中,对于初始频繁模式树对应的单特征节点集合来说,也可以不按照从叶子节点朝向根节点的深度方向依次分析,而是按照从根节点朝向叶子节点的深度方向分析,例如,先分析B=b1,再分析A=a1,依次类推。或者,也可以从中间节点开始分析,只要能够完成各个可能规则的遍历即可。本申请不限制具体的遍历顺序。
在本申请的一个或多个实施例中,可选的,还可以在构建初始频繁模式树后,根据所述初始频繁模式树中的所有节点构建节点链表,所述节点链表用于指示所述初始频繁模式树上的属于同一特征但分布在不同路径上的节点;相应的,根据当前规则头与所述元素构成新的规则头构建频繁模式树,包括:根据所述节点链表,构建所述当前规则头与所述元素构成的新的规则头对应的频繁模式树。
图9为本申请实施例提供的一种节点链表的示意图。如图9所示,在构建频繁特征树之后,可以为树上的所有节点构建一个节点链表,通过链表(图中用虚线示意)链接在树上的同一特征但分布在不同规则路径上的节点。
示例性地,节点B=b1分布在一个规则路径上、节点A=a1分布在两个规则路径上、……、节点B=b3分布在一个规则路径上。
当需要基于某一节点构建新的频繁模式树时,可以根据节点链表来实现。链表中所述节点对应的至少一个规则路径构成所述节点对应的频繁模式树。例如,当需要构建节点B=b3作为规则头对应的频繁模式树时,只需要查找链表中节点B=b3对应的规则路径即可。这样,通过节点链表可以有效简化了构建过程,提高构建频繁模式树的效率。
可选的,根据所述节点链表,构建所述当前规则头与所述元素构成的新的规则头对应的频繁模式树,包括:根据所述节点链表,确定所述新的规则头对应的规则路径,根据从所述元素出发沿所述规则路径到根节点途经的节点,构建频繁模式树。
示例性的,在构建集合E1中的元素B=b3作为规则头的频繁模式树时,可以根据链表查找B=b3所在的规则路径,沿所述规则路径向上,一直找到根节点,可以构建B=b3作为规则头的频繁模式树。当在构建B=b3、C=c1作为规则头的频繁模式树时,可以在前述规则路径的基础上,从C=c1沿所述规则路径向上,一直找到根节点,可以构建B=b3、C=c1作为规则头的频繁模式树。
当需要构建集合E1中的元素C=c1作为规则头的频繁模式树时,可以根据节点链表确定元素C=c1所在的规则路径,然后沿着朝向根节点的方向,构建的以元素C=c1作为规则头的频繁模式树,可以不包含元素B=b3,这样,再结合前述的从叶子节点到根节点的深度方向依次进行分析的顺序,能够有效减少重复分析工作,从而基于节点链表实现更快速的规则搜索。
在本申请的一个或多个实施例中,可选的,在计算所述元素对应的检验数下界时,可以具体根据下述至少一项成本计算检验数下界:当前规则包含的特征数量;当前规则覆盖的正样本对应的对偶变量之和的负数;以当前规则作为规则头构建的频繁模式树中,覆盖最少正样本的从根节点到叶子节点的路径规则在正样本组中的支持度;以当前规则作为规则头构建的频繁模式树中,覆盖最少负样本的从根节点到叶子节点的路径规则在负样本组中的支持度;其中,在计算所述元素对应的检验数下界时,所述当前规则为所述元素与当前规则头构成的规则。
示例性地,假设当前规则头为Null,所述元素为B=b1,在计算所述元素对应的检验数下界时,设置当前规则为:Null和B=b1构成的规则,即规则:B=b1,考虑上述的至少一项成本。
其中,第一项成本为当前规则包含的特征数量,因为当前规则B=b1只包含一个特征因此其成本可以为1,用于表征复杂度,在其它成本固定的情况下,复杂度越高,检验数下界越大,因此,当前规则的长度越小越好。
第二项成本为当前规则覆盖的正样本对应的对偶变量之和的负数,假设当前规则B=b1覆盖了40个正样本,将这40个正样本对应的对偶变量相加,得到的结果取负数,可以得到第二项成本。其中,对于任一规则来说,由于对偶变量的存在,规则每多覆盖一个正样本,检验数就会减小一些,覆盖的正样本越多,检验数越小,相当于成本越小。
第三项成本为以当前规则作为规则头构建的频繁模式树中,覆盖最少正样本的从根节点到叶子节点的路径规则在正样本组中的支持度。其中,路径规则对应的支持度可以是指,该路径规则覆盖的正样本的数量,或者,该路径规则覆盖的正样本的数量与全部正样本数量的比值。第三部分可以在一定程度上反映重合度,覆盖的正样本数量越多,重合度越大。
第四项成本为以当前规则作为规则头构建的频繁模式树中,覆盖最少负样本的从根节点到叶子节点的路径规则在负样本组中的支持度。一般可以认为,覆盖负样本越少越好。因此,覆盖负样本越多,准确度越差,成本就越高。
如果频繁模式树中有多个规则路径,那么在第三项成本和第四项成本中,要找出覆盖最少正样本的路径规则和覆盖最少负样本的路径规则。以B=b1作为规则头构建的频繁模式树中,包含图6的树中最左侧的三条路径规则,假设这三条规则路径中,最左侧的规则路径(C=c1、A=a1、B=b1)覆盖的正样本最少,中间的规则路径(C=c3、A=a2、B=b1)覆盖的负样本最少,那么,第三项成本可以通过最左侧的路径规则来确定,第四项成本可以通过中间的规则路径来确定。
下面对本申请实施例提供的检验数下界的优势进行解释说明。
检验数下界是用于确定以当前规则为规则头构建的频繁模式树中各路径规则对应的检验数的下界。在本申请实施例提供的检验数下界中,第一项成本是通过规则头的长度确定的,频繁模式树中各路径规则是不会小于规则头的长度的,所以每一路径规则对应的检验数中第一项成本都会大于检验数下界中的第一项成本。第二项成本是通过覆盖的正样本的对偶变量之和确定的,规则头相对于树中的各个路径规则总是能够覆盖更多或者相等的正样本,因而对偶变量之和会更大,取负数之后会得到更小的成本,因此,各个路径规则对应的检验数中第二项成本不会小于检验数下界中的第二项成本。第三项成本和第四项成本是通过覆盖正负样本最少的路径规则确定的,因此,这两项成本考虑的是最好的情况,对于每一规则路径来说,其对应的检验数的第三项成本不会小于通过覆盖正样本最少的规则路径得到的第三项成本,其对应的检验数的第四项成本也不会小于通过覆盖负样本最少的规则路径得到的第四项成本。
综上,通过上述四项成本构建的检验数下界,不会大于实际树中各个路径规则的检验数,从而在衡量复杂度、重合度、准确度的基础上,基于对偶变量构建准确的检验数下界,提高剪枝的效率和准确率。
可选的,各项成本有对应的惩罚系数,且所述惩罚系数与列生成技术中限制主问题的目标函数中的系数相匹配。示例性地,可以通过如下式子计算检验数下界。
其中,S'表示以当前规则作为规则头构建的频繁模式树中所有可能的路径规则,cost S'表示路径规则S'的成本,相当于检验数,S为规则头,λ为对偶变量,pbits代表规则在正样本(P)中的BitMap,式子中λ求和表示规则头覆盖的正样本对应的对偶变量之和,supp(a,P/N)表示规则a在正样本P(或负样本N)中的支持度,这里S*+和S*-分别表示在以S为规则头的FP-tree中覆盖最少正样本和负样本的从根节点到叶子结点的路径。
通过上述式子构建的检验数下界,各项成本有对应的惩罚系数,且所述惩罚系数与所述目标函数中的系数相匹配,能够计算得到的检验数下界更加准确,利用上述式子可以有效判断一棵树是否值得继续分析。
在其他可选的实现方式中,也可以在上述式子的基础上对检验数下界进行调整,例如,删除复杂度或重合度对应的成本,或者,复杂度对应的成本可以为规则头的长度加1,从而构建更加严格的检验数下界,进一步提升剪枝的效果。
图10为本申请实施例提供的一种规则学习方法的流程示意图。如图10所示,规则学习方法可以包括以下三个流程:数据预处理、规则学习、后处理。下面分别进行说明。
步骤1001、数据预处理。
可选的,可以先将输入数据分为两组:正样本组(P)和负样本(N)组。默认对正样本组里样本的规则感兴趣。对正负样本组里的连续型特征进行离散化处理,例如,收入是连续性特征,将收入划分为多个区间,每个区间对应于一个特征。为每个离散后的特征生成所覆盖正样本和负样本的BitMap。
步骤1002、规则学习。
可选的,规则学习可以通过重复执行下面两个步骤来实现:建模和求解限制主问题;进行最小检验数的规则搜索。
可选的,在第一个步骤中,首次迭代中使用单特征作为规则构建限制主问题,之后的迭代中会生成检验数最小的规则(即新的列)加入限制主问题。限制主问题的构建和求解可以参见前述实施例,此处不再赘述。
每一次迭代中,当限制主问题求解完成,对偶变量会被提取,用于计算最小检验数。
在第二个步骤中,可以基于BitMap FP-tree和分支定界实现规则搜索,找出最小检验数对应的规则。具体可以包括下述3a)至3b)。
步骤3a)、初始化变量BestScore为0,确定规则需满足的预设频率阈值,设置FP-tree的规则头Cond为Null。
步骤3b)、使用满足Cond的数据,构建BitMap FP-tree,并确定满足预设频率阈值的单特征节点集合,记为E。对于E中的每一个元素e,评估新的规则Cond&e对应的检验数,如果优于BestScore,则更新BestScore。
步骤3c)、为E中每个元素e构建其对应的新的FP-tree的检验数下界LB。如果LB大于BestScore,跳过分析该元素e,否则使用深度优先进行递归构建新的规则头为Cond&e的FP-tree。之后重复步骤3b)和3c)。
可选的,BitMap FP-tree可以是指包含BitMap信息的FP-tree,在步骤3b)中,可以按照前述实施例提供的方法构建BitMap FP-tree,同时储存从根节点至当前节点对应规则覆盖正负样本的BitMap,并存储对应的节点链表,方便计算。
重复地执行建模和求解限制主问题、进行最小检验数的规则搜索,直至没有小于0的检验数的规则可以被发现,可以得到规则学习模型。
步骤1003、后处理。
在得到的规则学习模型中,一个规则可能包含多个特征,为了提高规则的可解释性,可以进一步进行后处理操作。例如,用户可能想要知道一个规则中哪些特征是最重要的,后处理操作可以对规则中的特征进行排序,统计出最重要的特征。
在本申请的一个或多个实施例中,可选的,可以在得到规则学习模型之后,对所述规则学习模型中任意一个包含多个特征的规则进行后处理操作,确定所述规则中至少一个特征的重要程度;其中,所述重要程度用于向用户展示待分析的业务对象满足要求的核心原因。
举例来说,若某一待分析的业务对象对应的特征包括:违约次数=10、收入=1、流水=1、资产无抵押,将特征输入到训练好的规则学习模型后,得到的预测结果为审批不通过,在此基础上,用户可以想要知道审批不通过的核心原因是什么。因此,可以对规则包含各个特征的重要程度进行统计,最重要的一个或多个特征可以作为核心原因。例如,审批不通过的核心原因为违约次数=10,而收入=1、流水=1、资产无抵押这些特征跟审批不通过的关系并不大,因此,可以向用户展示审批不同的核心原因为违约次数太多,提升规则学习模型的可解释性。
在本申请的一个或多个实施例中,可选的,确定所述规则中至少一个特征的重要程度,包括:对于所述规则中的每一特征,计算所述特征覆盖的正样本的比例与所述特征覆盖的负样本的比例的第一差值;计算所述规则覆盖的正样本的比例与所述规则覆盖的负样本的比例的第二差值;根据所述规则对应的第二差值以及所述规则中各个特征对应的第一差值,计算各个特征的重要程度;其中,重要程度满足预设条件的特征为符合所述规则的业务对象满足要求的核心原因。
假设规则包括多个特征a1、b1、c1,对于特征a1,计算所述特征a1覆盖的正样本的比例以及覆盖的负样本的比例,其中,所述特征a1覆盖的正样本的比例为所述特征a1覆盖的正样本的数量与全部正样本的数量的比值,类似的,所述特征a1覆盖的负样本的比例为所述特征a1覆盖的负样本的数量与全部负样本的数量的比值,计算两个比值之差,可以得到所述特征a1对应的第一差值。
同理,可以得到特征b1对应的第一差值以及特征c1对应的第一差值,还可以计算所述规则对应的第二差值,根据a1、b2、c1对应的第一差值以及所述规则对应的第二差值,可以计算各个特征的重要程度。
可选的,对于每一特征,若该特征对应的第一差值大于所述第二差值与比例系数的乘积,则为重要特征,反之则为不重要特征,核心原因可以是重要特征。可选的,所述比例系数可以为0.5。
示例性地,在构建规则包含的各个特征中,某个特征覆盖的正样本的比例比覆盖的负样本的比例高8%,而整个规则覆盖的正样本的比例比覆盖的负样本的比例才高10%,则可以认为有这个特征就足够作出判断了,在展示预测结果对应的原因时,可以仅展示或者重点展示该特征,使得用户快速了解预测结果对应的核心原因,提升用户体验度。
可选的,在使用规则学习模型进行业务对象的预测时,将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因,可以包括:若所述规则学习模型中存在与所述待分析的业务对象对应的特征相匹配的规则,则确定所述待分析的业务对象满足要求,所述业务对象满足要求的原因为所述相匹配的规则;根据所述相匹配的规则中各个特征覆盖的正负样本的比例以及所述规则覆盖的正负样本的比例,确定所述待分析的业务对象满足要求的核心原因;展示下述至少一项:所述待分析的业务对象是否满足要求、满足要求的原因、满足要求的核心原因。
示例性地,可以仅展示是否满足要求、满足要求的原因、满足要求的核心原因中的任意一项,也可以展示多项。
在预测时,可以通过类似于前述后处理的方式来确定核心原因,通过展示核心原因,可以增加模型的可解释性,使用户聚焦满足要求的核心原因,进一步提升用户体验度。
本申请实施例还提供一种规则学习方法,包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括满足要求的业务对象对应的特征,所述负样本包括不满足要求的业务对象对应的特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析的业务对象是否满足要求。
在第一种可选的实现方式中,可以基于列生成技术来生成规则学习模型。具体可以参照前述实施例,生成初始的多条规则,构建并求解限制主问题,进而根据求解得到的对偶变量去寻找新的规则。即使不使用频繁模式树,也可以遍历所有的规则,从中找出检验数最小的规则作为新的规则添加到规则池中进行进一步迭代,直至没有检验数小于0的规则可被发现。
可选的,在寻找新的规则时,可以先对各种可能的规则进行筛选,例如,去掉出现频率小于预设频率阈值的特征,能够有效减少计算量。
可选的,也可以将整个问题形式化为整数规划,通过直接求解定价问题的列生成技术来生成规则学习模型。
在第二种可选的实现方式中,可以基于频繁模式树生成规则学习模型。可选的,可以直接构建频繁模式树,从所述频繁模式树中找出频繁项集,从而产出频率超过一定要求的规则,然后每个规则覆盖正样本的数量和覆盖负样本的数量,确定是否采纳该规则,例如,若覆盖的正样本数量超过覆盖的负样本的数量,则可以采纳,反之则不采纳。
在第三种可选的实现方式中,根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型,可以包括:根据所述训练样本集,生成初始的多条规则,每条规则包括至少一个特征;基于列生成技术不断添加新的规则,直至得到规则学习模型;其中,列生成过程中,基于频繁模式树生成新的规则。这种实现方式与前述实施例一致,具体可以参见前述实施例。
第三种实现方式,相对于前两种仅通过列生成技术或者仅通过频繁模式树来生成规则学习模型,具有以下优势:相对于第一种实现方式,本方案结合频繁模式树进行分析处理,提升了效率,并且可以考虑规则重合度等,能够产出重合度较少的规则,在进一步提升可解释性方面更具优势,同时,本方案不直接去使用整数规划求解器来处理定价问题,因而处理大数据的能力更强;相对于第二种实现方式,本方案根据统一的优化目标利用列生成技术搜索只对目标函数有潜在帮助的规则,结合针对检验数推导的剪枝下界,可以有效的处理维度爆炸的数据量从而提升处理大数据的能力,并且,本方案可以只分析用于描述和区别正样本的规则,而不去学习描述负样本的规则,因而在正负样本不均衡时有明显的效率提升,同时,通过使用包含规则BitMap信息的FP-tree,其进行规则的交/并处理和数据过滤都非常高效。
此外,本方案相对于其它的规则学习方法也具有很强的优势。
一种可选的规则学习方法是两阶段规则生成和规则选择方案,规则生成主要靠已经成熟的关联规则挖掘技术,或者通过训练基于树模型的分类器并从中提取出根节点-叶节点路径作为规则。规则的选择主要依赖优化特别的标准,如平衡准确度与稀疏性等。首先,这种方法由于缺乏考虑全局的优化目标,规则生成阶段通常与最终的规则集合效果联系较弱,导致产出不准确或者重合度较高的规则。比如一些重要的规则会在第一阶段被错误的过滤掉。其次,即使只用一个精心设计的优化目标来选择规则,由于其本身仍旧是一个组合优化问题,当生成的规则较多时其优化结果仍旧较差。本方案相对于其来说具有强大、高效的数据处理能力。
另一种可选的规则学习方法是基于随机采用和近似的多样性规则学习算法,这类算法主要采用随机采集样本并提取规则的形式进行学习,但由于其主要依赖贪婪算法进行近似和随机算法的不确定性,它的实际效果和处理大规模数据的能力非常有限。与其相比,本方案没有使用采用随机的办法来产出启发式规则,而是依赖分支定界精确求解,因而在结果准确性上更有优势。
又一种可选的规则学习方法是规则列表和最优决策树模型,这类算法天然具有规则之间重合度较低的优势,但由于规则的顺序需要考虑,这类算法的优化难度非常大,能处理的数据规模非常有限。并且以列表和树的形式进行理解时需要考虑先前所有的逻辑规则条件,其可解释性较差。与其相比,本方案产出的规则不具有树状结构或者先后顺序,故而更加方便使用者的理解。
综上,本方案是首个可以高效处理大规模数据、产出准确、多样以及简洁的规则生成系统,结合列生成技术与基于FP-tree数据结构的规则生成算法,可以同时平衡学习到规则的准确度、复杂度和重合度,在保证高准确率的前提下进一步提升结果的可解释性,并且,针对FP-tree开发的分支定界算法,从理论上创新性地提出了对FP-tree包含的规则进行检验数定界,从而加速剪枝效率,提升大规模数据处理的能力。
下面结合几个示例,描述本申请实施例提供的规则学习方法在实际中的应用。
图11为本申请实施例提供的一种电力负荷预测方法的流程示意图。如图11所示,所述方法可以包括:
步骤1101、获取待分析的环境特征。
其中,待分析的环境特征可以是指待分析的时间节点和/或区域对应的环境特征。
步骤1102、根据所述环境特征与规则学习模型,预测所述环境特征对应的电力负荷是否满足要求,和/或,输出确定电力负荷预测结果的原因。
其中,所述规则学习模型为基于列生成技术和/或频繁模式树生成的规则学习模型。
可选的,基于列生成技术和/或频繁模式树生成规则学习模型,可以包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括对应的电力负荷满足要求的环境特征,所述负样本包括对应的电力负荷不满足要求的环境特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析的环境特征对应的电力负荷是否满足要求。
其中,在前述实施例提供的技术方案的基础上,可以设置业务对象为待分析的时间节点或区域,对应的特征为环境特征,满足要求具体为电力负荷满足要求,从而产出能够预测电力负荷是否满足要求的规则学习模型,不仅能够给出预测结果,还可以给出对应的原因,提升用户体验度,并且,基于列生成技术和频繁模式树也提高电力负荷预测的整体效率和准确性。
可选的,在电力行业母线负荷预测场景下,所述环境特征包括下述至少一项:温度、湿度、体感温度、异常信息、批量修改信息、负荷转供信息。对应的电力负荷满足要求可以为:对应的电力负荷大于负荷阈值、和/或,对应的电力负荷相对于历史同期的电力负荷的差距大于差距阈值。
其中,所述时间节点可以为小时、日、月、年等。异常信息可以是指环保等因素导致电力负荷发生变化,批量修改信息可以是指负荷预测人员对电力负荷进行的批量控制或修改。
在一种可选的实现方式中,待分析的环境特征为待分析的时间节点对应的环境特征。
相应的,在模型学习时,正样本包括电力负荷满足要求的时间节点对应的环境特征,所述负样本包括电力负荷不满足要求的时间节点对应的环境特征;生成的规则学习模型用于预测待分析时间节点的电力负荷是否满足要求。满足要求的时间节点可以为:电力负荷大于负荷阈值、和/或,电力负荷相对于历史同期的电力负荷的差距大于差距阈值的时间节点。
在一示例中,所述满足要求的时间节点为电力负荷大于负荷阈值的时间节点,不满足要求的时间节点可以为电力负荷小于等于负荷阈值的时间节点。
例如,可以收集每个小时的电力负荷及环境特征,并按照负荷阈值划分为正负样本组,通过规则学习生成模型,能够根据后续每个小时的环境特征,预测电力负荷是否大于负荷阈值。
在另一示例中,满足要求的时间节点为电力负荷相对于历史同期的电力负荷的差距大于差距阈值的时间节点。
例如,可以收集每天相对于上月同一天的电力负荷差距,按照差距阈值划分为正负样本组,通过规则学习生成模型,能够预测某一天的电力负荷相对于上月的当天是否大于差距阈值。
在又一示例中,满足要求的时间节点可以为电力负荷大于负荷阈值、且电力负荷相对于历史同期的电力负荷的差距大于差距阈值的时间节点。
例如,只有满足当天负荷较大、相当于历史同期的差距也较大的日期才被分入正样本,通过规则学习生成的模型,可以用于预测是否满足该条件。
通过以上所述的至少一项环境信息,可以预测某一时间节点的电力负荷是否超过阈值,或者相对于历史同期的电力负荷波动是否超过阈值,并给出具体原因,从而帮助负荷预测人员建立起对预测值的信任,并上报给调度部门,从而为发电计划制定、电力调度、电价定价做参考。
可选的,在预测电力负荷是否会相对于历史同期产生较大波动时,获取训练样本集,可以包括:获取多个日期对应的数据,所述日期对应的数据包括该日期对应的环境特征、电力负荷以及历史同期的环境特征、电力负荷;根据所述多个日期对应的数据,划分正样本组和负样本组,其中,若某一日期与历史同期的电力负荷的差距大于差距阈值,则该日期的环境特征与历史同期的环境特征的差距为正样本,反之则该日期的环境特征与历史同期的环境特征的差距为负样本;其中,生成的规则学习模型用于根据待分析日期与历史同期的环境特征的差距,预测所述待分析日期的电力负荷是否会相对于历史同期变动超过差距阈值。可选的,所述差距可以为差值或者比值。其中,不同日期对应的历史同期可以不同。可选的,某一日期的历史同期可以为该日期之前的N天,N为正整数。例如,对于7月1日,其历史同期为6月1日。对于7月15日,其历史同期可以为6月15日。
在实际应用中,可以获取每一天与历史同期的环境特征以及电力负荷,并计算环境特征的差值、电力负荷的差值,根据电力负荷的差值大小区分正负样本,并将环境特征放入样本组中。
具体地,本方案会计算所有维度组合下预测值与历史同期的对比值之差。为了帮助负荷预测人员了解具体在哪些维度组合上预测值与对比值差异显著,本方案会先将作差后的数据进行正负样本分组,并将差异明显的群体定义为正样本。
示例性地,正样本组可以包括:正样本1:温度差=10、湿度差=20;正样本2:温度差=15、湿度差=15;……。根据生成的规则学习模型,可以预测待分析日期的电力负荷是否会相对于历史同期有较大差距。
接下来规则学习模型可以接受用户配置参数来平衡产出规则集合覆盖结果的准确度、规则的复杂度和重合度,从而自动分析并产出一组用来解释正样本(差异较大群体)的规则集合。根据返回的结果,预测人员可以迅速感知到差异较显著的维度组合,从而对预测模型和预测结果进行校验和调整。
在另一种可选的实现方式中,待分析的环境特征可以为待分析区域对应的环境特征。
相应的,可以获取多个区域对应的数据,所述区域对应的数据包括该区域在第一时间组合对应的环境特征以及所述第一时间组合对应的电力负荷;其中,所述第一时间组合包括至少两个时间节点;根据所述多个区域对应的数据,划分正样本组和负样本组,其中,若所述至少两个时间节点对应的电力负荷的差距大于差距阈值,则该区域在所述至少两个时间节点对应的环境特征的差距为正样本,反之则该区域在所述至少两个时间节点对应的环境特征的差距为负样本;根据所述正样本组和负样本组,基于列生成技术和/或频繁模式树生成规则学习模型。
其中,生成的规则学习模型用于根据待分析区域在第二时间组合的环境特征的差距,预测所述待分析区域的电力负荷在所述第二时间组合的变动是否超过差距阈值;所述第一时间组合与所述第二时间组合可以至少存在一个不相同的时间节点。
以所述第一时间组合包括两个时间节点为例,假设所述第一时间组合包括7月1日和6月1日,则每一区域对应的数据包括该区域在7月1日的环境特征、电力负荷以及6月1日的环境特征、电力负荷。
通过多个区域对应的数据,可以构建正负样本组,若某一区域7月1日的电力负荷相对于6月1日的电力负荷的差距大于差距阈值,则满足要求,该区域7月1日的环境特征相对于6月1日的环境特征的差距可以作为一个正样本,反之则不满足要求,作为负样本。
根据构建的正负样本组,可以基于列生成技术和/或频繁模式树生成规则学习模型。在针对某一区域进行预测时,可以根据该区域在第二时间组合,例如8月1日和7月1日的环境特征的差距,通过模型预测8月1日相对于7月1日的电力负荷的变动是否超过差距阈值。
若所述第一时间组合包括三个及以上的时间节点,则两两计算差距,可以得到多个差距,相应的,前述的差距大于差距阈值则被划分为正样本,可以具体是指,任意一个差距大于所述差距阈值则被划分为正样本,或者,所有的差距均大于所述差距阈值,才被划分为正样本。
通过以区域作为最细粒度进行针对电力负荷的模型学习和预测,能够整合各个不同区域的数据,指导预测待分析区域的电力负荷情况,提高了样本的广度,满足不同区域的电力负荷的预测需求。
图12为本申请实施例提供的一种电力负荷预测结果的示意图。如图12所示,在展示管理模块中,允许用户自定义要比较的历史日期,用户可以选择一个或多个历史日期,可以向用户展示待分析日期相对于每一历史日期的电力负荷变化情况。中间折线图显示了电力负荷随着时间的变化情况。下方可以具体展示8月1日相对于历史同期的7月1日的电力负荷变化情况,还可以展示预测值差异说明。
具体地,负荷预测人员可以根据算法给定的预测值曲线,再参照历史相似日曲线做对比分析,通过规则学习模型自动将两条曲线的差异,从温度、湿度、体感温度等维度做分析说明。
通过根据某一日期与历史同期的电力负荷的差距是否大于差距阈值来划分正负样本并进行规则学习,能够更加准确地利用环境差异去预测电力负荷差异,提高预测的准确性。
可选的,可以根据所述待分析区域在待分析日期与历史同期的环境特征的差距在所述规则学习模型中匹配的规则,确定所述规则覆盖的正样本;根据所述规则覆盖的正样本,预测并展示所述待分析区域在所述待分析日期的电力负荷,和/或,所述待分析区域在待分析日期相对于历史同期的电力负荷的差距。
示例性地,假设匹配的规则覆盖了10个正样本,则可以将这10个正样本对应的相对于历史同期的电力负荷的差距求平均,用群体的均值去反映这条规则对应的电力负荷变化情况。得到均值后,可以展示所述均值作为所述待分析日期相对于历史同期的电力负荷的差距,或者,将所述均值与所述待分析日期的历史同期的电力负荷相加,得到所述待分析日期对应的电力负荷预测值进行展示。
通过利用匹配中的规则对应的正样本的电力负荷差距的均值反映对应的电力负荷变化情况,能够有效根据历史相似数据预测得到待分析区域在待分析日期的电力负荷,为电力负荷预测提供定量的分析结果,方便用户了解电力负荷变动的具体程度,为电力调度提供更加精准的参考。
可选的,还可以获取负荷预测人员输入的下述至少一项:待分析时间节点、与所述待分析时间进行比较的基准时间节点、待分析区域;相应的,根据所述环境特征与规则学习模型,预测所述环境特征对应的电力负荷是否满足要求,可以包括:根据所述待分析区域在所述待分析时间节点与所述基准时间节点的环境特征的差距,确定所述待分析时间节点相对于所述基准时间节点的电力负荷变动是否满足要求。
可选的,所述时间节点可以为日期,通过所述规则学习模型可以确定待分析日期相对于一个或多个基准日期的电力负荷的变动是否满足要求。
示例性地,待分析日期可以为8月1日,用户可以输入基准日期7月1日、7月15日,通过规则学习模型可以计算8月1日的电力负荷相对于7月1日的变化是否满足要求,还可以计算8月1日的电力负荷相当于7月15日的变化是否满足要求。
其中,可以由负荷预测人员输入一个或多个基准日期,待分析日期默认为当天,或者,负荷预测人员可以输入待分析日期,基准日期默认为历史同期,或者,待分析日期和基准日期均可以由负荷预测人员输入。此外,还可以由用户输入待分析区域,从而能够根据负荷预测人员的需求选择日期和区域,满足不同场景下的电力负荷预测需求。
本申请实施例提供一种应用于业务指标异常预测的规则学习方法。可选的,所述方法包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括业务指标异常时的经营特征,所述负样本包括业务指标正常时的经营特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析的经营特征对应的业务指标是否异常。
可选的,所述经营特征可以为时间节点或区域对应的经营特征。具体地,业务指标异常时的经营特征,可以为业务指标异常时的时间节点或区域对应的经营特征,待分析的经营特征,可以为待分析的时间节点或区域的经营特征。
在前述实施例提供的技术方案的基础上,可以设置业务对象为待分析的时间节点或区域,对应的特征为经营特征,满足要求为业务指标异常,从而产出能够预测业务指标是否异常的规则学习模型,不仅能够给出预测结果,还可以给出对应的原因,提升用户体验度,并且,基于列生成技术和频繁模式树也提高业务指标异常预测的整体效率和准确性。
可选的,所述经营特征包括下述至少一项:行业、目标用户群体、价格、商品库存信息;所述业务指标为销售成交总额(GMV);所述业务指标异常为所述销售成交总额小于总额阈值,和/或,销售成交总额相对于历史同期的销售成交总额的差值小于差值阈值。
在预测差值是否小于差值阈值时,规则学习的方法可以参见应用于电力负荷预测的规则学习方法,将其中有关电力负荷预测的数据替换为业务指标异常预测的数据即可。
图13为本申请实施例提供的一种业务指标异常预测结果的示意图。如图13所示,曲线图示出了随着时间变化的GMV变化情况,同时,还可以给出异常得分以及根因下钻。
可选的,异常得分和根因下钻可以通过待分析的经营特征在规则学习模型中匹配的规则对应的正样本来确定。其中,异常得分可以用于表示异常程度,具体可以根据匹配的正样本的异常程度来确定。根因下钻可以用于表示产生异常的原因占比,可以通过根据匹配的正样本计算各个特征的重要程度来确定,能够反映造成指标异动的核心因素。
在企业经营过程中,关键指标例如GMV的异动对企业经营健康度有重要影响,因此企业通常会对关键指标进行监控,如出现异动希望尽快定位原因和采取行动化解风险。通过上述方法,可以根据待分析时间节点或区域的经营特征预测企业的关键指标是否小于预期,或者,是否会有较大的波动,当企业关键指标出现异动时,通过规则学习模型可以自动找出造成指标异动的关键因素,并给到分析和决策人员,从而提升分析和决策的效率,做出更加科学合理的决策。
本申请实施例提供一种业务指标异常的预测方法。所述方法可以包括:获取待分析的经营特征;根据所述经营特征与规则学习模型,预测所述待分析的经营特征对应的业务指标是否异常,和/或,确定所述业务指标异常或正常的原因;其中,所述规则学习模型为通过前述任一实施例所述的规则学习方法生成的。业务指标异常的预测方法的具体实现原理和效果可以参见前述实施例,此处不再赘述。
本申请实施例提供一种应用于推荐信息接受度预测的规则学习方法。所述方法可以包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括接受推荐信息的用户对应的特征,所述负样本包括不接受推荐信息的用户对应的特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析用户是否会接受推荐信息,或者,待分析用户对推荐信息的接受程度。
其中,所述接受程度可以包括:接受、不接受;或者,所述接受程度可以包括百分比的接受度,例如接受度为50%。
在前述实施例提供的技术方案的基础上,可以设置业务对象为待分析的用户,满足要求具体为接受推荐信息,从而产出能够预测用户是否会接受推荐信息的规则学习模型,不仅能够给出预测结果,还可以给出对应的原因,提升用户体验度,并且,基于列生成技术和频繁模式树也提高推荐信息接受度预测的整体效率和准确性。
可选的,所述用户的特征包括下述至少一项:所述用户的属性信息例如年龄、职业、收入等、历史浏览记录、历史购买记录、偏好信息、用户历史接受或者不接受推荐信息的次数、用户历史反馈的接受或者不接受推荐信息的原因;所述推荐信息为向用户推荐的商品信息和/或广告信息,从而可以预测用户是否会接受推荐的商品信息和广告信息。
图14为本申请实施例提供的一种推荐信息的示意图。如图14所示,可以向用户展示推荐的商品信息,若用户不接受推荐的商品信息,则可以提供不接受的原因供用户选择。在规则学习过程中,可以将用户历史接受或者不接受推荐信息的次数、用户历史反馈的接受或者不接受推荐信息的原因等作为特征进行学习。
通过上述方法,可以有针对性地对有接受意愿的用户投放商品推送和广告,满足不同用户的需求。在实际应用中,可以在各类电商、内容类APP个性化推荐模块中引入规则学习模型,构建推荐缘由功能,从而能够将每条推荐结果的推荐缘由更细粒度的输出出来,以解决用户对于推荐结果的困惑和对推荐系统不信任的问题,从而提升推荐系统的信任度和满意度。
本申请实施例提供一种推荐信息接受度预测方法。所述方法可以包括:获取待分析用户的特征;根据所述待分析用户的特征与规则学习模型,预测所述待分析用户是否接受推荐信息,和/或,确定所述待分析用户接受或者不接受推荐信息的原因;其中,所述规则学习模型为通过前述任一实施例所述的方法生成的。推荐信息接受度预测方法的具体实现原理和效果可以参见前述实施例,此处不再赘述。
本申请实施例提供一种应用于审批预测的规则学习方法。所述方法可以包括:获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括审批不通过的用户对应的特征,所述负样本包括审批通过的用户对应的特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析用户是否审批通过。
可选的,所述用户的特征包括下述至少一项:预设周期内违约次数、资产信息、收入信息、流水信息。
在金融反欺诈领域,在金融信贷后台,信贷人员可查看贷款申请人的信息及信贷自动审批结果。在结果之后,有对审批缘由的解释,可从申请客户各类信息中,找出审批结果的缘由,并自动生成人能理解的缘由输出到系统,具体可以参见图4。
本申请实施例提供一种审批预测方法。所述方法可以包括:获取待分析用户的特征;根据所述待分析用户的特征与规则学习模型,预测所述待分析用户是否审批通过,和/或,确定所述待分析用户审批通过或不通过的原因;其中,所述规则学习模型为通过前述任一实施例所述的方法生成的。审批预测方法的具体实现原理和效果可以参见前述实施例,此处不再赘述。
本申请实施例提供一种应用于维护需求预测的规则学习方法。所述方法可以包括:获取训练样本集,所述训练样本集包括正样本组和负样本组;其中,正样本包括有维护需求的用户对应的特征,所述负样本包括没有维护需求的用户对应的特征;根据所述训练样本集,基于列生成技术和/或频繁模式树生成规则学习模型;生成的规则学习模型用于预测待分析用户是否有维护需求,所述维护需求用于供维护人员确定是否对用户进行维护。
在前述实施例提供的技术方案的基础上,可以设置业务对象为待分析用户,满足要求具体为有维护需求,从而产出能够预测用户是否有维护需求的规则学习模型,不仅能够给出预测结果,还可以给出对应的原因,提升用户体验度,并且,基于列生成技术和频繁模式树也提高客户维护需求预测的整体效率和准确性。
可选的,本实施例可以应用于客户拉新和留存分析。一个示例中,所述正样本包括转化用户对应的特征,所述负样本包括未转化用户对应的特征,生成的规则学习模型用于预测待分析用户是否会转化。另一示例中,所述正样本包括存留用户对应的特征,所述负样本包括流失用户对应的特征,生成的规则学习模型用于预测待分析用户是否会存留。其中,转化用户或存留用户为有维护需求的用户。
具体地,可以对目标客户群体(如点击营销广告并成功转化)和参照群体(如未转化)进行规则学习,找出可以准确描述目标群体的规则,方便业务人员理解这类型客户的属性,从而为更好的营销触达提供依据。同样的,对留存的客户和流失的客户进行规则学习,可以定位易流失客户的显著性原因,从而为保持客户和提高忠诚度提供洞察分析。
本申请实施例提供一种维护需求预测方法。所述方法可以包括:获取待分析用户的特征;根据所述待分析用户的特征与规则学习模型,预测所述待分析用户是否有维护需求,和/或,确定所述待分析用户有或没有维护需求的原因;其中,所述规则学习模型为通过前述任一实施例所述的方法生成的。维护需求预测方法的具体实现原理和效果可以参见前述实施例,此处不再赘述。
通过上述方法,可以实现规则学习模型在实际生产生活中的多种应用,既可以对多维度数据进行风险群体的识别,自动挖掘高风险群体中的聚集性群体从而进行识别打击,也可以对聚合KPI指标的异动进行下钻分析,找出对异动最有解释性的原因组合,还可以实现用户留存分析,挖掘造成用户流失的主要原因和对用户群体进行画像,在各个行业领域均有较好的表现。
在实际应用中,在使用本申请实施例提供的方案时,用户可以自定义规则学习模型的相关参数,来产出符合用户个性化需求的结果。具体来讲,本申请旨在产出对用户所感兴趣事件的一组准确、简洁和多样的规则集合,用户可以根据自身的偏好来控制这三个相互竞争目标之间的平衡。这其中涉及的自定义参数可以包括规则覆盖群体的支持度、规则的复杂度成本、规则的重合度成本、规则数目以及错分正负样本的惩罚。例如通过提高规则覆盖群体的支持度阈值,用户收到的规则所涉及的群体规模会增大,并且规则搜索的时间会减少。再比如用户通过增大规则重合度的成本,产出的可解释性规则的多样性会增加,规则之间的重合程度会下降。另外,本申请提出的一套高效搜索策略也会根据用户输入的参数而在运行时间上产生变化,例如通过提高规则覆盖群体的支持度和剪枝力度参数,减少相关性较弱的搜索树的数目从而来加快产出结果。
本申请实施例提供一种业务对象的预测装置,包括:
第一获取模块,用于获取待分析的业务对象对应的特征;
第一处理模块,用于将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因;其中,所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。
本申请实施例还提供一种电力负荷预测装置,包括:
第二获取模块,用于获取待分析的环境特征;
第二处理模块,用于根据所述环境特征与规则学习模型,预测所述环境特征对应的电力负荷是否满足要求,和/或,输出确定电力负荷预测结果的原因;其中,所述规则学习模型为基于列生成技术和/或频繁模式树生成的规则学习模型。
本实施例提供的各装置,可以用于执行图1至图14所示实施例提供的技术方案,其实现原理和技术效果类似,此处不再赘述。
图15为本申请实施例提供的一种电子设备的结构示意图。如图15所示,本实施例的电子设备可以包括:
至少一个处理器1501;以及
与所述至少一个处理器通信连接的存储器1502;
其中,所述存储器1502存储有可被所述至少一个处理器1501执行的指令,所述指令被所述至少一个处理器1501执行,以使所述电子设备执行如上述任一实施例所述的方法。
可选地,存储器1502既可以是独立的,也可以跟处理器1501集成在一起。
本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一实施例所述的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种业务对象的预测方法,其特征在于,包括:
获取待分析的业务对象对应的特征;
将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因;
其中,所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取训练样本集,所述训练样本集包括正样本组和负样本组,其中,正样本包括满足要求的业务对象对应的特征,所述负样本包括不满足要求的业务对象对应的特征;
根据所述训练样本集,生成初始的多条规则,每条规则包括至少一个特征;
基于列生成技术不断添加新的规则,直至得到规则学习模型;其中,列生成过程中,基于频繁模式树生成新的规则。
3.根据权利要求2所述的方法,其特征在于,基于列生成技术不断添加新的规则,直至得到规则学习模型,包括:
构建限制主问题,所述限制主问题包括下述至少一项:规则学习模型的准确度、复杂度、重合度;
重复执行下述步骤,直至没有新的规则可被添加:基于现有规则求解所述限制主问题,得到对偶变量;根据得到的对偶变量,基于频繁模式树生成新的规则。
4.根据权利要求3所述的方法,其特征在于,构建限制主问题,包括:
根据现有规则的决策变量,构建限制主问题;每一规则对应的决策变量用于表示该规则是否被采纳;
其中,所述限制主问题的目标函数包括下述至少一项:
被采纳的规则覆盖的负样本数量和/或被采纳的规则没有覆盖的正样本数量,用于表征规则学习模型的准确度;
被采纳的规则多次覆盖的正样本的数量,用于表征规则学习模型的重合度;
被采纳的规则的长度之和,用于表征规则学习模型的复杂度。
5.根据权利要求4所述的方法,其特征在于,所述限制主问题中的每一项对应设置有系数;所述方法还包括:
获取用户输入的准确度系数、重合度系数、复杂度系数中的至少一项;
相应的,所述限制主问题通过用户输入的系数、根据样本数量确定的系数、默认设置的系数中的至少一项构建。
6.根据权利要求3所述的方法,其特征在于,根据得到的对偶变量,基于频繁模式树生成新的规则,包括:
通过任一规则头构建对应频繁模式树,根据对偶变量计算所述规则头对应的检验数下界,以确定所述规则头是否需要被分析,并针对需要被分析的规则头对应的频繁模式树进行递归分析,找到的检验数最小的规则为所述新的规则;
其中,所述频繁模式树中,节点用于表示特征,所述规则头包括一个或多个特征;所述规则头对应的频繁模式树为根据包含所述规则头的正样本构建的频繁模式树;所述规则头对应的检验数下界用于表示所述规则头对应的频繁模式树中各路径规则对应的检验数下界。
7.根据权利要求6所述的方法,其特征在于,通过任一规则头构建对应频繁模式树,根据对偶变量计算所述规则头对应的检验数下界,以确定所述规则头是否需要被分析,并针对需要被分析的规则头对应的频繁模式树进行递归分析,找到的检验数最小的规则为所述新的规则,包括:
初始化最优检验数为0,初始的规则头设置为空;
基于满足当前规则头的正样本构建初始频繁模式树,并重复执行下述步骤,直至正样本组包含的规则被分析完毕:
根据当前规则头对应的频繁模式树,确定出现频率大于等于预设频率阈值的单特征节点的集合,对于集合中每一元素,确定该元素与当前规则头构成的规则对应的检验数,并在所述对应的检验数小于所述最优检验数时,将所述最优检验数更新为所述对应的检验数;
对于所述集合中的每一元素,计算所述元素对应的检验数下界,若检验数下界大于等于所述最优检验数,则跳过分析所述元素,反之则基于深度优先递归方法构建新的规则头及对应的频繁模式树。
8.根据权利要求7所述的方法,其特征在于,计算所述元素对应的检验数下界,若检验数下界大于等于所述最优检验数,则跳过分析所述元素,反之则基于深度优先递归方法构建新的规则头及对应的频繁模式树,包括:
若所述元素与当前规则头构成的规则在初始频繁模式树中所在的路径上,从所述元素出发沿深度方向还存在待分析的节点,则计算所述元素对应的检验数下界,若检验数下界大于等于所述最优检验数,则跳过分析所述元素;
若检验数下界小于最优检验数,则根据当前规则头与所述元素构成新的规则头构建频繁模式树;
若沿深度方向不存在待分析的节点,则在初始频繁模式树中,从所述元素退回查找待分析的下一节点,并基于下一节点对应的规则头,构建频繁模式树。
9.根据权利要求7所述的方法,其特征在于,计算所述元素对应的检验数下界,包括:
根据下述至少一项成本计算检验数下界:
当前规则包含的特征数量;
当前规则覆盖的正样本对应的对偶变量之和的负数;
以当前规则作为规则头构建的频繁模式树中,覆盖最少正样本的从根节点到叶子节点的路径规则在正样本组中的支持度;
以当前规则作为规则头构建的频繁模式树中,覆盖最少负样本的从根节点到叶子节点的路径规则在负样本组中的支持度;
其中,在计算所述元素对应的检验数下界时,所述当前规则为所述元素与当前规则头构成的规则。
10.根据权利要求1-9任一项所述的方法,其特征在于,将所述特征与规则学习模型中的规则进行匹配,根据匹配结果确定所述待分析的业务对象是否满足要求,和/或,满足要求的原因,包括:
若所述规则学习模型中存在与所述待分析的业务对象对应的特征相匹配的规则,则确定所述待分析的业务对象满足要求,所述业务对象满足要求的原因为所述相匹配的规则;
根据所述相匹配的规则中各个特征覆盖的正负样本的比例以及所述规则覆盖的正负样本的比例,确定所述待分析的业务对象满足要求的核心原因;
展示下述至少一项:所述待分析的业务对象是否满足要求、满足要求的原因、满足要求的核心原因。
11.一种电力负荷预测方法,其特征在于,包括:
获取待分析的环境特征;
根据所述环境特征与规则学习模型,预测所述环境特征对应的电力负荷是否满足要求,和/或,输出确定电力负荷预测结果的原因;
其中,所述规则学习模型为基于列生成技术和/或频繁模式树生成的规则学习模型。
12.根据权利要求11所述的方法,其特征在于,还包括:
获取多个区域对应的数据,所述区域对应的数据包括该区域在第一时间组合对应的环境特征以及所述第一时间组合对应的电力负荷;其中,所述第一时间组合包括至少两个时间节点;
根据所述多个区域对应的数据,划分正样本组和负样本组,其中,若所述至少两个时间节点对应的电力负荷的差距大于差距阈值,则该区域在所述至少两个时间节点对应的环境特征的差距为正样本,反之则该区域在所述至少两个时间节点对应的环境特征的差距为负样本;
根据所述正样本组和负样本组,基于列生成技术和/或频繁模式树生成规则学习模型;
其中,生成的规则学习模型用于根据待分析区域在第二时间组合的环境特征的差距,预测所述待分析区域的电力负荷在所述第二时间组合的变动是否超过差距阈值。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行权利要求1-12任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456114.3A CN114139725A (zh) | 2021-12-02 | 2021-12-02 | 业务对象的预测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456114.3A CN114139725A (zh) | 2021-12-02 | 2021-12-02 | 业务对象的预测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114139725A true CN114139725A (zh) | 2022-03-04 |
Family
ID=80386879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111456114.3A Pending CN114139725A (zh) | 2021-12-02 | 2021-12-02 | 业务对象的预测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139725A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277245A (zh) * | 2022-08-10 | 2022-11-01 | 清华大学 | 基于属性的多维异常根因定位方法、系统及存储介质 |
CN116739669A (zh) * | 2023-08-16 | 2023-09-12 | 成都一心航科技有限公司 | 一种ocpx广告实时监控系统以及监控方法 |
-
2021
- 2021-12-02 CN CN202111456114.3A patent/CN114139725A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277245A (zh) * | 2022-08-10 | 2022-11-01 | 清华大学 | 基于属性的多维异常根因定位方法、系统及存储介质 |
CN116739669A (zh) * | 2023-08-16 | 2023-09-12 | 成都一心航科技有限公司 | 一种ocpx广告实时监控系统以及监控方法 |
CN116739669B (zh) * | 2023-08-16 | 2023-10-27 | 成都一心航科技有限公司 | 一种ocpx广告实时监控系统以及监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Faris et al. | Improving financial bankruptcy prediction in a highly imbalanced class distribution using oversampling and ensemble learning: a case from the Spanish market | |
CN108320171B (zh) | 热销商品预测方法、系统及装置 | |
Sensini | Selection of Determinants in Corporate Financial Distress | |
US8583568B2 (en) | Systems and methods for detection of satisficing in surveys | |
CN107515898B (zh) | 基于数据多样性和任务多样性的轮胎企业销售预测方法 | |
CN106095942B (zh) | 强变量提取方法及装置 | |
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN114139725A (zh) | 业务对象的预测方法、设备及存储介质 | |
Yang et al. | Using multi-level frontiers in DEA models to grade countries/territories | |
Zhuang et al. | Auto insurance business analytics approach for customer segmentation using multiple mixed-type data clustering algorithms | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
Sebt et al. | Implementing a data mining solution approach to identify the valuable customers for facilitating electronic banking | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
US20170330055A1 (en) | Sequential data analysis apparatus and program | |
KR102397882B1 (ko) | 정보 처리 방법 및 장치 | |
ABIDAR et al. | Predicting Customer Segment Changes to Enhance Customer Retention: A Case Study for Online Retail using Machine Learning | |
Altuntas et al. | A novel technology intelligence tool based on utility mining | |
CN114881677A (zh) | 一种用户需求分析方法、装置及设备 | |
KR20190114524A (ko) | 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치 | |
JP3452308B2 (ja) | データ分析装置 | |
CN114418752B (zh) | 无类型标签用户数据的处理方法、装置、电子设备和介质 | |
CN118134358B (zh) | 一种智慧物流配送数据管理平台 | |
Drago et al. | Evaluating conditional covariance estimates via a new targeting approach and a networks-based analysis | |
CN117973846A (zh) | 基于产业链的企业风险预测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |