CN114880635A - 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 - Google Patents
集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN114880635A CN114880635A CN202210477231.6A CN202210477231A CN114880635A CN 114880635 A CN114880635 A CN 114880635A CN 202210477231 A CN202210477231 A CN 202210477231A CN 114880635 A CN114880635 A CN 114880635A
- Authority
- CN
- China
- Prior art keywords
- rule
- model
- data
- iteration
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 238000003066 decision tree Methods 0.000 claims abstract description 62
- 238000005457 optimization Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 41
- 230000002159 abnormal effect Effects 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 12
- 238000005065 mining Methods 0.000 abstract description 19
- 230000010365 information processing Effects 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 32
- 238000012549 training Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种集成提升树构建的模型的用户安全等级识别方法、系统、设备及介质。该方法包括:将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力;根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树;根据所述决策树进行提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;基于所述规则集对待分析数据进行识别,根据识别结果确定所述待分析数据对应的对象的安全等级。由此提高海量信息处理中的匹配实际应用场景的规则挖掘以及精准的分类识别,确定用户安全等级,尤其准确识别黑名单企业并给予提醒以保证企业安全。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体而言,涉及一种集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及计算机可读介质。
背景技术
在当前的海量数据环境中,不同应用场景下需要对相应的数据信息进行不同的挖掘分析、特征处理等自动化处理,尤其是适应各自应用场景下的信息搜索、分析、评估、异常数据识别或对象识别等自动处理以应对数据风险、数据管理、数据监控等基于大数据信息的各种自动信息处理控制策略的快速迭代。比如在应对数据监控分析的异常数据识别(如从数据信息找出存在异常的对象如企业、用户行为等)中,应对风险变化的策略快速迭代,就需要完整的从抛样到特征处理、再到规则大批量搜索、评估和输出(包括通过数据信息准确识别存在安全隐患的行为、对象等)的自动化数据信息处理框架。另外,在该框架体系内的信息处理中,从海量数据中找到更有效的规则能影响处理的效率和处理结果的准确性,因而,为了能够找到已有模型和策略体系外的更有效的规则,需要提供更有效的规则挖掘。
目前常见的规则挖掘主要是基于单决策树如CHAID、基于随机森林的批量挖掘如skope-rules、基于集成梯度提升树如rulefit等,而在数据分析、数据安全识别、数据管理等的信息处理中更多地会基于决策树构建策略规则。但单决策树往往无法反映样本空间足够多的信息,实际运用中常常需要对评估样本进行分群、抽样等预处理工作,既耗时耗力,效率低下还得不到理想的结果。因而,考虑基于集成提升树模型更充分遍历样本空间以及更深挖掘等特点构建策略规则,能获得更有效的规则以应用于信息处理框架体系中,从而提升大数据运算处理效率、以及更准确找出海量数据中需要识别的存在异常的对象,比如识别出企业是否异常以确定企业黑名单等。
因此,需要改进信息处理中基于模型的用户安全等级识别方案,尤其是改进在大数据处理中基于集成提升树模型的异常数据/对象的识别。
发明内容
有鉴于此,本发明主要目的在于提出一种基于模型的异常识别方法、系统、电子设备及计算机可读介质,以期解决如何基于集成提升树模型的有效规则提取以对大数据进行处理而实现更准确地对象识别的技术问题;进而还可以解决如何利用模型实现大数据处理中是否存在异常情况的识别所需的指定限制条件下的规则的挖掘或者说优化提取的技术问题。
为了解决上述技术问题,本发明第一方面提出集成提升树构建的模型的用户安全等级识别方法,包括:将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力;根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树;根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。。
根据本发明一种优选实施方式,根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树,具体包括:确定所述规则模型在迭代过程中预测能力最高时的迭代次数;根据所述预测能力最高时的迭代次数选取预测能力高于预设能力值的决策树;以及,根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集,具体包括:在指定的最大提取棵数下对所述规则模型的每个所述决策树执行遍历算法提取树中每个叶子节点;将筛选出的叶子节点的信息进行规则的逻辑语义结构解析;将所有所述规则进行去重和筛选,形成优化的规则集。
根据本发明一种优选实施方式,在指定最大提取棵数下对选取的所述规则模型的每个决策树进行二叉树中序遍历递归算法提取树中每个叶子节点,具体包括:在所述最大提取棵数下,对所述规则模型的的每个决策树CART利用二叉树中序遍历递归算法提取树中每个叶子节点的信息,其中,所述每个叶子节点的信息包括:节点上的逻辑、迭代次数和对应分类的权重值。
根据本发明一种优选实施方式,将筛选出的叶子节点的信息进行规则的逻辑语义结构解析,具体包括:在预定的叶子节点的权重值限制下,将每个决策树CART的最后的叶子节点按照权重值的降序进行排列,选择排列在前n个的叶子节点,其中n为大于等于1自然数、表示预设的选择个数;对筛选出的前n个叶子节点的信息,横向按从决策树CART的根到叶子的层级逻辑进行关联、纵向按从迭代次数由小及大进行叠加,提取出规则并形成结构化的规则集。
根据本发明一种优选实施方式,将所有所述规则进行去重和筛选,形成优化的规则集,具体包括:根据叶子节点到根节点的分逻辑进行判断,对结构化的规则集中的规则执行逻辑语义去重;所述去重包括:合并、交集、并集的一种或几种的组合;以及,根据预设的单规则的击中率和增益的阈值,筛选出去重后的规则集中的规则,形成所述优化的规则集。
根据本发明一种优选实施方式,将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代并记录所述规则模型在指定的迭代次数下的增益,具体包括:通过使用聚焦损失函数FocalLoss作为优化目标、并在给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight下构建规则模型;输入筛选的特征数据到所述规则模型中进行迭代,比如规则模型采用XGBOOST模型,计算聚焦损失函数FocalLoss的一阶导数时传入全局偏置base_score参数有效提升模型迭代效率;并记录所述规则模型在指定的迭代次数下的预测能力(比如增益)变化。
根据本发明一种优选实施方式,输入筛选的特征数据到所述规则模型中进行迭代之前,还包括:计算构建好的规则模型的聚焦损失函数的一阶导数,根据所述一阶导数确定所述聚焦损失函数的极小值对应的函数参数;根据所述函数参数确定基础参数代入所述规则模型。
根据本发明一种优选实施方式,给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight下构建规则模型,具体包括:预设一组参数搜索空间;所述参数搜索空间包括一个或多个最大层数参数max_depth以及一个或多个最小叶子节点样本数参数min_child_weight;通过在所述参数搜索空间中进行随机搜索提供不同的所述给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight,以生成一个或多个所述规则模型;以及,输入筛选的特征数据到所述规则模型中进行迭代,比如计算聚焦损失函数FocalLoss的一阶导数时传入全局偏置base_score参数提升迭代效率,并记录所述规则模型在指定的迭代次数下的增益变化,具体包括:利用具有所述特征数据的训练集和验证集对一个或多个所述规则模型进行迭代,选取所述训练集迭代模型评价指标AUC和所述验证集迭代模型评价指标AUC的差异在预设范围内、所述增益达到最高的规则模型作为最优的规则模型。
根据本发明一种优选实施方式,筛选的特征数据,具体包括:根据计算所有特征数据的缺失率和稀疏率指标对高缺失率、高稀疏率、以及高基数的特征数据进行剔除;将经所述剔除后余下的特征数据进行类型处理,形成筛选的输入所述规则模型的数值型特征变量。
根据本发明一种优选实施方式,将经所述剔除后余下的特征数据进行类型处理,形成筛选的输入所述规则模型的数值型特征变量,具体包括:判断所述余下的特征数据的数据类型;根据所述数据类型对所述特征数据的类别变量执行标签编码label_encoding所形成分类的数字编码,作为输入所述模型的所有特征变量。
根据本发明一种优选实施方式,基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级,,具体包括:根据时间信息对所述规则集进行稳定性评估和/或根据交换特征Swap对所述规则集进行分析,确定所述规则集的组合指标并关联所述评估的结果和/或所述分析的结果并输出;将所述待分析数据输入所述规则模型;判断所述待分析数据在所述规则模型确定的所述规则集的组合指标下是否存在异常情况;如果是则将存在异常情况的所述待分析数据分级的对象识别为黑名单对象。
根据本发明一种优选实施方式,所述待分析数据为业务监管时获得的企业用户数据;所述待分析数据对应的对象为企业用户;所述识别为黑名单对象具体包括:识别出存在异常情况的所述待分析数据对应的企业用户并将所述企业用户加入到风控管理的黑名单中。
为了解决上述技术问题,本发明第二方面提供一种集成提升树构建的模型的用户安全等级识别系统,包括:模型迭代模块,用于将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力;规则提取模块,用于根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树,以及,用于根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;;安全等级模块,用于基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。
为了解决上述技术问题,本发明第三方面提出一种电子设备,包括:处理器,以及存储计算机可执行指令的存储器,所述计算机可执行指令在被所述处理器执行时使执行前述的第一方面的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现前述的第一方面的方法。
为了解决上述技术问题,本发明第五方面提出一种计算机可执行程序,所述计算机可执行程序被执行时,实现前述的第一方面的方法。
本发明通过构建特定的集成提升树模型并从该模型提取策略规则,进行规则组合优化后评估输出,以利用该高效率的自动化规则挖掘在对大数据进行特征分析和处理过程中,确定基于模型提取的有效规则对异常情况(包括但不限于:异常数据、有安全隐患和风险的数据、用户/企业对象等)进行更准确的识别,从而提升计算机信息处理的效率,降低大数据处理成本和运算资源消耗,提升运算速度及识别是否存在异常的准确性。
尤其是,该特定的模型主要通过基于二叉树的递归遍历算法提取规则模型(例如:XGBOOST)中每棵决策树的每一个叶结点,然后将其解析成规则逻辑语义结构并进行去重,最后输出指定限制条件下的规则集,更高效率确定有效规则,提高信息处理效率和准确性。
进而,应用该模型挖掘提取的更有效准确的批量规则能进一步提升在大数据中进行异常识别的准确性。
由此,能有效帮助提高大数据场景下信息处理分析效率、识别存在风险或安全隐患的异常情况(异常行为、异常对象等),在网络数据安全、数据分析管理、风险控制的策略快速构建、评估和上线等都有明显促进。进而,根据模型挖掘的批量有效规则的分类识别过程确定黑名单企业,能够从小微企业的相关数据(监控的舆情数据、行为数据等)中,更为精准地识别这些相关数据存在异常的情况而更准确高效率确定对应的小微企业存在的安全隐患,适应各种应用场景下的快速风控策略迭代,从而为服务小微企业保驾护航,保障相关企业和用户的数据、财产安全。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据本发明的基于模型的异常识别方法的一实施例的主要流程图;
图2是根据本发明的基于模型的异常识别系统的一实施例的主要结构框图;
图3是根据本发明的电子设备的一个实施例的结构框图;
图4是根据本发明的计算机可读介质的一个实施例的结构框图;
图5是根据本发明的技术方案中对挖掘的规则集进行规则效果筛选和组合优化的一个实施例的示意图;
图6是根据本发明的技术方案中关于稳定性评估的一个实施例的计算结果示意图;
图7是根据本发明的技术方案中关于Swap分析的一个实施例的计算结果示意图;
图8是根据本发明的技术方案中关于挖掘的规则经筛选去重后输出的规则集的一个实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明的方法的实施例主要包括:步骤S110,将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代并记录所述规则模型在指定的迭代次数下的预测能力,例如增益;步骤S120,根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树;并且,根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;步骤S130,基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。
【实施例1】
如图1所示根据本发明的方法的一个实施例的主要流程图,该方法至少包括步骤S110、S120及S130。
在步骤S110中,将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力。主要是筛选特征数据、构建规则模型并迭代训练。一个实施方式中,输入筛选的特征数据到所述规则模型中进行迭代之前,计算构建好的规则模型的聚焦损失函数的一阶导数,根据所述一阶导数确定所述聚焦损失函数的极小值对应的函数参数;根据所述函数参数确定基础参数代入所述规则模型。
一个实施方式中,在规则模型的构建阶段,可以先筛选合适的特征、进行变量处理后,例如可以利用XGBOOST模型作为规则模型并利用输入的特征数据进行迭代训练。
一个实施方式中,筛选特征,可以将当前场景下的各种需要分析的历史和/或实时信息中的特征数提取出来,根据计算所有特征数据的缺失率和稀疏率指标对高缺失率、高稀疏率、以及高基数的特征数据进行剔除。
一个实施方式中,变量处理,可以将经所述剔除后余下的特征数据进行类型处理,形成筛选的输入所述规则模型的数值型特征变量。优选可以判断所述余下的特征数据的数据类型;根据所述数据类型对所述特征数据的类别变量执行标签编码label_encoding所形成分类的数字编码,作为输入所述模型的所有特征变量。
具体地,可以先对所有输入特征数据的缺失率和稀疏率指标进行计算,保证规则模型在迭代中通过特征数据确定的规则有足够的击中率。这里,稀疏率可以表示:特征数据中出现频数最高的取值的占比。由此,对高缺失率、高稀疏率、以及高基数类别的特征数据进行剔除。进一步,可以对剔除完后余下的特征数据的数据类型进行判断。再进一步,还可以对特征数据的类别变量进行转换,比如对余下的特征数据进行分类加标签,即对类别变量执行标签编码label_encoding,保证最后传入该模型的所有特征变量都是数值型即数字编码,例如不同的分类用1、2、3、4……标签表示。
一个实施方式中,基于集成提升树的规则模型选择构建XGBOOST模型。优选地,可以通过使用聚焦损失函数FocalLoss作为优化目标、并在给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight下构建XGBOOST模型;输入筛选的特征数据到所述XGBOOST模型中进行迭代,计算聚焦损失函数FocalLoss的一阶导数时传入全局偏置base_score参数,并记录所述XGBOOST模型在指定的迭代次数下的预测能力(例如增益)变化。进一步,对于给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight下构建XGBOOST模型,可以是先预设一组参数搜索空间;所述参数搜索空间包括一个或多个最大层数参数max_depth以及一个或多个最小叶子节点样本数参数min_child_weight;通过在所述参数搜索空间中进行随机搜索提供不同的所述给定的最大层数参数max_depth和最小叶子节点样本数参数min_child_weight,这样可以生成一个或多个所述XGBOOST模型;再输入筛选的特征数据到各个所述XGBOOST模型中进行迭代,计算聚焦损失函数FocalLoss的一阶导数时传入全局偏置base_score参数,并记录所述XGBOOST模型在指定的迭代次数下的增益变化,进而,可以利用具有所述特征数据的训练集和验证集对一个或多个所述XGBOOST模型进行迭代,选取所述训练集迭代模型评价指标AUC和所述验证集迭代模型评价指标AUC的差异在预设范围内、所述增益达到最高的XGBOOST模型作为最优的XGBOOST模型,并在后续由该模型线上使用。
具体地,基于构建XGBOOST模型的规则挖掘来对待分析数据进行评估识别,需要将迭代训练该模型。在XGBOOST模型的迭代寻最优过程中求导得极值。其中,该模型通过输入特征数据或者说每个样本,迭代计算每棵或者每个决策树CART的复杂度,并由此计算模型的目标函数的正则化项,即变量部分确定树的复杂度。而模型的目标函数的训练损失即损失函数部分则优选采用了聚焦损失函数FocalLoss,利用特定的该损失函数,在计算该损失函数的一阶导数时传入一个参数如全局偏置参数base_score,进而算出最优目标函数,这样,能有效提升/加速该模型的迭代速度,使得模型的AUC和增益lift能够在迭代较少的时候即可达到接近饱和的水平。进一步,除了使用该聚焦损失函数FocalLoss计算训练损失来优化目标,还可以在给定的参数最大层数max_depth和最小叶子节点样本参数min_child_weight下构建该模型,然后在迭代训练中记录该模型在指定的迭代次数下增益lift的变化。进一步,由于参数max_depth和参数min_child_weight对最终模型挖掘提取规则的击中率以及模型的增益lift会有决定性作用,因而增大参数max_depth和减小参数min_child_weight可以得到增益lift更高的规则,同时也容易过拟合而降低击中率hit,因而可以优选地,设定一组参数搜索空间,利用随机搜索去生成若干个XGBOOST模型,然后进行如前述方式的迭代和记录,并选取这期间训练集和验证集的AUC差异在可接受范围下且增益lift所能达到最高的模型作为实际构建使用的模型。进而,可以将最优的模型选择出来并记录其迭代训练过程中记录的在指定迭代次数下增益lift的变化,并进一步在线上进行规则挖掘时使用。
在步骤S120中,主要以模型迭代中记录的预测能力如增益最高时的迭代次数及迭代模型过程中产生的每个决策树,进行规则提取并生成优化的规则集。具体地,确定所述规则模型在所述迭代过程中预测能力如增益最高时的迭代次数,并根据所述增益最高时的迭代次数选取增益高于预设能力值如预设阈值的决策树。比如:选取所述规则模型在所述迭代过程中记录的增益最高时的迭代次数及之前生成的决策树。
一个实施方式中,可以从该迭代训练的模型提取/挖掘策略规则。其中,对于规则提取与初筛,可以是选取上一阶段中所记录的lift最高时的迭代次数及之前的CART树进行规则的提取,通过遍历每棵树中每个叶结点的信息,转化为结构化的规则逻辑语义格式。同时,每棵树筛选出叶权重值最高的前n个结点,并把从所有CART树提取到的规则进行重复逻辑项的对比,执行去重。
一个实施方式中,基于规则模型提取或者说挖掘规则的方式,还可以选取在模型的所述迭代中记录的增益lift最高时的迭代次数作为最大提取棵数,具体如对于规则模型采用XGBOOST模型的,可以将XGBOOST模型的记录文件转化为json格式,选取所述XGBOOST模型在所述迭代中记录的增益最高时的迭代次数作为最大提取规则的棵数。
一个实施方式中,在给定的最大提取棵数下对所述规则模型的每个决策树进行遍历算法提取树中每个叶子节点,具体如在所述最大提取棵数下,对所述XGBOOST模型的的每个决策树CART利用二叉树中序遍历递归算法提取树中每个叶子节点的信息,所述每个叶子节点的信息包括:节点上的逻辑、迭代次数和对应分类的权重值。
然后,将筛选出的叶子节点的信息进行规则的逻辑语义结构解析,具体如在预定的叶子节点的权重值限制下,将每个决策树CART的最后的叶子节点按照权重值的降序进行排列,选择排列在前n个的叶子节点,其中n为大于等于1自然数、表示预设的选择个数,并对筛选出的前n个叶子节点的信息,横向按从决策树CART的根到叶子的层级逻辑进行关联、纵向按从迭代次数由小及大进行叠加,提取出规则并形成结构化的规则集。
再将所有所述规则进行去重和筛选,形成优化的规则集,具体如根据叶子节点到根节点的分逻辑进行判断,对结构化的规则集中的规则执行逻辑语义去重,所述去重包括:合并、交集、并集的一种或几种的组合;以及,根据预设的单规则的击中率和增益的阈值,筛选出去重后的规则集中的规则,形成所述优化的规则集。
优选从XGBOOST模型解析、提取和预筛选规则的方式主要通过基于二叉树的递归遍历算法提取XGBOOST中每棵决策树的每一个叶结点,然后将其解析成规则逻辑语义结构并进行去重,最后输出指定限制条件下的规则集,比如增益lift效果更好且击中率更高等限制条件下的规则集合。
具体例如:
第一,XGBOOST模型求极值,其设置的目标函数可以是击中率和识别效果等。将XGBOOST模型文件转化为json格式,从而能保存和读取模型的数据信息包括训练时的超参数等。XGBOOST在训练过程中能够生成很多棵数,树生成后都有各自相应的逻辑。
第二,在预先设置的或者说指定的最大提取规则的决策树的棵数数目下、或者前述迭代训练阶段记录的增益lift最高时的迭代次数确定最大提取的数量,对于XGBOOST迭代所生成的多棵CART树中的每一棵CART决策树,都可以利用数据结构的二叉树中序遍历递归算法,去提取CART树中所有叶子结点的信息。每个叶子节点上的信息包含:节点生成逻辑即节点上的逻辑、所在的迭代次数即训练过程中和权重值。权重值越大对应进行分类识别的效果则越好。
第三,进一步处理,可以在预定的叶子节点的权重值限制下如权重阈值,对每一棵CART树的最后的叶子节点,按权重值降序排序,保留排在前n个的权重值较高的叶子节点,剔除剩下的。其他叶子节点,对每棵CART树从左到右即从根到叶,根据这些叶子节点的逻辑,剔除叶子节点中分类识别效果不好的。
第四,将筛选后的叶节点信息进行结构化,横向按从根到叶的层级逻辑进行关联,纵向按迭代次数从小到大进行叠加,从而通过该逻辑语义的结构化解析提取出一个或多个规则,作为由所述模型提取的规则集。而提取的规则在结构化解析后,规则集信息表达可以如表1的表格型结构。该表1中,规则号例如可以是对应某棵CART树的规则号,比如规则号1为对应树编号0的一个规则;特征1例如可以是指根节点特征;取值1例如可以表示规则1(Rule)等等,由此根据实际需要应用分类识别的场景进行结构设置,进而对提取的规则进行逻辑语义结构化解析,获得诸如便于输出的表格等形式。
表1
规则号 | 树编号 | 特征1 | 符号1 | 取值1 | …… | 特征n | 符号n | 取值n |
1 | 0 | F1 | < | 0.5 | …… | |||
2 | 1 | F2 | >= | 1.5 | …… | |||
3 | 2 | F3 | <3 | 1,nan | …… |
第五,进一步,执行逻辑语义去重。比如可以是将筛选出来的结构化的所有规则,从叶子节点到根节点的分逻辑进行遍历判断和去重。具体可以采用如下去重策略:
1)合并法:任意两个/两条在当前判断层级之前分逻辑都相同的规则,若判断层级的分逻辑能构成一个全集,则将这两条规则合并为一条,保留到父节点的逻辑,如:
规则Rule_1:A>0.5and B<3and C>1
规则Rule_2:A>0.5and B<3and C<=1
去重后逻辑为:A>0.5and B<3
合并法通常起到辅助剪枝的作用,当某棵树来自同一个父节点的两个叶子节点在预设的叶子节点权重限制下,都能被提取为规则时,说明在其父节点上同样能得到增益(或者说分类识别)效果较好且击中率更高的规则。
2)交集法:任意两条在当前判断层级之前分逻辑都相同的规则,若判断层级的分逻辑能构成一个不为空的交集,则保留构成交集的其中一个逻辑,如:
规则Rule_1:A>0.5and B<3and C>1
规则Rule_2:A>0.5and B<3and C>8
去重后逻辑为:A>0.5and B<3and C>8
交集法有利于提升单规则的增益lift(或者说分类识别)效果,但可能有击中率过低而过拟合的风险。
3)并集法:任意两条在当前判断层级之前分逻辑都相同的规则,若判断层级的分逻辑能构成一个并集,则保留构成并集的其中一个逻辑,如:
规则Rule_1:A>0.5and B<3and C>1
规则Rule_2:A>0.5and B<3and C>8
去重后逻辑为:A>0.5and B<3and C>1
并集法有利于提升单规则的击中率,但可能会使规则集的整体增益lift或者说分类识别效果降低。
进一步,可以采用合并法+交集法/并集法其一的策略进行规则的逻辑语义去重,并且只去重到叶子节点所在的层级,避免明显降低最后规则集的增益lift或者说分类识别效果。进一步,对于余下层级的去重,可以通过后续设定单规则的击中率hit和增益lift进行筛选,得到理想的最优规则集。
输出经过筛选和去重后得到的规则集,比如表2所示:树编号为3对应一个规则号51的规则:其根节点特征即特征1为s_score;逻辑符号1为<;取值631.495,missing;逻辑and1为and;一个叶子节点即特征2为drawhisrjnum;逻辑符号2为小于;等等。
从迭代训练的XGBOOST模型进行策略规则集提取,相对于单棵树决策树衍生方式,在数据特征运用的广度和样本信息挖掘的深度上都有提升,对批量规则挖掘的效率和对待分析数据的分类识别击中率或者说准确度也同样有所提升,有利于快速适应实际业务场景下的策略评估和迭代,比如精细化捕捉存在风险或者数据安全隐患行为对应的用户、尤其是企业用户。进一步,该规则集输出的示例如图8所示。
表2
在步骤S130中,基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级,主要对筛选和去重后优化的规则集,进行评估,进而利用模型提取的规则集对待分析数据进行识别,实现数据的分类识别,找出出存在的异常情况并将存在异常情况的数据所对应的对象比如有风险或安全隐患的企业用户精准找出,并放入黑名单或提醒。
一个实施方式中,根据时间信息对所述规则集进行稳定性评估和/或根据交换特征Swap对所述规则集进行分析,确定所述规则集的组合指标并关联所述评估的结果和/或所述分析的结果并输出;将所述待分析数据输入所述规则模型;判断所述待分析数据在所述规则模型确定的所述规则集的组合指标下是否存在异常情况;如果是则将存在异常情况的所述待分析数据对应的对象识别为黑名单对象。进一步,所述待分析数据为业务监管时获得的企业用户数据;所述待分析数据对应的对象为企业用户;所述识别为黑名单对象具体包括:识别出存在异常情况的所述待分析数据对应的企业用户并将所述企业用户加入到风控管理的黑名单中。
具体地,对于获得的优化的规则集即规则输出,可以进行规则效果筛选,也就是确定这些规则对数据的分类识别准确有效。比如:输入待评估的时间外的样本数据,计算之前的挖掘输出的优化的规则集中所有规则在该样本上的击中率hit和增益lift等指标,预先设置一个阈值或者说限制值来去除即过滤掉击中率和增益lift过低的规则。
进一步,可以进行规则组合优化。也就是将过滤后余下的规则,按照增益lift指标进行降序排序,由此达到在增益lift符合要求的情况下,通过单规则取并集的方式提升整体击中率,获得一个增益lift和击中率都相对平衡或者说理想的指标状态下、同时规则的数量(条数)还尽量少的规则集,从而实现规则的进一步组合优化。优选的一种组合优化处理:在给定的规则集击中率和增益lift最低要求下寻找能够使得分类指标f1_score最高的规则组合,由此产生最终的规则集。这里f1-score作为分类识别的最终测评的方法,为精确率和召回率的调和平均数,最大为1,最小为0。参考图5所示的过程:图5左表所示树和规则对应表,取前四棵树编号0至3,对每棵树最后三个规则号和权重值(权重值限制为3个),最大深度副本为4(不执行去重);再按照前述方式增益lift从高到底遍历单规则的情况,单规则的效果如图5右表第2至4列所示,最后得到的组合后的规则集效果如图5右表第5列到最后一列(最后一列的f1_score),击中率hit大1%、增益lift前十中大于3的。
再进一步,还对规则评估后输出,比如稳定性评估和交换Swap分析等,以便对训练完的整体算法,包括该规则模型,在进行实际应用时的异常识别过程的击中率和效果,进而评估完成后输出规则集。
其中,稳定性评估,根据输入数据的时间信息,计算规则集在不同时间段的击中率hit和增益lift,如图6所示的评估。这样设置目标比如XGBOOST模型的目标函数,由历史数据输入训练稳定的模型后,放入实际数据,确定该模型中计算出的结果比如击中率hit和增益lift,如果不好则进行调整如增加更多的决策树提升计算结果以达到目标需求等等,而如果好则不用调整等等,评估稳定性。
其中,Swap分析如图7所示,则可以根据传入的swap特征比如模型分f1_score等,在swap特征不同的阈值下计算对应的拒绝情况,并与规则及的拒绝情况进行交换swap,得到不同阈值下规则集的击中率hit和增益lift的变化,从而评估规则集在现有的模型或者说策略外的额外提升情况。
其中,评估后可以进行规则及输出,将组合优化后的规则集,组合指标变化的情况,关联规则逻辑语义的结构化表格(如表1),输出相应的组合优化报告(包括如图8的规则输出),还可以在报告中加入各种评估的稳定性和Swap分析(比如组合规则评估信息)、甚至模型构建过程和特征编码的信息等,作为最终策略规则有效性评估的依据。
后续可以根据报告中的信息,进行进一步的模型调整以及规则组合质保的优化等等。即提供一个评估报告进而还可以在后续作为参考继续调整模型。
由此,可以对输入的实际待分析数据根据从该模型挖掘的规则集进行分类识别,从而准确高效地确定存在异常情况的待分析数据,并将该数据对应的对象,比如企业用户作为黑名单用户识别出来,放入到黑名单中,进而,还可以提供各种提醒服务,提示该企业用户是黑名单用户等。
【例1】
在应对风险变化的风控场景下,实现策略快速迭代需要从抛弃样本到数据特征处理、再到规则的大批量搜索、评估和输出(分类识别有异常情况的企业用户等)的自动化处理过程,而为此需要找到已有模型和策略体系外的更有效的规则又需要嵌入有效的规则挖掘处理。基于决策树构建策略规则是当前消费金融领域常用的风控手段之一,但由于单棵决策树往往无法反映样本空间足够多的信息,实际运用中常常需要对评估样本进行分群、抽样等预处理工作,既耗时耗力又往往得不到理想的结果;而集成提升树模型一方面通过每轮迭代时每棵决策树的构造、每个结点的分裂都进行了采样,能够充分遍历样本空间的边角信息,并且分群指标可以直接用于树的构建,达到了自动分群的目的,另一方面每一轮的迭代都考虑前面预测的不足,整个模型对样本信息的挖掘更加深入,因而考虑更优的基于集成提升树的规则批量挖掘方式能更有效更准确,由此,具体采用了XGBOOST模型算法,形成分类识别树模型,迭代产生多棵决策树,每个决策树具有各自的分支(分枝)和叶子(叶子节点),这些分支就是通过迭代训练的数据挖掘的规则、进而可以优化规则。下面将结合从待分析数据中准确高效率通过分类识别从而发现异常情况,从而识别出应当列入黑名单的企业用户的应用的场景的例子。
先构建XGBOOST模型并进行模型迭代训练。具体可以筛选合适的特征数据输入模型中进行迭代,模型可以使用Focal损失函数作为优化目标,计算损失函数的一阶导数时传入特定参数算出最优来提升迭代速度。而模型构建时搜索给定的最大深度/层数max_depth参数和最小叶子节点数目min_child_weight参数,在设定的限制条件下比如lift、击中率hit、AUC等符合条件时,选择最优的模型。在迭代中需要记录模型在指定迭代次数下的lift变化。max_depth参数体现迭代产生的决策树的树深,叶子节点所包含的最小样本数,体现纵深和权重值,一般层数太大逻辑量会过多;min_child_weight参数体现叶子节点在构建时的参数权重。
从构建并迭代训练了的XGBOOST模型,通过解析、提取和预筛选规则。其主要通过基于二叉树的递归遍历算法提取XGBOOST中每棵决策树的每一个叶结点,然后将其解析成规则逻辑语义结构并进行去重,最后输出指定限制条件下的规则集。
具体参见前述步骤S110和S120。
对基于模型提取的规则集,进行规则的效果筛选和组合优化,并执行评估,输出完成了评估的组合优化后的规则集。其中,可以将待分析数据输入到该模型中,通过该模型提取并最后输出的规则集,进行分类识别,判断待分析数据是否存在异常情况,比如这些数据体现的对象的异常行为,例:用户多次预设阈值时限内未还款、企业用户频繁进行贷款操作等等。从而将相应的有异常情况的待分析数据所对应的各个对象,例如行为主体:企业用户等,作为有风险、有安全隐患的对象,放入黑名单中,进而还可以提醒他人或企业用户自身存在风险等。
具体参见前述步骤S130。
【实施例2】
图2是根据本发明的系统的一实施例的功能模块架构框图。该系统至少包括:
模型迭代模块210,用于将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力。
一个实施方式,模型迭代模块210可以包括:
构建规则模型子模块2101,用于通过使用聚焦损失函数作为优化目标、并在给定的最大层数参数和最小叶子节点样本数参数下构建所述规则模型。进一步,该子模块2101在给定的最大层数参数和最小叶子节点样本数参数下构建所述规则模型,具体包括:预设一组参数搜索空间;所述参数搜索空间包括一个或多个最大层数参数以及一个或多个最小叶子节点样本数参数;通过在所述参数搜索空间中进行随机搜索提供不同的所述给定的最大层数参数和最小叶子节点样本数参数,以生成一个或多个所述规则模型。
模型迭代记录子模块2102,用于输入筛选的特征数据到所述规则模型中进行迭代,并记录所述规则模型在指定的迭代次数下的预测能力变化。
参数确定子模块2103,用于在模型迭代记录子模块2102迭代之前,计算构建好的规则模型的聚焦损失函数的一阶导数,根据所述一阶导数确定所述聚焦损失函数的极小值对应的函数参数;根据所述函数参数确定基础参数代入所述规则模型。
模型迭代模块210及其子模块的具体功能如实施例1中的步骤S110所述处理以及例1的应用。
规则提取模块220,用于根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树,以及,用于根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集。
一个实施方式,规则提取模块220可以包括:
决策树选取子模块2201,用于确定所述规则模型在迭代过程中预测能力最高时的迭代次数,根据所述预测能力最高时的迭代次数选取预测能力高于预设能力值的决策树。
规则集形成子模块2202,用于在指定的最大提取棵数下对所述规则模型的每个所述决策树执行遍历算法提取树中每个叶子节点;将筛选出的叶子节点的信息进行规则的逻辑语义结构解析;将所有所述规则进行去重和筛选,形成优化的规则集。
进一步,该子模块2202在指定的最大提取棵数下对所述规则模型的每个所述决策树执行遍历算法提取树中每个叶子节点,具体包括:在所述最大提取棵数下,对所述规则模型的的每个所述决策树CART利用二叉树中序遍历递归算法提取树中每个叶子节点的信息;其中,所述每个叶子节点的信息包括:节点上的逻辑、迭代次数和对应分类的权重值。
进一步,该子模块2202将筛选出的叶子节点的信息进行规则的逻辑语义结构解析具体包括:在预定的叶子节点的权重值限制下,将每个所述决策树CART的最后的叶子节点按照权重值的降序进行排列,选择排列在前n个的叶子节点,其中n为大于等于1自然数、表示预设的选择个数;对筛选出的前n个叶子节点的信息,横向按从决策树CART的根到叶子的层级逻辑进行关联、纵向按从迭代次数由小及大进行叠加,提取出规则并形成结构化的规则集。
进一步,该子模块2202将所有所述规则进行去重和筛选形成优化的规则集,具体包括:根据叶子节点到根节点的分逻辑进行判断,对结构化的规则集中的规则执行逻辑语义去重;所述去重包括:合并、交集、并集的一种或几种的组合;以及,根据预设的单规则的击中率和预测能力的阈值,筛选出去重后的规则集中的规则,形成所述优化的规则集。
规则提取模块220及其子模块的具体功能如实施例1中步骤S120所述处理以及例1的应用。
安全等级模块230,用于基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。
一个实施方式中,安全等级子模块230可以包括:
分析子模块2301,用于根据时间信息对所述规则集进行稳定性评估和/或根据交换特征Swap对所述规则集进行分析,确定所述规则集的组合指标并关联所述评估的结果和/或所述分析的结果并输出。
输入子模块2302,用于将所述待分析数据输入所述规则模型。
判断子模块2303,用于判断所述待分析数据在所述规则模型确定的所述规则集的组合指标下是否存在异常情况。
识别子模块2304,用于如果是则将存在异常情况的所述待分析数据分级的对象识别为黑名单对象。
安全等级模块230及其子模块的具体功能如实施例1中步骤S130所述处理以及例1的应用。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
【实施例3】
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3是根据本发明的一种电子设备的示例性实施例的结构框图。图3显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,所述存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备400交互,和/或使得该电子设备400能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图4中未示出,电子设备400中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
【实施例4】
图4是本发明的一个计算机可读介质实施例的示意图。如图4所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取各个企业实体的中文关键词;根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果,所述语义关联度解释模型用于识别所述关键词与文本训练数据中各个词或汉字的语义相关度,并将语义相关度满足阈值的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;根据所述企业知识图谱确定黑名单企业。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种集成提升树构建的模型的用户安全等级识别方法,其特征在于,包括:
将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力;
根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树;
根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;
基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。
2.如权利要求1所述的方法,其特征在于,
根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树,具体包括:
确定所述规则模型在迭代过程中预测能力最高时的迭代次数;
根据所述预测能力最高时的迭代次数选取预测能力高于预设能力值的决策树;
根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集,具体包括:
在指定的最大提取棵数下对所述规则模型的每个所述决策树执行遍历算法提取树中每个叶子节点;
将筛选出的叶子节点的信息进行规则的逻辑语义结构解析;
将所有所述规则进行去重和筛选,形成优化的规则集。
3.如权利要求2所述的方法,其特征在于,在指定的最大提取棵数下对所述规则模型的每个所述决策树执行遍历算法提取树中每个叶子节点,具体包括:
在所述最大提取棵数下,对所述规则模型的的每个所述决策树CART利用二叉树中序遍历递归算法提取树中每个叶子节点的信息;
其中,所述每个叶子节点的信息包括:节点上的逻辑、迭代次数和对应分类的权重值。
4.如权利要求2所述的方法,其特征在于,将筛选出的叶子节点的信息进行规则的逻辑语义结构解析,具体包括:
在预定的叶子节点的权重值限制下,将每个所述决策树CART的最后的叶子节点按照权重值的降序进行排列,选择排列在前n个的叶子节点,其中n为大于等于1自然数、表示预设的选择个数;
对筛选出的前n个叶子节点的信息,横向按从决策树CART的根到叶子的层级逻辑进行关联、纵向按从迭代次数由小及大进行叠加,提取出规则并形成结构化的规则集。
5.如权利要求2所述的方法,其特征在于,将所有所述规则进行去重和筛选,形成优化的规则集,具体包括:
根据叶子节点到根节点的分逻辑进行判断,对结构化的规则集中的规则执行逻辑语义去重;
所述去重包括:合并、交集、并集的一种或几种的组合;以及,
根据预设的单规则的击中率和预测能力的阈值,筛选出去重后的规则集中的规则,形成所述优化的规则集。
6.如权利要求1至5任一项所述的方法,其特征在于,将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力,具体包括:
通过使用聚焦损失函数作为优化目标、并在给定的最大层数参数和最小叶子节点样本数参数下构建所述规则模型;
输入筛选的特征数据到所述规则模型中进行迭代,并记录所述规则模型在指定的迭代次数下的预测能力变化。
7.根据权利要求6所述的方法,其特征在于,输入筛选的特征数据到所述规则模型中进行迭代之前,还包括:
计算构建好的规则模型的聚焦损失函数的一阶导数,根据所述一阶导数确定所述聚焦损失函数的极小值对应的函数参数;
根据所述函数参数确定基础参数代入所述规则模型。
8.如权利要求6所述的方法,其特征在于,给定的最大层数参数和最小叶子节点样本数参数下构建规则模型,具体包括:
预设一组参数搜索空间;
所述参数搜索空间包括一个或多个最大层数参数以及一个或多个最小叶子节点样本数参数;
通过在所述参数搜索空间中进行随机搜索提供不同的所述给定的最大层数参数和最小叶子节点样本数参数,以生成一个或多个所述规则模型。
9.如权利要求1至8任一项所述的方法,其特征在于,基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级,具体包括:
根据时间信息对所述规则集进行稳定性评估和/或根据交换特征Swap对所述规则集进行分析,确定所述规则集的组合指标并关联所述评估的结果和/或所述分析的结果并输出;
将所述待分析数据输入所述规则模型;
判断所述待分析数据在所述规则模型确定的所述规则集的组合指标下是否存在异常情况;
如果是则将存在异常情况的所述待分析数据分级的对象识别为黑名单对象。
10.一种集成提升树构建的模型的用户安全等级识别系统,其特征在于,包括:
模型迭代模块,用于将筛选的特征数据输入构建的基于集成提升树的规则模型进行迭代,并记录所述规则模型在每次迭代下的预测能力;
规则提取模块,用于根据所述规则模型在不同迭代次数下的预测能力选取规则模型中的决策树,以及,用于根据所述决策树提取击中率和准确率符合预设条件的优化规则,并将所述优化规则组成优化的规则集;
安全等级模块,用于基于所述规则集对待分析数据进行识别,根据识别结果对所述待分析数据对应的对象进行安全分级。
11.一种电子设备,包括处理器以及存储计算机可执行指令的存储器;其特征在于:所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1至9中任一项所述的方法。
12.一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,其特征在于:当所述一个或多个程序被处理器执行时,实现权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477231.6A CN114880635A (zh) | 2022-05-03 | 2022-05-03 | 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477231.6A CN114880635A (zh) | 2022-05-03 | 2022-05-03 | 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114880635A true CN114880635A (zh) | 2022-08-09 |
Family
ID=82673571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210477231.6A Pending CN114880635A (zh) | 2022-05-03 | 2022-05-03 | 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880635A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526434A (zh) * | 2022-11-07 | 2022-12-27 | 广东中思拓大数据研究院有限公司 | 对象信息预测方法、装置、计算机设备和存储介质 |
CN117596041A (zh) * | 2023-11-21 | 2024-02-23 | 深圳市马博士网络科技有限公司 | 一种检测安全规则有效性的方法及装置 |
CN118092901A (zh) * | 2024-04-25 | 2024-05-28 | 矽柏(南京)信息技术有限公司 | 一种用于界面开发的数据管理方法及系统 |
-
2022
- 2022-05-03 CN CN202210477231.6A patent/CN114880635A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526434A (zh) * | 2022-11-07 | 2022-12-27 | 广东中思拓大数据研究院有限公司 | 对象信息预测方法、装置、计算机设备和存储介质 |
CN117596041A (zh) * | 2023-11-21 | 2024-02-23 | 深圳市马博士网络科技有限公司 | 一种检测安全规则有效性的方法及装置 |
CN118092901A (zh) * | 2024-04-25 | 2024-05-28 | 矽柏(南京)信息技术有限公司 | 一种用于界面开发的数据管理方法及系统 |
CN118092901B (zh) * | 2024-04-25 | 2024-06-21 | 矽柏(南京)信息技术有限公司 | 一种用于界面开发的数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114880635A (zh) | 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN115878904B (zh) | 基于深度学习的知识产权个性化推荐方法、系统及介质 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN109766416A (zh) | 一种新能源政策信息抽取方法及系统 | |
CN113254507A (zh) | 一种数据资产目录智能构建盘点方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理系统 | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN116049376A (zh) | 一种信创知识检索回复的方法、装置和系统 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN109977227B (zh) | 基于特征编码的文本特征提取方法、系统、装置 | |
CN113642321A (zh) | 面向金融领域的因果关系提取方法和系统 | |
CN112667666A (zh) | 一种基于N-gram的SQL运行时间预测方法及系统 | |
CN112488593A (zh) | 一种用于招标的辅助评标系统及方法 | |
CN114443803A (zh) | 一种文本信息挖掘方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1109, No. 4, Lane 800, Tongpu Road, Putuo District, Shanghai, 200062 Applicant after: Shanghai Qiyue Information Technology Co.,Ltd. Address before: Room a2-8914, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai, 201500 Applicant before: Shanghai Qiyue Information Technology Co.,Ltd. Country or region before: China |