CN115310510A - 基于优化规则决策树的目标安全识别方法、装置及电子设备 - Google Patents

基于优化规则决策树的目标安全识别方法、装置及电子设备 Download PDF

Info

Publication number
CN115310510A
CN115310510A CN202210726849.1A CN202210726849A CN115310510A CN 115310510 A CN115310510 A CN 115310510A CN 202210726849 A CN202210726849 A CN 202210726849A CN 115310510 A CN115310510 A CN 115310510A
Authority
CN
China
Prior art keywords
rule
decision tree
importance
generating
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210726849.1A
Other languages
English (en)
Inventor
鲁文娜
王垚炜
沈赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202210726849.1A priority Critical patent/CN115310510A/zh
Publication of CN115310510A publication Critical patent/CN115310510A/zh
Priority to PCT/CN2023/077880 priority patent/WO2023246146A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于优化规则决策树的目标安全识别方法、装置、电子设备及计算机可读介质。该方法包括:通过规则决策树的底层逻辑数据生成所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。本申请能够对复杂的规则决策树进行简化,提高业务决策效率,保证业务数据安全;还能够在业务数据出现错误时,快速计算影响程度,保证业务运行安全。

Description

基于优化规则决策树的目标安全识别方法、装置及电子设备
技术领域
本申请涉及计算机信息处理领域,具体而言,涉及一种基于优化规则决策树的目标安全识别方法、装置、电子设备及计算机可读介质。
背景技术
现有的规则决策树,因为人群较大,分类较多,所以流程的分支、分支上的节点以及节点下的规则和模型也非常多,导致整个结构都非常庞大。
也正是因为规则决策树的结构复杂,在日常更新风控策略的时候怕影响其他分支导致最终出现较坏的影响,所以一般情况下只会给规则决策树填加规则,很少会减少规则。长此以往,规则决策树越来越复杂,后期维护会十分麻烦。而且,在规则决策树在业务系统中上线运行时,一旦某个数据源出现问题,造成业务错误,需要进行错误定位时,工程师需要去测试所有用到该数据源的模型,重新进行打分测试评估,十分耗费时间和精力。
因此,需要一种新的基于优化规则决策树的目标安全识别方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本申请提供一种基于优化规则决策树的目标安全识别方法、装置、电子设备及计算机可读介质,能够对复杂的规则决策树进行简化,提高业务决策效率,保证业务数据安全;还能够在业务数据出现错误时,快速计算影响程度,保证业务运行安全。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提出一种基于优化规则决策树的目标安全识别方法,该方法包括:通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;根据规则决策树的树状结构确定所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
可选地,通过规则决策树的底层逻辑数据生成所述逻辑字符串之间的关系,包括:通过python语言对所述规则决策树的底层逻辑数据进行重写解析;在重写解析的过程中,由规则决策树的各节点中提取非结构化规则数据;通过非结构化规则数据生成所述逻辑字符串。
可选地,根据规则决策树的树状结构确定所述逻辑字符串之间的关系,包括:根据规则决策树的树状结构提取非结构化规则数据之间的关系以作为所述逻辑字符串之间的关系。
可选地,基于所述逻辑字符串之间的关系生成规则结构图,包括:将逻辑字符串作为规则结构图中的节点;将逻辑字符串之间的关系作为多个节点之间的边;通过节点和边生成所述规则结构图。
可选地,依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度,包括:获取训练后的机器学习模型和其对应的样本集,所述样本集中包括多个样本数据,每个样本数据包括多个特征;生成多个特征对应的特征重要度;根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度。
可选地,生成多个特征对应的特征重要度,包括:生成所述机器学习模型在所述样本集上的初始性能分;生成多个特征对应的特征性能评分;根据所述初始能评分和多个特征性能评分生成多个特征重要度。
可选地,生成多个特征对应的特征性能评分,包括:依次提取所述样本集合的多个特征中的一个特征;将所述样本集中的所述特征进行随机重排生成随机样本集;生成所述机器学习模型在所述随机样本集上的对应于所述特征的特征性能评分。
可选地,根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度,包括:根据所述规则结构图的图结构确定所述逻辑字符串之间关系的结构重要度;根据多个特征对应的特征重要度确定所述逻辑字符串之间关系的特征重要度;根据所述结构重要度和所述特征重要度生成所述逻辑字符串之间的关系重要度。
可选地,分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,包括:根据所述逻辑字符串之间的关系重要度对所述规则结构图中的节点和边进行化简;根据化简之后的所述规则结构图生成优化规则决策树。
可选地,根据化简之后的所述规则结构图生成优化规则决策树,包括:根据化简之后的所述规则结构图生成化简规则决策树;对所述化简规则决策书中的参数进行更新;通过更新后的参数和化简规则决策树生成所述优化规则决策树。
根据本申请的一方面,提出一种基于优化规则决策树的目标安全识别装置,该装置包括:字符模块,用于通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;关系模块,用于根据规则决策树的树状结构确定所述逻辑字符串之间的关系;结构模块,用于基于所述逻辑字符串之间的关系生成规则结构图;重要度模块,用于依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;优化模块,用于分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化;识别模块,用于通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本申请的基于优化规则决策树的目标安全识别方法、装置、电子设备及计算机可读介质,通过通过规则决策树的底层逻辑数据生成所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级的方式,能够对复杂的规则决策树进行简化,提高业务决策效率,保证业务数据安全;还能够在业务数据出现错误时,快速计算影响程度,保证业务运行安全。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法及装置的系统框图。
图2是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。
图3是根据另一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。
图4是根据另一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。
图5是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的,因此不能用于限制本申请的保护范围。
本申请涉及的技术缩略语解释如下:
规则引擎:是根据一些算法执行规则的一系列软件系统。
Drools:是用Java语言编写的开放源码规则引擎,使用Rete算法对所编写的规则求值。Drools允许使用声明方式表达业务逻辑,可通过存储、处理和评估数据来执行业务规则和决策模型。
BPMN2.0:全称是Business Process Model and Notation,是一套业务流程模型与符号建模标准,以XML为载体,以符号可视化业务。
jBPM:全称是Java Business Process Management(业务流程管理),它是覆盖了业务流程管理、工作流、服务协作等领域的一个开源的、灵活的、易扩展的可执行流程语言框架。框架使用的规范是BPMN2.0。
在本申请中,规则决策树为业务系统在决策过程中,多个控制规则的集合。为方便描述,下面将以终端设备识别的规则决策树为例进行描述。针对不同应用场景、不同业务所关联的终端设备数据等,可构建不同的规则决策树。不同的规则决策树可适用于不同的应用场景,以及各种应用场景下的多种业务的决策规则的生成,灵活性高。规则决策树可基于对历史终端设备数据的分析生成,可靠性强。本申请中,以终端设备操作信息为例,在该业务下对应的应用场景可包括但不限于账户注册、账户登录、数据传输、数据生成、数据下载以及数据维持等。其中,上述应用场景仅是举例,具体可根据实际应用场景确定,在此不做限制。在本申请实施例中,基于不同业务类型所关联的样本数据可构建得到适用于生成各业务类型对应的规则决策树。
图1是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法及装置的系统框图。
如图1所示,系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如互联网服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的互联网服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理,并将处理结果(例如风险分析结果)反馈给互联网服务网站的管理员和/或终端设备101、102、103。
服务器105可通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;服务器105可根据规则决策树的树状结构确定所述逻辑字符串之间的关系;服务器105可基于所述逻辑字符串之间的关系生成规则结构图;服务器105可依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;服务器105可分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,服务器105可通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
服务器105还可例如通过优化后的所述规则决策树对终端设备101、102、103中的用户数据进行分析。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本申请实施例所提供的基于优化规则决策树的目标安全识别方法可以由服务器105执行,相应地,基于优化规则决策树的目标安全识别装置可以设置于服务器105中。而提供给用户进行互联网服务平台浏览的网页端一般位于终端设备101、102、103中。
图2是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。基于优化规则决策树的目标安全识别方法20至少包括步骤S202至S212。
如图2所示,在S202中,通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串。可例如,通过python语言对所述规则决策树的底层逻辑数据进行重写解析;在重写解析的过程中,由规则决策树的各节点中提取非结构化规则数据;通过非结构化规则数据生成所述逻辑字符串。
在一个具体的应用中,规则决策树的底层逻辑数据是通过Java语言中drools结合jBPM技术实现。可通过python语言对规则决策树的底层逻辑数据进行重写解析,即为对Java语言实现的底层逻辑软件代码再通过python语言进行重写。
在S204中,根据规则决策树的树状结构确定所述逻辑字符串之间的关系。
在一个实施例中,根据规则决策树的树状结构提取非结构化规则数据之间的关系以作为所述逻辑字符串之间的关系,更具体的,由所述底层逻辑数据中提取非结构化规则数据;将所述非结构化数据作为字符串、将所述非结构化数据之间的关系作为字符串之间的关系。
更具体的,原有的Java语言中规则对应的是非结构化数据,将非结构化数据提取出来,在python语言重写时作为字符串数据保留,原有的结构化数据之间的关系保留。
在S206中,基于所述逻辑字符串之间的关系生成规则结构图。可例如,将逻辑字符串作为规则结构图中的节点;将逻辑字符串之间的关系作为多个节点之间的边;通过节点和边生成所述规则结构图。
更具体的,规则结构图可为有向无环图,有向无环图指的是一个无回路的有向图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。
在一个实施例中,还可对规则结构图进行验证,可将输入项输入规则结构图的输入端,经过计算后得到输出项,将输出项和原有的规则决策树中的输出项进行比对,在结果一致时,确定规则结构图构建正确。
在S208中,依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度。可例如,获取训练后的机器学习模型和其对应的样本集,所述样本集中包括多个样本数据,每个样本数据包括多个特征;生成多个特征对应的特征重要度;根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度。
可例如,通过实现训练好的机器学习模型计算出每个特征的重要度,然后基于特征重要度计算规则结构图中节点和边的重要度,即为字符和字符串的重要度,然后还可以结合节点和边在规则结构图中的结构重要度,综合得到节点和边的重要度。
“依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度”的具体内容将在图3,4对应的实施例中进行详细描述。
在S210中,分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化。可例如,根据所述逻辑字符串之间的关系重要度对所述规则结构图中的节点和边进行化简;根据化简之后的所述规则结构图生成优化规则决策树。
更具体的,可例如先求出进入规则结构图的输入项的重要性,其中,输入项是指用户或者产品的特征,输入项中可包括多个特征。根据输入项找到规则决策树中用到的且对输出项重要性较低的字段,其中,输出项是指规则判断结果,然后筛选出对输出项的重要性较低的输入项的规则,规则在规则结构图中可表现为节点或者边。将这些节点或边在规则结构图中删除,进而调整规则结构图的节点结构,生成新的规则结构图。
在一个实施例中,还可例如,根据化简之后的所述规则结构图生成化简规则决策树;对所述化简规则决策书中的参数进行更新;通过更新后的参数和化简规则决策树生成所述优化规则决策树。
由于规则结构图进行了简化,原有的规则决策树为了准确运行,可能会需要调整期规则中的参数,可对规则结构图中的节点与边中的参数进行微调,调整到更为精确的阈值或其他考核指标,本申请不以此为限。
在S212中,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。在实际应用过程中,可将设备作为待识别的目标,获取待识别的设备的设备数据,将设备数据输入到优化后的规则决策树中,规则决策树根据其内部的多个规则对设备数据进行判断,生成识别结果。识别结果可为高等级、中等级或低等级,识别结果还可为评分形式,本申请不以此为限。根据识别结果确定所述设备的安全等级。设备可根据其对应的安全等级访问不同的数据资源。
根据本申请的基于优化规则决策树的目标安全识别方法,通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;根据规则决策树的树状结构确定所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级的方式,能够对复杂的规则决策树进行简化,提高业务决策效率,保证业务数据安全;还能够在业务数据出现错误时,快速计算影响程度,保证业务运行安全。本申请中的方法可以从整体考虑进行优化剪枝,使结构更加清晰无冗余,使维护更容易,在数据源出问题后能更快更准确的评估影响重新上线,在新上线的模型打分上确定更精准的阈值对终端设备进行筛选分级等。
应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请的原理不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。图3所示的流程30是对图2所示的流程中S206“依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度”的详细描述。
如图3所示,在S302中,获取训练后的机器学习模型和其对应的样本集,所述样本集中包括多个样本数据,每个样本数据包括多个特征。
在一个具体的应用中,样本集合可为终端设备特征样本集合,可基于终端设备信息和特征策略生成多个特征信息。可对终端设备信息进行数据清洗和数据融合以将终端设备信息转化为多个特征数据,更具体的,可对终端设备信息进行变量缺失率分析与处理、异常值处理;还可将连续型变量离散化的用户信息进行WOE转化、离散型变量WOE转化、文本变量加工处理、文本变量的word2vec处理等等。
在本申请实施例中,终端设备可为个人用户终端设备或者企业用户终端设备。其中,目标数据可以是终端设备信息,终端设备信息可包括经过用户授权的基础信息,可例如为业务账号信息、终端设备标识信息、终端设备所处地域信息等;终端设备信息还可包括行为信息,可例如为终端设备的页面操作数据、终端设备的业务访问时长、终端设备的业务访问频率等,终端设备信息的具体内容可根据实际应用场景确定,在此不做限制。
通过样本数据中的多个样本和特征对机器学习模型进行训练,在训练完毕时,生成能够稳定运行在业务中的机器学习模型。该机器学习模型可例如为卷积神经网络模型,其对应的样本集中可包括多个终端设备样本,终端设备样本中可包括终端设备表示信息、终端设备操作数据、终端设备的业务访问信息等等特征。
在S304中,生成多个特征对应的特征重要度。可例如,生成所述机器学习模型在所述样本集上的初始性能分;生成多个特征对应的特征性能评分;根据所述初始能评分和多个特征性能评分生成多个特征重要度。
在S306中,根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度。可例如,根据所述规则结构图的图结构确定所述逻辑字符串之间关系的结构重要度;根据多个特征对应的特征重要度确定所述逻辑字符串之间关系的特征重要度;根据所述结构重要度和所述特征重要度生成所述逻辑字符串之间关系重要度。
在一个具体的实施例中,可基于图算法中的节点重要度算法计算求解规则结构图中的节点重要度,还可基于图算法中的相关算法计算求解规则结构图中的边的重要度。
在一个实施例中,可为结构重要度和特征重要度分别设置权重,进而综合计算出节点和边的重要度,对应于所述逻辑字符串之间关系重要度。
本申请的基于优化规则决策树的目标安全识别方法,能够对现有规则流进行解析,优化剪枝,去掉对结果影响较小的节点或规则。还能够够帮助策略相关工作人员,对于新上模型的阈值进行更精准的划定。优化之后使结构更加清晰明了,去掉了无用的规则节点以及模型,使该结构维护起来更加容易。并且可以快速的尝试不同的阈值对最终结果的影响,可以帮助策略人员更为精准的确定新上线模型的阈值,以及受下线数据源影响的模型的新阈值。
图4是根据另一示例性实施例示出的一种基于优化规则决策树的目标安全识别方法的流程图。图4所示的流程40是对图3所示的流程中S304“生成多个特征对应的特征性能评分”的详细描述。
如图4所示,在S402中,依次提取所述样本集合的多个特征中的一个特征。
在S404中,将所述样本集中的所述特征进行随机重排生成随机样本集。
在S406中,生成所述机器学习模型在所述随机样本集上的对应于所述特征的特征性能评分。
在S408中,根据多个特征对应的特征重要度确定所述逻辑字符串之间关系的特征重要度。
可假设训练后的机器学习模型为M,其对应的样本集合为D,样本集合中可包括验证集、训练集,还可包括测试集,本申请不以此为限。假设在样本集合D中,特征包括T1,T2……Tj。更具体的,样本集合中目标A的特征可表示为“TA 1,TA 2……TA j”,目标B的特征可表示为“TB 1,TB 2……TB j”,以此类推。
可对j个特征分别计算其特征重要度,其中,每个特征可共进行k次计算,从而生成该特征的特征性能评分。
首先可假设本次进行特征计算的特征为Tj,在K次计算中的每一次计算中,首先随机重排列特征Tj,即为,在打乱特征中,用户A的特征可表示为“TA 1,TA 2……TE j”,即为,用户A对应的Tj与用户E对应的Tj替换,用户B的特征可表示为“TB 1,TB 2……TS j”,即为,用户B对应的Tj与用户S对应的Tj替换,以此类推,生成一组随机样本集合。
计算机器学习模型M在原始样本集合中的性能评分为Q,计算机器学习模型M在改组随机样本集合中的性能评分,将其记录为Qkj
经过K次计算,得到K个Qkj,然后基于如下公式计算特征Tj的重要度:
Figure BDA0003711228730000121
根据本申请的基于优化规则决策树的目标安全识别方法,通过计算输入项中每个特征的重要性,从而反推使用相应输入项的节点或规则的重要性,来达到对规则流进行优化剪枝的方法。通过用python对整个drools+jBPM架构进行重写,将现有的风控规则流构建成有向无环图,实现python语言的规则流,能够将输入项经规则流计算后得到输出项。通过对图中节点以及节点下的规则进行重要性的求解,可以将整个风控规则流中,不重要的决策节点或规则剔除,或者对于某个决策点的阈值进行调整,使其更精准的对目标进行筛选分级。
根据本申请的基于优化规则决策树的目标安全识别方法,对于规则流本身,也能达到梳理规则流的目的,使规则下的模型在遇到外部数据源出现问题的时候能够更快的得出去掉该数据源之后的效果,为重新上线做参考。通过剪枝优化,下线掉无效的模型或者输入项,使规则流达到结构不冗余,更有益于后期维护,更快的评估数据源的影响,更精准的对终端设备进行筛选分级的目的。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图5是根据一示例性实施例示出的一种基于优化规则决策树的目标安全识别装置的框图。如图5所示,基于优化规则决策树的目标安全识别装置50包括:字符模块502,关系模块504,结构模块506,重要度模块508,优化模块510,识别模块512。
字符模块502,用于通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串。
关系模块504,用于根据规则决策树的树状结构确定所述逻辑字符串之间的关系。
结构模块506用于基于所述逻辑字符串之间的关系生成规则结构图;结构模块504还用于将逻辑字符串作为规则结构图中的节点;将逻辑字符串之间的关系作为多个节点之间的边;通过节点和边生成所述规则结构图。
重要度模块508用于依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;重要度模块506还用于获取训练后的机器学习模型和其对应的样本集,所述样本集中包括多个样本数据,每个样本数据包括多个特征;生成多个特征对应的特征重要度;根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度。
优化模块510用于分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化。优化模块508还用于根据所述逻辑字符串之间的关系重要度对所述规则结构图中的节点和边进行化简;根据化简之后的所述规则结构图生成优化规则决策树。
识别模块512用于通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
根据本申请的基于优化规则决策树的目标安全识别装置,通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;根据规则决策树的树状结构确定所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级的方式,能够对复杂的规则决策树进行简化,提高业务决策效率,保证业务数据安全;还能够在业务数据出现错误时,快速计算影响程度,保证业务运行安全。
如图6所示,本发明实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现上述任一实施例的基于优化规则决策树的目标安全识别方法。
本发明实施例提供的电子设备,处理器1110通过执行存储器1130上所存放的程序通过规则决策树的底层逻辑数据生成所述逻辑字符串之间的关系;基于所述逻辑字符串之间的关系生成规则结构图;依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器1130(RandomAccessMemory,简称RAM),也可以包括非易失性存储器1130(non-volatilememory),例如至少一个磁盘存储器1130。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器1110,包括中央处理器1110(CentralProcessingUnit,简称CPU)、网络处理器1110(NetworkProcessor,简称NP)等;还可以是数字信号处理器1110(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器1110执行,以实现上述任一实施例的基于优化规则决策树的目标安全识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (13)

1.一种基于优化规则决策树的目标安全识别方法,其特征在于,包括:
通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;
根据规则决策树的树状结构确定所述逻辑字符串之间的关系;
基于所述逻辑字符串之间的关系生成规则结构图;
依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;
分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化;
通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
2.如权利要求1所述的方法,其特征在于,通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串,包括:
通过python语言对所述规则决策树的底层逻辑数据进行重写解析;
在重写解析的过程中,由规则决策树的各节点中提取非结构化规则数据;
通过非结构化规则数据生成所述逻辑字符串。
3.如权利要求2所述的方法,其特征在于,根据规则决策树的树状结构确定所述逻辑字符串之间的关系,包括:
根据规则决策树的树状结构提取非结构化规则数据之间的关系以作为所述逻辑字符串之间的关系。
4.如权利要求1所述的方法,其特征在于,基于所述逻辑字符串之间的关系生成规则结构图,包括:
将逻辑字符串作为规则结构图中的节点;
将逻辑字符串之间的关系作为多个节点之间的边;
通过节点和边生成所述规则结构图。
5.如权利要求1所述的方法,其特征在于,依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度,包括:
获取训练后的机器学习模型和其对应的样本集,所述样本集中包括多个样本数据,每个样本数据包括多个特征;
生成多个特征对应的特征重要度;
根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度。
6.如权利要求5所述的方法,其特征在于,生成多个特征对应的特征重要度,包括:
生成所述机器学习模型在所述样本集上的初始性能分;
生成多个特征对应的特征性能评分;
根据所述初始能评分和多个特征性能评分生成多个特征重要度。
7.如权利要求6所述的方法,其特征在于,生成多个特征对应的特征性能评分,包括:
依次提取所述样本集合的多个特征中的一个特征;
将所述样本集中的所述特征进行随机重排生成随机样本集;
生成所述机器学习模型在所述随机样本集上的对应于所述特征的特征性能评分。
8.如权利要求5所述的方法,其特征在于,根据所述规则结构图的图结构和多个特征对应的特征重要度确定所述逻辑字符串之间的关系重要度,包括:
根据所述规则结构图的图结构确定所述逻辑字符串之间关系的结构重要度;
根据多个特征对应的特征重要度确定所述逻辑字符串之间关系的特征重要度;
根据所述结构重要度和所述特征重要度生成所述逻辑字符串之间的关系重要度。
9.如权利要求1所述的方法,其特征在于,分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化,包括:
根据所述逻辑字符串之间的关系重要度对所述规则结构图中的节点和边进行化简;
根据化简之后的所述规则结构图生成优化规则决策树。
10.如权利要求9所述的方法,其特征在于,根据化简之后的所述规则结构图生成优化规则决策树,包括:
根据化简之后的所述规则结构图生成化简规则决策树;
对所述化简规则决策书中的参数进行更新;
通过更新后的参数和化简规则决策树生成所述优化规则决策树。
11.一种基于优化规则决策树的目标安全识别装置,其特征在于,包括:
字符模块,用于通过规则决策树各节点的底层逻辑数据分别生成对应的逻辑字符串;
关系模块,用于根据规则决策树的树状结构确定所述逻辑字符串之间的关系;
结构模块,用于基于所述逻辑字符串之间的关系生成规则结构图;
重要度模块,用于依据所述规则结构图分别确定所述逻辑字符串之间的关系重要度;
优化模块,用于分析所述逻辑字符串之间的关系重要度对所述规则决策树进行优化;
识别模块,用于通过优化后的所述规则决策树对待识别目标的目标数据进行识别,根据识别结果对所述待识别目标进行安全分级。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202210726849.1A 2022-06-23 2022-06-23 基于优化规则决策树的目标安全识别方法、装置及电子设备 Pending CN115310510A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210726849.1A CN115310510A (zh) 2022-06-23 2022-06-23 基于优化规则决策树的目标安全识别方法、装置及电子设备
PCT/CN2023/077880 WO2023246146A1 (zh) 2022-06-23 2023-02-23 基于优化规则决策树的目标安全识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210726849.1A CN115310510A (zh) 2022-06-23 2022-06-23 基于优化规则决策树的目标安全识别方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115310510A true CN115310510A (zh) 2022-11-08

Family

ID=83855367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210726849.1A Pending CN115310510A (zh) 2022-06-23 2022-06-23 基于优化规则决策树的目标安全识别方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN115310510A (zh)
WO (1) WO2023246146A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304920A (zh) * 2023-02-13 2023-06-23 中国地质大学(武汉) 一种流数据分类模型的优化方法及装置
CN116579796A (zh) * 2023-05-11 2023-08-11 广州一小时科技有限公司 基于深度学习实现智慧门店的效益分析方法及装置
WO2023246146A1 (zh) * 2022-06-23 2023-12-28 上海淇玥信息技术有限公司 基于优化规则决策树的目标安全识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868413B1 (en) * 2001-05-10 2005-03-15 Networks Associates Technology, Inc. System and method for customizing and processing business logic rules in a business process system
CN101751399A (zh) * 2008-12-12 2010-06-23 中国移动通信集团河北有限公司 决策树优化方法和优化系统
CN107808245A (zh) * 2017-10-25 2018-03-16 冶金自动化研究设计院 基于改进决策树方法的管网调度系统
CN110705622A (zh) * 2019-09-26 2020-01-17 支付宝(杭州)信息技术有限公司 一种决策方法、系统以及电子设备
CN115310510A (zh) * 2022-06-23 2022-11-08 上海淇玥信息技术有限公司 基于优化规则决策树的目标安全识别方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023246146A1 (zh) * 2022-06-23 2023-12-28 上海淇玥信息技术有限公司 基于优化规则决策树的目标安全识别方法及装置
CN116304920A (zh) * 2023-02-13 2023-06-23 中国地质大学(武汉) 一种流数据分类模型的优化方法及装置
CN116304920B (zh) * 2023-02-13 2023-10-20 中国地质大学(武汉) 一种流数据分类模型的优化方法及装置
CN116579796A (zh) * 2023-05-11 2023-08-11 广州一小时科技有限公司 基于深度学习实现智慧门店的效益分析方法及装置

Also Published As

Publication number Publication date
WO2023246146A1 (zh) 2023-12-28

Similar Documents

Publication Publication Date Title
US11888883B2 (en) Threat disposition analysis and modeling using supervised machine learning
US11704439B2 (en) Systems and methods for managing privacy policies using machine learning
US20190333118A1 (en) Cognitive product and service rating generation via passive collection of user feedback
US20180322411A1 (en) Automatic evaluation and validation of text mining algorithms
US9268766B2 (en) Phrase-based data classification system
US20180114234A1 (en) Systems and methods for monitoring and analyzing computer and network activity
US11595415B2 (en) Root cause analysis in multivariate unsupervised anomaly detection
CN115310510A (zh) 基于优化规则决策树的目标安全识别方法、装置及电子设备
US11563727B2 (en) Multi-factor authentication for non-internet applications
US11178022B2 (en) Evidence mining for compliance management
US12045843B2 (en) Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
Mukunthu et al. Practical automated machine learning on Azure: using Azure machine learning to quickly build AI solutions
CN111178687A (zh) 金融风险分类方法、装置及电子设备
US10896034B2 (en) Methods and systems for automated screen display generation and configuration
US20200175406A1 (en) Apparatus and methods for using bayesian program learning for efficient and reliable knowledge reasoning
Malhotra et al. Threats to validity in search‐based predictive modelling for software engineering
US11314488B2 (en) Methods and systems for automated screen display generation and configuration
US20220198255A1 (en) Training a semantic parser using action templates
US20220067579A1 (en) Dynamic ontology classification system
CN113515625A (zh) 测试结果分类模型训练方法、分类方法及装置
US20230396641A1 (en) Adaptive system for network and security management
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
Korstanje Machine Learning for Streaming Data with Python: Rapidly build practical online machine learning solutions using River and other top key frameworks
US20220277017A1 (en) Standardization in the context of data integration
WO2022245706A1 (en) Fault detection and mitigation for aggregate models using artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 1109, No. 4, Lane 800, Tongpu Road, Putuo District, Shanghai, 200062

Applicant after: Shanghai Qiyue Information Technology Co.,Ltd.

Address before: Room a2-8914, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai, 201500

Applicant before: Shanghai Qiyue Information Technology Co.,Ltd.

Country or region before: China

CB02 Change of applicant information