CN115147092A - 资源审批方法、随机森林模型的训练方法及装置 - Google Patents
资源审批方法、随机森林模型的训练方法及装置 Download PDFInfo
- Publication number
- CN115147092A CN115147092A CN202210905742.3A CN202210905742A CN115147092A CN 115147092 A CN115147092 A CN 115147092A CN 202210905742 A CN202210905742 A CN 202210905742A CN 115147092 A CN115147092 A CN 115147092A
- Authority
- CN
- China
- Prior art keywords
- resource
- user
- decision tree
- approval
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及资源审批方法、随机森林模型的训练方法及装置,涉及云计算技术领域。资源审批方法包括获取用户对资源的使用请求确定用户对资源的使用请求的多个特征;针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征;根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源;综合每个决策树的审批结果,确定是否发放用户所请求的资源。根据本公开,提高了资源审批的效率和准确率。
Description
技术领域
本公开涉及云计算技术领域,特别涉及资源审批方法、随机森林模型的训练方法及装置、计算机可读存储介质。
背景技术
私有云面向企业内部的组织提供服务,能够向企业用户提供多种云产品,从而构成复杂的云生态链,具有数据安全性高,IT基础架构可控性强等特点。
企业级用户通常具有复杂的多层内部组织架构,在私有云的场景下,企业内不同层级的用户会被赋予差异化的权限,不同权限的用户所能使用的资源的规格也不同。当用户有超出自身权限使用资源的需求时,需要提交申请,等待申请被审批通过后才能正常使用产品。
发明内容
根据本公开的第一方面,提供了一种资源审批方法,包括:
获取用户对资源的使用请求;
确定用户对资源的使用请求的多个特征;
针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征;
根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源;
综合每个决策树的审批结果,确定是否发放用户所请求的资源。
在一些实施例中,所述综合每个决策树的审批结果,确定是否发放用户所请求的资源,包括:
根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源。
在一些实施例中,所述根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源,包括:
在生成相同的审批结果的决策树的数量占决策树的总数的比例超过第一预设阈值的情况下,根据该审批结果,确定是否发放用户所请求的资源。
在一些实施例中,所述根据生成相同的审批结果的决策树的数量占决策树的总数的比例和第一预设阈值,确定是否发放用户所请求的资源,包括:
在生成相同的审批结果的决策树的数量占决策树的总数的比例不超过第一预设阈值的情况下,根据多个特征,确定是否发放用户所请求的资源。
在一些实施例中,所述用户对资源的使用请求还包括用户对资源的历史使用请求。
在一些实施例中,所述用户对资源的使用请求的特征包括:用户请求使用的资源的类型、用户请求使用的资源的规格、用户请求使用的资源的数量、用户的资源使用权限和用户请求使用资源的原因的至少一个。
根据本公开的第二方面,提供了一种随机森林模型的训练方法,包括:
获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签;
确定用户对资源的使用请求的多个特征;
针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征;
根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树。
在一些实施例中,所述根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:
将决策树的根节点作为当前节点,根据训练集,从候选特征中选择与根节点对应的特征;
根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集;
根据与当前节点的子节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从剩余的候选特征中选择与当前节点的子节点对应的特征;
将当前子节点的子节点作为当前节点,循环确定与当前节点的子节点对应的训练集、从剩余的候选特征中选择与当前节点的子节点对应的特征的步骤,直至达到截止条件。
在一些实施例中,当前节点的子节点包括当前节点的第一子节点和当前节点的第二子节点,所述根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集,包括:
根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从与当前节点对应的特征的取值范围中选择一个特征的值,作为划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点;
根据划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点,判断将与当前节点对应的训练集中的样本划分到第一子节点的训练集还是第二子节点的训练集。
在一些实施例中,所述截止条件包括不存在剩余的候选特征、与当前节点对应的训练集中样本的数量小于第二预设阈值,以及与当前节点对应的训练集的基尼系数小于第三预设阈值的至少一个。
在一些实施例中,所述根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:
针对每个决策树,从训练集中抽取多个样本,作为该决策树的训练集;
根据决策树的训练集中样本的与该决策树对应的候选特征的值、和表示是否发放用户所请求的资源的标签,训练决策树。
在一些实施例中,所述确定用户对资源的使用请求的多个特征,包括:
在用户对资源的使用请求的样本缺失特征的值的情况下,计算该样本和其他样本在决策树中经过节点的路径的相似度;
根据样本和其他样本在决策树中经过节点的路径的相似度,确定该样本缺失的特征的值。
根据本公开的第三方面,提供了一种资源审批装置,包括:
获取模块,被配置为获取用户对资源的使用请求;
第一确定模块,被配置为确定用户对资源的使用请求的多个特征;
选择模块,被配置为针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征;
预测模块,被配置为根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源;
第二确定模块,被配置为综合每个决策树的审批结果,确定是否发放用户所请求的资源。
根据本公开的第四方面,提供了一种随机森林模型的训练装置,包括:
获取模块,被配置为获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签;
确定模块,被配置为确定用户对资源的使用请求的多个特征;
抽取模块,被配置为针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征;
训练模块,被配置为根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树。
根据本公开的第五方面,提供了一种电子设备,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据本公开任一实施例所述的资源审批方法,或根据本公开任一实施例所述的随机森林模型的训练方法。
根据本公开的第六方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据本公开任一实施例所述的资源审批方法,或根据本公开任一实施例所述的随机森林模型的训练方法。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出了根据本公开一些实施例的资源审批方法的流程图;
图2示出了根据本公开一些实施例的决策树的示意图;
图3示出了根据本公开一些实施例的随机森林模型确定是否发放资源的示意图;
图4示出了根据本公开一些实施例的资源审批的流程图;
图5示出了根据本公开一些实施例的随机森林模型的训练方法的流程图;
图6示出了根据本公开一些实施例的对决策树进行剪枝的示意图;
图7示出了根据本公开一些实施例的资源审批装置的框图;
图8示出了根据本公开一些实施例的随机森林模型的训练装置的框图;
图9示出了根据本公开另一些实施例的电子设备的框图;
图10示出了用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
相关技术中,在用户需要跨权限使用产品时,一般需要通过多个节点的层层审批,这一方式存在下列问题。
首先,审批流中的节点往往为企业或机构的各级负责人,每个节点都需要审批众多用户的资源使用请求,难免出现错误的审批操作,降低审批的准确率。
其次,审批流程往往要经历多个节点,每个节点审批通过的时间要根据节点负责人自身情况而定,任意一个节点阻碍都会导致整个审批流停滞,降低了审批完成的效率。
最后,这种审批方式难以适应复杂的业务需求。有时用户需要结合不同的云产品资源,才能完成目标任务,但是传统的审批方式的节点是固定的,难以根据用户的差异化的需求做出及时调整。
为了解决上述问题,本公开的一些实施例提供了一种资源审批方法、随机森林训练方法及装置、计算机可读存储介质。
图1示出根据本公开一些实施例的资源审批方法的流程图。
如图1所示,资源审批方法包括步骤S110-步骤S150。在一些实施例中,下列资源审批方法由资源审批装置执行。
在步骤S110中,获取用户对资源的使用请求。
例如,在需要使用超出自身权限范围的资源时,对用户进行提示,并获取用户在页面中填写的对资源的使用请求。
在步骤S120中,确定用户对资源的使用请求的多个特征。
在一些实施例中,用户对资源的使用请求的特征包括:用户请求使用的资源的类型、用户请求使用的资源的规格、用户请求使用的资源的数量、用户的资源使用权限和用户请求使用资源的原因的至少一个。
例如,从用户提交的对资源的使用请求中,提取出用户的职位、职级、负责的工作等多个特征,作为用户对资源的使用请求的多个特征。
在步骤S130中,针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征。
随机森林模型包括多个决策树,每个决策树仅根据使用请求的多个特征中的一部分进行预测。
图2示出了根据本公开一些实施例的决策树的示意图。
如图2所示,每个决策树包括多个节点,决策树的一个节点就是一个特征。因此,与决策树对应的特征也即与决策树的多个节点对应的特征。例如,决策树对应的特征包括:该用户是否存在相同的历史使用请求、用户职级、用户所属权限组、用户申请的资源价值、用户申请的资源数量。其中,权限组是一组为了保证职责的有效履行,任职者必须具备的,对某事项进行决策的范围和程度的集合。
对于训练好的决策树,其节点对应于哪个特征是已知的,也即每个决策树需要使用多个特征中的哪些特征是已知的,因此,在利用决策树进行预测时,只需要将步骤S120中得到的特征,根据决策树的节点,划分给每个训练好的决策树即可。
由于每个决策树分别根据一部分特征生成审批结果,即,将多个特征分给多个决策树去处理,相比于使用请求中原有的总特征数量,每个决策树需要处理的特征的数量更少,从而能够处理高维度(即,具有多种特征)的使用请求,且不需要提前做特征选择,也不需要特征降维,能够解决复杂(多特征)的用户请求的审批问题,提高了对资源的使用请求的审批的准确度和效率。
在步骤S140中,根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源。
例如,用户对资源的使用请求中,与该决策树对应的多个特征的值包括,不存在相同的历史使用请求、用户属于高权限组、用户职级为PY、用户申请的资源价值为C、用户申请的资源数量为D,其中,PY的级别高于PX,C>A,D>B。
如图2所示,决策树的输入是与决策树对应的多个特征的特征值,决策树首先判断是否“存在相同的历史使用请求”,判断结果为否,则进入“用户是否属于高权限组?”节点。在“用户是否属于高权限组?”节点,判断结果为是,则进入“资源价值是否大于A?”的判断。在“资源价值是否大于A?”的节点,判断结果为是,则这一颗决策树的最终审批结果为决定向用户发放资源。
在一些实施例中,根据与每个决策树对应的特征的值,预测审批结果,包括多个决策树并行生成审批结果。
例如,将随机森林的多个决策树做成并行方法,分别独立地进行预测,从而可以提高审批速度。
在步骤S150中,综合每个决策树的审批结果,确定是否发放用户所请求的资源。
图3示出了根据本公开一些实施例的随机森林模型确定是否发放资源的示意图。
如图3所示,每个决策树分别根据用户对资源的使用请求中的部分特征,生成审批结果,然后通过多个树共同决策,基于多数投票机制决定是否发放用户所请求的资源。
在一些实施例中,综合每个决策树的审批结果,确定是否发放用户所请求的资源,包括:根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源。
在一些实施例中,根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源,包括:在生成相同的审批结果的决策树的数量占决策树的总数的比例超过第一预设阈值的情况下,根据该审批结果,确定是否发放用户所请求的资源。
随机森林算法通过构建大量独立的决策树对结果进行预测,预测得到同一结果的决策树的数量需要达到预设的阈值,结果才会被采信,投票机制可以是一票否决制、少数服从多数、加权多数等,审批通过的审批流将会自动发放资源,随即结束该审批。
例如,令第一预设阈值为0.8,随机森林由n个决策树构成,在n个决策树中,有m个决策树的审批结果是“向用户发放资源”。则在的情况下,随机森林确定最终的结果为发放用户所请求的资源。通过设定阈值,排除了不可信的预测结果,从而提高了预测准确率。
在一些实施例中,根据生成相同的审批结果的决策树的数量占决策树的总数的比例和第一预设阈值,确定是否发放用户所请求的资源,包括:在生成相同的审批结果的决策树的数量占决策树的总数的比例不超过第一预设阈值的情况下,根据多个特征,确定是否发放用户所请求的资源。
例如,在随机森林得到的预测结果没能达到阈值的情况下,随机森林无法自动得出审批是否通过,审批单将会转到其他审批方式,例如,由审批人根据用户请求使用的资源的类型、用户请求使用的资源的规格、用户请求使用的资源的数量、用户的资源使用权限和用户请求使用资源的原因等特征,确定是否发放用户所请求的资源。
本公开综合所有决策树的结果,确定是否发放用户所请求的资源,减少了单个决策树的误差对最终结果的影响,提高了审批的准确率。
图4示出根据本公开一些实施例的资源审批的流程图。
如图4所示,当用户出现跨越权限组调用资源的需求时,开始审批流,此时审批流自动进入Listen(监听)状态,等待用户在前台输入审批信息。
在一些实施例中,用户对资源的使用请求还包括用户对资源的历史使用请求。例如,对于资源使用请求的审批单中,用户申请使用的资源的规格等信息,自动获取用户之前选取的规格或用户常用的规格进行填充,申请者只需要补充申请资源所用于的场景和原因。
审批流Listen的状态持续时长为30分钟,如果用户在30分钟内没有填写审批单并提交,则审批单自动关闭。
在用户填写完审批单信息后,审批流第一个到达的节点是流程引擎(Processengine)。在Process engine(流程引擎)中会内置一定数量的预先设定好的规则,这些规则支持自定义,平台的管理者可以根据公司组织架构的需求自定义哪些权限组(例如哪些部门、职位)对于哪些资源的调用是可以免审批的。例如,流程引擎中规定:测试人员申请超过限定规格一定范围内的云主机用于链路压测,可以免审批。
对于免审批的资源使用请求,会自动发放资源给用户,随后结束审批流。
结合安全需求、公司规章制度和管理层要求等硬性条件预设一些规则,对于需要审批的资源使用请求,流程引擎通过这些规则直接过滤出哪些使用请求是需要进入其他审批方式的,比如对于一些跨越职级过高的资源需求、或者对公司资源使用的稳定性有较大影响的审批,为了提高审批的准确率,将这些特殊的资源使用请求分到其他审批方式中。而剩余的资源使用请求,则进入随机森林算法的处理流程。
在随机森林算法的处理流程中,系统会抓取申请者的使用请求的相关特征,例如申请者的职位、职级、负责的工作等会影响审批结果的因素,这些特征将输入到决策树中作为预测依据。最终,多颗决策树形成的随机森林决定是否通过用户的请求。
随机森林预测的结果需要达到一定的阈值才会被采信,如果得到的预测结果没能达到阈值,无法自动得出审批是否通过,审批单将会转到其他审批方式。对于审批通过的资源使用请求,将会自动发放资源给用户并结束该审批流。对于不通过的资源使用请求,会返回Listen状态,等待用户修改信息。
进入其他审批方式的资源使用请求,同样会有通过和不通过两个状态,对于审批通过的资源使用请求,将会发放资源给用户并结束该审批流。对于不通过的资源使用请求,会返回Listen状态,等待用户修改信息。
图5示出了根据本公开一些实施例的随机森林模型的训练方法的流程图。
如图5所示,随机森林模型的训练方法包括步骤S210-S240。在一些实施例中,随机森林模型的训练方法由随机森林模型的训练装置执行。
在步骤S210中,获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签。
例如,一个使用请求的样本包含了用户填写的对资源的使用请求,以及标注的是否发放用户所请求的资源的标签。
在步骤S220中,确定用户对资源的使用请求的多个特征。
例如,从用户提交的对资源的使用请求的样本中,提取出用户的职位、职级、负责的工作等多个特征,作为用户对资源的使用请求的多个特征,并确定这些特征的值。
在步骤S230中,针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征。
例如,为每个决策时,都随机抽取一部分特征,用作决策树训练的候选特征。样本有Y个特征,从样本的所有特征中随机选择T(T<Y)个特征,作为一个决策树的候选特征。
随机抽取特征可以采用有放回的随机采样方法,例如bagging(装袋)方法,每次抽到一个特征,就将该特征放回,然后再抽取,而不是一次性抽10个,再放回。有放回的随机抽样使得每一个样本被抽中的概率符合均匀分布。
在一些实施例中,根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:针对每个决策树,从训练集中抽取多个样本,作为该决策树的训练集;根据决策树的训练集中样本的与该决策树对应的候选特征的值、和表示是否发放用户所请求的资源的标签,训练决策树。
例如,与对特征的随机抽样类似的,也采用有放回的随机抽样对训练集中的样本进行抽取。训练集中有X个样本,从数据集中有放回地随机抽样S(S<X)个样本,作为一个决策树的训练集。通过为每个决策树抽取训练集,将训练集划分为多个子集,每个决策树分别用一个子集作为训练集进行构建,最终多个训练好的决策树构成一座森林。
本公开的随机森林模型在训练时,行和列(样本和特征)都随机抽取,能够做到真正的把整个数据表随机切分成多份,每个决策树使用一份,只要决策树的数量足够,总有决策树能够在最大程度上获取数据集的价值,从而提高随机森林模型的资源审批的准确率。
在步骤S240中,根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树。
下面介绍单个决策树的训练方法。
在一些实施例中,根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:将决策树的根节点作为当前节点,根据训练集,从候选特征中选择与根节点对应的特征;根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集;根据与当前节点的子节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从剩余的候选特征中选择与当前节点的子节点对应的特征;将当前子节点的子节点作为当前节点,循环确定与当前节点的子节点对应的训练集、从剩余的候选特征中选择与当前节点的子节点对应的特征的步骤,直至达到截止条件。
在一些实施例中,当前节点的子节点包括当前节点的第一子节点和当前节点的第二子节点,根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集,包括:根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从与当前节点对应的特征的取值范围中选择一个特征的值,作为划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点;根据划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点,判断将与当前节点对应的训练集中的样本划分到第一子节点的训练集还是第二子节点的训练集。
例如,对抽样的S个样本,利用抽取的T个特征进行决策树模型训练,从根节点开始,先选择与根节点对应的特征。以CART(classification and regression tree,分类和回归数)分类树为例,CART是一个从原点开始无限向下分类的二叉树,也就是说其节点只有两种选择,‘是’和‘否’,通过不断的划分,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布。
使用基尼系数衡量特征的重要性,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。数据集D的纯度可用基尼值来度量,假设集合中有K类样本,基尼系数的计算公式如下:
Ck|表示标签属于K类的样本数,训练集D的样本的个数为|D|,表示样本的标签属于K类别的概率。Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。
计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。例如,先根据训练集的样本,确定特征A的取值范围。以当前节点为根节点为例,此时,根节点对应的训练集为D,从A的取值范围中,选择取值a,根据特征A是否取值a,把训练集D分成两部分,例如,当样本的特征A的取值为a,则将该样本划分到训练集D1中,否则,划分到训练集D2中,计算特征值A和切分点a对数据集D的基尼系数的公式如下:
其中,Gini(D1)表示数据集D1的基尼系数。
在计算出来的各个特征的各个值的基尼系数中,选择基尼系数最小的特征作为当前节点对应的特征,将该特征的基尼系数最小的取值作为划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点。
在确定切分点时,决策树能够对连续值和离散值进行处理。例如,对于连续值,假设m个样本的连续特征A有m个值,从小到大排列,则CART取相邻两样本值的平均数做划分点,一共有m-1个划分点,分别计算以这m-1个点作为二元分类点时的基尼系数。选择基尼系数最小的点为该连续特征的切分点。比如取到的基尼系数最小的点为a,则小于a的值为类别1,大于a的值为类别2,这样就做到了连续特征的离散化。
对于离散值,CART采用的是循环的二分法。CART把特征A的取值分成(a1,a2a3)或(a1a2,a3)或(a2,a1a3)三种情况,找到基尼系数最小的组合,比如(a2,a1a3),然后建立二叉树节点,一个节点是a2对应的样本,另一个节点是对a1和a3对应的样本。由于这次没有把特征A的取值完全分开。
在确定划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点之后,根据切分点,判断将与当前节点对应的训练集中的样本划分到第一子节点还是第二子节点,从而生成第一子节点和第二子节点的训练集。
然后将子节点作为当前节点,循环上述根据当前节点的训练集确定当前节点的特征、根据当前节点的特征确定子节点的训练集的步骤,直至达到截止条件,则返回决策子树,当前节点停止递归,最后建立整个决策树。
通过上述方法,能够衡量不同特征间的交互性。例如,如果同一个决策树中,按照某个特征M分裂为两个子节点的训练集,在特征J上更容易分裂,那么特征M与J具有交互性。
在一些实施例中,截止条件包括不存在剩余的候选特征、与当前节点对应的训练集中样本的数量小于第二预设阈值,以及与当前节点对应的训练集的基尼系数小于第三预设阈值的至少一个。
例如,如果D的样本个数小于阈值,或已经没有特征可供选择,或当前节点的训练集的基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
本公开根据基尼系数自动判断用户对资源的使用请求的特征的重要程度,此外,能够衡量不同特征间的交互性,构建决策树并生成资源审批结果,无需降维,无需做特征选择,提高了对资源的使用请求的审批的准确度和效率。
按照上述方法,构建多个决策树,最终构成随机森林模型。
在一些实施例中,确定用户对资源的使用请求的多个特征,包括在用户对资源的使用请求的样本缺失特征的值的情况下,计算该样本和其他样本在决策树中经过节点的路径的相似度;根据样本和其他样本在决策树中经过节点的路径的相似度,确定该样本缺失的特征的值。
例如,首先,给样本中的缺失值预设一些估计值。对于数值型变量,选择其余数据的中位数或众数作为当前缺失值的估计值,如果是数值型变量,通过加权平均得到新的估计值。然后,根据估计的数值,建立随机森林,把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径,判断哪组数据和缺失数据路径最相似,引入一个相似度矩阵,来记录数据之间的相似度,比如有N组数据,相似度矩阵大小就是N*N。如果缺失值是类别变量,通过权重投票得到新估计值,如此迭代,直到得到稳定的估计值。
通过构造多棵决策树对缺失值进行填补,使得填补得到的数据具有随机性和不确定性,更能反映出这些未知数据的真实分布。此外,由于在构造决策树过程中,每个节点使用的都是随机的部分特征而不是训练集的全部特征,所以能很好的应用到高维数据的填补。因此,本公开能够减少缺失值对资源审批的干扰,提高对资源的使用请求的审批的准确度。
在一些实施例中,根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树包括对决策树进行剪枝。
图6示出了根据本公开一些实施例的对决策树进行剪枝的示意图。
如图6所示,采用后剪枝法,即先生成决策树,然后在已经生成的决策树的基础上,产生所有剪枝后的CART树,然后使用交叉验证检验剪枝的效果,选择泛化能力最好的剪枝策略。
对于位于节点t的任意一颗子树Tt,如果没有剪枝,则子树Tt的损失函数是:
Cα(Tt)=C(Tt)+α|Tt|
如果将其剪掉,仅保留根节点,则根节点的损失函数如下:
Cα(T)=C(T)+α
其中,α为正则化参数(和线性回归的正则化一样),C(Tt)为验证数据的预测误差(即验证数据的基尼系数),|Tt|是子树T的叶子节点数量。
按照损失函数最小原则,如果满足下式,则需要对子树T进行剪枝:
通过剪枝,能够砍掉决策树的冗余部分,避免对训练集过拟合,提升泛化能力。
在一些实施例中,根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括并行训练多个决策树。例如,将随机森林的多个决策树并行地、独立地训练,从而可以提高随机森林模型的训练速度。
图7示出根据本公开一些实施例的资源审批装置的框图。
如图7所示,资源审批装置7包括获取模块71、第一确定模块72、选择模块73、预测模块74、第二确定模块75。
获取模块71,被配置为获取用户对资源的使用请求,例如执行如图1所示的步骤S110。
第一确定模块72,被配置为确定用户对资源的使用请求的多个特征,例如执行如图1所示的步骤S120。
选择模块73,被配置为针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征,例如执行如图1所示的步骤S130。
预测模块74,被配置为根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源,例如执行如图1所示的步骤S140。
第二确定模块75,被配置为综合每个决策树的审批结果,确定是否发放用户所请求的资源,例如执行如图1所示的步骤S150。
图8示出了根据本公开一些实施例的随机森林模型的训练装置的框图。
如图8所示,随机森林模型的训练装置包括获取模块81、确定模块82、抽取模块83、训练模块84。
获取模块81,被配置为获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签,例如执行如图5所示的步骤S210。
确定模块82,被配置为确定用户对资源的使用请求的多个特征,例如执行如图5所示的步骤S220。
抽取模块83,被配置为针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征,例如执行如图5所示的步骤S230。
训练模块84,被配置为根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,例如执行如图5所示的步骤S240。
图9示出根据本公开另一些实施例的电子设备的框图。
如图9所示,电子设备9包括存储器91;以及耦接至该存储器91的处理器92,存储器91用于存储执行资源审批方法或随机森林模型的训练方法对应实施例的指令。处理器92被配置为基于存储在存储器91中的指令,执行本公开中任意一些实施例中的资源审批方法或随机森林模型的训练方法。
图10示出用于实现本公开一些实施例的计算机系统的框图。
如图10所示,计算机系统100可以通用计算设备的形式表现。计算机系统100包括存储器1010、处理器1020和连接不同系统组件的总线1000。
存储器1010例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行本公开中任意一些实施例中的资源审批方法或随机森林模型的训练方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器1020可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线1000可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统100还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030、1040、1050以及存储器1010和处理器1020之间可以通过总线1000连接。输入输出接口1030可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
通过上述实施例中的资源审批方法、随机森林模型的训练方法及装置、计算机可存储介质,提高了资源审批的效率和准确率。
至此,已经详细描述了根据本公开的资源审批方法、随机森林模型的训练方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
Claims (16)
1.一种资源审批方法,包括:
获取用户对资源的使用请求;
确定用户对资源的使用请求的多个特征;
针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征;
根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源;
综合每个决策树的审批结果,确定是否发放用户所请求的资源。
2.根据权利要求1所述的资源审批方法,其中,所述综合每个决策树的审批结果,确定是否发放用户所请求的资源,包括:
根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源。
3.根据权利要求2所述的资源审批方法,其中,所述根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源,包括:
在生成相同的审批结果的决策树的数量占决策树的总数的比例超过第一预设阈值的情况下,根据该审批结果,确定是否发放用户所请求的资源。
4.根据权利要求3所述的资源审批方法,其中,所述根据生成相同的审批结果的决策树的数量占决策树的总数的比例、和第一预设阈值,确定是否发放用户所请求的资源,包括:
在生成相同的审批结果的决策树的数量占决策树的总数的比例不超过第一预设阈值的情况下,根据多个特征,确定是否发放用户所请求的资源。
5.根据权利要求1所述的资源审批方法,其中,所述用户对资源的使用请求还包括用户对资源的历史使用请求。
6.根据权利要求1所述的资源审批方法,其中,所述用户对资源的使用请求的特征包括:用户请求使用的资源的类型、用户请求使用的资源的规格、用户请求使用的资源的数量、用户的资源使用权限和用户请求使用资源的原因的至少一个。
7.一种随机森林模型的训练方法,包括:
获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签;
确定用户对资源的使用请求的多个特征;
针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征;
根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树。
8.根据权利要求7所述的随机森林模型的训练方法,其中,所述根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:
将决策树的根节点作为当前节点,根据训练集,从候选特征中选择与根节点对应的特征;
根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集;
根据与当前节点的子节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从剩余的候选特征中选择与当前节点的子节点对应的特征;
将当前子节点的子节点作为当前节点,循环确定与当前节点的子节点对应的训练集、从剩余的候选特征中选择与当前节点的子节点对应的特征的步骤,直至达到截止条件。
9.根据权利要求8所述的随机森林模型的训练方法,其中,所述当前节点的子节点包括当前节点的第一子节点和当前节点的第二子节点,所述根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,确定与当前节点的子节点对应的训练集,包括:
根据与当前节点对应的训练集中样本的与当前节点对应的特征的值,以及样本的标签,从与当前节点对应的特征的取值范围中选择一个特征的值,作为划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点;
根据划分与当前节点的第一子节点对应的训练集和与当前节点的第二子节点对应的训练集的切分点,判断将与当前节点对应的训练集中的样本划分到第一子节点的训练集还是第二子节点的训练集。
10.根据权利要求8所述的随机森林模型的训练方法,其中,所述截止条件包括不存在剩余的候选特征、与当前节点对应的训练集中样本的数量小于第二预设阈值,以及与当前节点对应的训练集的基尼系数小于第三预设阈值的至少一个。
11.根据权利要求7所述的随机森林模型的训练方法,其中,所述根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树,包括:
针对每个决策树,从训练集中抽取多个样本,作为该决策树的训练集;
根据决策树的训练集中样本的与该决策树对应的候选特征的值、和表示是否发放用户所请求的资源的标签,训练决策树。
12.根据权利要求7所述的随机森林模型的训练方法,其中,所述确定用户对资源的使用请求的多个特征,包括:
在用户对资源的使用请求的样本缺失特征的值的情况下,计算该样本和其他样本在决策树中经过节点的路径的相似度;
根据样本和其他样本在决策树中经过节点的路径的相似度,确定该样本缺失的特征的值。
13.一种资源审批装置,包括:
获取模块,被配置为获取用户对资源的使用请求;
第一确定模块,被配置为确定用户对资源的使用请求的多个特征;
选择模块,被配置为针对随机森林模型中的每个决策树,从多个特征中,选择与该决策树对应的特征;
预测模块,被配置为根据与每个决策树对应的特征的值,预测审批结果,其中,审批结果表示是否发放用户所请求的资源;
第二确定模块,被配置为综合每个决策树的审批结果,确定是否发放用户所请求的资源。
14.一种随机森林模型的训练装置,包括:
获取模块,被配置为获取训练集,其中,训练集包括用户对资源的使用请求的样本,样本还包括表示是否发放用户所请求的资源的标签;
确定模块,被配置为确定用户对资源的使用请求的多个特征;
抽取模块,被配置为针对随机森林模型中的每个决策树,从多个特征中抽取部分特征,作为该决策树的候选特征;
训练模块,被配置为根据每个决策树的候选特征的值,以及样本的标签,训练每个决策树。
15.一种电子设备,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据权利要求1至6任一项所述的资源审批方法,或根据权利要求7至12任一项所述的随机森林模型的训练方法。
16.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据权利要求1至6任一项所述的资源审批方法,或根据权利要求7至12任一项所述的随机森林模型的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905742.3A CN115147092A (zh) | 2022-07-29 | 2022-07-29 | 资源审批方法、随机森林模型的训练方法及装置 |
PCT/CN2023/074133 WO2024021555A1 (zh) | 2022-07-29 | 2023-02-01 | 资源审批方法、随机森林模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905742.3A CN115147092A (zh) | 2022-07-29 | 2022-07-29 | 资源审批方法、随机森林模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115147092A true CN115147092A (zh) | 2022-10-04 |
Family
ID=83413509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210905742.3A Pending CN115147092A (zh) | 2022-07-29 | 2022-07-29 | 资源审批方法、随机森林模型的训练方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115147092A (zh) |
WO (1) | WO2024021555A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115616204A (zh) * | 2022-12-21 | 2023-01-17 | 金发科技股份有限公司 | 一种聚对苯二甲酸乙二醇酯再生料的鉴别方法及系统 |
CN116739719A (zh) * | 2023-08-14 | 2023-09-12 | 南京大数据集团有限公司 | 一种交易平台的流程配置系统 |
WO2024021555A1 (zh) * | 2022-07-29 | 2024-02-01 | 京东科技信息技术有限公司 | 资源审批方法、随机森林模型的训练方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264342A (zh) * | 2019-06-19 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种基于机器学习的业务审核方法及装置 |
US20230274349A1 (en) * | 2019-10-18 | 2023-08-31 | Solstice Initiative, Inc. | Systems and methods for shared utility accessibility |
CN111709828A (zh) * | 2020-06-12 | 2020-09-25 | 中国建设银行股份有限公司 | 一种资源处理方法、装置、设备及系统 |
CN113505936A (zh) * | 2021-07-26 | 2021-10-15 | 平安信托有限责任公司 | 项目审批结果的预测方法、装置、设备及存储介质 |
CN115147092A (zh) * | 2022-07-29 | 2022-10-04 | 京东科技信息技术有限公司 | 资源审批方法、随机森林模型的训练方法及装置 |
-
2022
- 2022-07-29 CN CN202210905742.3A patent/CN115147092A/zh active Pending
-
2023
- 2023-02-01 WO PCT/CN2023/074133 patent/WO2024021555A1/zh unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024021555A1 (zh) * | 2022-07-29 | 2024-02-01 | 京东科技信息技术有限公司 | 资源审批方法、随机森林模型的训练方法及装置 |
CN115616204A (zh) * | 2022-12-21 | 2023-01-17 | 金发科技股份有限公司 | 一种聚对苯二甲酸乙二醇酯再生料的鉴别方法及系统 |
CN116739719A (zh) * | 2023-08-14 | 2023-09-12 | 南京大数据集团有限公司 | 一种交易平台的流程配置系统 |
CN116739719B (zh) * | 2023-08-14 | 2023-11-03 | 南京大数据集团有限公司 | 一种交易平台的流程配置系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024021555A1 (zh) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115147092A (zh) | 资源审批方法、随机森林模型的训练方法及装置 | |
JP6771751B2 (ja) | リスク評価方法およびシステム | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
CN110956272B (zh) | 实现数据处理的方法和系统 | |
Miller | Using dependency structures for prioritization of functional test suites | |
CN111897804A (zh) | 计算机实现的方法、计算系统和计算机可读介质 | |
US10706077B2 (en) | Performance of distributed databases and database-dependent software applications | |
CN112711578B (zh) | 用于云计算业务的大数据去噪方法及云计算金融服务器 | |
US20210374582A1 (en) | Enhanced Techniques For Bias Analysis | |
CN112416369B (zh) | 一种面向异构混合环境的智能化部署方法 | |
US20190220924A1 (en) | Method and device for determining key variable in model | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN108197795B (zh) | 恶意团体账户识别方法、装置、终端及存储介质 | |
WO2017039684A1 (en) | Classifier | |
CN107480426B (zh) | 自迭代病历档案聚类分析系统 | |
CN114783021A (zh) | 一种口罩佩戴智能检测方法、装置、设备及介质 | |
CN112711580B (zh) | 用于云计算业务的大数据挖掘方法及云计算金融服务器 | |
Romero et al. | Bolt: Fast inference for random forests | |
CN116185797A (zh) | 预测服务器资源饱和度的方法、装置及存储介质 | |
CN113434273B (zh) | 数据处理方法、装置、系统及存储介质 | |
Song et al. | Improved reachability analysis in DTMC via divide and conquer | |
CN110059880B (zh) | 一种服务发现方法及装置 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
Ye | An Evaluation on Using Coarse-grained Events in an Event Sourcing Context and its Effects Compared to Fine-grained Events | |
Liu et al. | Prediction of business process outcome based on historical log |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |