CN115545533A - 数据处理方法、装置、设备、介质及产品 - Google Patents
数据处理方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN115545533A CN115545533A CN202211315280.6A CN202211315280A CN115545533A CN 115545533 A CN115545533 A CN 115545533A CN 202211315280 A CN202211315280 A CN 202211315280A CN 115545533 A CN115545533 A CN 115545533A
- Authority
- CN
- China
- Prior art keywords
- risk
- enterprise
- preset
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种数据处理方法、装置、设备、介质及产品,包括:获取食品企业的N个风险数据,N个风险数据包括企业基本信息和行政检查信息;将N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i‑1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率,目标风险概率用于评估食品企业的风险。本申请实施例,可以准确评估食品企业的风险。
Description
技术领域
本申请属于数据处理领域,尤其涉及一种数据处理方法、装置、设备、介质及产品。
背景技术
现有技术中,由于传统的企业风险预警模型是利用专家经验规则进行建模得到的,即:人为地对企业的部分指标数据赋予权重,进而通过加权求和计算出用于评估企业风险的评分。但由于该方法主观因素比较大,可能导致评估企业风险的准确度较低。
发明内容
本申请实施例提供一种数据处理方法及其装置、设备、介质及产品,可以准确地评估企业风险。
第一方面,本申请实施例提供一种数据处理方法,该方法包括:
获取食品企业的N个风险数据,所述N个风险数据包括企业基本信息和行政检查信息;
将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,得到目标风险概率,所述目标风险概率用于评估所述食品企业的风险,1<i≤N。
在第一方面的一种可选的实施方式中,方法还包括:
基于预设的风险概率与企业风险等级的映射关系,确定与目标风险概率对应的企业风险等级,企业风险等级用于评估食品企业的风险。
在第一方面的一种可选的实施方式中,所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率,包括:
基于预设编码方式对所述N个风险数据进行编码,以得到风险向量,所述风险向量包括与所述N个风险数据对应的N个特征数据,所述预设编码方式包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式至少一种;
将所述风险向量所包括的N个特征数据输入企业风险模型中,基于所述企业风险模型所包括第i个决策树对第i个特征数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率。
在第一方面的一种可选的实施方式中,在所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,风险数据并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个训练样本及其每一训练样本对应的标签概率,所述训练样本包括N个风险数据样本;
利用所述训练样本集中的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型。
在第一方面的一种可选的实施方式中,所述利用所述训练样本集中的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型,包括:
针对多个训练样本中的任一训练样本,将所述训练样本中的N个风险数据样本输入预设企业风险模型,基于所述预设企业风险模型中第i个决策树对第i个风险数据样本以及第i-1个决策树的参考输出结果进行计算,以得到N个参考输出结果,并基于所述N个参考输出结果以及预设企业风险模型的N个决策树所对应的参考权重进行加权求和计算,以得到目标参考计算结果,并通过将所述目标参考计算结果映射在预设范围内,得到参考风险概率,所述参考风险概率用于评估所述食品企业的风险,1<i≤N;
根据参考训练样本的参考概率与目标训练样本的标签概率,确定预设企业风险模型的损失函数值,所述目标训练样本是多个训练样本中的任一个;
基于所述预设企业风险模型的损失函数值,利用训练样本训练预设企业风险模型,得到训练后的企业风险模型。
第二方面,本申请实施例提供了一种数据处理装置,该装置包括:
获取模块,用于获取食品企业的N个风险数据,所述N个风险数据包括企业基本信息和行政检查信息;
处理模块,用于将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率,所述目标风险概率用于评估所述食品企业的风险。
在第二方面的一种可选的实施方式中,确定模块,用于基于预设的风险概率与企业风险等级的映射关系,确定与所述目标风险概率对应的企业风险等级,所述企业风险等级用于评估所述食品企业的风险。
第二方面的一种可选的实施方式中,所述处理模块具体用于:
基于预设编码方式对所述N个风险数据进行编码,以得到风险向量,所述风险向量包括与所述N个风险数据对应的N个特征数据,所述预设编码方式包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式至少一种;
将所述风险向量所包括的N个特征数据输入企业风险模型中,基于所述企业风险模型所包括第i个决策树对第i个特征数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率。
第三方面,提供一种电子设备,包括:存储器,用于存储计算机程序指令;处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面中任一可选的实施方式提供的数据处理方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面中的任一可选的实施方式提供的数据处理方法。
第五方面,提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现第一方面中的任一可选的实施方式提供的数据处理方法。
在本申请实施例中,可以通过获取食品企业的N个风险数据,并且将该N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于该N个输出结果以及企业风险模型中N个决策树各自对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将目标计算结果映射在预设范围内,以得到目标风险概率。由于N个风险数据包括企业基本信息和行政检查信息,所以可以基于目标风险概率准确地评估食品企业的风险。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法中企业风险模型的训练流程示意图;
图2是本申请实施例提供的另一种数据处理方法中企业风险模型的训练流程示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种数据处理装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。另外,需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
为了解决现有技术中存在的评估企业风险的准确度较低的问题,本申请实施例提供一种数据处理方法、装置、设备及介质,可以通过获取食品企业的N个风险数据,并且将该N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于该N个输出结果以及企业风险模型中N个决策树各自对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将目标计算结果映射在预设范围内,以得到目标风险概率。由于N个风险数据包括企业基本信息和行政检查信息,所以可以基于目标风险概率准确地评估食品企业的风险。
本申请实施例提供的数据处理方法,执行主体可以是数据处理装置,或是数据处理装置中用于执行数据处理方法的控制模块。本申请实施例中以数据处理装置执行数据处理方法为例,说明本申请实施例提供的数据方法为例。
另外,需要说明的是,本申请实施例提供的数据处理方法,需要利用经过预先训练的企业风险模型对风险数据进行处理,因此,在利用企业风险模型对风险数据进行处理之前,需要先训练好企业风险模型。因此,下面结合附图,通过具体的实施例对本申请实施例提供的数据处理方法进行详细描述。
一、获取训练样本集
训练样本集可以包括多个训练样本及其每一训练样本对应的标签概率。
为了得到更加准确的训练样本集,进而可以更好地训练企业风险模型,在一个具体的实施例中,如图1所示,获取训练样本集具体可以包括如下步骤:
S110,获取多个训练样本。
数据处理装置可以在将所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,风险数据并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率之前,获取多个训练样本,以便于基于获取的多个训练样本对预设企业风险模型进行训练,进而可以得到更加准确的预设企业风险模型。其中,该训练样本中可以包括N个风险数据样本,N为大于或等于2的正整数,1<i≤N。
S120,标注与多个训练样本一一对应的标签概率。
具体地,数据处理装置可以直接标注每一训练样本对应的标签概率,或是可以通过人工标注的方式标注每一训练样本对应的标签概率。具体的标注方式在此不作具体限定。
需要说明的是,在进行标注的过程中,可以将多个训练样本分成测试样本和训练样本,例如,可以将75%的标注后的训练样本作为训练样本,25%的标注后的训练样本作为测试样本,具体的训练样本和测试样本的分布比例此处不作具体限定。
还需要说明的是,由于预设的企业风险模型需要多次迭代处理,以调整其损失函数值,直至损失函数值满足训练停止条件,得到训练后的企业风险模型,但是在每次迭代训练中,若只输入一个训练样本,样本量太少不利于企业风险模型的训练调整。因此,需要将训练样本集分为多个训练样本,如此,可以利用训练样本集中的训练样本对企业风险模型进行迭代处理。
由此,可以通过对获取的训练样本进行标注,以得到与训练样本一一对应的标签概率,进而可以得到包含多个训练样本的训练样本集。如此,方便了后续模型的训练。
二、利用训练样本集的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型。
如图2所示,针对多个训练样本中任一训练样本,本步骤具体可以包括如下步骤:
S210,将所述训练样本中的N个风险数据样本输入预设企业风险模型,基于所述预设企业风险模型中第i个决策树对第i个风险数据样本以及第i-1个决策树的参考输出结果进行计算,以得到N个参考输出结果,并基于所述N个参考输出结果以及企业风险模型的N个决策树所对应的参考权重进行加权求和计算,以得到目标参考计算结果,并通过将所述目标参考计算结果映射在预设范围内,得到参考风险概率。
具体地,数据处理装置可以针对多个训练样本中每一个训练样本,将训练样本中的N个风险数据样本输入预设风险模型中,并基于预设企业风险模型中的第i个决策树对第i个风险数据样本以及第i-1个决策数参考输出结果进行计算,以得到N个参考输出结果,并基于N个参考输出结果以及预设企业风险模型中的N个决策树所对应的参考权重进行加权求和,以得到目标参考计算结果,并通过将目标计算结果映射在预设参考范围内,以得到参考风险概率。示例性的,可以基于sigmoid函数将目标计算结果映射在预设参考范围内。其中,预设参考范围可以实际经验预先设置的范围,例如,预设参考范围可以是0至1之间的范围。所述参考风险概率可以用于评估所述食品企业的风险。
在一些实施例中,企业风险模型可以是梯度提升决策树(Gradient BoostingDecision Tree,GDBT)算法构建得到的。基于此,需要说明的是,GBDT算法通过构造一系列CART决策树,最后把所有CART决策树的输出结果以及与所有CART决策树的预设权重进行加权求和,得到最终的计算结果。GBDT算法中的CART决策树采用平方误差作为损失函数,依次遍历每个特征j,以及该特征的每个取值s,计算每个特征作为划分点(j,s)的损失函数,选择损失函数最小特征作为划分点。使用该特征作为划分点将当前的风险数据样本划分为两个部分。被划分后的两个部分再次计算划分点,依次类推,直到不能继续划分,如此,得到使用若干个风险数据样本划分而成的CART决策树。
GBDT算法首先会训练一个初始CART决策树,初始时所有风险数据样本的权重相同,学习完成后根据决策树的表现,增大错误样本的权重,减小正确样本的权重,基于调整后的样本分布训练下一个决策树。每一棵CART决策树学习之前所有决策树累加起来的残差,拟合当前的残差决策树,依次重复学习下去,最终得N个学习器,加权合并,所有树共同决策。我们把整个模型记为f(x),如下公式(1)所示:
其中,N为大于1的正整数,θi为第i个决策树的权重,fi(x)为第i个决策树。
S220,基于根据目标训练样本的参考概率与目标训练样本的标签概率,确定预设企业风险模型的损失函数值。
其中,目标训练样本可以是多个训练样本中的任一个。
具体地,数据处理装置可以基于多个训练样本中的任意一个训练样本的参考标签,并根据参考标签与该训练样本对应的标签概率,进一步地准确确定预设企业风险模型的损失函数值,便于后续基于该损失函数值对预设企业风险模型进行迭代训练,进而得到更加准确的企业风险模型。
S230,基于企业风险模型的损失函数值,利用训练样本训练预设企业风险模型,得到训练后的企业风险模型。
具体地,为了得到更优的企业风险模型,在损失函数值不满足训练停止条件的情况下,调整预设企业风险模的模型参数,并利用训练样本训练参数调整后的企业风险模型,直至损失函数值满足预设停止条件,得到训练后的企业风险模型。
需要说明的是,为了避免训练样本出现样本不均衡的问题,本申请实施例可以基于采样方法多数类别的样本数量,以实现训练样本的均衡。另外,在对企业风险模型进行训练的过程中,可以针对一些关键参数,使用网格搜索优化、贝叶斯优化对模型参数进行优化,得到参数的最优解,以得到更加准确的企业风险模型。
在该实施例中,数据处理装置可以通过将训练样本集中的训练样本输入预设企业风险模型中,经过预设企业风险模型处理之后得到参考概率,进而可以根据多个训练样本中任意一个训练样本的参考概率,及其该训练样本对应的标签概率,确定预设企业风险模型的损失函数值,继而可以基于该损失函数值,利用训练样本训练预设企业风险模型,直至损失函数值满足训练停止条件,以保证可以得到更加准确的企业风险模型。
基于上述实施例中经训练得到的企业风险模型,本申请实施例提供了一种数据处理方法的具体实施方式,具体结合图3进行详细说明。
如图3所示,该数据处理方法的执行主体可以是数据处理装置,该方法具体可以包括以下步骤:
S310,获取食品企业的N个风险数据。
具体地,在对食品企业进行风险评估的情况下,数据处理装置可以获取食品企业的N个风险数据。其中。N个风险数据可以包括企业基本信息和行政检查信息。企业基本信息可以是关于食品企业的相关信息。行政检查信息可以是食品企业在预设时间段内的关于行政检查的相关信息。预设时间段可以是基于实际经验或情况预先设置的时间段,例如,一个星期、一个月,再次不做具体限定。
S320,将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,得到目标风险概率。
具体地,数据处理装置可以在获取食品企业的N个风险数据之后,将该N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于该N个输出结果以及企业风险模型中N个决策树各自对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将目标计算结果映射在预设范围内,以得到目标风险概率。在一个示例中,可以是基于sigmoid函数将拟合结果映射在0-1的预设范围之间。
其中,企业风险模型可以是GDBT算法构建得到的。目标风险概率可以用于评估食品企业的风险。预设范围可以是基于实际经验或情况预先设置的范围,例如预设范围可以是0至1之间的范围。1<i≤N。
还需要说明的是,第i-1决策树的输出结果可以是第i-1决策树对第i-1风险数据以及第i-2决策树的输出结果进行计算的结果,以此类推,此处不作过多赘述。预设权重可以是在训练预设企业风险模型的时候,通过训练样本对模型进行训练的过程中不断迭代的N个决策树各自对应的权重。
在本申请实施例中,在本申请实施例中,可以通过获取食品企业的N个风险数据,并且将该N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于该N个输出结果以及企业风险模型中N个决策树各自对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将目标计算结果映射在预设范围内,以得到目标风险概率。由于N个风险数据包括企业基本信息和行政检查信息,所以可以基于目标风险概率准确地评估食品企业的风险。
为了可以更加准确获取食品企业的风险等级,在一个实施例中,在得到目标风险概率之后,上述涉及到的数据处理方法还可以包括如下步骤:
基于预设的风险概率与企业风险等级的映射关系,确定与目标风险概率对应的企业风险等级。
其中,预设的风险概率与企业风险等级的映射关系可以是基于实际经验或情况预先设置的映射关系。企业风险等级可以用于评估食品企业的风险。
具体地,数据处理装置在得到目标风险概率之后,可以基于预设的风险概率与企业风险等级的映射关系,确定与目标风险概率对应的企业风险等级。此处也可以理解为,在得到目标风险概率之后,可以确定目标风险概率的分布,基于此,进一步确定食品企业的企业风险等级。
在该实施例中,数据处理装置可以在得到目标风险概率之后,基于预设的风险概率与企业风险等级之间的映射关系,确定与目标风险概率对应的企业风险等级。如此,可以基于确定的食品企业的目标风险概率,准确确定该食品企业的企业风险等级。
由于获取的风险数据的大多数值为中文,所以需要对获取的N个风险数据进行转换,以得到计算机能够处理的数据格式,基于此,在一个实施例中,上述涉及到的S320具体可以包括如下步骤:
基于预设编码方式对所述N个风险数据进行编码,以得到风险向量,所述风险向量包括与所述N个风险数据对应的N个特征数据,所述预设编码方式包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式至少一种;
将所述风险向量所包括的N个特征数据输入企业风险模型中,基于所述企业风险模型所包括第i个决策树对第i个特征数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率。
具体地,数据处理装置在获取N个风险数据之后,可以先基于预设编码方式对N个风险数据进行编码,以得到风险向量。由于风险向量中可以包括与N个风险数据对应的N个特征数据,进而可以通过将N个特征数据输入到企业风险模型中,基于企业风险模型中的第i个决策树对第i个特征数据,以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,以基于N个输出结果以及企业风险模型中的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果映射在预设范围内,以得到目标风险概率。
其中,预设编码方式可以包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式中至少一种。基于此,需要说明的是,Label Encoder标签编码可以将风险数据按照特征类别数映射为0、1、2…等数字编码。Dummy Encoder编码方式可以将风险数据中特征数量为n的特征映射为分别映射n个特征,这些新增的n个特征是对应的二进制编码。基于此,可以将风险数据所包括的各个维度数据使用Dummy Encoder进行编码转换。另外,还可以对风险数据所包括的部分连续特征变量,设置相应的阈值,将连续型变量转化为分段特征变量,再进行编码处理。比如将企业注册资本进行分箱得到新的特征。
在该实施例中,数据处理装置可以基于预设编码方式对获取的N个风险数据进行编码,得到风险向量,即得到计算机可以处理的数据格式,进而可以将风险向量输入至企业风险模型进行处理,以得到准确的目标风险概率。
另外,需要说明的是,在获取N个风险数据之后,可以对N个风险数据进行预处理,例如,对于存在缺失值的数值型的风险数据,使用均值或自定义的值的方式去填补。对于存在缺失值的类别型的风险数据,使用出现频率最高的类别去填补。对于缺失值比例高达预设阈值及以上的风险数据予以删除。某些风险数据存在一些异常值,予以删除。其中,预设阈值可以是基于实际经验预先设置的阈值,例如,可以是85%。
还需要说明的是,上述涉及到的企业基本信息可以包括企业类型、企业所处行业类别、企业机构类别、企业经营期限、企业业务范围类型、企业经营范围类型、企业注册资本。
企业类型可以包括有限责任公司(自然人独资)、有限责任公司(自然人投资或控股)、农民专业合作社、个人独资企业、有限责任公司分公司等类型。不同资质和类型的企业会有不同的特征。
企业所处行业类别:即国民经济行业分类,A农、林、牧、渔业;B采矿业;C制造业;D电力、热力、燃气及水生产和供应业;E建筑业等。
企业的机构类别:“统一社会信用代码”第2位为机构代码,截取统一社会信用代码第二位即可。
企业经营期限:以“经营结束日期”和“经营起始日期”简单计算得到“经营期限”。
企业业务范围类型:即企业是否为农民专业合作社、农民专业合作社分支机构。
企业经营范围类型:即企业内资公司法人、内资分公司、内资非公司企业法人、内资非公司企业法人分支机构、内资合伙企业等。
企业注册资本:企业的注册资本数。
特定食品信息:可以是食品企业所经营出售的食品种类。
上述涉及到的行政检查信息可以包括第一预设时间段内的行政检查数量、第二预设时间段内的企业经营地址变更次数、第三预设时间段内的企业违规信息、第四预设时间段内的企业证件类型表更次数。其中,第一预设时间段、第二预设时间段、第三预设时间段和第四预设时间段可以是基于实际经验预先设置的时间段,例如,可以是一个月、三个月、六个月等等,在此不作具体限定。并且,需要知道的是,第一预设时间段、第二预设时间段、第三预设时间段和第四预设时间段可以相同,也可以不同,在此不作具体限定。
第一预设时间段内的行政检查数量可以是第一预设时间段内食品企业所涉及到的行政检查数量。第二预设时间段内的企业经营地址变更次数可以是第二预设时间段内食品企业所涉及到的经营地址变更次数。第三预设时间段内的企业违规信息可以是第三预设时间段内食品企业所涉及到的违规次数,以及每次违规所对应的违规等级。第四预设时间段内的企业证件类型表更次数可以是第四预设时间段内食品企业所涉及到的证件类型表更次数。
基于相同的发明构思,本申请实施例还提供了一种数据处理装置。具体结合图4对本申请实施例提供的数据处理装置进行详细说明。
图4是本申请实施例提供的一种数据处理装置的结构示意图。
如图4所示,该数据处理装置400可以包括:获取模块410和输入模块420。
获取模块410,用于获取食品企业的N个风险数据,所述N个风险数据包括企业基本信息和行政检查信息;
处理模块420,用于将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,得到目标风险概率,所述目标风险概率用于评估所述食品企业的风险,1<i≤N。
在一个实施例中,上述涉及到的数据处理装置还可以包括确定模块。
确定模块,用于基于预设的风险概率与企业风险等级的映射关系,确定与所述目标风险概率对应的企业风险等级,所述企业风险等级用于评估所述食品企业的风险。
在一个实施例中,上述涉及到的处理模块具体用于:
基于预设编码方式对所述N个风险数据进行编码,以得到风险向量,所述风险向量包括与所述N个风险数据对应的N个特征数据,所述预设编码方式包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式至少一种;
将所述风险向量所包括的N个特征数据输入企业风险模型中,基于所述企业风险模型所包括第i个决策树对第i个特征数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率。
在一个实施例中,上述涉及的数据处理装置还可以包括训练模块,训练模块用于:
在所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率之前,获取训练样本集,所述训练样本集中包括多个训练样本及其每一训练样本对应的标签概率,所述训练样本包括N个风险数据样本;
利用所述训练样本集中的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型。
在一个实施例中,上述涉及到训练模块具体用于:
针对多个训练样本中的任一训练样本,将所述训练样本中的N个风险数据样本输入预设企业风险模型,基于所述预设企业风险模型中第i个决策树对第i个风险数据样本以及第i-1个决策树的参考输出结果进行计算,以得到N个参考输出结果,并基于所述N个参考输出结果以及预设企业风险模型的N个决策树所对应的参考权重进行加权求和计算,以得到目标参考计算结果,并通过将所述目标参考计算结果映射在预设范围内,得到参考风险概率,所述参考风险概率用于评估所述食品企业的风险,1<i≤N;
根据目标训练样本的参考概率与目标训练样本的标签概率,确定预设企业风险模型的损失函数值,所述目标训练样本是多个训练样本中的任一个;
基于所述预设企业风险模型的损失函数值,利用训练样本训练预设企业风险模型,得到训练后的企业风险模型。
在本申请实施例中,可以通过获取食品企业的N个风险数据,并且将该N个风险数据输入企业风险模型中,基于企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于该N个输出结果以及企业风险模型中N个决策树各自对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将目标计算结果映射在预设范围内,以得到目标风险概率。由于N个风险数据包括企业基本信息和行政检查信息,所以可以基于目标风险概率准确地评估食品企业的风险。
本申请实施例提供的数据处理装置中的各个模块可以实现图1至图3中任一所示实施例的方法步骤,并能达到与其相应的技术效果,为简洁描述,在此不再赘述。
图5示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,电子设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本申请实施例提供的数据处理方法。
本申请实施例还提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如本申请实施例提供的数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取食品企业的N个风险数据,所述N个风险数据包括企业基本信息和行政检查信息;
将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,得到目标风险概率,所述目标风险概率用于评估所述食品企业的风险,1<i≤N。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设的风险概率与企业风险等级的映射关系,确定与所述目标风险概率对应的企业风险等级,所述企业风险等级用于评估所述食品企业的风险。
3.根据权利要求1所述的方法,其特征在于,所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率,包括:
基于预设编码方式对所述N个风险数据进行编码,以得到风险向量,所述风险向量包括与所述N个风险数据对应的N个特征数据,所述预设编码方式包括标号Label Encoder编码方式和虚拟Dummy Encoder编码方式至少一种;
将所述风险向量所包括的N个特征数据输入企业风险模型中,基于所述企业风险模型所包括第i个决策树对第i个特征数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率。
4.根据权利要求1所述的方法,其特征在于,在所述将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个训练样本及其每一训练样本对应的标签概率,所述训练样本包括N个风险数据样本;
利用所述训练样本集中的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练样本集中的训练样本及其每一训练样本对应的标签概率训练预设企业风险模型,得到训练后的企业风险模型,包括:
针对多个训练样本中的任一训练样本,将所述训练样本中的N个风险数据样本输入预设企业风险模型,基于所述预设企业风险模型中第i个决策树对第i个风险数据样本以及第i-1个决策树的参考输出结果进行计算,以得到N个参考输出结果,并基于所述N个参考输出结果以及预设企业风险模型的N个决策树所对应的参考权重进行加权求和计算,以得到目标参考计算结果,并通过将所述目标参考计算结果映射在预设范围内,得到参考风险概率,所述参考风险概率用于评估所述食品企业的风险,1<i≤N;
根据目标训练样本的参考概率与目标训练样本的标签概率,确定预设企业风险模型的损失函数值,所述目标训练样本是多个训练样本中的任一个;
基于所述预设企业风险模型的损失函数值,利用训练样本训练预设企业风险模型,得到训练后的企业风险模型。
6.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取食品企业的N个风险数据,所述N个风险数据包括企业基本信息和行政检查信息;
处理模块,用于将所述N个风险数据输入企业风险模型中,基于所述企业风险模型中第i个决策树对第i个风险数据以及第i-1个决策树的输出结果进行计算,以得到N个输出结果,并基于所述N个输出结果以及所述企业风险模型的N个决策树所对应的预设权重进行加权求和计算,以得到目标计算结果,并通过将所述目标计算结果映射在预设范围内,以得到目标风险概率,所述目标风险概率用于评估所述食品企业的风险。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括确定模块;
确定模块,用于基于预设的风险概率与企业风险等级的映射关系,确定与所述目标风险概率对应的企业风险等级,所述企业风险等级用于评估所述食品企业的风险。
8.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-4任意一项所述的数据处理方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储由计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的数据处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211315280.6A CN115545533A (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211315280.6A CN115545533A (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115545533A true CN115545533A (zh) | 2022-12-30 |
Family
ID=84718824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211315280.6A Pending CN115545533A (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545533A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610534A (zh) * | 2023-07-18 | 2023-08-18 | 贵州海誉科技股份有限公司 | 一种基于Kubernetes集群资源的改进预测性弹性伸缩方法 |
-
2022
- 2022-10-26 CN CN202211315280.6A patent/CN115545533A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610534A (zh) * | 2023-07-18 | 2023-08-18 | 贵州海誉科技股份有限公司 | 一种基于Kubernetes集群资源的改进预测性弹性伸缩方法 |
CN116610534B (zh) * | 2023-07-18 | 2023-10-03 | 贵州海誉科技股份有限公司 | 一种基于Kubernetes集群资源的改进预测性弹性伸缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147456B (zh) | 一种图像分类方法、装置、可读存储介质及终端设备 | |
CN108549954B (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN108280542B (zh) | 一种用户画像模型的优化方法、介质以及设备 | |
CN110969285B (zh) | 预测模型训练方法、预测方法、装置、设备及介质 | |
CN115982765A (zh) | 数据脱敏方法、装置、设备及计算机可读存储介质 | |
CN113536081B (zh) | 基于人工智能的数据中心数据管理方法及系统 | |
CN109684851A (zh) | 软件质量评估方法、装置、设备及计算机存储介质 | |
CN115545533A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN111191731A (zh) | 数据处理的方法、装置、存储介质及电子设备 | |
CN111538767A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN117574201A (zh) | 基于多工业模型的模型训练方法、装置、设备和存储介质 | |
CN114549136A (zh) | 供应链用户信用评价方法、装置、设备及计算机存储介质 | |
CN114399224A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN113627730A (zh) | 一种企业评估方法、装置、设备及计算机存储介质 | |
CN114417830A (zh) | 风险评价方法、装置、设备及计算机可读存储介质 | |
CN114493200A (zh) | 企业品牌价值的在线评估方法、装置、设备及存储介质 | |
CN112749998A (zh) | 收入信息输出方法、装置、电子设备及计算机存储介质 | |
CN109996274B (zh) | Lte小区参数的调整方法、装置、设备及介质 | |
CN113496288B (zh) | 用户稳定性确定方法、装置、设备及存储介质 | |
CN116910555A (zh) | 用户信用预测模型的训练、应用方法、装置、设备及介质 | |
CN115879959A (zh) | 渠道投诉风险确定方法、装置、设备、介质及产品 | |
CN114048802A (zh) | 分类方法、装置、设备及计算机存储介质 | |
CN117093845A (zh) | 模型训练方法、数据处理方法、装置、设备、介质和产品 | |
CN116957093A (zh) | 用户数据识别模型更新方法、用户数据识别方法及装置 | |
CN114385809A (zh) | 实体文本提取模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |