CN114580905A

CN114580905A - 模型训练方法和装置、决策人员识别方法、设备、介质

Info

Publication number: CN114580905A
Application number: CN202210208999.3A
Authority: CN
Inventors: 陶醉; 徐宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-03

Abstract

本发明实施例提供模型训练方法和装置、决策人员识别方法、设备、介质，涉及人工智能技术领域。该模型训练方法包括：获取原始训练数据集，对决策人员信息数据样本进行特征分析和数据选择得到加工因子数据样本，输入到决策人员识别模型中获取决策判断结果，根据决策误差值对决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。本实施例通过人工智能的方式对决策人员进行识别，对训练数据集中决策人员信息数据样本建立丰富的用户画像，以对模型进行训练，提高目标决策人员识别模型的识别效率和识别准确率。

Description

模型训练方法和装置、决策人员识别方法、设备、介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及模型训练方法和装置、决策人员识别方法、设备、介质。

背景技术

中小微企业发展过程中始终存在经营风险大、人员成本高等问题。尤其2020年以来，受到新冠疫情影响，中小微企业面对回款变慢、流动资金偏紧的不利局面。金融机构需要正确识别出中小微企业的决策人员，为其量身定制险种，以丰富普惠保险产品业务，有效扶持中小微企业健康发展，同时降低融资增信和保障服务的风险。相关技术中，金融机构多是通过业务人员对决策人员进行人工识别或者通过对决策人员递交的申请信息进行简单审核来判断该决策人员属于高概率中小微企业主还是普通客群，识别效率低，同时识别准确性不高。

发明内容

本发明实施例的主要目的在于提出一种模型训练方法和装置、决策人员识别方法、设备、介质，能够提高对决策人员的识别效率和识别准确性。

为实现上述目的，本发明实施例的第一方面提出了一种模型训练方法，包括：

获取原始训练数据集，所述原始训练数据集包括：决策人员信息数据样本及其对应的决策判断标签；

对所述决策人员信息数据样本进行特征分析，得到决策人员特征因子样本；

对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本；

将所述加工因子数据样本作为决策人员识别模型的输入，获取所述决策人员识别模型输出的决策判断结果；

根据所述决策判断结果和所述决策判断标签得到决策误差值；

根据所述决策误差值对所述决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。

在一些实施例，所述获取原始训练数据集之前，所述模型训练方法还包括：

获取原始数据，所述原始数据包括：个人基础数据、企业经营数据、车相关数据和地理轨迹数据；

对所述原始数据进行数据清洗得到原始标准数据，所述原始标准数据包括：个人基础标准数据、企业经营标准数据、车辆相关标准数据和地理轨迹标准数据；

建立所述车辆相关标准数据和所述地理轨迹标准数据之间的第一映射关系；

建立所述个人基础标准数据与所述第一映射关系之间的第二映射关系；

建立所述企业经营标准数据与所述第一映射关系之间的第三映射关系；

根据所述第二映射关系和所述第三映射关系生成所述原始训练数据集的所述决策人员信息数据样本。

在一些实施例，所述对所述决策人员信息数据样本进行特征分析，得到决策人员特征因子样本，包括：

获取企业特征信息，所述企业特征信息包括：行业特征信息、地点特征信息和车型特征信息；

根据所述企业特征信息对所述决策人员信息数据样本进行特征分析，得到决策人员特征因子样本。

在一些实施例，所述对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本，包括：

获取数据选择策略，所述数据选择策略包括以下至少之一：高基类数据选择策略、饱和度数据选择策略和相关性数据选择策略；

根据所述数据选择策略对所述决策人员特征因子样本进行数据选择，得到所述加工因子数据样本。

在一些实施例，当所述数据选择策略为高基类数据选择策略时，删除所述决策人员特征因子样本中高基类数据，得到所述加工因子数据样本；

当所述数据选择策略为饱和度数据选择策略时，删除所述决策人员特征因子样本中低饱和度数据，得到所述加工因子数据样本；

当所述数据选择策略为相关性数据选择策略时，删除所述决策人员特征因子样本中高相关性数据，得到所述加工因子数据样本。

在一些实施例，所述对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本之后，所述模型训练方法还包括：

将所述加工因子数据样本进行数值化操作，以使得所述加工因子数据样本能够作为所述决策人员识别模型的输入，所述数值化操作包括以下至少之一：时间戳数值化处理、离散变量数值化处理、降噪数值化处理、特征交叉选择数值化处理。

为实现上述目的，本发明实施例的另一方面提出了一种决策人员识别方法，包括：

获取决策人员信息数据；

将所述决策人员信息数据输入到目标决策人员识别模型中进行决策人员识别，得到决策人员识别结果，其中所述目标决策人员识别模型由上述任一项所述的决策人员识别模型的训练方法训练得到。

为实现上述目的，本发明实施例的另一方面提出了一种模型训练装置，用于训练决策人员识别模型，包括：

原始训练数据集获取模块，用于获取原始训练数据集，所述原始训练数据集包括：决策人员信息数据样本和对应的决策判断标签；

特征分析模块，用于对所述决策人员信息数据样本进行特征分析，得到决策人员特征因子样本；

数据选择模块，用于对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本；

输入模块，用于将所述加工因子数据样本作为决策人员识别模型的输入，获取所述决策人员识别模型输出的决策判断结果；

误差计算模块，用于根据所述决策判断结果和对应的决策判断标签得到决策误差值；

模型参数调整模块，用于根据所述决策误差值对所述决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。

为实现上述目的，本发明实施例的另一方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施例如上述所述的模型训练方法或决策人员识别方法。

为实现上述目的，本发明实施例的第五方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面或第二方面所述的模型训练方法或决策人员识别方法。

本发明实施例提出的模型训练方法和装置、决策人员识别方法、设备、介质，通过获取原始训练数据集，对决策人员信息数据样本进行特征分析，得到决策人员特征因子样本，对决策人员特征因子样本进行数据选择，得到加工因子数据样本，将加工因子数据样本作为决策人员识别模型的输入，获取决策人员识别模型输出的决策判断结果，根据决策判断结果和决策判断标签得到决策误差值，根据决策误差值对决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。本发明实施例对决策人员识别模型进行训练得到目标决策人员识别模型，通过人工智能的方式对决策人员进行识别，由于对训练数据集中决策人员信息数据样本通过特征分析和数据选择生成加工因子数据样本，能够建立丰富的用户画像，通过对模型进行训练，提高目标决策人员识别模型的识别效率和识别准确率。本发明实施例能够解决相关技术中识别方式带来的识别误差大或者识别效率低的问题。

附图说明

图1是本发明实施例提供的模型训练方法的流程图。

图2是本发明又一实施例提供的模型训练方法的流程图。

图3是本发明又一实施例提供的模型训练方法的流程图。

图4是本发明又一实施例提供的模型训练方法的流程图。

图5是本发明实施例提供的模型训练方法的训练过程示意图。

图6是本发明实施例提供的模型训练装置的结构框图。

图7是本发明实施例提供的决策人员识别方法的流程图。

图8是本发明实施例提供的决策人员识别装置的结构框图。

图9是本发明实施例提供的电子设备的硬件结构。

具体实施方式

为了使本发明实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明实施例，并不用于限定本发明实施例。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明实施例。

首先，对本发明实施例中涉及的若干名词进行解析：

基于位置的服务(Location Based Services，LBS)：是利用各类型的定位技术来获取定位设备当前的所在位置，通过移动互联网向定位设备提供信息资源和基础服务。首先用户可利用定位技术确定自身的空间位置，随后用户便可通过移动互联网来获取与位置相关资源和信息。LBS服务中融合了移动通讯、互联网络、空间定位、位置信息、大数据等多种信息技术，利用移动互联网络服务平台进行数据更新和交互，根据用户的位置信息和查询信息以及通过网络为用户提供与位置相关的各种服务。

LightGBM模型框架：是一个实现GBDT(Gradient Boosting Decision Tree)算法的框架，GBDT是机器学习中一个经典模型，其主要思想是利用弱分类器(例如决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务。LightGBM模型框架用于实现GBDT，能够解决在大样本高纬度数据的环境下耗时的问题，LightGBM使用如下两种解决办法：一是GOSS(Gradient-based One-Side Sampling,基于梯度的单边采样)，即不是使用所用的样本点来计算梯度，而是对样本进行采样来计算梯度；二是EFB(Exclusive FeatureBundling，互斥特征捆绑)，即不是使用所有的特征来进行扫描获得最佳的切分点，而是将某些特征进行捆绑在一起来降低特征的维度，是寻找最佳切分点的消耗减少。LightGBM模型框架支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

中小微企业在国民经济中发挥着重要作用，是国家经济发展的重要力量。但长期以来，中小微企业发展过程中始终存在经营风险大、人员成本高等问题。尤其2020年以来，受到疫情影响，中小微企业面对回款变慢、流动资金偏紧的不利局面。因此金融机构为中小微企业提供融资增信和保障服务的风险增加，需要正确识别出中小微企业的决策人员，为其量身定制险种，以丰富普惠保险产品业务，有效扶持中小微企业健康发展，同时降低融资增信和保障服务的风险。相关技术中，金融机构多是通过业务人员对决策人员进行人工识别，或者通过对决策人员递交的申请信息进行简单审核，来判断该决策人员属于高概率中小微企业主还是普通客群，识别效率低，同时识别准确性不高。

基于此，本发明实施例提供一种模型训练方法和装置、决策人员识别方法、设备、介质，能够提高对决策人员的识别效率和识别准确性。

本发明实施例提供模型训练方法和装置、决策人员识别方法、设备、介质，具体通过如下实施例进行说明，首先描述本发明实施例中的模型训练方法。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的模型训练方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的模型训练方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现模型训练方法的应用等，但并不局限于以上形式。

本发明实施例可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本发明实施例提供的模型训练方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101，获取原始训练数据集。

在一实施例中，原始训练数据集包括：决策人员信息数据样本及其决策判断标签，其中，决策判断标签包括：高概率中小微企业主和普通客群，如果是高概率中小微企业主，则金融机构会根据其身份为其量身定制险种，以丰富普惠保险产品业务，同时对其进行有效扶持，包括融资增信和保障服务。

在一实施例中，步骤S101获取原始训练数据集之前还包括获取原始数据，从原始数据中进行数据处理得到原始训练数据集，参照图2，利用原始数据得到原始训练数据集的过程包括但不限于步骤S1001至步骤S1006。

步骤S1001，获取原始数据。

在一实施例中，原始数据可以是：个人基础数据、企业经营数据、车相关数据和地理轨迹数据。其中，个人基础数据可以是：性别、年龄、身份证号、手机号或者金融机构贷款目的等；企业经营数据可以是：所在行业、企业名号、企业法人身份证号等与企业经营信息相关的数据，能用来获取企业的基本情况；车相关数据可以是：车型、车价、车龄或品牌等数据；地理轨迹数据可以是：车辆的LBS轨迹数据(通过LBS轨迹数据能够获取用户什么时间出现在哪一类型的地点等信息)等。

步骤S1002，对原始数据进行数据清洗得到原始标准数据。

在一实施例中，使用的原始数据主要为业务数据，其中包含部分业务员手工输入的数据，由于手工输入，因此难以避免出现偷懒乱输入或者粗心错输入的情况，因此在使用该原始数据进行后续分析之前，需要对原始数据进行数据清洗得到原始标准数据。数据清洗的目的是提高数据的可用性，将加载的原始数据进行数据清洗，去除其中包含的空白数据、异常数据或者错误数据。对应于上述原始数据的类型，原始标准数据对应包括：个人基础标准数据、企业经营标准数据、车辆相关标准数据和地理轨迹标准数据。

在一实施例中，数据清洗主要通过统计分析的方法识别可能的错误值或异常值，例如通过偏差分析识别不遵守分布或回归方程的值，也可以用简单业务规则来检查原始数据得到原始标准数据，该实施例中可以采用检查数据一致性、或采用处理无效值和缺失值等方式进行数据清洗，具体地：

1)检查数据一致性：例如对车相关数据来说，判断车价单位是否一致或车价或车龄数据是否处于合理范围，对过高值、过低值乃至负值均进行排除。

2)处理无效值和缺失值：例如对个人基础数据来说，若原始数据中缺失用户年龄或者其他数据，则将该数据用平均值代替。

可以理解的是，上述两种数据清洗的方法仅作示例，并不代表对本发明实施例中数据清洗的方法进行限制。

步骤S1003，建立车辆相关标准数据和地理轨迹标准数据之间的第一映射关系。

在一实施例中，将不同车辆对应的车辆相关标准数据和地理轨迹标准数据进行关联，建立第一映射关系，使得能够按照第一映射关系根据该车辆的车辆相关标准数据得到其地理轨迹标准数据，便于后续进行相关处理。

步骤S1004，建立个人基础标准数据与第一映射关系之间的第二映射关系。

在一实施例中，将车辆对应的个人基础标准数据与该车辆对应的车辆相关标准数据和地理轨迹标准数据进行关联，由于车辆相关标准数据和地理轨迹标准数据之间存在第一映射关系，因此需建立个人基础标准数据与第一映射关系之间的第二映射关系，实现利用第二映射关系查找到第一映射关系，从而得到个人基础标准数据与该车辆对应的车辆相关标准数据和地理轨迹标准数据之间的关系。例如通过将用户的身份证号或者手机号与车辆相关标准数据或地理轨迹标准数据进行关联。

步骤S1005，建立企业经营标准数据与第一映射关系之间的第三映射关系。

在一实施例中，将车辆对应的企业经营标准数据与该车辆的车辆相关标准数据和地理轨迹标准数据进行关联，由于车辆相关标准数据和地理轨迹标准数据之间存在第一映射关系，因此需建立企业经营标准数据与第一映射关系之间的第三映射关系，实现利用第三映射关系查找到第一映射关系，从而得到企业经营标准数据与该车辆的车辆相关标准数据和地理轨迹标准数据之间的关系。例如通过将企业名号或法人身份证号与车辆相关标准数据和地理轨迹标准数据进行关联。

步骤S1006，根据第二映射关系和第三映射关系生成原始训练数据集的决策人员信息数据样本。

在一实施例中，由于个人基础标准数据主要针对个人数据，而企业经营标准数据中包含的更多是公众类数据，在进行中小微企业决策人识别时，需要同时考虑个人数据和对应的公众类数据。因此将第二映射关系和第三映射关系进行关联，根据第二映射关系和第三映射关系，将个人基础标准数据、企业经营标准数据、车辆相关标准数据和地理轨迹标准数据进行逐一关联，形成针对每一个车辆的关联信息，生成多个决策人员信息数据样本，构成原始训练数据集。

步骤S102，对决策人员信息数据样本进行特征分析，得到决策人员特征因子样本。

在一实施例中，得到原始训练数据集之后，对其中包含的每一个决策人员信息数据样本进行特征分析，得到决策人员特征因子样本。参照图3，步骤S102包括但不限于步骤S1021至步骤S1022：

步骤S1021，获取企业特征信息。

在一实施例中，获取企业特征信息主要目的是发现传统客户经营模式下无法发现的潜在中小微企业的决策人员，通过对企业经营标准数据进行分析可知企业特征信息可以包括：行业特征信息、地点特征信息和车型特征信息，具体是：

1)行业特征信息：用以表征中小微企业决策人员较高概率所处的行业，例如一些投入成本较低、技术门槛不高并且与大众生活相关性较高的行业，该实施例中行业特征信息可以包括：建筑行业、餐饮行业或运输行业等。

2)地点特征信息：用于表征中小微企业决策人员较高概率会出现的地点，该实施例中地点特征信息包括：娱乐场所或夜间餐饮场所等。

3)车型特征信息：用于表征中小微企业决策人员较高概率选择的车型，中小微企业决策人员基于社交及商务会谈需求或企业运输需求，购买特定车型、品牌会呈现一定的聚集性，因此该实施例中车型特征信息可以是：特定车型或者特定品牌等。

步骤S1022，根据企业特征信息对决策人员信息数据样本进行特征分析，得到决策人员特征因子样本。

在一实施例中，基于上述得到的企业特征信息对原始训练数据集中每个决策人员信息数据样本进行特征分析，从中筛选出符合上述企业特征信息的决策人员信息数据样本作为决策人员特征因子样本。

在一实施例中，例如可以通过决策人员信息数据样本中企业经营标准数据中获取的所在行业相关数据判断该样本是否符合行业特征信息，从而判断该样本是否应该作为决策人员特征因子样本；通过决策人员信息数据样本中地理轨迹标准数据中获取的轨迹地点相关数据判断该样本是否符合地点特征信息，从而判断该样本是否应该作为决策人员特征因子样本；通过决策人员信息数据样本中车辆相关标准数据中获取的车型或者品牌判断该样本是否符合车型特征信息，从而判断该样本是否应该作为决策人员特征因子样本。

在一实施例中，决策人员特征因子样本包括：车相关因子特征数据和地理轨迹因子特征数据。该实施例中，在符合上述企业特征信息的决策人员信息数据样本中，提取出车相关因子特征数据和地理轨迹因子特征数据，构成决策人员特征因子样本，具体是：

1)车相关因子特征数据包括：车型因子、品牌因子、车价因子和车龄因子等。其中，车型因子包括：单厢车，两厢车，紧凑型，SUV等；品牌因子包括：日系，德系，美系等；车价因子包括：10万以下，10至20万，20至30万，30至40万，40万以上；车龄因子包括：新车，2年以内，2年至5年，5年以上。即该实施例中通过车相关因子特征数据对决策人员信息数据样本中的车辆相关标准数据进行量化。

2)地理轨迹因子特征数据包括：行业相关因子、商务会谈因子和业务相关因子等。其中，行业相关因子包括：用户工作日出现的场所以及在每个场所出现的时间和在每个场所出现的次数；商务会谈因子包括：用户出现的餐饮娱乐场所以及每个场所出现的时间和每个场所出现的次数；业务相关因子包括：用户出现的的金融机构地点以及每个场所出现的时间和每个场所出现的次数、金融交易金额和金融交易目的等。即该实施例中通过地理轨迹因子特征数据对决策人员信息数据样本中的地理轨迹标准数据进行量化。

可以理解的是，上述车相关因子特征数据和地理轨迹因子特征数据仅作示例，并不代表对本实施例进行限定。

上述实施例中，由于决策人员信息数据样本中个人基础标准数据、企业经营标准数据、车辆相关标准数据和地理轨迹标准数据之间存在关联，因此可以通过车相关因子特征数据和地理轨迹因子特征数据构成决策人员特征因子样本。

上述实施例通过对用户的车型、车价、车龄等车相关因子特征数据，和地理轨迹因子特征数据包含的行为轨迹信息进行分析，能够发现客户的行动模式以及出行规律等重要信息，从而可以建立丰富的用户画像，提高决策人员识别模型对小微企业决策人员的识别效率，从而有效扶持小微企业健康发展。

步骤S103，对决策人员特征因子样本进行数据选择，得到加工因子数据样本。

在一实施例中得到上述决策人员特征因子样本后还需要对该样本中车相关因子特征数据和地理轨迹因子特征数据进行数据选择，得到加工因子数据样本。参照图4，步骤S103包括但不限于步骤S1031至步骤S1032：

步骤S1031，获取数据选择策略。

步骤S1032，根据数据选择策略对决策人员特征因子样本进行数据选择，得到加工因子数据样本。

在一实施例中，数据选择策略包括：高基类数据选择策略、饱和度数据选择策略和相关性数据选择策略中的一种或多种，具体的数据选择策略如下所述：

1)高基类数据选择策略：当数据选择策略为高基类数据选择策略时，删除决策人员特征因子样本中高基类数据，得到加工因子数据样本。

在数据挖掘以及机器学习领域，对样本的收集以及处理是影响数据模型好坏的一个重要环节。本实施例中高基类数据指一些ID类和时间类数据，由于这类数据在每个决策人员特征因子样本上都会有不同值，且没有特定含义(例如该样本对应的个人基础标准数据等)，因此后续使用该样本进行决策人员识别模型训练时，对模型的贡献度不大。例如个人基础标准数据中包含业务员更新个人基础标准数据的时间，即使业务员更新每个客户信息的时间都不同，但该数据对识别客户是否为中小微企业决策人员并没有贡献，因此该数据就属于一种高基类数据，需要删除决策人员特征因子样本中的高基类数据，得到加工因子数据样本。

2)饱和度数据选择策略：当数据选择策略为饱和度数据选择策略时，删除决策人员特征因子样本中低饱和度数据，得到加工因子数据样本；

在一实施例中，低饱和度的数据在进行决策人员识别模型训练时，对模型的误导较大，因此需要去除。在建模过程中，经常会遇到样本数据存在信息饱和度不均衡的问题，该实施例中，信息饱和度定义为在机器学习中样本特征变量包含的对目标变量解释信息的含量，信息含量越多，该样本就越可能被正确的预测。一般来说，数据饱和度较低是指在非标准化的数据采集过程中，由于人为原因会存在数据遗漏的问题或者是数据本身出现缺失。因此在本实施例中，例如企业经营标准数据中公开数据较少、关联的企业人数少、企业注册资本金缺失或企业营收等数据缺失较为严重的数据就属于低饱和度的数据，需要删除决策人员特征因子样本中低饱和度数据，得到加工因子数据样本。

3)相关性数据选择策略：当数据选择策略为相关性数据选择策略时，删除决策人员特征因子样本中高相关性数据，得到加工因子数据样本。

在一实施例中，高相关性数据指的是该决策人员特征因子样本对应的决策判断标签的相关性较高，例如通过单因子分析或相关性分析等方式，分析该决策人员特征因子样本中每一个数据是否与对应的决策判断标签的相关性较高，若存在高相关性数据，则说明有可能存在数据泄露问题，使用这种类型的样本会导致模型训练过拟合，模型偏见高，仅针对训练样本的预测效果好，在测试集或者实际数据上预测准确度较低，因此需要删除决策人员特征因子样本中高相关性数据，得到加工因子数据样本。

可以理解的是，上述三种数据选择策略可以择一使用也可以组合使用，以实现根据数据选择策略对决策人员特征因子样本进行数据选择，得到加工因子数据样本，本实施例在此不对数据选择策略做限制。

在一实施例中，对决策人员特征因子样本进行数据选择，得到加工因子数据样本之后，还包括将加工因子数据样本进行数值化操作，以使得加工因子数据样本能够作为决策人员识别模型的输入。

在一实施例中，数值化操作包括：时间戳数值化处理、离散变量数值化处理、降噪数值化处理、特征交叉选择数值化处理中一种或多种。具体的数值化操作过程如下所述：

1)时间戳数值化处理：将加工因子数据样本中与时间相关的数据都进行时间戳数值化处理，例如通过将时间戳分离成多个时间维度并加入时区的方式进行数值化，其中时间维度可以是年、月、日、小时、分钟、秒钟等，加入时区的目的是为了匹配不同地理数据源的数据。

2)离散变量数值化处理：将加工因子数据样本中离散的数据都进行离散变量数值化处理，例如通过One-Hot编码方式进行转换，One-Hot编码又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候，其中只有一位有效。One-Hot编码是分类变量作为二进制向量的表示，其编码步骤包括：(1)将分类值映射到整数值；(2)每个整数值被表示为二进制向量，除了整数的索引之外都是零值，被标记为1。

3)降噪数值化处理：通过分区的方式将预设范围内的数值划分成确定的块，以此来减少噪声的干扰。例如加工因子数据样本中有些数据是离散型的，例如性别数据，只有男和女两个类型，则后续决策人员识别模型在学习的时候就会得出明确的判断，可能男性是中小微企业主的概率高一点，女性对应的概率低一点。但有些数据如车价，范围就从几万到几百万都有，如果把每个数据都输入决策人员识别模型中进行学习判断，则决策人员识别模型在有限的样本上学习不准确，存在欠拟合的可能性，例如某一些加工因子数据样本中车价为3万或3.2万的客户对应的决策判断标签是普通客群，而3.1万的客户对应的决策判断标签是高概率中小微企业主，则决策人员识别模型在学习时就会判断车价为3.1万的客户为小微企业主的概率更高。本实施例为了提高决策人员识别模型的准确率，避免噪声带来的干扰，通过分区的方式将预设范围内的数值划分成确定的块，来减少噪声的干扰，例如将车价3万～5万区间作为一个分块，将5万～10万区间作为一个分块，将10万～20万区间作为一个分块等，这样能够提高决策人员识别模型在有限样本上的学习准确率。

4)特征交叉选择数值化处理：由于部分加工因子数据样本中涉及的数据较多，但并不是每个特征都对决策人员识别模型的训练过程有影响，若不去除这些多余的特征，可能降低决策人员识别模型识别的精准度，因此本实施例通过过滤法、包装法、嵌入法等方法筛选出需要去除的数据，下面详细说明：

1)过滤法：按照发散性或者相关性对加工因子数据样本中各个数据进行评分，按照预设阈值，选择需要去除的数据。

2)包装法：每次选择若干数据，根据目标函数的值，判断这些数据对应的预测效果评分，根据预测效果评分来排除或者保留相关数据。

3)嵌入法：通过模型训练的方式，得到每个数据对应的权值系数，根据该权值系数从大到小选择对应的数据。

可以理解的是，上述数值化操作的具体过程仅作示意，并不代表本发明实施例的数值化操作只能通过上述方式实现，在此不做具体限定。

步骤S104，将加工因子数据样本作为决策人员识别模型的输入，获取决策人员识别模型输出的决策判断结果。

在一实施例中，利用LightGBM模型生成决策人员识别模型，LightGBM模型利用弱分类器(例如决策树)迭代训练以得到最优模型，采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树，拥有较高的训练效率，并且训练过程中内存使用率较低，预测准确性较高，同时支持并行化学习。

在一实施例中，决策人员识别模型使用基于Histogram(直方图)的决策树算法。直方图算法是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。遍历加工因子数据样本中的数据时，根据数值化后的值作为索引在直方图中积累统计量，当遍历一次加工因子数据样本中的数据后，直方图积累需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点，从而得到决策判断结果。

步骤S105，根据决策判断结果和对应的决策判断标签得到决策误差值。

在一实施例中，对上述预测得到的决策判断结果和加工因子数据样本对应的决策判断标签进行比较，得到决策误差值。

步骤S106，根据决策误差值对决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。

在一实施例中，根据决策误差对决策人员识别模型中的参数进行调整，直到损失函数满足收敛条件，得到目标决策人员识别模型，该实施例中，损失函数可以是交叉熵损失函数，在此不做具体限定。

在一具体应用场景，参照图5，为本实施例中模型训练方法的训练过程示意图。图中示出了以下步骤流程：

1)获取原始数据；

2)对原始数据进行数据清洗，生成原始训练数据集，得到决策人员信息数据样本；

3)对决策人员信息数据样本进行特征分析，得到决策人员特征因子样本；

4)对决策人员特征因子样本进行数据选择，得到加工因子数据样本；

5)将加工因子数据样本作为决策人员识别模型的输入，获取决策人员识别模型输出的决策判断结果，其中决策判断结果包括：高概率中小微企业主和普通客群；

6)根据决策判断结果和对应的决策判断标签得到决策误差值；

7)根据决策误差值对决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。

本发明实施例提供的技术方案对决策人员识别模型进行训练得到目标决策人员识别模型，通过人工智能的方式对决策人员进行识别，由于对训练数据集中决策人员信息数据样本，通过特征分析和数据选择生成加工因子数据样本，能够建立丰富的用户画像对模型进行训练，提高目标决策人员识别模型的识别效率和识别准确率。能够解决相关技术中通过业务人员对决策人员进行人工识别，或者通过对决策人员递交的申请信息进行简单审核，带来的识别误差大或者识别效率低的问题。

本发明实施例还提供一种决策人员识别模型训练装置，可以实现上述模型训练方法，参照图6，该装置包括：

原始训练数据集获取模块610，用于获取原始训练数据集，原始训练数据集包括：决策人员信息数据样本和对应的决策判断标签；

特征分析模块620，用于对决策人员信息数据样本进行特征分析，得到决策人员特征因子样本；

数据选择模块630，用于对决策人员特征因子样本进行数据选择，得到加工因子数据样本；

输入模块640，用于将加工因子数据样本作为决策人员识别模型的输入，获取决策人员识别模型输出的决策判断结果；

误差计算模块650，用于根据决策判断结果和对应的决策判断标签得到决策误差值；

模型参数调整模块660，用于根据决策误差值对决策人员识别模型中的参数进行调整，直至满足收敛条件，得到目标决策人员识别模型。

本实施例的决策人员识别模型训练装置的具体实施方式与上述模型训练方法的具体实施方式基本一致，在此不再赘述。

另外，本发明实施例还提供一种决策人员识别方法，参照图7，该决策人员识别方法包括但不限于步骤S710至步骤S720：

步骤S710，获取决策人员信息数据。

步骤S720，将决策人员信息数据输入到目标决策人员识别模型中进行决策人员识别，得到决策人员识别结果，其中目标决策人员识别模型为根据上述任一项实施例的模型训练方法训练得到。

另外，本发明实施例还提供决策人员识别装置，可以实现上述决策人员识别方法，参照图8，该装置包括：

获取模块810，用于获取决策人员信息数据。

识别模块820，用于将决策人员信息数据输入到目标决策人员识别模型中进行决策人员识别，得到决策人员识别结果，其中目标决策人员识别模型为根据上述任一项实施例的模型训练方法训练得到。

本实施例的决策人员识别识别装置的具体实施方式与上述决策人员识别方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施例实施上述的模型训练方法或决策人员识别方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器902，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本发明实施例的模型训练方法或决策人员识别方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述模型训练方法或决策人员识别方法。

本发明实施例提出的模型训练方法和装置、决策人员识别方法、设备、介质，其中模型训练方法对决策人员识别模型进行训练得到目标决策人员识别模型，通过人工智能的方式对决策人员进行识别，由于对训练数据集中决策人员信息数据样本，通过特征分析和数据选择生成加工因子数据样本，能够建立丰富的用户画像对模型进行训练，提高目标决策人员识别模型的识别效率和识别准确率。能够解决相关技术中通过业务人员对决策人员进行人工识别，或者通过对决策人员递交的申请信息进行简单审核的方式带来的识别误差大或者识别效率低的问题。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-5、图7中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本发明实施例的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明实施例中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本发明实施例的优选实施例，并非因此局限本发明实施例的权利范围。本领域技术人员不脱离本发明实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本发明实施例的权利范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取原始训练数据集之前，所述模型训练方法还包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述对所述决策人员信息数据样本进行特征分析，得到决策人员特征因子样本，包括：

4.根据权利要求1所述的模型训练方法，其特征在于，所述对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本，包括：

5.根据权利要求4所述的模型训练方法，其特征在于，

当所述数据选择策略为高基类数据选择策略时，删除所述决策人员特征因子样本中高基类数据，得到所述加工因子数据样本；

6.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述对所述决策人员特征因子样本进行数据选择，得到加工因子数据样本之后，所述模型训练方法还包括：

7.一种决策人员识别方法，其特征在于，包括：

获取决策人员信息数据；

将所述决策人员信息数据输入到目标决策人员识别模型中进行决策人员识别，得到决策人员识别结果，其中所述目标决策人员识别模型由权利要求1至6任一项所述的模型训练方法训练得到。

8.一种模型训练装置，用于训练决策人员识别模型，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现：

如权利要求1至6任一项所述的模型训练方法，或权利要求7所述的决策人员识别方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：