CN115759810A

CN115759810A - 企业评估模型迭代优化方法、企业评估方法及流水线系统

Info

Publication number: CN115759810A
Application number: CN202211299182.8A
Authority: CN
Inventors: 修佳鹏; 杨正球; 杨劲森
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-03-07

Abstract

本申请提供一种企业评估模型迭代优化方法、企业评估方法及流水线系统，优化方法包括：在本次针对企业评估模型的迭代优化流程中，根据预先由领域专家设置的评估规则数据对数据集以及目标版本的企业评估模型进行评估，输出企业状态评估结果以使领域专家根据企业状态评估结果判断是否修正对应的企业特征数据；将领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对下一个数据版本的企业评估模型的迭代优化流程。本申请能够有效提高企业评估模型的应用准确性及优化效率，并能够降低领域专家参与难度，进而能够提高应用所述企业评估模型进行企业状态评估的准确性及有效性。

Description

企业评估模型迭代优化方法、企业评估方法及流水线系统

技术领域

本申请涉及计算机技术领域，尤其涉及企业评估模型迭代优化方法、企业评估方法及流水线系统。

背景技术

企业评估在企业经营决策以及第三方明确企业价值等场景中均极其重要。在现实经济生活中，往往出现把企业作为一个整体进行转让、合并等情况，如企业兼并、购买、出售、重组联营、股份经营、合资合作经营、担保等等，都涉及到企业整体价值的评估问题。在这种情况下，要对整个企业的发展阶段、风险性或者成长性等状态进行评估，以便确定合资或转卖的价格。而在对企业评估的过程中，可以借助机器学习技术来提高其自动化程度。而在采用集成于大数据平台的企业评估模型进行企业评估的过程中，经常会发现模型的准确性或一致性不如实验室中的效果，原因在于大数据平台的特点是数据量大、数据生成和处理速度快以及实时性，会导致企业评估模型与大数据平台的集成中数据可能滞后，导致企业评估模型性能在开发人员交付时在原始数据集上表现良好，但在对新收集的企业特种数据的评估效果不佳。

目前，采用企业评估模型进行企业评估的方案中，解决企业评估模型的准确性或一致性问题主要通过增加模型大小来解决，但这类解决方案需要机器学习经验丰富的专业人员花费大量时间和成本，并且随着新数据在企业评估模型中随着时间的推移，人为调整过的企业评估模型依然会存在数据滞后和数据漂移问题。同时，随着企业特征数据量的增加及种类的增长，初始训练得到的企业评估模型已经无法使用这些在模型生成和收集之前从未观察到的新型数据。

也就是说，现有的企业评估过程中，由于缺少对企业评估模型的智能优化机制，进而导致企业评估模型优化的效率低、训练数据滞后且难以让领域专家参与到优化过程中，因此无法保证企业评估的准确性及有效性。

发明内容

鉴于此，本申请实施例提供了企业评估模型迭代优化方法、企业评估方法及流水线系统，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种企业评估模型迭代优化方法，包括：

持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中；

在所述目标数据库中抽取企业特征数据以形成本次用于训练及验证企业评估模型的数据集，并基于该数据集对上一个数据版本的企业评估模型进行模型训练及优化，得到训练完成的目标版本的企业评估模型；

根据预先由领域专家设置的评估规则数据对所述数据集以及所述目标版本的企业评估模型进行评估，若所述数据集以及所述目标版本的企业评估模型通过评估，则在线部署该目标版本的企业评估模型，并将所述目标数据库中的企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出对应的企业状态评估结果；

存储并输出所述企业特征数据和企业状态评估结果之间的对应关系，以使领域专家根据所述企业状态评估结果判断是否修正对应的企业特征数据；若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，则将所述领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对所述下一个数据版本的企业评估模型的迭代优化流程。

在本申请的一些实施例中，所述持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中，包括：

基于预设的定期更新策略和/或动态更新策略采集原始企业特征数据，并对原始企业特征数据进行数据预处理，并将预处理后的原始企业特征数据存储至对应的Kafka数据主题单元中；

在确定本次针对企业评估模型的迭代优化流程启动后，从所述Kafka数据主题单元中获取原始企业特征数据并进行数据加工，得到对应的企业特征数据，并将该企业特征数据存储至目标数据库中，并监控该目标数据库的数据变化，其中，所述目标数据库包括：hive数据库。

在本申请的一些实施例中，所述根据预先由领域专家设置的评估规则数据对所述数据集以及训练完成的企业评估模型进行评估，若所述数据集以及训练完成的企业评估模型通过评估，则在线部署该企业评估模型，并将所述目标数据库中的企业特征数据输入在线部署的企业评估模型，以使该企业评估模型输出对应的企业状态评估结果，包括：

根据预先由领域专家设置的评估规则数据对所述数据集进行评估，并将通过评估的数据集保存至MySQL数据库中；以及，对训练完成的企业评估模型进行性能评估，并根据预先由领域专家设置的评估规则数据以及验证集对训练完成的企业评估模型进行验证，并将通过性能评估及验证的企业评估模型对应的参数信息和性能信息保存至所述MySQL数据库中；

将所述企业评估模型部署至服务器上，并从所述hive数据库中抽取各个企业特征数据，将各个所述企业特征数据分别输入部署至所述服务器上的企业评估模型中，以使该企业评估模型分别输出各个所述企业特征数据分别对应的企业状态评估结果，将各个所述企业状态评估结果存储至所述hive数据库中，再将所述企业特征数据和所述企业状态评估结果之间的对应关系存储至预设的模型计算结果索引中。

在本申请的一些实施例中，所述企业评估模型包括：梯度提升决策树模型GBDT；

所述企业评估模型用于根据输入的企业特征数据，输出对应的企业状态评估结果，其中，所述企业状态评估结果包括：企业发展阶段预测结果、企业成长性评估结果或企业风险性评估结果；

所述企业发展阶段预测结果包括：种子期、初创期、成长期、扩张期、成熟期或衰退期。

本申请的另一个方面提供了一种企业评估方法，包括：

接收企业评估模型参数，并将该企业评估模型参数对应的目标版本的企业评估模型存储在本地，其中，所述目标版本的企业评估模型预先基于所述的企业评估模型迭代优化方法生成；

获取目标企业的企业特征数据；

将所述企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出所述目标企业的企业状态评估结果，其中，所述企业状态评估结果包括：企业发展阶段预测结果、企业成长性评估结果或企业风险性评估结果。

本申请的另一个方面还提供了一种企业评估模型迭代优化流水线系统，包括：

数据采集及加工总模块，用于持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中；

模型训练和优化模块，用于在所述目标数据库中抽取企业特征数据以形成本次用于训练及验证企业评估模型的数据集，并基于该数据集对上一个数据版本的企业评估模型进行模型训练及优化，得到训练完成的目标版本的企业评估模型；

模型评估及部署总模块，用于根据预先由领域专家设置的评估规则数据对所述数据集以及所述目标版本的企业评估模型进行评估，若所述数据集以及所述目标版本的企业评估模型通过评估，则在线部署该目标版本的企业评估模型，并将所述目标数据库中的企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出对应的企业状态评估结果；

模型结果反馈模块，用于存储并输出所述企业特征数据和企业状态评估结果之间的对应关系，以使领域专家根据所述企业状态评估结果判断是否修正对应的企业特征数据；若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，则将所述领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对所述下一个数据版本的企业评估模型的迭代优化流程。

在本申请的一些实施例中，所述数据采集及加工总模块，包括：

数据采集模块，用于基于预设的定期更新策略和/或动态更新策略采集原始企业特征数据，并对原始企业特征数据进行数据预处理，并将预处理后的原始企业特征数据存储至对应的Kafka数据主题单元中；

数据加工模块，用于在确定本次针对企业评估模型的迭代优化流程启动后，从所述Kafka数据主题单元中获取原始企业特征数据并进行数据加工，得到对应的企业特征数据，并将该企业特征数据存储至目标数据库中，并监控该目标数据库的数据变化，其中，所述目标数据库包括：hive数据库。

在本申请的一些实施例中，所述模型评估及部署总模块，包括：

模型评估模块，用于根据预先由领域专家设置的评估规则数据对所述数据集进行评估，并将通过评估的数据集保存至MySQL数据库中；以及，对训练完成的企业评估模型进行性能评估，并根据预先由领域专家设置的评估规则数据以及验证集对训练完成的企业评估模型进行验证，并将通过性能评估及验证的企业评估模型对应的参数信息和性能信息保存至所述MySQL数据库中；

模型部署计算模块，用于将所述企业评估模型部署至服务器上，并从所述hive数据库中抽取各个企业特征数据，将各个所述企业特征数据分别输入部署至所述服务器上的企业评估模型中，以使该企业评估模型分别输出各个所述企业特征数据分别对应的企业状态评估结果，将各个所述企业状态评估结果存储至所述hive数据库中，再将所述企业特征数据和所述企业状态评估结果之间的对应关系存储至预设的模型计算结果索引中。

本申请的另一个方面还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的企业评估模型迭代优化方法，或者，实现所述的企业评估方法。

本申请的另一个方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的企业评估模型迭代优化方法，或者，实现所述的企业评估方法。

本申请提供的企业评估模型迭代优化方法，通过持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中；在所述目标数据库中抽取企业特征数据以形成本次用于训练及验证企业评估模型的数据集，并基于该数据集对上一个数据版本的企业评估模型进行模型训练及优化，得到训练完成的目标版本的企业评估模型；根据预先由领域专家设置的评估规则数据对所述数据集以及所述目标版本的企业评估模型进行评估，若所述数据集以及所述目标版本的企业评估模型通过评估，则在线部署该目标版本的企业评估模型，并将所述目标数据库中的企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出对应的企业状态评估结果；存储并输出所述企业特征数据和企业状态评估结果之间的对应关系，以使领域专家根据所述企业状态评估结果判断是否修正对应的企业特征数据；若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，则将所述领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对所述下一个数据版本的企业评估模型的迭代优化流程，能够实现自动化的企业评估模型的迭代优化，能够有效提高企业评估模型的应用准确性及优化效率，并能够降低领域专家参与难度，进而能够提高应用所述企业评估模型进行企业状态评估的准确性及有效性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的企业评估模型迭代优化方法的总流程示意图。

图2为本申请一实施例中的企业评估模型迭代优化方法的一种具体流程示意图。

图3为本申请另一实施例中的企业评估模型迭代优化流水线系统的结构示意图。

图4为本申请另一实施例中的企业评估模型迭代优化流水线系统的一种具体结构示意图。

图5为本申请另一实施例中的企业评估方法的流程示意图。

图6为本申请应用实例中提供的数据迭代流程的举例示意图。

图7为本申请应用实例中提供的模型迭代流水线的举例示意图。

图8为本申请应用实例中提供的流水线架构的举例示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

为了解决企业评估模型构建及优化的效率低、训练数据滞后且难以让领域专家参与到优化过程中，因此无法保证企业评估的准确性及有效性的问题，本申请实施例提供一种可以由企业评估模型迭代优化流水线系统执行的企业评估模型迭代优化方法，参见图1，所述企业评估模型迭代优化方法具体包含有如下内容：

步骤100：持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中。

在本申请的一个或多个实施例中，持续采集是指周期性或实时采集，具体根据数据类型或实际应用需求确定。所述领域专家是指具有企业评估经验的专业人员。

其中，所述原始企业特征数据是指采集后预处理得到的企业特征数据，且该企业特征数据可以根据企业评估模型的用途进行确定，例如，若所述企业评估模型为用于预测企业发展阶段的机器学习模型，则所述企业特征数据及采用与企业发展阶段预测相关的特征数据，例如：企业注册资本、专利数量、社保人数、开庭数量以及存续时间等特征数据。

在本申请的一个或多个实施例中，所述针对企业评估模型的迭代优化流程是指用于定时启动或根据触发条件启动的针对企业评估模型的迭代优化过程，确定本次针对企业评估模型的迭代优化流程启动的具体实现方式可以为：接收启动针对企业评估模型的迭代优化流程消息，并根据该消息获取上一次针对企业评估模型的迭代优化流程中最终得到的上一个数据版本的企业评估模型，并在上一次对应的轮次数值N上加1，作为本次针对企业评估模型的迭代优化流程的轮次数值N+1。

步骤200：在所述目标数据库中抽取企业特征数据以形成本次用于训练及验证企业评估模型的数据集，并基于该数据集对上一个数据版本的企业评估模型进行模型训练及优化，得到训练完成的目标版本的企业评估模型。

在步骤200中，可以通过spark计算引擎抽取hive数据库中模型训练所需数据集，之后通过GridSearchCV网格搜索算法和交叉验证寻找模型在此数据集上的最佳超参数、调整正负样本，最终完成企业评估模型的构建。

在本申请的一个或多个实施例中，所述目标版本的企业评估模型是指在本次针对企业评估模型的迭代优化流程中训练得到的企业评估模型，若上一个版本的企业评估模型的标识记为M，则目标版本的企业评估模型的标识则可以记为M+1。

所述企业评估模型是指用于对企业状态进行预测或评估的机器学习模型，例如可以采用梯度提升决策树模型GBDT((Gradient Boosting Decision Tree)等。

步骤300：根据预先由领域专家设置的评估规则数据对所述数据集以及所述目标版本的企业评估模型进行评估，若所述数据集以及所述目标版本的企业评估模型通过评估，则在线部署该目标版本的企业评估模型，并将所述目标数据库中的企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出对应的企业状态评估结果。

在步骤300中，预先由领域专家设置的评估规则数据可以是指：企业评估模型迭代优化流水线系统预先接收自领域专家持有的客户端设备发送的评估规则数据，该评估规则数据中至少包含有针对数据集和针对企业评估模型的评估数据。

可以理解的是，所述在线部署该目标版本的企业评估模型的举例是指：将目标版本的企业评估模型的模型参数发送至一服务器(例如专门用于演示计算结果的服务器)中，并在该服务器中采用当前目标版本的企业评估模型进行企业评估。

步骤400：存储并输出所述企业特征数据和企业状态评估结果之间的对应关系，以使领域专家根据所述企业状态评估结果判断是否修正对应的企业特征数据；若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，则将所述领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对所述下一个数据版本的企业评估模型的迭代优化流程。

在本申请的一个或多个实施例中，所述输出所述企业状态评估结果可以指将一一对应的各个所述企业状态评估结果和各个所述企业特征数据直接发送至领域专家持有的客户端设备中，以使领域专家自其客户端设备中查看这些企业状态评估结果并判断是否修正对应的企业特征数据。

另外，所述输出所述企业状态评估结果还可以指将一一对应的各个所述企业状态评估结果和各个所述企业特征数据直接发送至预设的显示屏中进行显示，以使领域专家通过该显示屏查看这些企业状态评估结果并判断是否修正对应的企业特征数据。

在步骤400中，若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，具体可以指：若企业评估模型迭代优化流水线系统接收到客户端设备发送的领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息。

例如，可以根据Elasticsearch模型计算结果索引为应用提供模型计算结果展示，领域专家通过前端应用监控模型计算结果，以确认计算结果是否正确以及是否需要修正，对于验证过或修正过的数据将被导出形成新的训练数据集并在下次数据迭代中进行补充。

从上述描述可知，本申请实施例提供的企业评估模型迭代优化方法，能够实现自动化的企业评估模型的迭代优化，能够有效提高企业评估模型的应用准确性及优化效率，并能够降低领域专家参与难度，进而能够提高应用所述企业评估模型进行企业状态评估的准确性及有效性。

为了进一步提高企业评估模型迭代优化的应用可靠性及有效性，在本申请实施例提供的一种企业评估模型迭代优化方法中，参见图2，所述企业评估模型迭代优化方法中的步骤100具体包含有如下内容：

步骤110：基于预设的定期更新策略和/或动态更新策略采集原始企业特征数据，并对原始企业特征数据进行数据预处理，并将预处理后的原始企业特征数据存储至对应的Kafka数据主题单元中。

具体来说，可以根据MySQL数据库中数据得到第三方接口信息，通过python数据采集程序获取数据并存入Kafka对应的数据主题中。

特别的，对于重点关注接口采取定期更新策略，对于非关注接口采取动态更新策略，同时在采集时统一对数据进行清洗、转换、分类和比对，确保数据能够正确、完整的采集。

步骤120：在确定本次针对企业评估模型的迭代优化流程启动后，从所述Kafka数据主题单元中获取原始企业特征数据并进行数据加工，得到对应的企业特征数据，并将该企业特征数据存储至目标数据库中，并监控该目标数据库的数据变化，其中，所述目标数据库包括：hive数据库。

具体来说，消费Kafka单元可以负责订阅对应的Kafka主题并定位消费位置，之后从Kafka的相应主题中取出数据，处理对应数据，写入创建的新文件中，最后利用hive的load命令将文件中的数据更新到hive，更新offset及爬虫记录表。监控hive变动单元可以每天定时执行监控任务，查询hive部分表中当天新增数据，取出相关联的其他表填充所需信息并按照dt排序取到最新结果，最后将筛选出的新数据导入表中。

为了进一步提高对所述数据集以及训练完成的企业评估模型进行评估的可靠性及有效性，在本申请实施例提供的一种企业评估模型迭代优化方法中，参见图2，所述企业评估模型迭代优化方法中的步骤300具体包含有如下内容：

步骤310：根据预先由领域专家设置的评估规则数据对所述数据集进行评估，并将通过评估的数据集保存至MySQL数据库中；以及，对训练完成的企业评估模型进行性能评估，并根据预先由领域专家设置的评估规则数据以及验证集对训练完成的企业评估模型进行验证，并将通过性能评估及验证的企业评估模型对应的参数信息和性能信息保存至所述MySQL数据库中。

具体来说，可以根据领域专家或领域研究报告对训练数据集进行评估，并将每次训练所用数据集文件进行整理保存，数据集信息保存至MySQL数据库中。还可以通过Sklearn框架对训练完成模型的准确率、精确率、召回率、F1 score进行计算，并使用领域专家指导和提供的数据验证集进行验证，最终将模型信息和模型性能信息保存至MySQL数据库中。

步骤320：将所述企业评估模型部署至服务器上，并从所述hive数据库中抽取各个企业特征数据，将各个所述企业特征数据分别输入部署至所述服务器上的企业评估模型中，以使该企业评估模型分别输出各个所述企业特征数据分别对应的企业状态评估结果，将各个所述企业状态评估结果存储至所述hive数据库中，再将所述企业特征数据和所述企业状态评估结果之间的对应关系存储至预设的模型计算结果索引中。

具体来说，可以将训练完成并且性能达标的模型部署至服务器上，通过spark计算引擎和shell脚本实现从hive数据库抽取模型计算数据并计算，计算完成后将计算结果保存至hive数据库中，并将每条模型输入数据和计算结果保存至Elasticsearch的模型计算结果索引中。

为了进一步提高企业评估模型迭代优化方法的适用广泛性，在本申请实施例提供的一种企业评估模型迭代优化方法中，所述企业评估模型包括：梯度提升决策树模型GBDT；

所述企业评估模型用于根据输入的企业特征数据，输出对应的企业状态评估结果，其中，所述企业状态评估结果包括：企业发展阶段预测结果、企业成长性评估结果或企业风险性评估结果；相对应的，所述企业评估模型可以包括：企业发展阶段预测模型、企业成长性评估模型和企业风险性评估模型。

具体来说，为保证应用梯度提升决策树模型GBDT进行企业成长性和风险性评估的准确性和一致性，需要对决策数模型进行迭代优化，但由于数据随时间不断发生变化，因此使得该过程效率低且可靠性差，进而影响了进而影响了企业成长性和风险性评估的准确性及时效性。

例如：企业发展阶段预测模型主要使用了梯度提升决策树模型，评价企业发展阶段时，不同发展阶段企业特征相差悬殊，往往相差几个数量级，因此选择特征分桶方法将企业特征离散化，并且将未上市企业的特征缺失值单独作为一类以此提升模型的稳定性和泛化能力，使用交叉熵(Cross Entropy)作为模型的损失函数(loss)，公式如下所示：

其中，M为类别的数量，y_ic为符号函数，如果样本i的真实类别等于c取1，否则取0。p_ic为观测样本i属于类别c的预测概率。在这里类别即企业所处阶段(种子期、初创期、成长期、扩张期、成熟期、衰退期)。

从软件层面来说，本申请还提供一种用于执行所述企业评估模型迭代优化方法中全部或部分内的企业评估模型迭代优化流水线系统，参见图3，所述企业评估模型迭代优化流水线系统具体包含有如下内容：

数据采集及加工总模块10，用于持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中。

模型训练和优化模块20，用于在所述目标数据库中抽取企业特征数据以形成本次用于训练及验证企业评估模型的数据集，并基于该数据集对上一个数据版本的企业评估模型进行模型训练及优化，得到训练完成的目标版本的企业评估模型。

模型评估及部署总模块30，用于根据预先由领域专家设置的评估规则数据对所述数据集以及所述目标版本的企业评估模型进行评估，若所述数据集以及所述目标版本的企业评估模型通过评估，则在线部署该目标版本的企业评估模型，并将所述目标数据库中的企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出对应的企业状态评估结果。

模型结果反馈模块40，用于存储并输出所述企业特征数据和企业状态评估结果之间的对应关系，以使领域专家根据所述企业状态评估结果判断是否修正对应的企业特征数据；若接收到领域专家修正后的企业特征数据或用于反馈所述企业状态评估结果正确的消息，则将所述领域专家修正后的企业特征数据和正确的企业状态评估结果对应的企业特征数据均存储至优化后的数据集以用于针对所述下一个数据版本的企业评估模型的迭代优化流程。

本申请提供的企业评估模型迭代优化流水线系统的实施例具体可以用于执行上述实施例中的企业评估模型迭代优化方法的实施例的处理流程，其功能在此不再赘述，可以参照上述企业评估模型迭代优化方法实施例的详细描述。

所述企业评估模型迭代优化流水线系统进行企业评估模型迭代优化的部分可以在服务器中执行，而在另一种实际应用情形中，也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于企业评估模型迭代优化的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

从上述描述可知，本申请实施例提供的企业评估模型迭代优化流水线系统，能够实现自动化的企业评估模型的迭代优化，能够有效提高企业评估模型的应用准确性及优化效率，并能够降低领域专家参与难度，进而能够提高应用所述企业评估模型进行企业状态评估的准确性及有效性。

为了进一步提高企业评估模型迭代优化的应用可靠性及有效性，在本申请实施例提供的一种企业评估模型迭代优化流水线系统中，参见图4，所述企业评估模型迭代优化流水线系统中的数据采集及加工总模块10具体包含有如下内容：

数据采集模块11，用于基于预设的定期更新策略和/或动态更新策略采集原始企业特征数据，并对原始企业特征数据进行数据预处理，并将预处理后的原始企业特征数据存储至对应的Kafka数据主题单元中。

数据加工模块12，用于在确定本次针对企业评估模型的迭代优化流程启动后，从所述Kafka数据主题单元中获取原始企业特征数据并进行数据加工，得到对应的企业特征数据，并将该企业特征数据存储至目标数据库中，并监控该目标数据库的数据变化，其中，所述目标数据库包括：hive数据库。

为了进一步提高对所述数据集以及训练完成的企业评估模型进行评估的可靠性及有效性，在本申请实施例提供的一种企业评估模型迭代优化流水线系统中，参见图4，所述企业评估模型迭代优化流水线系统中的模型评估及部署总模块30具体包含有如下内容：

模型评估模块31，用于根据预先由领域专家设置的评估规则数据对所述数据集进行评估，并将通过评估的数据集保存至MySQL数据库中；以及，对训练完成的企业评估模型进行性能评估，并根据预先由领域专家设置的评估规则数据以及验证集对训练完成的企业评估模型进行验证，并将通过性能评估及验证的企业评估模型对应的参数信息和性能信息保存至所述MySQL数据库中。

模型部署计算模块32，用于将所述企业评估模型部署至服务器上，并从所述hive数据库中抽取各个企业特征数据，将各个所述企业特征数据分别输入部署至所述服务器上的企业评估模型中，以使该企业评估模型分别输出各个所述企业特征数据分别对应的企业状态评估结果，将各个所述企业状态评估结果存储至所述hive数据库中，再将所述企业特征数据和所述企业状态评估结果之间的对应关系存储至预设的模型计算结果索引中。

为了解决企业评估模型构建及优化的效率低、训练数据滞后且难以让领域专家参与到优化过程中，因此无法保证企业评估的准确性及有效性的问题，本申请实施例还提供一种企业评估方法，参见图5，所述企业评估方法具体包含有如下内容：

步骤500：接收企业评估模型参数，并将该企业评估模型参数对应的目标版本的企业评估模型存储在本地。

在步骤500中，所述目标版本的企业评估模型预先基于前述实施例提供的所述的企业评估模型迭代优化方法生成；

步骤600：获取目标企业的企业特征数据。

步骤700：将所述企业特征数据输入所述目标版本的企业评估模型，以使该目标版本的企业评估模型输出所述目标企业的企业状态评估结果，其中，所述企业状态评估结果包括：企业发展阶段预测结果、企业成长性评估结果或企业风险性评估结果。

为了进一步说明本方案，本申请还提供一种企业评估模型迭代优化方法的具体应用实例，还涉及一种通用的模型迭代优化方法。具体来说，机器学习是计算机通过学习数据的内在规律性信息，获得新的经验和知识，从而提高计算机的智能，从而使计算机能够像人类一样做出决策的过程。随着大数据的发展，一方面数据特征覆盖越来越全面，另一方面数据量足够大，为机器学习模型的实现提供了保障，因此很多大数据平台希望在他们的应用程序中使用机器学习模型。

当前集成于大数据平台的机器学习模型应用在使用中经常会发现模型的准确性或一致性不如实验室中的效果，其原因在于大数据平台的特点是数据量大、数据生成和处理速度快以及实时性，会导致机器学习模型与大数据平台的集成中数据可能滞后，导致模型性能在开发人员交付时在原始数据集上表现良好，但对新收集的数据的预测效果不佳。而目前，机器学习模型的准确性或一致性问题主要通过增加模型大小来解决，例如在决策树和随机森林模型中，将低准确率的分类器集成在一起进行加权投票，以获得更准确的结果；或寻找更好的模型超参数和架构，例如，选择模型后，可以通过网格搜索或随机搜索超参数对模型进行微调，在神经网络中，可以针对神经网络中的不同数据集调整架构。但是，所有这些解决方案都需要机器学习经验丰富的专业人员花费大量时间和成本，并且随着新数据在大数据流处理模型中随着时间的推移而到达，调整过模型依然会存在数据滞后和数据漂移问题。同时，随着业务的增长和收集的信息变得更加完整，原始模型无法使用这些在模型生成和收集之前从未观察到的新型数据，而这些数据会对模型性能产生深远的影响。因此Danilo Sato等人提出Continuous Delivery for Machine Learning(CD4ML)，即机器学习模型的可持续交付，通过不断迭代优化模型来保证模型的准确性和稳定性。

(一)通用的模型迭代优化方法

本申请应用实例致力于设计一种基于数据驱动的机器学习模型迭代优化方法，通过对模型数据的发现、收集、转换和理解，对数据集进行迭代，同时引入专家对模型结果的反馈，形成人机协作的新标记数据，并实现模型训练优化和部署的自动化流水线，解决现有模型构建缓慢，数据滞后且领域专家难以参与验证的问题。

本申请应用实例的目的在于提供一种基于数据驱动的机器学习模型数据集迭代优化方法和基于此方法的机器学习模型迭代优化流水线，通过数据采集模块持续收集模型数据，使用数据加工模块处理采集的原始数据形成模型数据集，在模型评估模块引入领域专家意见对模型数据集进行评估，最后使用模型训练和优化模块完成模型构建，并将整个流程形成自动化流水线，实现了机器学习模型的可持续交付，解决了现有模型构建缓慢，数据滞后且领域专家难以参与验证的问题。

参见图6，基于数据驱动的机器学习模型数据集迭代优化方法主要包括数据迭代空间和数据迭代周期的设计：

所述数据迭代空间把训练数据集的每一行看作是一个实例，每一列可以看作是一个特征，而最终的学习目标是一个标签，然后通过增加、修正和删除数据集的实例、特征和标签可以列举所有的数据迭代空间。

可选的，所述数据迭代周期可以在时间维度上以小时、天、月、季度或年为粒度进行迭代。

可选的，所述数据迭代周期可以在变化程度维度上以数据变化的百分比和模型结果反馈的数据量为粒度进行迭代。

参见图7，基于上述方法的机器学习模型迭代优化流水线，包括数据采集模块、数据加工模块、模型训练和优化模块、模型评估模块、模型部署计算模块和模型结果反馈模块：

所述数据采集模块根据MySQL数据库中数据得到第三方接口信息，通过python数据采集程序获取数据并存入Kafka对应的数据主题中。

特别的，所述数据采集模块对于重点关注接口采取定期更新策略，对于非关注接口采取动态更新策略，同时在采集时统一对数据进行清洗、转换、分类和比对，确保数据能够正确、完整的采集。

所述数据加工模块包括消费Kafka单元和监控hive变动单元：

所述消费Kafka单元负责订阅对应的Kafka主题并定位消费位置，之后从Kafka的相应主题中取出数据，处理对应数据，写入创建的新文件中，最后利用hive的load命令将文件中的数据更新到hive，更新offset及爬虫记录表。

所述监控hive变动单元每天定时执行监控任务，查询hive部分表中当天新增数据，取出相关联的其他表填充所需信息并按照dt排序取到最新结果，最后将筛选出的新数据导入表中。

所述模型训练和优化模块通过spark计算引擎抽取hive数据库中模型训练所需数据集，之后通过GridSearchCV网格搜索算法和交叉验证寻找模型在此数据集上的最佳超参数、调整正负样本，最终完成模型的构建。

所述模型评估模块包括数据评估单元和模型性能评估单元：

所述数据评估单元根据领域专家或领域研究报告对训练数据集进行评估，并将每次训练所用数据集文件进行整理保存，数据集信息保存至MySQL数据库中。

所述模型性能评估单元通过Sklearn框架对训练完成模型的准确率、精确率、召回率、F1 score进行计算，并使用领域专家指导和提供的数据验证集进行验证，最终将模型信息和模型性能信息保存至MySQL数据库中。

所述模型部署计算模块将训练完成并且性能达标的模型部署至服务器上，通过spark计算引擎和shell脚本实现从hive数据库抽取模型计算数据并计算，计算完成后将计算结果保存至hive数据库中，并将每条模型输入数据和计算结果保存至Elasticsearch的模型计算结果索引中。

所述模型结果反馈模块根据Elasticsearch模型计算结果索引为应用提供模型计算结果展示，领域专家通过前端应用监控模型计算结果，以确认计算结果是否正确以及是否需要修正，对于验证过或修正过的数据将被导出形成新的训练数据集并在下次数据迭代中进行补充。

具体来说，模型迭代流水线的执行过程如下：

S1:数据采集模块执行第三方数据采集。

S2:数据加工模块从Kafka中获取数据并监控hive数据变化，为模型计算和训练提供数据。

S3:模型训练和优化模块根据新数据搜索最佳模型超参数并进行模型训练。

S4:模型评估模块记录模型训练结果和模型验证结果。

S5:模型部署计算模块提供模型计算服务。

S6:模型结果反馈模块基于模型计算结果的专家反馈意见形成新的训练数据提供给模型训练和优化模块。

基于数据驱动的机器学习模型迭代优化方法及基于此方法的机器学习模型迭代优化流水线，通过引入数据迭代空间和数据迭代周期的概念明确了数据驱动的数据集迭代优化方法，并基于数据版本进行模型版本管理，实现了机器学习模型的生命周期管理和持续迭代优化，可以为大数据平台持续提供模型计算服务和模型迭代优化服务；支持领域专家对模型结果的验证反馈，可以让缺乏机器学习经验的领域专家参与到机器学习模型的开发和训练中，为模型优化提供新的解决思路。

另外，参见图8，本申请应用实例还提供流水线架构举例，流水线主要分为5层：

第一层数据源：来自第三方接口数据、企业基础数据及行业数据。

第二层数据存储层：保存了来自数据源的数据和数据加工计算结果。

第三层数据加工与计算层：通过Python、Spark、Hive SQL等工具实现消费Kafka、监控hiv_e变动、模型数据加工、模型数据计算及日志文件采集的自动化功能，同时为上层服务提供模型训练和计算数据。

第四层模型训练与计算层：根据已有模型构建框架进行模型训练，同时可支持已部署的模型进行计算。

第五层数据查询与展示层：向最终用户展示模型迭代优化情况和模型计算结果。

(二)企业评估模型迭代优化方法

为保证应用梯度提升决策树(GBDT)进行企业成长性和风险性评估的准确性和一致性，需要对决策数模型进行迭代优化，但由于数据随时间不断发生变化，因此使得该过程效率低且可靠性差，进而影响了进而影响了企业成长性和风险性评估的准确性及时效性。

本应用参照上述模型迭代优化方法，利用数据采集工具进行数据准备，引入专家进行数据验证，并以企业发展阶段预测模型为具体实施例。

企业发展阶段预测模型主要使用了梯度提升决策树模型，评价企业发展阶段时，不同发展阶段企业特征相差悬殊，往往相差几个数量级，因此选择特征分桶方法将企业特征离散化，并且将未上市企业的特征缺失值单独作为一类以此提升模型的稳定性和泛化能力，使用交叉熵(Cross Entropy)作为模型的损失(loss)函数，公式如下所示：

其中M为类别的数量，y_ic为符号函数，如果样本i的真实类别等于c取1，否则取0。p_ic为观测样本i属于类别c的预测概率。在这里类别即企业所处阶段(种子期、初创期、成长期、扩张期、成熟期、衰退期)。

针对企业发展阶段预测模型利用上述机器学习模型迭代优化流水线，使用了企业注册资本、专利数量、社保人数、开庭数量、存续时间等15个特征，种子期、初创期、成长期、成熟期、扩张期和衰退期6个标签，共56393条实例进行构建。

主要使用GridSearch方法对学习速率(learning_rate)、迭代次数(epoch)、最大深度(max_depth)、树木的数量(n_estimators)、树上的叶子数(num_leaves)等超参数进行搜索，完成模型训练。

由于上述特征均会随着时间不断变化，模型验证时使用了6000条数据完整且具有代表性的企业作为验证集，同时基于上述56393条实例应用上述机器学习模型数据集迭代优化方法，以相同的模型构建框架，不同的模型参数训练了多个模型，并使用相同的验证集进行验证。

本申请应用实例介绍了一种基于数据驱动的机器学习模型数据集迭代优化方法来迭代机器学习模型，并引入了一种人机协作的方法，使非机器学习专家能够参与模型的迭代优化过程。我们还在实施例中自动化了这个过程，并部署了基于此方法的机器学习模型迭代优化流水线。在实际生产中，我们发现数据驱动的方法可以随着时间的推移有效地提高模型性能，并不断为我们提供更好的模型。

可以预见，随着大数据的发展和数据量的不断增加，机器学习模型可以利用的数据特征也将变得更加丰富。因此，通过数据驱动的方法对机器学习模型进行迭代优化，也将为优化模型提供一种新的思路。

本申请实施例还提供了一种电子设备(也即电子设备)，例如中心服务器，该电子设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的企业评估模型迭代优化方法和/或企业评估方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述电子设备可自所述无线多媒体传感器网络中的传感器接收实时运动数据，并自所述视频采集装置接收原始视频序列。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的企业评估模型迭代优化方法和/或企业评估方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的企业评估模型迭代优化方法和/或企业评估方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的企业评估模型迭代优化方法和/或企业评估方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述企业评估模型迭代优化方法和/或企业评估方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种企业评估模型迭代优化方法，其特征在于，包括：

2.根据权利要求1所述的企业评估模型迭代优化方法，其特征在于，所述持续采集原始企业特征数据，并在确定本次针对企业评估模型的迭代优化流程启动后，对所述原始企业特征数据进行加工优化以得到对应的企业特征数据，将所述企业特征数据存储至目标数据库中，包括：

3.根据权利要求2所述的企业评估模型迭代优化方法，其特征在于，所述根据预先由领域专家设置的评估规则数据对所述数据集以及训练完成的企业评估模型进行评估，若所述数据集以及训练完成的企业评估模型通过评估，则在线部署该企业评估模型，并将所述目标数据库中的企业特征数据输入在线部署的企业评估模型，以使该企业评估模型输出对应的企业状态评估结果，包括：

4.根据权利要求1至3任一项所述的企业评估模型迭代优化方法，其特征在于，所述企业评估模型包括：梯度提升决策树模型GBDT；

5.一种企业评估方法，其特征在于，包括：

接收企业评估模型参数，并将该企业评估模型参数对应的目标版本的企业评估模型存储在本地，其中，所述目标版本的企业评估模型预先基于权利要求1至4任一项所述的企业评估模型迭代优化方法生成；

获取目标企业的企业特征数据；

6.一种企业评估模型迭代优化流水线系统，其特征在于，包括：

7.根据权利要求6所述的企业评估模型迭代优化流水线系统，其特征在于，所述数据采集及加工总模块，包括：

8.根据权利要求7所述的企业评估模型迭代优化流水线系统，其特征在于，所述模型评估及部署总模块，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的企业评估模型迭代优化方法，或者，实现如权利要求5所述的企业评估方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述的企业评估模型迭代优化方法，或者，实现如权利要求5所述的企业评估方法。