CN112396188A

CN112396188A - 自动化机器学习、训练方法、装置及存储介质

Info

Publication number: CN112396188A
Application number: CN202011303421.3A
Authority: CN
Inventors: 陈海波; 其他发明人请求不公开姓名
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-23

Abstract

本发明公开了一种自动化机器学习、训练方法、装置及存储介质，包括：自动数据清洗步骤，清洗原始专利信息不规范字段及噪声；自动特征工程步骤；AutoML自动特征工程步骤，将原始特征清洗成AutoML系统处理格式，进行自动特征生成及场景类型特征选择迭代；所述的特征选择迭代采用lightGBM单模型；所述的特征强化步骤，通过业务逻辑，结合已有特征的重要性，挖掘业务信息，构造反应业务信息的特征；自动特征选择步骤，对专利的特征进行选择评分；自动模型融合步骤；采用Stacking+Bagging的方式进行模型融合增强结果稳定性。本发明构建了多种不同类型模型的集成，使得集成之后的模型效果有所提升。

Description

自动化机器学习、训练方法、装置及存储介质

技术领域

本申请涉及机器学习领域，具体而言，涉及一种自动化机器学习、训练方法、装置及存储介质。

背景技术

IEEE ISI是安全信息学领域的旗舰会议，于2003年首次在美国亚利桑那州图森市召开。在过去的16年中，IEEE ISI会议已经从传统的智能和安全领域发展到多领域联合研究与创新。为促进人工智能赋能的解析学技术(AI-Enabled Analytics)的产业落地，并为全球学术界和产业界同行提供一个学术交流与技术探讨的平台，IEEE ISI会议特发起本届国际大数据分析竞赛(IEEE ISI World Cup 2019，IWC 2019)本次比赛从2019年2月1日开始报名，期间2019年5月1日发布比赛结果，到7月1日举办Workshop，历时5个月，为研究人员和行业从业者提供了一个国际论坛，供大家分享在ISI领域的创新想法，原创成果和实践经验。

主办方为本次比赛提供了基于3500家上市公司全量信息，描述公司在财务、法务、股权、经营状况、舆论等方面的属性特征。共设计两个赛题：企业投资价值评估和法律诉讼类型预测。

本发明可通过企业的年报、财务信息、经营信息、资产信息、税务信息、知识产权等企业综合信息对企业投资情况进行打分，为投资者提供投资依据。

发明内容

1、本发明的目的

本发明为了解决能够自动对企业的投资情况进行打分，而提出了一种自动化机器学习方法。

2、本发明所采用的技术方案

本发明公开了一种自动化机器学习方法，包括：

自动数据清洗步骤，清洗原始特征中专利信息不规范字段及噪声；

自动特征工程步骤，包括AutoML自动特征工程步骤和特征强化步骤；所述AutoML自动特征工程步骤，将所述原始特征清洗为AutoML系统处理格式，进行自动特征生成及场景类型特征选择迭代；所述的特征选择迭代采用lightGBM单模型；所述的特征强化步骤，获取预设业务逻辑信息，构造反应业务信息的特征；

自动特征选择步骤，对专利的特征进行选择评分；

自动模型融合步骤，采用Stacking学习使用底层学习器的预测结果，在Bagging中使用不同seed生成模型，最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。

优选的，所述的AutoML自动特征工程步骤；将所述原始特征清洗成AutoML系统处理格式，进行自动特征生成及场景类型特征选择迭代，所述的原始特征包括数值类型，分类类型，时间类型以及文本类型；所述的特征选择迭代采用lightGBM单模型，选择和本次任务契合的场景类型进行自动特征工程，在每一轮场景类型特征迭代过程中根据上一轮场景类型特征的重要性分配权重进行迭代更新。

优选的，所述的特征强化步骤：

对所述的数值类型和类目特征生成统计特征，以及数值和分类的聚合特征；

对所述的时间类型，提取周期性特征；

对所述的文本特征，采用TF-IDF、LDA方法提取特征；所述的TF-IDF评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度；字词的重要性随着所述字词在文件中出现的次数成正比增加，同时会随着所述字词在语料库中出现的频率成反比下降；具体为：

其中，TF_w表示词条(关键字)在文本中出现的频率。

优选的，所述的自动特征选择步骤：

挖掘公司的专利在时间线上的活跃度，即专利期限长短以及上升趋势，划分评分等级；

根据专利的申请审核流程，提交申请到审核结果的时间长度，提取企业在预设月份内的专利数量以及所述专利的种类，划分评分等级；

根据城市中各个行业的公司数量以及他们之间的相对密集度特征，划分企业竞争评分等级；

按照投资价值划分评分等级；

挖掘公司认证资格竞争力信息，通过构造公司资历完善度特征划分公司实力评分等级。

优选的，所述的自动模型融合步骤；融合方法为Stacking，还包括第一层采用过的模型有LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor。

本发明公开了一种自动化机器学习训练方法，所述的Stacking方式融合，上层进行k折交叉验证。

优选的，采用LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor模型，将验证集矩阵并列在一起、测试集矩阵合并在一起。

优选的，在Bagging中使用不同seed以及随机调整参数分别生成多个LightGBM和多个XGBoost模型；最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。

本发明提出了一种基于自动化机器学习装置，包括存储器和处理器，存储器存储有计算机程序，其特征在于；所述处理器执行所述计算机程序时实现所述的方法步骤。

本发明提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时实现所述的方法步骤。

3、本发明所采用的有益效果

(1)本发明对于相似的数据创建了一键清洗系统，这套系统可以自动计算来转化货币格式、使用强规则收集时间戳和时间增量以及根据数据分布自动填写缺失值。

(2)本发明选择使用AutoML自动特征工程和自动特征选择。对于多维度、多字段的表单数据，AutoML可以极大地提升开发效率和模型效果。

(3)本发明涉及了一些针对业务场景的特征。

(4)本发明构建了多种不同类型模型的集成，使得集成之后的模型效果有所提升，也增加了结果稳定性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明自动化机器学习流程图；

图2为本发明Stacking流程图；

图3为本发明模型融合流程图；

图4为本发明学习流程图；

图5为本发明AutoML自动特征工程步骤流程图；

图6为本发明自动特征选择步骤流程图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例：

如图1、4所示，本发明提出了由于数据集数据维度广、信息复杂、数据特征类型丰富、数据量小，如果直接采用人工去做特征，一方面工作量巨大，另外一方面很多特征也难以想到。因此采用自研的AutoML系统进行建模，包括了自动数据清洗、自动特征工程、自动特征选择、自动模型融合等步骤，极大地提高任务建模的效率。

S100、自动数据清洗包括：

由于数据集中含有大量的不规范字段，比如时间列，存在各种各样的格式，如存在年份缩写、中文年月日、标记格式不统一等情况。考虑额这些数据情况，可能由于数据录入的时候，不同年代采用不同的格式，从而造成了大量数据不规范的问题。另外数据中存在大量的噪声。而自动化数据清洗模块，对不同的数据使用不同的清洗方法，能有效地清洗不规范数据。

S200、自动特征工程包括：

如图5所示，特征工程部分包含两个阶段：AutoML自动特征工程阶段和业务特征强化阶段。

S201、在AutoML自动特征工程阶段，将原始数据清洗成AutoML系统可处理的格式后，进行自动特征生成，然后进行场景类型特征选择迭代。在特征选择阶段采用lightGBM单模型。在自动特征工程中，假设通用场景类型，选择和本次任务契合的场景类型进行自动特征工程，在每一轮特征迭代过程中参考了上一轮特征的重要性，在重要性高的特征上面进行迭代更新。筛选出的特征中比较重要的有：行业细类特征、资历、年报等。

原始特征包含了数值类型，分类类型，时间类型以及文本类型。对数值类型和类目特征生成了基本统计特征，以及数值和分类的聚合特征。对时间类型，提取了周期性特征。对文本特征，采用TF-IDF、LDA方法提取特征。TF-IDF是一种用于信息检索和文本挖掘的常用加权技术，它是一种统计方法，用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着所述字词在文件中出现的次数成正比增加，同时会随着它在语料库中出现的频率成反比下降。公式为：

即

LDA模型目的是识别主题，即把文档-词汇矩阵变成文档-主题矩阵(分布)和主题-词汇矩阵(分布)。同时也提取重要特征进行高阶组合，从而避免了指数级的特征组合，并且能挖掘三阶甚至四阶不同类型的特征组合，有效地提升模型性能。在自动特征阶段生成的全部特征累计有7000多列，自动特征选择采用递减的方式。

S202、在业务特征强化阶段，通过深入思考业务的逻辑，结合已有特征的重要性，挖掘出业务中认为应该考虑进去的信息，然后构造出能反应这些信息的特征。

如图6所示，S300、自动特征选择包括：

发现专利和资质认证两个信息对模型效果提升较大。在对企业价值评分时，专利的数量、种类等信息无疑是非常重要的。

S301、针对专利信息，挖掘了公司的专利在时间线上的活跃度，公司在该专利领域的实力。猜测在长期专利数量较多或者存在上升趋势的企业投资价值评分应该更高。

S302、根据实际专利的申请审核流程，提交申请到出审核结果的时间长度，提取了企业在最近1、3、6、12、24个月的专利数量以及专利数量较多的种类。

S303、其次挖掘了每个城市每个行业的企业竞争力，用城市中各个行业的公司数量以及他们之间的相对特征来表现。猜测公司地址在其行业密集度较高的城市具有更强的竞争意识和竞争氛围，成长性较高，可能会得到较高的投资价值评分。

S304、挖掘了公司的认证资格竞争力信息，在行业内理论上应该是资历认证更完善的公司实力更强，风险更小，通过构造公司在资历全集中的完善度特征来反映这个信息。

S400、自动模型融合包括：

为了增强最终结果的稳定性，采用Stacking+Bagging的方式进行模型融合。融合的主体方法是Stacking,第一层采用过的模型有LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor。每个模型采用交叉验证的方式进行线下验证。

(1)Stacking的训练过程如图2所示，它的主要思想是训练模型来学习使用底层学习器的预测结果，首先将所有数据及生成测试集和训练集，那么上层会进行k折交叉验证，使用训练集中部分数据作为喂养集(蓝色)，剩余部分作为验证集(黄色)。每次验证相当于是用蓝色的数据训练出一个模型，使用模型对应验证集进行验证得到n条数据，并对测试集进行预测得到m条数据，这样经过5次交叉检验，可以得到中间的黄色的k*n条验证集的结果，k*m条测试集的预测结果。

接下来将验证集的k*n条数据结果拼接成一个k*n行长的矩阵，记为A1，而对于k*m行的测试集的预测结果进行加权平均，得到一个m行的矩阵，记为B1。这里用了LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTrees Regressor5个模型，将A1、A2、A3、A4、A5并列在一起成k*n行5列的矩阵作为trainingdata，B1、B2、B3、B4、B5合并在一起成为m行5列的矩阵作为testingdata，让下层学习器基于这样的数据进行再训练。在训练时基于每个基础模型的预测结果作为特征(5个特征)，次学习器会学习训练如何往这样的基学习的预测结果上赋予权重w，来使得最后的预测最为准确。

(2)在Bagging中使用不同seed以及随机微调了一些参数分别生成10个LightGBM和10个XGBoost模型。最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果(图3)。

机器可读存储介质作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的虚拟现实对象控制方法对应的程序指令/模块(所示的获取模块、第一确定模块、第二确定模块以及对象控制模块)。处理器通过检测存储在机器可读存储介质中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述的虚拟现实对象控制方法，在此不再赘述。

机器可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，机器可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合发布节点的存储器。在一些实例中，机器可读存储介质可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至虚拟现实设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、虚拟现实设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、虚拟现实设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的虚拟现实设备、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种自动化机器学习方法，其特征在于，包括：

自动特征选择步骤，对专利的特征进行选择评分；

2.根据权利要求1所述的自动化机器学习方法，其特征在于，所述的AutoML自动特征工程步骤；将所述原始特征清洗成AutoML系统处理格式，进行自动特征生成及场景类型特征选择迭代，所述原始特征包括数值类型，分类类型，时间类型以及文本类型；所述的特征选择迭代采用lightGBM单模型，选择和本次任务契合的场景类型进行自动特征工程，在每一轮场景类型特征迭代过程中根据上一轮特征的重要性分配权重进行迭代更新。

3.根据权利要求2所述的自动化机器学习方法，其特征在于，所述的特征强化步骤：

对所述的时间类型，提取周期性特征；

其中，TF_w表示词条(关键字)在文本中出现的频率。

4.根据权利要求1所述的自动化机器学习方法，其特征在于，所述的自动特征选择步骤：

挖掘公司的专利在时间线上的活跃度，根据专利期限以及上升趋势，划分评分等级；

根据专利的申请审核流程，提交申请到审核结果的时间长度，提取企业在最近月份的专利数量以及所述专利大于预设阈值的种类，划分评分等级；

根据城市中各个行业的公司数量以及公司之间的相对密集度特征，划分企业竞争评分等级；

按照投资价值划分评分等级；

挖掘公司认证资格竞争力信息，通过构造公司资历完善度特征来划分公司实力评分等级。

5.根据权利要求1所述的自动化机器学习方法，其特征在于，所述的自动模型融合步骤；融合方法为Stacking，还包括第一层采用过的模型有LightGBM、XGBoost、RandomForest、Support Vector Regressor、ExtraTreesRegressor。

6.一种根据权利要求5所述的自动化机器学习训练方法，其特征在于，所述的Stacking方式融合，上层进行k折交叉验证。

7.根据权利要求6所述的自动化机器学习训练方法，其特征在于：采用LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor模型，将验证集矩阵并列在一起、测试集矩阵合并在一起。

8.根据权利要求7所述的自动化机器学习训练方法，其特征在于：在Bagging中使用不同seed以及随机调整参数分别生成多个LightGBM和多个XGBoost模型；最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。

9.一种基于自动化机器学习装置，包括存储器和处理器，存储器存储有计算机程序，其特征在于；所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时实现如权利要求1-8任一所述的方法步骤。