CN111126607B

CN111126607B - 一种模型训练的数据处理方法、装置与系统

Info

Publication number: CN111126607B
Application number: CN202010249389.9A
Authority: CN
Inventors: 周胜平; 吴栋; 林俊杰; 吴敏; 梁乔忠; 仲景武
Original assignee: Alpha Cloud Computing Shenzhen Co ltd
Current assignee: Alpha Cloud Computing Shenzhen Co ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-09-29
Anticipated expiration: 2040-04-01
Also published as: CN111126607A

Abstract

本发明提出一种模型训练的数据处理方法，所述方法适用于AI模型训练过程，所述方法包括：配置AI算法、样本主数据与辅助数据集，将主数据与辅助数据集划分成训练集与验证集；对训练集作融合，将拟融合数据集使用遗传算法迭代；每轮迭代完成后选择模型效果评估值集的优先半区进入下一轮迭代，进入下一轮迭代前将优先拟融合数据进行交叉互换；最后得到最优的融合数据集，并确定数据的最优融合方式，以此训练生成最优AI模型。这种模型训练的数据处理方法可以使得AI算法具有更高灵活度与可定制化特性，进而使得AI应用更容易部署、加速AI应用的普及。

Description

一种模型训练的数据处理方法、装置与系统

技术领域

本申请涉及数据处理方法，主要涉及一种模型训练的数据处理方法、装置与系统。

背景技术

目前人们普遍认为人工智能（AI-Artificial Intelligence）会是二十一世纪及以后最具影响力的技术之一。而对于AI来说，核心的功能体现为AI模型，模型又是通过使用某种AI算法来训练样本得到的。因此，一个样本数据的质量往往对模型的效用与质量产生重大的影响。

从机器学习演进而来的增强学习，会使用数据增强的方式来提升样本的质量。一种典型的数据增强方式是输入更多的先验知识，另一种典型的数据增强方式是对数据作自循环式的广度组合或深度叠加。两种方式都希望最大可能地挖尽样本数据，提升样本数据的价值。

但对于任何一个特定样本数据来说，其包含的含义与模式也是有限的，因此上述数据增强方式的效果有限。

发明内容

因此，本申请提出解决上述问题、利用辅助数据（集）提升样本质量、并进一步提升训练所得模型质量的方法、系统和装置。这些方法，应用于不特定的工具、设备、系统甚至数据中心或云服务中心，从而构成一个带样本数据增强处理的模型训练系统。为此，本发明：

一方面，提出模型训练的数据处理方法，包括：

配置AI算法，所述AI算法用于训练生成AI模型；配置第一数据，所述第一数据为用于生成AI模型的样本主数据；配置第二数据集，所述第二数据集包含一个或多个第二数据，所述第二数据为辅助数据，所述第二数据用于对所述第一数据作融合式样本增强。进一步，还包括：生成第三数据，所述第三数据由共有元数据项对应数据的映射关系决定，所述共有元数据项为所述第一数据与所述第二数据所共有数据列对应的元数据项，将所述第三数据加入第三数据集；训练生成AI算法模型，所述AI算法模型的生成操作由所述AI算法完成，所述AI算法模型的结构由所述第三数据集决定；生成第四数据，所述第四数据为使用所述AI算法模型验证得来的模型效果评估值，将所述第四数据加入第四数据集；挑选第五数据集，所述第五数据集为所述第四数据集中模型效果评估值较优的部分，重置所述第三数据集，并启动新一轮的算法学习与模型生成过程的迭代。进一步，提取第六数据，所述第六数据为所述第三数据集中各数据的一个列值，将所述第六数据加入第六数据集；生成第七数据，所述第七数据为使用Attention机制融合所述第六数据集后的统一特征表示；将所述第七数据连接到神经网络的输出层；使用训练数据集训练所述深度神经网络，从而得到AI算法模型。进一步，将由所述第一数据与所述第二数据集所组成的集合划分为训练集与验证集。进一步，所述第三数据来自于所述训练集。进一步，使用所述验证集验证所述AI算法模型，从而得到所述第三数据对应的所述模型效果评估值。进一步，设置模型效果评估值阀值，在所述第四数据集中的最大值大于该阀值的情况下，完成算法迭代。进一步，生成第八数据，所述第八数据为所述第三数据间交叉互换的结果，进行所述交叉互换的第三数据来自于所述第五数据集的效果评估值对应的第三数据；将所述第八数据加入所述第八数据集；使用所述第八数据集重置所述第三数据集。

在一个部署有服务器集群或云数据中心网络的环境中，通过AI平台化与引擎化，从而为用户提供来自于数据中心的便捷易用的AI能力，而一个具有增强型样本的AI算法可以为用户提供更有吸引力的、高度可定制化的、高质量的AI模型。该增强型样本的数据处理过程为：接收作为主样本的数据，或者叫做主数据，与接收作为辅助样本的数据集，或者叫做辅助数据集，所述辅助数据集包含多个辅助数据，并将所述主数据与所述辅助数据集所构成的集合划分成训练数据集与验证数据集，或者叫做训练集与验证集；使用训练集中由主数据与辅助数据集所共有的元数据项作映射，生成新的数据集，叫做融合数据集；可以得到多个这种融合数据集形成的集合；在遗传算法中，构建深度神经网络时，将每个融合数据集的每列值转换成一个向量，然后使用SelfAttention机制将此向量进一步转换成统一的特征表示，将此特征表示与输出层连接起来，从而构成深度神经网络；使用训练数据集训练此深度神经网络，从而得到对应的AI算法模型；使用验证集验证每个对应的AI算法模型，从而得到每个融合数据集对应的模型效果评估值；从前述所有融合数据集对应的模型效果评估值所构成的效果评估值集中挑选最优半区，迭代构建深度神经网络，并进而训练生成AI算法模型。这个迭代过程所需要的新融合数据集来自于最优半区效果评估值对应的原融合数据集，这个迭代过程所需要的新融合数据集为将原融合数据集交叉互换所构成的拟增强数据集，使用由这些拟增强数据集所组成的集合代替由原融合数据集所组成的集合。在遗传算法的迭代过程中，如果出现某个模型效果评估值大于预先设定的模型效果评估值阀值的情况，迭代即告完成，从而得到期望的算法模型。可选地，在遗传算法的迭代过程中，如果迭代轮次数大于预先设定的次数值的情况，迭代即告完成，挑选得到目标算法模型。最后将所述模型部署到对应的应用环境。

这样，实施了包含上述部分或全部方法与步骤的产品与服务系统，能够通过增强样本来提供更高质量的AI模型，甚至在遗传算法的支持下，为同一AI算法提供更灵活的、高度定制化的模型输出结果，从而使得AI具有助推更便捷云应用与大数据应用的能力，加速云应用与大数据应用的推广与普及。

另一方面，提出模型训练的数据处理装置，该装置包含：

主数据：示意了AI算法训练用的样本主数据；

辅助数据集：示意了AI算法训练用的样本辅助数据集。所述主数据与该辅助数据集可以保存于数据存储器件、存储模块、或提供外部访问接口的存储系统中；

数据中台：该中台完成数据的各种转换与加工操作，以配合完成样本数据的拆解、融合与增强。具体地，该中台包含相应的数据访问接口、采集单元、拆解单元、融合单元、关联单元，这些单元分别提供对样本增强用的辅助数据收集、拆解、融合、关联等操作过程；

模型训练单元：该单元用于算法训练，以输出相应的模型。具体地，训练过程拟增强的融合训练样本，使用遗传算法以效果评估值的方式作迭代训练，在效果评估值阀值的监督下，或者在迭代轮次的实施下，最终得到目标AI算法模型。

本发明提出的上述接口与模块，同产品实际实施时所需要的其它单元、模块以及相关平台与相关引擎一起，共同实现一个基于限定主数据与非限定辅助数据集所构成的增强式模型训练过程，从而实现一个模型训练的数据处理装置。体现在：数据处理装置接收作为主样本的数据，或者叫做主数据，与接收作为辅助样本的数据集，或者叫做辅助数据集，所述辅助数据集包含多个辅助数据，数据处理装置将所述主数据与所述辅助数据集所构成的集合划分成训练数据集与验证数据集，或者叫做训练集与验证集；使用训练集中由主数据与辅助数据集所共有的元数据项作映射，数据处理装置生成新的数据集，叫做融合数据集；从而数据处理装置得到多个这种融合数据集形成的集合；在遗传算法里，构建深度神经网络是时，将数据处理装置将每个融合数据集的每列值转换成一个向量，然后使用SelfAttention机制将此向量进一步转换成统一的特征表示，将此特征表示与输出层连接起来，从而构成深度神经网络；数据处理装置使用训练数据集训练此深度神经网络，从而得到对应的AI算法模型；数据处理装置使用验证集验证每个对应的AI算法模型，从而得到每个融合数据集对应的模型效果评估值；数据处理装置从前述所有融合数据集对应的模型效果评估值所构成的模型效果评估值集中挑选最优半区，迭代构建深度神经网络，并进而训练生成AI算法模型。这个迭代过程所需要的新融合数据集来自于最优半区效果评估值对应的原融合数据集，这个迭代过程所需要的新融合数据集为将原融合数据集交叉互换所构成的拟增强数据集，数据处理装置使用由这些拟增强数据集所组成的集合代替由原融合数据集所组成的集合。在遗传算法的迭代过程中，如果出现某个模型效果评估值大于预先设定的模型效果评估值阀值的情况，迭代即告完成，数据处理装置得到期望的算法模型。可选地，在遗传算法的迭代过程中，如果迭代轮次数大于预先设定的次数值的情况，迭代即告完成，数据处理装置挑选得到目标算法模型。最后，数据处理装置将所述模型部署到对应的应用环境。

这样，具有上述功能装置的产品与服务系统，能够提供更高质量的AI模型，为同一AI算法提供高度定制化的、更灵活的模型输出结果，从而使得AI具有助推更便捷云应用与大数据应用的能力，加速云应用与大数据应用的推广与普及。

另一方面，提供了一种计算机可读存储介质，该计算机存储介质存储有程序指令，该程序指令当被处理器运行时，该处理器(分别)具有执行上述关于方法的实施过程。

另一方面，提供了一种管理的装置，包括存储组件，处理组件和通信组件，存储组件，处理组件和通信组件相互连接。其中，存储组件用于存储数据处理代码，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用程序代码，分别行使上述关于装置的功能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提出的模型训练的数据处理的系统组成图之一；

图2是本发明提出的模型训练的数据处理的系统组成图之一；

图3是本发明提出的模型训练的数据处理的系统组成图之一；

图4是本发明提出的模型训练的数据处理的数据示意图之一；

图5是本发明提出的模型训练的数据处理的数据示意图之一；

图6是本发明提出的模型训练的数据处理的算法结构示意图之一；

图7是本发明提出的模型训练的数据处理的操作执行流程之一；

图8是本发明提出的模型训练的数据处理的操作执行流程之一；

图9是本发明提出的模型训练的数据处理的操作执行流程之一；

图10是本发明提出的模型训练的数据处理的操作执行流程之一。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请书中使用的术语“服务器”、“设备”、“装置”、“单元”、“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，服务器可以是但不限于，处理器，数据处理平台，计算设备，计算机，两个或更多个计算机等；单元可以是但不限于，在处理器上运行的进程、可运行对象、可执行文件、执行线程、或其它任何可执行的计算机程序。一个或多个单元可驻留在进程和/或执行线程中，一个单元也可位于一个计算机上和/或分布在2个或更多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可根据具有一个或多个数据分组（例如来自与本地系统、分布式系统和/或网络间的另一单元交互的二个单元的数据，例如通过信号与其它系统交互的互联网）的信号通过本地和/或远程进程来通信。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。所列用语包含如下：

(1) 云计算：即CloudComputing，指那种拥有集成度优势、连接在网络环境中、以服务方式向用户提供计算、存储甚至软件能力的新型计算范式。这种新的计算范式跟旧有的计算范式的差异，体现在可感观与可用性上就是，它对用户而言并不存在可见的固定形态、甚至基本不存在无资源可用的状态，故被叫做云计算；

(2) 人工智能：即ArtificialIntelligence，简称AI，指那种通过计算系统模拟人类智能的方法、技术、软硬件及系统的泛称；

(3) 机器学习：机器学习属于AI领域的一个重要分支性技术。机器学习会从样本数据中提取数据模式，以便对应用数据做出尽可能好的预测。从目前的发展结果来看，机器学习分为监督学习、无监督学习与强化学习；

(4) 算法-样本-模型：这是机器学习的三个重要的概念。算法是一个先验性的指导，当然不同的机器学习类型决定了算法所具有的先验知识的多少；先验知识需要一定的数据量来转化及验证所得的预测能力，这些一定量的数据，叫做样本；算法在样本数据所提供的值空间里寻找某种针对未来数据作预测与处理的能力，这种能力的机器表示，就是模型。一般情况下，样本会被分为训练样本与验证样本；

(5) 遗传算法：即Genetic Algorithm，是指计算机算法实现中用来模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算方法之一种，它是通过模拟自然进化过程来搜索最优解的方法。遗传算法是从代表问题可能潜在的解集的一个种群（population）开始的，而一个种群则由经过基因（gene）编码的一定数目的个体(individual)组成。个体间通过交叉与变异、以及优胜劣汰的方式逐代逐代地进行进化，从而最终得到最优解的计算方法。

其次，对本发明的目标问题、解决目标问题的技术方法作概览。随着AI应用的深入，人们对AI提出了高质量、易用性与便捷性方面的要求。传统的AI基于特定样本作训练得到AI模型的方法，限制了AI的灵活性。在样本数据必定是有限而AI算法又是稀缺的现实情况下，为解决这个矛盾，本发明提出一种通过更灵活的增强样本方法来提升AI模型生成的灵活性，从而提升AI应用的易用性与便捷性，便于AI在更大范围内的推广与普及。

再次，结合各附图，对发明内容作进一步的阐述。其中：

如图1为本发明的系统组成图之一。该图示意了一种关于数据协同及样本增强功能实现的组成关系。其中：

101-主数据：示意了作用AI算法训练用的样本主数据；

102-辅助数据集：示意了作用AI算法训练用的样本辅助数据集；

103-数据中台：该中台完成数据的各种转换与加工操作，以配合完成样本数据的协同与增强；

104-模型训练单元：该单元用于算法训练，以输出相应的模型。

如图2为本发明的系统组成图之一。该图示意了一种关于数据协同及样本增强功能实现的组成关系。其中：

201-主数据：示意了作用AI算法训练用的样本主数据；

202-辅助数据集：示意了作用AI算法训练用的样本辅助数据集；

211-数据存储接口：该接口用于完成对所需数据的存取操作；

212-数据采集单元：该单元用于数据中台所维护与管理数据的原始采集等操作；

213-数据拆解单元：该单元用于对样本增强所需要的数据拆解操作；

214-数据融合单元：该单元用于对样本增强所需要的数据融合操作。

215-数据关联单元：该单元用于对样本增强所需要的数据关联操作；

221-模型训练单元：该单元用于迭代执行遗传算法过程，从而得到适应度最优联合数据个体，从而得到联合数据集。

如图3为本发明的系统组成图之一。该图示意了前述功能组成的划分关系。其中：

301-数据交互单元：该单元用于提供应用层与中台间的数据交互与数据控制；

302-应用采集单元：该单元用于提供对应用的采集使能、数据采集；

311-增强策略单元：该单元用于提供与管理样本增强所需要的增强策略；

312-模型训练单元：该单元用于迭代执行遗传算法过程，从而得到适应度最优联合数据个体，从而得到联合数据集；

313-模型评估单元：该单元用于对拟增强的样本作评估，评估使用验证样本子集；

321-数据采集单元：该单元用于对采集数据作管理；

322-数据关联单元：该单元用于对拆解后的数据作关联性分析；

323-数据拆解单元：该单元用于对辅助数据作拆解；

324-数据融合单元：该单元用于对拟增强作融合；

331-AI建模引擎：该引擎用于提供算法建模所需要的运算支撑；

332-大数据引擎：该引擎用于提供数据其它处理所需要的能力与服务支撑。

如图4为本发明的数据示意图之一。该图示意了发明申请所使用的主数据与辅助数据在映射关系与融合转化的表达方式。其中：

401-主数据示意：该示意一个待作算法训练的样本数据；

402-辅助数据集示意：该示意了一个待作样本增强的辅助数据集；

403-主数据元数据项示意：该示意了主数据对应的元数据项；

404-辅助数据元数据项示意：该示意了辅助数据集的元数据项；

405-主数据的元数据示意：该示意了主数据对应的完整元数据；

406-辅助数据对应的元数据集示意：该示意了辅助数据各子集对应的元数据子集，各辅助数据子集的元数据间存在可能相同的元数据项；

407-主数据中的验证数据：该示意了主数据划分出来的验证数据；

408-主数据中的训练数据：该示意了主数据划分出来的训练数据；

409-辅助数据集中的辅助数据子集：该示意了辅助数据集里对应的部分辅助数据子集；

需要说明的是：一方面，401与402所示意的主数据与辅助数据集，应该是一个模糊性的表示，其它部分的元数据层与数据层示意了一种映射关系；另一方面，无论是403~406，还是407~409，都不用于对数据的广度与深度的限定；再一方面，该图的数据关系的简单示意，更非对发明实施的具体限定；再次，示意图给出了共有的元数据项ID，它们在主数据与辅助数据同时具有的列值。

如图5为本发明的数据示意图之一。该图示意（假设存在）了一个实施了发明核心方法的样例产品：通过照片直接判断职业与技能特长。该产品主要使用简历网站的数据作为样本训练得到算法模型、再以该模型来识别目标图片的主人之职业与技能特长；所述对发明核心方法的实施即：将简历网站的数据样本主数据，将其它网站可获得的数据作为辅助数据，通过梳理其它网站的信息得到分门别类的信息，在类型可对应的情况下，将辅助数据与简历网站数据作拟增强融合，再将融合后的数据作为最终样本来作算法训练，从而得到新的“图片->职业”的识别模型。在该示意图中，共有ID元数据项对应的内部编号，即为统一ID的列值。其中：

501-简历网站的主数据，简历数据；

502-用作增强的辅助数据，来自于如论坛/学术等的加工数据；

503-简历数据的元数据项；

504-其它种类数据的描述项；

505-简历数据的元数据；

506-其它种类的元数据；

507简历数据集中的验证数据；

508-简历数据集；

509-用作对简历数据进行增强的、分类提取的各类辅助数据。

如图6为实现本发明的算法结构示意图之一。该图示意遗传算法内部对数据表示、转换以及深度神经网络构建的实现过程。其中：

601算法输出层，即最终模型的表示；

602-Attention表示层；

603-SelfAttention表示层；

604-输入层。

如图7为实现本发明的操作执行流程图之一。该图示意一个基于遗传算法作迭代式训练样本融合的数据处理过程。其中：

10A-初始化种群：该操作用于设置数据融合参数、初始化融合过程所需要的空间与其它资源等；

10B-种群数据融合：该操作用于将样本主数据与辅助分别作融合生成拟增强数据；

10C-SelfAttention处理与神经网络构建：该操作用于将拟融合数据向量化，然后使用SelfAttention机制处理，并以统一特征表示的结果与输出层相连，从而生成深度神经网络；

10D-验证深度神经网络：该操作用于使用验证集对深度神经网络进行验证，从而得到模型效果评估值；

10E-适应度判断：该操作用于使用训练数据集训练深度神经网络，从而得到AI算法模型；进一步使用验证数据集验证AI算法模型，得到模型的效果评估值。如果模型效果评估值所体现的种群适应度满足要求，则确定主数据的增强联合个体（集）；如果适应度不满足要求，则进行下一轮的迭代优化；

10F-结束遗传算法处理过程：在模型效果评估值所体现的适应满足要求的情况下，结束遗传算法的处理过程；

10G-优化种群：该操作用于得到访轮次所有的拟融合数据集，取模型效果评估值集的优选半区所对应的拟融合数据。后续的种群数据融合策略设置为模型效果评估值集优先半区所对应的拟融合数据进行交叉互换。

如图8为实现本发明的操作执行流程图之一。该图示意一个遗传算法下数据向量化到深度神经网络与模型的生成验证过程。其中：

20A-数据融合：该操作用于根据主数据与辅助数据集中统一的元数据项来生成融合数据集；

20B-数据项映射与向量生成：该操作用于使用元数据中的共有项作映射，将融合数据集中的各列值向量化；

20C-特征表示：该操作用于将各向量化结果融合为统一的特征表示；

20D-神经网络的生成：该操作用于将统一特征表示的向量连接到输出层，从而生成深度神经网络；

20E-训练神经网络：该操作用于使用训练数据集对深度神经网络作训练，从而生成AI算法模型；

20F-验证模型：该操作用于使用验证数据集对AI算法模型作验证，从而得到模型效果评估值，判定神经网络的适应度。

如图9为实现本发明的操作执行流程图之一。该图示意一个遗传算法下对样本主数据与辅助数据集迭代式融合的处理过程。其中：

30A-拆解主数据与辅助数据集：该操作用于对样本主数据与辅助数据集按元数据项粒度作拆解；

30B-数据融合：该操作用于将所拆解的数据集，按统一元数据项作可能的融合；

30C-神经网络生成：该操作用于为图9所完成功能，即对每种融合方式的融合数据集的列值向量化后，生成神经网络，再使用训练数据集作训练，并使用验证数据集取得模型效果评估值；

30D-迭代融合方式下的所有数据：该操作用于将融合方式下生成的所有数据进行融合，根据所得模型效果评估值组成的模型效果评估值集，判断是否需要作迭代；

30E-交叉数据，进行新的融合迭代：该操作用于在适应度不满足的情况下，优先模型效果评估值集的上半区，对拟融合数据集的各数据以交叉互换的方式生成新的融合方式，进入20C以处理新生成的拟融合数据集；

30F-输出融合方式：该操作用于输出最佳的样本主数据与辅助数据集间的融合方式。

如图10为实现本发明的操作执行流程图之一。该图示意样本主数据与辅助数据集迭代式融合处理的总过程。其中：

40A-接收数据与辅助数据集：该操作用于接收与获取样本主数据与辅助数据集；

40B-划分训练数据集与验证数据集：该操作用于对主数据与辅助数据集作划分，从而得到训练数据集与验证数据集；

40C-初始化遗传算法种群：该操作用于预设遗传算法的开始条件，以及初始化算法种群信息；

40D-迭代执行算法的处理过程：该操作用于迭代执行算法过程，并在每轮迭代中检查与挑选满足适应度的个体；

40E-得到适应度最优的融合数据集：该操作用于在取得适应度最优的融合数据集；

40F-部署目标算法模型：该操作用于部署前述所得的最优算法模型。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于单个网络节点内，或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，根据具体约束与实现所需，在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在，也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台或一台以上计算机设备 (可以是个人计算机，服务器，或者网络设备等) 执行各个本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着先后执行的严格顺序，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

Claims

1.一种模型训练的数据处理方法，所述模型用于构建AI系统，所述方法包括：

配置AI算法，所述AI算法用于训练生成AI模型；

配置第一数据，所述第一数据为用于生成AI模型的样本主数据；所述样本主数据包含简历网站的数据；

配置第二数据集，所述第二数据集包含一个或多个第二数据，所述第二数据作为所述第一数据的辅助数据用于对所述第一数据作融合式样本增强；其它网站获得的数据作为所述辅助数据，所述其它网站包括学术/论坛；进一步，还包括：

生成第三数据，所述第三数据由共有元数据项对应数据的映射关系决定，所述共有元数据项为所述第一数据与所述一个或多个第二数据所共有数据列对应的元数据项，将所述第三数据加入第三数据集；按照ID字段的关联关系融合所述第一数据与所述第二数据即生成所述第三数据，所有所述第三数据组成所述第三数据集；

构建深度神经网络，对所述深度神经网络的构建操作由所述AI算法完成，所述深度神经网络的结构由所述第三数据集决定；所述构建深度神经网络包括将所述简历网站的数据与学术/论坛获得的数据进行融合后得到的每个融合数据集的每列值转换成一个向量，然后使用Self Attention机制将所述向量进一步转换成统一的特征表示，将所述特征表示与输出层连接起来，从而构成所述深度神经网络；所述输出层用于判断输入简历匹配的职位；

生成第四数据，所述第四数据为使用所述深度神经网络验证得来的模型效果评估值，将所述第四数据加入第四数据集；

挑选第五数据集，所述第五数据集为所述第四数据集中模型效果评估值较优的部分，并启动新一轮的算法迭代；

通过梳理所述其它网站的信息得到分门别类的信息，在类型对应的情况下，将所述辅助数据与所述简历网站的数据作拟增强融合，再将融合后的数据作为最终样本来作算法训练，从而得到新的“图片->职业”的识别模型。

2.根据权利要求1所述方法，其特征在于，所述深度神经网络的结构由所述第三数据集决定，还包括：

提取第六数据，所述第六数据为所述第三数据集中各数据的一个列值，将所述第六数据加入第六数据集；

生成第七数据，所述第七数据为使用Attention机制融合所述第六数据集后的统一特征表示；

将所述第七数据连接到神经网络的输出层；

使用训练集训练所述深度神经网络。

3.根据权利要求1所述方法，其特征在于，所述对所述第一数据与所述第二数据集的配置，还包括：

划分所述第一数据与所述第二数据集组成的集合为训练集与验证集。

4.根据权利要求3所述方法，其特征在于，所述生成第三数据，还包括：

所述第三数据来自于所述训练集。

5.根据权利要求4所述方法，其特征在于，所述生成第四数据，还包括：

使用所述验证集验证所述深度神经网络，从而得到所述第三数据对应的所述模型效果评估值。

6.根据权利要求1所述方法，其特征在于，所述挑选第五数据集，还包括：

设置模型效果评估值阈值，在所述第四数据集中的最大值大于该阈值的情况下，完成算法迭代。

7.根据权利要求1所述方法，其特征在于，所述挑选第五数据集，还包括：

生成第八数据，所述第八数据为多个所述第三数据互换生成的新数据，所述第三数据均来自于所述第五数据集的模型效果评估值对应的第三数据；

将所述第八数据加入所述第八数据集；

使用所述第八数据集重置所述第三数据集。

8.一种计算机程序，其特征在于，所述计算机程序包含执行权利要求1-7任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

10.一种执行计算机程序的装置，其特征在于，包括处理组件、存储组件和通信模组件，处理组件、存储组件和通信组件相互连接，其中，存储组件用于存储数据处理代码，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用程序代码，执行如权利要求1-7任一项所述的方法。