CN111126578B - 一种模型训练的联合数据处理方法、装置与系统 - Google Patents

一种模型训练的联合数据处理方法、装置与系统 Download PDF

Info

Publication number
CN111126578B
CN111126578B CN202010249329.7A CN202010249329A CN111126578B CN 111126578 B CN111126578 B CN 111126578B CN 202010249329 A CN202010249329 A CN 202010249329A CN 111126578 B CN111126578 B CN 111126578B
Authority
CN
China
Prior art keywords
data
data set
training
joint
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010249329.7A
Other languages
English (en)
Other versions
CN111126578A (zh
Inventor
周胜平
吴栋
林俊杰
吴敏
梁乔忠
仲景武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpha Cloud Computing Shenzhen Co ltd
Original Assignee
Alpha Cloud Computing Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpha Cloud Computing Shenzhen Co ltd filed Critical Alpha Cloud Computing Shenzhen Co ltd
Priority to CN202010249329.7A priority Critical patent/CN111126578B/zh
Publication of CN111126578A publication Critical patent/CN111126578A/zh
Application granted granted Critical
Publication of CN111126578B publication Critical patent/CN111126578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种模型训练的联合数据处理方法,所述方法适用于AI模型训练过程,所述方法包括:配置AI算法、样本数据集,将数据集划分成训练集与验证集;对训练集中的各数据作拆解与联合,将拟联合数据集使用遗传算法迭代;每轮迭代完成后选择模型效果评估值集的优先半区进入下一轮迭代,进入下一轮迭代前将优先拟融合数据进行交叉互换;最后得到最优的融合数据集,并确定数据的最优融合方式,以此训练生成最优AI模型。这种模型训练的数据处理方法可以使得AI算法具有更高灵活度与可定制化特性,进而使得AI应用更容易部署、加速AI应用的普及。

Description

一种模型训练的联合数据处理方法、装置与系统
技术领域
本申请涉及数据处理方法,主要涉及一种模型训练的联合数据处理方法、装置与系统。
背景技术
目前人们普遍认为人工智能(AI-Artificial Intelligence)会是二十一世纪及以后最具影响力的技术之一。而对于AI来说,核心的功能体现为AI模型,AI模型又是通过使用某种AI算法来训练一定规模的样本数据得到的。因此,一个样本数据的质量往往对模型的效用与质量产生重大的影响。
从机器学习演进而来的增强学习,会使用数据增强的方式来提升样本的质量。一种典型的数据增强方式是输入更多的先验知识,另一种典型的数据增强方式是对数据作自循环式的广度组合或深度叠加。两种方式都希望最大可能地挖尽样本数据,提升样本数据的价值。
但对于任何一个特定样本数据来说,其包含的含义与模式也是有限的,因此上述数据增强方式的效果有限。
发明内容
因此,本申请提出解决上述问题、利用多数据联合提升样本质量、并进一步提升训练所得模型质量的方法、系统和装置。这些方法,应用于不特定的工具、设备、系统甚至数据中心或云服务中心,从而构成一个模型训练的联合数据处理系统。为此,本发明:
一方面,提出模型训练的联合数据处理方法,包括:
配置AI算法,所述AI算法用于生成构建深度神经网络;配置第一数据集,所述第一数据集包含多个第一数据,所述第一数据为联合增强与协同训练的样本数据。进一步,还包括:生成第二数据,所述第二数据包含第四数据的某个子集,所述第四数据为所述第一数据集中的至少两个第一数据的交集的超集,所述第二数据还包含形成所述交集的所述至少两个第一数据中的一个第一数据,将所述第二数据加入第二数据集;构建深度神经网络组,所述对深度神经网络的构建操作由所述AI算法完成,所述深度神经网络的结构由对应的所述第二数据确定,所述深度神经网络间的组合由多个所述第二数据确定;生成第三数据,所述第三数据为使用所述深度神经网络组验证得来的效果评估值,将所述第三数据加入第三数据集;生成第五数据集,所述第五数据集为所述第三数据集中效果评估值较优的部分;生成第六数据,所述第六数据为所述模型的模型参数,使用所述第二数据集的某子集训练所述模型,从而得到所述第六数据。进一步,获取所述第二数据集的一个子集,所述子集包含至少一个第二数据,所述子集的其它第二数据跟另一个第二数据属于关联数据;使用所述子集构建深度神经网络组;根据所述子集的关联关系,分配与部署训练任务组,所述任务组用于执行所述深度神经网络组的构建过程。进一步,Embedding化所述子集各数据的列值;联合所述子集各数据的列值为统一的特征表示,所述联合过程使用SelfAttention与Attention机制;将所述联合结果的特征表示与网络的输出层相连。进一步,使用训练数据集训练该深度神经网络组;使用验证数据集评估该深度神经网络组。进一步,挑选第七数据,所述第七数据对应所述第五数据集中的一个第五数据,将所述第七数据加入第七数据集;生成第八数据集,所述第八数据集为所述第七数据集中数据通过交叉互换得到;将所述第八数据集加入所述第二数据集。进一步,生成第九数据集,将每个轮次下所生成的所述第五数据集加入所述第九数据集;根据所述第九数据集,生成与部署协同性联合学习任务;启动联合学习任务,训练所述模型。进一步,部署所述联合模型,必要时同时部署所述协同性任务组信息。
在一个部署有服务器集群或云数据中心网络的环境中,通过AI平台化与引擎化,从而为用户提供来自于数据中心的便捷易用的AI能力,而一个具有联合增强样本的AI算法可以为用户提供更有吸引力的、高度可定制化的、高质量的AI模型。该模型训练的联合数据处理过程,其为一:接收待联合的各样本数据组成的数据集;将该数据集划分成训练数据集与验证数据集;初始化遗传算法;启动对样本数据集的拆解与联合操作:记样本数据集的个数为m,执行该m个样本数据的遗传算法迭代;得到协同性联合任务组信息与联合模型;部署所得的联合模型以及协同性联合任务信息。其中,所述m个样本数据的遗传算法迭代是这样一个循环执行过程,其为二:设定循环执行的控制次数;根据模型参数拆解该m个数据的元数据;根据模型参数确定各数据的初始联合目标;初始化遗传算法的种群,即根据联合目标得到联合个体数据集;执行遗传算法的内部迭代过程,固化所得最优的联合个体;得到各数据的最优联合个体数据集与联合方式;在迭代数据小于控制次数或优质个数不满足要求的情况下,迭代继续进行。这样,就完成从样本数据集中总m个数据的遗传算法处理过程,从而得到各样本数据对应的联合模型以及协同性任务组信息。其中,所述遗传算法的迭代过程是这样一个循环执行过程,其为三:根据共有元数据项确定各数据间的列值的联合方式;构建与提取公共神经网络模块,所述公共神经网络模块可以是文本Embedding神经网络模块、或者图像Embedding神经网络模块、或者视频Embedding神经网络模块等;使用Self-Attention和Attention机制将各列值对应Embedding联合为统一的特征表示;将所述统一特征表示与输出层相连,构建得到深度神经网络组;根据特征表示构建协同训练的任务组,并部署算法训练任务;训练深度神经网络组,更新公共神经网络模块以及模型的参数;使用验证数据集评估深度神经网络组,得到各联合个体数据的适应度集;固化与选择优质个体;在非全部个体满足条件的情况下,在优质联合个体间作交叉互换,从而执行新一轮的深度神经网络组的构建;在全部联合个体满足条件的情况下,记录与该总m个数据的优质联合个体数据集。
这样,实施了包含上述部分或全部方法与步骤的产品与服务系统,能够通过联合协同性样本来提供更高质量的AI模型,甚至在遗传算法的支持下,为同一AI算法提供更灵活的、高度定制化的模型输出结果,从而使得AI具有助推更便捷云应用与大数据应用的能力,加速云应用与大数据应用的推广与普及。
另一方面,提出模型训练的数据处理装置,该装置包含:
样本数据-1:示意了AI算法训练用的某个样本数据;
样本数据集-2:示意了AI算法训练用的样本数据集。所述样本数据-1与样本数据集-2可以保存于数据存储器件、存储模块、或提供外部访问接口的存储系统中;
数据中台:该中台完成数据的各种转换与加工操作,以配合完成样本数据的拆解、联合与增强。具体地,该中台包含相应的数据访问接口、采集单元、拆解单元、联合单元、关联单元,这些单元分别提供对样本增强用的各样本数据收集、拆解、联合、关联等操作过程;
模型训练单元:该单元用于算法训练,以输出相应的模型。具体地,该模型训练单元用于执行遗传算法;
联合建模单元:该单元用于生成任务组,执行协同式联合建模任务。
本发明提出的上述接口与模块,同产品实际实施时所需要的其它单元、模块以及相关平台与相关引擎一起,共同实现一个基于限定操作主数据与非限定操作辅助数据集所构成的增强联合模型训练过程,从而实现一个模型训练的联合数据处理装置。体现在:其为一:联合数据处理装置接收待联合的各样本数据组成的数据集;联合数据处理装置将该数据集划分成训练数据集与验证数据集;联合数据处理装置初始化遗传算法;联合数据处理装置启动对样本数据集的拆解与联合操作:记样本数据集的个数为m,联合数据处理装置执行该m个样本数据的遗传算法迭代;联合数据处理装置得到协同性联合任务组信息与联合模型;联合数据处理装置部署所得的联合模型以及协同性联合任务信息。其中,所述m个样本数据的遗传算法迭代是这样一个循环执行过程,其为二:联合数据处理装置设定循环执行的控制次数;根据模型参数,联合数据处理装置拆解该m个数据的元数据;根据模型参数,联合数据处理装置确定各数据的初始联合目标;联合数据处理装置初始化遗传算法的种群,即根据联合目标得到联合个体数据集;联合数据处理装置执行遗传算法的内部迭代过程,固化所得最优的联合个体;联合数据处理装置得到各数据的最优联合个体数据集与联合方式;在迭代数据小于控制次数或优质个数不满足要求的情况下,联合数据处理装置将迭代继续进行。这样,就完成从样本数据集中总m个数据的遗传算法处理过程,从而联合数据处理装置得到各样本数据对应的联合模型以及协同性任务组信息。其中,所述遗传算法的迭代过程是这样一个循环执行过程,其为三:根据共有元数据项,联合数据处理装置确定各数据间的列值的联合方式;联合数据处理装置构建与提取公共神经网络模块,所述公共神经网络模块可以是文本Embedding神经网络模块、或者图像Embedding神经网络模块、或者视频Embedding神经网络模块等;联合数据处理装置使用Self-Attention和Attention机制将各列值对应Embedding联合为统一的特征表示;联合数据处理装置将所述统一特征表示与输出层相连,构建得到深度神经网络组;根据特征表示,联合数据处理装置构建协同训练的任务组,并部署算法训练任务;联合数据处理装置训练深度神经网络组,更新公共神经网络模块以及模型的参数;联合数据处理装置使用验证数据集评估深度神经网络组,得到各联合个体数据的适应度集;联合数据处理装置固化与选择优质个体;在非全部个体满足条件的情况下,联合数据处理装置在优质联合个体间作交叉互换,从而执行新一轮的深度神经网络组的构建;在全部联合个体满足条件的情况下,联合数据处理装置记录与该总m个数据的优质联合个体数据集。
这样,具有上述功能装置的产品与服务系统,能够提供更高质量的AI模型,为同一AI算法提供高度定制化的、更灵活的模型输出结果,从而使得AI具有助推更便捷云应用与大数据应用的能力,加速云应用与大数据应用的推广与普及。
另一方面,提供了一种计算机可读存储介质,该计算机存储介质存储有程序指令,该程序指令当被处理器运行时,该处理器(分别)具有执行上述关于方法的实施过程。
另一方面,提供了一种管理的装置,包括存储组件,处理组件和通信组件,存储组件,处理组件和通信组件相互连接。其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,分别行使上述关于装置的功能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提出的模型训练的数据处理的系统组成图之一;
图2是本发明提出的模型训练的数据处理的系统组成图之一;
图3是本发明提出的模型训练的数据处理的系统组成图之一;
图4是本发明提出的模型训练的数据处理的数据示意图之一;
图5是本发明提出的模型训练的数据处理的数据示意图之一;
图6是本发明提出的模型训练的数据处理的数据示意图之一;
图7是本发明提出的模型训练的数据处理的算法结构示意图之一;
图8是本发明提出的模型训练的数据处理的操作执行流程之一;
图9是本发明提出的模型训练的数据处理的操作执行流程之一;
图10是本发明提出的模型训练的数据处理的操作执行流程之一;
图11是本发明提出的模型训练的数据处理的操作执行流程之一。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请书中使用的术语“服务器”、“设备”、“装置”、“单元”、“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,服务器可以是但不限于,处理器,数据处理平台,计算设备,计算机,两个或更多个计算机等;单元可以是但不限于,在处理器上运行的进程、可运行对象、可执行文件、执行线程、或其它任何可执行的计算机程序。一个或多个单元可驻留在进程和/或执行线程中,一个单元也可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的二个单元的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。所列用语包含如下:
(1) 云计算:即CloudComputing,指那种拥有集成度优势、连接在网络环境中、以服务方式向用户提供计算、存储甚至软件能力的新型计算范式。这种新的计算范式跟旧有的计算范式的差异,体现在可感观与可用性上就是,它对用户而言并不存在可见的固定形态、甚至基本不存在无资源可用的状态,故被叫做云计算;
(2) 人工智能:即ArtificialIntelligence,简称AI,指那种通过计算系统模拟人类智能的方法、技术、软硬件及系统的泛称;
(3) 机器学习:机器学习属于AI领域的一个重要分支性技术。机器学习会从样本数据中提取数据模式,以便对应用数据做出尽可能好的预测。从目前的发展结果来看,机器学习分为监督学习、无监督学习与强化学习;
(4) 算法-样本-模型:这是机器学习的三个重要的概念。算法是一个先验性的指导,当然不同的机器学习类型决定了算法所具有的先验知识的多少;先验知识需要一定的数据量来转化及验证所得的预测能力,这些一定量的数据,叫做样本;算法在样本数据所提供的值空间里寻找某种针对未来数据作预测与处理的能力,这种能力的机器表示,就是模型。一般情况下,样本会被分为训练样本与验证样本;
(5) 遗传算法:即Genetic Algorithm,是指计算机算法实现中用来模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算方法之一种,它是通过模拟自然进化过程来搜索最优解的方法。遗传算法是从代表问题可能潜在的解集的一个种群(population)开始的,而一个种群则由经过基因(gene)编码的一定数目的个体(individual)组成。个体间通过交叉与变异、以及优胜劣汰的方式逐代逐代地进行进化,从而最终得到最优个体(集)的计算方法。
其次,对本发明的目标问题、解决目标问题的技术方法作概览。随着AI应用的深入,人们对AI提出了高质量、易用性与便捷性方面的要求。传统的AI基于特定样本作训练得到AI模型的方法,限制了AI的灵活性。在样本数据必定是有限而AI算法又是稀缺的现实情况下,为解决这个矛盾,本发明提出一种通过更灵活的样本联合训练方法来提升AI模型生成的灵活性,从而提升AI应用的易用性与便捷性,便于AI在更大范围内的推广与普及。
再次,结合各附图,对发明内容作进一步的阐述。其中:
如图1为本发明的系统组成图之一。该图示意了一种关于数据协同及样本联合训练实现的组成关系。其中:
101-样本数据-1:示意了AI算法训练用的某个样本数据;
102-样本数据集-2:示意了AI算法训练用的样本数据集。所述样本数据-1与样本数据集-2可以保存于数据存储器件、存储模块、或提供外部访问接口的存储系统中。需要说明的是,这里的样本数据1与样本数据集-2并没有严格的概念区分,仅是用作操作说明的方便;
103-数据中台:该中台完成数据的各种转换与加工操作,以配合完成样本数据的拆解、联合与增强。具体地,该中台包含相应的数据访问接口、采集单元、拆解单元、联合单元、关联单元,这些单元分别提供对样本增强用的各样本数据集收集、拆解、联合、关联等操作过程;
104-模型训练单元:该单元用于算法训练,以输出相应的模型。具体地,该模型训练单元用于执行遗传算法;
105-联合建模单元:该单元用于生成任务组,执行协同式联合建模任务。
如图2为本发明的系统组成图之一。该图示意了一种关于数据协同及样本增强功能实现的组成关系。其中:
201-样本数据1:示意了作用AI算法训练用的样本操作主数据;
202-样本数据集2:示意了作用AI算法训练用的样本操作辅助数据集;
211-数据存储接口:该接口用于完成对所需数据的存取操作;
212-数据采集单元:该单元用于数据中台所维护与管理数据的原始采集等操作;
213-数据拆解单元:该单元用于对样本增强所需要的数据拆解操作;
214-数据联合单元:该单元用于对样本增强所需要的数据联合操作;
215-数据关联单元:该单元用于对样本增强所需要的数据关联操作;
221-模型训练单元:该单元用于算法训练,以输出相应的模型。具体地,该模型训练单元用于执行遗传算法;
222-联合建模单元:该单元用于生成任务组,执行协同式联合建模任务。
如图3为本发明的系统组成图之一。该图示意了前述功能组成的划分关系。其中:
301-数据交互单元:该单元用于提供应用层与中台间的数据交互与数据控制;
302-应用采集单元:该单元用于提供对应用的采集使能、数据采集;
311-联合建模单元:该单元用于生成任务组,执行协同式联合建模任务;
312-模型训练单元:该单元用于算法训练,以输出相应的模型。具体地,该模型训练单元用于执行遗传算法;
313-模型评估单元:该单元用于对各样本数据联合所得个体作评估,评估使用验证数据集,验证得到个体适应度值;
321-数据采集单元:该单元用于对采集数据作管理;
322-数据关联单元:该单元用于对拆解后的数据作关联性分析;
323-数据拆解单元:该单元用于对样本数据集作拆解;
324-数据联合单元:该单元用于根据联合方式完成对数据间的联合;
331-AI建模引擎:该引擎用于提供算法建模所需要的运算支撑;
332-大数据引擎:该引擎用于提供数据其它处理所需要的能力与服务支撑。
如图4为本发明的数据示意图之一。该图示意了发明申请所使用的操作主数据与操作辅助数据在映射关系与联合转化的表达方式。其中:
401-样本数据1:该示意一个待用作模型训练的操作主数据1;
402-样本数据集2:该示意了一个样本数据集2,该数据集用作跟操作主数据1作联合增强;
403-样本数据1的元数据项示意:该示意了样本数据1对应的各元数据项;
404-样本数据集2的元数据项示意:该示意了样本数据集2的各元数据项;
405-数据1的元数据示意:该示意了数据1对应的完整元数据;
406-样本数据集2对应的元数据集示意:该示意了数据集2对应的元数据子集,数据集各数据对应的元数据间存在可能相同的元数据项;
407-主数据中的验证数据:该示意了样本数据1划分出来的验证数据;
408-主数据中的训练数据:该示意了样本数据1划分出来的训练数据;
409-样本数据集2中的各数据:该示意了样本数据集2里对应的各部分数据;
需要说明的是:一方面,401与402所示意的样本数据1与样本数据集2,应该是一个模糊性的表示,其它部分的元数据层与数据层示意了一种映射关系;另一方面,无论是403~406,还是407~409,都不用于对数据的广度与深度的限定;再一方面,该图的数据关系的简单示意,更非对发明实施的具体限定;再次,示意图给出了共有的元数据项ID,它们在操作主数据与操作辅助数据同时具有的列值。
如图5为本发明的数据示意图之一。该图示意(假设存在)了一个实施了发明核心方法的样例产品:通过照片直接判断职业与技能特长。该产品主要使用简历网站的数据作为样本训练得到算法模型、再以该模型来识别目标图片的主人之职业与技能特长;所述对发明核心方法的实施即:将简历网站的数据样本数据1,将其它网站可获得的数据作为其它联合数据,通过梳理其它网站的信息得到分门别类的信息,在类型可对应的情况下,将其它联合数据与简历网站数据作联合增强,再将联合后的数据作为最终样本作算法学习,从而得到新的“图片->职业”的识别模型。需要说明的是,该示意图仅给出以论坛与学术对简历增强的示意,发明方法同样适用于以论坛与简历对学术作增强,以及其它联合增强方向,在此不作赘述。在该示意图中,共有ID元数据项对应的内部编号,即为统一ID的列值。其中:
501-简历网站的数据,简历数据;
502-用作协同与联合的数据集,来自于如论坛/学术等的加工数据;
503-简历数据的元数据项;
504-其它种类数据的描述项;
505-简历数据的元数据;
506-其它种类的元数据;
507简历数据集中的验证数据;
508-简历数据集;
509-用作对简历数据进行联合与增强的、分类提取的各类操作辅助数据。
如图6为实现本发明的产品数据示意图之一。该图示意通过对待数据作联合作拆解与联合、并基于该拆解与联合部署联合训练任务的关系。其中:
601-示意了实施发明技术方法的某产品所处理的数据(图示为数据-1)之一,该数据包含将与另一数据(图示为数据-i)进行联合的数据子集;
602-示意了实施发明技术方法的某产品所处理的数据之二(图示为数据-i),该数据包含将与另一个数据(图示为数据-1)进行联合的数据子集;
611-示意了实施发明技术方法的某产品的数据-1在完成拆解后的结果数据-10,即它明确标识出某部分数据将与其它数据进行联合训练;
612-示意了实施发明技术方法的某产品的数据-1在完成拆解后的结果数据-11,即基于该数据作联合训练;
613-示意了实施发明技术方法的某产品的数据-i在完成拆解后的结果数据-i1,即基于该数据作联合训练;
614-示意了实施发明技术方法的某产品的数据-i在完成拆解后的结果数据-i0,即它明确标识出某部分数据将与其它数据进行联合训练;
621-示意了实施发明技术方法的某产品的数据-10所对应的训练任务A;
622-示意了实施发明技术方法的某产品的数据-11所对应的训练任务B;
623-示意了实施发明技术方法的某产品的数据-i1所对应的训练任务B’;
624-示意了实施发明技术方法的某产品的数据-i0所对应的训练任务C。
需要说明的是:其一,图6仅作为实施发明核心方法的产品部分特征示意,而非产品全部特征示意,更非发明方法与特征的任何限定;其二,实施发明核心方法的产品所处理的数据可能不只两个,这里只仅示意其中的两个;其三,这示意的是数据联合训练的三阶段-即从数据到数据拆解、从数据拆解到联合训练任务部署-的转换与对应关系,其它操作与对应关系不在图中说明。
如图7为实现本发明的算法结构示意图之一。该图示意遗传算法内部对数据表示、转换以及深度神经网络构建的实现过程。其中:
701-算法输出层,即最终模型的表示;
702-Attention表示层;
703-SelfAttention表示层;
704-输入层。
如图8为实现本发明的操作执行流程图之一。该图示意一个基于遗传算法作迭代式训练样本联合的数据处理过程。其中的操作主数据与操作辅助数据(集)是执行过程中的一个临时且相对概念。进一步:
10A-初始化种群:该操作用于设置数据联合参数、初始化联合过程所需要的空间与其它资源等;
10B-种群数据联合:该操作用于将操作主数据与操作辅助数据(集)分别作联合生成的联合个体数据;
10C-SelfAttention处理与神经网络构建:该操作用于将拟联合数据向量化,然后使用SelfAttention机制处理,并以统一特征表示的结果与输出层相连,从而生成深度神经网络;
10D-验证深度神经网络:该操作用于使用验证集对深度神经网络进行验证,从而得到模型效果评估值;
10E-适应度判断:该操作用于使用训练数据集训练深度神经网络,从而得到AI算法模型;进一步使用验证数据集验证AI算法模型,得到模型的效果评估值。如果模型效果评估值所体现的种群适应度满足要求,则确定针对操作主数据的联合个体集;如果适应度不满足要求,则进行下一轮的迭代优化;
10F-结束遗传算法处理过程:在模型效果评估值所体现的适应满足要求的情况下,结束遗传算法的处理过程;
10G-优化种群:该操作用于得到访轮次所有的拟联合数据集,取模型效果评估值集的优选半区所对应的个体数据。所述的种群优化策略设置为对模型效果评估值集优先半区所对应的个体数据进行交叉互换。
如图9为实现本发明的操作执行流程图之一。该图示意一个遗传算法应用于本发明的模型训练数据联合处理的内层迭代实现过程,该实现流程针对一个确定的操作主数据与多个确定的操作辅助数据。其中:
20A-联合方式确定:该操作用于根据遗传算法所处理的待联合数据列值(集)间共有的元数据项来确定联合方式;
20B-构建与提取公共神经网络模块:该操作用于根据待全联数据列值间类型信息,来构建公共神经网络模块,所述的公共神经网络模块可以是文本Embedding神经网络模块、或者图像Embedding神经网络模块、或者视频Embedding神经网络模块等;
20C-生成特征表示:该操作用于将待联合数据列值(集)作Embedding,然后采用Self-Attention与Attention机制将Embedding结果联合为统一的特征表示;
20D-生成神经网络:该操作用于将统一特征表示连接到输出层,从而生成相应的深度神经网络组,并更新公共神经网络模块以及神经网络的模型参数;
20E-分配部署任务组:该操作用于分配与部署协作任务组,该任务组的运行模式跟所述深度神经网络组相关;
20F-训练神经网络:该操作用于运行协同任务组,以使用训练数据集训练神经网络模块组;
20G-评估神经网络:该操作用于使用验证数据集对AI算法模型作验证,从而得到模型效果评估值,判定神经网络的适应度;
20H-个体挑选与种群优化:该操作用于固化所得的优选个体,并在种群不满足优选要求的情况下,选择优选半区的联合个体进行交叉互换,从而生成优化后的种群,重新构建与提取公共神经网络模块;如果种群满足优选要求,则结束遗传算法的迭代;
20J-记录与保留优质联合个体数据(集):该操作用于记录与保留遗传算法迭代过程中所得到的优质个体数据(集)。
如图10为实现本发明的操作执行流程图之一。该图示意一个针对由m个样本数据组成的集合、集合中的数据逐个加入联合、并对可能的联合方式作模型评估的遗传算法迭代过程。其中:
30A-模型评估初始操作:该操作用于对待联合数据集作模型评估的初始化;
30B-拆解操作各数据:该操作用于根据模型参数来拆解数据对应的元数据,得到元数据项;
30C-确定联合目标:该操作用于根据模型参数来确定针对数据的初始联合目标;
30D-初始化遗传算法:该操作用于根据初始联合目标生成遗传算法的初始个体数据集等;
30E-执行遗传算法的内层迭代:该操作用于执行图9所示的遗传算法内层迭代过程;
30F-得到最优联合方式:该操作用于得到从遗传算法内层迭代得到的任意个操作主数据对应的最优个体集以;
30G-准备下一个操作主数据进入模型评估循环:该操作用于,在迭代次数小于循环控制次数以及优质个体不满足要求的情况下,进入新一轮的模型评估。
如图11为实现本发明的操作执行流程图之一。该图示意一个根据模型参数来迭代生成样本数据集对应的联合深度神经网络组的过程。其中:
40A-接收样本数据集:该操作用于接收原样本数据集;
40B-划分原样本数据集为训练数据集与验证数据集:该操作用于对原样本数据集作划分,从而得到训练数据集与验证数据集;
40C-初始化遗传算法:该操作用于初始化遗传算法,并完成对后续遗传算法迭代的执行准备;
40D-执行遗传算法的迭代:该操作用于设定循环控制次数、启动在m个数据间执行遗传算法迭代;
40E-得到协同性任务组与联合模型:该操作用于得到协同性任务组信息以及联合模型;
40F-部署所得的联合模型:该操作用于对联合模型作部署,必要时部署协同性任务组信息。
在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于单个网络节点内,或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,根据具体约束与实现所需,在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在,也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台或一台以上计算机设备 (可以是个人计算机,服务器,或者网络设备等) 执行各个本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着先后执行的严格顺序,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述,然而,在实施例所要求保护的本申请过程中,本领域技术人员可理解并实现公开实施例的其他变化。

Claims (8)

1.一种模型训练的联合数据处理方法,所述方法包括:
配置AI算法,所述AI算法用于构建深度神经网络;
配置第一数据集,所述第一数据集包含多个第一数据,所述第一数据为联合增强与协同训练的样本数据;其中,通过将简历网站的数据作为样本数据1,将其它网站可获得的数据作为其它联合数据,所述联合数据包括来自于论坛/学术期刊的加工数据;通过梳理其它网站的信息得到分门别类的信息,在类型可对应的情况下,将其它联合数据与简历网站数据作联合增强以得到所述第一数据集;进一步,还包括:
生成第二数据,所述第二数据包含第四数据的某个子集,所述第四数据为所述第一数据集中的至少两个第一数据的交集的超集,所述第二数据还包含形成所述交集的所述至少两个第一数据中的一个第一数据,将所述第二数据加入第二数据集;
构建深度神经网络组,所述深度神经网络的结构由对应的所述第二数据确定,所述深度神经网络间的组合由多个所述第二数据确定;所述深度神经网络组的构建过程,还包括:Embedding化所述子集各数据的列值;所述列值包括简历各类描述项的列值;融合所述子集各数据的列值为统一的特征表示,所述融合的过程使用Self Attention与Attention机制;将所述融合的结果的特征表示与网络的输出层相连;
训练深度神经网络组,更新公共神经网络模块以及模型的参数,所述公共神经网络模块为文本Embedding神经网络模块、或者图像Embedding神经网络模块、或者视频Embedding神经网络模块;
生成第三数据,所述第三数据为使用所述深度神经网络组验证得来的效果评估值,将所述第三数据加入第三数据集;
生成第五数据集,所述第五数据集为所述第三数据集中效果评估值较优的部分;
生成联合模型,其中,所述模型训练的联合数据处理方法可用于通过照片直接判断职业与技能特长,通过将联合后的数据作为最终样本作算法学习,从而得到新的“图片->职业”的识别模型。
2.根据权利要求1所述方法,其特征在于,所述第三数据的生成过程,还包括:
获取所述第二数据集的一个子集,所述子集包含至少一个第二数据,所述子集的其它第二数据跟另一个第二数据属于关联数据;
使用所述子集构建深度神经网络组;
根据所述子集的关联关系,分配与部署训练任务组,所述任务组用于执行所述深度神经网络组的构建过程。
3.根据权利要求1所述方法,其特征在于,所述第三数据的生成过程,还包括:
使用训练数据集训练所述深度神经网络组;
使用验证数据集评估所述深度神经网络组。
4.根据权利要求1所述方法,其特征在于,所述生成第五数据集并启动新一轮算法迭代,还包括:
挑选第七数据,所述第七数据对应所述第五数据集中的一个第五数据,将所述第七数据加入第七数据集;
生成第八数据集,所述第八数据集为所述第七数据集中数据通过交叉互换得到;
将所述第八数据集加入所述第二数据集。
5.根据权利要求1所述方法,其特征在于,所述联合模型的生成过程,还包括:
生成第九数据集,将每个轮次下所生成的所述第五数据集加入所述第九数据集;
根据所述第九数据集,生成与部署协同性联合学习任务;
启动联合学习任务,训练并生成所述联合模型。
6.根据权利要求1所述方法,其特征在于,还包括:
部署所述联合模型,同时部署协同性任务组信息。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
8.一种执行计算机程序的装置,其特征在于,包括处理组件、存储组件和通信模组件,处理组件、存储组件和通信组件相互连接,其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,执行如权利要求1-6任一项所述的方法。
CN202010249329.7A 2020-04-01 2020-04-01 一种模型训练的联合数据处理方法、装置与系统 Active CN111126578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249329.7A CN111126578B (zh) 2020-04-01 2020-04-01 一种模型训练的联合数据处理方法、装置与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249329.7A CN111126578B (zh) 2020-04-01 2020-04-01 一种模型训练的联合数据处理方法、装置与系统

Publications (2)

Publication Number Publication Date
CN111126578A CN111126578A (zh) 2020-05-08
CN111126578B true CN111126578B (zh) 2020-08-25

Family

ID=70493991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249329.7A Active CN111126578B (zh) 2020-04-01 2020-04-01 一种模型训练的联合数据处理方法、装置与系统

Country Status (1)

Country Link
CN (1) CN111126578B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768056A (zh) * 2021-01-14 2021-05-07 新智数字科技有限公司 基于联合学习框架的疾病预测模型建立方法和装置
CN113378563B (zh) * 2021-02-05 2022-05-17 中国司法大数据研究院有限公司 一种基于遗传变异和半监督的案件特征提取方法及装置
CN113360265B (zh) * 2021-06-18 2021-12-28 特斯联科技集团有限公司 一种大数据运算任务调度和监控系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146296A (zh) * 2018-08-28 2019-01-04 南京葡萄诚信息科技有限公司 一种人工智能评估人才方法
CN109670077A (zh) * 2018-11-01 2019-04-23 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146296A (zh) * 2018-08-28 2019-01-04 南京葡萄诚信息科技有限公司 一种人工智能评估人才方法
CN109670077A (zh) * 2018-11-01 2019-04-23 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Enhancing person-job fit for talent recruitment:an ability-aware neural network approach;Chuan Qin 等;《arXiv》;20181221;第1-11页 *
Person-job fit:adapting the right talent for the right job with joint representation learning;CHEN ZHU 等;《arXiv》;20181008;第1-16页 *
融合元数据及 attention 机制的深度联合学习推荐;张全贵 等;《计算机应用研究》;20191130;第36卷(第11期);第3290-3293页 *

Also Published As

Publication number Publication date
CN111126578A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
JP7322044B2 (ja) レコメンダシステムのための高効率畳み込みネットワーク
CN111126578B (zh) 一种模型训练的联合数据处理方法、装置与系统
CN111611472B (zh) 一种基于图卷积神经网络的捆绑推荐方法及系统
CN111522962B (zh) 序列推荐方法、装置及计算机可读存储介质
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN110555148B (zh) 一种用户行为评估方法、计算设备及存储介质
CN114817663A (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
CN105814582A (zh) 用于识别人脸的方法和系统
CN106355210B (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN111126607B (zh) 一种模型训练的数据处理方法、装置与系统
CN111046158A (zh) 问答匹配方法及模型训练方法、装置、设备、存储介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN115358809A (zh) 一种基于图对比学习的多意图推荐方法及装置
KR102292800B1 (ko) 신경망 융합 장치, 그것의 단위 신경망 융합 방법 및 정합 인터페이스 생성 방법
Zhang et al. Hybrid feature CNN model for point cloud classification and segmentation
US20220044136A1 (en) Automated data table discovery for automated machine learning
CN110827078B (zh) 一种信息推荐方法、装置、设备及存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN113407312A (zh) 一种模型训练的任务协同处理方法、装置与系统
CN110347916A (zh) 跨场景的项目推荐方法、装置、电子设备及存储介质
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN113408562A (zh) 一种模型训练的样本增强方法、装置与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant