CN111985250A - 模型训练方法、装置、系统及计算机可读存储介质 - Google Patents
模型训练方法、装置、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111985250A CN111985250A CN202010918868.5A CN202010918868A CN111985250A CN 111985250 A CN111985250 A CN 111985250A CN 202010918868 A CN202010918868 A CN 202010918868A CN 111985250 A CN111985250 A CN 111985250A
- Authority
- CN
- China
- Prior art keywords
- model
- sample set
- training
- determining
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种模型训练方法、装置、系统及计算机可读存储介质,所述方法包括以下步骤:采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。本发明目的在于降低模型训练过程中的标注成本。
Description
技术领域
本发明涉及智能决策技术领域,尤其涉及一种模型训练方法、装置、系统及计算机可读存储介质。
背景技术
NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机模型来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯,如机器翻译,通过计算机模型将一种语言翻译成另一种语言;情感分析,通过计算机模型判断用户评论是否积极;智能问答,通过计算机模型正确回答输入的问题;文摘生成,通过计算机模型准确归纳、总结并产生文本摘要;文本分类,通过计算机模型对文章主题进行分析,从而进行自动分类;舆论分析,通过计算机模型判断目前舆论的导向等。
而计算机模型的建立一般需要大量的训练样本,并对训练样本进行标注训练,才能得到可用的计算机模型。在这过程中,为提高计算机模型的训练效果,以便后续使用计算机模型能得到更为准确的数据,如提高翻译的准确性等,现有技术大多采用增加训练样本标注量,或者增加算力等方法来提高计算机模型的训练效果。
然而,前者使得标注成本增加,训练成本也随之增高,训练时间也相应加长;后者需要一定的硬件成本。可见,目前的计算机模型训练方法还不够智能,无法在降低成本的情况下得到较好的训练效果。
发明内容
本发明的主要目的在于提供一种模型训练方法、装置、系统及计算机可读存储介质,旨在降低模型训练过程中的标注成本。
为实现上述目的,本发明提供一种模型训练方法,所述模型训练方法包括以下步骤:
采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
可选地,所述基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型的步骤包括:
确定所述第一样本集合中各样本的遮掩部分,以及所述遮掩部分的上下文关系,并基于所述遮掩部分和所述上下文关系,确定所述第一样本集合对应的预训练模型;
确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型。
可选地,所述确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型的步骤包括:
确定所述预训练模型的待训练参数层,所述待训练参数层为所述预训练模型中神经网络的奇数层;
基于所述第二样本集合和所述待训练参数层,对所述预训练模型进行增量训练,以确定所述待训练参数层的目标参数;
基于所述目标参数,将所述预训练模型调整为第一模型。
可选地,所述基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型的步骤包括:
基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型;
基于所述第二样本集合,确定所述第二模型的达标值,并基于所述达标值确定所述第二模型的训练效果。
可选地,所述基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型的步骤包括:
基于预设筛选规则,从所述第三样本集合中筛选出第五样本集合;
基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合;
将所述第四样本集合作为第二模型的输入,将所述第四样本集合对应的标注结果作为第二模型的输出,训练得到所述数据对象的第二模型。
可选地,所述基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合的步骤包括:
基于预设重采样规则,确定所述第五样本集合与所述第二样本集合的采样比例;
基于所述采样比例,分别从所述第五样本集合中获取第一待混合样本,以及从所述第二样本集合中获取第二待混合样本;
将所述第一待混合样本和所述第二待混合样本混合,以得到第四样本集合。
可选地,所述基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型的步骤之后,所述模型训练方法还包括:
若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新;
基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
此外,为实现上述目的,本发明还提供一种模型训练装置,所述模型训练装置包括:
采集标注模块,用于采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
第一确定模块,用于基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
第二确定模块,用于基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
第三确定模块,用于若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
可选地,所述第一确定模块还用于:
确定所述第一样本集合中各样本的遮掩部分,以及所述遮掩部分的上下文关系,并基于所述遮掩部分和所述上下文关系,确定所述第一样本集合对应的预训练模型;
确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型。
可选地,所述第一确定模块还用于:
确定所述预训练模型的待训练参数层,所述待训练参数层为所述预训练模型中神经网络的奇数层;
基于所述第二样本集合和所述待训练参数层,对所述预训练模型进行增量训练,以确定所述待训练参数层的目标参数;
基于所述目标参数,将所述预训练模型调整为第一模型。
可选地,所述第二确定模块还用于:
基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型;
基于所述第二样本集合,确定所述第二模型的达标值,并基于所述达标值确定所述第二模型的训练效果。
可选地,所述第二确定模块还用于:
基于预设筛选规则,从所述第三样本集合中筛选出第五样本集合;
基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合;
将所述第四样本集合作为第二模型的输入,将所述第四样本集合对应的标注结果作为第二模型的输出,训练得到所述数据对象的第二模型。
可选地,所述第二确定模块还用于:
基于预设重采样规则,确定所述第五样本集合与所述第二样本集合的采样比例;
基于所述采样比例,分别从所述第五样本集合中获取第一待混合样本,以及从所述第二样本集合中获取第二待混合样本;
将所述第一待混合样本和所述第二待混合样本混合,以得到第四样本集合。
可选地,所述模型训练装置还包括更新调整模块,所述更新调整模块用于:
若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新;
基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
此外,为实现上述目的,本发明还提供一种模型训练系统,所述模型训练系统包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的模型训练程序,其中所述模型训练程序被所述处理器执行时,实现如上述的模型训练方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有模型训练程序,其中所述模型训练程序被处理器执行时,实现如上述的模型训练方法的步骤。
本发明提供一种模型训练方法,采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。本发明利用一定量标注样本和大量无标注样本,通过自监督方式,在标注样本和未标注样本共同作用下,训练得到目标模型,节省标注成本和训练成本。
附图说明
图1为本发明实施例方案中涉及的模型训练系统的硬件结构示意图;
图2为本发明模型训练方法第一实施例的流程示意图;
图3为本发明模型训练装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的模型训练方法主要应用于模型训练系统,该模型训练系统可以包括PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的模型训练系统的硬件结构示意图。本发明实施例中,模型训练系统可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对模型训练系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及模型训练程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的模型训练程序,并执行本发明实施例提供的模型训练方法。
本发明实施例提供了一种模型训练方法。
参照图2,图2为本发明模型训练方法第一实施例的流程示意图。
本实施例中,所述模型训练方法包括以下步骤:
步骤S10,采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
步骤S20,基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
步骤S30,基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
步骤S40,若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
本实施例的模型训练方法应用于模型训练系统,为描述方便,模型训练系统以训练系统简称,训练系统目的在于训练可用于智能决策的NLP神经网络模型,也即,训练系统可根据实际的应用场景,训练获得相应的目标模型,如应用场景为机器翻译,则可通过本实施例的模型训练方法,训练得到用于文本翻译的目标模型;如应用场景为情感分析,则可通过本实施例的模型训练方法,训练得到用于判断用户评论是否积极的目标模型;如应用场景为智能问答,则可通过本实施例的模型训练方法,训练得到用于回答输入的问题的目标模型;如应用场景为文摘生成,则可通过本实施例的模型训练方法,训练得到用于归纳、总结并产生文本摘要的目标模型;如应用场景为文本分类,则可通过本实施例的模型训练方法,训练得到用于对文章主题进行分析,从而进行自动分类的目标模型;如应用场景为舆论分析,则可通过本实施例的模型训练方法,训练得到用于判断目前舆论的导向的目标模型等。
在本实施例中,利用一定量标注样本和大量无标注样本,通过自监督方式,在标注样本和未标注样本共同作用下,可达到更好的训练效果,节省标注成本和训练成本,同时对实际场景的鲁棒性较常规训练方法有所提高。
以下将对各个步骤进行详细的说明:
步骤S10,采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集。
在本实施例中,训练系统先采集数据对象的第一样本集合,然后对第一样本集合中的第二样本集合(B)进行标注,其中,第二样本集合(B)的样本数小于第一样本集合(A)的样本数。也即,为降低标注成本,训练系统在一开始先采集较多的无标注的第一样本集合(A),再基于预设切分规则,从第一样本集合(A)中切分出一部分样本作为第二样本集合(B),再对第二样本集合(B)进行标注,而不需要对全部的第一样本集合(A)中的样本进行标注,使得标注工作量大大减少,其中,预设切分规则可以是第一样本集合(A)的百分之一或者千分之一的随机样本作为第二样本集合(B)等,也即,在采集样本的过程中,训练系统先采集网络上大量无标注样本,如在做情感分析时,采集100万个用户评价作为无标注的第一样本集合(A),再随机选取第一样本集合(A)中的百分之一或者千分之一的样本,作为第二样本集合(B),再对第二样本集合(B)中的1万个用户评价样本或者1千个用户评价样本进行标注,而不需要对所有的100万个样本进行标注,大大降低了样本的标注量。
需要解释的是,数据对象即具体应用场景中的参数对象,如上述情感分析过程中,数据对象即为各个用户的用户评价,为方便理解,后续都以用户评价作为数据对象的样本进行说明。
在对第二样本集合(B)进行标注时,训练系统具体可显示第二样本集合(B)中各个样本,并接收用户输入的针对各个样本的标注结果,从而对第二样本集合(B)进行标注,因此,第二样本集合(B)的标注都是正确可靠的。
步骤S20,基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合。
本实施例中,利用一定量标注样本,也即第二样本集合(B)和大量无标注样本,也即第一样本集合(A),训练得到数据对象的第一模型(T)。
具体先通过第一样本集合(A),训练得到预训练模型,然后,再基于第二样本集合(B),对预训练模型进行微调,也即,在预训练模型的基础上,将预训练模型的一部分修改成第二样本集合(B)需要的模型。
在一实施例中,步骤S20包括:
步骤a1,确定所述第一样本集合中各样本的遮掩部分,以及所述遮掩部分的上下文关系,并基于所述遮掩部分和所述上下文关系,确定所述第一样本集合对应的预训练模型;
在一实施例中,训练系统先确定第一样本集合(A)中各样本的遮掩部分,以及遮掩部分的上下文关系,具体可随机选择样本中的某一位置的内容作为遮掩部分,然后确定该位置前后的上下文关系,可知的,遮掩部分实际是已知的,因此,可将遮掩部分和上下文关系作为训练所需的参数,训练得到对应的预训练模型,如第一样本集合(A)中的某一样本为“说话很冲,服务太差了,必须给差评”,训练系统先随机确定遮掩部分,如“服务太差”作为遮掩部分,并确定“说话很冲”“必须给差评”为遮掩部分的上下文关系,因此,可知“说话很冲”“必须给差评”与“服务太差”存在对应关系,可将“说话很冲”“必须给差评”作为预训练模型的输入,“服务太差”作为预训练模型的输出;或者,将“服务太差”作为预训练模型的输入,将“说话很冲”“必须给差评”作为预训练模型的输出,进行预训练模型的训练,基于此,通过第一样本集合(A)中各样本的遮掩部分以及对应的上下文关系,不断训练优化预训练模型。
步骤a2,确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型。
接着,通过有标注的第二样本集合(B),对预训练模型进行微调,具体修改预训练模型的一部分(待训练参数层),从而将预训练模型修改成第一模型。
其中,修改预训练模型的一部分可从以下方面入手:
训练所有参数。对预训练模型中神经网络的所有参数进行训练。也即,以带有标注的第二样本集合(B)对预训练模型进行优化训练,具体将第二样本集合(B)中各样本作为预训练模型的输入,将各样本对应的标注结果作为预训练模型的输出,从而逐步优化预训练模型,将预训练模型修改成第一模型。
此外,在一实施例中,步骤a2包括:
步骤a21,确定所述预训练模型的待训练参数层,所述待训练参数层为所述预训练模型中神经网络的奇数层;
在一实施例中,训练系统先确定预训练模型的待训练参数层,其中,待训练参数层可为预训练模型中神经网络的奇数层,也可为预训练模型中神经网络的偶数层,或者其他部分网络。
步骤a22,基于所述第二样本集合和所述待训练参数层,对所述预训练模型进行增量训练,以确定所述待训练参数层的目标参数;
然后,通过带标注的第二样本集合(B)和待训练参数层,对预训练模型进行增量训练,也即固定预训练模型中神经网络的偶数层参数不变,训练奇数层参数,如固定layer-2,layer-4,layer-6等,训练layer-1,layer-3,layer-5等,需要解释的是,奇数层参数包括分类器,标注标准等。
在具体实施时,将带有标注的第二样本集合(B)输入预训练模型中,固定预训练模型中神经网络的偶数层参数,通过第二样本集合(B)作为预训练模型的输入,对应的标注结果作为输出,得到待训练参数层的目标参数,也即,以新的目标参数修改预训练模型的待训练参数层。
步骤a23,基于所述目标参数,将所述预训练模型调整为第一模型。
最后,根据得到的目标参数,更新待训练参数层原来的参数,如分类器,标注标准等,从而将预训练模型调整为第一模型,也即,在预训练模型的基础上,通过带有标注的第二样本集合(B)这一新的样本更新预训练模型的部分神经网络,达到增量训练的目的。
如先采集大量的维基百科数据,然后用这部分巨大的数据来训练一个泛化能力很强的预训练模型,在特定场景使用时,例如做文本相似度计算,那么,只需要简单的修改预训练模型的一些输出层,再用标注数据,也即第二样本集合(B),进行一个增量训练,对权重进行一个轻微的调整,即可得到第一模型。
预训练的好处在于在特定场景使用时不需要用大量的样本来进行训练,节约了训练时间。
在得到第一模型后,训练系统可将无标注的第一样本集合(A)输入第一模型中,从而得到带有标准的第三样本集合(A1),也即,在得到第一模型之后,即可采用第一模型对无标注样本,也即第一样本集合(A)进行预测,因此,只需将第一样本集合(A)输入第一模型(T)即可得到第一样本集合(A)的预测结果,也即预测第一样本集合(A)中,哪些是需要标注的标注样本,这些样本即为第三样本集合(A1)。
步骤S30,基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型。
本实施例中,通过第一模型预测的第三样本集合(A1),以及正确标注的第二样本集合(B),训练得到第二模型,再确定第二模型的训练效果。
具体的,步骤S30包括:
步骤b1,基于预设重采样规则、所述第三样本集合(A1)和所述第二样本集合(B),确定第四样本集合(C),并基于所述第四样本集合(C),确定所述数据对象的第二模型;
在本实施例中,通过预设重采样规则,从第三样本集合(A1)和第二样本集合(B)中,混合选取一部分样本作为第四样本集合(C),并以第四样本集合(C)作为训练参数,训练得到第二模型,可以理解的,通过第一模型预测得到的第三样本集合(A1)准确度并不高,而第二样本集合(B)本身由于样本数量较少,并不具备普适性,因此,通过预设重采样规则,重新混合采集第四样本集合(C),使得第四样本集合(C)具有一定的准确度和普适性,以便在训练第二模型时,能得到训练效果较佳的第二模型。
在一实施例中,步骤b1包括:
步骤b11,基于预设筛选规则,从所述第三样本集合中筛选出第五样本集合;
在一实施例中,由于第一模型输出的结果并不是全部可信,为提高第三样本集合(A1)的可靠性,在通过第一模型对第一样本集合(A)进行预测,得到第三样本集合(A1)之后,先通过预设筛选规则,从第三样本集合(A1)中筛选出第五样本集合(A3)。
其中,具体的筛选规则为选取预测准确率(pro)高过阈值Threshhold的样本,公式如下:
probi=soft max(logitsi)>Threadhold,i∈A1
其中,prob为第三样本集合(A1)中的某一个样本预测的概率;
logits为第一模型预测输出的结果;
Threshhold为阈值,Threshhold在具体实施时可以是人为规定的经验值,也可以是机器学习算法学习得出。
通过上述公式,从第三样本集合(A1)中筛选出第五样本集合(A3)。
步骤b12,基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合;
为了进一步提高样本的可靠性,以及增加后续模型的鲁棒性,在得到标注的第二样本集合(B)以及第一模型(T)标注的第五样本集合(A3)之后,通过重采样规则,对两个样本进行混合,从而得到第四样本集合(C)。
在一实施例中,步骤b12包括:
步骤b121,基于预设重采样规则,确定所述第五样本集合与所述第二样本集合的采样比例;
步骤b122,基于所述采样比例,分别从所述第五样本集合中获取第一待混合样本,以及从所述第二样本集合中获取第二待混合样本;
步骤b123,将所述第一待混合样本和所述第二待混合样本混合,以得到第四样本集合。
其中,重采样规则可事先设定,如重采样规则为第二样本集合(B):第五样本集合(A3)=3:2的比例,则确定第五样本集合(A3)与第二样本集合(B)的采样比例为3/2,那么,先确定第四样本集合(C)的总数量,再选取3/5总数量的第二样本集合(B)作为第二待混合样本,2/5总数量的第五样本集合(A3)作为第一待混合样本等,再将第一待混合样本和第二待混合样本混合,达到样本混合的目的,从而得到混合样本,也即第四样本集合(C),使得后续在对模型进行交替训练时,优化训练结果。
步骤b13,将所述第四样本集合作为第二模型的输入,将所述第四样本集合对应的标注结果作为第二模型的输出,训练得到所述数据对象的第二模型。
此时的第四样本集合(C)准确率较高,且都有标注,因此,可通过第四样本集合(C)进行第二模型(S)的训练。其原理为将第四样本集合(C)中的样本作为第二模型的输入,将对应的标注结果作为第二模型的输出,训练得到第二模型(S)。
步骤b2,基于所述第二样本集合,确定所述第二模型的达标值,并基于所述达标值确定所述第二模型的训练效果。
在一实施例中,在得到第二模型之后,通过第二样本集合(B),校验第二模型的训练效果,具体通过确定第二模型的达标值,来确定第二模型的训练效果,其中,达标值包括准确率,损失值,训练时间等。
需要说明的是,在得到第二模型之后,也可通过获取数据对象的测试集,用测试集来校验第二模型的训练效果,其中,测试集为带有正确标注的样本集合。
具体的,可计算第二模型(S)的损失值,并确定损失值是否小于预设损失值;或者,计算第二模型(S)输出的标注结果的准确率,并确定准确率是否大于预设准确率;或者,确定当前训练时间是否达到预设训练时间等,若是,则确定模型效果达标,若否,则确定模型效果未达标。
以准确率作为达标值为例,将第二样本集合(B)中的样本输入第二模型,从而得到第二样本集合(B)中各样本对应的预测结果,并将预测结果与第二样本集合(B)的标注结果进行比较,并统计预测结果与标注结果匹配的样本数量,从而根据预测结果与标注结果匹配的样本数量,除以第二样本集合(B)中的样本总数量,得到第二模型的达标值。
步骤S40,若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
本实施例中,若确定第二模型的训练效果达标,说明当前第二模型可靠,可用于实际场景的运用,则将第二模型确定为数据对象的目标模型,以便后续通过目标模型对数据对象进行预测,如预测当前用户的用户评价是否正向等。
本实施例提供一种模型训练方法,采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。本发明利用一定量标注样本和大量无标注样本,通过自监督方式,在标注样本和未标注样本共同作用下,训练得到目标模型,节省标注成本和训练成本。
进一步地,基于第一实施例提出本发明模型训练方法的第二实施例。
模型训练方法的第二实施例与模型训练方法的第一实施例的区别在于,步骤S30之后,模型训练方法还包括:
步骤c,若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新;
步骤d,基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
本实施例中,若第二模型的训练效果未达标,则采用师生模型交替训练的方式,对训练结果进行迭代,最终达到预设的模型效果时,即收敛,此时的第二模型达标,可作为目标模型运用于各种应用场景。
以下将对各个步骤进行详细说明:
步骤c,若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新。
在本实施例中,若确定第二模型的模型效果未达标,则基于第二模型(S)更新第一模型(T),也即,第二模型(S)中的部分神经网络层和第一模型(T)进行共享,具体以第二模型(S)的部分模型参数替换第一模型(T)对应的模型参数,如分类器或者标注标准等,具体选择哪一部分神经网络层可根据实际情况进行确定。
因此,可先确定第二模型的第一模型参数,以及第一模型的第二模型参数,其中,第一模型参数与第二模型参数为相同神经网络层的不同参数,如第一模型参数为第二模型中神经网络层layer-3层中的M分类器,第二模型参数则为第一模型中神经网络层layer-3层中的N分类器等。
然后,将第一模型的第二模型参数,替换成第二模型的第一模型参数,如上述例子,将第一模型中神经网络层layer-3层中的N分类器替换成M分类器等。
然后,用更新过的第一模型(T)代替原来的第一模型(T),从而完成第一模型的更新。
步骤d,基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
然后,继续执行“基于所述第一模型,确定所述第一样本集合对应的第三样本集合”的步骤,直至最终的第二模型的模型效果达标,此时的第二模型即为最终的目标模型,需要说明的是,最终的模型可以是一个也可以是n个,n≥2。
本实施例若第二模型的训练效果未达标,则采用师生模型交替训练的方式,对训练结果进行迭代,最终达到预设的模型效果时,即收敛,此时的第二模型达标,可作为目标模型运用于各种应用场景,在降低标注成本的情况下,完成模型的训练。
此外,本发明实施例还提供一种模型训练装置。
参照图3,图3为本发明模型训练装置第一实施例的功能模块示意图。
采集标注模块10,用于采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
第一确定模块20,用于基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
第二确定模块30,用于基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
第三确定模块40,用于若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
可选地,所述第一确定模块还用于:
确定所述第一样本集合中各样本的遮掩部分,以及所述遮掩部分的上下文关系,并基于所述遮掩部分和所述上下文关系,确定所述第一样本集合对应的预训练模型;
确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型。
可选地,所述第一确定模块还用于:
确定所述预训练模型的待训练参数层,所述待训练参数层为所述预训练模型中神经网络的奇数层;
基于所述第二样本集合和所述待训练参数层,对所述预训练模型进行增量训练,以确定所述待训练参数层的目标参数;
基于所述目标参数,将所述预训练模型调整为第一模型。
可选地,所述第二确定模块还用于:
基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型;
基于所述第二样本集合,确定所述第二模型的达标值,并基于所述达标值确定所述第二模型的训练效果。
可选地,所述第二确定模块还用于:
基于预设筛选规则,从所述第三样本集合中筛选出第五样本集合;
基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合;
将所述第四样本集合作为第二模型的输入,将所述第四样本集合对应的标注结果作为第二模型的输出,训练得到所述数据对象的第二模型。
可选地,所述第二确定模块还用于:
基于预设重采样规则,确定所述第五样本集合与所述第二样本集合的采样比例;
基于所述采样比例,分别从所述第五样本集合中获取第一待混合样本,以及从所述第二样本集合中获取第二待混合样本;
将所述第一待混合样本和所述第二待混合样本混合,以得到第四样本集合。
可选地,所述模型训练装置还包括更新调整模块,所述更新调整模块用于:
若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新;
基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
其中,上述模型训练装置中各个模块和单元与上述模型训练方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有模型训练程序,其中所述模型训练程序被处理器执行时,实现如上述的模型训练方法的步骤。
其中,模型训练程序被执行时所实现的方法可参照本发明模型训练方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种模型训练方法,其特征在于,所述模型训练方法包括以下步骤:
采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
2.如权利要求1所述的模型训练方法,其特征在于,所述基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型的步骤包括:
确定所述第一样本集合中各样本的遮掩部分,以及所述遮掩部分的上下文关系,并基于所述遮掩部分和所述上下文关系,确定所述第一样本集合对应的预训练模型;
确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型。
3.如权利要求2所述的模型训练方法,其特征在于,所述确定所述预训练模型的待训练参数层,并基于所述第二样本集合和所述待训练参数层,调整所述预训练模型,以得到所述第一模型的步骤包括:
确定所述预训练模型的待训练参数层,所述待训练参数层为所述预训练模型中神经网络的奇数层;
基于所述第二样本集合和所述待训练参数层,对所述预训练模型进行增量训练,以确定所述待训练参数层的目标参数;
基于所述目标参数,将所述预训练模型调整为第一模型。
4.如权利要求1所述的模型训练方法,其特征在于,所述基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型的步骤包括:
基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型;
基于所述第二样本集合,确定所述第二模型的达标值,并基于所述达标值确定所述第二模型的训练效果。
5.如权利要求4所述的模型训练方法,其特征在于,所述基于预设重采样规则、所述第三样本集合和所述第二样本集合,确定第四样本集合,并基于所述第四样本集合,确定所述数据对象的第二模型的步骤包括:
基于预设筛选规则,从所述第三样本集合中筛选出第五样本集合;
基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合;
将所述第四样本集合作为第二模型的输入,将所述第四样本集合对应的标注结果作为第二模型的输出,训练得到所述数据对象的第二模型。
6.如权利要求5所述的模型训练方法,其特征在于,所述基于预设重采样规则、所述第五样本集合和所述第二样本集合,确定第四样本集合的步骤包括:
基于预设重采样规则,确定所述第五样本集合与所述第二样本集合的采样比例;
基于所述采样比例,分别从所述第五样本集合中获取第一待混合样本,以及从所述第二样本集合中获取第二待混合样本;
将所述第一待混合样本和所述第二待混合样本混合,以得到第四样本集合。
7.如权利要求1-6任一项所述的模型训练方法,其特征在于,所述基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型的步骤之后,所述模型训练方法还包括:
若所述训练效果未达标,则确定所述第二模型的第一模型参数,以及所述第一模型的第二模型参数,将所述第二模型参数替换成所述第一模型参数,以完成所述第一模型的更新;
基于更新后的所述第一模型,执行所述基于所述第一模型,确定所述第一样本集合对应的第三样本集合的步骤。
8.一种模型训练装置,其特征在于,所述模型训练装置包括:
采集标注模块,用于采集数据对象的第一样本集合,并对所述第一样本集合中的第二样本集合进行标注,所述第二样本集合为所述第一样本集合的子集;
第一确定模块,用于基于所述第一样本集合和所述第二样本集合,确定所述数据对象的第一模型,并基于所述第一模型,确定所述第一样本集合对应的第三样本集合;
第二确定模块,用于基于所述第三样本集合和所述第二样本集合,确定所述数据对象的第二模型;
第三确定模块,用于若所述第二模型的训练效果达标,则将所述第二模型确定为所述数据对象的目标模型,以根据所述目标模型对所述数据对象进行预测。
9.一种模型训练系统,其特征在于,所述模型训练系统包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的模型训练程序,其中所述模型训练程序被所述处理器执行时,实现如权利要求1至7中任一项所述的模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有模型训练程序,其中所述模型训练程序被处理器执行时,实现如权利要求1至7中任一项所述的模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918868.5A CN111985250A (zh) | 2020-09-03 | 2020-09-03 | 模型训练方法、装置、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918868.5A CN111985250A (zh) | 2020-09-03 | 2020-09-03 | 模型训练方法、装置、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985250A true CN111985250A (zh) | 2020-11-24 |
Family
ID=73447620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010918868.5A Pending CN111985250A (zh) | 2020-09-03 | 2020-09-03 | 模型训练方法、装置、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985250A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
CN113780515A (zh) * | 2021-01-05 | 2021-12-10 | 京东鲲鹏(江苏)科技有限公司 | 数据处理方法、图像处理方法、装置、存储介质与设备 |
-
2020
- 2020-09-03 CN CN202010918868.5A patent/CN111985250A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780515A (zh) * | 2021-01-05 | 2021-12-10 | 京东鲲鹏(江苏)科技有限公司 | 数据处理方法、图像处理方法、装置、存储介质与设备 |
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
CN113641823B (zh) * | 2021-08-20 | 2023-11-17 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
US20230103340A1 (en) | Information generating method and apparatus, device, storage medium, and program product | |
EP3989104A1 (en) | Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium | |
CN110188331A (zh) | 模型训练方法、对话系统评价方法、装置、设备及存储介质 | |
CN113850162B (zh) | 一种视频审核方法、装置及电子设备 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN111444341B (zh) | 用户画像构建方法、装置、设备及可读存储介质 | |
CN112329476B (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
WO2023098912A1 (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN111125177B (zh) | 生成数据标签的方法、装置、电子设备及可读存储介质 | |
CN114386409A (zh) | 基于注意力机制的自蒸馏中文分词方法、终端及存储介质 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN111985250A (zh) | 模型训练方法、装置、系统及计算机可读存储介质 | |
CN112000803A (zh) | 文本分类方法及装置、电子设备及计算机可读存储介质 | |
CN111209399A (zh) | 文本分类方法、装置和电子设备 | |
CN115273828A (zh) | 语音意图识别模型的训练方法、装置及电子设备 | |
WO2023173546A1 (zh) | 文本识别模型的训练方法、装置、计算机设备及存储介质 | |
CN115687910A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN112765973A (zh) | 评分模型训练方法及装置、作文评分方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |