CN114548273A - 模型训练方法、装置、设备与存储介质 - Google Patents

模型训练方法、装置、设备与存储介质 Download PDF

Info

Publication number
CN114548273A
CN114548273A CN202210162019.0A CN202210162019A CN114548273A CN 114548273 A CN114548273 A CN 114548273A CN 202210162019 A CN202210162019 A CN 202210162019A CN 114548273 A CN114548273 A CN 114548273A
Authority
CN
China
Prior art keywords
vector
data sample
sample
target
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210162019.0A
Other languages
English (en)
Inventor
刘广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210162019.0A priority Critical patent/CN114548273A/zh
Publication of CN114548273A publication Critical patent/CN114548273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请涉及服务器人工智能技术领域,本申请提供一种模型训练方法、装置、设备与存储介质,模型训练方法包括:获取样本集合,从样本集合中选择待计算的正数据样本,将待计算的正数据样本对应的原始向量输入编码器模型,获得第一向量对;将n‑1个数据样本作为n‑1个负数据样本,将负数据样本对应的原始向量输入编码器模型,获得第二向量对;根据第一向量对中的向量之间的差异和第一向量对中的向量与各个第二向量对中的向量之间的差异,确定损失值;若损失值不满足目标条件,则根据损失值,对编码器模型的参数进行调整,直到损失值满足目标条件,获得训练好的编码器模型。实施本申请,可以让编码器模型学习到数据样本之间的区别度。

Description

模型训练方法、装置、设备与存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法、装置、设备与存储介质。
背景技术
风控模型在保险核保理赔、信贷风控等有广泛的应用场景。线上场景使用风控模型会遇到标注数据少的低资源问题。在低资源的情况,每种标注类型只有少量样本,在对样本进行表示时,现有技术是根据样本中各个数据的值确定多个向量,各个向量的维度与对应样本中数据值的种类相同,比如样本中包括年龄,数值为20岁,则将年龄从1-50岁分类为50个类别,与年龄对应矩阵的维度为50,而对于该样本中的年龄对应的向量中,只有20岁对应维度为1,其他维度均为0,可见是一个非常稀疏的矩阵,现有技术用于表示样本的向量非常稀疏,并且维度通常很大,区分程度很低。
发明内容
基于此,有必要针对上述技术问题,提供一种模型训练方法、装置、设备与存储介质,通过本申请训练得到的编码器模型可以实现对数据样本的均匀表示,能够区分出不同数据样本之间的差异,学习到数据样本之间的区别度。
第一方面,本申请提供一种模型训练方法,所述方法包括:
获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
结合第一方面,在一些实施例中,所述第一向量对中包括第一输出向量和第二输出向量,所述第一输出向量与所述待计算的正数据样本对应的原始向量的表示相同,所述第二输出向量与所述待计算的正数据样本对应的原始向量的表示不同;
所述第二向量对中包括第三输出向量和第四输出向量,所述第三输出向量与所述负数据样本对应的原始向量表示相同,所述第四输出向量与所述负数据样本对应的原始向量表示不同;
所述根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值,包括:
计算所述第一向量对中所述第一输出向量和第二输出向量之间的第一余弦距离;
计算所述第一向量对中所述第一输出向量分别和n-1个第二向量对中第四输出向量之间的第二余弦距离;
根据所述第一余弦距离和n-1个所述第二余弦距离,确定损失值。
结合第一方面,在一些实施例中,所述获取样本集合之后,还包括:
获取所述n个数据样本中各个数据样本的目标属性信息;
根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量。
结合第一方面,在一些实施例中,所述数据样本的目标属性信息包括所述数据样本的至少一个属性中各个属性对应的属性信息;
所述根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量,包括:
分别获取目标属性信息中各个属性对应的属性信息所属目标类别;
采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
将所述至少一个属性中各个属性分别对应的表示向量进行拼接,获得所述数据样本对应的原始向量。
结合第一方面,在一些实施例中,所述采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量,包括:
若所述目标类别为离散数值类型,采用字典编码算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为连续数值类型,采用数值化算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为文本类型或图像类型,采用Bert编码算法对所述属性对应的属性信息转换为所述属性对应的表示向量。
结合第一方面,在一些实施例中,所述获得训练好的编码器模型之后,还包括:
获取用于对待训练的风控模型进行训练的训练样本;
获取与所述训练样本对应的目标原始向量;
将所述目标原始向量输入所述训练好的编码器模型,获得目标输出向量;
将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练。
结合第一方面,在一些实施例中,所述将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练,包括:
将所述目标输出向量输入到所述待训练的风控模型,获得所述训练样本对应的预测风险等级;
根据所述预测风险等级与所述训练样本对应的实际风险等级之间的差异,对所述待训练的风控模型的参数进行调整。
第二方面,本申请提供一种模型训练装置,该装置包括:
第一获取单元,用于获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
第二获取单元,用于从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
第三获取单元,用于将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
第一确定单元,用于根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
参数调整单元,用于若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
结合第二方面,在一些实施例中,所述第一向量对中包括第一输出向量和第二输出向量,所述第一输出向量与所述待计算的正数据样本对应的原始向量的表示相同,所述第二输出向量与所述待计算的正数据样本对应的原始向量的表示不同;
所述第二向量对中包括第三输出向量和第四输出向量,所述第三输出向量与所述负数据样本对应的原始向量表示相同,所述第四输出向量与所述负数据样本对应的原始向量表示不同;
所述第一确定单元具体用于:计算所述第一向量对中所述第一输出向量和第二输出向量之间的第一余弦距离;
计算所述第一向量对中所述第一输出向量分别和n-1个第二向量对中第四输出向量之间的第二余弦距离;
根据所述第一余弦距离和n-1个所述第二余弦距离,确定损失值。
结合第二方面,在一些实施例中,所述装置还包括:
第四获取单元,用于获取所述n个数据样本中各个数据样本的目标属性信息;
第二确定单元,用于根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量。
结合第二方面,在一些实施例中,所述数据样本的目标属性信息包括所述数据样本的至少一个属性中各个属性对应的属性信息;
所述第二确定单元具体用于:分别获取目标属性信息中各个属性对应的属性信息所属目标类别;
采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
将所述至少一个属性中各个属性分别对应的表示向量进行拼接,获得所述数据样本对应的原始向量。
结合第二方面,在一些实施例中,所述第二确定单元具体用于:若所述目标类别为离散数值类型,采用字典编码算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为连续数值类型,采用数值化算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为文本类型或图像类型,采用Bert编码算法对所述属性对应的属性信息转换为所述属性对应的表示向量。
结合第二方面,在一些实施例中,所述装置还包括:
第五获取单元,用于获取用于对待训练的风控模型进行训练的训练样本;
第六获取单元,用于获取与所述训练样本对应的目标原始向量;
第七获取单元,用于将所述目标原始向量输入所述训练好的编码器模型,获得目标输出向量;
风控模型训练单元,用于将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练。
结合第二方面,在一些实施例中,所述风控模型训练单元具体用于:
将所述目标输出向量输入到所述待训练的风控模型,获得所述训练样本对应的预测风险等级;
根据所述预测风险等级与所述训练样本对应的实际风险等级之间的差异,对所述待训练的风控模型的参数进行调整。
第三方面,本申请提供一种模型训练设备,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得处理器执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
本申请实施例中,在对编码器模型进行训练时,将样本集合中的一个数据样本作为待计算的正数据样本,其余所有样本作为负数据样本,将待计算的正数据样本输入编码器模型后得到第一向量对,将各个负数据样本输入编码器模型得到至少一个第二向量对,通过第一向量对中两个向量之间的差异和第一向量对中的向量与第二向量对中的向量之间的差异,对编码器模型的参数进行调整,从而让编码器模型学习到相似向量之间的共性以及不同数据样本之间的区分度,并且本申请的编码器模型是对原始向量中各个维度进行融合学习,能够实现对数据样本的均匀表示。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的另一种模型训练方法的流程示意图;
图3为本申请实施例提供的编码器模型的示意图;
图4为本申请实施例提供的一种模型训练装置的示意图;
图5为本申请实施例提供的另一种模型训练装置的示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供了一种模型训练方法,为了更清楚地描述本申请的方案,下面对本申请涉及的一些附图作进一步介绍。
请参阅图1,图1为本申请实施例提供的一种模型训练方法的流程示意图。如图1所示,所述方法包括以下步骤:
步骤110,获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
本申请实施例中,一个样本集合中的数据样本可以是一个批次的数据样本,该样本集合中包括n个数据样本,该n可以为大于或者等于2的整数。其中,该数据样本可以是用户或产品,比如,该样本集合可以包括n个用户的用户标识。进一步,分别获取该n个数据样本中各个数据样本的目标属性信息,并根据各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量,即将各个数据样本的目标属性信息转换为对应的原始向量。
示例性的,数据样本的目标属性信息可以包括数据样本的至少一个属性中各个属性对应的属性信息,比如,该至少一个属性可以是用户的各个属性,比如年龄、性别、籍贯、执业以及收入中的一种或多种等等,又比如,该至少一个属性分别对应的属性信息可以包括:年龄:30,性别:男,籍贯:湖北,职业:IT,收入:8k等等,可以理解的是,各个属性的属性信息的类别可以包括但不限于文本、数字、图像等等。
在将目标属性信息转换为对应的原始向量时,可以分别确定目标属性信息中各个属性对应的属性信息所属目标类别,采用与目标类别对应的信息转换算法,将属性对应的属性信息转换为该属性对应的表示向量,进一步将各个属性分别对应的表示向量进行拼接,从而获得数据样本对应的原始向量。例如,数据样本的目标属性信息包括属性1对应的属性信息和属性2对应的属性信息,则分别将属性1对应的属性信息转换为对应的表示向量1,将属性2对应的属性信息转换为对应的表示向量2,进一步将表示向量1和表示向量2拼接,从而获得该数据样本对应的原始向量。
可选的,在采用属性信息所属目标类别对应的信息转换算法,将属性对应的属性信息转换为该属性对应的表示向量时,若该目标类别为离散数值类型,则可以采用字典进行编码表示,比如one-hot编码,获得对应的表示向量。如果是连续数值类型,可以采用数值化后的数据进行表示,获得对应的表示向量,该表示向量是一维向量。如果是文本或图像类型,则可以采用Bert编码对文本或图像进行编码,获得对应的表示向量。
最后,将各个属性分别对应的表示向量拼接到一起,得到数据样本的原始向量。
步骤120,从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
本申请实施例中,从样本集合中选择一个数据样本作为待计算的正数据样本,将该待计算的正数据样本对应的原始向量输入编码器模型,获得该待计算的正数据样本对应的第一向量对,该第一向量对中包括两个向量,其中,一个向量与输入的原始向量相同,可以称为第一输出向量,另一个向量与输入的原始向量不同,但是该向量是原始向量的另一种表示方式,即与原始向量的语义相同,该另一个向量可以称为第二输出向量。该编码器模型采用不同的dropout模板,可以实现输入原始向量而输出存在上述特征的向量对,dropout模板是指在模型前向传播的时候,让某个神经元以一定的概率停止工作,不同dropout模板,相应的停止工作的神经元不同,从而可以输出向量对中的第一输出向量和第二输出向量。
如图3所示,即是本申请提供的一种编码器模型的示意图,向编码器模型输入原始向量,该编码器模型采用不同的dropout模板对该原始向量进行编码处理,从而输出向量对中两个不同的向量。可以理解的是,不同数据样本的原始向量输入编码器模型时,所采用的dropout模板也可以不同。
进一步,在从样本集合中选择数据样本作为待计算的正数据样本之后,还需要将该选择的数据样本设置正数据样本标识。
需要说明的是,如果是第一次从样本集合中选择待计算的正数据样本可以是随机选择,如果是非第一次从样本集合中选择待计算的正数据样本,则可以从样本集合中选择未设置数据样本标识的数据样本作为待计算的正数据样本。
步骤130,将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
本申请实施例中,在确定待计算的正数据样本之后,可以进一步从样本集合中获取除该待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入到该编码器模型,从而获得各个负数据样本分别对应的第二向量对,该第二向量对中可以包括第三输出向量和第四输出向量,该第三输出向量与负数据样本对应的原始向量表示相同,该第四输出向量与负数据样本对应的原始向量表示不同,但是与负数据样本对应的原始向量的语义相同。可以理解的是,负数据样本对应的原始向量输入编码器模型时,该编码器模型同样采用不同的dropout模板对原始向量进行编码处理,从而获得包括两个不同输出向量的第二向量对。
步骤140,根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
本申请实施例中,需要编码器模型能够区分相似向量和不同向量,因此,本申请根据第一向量对中两个向量之间的差异和第一向量对中的向量和各个第二向量对中的向量之间的差异,确定损失值。
示例性的,计算该第一向量对中第一输出向量和第二输出向量之间的第一余弦距离,计算第一向量对中第一输出向量分别和n-1个第二向量对中第四输出向量之间的第二余弦距离,从而根据第一余弦距离和n-1个第二余弦距离,确定损失值。
如下公式所示,为计算损失值的一种可选的方式,其中,N为负数据样本的个数,在本申请实施例中N=n-1:
Figure BDA0003514341670000091
其中hi为第一向量对中的第一输出向量,hi+为第一向量对中的第二输出向量,hj+为第二向量对中的第四输出向量,τ表示温度参数,是[0,1]之间的一个数,sim()函数表示余弦距离公式,如下:
Figure BDA0003514341670000092
步骤150,若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整;
本申请实施例中,在得到损失值之后,可以采用Adam等优化算法对编码器模型进行参数优化,直至编码器模型收敛,得到收敛的编码器模型。
示例性的,判断损失值是否满足目标条件,如果不满足目标条件,比如损失值大于预设阈值,则根据该损失值对编码器模型的参数进行调整,获得参数调整后的编码器模型,并继续从样本集合中选择一个未设置正数据样本标识的数据样本作为待计算的正数据样本,并将该待计算的正数据样本对应的原始向量输入到参数调整后的编码器模型,获得该待计算的正数据样本对应的第一向量对,即在对编码器模型进行参数调整之后,循环执行步骤120-步骤140,直到损失值满足目标条件时,执行步骤160,如果损失值不满足目标条件,仍然执行步骤150,并循环执行步骤120-步骤140。
步骤160,若所述损失值满足所述目标条件,获得训练好的编码器模型。
本申请实施例中,如果在执行步骤140之后,确定损失值满足目标条件,则迭代训练结束,将最后一次参数调整后的编码器模型作为训练好的编码器模型。其中,损失值满足目标条件可以是指损失值小于或等于预设阈值。
后续在使用该训练好的编码器模型时,可以将得到的原始向量输入该训练好的编码器模型,该编码器模型即输出用于表示该原始向量的输出向量,该输出向量能够更加均匀的表示该原始向量,并且比原始向量的区分度更好。
本申请实施例中,在对编码器模型进行训练时,将样本集合中的一个数据样本作为待计算的正数据样本,其余所有样本作为负数据样本,将待计算的正数据样本输入编码器模型后得到第一向量对,将各个负数据样本输入编码器模型得到至少一个第二向量对,通过第一向量对中两个向量之间的差异和第一向量对中的向量与第二向量对中的向量之间的差异,对编码器模型的参数进行调整,从而让编码器模型学习到相似向量之间的共性以及不同数据样本之间的区分度,并且本申请的编码器模型是对原始向量中各个维度进行融合学习,能够实现对数据样本的均匀表示。
请参阅图2,图2为本申请实施例提供的另一种模型训练方法的流程示意图。如图2所示,所述方法包括以下步骤:
步骤210,获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
步骤220,从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
步骤230,将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
步骤240,根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
步骤250,若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整;
步骤260,若所述损失值满足所述目标条件,获得训练好的编码器模型。
本申请实施例步骤210-步骤260请参照图1实施例步骤110-步骤160的具体描述,在此不再赘述。
步骤270,获取用于对待训练的风控模型进行训练的训练样本;
步骤280,获取与所述训练样本对应的目标原始向量;
本申请实施例中训练好的编码器模型可以用于对输入待训练的风控模型进行训练的训练样本对应的原始向量进行编码处理,该风控模型用于预测风险等级。具体可选的,获取用于对待训练的风控模型进行训练的训练样本,该训练样本可以包括至少一个属性分别对应的属性信息,根据步骤110中描述的方式,将训练样本中各个属性分别对应的属性信息转换为对应的表示向量,并将各个属性信息分别对应的表示向量拼接,获得目标原始向量。
步骤290,将所述目标原始向量输入所述训练好的编码器模型,获得目标输出向量;
本申请实施例中,将目标原始向量输入到训练好的编码器模型中进行编码处理,获得目标输出向量,该目标输出向量能够均匀的对输入的原始样本进行表示。
步骤300,将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练。
本申请实施例中,将目标输出向量输入到待训练的风控模型中,从而得到该训练样本对应的预测风险等级,根据该训练样本对应的实际风险等级和该预测风险等级之间的差异,确定损失值,进一步根据该损失值对待训练的风控模型进行参数调整。
本申请实施例中,在对风控模型进行训练时,将训练样本的原始向量输入到编码器模型进行编码处理,获得输出向量,该输出向量由于均匀表示训练样本,并且该输出向量的区分度比较高,风控模型在根据输出向量进行训练时,也能快速学习到不同样本之间的区分度,训练得到的风控模型在风险等级识别时准确度比较高。
请参见图4,为本申请实施例提供了一种模型训练装置的结构示意图。如图4所示,该模型训练装置可以包括:
第一获取单元10,用于获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
第二获取单元11,用于从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
第三获取单元12,用于将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
第一确定单元13,用于根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
参数调整单元14,用于若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
在一种可能的设计中,所述第一向量对中包括第一输出向量和第二输出向量,所述第一输出向量与所述待计算的正数据样本对应的原始向量的表示相同,所述第二输出向量与所述待计算的正数据样本对应的原始向量的表示不同;
所述第二向量对中包括第三输出向量和第四输出向量,所述第三输出向量与所述负数据样本对应的原始向量表示相同,所述第四输出向量与所述负数据样本对应的原始向量表示不同;
所述第一确定单元具体用于:计算所述第一向量对中所述第一输出向量和第二输出向量之间的第一余弦距离;
计算所述第一向量对中所述第一输出向量分别和n-1个第二向量对中第四输出向量之间的第二余弦距离;
根据所述第一余弦距离和n-1个所述第二余弦距离,确定损失值。
在一种可能的设计中,所述装置还包括:
第四获取单元,用于获取所述n个数据样本中各个数据样本的目标属性信息;
第二确定单元,用于根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量。
在一种可能的设计中,所述数据样本的目标属性信息包括所述数据样本的至少一个属性中各个属性对应的属性信息;
所述第二确定单元具体用于:分别获取目标属性信息中各个属性对应的属性信息所属目标类别;
采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
将所述至少一个属性中各个属性分别对应的表示向量进行拼接,获得所述数据样本对应的原始向量。
在一种可能的设计中,所述第二确定单元具体用于:若所述目标类别为离散数值类型,采用字典编码算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为连续数值类型,采用数值化算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为文本类型或图像类型,采用Bert编码算法对所述属性对应的属性信息转换为所述属性对应的表示向量。
在一种可能的设计中,所述装置还包括:
第五获取单元,用于获取用于对待训练的风控模型进行训练的训练样本;
第六获取单元,用于获取与所述训练样本对应的目标原始向量;
第七获取单元,用于将所述目标原始向量输入所述训练好的编码器模型,获得目标输出向量;
风控模型训练单元,用于将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练。
在一种可能的设计中,所述风控模型训练单元具体用于:
将所述目标输出向量输入到所述待训练的风控模型,获得所述训练样本对应的预测风险等级;
根据所述预测风险等级与所述训练样本对应的实际风险等级之间的差异,对所述待训练的风控模型的参数进行调整。
其中,图4所示装置实施例的具体描述可以参照前述图1或图2所示方法实施例的具体说明,在此不进行赘述。
请参照图5,为本申请实施例提供的另一种模型训练装置的结构示意图,如图5所示,该模型训练装置1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信单元以及程序指令。
在图5所示的模型训练装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
需要说明的是,具体执行过程可以参见图1或图2所示方法实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1或图2所示实施例的方法步骤,具体执行过程可以参见图1或图2所示实施例的具体说明,在此不进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
根据所述第一向量对中的两个向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
2.如权利要求1所述的方法,其特征在于,所述第一向量对中包括第一输出向量和第二输出向量,所述第一输出向量与所述待计算的正数据样本对应的原始向量的表示相同,所述第二输出向量与所述待计算的正数据样本对应的原始向量的表示不同;
所述第二向量对中包括第三输出向量和第四输出向量,所述第三输出向量与所述负数据样本对应的原始向量表示相同,所述第四输出向量与所述负数据样本对应的原始向量表示不同;
所述根据所述第一向量对中的两个向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值,包括:
计算所述第一向量对中所述第一输出向量和第二输出向量之间的第一余弦距离;
计算所述第一向量对中所述第一输出向量分别和n-1个第二向量对中第四输出向量之间的第二余弦距离;
根据所述第一余弦距离和n-1个所述第二余弦距离,确定损失值。
3.如权利要求1或2所述的方法,其特征在于,所述获取样本集合之后,还包括:
获取所述n个数据样本中各个数据样本的目标属性信息;
根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量。
4.如权利要求3所述的方法,其特征在于,所述数据样本的目标属性信息包括所述数据样本的至少一个属性中各个属性对应的属性信息;
所述根据所述各个数据样本的目标属性信息,分别确定各个数据样本对应的原始向量,包括:
分别获取目标属性信息中各个属性对应的属性信息所属目标类别;
采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
将所述至少一个属性中各个属性分别对应的表示向量进行拼接,获得所述数据样本对应的原始向量。
5.如权利要求4所述的方法,其特征在于,所述采用与所述目标类别对应的信息转换算法,将所述属性对应的属性信息转换为所述属性对应的表示向量,包括:
若所述目标类别为离散数值类型,采用字典编码算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为连续数值类型,采用数值化算法,将所述属性对应的属性信息转换为所述属性对应的表示向量;
若所述目标类别为文本类型或图像类型,采用Bert编码算法对所述属性对应的属性信息转换为所述属性对应的表示向量。
6.如权利要求1所述的方法,其特征在于,所述获得训练好的编码器模型之后,还包括:
获取用于对待训练的风控模型进行训练的训练样本;
获取与所述训练样本对应的目标原始向量;
将所述目标原始向量输入所述训练好的编码器模型,获得目标输出向量;
将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练。
7.如权利要求6所述的方法,其特征在于,所述将所述目标输出向量输入到所述待训练的风控模型,以对所述待训练的风控模型进行训练,包括:
将所述目标输出向量输入到所述待训练的风控模型,获得所述训练样本对应的预测风险等级;
根据所述预测风险等级与所述训练样本对应的实际风险等级之间的差异,对所述待训练的风控模型的参数进行调整。
8.一种模型训练装置,其特征在于,包括:
第一获取单元,用于获取样本集合,所述样本集合包括n个数据样本,所述n为大于或者等2的整数;
第二获取单元,用于从所述样本集合中选择一个数据样本作为待计算的正数据样本,将所述待计算的正数据样本对应的原始向量输入编码器模型,获得所述待计算的正数据样本对应的第一向量对,并将所述选择的数据样本设置正数据样本标识;
第三获取单元,用于将所述样本集合中除所述待计算的正数据样本之外的n-1个数据样本作为n-1个负数据样本,将各个负数据样本对应的原始向量输入所述编码器模型,获得各个所述负数据样本分别对应的第二向量对;
第一确定单元,用于根据所述第一向量对中的向量之间的差异和所述第一向量对中的向量与各个所述第二向量对中的向量之间的差异,确定损失值;
参数调整单元,用于若所述损失值不满足目标条件,则根据所述损失值,对所述编码器模型的参数进行调整,并从所述样本集合中选择一个未设置所述正数据样本标识的一个数据样本作为待计算的正数据样本,并将所述待计算的正数据样本对应的原始向量输入参数调整后的编码器模型,直到所述损失值满足所述目标条件,获得训练好的编码器模型。
9.一种模型训练设备,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如权利要求1-7中任一项所述的方法。
CN202210162019.0A 2022-02-22 2022-02-22 模型训练方法、装置、设备与存储介质 Pending CN114548273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162019.0A CN114548273A (zh) 2022-02-22 2022-02-22 模型训练方法、装置、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162019.0A CN114548273A (zh) 2022-02-22 2022-02-22 模型训练方法、装置、设备与存储介质

Publications (1)

Publication Number Publication Date
CN114548273A true CN114548273A (zh) 2022-05-27

Family

ID=81677025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162019.0A Pending CN114548273A (zh) 2022-02-22 2022-02-22 模型训练方法、装置、设备与存储介质

Country Status (1)

Country Link
CN (1) CN114548273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035107A (zh) * 2023-10-09 2023-11-10 苏州元脑智能科技有限公司 媒体资源的处理方法及装置、存储介质及电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035107A (zh) * 2023-10-09 2023-11-10 苏州元脑智能科技有限公司 媒体资源的处理方法及装置、存储介质及电子装置
CN117035107B (zh) * 2023-10-09 2024-02-09 苏州元脑智能科技有限公司 媒体资源的处理方法及装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN112214604A (zh) 文本分类模型的训练方法、文本分类方法、装置及设备
CN114090780B (zh) 一种基于提示学习的快速图片分类方法
CN113128419B (zh) 一种障碍物识别方法和装置、电子设备及存储介质
CN114510939A (zh) 实体关系抽取方法、装置、电子设备及存储介质
CN116416480B (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN113254615A (zh) 文本处理方法、装置、设备及介质
CN116090544A (zh) 神经网络模型的压缩方法、训练方法和处理方法、装置
CN115810068A (zh) 一种图像描述生成方法、装置、存储介质及电子设备
CN114548273A (zh) 模型训练方法、装置、设备与存储介质
CN112667803A (zh) 一种文本情感分类方法及装置
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN112084338A (zh) 一种文档自动归类方法、系统、计算机设备及存储介质
CN115687625B (zh) 文本分类方法、装置、设备及介质
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN112559750B (zh) 文本数据的分类方法、装置、非易失性存储介质、处理器
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN114330239A (zh) 文本处理方法及装置、存储介质及电子设备
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
EP3683733A1 (en) A method, an apparatus and a computer program product for neural networks
CN112148902A (zh) 数据处理方法、装置、服务器及存储介质
CN117392379B (zh) 目标检测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination