CN116663676A - 一种模型训练的方法、装置、存储介质及电子设备 - Google Patents
一种模型训练的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116663676A CN116663676A CN202310631919.XA CN202310631919A CN116663676A CN 116663676 A CN116663676 A CN 116663676A CN 202310631919 A CN202310631919 A CN 202310631919A CN 116663676 A CN116663676 A CN 116663676A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- prediction
- dimension
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000001364 causal effect Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 9
- 241000234295 Musa Species 0.000 description 8
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Storage Device Security (AREA)
Abstract
本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,用于隐私保护,可以获取业务数据以及该业务数据所对应的标注信息,该业务数据中包括若干维度的数据;从该业务数据中确定出预设维度下的数据,而后,将该业务数据输入到预测模型中,以使预测模型输出针对该业务数据的预测结果,作为第一预测结果,以及将该业务数据中在该预设维度下的数据输入到该预测模型中,以使该预测模型基于该业务数据中在该预设维度下的数据得到第二预测结果,最后,以最小化该第一预测结果与标注信息之间的偏差,以及维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内为优化条件,对该预测模型进行训练,在一定程度上提高了模型预测的准确率。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型训练的方法、装置、存储介质及电子设备。
背景技术
当前,由于深度学习模型在诸如图像识别、风险预测、自然语言处理、隐私数据保护等发挥着极大的作用,已成为主要探索的方向之一。
但是,在样本分布不均的情况下,深度学习模型的预测可能会出现偏差。例如,在对商户进行风险预测的场景中,通常情况下小型商户由于规模较小,所以相应的历史业务记录也会较少,而大型商户由于规模较大,所以相应的历史业务记录也会较多,因此,通过各商户的历史业务记录对深度学习模型进行训练,将导致深度学习模型学习出更多适用于对大型商户进行风险预测的知识,如利用业务的交易额来判断商户的交易是否存在风险。然而在实际应用中,小型商户的交易额往往较小,大型商户的交易额往往较大,这就导致当小型商户出现了大额交易时,即使是正常的交易也可能被深度学习模型误识别为是存在风险的交易。
从而,如何提高深度学习模型的准确率,则是一个亟待解决的问题。
发明内容
本说明书提供一种模型训练的方法、装置、存储介质及电子设备,以提高深度学习模型的准确率,保证数据安全。
本说明书采用下述技术方案:
本说明书提供一种模型训练的方法,包括:
获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据;
从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据;
将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果;
以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
可选地,将所述业务数据中预设维度的特征数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据得到第二预测结果,具体包括:
确定出所述业务数据中除预设维度之前其他维度下的数据,并将所述其他维度下的数据替换为预设数据,得到替换后的业务数据;
将所述替换后的业务数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据和所述预设数据确定出第二预测结果。
可选地,以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练,具体包括:
确定所述第一预测结果与所述第二预测结果之间的差值,以及确定预设的偏差调整参数与所述差值之间的偏差;
以最小化所述第一预测结果与所述标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,所述偏差调整参数位于所述预设偏差范围内。
可选地,从所述业务数据中确定出预设维度下的数据之前,还包括:
针对所述若干维度中的每个维度,确定该维度与所述预测模型执行所述业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度;
根据各维度对应的相关度,从所述若干维度中确定出预设维度。
本说明书提供一种模型训练的装置,包括:
获取模块,用于获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据;
确定模块,用于从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据;
输入模块,用于将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果;
训练模块,用于以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
可选地,所述输入模块用于,确定出所述业务数据中除预设维度之前其他维度下的数据,并将所述其他维度下的数据替换为预设数据,得到替换后的业务数据;将所述替换后的业务数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据和所述预设数据确定出第二预测结果。
可选地,所述训练模块用于,确定所述第一预测结果与所述第二预测结果之间的差值,以及确定预设的偏差调整参数与所述差值之间的偏差;以最小化所述第一预测结果与所述标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,所述偏差调整参数位于所述预设偏差范围内。
可选地,所述确定模块用于,针对所述若干维度中的每个维度,确定该维度与所述预测模型执行所述业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度;根据各维度对应的相关度,从所述若干维度中确定出预设维度。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书中提供的模型训练的方法中,可以获取业务数据以及该业务数据所对应的标注信息,该业务数据中包括若干维度的数据;从该业务数据中确定出预设维度下的数据,该业务数据中在该预设维度下的数据为与预设的预测模型执行该业务数据对应任务的任务目标存在直接关联的数据,而后,将该业务数据输入到预测模型中,以使预测模型输出针对该业务数据的预测结果,作为第一预测结果,以及将该业务数据中在该预设维度下的数据输入到该预测模型中,以使该预测模型基于该业务数据中在该预设维度下的数据得到第二预测结果,最后,以最小化该第一预测结果与标注信息之间的偏差,以及维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内为优化条件,对该预测模型进行训练。
从上述内容中可以看出,本说明书中提供的模型训练的方法,在模型训练中,可以通过与模型预测的任务存在直接关联的维度下的数据,来得到第二预测结果,并使得通过训练样本全部维度下的数据确定出的第一预测结果和第二预测结果之间存在一定差异,从而在一定程度上抵消与模型预测的任务存在直接关联的维度下的数据对模型预测出的结果的影响,在一定程度上提高了模型预测的准确率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附
图中:
图1为本说明书中一种模型训练的方法的流程示意图;
图2为本说明书中提供的一种因果图;
图3为本说明书中提供的一种消除自然直接因果效应的示意图;
图4为本说明书提供的一种模型训练的装置示意图;
图5为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种模型训练的方法的流程示意图,具体包括以下步骤:
S100:获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据。
S102:从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据。
在实际应用中,深度学习模型可以在各种场景中应用,以在相应场景中完成智能化预测,本方法意在减少深度学习模型预测出现偏差的情况。
基于此,可以获取业务数据以及业务数据所对应的标注信息,其中,业务数据中包括若干维度的数据,而后从业务数据中确定出预设维度下的数据,业务数据中在预设维度下的数据为与预设的预测模型执行业务数据对应任务的任务目标存在直接关联的数据。
需要说明的是,不对本说明书中的预测模型的具体业务场景进行限定,也就是说,上述业务数据可以是在各种业务场景下的业务数据,而预测模型所需执行业务数据对应的任务也可以是各种业务场景下的任务。
例1:该预测模型可以是风险预测模型,该风险预测模型可以用于预测商户存在的风险,以便于业务平台对商家进行风控,业务数据可以是与商户相关的数据。上述提到的任务目标可以是指风险预测模型所需要做出的决策,即,风险预测模型需要预测商户是否存在风险,那么“预测商户是否存在风险”为任务目标。
例2:该预测模型可以是看图回答问题(Visual Question Answering,VQA)模型,VQA模型用于根据用户提供的问题和图片,来基于图片回答该问题。那么,在该业务场景中,业务数据可以是问题以及图片,任务目标可以是指VQA模型基于问题所需做出的回答。
上述提到的预设维度的数据为与预设的预测模型执行业务数据对应任务的任务目标存在直接关联的数据,那么对于例1预设维度的数据可以是商户的交易金额、交易频次等。对于例2预设维度的数据可以是用户所提供的问题。
在确定预设维度时,可以通过人工选取的方式来进行确定,也可以通过一定计算方式来进行确定,在确定出预设维度的数据时,可以针对若干维度(业务数据所对应的若干维度)中的每个维度,确定该维度与预测模型执行业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度,进而,根据各维度对应的相关度,从若干维度中确定出预设维度。其中,可以将相关度较高的维度,作为预设维度,如,可以将相关度高于预设阈值的维度,作为预设维度。
确定维度与任务目标之间的相关度的方式可以存在多种,例如,对于例2来说,可以确定出问题对应的文本以及答案对应的文本并确定出之间的相关度,以及确定出图片与答案对应的文本之间的相关度,从而选取出问题作为预设维度。
S104:将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果。
S106:以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
确定出业务数据中预设维度下的数据后,可以将业务数据输入预测模型中,以使该预测模型输出针对业务数据的预测结果,作为第一预测结果,以及将业务数据中在预设维度下的数据输入到预测模型中,以使该预测模型基于业务数据中在预设维度下的数据得到第二预测结果。而后,以最小化第一预测结果与上述标注信息之间的偏差,以及维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内为优化条件,对该预测模型进行训练。
其中,最小化第一预测结果与标注信息之间的偏差为有监督的模型训练中的常规训练目标,因此,关于第二预测结果的训练目标,即,维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内,是为了减少预测模型存在预测偏差的情况。其中,预设偏差范围不包括0,也就是说,维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内,是为了使得第一预测结果与第二预测结果存在一定的差异。
第二预测结果是预测模型基于预设维度下的数据得来的,预设维度的数据与预测模型所需执行任务的任务目标具有较为直接的关联,也就是说,虽然预设维度的数据对于预测模型得出预测结果是较为重要的,但是预设维度的数据容易诱导预测模型做出错误的判断。因此,上述关于第二预测结果的训练目标是为了在一定程度上抵消预设维度的数据对预测模型得出最终结果的影响,减少预测模型做出错误的判断。
下面基于对预测模型进行常规的有监督训练而不采用本方法中的训练方法进行举例说明预设维度的数据导致预测模型出现错误的情况:
基于例1,例1中是通过预测模型对商户进行风控,商户的交易金额对预测模型给出商户是否具有风险是较为重要的,但是交易金额这个维度上的数据有可能诱导模型给出错误的结果,即,在小型商户出现大额交易时,即使是正常交易预测模型也判断交易为存在风险的,那么在这个场景下,预设维度的数据可以是交易金额。
基于例2,例2中是通过预测模型基于一定的问题和图片给出回答,例如,问题是“香蕉是什么颜色的”,图片为香蕉的图片,那么预测模型给出的回答应是香蕉的颜色,而当训练样本中黄色香蕉的图片很多,绿色香蕉的图片比较少,那么有可能预测模型直接将问题与最终需要给出的回答相挂钩,总是回答出“香蕉是黄色的”这种结果,即使给出的图片是香蕉是绿色的,预测模型的回答也可能是“香蕉是黄色的”。
站在因果效应的角度上,样本数据中全部维度下的数据与预测模型所需得出的预测结果之间的关系,类似总因果效应(Total Effects,TE),样本数据中预设维度下的数据与预测模型所需得出的预测结果之间的关系,类似自然直接因果效应(Natrual DirectEffects,NDE),除预设维度之外的其他维度下的数据与预测模型所需得出的预测结果之间的关系,类似总间接因果效应(Total Indirect Effect,TIE)。
图2为本说明书中提供的一种因果图。
图2中的X表示原因,Y表示结果,M表示媒介,当X直接影响Y,即,X->Y,则X对Y存在自然直接因果效应,若X通过M影响Y,即X->M->Y:则X对Y存在间接因果效应。
按照例2来说明的话,则如图3所示。
图3为本说明书中提供的一种消除自然直接因果效应的示意图。
图3中的左侧因果图中,Q(Question)表示问题、V(Vision)表示图片,K(Knowledge)表示问题和图片的融合信息,A表示答案,左侧图表示预测模型对于A最终的预测结果其实是由三条因果路径综合得出的,分别是:1.由Question信息直接预测A;2.由Vision信息直接预测A;3.由Q和V的融合信息Knowledge去预测A。这三条路径的效应总和,即总因果效应(Total Effects,TE)。
而我们的解决方法就是抵消掉模型只依赖主体信息(Question信息)就直接做预测的主体偏差,即左侧因果图中的第1条路径,可称为Q到A的自然直接因果效应(NatrualDirect Effects,NDE),即如图3右侧所示,使减号左边(总因果效应)和右边(自然直接因果效应)之间的差值尽量较大。
从上述内容中可以看出,本方法的目的在于,在一定程度上减少自然直接因果效应对模型最终得出的预测结果的影响。
综上,本方法中在训练预测模型时:维持第一预测结果与第二预测结果之间的偏差位于预设偏差范围内,正是为了使得第一预测结果与第二预测结果存在一定的偏差,从而在一定程度上减少预设维度的数据对预测模型得出的最终结果的影响。当然,这种方式并不一定需要使得第一预测结果与第二预测结果存在较大偏差,因为预设维度的数据对预测模型得出的最终结果是存在一定作用的。
在对预测模型进行训练时,可以确定出第一预测结果与第二预测结果之间的差值,以及确定预设的偏差调整参数与差值之间的偏差,并以最小化第一预测结果与标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,其中,该偏差调整参数位于预设偏差范围内。这种,该偏差调整参数可以人为根据经验进行预设。
上述提到的偏差调整参数是为控制第一预测结果与第二预测结果偏差的大小,偏差调整参数越大,第一预测结果与第二预测结果偏差越大,偏差调整参数越小,第一预测结果与第二预测结果偏差越小,按照上述方式进行模型训练,具体的目标函数可以如下所示:
其中,f(x)为第一预测结果,为第二预测结果,m为偏差调整参数,通过最小化L2(x),最小化偏差调整参数与第一预测结果和第二预测结果之间差值的偏差。
模型训练中还需要存在常规有监督训练对应的目标函数,该目标函数可以为交叉熵损失函数,具体可以为:
其中,y为标注信息,为第一预测结果。
需要说明的是,最小化第一预测结果与标注信息之间的偏差所对应的目标函数的权重,可以比维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内所对应的目标函数的权重大。
还需说明的是,由于预测模型的输入的维度数可以是固定的,因此,在得出第二预测结果时,虽然需要仅根据预设维度下的数据来确定,但是也需要输入其他维度的数据,因此,可以确定出业务数据中除预设维度之前其他维度下的数据,并将其他维度下的数据替换为预设数据,得到替换后的业务数据,并将替换后的业务数据输入到预测模型中,以使预测模型基于预设维度的特征数据和预设数据确定出第二预测结果。
其中,每个其他维度可以对应一种预设数据,该其他维度下的数据可以被替换为该其他维度下的预设数据。预设数据可以存在多种。例如,一个其他维度下的预设数据可以是通过所有样本数据确定出的该其他维度下的数据的均值,再例如,预设数据可以为0。
需要说明的是,为了便于描述,在上述内容中以服务器作为执行主体对本说明书中的模型训练的方法进行说明,在实际中,不对执行本方法的执行主体进行限制,执行主体可以是服务器、电脑、大型的服务平台等电子设备。
训练后的预测模型可以用于执行该业务数据所对应的任务,以给出预测结果,该预测结果可以在该业务数据所对应的业务中进行使用。
从上述内容中可以看出,本说明书中提供的模型训练的方法,在模型训练中,可以通过与模型预测的任务存在直接关联的维度下的数据,来得到第二预测结果,并使得通过样本数据全部维度下的数据确定出的第一预测结果和第二预测结果之间存在一定差异,从而在一定程度上抵消与模型预测的任务存在直接关联的维度下的数据对模型预测出的结果的影响,在一定程度上提高了模型预测的准确率。
以上为本说明书的一个或多个实施例提供的模型训练的方法,基于同样的思路,本说明书还提供了模型训练的装置,如图4所示。
图4为本说明书提供的一种模型训练的装置示意图,具体包括:
获取模块401,用于获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据;
确定模块402,用于从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据;
输入模块403,用于将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果;
训练模块404,用于以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
可选地,所述输入模块403用于,确定出所述业务数据中除预设维度之前其他维度下的数据,并将所述其他维度下的数据替换为预设数据,得到替换后的样本数据;将所述替换后的业务数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据和所述预设数据确定出第二预测结果。
可选地,所述训练模块404用于,确定所述第一预测结果与所述第二预测结果之间的差值,以及确定预设的偏差调整参数与所述差值之间的偏差;以最小化所述第一预测结果与所述标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,所述偏差调整参数位于所述预设偏差范围内。
可选地,所述确定模块402用于,针对所述若干维度中的每个维度,确定该维度与所述预测模型执行所述业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度;根据各维度对应的相关度,从所述若干维度中确定出预设维度。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述模型训练的方法。
本说明书还提供了图5所示的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述模型训练的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理节点来执行任务。在分布式计算环境中,程序模块可以位于包括存储节点在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种模型训练的方法,包括:
获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据;
从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据;
将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果;
以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
2.如权利要求1所述的方法,将所述业务数据中预设维度的特征数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据得到第二预测结果,具体包括:
确定出所述业务数据中除预设维度之前其他维度下的数据,并将所述其他维度下的数据替换为预设数据,得到替换后的业务数据;
将所述替换后的业务数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据和所述预设数据确定出第二预测结果。
3.如权利要求1所述的方法,以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练,具体包括:
确定所述第一预测结果与所述第二预测结果之间的差值,以及确定预设的偏差调整参数与所述差值之间的偏差;
以最小化所述第一预测结果与所述标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,所述偏差调整参数位于所述预设偏差范围内。
4.如权利要求1所述的方法,从所述业务数据中确定出预设维度下的数据之前,还包括:
针对所述若干维度中的每个维度,确定该维度与所述预测模型执行所述业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度;
根据各维度对应的相关度,从所述若干维度中确定出预设维度。
5.一种模型训练的装置,包括:
获取模块,用于获取业务数据以及所述业务数据所对应的标注信息,所述业务数据中包括若干维度的数据;
确定模块,用于从所述业务数据中确定出预设维度下的数据,所述业务数据中在所述预设维度下的数据为与预设的预测模型执行所述业务数据对应任务的任务目标存在直接关联的数据;
输入模块,用于将所述业务数据输入到所述预测模型中,以使所述预测模型输出针对所述业务数据的预测结果,作为第一预测结果,以及将所述业务数据中在所述预设维度下的数据输入到所述预测模型中,以使所述预测模型基于所述业务数据中在所述预设维度下的数据得到第二预测结果;
训练模块,用于以最小化所述第一预测结果与所述标注信息之间的偏差,以及维持所述第一预测结果与所述第二预测结果之间的偏差位于预设偏差范围内为优化条件,对所述预测模型进行训练。
6.如权利要求5所述的装置,所述输入模块用于,确定出所述业务数据中除预设维度之前其他维度下的数据,并将所述其他维度下的数据替换为预设数据,得到替换后的业务数据;将所述替换后的业务数据输入到所述预测模型中,以使所述预测模型基于所述预设维度的特征数据和所述预设数据确定出第二预测结果。
7.如权利要求5所述的装置,所述训练模块用于,确定所述第一预测结果与所述第二预测结果之间的差值,以及确定预设的偏差调整参数与所述差值之间的偏差;以最小化所述第一预测结果与所述标注信息之间的差异,以及最小化所述偏差调整参数与所述差值之间的偏差为优化条件,对所述预测模型进行训练,所述偏差调整参数位于所述预设偏差范围内。
8.如权利要求5所述的装置,所述确定模块用于,针对所述若干维度中的每个维度,确定该维度与所述预测模型执行所述业务数据对应任务的任务目标之间的相关度,作为该维度对应的相关度;根据各维度对应的相关度,从所述若干维度中确定出预设维度。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~4任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631919.XA CN116663676A (zh) | 2023-05-30 | 2023-05-30 | 一种模型训练的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631919.XA CN116663676A (zh) | 2023-05-30 | 2023-05-30 | 一种模型训练的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663676A true CN116663676A (zh) | 2023-08-29 |
Family
ID=87723719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310631919.XA Pending CN116663676A (zh) | 2023-05-30 | 2023-05-30 | 一种模型训练的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663676A (zh) |
-
2023
- 2023-05-30 CN CN202310631919.XA patent/CN116663676A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766468B (zh) | 一种轨迹预测方法、装置、存储介质及电子设备 | |
CN113887608B (zh) | 一种模型训练的方法、图像检测的方法及装置 | |
CN115618964B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN114997472A (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN117194992A (zh) | 一种模型训练、任务执行方法、装置、存储介质及设备 | |
CN116309823A (zh) | 一种位姿的确定方法、装置、设备及存储介质 | |
CN117409466B (zh) | 一种基于多标签控制的三维动态表情生成方法及装置 | |
CN116821647B (zh) | 基于样本偏离评估的数据标注的优化方法、装置及设备 | |
CN116091895B (zh) | 一种面向多任务知识融合的模型训练方法及装置 | |
CN116434787B (zh) | 一种语音情感识别的方法、装置、存储介质及电子设备 | |
CN117093862A (zh) | 一种模型训练的方法、装置、电子设备及存储介质 | |
CN116824331A (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN116151466A (zh) | 一种企业风险预警模型的训练方法、装置、介质及设备 | |
CN116822606A (zh) | 一种异常检测模型的训练方法、装置、设备及存储介质 | |
CN116663676A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN114120273A (zh) | 一种模型训练的方法及装置 | |
CN116501852B (zh) | 一种可控对话模型训练方法、装置、存储介质及电子设备 | |
CN117786061B (zh) | 一种基于时空注意力机制的大语言模型预测方法及装置 | |
CN116109008B (zh) | 一种业务执行的方法、装置、存储介质及电子设备 | |
CN114972909B (zh) | 一种模型训练的方法、构建地图的方法及装置 | |
CN116340852B (zh) | 一种模型训练、业务风控的方法及装置 | |
CN117079274A (zh) | 一种识别模型的训练方法、装置、存储介质及电子设备 | |
CN116563387A (zh) | 一种标定模型的训练方法、装置、存储介质以及电子设备 | |
CN117494052A (zh) | 一种基于时空静态信息自动化生成的预测方法及装置 | |
CN117876114A (zh) | 一种业务执行和模型训练的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |