CN111898682A - 基于多个源模型修正新模型的方法、装置以及计算机设备 - Google Patents
基于多个源模型修正新模型的方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN111898682A CN111898682A CN202010760913.9A CN202010760913A CN111898682A CN 111898682 A CN111898682 A CN 111898682A CN 202010760913 A CN202010760913 A CN 202010760913A CN 111898682 A CN111898682 A CN 111898682A
- Authority
- CN
- China
- Prior art keywords
- vector
- value
- model
- training data
- new model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多个源模型修正新模型的方法、装置以及计算机设备,其中方法包括:将第一训练数据输入至新模型中得到第一当前向量;以及,将第一训练数据分别输入至多个预设的源模型中进行计算,得到对应各源模型的特征向量;并融合计算得到指标向量;计算第一当前向量与指标向量之间的梯度值;根据梯度值校正新模型中的参数。本发明的有益效果:通过将训练数据输入现有的多个源模型中,得到对应的多个特征向量,然后融合计算得到指标向量,然后计算指标向量与新模型得到的当前向量之间的梯度值,通过梯度值校正新模型中的参数。使新模型综合了多个源模型融合后的优点,避免了直接使用融合模型,体积变大,速度变慢的问题。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种基于多个源模型修正新模型的方法、装置以及计算机设备。
背景技术
目前已经训练好的模型在某个场景下效果比较好,在其他场景下效果比较差,并且在外场训练的模型,其得到的数据不能直接利用,只能回流模型,但是后续继续优化新模型的时候缺少数据。设计新的模型需要清洗数据,给不同的数据添加相应的标签,若标签添加的不准确,则会导致输出的结果达不到精度要求,而直接使用融合模型,特别是使用多个模型时,融合后的模型过大,速度过慢。因此,亟需一种基于多个源模型修正新模型的方法。
发明内容
本发明的主要目的为提供一种基于多个源模型修正新模型的方法、装置以及计算机设备,旨在解决现有技术直接对多个模型直接进行融合时,导致融合后的模型过大的技术问题。
一种基于多个源模型修正新模型的方法,包括:
将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,
将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
分别计算每个所述源模型对应的所述特征向量的平均值;
将各所述源模型对应的平均值融合计算得到指标向量;
计算所述第一当前向量与所述指标向量的第一相似度值;
判断所述第一相似度值是否小于预设相似度值;
若所述第一相似度值小于预设相似度值,则计算所述第一当前向量与所述指标向量之间的梯度值;
根据所述梯度值校正所述新模型中的参数。
进一步地,所述根据所述梯度值校正所述新模型中的参数的步骤之后,还包括:
将所述第一训练数据输入到校正参数后的新模型中进行计算,得到第二当前向量,并计算所述第二当前向量与所述指标向量的第二相似度值;
判断所述第二相似度值是否大于所述预设相似度值;
若第二相似度值大于所述预设相似度值,则认定所述新模型基于所述第一训练数据的训练完成。
进一步地,所述将各所述源模型对应的平均值融合计算得到指标向量的步骤,包括:
获取所述新模型在不同应用场景的相关因子;
进一步地,所述计算所述第一当前向量与所述指标向量的第一相似度值的步骤,包括:
获取所述指标向量和所述第一当前向量的参数值,其中所述参数值至少包括所述指标向量和所述当前向量的特征向量维度数量,以及在各维度中指标向量数值和当前向量数值;
进一步地,所述将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量的步骤之前,包括:
当所述第一训练数据为图片时,获取所述图片中的每个像素点,将每个所述像素点和预设像素点阈值进行比较;
将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1;
将所述图片平均划分为多个区域,并统计每个区域中的像素点为1的个数,并构成矩阵作为所述训练数据。
进一步地,所述将第一训练数据输入至所述新模型中进行计算,得到第一当前向量的步骤之前,还包括:
根据所述新模型的应用场景计算对应的结构量化值;
根据所述结构量化值与预设列表中的数据进行比对;其中,所述预设列表包括了所述结构量化值的数值与模型的对应关系;
根据比对结果从模型数据库中筛选出所述新模型。
进一步地,所述将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量的步骤之前,包括:
将各个模型与所述新模型的相关度与预设相关度阈值进行比较;
选取所述相关度大于所述预设相关度阈值的模型作为所述源模型。
本发明还提供了一种基于多个源模型的新模型训练装置,包括:
训练数据计算模块,用于将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,
将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
平均值计算模块,用于分别计算每个所述源模型对应的所述特征向量的平均值;
指标向量计算模块,用于将各所述源模型对应的平均值融合计算得到指标向量;
第一相似度值计算模块,用于计算所述第一当前向量与所述指标向量的第一相似度值;
第一相似度值判断模块,用于判断所述第一相似度值是否小于预设相似度值;
梯度值计算模块,用于若所述第一相似度值小于预设相似度值,则计算所述当前向量与所述指标向量之间的梯度值;
参数更新模块,用于根据所述梯度值校正所述新模型中的参数。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过将训练数据输入现有的多个源模型中,得到对应的多个特征向量,然后融合计算得到指标向量,然后计算指标向量与新模型得到的当前向量之间的梯度值,通过梯度值校正新模型中的参数。使新模型基于多个源模型训练而成,且无需将多个源模型进行融合,在提高新模型的计算精度的同时,使新模型综合了多个源模型融合后的优点,避免了直接使用融合模型,体积变大,速度变慢的问题。
附图说明
图1是本发明一实施例的一种基于多个源模型修正新模型的方法的流程示意图;
图2为本申请一实施例的基于多个源模型修正新模型的装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种基于多个源模型修正新模型的方法,包括:
S1:将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
S2:分别计算每个所述源模型对应的所述特征向量的平均值;
S3:将各所述源模型对应的平均值融合计算得到指标向量;
S4:计算所述第一当前向量与所述指标向量的第一相似度值;
S5:判断所述第一相似度值是否小于预设相似度值;
S6:若所述第一相似度值小于预设相似度值,则计算所述当前向量与所述指标向量之间的梯度值;
S7:根据所述梯度值校正所述新模型中的参数。
如上述步骤S1所述,可以根据实际需要的数据选取多个预设的源模型,例如模型a在金融场景比较好,模型b在监控场景表现比较好,模型c在考勤场景比较比较好,需要获取的数据需要综合上边三个场景,那么就可以选取对应的模型a、模型b和模型c。需要说明的是,对于选取训练模型,其可以只是训练完毕的模型,而不需要其原始训练数据。将训练数据和其翻转后的数据输入至预设的源模型中,可以得到每个模型对应的多个特征向量,本文以只进行了左右翻转为例,假设为翻转前的第一训练数据输入至模型a中得到特征向量aV1,将左右翻转后的第二训练数据输入至模型a中得到特征向量aV2,当然,若输入至模型b中,相应得到特征向量bV1和bV2,若还具有模型c,模型d等,按照相应的方法得到对应模型的两个特征向量,需要说明的是,由于训练数据相同,故而其翻转后的数据与该训练数据也是相似的,本申请将训练数据翻转,是为了获取训练数据在各模型中得到更多的值,以便于后续计算过程中提升训练模型的精度。与此同时,还将第一训练数据输入至新模型中,得到第一当前向量。
如上述步骤S2所述,不同的源模型通过第一训练数据和其翻转后的第二训练数据输计算得到多个特征向量,然后计算得到对应同一个源模型的特征向量的平均值。求出的平均值是各模型基于训练数据得到的一个优值,一般而言,该平均值的结果会优于将第一训练数据直接输入后得到的值。
如上述步骤S3所述,然后再将各源模型对应的平均值进行融合,形成一个完整的输出,即求各源模型对应的平均值的均值,或者将各平均值进行降维操作,举例而言,假设具有两个模型那么各模型的平均值分别为aV=(aV1+aV2)/2,bV=(bV1+bV2)/2,然后将其融合,假设融合是求各源模型对应的平均值的均值(指标向量),那么均值V=(aV+bV)/2,若融合是采取降维的方式,那么降维的方法可以是缺失值比率、低方差滤波、高相关滤波、随机森林/组合树、主成分分析和反特征消除中的一种,最终得到指标向量,用于对新模型训练的对比。
如上述步骤S4所述,将第一当前向量与指标向量进行比较,即计算第一相似度值,计算的公式可以是当acc的值越接近于1,表明当前向量与指标向量越相似,当acc的值越接近于0时,表明当前向量与指标向量越不相似。其中公式中acc表示第一相似度值,zvi表示在第i特征向量维度中对应的当前向量数值,vi表示在第i特征向量维度中对应的指标向量数值,n为特征向量维度数量。
如上述步骤S5-S7所述,将计算的第一相似度值与相似度阈值进行比较,若当前的相似度大于相似度阈值,则可以说明当前向量可以相当于目标向量;若当前的相似度小于相似度阈值,则表明当前向量不是目标向量,还需要调整模型中的参数,重新获取当前向量,具体地,根据loss获取梯度值,获取梯度原始值的公式为 其中Loss(zV,V)为梯度的原始值,zvi表示在第i特征向量维度中对应的当前向量,vi表示在第i特征向量维度中对应的指标向量,n为特征向量维度数量。然后再对Loss(zV,V)进行求导,得到梯度值,然后再根据获取到的梯度值校正新模型中的参数,以达到训练新模型的技术效果。
本实施例中,上述若所述第一相似度值小于预设相似度值,则计算所述当前向量与所述指标向量之间的梯度值,并根据所述梯度值校正所述新模型中的参数的步骤S7之后,还包括:
S8:将所述第一训练数据输入到校正参数后的新模型中进行计算,得到第二当前向量,并计算所述第二当前向量与所述指标向量的第二相似度值;
S9:判断所述第二相似度值是否大于所述预设相似度值;
S10,若第二相似度值大于所述预设相似度值,则认定所述新模型基于所述第一训练数据的训练完成。
如上述步骤S8-S10所述,可以对校正后的参数再次进行检测,即将根据校正后的参数重新计算当前向量,并计算与指标向量的第二相似度值,若第二相似度值大于预设相似度值,则可以将重新计算后的当前向量记为目标向量。若第二相似度值小于或等于预设相似度值,则可以通过上述loss继续获取新的梯度值,根据新的梯度值更改对应的参数,重复多次,直至当前向量与指标向量的第二相似度值大于预设相似度值,认定所述新模型基于所述第一训练数据的训练完成。另外,还可以输入新的训练数据,获取新的指标向量和当前向量,对新模型进行多次反复的训练,达到一定次数后,视为完成了新模型的训练。
本实施例中,上述将各所述源模型对应的平均值融合计算得到指标向量的步骤S3,包括:
S301:获取所述新模型在不同应用场景的相关因子;
如上述步骤S301-S302所述,获取新模型在不同应用场景下的相关因子,该相关因子可以是基于新模型的作用进行确定的,例如新模型是为了公司的人员管理,则相关因子较大的应用场景为监控场景、考勤场景等,而金融场景的相关因子较小,其中相关因子的数值可以根据新模型的作用进行确定,例如可以将监控场景的相关因子设置为0.5,将考勤的相关因子设置为0.7,将金融场景的相关因子设置为0.2,然后再根据公式依据各个场景的相关因子计算得到指标向量,使后续基于指标向量计算相似度值,以及更新的参数可以更加贴近新模型的应用,使训练得到的新模型更好。
本实施例中,如上述计算所述第一当前向量与所述指标向量的第一相似度值的步骤S4,包括:
S401:获取所述指标向量和所述第一当前向量的参数值,其中所述参数值至少包括所述指标向量和所述当前向量的特征向量维度数量,以及在各维度中指标向量数值和当前向量数值;
如上述步骤S401-S402所述,将根据所述指标向量和所述当前向量的特征向量维度数量,以及在各维度中指标向量数值和当前向量数值依照公式计算第一相似度值,当acc的值越接近于1,表明当前向量与指标向量越相似,当acc的值越接近于0时,表明当前向量与指标向量越不相似。其中公式中acc表示第一相似度值,zvi表示在第i特征向量维度中对应的当前向量数值,vi表示在第i特征向量维度中对应的指标向量数值,n为特征向量维度数量。根据上述公式计算的第一相似度值可以判断新模型的输出的当前向量,与其他模型融合后的指标向量的相似度,再根据相似度判断新模型是否需要调整参数。其中,第一相似度值越趋近于1时,则认为当前向量与指标向量越相关,第一相似度值越趋近于0时,则认为当前向量与指标向量越不相关。
本实施例中,上述将第一训练数据输入至所述新模型中进行计算,得到第一当前向量的步骤S1之前,包括:
S001:当所述第一训练数据为图片时,获取图片中的每个像素点,将每个所述像素点和预设像素点阈值进行比较;
S002:将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1;
S003:将所述图片平均划分为多个区域,并统计每个区域中的像素点为1的个数,并构成矩阵作为所述训练数据。
如上述步骤S001-S003所述,将图片进行数字化处理,得到图片中的每个像素点,然后将每个像素点和预设像素点阈值进行比较,该像素点阈值为事先设定的值,设计人员可以根据需要对预设像素点阈值进行设定不同的值,然后将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1,得到一个初始阵列,然后再将图片平均划分为多个区域,例如将32×32的初始阵列平均划分为多个区域,以得到8×8的矩阵,然后将得到的矩阵作为训练数据进行训练。当然,上述指的是对图片进行训练数据的处理,本发明还可以对其他训练数据进行其他的处理,例如文本,客户信息等,此处不再赘述。
本实施例中,上述将第一训练数据输入至所述新模型中进行计算,得到第一当前向量的步骤S1之前,还包括:
S011:根据所述新模型的应用场景计算对应的结构量化值;
S012:根据所述结构量化值与预设列表中的数据进行比对;其中,所述预设列表包括了所述结构量化值的数值与模型的对应关系;
S013:根据比对结果从模型数据库中筛选出所述新模型。
如上述步骤S011-S013所述,根据新模型的应用场景计算对应的结构量化值,其中结构量化值用于表示模型的结构复杂度,结构量化值越大,表示结构越复杂,结构量化值越小,表示模型越简单,举例而言,当新模型应用在终端,尤其是智能终端时,选择新模型时,新模型的结构不宜太复杂,否则容易占用终端CPU的运行内存,减慢了终端的运行速度,若在服务器端,服务器一般有很高的运行内存,为了使得到的数据更加精确,故而可以使用复杂的新模型结构。应当理解的是,模型越复杂,占用的运行内存越高,对于数据的计算结果也更为准确,基于上述考虑,应该针对应用场景选择新模型,故而可以事先设置一个预设列表,或者预设函数,可以根据应用场景选择合适的新模型,使选择的新模型更加具有实用性。
本实施例中,所述选取多个所述源模型用于训练所述新模型的步骤S1,包括:
S112:将各个模型与所述新模型的相关度与预设相关度阈值进行比较;
S113:选取所述相关度大于所述预设相关度阈值模型作为所述源模型。
如上述步骤S111-S113所述,将源模型数据库中各模型的特征集合和新模型的特征集合通过公式进行计算,其中模型的特征和新模型的特征可以是算法、应用场景、输入值以及输出值等,可以根据各自的特征计算相关度,当计算的相关度越趋近于1时,表示模型与新模型越相关,当计算的相关度越趋近于0时,表示模型与新模型越不相关。因此,可以设置一个预设相关度阈值,该预设相关度阈值为事先根据实际情况设置的值,例如若源模型数据库中的模型数量足够多,那么预设相关度阈值可以相应的设置大一些,若源模型数据库中的模型数量较少,那么预设相关度阈值可以相应的设置小一些。然后选取相关度大于预设相关度阈值的模型作为源模型,使基于选取的源模型对新模型训练的效果更好。
本发明的有益效果:通过将训练数据输入现有的多个源模型中,得到对应的多个特征向量,然后融合计算得到指标向量,然后计算指标向量与新模型得到的当前向量之间的梯度值,通过梯度值校正新模型中的参数。使新模型基于多个源模型训练而成,且无需将多个源模型进行融合,在提高新模型的计算精度的同时,使新模型综合了多个源模型融合后的优点,避免了直接使用融合模型,体积变大,速度变慢的问题。
参照图2,本发明提出一种基于多个源模型的新模型训练装置,包括:
训练数据计算模块10,用于将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,
将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
平均值计算模块20,用于分别计算每个所述源模型对应的所述特征向量的平均值;
指标向量计算模块30,用于将各所述源模型对应的平均值融合计算得到指标向量;
第一相似度值计算模块40,用于计算所述第一当前向量与所述指标向量的第一相似度值;
第一相似度值判断模块50,用于判断所述第一相似度值是否小于预设相似度值;
梯度值计算模块60,用于若所述第一相似度值小于预设相似度值,则计算所述当前向量与所述指标向量之间的梯度值;
参数更新模块70,用于根据所述梯度值校正所述新模型中的参数。
可以根据实际需要的数据选取多个预设的源模型,例如模型a在金融场景比较好,模型b在监控场景表现比较好,模型c在考勤场景比较比较好,需要获取的数据需要综合上边三个场景,那么就可以选取对应的模型a、模型b和模型c。需要说明的是,对于选取训练模型,其可以只是训练完毕的模型,而不需要其原始训练数据。将训练数据和其翻转后的数据输入至预设的源模型中,可以得到每个模型对应的多个特征向量,本文以只进行了左右翻转为例,假设为翻转前的第一训练数据输入至模型a中得到特征向量aV1,将左右翻转后的第二训练数据输入至模型a中得到特征向量aV2,当然,若输入至模型b中,相应得到特征向量bV1和bV2,若还具有模型c,模型d等,按照相应的方法得到对应模型的两个特征向量,需要说明的是,由于训练数据相同,故而其翻转后的数据与该训练数据也是相似的,本申请将训练数据翻转,是为了获取训练数据在各模型中得到更多的值,以便于后续计算过程中提升训练模型的精度。然后将第一训练数据输入至新模型中,得到第一当前向量。
不同的源模型通过第一训练数据和其翻转后的第二训练数据输计算得到多个特征向量,然后计算得到对应同一个源模型的特征向量的平均值。求出的平均值是各模型基于训练数据得到的一个优值,一般而言,该平均值的结果会优于将第一训练数据直接输入后得到的值。
然后再将各源模型对应的平均值进行融合,形成一个完整的输出,即求各源模型对应的平均值的均值,或者将各平均值进行降维操作,举例而言,假设具有两个模型那么各模型的平均值分别为aV=(aV1+aV2)/2,bV=(bV1+bV2)/2,然后将其融合,假设融合是求各源模型对应的平均值的均值(指标向量),那么均值V=(aV+bV)/2,若融合是采取降维的方式,那么降维的方法可以是缺失值比率、低方差滤波、高相关滤波、随机森林/组合树、主成分分析和反特征消除中的一种,最终得到指标向量,用于对新模型训练的对比。
将第一当前向量与指标向量进行比较,即计算第一相似度值,计算的公式可以是当acc的值越接近于1,表明当前向量与指标向量越相似,当acc的值越接近于0时,表明当前向量与指标向量越不相似。其中公式中acc表示第一相似度值,zvi表示在第i特征向量维度中对应的当前向量数值,vi表示在第i特征向量维度中对应的指标向量数值,n为特征向量维度数量。
将计算的第一相似度值与相似度阈值进行比较,若当前的相似度大于相似度阈值,则可以说明当前向量可以相当于目标向量;若当前的相似度小于相似度阈值,则表明当前向量不是目标向量,还需要调整模型中的参数,重新获取当前向量,具体地,根据loss获取梯度值,获取梯度原始值的公式为其中Loss(zV,V)为梯度的原始值,zvi表示在第i特征向量维度中对应的当前向量,vi表示在第i特征向量维度中对应的指标向量,n为特征向量维度数量。然后再对Loss(zV,V)进行求导,得到梯度值,然后再根据获取到的梯度值校正新模型中的参数,以达到训练新模型的技术效果。
本实施例中,基于多个源模型的新模型训练装置,还包括:
重新计算模块,用于将所述第一训练数据输入到校正参数后的新模型中进行计算,得到第二当前向量,并计算所述第二当前向量与所述指标向量的第二相似度值;
第二相似度值判断模块,用于判断所述第二相似度值是否大于所述预设相似度值;
训练认定模块,用于若第二相似度值大于所述预设相似度值,则认定所述新模型基于所述第一训练数据的训练完成。
可以对校正后的参数再次进行检测,即将根据校正后的参数重新计算当前向量,并计算与指标向量的第二相似度值,若第二相似度值大于预设相似度值,则可以将重新计算后的当前向量记为目标向量。若第二相似度值小于或等于预设相似度值,则可以通过上述loss继续获取新的梯度值,根据新的梯度值更改对应的参数,重复多次,直至当前向量与指标向量的第二相似度值大于预设相似度值,认定所述新模型基于所述第一训练数据的训练完成。另外,还可以输入新的训练数据,获取新的指标向量和当前向量,对新模型进行多次反复的训练,达到一定次数后,视为完成了新模型的训练。
本实施例中,指标向量计算模块30,包括:
相关因子获取子模块,用于获取所述新模型在不同应用场景的相关因子;
获取新模型在不同应用场景下的相关因子,该相关因子可以是基于新模型的作用进行确定的,例如新模型是为了公司的人员管理,则相关因子较大的应用场景为监控场景、考勤场景等,而金融场景的相关因子较小,其中相关因子的数值可以根据新模型的作用进行确定,例如可以将监控场景的相关因子设置为0.5,将考勤的相关因子设置为0.7,将金融场景的相关因子设置为0.2,然后再根据公式依据各个场景的相关因子计算得到指标向量,使后续基于指标向量计算相似度值,以及更新的参数可以更加贴近新模型的应用,使训练得到的新模型更好。
本实施例中,第一相似度值计算模块40,包括:
参数值获取子模块,用于获取所述指标向量和所述第一当前向量的参数值,其中所述参数值至少包括所述指标向量和所述当前向量的特征向量维度数量,以及在各维度中指标向量数值和当前向量数值;
将根据所述指标向量和所述当前向量的特征向量维度数量,以及在各维度中指标向量数值和当前向量数值依照公式计算第一相似度值,当acc的值越接近于1,表明当前向量与指标向量越相似,当acc的值越接近于0时,表明当前向量与指标向量越不相似。其中公式中acc表示第一相似度值,zvi表示在第i特征向量维度中对应的当前向量数值,vi表示在第i特征向量维度中对应的指标向量数值,n为特征向量维度数量。根据上述公式计算的第一相似度值可以判断新模型的输出的当前向量,与其他模型融合后的指标向量的相似度,再根据相似度判断新模型是否需要调整参数。其中,第一相似度值越趋近于1时,则认为当前向量与指标向量越相关,第一相似度值越趋近于0时,则认为当前向量与指标向量越不相关。
本实施例中,基于多个源模型的新模型训练装置,包括:
像素点获取模块,用于当所述第一训练数据为图片时,获取图片中的每个像素点,将每个所述像素点和预设像素点阈值进行比较;
像素点设置模块,用于将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1;
区域划分模块,用于将所述图片平均划分为多个区域,并统计每个区域中的像素点为1的个数,并构成矩阵作为所述训练数据。
将图片进行数字化处理,得到图片中的每个像素点,然后将每个像素点和预设像素点阈值进行比较,该像素点阈值为事先设定的值,设计人员可以根据需要对预设像素点阈值进行设定不同的值,然后将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1,得到一个初始阵列,然后再将图片平均划分为多个区域,例如将32×32的初始阵列平均划分为多个区域,以得到8×8的矩阵,然后将得到的矩阵作为训练数据进行训练。当然,上述指的是对图片进行训练数据的处理,本发明还可以对其他训练数据进行其他的处理,例如文本,客户信息等,此处不再赘述。
本实施例中,上述基于多个源模型的新模型训练装置,还包括:
结构量化值计算模块,用于根据所述新模型的应用场景计算对应的结构量化值;
结构量化值比对模块,用于根据所述结构量化值与预设列表中的数据进行比对;其中,所述预设列表包括了所述结构量化值的数值与模型的对应关系;
新模型筛选模块,用于根据比对结果从模型数据库中筛选出所述新模型。
根据新模型的应用场景计算对应的结构量化值,其中结构量化值用于表示模型的结构复杂度,结构量化值越大,表示结构越复杂,结构量化值越小,表示模型越简单,举例而言,当新模型应用在终端,尤其是智能终端时,选择新模型时,新模型的结构不宜太复杂,否则容易占用终端CPU的运行内存,减慢了终端的运行速度,若在服务器端,服务器一般有很高的运行内存,为了使得到的数据更加精确,故而可以使用复杂的新模型结构。应当理解的是,模型越复杂,占用的运行内存越高,对于数据的计算结果也更为准确,基于上述考虑,应该针对应用场景选择新模型,故而可以事先设置一个预设列表,或者预设函数,可以根据应用场景选择合适的新模型,使选择的新模型更加具有实用性。
本实施例中,训练数据计算模块10,包括:
相关度比较模块,用于将各个模型与所述新模型的相关度与预设相关度阈值进行比较;
源模型选取模块,用于选取所述相关度大于所述预设相关度阈值模型作为所述源模型。
将源模型数据库中各模型的特征集合和新模型的特征集合通过公式进行计算,其中模型的特征和新模型的特征可以是算法、应用场景、输入值以及输出值等,可以根据各自的特征计算相关度,当计算的相关度越趋近于1时,表示模型与新模型越相关,当计算的相关度越趋近于0时,表示模型与新模型越不相关。因此,可以设置一个预设相关度阈值,该预设相关度阈值为事先根据实际情况设置的值,例如若源模型数据库中的模型数量足够多,那么预设相关度阈值可以相应的设置大一些,若源模型数据库中的模型数量较少,那么预设相关度阈值可以相应的设置小一些。然后选取相关度大于预设相关度阈值的模型作为源模型,使基于选取的源模型对新模型训练的效果更好。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种训练数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的基于多个源模型的新模型训练方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的基于多个源模型修正新模型的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种基于多个源模型修正新模型的方法,其特征在于,包括:
将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,
将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
分别计算每个所述源模型对应的所述特征向量的平均值;
将各所述源模型对应的平均值融合计算得到指标向量;
计算所述第一当前向量与所述指标向量的第一相似度值;
判断所述第一相似度值是否小于预设相似度值;
若所述第一相似度值小于预设相似度值,则计算所述第一当前向量与所述指标向量之间的梯度值;
根据所述梯度值校正所述新模型中的参数。
2.如权利要求1所述的基于多个源模型修正新模型的方法,其特征在于,所述根据所述梯度值校正所述新模型中的参数的步骤之后,还包括:
将所述第一训练数据输入到校正参数后的新模型中进行计算,得到第二当前向量,并计算所述第二当前向量与所述指标向量的第二相似度值;
判断所述第二相似度值是否大于所述预设相似度值;
若第二相似度值大于所述预设相似度值,则认定所述新模型基于所述第一训练数据的训练完成。
5.如权利要求1所述的基于多个源模型修正新模型的方法,其特征在于,所述将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量的步骤之前,包括:
当所述第一训练数据为图片时,获取所述图片中的每个像素点,将每个所述像素点和预设像素点阈值进行比较;
将小于所述预设像素点阈值的像素点设置为0,将大于所述预设像素点阈值的像素点设置为1;
将所述图片平均划分为多个区域,并统计每个区域中的像素点为1的个数,并构成矩阵作为所述训练数据。
6.如权利要求1所述的基于多个源模型修正新模型的方法,其特征在于,所述将第一训练数据输入至所述新模型中进行计算,得到第一当前向量的步骤之前,还包括:
根据所述新模型的应用场景计算对应的结构量化值;
根据所述结构量化值与预设列表中的数据进行比对;其中,所述预设列表包括了所述结构量化值的数值与模型的对应关系;
根据比对结果从模型数据库中筛选出所述新模型。
8.一种基于多个源模型的新模型训练装置,其特征在于,包括:
训练数据计算模块,用于将第一训练数据输入至所述新模型中进行计算,得到第一当前向量;以及,
将第一训练数据和翻转所述第一训练数据后得到的第二训练数据分别输入至多个预设的源模型中进行计算,得到对应各所述源模型的特征向量,其中,对应每一个所述源模型的特征向量包括多个;
平均值计算模块,用于分别计算每个所述源模型对应的所述特征向量的平均值;
指标向量计算模块,用于将各所述源模型对应的平均值融合计算得到指标向量;
第一相似度值计算模块,用于计算所述第一当前向量与所述指标向量的第一相似度值;
第一相似度值判断模块,用于判断所述第一相似度值是否小于预设相似度值;
梯度值计算模块,用于若所述第一相似度值小于预设相似度值,则计算所述当前向量与所述指标向量之间的梯度值;
参数更新模块,用于根据所述梯度值校正所述新模型中的参数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010760913.9A CN111898682B (zh) | 2020-07-31 | 2020-07-31 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
PCT/CN2020/132596 WO2021139448A1 (zh) | 2020-07-31 | 2020-11-30 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010760913.9A CN111898682B (zh) | 2020-07-31 | 2020-07-31 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898682A true CN111898682A (zh) | 2020-11-06 |
CN111898682B CN111898682B (zh) | 2023-08-25 |
Family
ID=73183460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010760913.9A Active CN111898682B (zh) | 2020-07-31 | 2020-07-31 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111898682B (zh) |
WO (1) | WO2021139448A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434323A (zh) * | 2020-12-01 | 2021-03-02 | Oppo广东移动通信有限公司 | 模型参数获取方法、装置、计算机设备及存储介质 |
WO2021139448A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
CN113139609A (zh) * | 2021-04-29 | 2021-07-20 | 平安普惠企业管理有限公司 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
CN116663648A (zh) * | 2023-04-23 | 2023-08-29 | 北京大学 | 模型训练方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837159A (zh) * | 2014-03-04 | 2014-06-04 | 中国科学院光电技术研究所 | 一种经纬仪指向修正模型正交化解耦修正方法 |
US20190108413A1 (en) * | 2017-10-05 | 2019-04-11 | The Climate Corporation | Disease recognition from images having a large field of view |
CN110738182A (zh) * | 2019-10-21 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
WO2020030052A1 (zh) * | 2018-08-10 | 2020-02-13 | 京东数字科技控股有限公司 | 一种动物数量识别方法、装置、介质及电子设备 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336880A (zh) * | 2013-04-03 | 2013-10-02 | 温州大学 | 一种用于求解面向操作优化的模型修正问题高效方法 |
EP3436972A1 (en) * | 2016-03-30 | 2019-02-06 | British Telecommunications public limited company | Multiform persistence abstraction |
CN108304354B (zh) * | 2018-01-25 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种预测模型训练方法及装置、存储介质、电子设备 |
CN109815988B (zh) * | 2018-12-27 | 2021-08-20 | 北京奇艺世纪科技有限公司 | 模型生成方法、分类方法、装置及计算机可读存储介质 |
CN110363239B (zh) * | 2019-07-04 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种面向多模态数据的小样本机器学习方法、系统和介质 |
CN111177446B (zh) * | 2019-12-12 | 2023-04-25 | 苏州科技大学 | 一种用于足迹图像检索的方法 |
CN111898682B (zh) * | 2020-07-31 | 2023-08-25 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
-
2020
- 2020-07-31 CN CN202010760913.9A patent/CN111898682B/zh active Active
- 2020-11-30 WO PCT/CN2020/132596 patent/WO2021139448A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837159A (zh) * | 2014-03-04 | 2014-06-04 | 中国科学院光电技术研究所 | 一种经纬仪指向修正模型正交化解耦修正方法 |
US20190108413A1 (en) * | 2017-10-05 | 2019-04-11 | The Climate Corporation | Disease recognition from images having a large field of view |
WO2020030052A1 (zh) * | 2018-08-10 | 2020-02-13 | 京东数字科技控股有限公司 | 一种动物数量识别方法、装置、介质及电子设备 |
CN110738182A (zh) * | 2019-10-21 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139448A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
CN112434323A (zh) * | 2020-12-01 | 2021-03-02 | Oppo广东移动通信有限公司 | 模型参数获取方法、装置、计算机设备及存储介质 |
CN113139609A (zh) * | 2021-04-29 | 2021-07-20 | 平安普惠企业管理有限公司 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
CN113139609B (zh) * | 2021-04-29 | 2023-12-29 | 国网甘肃省电力公司白银供电公司 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
CN116663648A (zh) * | 2023-04-23 | 2023-08-29 | 北京大学 | 模型训练方法、装置、设备及存储介质 |
CN116663648B (zh) * | 2023-04-23 | 2024-04-02 | 北京大学 | 模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111898682B (zh) | 2023-08-25 |
WO2021139448A1 (zh) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898682B (zh) | 基于多个源模型修正新模型的方法、装置以及计算机设备 | |
JP7167306B2 (ja) | ニューラルネットワークモデル訓練方法、装置、コンピュータ機器および記憶媒体 | |
CN109063742B (zh) | 蝴蝶识别网络构建方法、装置、计算机设备及存储介质 | |
JP6812573B2 (ja) | サーバ、金融時系列データの処理方法及び記憶媒体 | |
CN108846340B (zh) | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 | |
US8270723B2 (en) | Recognition device, recognition method, and program | |
CN110347971B (zh) | 基于tsk模糊模型的粒子滤波方法、装置及存储介质 | |
CN111079570A (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN113221645B (zh) | 目标模型训练方法、人脸图像生成方法以及相关装置 | |
CN113763535A (zh) | 一种特征潜码提取方法、计算机设备及存储介质 | |
CN111049809A (zh) | 风险用户识别方法、装置、计算机设备及存储介质 | |
CN113409167A (zh) | 一种水质异常分析方法及装置 | |
CN118036756B (zh) | 大模型多轮对话的方法、装置、计算机设备及存储介质 | |
CN110472588B (zh) | 锚点框确定方法、装置、计算机设备和存储介质 | |
CN114723917A (zh) | 激光里程计的位姿优化方法、装置、介质及设备 | |
CN110275895B (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN111722594A (zh) | 工业过程监测方法、装置、设备和可读存储介质 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 | |
CN111368792B (zh) | 特征点标注模型训练方法、装置、电子设备及存储介质 | |
CN113986245A (zh) | 基于halo平台的目标代码生成方法、装置、设备及介质 | |
CN113239171A (zh) | 对话管理系统更新方法、装置、计算机设备及存储介质 | |
CN113920574B (zh) | 图片质量评价模型的训练方法、装置、计算机设备和介质 | |
CN111105144A (zh) | 数据处理方法、装置和目标对象风险监控方法 | |
CN116821502B (zh) | 一种基于舆情热点的数据管理方法和系统 | |
CN110866638A (zh) | 交通量预测模型构建方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |