CN115204289A - 基于主动学习回归树的模型训练方法、系统及存储介质 - Google Patents
基于主动学习回归树的模型训练方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115204289A CN115204289A CN202210822075.2A CN202210822075A CN115204289A CN 115204289 A CN115204289 A CN 115204289A CN 202210822075 A CN202210822075 A CN 202210822075A CN 115204289 A CN115204289 A CN 115204289A
- Authority
- CN
- China
- Prior art keywords
- model
- output model
- process output
- regression
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于主动学习回归树的模型训练方法、系统及计算机可读存储介质,包括:获取初始样本数据;根据初始样本数据中有标注样本训练输出模型获得过程输出模型以及回归模型;对过程输出模型进行验证,若过程输出模型满足预设条件则确定为最终输出模型,否则继续模型训练;根据回归模型的查询策略对初始样本数据中无标注样本进行查询,确定无标注样本中的补充样本;对补充样本进行标注以获得补充标注样本;根据有标注样本及补充标注样本训练过程输出模型。本发明可以在少量有标签样本的前提下,通过定义好的查询策略指出最需要补充标签的样本,提升模型的预测泛化能力;同时提供一种基于样本不确定性原则的查询策略,能指示大信息量样本。
Description
技术领域
本发明实施例属于样本建模领域,更具体地,涉及一种基于主动学习回归树的模型训练方法、系统及计算机可读存储介质。
背景技术
随着互联网时代数据收集和储存能力的不断发展,人们对算法预测类问题有更高的预测精度期望和更丰富的特征维度扩展。以零售场景为例,多元回归建模被应用解决方方面面的问题。从用户个体角度出发,可以基于活跃客群的基本信息、消费情况、浏览加购偏好等维度刻画用户的收入信息;从企业角度出发,可以通过公司本身的销售额情况、经营品类范围等维度建模预测公司的注册资金。回归类问题可用模型种类繁多,如一般线性回归、树模型类、最近邻算法、深度学习等。本发明选择基于回归树展开,是因为树模型规则化较强,预测路径明晰可干预。针对标签存量少、打标费用高等大多数公司都会面对的问题,应用主动学习框架是一个较好的应对方案。
建模样本的准备,现有技术较多使用完全随机抽样或分层抽样按批查询:
应用完全随机抽样是从整个样本池中无偏抽取样本,每个样本被抽中的概率一样。该种抽样方式的优点是简单易行,也可以保持抽取的样本各个字段分布和样本池保持一致,比较适用于初版建模或快速了解数据整体分布。应用分层抽样时,一般会有稳定少缺失的“层标示”作为分层因素,例如用户年龄、职业、地域等,分层抽样得到的样本在每层中都具有代表性。另外分层抽样可以特别设置各个组不同的抽样比例,以照顾一些小组样本不足的情况。
无论是采用传统的完全随机抽样或是分层抽样,都不能针对实际建模效果,有方向有针对性的对部分关键样本过采。例如在用户画像建模场景,假如可以观察到现存数据已经有大量“朝九晚六、一周固定五天上班”的工薪阶层,而模型对于“周期性购买文具、购买教科书”的老师学生客群预测结果较差,针对上述的问题可以依照职业属性进行分层抽样。可是往往用来分层的行业信息也非常缺失。因此有必要提供一种能够更高效便捷的样本建模的方法。
发明内容
本发明实施例提供的基于主动学习回归树的模型训练方法、系统及存储介质,能够有效的扩充样本数量,提供更多具有针对性信息内容的样本以用于模型训练。
本发明实施例一方面提供了一种基于主动学习回归树的模型训练方法,方法包括:S100:获取初始样本数据,其中所述初始样本数据包括无标注样本及有标注样本;S200:根据所述初始样本数据所包括的有标注样本训练,获得过程输出模型;以及根据所述初始样本数据所包括的有标注样本训练获得回归模型;S300:对所述过程输出模型进行验证,若所述过程输出模型满足预设条件则确定所述过程输出模型为最终输出模型,若所述过程输出模型不满足预设条件则继续执行步骤S400;S400:根据所述回归模型的查询策略对所述无标注样本进行查询,确定所述无标注样本中的补充样本;S500:对所述补充样本进行标注以获得补充标注样本;S600:根据所述有标注样本及所述补充标注样本重新训练所述过程输出模型,并继续执行步骤S300。
进一步地,步骤S300中对过程输出模型进行验证还包括:初始样本数据还包括验证样本,将验证样本输入过程输出模型进行验证,获得验证结果,并保存验证结果。
进一步地,步骤S300中预设条件包括:当验证结果低于参照基准时,确定过程输出模型为最终输出模型;当验证结果不低于参照基准时,继续执行步骤S400。
参照基准是预先设定的定值。
进一步地,步骤S300中预设条件包括:将所述根据初始样本数据所包括的有标注样本训练获得过程输出模型作为首次过程输出模型;将所述验证样本输入所述首次过程输出模型进行验证,获得验证结果作为参照基准;将第n次验证结果与参照基准相比较,并记录第n-1次比较结果;将第n+1次验证结果与参照基准相比较,并记录第n次比较结果;当第n次比较结果与第n-1次比较结果的比值低于预设阈值时,确定所述过程输出模型为最终输出模型;将第n次比较结果与第n-1次比较结果的比值不低于预设阈值时,继续执行步骤S400;其中n≥2。
进一步地,回归树为CART回归树或随机森林。
进一步地,回归树为CART回归树时,根据回归树的查询策略对无标注样本进行查询,包括:计算CART回归树的各个叶子的纯度;确定叶子纯度低于第一预设阈值的分支为查询策略。
进一步地,各个叶子的纯度包括标准化处理后的信息差异性度量指标,包括MAPE、SMAPE、CV中的任意一种。
进一步地,回归树为随机森林,根据回归树的查询策略对无标注样本进行查询,包括:计算随机森林中一个决策路径的平均不确定性;确定平均不确定性低于第二预设阈值的决策路径为查询策略。
进一步地,基于随机森林中的全部回归树的同一决策路径的不确定性计算平均不确定性。
进一步地,当初始样本数据的每个数据的标签数量不大于标注阈值时,确定回归树模型为CART回归树;当初始样本数据的每个数据的标签数量大于标注阈值时,确定回归树为随机森林。
本发明实施例的另一方面还提供一种基于主动学习回归树的模型训练系统,系统包括:存储器,存储器存储计算机可执行指令;处理器,处理器可通信地耦接至存储器,用于执行存储器存储的程序指令,当程序指令被执行时,处理器用于执行如本发明实施例前一方面所述的方法。
本发明实施例的另一方面还提供一种计算机可读存储介质,其上存储有计算机可执行指令,可执行指令被处理器执行如本发明实施例前一方面所述的方法。
本发明实施例的基于主动学习回归树的模型训练方法、系统及计算机可读存储介质,能够利用主动学习的特性,可以在现存少量有标签样本的前提下,通过定义好的查询策略指出最需要补充标签的样本,使得新查样本能相比通用抽样补充方法更多提升模型的预测泛化能力。同时本发明实施例基于CART回归树和随机森林,还提供了一种基于样本不确定性原则的查询策略,能够在回归树类主动学习中指示大信息量样本。
附图说明
为了使本发明实施例所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明实施例的具体实施例。但需声明的是,下面描述的附图仅仅是本发明实施例本发明实施例示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1为一种主动学习的流程框架图;
图2为本发明实施例提供的基于主动学习回归树的模型训练方法的流程示意图;
图3为本发明实施例提供的基于主动学习回归树的模型训练方法的流程框架图;
图4为本发明实施例提供的基于主动学习回归树的模型训练系统的系统框架图。
具体实施方式
现在将参考附图更全面地描述本发明实施例的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明实施例仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明实施例更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明实施例的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明实施例描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明实施例的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离本发明实施例实质的技术方案。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
下面结合附图,对本发明实施例所提供的基于主动学习回归树的模型训练方法和系统进行具体地说明。
参见图1,提供了一种主动学习的流程框架。主动学习为机器学习的一个分支,主要针对标签较少或获得标签代价高昂的建模场景。应用主动学习可以在相同小样本量级下优于随机抽样的建模效果,或者指出给哪些样本打标是当前情况下模型训练最需要的。此主动学习框架流程包含USLMQ五个组件。U(Unlabeled)为未打标样本,指的是用于训练模型的样本池,样本池中的样本数据没有进行打标等操作。S(Supervisor)为督导者,通常指代初始化监督主动学习的人。L(Labeled)为有标签样本,即已经经过督导者打标的样本数据。M(Model)为模型,即基于已有标签的样本进行训练而获得的模型。Q(Query)为查询策略,即模型确定的查询策略,用于针对性的从未打标样本U剩余的未标注数据中确定应对进行进一步打标的样本。因此,在图1的流程框架中,初始化的第一次会使用随机抽样从未打标样本U中抽取小部分样本,而后续的均使用查询策略来确定更多的样本反复重训练模型,直到达到停止条件。
下面结合图2及图3,具体地说明本发明实施例提供的基于主动学习回归树的模型训练方法。本发明实施例提供的方法包括:
S100:获取初始样本数据,其中所述初始样本数据包括无标注样本及有标注样本;
S200:根据所述初始样本数据所包括的有标注样本训练,获得过程输出模型;以及根据所述初始样本数据所包括的有标注样本训练获得回归模型;
S300:对所述过程输出模型进行验证,若所述过程输出模型满足预设条件则确定所述过程输出模型为最终输出模型,若所述过程输出模型不满足预设条件则继续执行步骤S400;
S400:根据所述回归模型的查询策略对所述无标注样本进行查询,确定所述无标注样本中的补充样本;
S500:对所述补充样本进行标注以获得补充标注样本;
S600:根据所述有标注样本及所述补充标注样本重新训练所述过程输出模型,并继续执行步骤S300。
步骤S100中,获取初始样本数据可以是基于公司业务需求所需要的各种数据,例如市场数据、用户数据、交易数据、网页数据、文字数据等各种类型或各种形式的数据。其中,初始样本数据包括无标注样本及有标注样本,也即,初始样本数据中已经具有部分的数据被人工进行了标注,这部分已经进行过标注的样本数据即为有标注样本。
步骤S200中,根据所述有标注样本训练输出模型,获得训练完成的过程输出模型;以及根据所述有标注样本训练获得回归模型。即在初始样本数据中,使用已经人工进行标注的有标注样本,对待训练的输出模型进行训练,从而获得过程输出模型。过程输出模型指的为该输出模型处于重复训练过程中,而并非最终的输出模型;当然,如果过程输出模型在重复训练过程中满足了预定条件,则其即作为最终输出模型被输出。另一方面,初始样本数据所包括的有标注样本还被用来训练回归模型。在一些实施例中,回归模型可以为CART回归树或随机森林。
步骤S400中,根据所述回归模型的查询策略对所述无标注样本进行查询,确定所述无标注样本中的补充样本。其中所述回归模型的查询策略基于回归模型的具体形式来确定。
在一些实施例中,回归模型为CART回归树。CART回归树为二叉树,一棵完整生长树深为D的CART回归树会生成2n个叶子节点。CART回归树的生长采用平方误差最小化准则,贪婪遍历每个特征的每个取值,寻找切分两侧样本时每侧目标变量均值平方误差最小的情况。在建树过程中可以设定“最小叶子样本含量”等参数控制树复杂度并且避免叶子样本量不足导致的统计结果不确信。而CART回归树本身的特性就是对整个样本集进行不断分割,其中最原生的停止条件即是某个叶子节点包含的样本“纯度”达到规定阈值,而对于“纯度”很低的叶子则会依照模型分裂条件继续细分样本集合,这部分样本属于查询策略中包含信息量丰富的样本。
因此,具体的查询策略,可以基于如下方式确定:首先计算所述CART回归树的各个叶子的纯度,而后确定所述叶子纯度低于第一预设阈值的分支为所述查询策略。此处的第一预设阈值,可以依据实际的业务需求而确定。通常叶子纯度越低,代表其信息量越丰富。因此,可以根据实际需求而确定多少信息量的样本是希望重新作为标注样本加入模型的训练中。
示例性地,所述叶子的纯度可以包括标准化处理后的信息差异性度量指标,例如MAPE(平均绝对百分比误差,Mean Absolute Percentage Error)、SMAPE(对称平均绝对百分比误差,Symmetric Mean Absolute Percentage Error)、CV(变异系数,Coefficient ofVariation)等。具体地,各种指标可以如下计算:
信息差异性度量指标越大则说明CART回归树对当前决策路径下的样本集合越不确定,即越需要补充人工标记样本。故对于单棵CART决策树方案,按照如上差异性指标最大的分支作为查询策略对未标记样本进行圈定查询或随机采样后查询。
在另一些实施例中,回归模型为随机森林。随机森林采用双随机策略,在建立回归预测时通常采用CART回归树作为基模型。随机森林作为集成学习,相比单模型的优势之一是能通过综合多棵树预测给出更加连续的预测结果。当时用随机森林作为回归模型时,查询策略可以用如下方式确定:计算随机森林中一个决策路径的平均不确定性,确定所述平均不确定性低于第二预设阈值的决策路径为所述查询策略。类似于CART回归树,此处的第二预设阈值,可以依据实际的业务需求而确定。并且,由于随机森林和CART回归树的适用场景可以不一样,因此第一预设阈值与第二预设阈值也可以不一样。
具体地,假如随机森林建树T棵,计算某条观测贯穿整个森林的鞠策路径的平均不确定性,例如按上文变异系数CV作为不确定性指标,则计算某个决策路径序列的平均不确定性指标为:
本发明实施例还提供一种确定回归模型的方式,即依据样本数据中的每个数据的标签数量来确定采用何种回归模型。当每个数据的标签数量不大于标注阈值时,确定所述回归模型为CART回归树;当每个数据的标签数量大于标注阈值时,确定所述回归模型为随机森林。此处的标注阈值,基于实际情况进行确定,通常可以考虑实际投入标注的人工和时间成本。例如可以提供更多的人工或时间成本,则可以确定稍高的标注阈值。通过标注阈值来确定实际的回归模型,可以更好地发挥回归树模型在主动学习中参与的效果。例如,当标签数量大于标注阈值时,可以使用随机森林。由于随机森林可以对每条观测给出连续的不确定性得分,其更适合于标注耗费成本过高的场景。
步骤S500及步骤S600中,对所述补充样本进行标注以获得补充标注样本;根据所述有标注样本及所述补充标注样本训练所述过程输出模型。在经由前述的CART回归树或随机森林确定的查询策略查询到补充样本后,即可以对这些补充样本进行进一步地标注,从而将补充标注的样本再次地投入样本池中,与原有的有标注样本一同训练所述过程输出模型。
本发明实施例提供的基于主动学习回归树的模型训练方法,能够将回归模型(CART回归树或随机森林)应用于主动学习的框架中,从而更好地查询选择处包含信息量丰富的样本,进而提高模型训练的精确度。同时,根据样本数据标注成本的不同,使用不同的回归模型,能够有效地提高回归模型在主动学习中参与的效率与效果。
进一步地,本发明实施例提供的初始样本数据中还可以包括验证样本,将所述验证样本输入所述过程输出模型进行验证,获得验证结果,并保存验证结果;
所述预设条件包括:当所述验证结果低于参照基准时,确定所述过程输出模型为最终输出模型;当所述验证结果不低于参照基准时,继续执行步骤S400;所述参照基准是预先设定的定值。
参照基准即为Baseline,参照基准的确定还可以基于验证样本和首次过程输出模型获得。所述预设条件还可以包括:将所述根据初始样本数据所包括的有标注样本训练获得过程输出模型作为首次过程输出模型;将所述验证样本输入所述首次过程输出模型进行验证,获得验证结果作为参照基准(Baseline);在重复训练的过程中,使用有标注样本及补充标注样本重新训练获得过程输出模型时,利用验证样本再次进行验证,所获得的验证结果与参照基准(Baseline)进行比较,当比较结果无明显提升时,停止训练,确定最后一次产生的过程输出模型为最终输出模型。
一方面,为了判断比较结果有无明显提升,可以将第n次验证结果与参照基准相比较,并记录第n-1次比较结果;可以将第n+1次验证结果与参照基准相比较,并记录第n次比较结果;当第n次比较结果与第n-1次比较结果的比值低于预设阈值时,确定所述过程输出模型为最终输出模型;将第n次比较结果与第n-1次比较结果的比值不低于预设阈值时,继续执行步骤S400;其中n≥2。
另一方面,为了判断比较结果有无明显提升,可以将第n次验证结果与参照基准相比较,并记录第n次比较结果;当第n次比较结果与第n-1次比较结果的差值低于预设阈值时,确定所述过程输出模型为最终输出模型;将第n次比较结果与第n-1次比较结果的差值不低于预设阈值时,继续执行步骤S400;其中n≥2。
具体地,可以通过验证样本对模型训练的效果进行评价,也即当训练模型的效果未满足预设条件时,则重复前述的步骤S400-S600;而当训练模型的效果满足预设条件时,则终止训练输出最终输出模型。
可选的,当执行步骤S400:根据所述回归模型的查询策略对所述无标注样本进行查询无法获取新的无标注样本,即没有新的标记样本输入时,终止训练,将当前的过程输出模型作为最终输出模型输出。
本发明实施例提供的以上验证的方法可以有效地监督主动学习训练的效果是否满足需要,并且参照基准的确定根据实际的训练数据等来确定,可以获得更好的参照效果从而提高最终获得的输出模型的价值。
下面结合一具体示例示例性地对本发明实施例提供的基于主动学习回归树的模型训练方法进行说明。
例如,在公司业务中,有时需要对公司注册资金的预测进行建模。由于获得确信的公司注册资金信息需要查询征信,且在此查询之前还需获得被查公司的授权,因此在此建模过程中获得有标注的样本数据非常麻烦。而基于本发明实施例提供的方法,可以首先针对部分被查公司进行授权并查询征信,从而获得此部分公司的注册资金信息等公司经营数据,进而可以根据获得的公司经营数据对此部分公司进行标注,即获得了初始的有标注样本。而其他的未进行授权及查询的公司则可以作为未标注样本。本发明实施例提供的方法首先基于已查的信息构建回归模型,然后按照主动学习的流程定位最值得打标而引入训练中的未标注的部分公司。
以回归模型为随机森林为例,具体的执行步骤可以如下:
S1:初始情况包括部分已查信息的公司经营数据,大部分的未标注的样本,以及一部分有标注的作为验证的验证样本;
S2:用有标注的样本充分训练随机森林;在首次训练完成后获得训练完成的模型,并利用验证样本进行评价,确定参照基准(Baseline);
S3:拆解随机森林,统计针对每棵树每个分支的排列组合,每种组合可以按均值方式统计观测级的不确定性指标;
S4:按照不确定性指标排序,或使用阈值筛选出需要的分支,从而基于这些分支挑选出对模型训练更有价值的样本;
S5:人工打标这些样本作为补充标注样本,并入S2中,并重复S2~S4;
S6:终止条件为:训练得到的模型效果相比参照基准(Baseline)已经没有明显提升,或者没有新的标记样本输入。
以以上具体示例可以说明本发明实施例提供的基于主动学习回归树的模型训练方法可以有效地解决公司在实际业务中所产生的建模需求。
参见图4,本发明实施例还相应地提供一种基于主动学习回归树的模型训练系统100,所述系统包括存储器101和处理器102,所述存储器101存储计算机可执行指令;所述处理器102可通信地耦接至所述存储器,用于执行所述存储器101存储的程序指令,当程序指令被执行时,所述处理器102用于前述本发明实施例提供的基于主动学习回归树的模型训练方法的步骤。
本发明实施例还相应地提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如前所提供的基于主动学习回归树的模型训练方法。该计算可读存储介质可以是前述基于主动学习回归树的模型训练系统100中所包含的,也可以是单独存在,而未装配入电子设备或系统的。
通过以上各方面的实施例的描述,本领域的技术人员易于理解,本发明实施例采用计算机可读存储介质实现相应的方法时,该计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本发明实施例的其它实施方案。本发明实施例旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。凡在本发明实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明实施例的权利要求范围之内。
Claims (21)
1.一种基于主动学习回归树的模型训练方法,其特征在于,所述方法包括:
S100:获取初始样本数据,其中所述初始样本数据包括无标注样本及有标注样本;
S200:根据所述初始样本数据所包括的有标注样本训练,获得过程输出模型;以及根据所述初始样本数据所包括的有标注样本训练获得回归模型;
S300:对所述过程输出模型进行验证,若所述过程输出模型满足预设条件则确定所述过程输出模型为最终输出模型,若所述过程输出模型不满足预设条件则继续执行步骤S400;
S400:根据所述回归模型的查询策略对所述无标注样本进行查询,确定所述无标注样本中的补充样本;
S500:对所述补充样本进行标注以获得补充标注样本;
S600:根据所述有标注样本及所述补充标注样本重新训练所述过程输出模型,并继续执行步骤S300。
2.根据权利要求1所述的方法,其特征在于,所述步骤S300中对所述过程输出模型进行验证还包括:
所述初始样本数据还包括验证样本,将所述验证样本输入所述过程输出模型进行验证,获得验证结果,并保存验证结果。
3.根据权利要求2所述的方法,其特征在于,所述步骤S300中所述预设条件包括:
当所述验证结果低于参照基准时,确定所述过程输出模型为最终输出模型;
当所述验证结果不低于参照基准时,继续执行步骤S400;
所述参照基准是预先设定的定值。
4.根据权利要求2所述的方法,其特征在于,所述步骤S300中所述预设条件包括:
将所述根据初始样本数据所包括的有标注样本训练获得的过程输出模型作为首次过程输出模型;
将所述验证样本输入所述首次过程输出模型进行验证,获得验证结果作为参照基准;
将第n次验证结果与参照基准相比较,并记录第n-1次比较结果;
将第n+1次验证结果与参照基准相比较,并记录第n次比较结果;
当第n次比较结果与第n-1次比较结果的比值低于预设阈值时,确定所述过程输出模型为最终输出模型;
将第n次比较结果与第n-1次比较结果的比值不低于预设阈值时,继续执行步骤S400;其中n≥2。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述回归模型为CART回归树或随机森林。
6.根据权利要求5所述的方法,其特征在于,所述回归模型为CART回归树;所述根据所述回归模型的查询策略对所述无标注样本进行查询,包括:
计算所述CART回归树的各个叶子的纯度;
确定所述叶子纯度低于第一预设阈值的分支为所述查询策略。
7.根据权利要求6所述的方法,其特征在于,所述各个叶子的纯度包括标准化处理后的信息差异性度量指标,包括MAPE、SMAPE、CV中的任意一种。
8.根据权利要求5所述的方法,其特征在于,所述回归模型为随机森林,所述根据所述回归模型的查询策略对所述无标注样本进行查询,包括:
计算所述随机森林中一个决策路径的平均不确定性;
确定所述平均不确定性低于第二预设阈值的决策路径为所述查询策略。
9.根据权利要求8所述的方法,其特征在于,基于所述随机森林中的全部回归树的同一决策路径的不确定性计算所述平均不确定性。
10.根据权利要求5所述的方法,其特征在于,还包括:
当所述初始样本数据的每个数据的标签数量不大于标注阈值时,确定所述回归模型为CART回归树;
当所述初始样本数据的每个数据的标签数量大于标注阈值时,确定所述回归模型为随机森林。
11.一种基于主动学习回归树的模型训练系统,其特征在于,所述系统包括:
存储器,所述存储器存储计算机可执行指令;
处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行以下步骤:
S100:获取初始样本数据,其中所述初始样本数据包括无标注样本及有标注样本;
S200:根据所述初始样本数据所包括的有标注样本训练,获得过程输出模型;以及根据所述初始样本数据所包括的有标注样本训练获得回归模型;
S300:对所述过程输出模型进行验证,若所述过程输出模型满足预设条件则确定所述过程输出模型为最终输出模型,若所述过程输出模型不满足预设条件则继续执行步骤S400;
S400:根据所述回归模型的查询策略对所述无标注样本进行查询,确定所述无标注样本中的补充样本;
S500:对所述补充样本进行标注以获得补充标注样本;
S600:根据所述有标注样本及所述补充标注样本重新训练所述过程输出模型,并继续执行步骤S300。
12.根据权利要求11所述的系统,其特征在于,所述步骤S300中对所述过程输出模型进行验证还包括:
所述初始样本数据还包括验证样本,将所述验证样本输入所述过程输出模型进行验证,获得验证结果,并保存验证结果。
13.根据权利要求12所述的系统,其特征在于,所述步骤S300中所述预设条件包括:
当所述验证结果低于参照基准时,确定所述过程输出模型为最终输出模型;
当所述验证结果不低于参照基准时,继续执行步骤S400;
所述参照基准是预先设定的定值。
14.根据权利要求12所述的系统,其特征在于,所述步骤S300中所述预设条件包括:
将所述根据初始样本数据所包括的有标注样本训练获得过程输出模型作为首次过程输出模型;
将所述验证样本输入所述首次过程输出模型进行验证,获得验证结果作为参照基准;
将第n次验证结果与参照基准相比较,并记录第n-1次比较结果;
将第n+1次验证结果与参照基准相比较,并记录第n次比较结果;
当第n次比较结果与第n-1次比较结果的比值低于预设阈值时,确定所述过程输出模型为最终输出模型;
将第n次比较结果与第n-1次比较结果的比值不低于预设阈值时,继续执行步骤S400;其中n≥2。
15.根据权利要求11-14任一项所述的系统,其特征在于,所述回归模型为CART回归树或随机森林。
16.根据权利要求15所述的系统,其特征在于,所述回归模型为CART回归树;所述根据所述回归模型的查询策略对所述无标注样本进行查询,包括:
计算所述CART回归树的各个叶子的纯度;
确定所述叶子纯度低于第一预设阈值的分支为所述查询策略。
17.根据权利要求16所述的系统,其特征在于,所述各个叶子的纯度包括标准化处理后的信息差异性度量指标,包括MAPE、SMAPE、CV中的任意一种。
18.根据权利要求15所述的系统,其特征在于,所述回归模型为随机森林,所述根据所述回归模型的查询策略对所述无标注样本进行查询,包括:
计算所述随机森林中一个决策路径的平均不确定性;
确定所述平均不确定性低于第二预设阈值的决策路径为所述查询策略。
19.根据权利要求18所述的系统,其特征在于,基于所述随机森林中的全部回归树的同一决策路径的不确定性计算所述平均不确定性。
20.根据权利要求15所述的系统,其特征在于,还包括:
当所述初始样本数据的每个数据的标签数量不大于标注阈值时,确定所述回归模型为CART回归树;
当所述初始样本数据的每个数据的标签数量大于标注阈值时,确定所述回归模型为随机森林。
21.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,
所述可执行指令被处理器执行时实现如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822075.2A CN115204289A (zh) | 2022-07-12 | 2022-07-12 | 基于主动学习回归树的模型训练方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822075.2A CN115204289A (zh) | 2022-07-12 | 2022-07-12 | 基于主动学习回归树的模型训练方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115204289A true CN115204289A (zh) | 2022-10-18 |
Family
ID=83580766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210822075.2A Pending CN115204289A (zh) | 2022-07-12 | 2022-07-12 | 基于主动学习回归树的模型训练方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204289A (zh) |
-
2022
- 2022-07-12 CN CN202210822075.2A patent/CN115204289A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lombardi et al. | The digital transformation of corporate reporting–a systematic literature review and avenues for future research | |
Pan et al. | The memory of science: Inflation, myopia, and the knowledge network | |
US20140012855A1 (en) | Systems and Methods for Calculating Category Proportions | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
CN112528010B (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
Napoli et al. | Forms and functions of the real estate market of Palermo (Italy). Science and knowledge in the cluster analysis approach | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN109948913A (zh) | 一种基于双层的xgboost算法的多源特征电力用户综合画像系统 | |
Sanvitha Kasthuriarachchi et al. | A data mining approach to identify the factors affecting the academic success of tertiary students in Sri Lanka | |
CN112069417A (zh) | 一种工作分解结构wbs模板推荐方法 | |
CN115617743A (zh) | 一种基于数据采集的科技项目档案管理系统 | |
CN114358014A (zh) | 基于自然语言的工单智能诊断方法、装置、设备及介质 | |
CN112396092B (zh) | 一种众包开发者推荐方法和装置 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
US10754861B2 (en) | System and method for content affinity analytics | |
Zhao et al. | Safe semi-supervised classification algorithm combined with active learning sampling strategy | |
Yu | Data mining in library reader management | |
CN111061870A (zh) | 文章的质量评价方法及装置 | |
CN115204289A (zh) | 基于主动学习回归树的模型训练方法、系统及存储介质 | |
CN111258953B (zh) | 一种财务数据转换成评估数据规范化的方法 | |
Thompson | Data mining methods and the rise of big data | |
CN115204128A (zh) | 一种配置文件生成方法、装置和计算机可读存储介质 | |
Ma | Construction of University Comprehensive Budget Management Information System Based on Big Data and Cloud Platform | |
Ngo et al. | Exploration and integration of job portals in Vietnam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |