CN115082767A - 随机森林模型训练方法和装置 - Google Patents

随机森林模型训练方法和装置 Download PDF

Info

Publication number
CN115082767A
CN115082767A CN202110275274.1A CN202110275274A CN115082767A CN 115082767 A CN115082767 A CN 115082767A CN 202110275274 A CN202110275274 A CN 202110275274A CN 115082767 A CN115082767 A CN 115082767A
Authority
CN
China
Prior art keywords
random forest
forest model
cell
data set
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110275274.1A
Other languages
English (en)
Inventor
林坤癸
方顺明
戴秋霞
李频钟
林忠进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Fujian Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110275274.1A priority Critical patent/CN115082767A/zh
Publication of CN115082767A publication Critical patent/CN115082767A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书一个实施例提供了一种随机森林模型训练方法和装置,该方法包括:获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。本实施例中通过利用训练好的随机森林模型对室分小区是否为室分外引小区进行预测,提升室分外引小区识别的效率。

Description

随机森林模型训练方法和装置
技术领域
本文件涉及通信技术领域,尤其涉及一种随机森林模型训练方法和装置。
背景技术
在移动通信系统中,移动通信网络的规模越来越大,相应的无线网络结构也越来越复杂。室内信号分布系统也称为室分系统,是利用室内天线分布系统将基站信号均匀分布在室内每个角落,从而保证室内每个区域都能达到理想的信号覆盖,进而改善建筑物内的移动通信环境;室分系统覆盖的小区称为室分小区。
目前,识别室分外引小区只能通过人工查看室分站点建设的过程中的输出的室内分布设计图纸,来判断室分系统是否设计了外引天线。但约有13%的室分基站图纸与实际的施工设计存在偏差,需协调维护人员一起到室分现场进行排查确认,需要大量的人力物力来完成室分外引识别工作。
发明内容
本说明书一个实施例的目的是提供一种随机森林模型训练方法和装置,以解决人工识别室分外引小区导致的效率低下的问题。
为解决上述技术问题,本说明书一个实施例是这样实现的:
第一方面,本说明书一个实施例提供了一种随机森林模型训练方法,包括:
获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
第二方面,本说明书另一个实施例提供了一种随机森林模型训练装置,包括:
数据获取模块,被配置为获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
模型训练模块,被配置为基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
模型测试模块,被配置为将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
模型选择模块,被配置为根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
第三方面,本说明书又一个实施例提供了一种随机森林模型训练设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令,所述计算机可执行指令被所述处理器执行时实现如上述第一方面所述的随机森林模型训练方法的步骤。
第四方面,本说明书再一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现如上述第一方面所述的随机森林模型训练方法的步骤。
本实施例提供的随机森林模型训练方法,首先获取第一室分小区集合对应的第一MR数据集和第二室分小区集合对应的第二MR数据集,基于第一MR数据集以及特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;然后将第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表,最后根据室分外引小区列表在各随机森林模型中选择目标随机森林模型,以使后续利用目标随机森林模型进行室分外引小区的预测,提升室分外引小区识别的效率。
附图说明
为了更清楚地说明本说明书一个或多个实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个实施例提供的一种随机森林模型训练方法处理流程图;
图2为本说明书一个实施例提供的一种应用于室分外引识别场景的随机森林模型训练方法处理流程图;
图3为本说明书一个实施例提供的一种随机森林模型训练装置示意图;
图4为本说明书一个实施例提供的一种随机森林模型训练设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
本说明书提供的一种随机森林模型训练方法实施例:
参照图1,其示出了本实施例提供的一种随机森林模型训练方法处理流程图,参照图2,其示出了本实施例提供的一种应用于室分外引识别场景的随机森林模型训练方法处理流程图。
参照图1,本实施例提供的随机森林模型训练方法具体包括下述步骤S102至步骤S108。
步骤S102,获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集。
本实施例提供的随机森林模型训练方法,将室分小区集合划分为两部分,利用一部分室分小区的MR数据并结合多个模型参数训练对应的随机森林模型,利用另一部分室分小区的MR数据分别对训练得到的随机森林模型进行识别准确率的测试,并选择测试结果中准确率最高的随机森林模型作为后续对未知分类的室分小区进行外引或非外引的识别预测的目标随机森林模型,具体的,后续只要向目标随机森林模型输入室分小区的MR(MeasurementReport,测量报告)数据和PRACH(Physical Random Access Channel,物理随机接入信道)接入距离数据,随机森林模型就可预测出室分外引类型的室分小区,在保证准确率的基础上提升了室分外引小区识别的效率,同时,提升了对室分外引小区做特性优化,提升网络质量的便捷性,也节省了人工识别室分外引小区需要耗费的大量的资源。
所述第一室分小区集合,为从室分小区中划分出来进行模型训练的室分小区的集合;所述第二室分小区集合,为从室分小区中划分出来进行模型测试的室分小区的集合。
所述第一MR数据集,包括所述第一室分小区集合中各室分小区的MR数据和/或各室分小区的小区标识。所述MR数据中包含TA(Timing Advance,时间提前量)值;MR数据是用户终端发起业务与基站通信过程中通过网络通信设备采集的用户通信的真实测量结果,涵盖了小区的网络覆盖情况、业务质量、小区或载波发射功能等指标。通过采集全网的MR数据,分析MR数据,可以发现当前用户的分布状况,也可以评估小区覆盖情况,发现网络存在的问题,如网络中覆盖不佳的情况、用户掉线等问题,从而优化网络,提升用户使用体验;相应的,所述第二MR数据集,包括所述第二室分小区集合中各室分小区的MR数据和/或各室分小区的小区标识。
具体实施时,为了使随机森林模型对室分外引小区的预测更加准确,将获取到的室分小区的MR数据以室分小区为单位划分为训练数据集和测试数据集两部分,训练数据集用来训练随机森林模型,测试数据集用来测试训练得到的随机森林模型的准确程度,从而选择准确率最高的随机森林模型进行室分外引小区的预测,此外,由于不存在室分外引但覆盖距离较远的室分非外引小区,如大型商场、动车站以及光纤拉远等场景的室分小区,如果以TA值作为特征量的话,容易将该类室分小区误判为室分外引小区,因此,为了提高训练得到的随机森林模型对于室分外引小区预测的精准度,在划分训练数据集和测试数据集之前,删除不存在室分外引但覆盖距离较远的室分小区,基于此,本实施例提供的一种可选实施方式中,在所述获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集步骤执行之前,通过如下方式对第一室分小区和第二室分小区进行划分:
获取室分小区的MR数据集;
利用筛选算法对所述室分小区进行筛选,获得有效室分小区;
按照预设比例对所述有效室分小区进行划分,以获得所述第一室分小区集合与所述第二室分小区集合;
其中,所述第一室分小区集合中各室分小区的MR数据集构成所述第一MR数据集;所述第二室分小区集合中各室分小区的MR数据集构成所述第二MR数据集。
例如,选择114个室分小区作为数据集,已知这114个室分小区的室分外引类型,将这114个室分小区的小区标识输入到筛选算法中进行误判室分小区的删除,删除大型商场、动车站以及光纤拉远等场景的室分小区,获得100个有效的室分小区,将这100个已知室分外引类型的室分小区按照7:3的比例进行训练数据集和测试数据集的划分,然后获取由划分到训练数据集中的70%的室分小区的MR数据构成的MR数据集和由划分到测试数据集中的30%的室分小区的MR数据构成的MR数据集。
在对随机森林模型的训练过程中,为了提高决策树训练的效率,需要选取一个对训练数据具有分类能力的特征量来训练决策树,通常特征量选择的准则是信息增益,或者信息增益比,再或者是基尼指数等,每次构建决策树的过程中计算特征量的信息增益,并比较它们的大小,选择信息增益最大的特征量,或者选择信息增益比最大的特征量,再或者选择基尼指数最小的特征量。本实施例提供的一种可选实施方式中,采用如下方式构建特征量:
根据室分非外引小区的TA值确定起始阈值,并根据所述起始阈值确定至少一个修正阈值;
计算所述第一MR数据集中包含的TA值大于所述起始阈值的采样点占比,并分别计算所述第一MR数据集中包含的TA值大于各修正阈值的采样点占比;
以计算获得的采样点占比为特征字段构建所述特征量。
具体的,根据实际的室分非外引小区的TA值确定一个起始阈值,例如,确定多个实际的室分非外引小区的TA值的平均值,并将该平均值作为起始阈值,再根据该起始阈值确定至少一个修正阈值。
例如,经过人工勘察,发现室分非外引小区的TA值一般不会大于3,因此,将3确定为起始阈值,并确定5、8、10为修正阈值,分别计算被划分至训练数据集的室分小区的MR数据中的TA值大于3的采样点占比,大于5的采样点占比,大于8的采样点占比,以及大于10的采样点占比,将计算得到的四个采样点占比作为四个字段构建特征量。
除此之外,特征量也可以为根据起始阈值以及至少一个修正阈值确定的数据表,例如,将TA>3、TA>5、TA>8和TA>10作为四个字段构建特征量,并根据该特征量与第一MR数据集训练随机森林模型,具体在训练随机森林模型的过程中,分别得到TA>3、TA>5、TA>8和TA>10的数据表,根据数据表中的数据确定决策树的分裂特征。
步骤S104,基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型。
所述预设模型参数,包括未训练之前的初始随机森林模型预先设置的,即默认的模型参数,如预设模型参数中子树(决策树)数量为10,评价标准为Gini(Gini index,基尼系数);所述修正模型参数,是指对所述预设模型参数进行修改得到的模型参数,如根据预设模型参数,将子树数量修改为9和11,评价标准为Gini。随机森林指的是利用多个决策树对样本进行训练并预测的一种分类器;训练随机森林模型的过程,实际上是构建多个决策树并将他们融合起来得到一个更加准确和稳定的模型的过程。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计随机森林中的每个决策树对该样本的预测结果,然后通过投票机制从这些预测结果中确定最后的结果。
具体实施时,构建每个决策树的过程就是对随机森林模型的训练过程,其中,针对组成随机森林模型的任意一个决策树,在构建该决策树的过程中,一个核心过程是随机采样,另一个核心过程是完全分裂,首先是随机采样的过程,随机采样包括行采样、列采样,对于行采样,采用有放回的方式进行采样,也就是在采样得到的样本集合中,可能有重复的样本,假设输入的样本有N个,那么采样的样本也有N个,这样使得在训练随机森林模型的时候,输入到每个决策树的样本都不是全部的样本,使得相对不容易出现过度拟合;对于列采样,从M个特征量中,选择m个(m<<M)。之后就是对采样之后的数据使用完全分裂的方式构建决策树,这样决策树的每一个叶子节点要么无法继续分裂,要么所有样本都是指向同一个分类。
具体的,在训练随机森林模型的过程中,将输入的第一MR数据集进行行、列的排列,并多次进行行、列的采样,根据采样得到的数据构建多个决策树,本实施例提供的一种可选实施方式中,所述随机森林模型由预设数量的决策树组成;
所述决策树,通过如下方式训练获得:
对所述第一MR数据集进行随机采样,并根据所述特征量确定分裂特征;
根据采样得到的采样MR数据以及所述分裂特征构建所述决策树。
例如,对输入的第一MR数据集进行采样,并根据输入的特征量确定分裂特征,根据采样得到的采样数据以及分裂特征构建子树,采用这种方式构建10个这样的子树,这10个子树共同构成了一个随机森林模型,调整子树数量,以子树数量9和11分别训练对应的随机森林模型。
除此之外,还可以通过如下方式训练随机森林模型,首先对输入的第一MR数据集以及特征值进行采样,根据采样得到的采样数据以及评价标准Gini构建子树,用上述方法构建10个子树,这10个子树构成了随机森林模型;再采用同样的方法分别训练包含9个子树和11个子树的随机森林模型。需要说明的是,对于修正模型参数的调整方式以及调整次数,可在具体执行过程中结合识别准确率来确定,本实施例在此不做限定。
步骤S106,将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表。
所述室分外引识别,是指根据输入的室分小区的MR数据识别对应的室分小区是否为室分外引小区;所述室分外引小区,是指设计了外引天线的室分小区;所述室分外引小区列表,为所述各随机森林模型在进行所述室分外引识别之后根据识别结果以及室分外引小区的小区标识生成的列表,或者,为根据识别结果,并按照输入的MR数据的顺序生成的室分小区的识别结果。
具体实施时,为了选择对室分外引小区的识别准确率最高的随机森林模型进行室分外引小区的预测,利用划分为测试数据集的室分小区的MR数据对训练得到的至少一个随机森林模型进行测试,具体的,利用各随机森林模型对第二MR数据集进行室分外引识别,本实施例提供的一种可选实施方式中,具体采用如下方式进行室分外引识别:
将输入的所述第二MR数据集输入各决策树,并获得所述各决策树输出的分类结果;
根据所述分类结果以及预设投票机制确定识别结果;
根据所述识别结果生成所述室分外引小区列表并输出。
具体的,在随机森林模型进行室分外引识别的过程中,利用随机森林模型中的各决策树对MR数据集进行分类,分别获得各决策树的分类结果,并按照随机森林模型的投票机制(比如,少数服从多数投票机制,或者一票否决制,再或者加权多数)对各决策树的分类结果进行投票,将投票确定的分类结果作为随机森林模型对MR数据集的识别结果并输出。
例如,将用来测试的MR数据集输入训练得到的多个随机森林模型中,各随机森林模型将输入的MR数据集输入随机森林模型的各决策树,让各决策树对MR数据集中各室分小区对应的MR数据进行分类,根据各决策树输出的分类结果,采用少数服从多数的投票机制确定最终的识别结果,根据识别结果以及室分小区的小区标识生成室分外引小区列表并输出。
步骤S108,根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
所述目标随机森林模型,是指根据所述室分外引小区列表与实际的室分外引小区对比之后选择的准确率最高的随机森林模型。
具体实施时,为了确定各随机森林模型的识别准确率,本实施例提供的一种可选实施方式中,具体采用如下方式根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型:
将所述室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算所述室分外引小区列表对应的随机森林模型的识别准确率;
选择识别准确率满足预设条件的随机森林模型作为所述目标随机森林模型。
具体的,将第二MR数据集输入到各随机森林模型中,各随机森林模型中各决策树根据第二MR数据集中的MR数据进行分类识别并获得对应的室分外引小区列表,将获得的室分外引小区列表与实际室分外引小区列表进行比对,计算各随机森林模型的识别准确率,选择识别准确率最高的随机森林模型进行对于室分外引小区的预测。
例如,训练得到四个随机森林模型,将测试数据集中的室分小区的MR数据分别输入这四个随机森林模型中得到四个室分外引小区列表,分别将这四个室分外引小区列表与实际的室分外引小区列表进行比对,得到这四个随机森林模型各自的识别准确率分别为90%、93%、95%和91%,因此,选择识别准确率为95%的随机森林模型作为目标随机森林模型进行后续室分外引小区的预测,该目标随机森林模型是以MR中的TA>3采样点占比、TA>5采样点占比、TA>8采样点占比、TA>10采样点占比等四个字段作为特征量,子树数量设置为10,以Gini为评价标准训练得到的。
在选择了目标随机森林模型的情况下,后续只要输入相应区域室分小区的MR数据,可以在短时间内预测出哪些小区是室分外引小区并输出室分外引小区列表,具体的,为了节省人工识别室分外引小区耗费的大量资源,本实施例提供的一种可选实施方式中,在确定目标随机森林模型之后,可通过如下方式对室分小区进行室分外引预测:
将待预测室分小区的MR数据输入所述目标随机森林模型进行室分外引预测;所述目标随机森林模型将所述MR数据输入各决策树并获得所述各决策树输出的分类结果;根据所述各决策树的分类结果以及预设投票机制确定预测结果;
获取所述目标随机森林模型根据所述预测结果生成并输出的预测室分外引小区列表。
具体实施时,目标随机森林模型在对待预测室分小区的MR数据进行预测的过程中,由目标随机森林模型中每个决策树对MR数据进行分类,具体的,本实施例提供的一种可选实施方式中,目标随机森林模型中的每一个决策树,采用如下方式对MR数据进行分类:首先基于所述MR数据计算终端设备与基站的距离;然后根据所述距离计算所述待预测室分小区中基站的覆盖距离,并根据所述覆盖距离确定分类结果。所述终端设备,包括用于实现无线通信功能的设备,例如终端或者可用于终端中的芯片等,在此不做限定。
需要说明的是,本实施例训练随机森林模型是在训练其他模型(如神经网络、贝叶斯分类器等)的基础上选择利用随机森林模型进行预测,通过对比,发现随机森林模型识别到的室分外引小区的准确率最高,因此,根据不同的模型参数训练随机森林模型,并确定识别准确率最高的随机森林模型进行后续的室分外引小区的预测,经过实际测验,利用目标随机森林模型对室分外引小区进行预测的效率相比于人工识别提升了约99.5%。
下述结合附图2,以本实施例提供的随机森林模型训练方法在室分外引识别场景的应用为例,对本实施例提供的随机森林模型训练方法进行进一步说明。参照图2,应用于室分外引识别场景的随机森林模型训练方法具体包括步骤S202至步骤S220。
步骤S202,获取各室分小区的MR数据组成的MR数据集。
此处,室分小区为已知室分外引类型或者室分非外引类型的室分小区。
步骤S204,根据室分非外引小区的TA值确定起始阈值以及至少一个修正阈值。
步骤S206,根据起始阈值、修正阈值以及MR数据集构建特征量。
步骤S208,利用筛选算法对室分小区进行筛选,获得有效室分小区。
步骤S210,按照预设比例对有效室分小区进行划分,获得对应的训练MR数据集以及测试MR数据集。
步骤S212,根据训练MR数据集与特征量,以预设模型参数训练随机森林模型。
步骤S214,调整模型参数,根据训练MR数据集与特征量,以调整后的至少一个模型参数训练随机森林模型。
步骤S216,将测试MR数据集输入训练得到的随机森林模型中,获得对应的室分外引小区列表。
步骤S218,将室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算各随机森林模型的识别准确率。
步骤S220,选择识别准确率最高的随机森林模型作为目标随机森林模型。
本实施例提供的随机森林模型训练方法,首先获取第一室分小区集合对应的第一MR数据集和第二室分小区集合对应的第二MR数据集,基于第一MR数据集以及特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;然后将第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表,最后根据室分外引小区列表在各随机森林模型中选择目标随机森林模型,以使后续利用目标随机森林模型进行室分外引小区的预测,提升室分外引小区识别的效率。
图3为本发明一实施例提供的一种随机森林模型训练装置示意图,如图3所示,该装置包括:
数据获取模块302,被配置为获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
模型训练模块304,被配置为基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
模型测试模块306,被配置为将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
模型选择模块308,被配置为根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
可选的,所述随机森林模型训练装置,还包括:
数据集获取模块,被配置为获取室分小区的MR数据集;
筛选模块,被配置为利用筛选算法对所述室分小区进行筛选,获得有效室分小区;
划分模块,被配置为按照预设比例对所述有效室分小区进行划分,以获得所述第一室分小区集合与所述第二室分小区集合;
其中,所述第一室分小区集合中各室分小区的MR数据集构成所述第一MR数据集;所述第二室分小区集合中各室分小区的MR数据集构成所述第二MR数据集。
可选的,所述特征量,通过运行如下模块构建:
阈值确定模块,被配置为根据室分非外引小区的TA值确定起始阈值,并根据所述起始阈值确定至少一个修正阈值;
占比计算模块,被配置为计算所述第一MR数据集中包含的TA值大于所述起始阈值的采样点占比,并分别计算所述第一MR数据集中包含的TA值大于各修正阈值的采样点占比;
特征量构建模块,被配置为以计算获得的采样点占比为特征字段构建所述特征量。
可选的,所述随机森林模型由预设数量的决策树组成;
所述决策树,通过运行如下模块获得:
采样模块,被配置为对所述第一MR数据集进行随机采样,并根据所述特征量确定分裂特征;
构建模块,被配置为根据采样得到的采样MR数据以及所述分裂特征构建所述决策树。
可选的,所述随机森林模型,通过运行如下子模块进行室分外引识别:
分类结果获取子模块,被配置为将输入的所述第二MR数据集输入各决策树,并获得所述各决策树输出的分类结果;
识别结果确定子模块,被配置为根据所述分类结果以及预设投票机制确定识别结果;
小区列表生成子模块,被配置为根据所述识别结果生成所述室分外引小区列表并输出。
可选的,所述模型选择模块308,包括:
比对子模块,被配置为将所述室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算所述室分外引小区列表对应的随机森林模型的识别准确率;
选择子模块,被配置为选择识别准确率满足预设条件的随机森林模型作为所述目标随机森林模型。
可选的,所述随机森林模型训练装置,还包括:
预测模块,被配置为将待预测室分小区的MR数据输入所述目标随机森林模型进行室分外引预测;所述目标随机森林模型将所述MR数据输入各决策树并获得所述各决策树输出的分类结果;根据所述各决策树的分类结果以及预设投票机制确定预测结果;
预测结果获取模块,被配置为获取所述目标随机森林模型根据所述预测结果生成并输出的预测室分外引小区列表。
其中,所述各决策树中任一决策树,通过运行如下子模块进行分类:
距离计算子模块,被配置为基于所述MR数据计算终端设备与基站的距离;
结果确定子模块,被配置为根据所述距离计算所述待预测室分小区中基站的覆盖距离,并根据所述覆盖距离确定分类结果。
本实施例提供的随机森林模型训练装置,首先通过运行数据获取模块302,获取第一室分小区集合对应的第一MR数据集和第二室分小区集合对应的第二MR数据集,以及运行模型训练模块304,基于第一MR数据集以及特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;然后通过运行模型测试模块306,将第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表,最后运行模型选择模块308,根据室分外引小区列表在各随机森林模型中选择目标随机森林模型,以使后续利用目标随机森林模型进行室分外引小区的预测,提升室分外引小区识别的效率。
本说明书一实施例提供的随机森林模型训练装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
进一步地,本说明书一个实施例还提供了一种随机森林模型训练设备,图4为本说明书一实施例提供的一种随机森林模型训练设备的结构示意图,如图4所示,该设备包括:存储器401、处理器402、总线403和通信接口404。存储器401、处理器402和通信接口404通过总线403进行通信,通信接口404可以包括输入输出接口,输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。
图4中,所述存储器401上存储有可在所述处理器402上运行的计算机可执行指令,所述计算机可执行指令被所述处理器402执行时实现以下流程:
获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
可选地,所述计算机可执行指令被所述处理器执行时,还包括:
获取室分小区的MR数据集;
利用筛选算法对所述室分小区进行筛选,获得有效室分小区;
按照预设比例对所述有效室分小区进行划分,以获得所述第一室分小区集合与所述第二室分小区集合;
其中,所述第一室分小区集合中各室分小区的MR数据集构成所述第一MR数据集;所述第二室分小区集合中各室分小区的MR数据集构成所述第二MR数据集。
可选的,所述特征量,采用如下方式构建:
根据室分非外引小区的TA值确定起始阈值,并根据所述起始阈值确定至少一个修正阈值;
计算所述第一MR数据集中包含的TA值大于所述起始阈值的采样点占比,并分别计算所述第一MR数据集中包含的TA值大于各修正阈值的采样点占比;
以计算获得的采样点占比为特征字段构建所述特征量。
可选的,所述随机森林模型由预设数量的决策树组成;
所述决策树,通过如下方式训练获得:
对所述第一MR数据集进行随机采样,并根据所述特征量确定分裂特征;
根据采样得到的采样MR数据以及所述分裂特征构建所述决策树。
可选的,所述随机森林模型,采用如下方式进行室分外引识别:
将输入的所述第二MR数据集输入各决策树,并获得所述各决策树输出的分类结果;
根据所述分类结果以及预设投票机制确定识别结果;
根据所述识别结果生成所述室分外引小区列表并输出。
可选的,所述根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型,包括:
将所述室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算所述室分外引小区列表对应的随机森林模型的识别准确率;
选择识别准确率满足预设条件的随机森林模型作为所述目标随机森林模型。
可选的,所述计算机可执行指令被所述处理器执行时,还包括:
将待预测室分小区的MR数据输入所述目标随机森林模型进行室分外引预测;所述目标随机森林模型将所述MR数据输入各决策树并获得所述各决策树输出的分类结果;根据所述各决策树的分类结果以及预设投票机制确定预测结果;
获取所述目标随机森林模型根据所述预测结果生成并输出的预测室分外引小区列表。
其中,所述各决策树中任一决策树,采用如下方式进行分类:基于所述MR数据计算终端设备与基站的距离;根据所述距离计算所述待预测室分小区中基站的覆盖距离,并根据所述覆盖距离确定分类结果。
本实施例提供的随机森林模型训练设备,通过存储器401、处理器402、总线403和通信接口404的配合,首先获取第一室分小区集合对应的第一MR数据集和第二室分小区集合对应的第二MR数据集,基于第一MR数据集以及特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;然后将第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表,最后根据室分外引小区列表在各随机森林模型中选择目标随机森林模型,以使后续利用目标随机森林模型进行室分外引小区的预测,提升室分外引小区识别的效率。
本说明书一实施例提供的随机森林模型训练设备能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
进一步地,本说明书另一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现以下流程:
获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
可选地,所述计算机可执行指令被处理器执行时,还包括:
获取室分小区的MR数据集;
利用筛选算法对所述室分小区进行筛选,获得有效室分小区;
按照预设比例对所述有效室分小区进行划分,以获得所述第一室分小区集合与所述第二室分小区集合;
其中,所述第一室分小区集合中各室分小区的MR数据集构成所述第一MR数据集;所述第二室分小区集合中各室分小区的MR数据集构成所述第二MR数据集。
可选的,所述特征量,采用如下方式构建:
根据室分非外引小区的TA值确定起始阈值,并根据所述起始阈值确定至少一个修正阈值;
计算所述第一MR数据集中包含的TA值大于所述起始阈值的采样点占比,并分别计算所述第一MR数据集中包含的TA值大于各修正阈值的采样点占比;
以计算获得的采样点占比为特征字段构建所述特征量。
可选的,所述随机森林模型由预设数量的决策树组成;
所述决策树,通过如下方式训练获得:
对所述第一MR数据集进行随机采样,并根据所述特征量确定分裂特征;
根据采样得到的采样MR数据以及所述分裂特征构建所述决策树。
可选的,所述随机森林模型,采用如下方式进行室分外引识别:
将输入的所述第二MR数据集输入各决策树,并获得所述各决策树输出的分类结果;
根据所述分类结果以及预设投票机制确定识别结果;
根据所述识别结果生成所述室分外引小区列表并输出。
可选的,所述根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型,包括:
将所述室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算所述室分外引小区列表对应的随机森林模型的识别准确率;
选择识别准确率满足预设条件的随机森林模型作为所述目标随机森林模型。
可选的,所述计算机可执行指令被处理器执行时,还包括:
将待预测室分小区的MR数据输入所述目标随机森林模型进行室分外引预测;所述目标随机森林模型将所述MR数据输入各决策树并获得所述各决策树输出的分类结果;根据所述各决策树的分类结果以及预设投票机制确定预测结果;
获取所述目标随机森林模型根据所述预测结果生成并输出的预测室分外引小区列表。
其中,所述各决策树中任一决策树,采用如下方式进行分类:基于所述MR数据计算终端设备与基站的距离;根据所述距离计算所述待预测室分小区中基站的覆盖距离,并根据所述覆盖距离确定分类结果。
本实施例提供的计算机可读存储介质,首先获取第一室分小区集合对应的第一MR数据集和第二室分小区集合对应的第二MR数据集,基于第一MR数据集以及特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;然后将第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表,最后根据室分外引小区列表在各随机森林模型中选择目标随机森林模型,以使后续利用目标随机森林模型进行室分外引小区的预测,提升室分外引小区识别的效率。
其中,所述计算机可读存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书一实施例提供的计算机可读存储介质能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读存储介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读存储介质的示例。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种随机森林模型训练方法,其特征在于,包括:
获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
2.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集步骤执行之前,还包括:
获取室分小区的MR数据集;
利用筛选算法对所述室分小区进行筛选,获得有效室分小区;
按照预设比例对所述有效室分小区进行划分,以获得所述第一室分小区集合与所述第二室分小区集合;
其中,所述第一室分小区集合中各室分小区的MR数据集构成所述第一MR数据集;所述第二室分小区集合中各室分小区的MR数据集构成所述第二MR数据集。
3.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述特征量,采用如下方式构建:
根据室分非外引小区的TA值确定起始阈值,并根据所述起始阈值确定至少一个修正阈值;
计算所述第一MR数据集中包含的TA值大于所述起始阈值的采样点占比,并分别计算所述第一MR数据集中包含的TA值大于各修正阈值的采样点占比;
以计算获得的采样点占比为特征字段构建所述特征量。
4.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述随机森林模型由预设数量的决策树组成;
所述决策树,通过如下方式训练获得:
对所述第一MR数据集进行随机采样,并根据所述特征量确定分裂特征;
根据采样得到的采样MR数据以及所述分裂特征构建所述决策树。
5.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述随机森林模型,采用如下方式进行室分外引识别:
将输入的所述第二MR数据集输入各决策树,并获得所述各决策树输出的分类结果;
根据所述分类结果以及预设投票机制确定识别结果;
根据所述识别结果生成所述室分外引小区列表并输出。
6.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型,包括:
将所述室分外引小区列表与实际室分外引小区列表进行比对,并根据比对结果计算所述室分外引小区列表对应的随机森林模型的识别准确率;
选择识别准确率满足预设条件的随机森林模型作为所述目标随机森林模型。
7.根据权利要求1所述的随机森林模型训练方法,其特征在于,所述根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型步骤执行之后,还包括:
将待预测室分小区的MR数据输入所述目标随机森林模型进行室分外引预测;所述目标随机森林模型将所述MR数据输入各决策树并获得所述各决策树输出的分类结果;根据所述各决策树的分类结果以及预设投票机制确定预测结果;
获取所述目标随机森林模型根据所述预测结果生成并输出的预测室分外引小区列表;
其中,所述各决策树中任一决策树,采用如下方式进行分类:基于所述MR数据计算终端设备与基站的距离;根据所述距离计算所述待预测室分小区中基站的覆盖距离,并根据所述覆盖距离确定分类结果。
8.一种随机森林模型训练装置,其特征在于,包括:
数据获取模块,被配置为获取第一室分小区集合对应的第一MR数据集,以及第二室分小区集合对应的第二MR数据集;
模型训练模块,被配置为基于所述第一MR数据集与特征量,以预设模型参数训练随机森林模型,并以至少一个修正模型参数训练至少一个随机森林模型;
模型测试模块,被配置为将所述第二MR数据集输入各随机森林模型进行室分外引识别,以获得对应的室分外引小区列表;
模型选择模块,被配置为根据所述室分外引小区列表在所述各随机森林模型中选择目标随机森林模型。
9.一种随机森林模型训练设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述计算机可执行指令在上述处理器上运行时,能够实现上述权利要求1-7任一项所述的方法的步骤。
10.一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,其特征在于,所述计算机可执行指令在被处理器执行时,能够实现上述权利要求1-7任一项所述的方法的步骤。
CN202110275274.1A 2021-03-15 2021-03-15 随机森林模型训练方法和装置 Pending CN115082767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275274.1A CN115082767A (zh) 2021-03-15 2021-03-15 随机森林模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275274.1A CN115082767A (zh) 2021-03-15 2021-03-15 随机森林模型训练方法和装置

Publications (1)

Publication Number Publication Date
CN115082767A true CN115082767A (zh) 2022-09-20

Family

ID=83241082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275274.1A Pending CN115082767A (zh) 2021-03-15 2021-03-15 随机森林模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN115082767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116759014A (zh) * 2023-08-21 2023-09-15 启思半导体(杭州)有限责任公司 基于随机森林的气体种类及浓度预测方法、系统及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116759014A (zh) * 2023-08-21 2023-09-15 启思半导体(杭州)有限责任公司 基于随机森林的气体种类及浓度预测方法、系统及装置
CN116759014B (zh) * 2023-08-21 2023-11-03 启思半导体(杭州)有限责任公司 基于随机森林的气体种类及浓度预测方法、系统及装置

Similar Documents

Publication Publication Date Title
CN109768886B (zh) 网络规划评价方法及装置
CN112469066B (zh) 5g网络覆盖评估方法及装置
CN109189876B (zh) 一种数据处理方法及装置
CN111652661B (zh) 一种手机客户端用户流失预警处理方法
CN111368862A (zh) 室内外标记的区分方法、分类器的训练方法及设备和介质
CN111328102A (zh) 一种共覆盖关系识别的方法及装置
CN112308345A (zh) 通信网络负荷预测方法、装置及服务器
CN115082767A (zh) 随机森林模型训练方法和装置
CN106993296A (zh) 终端的性能评估方法及装置
CN110913407A (zh) 重叠覆盖的分析方法及装置
CN111935772A (zh) 一种确定业务区域的价值的方法和装置
CN111209943B (zh) 数据融合方法、装置及服务器
EP4290914A1 (en) Traffic scenario identification method and apparatus, device, and storage medium
CN113541993B (zh) 网络评估方法及装置、网络指标处理方法、设备和介质
CN114745289A (zh) 网络性能数据的预测方法、装置、存储介质及设备
CN111476886B (zh) 智慧建筑楼宇三维模型渲染方法及楼宇云服务器
CN108260201B (zh) 一种信息扩充方法及装置
CN111741526A (zh) 定位方法、装置、电子设备以及计算机存储介质
CN116626574B (zh) 一种信号测试仪的可靠性测试方法、系统及存储介质
CN114095947B (zh) 一种网络覆盖评估方法、装置、电子设备及存储介质
CN114286284B (zh) 一种商圈分级方法及装置
CN117693017B (zh) 楼层识别方法、装置、设备及存储介质
CN112533253B (zh) 移动网络信号强度计算方法、装置、电子设备及存储介质
CN111314926B (zh) 覆盖关系确定方法、装置及计算机可读存储介质
CN111934896B (zh) 高架道路终端用户识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination