CN114091556A - 一种模型训练、数据筛选方法、装置及计算机设备 - Google Patents
一种模型训练、数据筛选方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN114091556A CN114091556A CN202010754247.8A CN202010754247A CN114091556A CN 114091556 A CN114091556 A CN 114091556A CN 202010754247 A CN202010754247 A CN 202010754247A CN 114091556 A CN114091556 A CN 114091556A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- machine learning
- test
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明实施例公开了一种模型训练、数据筛选方法、装置及计算机设备,包括:获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;根据多个评价指标对所述模型训练结果进行多维度评估;根据多维度评估结果确定所述预设机器学习模型的目标模型参数;根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。本发明实施例的技术方案能够提高测试数据的筛选效率和筛选精度。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种模型训练、数据筛选方法、装置及计算机设备。
背景技术
通常情况下,设备中的应用系统正式上线后难免会引入设备测试数据。而设备正式投入使用后,后续又会产生设备实操数据。例如,车辆上线后,用户在试驾的过程中,车辆会产生试驾数据。或者,车辆经销商对车辆进行测试时,也会产生相应的测试数据。用户购买车辆后,在车辆的使用过程中则会产生设备实操数据。由此可见,后期对设备产生的数据进行分析时,往往会对同时包括测试数据和实操数据的混合数据进行分析。显然,在对数据进行分析时,测试数据并不应该作为数据分析对象。
现有技术中,为了区域设备生成数据中的测试数据类型,往往需要人为对测试数据标注相应的ID号或其他特殊的标记,以便后期进行数据分析时根据测试数据的标识过滤测试数据。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:人为对测试数据进行标识,不仅会从整体上降低数据筛选的效率,而且往往会导致测试数据标识不充分的问题,进而导致最终筛选出的数据中依然包括无法识别的测试数据,从而降低数据筛选的精度。
发明内容
本发明实施例提供一种模型训练、数据筛选方法、装置及计算机设备,以提高测试数据的筛选效率和筛选精度。
第一方面,本发明实施例提供了一种模型训练方法,包括:
获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;
根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;
根据多个评价指标对所述模型训练结果进行多维度评估;
根据多维度评估结果确定所述预设机器学习模型的目标模型参数;
根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
第二方面,本发明实施例还提供了一种数据筛选方法,包括:
获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;
将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过第一方面所述的模型训练方法得到;
将所述筛选数据作为设备测试数据。
第三方面,本发明实施例还提供了一种模型训练装置,包括:
样本数据获取模块,用于获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;
模型训练模块,用于根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;
训练结果评估模块,用于根据多个评价指标对所述模型训练结果进行多维度评估;
目标模型参数确定模块,用于根据多维度评估结果确定所述预设机器学习模型的目标模型参数;
目标模型构建模块,用于根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
第四方面,本发明实施例还提供了一种数据筛选装置,包括:
混合数据获取模块,用于获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;
筛选数据获取模块,用于将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过第一方面所述的模型训练方法得到;
测试数据确定模块,用于将所述筛选数据作为设备测试数据。
第五方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的模型训练方法。
第六方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的模型训练方法。
第七方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的数据筛选方法。
第八方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的数据筛选方法。
本发明实施例通过获取的样本数据对预设机器学习模型进行训练,得到模型训练结果,然后根据多个评价指标对各模型训练结果进行多维度评估,以根据多维度评估结果确定预设机器学习模型的目标模型参数,从而根据目标模型参数以及预设机器学习模型构建目标机器学习模型,并利用目标机器学习模型从待筛选混合数据中筛选出测试数据,解决现有通过人工标识测试数据以进行测试数据筛选的方法存在的筛选效率和筛选精度较低等问题,实现利用多维度的评价指标进行机器学习模型训练,以提高机器学习模型的筛选准确率,并利用最终训练得到的高准确率的机器学习模型对混合数据自动筛选出测试数据,从而提高测试数据的筛选效率和筛选精度。
附图说明
图1是本发明实施例一提供的一种模型训练方法的流程图;
图2是本发明实施例二提供的一种模型训练方法的流程图;
图3是本发明实施例二提供的一种样本数据的效果示意图;
图4为本发明实施例二提供的一种利用密度聚类模型对测试样本数据进行聚类的效果示意图;
图5为本发明实施例二提供的一种利用密度聚类模型对实操样本数据进行聚类的效果示意图;
图6为本发明实施例二提供的一种利用密度聚类模型对混合样本数据进行聚类的效果示意图;
图7是本发明实施例二提供的一种三维评估坐标系的效果示意图;
图8是本发明实施例二提供的一种三维评估坐标系的效果示意图;
图9是本发明实施例二提供的一种三维评估坐标系的效果示意图;
图10是本发明实施例二提供的一种评估数据表的效果示意图;
图11是本发明实施例三提供的一种数据筛选方法的流程图;
图12是本发明实施例四提供的一种模型训练装置的示意图;
图13是本发明实施例五提供的一种数据筛选装置的示意图;
图14为本发明实施例六提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种模型训练方法的流程图,本实施例可适用于根据利用多维度的评价指标对机器学习模型进行训练,以得到用于筛选测试数据的成熟机器学习模型的情况,该方法可以由模型训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图1所示,该方法包括如下操作:
S110、获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据。
其中,样本数据可以包括测试样本数据和/或实操样本数据。也即,样本数据可以是测试样本数据或实操样本数据,还可以是同时包括测试样本数据和实操样本数据的混合样本数据,本发明实施例对此并不进行限制。测试样本数据也即样本数据中包括的测试数据类型,实操样本数据也即样本数据中包括的设备数据类型。需要说明的是,测试样本数据和实操样本数据均可以是设备在运行过程中所生成的数据,但测试样本数据和实操样本数据的生成时机并不相同。具体的,测试样本数据可以是设备在测试过程中所生成的数据,如车辆在测试环节生成的人机交互数据或设备运行数据等。实操样本数据则可以是设备在真正投入使用后所生成的数据,如用户在日常使用车辆的过程中生成的人机交互数据或设备运行数据等。本发明实施例并不对测试样本数据和实操样本数据的具体数据内容进行限定。
在对预设机器学习模型进行训练之前,首先需要获取包括测试样本数据和/或实操样本数据的样本数据。获取样本数据的方式可以是直接从相关设备中导出生成的数据,或者,也还可以从专门存储设备生成的数据的数据库中获取,本发明实施例并不对样本数据的获取方式进行限定。
S120、根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果。
其中,预设机器学习模型可以是任意类型的机器学习模型,如密度聚类模型或均值聚类模型等,可选的,预设机器学习模型可以是无监督机器学习模型,本发明实施例并不对预设机器学习模型的具体类型进行限定。模型训练结果可以是预设机器学习模型对样本数据进行筛选,得到的筛选后的数据。
相应的,在得到样本数据后,即可将样本数据输入至预设机器学习模型进行训练,得到模型训练结果。由于预设机器学习模型是无监督的学习模型,因此在训练过程中需要实时调整预设机器学习模型的模型参数。预设机器学习模型的模型参数每调整更新一次,可以重新将样本数据输入至更新后的预设机器学习模型中。因此,根据样本数据对预设机器学习模型进行训练时,不同模型参数的预设机器学习模型可以分别对应得到多个不同的模型训练结果。
S130、根据多个评价指标对所述模型训练结果进行多维度评估。
其中,评价指标可以用于对预设机器学习模型的模型训练结果的效果进行评价。示例性的,假设预设机器学习模型为密度聚类模型时,相应的,评价指标可以是聚类半径、邻域内最少点的数量、形成聚类的个数单位簇、最大簇包括的数据点占数据点总量的百分比以及轮廓系数等。
需要说明的是,由于预设机器学习模型是无监督的学习模型,因此预设机器学习模型本身并不能对模型训练结果的效果进行评估。为了能够准确筛选出测试样本数据,本发明实施例采用多个维度的评价指标对获取的各个模型训练结果进行多维度评估,从而判断测试样本数据的特点。
S140、根据多维度评估结果确定所述预设机器学习模型的目标模型参数。
其中,多维度评估结果可以是各个模型训练结果中筛选出的测试样本数据与样本数据总量的百分比。
相应的,在根据多个评价指标对各模型训练结果进行多维度评估后,可以通过多维度评估结果反应各个预设机器学习模型的总体趋势效果。该总体趋势效果可以展示测试样本数据的筛选判断趋势。因此,可以根据多维度评估结果反应的各个预设机器学习模型的总体趋势效果,来确定预设机器学习模型的目标模型参数。目标模型参数也即对测试样本数据筛选准确率最高的预设机器学习模型的模型参数。
S150、根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型。
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
相应的,在确定了目标模型参数后,即可将预设机器学习模型的模型参数设置为目标模型参数,得到目标机器学习模型。目标机器学习模型属于训练成熟的模型,可以用于从包括设备测试数据和设备实操数据的混合数据中,快速而准确地筛选出设备测试数据。其中,设备测试数据也即各个设备在测试过程中生成的数据,设备实操数据也即各个设备在正式运营过程中生成的数据。
本发明实施例通过获取的样本数据对预设机器学习模型进行训练,得到模型训练结果,然后根据多个评价指标对各模型训练结果进行多维度评估,以根据多维度评估结果确定预设机器学习模型的目标模型参数,从而根据目标模型参数以及预设机器学习模型构建目标机器学习模型,并利用目标机器学习模型从待筛选混合数据中筛选出测试数据,解决现有通过人工标识测试数据以进行测试数据筛选的方法存在的筛选效率和筛选精度较低等问题,实现利用多维度的评价指标进行机器学习模型训练,以提高机器学习模型的筛选准确率,并利用最终训练得到的高准确率的机器学习模型对混合数据自动筛选出测试数据,从而提高测试数据的筛选效率和筛选精度。
实施例二
图2是本发明实施例二提供的一种模型训练方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了获取样本数据、根据所述样本数据对预设机器学习模型进行训练、根据多个评价指标对所述模型训练结果进行多维度评估,以及根据多维度评估结果确定所述预设机器学习模型的目标模型参数的多种具体可选的实现方式。相应的,如图2所示,本实施例的方法可以包括:
S210、获取原始样本数据。
其中,原始样本数据可以是设备所生成的原始数据。
在本发明实施例中,在获取样本数据时,可以首先获取原始样本数据。所谓样式样本数据也即设备生成的未经处理过的数据。示例性的,以车辆为例说明,车辆所产生的原始的交互数据通常可以包括设备ID号、经纬度信息、数据生成时间、数据来源、数据类型以及数据的大小等内容。也即,从车辆出获取的原始样本数据可以包括设备ID号、经纬度信息、数据生成时间、数据来源、数据类型以及数据的大小等内容。
S220、对所述原始样本数据根据数据筛选条件进行数据预处理,得到所述样本数据。
其中,数据筛选条件可以用于对原始样本数据进行筛选。数据预处理也即从原始样本数据中筛选出所需要的数据信息。
相应的,获取到原始样本数据后,可以根据数据筛选条件对原始样本数据进行数据预处理,从而得到用于训练预设机器学习模型的样本数据。
在一个具体的例子中,假设以车辆生成的原始的交互数据作为原始样本数据。由于测试样本数据通常在地域上或时间上呈现出明显的聚集性特点。例如,通常测试样本数据是在汽车4S店所在的范围内生成,或在一段时间内集中生成。因此,可以从原始样本数据中筛选出有利于体现数据聚集性的内容。图3是本发明实施例二提供的一种样本数据的效果示意图。具体的,如图3所示,可以从车辆的各原始样本数据中,根据设备ID(也即device_id)、经度、维度和交互时间的数据筛选条件,筛选出设备ID、经度、维度和交互时间的数据内容,将筛选出的数据作为最终的样本数据。需要说明的是,图3仅是一种实现方式的示意图,当测试数据有其他特性时,还可以根据不同的数据筛选条件筛选其他的数据内容,如数据来源和数据大小等,本发明实施例并不对样本数据的数据内容以及样本数据的数据量进行限制。
S230、确定所述预设机器学习模型的当前模型参数。
S240、根据所述当前模型参数确定当前机器学习模型。
S250、将所述样本数据输入至所述当前机器学习模型中,得到所述当前机器学习模型的当前模型训练结果。
S260、判断是否获取设定数量的模型训练结果,若是,则执行S270,否则,返回执行S230。
其中,当前模型参数可以是根据设定规则设置的模型参数。设定数量可以根据各模型参数的取值范围设定,本发明实施例并不对设定数量的具体数值进行限定。
可选的,可以对预设机器学习模型的模型参数利用当前模型参数进行赋值,并利用赋值后的当前机器学习模型对样本数据进行训练,从而得到当前模型训练结果。得到当前机器学习模型的当前模型训练结果后,可以更新当前模型参数,重新训练得到新的当前模型训练结果,直到全部可取的模型参数均训练得到相应的模型训练结果。
示例性的,假设预设机器学习模型的模型参数包括X、Y和Z。其中,X的取值范围为[1,20],Y的取值范围为[10,50],Z的取值范围为[20%,90%]。则当前模型参数可以是X、Y和Z中相应数值的任意组合。需要说明的是,为了便于模型参数的更新,可以对各个模型参数采用遍历的形式确定当前模型参数。例如,X取1,Y取10,遍历Z。然后X取1,Y按照取值步长2更新为12,继续遍历Z。以此类推,直至获取设定数量的模型训练结果。相应的,假设X的取值步长为1,Y的取值步长为10,Z的取值步长为10%,则设定数量可以是:20*5*8=800。
S270、根据多个评价指标对所述模型训练结果进行多维度评估。
其中,所述预设机器学习模型可以包括密度聚类模型;所述评价指标可以包括但不限于邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值。
其中,密度聚类(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)是一种典型的密度聚类算法。当预设机器学习模型采用密度聚类模型时,评价指标可以包括但不限于邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值。其中,邻域的半径为eps。邻域内数据点阈值为MinPts。示例性的,假设MinPts取值20时,表明构成一个簇需要最少20个数据点。测试评定比值可以用于规定最大的簇包含的数据点的点数占整体比例超过一定阈值。其中最大的簇包含的数据点的点数占整体比例可以作为另外一个评价指标max_cluster。示例性的,假设测试评定比值为90%,表明在max_cluster的取值大于或等于90%时,最大的簇里的各个数据点代表的数据可以为测试数据。测试设备可以是主要提供测试数据的设备。需要说明的是,提供样本数据的各个设备有两种类型,也即测试设备和非测试设备。一个设备如果生成的数据全部为测试数据,则可以认为该设备为测试设备。或者,一个设备如果生成的大部分数据为测试数据,如80%的数据为测试数据,则也可以认为该设备为测试设备。相应的,不符合测试设备判定条件的设备即为非测试设备。测试设备与设备总量的比值表明了预设机器学习模型预测的测试样本数据与数据总量之间的比值关系。
在本发明实施例中,可以利用邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值等作为评价指标对各模型训练结果进行多维度评估。除此之外,还可以利用形成聚类的个数单位簇(简称n_cluster)和轮廓系数(也称silhouette)作为辅助的评价指标。其中,在eps和MinPts的取值确定后,max_cluster、n_cluster和silhouette可以根据eps和MinPts进行计算。因此,可以将eps和MinPts作为需要训练确定的模型参数。
图4为本发明实施例二提供的一种利用密度聚类模型对测试样本数据进行聚类的效果示意图,图5为本发明实施例二提供的一种利用密度聚类模型对实操样本数据进行聚类的效果示意图,图6为本发明实施例二提供的一种利用密度聚类模型对混合样本数据(同时包括测试样本数据和实操样本数据)进行聚类的效果示意图。其中,图4、图5和图6中各个子图的横坐标表示维度,纵坐标表示经度。在一个具体的例子中,如图4、图5和图6中各个子图所示,当eps、MinPts、max_cluster、n_cluster和silhouette赋值不同时,对数据的聚类效果也不同。发明人在训练密度聚类模型的过程中发现,通常在eps取1(1公里),MinPts取20,n_cluster取1,max_cluster大于95%,且silhouette越接近1时,对测试数据的筛选效果越好。
需要说明的是,当样本数据存在经纬度信息时,通常认为经纬度总体分布在一个范围内可以认为是测试样本数据。因此,如图6所示,在训练的过程中可以通过修改模型参数MinPts和eps观察样本数据的分布变化,同时观察max_cluster和silhouette了解各个密度聚类模型的总体趋势效果。
在本发明的一个可选实施例中,所述根据多个评价指标对所述模型训练结果进行多维度评估,可以包括:以所述邻域内数据点阈值为X轴,以所述测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系;根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,将各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值映射至所述三维评估坐标系中。
在本发明的一个可选实施例中,所述根据多个评价指标对所述模型训练结果进行多维度评估,可以包括:根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,并根据各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值构建评估数据表。
其中,目标簇数据点数量与数据点总量的比值也即评价指标max_cluster。
可选的,根据多个评价指标对模型训练结果进行多维度评估时,可以通过多个评价指标构建多维度坐标系或数据列表等形式进行多维度评估。可选的,多维度坐标系可以是三维坐标系或四维坐标系等。
假设通过多个评价指标构建三维坐标系,具体可以以邻域内数据点阈值为X轴,以测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系。然后,可以根据各模型训练结果分别对应的MinPts确定各模型训练结果分别对应的评价指标max_cluster,并根据各评价指标max_cluster与测试评定比值之间的关系,确定各模型训练结果分别对应的测试设备与设备总量的比值,进而将各模型训练结果分别对应的MinPts、测试评定比值以及测试设备与设备总量的比值作为一个数据点映射至三维评估坐标系中。
假设通过多个评价指标构建评估数据表,具体可以根据各模型训练结果分别对应的MinPts确定各模型训练结果分别对应的评价指标max_cluster,并根据各评价指标max_cluster与测试评定比值之间的关系,确定各模型训练结果分别对应的测试设备与设备总量的比值,进而根据各模型训练结果分别对应的MinPts、测试评定比值以及测试设备与设备总量的比值构建评估数据表。
S280、根据多维度评估结果确定所述预设机器学习模型的目标模型参数。
相应的,S280具体可以包括下述操作:
S281、根据所述多维度评估结果确定所述目标模型参数匹配的参数活动区间。
其中,参数活动区间可以是目标模型参数所在的区间范围。例如,假设eps固定为1,则MinPts作为可变的模型参数,需要确定其对应的目标模型参数。假设MinPts最终的目标模型参数取值为20,则20所在的[15,25]的区间范围可以作为参数活动范围。
相应的,在利用多个评价指标对各模型训练结果进行多维度评估后,可以通过多维度评估结果中,如构建的三维评估坐标系或评估数据表等,根据各模型训练结果的分布情况,来确定目标模型参数匹配的参数活动区间。
S282、获取所述参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果。
其中,待筛选模型训练结果可以是参数活动区间中不同模型参数赋值后得到的各个机器学习模型,对样本数据进行训练得到的模型训练结果。
在本发明实施例中,在确定了目标模型参数对应的参数活动区间后,即可获取参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果。
示例性的,假设MinPts对应的参数活动区间为[15,25],MinPts的取值步长为5。具体的,可以首先对MinPts赋值为15,得到对应的机器学习模型,并获取该机器学习模型的模型训练结果作为其中一个待筛选模型训练结果。然后对MinPts赋值为20,得到对应的机器学习模型,并获取该机器学习模型的模型训练结果作为其中一个待筛选模型训练结果。最后,对MinPts赋值为25,得到对应的机器学习模型,并获取该机器学习模型的模型训练结果作为其中一个待筛选模型训练结果。
需要说明的是,待筛选模型训练结果的获取方式可以是再次利用参数活动区间内的数值对模型参数赋值,并将样本数据重新输入至对应的机器学习模型以获取对应的模型训练结果作为待筛选模型训练结果。或者,也还可以在对各机器学习模型进行训练的模型训练结果进行保存,并在确定参数活动区间后,直接从保存的模型训练结果中,获取参数活动区间内的各个数值对应的机器学习模型的模型训练结果作为待筛选模型训练结果。
S283、获取各所述待筛选模型训练结果匹配的核实结果。
其中,所述核实结果为所述待筛选模型训练结果中包括的所述测试样本数据,与所述待筛选模型训练结果中样本数据总量的比值。可选的,核实结果可以为人工对各待筛选模型训练结果进行核实得到的结果。
相应的,在得到参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果后,即可获取各待筛选模型训练结果匹配的核实结果。
示例性的,假设其中一个模型参数(如eps=1,MinPts=15)对应的机器学习模型筛选出100条数据,其中80条数据为测试样本数据,20条数据为实操样本数据,则该机器学习模型的待筛选模型训练结果匹配的核实结果可以是:测试数据筛选的准确率为80%。
S284、根据各所述待筛选模型训练结果匹配的核实结果,确定所述目标模型参数。
在得到各待筛选模型训练结果匹配的核实结果之后,即可根据各待筛选模型训练结果匹配的核实结果确定目标模型参数。
具体的,可以将测试数据筛选的准确率最高的模型参数作为目标模型参数。示例性的,假设eps=1,MinPts=15的模型参数对应的机器学习模型的核实结果为:测试数据筛选的准确率为80%,eps=1,MinPts=20的模型参数对应的机器学习模型的合适结果为:测试数据筛选的准确率为95%,eps=1,MinPts=25的模型参数对应的机器学习模型的合适结果为:测试数据筛选的准确率为85%,则可以将eps=1,MinPts=20作为目标模型参数。
图7是本发明实施例二提供的一种三维评估坐标系的效果示意图,图8是本发明实施例二提供的一种三维评估坐标系的效果示意图,图9是本发明实施例二提供的一种三维评估坐标系的效果示意图。其中,图7、图8和图9分别从不同的视角展示同一副三维评估坐标系。
在一个具体的例子中,以车辆生成的交互数据作为样本数据,并结合图7、图8和图9具体说明。通常情况下,车辆生成的测试数据具有区域聚集性特点,而车辆生成的实操数据则具有区域分散性的特点。假设eps固定取值经验值1km(eps=1km时对测试数据的聚类效果比较理想),设定MinPts的值作为X轴坐标值。例如,当MinPts=10时,会得到样本数据的聚类结果。也即,样本数据的GPS坐标,根据聚合程度,被划分成一个个簇。最大簇包含的数据点数量(即交互次数)占整体比例的设定阈值(也即测试评定比值)作为Y轴坐标值。假设,测试评定比值为90%,表明判定为最大簇包含的数据点数量占整体比例超过90%时,最大簇里包含的数据点为测试样本数据,也即提供该样本数据的车辆判定为疑似测试车辆。按照上述测试车辆判定标准筛选出来的车辆,可以计算得到大于样本数据达到300次/月的车辆基本为测试车辆。设定测试车辆与车辆总量的比值作为Z轴的坐标值。由上述分析可知,Z可以通过X和Y来计算。相应的,各个预设机器学习模型的总体趋势效果可以通过Z=f(X,Y)函数的变化来展示。以下取X={1≤X≤50},X的取值步长为1,Y={30%≤Y≤90%},Y的取值步长2%,绘制Z的分布情况,得到如图7、图8和图9所示的三维评估坐标系的效果示意图。
由图4可以看出,对于聚集程度较高的测试数据的坐标来说,随着X=MinPts逐渐变大,即形成簇的最低要求提高,最大簇是被打散削弱的,最大簇占比会下降。如果Y保持不变,则Z的取值也会下降。由图5可以看出,对于分散点的实操数据,随着X增大,本来特别零散的点自成一簇的可能性下降,更多的收纳到其他簇中,所以Z会增大。因此,增大X对不同类型的车辆是否是疑似测试车辆的判定效果是不同的。
参考图8,在X轴平行方向,随着X的增大,Z也逐渐增大,尤其是在Y比较小,也就是疑似测试车辆判定标准比较宽松的情况下,Z的增大趋势更明显。结合上述的不同类型车辆在X增大时的判定趋势变化,可以推断出疑似测试车辆所占比例应该很低,而主要是非测试车辆,所以整体才会出现增长的趋势。参考图9,随着Y的降低,Z会几乎呈现线性增大趋势,这说明车辆中从极度分散到极度聚合的类型之间是比较均匀分散的,疑似测试车辆的比例不会很高。
综上,Y可以从严取值,如取90%,对应X可以取当Y=90%时,Z值单调增长的拐点值,即X=20,这是因为X不能过小,也不能过大。如果X过小,则会导致簇的数量过多。如果X过大,则会导致将本来正常的非测试车辆被强行聚类为疑似测试车辆,而图中出现这样趋势的拐点就是Z值开始增长的拐点值。可以将[10,30]作为X的参数活动区间,并对区间内各个X的取值对应得到的机器学习模型对样本数据的模型训练结果进行人工审核,以确定各模型训练结果中测试数据筛选的准确率。最终,在X=20时,确定测试数据筛选的准确率最高。因此,可以将eps=1,MinPts=20作为最终确定的目标模型参数。
当X=20,Y=90%的情况下,Z=13.3%。也即,表明超过300次/月交互的车辆中,13.3%的车辆被判定为疑似测试车辆。
需要说明的是,除了可以根据三维评估坐标系展示各机器学习模型的总体趋势效果之外,还可以构建一个四维评估坐标系。其中,四维评估坐标系的X轴可以为MinPts,Y轴可以为max_cluster,Z轴可以为测试评定比值,另外,还可以对各数据点赋予不同的颜色,每个颜色坐标可以表示测试车辆与车辆总量的比值。
图10是本发明实施例二提供的一种评估数据表的效果示意图。除上述构建三维评估坐标系或四维坐标系以展示各机器学习模型的总体趋势效果之外,还可以根据MinPts(即图10中的“min”)、测试评定比值(即图10中的评定指标%)以及测试车辆与车辆总量的比值(即图10中的测试机占比%)构建多维的评估数据表。通过该评估数据表也可以通过上述三维评估坐标系的分析方式确定参数活动区间,进而确定目标模型参数。相对评估数据表来说,三维评估坐标系或四维坐标系的显示效果更加直观。
S290、根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型。
采用上述技术方案,通过采用多维度的评估坐标系和评估数据表的方式,实现利用多个评价指标对模型训练结果进行多维度评估,可以通过各个机器学习模型的总体趋势效果展示测试数据的特点,从而确定最终的目标模型参数和目标机器学习模型。
实施例三
图11是本发明实施例三提供的一种数据筛选方法的流程图,本实施例可适用于利用多维度的评价指标训练得到的机器学习模型筛选测试数据的情况,该方法可以由数据筛选装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图11所示,该方法包括如下操作:
S310、获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据。
其中,待筛选混合数据可以是需要筛选出测试数据的待处理数据,可以同时包括设备测试数据和设备实操数据。设备测试数据也即待筛选混合数据中包括的测试数据类型,设备实操数据也即待筛选混合数据中包括的设备数据类型。需要说明的是,设备测试数据和设备实操数据均可以是设备在运行过程中所生成的数据,但设备测试数据和设备实操数据的生成时机并不相同。具体的,设备测试数据可以是设备在测试过程中所生成的数据,如车辆在测试环节生成的人机交互数据或设备运行数据等。设备实操数据则可以是设备在真正投入使用后所生成的数据,如用户在日常使用车辆的过程中生成的人机交互数据或设备运行数据等。本发明实施例并不对设备测试数据和设备实操数据的具体数据内容进行限定。
在本发明实施例中,可以从各个设备中获取待筛选混合数据,以对各个设备的待筛选混合数据中包括的测试数据进行筛选处理。
S320、将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据。
其中,所述目标机器学习模型通过本发明任一实施例所述的模型训练方法得到。
S330、将所述筛选数据作为设备测试数据。
相应的,可以将获取的待筛选混合数据输入至目标机器学习模型中,并将目标机器学习模型输出的筛选数据作为设备测试数据。
在本发明的一个可选实施例中,所述将所述筛选数据作为设备测试数据,可以包括:获取所述筛选数据的筛选关联数据;所述筛选关联数据包括数据总量、POI(Point ofInterest,兴趣点)数据以及数据生成时间;如果确定所述筛选关联数据满足测试数据筛选规则,则将所述筛选数据作为所述设备测试数据。
其中,筛选关联数据和测试数据筛选规则可以用于对目标机器学习模型筛选出的数据进一步判断。示例性的,测试数据筛选规则可以是:数据总量达到一定阈值,POI数据包括设定类型的商铺(如4s店或饭店等)且数据生成时间集中在一定时间范围内。
可以理解的是,虽然目标机器学习模型筛选出的筛选数据为测试数据的准确率较高,但仍然存在误筛选的情况。为此,为了进一步提高筛选数据的准确率,可以在得到筛选数据后,获取筛选数据的筛选关联数据,并在确定筛选关联数据满足测试数据筛选规则时,才将筛选数据作为设备测试数据。
以实施例二中的具体示例为例继续说明,在将车辆生成的数据作为待筛选混合数据的应用场景中,确定了eps=1,MinPts=20作为最终确定的目标模型参数,且构建了对应的目标机器学习模型后,可以利用训练得到的目标机器学习模型对待筛选混合数据进行筛选。得到目标机器学习模型的筛选数据后,可以获取筛选数据的数据总量、POI数据以及数据生成时间等筛选关联数据。其中,POI数据可以通过根据筛选数据的经纬度信息查询地图数据获取。获取到筛选关联数据后,即可判断筛选关联数据是否满足测试数据筛选规则。示例性的,如果数据总量超过100条,数据点周围一定距离范围内存在4S店、汽车销售店,且数据生成时间高度集中在某个时间段内,则可以确定筛选数据确实为测试数据。对于目标机器学习模型没有筛选出的数据,可以采用抽样检测的方式,利用数据的筛选关联数据和测试数据筛选规则判断其是否为测试数据。
本发明实施例通过利用多个评价指标训练得到的机器学习模型对获取的待筛选混合数据进行筛选,并将筛选得到的筛选数据作为设备测试数据,解决现有通过人工标识测试数据以进行测试数据筛选的方法存在的筛选效率和筛选精度较低等问题,实现利用多维度的评价指标进行机器学习模型训练,以提高机器学习模型的筛选准确率,并利用最终训练得到的高准确率的机器学习模型对混合数据自动筛选出测试数据,从而提高测试数据的筛选效率和筛选精度。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例四
图12是本发明实施例四提供的一种模型训练装置的示意图,如图12所示,所述装置包括:样本数据获取模块410、模型训练模块420、训练结果评估模块430、目标模型参数确定模块440以及目标模型构建模块450,其中:
样本数据获取模块410,用于获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;
模型训练模块420,用于根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;
训练结果评估模块430,用于根据多个评价指标对所述模型训练结果进行多维度评估;
目标模型参数确定模块440,用于根据多维度评估结果确定所述预设机器学习模型的目标模型参数;
目标模型构建模块450,用于根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
本发明实施例通过获取的样本数据对预设机器学习模型进行训练,得到模型训练结果,然后根据多个评价指标对各模型训练结果进行多维度评估,以根据多维度评估结果确定预设机器学习模型的目标模型参数,从而根据目标模型参数以及预设机器学习模型构建目标机器学习模型,并利用目标机器学习模型从待筛选混合数据中筛选出测试数据,解决现有通过人工标识测试数据以进行测试数据筛选的方法存在的筛选效率和筛选精度较低等问题,实现利用多维度的评价指标进行机器学习模型训练,以提高机器学习模型的筛选准确率,并利用最终训练得到的高准确率的机器学习模型对混合数据自动筛选出测试数据,从而提高测试数据的筛选效率和筛选精度。
可选的,样本数据获取模块410用于:获取原始样本数据;对所述原始样本数据根据数据筛选条件进行数据预处理,得到所述样本数据。
可选的,模型训练模块420用于:确定所述预设机器学习模型的当前模型参数;根据所述当前模型参数确定当前机器学习模型;将所述样本数据输入至所述当前机器学习模型中,得到所述当前机器学习模型的当前模型训练结果;返回执行确定所述预设机器学习模型的当前模型参数的操作,直至获取设定数量的模型训练结果。
可选的,所述预设机器学习模型包括密度聚类模型;所述评价指标包括邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值;训练结果评估模块430用于:以所述邻域内数据点阈值为X轴,以所述测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系;根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,将各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值映射至所述三维评估坐标系中;或,根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,并根据各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值构建评估数据表。
可选的,目标模型参数确定模块440用于:根据所述多维度评估结果确定所述目标模型参数匹配的参数活动区间;获取所述参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果;获取各所述待筛选模型训练结果匹配的核实结果;根据各所述待筛选模型训练结果匹配的核实结果,确定所述目标模型参数。
上述模型训练装置可执行本发明任意实施例所提供的模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的模型训练方法。
实施例五
图13是本发明实施例五提供的一种数据筛选装置的示意图,如图13所示,所述装置包括:混合数据获取模块510、筛选数据获取模块520以及测试数据确定模块530,其中:
混合数据获取模块510,用于获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;
筛选数据获取模块520,用于将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通本发明任一实施例所述的模型训练方法得到;
测试数据确定模块530,用于将所述筛选数据作为设备测试数据。
可选的,测试数据确定模块530用于:获取所述筛选数据的筛选关联数据;所述筛选关联数据包括数据总量、POI数据以及数据生成时间;如果确定所述筛选关联数据满足测试数据筛选规则,则将所述筛选数据作为所述设备测试数据。
本发明实施例通过利用多个评价指标训练得到的机器学习模型对获取的待筛选混合数据进行筛选,并将筛选得到的筛选数据作为设备测试数据,解决现有通过人工标识测试数据以进行测试数据筛选的方法存在的筛选效率和筛选精度较低等问题,实现利用多维度的评价指标进行机器学习模型训练,以提高机器学习模型的筛选准确率,并利用最终训练得到的高准确率的机器学习模型对混合数据自动筛选出测试数据,从而提高测试数据的筛选效率和筛选精度。
上述数据筛选装置可执行本发明任意实施例所提供的数据筛选方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的数据筛选方法。
实施例六
图14为本发明实施例六提供的一种计算机设备的结构示意图。图14示出了适于用来实现本发明实施方式的计算机设备612的框图。图14显示的计算机设备612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图14所示,计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于:一个或者多个处理器616,存储装置628,连接不同系统组件(包括存储装置628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图14未显示,通常称为“硬盘驱动器”)。尽管图14中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块626的程序636,可以存储在例如存储装置628中,这样的程序模块626包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块626通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、摄像头、显示器624等)通信,还可与一个或者多个使得用户能与该计算机设备612交互的设备通信,和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口622进行。并且,计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LocalArea Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant ArraysofIndependent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器616通过运行存储在存储装置628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的模型训练方法。
也即,所述处理单元执行所述程序时实现:获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;根据多个评价指标对所述模型训练结果进行多维度评估;根据多维度评估结果确定所述预设机器学习模型的目标模型参数;根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
实施例七
本实施例七是本发明实施例提供的一种用于执行本发明实施例三所提供的数据筛选方法的计算机设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例三所提供的数据筛选方法:获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过本发明任一实施例所述的模型训练方法得到;将所述筛选数据作为设备测试数据。其具体结构以及细节内容可参照图14和实施例六。
实施例八
本发明实施例六还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的模型训练方法:获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;根据多个评价指标对所述模型训练结果进行多维度评估;根据多维度评估结果确定所述预设机器学习模型的目标模型参数;根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnlyMemory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
实施例九
本发明实施例九还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例三所述的数据筛选方法:获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过本发明任一实施例所述的模型训练方法得到;将所述筛选数据作为设备测试数据。其具体的细节内容描述可参照实施例八。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (15)
1.一种模型训练方法,其特征在于,包括:
获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;
根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;
根据多个评价指标对所述模型训练结果进行多维度评估;
根据多维度评估结果确定所述预设机器学习模型的目标模型参数;
根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
2.根据权利要求1所述的方法,其特征在于,所述获取样本数据,包括:
获取原始样本数据;
对所述原始样本数据根据数据筛选条件进行数据预处理,得到所述样本数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果,包括:
确定所述预设机器学习模型的当前模型参数;
根据所述当前模型参数确定当前机器学习模型;
将所述样本数据输入至所述当前机器学习模型中,得到所述当前机器学习模型的当前模型训练结果;
返回执行确定所述预设机器学习模型的当前模型参数的操作,直至获取设定数量的模型训练结果。
4.根据权利要求1所述的方法,其特征在于,所述预设机器学习模型包括密度聚类模型;
所述评价指标包括邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值;
所述根据多个评价指标对所述模型训练结果进行多维度评估,包括:
以所述邻域内数据点阈值为X轴,以所述测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系;
根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,将各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值映射至所述三维评估坐标系中;或,
根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,并根据各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值构建评估数据表。
5.根据权利要求4所述的方法,其特征在于,所述根据多维度评估结果确定所述预设机器学习模型的目标模型参数,包括:
根据所述多维度评估结果确定所述目标模型参数匹配的参数活动区间;
获取所述参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果;
获取各所述待筛选模型训练结果匹配的核实结果;所述核实结果为所述待筛选模型训练结果中包括的所述测试样本数据,与所述待筛选模型训练结果中样本数据总量的比值;
根据各所述待筛选模型训练结果匹配的核实结果,确定所述目标模型参数。
6.一种数据筛选方法,其特征在于,包括:
获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;
将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过权利要求1-5任一所述的模型训练方法得到;
将所述筛选数据作为设备测试数据。
7.根据权利要求6所述的方法,其特征在于,所述将所述筛选数据作为设备测试数据,包括:
获取所述筛选数据的筛选关联数据;所述筛选关联数据包括数据总量、兴趣点POI数据以及数据生成时间;
如果确定所述筛选关联数据满足测试数据筛选规则,则将所述筛选数据作为所述设备测试数据。
8.一种模型训练装置,其特征在于,包括:
样本数据获取模块,用于获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;
模型训练模块,用于根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;
训练结果评估模块,用于根据多个评价指标对所述模型训练结果进行多维度评估;
目标模型参数确定模块,用于根据多维度评估结果确定所述预设机器学习模型的目标模型参数;
目标模型构建模块,用于根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;
其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。
9.根据权利要求8所述的装置,其特征在于,所述样本数据获取模块用于:
获取原始样本数据;
对所述原始样本数据根据数据筛选条件进行数据预处理,得到所述样本数据。
10.根据权利要求8所述的装置,其特征在于,所述模型训练模块用于:
确定所述预设机器学习模型的当前模型参数;
根据所述当前模型参数确定当前机器学习模型;
将所述样本数据输入至所述当前机器学习模型中,得到所述当前机器学习模型的当前模型训练结果;
返回执行确定所述预设机器学习模型的当前模型参数的操作,直至获取设定数量的模型训练结果。
11.根据权利要求8所述的装置,其特征在于,所述预设机器学习模型包括密度聚类模型;
所述评价指标包括邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值;
所述训练结果评估模块用于:
以所述邻域内数据点阈值为X轴,以所述测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系;
根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,将各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值映射至所述三维评估坐标系中;或,
根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,并根据各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值构建评估数据表。
12.根据权利要求11所述的装置,其特征在于,所述目标模型参数确定模块用于:
根据所述多维度评估结果确定所述目标模型参数匹配的参数活动区间;
获取所述参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果;
获取各所述待筛选模型训练结果匹配的核实结果;
根据各所述待筛选模型训练结果匹配的核实结果,确定所述目标模型参数。
13.一种数据筛选装置,其特征在于,包括:
混合数据获取模块,用于获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;
筛选数据获取模块,用于将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过权利要求1-5任一所述的模型训练方法得到;
测试数据确定模块,用于将所述筛选数据作为设备测试数据。
14.根据权利要求13所述的装置,其特征在于,所述测试数据确定模块用于:
获取所述筛选数据的筛选关联数据;所述筛选关联数据包括数据总量、POI数据以及数据生成时间;
如果确定所述筛选关联数据满足测试数据筛选规则,则将所述筛选数据作为所述设备测试数据。
15.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的模型训练方法,或者实现如权利要求6-7中任一所述的数据筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010754247.8A CN114091556A (zh) | 2020-07-30 | 2020-07-30 | 一种模型训练、数据筛选方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010754247.8A CN114091556A (zh) | 2020-07-30 | 2020-07-30 | 一种模型训练、数据筛选方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114091556A true CN114091556A (zh) | 2022-02-25 |
Family
ID=80295081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010754247.8A Pending CN114091556A (zh) | 2020-07-30 | 2020-07-30 | 一种模型训练、数据筛选方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091556A (zh) |
-
2020
- 2020-07-30 CN CN202010754247.8A patent/CN114091556A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009171B (zh) | 用户行为模拟方法、装置、设备及计算机可读存储介质 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN114764768A (zh) | 缺陷检测分类方法、装置、电子设备及存储介质 | |
CN111985789A (zh) | 一种车载终端信息安全威胁分析和风险评估系统及方法 | |
CN113140109B (zh) | 一种路测数据处理方法、装置、计算机设备及存储介质 | |
CN115129594A (zh) | 测试场景处理方法、装置、电子设备和存储介质 | |
CN111738319A (zh) | 一种基于大规模样本的聚类结果评价方法及装置 | |
CN116126740B (zh) | 模型在环测试方法、装置、计算机设备及存储介质 | |
CN114091556A (zh) | 一种模型训练、数据筛选方法、装置及计算机设备 | |
CN111311393A (zh) | 信用风险的评估方法、装置、服务器和存储介质 | |
CN112200272B (zh) | 业务分类方法及装置 | |
CN114169247A (zh) | 仿真交通流的生成方法、装置、设备和计算机可读存储介质 | |
CN114565031A (zh) | 基于经纬度的车队识别方法、装置及计算机设备 | |
CN114610825A (zh) | 关联网格集的确认方法、装置、电子设备及存储介质 | |
CN114490390A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN109472766B (zh) | 桥梁螺栓区域定位方法及终端设备 | |
US11797871B2 (en) | Predictive methodology to identify potential unknown sweet spots | |
CN112633515A (zh) | 基于样本剔除的模型训练方法及设备 | |
CN112214469A (zh) | 路测数据处理方法、装置、服务器及存储介质 | |
CN117076293B (zh) | 基于贫样本层次可信聚类热力图的软件性能可视评价方法 | |
CN106855841A (zh) | 一种系统内存分析方法和装置 | |
CN115994093A (zh) | 测试用例推荐方法和装置 | |
CN115406670A (zh) | 车辆性能的测试方法、装置、电子设备以及一种车辆 | |
CN112858260A (zh) | 一种基于信息化平台的便携式试剂定量检测系统及方法 | |
CN116090379A (zh) | 一种激励文件的生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |