CN114510468A - 数据处理方法及计算机程序产品 - Google Patents
数据处理方法及计算机程序产品 Download PDFInfo
- Publication number
- CN114510468A CN114510468A CN202210096170.9A CN202210096170A CN114510468A CN 114510468 A CN114510468 A CN 114510468A CN 202210096170 A CN202210096170 A CN 202210096170A CN 114510468 A CN114510468 A CN 114510468A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- detected
- data acquisition
- acquisition equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据处理方法及计算机程序产品。在本申请实施例中,针对质量未知的待测资料数据,可对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息;并根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,确定待测资料数据的质量实现了对资料数据质量的自动化检测,而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
Description
技术领域
本申请涉及高精地图技术领域,尤其涉及一种数据处理方法及计算机程序产品。
背景技术
随着各类消费级的移动终端(如手机、行车记录仪等)的不断发展,基于消费级的移动终端沿路采集的资料数据,进行电子地图数据的制作被广泛应用。众所周知,消费级的移动终端的型号非常庞杂,例如,行车记录仪会因为硬件选型不同有非常多的型号。不同移动终端的传感器的精度不同,造成采集的资料数据的质量参差不齐。基于此,如何对不同来源的资料数据的质量进行检测,成为本领域技术人员需要解决的问题。
发明内容
本申请的多个方面提供一种数据处理方法及计算机程序产品,用以实现对资料数据的自动化质量检测。
本申请实施例提供一种数据处理方法,包括:
获取待测资料数据;
对所述待测资料数据进行特征提取,以确定采集所述待测资料数据的第一数据采集设备的多维度特征信息;
根据所述第一数据采集设备的多维度特征信息,对所述待测资料数据进行质量检测,以确定所述待测资料数据的质量。
本申请实施例还提供一种数据处理方法,其中,包括:
响应于调用目标服务的请求,确定所述目标服务对应的处理资源;利用所述目标服务对应的处理资源执行上述数据处理方法中的步骤。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;
所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行上述数据处理方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括:计算机程序;当计算机程序被处理器执行时可实现上述各数据处理方法。
在本申请实施例中,针对质量未知的待测资料数据,可对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息;并根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,确定待测资料数据的质量实现了对资料数据质量的自动化检测,而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的数据处理方法的流程示意图;
图2a为本申请实施例提供的质量检测模型的训练流程示意图;
图2b为本申请实施例提供的数据处理方法的整体框架流程图;
图2c为本申请实施例提供的另一质量检测模型的训练流程示意图;
图3为本申请实施例提供的另一数据处理方法的流程示意图;
图4为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了对不同来源的资料数据的质量进行检测,在本申请一些实施例中,针对质量未知的待测资料数据,可对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息;并根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,确定待测资料数据的质量实现了对资料数据质量的自动化检测,而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
以下结合附图,详细说明本申请各实施例提供的技术方案。
应注意到:相同的标号在下面的附图以及实施例中表示同一物体,因此,一旦某一物体在一个附图或实施例中被定义,则在随后的附图和实施例中不需要对其进行进一步讨论。
图1为本申请实施例提供的数据处理方法的流程示意图。如图1所示,该方法包括:
101、获取待测资料数据。
102、对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息。
103、根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,以确定待测资料数据的质量。
在本实施例中,数据采集设备可包括:视觉传感器(摄像头、相机、行车记录仪等)、惯性传感器(IMU)、测速计以及定位模块等等。定位模块可基于GPS定位技术或北斗定位技术等实现。数据采集设备可搭载于可移动设备上,并随可移动设备的移动而移动。可移动设备是指具有动力系统和驱动组件的设备,如可移动设备可为支持自动驾驶、高级辅助驾驶的车辆。
不同数据采集设备的传感器的精度不同,造成采集的资料数据的质量参差不齐。在本实施例中,为了实现对不同来源的资料数据的质量进行检测,在步骤101中,获取质量未知的待测资料数据,并可在步骤102中,对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息。
应用场景不同,资料数据包含的信息内容不同,获取的数据采集设备的多维度特征信息不同。在一些实施例中,资料数据为制作电子地图的源数据。所述资料数据可以用于制作高精电子地图或者普通电子地图。在地图数据制作场景下,数据采集设备的多维度特征信息是指数据采集设备采集资料数据过程中关联的特征信息,具体是指数据采集设备采集资料数据过程中的行驶特征信息,包括:数据采集设备在采集资料数据过程中自身运动特征,和/或,数据采集设备在采集资料数据过程中行驶经过的环境特征等等。
数据采集设备在采集资料数据过程中自身运动特征可包括:数据采集设备在采集资料数据过程中的运动学参数信息。其中,数据采集设备的运动学参数信息可包括:数据采集设备在采集资料数据过程中产生的轨迹信息、速度信息、俯仰角信息以及外参数信息等。其中,外参数可包括:数据采集设备的位姿等。
其中,数据采集设备的运动学参数信息在一定程度上可反映数据采集设备在采集待测资料数据过程中的状态,数据采集设备的状态在一定程度上可影响采集到的资料数据的质量。例如,数据采集设备的俯仰角信息在一定程度可反映数据采集设备的颠簸程度。俯仰角信息变化越小,说明数据采集设备在采集待测资料数据过程中行驶越平稳,采集到的待测资料数据的质量越高。又例如,数据采集设备的速度信息可反映数据采集设备采集的数据可用性。发明人研究发现数据采集设备处于低速行驶时,感知的参数信息较为杂乱,可用性不高;数据采集设备处于高速行驶时,感知的参数信息较少,可用性较高。
而且,在电子地图领域,数据采集设备采集的资料数据可包括:数据采集设备在采集资料数据过程中的运动学参数信息,和/或,数据采集设备在采集资料数据过程中所在的车道线的地理位置信息等。因此,基于上述分析,可从待测资料数据中获取数据采集设备的运动学参数信息,如数据采集设备的轨迹信息、速度信息、俯仰角信息以及外参数信息等,作为数据采集设备的一种维度的特征信息,即数据采集设备的多维度特征信息中的一种。
上述数据采集设备在采集资料数据过程中行驶经过的环境特征可包括:数据采集设备在采集资料数据过程中所在车道线的特征;也可包括数据采集设备的轨迹特征与车道线特征之间的差异特征。
对于制作电子地图来说,数据采集设备在采集资料数据时所在车道线越直,可用性越大,数据质量越高。基于此,可根据待测资料数据记录的数据采集设备所在车道线的地理位置信息,计算数据采集设备所在车道线的几何特征,作为数据采集设备的一种维度的特征信息。例如,可根据待测资料数据记录的数据采集设备所在车道线的地理位置信息,计算数据采集设备所在车道线的曲率、斜率、离散程度等。其中,数据采集设备所在车道线的曲率越小或斜率变化越小,表明数据采集设备所在车道线越直,可用性越大,数据质量越高。
在另一些实施例中,可根据待测资料数据记录的数据采集设备的轨迹信息,计算数据采集设备的轨迹的几何特征;并根据车道线的几何特征及数据采集设备的轨迹的几何特征,计算数据采集设备的轨迹与车道线的角度一致性。其中,数据采集设备的轨迹与车道线的角度一致性是指数据采集设备的轨迹与车道线之间的角度差异。数据采集设备的轨迹与车道线之间的角度差异越小,数据采集设备的轨迹与车道线的角度一致性越高,说明数据采集设备行驶越平稳,采集的资料数据的质量越高。
可选地,可根据待测资料数据记录的数据采集设备的轨迹信息,计算数据采集设备的轨迹的斜率;并根据车道线的斜率和数据采集设备的轨迹的斜率,计算数据采集设备的轨迹与车道线的角度差异。可根据数据采集设备的轨迹和车道线的角度差异衡量数据采集设备的轨迹与车道线的角度一致性。其中,角度差异越小,数据采集设备的轨迹与车道线的角度一致性越高。
上述仅以电子地图制作领域为例,对获取数据采集设备的多维度特征信息的实施方式进行示例性说明,但不构成限定。在实际使用过程中,可灵活选择是采用上述多维度特征信息中的部分或全部进行特征提取。例如,可选择数据采集设备的运动学参数信息、数据采集设备在采集资料数据时所作车道线的几何特征以及数据采集设备的轨迹与车道线的角度一致性中的至少2种特征信息进行特征提取等等。相应地,步骤102可实现为上述特征提取方式中的至少2种方式。
在获取数据采集设备的多维度特征信息之后,在步骤103中,可根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,以确定待测资料数据的质量,实现对待测资料数据质量的自动化检测。而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
在本申请实施例中,不限定对待测资料数据进行质量检测的具体实施方式。在一些实施例中,可利用预先训练好的质量检测模型,对待测资料数据进行质量检测。基于此,在利用质量检测模型,对待测资料数据进行质量检测之前,还需对质量检测模型进行训练。下面对质量检测模型的训练过程进行示例性说明。
图2a为本申请实施例提供的质量检测模型的训练过程示意图。如图2a所示,质量检测模型的训练过程包括:
201、获取质量属性已知的资料数据样本;质量属性已知的资料数据样本包括:已知质量合格和已知质量不合格的资料数据样本。
202、对资料数据样本进行特征提取,以确定采集资料数据样本的数据采集设备的多维度特征信息。
203、以损失函数最小化为训练目标,利用数据采集设备的多维度特征信息对预设的分类模型进行训练,以得到质量检测模型。
其中,损失函数是根据分类模型训练输出的资料数据样本的质量为各质量属性的概率及资料数据样本的质量属性真值确定的。在本实施例中,质量属性可包括:质量合格和质量不合格。可选地,资料数据样本的质量属性真值可理解为:资料数据样本的质量属性对应的真值。例如,在一些实施例中,已知质量合格的资料数据样本的质量属性真值为1;已知质量不合格的资料数据样本的质量属性真值为0。或者,已知质量合格的资料数据样本的质量属性真值为0;已知质量不合格的资料数据样本的质量属性真值为1;等等。
在本实施例中,质量属性已知的资料数据样本可由人工标注得到,也可由计算机设备自主标注得到。可选地,可获取待使用的资料数据样本。在本申请实施例中,为了便于描述和区分,将采集待测资料数据的设备,定义为第一数据采集设备;并将采集质量属性已知的资料数据样本的设备,定义为第二数据采集设备;将采集待使用的资料数据样本的设备,定义为第三数据采集设备。第二数据采集设备可包括第一数据采集设备,也可不包括第一数据采集设备。第三数据采集设备可包括第二数据采集设备。质量属性已知的资料数据样本是对待使用的资料数据样本标注得到的。
进一步,如图2b中样本标注阶段所示,可对待使用的资料数据样本进行特征提取,以确定采集待使用的资料数据样本的第三数据采集设备的多维度特征信息。关于获取第三数据采集设备的多维度特征信息的具体实施方式,可参见上述对待测资料数据进行特征提取的相关内容,在此不再赘述。进一步,可判断第三数据采集设备的多维度特征信息是否满足设定的质量规则要求;并确定满足所述质量规则要求的资料数据样本为上述已知质量合格的资料数据样本;以及确定不满足所述质量规则要求的资料数据样本为上述已知质量不合格的资料数据样本。可选地,如图2b中样本标注阶段所示,还可采用人工标注的方式对上述确定出的资料数据样本的质量属性进行修正。其中,图2b中的样本标签是指标注的资料数据样本的质量属性,如质量合格或质量不合格。
可选地,上述判断第三数据采集设备的多维度特征信息是否满足设定的质量规则要求可包括以下至少一种判断操作:
判断第三数据采集设备的速度是否大于或等于设定的速度阈值;
判断第三数据采集设备的俯仰角变化幅度是否小于或等于设定的幅度阈值;
判断第三数据采集设备所在的车道线的线性度是否大于或等于设定的线性度阈值;
判断第三数据采集设备的轨迹与其所在的车道线的角度一致性是否大于或等于设定的一致性阈值;
若上述至少一种判断操作的判断结果为是,确定第三数据采集设备的多维度特征信息满足设定的质量规则要求;若上述至少一种判断操作的判断结果存在判断结果为否的情况,确定第三数据采集设备的多维度特征信息不足设定的质量规则要求。
进一步,可确定质量规则要求的资料数据样本为上述已知质量合格的资料数据样本;以及确定不满足所述质量规则要求的资料数据样本为上述已知质量不合格的资料数据样本,进而获取质量属性已知的资料数据样本。
进一步,如图2b中模型训练阶段所示,可对质量属性已知的资料数据样本进行特征提取,确定采集质量属性已知的数据采集设备的多维度特征信息。关于对质量属性已知的资料数据样本进行特征提取的实施方式,可参见上述对待测资料数据进行特征提取的相关内容,在此不再赘述。进一步,在步骤203中,以损失函数最小化为训练目标,利用数据采集设备的多维度特征信息对预设的分类模型进行训练,以得到质量检测模型。该过程也可参见上述图2b的模型训练阶段。在本实施例中,利用采集资料数据样本的第二数据采集设备的多维度特征信息,对质量检测模型进行模型训练,可增强算法的鲁棒性。
在本申请实施例中,不限定质量检测模型的具体实现形式。在一些实施例中,质量检测模型可实现为分类模型,如梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型、极端梯度提升决策树(eXtreme Gradient Boosting Tree,XGBOOST)模型或广义相加模型(Generalized Additive Model,GAM)模型等。下面以GBDT算法进行分类模型训练为例,进行示例性说明。如图2c所示,分类模型训练过程可包括:
S21、获取质量属性已知的资料数据样本;质量属性已知的资料数据样本包括:已知质量合格和已知质量不合格的资料数据样本。
S22、对资料数据样本进行特征提取,以确定采集资料数据样本的第二数据采集设备的多维度特征信息。
S23、根据第二数据采集设备的多维度特征信息,构建代表资料数据样本的质量属性的M棵子决策树,以生成GBDT模型。其中,每棵子决策树代表一种质量属性。决策树模型即为上述分类模型。GBDT模型可决策输入的资料数据样本被划分到每棵子决策树的概率,该概率即为资料数据样本的质量为该子决策树代表的质量属性的概率。
其中,M≥2,且为整数。可选地,M=2。质量属性为质量合格和质量不合格。对于每棵子决策树,资料数据样本分别落入该子决策树的叶节点中,则对于每一个叶节点来说,其对应的数值代表该叶节点中的资料数据样本的质量属性为该子决策树代表的质量属性的可能性或概率。例如,若一棵子决策树代表质量合格,则该子决策树的决策结果为资料数据样本的质量属性为质量合格的可能性或概率。
可选地,可采用权值表示每一个叶节点的数值。
对于决策树模型中的M棵子决策树中的每棵子决策树来说,其构建过程相同。下面以M棵子决策树中的第一子决策树为例,进行示例性说明。其中,第一子决策树可为M棵子决策树中的任一子决策树,且第一子决策树代表第一质量属性。针对M棵子决策树中的第一子决策树,可根据资料属性样本的多维度特征信息,采用GBDT算法或XGBOOST构建代表第一质量属性的第一子决策树。其中,第一质量属性为质量合格或质量不合格。
对构建第一子决策树的具体过程进行示例性说明其中第一子决策树包括N棵CART树,其中N≥2,且为正整数,那么第一子决策树表示N个函数相加来预测输出,表达式为:
其中,Xi表示第i个网络样本,i=1,2,…P,其中,P表示资料数据样本的总样本数量。在本申请实施例中,可将相邻两个轨迹点之间产生的资料数据,作为一个资料数据样本。fn(Xi)表示第n棵CART树的函数,n=i=1,2,…N,N为第一棵子决策树中的CART树的个数;表示利用第一子决策树对某个资料数据样本进行预测的预测值。
S31:根据资料数据样本的多维度特征,选择第一子决策树中的第一棵CART树的分裂节点。
可选地,可采用样本方差衡量分裂节点纯度,节点越不纯,节点分类或者预测的效果就越差。样本方差越大,表示该节点的数据越分散,预测的效果就越差。优选地,对于第一棵CART树的分裂节点,选择将多维度特征分别作为分裂节点时,样本方差最小的特征作为分裂节点。
S32:根据第一棵CART树的分裂节点,生成第一棵CART树。其中,P个资料数据样本分别落入第一棵CART树的叶节点,并计算每个资料数据样本在第一棵CART树下的权值f1(Xi)。
可选地,可采用代价复杂度(Cost-Complexity Pruning,CCP)剪枝方法。即选择节点表面误差率增益值最小的非叶子节点,删除该非叶子节点的左右子节点,若有多个非叶子节点的表面误差率增益值相同小,则选择非叶子节点中子节点数最多的非叶子节点进行剪枝。
S33:采用相应的激活函数对每个训练样本在第一棵CART树下的权值f1(Xi)进行数值化处理,得到每个资料数据样本的质量属性为第一质量属性的概率p1(Xi)。
可选地,激活函数可为softmax函数、sigmoid函数、Relu函数或tanh函数等,但不限于此。相应地,可将每个资料数据样本在第一棵CART树下的权值带入激活函数,计算每个资料数据样本的交易质量属性为第一质量属性的概率p1(Xi)。
S34:计算每个资料数据样本属于第一质量属性的概率p1(Xi)与每个资料数据样本的质量属性真值yi的差值的绝对值。可选地,对于第一子决策树,已知质量属性为第一质量属性的资料数据样本的质量属性真值为1;已知质量属性为第一质量属性之外的另一质量属性的资料数据样本的质量属性真值为0。
其中,正则化项为有助于防止过拟合,其中,T为每棵CART树中叶节点的个数;T个叶节点的值组成了一个T维向量w,w=fn(Xi)。对于第一棵CART树,w=f1(Xi);γ和λ分别为正则化函数的两项T和w2的正则的惩罚项,表示这两项分别所占的比重。l为损失函数,表示预测值与训练样本的真实异常权重yi的偏离大小,且l为可微的凸函数。
S36:以此类推,直至将第一子决策树中的N棵CART树训练完成。
可选地,可利用上述正则化目标函数,采用加法训练来优化第一子决策树,即分步骤优化正则化目标函数,首先优化第一棵CART树,完了之后再优化第二棵CART树,直至优化完N棵CART树。
进一步,如图2b所示的模型训练阶段,还可对质量检测模型进行评估,即对质量检测模型进行验证。可选地,可获取S个质量属性已知的验证用资料样本,用以对训练出的决策树模型(即质量检测模型)进行验证,其中,S≥1,且为正整数。相应地,可获取S个验证用资料样本的多维度特征,并利用S个验证用资料样本的多维度特征采用K折叠交叉验证的方式对上述训练出的质量检测模型进行交叉验证,以不断优化决策树模型中的每棵子决策树。其中,K折交叉验证的具体过程属于本领域的公知技术,在此不再赘述。
相应地,如图2b中的线上预测阶段所示,可将第一数据采集设备的多维度特征信息输入质量检测模型;质量检测模型可根据多维度特征信息,预测待测资料数据的质量为各质量属性的概率。其中,各质量属性可包括:质量合格和质量不合格。相应地,待测资料数据的质量为各质量属性的概率可包括:待测资料数据质量合格的概率,和,待测资料数据质量不合格的概率。
进一步,可根据待测资料数据的质量为各质量属性的概率,确定待测资料数据的质量。可选地,可将概率最大的质量属性,作为待测资料数据的质量属性;或者,可将概率大于或等于设定的概率阈值的质量属性,作为待测资料数据的质量属性。
进一步,针对质量合格的资料数据,可根据质量合同的资料数据,制作电子地图。例如,可基于质量合格的资料数据采集的车道线的地理位置信息,绘制电子地图中的车道线等等。
如图2b中的线上预测阶段所示,对于质量不合格的资料数据,还可进行人工核实,以修正资料数据的质量属性等等。
在本申请实施例中,如图2b所示,对于确定出质量属性的待测资料数据来说,还可将这些确定出质量属性的待测资料数据,作为新的质量属性已知的资料数据样本,对质量检测模型进行优化训练。即以确定出质量属性的待测资料数据为新的训练样本,对质量检测模型进行优化训练,以得到新的质量检测模型,实现对质量检测模型的迭代优化,有助于进一步提高质量检测模型的准确度和鲁棒性。进而,后续可利用新的质量检测模型,对新的待测资料数据进行质量检测,这样有助于提高资料数据质量检测的准确性。
本申请实施例提供的数据处理方法可实现为本申请实施例提供的图像处理方法可部署于任意计算机设备。可选地,本申请实施例提供的图像处理方法还可部署于云端,作为一种SaaS服务。对于部署有该SaaS服务的服务端设备,可响应于其它客户端设备的服务请求,执行上述数据处理方法中的步骤。具体实施方式如图3所示,该方法主要包括:
301、响应于调用目标服务的请求,确定目标服务对应的处理资源。
302、利用目标服务对应的处理资源获取待测资料数据。
303、对待测资料数据进行特征提取,以确定采集待测资料数据的第一数据采集设备的多维度特征信息。
304、根据第一数据采集设备的多维度特征信息,对待测资料数据进行质量检测,以确定待测资料数据的质量。
在本实施例中,目标服务提供的服务主要是指可实现上述数据处理方法的服务。目标服务对应的处理资源可包括:CPU或GPU等处理器资源、带宽资源以及存储资源等,但不限于此。
在本实施例中,可利用目标服务对应的处理资源实现步骤302-304中的内容,实现对待测资料数据质量的自动化检测,而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
其中,关于步骤302-304的描述,可参见上述实施例及其可选实施方式中的相关内容。进一步,在待测资料数据的质量之后,还可将待测资料数据的质量提供给发起调用目标服务请求的请求方。对于请求方,可接收并输出待测资料数据的质量等等。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101和102的执行主体可以为设备A;又比如,步骤101的执行主体可以为设备A,步骤102的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述各数据处理方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序。当计算机程序被处理器执行时可实现上述各数据处理方法。在本实施例中,计算机程序产品可实现为服务端插件或SaaS服务产品等等。
图4为本申请实施例提供的计算机设备的结构示意图。如图4所示,该计算机设备包括:存储器40a和处理器40b。存储器40a,用于存储计算机程序。
处理器40b耦合至存储器40a,用于执行计算机程序以用于:获取待测资料数据;对待测资料数据进行特征提取,以确定采集待测资料数据的第一数据采集设备的多维度特征信息;第一数据采集设备的多维度特征信息是指第一数据采集设备在采集待测资料数据过程中关联的特征信息;并根据第一数据采集设备的多维度特征信息,对待测资料数据进行质量检测,以确定待测资料数据的质量。
在一些实施例中,处理器40b在对待测资料数据进行特征提取时,具体用于执行以下方式中的至少两种方式:
从待测资料数据中,获取第一数据采集设备的运动学参数信息,作为多维度特征信息中的一种;
根据待测资料数据记录的第一数据采集设备所在车道线的地理位置信息,计算第一数据采集设备所在车道线的几何特征,作为多维度特征信息中的一种;
根据待测资料数据记录的数据采集设备的轨迹信息,计算第一数据采集设备的轨迹的几何特征;并根据车道线的几何特征及第一数据采集设备的轨迹的几何特征,计算第一数据采集设备的轨迹与车道线的角度一致性,作为多维度特征信息中的一种。
在一些实施例中,处理器40b在对待测资料数据进行质量检测时,具体用于:将多维度特征信息输入质量检测模型;质量检测模型根据多维度特征信息,预测待测资料数据的质量为各质量属性的概率;并根据待测资料数据的质量为各质量属性的概率,确定待测资料数据的质量。
可选地,处理器40b还用于:在将多维度特征信息输入质量检测模型之前,获取质量属性已知的资料数据样本,质量属性已知的资料数据样本包括:已知质量合格和已知质量不合格的资料数据样本;对资料数据样本进行特征提取,以确定采集资料数据样本的第二数据采集设备的多维度特征信息;以损失函数最小化为训练目标,利用第二数据采集设备的多维度特征信息对预设的分类模型进行训练,以得到质量检测模型;其中,损失函数是根据分类模型训练输出的资料数据样本的质量为各质量属性的概率及资料数据样本的质量属性真值确定的。
可选地,分类模型为GBDT模型。处理器40b还用于:根据第二数据采集设备的多维度特征信息,构建代表资料数据样本的质量属性的M棵子决策树,以生成GBDT模型,作为分类模型;其中,M≥2,且为整数;每棵子决策树代表一种质量属性。
可选地,处理器40b在获取质量属性已知的资料数据样本时,具体用于:获取待使用的资料数据样本;对待使用的资料数据样本进行特征提取,以确定采集待使用的资料数据样本的第三数据采集设备的多维度特征信息;判断第三数据采集设备的多维度特征信息是否满足设定的质量规则要求;并确定满足质量规则要求的资料数据样本为已知质量合格的资料数据样本;以及,确定不满足质量规则要求的资料数据样本为已知质量不合格的资料数据样本。
可选地,处理器40b还用于:以确定出质量属性的待测资料数据为新的训练样本,对质量检测模型进行优化训练,以得到新的质量检测模型;并利用新的质量检测模型,对新的待测资料数据进行质量检测。
可选地,处理器40b还用于:根据质量合格的待测资料数据,制作电子地图。
在本申请一些实施例中,计算机设备可为服务端设备。相应地,处理器40b还用于:响应于调用目标服务的请求,确定目标服务对应的处理资源;利用目标服务对应的处理资源执行以下步骤:获取待测资料数据;对待测资料数据进行特征提取,以确定采集待测资料数据的第一数据采集设备的多维度特征信息;并根据第一数据采集设备的多维度特征信息,对待测资料数据进行质量检测,以确定待测资料数据的质量。
其中,关于处理器40b利用目标服务对应的处理资源执行的步骤可参见上述实施例中处理器40b的相关描述,在此不再赘述。
在一些可选实施方式中,如图4所示,该计算机设备还可以包括:通信组件40c、电源组件40d等组件。在一些实施例中,计算机设备可实现为电脑等终端设备,还可包括:显示组件40e和音频组件40f等组件。图4中仅示意性给出部分组件,并不意味着计算机设备必须包含图4所示全部组件,也不意味着计算机设备只能包括图4所示组件。
本实施例提供的计算机设备,针对质量未知的待测资料数据,可对待测资料数据进行特征提取,以确定采集待测资料数据的数据采集设备的多维度特征信息;并根据数据采集设备的多维度特征信息,对待测资料数据进行质量检测,确定待测资料数据的质量实现了对资料数据质量的自动化检测,而且利用数据采集设备的多维度特征信息,对待测资料数据进行质量检测,对待测资料数据的来源无要求,可对不同来源的资料数据进行自动化质量检测。
在本申请实施例中,存储器用于存储计算机程序,并可被配置为存储其它各种数据以支持在其所在设备上的操作。其中,处理器可执行存储器中存储的计算机程序,以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请实施例中,处理器可以为任意可执行上述方法逻辑的硬件处理设备。可选地,处理器可以为中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU)或微控制单元(Microcontroller Unit,MCU);也可以为现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程阵列逻辑器件(ProgrammableArray Logic,PAL)、通用阵列逻辑器件(General Array Logic,GAL)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)等可编程器件;或者为先进精简指令集(RISC)处理器(Advanced RISC Machines,ARM)或系统芯片(System on Chip,SOC)等等,但不限于此。
在本申请实施例中,通信组件被配置为便于其所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,4G,5G或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。
在本申请实施例中,显示组件可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示组件包括触摸面板,显示组件可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
在本申请实施例中,电源组件被配置为其所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
在本申请实施例中,音频组件可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。例如,对于具有语言交互功能的设备,可通过音频组件实现与用户的语音交互等。
需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其中,包括:
获取待测资料数据;
对所述待测资料数据进行特征提取,以确定采集所述待测资料数据的第一数据采集设备的多维度特征信息;所述第一数据采集设备的多维度特征信息是指所述第一数据采集设备在采集所述待测资料数据过程中关联的特征信息;
根据所述第一数据采集设备的多维度特征信息,对所述待测资料数据进行质量检测,以确定所述待测资料数据的质量。
2.根据权利要求1所述的方法,其中,所述对所述待测资料数据进行特征提取,以确定采集所述待测资料数据的第一数据采集设备的多维度特征信息,包括以下方式中的至少两种方式:
从所述待测资料数据中,获取所述第一数据采集设备的运动学参数信息,作为所述多维度特征信息中的一种;
根据所述待测资料数据记录的所述第一数据采集设备所在车道线的地理位置信息,计算所述第一数据采集设备所在车道线的几何特征,作为所述多维度特征信息中的一种;
根据所述待测资料数据记录的所述第一数据采集设备的轨迹信息,计算所述第一数据采集设备的轨迹的几何特征;根据所述车道线的几何特征及所述第一数据采集设备的轨迹的几何特征,计算所述第一数据采集设备的轨迹与所述车道线的角度一致性,作为所述多维度特征信息中的一种。
3.根据权利要求1所述的方法,其中,所述根据所述多维度特征信息,对所述待测资料数据进行质量检测,以确定所述待测资料数据的质量,包括:
将所述多维度特征信息输入质量检测模型;
所述质量检测模型根据所述多维度特征信息,预测所述待测资料数据的质量为各质量属性的概率;
根据所述待测资料数据的质量为各质量属性的概率,确定所述待测资料数据的质量。
4.根据权利要求3所述的方法,其中,在将所述多维度特征信息输入质量检测模型之前,还包括:
获取质量属性已知的资料数据样本,所述质量属性已知的资料数据样本包括:已知质量合格和已知质量不合格的资料数据样本;
对所述资料数据样本进行特征提取,以确定采集所述资料数据样本的第二数据采集设备的多维度特征信息;
以损失函数最小化为训练目标,利用所述第二数据采集设备的多维度特征信息对预设的分类模型进行训练,以得到所述质量检测模型;
其中,所述损失函数是根据所述分类模型训练输出的所述资料数据样本的质量为各质量属性的概率及所述资料数据样本的质量属性真值确定的。
5.根据权利要求4所述的方法,其中,所述分类模型为GBDT模型;所述方法还包括:
根据所述第二数据采集设备的多维度特征信息,构建代表资料数据样本的质量属性的M棵子决策树,以生成GBDT模型,作为所述分类模型;
其中,M≥2,且为整数;每棵子决策树代表一种质量属性。
6.根据权利要求4所述的方法,其中,所述获取质量属性已知的资料数据样本,包括:
获取待使用的资料数据样本;
对所述待使用的资料数据样本进行特征提取,以确定采集所述待使用的资料数据样本的第三数据采集设备的多维度特征信息;
判断所述第三数据采集设备的多维度特征信息是否满足设定的质量规则要求;
确定满足所述质量规则要求的资料数据样本为所述已知质量合格的资料数据样本;
确定不满足所述质量规则要求的资料数据样本为所述已知质量不合格的资料数据样本。
7.根据权利要求3所述的方法,其中,还包括:
以确定出质量属性的待测资料数据为新的训练样本,对所述质量检测模型进行优化训练,以得到新的质量检测模型;
利用所述新的质量检测模型,对新的待测资料数据进行质量检测。
8.根据权利要求1-7任一项所述的方法,其中,还包括:
根据质量合格的待测资料数据,制作电子地图。
9.一种数据处理方法,其中,包括:
响应于调用目标服务的请求,确定所述目标服务对应的处理资源;
利用所述目标服务对应的处理资源执行权利要求1-8任一项所述方法中的步骤。
10.一种计算机程序产品,其中,包括:计算机程序;当计算机程序被处理器执行时可实现权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096170.9A CN114510468A (zh) | 2022-01-26 | 2022-01-26 | 数据处理方法及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096170.9A CN114510468A (zh) | 2022-01-26 | 2022-01-26 | 数据处理方法及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510468A true CN114510468A (zh) | 2022-05-17 |
Family
ID=81549271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210096170.9A Pending CN114510468A (zh) | 2022-01-26 | 2022-01-26 | 数据处理方法及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
-
2022
- 2022-01-26 CN CN202210096170.9A patent/CN114510468A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115098671B (zh) * | 2022-08-25 | 2023-02-03 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200394416A1 (en) | Method and apparatus for training feature extraction model, computer device, and computer-readable storage medium | |
WO2020087974A1 (zh) | 生成模型的方法和装置 | |
CN108520220B (zh) | 模型生成方法和装置 | |
CN109376267B (zh) | 用于生成模型的方法和装置 | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
US11704554B2 (en) | Automated training data extraction method for dynamic models for autonomous driving vehicles | |
CN112200296B (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
CN110956255A (zh) | 难样本挖掘方法、装置、电子设备及计算机可读存储介质 | |
CN113469118B (zh) | 多目标行人跟踪方法及装置、电子设备、存储介质 | |
CN114510468A (zh) | 数据处理方法及计算机程序产品 | |
CN110287817B (zh) | 目标识别及目标识别模型的训练方法、装置和电子设备 | |
CN112037223A (zh) | 图像缺陷检测方法、装置及电子设备 | |
CN116823793A (zh) | 设备缺陷检测方法、装置、电子设备和可读存储介质 | |
Xin et al. | Sustainable road pothole detection: a crowdsourcing based multi-sensors fusion approach | |
CN116861370B (zh) | 用于井下防爆胶轮车的运动数据处理方法 | |
CN113140012A (zh) | 图像处理方法、装置、介质及电子设备 | |
US20210319544A1 (en) | Systems and methods for automatic defect recognition | |
CN115061386B (zh) | 智能驾驶的自动化仿真测试系统及相关设备 | |
CN113758492A (zh) | 地图检测方法和装置 | |
CN113255819B (zh) | 用于识别信息的方法和装置 | |
CN111832354A (zh) | 目标对象年龄识别方法、装置及电子设备 | |
CN109919293A (zh) | 一种危险驾驶判定方法及装置 | |
CN114741047A (zh) | 一种音量调节方法及音量调节系统 | |
CN114168657A (zh) | 风电功率异常数据实时检测方法、系统、设备及介质 | |
CN113822293A (zh) | 用于图数据的模型处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |