CN114358662B - 一种数据质量评估方法、装置、存储介质及电子装置 - Google Patents

一种数据质量评估方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN114358662B
CN114358662B CN202210261092.3A CN202210261092A CN114358662B CN 114358662 B CN114358662 B CN 114358662B CN 202210261092 A CN202210261092 A CN 202210261092A CN 114358662 B CN114358662 B CN 114358662B
Authority
CN
China
Prior art keywords
information
target data
quality
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210261092.3A
Other languages
English (en)
Other versions
CN114358662A (zh
Inventor
彭垚
杨德城
林亦宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shanma Zhijian Technology Co ltd
Original Assignee
Beijing Shanma Zhijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shanma Zhijian Technology Co ltd filed Critical Beijing Shanma Zhijian Technology Co ltd
Priority to CN202210261092.3A priority Critical patent/CN114358662B/zh
Publication of CN114358662A publication Critical patent/CN114358662A/zh
Application granted granted Critical
Publication of CN114358662B publication Critical patent/CN114358662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Analysing Materials By The Use Of Radiation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据质量评估方法、装置、存储介质及电子装置,涉及数据处理技术的技术领域。其方法包括:获取目标数据的初始特征信息以及初始属性信息;对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息;基于所述质量判定信息确定所述目标数据的数据质量。通过本发明,解决了数据质量评估精度低的问题,进而达到了提高数据质量评估精度的效果。

Description

一种数据质量评估方法、装置、存储介质及电子装置
技术领域
本发明实施例涉及数据处理技术领域,具体而言,涉及一种数据质量评估方法、装置、存储介质及电子装置。
背景技术
目前,人工智能数据处理作为重要的辅助工具,已经被广泛应用到各个领域,而为保证人工智能的精确性,对数据的质量一定的要求。
现有的数据质量评估方案主要有两个方向:一种是基于人工特征提取,并通过浅层回归的方法实现数据质量评估的传统方法;一种是基于有监督的训练神经网络实现数据质量评估的深度学习方法。
传统的人工特征提取方法的精度受人为主观意向影响,效率低,准确度难以保证;有监督的深度学习方法需要大量训练数据,前期准备时间长,精度受人为标注准确度的影响;同时由于数据传感等硬件条件的限制,在数据质量评估方面需要尽可能的节省计算资源,从而使得更多的计算资源能应用到检测跟踪上,因而要求数据质量评估不能占用太多资源,这也影响了现有的数据质量评估的精度。
针对上述问题,当前并未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据质量评估方法、装置、存储介质及电子装置,以至少解决相关技术中数据质量评估精度低的问题。
根据本发明的一个实施例,提供了一种数据质量评估方法,包括:
获取目标数据的初始特征信息以及初始属性信息,其中,所述初始特征信息包括所述目标数据的分辨度信息,所述初始属性信息包括所述目标数据的置信度信息;
对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息;
基于所述质量判定信息确定所述目标数据的数据质量。
在一个示例性实施例中,所述基于所述质量判定信息确定所述目标数据的数据质量包括:
获取目标数据的均匀概率分布信息,其中,所述均匀概率分布信息用于指示所述目标数据的质量判定信息的随机分布;
基于所述均匀概率分布信息和所述质量判定信息,确定所述目标数据的相对熵信息,其中,所述相对熵信息包括所述质量判定信息与所述均匀概率分布信息之间的相对熵;
基于所述相对熵信息,确定所述目标数据的数据质量。
在一个示例性实施例中,所述基于所述相对熵信息,确定所述目标数据的数据质量包括:
基于所述相对熵信息以及预设的映射公式,确定所述目标数据的映射距离,其中,所述映射公式为:
Figure DEST_PATH_IMAGE002
式中,所述
Figure DEST_PATH_IMAGE004
为所述映射距离,所述
Figure DEST_PATH_IMAGE006
为所述相对熵信息;
基于所述映射距离,确定所述目标数据的数据质量。
在一个示例性实施例中,所述对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息包括:
通过融合公式,对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息,其中,所述融合公式包括:
Figure DEST_PATH_IMAGE008
式中,所述P用于指示所述质量判定信息,所述Ps用于指示所述置信度信息,所述Ss用于指示所述分辨度信息。
在一个示例性实施例中,所述获取目标数据的初始属性数据包括:
获取所述目标数据的业务场景信息;
基于所述业务场景信息,对初始属性模型进行训练,以得到目标属性模型;
通过所述目标属性模型对所述目标数据进行属性分类处理,以获取所述初始属性数据。
在一个示例性实施例中,所述获取目标数据的初始特征数据包括:
对初始特征模型进行初始化处理,以得到目标特征模型;
通过所述目标特征模型对所述目标数据进行特征中和处理,以获取所述初始特征数据。
根据本发明的另一个实施例,提供了一种数据质量评估装置,包括:
数据采集模块,用于获取目标数据的初始特征信息以及初始属性信息,其中,所述初始特征信息包括所述目标数据的分辨度信息,所述初始属性信息包括所述目标数据的置信度信息;
信息融合模块,用于对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息质量评估模块,用于基于所述质量判定信息确定所述目标数据的数据质量。
在一个示例性实施例中,所述质量评估模块包括:
均匀信息采集单元,用于获取目标数据的均匀概率分布信息,其中,所述均匀概率分布信息用于指示所述目标数据的质量判定信息的随机分布;
相对熵确定单元,用于基于所述均匀概率分布信息和所述质量判定信息,确定所述目标数据的相对熵信息;
数据质量评估单元,用于基于所述相对熵信息,确定所述目标数据的数据质量。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于是通过业务场景信息得到初始属性数据,因而无需采集用于数据评估的相关数据集,减少了资源的占用量,节省了计算资源,使得数据评估的计算资源得到保障,提高了数据评估精度;同时,通过将置信度信息与分辨度信息进行融合,能够精确的确定目标数据的质量判定信息,减少了其它数据的干扰,并能够直观的判断目标数据的质量,因此,可以解决数据评估质量精度低的问题,达到提高数据质量评估精度的效果。
附图说明
图1是本发明实施例的一种数据质量评估方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种数据质量评估方法的流程图;
图3是根据本发明实施例的一种数据质量评估装置的结构框图;
图4是根据本发明具体实施例的结构框图;
图5是根据本发明具体实施例的流程框图;
图6是根据本发明具体实施例的数据特征提取部分的流程框图;
图7是根据本发明具体实施例的数据质量评估部分的流程框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数据质量评估方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种数据质量评估方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种数据质量评估方法,图2是根据本发明实施例的一种数据质量评估方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标数据的初始特征信息以及初始属性信息,其中,初始特征信息包括目标数据的分辨度信息,初始属性信息包括目标数据的置信度信息;
在本实施例中,通过获取初始属性数据,能够避免因专门采集处理数据评估的相关数据集而造成的计算资源紧张的问题,同时,能够减少因识别相关数据集中的数据要求造成的时间消耗,从而提高数据处理效率;另外,根据分辨度信息和置信度信息来评估数据质量能够减少其它因素对评估过程造成的干扰,提高了数据质量评估精度;且这种评估方式相对于数据质量评估任务属于无监督的方式,能够避免质量评估数据集不足以及标准不一致造成的标注质量不高的问题。
其中,目标数据可以是流量数据等通信数据,,也可以是图片数据、视频数据等多媒体数据,还可以是其它类型的数据;在目标数据是通信数据的情况下,目标数据可以是通过通信节点的流量计数器、节点监控设备、网络监控设备等装置监控得到的;在目标数据是多媒体数据的情况下,目标数据可以是通过可见光设备采集得到的,也可以是通过红外设备采集得到的,还可以是通过雷达设备或其它数据采集设备采集得到的,还可以是通过网络爬虫等设备从互联网中抓取采集得到的;初始特征信息除了包括目标数据的分辨度信息,还可以(但不限于)包括目标数据的某个流量节点的质量判定信息,例如,某个网络通信节点的数据失真程度信息,或者目标图像边缘的锐化程度等信息;置信度信息可以(但不限于)指示目标数据经过处理后的置信度,从而能够判断目标数据的处理质量,且置信度信息还可以包括对目标数据进行属性分类处理之后属性分类置信度;特征信息可以(但不限于)是目标数据的IP地址、数据接口、数据属性、类型、或者目标对象的颜色、属性、类型运动方向等信息,活动信息可以(但不限于)是目标数据的收发方、数据收发时间、通信节点数量,或者目标对象的运动状态(运动或静止)、运动方向、运动类型(如车辆/行人过斑马线、车辆轧线、车辆调头、车辆刹车等)、运动时间等信息,对应的,业务场景信息可以是数据的传输位置、传输形式、应用场景,或者车辆的调头、轧线信息,行人的过马路信息等。
需要说明的是,初始特征数据和初始属性数的获取可以是通过预设的深度学习的神经网络模型处理得到的,也可以是通过预设的算法处理得到的,还可以是通过其它方式处理得到的;目标对象可以(但不限于)是车辆、行人、交通灯、斑马线等,也可以是楼房、天桥等建筑物,还可以是飞鸟等动物或其他可移动或静止的事物。
步骤S204,对分辨度信息和置信度信息进行融合处理,以得到目标数据的质量判定信息;
在本实施例中,对分辨度信息和置信度信息进行融合处理,是为了使分辨度信息于置信度信息在同一指定维度进行直观显示,使得质量判定信息能够直观的显示目标数据的分辨度和置信度,从而方便对目标数据的质量进行准确直观的评估。
其中,融合处理可以(但不限于)是对分辨度信息和置信度信息进行卷积融合,也可以是通过神经网络模型进行信息融合,还可以是通过其他方式进行融合;对应的,质量判定信息可以(但不限于)是分辨度信息和置信度信息进行卷积融合后的值,也可以是在分辨度信息和置信度信息进行卷积融合后的值的基础上,对其进行概率分布相对熵计算得到的相对熵,还可以是在相对熵的基础上进行距离映射计算得到的分数值。
需要说明的是,在进行分辨度信息和置信度信息的卷积融合的情况下,分辨度信息和置信度信息的信息维度相同,否则无法进行准确的卷积融合计算。
步骤S206,基于质量判定信息确定目标数据的数据质量。
在本实施例中,在得到质量判定信息之后,可以(但不限于)设置表示数据质量的阈值条件,当质量判定信息满足阈值条件的情况下,则确认目标数据的质量,其中,阈值条件可以是阈值范围,也可以是具体数值。
例如,将质量判定信息小于0.5的数据视为低质量数据,将质量判定信息大于0.5的数据确认为高质量数据。
其中,数据质量的确定可以是通过算法实现的,也可以是通过硬件设备(例如比较器)的电信号处理实现的,还可以是通过其它方式实现的
通过上述步骤,由于预先得到初始属性数据,因而无需采集用于数据评估的相关数据集,减少了资源的占用量,节省了计算资源,使得数据评估的计算资源得到保障,提高了数据评估精度;同时,通过将置信度信息与分辨度信息进行融合,能够精确的确定目标数据的质量判定信息,减少了其它数据的感染,并能够直观的判断目标数据的质量;解决了数据评估质量精度低的问题,提高了数据质量评估精度。
在一个可选的实施例中,基于质量判定信息确定目标数据的数据质量包括:
步骤S2062,获取目标数据的均匀概率分布信息,其中,均匀概率分布信息用于指示目标数据的质量判定信息的随机分布;
步骤S2064,基于均匀概率分布信息和质量判定信息,确定目标数据的相对熵信息,其中,相对熵信息包括质量判定信息与均匀概率分布信息之间的相对熵;
步骤S2066,基于相对熵信息,确定目标数据的数据质量。
在本实施例中,通过计算相对熵信息能够将质量判定信息进行数字化,从而使质量判定信息能够被直观的识别。
其中,均匀概率分布信息可以(但不限于)是随机产生的,也可以是预先设置的,相对熵可以通过如下公式计算得到:
Figure DEST_PATH_IMAGE010
…………(1)
式中,
Figure DEST_PATH_IMAGE012
作为相对熵信息,用来衡量两个概率分布的距离,其中P(i)作为质量判定信息,可以作为质量判定信息输出的概率分布,Q(i)是随机生成的一个和P(i)相同维度的均匀概率分布。
Figure 429104DEST_PATH_IMAGE012
=0时,表示P(i)和Q(i)具有相同的分布(均匀分布),那么说明该评估模型无法明确分布输入数据属于什么类别,从而说明输入数据质量不高;反之,P(i)和Q(i)的距离越大,表示P(i)的分布越尖锐,那么说明模型能够清楚的区分输入数据属于什么类别,从而说明输入数据清晰程度高。
在一个可选的实施例中,基于相对熵信息,确定目标数据的数据质量包括:
步骤S20662,基于相对熵信息以及预设的映射公式,确定目标数据的映射距离,其中,映射公式为:
Figure DEST_PATH_IMAGE013
…………(2)
式中,
Figure DEST_PATH_IMAGE014
为映射距离,
Figure DEST_PATH_IMAGE015
为相对熵信息;
步骤S20664,基于映射距离,确定目标数据的数据质量。
在本实施例中,通过确定映射距离,能够将相对熵信息指示的抽象的映射距离表现为直观的分数,并将距离映射到[0-1]范围内,从而能够直观的判断数据质量,例如,当s趋向0时,表示前述的P(i)和Q(i)的距离越近,说明数据质量不好;反之当s趋向1时,表示P(i)和Q(i)距离越远,说明数据质量较佳。
在一个可选的实施例中,对分辨度信息和置信度信息进行融合处理,以得到目标数据的质量判定信息包括:
步骤S2042,通过融合公式,对分辨度信息和置信度信息进行融合处理,以得到目标数据的质量判定信息,其中,融合公式包括:
Figure DEST_PATH_IMAGE016
…………(3)
式中,P用于指示质量判定信息,Ps用于指示置信度信息,Ss用于指示分辨度信息。
在本实施例中,通过卷积公式对分辨度信息和置信度信息进行融合处理,能够使质量判定信息综合变现数据的属性分类清晰度、属性分类置信度和分辨度清晰度等信息。
其中,当数据清晰时,数据更利于分类,Ps极端分布会更明显,同时Ss的边缘特征锐化明显,所以相同位置的特征数值更极端,卷积相乘后会使得最终P的分布更极端;当数据模糊时,会使得P的分布更加均匀,由此可以根据质量判定信息判断数据的质量。
在一个可选的实施例中,获取目标数据的初始属性数据包括:
步骤S2022,获取目标数据的业务场景信息;
步骤S2024,基于业务场景信息,对初始属性模型进行训练,以得到目标属性模型;
步骤S2026,通过目标属性模型对目标数据进行属性分类处理,以获取初始属性数据。
在本实施例中,通过业务场景信息对属性模型进行训练,则不需要专门采集处理数据评估的相关数据集来训练数据质量评估模型,从而减少了资源的占用量,节省了计算资源,使得数据评估的计算资源得到保障,提高了数据评估精度。
其中,基于业务场景信息对初始属性模型进行训练的过程可以是采集业务场景信息,并对业务场景信息进行维度预处理、过滤等预处理,以提高训练效果;属性分类处理可以(但不限于)包括对目标数据进行数据属性分类以及分类的置信度计算。
需要说明的是,业务场景信息种包含有独赢的活动信息和特征信息,而通过活动信息和特征信息来确定初始属性数据,能够避免因专门采集处理数据评估的相关数据集而造成的计算资源紧张的问题,同时,直接根据活动信息和特征信息进行数据质量评估处理能够减少因识别相关数据集中的数据要求造成的时间消耗,从而提高数据处理效率。
在一个可选的实施例中,获取目标数据的初始特征数据包括:
步骤S2028,对初始特征模型进行初始化处理,以得到目标特征模型;
步骤S20210,通过目标特征模型对目标数据进行特征中和处理,以获取初始特征数据。
在本实施例中,可以设置一个包含两层分类模型的神经网络模型作为特征中和模型来获取分辨度信息等数据,其中,该模型的输出和目标属性模型输出的类别数目相同;且特征中和模型不需要训练,只需要初始化权重参数为1,以减少干扰,避免参数不为1造成的信息丢失,从而保证输出的数据的所包含的信息量不变;然后通过该模型将目标数据片的分辨度和置信度信息映射成和属性分类模型类别数目相同的维度,便于后面做融合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种数据质量评估装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的一种数据质量评估装置的结构框图,如图3所示,该装置包括:
数据采集模块32,用于获取目标数据的初始特征信息以及初始属性信息,其中,所述初始特征信息包括所述目标数据的分辨度信息,所述初始属性信息包括所述目标数据的置信度信息;
信息融合模块34,用于对分辨度信息和置信度信息进行融合处理,以得到目标数据的质量判定信息;
质量评估模块36,用于基于质量判定信息确定目标数据的数据质量。
在一个可选的实施例中,质量评估模块36包括:
均匀信息采集单元362,用于获取目标数据的均匀概率分布信息;
相对熵确定单元364,用于基于均匀概率分布信息和质量判定信息,确定目标数据的相对熵信息,其中,均匀概率分布信息用于指示目标数据的质量判定信息的随机分布;
数据质量评估单元366,用于基于相对熵信息,确定目标数据的数据质量。
在一个示例性实施例中,数据质量评估单元366包括:
映射距离确定子单元3662,用于基于相对熵信息以及预设的映射公式,确定目标数据的映射距离,其中,映射公式为:
Figure DEST_PATH_IMAGE017
式中,
Figure DEST_PATH_IMAGE018
为映射距离,
Figure DEST_PATH_IMAGE019
为相对熵信息;
质量评估子单元3664,用于基于映射距离,确定目标数据的数据质量。
在一个示例性实施例中,信息融合模块34包括:
清晰度确定单元342,用于通过融合公式,对分辨度信息和置信度信息进行融合处理,以得到目标数据的质量判定信息,其中,融合公式包括:
Figure DEST_PATH_IMAGE020
式中,P用于指示所述质量判定信息,Ps用于指示所述置信度信息,Ss用于指示分辨度信息。
在一个示例性实施例中,数据采集模块32包括:
场景信息采集单元322,用于获取目标数据的业务场景信息;
属性训练单元324,用于基于业务场景信息,对初始属性模型进行训练,以得到目标属性模型;
属性采集单元326,用于通过目标属性模型对目标数据进行属性分类处理,以获取初始属性数据。
在一个示例性实施例中,数据采集模块32还包括:
初始化单元328,用于对初始特征模型进行初始化处理,以得到目标特征模型;
中和处理单元3210,用于通过目标特征模型对目标数据进行特征中和处理,以获取初始特征数据。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
下面结合具体实施例对本发明进行说明。
如图4至图7所示,在将本发明应用于图像数据处理时,本发明主要包括3部分,分别是模型训练部分(对应前述步骤S202)、图像特征提取部分(对应前述步骤S204)和图像质量评估部分(对应前述步骤S206)。
其中,对于模型训练部分,主要包括系统模型训练部分,该部分为后续的图像特征提取部分和质量评估部分提供模型。
如图5所示,在模型训练过程中只需根据业务场景的需求(即图像中目标对象的属性信息、行为信息等)训练属性分类等模型,不需要专门采集处理图像评估的相关数据集来训练图像质量评估模型,相对于图像质量评估任务,这种方式特征提取模型是属于无监督的方式得到的。
如图6所示,对于图像特征提取部分,是将目标图像直接输入属性分类模型,并通过属性分类模型进行特征提取,将得到的特征数据作为图像质量评估部分的输入数据。
其中,图6中的特征中和模型是一个两层的用于获取数据分辨度信息的分类模型,其分类输出结果与前述的属性分类模型输出的类别数目均相同,且特征中和模型不需要训练,只需要初始化权重参数为1,以减少干扰,保证信息量不变,然后通过该模型将原始图片的分辨度和边缘清晰度信息映射成和属性分类模型类别数目相同的维度,以便于后面做融合处理。
如图7所示,对于图像质量评估部分,是使用质量评分公式对图像特征提取部分获得的图像特征数据进行相似度计算,如果公式计算出的值越接近1,说明目标图像越清晰,质量越高,反之越接近0,说明目标图像质量越差。
需要说明的是,对于一个有效的业务场景属性分类模型来说,输入一张图片,能得到该图片属于某一类的概率。如果图片清晰可分,那么它数据其中一个类别的概率应该远大于其他类别的概率,如果图片模糊不可分,那么将得到比较均匀的概率分布。
在本发明中,是利用卷积对图像进行处理,其中,卷积的原理就是特征映射,通过初始权重为1的卷积能将原始图片上的分辨度和边缘清晰程度信息映射为指定的维度。
为了进一步表现数据的分辨度模糊特征,结合卷积神经网络特征映射的原理,利用特征中和模型,将原图片的分辨度信息1:1映射到指定维度,再通过矩阵的内积原理将提取的分辨度信息作为系数乘于属性分类模型输出类别的置信度得到最后的模型分类置信度,该置信度就能综合变现数据的分类清晰度和分辨度清晰度。
内积的过程如前述公式(3)所示:
Figure DEST_PATH_IMAGE022
其中,在实际使用时,Ps和Ss分别代表属性分类模型softmax后输出的分类向量(对应于前述的置信度信息)和特征中和模型sigmoid后输出的特征向量(对应于前述的分辨度信息)。内积使得Ps和Ss中对应位置的元素相乘,即相当于将清晰度特征和分类特征融合。
当图像清晰时,图像更利于分类,Ps极端分布会更明显,同时Ss的边缘特征锐化明显,所以相同位置的特征数值更极端,相乘后会使得最终P(对应于前述的质量判定信息)的分布更极端;当图像模糊时同理会是的P的分布更加均匀。
为了使处理结果更加直观,还可以利用随机生成的一个均匀概率分布Q(i)结合KL散度可以将上述内容数字化,如前述公式(1)所示:
Figure DEST_PATH_IMAGE023
KL散度(即
Figure DEST_PATH_IMAGE024
,对应于前述的相对熵信息)用来衡量两个概率分布的距离,其中P(i)(即公式(1)中的P)是模型输出的概率分布(对应于前述的质量判定信息),Q(i)是随机生成的一个和P(i)相同维度的均匀概率分布。
Figure 77736DEST_PATH_IMAGE012
=0时,表示P(i)和Q(i)具有相同的分布(均匀分布),那么说明模型无法明确分布输入图像属于什么类别,从而说明输入图像质量不高;反之,P(i)和Q(i)的距离越大,表示P(i)的分布越尖锐,那么说明模型能够清楚的区分输入图像属于什么类别,从而说明输入图像清晰程度高。
为了将抽象的距离表现为直观的分数,将距离映射到[0-1]范围内的值,映射公式如前述公式(2)所示:
Figure DEST_PATH_IMAGE025
其中,将距离映射到[0-1]范围内,当s(即前述映射距离)趋向0时表示P和Q的距离越近,说明图片质量不好;反之趋向1时表示P和Q距离越远,说明图片质量好。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据质量评估方法,其特征在于,包括:
获取目标数据的初始特征信息以及初始属性信息,其中,所述初始特征信息包括所述目标数据的分辨度信息,所述分辨度信息包括所述目标数据的边缘特征锐化特征,所述初始属性信息包括所述目标数据的置信度信息,所述置信度信息包括所述目标数据经过处理后的极端分布特征,并用于指示目标数据经过处理后的置信度,从而能够判断目标数据的处理质量,所述置信度信息还包括对目标数据进行属性分类处理之后的属性分类置信度;
对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息;基于所述质量判定信息确定所述目标数据的数据质量;
其中,所述基于所述质量判定信息确定所述目标数据的数据质量包括:
基于所述质量判定信息确定所述目标数据的相对熵信息,其中,相对熵信息包括所述质量判定信息与均匀概率分布信息之间的相对熵,所述均匀概率分布信息用于指示所述目标数据的质量判定信息的随机分布;
基于所述相对熵信息以及预设的映射公式,确定所述目标数据的映射距离,其中,所述映射公式为:
Figure FDA0003770138270000011
式中,所述s为所述映射距离,所述DKL(P||Q)为所述相对熵信息;
基于所述映射距离,确定所述目标数据的数据质量。
2.根据权利要求1所述的方法,其特征在于,所述基于所述质量判定信息确定所述目标数据的相对熵信息包括:
获取目标数据的均匀概率分布信息;
基于所述均匀概率分布信息和所述质量判定信息,确定所述目标数据的相对熵信息;
基于所述相对熵信息,确定所述目标数据的数据质量。
3.根据权利要求1所述的方法,其特征在于,所述对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量信息包括:
通过融合公式,对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息,其中,所述融合公式包括:
Figure FDA0003770138270000012
式中,所述P用于指示所述质量判定信息,所述Ps用于指示所述置信度信息,所述Ss用于指示所述分辨度信息。
4.根据权利要求1所述的方法,其特征在于,所述获取目标数据的初始属性数据包括:
获取所述目标数据的业务场景信息;
基于所述业务场景信息,对初始属性模型进行训练,以得到目标属性模型;
通过所述目标属性模型对所述目标数据进行属性分类处理,以获取所述初始属性数据。
5.根据权利要求1所述的方法,其特征在于,所述获取目标数据的初始特征数据包括:
对初始特征模型进行初始化处理,以得到目标特征模型;
通过所述目标特征模型对所述目标数据进行特征中和处理,以获取所述初始特征数据。
6.一种数据质量评估装置,其特征在于,包括:
数据采集模块,用于获取目标数据的初始特征信息以及初始属性信息,其中,所述初始特征信息包括所述目标数据的分辨度信息,所述分辨度信息包括所述目标数据的边缘特征锐化特征,所述初始属性信息包括所述目标数据的置信度信息,所述置信度信息包括所述目标数据经过处理后的极端分布特征,并用于指示目标数据经过处理后的置信度,从而能够判断目标数据的处理质量,所述置信度信息还包括对目标数据进行属性分类处理之后的属性分类置信度;
信息融合模块,用于对所述分辨度信息和所述置信度信息进行融合处理,以得到所述目标数据的质量判定信息;
质量评估模块,用于基于所述质量判定信息确定所述目标数据的数据质量;
数据质量评估模块包括:
信息确定单元,基于所述质量判定信息确定所述目标数据的相对熵信息,其中,相对熵信息包括所述质量判定信息与均匀概率分布信息之间的相对熵,所述均匀概率分布信息用于指示所述目标数据的质量判定信息的随机分布;
映射距离确定子单元,用于基于相对熵信息以及预设的映射公式,确定目标数据的映射距离,其中,映射公式为:
Figure FDA0003770138270000021
式中,S为映射距离,DKL(P||Q)为相对熵信息;
质量评估子单元,用于基于映射距离,确定目标数据的数据质量。
7.根据权利要求6所述的装置,其特征在于,所述质量评估模块包括:
均匀信息采集单元,用于获取目标数据的均匀概率分布信息,其中,所述均匀概率分布信息用于指示所述目标数据的质量判定信息的随机分布;
相对熵确定单元,用于基于所述均匀概率分布信息和所述质量判定信息,确定所述目标数据的相对熵信息;
数据质量评估单元,用于基于所述相对熵信息,确定所述目标数据的数据质量。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
CN202210261092.3A 2022-03-17 2022-03-17 一种数据质量评估方法、装置、存储介质及电子装置 Active CN114358662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210261092.3A CN114358662B (zh) 2022-03-17 2022-03-17 一种数据质量评估方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210261092.3A CN114358662B (zh) 2022-03-17 2022-03-17 一种数据质量评估方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN114358662A CN114358662A (zh) 2022-04-15
CN114358662B true CN114358662B (zh) 2022-09-13

Family

ID=81095010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210261092.3A Active CN114358662B (zh) 2022-03-17 2022-03-17 一种数据质量评估方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN114358662B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034199A (zh) * 2018-06-25 2018-12-18 泰康保险集团股份有限公司 数据处理方法及装置、存储介质和电子设备
CN112766302A (zh) * 2020-12-17 2021-05-07 浙江大华技术股份有限公司 一种图像融合方法、装置、存储介质及电子装置
CN113313021A (zh) * 2021-05-27 2021-08-27 云南电网有限责任公司电力科学研究院 一种基于低质量影像识别的深度学习模型构建方法
CN113762032A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583701B2 (en) * 2009-08-06 2013-11-12 Sap Ag Uniform data model and API for representation and processing of semantic data
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
CN112926639A (zh) * 2021-02-20 2021-06-08 浙江大华技术股份有限公司 一种轨迹跟踪方法、装置、存储介质及电子装置
CN113077018A (zh) * 2021-06-07 2021-07-06 浙江大华技术股份有限公司 一种目标对象识别方法、装置、存储介质及电子装置
CN113936157A (zh) * 2021-10-11 2022-01-14 浙江大华技术股份有限公司 异常信息的处理方法及装置、存储介质、电子装置
CN113870259B (zh) * 2021-12-02 2022-04-01 天津御锦人工智能医疗科技有限公司 多模态医学数据融合的评估方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034199A (zh) * 2018-06-25 2018-12-18 泰康保险集团股份有限公司 数据处理方法及装置、存储介质和电子设备
CN112766302A (zh) * 2020-12-17 2021-05-07 浙江大华技术股份有限公司 一种图像融合方法、装置、存储介质及电子装置
CN113762032A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN113313021A (zh) * 2021-05-27 2021-08-27 云南电网有限责任公司电力科学研究院 一种基于低质量影像识别的深度学习模型构建方法

Also Published As

Publication number Publication date
CN114358662A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN107330731B (zh) 一种识别广告位点击异常的方法和装置
CN111767783A (zh) 行为检测、模型训练方法、装置、电子设备及存储介质
CN111723773B (zh) 遗留物检测方法、装置、电子设备及可读存储介质
CN109934077B (zh) 一种图像识别方法和电子设备
CN112380955B (zh) 动作的识别方法及装置
CN111274926A (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN110348345A (zh) 一种基于动作连贯性的弱监督时序动作定位方法
CN112562330A (zh) 评估道路运行指数的方法和装置、电子设备、存储介质
CN113762229B (zh) 一种建筑场地内建筑器材的智能识别方法及系统
CN114358662B (zh) 一种数据质量评估方法、装置、存储介质及电子装置
CN111178181B (zh) 交通场景分割方法及相关装置
CN115984647B (zh) 面向星群的遥感分布式协同推理方法、装置、介质和卫星
CN116363100A (zh) 图像质量评价方法、装置、设备及存储介质
CN114998570B (zh) 一种对象检测框的确定方法、装置、存储介质及电子装置
CN116030065A (zh) 一种基于图像识别的道路质量检测方法
CN115439692A (zh) 一种图像处理方法、装置、电子设备及介质
CN115115680A (zh) 图像处理方法、装置、设备以及存储介质
CN113537087A (zh) 一种智慧交通信息处理方法、装置及服务器
CN113591767A (zh) 图像识别评估值的确定方法及装置、存储介质、电子装置
CN115375978B (zh) 行为信息的确定方法、装置、存储介质及电子装置
CN115100244B (zh) 一种目标跟踪方法、装置、存储介质及电子装置
Zhang et al. Estimation of atmospheric light based on gaussian distribution
CN115527087B (zh) 行为信息的确定方法、装置、存储介质及电子装置
CN114332706A (zh) 目标事件的确定方法、装置、存储介质及电子装置
CN114779188B (zh) 一种标定效果的评价方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant