CN117131348A - 基于差分卷积特征的数据质量分析方法及系统 - Google Patents
基于差分卷积特征的数据质量分析方法及系统 Download PDFInfo
- Publication number
- CN117131348A CN117131348A CN202311402404.9A CN202311402404A CN117131348A CN 117131348 A CN117131348 A CN 117131348A CN 202311402404 A CN202311402404 A CN 202311402404A CN 117131348 A CN117131348 A CN 117131348A
- Authority
- CN
- China
- Prior art keywords
- data
- convolution
- data quality
- differential
- quality analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000004913 activation Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000009191 jumping Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000013441 quality evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于差分卷积特征的数据质量分析方法及系统,该方法包括步骤:获取初始数据,所述初始数据包括时间序列数据以及图像数据;对所述初始数据进行预处理,以获得输入数据;利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值;利用APReLu激活函数进行非线性激活;将局部特征值与所述输入数据进行跳跃连接;将局部特征值与所述输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道;构建并优化数据质量分析模型;获取一测试数据,并输入至所述数据质量分析模型,以获得对应的数据质量,以解决成本较高、效率较低、缺乏通用性和适应性的技术问题。
Description
技术领域
本申请涉及数据分析和数据质量管理技术领域,具体涉及一种基于差分卷积特征的数据质量分析方法及系统。
背景技术
在当今信息时代,数据已经成为各个领域的核心资源,对于组织和企业来说,准确、完整、一致和可靠的数据是做出正确决策和实现业务目标的基础。然而,由于数据的复杂性和多样性,数据质量问题成为制约数据价值和应用的重要因素。数据质量问题包括数据缺失、错误、冗余、不一致等,这些问题会导致数据分析的准确性降低、决策的错误性和业务的延误。为了解决数据质量问题,研究人员和工程师提出了许多数据质量分析方法和工具。
传统的数据质量分析方法主要基于统计学和规则检测,通过对数据进行统计分析和规则检测,来评估数据的准确性、完整性和一致性。然而,这些方法在处理复杂的数据类型和数据规模时存在一定的局限性,无法有效地发现数据中的模式和规律。
近年来,随着深度学习和人工智能技术的发展,基于特征提取和模式识别的数据质量分析方法得到了广泛关注。特征提取是指从原始数据中提取有用的特征,用于表示数据的特点和属性。模式识别是指通过对数据进行分析和学习,发现数据中的模式和规律。这些方法通过利用机器学习和深度学习算法,可以自动地从数据中提取特征和发现模式,具有较高的准确性和可靠性。
然而,现有的基于特征提取和模式识别的数据质量分析方法仍然存在一些问题。首先,这些方法往往需要大量的标注数据和人工干预,导致成本较高和效率较低。其次,这些方法对于不同类型的数据和复杂的数据结构缺乏通用性和适应性。最后,这些方法在处理大规模数据和实时数据时存在一定的困难,无法满足实际应用的需求。
发明内容
本申请提供一种基于差分卷积特征的数据质量分析方法及系统,现有的方法成本较高和效率较低,并且对于不同类型的数据和复杂的数据结构缺乏通用性和适应性的技术问题。
本申请提供一种基于差分卷积特征的数据质量分析方法,包括步骤:
获取初始数据,所述初始数据包括时间序列数据以及图像数据;
对所述初始数据进行预处理,以获得输入数据;
利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值;
利用APReLu激活函数进行非线性激活;
将局部特征图与所述输入数据进行跳跃连接;
将局部特征图与所述输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道;
构建并优化数据质量分析模型;
获取一测试数据,并输入至所述数据质量分析模型,以获得对应的数据质量。
可选的,在所述对所述初始数据进行预处理,以获得输入数据的步骤之中,包括步骤:
使用初始数据的均值填充缺失值;
检测并删除数据中的重复记录;
对数据清洗后的数据进行归一化处理。
可选的,在所述利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值的步骤之中,包括步骤:
定义一组卷积核函数,其中每个卷积核函数是一个窗口,并能够在差分序列上进行滑动计算;
将卷积核函数与差分序列进行逐点乘积,并将乘积结果进行求和处理;
将卷积后的结构作为新的特征值,并表示差分序列中的局部特征和模式;
通过滑动窗口的方式将卷积核函数在差分序列上进行滑动,计算每个窗口的卷积操作结果,并获得一系列局部特征图,所述局部特征图包括水平方向以及垂直方向上的边缘特征图;
其中,表示针对第个样本卷积之后的输出值,表示输入序列的第()个元素,表示卷积核函数的第F个权重,F表示卷积核函数的大小,c表示偏置
项。
可选的,在所述利用APReLu激活函数进行非线性激活的步骤之中,
将APReLu激活函数拆分为max函数和min函数两个部分:
APReLu(x) = max(0, x) + a * (-min(0, -x))
其中,x表示特征向量,a表示自适应参数;
APReLu函数的公式:
APReLu(x) = x (x > 0)
APReLu(x) = -a * x (x ≤ 0)
其中,x表示特征向量,a表示自适应参数,a的取值范围通常是[-1, 1]。
可选的,在所述将局部特征图与所述输入数据进行跳跃连接的步骤之中,输出特征表示为:
Output = APReLu(x) + x
其中,x表示特征向量,即卷积层的输入特征,APReLu(x)表示经过APReLu操作后的特征,Output表示跳跃连接的输出特征。
可选的,将局部特征图与输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道的步骤之后,还包括步骤:
利用分类层FC对经过卷积操作后得到的特征进行质量评价。
可选的,所述利用分类层FC对经过卷积操作后得到的特征进行质量评价的步骤之中,包括步骤:
将输出通道输出的特征通过全局池化操作将特征转化为特征向量;
将转换后的特征输入到分类器中,用于将样本特征映射到各个质量分析类别上;
通过学习样本特征与类别之间的关系,分类器计算每个类别的概率估计;
根据每个类别的概率估计,可以对数据质量样本的分类结果进行评估和判断。
可选的,在所述通过学习样本特征与类别之间的关系,分类器计算每个类别的概率估计的步骤之中,
将样本特征的集合转化为n维度的概率向量,得到其概率函数为:
其中,表示数据样本集合中的第i个样本,代表第i个样本的数据质量分类标
签,表示模型的学习参数,n表示维度,且,的作用是把概率归一化并
使得概率总和为1,G表示当前函数的定义域范围,R表示实数的集合。
可选的,在所述构建并优化数据质量分析模型的步骤之中,所述数据质量分析模型的训练步骤包括:
利用交叉熵损失函数训练数据质量分析模型,交叉熵损失函数为:
其中,表示当,为1,否则为0;L()表示损失函数,表示模型的学习
参数,m表示样本数量,n表示维度,即实际的数据质量分类标签的类别,其中,表示数据样
本集合中的第i个样本,表示第i个样本的数据质量分类标签,j为实际的数据质量分类标
签;
通过反向传播算法计算损失函数对参数的梯度,并使用梯度下降优化算法来更
新参数;
通过不断迭代训练样本和调整参数,使损失函数减小。
相应的,本申请还提供一种基于差分卷积特征的数据质量分析系统,其包括存储器以及处理器,存储器用于存储可执行程序代码;处理器连接至所述存储器,通过读取所述可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以执行前述任一项中的基于差分卷积特征的数据质量分析方法的步骤。
本申请提供一种基于差分卷积特征的数据质量分析方法及系统,该方法不需要大量的标注数据和人工干预,可以自动地从数据中提取特征和发现模式,降低成本和提高效率;同时可以处理大规模数据和实时数据,满足实际应用的需求。
申请引入了差分卷积特征的计算,可以更全面地分析数据的质量情况。通过计算特征层之间的差异,可以捕捉到数据中的细微变化和异常模式,提高了数据质量分析的准确性。通过差分卷积特征的计算,可以有效地捕捉到数据中的异常模式和变化情况。
本申请的方法通过卷积操作和跳跃连接的结合,可以提取数据的多尺度和多方向特征,这有助于发现数据中的关键特征和模式,为后续的数据分析和建模提供更准确和有力的特征表示。
本申请引入了APReLu激活函数和跳跃连接等技术,可以增强模型的表示能力和稳定性。APReLu激活函数可以有效地抑制负值,提高特征的稀疏性和表达能力;跳跃连接可以在不同层之间传递和融合信息,增强模型的稳定性。这有助于提高模型的鲁棒性和泛化能力,使其在不同数据集和场景下都能取得良好的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的基于差分卷积特征的数据质量分析方法的流程示意图;
图2是本申请提供的基于差分卷积特征的数据质量分析方法中步骤S700的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。此外,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请,并不用于限制本申请。在本申请中,在未作相反说明的情况下,使用的方位词如“上”、“下”、“左”、“右”通常是指装置实际使用或工作状态下的上、下、左和右,具体为附图中的图面方向。
本申请提供一种基于差分卷积特征的数据质量分析方法及系统,以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对本申请实施例优选顺序的限定。且在以下实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
请参阅图1,本申请提供一种基于差分卷积特征的数据质量分析方法,差分卷积特征是指通过对数据进行差分和卷积操作,提取数据中的变化信息和模式。差分操作可以捕捉数据中的变化趋势和波动情况,而卷积操作可以捕捉数据中的局部特征和模式。通过对差分卷积特征进行分析和评估,可以发现数据质量问题和异常情况,进而进行诊断和修复。
与传统的数据质量分析方法相比,本申请的基于差分卷积特征的数据质量分析方法具有以下优点:该方法不需要大量的标注数据和人工干预,可以自动地从数据中提取特征和发现模式,降低成本和提高效率;同时可以处理大规模数据和实时数据,满足实际应用的需求。
请参阅图1和图2,基于差分卷积特征的数据质量分析方法,具体包括以下步骤:
S100、获取初始数据,所述初始数据包括时间序列数据、图像数据或其他类型的数据;
S200、对所述初始数据进行预处理,以获得输入数据;
对原始输入数据进行预处理,上述预处理步骤包括数据清洗、归一化等操作,以提高数据的可用性和稳定性。
步骤S200具体包括以下步骤:
S210、使用初始数据的均值填充缺失值;
使用数据均值填充缺失值,通过去除异常值,可以提高数据的准确性和一致性,从而提高数据质量。假设特征列为X,缺失值用NaN表示,可以使用以下公式进行填充:X_filled = X.fillna(X.mean()),其中,X_filled是填充后的特征列,X.mean()是特征列X的均值。
S220、检测并删除数据中的重复记录;
检测并删除数据中的重复记录可以避免对数据分析和模型建立造成不必要的干扰,上述重复记录可能是由于数据输入错误或重复采集导致的。
S230、对去重后的数据进行归一化处理;
S300、利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值;
使用卷积操作对输入数据进行特征提取,通过设置不同的卷积核,可以提取不同尺度和方向的特征。
步骤S300具体包括以下步骤:
S310、定义一组卷积核函数,其中每个卷积核函数是一个窗口,并能够在差分序列上进行滑动计算,并且每个卷积核函数都可以捕捉不同的特征信息;
其中,表示针对第个样本卷积之后的输出值,表示输入序列的第()个元素,表示卷积核函数的第F个权重,F表示卷积核函数的大小,c表示偏置
项;
S320、将卷积核函数与差分序列进行逐点乘积,并将乘积结果进行求和处理;
将差分序列和卷积核函数进行卷积操作。卷积操作可以通过将卷积核函数与差分序列进行逐点乘积,并将乘积结果求和得到。
S330、将卷积后的结构作为新的特征值,并表示差分序列中的局部特征和模式;
S340、通过滑动窗口的方式将卷积核函数在差分序列上进行滑动,计算每个窗口的卷积操作结果,并获得一系列局部特征图,所述局部特征图包括水平方向以及垂直方向上的边缘特征图;
由于每个卷积核函数都可以学习不同的特征和模式,因此卷积层可以同时提取多个不同的特征。
传统的数据质量分析方法通常只关注数据的统计特征,而本申请引入了差分卷积特征的计算,可以更全面地分析数据的质量情况。通过计算特征层之间的差异,可以捕捉到数据中的细微变化和异常模式,提高了数据质量分析的准确性。通过差分卷积特征的计算,可以有效地捕捉到数据中的异常模式和变化情况。
S400、利用APReLu激活函数进行非线性激活;
差分卷积模块是一种用于数据质量分析的模块,通过卷积层、自适应参数化修正线性单元APReLu以及跳跃连接组成。
卷积操作后将得到的特征图通过自适应参数化修正线性单元APReLu进行非线性激活。APReLu是一种改进的修正线性单元,它通过自适应参数化的方式对特征进行修正,增强了模型的非线性表达能力。
APReLu激活函数的公式推导过程:
将APReLu函数拆分为max函数和min函数两个部分:
APReLu(x) = max(0, x) + a * (-min(0, -x))
其中,x表示特征向量,a表示自适应参数;
APReLu函数是一种激活函数,当输入大于等于0的时候,直接返回输入值;当输入小于0的时候,返回输入值乘以一个负斜率因子a。具体来说,其中,max(0, x)表示取x和0中的较大值,即当x大于等于0时,返回x;min(0, -x)表示取-(-x)和0中的较大值,即当x小于0时,返回-x;a是负斜率因子,用于控制x小于0时的斜率。这样,APReLu函数在输入大于等于0时保持线性增长,而在输入小于0时具有一定的非线性特性。
接下来,对APReLu(x)进行分类:
当x > 0时:
max(0, x) = x
min(0, -x) = 0 因此,APReLu(x) = x + a * 0 = x
当x ≤ 0时:
max(0, x) = 0
min(0, -x) = -x 因此,APReLu(x) = 0 + a * (-x) = -a * x
综上所述APReLu函数的公式:
APReLu(x) = x (x > 0)
APReLu(x) = -a * x (x ≤ 0)
其中,x表示特征向量,a表示自适应参数,a的取值范围通常是[-1, 1];
APReLu函数在x大于0时保持不变,而在x小于等于0时对输入特征进行修正。通过引入自适应参数a,APReLu函数可以根据输入特征的不同情况对其进行不同的修正。当a大于0时,负值部分被放大,增强了负值的表达能力;当a小于0时,负值部分被缩小,减弱了负值的表达能力。
a的取值范围通常是[-1, 1],当a大于1时,负值部分会被放大得过于强烈,可能导致网络模型不稳定;当a小于-1时,负值部分会被缩小得过于弱化,可能导致信息丢失。
a的取值可以改变,可以根据输入特征的不同情况选定不同的a值。这样可以使得网络对不同特征的修正能力更加灵活和适应性强。但是需要注意的是,a的取值一经确定后,对于相同的输入特征,a的取值不会改变。所以不是根据选定的不同的a值对输入特征进行不同的修正,而是根据输入特征的不同情况选定不同的a值。
本申请的方法通过卷积操作和跳跃连接的结合,可以提取数据的多尺度和多方向特征,这有助于发现数据中的关键特征和模式,为后续的数据分析和建模提供更准确和有力的特征表示。
S500、将局部特征值与所述输入数据进行跳跃连接;
跳跃连接将卷积层的输入(输入数据)与输出(局部特征值)进行连接,可以在不同层之间传递和融合信息,增强了模块的表示能力和稳定性。
在APReLu函数之后引入跳跃连接可以通过以下公式表示:
Output = APReLu(x) + x
其中,x表示特征向量,即卷积层的输入特征,APReLu(x)表示经过APReLu操作后的特征,Output表示跳跃连接的输出特征。
跳跃连接的作用是将卷积层的输入特征与经过APReLu操作后的特征进行直接相加,实现了输入特征的保留和信息的传递。这样可以增强模型的表示能力和稳定性,避免梯度消失和信息丢失的问题。通过跳跃连接,不同层之间的信息可以进行融合和传递,从而提高了模型的性能和效果。
本申请引入了APReLu激活函数和跳跃连接等技术,可以增强模型的表示能力和稳定性。APReLu激活函数可以有效地抑制负值,提高特征的稀疏性和表达能力;跳跃连接可以在不同层之间传递和融合信息,增强模型的稳定性。这有助于提高模型的鲁棒性和泛化能力,使其在不同数据集和场景下都能取得良好的效果。
S600、将局部特征图与所述输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道;
将卷积层的输出特征图与原始输入数据进行差分计算,得到特征层之间的差异,可以用以下公式表示:
H = G - F
其中,H表示特征层之间的差异,G表示卷积层的输出特征图,F表示原始输入数据。
通过将卷积层的输出特征图与原始输入数据进行差分计算,可以得到特征层之间的差异,从而获得数据的变化情况和质量信息,能够提高数据质量分析准确性。
S700、利用分类层FC对经过卷积操作后得到的特征进行质量评价;
分类层FC通过对经过卷积操作后得到的特征进行质量评价,能够帮助判断数据的质量水平,并提供有关数据的可信度和可用性的信息。
分类层将卷积操作得到的特征映射到特定的类别或标签上,这些类别或标签与数据的质量等级相关联。通过学习特征与类别之间的关系,分类层能够将数据的特征与其质量进行关联,从而实现对数据质量的评价。分类层通过对特征进行评估和判断,能够确定数据的质量水平。
分类层会根据特征的权重和阈值来进行分类决策,输出最有可能的类别或标签。这些类别或标签可以表示数据的质量等级,如高质量、中等质量、低质量等。通过分类层的评估结果,可以对数据的质量进行量化和分析。
以下是分类层的公式推导:
假设质量评价标签y的取值范围被限定为大于等于2。训练样本集合中已经有n个样本被标记了这个范围内的标签,表示为:
其中:表示数据样本集合, 代表数据质量分类标签。
步骤S700的具体步骤如下:
S710、将输出通道输出的特征通过全局池化操作将特征转化为特征向量;
通过差分卷积提取到的特征通过全局池化操作将特征转化为特征向量。
S720、将转换后的特征输入到分类器中,用于将样本特征映射到各个质量分析类别上;
S730、通过学习样本特征与类别之间的关系,分类器计算每个类别的概率估计;
其中,j表示实际的数据质量分类标签。
将该样本数据的集合转化为n维度的概率向量,得到其概率函数为:
其中:表示数据样本集合中的第i个样本, 代表第i个样本的数据质量分类标
签,表示模型的学习参数,且,的作用是把概率归一化并使得概率总
和为1,G表示当前函数的定义域范围, R表示实数的集合。
S740、根据每个类别的概率估计,可以对数据质量样本的分类结果进行评估和判断;
S800、构建并优化数据质量分析模型;
在模型的学习过程中,通过调整参数来最小化损失函数。损失函数的设计旨在衡
量模型预测结果与真实标签之间的差异。
数据质量分析模型的训练步骤包括:
利用交叉熵损失函数训练数据质量分析模型,交叉熵损失函数为:
其中:表示当,为1,否则为0;L()表示损失函数,表示模型的学习
参数,m表示样本数量,n表示维度,即实际的数据质量分类标签的类别,其中,表示数据样
本集合中的第i个样本,表示第i个样本的数据质量分类标签,j为实际的数据质量分类标
签;
通过反向传播算法计算损失函数对参数的梯度,并使用梯度下降优化算法来更
新参数;
通过不断迭代训练样本和调整参数,使损失函数减小,从而提高模型的性能和准
确率;
S900、获取一测试数据,并输入至所述数据质量分析模型,以获得对应的数据质量。
本申请通过将差分卷积特征的计算方法应用于数据质量分析中,实现了对数据的准确性和质量的评估。通过分析数据的特征层差异,本发明算法能够更精确地判断数据的质量,并提高数据质量分析的准确性。
相比其他模型,本发明在数据质量判别方面表现出了明显的优势,其判别得分高达95.70%;相比其他模型,本发明能够更准确地对数据进行质量分析,这使得本发明算法在实际应用中具有更高的可靠性和准确性。
表1 模型分析表格
数据质量判别模型 | 判别得分 | 模型大小 | 训练时间 |
AlexNet | 61.53% | 217MB | 968.16s |
GoogleNet | 83.09% | 47.1MB | 738.56s |
VGG-16 | 73.80% | 537.2MB | 1561.24s |
ResNet-50 | 73.62% | 94.3MB | 1659.24s |
本发明模型 | 95.70% | 40.2MB | 562.73s |
此外,本发明算法的模型大小为40.2MB,相比其他模型,模型大小更小。这意味着本发明算法在存储和传输方面更加高效,适用于资源受限的环境。同时,本发明算法的训练时间为562.73秒,相比其他模型,训练时间更短。这使得本发明算法能够更快地构建和训练数据质量判别模型。
综上所述,本发明算法通过差分卷积特征的计算方法在数据质量分析中取得了显著的成果。其优势包括更高的判别得分、更小的模型大小和更短的训练时间,从而提高了数据质量分析的准确性、效率和实用性。
本申请还提供一种基于差分卷积特征的数据质量分析系统,其包括存储器以及处理器,存储器用于存储可执行程序代码;处理器连接至所述存储器,通过读取所述可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以执行上述任一项中的基于差分卷积特征的数据质量分析方法的步骤。
以上对本申请提供一种基于差分卷积特征的数据质量分析方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于差分卷积特征的数据质量分析方法,其特征在于,包括步骤:
获取初始数据,所述初始数据包括时间序列数据以及图像数据;
对所述初始数据进行预处理,以获得输入数据;
利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值;
利用APReLu激活函数进行非线性激活;
将局部特征值与所述输入数据进行跳跃连接;
将局部特征值与所述输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道;
构建并优化数据质量分析模型;
获取一测试数据,并输入至所述数据质量分析模型,以获得对应的数据质量。
2.根据权利要求1所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述对所述初始数据进行预处理,以获得输入数据的步骤之中,包括步骤:
使用初始数据的均值填充缺失值;
检测并删除数据中的重复记录;
对数据清洗后的数据进行归一化处理。
3.根据权利要求1所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述利用卷积层将所述输入数据进行滑动窗口计算,并提取局部特征值的步骤之中,包括步骤:
定义一组卷积核函数,其中每个卷积核函数是一个窗口,并能够在差分序列上进行滑动计算;
将卷积核函数与差分序列进行逐点乘积,并将乘积结果进行求和处理;
将卷积后的结构作为新的特征值,并表示差分序列中的局部特征和模式;
通过滑动窗口的方式将卷积核函数在差分序列上进行滑动,计算每个窗口的卷积操作结果,并获得一系列局部特征图,所述局部特征图包括水平方向以及垂直方向上的边缘特征图;
;
;
其中,表示针对第/>个样本卷积之后的输出值,/>表示输入序列的第(/>)个元素,/>表示卷积核函数的第F个权重,F表示卷积核函数的大小,c表示偏置项。
4.根据权利要求1所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述利用APReLu激活函数进行非线性激活的步骤之中,
将APReLu激活函数拆分为max函数和min函数两个部分:
APReLu(x) = max(0, x) + a * (-min(0, -x))
其中,x表示特征向量,a表示自适应参数;
APReLu函数的公式:
APReLu(x) = x (x > 0)
APReLu(x) = -a * x (x ≤ 0)
其中,x表示特征向量,a表示自适应参数,a的取值范围是[-1, 1]。
5.根据权利要求1所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述将局部特征值与所述输入数据进行跳跃连接的步骤之中,输出特征表示为:
Output = APReLu(x) + x
其中,x表示特征向量,APReLu(x)表示经过APReLu操作后的特征,Output表示跳跃连接的输出特征。
6.根据权利要求1所述的基于差分卷积特征的数据质量分析方法,其特征在于,将局部特征值与输入数据进行差分计算特征层之间的差异,并将卷积层输出的局部特征图以及特征层之间的差异分别送入两个输出通道的步骤之后,还包括步骤:
利用分类层FC对经过卷积操作后得到的特征进行质量评价。
7.根据权利要求6所述的基于差分卷积特征的数据质量分析方法,其特征在于,所述利用分类层FC对经过卷积操作后得到的特征进行质量评价的步骤之中,包括步骤:
将输出通道输出的特征通过全局池化操作将特征转化为特征向量;
将转换后的特征输入到分类器中,用于将样本特征映射到各个质量分析类别上;
通过学习样本特征与类别之间的关系,分类器计算每个类别的概率估计;
根据每个类别的概率估计,可以对数据质量样本的分类结果进行评估和判断。
8.根据权利要求7所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述通过学习样本特征与类别之间的关系,分类器计算每个类别的概率估计的步骤之中,
将样本特征的集合转化为n维度的概率向量,得到其概率函数为:
;
其中,表示数据样本集合中的第i个样本,/>代表第i个样本的数据质量分类标签,/>表示模型的学习参数,n表示维度,且/>,/>的作用是把概率归一化并使得概率总和为1,G表示当前函数的定义域范围,R表示实数的集合。
9.根据权利要求8所述的基于差分卷积特征的数据质量分析方法,其特征在于,在所述构建并优化数据质量分析模型的步骤之中,所述数据质量分析模型的训练步骤包括:
利用交叉熵损失函数训练数据质量分析模型,交叉熵损失函数为:
;
其中,表示当/>,为1,否则为0;L(/>)表示损失函数,/>表示模型的学习参数,m表示样本数量,n表示维度,即实际的数据质量分类标签的类别,其中,/>表示数据样本集合中的第i个样本,/>表示第i个样本的数据质量分类标签,j为实际的数据质量分类标签;
通过反向传播算法计算损失函数对参数的梯度,并使用梯度下降优化算法来更新参数/>;
通过不断迭代训练样本和调整参数,使损失函数减小。
10.一种基于差分卷积特征的数据质量分析系统,其特征在于,包括:
存储器,用于存储可执行程序代码;以及
处理器,连接至所述存储器,通过读取所述可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以执行如权利要求1-9中任一项所述的基于差分卷积特征的数据质量分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311402404.9A CN117131348B (zh) | 2023-10-27 | 2023-10-27 | 基于差分卷积特征的数据质量分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311402404.9A CN117131348B (zh) | 2023-10-27 | 2023-10-27 | 基于差分卷积特征的数据质量分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131348A true CN117131348A (zh) | 2023-11-28 |
CN117131348B CN117131348B (zh) | 2024-02-09 |
Family
ID=88856807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311402404.9A Active CN117131348B (zh) | 2023-10-27 | 2023-10-27 | 基于差分卷积特征的数据质量分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131348B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593539A (zh) * | 2024-01-18 | 2024-02-23 | 杭州安脉盛智能技术有限公司 | 一种图像边缘特征提取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472109A (zh) * | 2019-07-30 | 2019-11-19 | 深圳中科保泰科技有限公司 | 动态化数据质量分析方法及平台系统 |
WO2021056969A1 (zh) * | 2019-09-29 | 2021-04-01 | 中国科学院长春光学精密机械与物理研究所 | 超分辨率图像重构方法和装置 |
CN112836809A (zh) * | 2021-03-22 | 2021-05-25 | 济南奔腾时代电力科技有限公司 | 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法 |
CN115272170A (zh) * | 2022-05-31 | 2022-11-01 | 复旦大学 | 基于自适应多尺度Transformer优化的前列腺MRI影像分割方法及系统 |
US20230058076A1 (en) * | 2021-08-18 | 2023-02-23 | Cerebrumx Labs Private Limited | Method and system for auto generating automotive data quality marker |
CN116543168A (zh) * | 2023-03-22 | 2023-08-04 | 西北工业大学太仓长三角研究院 | 一种基于多维度图像信息融合的垃圾图像去噪方法 |
-
2023
- 2023-10-27 CN CN202311402404.9A patent/CN117131348B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472109A (zh) * | 2019-07-30 | 2019-11-19 | 深圳中科保泰科技有限公司 | 动态化数据质量分析方法及平台系统 |
WO2021056969A1 (zh) * | 2019-09-29 | 2021-04-01 | 中国科学院长春光学精密机械与物理研究所 | 超分辨率图像重构方法和装置 |
CN112836809A (zh) * | 2021-03-22 | 2021-05-25 | 济南奔腾时代电力科技有限公司 | 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法 |
US20230058076A1 (en) * | 2021-08-18 | 2023-02-23 | Cerebrumx Labs Private Limited | Method and system for auto generating automotive data quality marker |
CN115272170A (zh) * | 2022-05-31 | 2022-11-01 | 复旦大学 | 基于自适应多尺度Transformer优化的前列腺MRI影像分割方法及系统 |
CN116543168A (zh) * | 2023-03-22 | 2023-08-04 | 西北工业大学太仓长三角研究院 | 一种基于多维度图像信息融合的垃圾图像去噪方法 |
Non-Patent Citations (2)
Title |
---|
MINGHANG ZHAO ET AL.: "Deep Residual Networks With Adaptively Parametric Rectifier Linear Units for Fault Diagnosis", 《IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS》, vol. 68, no. 3, pages 2587 - 2597, XP011821815, DOI: 10.1109/TIE.2020.2972458 * |
万萌;冯新玲;: "基于无监督特征选择和卷积神经网络的图像识别算法", 赤峰学院学报(自然科学版), no. 10, pages 58 - 61 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593539A (zh) * | 2024-01-18 | 2024-02-23 | 杭州安脉盛智能技术有限公司 | 一种图像边缘特征提取方法、装置、设备及存储介质 |
CN117593539B (zh) * | 2024-01-18 | 2024-04-19 | 杭州安脉盛智能技术有限公司 | 一种图像边缘特征提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117131348B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569901B (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN117131348B (zh) | 基于差分卷积特征的数据质量分析方法及系统 | |
CN111242948B (zh) | 图像处理、模型训练方法、装置、设备和存储介质 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
Zhang et al. | Symbol recognition with kernel density matching | |
CN115471670A (zh) | 一种基于改进yolox网络模型的空间目标检测方法 | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN114332075A (zh) | 基于轻量化深度学习模型的结构缺陷快速识别与分类方法 | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN114492755A (zh) | 基于知识蒸馏的目标检测模型压缩方法 | |
WO2024078112A1 (zh) | 一种舾装件智能识别方法、计算机设备 | |
CN113553577A (zh) | 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN111079930A (zh) | 数据集质量参数的确定方法、装置及电子设备 | |
CN114187569A (zh) | 一种皮尔森系数矩阵与注意力融合的实时目标检测方法 | |
CN110728292A (zh) | 一种多任务联合优化下的自适应特征选择算法 | |
CN113657214B (zh) | 一种基于Mask RCNN的建筑损伤评估方法 | |
CN117689880B (zh) | 基于机器学习用于生物医学图像中目标识别的方法及系统 | |
CN116030347B (zh) | 一种基于注意力网络的高分辨率遥感影像建筑物提取方法 | |
CN114842330B (zh) | 一种多尺度背景感知池化弱监督建筑物提取方法 | |
CN114463602B (zh) | 一种基于大数据的目标识别的数据处理方法 | |
Cong et al. | Machine vision-based estimation of body size and weight of pearl gentian grouper | |
CN117115179A (zh) | 一种基于最近邻knn算法的逐帧点云快速实例分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |