CN112926442B - 一种图像目标数据集均衡完备的构建方法 - Google Patents
一种图像目标数据集均衡完备的构建方法 Download PDFInfo
- Publication number
- CN112926442B CN112926442B CN202110205006.2A CN202110205006A CN112926442B CN 112926442 B CN112926442 B CN 112926442B CN 202110205006 A CN202110205006 A CN 202110205006A CN 112926442 B CN112926442 B CN 112926442B
- Authority
- CN
- China
- Prior art keywords
- index
- data
- data set
- chi
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000000546 chi-square test Methods 0.000 claims abstract description 26
- 238000009827 uniform distribution Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种图像目标数据集均衡完备的构建方法,包括步骤:S11.基于数据集评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,并利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度;S12.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,计算比较序列与参考数列的关联系数和关联度,并根据计算得到的关联系数和关联度确定指标权重值;S13.统计待评价数据集的指标数据,计算统计的指标数据对应的卡方值,设定最优方案和最劣方案,并根据步骤S12中确定的指标权重值,比较待评价数据集与最优方案的贴近度;S14.根据贴近度计算整体、局部评价结果,输出最终评价结果。
Description
技术领域
本发明涉及深度学习、计算机视觉和目标识别技术领域,尤其涉及一种图像目标数据集均衡完备的构建方法。
背景技术
随着理论技术的日益成熟,人工智能的浪潮正席卷全球,影响着现代社会的所有人。深度学习作为人工智能关键技术之一,其三大核心要素为:大数据、深度学习的算法设计和高性能的计算平台。其中大数据是当前人工智能发展的基础,在目标识别领域,大数据体现为待识别目标图像样本大数据构成的目标数据集。目标数据集的完整性、均衡性和规模大小直接影响目标识别深度学习网络模型的性能。正是在目标数据集的基础上,基于深度学习的目标识别算法得到了很好的发展,涌现了一大批优秀的算法。
然而在目标数据集构建过程中,受到待识别目标的成像条件、合作/非合作目标、采集条件、成本等诸多因素的影响,目标数据集表现出不均衡且不完备的特征,无法满足实际应用的需要,具体表现为:“训练好的深度网络模型在实验室环境下能够取得很好的目标识别效果,但是在实际应用环境下目标识别效果却极差”。造成这一问题的主要原因是工程应用中供算法训练的数据存在不完备、不均衡的问题。其中目标数据集不完备的问题一般表现为数据量较小,数据冗余程度较高,同时数据不能全面地描述实际场景特点,导致数据无法满足实际工程应用需要。目标数据集不均衡的问题一般为,目标识别算法训练用的数据与实际场景下的测试数据存在一定的差异,数据的目标类别之间也存在不均衡问题。考虑实际场景的特点,数据还存在其他因素的不均衡问题。基于深度学习的算法本身就是以数据为基础,实际工程应用中存在上述数据问题,不可避免地导致算法表现较差。虽然研究人员针对数据集存在的问题开展了一定的研究,从公开数据集构建、数据集不均衡问题、基于深度学习网络的目标类间均衡优化等方面提出了一些方法,但缺少对实际场景下的具体目标数据集构建的均衡性和完备性的关注,无法从根本上解决数据集存在的问题。因此如何从数据层面入手,解决目标识别算法在实际工程应用中效果较差的问题,是当前需要研究的重点。
现有的图像目标数据集均衡完备构建技术主要存在以下两个问题:
1、受到待识别目标的成像条件、合作/非合作目标、采集条件、成本等诸多因素的影响,目标数据集表现出不均衡且不完备的特征,无法满足实际应用的需要,具体表现为:“训练好的深度网络模型在实验室环境下能够取得很好的目标识别效果,但是在实际应用环境下目标识别效果却极差”。
2、工程应用中供算法训练的数据存在不完备、不均衡的问题。其中目标数据集不完备的问题一般表现为数据量较小,数据冗余程度较高,同时数据不能全面地描述实际场景特点,导致数据无法满足实际工程应用需要。
故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种图像目标数据集均衡完备的构建方法,通过分析各项评价指标与目标识别准确率的相关性,进而完成对数据集的综合评价。
为了实现以上目的,本发明采用以下技术方案:
一种图像目标数据集均衡完备的构建方法,包括步骤:
S1.基于数据集评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,并利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度;
S2.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,计算比较序列与参考数列的关联系数和关联度,并根据计算得到的关联系数和关联度确定指标权重值;
S3.统计待评价数据集的指标数据,计算统计的指标数据对应的卡方值,设定最优方案和最劣方案,并根据步骤S2中确定的指标权重值,比较待评价数据集与最优方案的贴近度;
S4.根据贴近度计算整体、局部评价结果,输出最终评价结果。
进一步的,所述步骤S1中基于评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,表示为:
S={Sk|S1,S2,...SK}k=1,2,...,K
其中,K表示数据集总数;S表示K个数据集按各个指标的分级进行统计的统计量集合;
其中,Sk表示第k个数据集按各个指标的分级进行统计的统计量集合,M表示总指标数;表示第k个数据集中第i个指标的统计量集合,表示为:
其中,Iij表示第k个数据集中第i个指标下第j个分级的数量;N表示第i个指标下实际分级数。
进一步的,所述步骤S1中利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度,具体为:
第k个数据集单一指标下各个分级满足均匀分布,表示为:
其中,Ai表示每个分级下的统计量占整体的比例,Ei表示每个分级具有相同概率;
第k个数据集指标统计量经过卡方检验方法的卡方值集合,表示为:
其中,表示第k个数据集指标统计量经过卡方检验方法的卡方值集合。
进一步的,所述步骤S2具体包括:
S21.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,根据灰色关联分析方法,基于数据集评价指标体系比较序列与参考数列的关联性进行分析,并计算关联系数和关联度;
S22.将计算得到的关联度经过归一化处理得到指标权重值。
进一步的,所述步骤S21具体包括:
S211.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,表示为:
Y={y(k)|k=1,2,...,K}
y(k)=Ak k=1,2,...,K
X={xi(k)|i=1,2,...,M;k=1,2,...,K}
其中,Ak表示第k个数据集的识别准确率参考值;表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合;Y表示参考数列,即各个样本数据集的实际识别准确率序列;X表示比较数列,即各个样本数据集中各指标的分级的数据统计量经过卡方检验方法计算后的卡方值集合。
S212.对数据集中的所有数据进行无量纲化处理,表示为:
其中,xi'(k)表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合,xi'(1)表示k个数据集中第1个指标统计量经过卡方检验的卡方值集合;
S213.计算比较数列与参考数列的关联系数,表示为:
Δi(k)=|y(k)-xi(k)|
其中,Δi(k)表示比较数列与参考数列对应元素的绝对差值;
则关联系数计算公式又表示为:
其中,表示关联系数;ρ为分辨系数,ρ∈(0,∞);
S214.计算比较数列与参考数列的关联度,表示为:
r={ri|i=1,2,...,M}
其中,ri表示第i个指标的关联度;r表示比较数列与参考数列的关联度。
进一步的,所述步骤S22中将计算得到的关联度经过归一化处理得到指标权重值,表示为:
其中,ωi表示指标权重值。
进一步的,所述步骤S3具体包括:
S31.统计待评价数据集的指标数据,表示为:
其中,xki表示第k个数据集中第i个指标数据经过计算的卡方值;Dk(x)表示第k个数据集的各指标数据;Xi表示第i个指标在各个数据集中的数据;D表示初始特征矩阵;K表示待评价数据集;M表示评价指标个数;
S32.使用规范化操作对数据进行处理,并根据步骤S2中确定的指标权重值得到权重规范化矩阵,表示为:
其中,V表示权重规范化矩阵;
S33.设定最优方案和最劣方案,表示为:
其中,V+表示最优方案,即为k个数据集中第i个指标数据经过权重规范化后的最大值;
其中,Vi -表示最劣方案,即为k个数据集中第i个指标数据经过权重规范化后的最小值;
S34.计算待评价数据集与最优方案和最劣方案的接近程度,表示为:
其中,表示待评价数据集与最优方案的接近程度;/>表示待评价数据集与最劣方案的接近程度;
S35.计算待评价数据集与最优方案的贴近度,表示为:
其中,Ck表示待评价数据集与最优方案的贴近度。
进一步的,所述步骤S32中还包括:
对特征矩阵中的各个指标值进行规范化处理,表示为:
其中,zki表示第k个数据集中第i个指标值经过规范化处理的数值。
进一步的,所述步骤S32中还包括:
根据确定的指标权重值得到权重规范化后的指标值,表示为:
vki=ωi·zki
其中,vki表示权重规范化后的指标值。
进一步的,所述步骤S4具体包括:
S41.通过设定参考值的方式对贴近度进行划分,获取最终的评价结果;
S42.根据偏离程度和关联度计算局部评价结果,表示为:
λi=χi 2·ri
λi′=τ·ri
其中,λi表示指标偏差因素;λi′表示参考偏差因素;τ表示可接受的最大指标偏离度的卡方值。
与现有技术相比,本发明具有以下有益效果:
1、全面性:本发明综合考虑多种影响因素,通过计算评价指标与准确率参考值的关联度,以及计算待评价数据集与最优方案的贴近度,进而对数据集的整体评价结果和局部评价结果进行计算,得到最终的评价结果。该评价方法能够全面、合理地对数据集进行评价;
2、实用性:本发明以舰船目标识别为实际场景,基于自建舰船目标数据集,对数据集均衡完备评价方法进行实验实现与验证,实验结果从整体和局部的角度验证了数据集均衡完备评价方法的可靠性和实用性。
附图说明
图1是实施例一提供的一种图像目标数据集均衡完备的构建方法流程图;
图2是实施例一提供的一种图像目标数据集均衡完备的构建方法结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种图像目标数据集均衡完备的构建方法。
实施例一
本实施例提供的一种图像目标数据集均衡完备的构建方法,如图1所示,包括步骤:
S11.基于数据集评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,并利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度;
S12.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,计算比较序列与参考数列的关联系数和关联度,并根据计算得到的关联系数和关联度确定指标权重值;
S13.统计待评价数据集的指标数据,计算统计的指标数据对应的卡方值,设定最优方案和最劣方案,并根据步骤S12中确定的指标权重值,比较待评价数据集与最优方案的贴近度;
S14.根据贴近度计算整体、局部评价结果,输出最终评价结果。
如图2所示,步骤S11、S12即为参数计算模块的实现方式;步骤S13为评价计算模块的实现方式;步骤S14为结果输出模块的实现方式。
在步骤S11中,基于数据集评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,并利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度。
具体包括:
S11.基于评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据;
单个目标识别数据集在所设计各个指标下的原始数据,表示为:
S={Sk|S1,S2,...SK}k=1,2,...,K
其中,K表示数据集总数;S表示K个数据集按各个指标的分级进行统计的统计量集合;
其中,Sk表示第k个数据集按各个指标的分级进行统计的统计量集合,M表示总指标数;表示第k个数据集中第i个指标的统计量集合,表示为:
其中,Iij表示第k个数据集中第i个指标下第j个分级的数量;N表示第i个指标下实际分级数。
S12.利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度。
使用卡方分布来计算指标下各个分级的比例分布与均匀分布的偏移程度。以第k个数据集单一指标为例,观察频数Ai为每个分级下的统计量占整体的比例,期望频数Ei为各分级具有相同概率,即该指标下各个分级满足均匀分布。具体计算方法表示为:
其中,Ai表示每个分级下的统计量占整体的比例,Ei表示每个分级具有相同概率;
按照上述方法进行计算后,得到第k个数据集指标统计量经过卡方检验方法的卡方值集合,表示为:
其中,表示第k个数据集指标统计量经过卡方检验方法的卡方值集合。
通过上述方法,可以将初步统计得到的离散型的统计量集合转化为一个卡方值集合,每个指标对应单一的卡方值,既能直观的展示指标的特征,又便于后续的数据计算。
在步骤S12中,将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,计算比较序列与参考数列的关联系数和关联度,并根据计算得到的关联系数和关联度确定指标权重值。
具体包括:
S121.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,根据灰色关联分析方法,基于数据集评价指标体系比较序列与参考数列的关联性进行分析,并计算关联系数和关联度;
在完成将离散型的统计量集合转化为卡方值后,为了达到研究数据集与实际识别准确率关系的目的,以灰色关联分析(Grey Relation Analysis,GRA)方法为基础,基于完备性、均衡性的数据集评价指标体系,通过分析对应指标与识别准确率的关联性,计算关联度。
步骤S121具体包括:
S1211.明确待分析数列。运用GRA方法首先需要明确参考数列和待比较数列,其中参考数列为客观反映系统实际特征的数据序列,比较序列为待研究的,可能对系统产生影响的因素组成的数据序列。参考数列为各个样本数据集的实际识别准确率序列Y,比较数列为各个样本数据集中各指标及其分级的数据统计量经过卡方检验计算后的卡方值集合X,表示为:
Y={y(k)|k=1,2,...,K}
y(k)=Ak k=1,2,...,K
X={xi(k)|i=1,2,...,M;k=1,2,...,K}
其中,Ak表示第k个数据集的识别准确率参考值;表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合;Y表示参考数列,即各个样本数据集的实际识别准确率序列;X表示比较数列,即各个样本数据集中各指标的分级的数据统计量经过卡方检验方法计算后的卡方值集合。
S1212.对数据集中的所有数据进行无量纲化处理;
因为所研究的多种因素实际的意义存在差别,同时同类数据之间的量纲也存在不同点,在比较的时候可能存在一定的问题,因此对所有数据使用无量纲化处理。常用的无量纲化方法有对数据取均值,或对数据取初值等方法。表示为:
其中,xi'(k)表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合,xi'(1)表示k个数据集中第1个指标统计量经过卡方检验的卡方值集合。
S1213.计算比较数列与参考数列的关联系数;
经过无量纲化处理后,需要计算比较数列与参考数列的关联系数,即比较每个指标与实际识别准确率的关联系数。关联系数表示为:
Δi(k)=|y(k)-xi(k)|
其中,Δi(k)表示比较数列与参考数列对应元素的绝对差值;
则关联系数计算公式又表示为:
其中,表示关联系数;ρ为分辨系数,ρ∈(0,∞);根据经验,当ρ≤0.5463时,分辨力最好,本实施例取ρ=0.5。
S1214.计算比较数列与参考数列的关联度;
由于关联系数是反映两个数列中单一元素之间关联程度的具体数值,所以最终得到的关联系数数量与比较数列中元素数量一致,无法整体性的反映指标与准确率的关联性。因此需要将每个指标下的多个关联系数整合为一个值,量化对应因素与参考值的关联程度。这个值称作关联度,通常使用求平均值的方法得到,第i个指标的关联度ri,表示为:
其中,ri表示第i个指标的关联度;
通过GRA的方法,得到了各个指标与准确率的关联度r,表示为:
r={ri|i=1,2,...,M}
其中,r表示比较数列与参考数列的关联度。
S122.将计算得到的关联度经过归一化处理得到指标权重值。表示为:
其中,ωi表示指标权重值。
在步骤S13中,统计待评价数据集的指标数据,计算统计的指标数据对应的卡方值,设定最优方案和最劣方案,并根据步骤S12中确定的指标权重值,比较待评价数据集与最优方案的贴近度。
具体包括:
S131.统计待评价数据集的指标数据;
指标属性同向化。待评价数据集的初始数据为,对于K个待评价数据集,M个评价指标,初始特征矩阵D表示为:
其中,xki表示第k个数据集中第i个指标数据经过计算的卡方值;Dk(x)表示第k个数据集的各指标数据;Xi表示第i个指标在各个数据集中的数据;D表示初始特征矩阵;K表示待评价数据集;M表示评价指标个数;
针对极小型指标,此类指标的期望值越小越好,转化为效益型指标的计算方式:
其中,x为单一数据集单个指标的数据,x′为正向化后的数据,M为x可能取值的最大值。
S132.使用规范化操作对数据进行处理,并根据步骤S12中确定的指标权重值得到权重规范化矩阵;
构造权重规范化矩阵。完成同向化处理后,需要使用规范化操作对数据进行处理,并基于指标的权重得到权重规范化矩阵V。
首先对同向化特征矩阵中的各个指标值进行规范化处理,表示为:
其中,zki表示第k个数据集中第i个指标值经过规范化处理的数值。
结合确定的指标权重值得到权重规范化后的指标值,表示为:
vki=ωi·zki
其中,vki表示权重规范化后的指标值;
最终形成的权重规范化矩阵表示为:
其中,V表示权重规范化矩阵。
S133.设定最优方案和最劣方案;
确定最优方案和最劣方案。完成权重规范化矩阵构建之后,为了对待评价对象进行准确评价,需要确定在当前环境下的最优方案和最劣方案。
一般来说,最优方案V+由矩阵V中每列元素的最大值组成,表示为:
其中,V+表示k个数据集中第i个指标数据经过权重规范化后的最大值;
最劣方案V-由矩阵V中每列元素的最小值组成,表示为:
其中,Vi -表示k个数据集中第i个指标数据经过权重规范化后的最小值。
S134.计算待评价数据集与最优方案和最劣方案的接近程度;
明确最优方案和最劣方案之后,为了对研究对象进行综合评价,就需要计算评价对象与它们的接近程度,通常是通过欧几里得距离进行计算,表示为:
其中,表示待评价数据集与最优方案的接近程度;/>表示待评价数据集与最劣方案的接近程度。
S135.计算待评价数据集与最优方案的贴近度;
为了更直观的反映评价对象的优劣,结合评价对象与最优方案和最劣方案的接近程度计算其与最优方案的贴近程度,表示为:
其中,Ck表示待评价数据集与最优方案的贴近度。
式中可以很明显看到0≤Ck≤1,Ck越接近1说明评价对象越优。当Ck=0时,说明该对象为最劣方案,当Ck=1时,说明该对象为最优方案。
在步骤S14中,据贴近度计算整体、局部评价结果,输出最终评价结果。
具体包括:
S141.通过设定参考值的方式对贴近度进行划分,获取最终的评价结果;
为了直观的展示数据集的优劣,设计了整体评价结果方案H={良好,一般,较差}。
通过设定参考值的方式对贴近度进行划分,获取最终的评价结果。参考值的设定参照了理想解的思路,首先定义数据差值达到0.5倍时,对应指标需要优化,达到1倍时,对应指标急需优化。其中数据差值b的计算方法:
其中d1和d2分别为单一指标下分级的实际统计量。基于此,设定数据集S1′,其各项指标数据差值为0.5倍。数据集S2′,其各项指标的数据差值为1倍。则贴近度划分的参考值θ1′和θ2′分别为数据集S1′和S2′相对最优方案的贴近度。整体评价结果方案如下表1所示:
表1
具体的参考值结果将在实证环境进行求解。在整体评价结果中,“良好”表示该数据集整体较为良好;“一般”表示该数据从各个评价指标来看,有可优化的空间;“较差”表示该数据集从各个评价指标来看,急需改善。此结果用于描述评价对象的整体性优劣,即待评价数据集的优劣表示,为数据集评价提供直观的结果。
S142.根据偏离程度和关联度计算局部评价结果;
对于数据集的评价结果最终需要应用到对数据集的优化上,所以为了能够在完成评价后,对数据集进行具体地优化,结合指偏离程度和关联度的特点,设计了局部评价结果方案——指标偏差因素。
首先定义指标偏差因素λi和参考偏差因素λi′。在实际待评价数据集中,指标i相较于理想值的偏差。参考偏差因素为可接受的最大偏差。二者的具体计算方式,表示为:
λi′=τ·ri
其中,λi表示指标偏差因素;λi′表示参考偏差因素;τ表示可接受的最大指标偏离度的卡方值,可根据实际需要进行设定本文中参照上节参考值的设定,设定为0.1,即数据差值达到1倍时的卡方值。
χ2越大,ri越大,则λi越大,即指标偏离程度越大,同时该指标与识别准确率关联度越大,则该指标的偏差因素越大。那么当λi>λi′时,说明数据集的该指标偏离差较大,需要进行优化。此结果用于反映评价对象的局部性问题,即待评价数据集在完备性、均衡性因素上存在的问题,为数据集优化提供支撑。
与现有技术相比,本实施例具有以下有益效果:
1、全面性:本发明综合考虑多种影响因素,通过计算评价指标与准确率参考值的关联度,以及计算待评价数据集与最优方案的贴近度,进而对数据集的整体评价结果和局部评价结果进行计算,得到最终的评价结果。该评价方法能够全面、合理地对数据集进行评价;
2、实用性:本发明以舰船目标识别为实际场景,基于自建舰船目标数据集,对数据集均衡完备评价方法进行实验实现与验证,实验结果从整体和局部的角度验证了数据集均衡完备评价方法的可靠性和实用性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种图像目标数据集均衡完备的构建方法,其特征在于,包括步骤:
S1.基于数据集评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,并利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度;
S2.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,计算比较序列与参考数列的关联系数和关联度,并根据计算得到的关联系数和关联度确定指标权重值;
S3.统计待评价数据集的指标数据,计算统计的指标数据对应的卡方值,设定最优方案和最劣方案,并根据步骤S2中确定的指标权重值,比较待评价数据集与最优方案的贴近度;
S4.根据贴近度计算整体、局部评价结果,输出最终评价结果;
所述步骤S3具体包括:
S31.统计待评价数据集的指标数据,表示为:
其中,xki表示第k个数据集中第i个指标数据经过计算的卡方值;Dk(x)表示第k个数据集的各指标数据;Xi表示第i个指标在各个数据集中的数据;D表示初始特征矩阵;K表示数据集总数;M表示总指标数;
S32.使用规范化操作对数据进行处理,并根据步骤S2中确定的指标权重值得到权重规范化矩阵,表示为:
其中,V表示权重规范化矩阵;
S33.设定最优方案和最劣方案,表示为:
其中,V+表示最优方案,即为k个数据集中第i个指标数据经过权重规范化后的最大值;
其中,Vi -表示最劣方案,即为k个数据集中第i个指标数据经过权重规范化后的最小值;
S34.计算待评价数据集与最优方案和最劣方案的接近程度,表示为:
其中,表示待评价数据集与最优方案的接近程度;/>表示待评价数据集与最劣方案的接近程度;
S35.计算待评价数据集与最优方案的贴近度,表示为:
其中,Ck表示待评价数据集与最优方案的贴近度;
所述步骤S4具体包括:
S41.通过设定参考值的方式对贴近度进行划分,获取最终的评价结果;
S42.根据偏离程度和关联度计算局部评价结果,表示为:
λi′=τ·ri
其中,λi表示指标偏差因素;λi′表示参考偏差因素;τ表示可接受的最大指标偏离度的卡方值;ri表示第i个指标的关联度。
2.根据权利要求1所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S1中基于评价指标体系中各个指标的分级对多个样本数据集进行统计,得到样本数据集对应的原始数据,表示为:
S={Sk|S1,S2,...SK}k=1,2,...,K
其中,K表示数据集总数;S表示K个数据集按各个指标的分级进行统计的统计量集合;
其中,Sk表示第k个数据集按各个指标的分级进行统计的统计量集合,M表示总指标数;表示第k个数据集中第i个指标的统计量集合,表示为:
其中,Iij表示第k个数据集中第i个指标下第j个分级的数量;N表示第i个指标下实际分级数。
3.根据权利要求2所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S1中利用卡方检验方法确定原始数据与满足均匀分布数据的偏离程度,具体为:
第k个数据集单一指标下各个分级满足均匀分布,表示为:
其中,Ai表示每个分级下的统计量占整体的比例,Ei表示每个分级具有相同概率;
第k个数据集指标统计量经过卡方检验方法的卡方值集合,表示为:
其中,表示第k个数据集指标统计量经过卡方检验方法的卡方值集合。
4.根据权利要求3所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S2具体包括:
S21.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,根据灰色关联分析方法,基于数据集评价指标体系比较序列与参考数列的关联性进行分析,并计算关联系数和关联度;
S22.将计算得到的关联度经过归一化处理得到指标权重值。
5.根据权利要求4所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S21具体包括:
S211.将确定的偏离程度作为比较序列,将实际识别准确率作为参考数列,表示为:
Y={y(k)|k=1,2,...,K}
y(k)=Ak k=1,2,...,K
X={xi(k)|i=1,2,...,M;k=1,2,...,K}
其中,Ak表示第k个数据集的识别准确率参考值;表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合;Y表示参考数列,即各个样本数据集的实际识别准确率序列;X表示比较数列,即各个样本数据集中各指标的分级的数据统计量经过卡方检验方法计算后的卡方值集合;
S212.对数据集中的所有数据进行无量纲化处理,表示为:
其中,xi'(k)表示k个数据集中第i个指标统计量经过卡方检验的卡方值集合,xi'(1)表示k个数据集中第1个指标统计量经过卡方检验的卡方值集合;
S213.计算比较数列与参考数列的关联系数,表示为:
Δi(k)=|y(k)-xi(k)|
其中,Δi(k)表示比较数列与参考数列对应元素的绝对差值;
则关联系数计算公式又表示为:
其中,ξi k表示关联系数;ρ为分辨系数,ρ∈(0,∞);
S214.计算比较数列与参考数列的关联度,表示为:
r={ri|i=1,2,...,M}
其中,ri表示第i个指标的关联度;r表示比较数列与参考数列的关联度。
6.根据权利要求5所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S22中将计算得到的关联度经过归一化处理得到指标权重值,表示为:
其中,ωi表示指标权重值。
7.根据权利要求6所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S32中还包括:
对特征矩阵中的各个指标值进行规范化处理,表示为:
其中,zki表示第k个数据集中第i个指标值经过规范化处理的数值。
8.根据权利要求7所述的一种图像目标数据集均衡完备的构建方法,其特征在于,所述步骤S32中还包括:
根据确定的指标权重值得到权重规范化后的指标值,表示为:
vki=ωi·zki
其中,vki表示权重规范化后的指标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205006.2A CN112926442B (zh) | 2021-02-24 | 2021-02-24 | 一种图像目标数据集均衡完备的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205006.2A CN112926442B (zh) | 2021-02-24 | 2021-02-24 | 一种图像目标数据集均衡完备的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926442A CN112926442A (zh) | 2021-06-08 |
CN112926442B true CN112926442B (zh) | 2024-03-29 |
Family
ID=76170620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110205006.2A Active CN112926442B (zh) | 2021-02-24 | 2021-02-24 | 一种图像目标数据集均衡完备的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926442B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809132A (zh) * | 2016-03-08 | 2016-07-27 | 山东师范大学 | 一种改进的压缩感知人脸识别方法 |
CN108833409A (zh) * | 2018-06-15 | 2018-11-16 | 北京网思科平科技有限公司 | 基于深度学习和半监督学习的webshell检测方法及装置 |
CN109376478A (zh) * | 2018-11-28 | 2019-02-22 | 中铁大桥(南京)桥隧诊治有限公司 | 桥梁健康监测故障数据修复方法及系统 |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
-
2021
- 2021-02-24 CN CN202110205006.2A patent/CN112926442B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809132A (zh) * | 2016-03-08 | 2016-07-27 | 山东师范大学 | 一种改进的压缩感知人脸识别方法 |
CN108833409A (zh) * | 2018-06-15 | 2018-11-16 | 北京网思科平科技有限公司 | 基于深度学习和半监督学习的webshell检测方法及装置 |
CN109376478A (zh) * | 2018-11-28 | 2019-02-22 | 中铁大桥(南京)桥隧诊治有限公司 | 桥梁健康监测故障数据修复方法及系统 |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112926442A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346145B (zh) | 一种病理切片中非常规细胞的识别方法 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN111914090B (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
CN109934278B (zh) | 一种信息增益混合邻域粗糙集的高维度特征选择方法 | |
CN114564982A (zh) | 雷达信号调制类型的自动识别方法 | |
CN110968651A (zh) | 一种基于灰色模糊聚类的数据处理方法及系统 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN115099149A (zh) | 一种基于多重特征对比和随机森林算法的结果预测方法 | |
CN116525075A (zh) | 基于少样本学习的甲状腺结节计算机辅助诊断方法及系统 | |
CN117112852B (zh) | 一种大语言模型驱动的向量数据库检索方法及系统 | |
CN114037001A (zh) | 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法 | |
CN112926442B (zh) | 一种图像目标数据集均衡完备的构建方法 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
CN112528554A (zh) | 一种适于多发多源火箭试验数据的数据融合方法及系统 | |
CN117079017A (zh) | 可信的小样本图像识别分类方法 | |
CN116720095A (zh) | 一种基于遗传算法优化模糊c均值的电特性信号聚类方法 | |
CN116129182A (zh) | 一种基于知识蒸馏和近邻分类的多维度医疗图像分类方法 | |
CN114610941A (zh) | 基于对比学习的文物图像检索系统 | |
CN115858765B (zh) | 一种基于数据对比分析的自动评分的智能考试平台 | |
CN116777292B (zh) | 基于多批次小样本航天产品的缺陷率指标修正方法 | |
CN116701962B (zh) | 边缘数据处理方法、装置、计算设备及存储介质 | |
CN118154985A (zh) | 一种无监督的工业数据分类方法 | |
CN117197095B (zh) | 基于半监督生成对抗分割模型的表面缺陷检测方法和系统 | |
CN116662588B (zh) | 一种海量数据智能搜索方法及系统 | |
CN114529975B (zh) | 一种应用于人脸识别的自适应快速无监督特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |