CN114817668B

CN114817668B - 用于电磁大数据的自动化标注与目标关联方法

Info

Publication number: CN114817668B
Application number: CN202210427427.4A
Authority: CN
Inventors: 杨健; 许鲁彦; 刘杰; 马钰; 鲍雁飞; 房珊瑶
Original assignee: 32802 Troops Of People's Liberation Army Of China
Current assignee: 32802 Troops Of People's Liberation Army Of China
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-10-25
Anticipated expiration: 2042-04-21
Also published as: CN114817668A

Abstract

本发明公开了一种用于电磁大数据的自动化标注与目标关联方法，包括，对目标的特征矩阵进行补全标注，得到补全标注后的矩阵；采用补全方法进行目标特征数据关联。将总特征矩阵A分解为两个矩阵之和，即A＝M+E，M为最优结果矩阵，E为补充矩阵，构建并求解标注补全优化模型，得到最优结果矩阵M。对补全标注后的矩阵的所有行向量，计算其相互之间的相似度；对补全标注后的矩阵的所有行向量按照相似度的数值大小进行聚类，得到与m个监测目标对应的m类数据，从而实现对目标特征数据的关联。本发明采用对元素缺失矩阵的补全的算法，有效解决了对不同的观测平台记录的特征缺失部分进行特征补全标注，方便后续不同平台的对目标的数据挖掘与分析。

Description

用于电磁大数据的自动化标注与目标关联方法

技术领域

本发明所属的技术领域为数据自动化标注与关联领域，尤其涉及一种用于电磁大数据的自动化标注与目标关联方法。

背景技术

随着大数据技术的流行，针对通过各种探测手段获得的对目标的观测记录，在一定时间范围内，在同一个观测区域，会有多个观测目标经过观测区域，而每个目标自身具有多个可观测的特征指标。不同观测平台会对该区域进行目标特征记录，观测平台会根据自身所设置的采样间隔对观测目标的电磁数据进行稀疏采样。而由于观测平台功能的限制性和不同观测平台之间的差异性，对于观测目标的电磁特征，每个平台只能观测记录目标的部分特征。

只有关联多个观测平台的多源特征数据,建立各系统中移动目标的对应关系,才能形成统一的区域目标特征数据，从而为移动目标跟踪、轨迹数据挖掘等提供支持。为了对目标进行有效的数据挖掘与关联分析，将这些通过不同观测平台所记录下的多源异构的数据的准确标注，成为了基础且重要的一步。由于数据量的庞大，通过人工标注的传统方法工作量大、任务繁琐、效率低下。

目前的自动化标注应用的对象大都为图像与文本。图像标注的方法为提取由图像特征所对应的特征向量，匹配标签数据库中的相似数据实现标注。文本的标注则是分析其文本的语义信息来进行匹配标注。目前对于纯数字型的电磁数据自动化标注的研究较少。由于纯数字型电磁数据是某些数据库中的主要存储形式，其自动化标注对于此类数据库的电磁数据挖掘起到了基础且关键的作用。目前有关于数字型数据的自动化标注技术的文献资料较少，大都是以图像和文本为主的标注技术，该类标注技术是将图像或文本信息转为可处理的数字信息，后续的处理则是针对数字型数据的处理。

对于图像自动化标注技术，现有图像自动标注技术算法可以大致划分为基于语义的标注算法、基于矩阵分解的标注算法、基于概率的标注算法以及基于图学习的标注算法等四大类。基于语义的图像自动标注，可以利用WordNet的结构化语义信息衡量词汇之间的关系，选择适合图像内容的语义词汇。基于矩阵分解的图像自动标注的本质是利用低秩性恢复图像与标签之间的对应关系。基于概率的图像自动标注是通过概率统计分析图像特征和图像标签之间的共生概率关系，并以此进行图像的语义标注。基于图学习的图像自动标注将已知标注的训练数据和未知标注的测试数据一起参加图学习。

对于语义自动化标注技术，在自动化语义标注中，自动化本体标注会针对输入的XML、HTML、PDF、TXT、音频、视频等文档数据，输出标注的概念、属性、语义关系的OWL文档数据。调用概念的层次聚类算法、概念关联算法等来识别概念、属性。这些算法及其改进的相关研究很多，如N元模型分析、分类标签匹配、隐马尔科夫模型等。语义的自动化标注技术根据标注方法可以分为基于机器学习类、基于模式类和综合类三种主要类型。基于机器学习的标注方法通过建立语义概念模型，并利用模型将标注结果推广到整个语料库，通过一些机器学习的方法来发现文档模式或规则。基于模式类的语义标注工具主要采用模式发现和规则定义方法。综合类语义标注工具结合了基于机器学习类以及基于模式类两种方法，可以充分利用它们的优势。

现有的数据自动化标注技术大都用于图像与文本的标注，并且大都是利用匹配分析等方法对单个目标进行标注，需要前期通过构建数据库进行匹配，效率较低。且没有考虑到以下情况：

数据信息残缺情况。不同观测平台对于观测目标的侧重点不同，所观测记录到的特征不总是齐全的，不同观测平台只观测到目标的部分特征。由于待标注目标的特征信息的不完备，通过提取特征进行匹配标注的方法则不会有较好的效果。

首次获得的数据量过大的情况。若是数据分析方首次收集到大量的未经标注的电磁数据，这种情况下并不存在数据库，基于数据库进行特征匹配的标注技术则无法标注首次出现的大量的未经处理的原始数据。

发明内容

针对目前自动化标注技术主要用于解决图像及文本标注，而无法完成对于纯数字型电磁数据的自动化标注，以及无法解决目标数据特征不全与短时间标注海量数据的问题，结合大数据的数据挖掘的需求，本发明公开了用于电磁大数据的自动化标注与目标关联方法，本方法根据观测平台所记录的目标特征的特点，即使不同观测平台只能记录的部分目标特征，但同一目标自身特征具有高相似性，对目标进行特征信息的补全标注，并且能够快速将属于同一目标的特征信息进行聚合，实现多源数据的类别标注，解决了目前已有的自动化标注方法的处理方法所存在的局限性、标注时间长的问题。

本发明公开了一种用于电磁大数据的自动化标注与目标关联方法，包括，对目标的特征矩阵进行补全标注，得到补全标注后的矩阵；采用补全方法进行目标特征数据关联。

所述的对目标的特征矩阵进行补全标注，得到补全标注后的矩阵，包括：

数据特征的补全标注是本发明的重要部分，主要解决获得数据的特征信息缺失的情况。只有在进行数据特征补全标注之后，才会对类别标注提供聚类的依据。对数据的基本特征的描述如下所述。

在一定时间范围内，有m个目标经过观测区域，目标自身共具有n个可观测的特征指标。在观测区域内，有l个观测平台对目标进行特征观测和航迹追踪并获得目标特征数据。第i个观测平台的采样点个数为λ_i，i＝1,2,...,l，对第k个目标进行特征观测而获取的目标特征数据所构成的特征矩阵为A_k，其维度为

对所有m个目标进行特征观测而获取的目标特征数据所构成的总特征矩阵为A，其维度为

特征矩阵具有缺失元素。

因为单个平台在观测时无法对目标进行分类，因此，矩阵A可等价为单个目标矩阵A_k列向块拼接后任意做行交换。

A为元素缺失的原始矩阵，为了恢复矩阵A，将总特征矩阵A分解为两个矩阵之和，即A＝M+E，M为最优结果矩阵，E为补充矩阵，将最优结果矩阵M作为补全标注后的矩阵A^est，构建并求解标注补全优化模型，得到最优结果矩阵M。

所述的构建标注补全优化模型，标注补全优化模型的表达式为：

其中，参数μ为惩罚因子，其取值为比较小的正数，

为μ的参照值，P表示集合[m]×[r]，[m]表示集合{1,2,...,m}，[r]表示集合{1,2,…,r}，<,>为求内积的符号，η表示乘法因子，0＜η＜1，|| ||_*表示核范数，P_p为由R^m×r到R^m×r的线性投影算子，R^m×r表示取值为实数的m行r列的矩阵，P_p的投影过程表示为：

其中，A_ij表示总特征矩阵A的第i行、第j列的元素；

所述的求解标注补全优化模型，采用逐次迭代方法求解标注补全优化模型，包括：

S11，通过引入拉格朗日乘子矩阵Z来消除标注补全优化模型的等式约束，构造部分增广拉格朗日函数，其表达式为：

其中，|| ||_F表示F范数。

S12，对标注补全优化模型的参数进行初始化，并逐次迭代计算M，k为迭代的次数，第k+1次迭代后M的取值M_k+1的计算公式为：

当E＝E_k,Z＝Z_k,μ＝μ_k时，

其中，E_k,Z_k,μ_k分别为第k次迭代后E,Z,μ的取值，A_κ表示Shrinkage算子，其表达式为：

其中，κ表示判别阈值，a表示矩阵

中的元素。

计算第k+1次迭代后E的取值E_k+1，其计算公式为：

根据M_k+1和E_k+1更新Z，得到第k+1次迭代后Z的取值Z_k+1，其计算公式为：

Z_k+1＝Z_k+μ_k(A-M_k+1-E_k+1)，

对μ进行更新，得到第k+1次迭代后μ的取值μ_k+1，其计算公式为：

S13，对步骤S12中每次迭代得到的矩阵M进行判别，如果迭代前后的M||_*的比值小于预设阈值，则将该次迭代得到的矩阵M作为最优结果矩阵，并将最优结果矩阵作为补全标注后的矩阵A^est。

通过采用上述方法，可实现在目标特征信息缺失情况下的目标特征的自动化补全标注，解决了现有技术方法无法处理特征信息缺失情况下的标注难题。

通过矩阵补全的方法，解决了待标注数据的特征缺失的问题，可以得到含有m个目标观测和估计补全后的特征信息的矩阵A^est。虽然矩阵A^est补全了多平台观测下的所有目标的特征数据，但属于不同目标的特征向量在行的排列上没有规律性、各目标的特征信息混合在一起，无法对每个目标的类别进行有效自动化标注。因此，采用聚类的方法对矩阵A^est进行关联。

根据上文的分析，rank(A^est)＝m。而对于单个目标，

即相同目标的特征向量具有高度的相关性，而不同目标间特征向量线性无关。因此，采用相关系数为度量，对矩阵A^est的每行向量进行相关系数的计算，相关系数越大，代表该两行特征为同一类别的目标的可能性越大，聚类之后便可对属于同一目标的特征数据进行关联。

所述的采用补全方法进行目标特征数据关联，包括：

S21，对补全标注后的矩阵A^est的所有行向量，计算其相互之间的相似度，第i行和第j行的行向量的相似度的计算公式为：

其中，E(·)代表数学期望，

分别表示矩阵A^est的第i,j行的行向量。

S22，利用步骤S21得到的所有相似度，对补全标注后的矩阵A^est的所有行向量按照相似度的数值大小进行聚类，得到与m个监测目标对应的m类数据，从而实现对目标特征数据的关联。

所述的按照相似度的数值大小进行聚类，采用K-means聚类分析方法。

步骤S22中得到的相似度的个数为

λ_i为A^est的第i个特征值。

通过特征补全标注与聚类的方法，解决了首次接收到大量特征信息缺失的多源数据的特征信息标注与从大量无序的目标数据中进行每一类目标的类别关联的问题。

本发明的有益效果为：

本方法方法运算复杂度低、时间快，利用待标注的电磁数据的低秩分布特点，解决了电磁数据自动化标注的问题。本发明采用对元素缺失矩阵的补全的算法，有效解决了对不同的观测平台记录的特征缺失部分进行特征补全标注，方便后续不同平台的对目标的数据挖掘与分析，通过对目标特征矩阵进行相似度的聚类，可对同一观测目标的不同来源的多源数据进行类别的快速关联。

附图说明

图1为本发明方法的实施流程图；

图2为元素缺失率与均方误差的相关曲线；

图3为信噪比与均方误差的相关曲线(50％特征缺失)；

图4为信噪比与均方误差的相关曲线(70％特征缺失)；

图5为聚类性能评估图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

实施例一

本发明公开了一种用于电磁大数据的自动化标注与目标关联方法，包括，对目标的特征矩阵进行补全标注，得到补全标注后的矩阵；采用补全方法进行目标特征数据关联。图1为本发明方法的实施流程图。

特征矩阵具有缺失元素。

其中，参数μ为惩罚因子，其取值为比较小的正数，

为μ的参照值，P表示集合[m]×[r]，[m]表示集合{1,2,...,m}，[r]表示集合{1,2,…,r}，<,>为求内积的符号，η表示乘法因子，0＜η＜1，||||_*表示核范数，P_p为由R^m×r到R^m×r的线性投影算子，R^m×r表示取值为实数的m行r列的矩阵，P_p的投影过程表示为：

其中，A_ij表示总特征矩阵A的第i行、第j列的元素；

其中，||||_F表示F范数。

当E＝E_k,Z＝Z_k,μ＝μ_k时，

其中，κ表示判别阈值，a表示矩阵

中的元素。

计算第k+1次迭代后E的取值E_k+1，其计算公式为：

Z_k+1＝Z_k+μ_k(A-M_k+1-E_k+1)，

S13，对步骤S12中每次迭代得到的矩阵M进行判别，如果迭代前后的||M||_*的比值小于预设阈值，则将该次迭代得到的矩阵M作为最优结果矩阵，并将最优结果矩阵作为补全标注后的矩阵A^est。

根据上文的分析，rank(A^est)＝m。而对于单个目标，

所述的采用补全方法进行目标特征数据关联，包括：

其中，E(·)代表数学期望，

分别表示矩阵A^est的第i,j行的行向量。

步骤S22中得到的相似度的个数为

λ_i为A^est的第i个特征值。

通过目标特征补全标注算法，能快速将各个观测平台所观测到的目标特征的缺失部分补全，补全效果较为理想。以下是目标特征补全标注算法的验证结果。

对于观测目标，观测得到含有缺失元素的特征矩阵A^miss的阶数为

阶，根据一定的缺失率删除其中元素得到A^miss。

使用特征补全技术中介绍的算法，分别用于恢复平台观测目标得到的含缺失元素的特征矩阵，并检测算法的恢复性能。

将矩阵每一行随机选取若干个元素值(缺失比例为50％)为空(NaN)，代表每个平台对于目标观测特征的不完备的条件，得到处理之后的原始矩阵A、缺失矩阵A^miss及补全矩阵A^est部分元素(前20行10列)。

为更加接近真实情况，假设有10个观测平台，每个平台观测10个不同目标，每个目标拥有50种特征，因此可将矩阵构建为100×50，秩为10的矩阵。将不同平台对于同一目标观测的特征尽可能接近，并对矩阵的行进行乱序处理，以模拟在实际情况中，会出现同一平台对不同目标所观测到的特征结果的储存顺序不同的情况。探究两种算法在对观测矩阵进行补充时，矩阵中缺失元素的比率对于矩阵恢复效果的影响。图2为元素缺失率与均方误差的相关曲线。可以发现，在矩阵元素缺失率在(0.1,0.7)的区间内，算法得到的恢复矩阵与真实矩阵的MSE均小于10^-4数量级，算法的恢复性能均非常良好。

分析信道噪声对恢复性能的影响，当观测信道包含一定程度噪声影响时，信噪比对于矩阵恢复效果的影响。图3为信噪比与均方误差的相关曲线(50％特征缺失)。图4为信噪比与均方误差的相关曲线(70％特征缺失)。可以发现，当观测矩阵的缺失率在安全范围(miss ratio＜0.7)内，且观测的信噪比大于2dB时，用矩阵补全方法进行观测数据补全，恢复矩阵与真实矩阵的MSE基本小于10^-3数量级，恢复效果稳定且有效。

虽然矩阵A^est补全了多平台观测下的所有目标的特征数据，但属于不同目标的特征向量在行的排列上没有规律性，对矩阵A^est进行聚类。

在综合多平台的观测数据，补全缺失的观测值之后，认为属于相同目标的观测特征向量具有高度的相关性。因此，采用基于相关系数的距离，对多个目标进行K-means聚类分析。

在不同的矩阵缺失率情况下，采用两种算法进行矩阵恢复后，进行K-means聚类的性能。以聚类的总体准确率作为评估指标。图5为聚类性能评估图。在矩阵元素缺失率在(0.1,0.7)的区间内，对算法得到的恢复矩阵进行相关系数的聚类分析，在本实验的条件下，分类情况非常好。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。