CN111047052A

CN111047052A - 一种半监督多视角数据集在线学习模型及其设计方法

Info

Publication number: CN111047052A
Application number: CN201911345784.0A
Authority: CN
Inventors: 朱昌明
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-04-21

Abstract

本发明公开了一种半监督多视角数据集在线学习模型及其设计方法，该模型包括：依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块；所述在线学习模型修正模块用于对某一时间段中信息获得修复和增强后的样本，将其在所有视角下的特征根据前后时间段的对比，并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分；针对所划分的三部分特征建立实时优化函数，并进行求解和优化权向量；对下一时间段的保留特征做融合处理，从而得到相应的融合形式。将本发明应用于港口等领域中，能够有效提升在实际场景中处理实时产生的具有可变特征的半监督多视角数据集的能力。

Description

一种半监督多视角数据集在线学习模型及其设计方法

技术领域

本发明涉及多视角学习技术领域，具体涉及一种半监督多视角数据集在线学习模型及其设计方法。

背景技术

在全面打造“智慧城市”的过程中，人们需要处理的数据集往往具有多种表现形式或来源。这类数据集被称为多视角数据集，一种表现形式或来源就是一个视角(如网页数据集中的文本、图像、视频)，而任一视角中所包含的不同种类的信息则被称为特征(如文本视角中的文本颜色、文本大小、文本粗细)。不同于表现形式或来源单一的单视角数据集，由于多视角数据集本身结构相对复杂，所以处理难度更高，一般需要通过基于该类数据集而提出的多视角分类器来解决。另外，就多视角数据集的特征而言，还进一步分为全局特征和局部特征。前者也被称为粗粒度特征，主要用于模糊匹配并描述主要特征信息，如轮廓、颜色等整体信息；后者又被称为细粒度特征，主要用于精细匹配并描述细节信息，如集装箱某一位置的特殊标记、特殊生物对应的光谱谱图上的某处信息等。由于局部特征对样本之间的微小差异更敏感，所以当前多视角分类器在设计时会更多的考虑局部特征。

然而，在海关、港口、交通等领域中，受限于采样技术、人力成本、存储容量等客观因素，会造成处理的多视角数据集呈现特殊化，具体表现为：(1)视角或特征信息缺失：由于采样技术的限制，人们在采集多视角数据集时，会因人为疏忽或采集设备的故障，导致部分采集到的样本在某些视角或特征上信息不全，从而可能导致数据集缺失部分对分类器设计具有重要作用的视角或特征信息。举例而言，用四个摄像头对一个物体进行持续性拍摄并记录下颜色、大小、轮廓等特征信息从而采集数据集(本例中，一个摄像头的采样信息组成一个视角)。因为某一摄像头在某一时间段发生临时性故障无法工作，则该时间段内采集的物体样本就会失去一个视角的信息。若某一摄像头在某一时间段受到电磁干扰，则针对相关视角，该时间段内采集的信息会出现部分特征丢失的情况，如轮廓不清晰，大小信息并没有获得记录等；(2)有标签样本比重过小：由于人力成本的限制，对于大量真实多视角数据集而言，仅有一部分样本事先获得了标记，而大部分参与分类器设计的训练样本没有得到类别标记。通常，获得标记的样本被称为有标签样本，它们可以提供有利于分类器设计的先验知识，而没有标记的样本被称为无标签样本，它们提供的先验知识较少。因此，对于真实多视角数据集而言，由于有标签样本占比较低，导致它们通常具有的有效样本信息较少，而过多的无标签样本又可能干扰分类器设计，从而导致分类器性能受到影响；(3)实时产生且特征可变：随着大数据时代的到来，大量多视角数据集是实时产生的。另外，随着时间的推移，部分陈旧的视角、特征信息会被丢弃，部分重要的信息会始终保留，部分新的信息可能随着业务的需要而增加。但是受限于目前的科技能力，大多数中小型企业和科研院所拥有的存储容量有限，无法保存大规模的实时数据。另外，传统多视角分类器在训练时需要同时考虑所有训练样本，而且无法较好的处理可变特征的情况(此处，视角及每个视角中含有的特征变化统称为可变特征)。因此，实时产生的可变特征多视角数据集并不适合传统分类器。

由于真实场景中，多视角数据集呈现特殊化，从而影响传统分类器的自动工作性能，并被迫需要过多的人工干预，从而降低真实场景中的作业效率。

为处理这些特殊的多视角数据集，人们从传统的多视角分类器设计思想(包含协同训练、多核学习、子空间学习、多矩阵学习、间隔一致性等)转变到特殊多视角分类器设计，并提出了相应的处理方案。

(1)针对缺失视角或特征的多视角数据集：由于人为疏忽或采集设备的故障，人们在收集多视角数据集的时候，会出现一些视角或特征信息的缺失。为了解决此类数据集，相关学者提出了一些解决方案。比如，文献[C.Xu,D.C.Tao,C.Xu,Multi-view learning withincomplete views,IEEE Transactions on Image Processing,2015,24(12):5812-5825.]针对不完整视角的多视角数据集，提出了基于低秩假设矩阵的信息修复算法。文献[Q.Y.Yin,S.Wu,L.Wang,Unified subspace learning for incomplete and unlabeledmulti-view data,Pattern Recognition,2017,67:313-327.]研究保持视角间和视角内的特征相似性算法，提出了基于统一子空间学习的信息修复算法。文献[L.Zhao,Z.K.Chen,Y.Yang,Z.J.Wang,V.C.M.Leung,Incomplete multi-view clustering via deepsemantic mapping,Neurocomputing,2018,275:1053-1062.]提出了基于深度语义映射和亲和图的信息修复算法。这些算法的基本出发点都是通过优化模型获取每个视角的样本矩阵所对应的潜在表示形式和对应的系数矩阵，利用两者的乘积以恢复丢失的信息。

(2)针对有标签样本比重过小的多视角数据集：由于人工成本的限制，对于真实场景中使用的大多数多视角数据集而言，在分类器训练之前就获得标记的样本所占的比例很小，这就使得相关多视角分类器在训练之初，可以获得的先验知识极其有限。因此针对这类有标签样本远少于无标签样本的多视角数据集，相关学者提出了一系列的算法，其中常用的是Universum学习系列。文献[V.N.Vapnik,S.Kotz,Estimation of dependences basedon empirical data,2006,Springer,New York,United States.]指出，Universum学习算法通过选择其他非目标类样本并不考虑其类别标签或选择并融合两个有标签样本的视角、特征信息，从而得到或生成一个新的无标签样本，即Universum样本。该样本会包含一定的先验知识。目前，Universum学习思想已经衍生到多个领域。比如，文献[X.H.Chen,H.J.Yin,F.Jiang,L.P.Wang,Multi-view dimensionality reduction based on Universumlearning,Neurocomputing,2018,275:2279-2286.]提出基于Universum的典型关联分析算法，以更好地实现子空间统一表达方式。文献[P.Songsiri,V.Cherkassky,B.Kijsirikul,Universum selection for boosting the performance of multiclass support vectormachines based on one-versus-one strategy,Knowledge-Based Systems,2018,159:9-19.]提出了基于分布对称指标(distributive and symmetric index,DSI)的Universum样本选择方案并用于支持向量机，从而减少参与最终分类器训练的样本数量并同时保持相对较高的分类性能。文献[B.Richhariya,D.Gupta,Facial expression recognition usingiterative universum twin support vector machine,Applied Soft Computing,2019,76:53-67.]基于样本的不确定性，提出了基于熵的Universum样本生成和选择算法，从而使得被选中参与分类器训练的Universum样本具有代表性。

(3)针对实时产生且特征可变的多视角数据集：当前真实场景中，许多多视角数据集的产生是实时的，另外随着业务要求和时间的流逝，视角、特征信息也会发生变化，有些会被丢弃，有些会保留，有些则是后期新增的。为了处理这类数据集，相关学者提出了一系列的算法。比如，文献[Y.Zhu,W.Gao,Z.H.Zhou,One-pass multi-view learning,Proceedings of the 7th Asian Conference on Machine Learning,ACML 2015,pp.407-422,Hong Kong,China,2015.11.20-11.22.]提出在线多视角学习机(one-pass multi-view learning,OPMV)，通过实时扫描样本，并分析其视角和特征信息的方式来优化分类器权重，使得多视角分类器尽可能地适用于当前时间段内处理的样本。文献[C.M.Zhu,Z.Wang,R.G.Zhou,L.Wei,X.F.Zhang,Y.Ding,Semi-supervised one-pass multi-viewlearning,Neural Computing and Applications,2018,doi:10.1007/s00521-018-3654-3]将OPMV的工作进一步推进到半监督在线学习问题并引入Universum学习思想以增强有效样本信息从而更好地指导分类器的训练。文献[W.X.Shao,L.F.He,C.T.Lu,P.S.Yu,Onlinemulti-view clustering with incomplete views,2016IEEE International Conferenceon Big Data,Big Data 2016,pp.1012-1017,Washington D.C.,United States,2016.12.5-12.8.]基于缺失视角信息的多视角数据集提出了在线学习框架，试图在线处理样本的同时修复一部分缺失的信息。文献[W.X.Shao,L.F.He,C.T.Lu,X.K.Wei,P.S.Yu,Online unsupervised multi-view feature selection,2016IEEE 16th InternationalConference on Data Mining,ICDM 2016,pp.1203-1208,Barcelona,Spain,2016.12.12-12.15.]提出基于在线学习模型的特征选择算法，研究对实时产生的多视角数据集进行特征选择的方式。文献[C.P.Hou,Z.H.Zhou,One-pass learning with incremental anddecremental features,IEEE Transactions on Pattern Analysis and MachineIntelligence,2018,40(11):2776-2792.]关注可变特征的处理，提出一种将前时间段信息融入后时间段信息内的方式。

这些工作都较好地处理了当前遇到的一些特殊形式的多视角数据集。但是我们通过深入分析，依然发现其存在的如下不足：

缺失样本信息有待修复：尽管相关学者提出了一系列的信息修复方式，但是它们在修复信息的时候，基本的做法都是尽可能地获取每个视角的样本矩阵所对应的潜在表示形式和对应的系数矩阵，随后将两者的乘积视为修复后的信息。但是我们发现这些方法在修复信息的时候，只考虑到修复的量，却忽视了修复后的信息是否可以带来更高地识别性能。另外，部分工作假设多个视角对应的同一个系数矩阵。这种假设确实可以方便和加快信息的修复的速度，但是并不利于更好地反映不同视角的差异性。

有效样本信息有待增强：有标签样本对于提供有效的样本信息、有利于分类器设计的先验知识很重要。但是现实生活中，这类样本在每个真实数据集中的占比通常较小。尽管，部分学者提出了一系列的Universum学习算法，但是这些相关算法中存在的一定的不足。比如没有考虑到原始无标签样本的作用(尽管它们提供的先验知识很少，但并不意味着这些样本没有价值)、没有体现出不同视角或特征对于分类器设计的作用等。

在线学习模型有待修正：大数据时代的到来使得人们不得不面对实时产生且特征可能发生变化的多视角数据集的处理问题。部分学者提出了相应的解决方案，但是对于实时产生、特征可变的半监督多视角数据集，却显得束手无策。

发明内容

本发明的目的是提供一种半监督多视角数据集在线学习模型及其设计方法，通过信息修复、信息增强、信息融合等三个方面，在相关接口作用下，用于港口等领域，有效提升在实际场景中处理实时产生的具有可变特征的半监督多视角数据集的能力。

为达到上述目的，本发明提供了一种半监督多视角数据集在线学习模型，其包括依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块；

所述多视角数据收集模块用于对收集的多视角数据集进行区域定位和标记处理，并进行存储；

所述缺失样本信息修复模块用于针对多视角数据集的每个视角所对应的样本矩阵，计算样本矩阵所对应的低秩假设矩阵并建立该视角所对应的子分类器；将低秩假设矩阵分解为样本矩阵的潜在表示形式和系数矩阵并更新子分类器；进而得到用于反映修复信息数量的量表达式和用于反映修复信息的分类性能的质表达式；基于量表达式和质表达式构建量质平衡模型，进而建立优化函数并对该函数进行求解，得到各个视角的潜在表示形式和系数矩阵的优化结果，通过两者相乘得到信息修复后的多视角数据集；

所述有效样本信息增强模块用于针对修复后的多视角数据集，采用多视角聚类算法以获得视角和特征的权重；计算任一选择的一个有标签样本和一个无标签样本之间的相似度；根据计算出的相似度和一个选择标准，选择合适的相似度所对应的有标签样本和无标签样本，并生成合适的Universum样本，从而增强有效的样本信息；

所述在线学习模型修正模块用于对某一时间段中信息获得修复和增强后的样本，将其在所有视角下的特征根据前后时间段的对比，并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分；针对所划分的三部分特征建立实时优化函数，并进行求解和优化权向量；对下一时间段的保留特征做融合处理，从而得到相应的融合形式。

上述的半监督多视角数据集在线学习模型，其中，所述多视角数据收集模块包括：

图像自动定位和标记子模块，用于对收集的多视角数据集进行区域定位和标记处理；

数据库存储子模块，与所述图像自动定位和标记子模块相连，用于存储处理后的多视角数据集。

上述的半监督多视角数据集在线学习模型，其中，所述缺失样本信息修复模块包括：

量计算子模块，用于根据多视角数据集所对应的低秩假设矩阵的表达式，计算得到用于反映修复信息数量的量表达式；

质计算子模块，用于根据多视角数据集的每个视角下的特征所建立的视角的子分类器，计算得到用于反映修复信息的分类性能的质表达式；

信息修复子模块，用于对基于量表达式和质表达式构建的量质平衡模型建立优化函数并对该函数进行求解，得到各个视角的潜在表示形式和系数矩阵的优化结果，通过两者相乘得到信息修复后的多视角数据集。

上述的半监督多视角数据集在线学习模型，其中，所述有效样本信息增强模块包括：

多视角聚类算法子模块，用于针对修复后的多视角数据集，采用多视角聚类算法以获得视角和特征的权重；

样本相似度计算子模块，与所述多视角聚类算法子模块相连，用于计算任一选择的一个有标签样本和一个无标签样本之间的相似度；

Universum样本生成及选择子模块，与所述样本相似度计算子模块相连，用于根据计算出的相似度和一个选择标准，选择合适的相似度所对应的有标签样本和无标签样本，并生成合适的Universum样本，从而增强有效的样本信息。

上述的半监督多视角数据集在线学习模型，其中，所述在线学习模型修正模块包括：

时间段特征分割子模块，用于对某一时间段中信息获得修复和增强后的样本，将其在所有视角下的特征根据前后时间段的对比，并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分；

权向量计算子模块，用于针对所划分的三部分特征建立实时优化函数，并进行求解和优化权向量；

融合形式计算子模块，用于对下一时间段的保留特征做融合处理，从而得到相应的融合形式。

上述的半监督多视角数据集在线学习模型，其中，所述在线学习模型是由Python语言实现的模型。

本发明还提供了一种半监督多视角数据集在线学习模型的设计方法，其包括以下步骤：

步骤1：对收集的多视角数据集进行区域定位和标记处理，并进行存储；

步骤2：针对多视角数据集的每个视角所对应的样本矩阵，计算样本矩阵所对应的低秩假设矩阵并建立该视角所对应的子分类器；将低秩假设矩阵分解为样本矩阵的潜在表示形式和系数矩阵并更新子分类器；进而得到用于反映修复信息数量的量表达式和用于反映修复信息的分类性能的质表达式；基于量表达式和质表达式构建量质平衡模型，进而建立优化函数并对该函数进行求解，得到各个视角的潜在表示形式和系数矩阵的优化结果，通过两者相乘得到信息修复后的多视角数据集；

步骤3：针对修复后的多视角数据集，采用多视角聚类算法以获得视角和特征的权重；计算任一选择的一个有标签样本和一个无标签样本之间的相似度；根据计算出的相似度和一个选择标准，选择合适的相似度所对应的有标签样本和无标签样本，并生成合适的Universum样本，从而增强有效的样本信息；

步骤4：对某一时间段中信息获得修复和增强后的样本，将其在所有视角下的特征根据前后时间段的对比，并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分；针对所划分的三部分特征建立实时优化函数，并进行求解和优化权向量；对下一时间段的保留特征做融合处理，从而得到相应的融合形式。

相对于现有技术，本发明具有以下有益效果：

本发明通过信息修复、信息增强、信息融合等三个方面，在相关接口作用下，用于港口等领域，能够有效提升在实际场景中处理实时产生的具有可变特征的半监督多视角数据集的能力。

附图说明

图1为本发明半监督多视角数据集在线学习模型的结构框图；

图2为本发明中多视角数据收集模块的工作原理图；

图3为本发明中缺失样本信息修复模块的工作原理图；

图4为本发明中有效样本信息增强模块的工作原理图；

图5为本发明中在线学习模型修正模块的工作原理图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述，这些实施例仅用于说明本发明，并不是对本发明保护范围的限制。

如图1所示，本发明公开了一种半监督多视角数据集在线学习模型，该在线学习模型是由Python语言实现的模型，其包含多视角数据收集模块1、缺失样本信息修复模块2、有效样本信息增强模块3以及在线学习模型修正模块4。

本实施例中，多视角数据收集模块1可以从UCI机器学习库(http://archive.ics.uci.edu/ml/)、真实港口业务等场景中收集多视角数据集。所述的多视角数据收集模块1是起始模块，用于收集数据集，并对收集的数据集做定位、标记等处理，并存入数据库，以便后续使用。具体的，先由安装在实际场景的摄像头或其他方式拍摄或获取原始图片；再对获取的图片进行区域定位和标记(仅作部分标记)，以锁定要处理的特征信息位置；最后，将这些特征信息存入数据库。

本实施例中，所述的多视角数据收集模块1包含：图像自动定位和标记子模块，用于对摄像头等硬件设备拍摄到图片进行区域定位和标记，方便确认要处理的数据集；数据库存储子模块，用于将原始图片中获得的处理部分存储起来，以便后续使用。

本实施例中，如图2所示，首先，利用安装在实际场景的摄像头或其他方式拍摄或获取原始图片；随后，对获取的图片进行目标定位，得到要处理的目标数据信息在整张图片中的相关位置；然后，对目标信息进行标记；最后，将标记结果和相关的数据集信息存入数据库，以得到后续处理的数据集。

所述的缺失样本信息修复模块2连接多视角数据收集模块1，用于对收集后的数据集进行信息的修复。具体地，首先，针对采集到的多视角数据集的每个视角所对应的样本矩阵(对于多视角数据集而言，其每个视角具有多个特征，如网页数据集中，文本视角具有文本大小、文本颜色、文本粗细等特征。不同样本在同一视角下的特征信息组成该视角的样本矩阵)，计算其低秩假设矩阵并建立该视角所对应的子分类器。接着，将低秩假设矩阵分解为原始样本矩阵的潜在表示形式和对应的系数矩阵并更新子分类器的表达式。然后，利用量计算子模块21和质计算子模块22，对所有视角建立一个量质平衡模型。最后，利用信息修复子模块23优化该模型后，得到各个视角的潜在表示形式和系数矩阵的优化结果，通过两者相乘之后得到信息修复后的数据集。

本实施例中，所述的缺失样本信息修复模块2包含：量计算子模块21，用于根据收集到的数据集所对应的低秩假设矩阵的表达式，计算得到用于反映修复信息数量的量表达式；质计算子模块22，用于根据收集到的数据集的每个视角下的特征所建立的视角的子分类器，计算得到用于反映修复信息的分类性能的质表达式；信息修复子模块23，用于优化基于修复信息的量表达式和质表达式所构建的量质平衡模型，并获得优化变量，从而实现对缺失信息的修复。

本实施例中，如图3所示，首先，针对收集的具有v个视角的多视角数据集而言，对其每个视角，计算样本矩阵所对应的低秩假设矩阵并初始化该视角对应的子分类器，其中Ri表示信息修复后的样本矩阵。接着，利用矩阵分解将低秩假设矩阵分解为样本矩阵的潜在表示形式和系数矩阵并更新子分类器。由于本发明考虑了不同视角信息的来源差异性，所以它们的系数矩阵也各不相同。然后，对各个视角的潜在表示形式和系数矩阵利用量计算子模块21得到用于反映修复信息数量的量表达式，对各个视角的子分类器利用质计算子模块22得到用于反映修复信息的分类性能的质表达式，其中Yi表示类别矩阵。之后，用量质平衡模型建立优化函数。最后，利用信息修复子模块23对该函数进行求解，得到各个视角的潜在表示形式和系数矩阵的优化结果，通过两者乘积得到修复后的信息，从而获得信息修复后的多视角数据集。

所述的有效样本信息增强模块3连接缺失样本信息修复模块2，用于针对修复后的数据集进一步增强样本信息，并且通过相关准则来更合适的增加信息。具体的，首先，针对修复后的多视角数据集，采用多视角聚类算法子模块31(该算法可以参考论文[Y.M.Xu,C.D.Wang,J.H.Lai,Weighted multi-view clustering with feature selection,Pattern Recognition,2016,53:25-35.])以获得不同视角、不同特征的权重。然后，选择一个有标签样本和一个无标签样本，根据视角、特征的权重，通过样本相似度计算子模块32计算它们之间的相似度。最后，根据相似度及权重，通过Universum样本生成及选择子模块33以生成并选择合适的Universum样本。这些被选中的Universum样本与修复后的原始有标签和无标签样本一起形成一个有效样本信息得以增强的数据集，并参与最后的在线学习模型设计和训练。

本实施例中，所述的有效样本信息增强模块3包含：多视角聚类算法子模块31，用于从信息修复后的数据集中获取不同视角、不同特征的权重；样本相似度计算子模块32，用于根据计算出的不同视角、特征的权重，计算任一选择的一个有标签样本和一个无标签样本之间的相似度；Universum样本生成及选择子模块33，用于根据计算出的相似度和一个选择标准，选择合适的相似度所对应的有标签样本和无标签样本，并生成合适的Universum样本，从而增强有效的样本信息。

本实施例中，如图4所示，首先，针对信息修复后的数据集，通过多视角聚类算法子模块31，计算获得不同视角、特征的权重，其中w_i表示第i个视角的权重、a_i表示第i个视角中各个特征的权重所组成的权重向量。该权重向量的每一个数值表示该视角下相应特征的权重。在本研究内容中，权重反映出不同视角、特征对分类器设计和训练的影响和作用。然后，以计算获得的视角、特征权重为基础，选择一个有标签样本x_l和一个无标签样本x_u，利用样本相似度计算子模块32，采用相似度计算表达式，获得x_l和x_u之间的相似度s_l-u。最后，根据相似度，通过Universum样本生成及选择子模块33，先利用Universum样本生成表达式，对每一对有标签样本和无标签样本计算一个Universum样本U_l-u，再根据Universum样本选择表达式，对相似度做排序等操作，选择其中相似度高的Universum样本形成一个被选集合U_s。在该选择表达式中，sort表示排序操作，select表示选择操作，而其中的被选中的Universum样本则被视为具有高有效性的样本。在获得U_s之后，将其与原始的信息修复后的数据集组成为一个有效样本信息得以增强的数据集，并最终参与分类器的设计和训练。

本实施例中，所述的在线学习模型修正模块4包含：时间段特征分割子模块41，用于对某一时间段中信息获得修复和增强后的样本，将它们在所有视角下的特征根据前后时间段的对比，并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分；权向量计算子模块42，用于针对上述的三部分特征所建立实时优化函数进行求解和优化权向量；融合形式计算子模块43，用于对下一时间段的保留特征做融合处理，从而得到相应的融合形式。该形式中包含了前一时间段的信息。

本实施例中，如图5所示，首先针对收集到的实时产生的具有可变特征的半监督多视角数据集，根据当前在存储设备中存放的样本，划分成若干个时间段。如(A-1)时间段、(A)时间段和(A+1)时间段。对这些不同时间段的样本先进行缺失样本信息的修复和有效样本信息的增强。其次，针对信息获得修复和增强后的样本，利用时间段特征分割子模块41将不同时间段的特征依次划分为下一时间段被丢弃的特征、下一时间段被保留的特征和当前时间段新增的特征三部分。在技术路线图中，分别用上标v，s，a表示，即vanished、survived、augmented。然后，对每个时间段中这些分割后特征做组合和后续处理。以(A)时间段为例，对其分割后的特征先做特征组合，得到三部分的组合特征(特征组合后的特征表达式在技术路线图中右上方已给出)。之后，基于该时间段的组合特征建立实时优化函数并利用权向量计算子模块42求解和优化每部分组合特征对应的权向量。最后，在这些权向量和(A+1)时间段的样本的基础上，利用融合形式计算子模块43获得(A+1)时间段的样本的融合形式。具体而言，先对(A+1)时间段的已分割为三部分的特征进行类似的特征组合操作(特征组合后的特征表达式在技术路线图中右下方已给出)，再针对(A)时间段计算出的三个权向量和(A+1)时间段组合而成的三部分组合特征，通过融合形式计算子模块43做相应的计算。由于(A+1)时间段的新增特征与(A)时间段的特征无关，所以在计算(A+1)时间段的组合特征的融合形式时，表达式有所区别。完成计算后，便可以得到(A+1)时间段的特征的融合形式，从而可以获得信息融合后的数据集。当然，在该技术路线图中，仅仅展示了令(A+1)时间段的特征融合(A)时间段的特征信息的方式。但是对于其他连续两个时间段之间的信息融合也同样适用。通过本发明的设计和技术路线图的展示，可以不用保存所有实时产生的样本，也可以处理特征可变的数据集，从而对在线学习模型实现修正。

本发明还公开了一种半监督多视角数据集在线学习模型的设计方法，该方法具体包含以下步骤：

步骤1：利用安装于不同实际场景中的摄像头等硬件设备，拍摄目标图片并进行定位、标记处理，从而存储到数据库中以便后续使用；

步骤2：基于收集到的多视角数据集所对应的低秩假设矩阵和视角子分类器，构建量质平衡模型并加以优化求解，得到信息修复后的数据集；

步骤3：基于信息获得修复后的数据集，求取视角、特征的权重，并根据样本间的相似度，以生成和选择合适的Universum样本参与分类器的设计，从而增强有效的样本信息；

将设计的模型嵌入相关领域的应用系统中，用于港口等领域，有效提升在实际场景中处理实时产生的具有可变特征的半监督多视角数据集的能力。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种半监督多视角数据集在线学习模型，其特征在于，包括依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块；

2.如权利要求1所述的半监督多视角数据集在线学习模型，其特征在于，所述多视角数据收集模块包括：

3.如权利要求1所述的半监督多视角数据集在线学习模型，其特征在于，所述缺失样本信息修复模块包括：

4.如权利要求1所述的半监督多视角数据集在线学习模型，其特征在于，所述有效样本信息增强模块包括：

5.如权利要求1所述的半监督多视角数据集在线学习模型，其特征在于，所述在线学习模型修正模块包括：

6.如权利要求1所述的半监督多视角数据集在线学习模型，其特征在于，所述在线学习模型是由Python语言实现的模型。

7.一种半监督多视角数据集在线学习模型的设计方法，其特征在于，包括以下步骤：