CN109829413A

CN109829413A - 一种基于快速多图融合学习的立体视觉对象识别系统

Info

Publication number: CN109829413A
Application number: CN201910071913.5A
Authority: CN
Inventors: 高跃; 林浩杰; 张子昭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-31
Anticipated expiration: 2039-01-25
Also published as: CN109829413B

Abstract

本申请公开了一种基于快速多图融合学习的立体视觉对象识别系统，该系统包括：构建模块，计算模块以及生成模块；构建模块用于根据数据库中的图像数据，分别构建数据库的至少两个数据模态的图和图矩阵；计算模块用于根据图矩阵，计算数据库对应数据模态的概率转移矩阵，计算模块还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵，计算数据库对应数据模态的第一标签矩阵；生成模块用于根据至少两个数据模态的第一标签矩阵，对数据库中的未标记图像数据进行标记，生成并发送立体视觉对象识别结果。通过本申请中的技术方案，实现了不同模态数据的融合，提高不同模态数据中信息的利用率，优化了标签预测的可靠性和准确性。

Description

一种基于快速多图融合学习的立体视觉对象识别系统

技术领域

本申请涉及机器学习的技术领域，具体而言，涉及一种基于快速多图融合学习的立体视觉对象识别系统。

背景技术

立体视觉对象的视图可以简洁、直观地对立体视觉对象进行描述，越来越多基于图的学习算法被广泛应用于机器学习的技术领域中，即通过视图数据库中已有标记的视图数据的标签信息，学习出视图数据库中未有标记的视图数据的标签信息，即预测出未标记数据的标签。同时，随着多媒体技术和数据收集技术的发展，机器学习等相关领域中出现了越来越多的多模态数据，如点云模态、视图模态和网格模态，用不同的方法或角度对某个立体视觉对象进行数据收集，因此，需要对不同模态的数据进行融合，实现各模态数据之间的信息互补。

而现有技术中，进行基于图的机械学习时，一方面是直接将多个模态的数据特征拼接为一个特征，再根据拼接的特征构建一个图，进行标签预测，这种方法由于不同模态数据的尺度不同，在进行特征拼接过程中，存在引入更多噪声的可能性，不利于提高标签预测的可靠性。另一方面是分别对不同模态的数据构建不同的图，并在不同的图上单独进行学习，再将学习的结果进行加权求和，得到最终的标签预测结果，这种方法在进行不同图的学习过程中，并没有融合其他模态数据中包含的信息，造成了数据信息的。

发明内容

本申请的目的在于：实现了不同模态数据的融合，提高不同模态数据中信息的利用率，优化了标签预测的可靠性和准确性。

本申请的技术方案是：提供了一种基于快速多图融合学习的立体视觉对象识别系统，该系统包括：构建模块，计算模块以及生成模块；构建模块用于根据数据库中的图像数据，分别构建数据库的至少两个数据模态的图和图矩阵；计算模块用于根据图矩阵，计算数据库对应数据模态的概率转移矩阵，计算模块还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵，计算数据库对应数据模态的第一标签矩阵；生成模块用于根据至少两个数据模态的第一标签矩阵，对数据库中的未标记图像数据进行标记，生成并发送立体视觉对象识别结果。

上述任一项技术方案中，进一步地，构建模块具体包括：获取单元，提取单元，以及构建单元；获取单元用于获取数据库中立体视觉对象的图像数据，其中，图像数据包括已标记图像数据和未标记图像数据，已标记图像数据中包括标签；提取单元用于提取图像数据至少两种类型的特征模态数据；构建单元用于根据特征模态数据，构建数据库的图，并生成对应的图矩阵，其中，图的任一个节点为立体视觉对象，任意两个节点之间连接有边，边的取值为两个节点之间相似度的权重值。

上述任一项技术方案中，进一步地，构建单元计算两个节点之间权重值的计算公式为：

式中，W(i，j)为节点i和节点j之间的权重值，v_i为节点i的特征模态数据，v_j为节点j的特征模态数据，d(·)²为欧几里德距离函数，μ为第一超常数，σ为第二超常数。

上述任一项技术方案中，进一步地，计算模块具体包括：生成单元，计算单元以及校正单元；生成单元用于根据图，生成第二标签矩阵；计算单元用于图矩阵，计算概率转移矩阵，计算单元还用于根据一个数据模态对应的第二标签矩阵和另一个数据模态对应的概率转移矩阵，计算一个数据模态对应的传递矩阵，记作第三标签矩阵；校正单元用于根据第二标签矩阵，校正第三标签矩阵，将校正后的第三标签矩阵，记作第一标签矩阵；计算单元还用于采用迭代算法，根据一个数据模态对应的第三标签矩阵和另一个数据模态对应的概率传递矩阵，更新传递矩阵，并将更新后的传递矩阵记作第三标签矩阵。

上述任一项技术方案中，进一步地，计算模块，具体还包括：判断单元；判断单元用于判断当前的迭代次数是否达到预设迭代次数；计算单元还用于当判定当前的迭代次数达到所述预设迭代次数时，停止迭代运算，将当前的传递矩阵，记作第三标签矩阵。

上述任一项技术方案中，进一步地，识别系统还包括：优化模块；优化模块用于根据第三标签矩阵，生成相关性矩阵，并根据相关性矩阵，优化概率转移矩阵；计算单元还用于采用迭代算法，根据一个数据模态对应的第三标签矩阵和另一个数据模态对应的优化后的概率传递矩阵，更新传递矩阵，并将更新后的传递矩阵记作第三标签矩阵。

本申请的有益效果是：通过构建模块按照图像数据的数据模态，以立体视觉对象为节点，节点相似度为权重值，构建图和图矩阵，建立了图像数据之间的联系，再通过计算概率转移矩阵和第一标签矩阵，并由生成模块对第一标签矩阵进行融合运算，计算出第四标签矩阵，实现了不同模态数据的融合，进而根据第四标签矩阵对未标记图像数据进行标记，提高不同模态数据中信息的利用率，优化了标签预测的可靠性和准确性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于快速多图融合学习的立体视觉对象识别系统的示意框图；

图2是根据本申请的一个实施例的计算模块运算过程示意流程图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本实施例提供了一种基于快速多图融合学习的立体视觉对象识别系统100，包括：构建模块10，计算模块20以及生成模块30；构建模块10用于根据数据库中的图像数据，分别构建数据库的至少两个数据模态的图和图矩阵；

进一步地，构建模块10中具体包括：获取单元11，提取单元12，以及构建单元13；获取单元11用于获取数据库中立体视觉对象的图像数据，其中，图像数据包括已标记图像数据和未标记图像数据，已标记图像数据中包括标签；

提取单元12用于提取图像数据至少两种类型的特征模态数据；

具体地，在本实施例中，设定数据库中的立体视觉对象的数据类型为CAD三维模型，部分三维模型为已标记图像数据，对应的标签为飞机、浴缸、床、长凳、书架，部分三维模型为未标记图像数据，不含有对应的标签，这类图像数据为待识别的图像数据。

采用多视图卷积神经网络和基于网格的卷积神经网络，对三维图像数据进行特征模态数据提取，设定多视图卷积神经网络提取的特征模态数据的类型为视图模态，记作第一模态数据，基于网格的卷积神经网络提取的特征模态数据的类型为网格模态，记作第二模态数据。

构建单元13用于根据特征模态数据，构建数据库的图，并生成对应的图矩阵，其中，图的任一个节点为立体视觉对象，任意两个节点之间连接有边，边的取值为两个节点之间相似度的权重值。

进一步地，构建单元13计算两个节点之间权重值的计算公式为：

具体地，将数据库中的每一个立体视觉对象视为一个节点，任意两个节点之间存在一条边，使用高斯核函数度量两个节点的相似度，以表示对应边的权重，在本实施例中，对于第一模态数据，选取的任意两个节点分别为节点和节点对于第二模态数据，选取的任意两个节点分别为节点和节点对应的权重值计算公式为：

式中，W¹(i，j)为第一权重值，W²(i，j)为第二权重值，d(·)²为欧几里德距离函数，μ为第一超常数，σ为第二超常数。

因此，可以根据第一权重值W¹(i，j)构建视图模态下数据库的第一图，并得到第一图矩阵W¹，根据第二权重值W²(i，j)构建网格模态下数据库的第二图，并得到第二图矩阵W²，这两个图矩阵W¹和W²的维度与数据库中立体视觉对象的数量相等。

在本实施例中，计算模块20用于根据图矩阵，计算数据库对应数据模态的概率转移矩阵，计算模块20还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵，计算数据库对应数据模态的第一标签矩阵；

具体地，分别对第一图矩阵W¹和第二图矩阵W²中的每个元素进行归一化，对应的归一化计算公式为：

式中，V为图矩阵的列数。

通过计算得到的概率转移矩阵P(P¹和P²)的维数和图矩阵W(W¹和W²)的维数相同，图矩阵中的第i行第j列的元素值表示，在随机游走的过程中，从节点i到节点j的概率。

进一步地，计算模块20具体包括：生成单元21，计算单元22以及校正单元23；生成单元21用于根据图，生成第二标签矩阵；

具体地，构建的第二标签矩阵的每一行均为一个三维立体对象，每一列为标签类别。当某一对象属于某一个类别时，对应元素的数值设定为1，而该行的其他元素的数值设定为0；对于未标记图像数据，对应行的元素的数值设定为1/C，其中，C为标签类别的总数。

设定数据库的标签类别包括飞机、浴缸、床、长凳和书架5种，数据库中包括10个立体视觉对象，其中，仅有7个立体视觉对象的图像数据中包含标签，依次为：飞机、飞机、浴缸、床、床、长凳、书架。则以标签类别作为矩阵的行、以立体视觉对象作为矩阵的列，构建的第二标签矩阵Y0为：

计算单元22用于图矩阵，计算概率转移矩阵，计算单元22还用于根据一个数据模态对应的第二标签矩阵和另一个数据模态对应的概率转移矩阵，计算一个数据模态对应的传递矩阵，记作第三标签矩阵；校正单元23用于根据第二标签矩阵，校正第三标签矩阵，将校正后的第三标签矩阵，记作第一标签矩阵；计算单元22还用于采用迭代算法，根据一个数据模态对应的第三标签矩阵和另一个数据模态对应的概率传递矩阵，更新传递矩阵，并将更新后的传递矩阵记作第三标签矩阵。

具体地，根据数据库中已标记数据和未标记数据生成第二标签矩阵后，采用迭代算法，计算传递矩阵。在本实施例中，设定第一模态数据对应的第二标签矩阵为第二模态数据对应的第二标签矩阵为迭代次数d的取值可以根据识别系统的性能、精度，进行人为设置，第一模态数据对应的第一传递矩阵和第二模态数据对应的第二传递矩阵对应的计算公式为：

在计算第三标签矩阵的过程中，存在已标记图像数据对应的元素数值受到噪声干扰、而改变的可能性，为了提高标签传递的准确性，以第二标签矩阵为基准，对第三标签矩阵中的元素进行校正，当判定第三标签矩阵中已标记数据的元素发生改变时，以第二标签矩阵中对应元素的数值为依据，对第三标签矩阵中的元素进行校正，将校正后的第三标签矩阵，记作第一标签矩阵。

更具体的，如图2所示，设定数据库中包含两个数据模态，为模态A和模态B，由构建模块10分别得到图A、图矩阵A、图B和图矩阵B。由生成单元21分别根据图A和图B，生成对应的第二标签矩阵A和第二标签矩阵B，作为图A和图B的初始标签矩阵，并由计算单元22根据图矩阵A和图矩阵B，计算对应的概率转移矩阵A和概率转移矩阵B。

得到概率转移矩阵之后，由计算单元22采用迭代算法，首先，将第二标签矩阵A(B)和概率转移矩阵B(A)相乘，得到传递矩阵A(B)，记作第三标签矩阵A(B)，由校正单元23根据第二标签矩阵A(B)对第三标签矩阵A(B)进行校正。

之后，将之前得到的第三标签矩阵A(B)和概率转移矩阵B(A)相乘，更新当前的传递矩阵A(B)，记作第三标签矩阵A(B)，再由校正单元23根据第二标签矩阵A(B)对当前的第三标签矩阵A(B)进行校正。

优选地，计算模块20具体还包括：判断单元24；判断单元24用于判断当前的迭代次数与预设迭代次数t相等；计算单元22还用于当判定当前的迭代次数与预设迭代次数t相等时，停止迭代运算，将当前的传递矩阵，记作第三标签矩阵。

具体地，在计算单元22计算第三标签矩阵的过程中，为了减小时间消耗、提高识别系统100的整体响应速率，设置判断单元24，当迭代次数达到预设迭代次数t时，计算单元22停止迭代运算，将当前的传递矩阵Y_d记作第三标签矩阵，由校正单元23校正后，记作第一标签矩阵。

在本实施例中，生成模块30用于根据至少两个数据模态的第一标签矩阵，对数据库中的未标记图像数据进行标记，生成并发送立体视觉对象识别结果。

具体地，生成模块30根据得到的第一模态数据的第一标签矩阵和第二模态数据的第一标签矩阵进行融合运算，融合运算过程中的计算公式为：

Label(i)＝arg max_jY_avg(i，j)，

得到的第四标签矩阵Y_avg，再根据第四标签矩阵Y_avg对未标记图像数据进行标记，设定本实施例中的第四标签矩阵Y_avg为：

生成模块30根据数据库中未标记图像数据在第四标签矩阵Y_avg中的对应行元素，选取行元素中的最大值对应的下标(列数)对应的标签列别，对未标记图像数据进行标记，设定第8个立体视觉元素的第四标签矩阵Y_avg(8)为：

Y_avg(8)＝[0.9，0，0.1，0，0]，

则根据第8个立体视觉元素的第四标签矩阵Y_avg(8)，可以判定，第8个立体视觉对象的标签为飞机的概率为0.9，为浴缸、长凳、书架的概率均为为0，为床的概率为0.1。根据概率的大小，可以判定第8个立体视觉对象的标签为飞机，生成立体视觉对象的识别结果。

进一步地，识别系统100还包括：优化模块40；优化模块40用于根据第三标签矩阵，生成相关性矩阵，并根据相关性矩阵，优化概率转移矩阵；计算单元22还用于采用迭代算法，根据一个数据模态对应的第三标签矩阵和另一个数据模态对应的优化后的概率传递矩阵，更新传递矩阵，并将更新后的传递矩阵记作第三标签矩阵。

具体地，在进行迭代运算的过程中，通过第三标签矩阵可以得到未标记图像数据的初始识别结果，得到相关性矩阵，对任意两个节点之间边的权重值进行优化，并根据优化后的权重值，对概率转移矩阵进行优化，以提高标签预测结果的准确性，优化过程中对应的计算公式为：

C(i，j)＝corr(Y_avg(i，：)，Y_avg(j，：))，

G＝W+αC，

式中，C为相关性矩阵，corr(·)为皮尔逊相关系数计算公式，G为优化后的图，α为预设参数，为优化后的概率转移矩阵。

优选地，预设参数α的取值为0.95。

由优化模块40根据第三标签矩阵A和第三标签矩阵B，生成相关性矩阵，对图A和图B进行优化，进而得到优化后的概率转移矩阵A和优化后的概率转移矩阵B。

此时，计算单元22根据优化后的概率矩阵B(A)和之前的标签矩阵A(B)，更新传递矩阵A，再由校正单元23对更新后的传递矩阵A进行校正，最终生成识别用的第一标签矩阵，提高了识别系统100对标签预测的准确性。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种基于快速多图融合学习的立体视觉对象识别系统，包括：构建模块，计算模块以及生成模块；构建模块用于根据数据库中的图像数据，分别构建数据库的至少两个数据模态的图和图矩阵；计算模块用于根据图矩阵，计算数据库对应数据模态的概率转移矩阵，计算模块还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵，计算数据库对应数据模态的第一标签矩阵；生成模块用于根据至少两个数据模态的第一标签矩阵，对数据库中的未标记图像数据进行标记，生成并发送立体视觉对象识别结果。通过本申请中的技术方案，实现了不同模态数据的融合，提高不同模态数据中信息的利用率，优化了标签预测的可靠性和准确性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种基于快速多图融合学习的立体视觉对象识别系统，其特征在于，该系统包括：构建模块，计算模块以及生成模块；

所述构建模块用于根据数据库中的图像数据，分别构建所述数据库的至少两个数据模态的图和图矩阵；

所述计算模块用于根据所述图矩阵，计算所述数据库对应数据模态的概率转移矩阵，所述计算模块还用于根据一个数据模态的所述图和另一个数据模态的所述概率转移矩阵，计算所述数据库对应数据模态的第一标签矩阵；

所述生成模块用于根据至少两个数据模态的所述第一标签矩阵，对所述数据库中的未标记图像数据进行标记，生成并发送立体视觉对象识别结果。

2.如权利要求1所述的基于快速多图融合学习的立体视觉对象识别系统，其特征在于，所述构建模块具体包括：获取单元，提取单元，以及构建单元；

所述获取单元用于获取所述数据库中立体视觉对象的所述图像数据，其中，所述图像数据包括已标记图像数据和未标记图像数据，所述已标记图像数据中包括标签；

所述提取单元用于提取所述图像数据至少两种类型的特征模态数据；

所述构建单元用于根据所述特征模态数据，构建所述数据库的所述图，并生成对应的所述图矩阵，其中，所述图的任一个节点为所述立体视觉对象，任意两个所述节点之间连接有边，所述边的取值为两个所述节点之间相似度的权重值。

3.如权利要求2所述的基于快速多图融合学习的立体视觉对象识别系统，其特征在于，

所述构建单元计算两个所述节点之间权重值的计算公式为：

式中，W(i，j)为节点i和节点j之间的权重值，v_i为所述节点i的所述特征模态数据，v_j为所述节点j的所述特征模态数据，d(·)²为欧几里德距离函数，μ为第一超常数，σ为第二超常数。

4.如权利要求1所述的基于快速多图融合学习的立体视觉对象识别系统，其特征在于，所述计算模块具体包括：生成单元，计算单元以及校正单元；

所述生成单元用于根据所述图，生成第二标签矩阵；

所述计算单元用于所述图矩阵，计算概率转移矩阵，所述计算单元还用于根据一个数据模态对应的所述第二标签矩阵和另一个数据模态对应的所述概率转移矩阵，计算所述一个数据模态对应的传递矩阵，记作第三标签矩阵；

所述校正单元用于根据所述第二标签矩阵，校正所述第三标签矩阵，将校正后的所述第三标签矩阵，记作所述第一标签矩阵；

所述计算单元还用于采用迭代算法，根据所述一个数据模态对应的所述第三标签矩阵和所述另一个数据模态对应的所述概率传递矩阵，更新所述传递矩阵，并将更新后的所述传递矩阵记作所述第三标签矩阵。

5.如权利要求4所述的基于快速多图融合学习的立体视觉对象识别系统，其特征在于，所述计算模块，具体还包括：判断单元；

所述判断单元用于判断迭代次数是否达到预设迭代次数；

所述计算单元还用于当判定当前的所述迭代次数达到所述预设迭代次数时，停止迭代运算，将当前的所述传递矩阵，记作所述第三标签矩阵。

6.如权利要求4所述的基于快速多图融合学习的立体视觉对象识别系统，其特征在于，所述识别系统还包括：优化模块；

所述优化模块用于根据所述第三标签矩阵，生成相关性矩阵，并根据所述相关性矩阵，优化所述概率转移矩阵；

所述计算单元还用于采用迭代算法，根据所述一个数据模态对应的所述第三标签矩阵和所述另一个数据模态对应的优化后的所述概率传递矩阵，更新所述传递矩阵，并将更新后的所述传递矩阵记作所述第三标签矩阵。