CN107170012A

CN107170012A - 一种基于语境信息进行视点估计的方法

Info

Publication number: CN107170012A
Application number: CN201710333739.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-15

Abstract

本发明中提出的一种基于语境信息进行视点估计的方法，其主要内容包括：对象检测、定义对象关系、基于语境的视点分类、谨慎推理、视点估计，其过程为，首先，给定一幅图像，运行视点感知对象检测器来收集一组具有类标签和预测的离散观点的对象假设，接着定义所有对象假设之间的成对关系，对于每个对象假设，使用其他对象假设的语境信息作为来源估计其语境响应，最后将由视点感知对象检测器提供的局部响应与语境响应相结合以获得最终视点估计。本发明突破了现有方法仅考虑局部信息的局限，基于语境信息减少视点估计误差，并且在包含大量对象实例的场景中依然表现出优异的性能，改善了对象视点估计，使得图像检测在不同场景下依然保持高准确度，同时大大提高信息检索效率。

Description

一种基于语境信息进行视点估计的方法

技术领域

本发明涉及图像识别领域，尤其是涉及了一种基于语境信息进行视点估计的方法。

背景技术

图像识别常用于海洋、智能仓储、智能交通监控以及娱乐等领域，捕捉目标信息，分析转化为可读结果。具体地，在海洋应用中，基于视觉的图像识别可以对浮游生物进行识别和现场监测，并且能够实现对赤潮的预测。智能仓储中，分拣机器人对不同货物进行识别，从而快速进行分类放入不同货仓。智能交通监控领域内，图像识别往往用于识别和检测路上车辆或行人，从而检索并跟踪目标车辆或人物。除此之外，图像识别已经用于满足人们娱乐需求，帮用户找到与其长相最匹配的明星等。虽然现有方法在观察对象特征和分析已满足一定的准确性，但是目前方法多数只考虑局部信息，而忽略空间一致性，从而导引起估计误差，导致对特定场景中的部分目标无法进行准确的识别和检测。

本发明提出了一种基于语境信息进行视点估计的方法，利用场景中其他对象的信息进行视点估计。首先，给定一幅图像，运行视点感知对象检测器来收集一组具有类标签和预测的离散观点的对象假设，接着定义所有对象假设之间的成对关系，对于每个对象假设，使用其他对象假设的语境信息作为来源估计其语境响应，最后将由视点感知对象检测器提供的局部响应与语境响应相结合以获得最终视点估计。本发明突破了现有方法仅考虑局部信息的局限，基于语境信息减少视点估计误差，并且在包含大量对象实例的场景中依然表现出优异的性能，改善了对象视点估计，使得图像检测在不同场景下依然保持高准确度，同时大大提高信息检索效率。

发明内容

针对现有方法仅考虑局部信息的问题，本发明的目的在于提供一种基于语境信息进行视点估计的方法，基于语境信息减少视点估计误差，并且在包含大量对象实例的场景中依然表现出优异的性能，改善了对象视点估计，使得图像检测在不同场景下依然保持高准确度，同时大大提高信息检索效率。

为解决上述问题，本发明提供一种基于语境信息进行视点估计的方法，其主要内容包括：

(一)对象检测；

(二)定义对象关系；

(三)基于语境的视点分类；

(四)谨慎推理；

(五)视点估计。

其中，所述的对象检测，使用三个不同的视点感知检测器，其中两个是可变形部件模型(DPM)检测器的变形，其中模型的特定部分被学习从而对每个离散的视点进行分类，是通过卷积神经网络(CNN)执行基于最先进的基于学习表示方法实现的，该检测由一个更快的RCNN检测器组成，用于局部对象实例，结合微调的CNN Alexnet架构对预测对象边界框的视点进行分类。

其中，所述的定义对象关系，首先对象和关系的表示方式给出定义，给定图像，使用视点感知对象检测器来收集一组对象假设O＝(o₁，o₂，...，o_m)的感兴趣类别，每个对象假设oi被表示为元组o_i＝(c_i，l_i，f_i，s_i)，其中c_i表示对象的类别，l_i表示场景中对象边界框的中心位置，f_i表示附加的对象相关特征(例如纵横比或尺寸)，以及s_i表示由检测器报告的局部检测得分，另外每个假设都具有预测的离散观点α_i，使用o^v表示预测的对象假设的状态，o⁺表示对象假设被正确定位，即它们的预测边界框覆盖有效的对象实例，用o^-代表错误的对象假设，同样使用α^ω指示预测视点的状态，α⁺和α^-来表示对象的视点α的预测是否正确，最后用将预测的视点类与其状态相结合，即

进一步地，所述的成对关系，将对象之间的关系用作语境信息的来源，从覆盖对象的边界框导出得到相对属性来定义成对关系，对象是投影在图像空间中的二维实体，对于每个对象o_i，测量其与每个其他对象o_j的相对位置(rx_ij，ry_ij)，相对比例rs_ij和视点α_j，生成一个关系描述符r_ij＝(rx_ij，ry_ij，rs_ij，α_j)，将下面的成对关系的相对属性定义为：其中(x_i，y_i，w_i，h_i)定义了对象o_i的边界框的中心、宽度和高度，产生由五个属性定义的成对关系，每个图像的成对关系的数量关于对象的数量具有二次生长，更确切地说，对于具有m个对象的图像，被提取出总共(m(m-1))个成对关系。

其中，所述的基于语境的视点分类，估计对象o_i的视点α_i使对象o_i在给定邻域的似然性最大化：

对象的组拟合通过加权投票关系邻域(wvRN)分类器的输出来测量，该输出是针对特定任务定义的，如下所示：

其中，w_j是考虑到对象检测器中的噪声所添加的加权项，原v(o_i，o_j)被定义为表示类别c_i的对象o_i代表正确预测的视点的假设是真实的概率，给定其与对象o_j的关系r_ij，使用贝叶斯规则，将作为后验：

其中r_ij是训练过程中，在注释对象之间计算得出的成对关系。

进一步地，所述的对象的组拟合，基于每个对象o_i与语境中的所有其他对象o_j的关系来估计该对象的响应，使用加权投票关系邻域分类器(wvRN)获得该语境响应，wvRN能够利用网络数据之间的底层结构，以节点为中心的方式运行，即基于语境中的对象o_j一次处理一个对象o_i，利用wvRN分类器计算语境分数：

其中Z＝∑w_j是归一化项，v(o_i，o_j)测量给定对象o_i与o_j的关系的似然性，加权因子w_j用于调制邻居o_j的作用，因此等式(1)被重新定义为：

分类器对视点α_i的预测感兴趣，所以在等式中明确添加视点α_i。

进一步地，所述的后验，在训练集上运行局部检测器扩展对象和关系的集合，为避免重复的对象实例，通过相应注释，用正确预测的视点替换真实假设同样地，用相应注释产生的这些正确假设来代替这些正确的假设所产生的关系，将假设整合到训练数据中的这一步骤，允许对由局部检测器引入的关系r_ij中的噪声建模，产生了一组对象o_i，其对应的成对关系R＝(r_ij)，利用以上信息可以通过核密度估计(KDE)估计概率密度函数(pdf)，最后，在测试期间，通过在关系r_ij定义的测试点处评估pdf来计算和其中关系r_ij在对象假设之间计算可得。

进一步地，所述的加权项，等式(2)的加权项w_j考虑了由(预测邻近对象o_j中的)对象检测器引入的噪声，使用概率局部分类器估计w_j，该概率局部分类器考虑了由各自假设o_j的对象检测器提供的分数s_j，该分类器的输出将是对象o_j的后验类别c_j被正确定位具有正确预测的视点给定其分数s_j，计算此后验：

该方程的分量获得途径类似于等式(3)，每个点被分别分配了标签o⁺，o^-，基于这些标记的假设，分别通过KDE计算条件概率以及最后，根据训练数据中的每个类别估计先验以及作为标记假设的相应比例，根据检测分数，表示假设正确的概率。

其中，所述的谨慎推理，对于第一个原则，与最确定的对象相关，针对假设O＝(o₁，...，o_n)，分别定义包含已知和未知对象的互不相交的集合O^k和O^u，其中O＝O^k∪O^u，在推推理中，初始化O^k＝{}和O^u＝O，并将其标记为已知对象，基于概率局部分类器(等式(6))得到具有最高分数的假设，该假设被移动到已知对象的集合O^k，接着重新估计每个未知对象o_i∈O^u的wvRN得分，仅考虑其语境N_i中的已知对象o_j∈O^k，按以下方式重新定义等式(4)：

将具有最高wvRN响应的假设标记为已知，并将其移动到已知对象集O^k，重复此过程，一次提升一个假设o_i∈O^u，直到一组未知对象O^u为空，最后，为了在新分数排名中保证相似性，使用等式(7)将第二个被提升的对象作为已知的语境对象，重新估计第一个对象的得分，使用KDE来估计每个语境对象o_j的投票

其中，所述的视点估计，对于每个假设o_i，一方面，它的局部响应包括视点α_i和对象检测器仅基于局部特征得到的评分s_i，另一方面，在不同的视点上，通过关系响应(等式(5))定义其语境响应两个响应ψ^l和ψ^c之间互补，虽然局部响应ψ^l提出对内在对象特征的决定，但是语境响应ψ^c以这样一种方式来提取决策，使得被分类的对象适应于图像中的对象组，为了在这些响应之间找到平衡，对每个假设o_i，构建一个耦合响应向量并估计对象的视点为：

其中f是从耦合响应向量训练的多类分类器，从验证集收集的对象假设中提取的视点注释对(Ψ_i，α)。

附图说明

图1是本发明一种基于语境信息进行视点估计的方法的系统流程图。

图2是本发明一种基于语境信息进行视点估计的方法的语境分析图例。

图3是本发明一种基于语境信息进行视点估计的方法的集体分类原理图。

图4是本发明一种基于语境信息进行视点估计的方法的关系推理的类型。

图5是本发明一种基于语境信息进行视点估计的方法的关系提取图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于语境信息进行视点估计的方法的系统流程图。主要包括对象检测、定义对象关系、基于语境的视点分类、谨慎推理、视点估计。

其中，所述的定义对象关系，首先对象和关系的表示方式给出定义，给定图像，使用视点感知对象检测器来收集一组对象假设O＝(o₁，o₂，...，o_m)的感兴趣类别，每个对象假设o_i被表示为元组o_i＝(c_i，l_i，f_i，s_i)，其中c_i表示对象的类别，l_i表示场景中对象边界框的中心位置，f_i表示附加的对象相关特征(例如纵横比或尺寸)，以及s_i表示由检测器报告的局部检测得分，另外每个假设都具有预测的离散观点α_i，使用o^v表示预测的对象假设的状态，o⁺表示对象假设被正确定位，即它们的预测边界框覆盖有效的对象实例，用o^-代表错误的对象假设，同样使用α^ω指示预测视点的状态，α⁺和α^-来表示对象的视点α的预测是否正确，最后用将预测的视点类与其状态相结合，即

进一步地，所述的成对关系，将对象之间的关系用作语境信息的来源，从覆盖对象的边界框导出得到相对属性来定义成对关系，对象是投影在图像空间中的二维实体，对于每个对象o_i，测量其与每个其他对象o_j的相对位置(rx_ij，ry_ij)，相对比例rs_ij和视点α_j，生成一个关系描述符r_ij (rx_ij，ry_ij，rs_ij，α_j)，将下面的成对关系的相对属性定义为：其中(x_i，y_i，w_i，h_i)定义了对象o_i的边界框的中心、宽度和高度，产生由五个属性定义的成对关系，每个图像的成对关系的数量关于对象的数量具有二次生长，更确切地说，对于具有m个对象的图像，被提取出总共(m(m-1))个成对关系。

图2是本发明一种基于语境信息进行视点估计的方法的语境分析图例。对象在这个世界上发生的自然或“所需”的配置，经常为此对象的身份提供很强的线索，例如只看场景中的其他物体，也不难猜出白色区域所覆盖的物体的视点。首先对关系信息最确定的对象的视点进行分类，然后使用它们来引导对其他对象的预测。即使不能访问诸如颜色或纹理的对象的内在特征，周围对象的总体配置提供了强烈的提示来预测其视点。

图3是本发明一种基于语境信息进行视点估计的方法的集体分类图示。集体分类是机器学习和数据挖掘中的一个常见问题，其中数据采用图形的形式，任务是在使用网络结构的同时预测图中节点的类，以及几个示例分类节点。图中所示即为基于特定对象o_i(灰色)与其邻近对象o_j的关系r_ij来处理o_i的分类。给定对象假设O，对于每个对象o_i，定义它与其邻域N_i中的每个对象o_j的成对关系r_ij。为了简单起见，设置N_i等于图像中每个其他对象组成的集合，则每个图像对应产生总共(m(m-1))个成对关系，其中m是图像中的对象的总数。

图4是本发明一种基于语境信息进行视点估计的方法的关系推理的类型。图中a为视点感知对象检测假设(以量表刻度编码的分数)，b积极推理，c-e谨慎推理。对象对箭头指向的另一个对象产生影响。实体框表示已知对象，虚线框表示要进行分类的对象假设。考虑一个由视点感知检测器产生的假设如(a)所示。检测分数均以量表刻度编码，并且假设位于灰色区域比黑色区域具有更高的分数。由于有三个对象假设，所以在谨慎推理过程中会有三个步骤。第一步，灰色的假设被提升为已知对象(c)，使其成为其他对象语境信息的有效来源(d)。在第二步中，假设最初为黑色，具有较高的关系得分者被提升为已知对象。同理此假设成为剩余假设的语境来源。此外，第二个提升的假设将被用于重新估计第一个假设。最后，通过将所有已知的假设作为语境，估计得到最初的白色假设(e)。

图5是本发明一种基于语境信息进行视点估计的方法的关系提取图。给定场景中的一组对象，通过从覆盖对象的边界框导出得到相对属性来定义成对关系。物体是投影在图像空间中的二维实体。给定一组对象O＝(o₁，o₂，...，o_m)，对于每个对象o_i，我们测量其与每个其他对象o_j的相对位置(rx_ij，ry_ij)，相对比例rs_ij和视点α_j，生成一个关系描述符r_ij＝(rx_ij，ry_ij，rs_ij，α_j)，见图5。将下面的成对关系的相对属性定义为：其中(x_i，y_i，w_i，h_i)定义了对象o_i的边界框的中心、宽度和高度。产生由五个属性定义的成对关系。每个图像的成对关系的数量关于对象的数量具有二次生长，更确切地说，对于具有m个对象的图像，被提取出总共(m(m-1))个成对关系。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于语境信息进行视点估计的方法，其特征在于，主要包括对象检测(一)；定义对象关系(二)；基于语境的视点分类(三)；谨慎推理(四)；视点估计(五)。

2.基于权利要求书1所述的对象检测(一)，其特征在于，使用三个不同的视点感知检测器，其中两个是可变形部件模型(DPM)检测器的变形，其中模型的特定部分被学习从而对每个离散的视点进行分类，是通过卷积神经网络(CNN)执行基于最先进的基于学习表示方法实现的，该检测由一个更快的RCNN检测器组成，用于局部对象实例，结合微调的CNNAlexnet架构对预测对象边界框的视点进行分类。

3.基于权利要求书1所述的定义对象关系(二)，其特征在于，首先对象和关系的表示方式给出定义，给定图像，使用视点感知对象检测器来收集一组对象假设O＝(o₁，o₂，...，o_m)的感兴趣类别，每个对象假设o_i被表示为元组o_i＝(c_i，l_i，f_i，s_i)，其中c_i表示对象的类别，l_i表示场景中对象边界框的中心位置，f_i表示附加的对象相关特征(例如纵横比或尺寸)，以及s_i表示由检测器报告的局部检测得分，另外每个假设都具有预测的离散观点α_i，使用o^v表示预测的对象假设的状态，o⁺表示对象假设被正确定位，即它们的预测边界框覆盖有效的对象实例，用o^-代表错误的对象假设，同样使用α^ω指示预测视点的状态，α⁺和α^-来表示对象的视点α的预测是否正确，最后用将预测的视点类与其状态相结合，即

4.基于权利要求书3所述的成对关系，其特征在于，将对象之间的关系用作语境信息的来源，从覆盖对象的边界框导出得到相对属性来定义成对关系，对象是投影在图像空间中的二维实体，对于每个对象o_i，测量其与每个其他对象o_j的相对位置(rx_ij，ry_ij)，相对比例rs_ij和视点α_j，生成一个关系描述符r_ij＝(rx_ij，ry_ij，rs_ij，α_j)，将下面的成对关系的相对属性定义为：其中(x_i，y_i，w_i，h_i)定义了对象o_i的边界框的中心、宽度和高度，产生由五个属性定义的成对关系，每个图像的成对关系的数量关于对象的数量具有二次生长，更确切地说，对于具有m个对象的图像，被提取出总共(m(m-1))个成对关系。

5.基于权利要求书1所述的基于语境的视点分类(三)，其特征在于，估计对象o_i的视点α_i使对象o_i在给定邻域的似然性最大化：

<mrow> <msub> <mover> <mi>&alpha;</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> </munder> <mrow> <mo>(</mo> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>v</mi> <mo>&Element;</mo> <mrow> <mo>{</mo> <mrow> <mo>+</mo> <mo>,</mo> <mo>-</mo> </mrow> <mo>}</mo> </mrow> </mrow> </msub> <msub> <mi>&Sigma;</mi> <mrow> <mi>&omega;</mi> <mo>&Element;</mo> <mrow> <mo>{</mo> <mrow> <mo>+</mo> <mo>,</mo> <mo>-</mo> </mrow> <mo>}</mo> </mrow> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mi>&omega;</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mi>v</mi> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>v</mi> <mo>&Element;</mo> <mrow> <mo>{</mo> <mrow> <mo>+</mo> <mo>,</mo> <mo>-</mo> </mrow> <mo>}</mo> </mrow> </mrow> </msub> <msub> <mi>&Sigma;</mi> <mrow> <mi>&omega;</mi> <mo>&Element;</mo> <mrow> <mo>{</mo> <mrow> <mo>+</mo> <mo>,</mo> <mo>-</mo> </mrow> <mo>}</mo> </mrow> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mi>&omega;</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mi>v</mi> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mi>&omega;</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mi>v</mi> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

6.基于权利要求书5所述的对象的组拟合，其特征在于，基于每个对象o_i与语境中的所有其他对象o_j的关系来估计该对象的响应，使用加权投票关系邻域分类器(wvRN)获得该语境响应，wvRN能够利用网络数据之间的底层结构，以节点为中心的方式运行，即基于语境中的对象o_j一次处理一个对象o_i，利用wvRN分类器计算语境分数：

<mrow> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </munder> <mi>v</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mi>&alpha;</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

7.基于权利要求书5所述的后验，其特征在于，在训练集上运行局部检测器扩展对象和关系的集合，为避免重复的对象实例，通过相应注释，用正确预测的视点替换真实假设同样地，用相应注释产生的这些正确假设来代替这些正确的假设所产生的关系，将假设整合到训练数据中的这一步骤，允许对由局部检测器引入的关系r_ij中的噪声建模，产生了一组对象o_i，其对应的成对关系R＝(r_ij)，利用以上信息可以通过核密度估计(KDE)估计概率密度函数(pdf)，最后，在测试期间，通过在关系r_ij定义的测试点处评估pdf来计算和其中关系r_ij在对象假设之间计算可得。

8.基于权利要求书5所述的加权项，其特征在于，等式(2)的加权项w_j考虑了由(预测邻近对象o_j中的)对象检测器引入的噪声，使用概率局部分类器估计w_j，该概率局部分类器考虑了由各自假设o_j的对象检测器提供的分数s_j，该分类器的输出将是对象o_j的后验类别c_j被正确定位具有正确预测的视点给定其分数s_j，计算此后验：

<mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>j</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>j</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>j</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>v</mi> <mo>&Element;</mo> <mo>{</mo> <mo>+</mo> <mo>,</mo> <mo>-</mo> <mo>}</mo> </mrow> </msub> <msub> <mi>&Sigma;</mi> <mrow> <mi>&omega;</mi> <mo>&Element;</mo> <mo>{</mo> <mo>+</mo> <mo>,</mo> <mo>-</mo> <mo>}</mo> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>|</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> <mi>&omega;</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>j</mi> <mi>v</mi> </msubsup> <mo>,</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> <mi>&omega;</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>j</mi> <mi>v</mi> </msubsup> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

9.基于权利要求书1所述的谨慎推理(四)，其特征在于，对于第一个原则，与最确定的对象相关，针对假设O＝(o₁，...，o_n)，分别定义包含已知和未知对象的互不相交的集合O^k和O^u，其中O＝O^k∪O^u，在推推理中，初始化O^k＝{}和O^u＝O，并将其标记为已知对象，基于概率局部分类器(等式(6))得到具有最高分数的假设，该假设被移动到已知对象的集合O^k，接着重新估计每个未知对象o_i∈O^u的wvRN得分，仅考虑其语境N_i中的已知对象o_j∈O^k，按以下方式重新定义等式(4)：

<mrow> <mi>w</mi> <mi>v</mi> <mi>R</mi> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msup> <mi>O</mi> <mi>k</mi> </msup> <mo>)</mo> </mrow> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

10.基于权利要求书1所述的视点估计(五)，其特征在于，对于每个假设o_i，一方面，它的局部响应包括视点α_i和对象检测器仅基于局部特征得到的评分s_i，另一方面，在不同的视点上，通过关系响应(等式(5))定义其语境响应两个响应ψ^l和ψ^c之间互补，虽然局部响应ψ^l提出对内在对象特征的决定，但是语境响应ψ^c以这样一种方式来提取决策，使得被分类的对象适应于图像中的对象组，为了在这些响应之间找到平衡，对每个假设o_i，构建一个耦合响应向量并估计对象的视点为：

<mrow> <msubsup> <mi>&psi;</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> </munder> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <msubsup> <mover> <mi>&alpha;</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> <mo>+</mo> </msubsup> <mo>|</mo> <msub> <mi>&Psi;</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>