CN108280132A

CN108280132A - 建立语义图像分割的个性化知识库的方法及系统

Info

Publication number: CN108280132A
Application number: CN201711417046.3A
Authority: CN
Inventors: 廖鑫鹏; 任小波; 汪灏泓
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2017-01-06
Filing date: 2017-12-25
Publication date: 2018-07-13
Anticipated expiration: 2037-12-25
Also published as: CN108280132B; US9939272B1

Abstract

本发明公开了一种建立语义图像分割的个性化知识库的方法及系统，所述方法包括：从用户中获得查询图像；执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓；确定在地图图像中与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；生成一输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的路线；及将所述输出图像推荐给所述用户，并在一社交网络平台上共享所述输出图像。

Description

建立语义图像分割的个性化知识库的方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及通过条件随机场来建立语义图像分割的个性化知识库的方法及系统。

背景技术

语义图像分割是一种将图像分成有意义、无重叠区域的像素级标签任务。在复杂的图像中，图像分割是否有意义取决于用户的意图，即，用户到底要想从图像中获得什么。如果可能，正如人们期望的那样，设计一种通用的方法来尽可能准确地分割图像，这是非常具有挑战性的。这会产生高度不适定的问题，因此用户交互是必不可少的，从而增加了用户的交互工作量。

最新的技术方法公开了利用深度学习技术进行图像识别，从而，处理像素级标签任务。这种技术方法的一个核心问题是深度学习技术描绘视觉对象的能力有限，这样通常会导致语义分割任务中出现边界模糊和斑点。卷积神经网络(CNN)无法提供促进相似像素之间标签一致性以及标签输出空间表征连续性的平滑约束。通过建立密集条件随机场(CRF)的平均场近似推理，可将平滑约束纳入循环神经网络(RNN)，这样在训练间将误差导数反向传播到所述CNN时，可优化前一步运算中传统循环神经网络的粗糙输出。然而，在不考虑任何用户交互的情况下，这样的深度神经网络(DNN)大多能完善基准数据库。

本发明所公开的方法和系统旨在解决上述至少一个问题以及其他问题。

发明内容

本发明公开的实施例一方面提供了一种建立语义图像分割的个性化知识库的方法。所述方法包括：从用户中获得查询图像；执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓；确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线；将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

任选地，执行一交互式分割处理以确定所述查询图像中所述感兴趣对象的至少一个轮廓，还包括：基于个性化知识库，通过全连接卷积网络和用来推理隐藏单元条件随机场的卷积神经网络信息估计器以连接所述查询图像；持续性反向传播带有更新的地面实况的误差导数，所述更新的地面实况由未知图像的不满意分割结果所触发；以及优化语义分割并学习超像素筛选标准，以构建所述个性化知识库。

任选地，给定一组观测值x和参数θ，分割标签s的条件可能性公式建模如下：

其中

所述参数θ最大化估计为

边缘分布的计算如下：

其中，Z_n是一个正规化子：

本发明公开的实施例另一方面公开了一种建立语义图像分割的个性化知识库的系统。所述系统包括：交互式分割模块，用于从用户中获得查询图像，并执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓；路线搜索模块，用于确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；以及路线推荐模块，用于生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线；及将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

任选地，所述交互式分割模块包括：图像筛选单元，用于允许所述用户筛选所述查询图像；图像编辑单元，用于允许所述用户通过提供前景与背景限制，编辑与所述查询图像重叠的超像素轮廓；图像处理单元，用于通过所述语义图像分割，处理所述查询图像，以生成至少一个所述超像素轮廓；个性化知识库单元，用于自适应学习所述用户的偏好或未知环境中语境线索的筛选标准，以减少编辑所述用户图像的精力并最终取代所述用户交互。

任选地，所述图像处理单元还从所述用户的图像编辑中提取并发送反馈给所述个性化知识库单元；通过条件随机场方法执行所述语义图像分割。

任选地，所述图像处理单元还包括全卷积网络和超像素筛选器。

任选地，所述路线搜索模块运用MorphSnakes算法在谷歌地图上搜索路线。

任选地，所述路线推荐模块向所述用户推荐与所述超像素轮廓有最大重叠区域的所述路线，所述超像素轮廓由所述交互式分割模块生成。

本发明公开的实施例另一方面公开了拥有计算机程序的非瞬时性计算机可读介质，当处理器执行时，执行推荐基于图像的路线的方法。所述方法包括：从用户中获得查询图像；执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓；确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线；以及将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

本领域技术人员根据本发明公开的说明书、权利要求书、以及说明书附图的指引，能够理解本发明公开的其他的方面。

附图说明

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。以下附图仅仅用于解释本发明，并不限制本发明的范围。

图1为本发明具体实施方式的工作环境示意图；

图2为本发明具体实施方式的计算系统框图；

图3为本发明具体实施方式的超像素条件随机场的代表性因子示意图条件随机场；

图4为本发明具体实施方式的用于推荐和共享定制多媒体路线规划方法流程图；

图5为本发明具体实施方式的用于推荐和共享定制多媒体路线规划的系统原理图；

图6为本发明具体实施方式的另一用于推荐与共享定制多媒体路线的系统原理图；

图7为本发明具体实施方式的交互式分割模块的原理图；

图8为本发明具体实施方式的另一交互式分割模块的原理图。

具体实施方式

为了使得本领域技术人员更好地理解本发明，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。除非另外指出，在各附图中相同的参考数字表示相同的部件。应当理解的是，这里所述的实施例只用于解释本发明，但不限于本发明。本领域普通技术人员在无需创造性劳动的前提下获得所有基于本发明的其他实施例，都属于本发明保护的范围。

本发明提供一种通过条件随机场方法来建立语义图像分割的个性化知识库的方法和系统。具体地，本发明公开的所述方法和系统可以用于推荐和共享基于图像的定制路线。

在一些实施例中，所述方法和系统可包括有指定对象边界框的查询图像，用户地理位置，地图比例和预期路线长度，和/或其他信息。在给定任何一张查询图像的情况下，交互式分割可确保所述查询图像中感兴趣对象的精准分割。基于匹配算法，在地图上搜索路线，以生成所述感兴趣对象的轮廓。当曲线轮廓接近所述预期路线时，根据轮廓变化的稳定性，可用度量来估算其轮廓变化的集合，从而自然地得出候选路线。此外，可以通过收缩最小化过程最小化每一候选路线和用户指定轮廓之间的失真误差，据此，渲染输出后，完成作为给所述客户最佳推荐的匹配路线。

图1为本发明具体实施方式的工作环境100。如图1所示，所述工作环境100可包括：终端102、服务器106、用户108和网络110。

所述终端102(同时也可以叫做终端设备)指的是任何合适的具有计算功能的用户终端，如个人电脑(PC)，电脑工作站，电脑服务器，掌上计算设备(平板电脑)，智能手机或移动电话，或任何其他用户端计算设备。在一些实施例中，所述终端102可以作为移动终端设备，例如智能手机，平板电脑，或者移动电话等。所述终端102可以在任何适当类型的运算平台上使用。

任何用户108都可使用所述终端102连接所述网络110，并且向所述服务器106发出请求。所述每一用户108可以使用至少一个所述终端102。在所述用户108的指示下，所述终端102可从任何适当来源中，如从本地存储设备，从服务供应商的有线或无线网络设备，或从因特网中获取诸如图像，视频，音频，文本等多媒体内容。

进一步地，所述服务器106可指用于提供地图功能和社交网络平台功能的至少一个电脑服务器(如地图检索服务器，图像共享平台服务器等)。所述服务器106可以包括用以并行执行电脑程序的一个或者多个处理器。所述服务器106可存储地图信息，所述终端可访问所述地图信息。所述服务器106也可以根据所述用户108的要求，为所述终端102提供多种社交媒体平台。所述服务器106也可以是云服务器。

所述终端102和所述服务器106可通过通讯网络110，如电缆网络，宽带网络，无线网络，和/或卫星网络等，相互通讯。尽管图1只显示了一个用户108，一个终端102和一个服务器106，但也可以表示任意数量的用户，终端，和/或其他服务器。

所述终端102和/或所述服务器106可以在任何适当的计算机电路平台上使用。图2为本发明具体实施方式的计算系统200的框图，所述终端102和/或所述服务器106可运用于所述计算系统中。

如图2所示，所述计算系统200包括处理器202，存储介质204，显示器206，通讯模块208，数据库210以及外围设备212。在不违背本实施方案原则的情况下，可以减省某些设备，也可以添加一些其他类型的设备。

所述处理器202可以包括任何合适的硬件处理器或其他处理器。进一步地，所述处理器202可以包括用于多线程或并行处理的多个核心的处理器。所述存储介质204可包括内存模块，如只读存储器(ROM)，随机存取存储器(RAM)，闪存模块，和大容量存储器，如只读光盘驱动器(CD-ROM)和硬盘等。当所述处理器202执行计算机程序时，所述存储介质204可存储计算机程序，以处理各种程序。

进一步地，所述外围设备212可以包括各种传感器和其他I/O设备，如键盘，鼠标和触摸屏等。所述通讯模块208可以包括利用通讯网络建立连接的某些网络接口设备。所述数据库210可以包括至少一个数据库，用于存储某些数据，和对存储的数据执行至少一个操作，如数据库搜索。

在操作过程中，通过所述终端102，所述用户108可以直接在所述终端102上，或者在各种在线服务器106上请求查询图像。为了获取所述查询图像的感兴趣对象，在所述用户108和所述终端102之间，执行所述查询图像的交互式分割。在所述服务器106的地图应用中，所述终端102可以确定感兴趣对象的轮廓从而寻找路线。所述路线与所述感兴趣对象的轮廓具有最大重叠区域，所述路线被推荐给所述用户108，同时可以被共享在所述服务器106的至少一个社交网络平台上。

运用图割、水平集方法、随机游动和凸松弛技术等，关于算法方法的语义分割有效地计算各成本函数的最小能量解。尽管大量的算法在进步，最先进的交互式图像分割方法往往由于不同照明条件下，如颜色，对象有不同表现等复杂的场景色彩变化而应用失败。

在某些实施例中，假定每个人都具有相对稳定的个人特征。可以使用条件随机场方法来建立个性化知识库，久而久之，可以减少用户交互工作量。一种端到端可训练的网络包括全连接卷积网络以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF)，如个人图片册。任意用户交互，所述用户交互带有由未知图像的不满意分割结果所触发的所述更新的地面实况，以误差倒数的形式被持续性反向传播。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。

拥有隐藏单元条件随机场(CRF)的一种新型深度神经网络(DNN)公式已经确立。一种基于超像素的公式被用于优化语义分割同时学习筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法，可用于开发其他设置如自主车辆导航的特定领域的语境线索，在这一方面，一个适当的筛选标准公式将取代现有的公式用于语义分割。

运用可训练的端到端模块推理筛选学习方案以便获悉语义分割中，用户进行交互时的超像素筛选标准。为此，本发明公开了一种筛选隐藏单元随机场，它具有二进制随机隐藏变量，以表示为观测数据而计算特征的筛选标准。在语义分割中，所述二进制随机隐藏变量用于推理给定图形领域是否在用户感兴趣的范围之内。如，一个人可以对动物特别感兴趣，而另外一个人可能只对精神层面的上帝形象着迷。本发明的目的在于将这些个性化特征转换为二进制随机隐藏变量，以了解超像素筛选标准。

图3为本发明具体实施方式的超像素条件随机场的代表性因子示意图。x_i表示从图像的所述超像素i^th提取出的用于不同专业，如边缘检测器、外形特征、视觉词典和卷积特征图的提取信息。h_i是一个潜在的二进制随机变量代表超像素i^th是否感兴趣，s_n表示用于图像中连接超像素n^th的分割标签(前景/背景)。方框组表示通过计算连接变量节点而得出的因子，相同组中的因子外形相同，共享参数。给定一组观测值x和参数θ，所述分割标签s的条件可能性公式模型如下：

其中

一种带有隐藏单元条件随机场(CRF)的超像素筛选标准的新型深度神经网络(DNN)公式已被建立。一种基于超像素公式用于优化语义分割，同时学习超像素筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法，可用于开发其他设置如自主车辆导航的特定领域的语境线索，在这一方面，一个适当的筛选标准公式将取代现有的公式用于语义分割。

在公式(2)中，i，j∈E表示所述i^th和所述j^th超像素共享一个边界，并且外形相似。所述因子有以下含义。所述表示一个计算值，该值反映了在所述超像素i^th中存在前景的可能性(如图3所示的第4组中的方框)。具体地，可以使用全卷积神经网络来获得像素预测。表示连接超级像素的邻域兼容性，代表外形间的相似性(如图3所示的第3组方框中)。

表示所述超像素的所述筛选标准指示是否为所述图像中的所述连接超像素n^th做分割标记(如图3所示的第2组方框)。φ^k(s_n)表示关于所述图像中所述连接超像素n^th的前置信息(如图3所示的第1组方框中)，利用高斯混合模型(GMM)建模。

给定由一组超像素组成的所述参数θ和所述观测图像x，标签由

argmax_s p(s＝s₁，…s_N|x，θ)提供。通过最大化估计所述参数θ：

所述梯度L(θ)和所述p(s＝s₁，…s_N|x，θ)的计算涉及到如配分函数∑_s∑_hexp(ψ(s，h，x；θ))的估算。连接图中周期的存在阻碍了使用这些数量推理的精确方法。因此，在所述因子图中，置信度传播(LBP)算法被用来处理近似推理。

除了在信息传递推理中深入学习信息，所述信息是指编码标签分布信息的k维向量，在这一LBP近似推理算法中，卷积神经网络(CNN)估计值直接输出所需的中间值。具体地，对于每个可变因素的联系，变量到因子的信息：因子到变量的信息：将均进行递归计算。一旦获得一个变量节点的所有所述因子到变量的信息，就可以计算出所述变量的边缘分布(意见)：

其中，Z_n是一个正规化子，

图4为本发明具体实施方式的用于推荐和共享定制多媒体路线规划方法流程图。如图4所示，本发明所公开的方法400可以包括以下步骤。

步骤S410：从用户中获取查询图像。

具体地，可从任何合适的来源，如，相机输入，本地或云图片相册集，网页，视频帧捕捉工具等中获取所述查询图像。在某些实施例中，查询图像可包括附加的用户指定信息，包括对象边界框，用户地理位置，地图比例，以及预期路线长度等。

步骤S420：执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓。

具体地，通过执行所述查询图像初始化，可获取初始微调。所述“微调”是指包括三个识别区域的图像：前景区域，背景区域和保留区域。进一步地，微调初始化还可以包括在初始前景区域和初始背景区域的每个像素中建立高斯混合模型(GMM)。在某些实施例中，所述分割处理可以通过使用迭代能量最小化方法来实现。

所述步骤S420还可以包括以下子步骤。

步骤S421：基于一个性化的知识库，通过全连接卷积网络和卷积神经网络信息估计器连接所述查询图像，从而推理隐藏单元条件随机场。

步骤S422：持续性反向传播带有由未知图像的不满意分割结果所触发的更新的地面实况的误差导数。

步骤S423：优化语义分割并学习超像素筛选标准，以构建个性化的知识库。

具体地，假定每一个人都具有相对稳定的个人特征。隐藏单元条件随机场方法可以用来建立个性化的知识库，久而久之，可以减少用户交互工作量。一种端到端可训练网络包括全连接卷积网络和隐藏单元条件随机场(CRF)，所述端到端可训练网络可在给定的数据集，如个人图片册中进行预训练。任意用户交互，此用户交互带有由未知图像的不满意分割结果所触发的更新的地面实况，以误差导数的形式被持续性反向传播。是否触发更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。

带有隐藏单元条件随机场(CRF)的超像素筛选标准的新型深度神经网络(DNN)公式已建立。一种基于超像素的公式用于优化语义分割，同时学习所述筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法，可用于开发其他设置如自主车辆导航的特定领域的语境线索，在这一方面，一个适当的筛选标准公式将取代现有的公式用于语义分割。

步骤430：确定一路线，所述路线与地图图像中所述感兴趣对象的所述至少一个轮廓有最大重叠区域。

具体地，基于所述感兴趣对象的所述至少一个轮廓，可在所述地图图像上确定一与所述感兴趣对象的所述至少一个轮廓有最大重叠区域的路线。

在一些实施例中，可以从任何合适的地图应用中获取一张地图，如谷歌地图，Tomtom地图，Garmin地图等。基于步骤410中获得的所述用户地理位置和所述地图比例，可以生成一张地图图像。

步骤S440：生成一输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线。

具体地，生成一输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线。

在一些实施例中，可以通过使用任何合适的可定制渲染技术生成所述输出图像。例如，所述感兴趣对象可以半透明地融合到匹配的路线上，表明期望特征和共享目标之间的相似性。

步骤S450：将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

最后，可以向所述用户推荐输出渲染结果，例如，在所述终端102的所述显示器206上呈现给所述用户。进一步地，根据所述用户的指示，所述输出渲染结果可以在至少一个社交网络多媒体平台上共享，例如脸书，微信等。

相应地，本发明公开了一种推荐和共享定制多媒体路线规划方法及系统。所公开的方法及系统能为有非常活跃生活方式的个人提供更个性化的路线规划。为了建立更多和参与度更高的观众，用户可以定制路线规划，所述路线以个人特质，如个人兴趣，个人目标，宗教信仰，甚至每次需要运动时的情绪为特征。

本发明所公开的推荐和共享定制多媒体路线规划的方法及系统中，基于个人图像集，交互式MorphSnakes算法能够为个人定制更多个性化的路线规划。执行交互式分割程序后，为了找到有可能匹配用户特定轮廓的候选路线，交互式MorphSnakes算法可通过一系列曲率形态学算子的连续应用粗略估计偏微分方程(PDE)的数值解，所述曲率形态学算子由二进制水平集上的等价无穷小行为定义。当所述曲线接近预期路线时，根据其稳定性，通过引入一度量评估曲线变化的收敛。利用该收敛准则，可以自然地生成候选路线。进一步地，可通过执行收缩最小化过程最小化每一候选路线和用户特定轮廓之间的失真误差，从而完成推荐给所述用户的最佳匹配路线。

在一些实施例中，本发明所公开的基于图像的路线推荐和共享方法及系统可适用于其他基于多媒体的目标推荐和共享。例如，除了所述图像输入之外，多媒体输入也可以包括文本，音频，视频，动画，缩略图，任何其他合适类型的多媒体输入，或这些多媒体的组合输入。所述基于多媒体的目标推荐和共享方法可以从多媒体输入中交互地制作诸如形状，颜色，动态条件，节奏等所需的特征。接着，用户确定被共享的目标。所获得的特征可以覆盖到目标平台上，如地图应用程序，相册应用程序，媒体播放应用程序等，以自动地处理和搜索所述共享目标，例如个性化路线，个性化图片，个性化音乐，个性化视频等。在将所述原始多媒体输入和所述共享目标融合之后，渲染后的输出结果可在社交媒体上共享。

本发明公开的定制多媒体路线推荐和共享的方法及系统为厌倦了例程和维持非常活跃生活方式的个人定制更为个性化的路线规划。例如，定期慢跑者/自行车手可定制以个人特质，如兴趣爱好，个人目标，宗教信仰，甚至每次运动时的心情为特征的不同路线。利用流行的多媒体应用，可以使用移动设备中的个人多媒体内容收集设计个人特质。还可以向用户推荐个性化路线，也可以在各种社交网络多媒体平台上共享个性化路线，从而显著地改变社会动态以实现更好的人类交互体验。

图5为本发明公开的推荐和共享定制多媒体路线规划系统的示意图。如图5所示，所述系统包括交互式分割模块510，路线搜索模块520，以及路线推荐模块530。其他模块也可以包括在内。

所述交互式分割模块510用于从用户中获得查询图像，执行一交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓。具体地，在所述交互式分割模块510中，基于一个性化的知识库，通过全连接卷积网络和卷积神经网络信息估计器连接所述查询图像，从而推理隐藏单元条件随机场。当所述用户提供所述前景与背景限制，所述误差导数被持续地反向传播至带有更新的地面实况的超像素筛选程序，所述更新的地面实况由未知图像的不满意分割结果所触发。然后，语义分割得到优化，并且学习所述超像素筛选标准，以建立个性化知识库，久而久之，可减少用户工作量。

所述路线搜索模块520，用于确定在地图图像中与所述感兴趣对象的所述至少一个轮廓有最大重叠区域的路线。具体地，MorphSnakes算法用来检索八个不同方向的候选路线。形态地测活动轮廓(GAC)框架通过最小化能量函数以演化曲线。然后，使用MPEG-4形变误差执行评估方法以产生最终匹配结果。

所述路线推荐模块530用于生成一输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的路线，所述输出图像被推荐给所述用户，也可被共享到社交网络平台。

基于图像的路线推荐装置为厌倦了例程和维持非常活跃的生活方式的个人定制更为个性化的路线规划。例如，定期慢跑者/骑自行车的人可以从以个人特质(如兴趣爱好，个人目标，宗教信仰，甚至每次运动都需要的心情)为特征的各种定制路线中受益。利用现行的多媒体应用，可合理地假设移动设备中的个人相册在一定程度上能捕获这些个人特质。基于这样的假设，通过条件随机场方法，可以建立语义图像分割的个性化知识库。

用户可以查询具有指定对象边界框，用户地理位置，地图比例和预期路线长度的图像。在给定任何一张查询图像的情况下，交互式分割可确保所述感兴趣对象的精准分割，生成用于使用MorphSnakes算法在谷歌地图上搜索路线的对象轮廓。然后，向用户推荐与所述感兴趣对象的所述轮廓有最大重叠区域的路线。然而，所述用户需要的所述图像编辑(交互式分割)往往由于复杂的场景色彩变化，即同种颜色的对象在不同光照下有不同表现而应用失败。这样的障碍可以通过运用所推荐的条件随机场方法构建个性化知识库消除。

图6为本发明具体实施方式的另一推荐与共享定制多媒体路线系统的示意图。如图6所示，用户提供一张带有附加信息。如用户指定对象边界框，用户方位，地图比例，到交互式分割功能板块的预期路线长度的查询图像(如图6A的狗)。在所述交互式功能板块生成所述感兴趣对象的至少一个候选轮廓之后，所述用户提供前景和背景限制来优化语义分割过程。与此同时，所述前景和背景限制被学习为所述超像素筛选标准，以建立和增强个性化知识库。如图6B所示的狗的结果轮廓被提供给路线搜索功能板块。

所述路线搜索功能板块使用来自交互式分割功能板块的轮廓来确定与地图上所述兴趣对象的至少一个轮廓有最大重叠区域的路线。具体地，MorphSnakes算法用来检索八个不同方向的候选路线。形态地测活动轮廓(GAC)框架用于通过最小化能量函数来演化曲线。将所述候选路线，如图6C中狗的轮廓重叠地图图像，发送到推荐功能板块。

所述推荐功能板块使用MPEG-4失真误差，对候选路线应用评估方法以生成最终匹配结果。然后将验证过后的路线推荐给所述用户。

图7为本发明具体实施方式的交互式分割模块的示意图。如图7所示，所述交互式分割模块包括图像筛选单元511，图像编辑单元512，图像处理单元513，以及个性化知识库单元514。

所述图像筛选单元511用于允许所述用户筛选查询图像。所述用户也可以输入指定对象边界框，用户地理位置，地图比例，以及期望路线长度，和/或其他信息。

所述图像编辑单元512用于允许所述用户通过提供所述前景和背景限制来编辑与所述查询图像重叠的所述超像素轮廓。所述用户编辑的图像，往往由于复杂的场景色彩变化，即同种颜色的对象在不同光照下有不同表现而应用失败。这样的障碍可以通过运用所推荐的条件随机场方法构建个性化知识库消除。

条件随机场所述图像处理单元513用于处理所述查询图像，通过语义图像分割，生成至少一个超像素轮廓。如图7所示的一实施例中，所述图像处理单元513还包括全卷积网络和超像素筛选器513b。

在本发明公开的某些实施例中，假设每个人都具有相对稳定的个人特征。可以使用条件随机场方法来建立个性化知识库，久而久之，可以减少用户交互工作量。一种端到端可训练网络包括全连接卷积网络513a以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF)超像素筛选器513b，如个人图片册。任意带有更新的地面实况的用户交互以误差导数的形式被持续性反向传播，所述更新的地面实况由未知图像的不满意分割结果所触发。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。

所述全卷积网络是针对语义分割进行端对端，像素到像素的训练。所述全卷积网络(FCN)可以有效地学习对诸如所述语义分割的每个像素任务进行密集预测。通过密集的前馈计算和反向传播，学习和推理都是通过一次性全图像进行的。网内上采样层能够使网内的像素预测和学习进行下采样池化。

带有隐藏单元条件随机场(CRF)的一种新型深度神经网络(DNN)公式已经确立。一种基于超像素的公式用于优化语义分割并同时学习所述筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法，可用于开发其他设置如自主车辆导航的特定领域的语境线索，在这一方面，一个适当的筛选标准公式将取代现有的公式用于语义分割。条件随机场

在语义分割的用户交互中，可使用可训练端到端模块推理筛选学习方案以学习所述超像素筛选标准。为此，提出了一种具有二进制随机隐藏变量的筛选隐藏单元随机场，以表示为观测数据而计算的特征筛选标准。在所述语义分割的语境中，所述二进制随机隐藏变量用于推理给定图形领域是否在所述用户的兴趣范围之内。如，一个人可以对动物特别感兴趣，而另外一个人只对精神层面的上帝形象着迷。本发明的目的在于通过将这些个性化特征转换为二进制随机隐藏变量，以学习所述超像素筛选标准。

所述个性化知识库单元514用于自适应学习所述用户偏好或在未知设定中带有语境线索的筛选标准，以减少所述用户图像编辑的精力并最终取代用户交互。所述图像处理单元513还从所述用户图像编辑中提取并发送反馈给所述个性化知识库单元。

图8为本发明具体实施方式的另一交互式分割模块的示意图。如图8所示，查询图像8A被提供给全卷积网络和超像素筛选器。所述全卷积网络执行所述语义分割，而所述超像素筛选器在所述查询图像中生成至少一个轮廓8B。

另一方面，将所述查询图像中的所述轮廓8B呈现给用户进行编辑。用户输入以带有更新的地面实况的误差导数的形式反向传播至所述超像素筛选器和所述全卷积网络。与此同时，用于建立个性化知识库的全卷积网络获悉所述用户偏好。一旦建立起所述个性化知识库，所述超像素筛选器便可以将累积在所述个性化知识库中的知识运用于轮廓生成程序中。

通过使用本发明所公开的系统和方法，假定每个用户有他/她自己编辑图像的个人标准/习惯，且这种个人特质相对稳定，那么通过建立个性化知识库，所述用户所需的交互工作量会逐渐减少。运用隐藏单元条件随机场方法以建立个性化知识库。一种端到端可训练网络包括全连接卷积网络以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF)，如个人图片册。任意带有更新的地面实况的用户交互以误差导数的形式，被持续性反向传播，所述更新的地名实况由未知图像的不满意分割结果所触发。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。一种基于超像素的深度神经网络(DNN)公式用于优化语义分割并同时学习所述筛选标准。此外，虽然所述公式是来源于能够进行更个性化路线规划的基于图像的路线推荐系统的应用需求，但这是一种开放式方案，开发其他设置如自主车辆导航的特定领域的语境线索。

本发明提供实例用于向本领域普通技术人员描述本发明，而不应当限制本发明的范围。

本发明已详细描述各个实施例，在本发明的某些实施例中，未详细描述的部分可以参考其他实施例的相关描述。

在本文提供的各种实施例中，应当理解，所公开的系统和方法可以通过其他方式实现。所公开的系统的实施例仅仅是说明性的。例如，基于逻辑函数对单元进行分区。在实际生活的应用中，可以采用其他分区方法。例如，多个单元或模块可以组合或融入到另一系统中。某些功能可以被忽略或不执行。另外，上述已公开或讨论的互耦合，直接耦合或通信连接可以通过某些接口来执行，或者通过单元或模块之间的间接耦合或通信连接实现。互连方式可以是电子形式或其他形式。

本发明提供实例用于向本领域普通技术人员描述本发明。对所述实例的各种修改对本领域普通技术人员是显而易见的，并且在本发明实施例中给出的一般性原则在不脱离本发明的精神或者保护范围的情况下，也可以应用于其他实施例中。因此，本发明不限于本文所述实例中，而应给予本发明实例所述原则和新特征的更广泛的领域。

Claims

1.一种建立语义图像分割的个性化知识库的方法，其特征在于，包括以下步骤：

从用户中获得查询图像；

执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓；

确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；

生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线；

将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

2.根据权利要求1所述的建立语义图像分割的个性化知识库的方法，其特征在于，所述执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓，还包括：

基于个性化知识库，通过全连接卷积网络和用来推理隐藏单元条件随机场的卷积神经网络信息估计器以连接所述查询图像；

持续性反向传播带有更新的地面实况的误差导数，所述更新的地面实况由未知图像的不满意分割结果所触发；以及

优化语义分割并学习超像素筛选标准，以构建所述个性化知识库。

3.根据权利要求2所述的建立语义图像分割的个性化知识库的方法，其特征在于：

给定一组观测值x和参数θ，分割标签s的条件可能性公式建模如下：

其中

所述参数θ最大化估计为:

且

边缘分布的计算如下：

其中，Z_n是一个正规化子:

4.一种建立语义图像分割的个性化知识库的系统，其特征在于，包括：

交互式分割模块，用于从用户中获得查询图像，并执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓；

路线搜索模块，用于确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线；以及

路线推荐模块，用于生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线；及将所述输出图像推荐给所述用户，并在社交网络平台上共享所述输出图像。

5.根据权利要求4所述的建立语义图像分割的个性化知识库的系统，其特征在于，所述交互式分割模块包括：

图像筛选单元，用于允许所述用户筛选所述查询图像；

图像编辑单元，用于允许所述用户通过提供前景与背景限制，编辑与所述查询图像重叠的超像素轮廓；

图像处理单元，用于通过所述语义图像分割，处理所述查询图像，以生成至少一个所述超像素轮廓；

个性化知识库单元，用于自适应学习所述用户的偏好或未知环境中语境线索的筛选标准，以减少编辑所述用户图像的精力并最终取代所述用户交互。

6.根据权利要求5所述的建立语义图像分割的个性化知识库的系统，其特征在于：

所述图像处理单元还从所述用户的图像编辑中提取并发送反馈给所述个性化知识库单元；

通过条件随机场方法执行所述语义图像分割。

7.根据权利要求6所述的建立语义图像分割的个性化知识库的系统，其特征在于：

所述图像处理单元还包括全卷积网络和超像素筛选器。

8.根据权利要求5所述的建立语义图像分割的个性化知识库的系统，其特征在于：

所述路线搜索模块运用MorphSnakes算法在谷歌地图上搜索路线。

9.根据权利要求5所述的建立语义图像分割的个性化知识库的系统，其特征在于：

所述路线推荐模块向所述用户推荐与所述超像素轮廓有最大重叠区域的所述路线，所述超像素轮廓由所述交互式分割模块生成。

10.一种具有计算机程序的非瞬时性计算机可读介质，其特征在于，当由一处理器执行时，执行推荐基于图像的路线的方法，所述方法包括：

从用户中获得查询图像；

生成输出图像，所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线；以及

11.根据权利要求10所述的具有计算机程序的非瞬时性计算机可读介质，其特征在于，所述执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓还包括：

12.根据权利要求11所述的具有计算机程序的非瞬时性计算机可读介质，其特征在于:

其中

所述参数θ最大化估计为:

且

边缘分布的计算如下：

其中，Z_n是一个正规化子: