CN108280132A - 建立语义图像分割的个性化知识库的方法及系统 - Google Patents
建立语义图像分割的个性化知识库的方法及系统 Download PDFInfo
- Publication number
- CN108280132A CN108280132A CN201711417046.3A CN201711417046A CN108280132A CN 108280132 A CN108280132 A CN 108280132A CN 201711417046 A CN201711417046 A CN 201711417046A CN 108280132 A CN108280132 A CN 108280132A
- Authority
- CN
- China
- Prior art keywords
- image
- segmentation
- user
- profile
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003709 image segmentation Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 69
- 230000002452 interceptive effect Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000001960 triggered effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000007873 sieving Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 16
- 238000013439 planning Methods 0.000 description 12
- 229910002056 binary alloy Inorganic materials 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000009877 rendering Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- BXNJHAXVSOCGBA-UHFFFAOYSA-N Harmine Chemical compound N1=CC=C2C3=CC=C(OC)C=C3NC2=C1C BXNJHAXVSOCGBA-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012152 algorithmic method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000002924 energy minimization method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20096—Interactive definition of curve of interest
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种建立语义图像分割的个性化知识库的方法及系统,所述方法包括:从用户中获得查询图像;执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓;确定在地图图像中与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;生成一输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的路线;及将所述输出图像推荐给所述用户,并在一社交网络平台上共享所述输出图像。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及通过条件随机场来建立语义图像分割的个性化知识库的方法及系统。
背景技术
语义图像分割是一种将图像分成有意义、无重叠区域的像素级标签任务。在复杂的图像中,图像分割是否有意义取决于用户的意图,即,用户到底要想从图像中获得什么。如果可能,正如人们期望的那样,设计一种通用的方法来尽可能准确地分割图像,这是非常具有挑战性的。这会产生高度不适定的问题,因此用户交互是必不可少的,从而增加了用户的交互工作量。
最新的技术方法公开了利用深度学习技术进行图像识别,从而,处理像素级标签任务。这种技术方法的一个核心问题是深度学习技术描绘视觉对象的能力有限,这样通常会导致语义分割任务中出现边界模糊和斑点。卷积神经网络(CNN)无法提供促进相似像素之间标签一致性以及标签输出空间表征连续性的平滑约束。通过建立密集条件随机场(CRF)的平均场近似推理,可将平滑约束纳入循环神经网络(RNN),这样在训练间将误差导数反向传播到所述CNN时,可优化前一步运算中传统循环神经网络的粗糙输出。然而,在不考虑任何用户交互的情况下,这样的深度神经网络(DNN)大多能完善基准数据库。
本发明所公开的方法和系统旨在解决上述至少一个问题以及其他问题。
发明内容
本发明公开的实施例一方面提供了一种建立语义图像分割的个性化知识库的方法。所述方法包括:从用户中获得查询图像;执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓;确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线;将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
任选地,执行一交互式分割处理以确定所述查询图像中所述感兴趣对象的至少一个轮廓,还包括:基于个性化知识库,通过全连接卷积网络和用来推理隐藏单元条件随机场的卷积神经网络信息估计器以连接所述查询图像;持续性反向传播带有更新的地面实况的误差导数,所述更新的地面实况由未知图像的不满意分割结果所触发;以及优化语义分割并学习超像素筛选标准,以构建所述个性化知识库。
任选地,给定一组观测值x和参数θ,分割标签s的条件可能性公式建模如下:
其中
所述参数θ最大化估计为
边缘分布的计算如下:
其中,Zn是一个正规化子:
本发明公开的实施例另一方面公开了一种建立语义图像分割的个性化知识库的系统。所述系统包括:交互式分割模块,用于从用户中获得查询图像,并执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓;路线搜索模块,用于确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;以及路线推荐模块,用于生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线;及将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
任选地,所述交互式分割模块包括:图像筛选单元,用于允许所述用户筛选所述查询图像;图像编辑单元,用于允许所述用户通过提供前景与背景限制,编辑与所述查询图像重叠的超像素轮廓;图像处理单元,用于通过所述语义图像分割,处理所述查询图像,以生成至少一个所述超像素轮廓;个性化知识库单元,用于自适应学习所述用户的偏好或未知环境中语境线索的筛选标准,以减少编辑所述用户图像的精力并最终取代所述用户交互。
任选地,所述图像处理单元还从所述用户的图像编辑中提取并发送反馈给所述个性化知识库单元;通过条件随机场方法执行所述语义图像分割。
任选地,所述图像处理单元还包括全卷积网络和超像素筛选器。
任选地,所述路线搜索模块运用MorphSnakes算法在谷歌地图上搜索路线。
任选地,所述路线推荐模块向所述用户推荐与所述超像素轮廓有最大重叠区域的所述路线,所述超像素轮廓由所述交互式分割模块生成。
本发明公开的实施例另一方面公开了拥有计算机程序的非瞬时性计算机可读介质,当处理器执行时,执行推荐基于图像的路线的方法。所述方法包括:从用户中获得查询图像;执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓;确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线;以及将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
本领域技术人员根据本发明公开的说明书、权利要求书、以及说明书附图的指引,能够理解本发明公开的其他的方面。
附图说明
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。以下附图仅仅用于解释本发明,并不限制本发明的范围。
图1为本发明具体实施方式的工作环境示意图;
图2为本发明具体实施方式的计算系统框图;
图3为本发明具体实施方式的超像素条件随机场的代表性因子示意图条件随机场;
图4为本发明具体实施方式的用于推荐和共享定制多媒体路线规划方法流程图;
图5为本发明具体实施方式的用于推荐和共享定制多媒体路线规划的系统原理图;
图6为本发明具体实施方式的另一用于推荐与共享定制多媒体路线的系统原理图;
图7为本发明具体实施方式的交互式分割模块的原理图;
图8为本发明具体实施方式的另一交互式分割模块的原理图。
具体实施方式
为了使得本领域技术人员更好地理解本发明,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。除非另外指出,在各附图中相同的参考数字表示相同的部件。应当理解的是,这里所述的实施例只用于解释本发明,但不限于本发明。本领域普通技术人员在无需创造性劳动的前提下获得所有基于本发明的其他实施例,都属于本发明保护的范围。
本发明提供一种通过条件随机场方法来建立语义图像分割的个性化知识库的方法和系统。具体地,本发明公开的所述方法和系统可以用于推荐和共享基于图像的定制路线。
在一些实施例中,所述方法和系统可包括有指定对象边界框的查询图像,用户地理位置,地图比例和预期路线长度,和/或其他信息。在给定任何一张查询图像的情况下,交互式分割可确保所述查询图像中感兴趣对象的精准分割。基于匹配算法,在地图上搜索路线,以生成所述感兴趣对象的轮廓。当曲线轮廓接近所述预期路线时,根据轮廓变化的稳定性,可用度量来估算其轮廓变化的集合,从而自然地得出候选路线。此外,可以通过收缩最小化过程最小化每一候选路线和用户指定轮廓之间的失真误差,据此,渲染输出后,完成作为给所述客户最佳推荐的匹配路线。
图1为本发明具体实施方式的工作环境100。如图1所示,所述工作环境100可包括:终端102、服务器106、用户108和网络110。
所述终端102(同时也可以叫做终端设备)指的是任何合适的具有计算功能的用户终端,如个人电脑(PC),电脑工作站,电脑服务器,掌上计算设备(平板电脑),智能手机或移动电话,或任何其他用户端计算设备。在一些实施例中,所述终端102可以作为移动终端设备,例如智能手机,平板电脑,或者移动电话等。所述终端102可以在任何适当类型的运算平台上使用。
任何用户108都可使用所述终端102连接所述网络110,并且向所述服务器106发出请求。所述每一用户108可以使用至少一个所述终端102。在所述用户108的指示下,所述终端102可从任何适当来源中,如从本地存储设备,从服务供应商的有线或无线网络设备,或从因特网中获取诸如图像,视频,音频,文本等多媒体内容。
进一步地,所述服务器106可指用于提供地图功能和社交网络平台功能的至少一个电脑服务器(如地图检索服务器,图像共享平台服务器等)。所述服务器106可以包括用以并行执行电脑程序的一个或者多个处理器。所述服务器106可存储地图信息,所述终端可访问所述地图信息。所述服务器106也可以根据所述用户108的要求,为所述终端102提供多种社交媒体平台。所述服务器106也可以是云服务器。
所述终端102和所述服务器106可通过通讯网络110,如电缆网络,宽带网络,无线网络,和/或卫星网络等,相互通讯。尽管图1只显示了一个用户108,一个终端102和一个服务器106,但也可以表示任意数量的用户,终端,和/或其他服务器。
所述终端102和/或所述服务器106可以在任何适当的计算机电路平台上使用。图2为本发明具体实施方式的计算系统200的框图,所述终端102和/或所述服务器106可运用于所述计算系统中。
如图2所示,所述计算系统200包括处理器202,存储介质204,显示器206,通讯模块208,数据库210以及外围设备212。在不违背本实施方案原则的情况下,可以减省某些设备,也可以添加一些其他类型的设备。
所述处理器202可以包括任何合适的硬件处理器或其他处理器。进一步地,所述处理器202可以包括用于多线程或并行处理的多个核心的处理器。所述存储介质204可包括内存模块,如只读存储器(ROM),随机存取存储器(RAM),闪存模块,和大容量存储器,如只读光盘驱动器(CD-ROM)和硬盘等。当所述处理器202执行计算机程序时,所述存储介质204可存储计算机程序,以处理各种程序。
进一步地,所述外围设备212可以包括各种传感器和其他I/O设备,如键盘,鼠标和触摸屏等。所述通讯模块208可以包括利用通讯网络建立连接的某些网络接口设备。所述数据库210可以包括至少一个数据库,用于存储某些数据,和对存储的数据执行至少一个操作,如数据库搜索。
在操作过程中,通过所述终端102,所述用户108可以直接在所述终端102上,或者在各种在线服务器106上请求查询图像。为了获取所述查询图像的感兴趣对象,在所述用户108和所述终端102之间,执行所述查询图像的交互式分割。在所述服务器106的地图应用中,所述终端102可以确定感兴趣对象的轮廓从而寻找路线。所述路线与所述感兴趣对象的轮廓具有最大重叠区域,所述路线被推荐给所述用户108,同时可以被共享在所述服务器106的至少一个社交网络平台上。
运用图割、水平集方法、随机游动和凸松弛技术等,关于算法方法的语义分割有效地计算各成本函数的最小能量解。尽管大量的算法在进步,最先进的交互式图像分割方法往往由于不同照明条件下,如颜色,对象有不同表现等复杂的场景色彩变化而应用失败。
在某些实施例中,假定每个人都具有相对稳定的个人特征。可以使用条件随机场方法来建立个性化知识库,久而久之,可以减少用户交互工作量。一种端到端可训练的网络包括全连接卷积网络以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF),如个人图片册。任意用户交互,所述用户交互带有由未知图像的不满意分割结果所触发的所述更新的地面实况,以误差倒数的形式被持续性反向传播。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。
拥有隐藏单元条件随机场(CRF)的一种新型深度神经网络(DNN)公式已经确立。一种基于超像素的公式被用于优化语义分割同时学习筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法,可用于开发其他设置如自主车辆导航的特定领域的语境线索,在这一方面,一个适当的筛选标准公式将取代现有的公式用于语义分割。
运用可训练的端到端模块推理筛选学习方案以便获悉语义分割中,用户进行交互时的超像素筛选标准。为此,本发明公开了一种筛选隐藏单元随机场,它具有二进制随机隐藏变量,以表示为观测数据而计算特征的筛选标准。在语义分割中,所述二进制随机隐藏变量用于推理给定图形领域是否在用户感兴趣的范围之内。如,一个人可以对动物特别感兴趣,而另外一个人可能只对精神层面的上帝形象着迷。本发明的目的在于将这些个性化特征转换为二进制随机隐藏变量,以了解超像素筛选标准。
图3为本发明具体实施方式的超像素条件随机场的代表性因子示意图。xi表示从图像的所述超像素ith提取出的用于不同专业,如边缘检测器、外形特征、视觉词典和卷积特征图的提取信息。hi是一个潜在的二进制随机变量代表超像素ith是否感兴趣,sn表示用于图像中连接超像素nth的分割标签(前景/背景)。方框组表示通过计算连接变量节点而得出的因子,相同组中的因子外形相同,共享参数。给定一组观测值x和参数θ,所述分割标签s的条件可能性公式模型如下:
其中
一种带有隐藏单元条件随机场(CRF)的超像素筛选标准的新型深度神经网络(DNN)公式已被建立。一种基于超像素公式用于优化语义分割,同时学习超像素筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法,可用于开发其他设置如自主车辆导航的特定领域的语境线索,在这一方面,一个适当的筛选标准公式将取代现有的公式用于语义分割。
在公式(2)中,i,j∈E表示所述ith和所述jth超像素共享一个边界,并且外形相似。所述因子有以下含义。所述表示一个计算值,该值反映了在所述超像素ith中存在前景的可能性(如图3所示的第4组中的方框)。具体地,可以使用全卷积神经网络来获得像素预测。表示连接超级像素的邻域兼容性,代表外形间的相似性(如图3所示的第3组方框中)。
表示所述超像素的所述筛选标准指示是否为所述图像中的所述连接超像素nth做分割标记(如图3所示的第2组方框)。φk(sn)表示关于所述图像中所述连接超像素nth的前置信息(如图3所示的第1组方框中),利用高斯混合模型(GMM)建模。
给定由一组超像素组成的所述参数θ和所述观测图像x,标签由
argmaxs p(s=s1,…sN|x,θ)提供。通过最大化估计所述参数θ:
所述梯度L(θ)和所述p(s=s1,…sN|x,θ)的计算涉及到如配分函数∑s∑hexp(ψ(s,h,x;θ))的估算。连接图中周期的存在阻碍了使用这些数量推理的精确方法。因此,在所述因子图中,置信度传播(LBP)算法被用来处理近似推理。
除了在信息传递推理中深入学习信息,所述信息是指编码标签分布信息的k维向量,在这一LBP近似推理算法中,卷积神经网络(CNN)估计值直接输出所需的中间值。具体地,对于每个可变因素的联系,变量到因子的信息:因子到变量的信息:将均进行递归计算。一旦获得一个变量节点的所有所述因子到变量的信息,就可以计算出所述变量的边缘分布(意见):
其中,Zn是一个正规化子,
图4为本发明具体实施方式的用于推荐和共享定制多媒体路线规划方法流程图。如图4所示,本发明所公开的方法400可以包括以下步骤。
步骤S410:从用户中获取查询图像。
具体地,可从任何合适的来源,如,相机输入,本地或云图片相册集,网页,视频帧捕捉工具等中获取所述查询图像。在某些实施例中,查询图像可包括附加的用户指定信息,包括对象边界框,用户地理位置,地图比例,以及预期路线长度等。
步骤S420:执行一交互式分割处理以确定所述查询图像中一感兴趣对象的至少一个轮廓。
具体地,通过执行所述查询图像初始化,可获取初始微调。所述“微调”是指包括三个识别区域的图像:前景区域,背景区域和保留区域。进一步地,微调初始化还可以包括在初始前景区域和初始背景区域的每个像素中建立高斯混合模型(GMM)。在某些实施例中,所述分割处理可以通过使用迭代能量最小化方法来实现。
所述步骤S420还可以包括以下子步骤。
步骤S421:基于一个性化的知识库,通过全连接卷积网络和卷积神经网络信息估计器连接所述查询图像,从而推理隐藏单元条件随机场。
步骤S422:持续性反向传播带有由未知图像的不满意分割结果所触发的更新的地面实况的误差导数。
步骤S423:优化语义分割并学习超像素筛选标准,以构建个性化的知识库。
具体地,假定每一个人都具有相对稳定的个人特征。隐藏单元条件随机场方法可以用来建立个性化的知识库,久而久之,可以减少用户交互工作量。一种端到端可训练网络包括全连接卷积网络和隐藏单元条件随机场(CRF),所述端到端可训练网络可在给定的数据集,如个人图片册中进行预训练。任意用户交互,此用户交互带有由未知图像的不满意分割结果所触发的更新的地面实况,以误差导数的形式被持续性反向传播。是否触发更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。
带有隐藏单元条件随机场(CRF)的超像素筛选标准的新型深度神经网络(DNN)公式已建立。一种基于超像素的公式用于优化语义分割,同时学习所述筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法,可用于开发其他设置如自主车辆导航的特定领域的语境线索,在这一方面,一个适当的筛选标准公式将取代现有的公式用于语义分割。
步骤430:确定一路线,所述路线与地图图像中所述感兴趣对象的所述至少一个轮廓有最大重叠区域。
具体地,基于所述感兴趣对象的所述至少一个轮廓,可在所述地图图像上确定一与所述感兴趣对象的所述至少一个轮廓有最大重叠区域的路线。
在一些实施例中,可以从任何合适的地图应用中获取一张地图,如谷歌地图,Tomtom地图,Garmin地图等。基于步骤410中获得的所述用户地理位置和所述地图比例,可以生成一张地图图像。
步骤S440:生成一输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线。
具体地,生成一输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线。
在一些实施例中,可以通过使用任何合适的可定制渲染技术生成所述输出图像。例如,所述感兴趣对象可以半透明地融合到匹配的路线上,表明期望特征和共享目标之间的相似性。
步骤S450:将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
最后,可以向所述用户推荐输出渲染结果,例如,在所述终端102的所述显示器206上呈现给所述用户。进一步地,根据所述用户的指示,所述输出渲染结果可以在至少一个社交网络多媒体平台上共享,例如脸书,微信等。
相应地,本发明公开了一种推荐和共享定制多媒体路线规划方法及系统。所公开的方法及系统能为有非常活跃生活方式的个人提供更个性化的路线规划。为了建立更多和参与度更高的观众,用户可以定制路线规划,所述路线以个人特质,如个人兴趣,个人目标,宗教信仰,甚至每次需要运动时的情绪为特征。
本发明所公开的推荐和共享定制多媒体路线规划的方法及系统中,基于个人图像集,交互式MorphSnakes算法能够为个人定制更多个性化的路线规划。执行交互式分割程序后,为了找到有可能匹配用户特定轮廓的候选路线,交互式MorphSnakes算法可通过一系列曲率形态学算子的连续应用粗略估计偏微分方程(PDE)的数值解,所述曲率形态学算子由二进制水平集上的等价无穷小行为定义。当所述曲线接近预期路线时,根据其稳定性,通过引入一度量评估曲线变化的收敛。利用该收敛准则,可以自然地生成候选路线。进一步地,可通过执行收缩最小化过程最小化每一候选路线和用户特定轮廓之间的失真误差,从而完成推荐给所述用户的最佳匹配路线。
在一些实施例中,本发明所公开的基于图像的路线推荐和共享方法及系统可适用于其他基于多媒体的目标推荐和共享。例如,除了所述图像输入之外,多媒体输入也可以包括文本,音频,视频,动画,缩略图,任何其他合适类型的多媒体输入,或这些多媒体的组合输入。所述基于多媒体的目标推荐和共享方法可以从多媒体输入中交互地制作诸如形状,颜色,动态条件,节奏等所需的特征。接着,用户确定被共享的目标。所获得的特征可以覆盖到目标平台上,如地图应用程序,相册应用程序,媒体播放应用程序等,以自动地处理和搜索所述共享目标,例如个性化路线,个性化图片,个性化音乐,个性化视频等。在将所述原始多媒体输入和所述共享目标融合之后,渲染后的输出结果可在社交媒体上共享。
本发明公开的定制多媒体路线推荐和共享的方法及系统为厌倦了例程和维持非常活跃生活方式的个人定制更为个性化的路线规划。例如,定期慢跑者/自行车手可定制以个人特质,如兴趣爱好,个人目标,宗教信仰,甚至每次运动时的心情为特征的不同路线。利用流行的多媒体应用,可以使用移动设备中的个人多媒体内容收集设计个人特质。还可以向用户推荐个性化路线,也可以在各种社交网络多媒体平台上共享个性化路线,从而显著地改变社会动态以实现更好的人类交互体验。
图5为本发明公开的推荐和共享定制多媒体路线规划系统的示意图。如图5所示,所述系统包括交互式分割模块510,路线搜索模块520,以及路线推荐模块530。其他模块也可以包括在内。
所述交互式分割模块510用于从用户中获得查询图像,执行一交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓。具体地,在所述交互式分割模块510中,基于一个性化的知识库,通过全连接卷积网络和卷积神经网络信息估计器连接所述查询图像,从而推理隐藏单元条件随机场。当所述用户提供所述前景与背景限制,所述误差导数被持续地反向传播至带有更新的地面实况的超像素筛选程序,所述更新的地面实况由未知图像的不满意分割结果所触发。然后,语义分割得到优化,并且学习所述超像素筛选标准,以建立个性化知识库,久而久之,可减少用户工作量。
所述路线搜索模块520,用于确定在地图图像中与所述感兴趣对象的所述至少一个轮廓有最大重叠区域的路线。具体地,MorphSnakes算法用来检索八个不同方向的候选路线。形态地测活动轮廓(GAC)框架通过最小化能量函数以演化曲线。然后,使用MPEG-4形变误差执行评估方法以产生最终匹配结果。
所述路线推荐模块530用于生成一输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的路线,所述输出图像被推荐给所述用户,也可被共享到社交网络平台。
基于图像的路线推荐装置为厌倦了例程和维持非常活跃的生活方式的个人定制更为个性化的路线规划。例如,定期慢跑者/骑自行车的人可以从以个人特质(如兴趣爱好,个人目标,宗教信仰,甚至每次运动都需要的心情)为特征的各种定制路线中受益。利用现行的多媒体应用,可合理地假设移动设备中的个人相册在一定程度上能捕获这些个人特质。基于这样的假设,通过条件随机场方法,可以建立语义图像分割的个性化知识库。
用户可以查询具有指定对象边界框,用户地理位置,地图比例和预期路线长度的图像。在给定任何一张查询图像的情况下,交互式分割可确保所述感兴趣对象的精准分割,生成用于使用MorphSnakes算法在谷歌地图上搜索路线的对象轮廓。然后,向用户推荐与所述感兴趣对象的所述轮廓有最大重叠区域的路线。然而,所述用户需要的所述图像编辑(交互式分割)往往由于复杂的场景色彩变化,即同种颜色的对象在不同光照下有不同表现而应用失败。这样的障碍可以通过运用所推荐的条件随机场方法构建个性化知识库消除。
图6为本发明具体实施方式的另一推荐与共享定制多媒体路线系统的示意图。如图6所示,用户提供一张带有附加信息。如用户指定对象边界框,用户方位,地图比例,到交互式分割功能板块的预期路线长度的查询图像(如图6A的狗)。在所述交互式功能板块生成所述感兴趣对象的至少一个候选轮廓之后,所述用户提供前景和背景限制来优化语义分割过程。与此同时,所述前景和背景限制被学习为所述超像素筛选标准,以建立和增强个性化知识库。如图6B所示的狗的结果轮廓被提供给路线搜索功能板块。
所述路线搜索功能板块使用来自交互式分割功能板块的轮廓来确定与地图上所述兴趣对象的至少一个轮廓有最大重叠区域的路线。具体地,MorphSnakes算法用来检索八个不同方向的候选路线。形态地测活动轮廓(GAC)框架用于通过最小化能量函数来演化曲线。将所述候选路线,如图6C中狗的轮廓重叠地图图像,发送到推荐功能板块。
所述推荐功能板块使用MPEG-4失真误差,对候选路线应用评估方法以生成最终匹配结果。然后将验证过后的路线推荐给所述用户。
图7为本发明具体实施方式的交互式分割模块的示意图。如图7所示,所述交互式分割模块包括图像筛选单元511,图像编辑单元512,图像处理单元513,以及个性化知识库单元514。
所述图像筛选单元511用于允许所述用户筛选查询图像。所述用户也可以输入指定对象边界框,用户地理位置,地图比例,以及期望路线长度,和/或其他信息。
所述图像编辑单元512用于允许所述用户通过提供所述前景和背景限制来编辑与所述查询图像重叠的所述超像素轮廓。所述用户编辑的图像,往往由于复杂的场景色彩变化,即同种颜色的对象在不同光照下有不同表现而应用失败。这样的障碍可以通过运用所推荐的条件随机场方法构建个性化知识库消除。
条件随机场所述图像处理单元513用于处理所述查询图像,通过语义图像分割,生成至少一个超像素轮廓。如图7所示的一实施例中,所述图像处理单元513还包括全卷积网络和超像素筛选器513b。
在本发明公开的某些实施例中,假设每个人都具有相对稳定的个人特征。可以使用条件随机场方法来建立个性化知识库,久而久之,可以减少用户交互工作量。一种端到端可训练网络包括全连接卷积网络513a以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF)超像素筛选器513b,如个人图片册。任意带有更新的地面实况的用户交互以误差导数的形式被持续性反向传播,所述更新的地面实况由未知图像的不满意分割结果所触发。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。
所述全卷积网络是针对语义分割进行端对端,像素到像素的训练。所述全卷积网络(FCN)可以有效地学习对诸如所述语义分割的每个像素任务进行密集预测。通过密集的前馈计算和反向传播,学习和推理都是通过一次性全图像进行的。网内上采样层能够使网内的像素预测和学习进行下采样池化。
带有隐藏单元条件随机场(CRF)的一种新型深度神经网络(DNN)公式已经确立。一种基于超像素的公式用于优化语义分割并同时学习所述筛选标准。本发明所公开的条件随机场方法是一种非常通用的公开的方法,可用于开发其他设置如自主车辆导航的特定领域的语境线索,在这一方面,一个适当的筛选标准公式将取代现有的公式用于语义分割。条件随机场
在语义分割的用户交互中,可使用可训练端到端模块推理筛选学习方案以学习所述超像素筛选标准。为此,提出了一种具有二进制随机隐藏变量的筛选隐藏单元随机场,以表示为观测数据而计算的特征筛选标准。在所述语义分割的语境中,所述二进制随机隐藏变量用于推理给定图形领域是否在所述用户的兴趣范围之内。如,一个人可以对动物特别感兴趣,而另外一个人只对精神层面的上帝形象着迷。本发明的目的在于通过将这些个性化特征转换为二进制随机隐藏变量,以学习所述超像素筛选标准。
所述个性化知识库单元514用于自适应学习所述用户偏好或在未知设定中带有语境线索的筛选标准,以减少所述用户图像编辑的精力并最终取代用户交互。所述图像处理单元513还从所述用户图像编辑中提取并发送反馈给所述个性化知识库单元。
图8为本发明具体实施方式的另一交互式分割模块的示意图。如图8所示,查询图像8A被提供给全卷积网络和超像素筛选器。所述全卷积网络执行所述语义分割,而所述超像素筛选器在所述查询图像中生成至少一个轮廓8B。
另一方面,将所述查询图像中的所述轮廓8B呈现给用户进行编辑。用户输入以带有更新的地面实况的误差导数的形式反向传播至所述超像素筛选器和所述全卷积网络。与此同时,用于建立个性化知识库的全卷积网络获悉所述用户偏好。一旦建立起所述个性化知识库,所述超像素筛选器便可以将累积在所述个性化知识库中的知识运用于轮廓生成程序中。
通过使用本发明所公开的系统和方法,假定每个用户有他/她自己编辑图像的个人标准/习惯,且这种个人特质相对稳定,那么通过建立个性化知识库,所述用户所需的交互工作量会逐渐减少。运用隐藏单元条件随机场方法以建立个性化知识库。一种端到端可训练网络包括全连接卷积网络以及在指定图像资料组上进行预训练的隐藏单元条件随机场(CRF),如个人图片册。任意带有更新的地面实况的用户交互以误差导数的形式,被持续性反向传播,所述更新的地名实况由未知图像的不满意分割结果所触发。是否触发所述更新的筛选标准用隐藏单元条件随机场(CRF)的二进制隐藏变量表示。一种基于超像素的深度神经网络(DNN)公式用于优化语义分割并同时学习所述筛选标准。此外,虽然所述公式是来源于能够进行更个性化路线规划的基于图像的路线推荐系统的应用需求,但这是一种开放式方案,开发其他设置如自主车辆导航的特定领域的语境线索。
本发明提供实例用于向本领域普通技术人员描述本发明,而不应当限制本发明的范围。
本发明已详细描述各个实施例,在本发明的某些实施例中,未详细描述的部分可以参考其他实施例的相关描述。
在本文提供的各种实施例中,应当理解,所公开的系统和方法可以通过其他方式实现。所公开的系统的实施例仅仅是说明性的。例如,基于逻辑函数对单元进行分区。在实际生活的应用中,可以采用其他分区方法。例如,多个单元或模块可以组合或融入到另一系统中。某些功能可以被忽略或不执行。另外,上述已公开或讨论的互耦合,直接耦合或通信连接可以通过某些接口来执行,或者通过单元或模块之间的间接耦合或通信连接实现。互连方式可以是电子形式或其他形式。
本发明提供实例用于向本领域普通技术人员描述本发明。对所述实例的各种修改对本领域普通技术人员是显而易见的,并且在本发明实施例中给出的一般性原则在不脱离本发明的精神或者保护范围的情况下,也可以应用于其他实施例中。因此,本发明不限于本文所述实例中,而应给予本发明实例所述原则和新特征的更广泛的领域。
Claims (12)
1.一种建立语义图像分割的个性化知识库的方法,其特征在于,包括以下步骤:
从用户中获得查询图像;
执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓;
确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;
生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线;
将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
2.根据权利要求1所述的建立语义图像分割的个性化知识库的方法,其特征在于,所述执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓,还包括:
基于个性化知识库,通过全连接卷积网络和用来推理隐藏单元条件随机场的卷积神经网络信息估计器以连接所述查询图像;
持续性反向传播带有更新的地面实况的误差导数,所述更新的地面实况由未知图像的不满意分割结果所触发;以及
优化语义分割并学习超像素筛选标准,以构建所述个性化知识库。
3.根据权利要求2所述的建立语义图像分割的个性化知识库的方法,其特征在于:
给定一组观测值x和参数θ,分割标签s的条件可能性公式建模如下:
其中
所述参数θ最大化估计为:
且
边缘分布的计算如下:
其中,Zn是一个正规化子:
4.一种建立语义图像分割的个性化知识库的系统,其特征在于,包括:
交互式分割模块,用于从用户中获得查询图像,并执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓;
路线搜索模块,用于确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;以及
路线推荐模块,用于生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的至少一个轮廓有最大重叠区域的所述路线;及将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
5.根据权利要求4所述的建立语义图像分割的个性化知识库的系统,其特征在于,所述交互式分割模块包括:
图像筛选单元,用于允许所述用户筛选所述查询图像;
图像编辑单元,用于允许所述用户通过提供前景与背景限制,编辑与所述查询图像重叠的超像素轮廓;
图像处理单元,用于通过所述语义图像分割,处理所述查询图像,以生成至少一个所述超像素轮廓;
个性化知识库单元,用于自适应学习所述用户的偏好或未知环境中语境线索的筛选标准,以减少编辑所述用户图像的精力并最终取代所述用户交互。
6.根据权利要求5所述的建立语义图像分割的个性化知识库的系统,其特征在于:
所述图像处理单元还从所述用户的图像编辑中提取并发送反馈给所述个性化知识库单元;
通过条件随机场方法执行所述语义图像分割。
7.根据权利要求6所述的建立语义图像分割的个性化知识库的系统,其特征在于:
所述图像处理单元还包括全卷积网络和超像素筛选器。
8.根据权利要求5所述的建立语义图像分割的个性化知识库的系统,其特征在于:
所述路线搜索模块运用MorphSnakes算法在谷歌地图上搜索路线。
9.根据权利要求5所述的建立语义图像分割的个性化知识库的系统,其特征在于:
所述路线推荐模块向所述用户推荐与所述超像素轮廓有最大重叠区域的所述路线,所述超像素轮廓由所述交互式分割模块生成。
10.一种具有计算机程序的非瞬时性计算机可读介质,其特征在于,当由一处理器执行时,执行推荐基于图像的路线的方法,所述方法包括:
从用户中获得查询图像;
执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓;
确定在地图图像上与所述感兴趣对象的至少一个轮廓有最大重叠区域的路线;
生成输出图像,所述输出图像包括所述感兴趣对象和与所述感兴趣对象的所述轮廓有最大重叠区域的所述路线;以及
将所述输出图像推荐给所述用户,并在社交网络平台上共享所述输出图像。
11.根据权利要求10所述的具有计算机程序的非瞬时性计算机可读介质,其特征在于,所述执行交互式分割处理以确定所述查询图像中感兴趣对象的至少一个轮廓还包括:
基于个性化知识库,通过全连接卷积网络和用来推理隐藏单元条件随机场的卷积神经网络信息估计器以连接所述查询图像;
持续性反向传播带有更新的地面实况的误差导数,所述更新的地面实况由未知图像的不满意分割结果所触发;以及
优化语义分割并学习超像素筛选标准,以构建所述个性化知识库。
12.根据权利要求11所述的具有计算机程序的非瞬时性计算机可读介质,其特征在于:
给定一组观测值x和参数θ,分割标签s的条件可能性公式建模如下:
其中
所述参数θ最大化估计为:
且
边缘分布的计算如下:
其中,Zn是一个正规化子:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/400,233 | 2017-01-06 | ||
US15/400,233 US9939272B1 (en) | 2017-01-06 | 2017-01-06 | Method and system for building personalized knowledge base of semantic image segmentation via a selective random field approach |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280132A true CN108280132A (zh) | 2018-07-13 |
CN108280132B CN108280132B (zh) | 2021-12-14 |
Family
ID=61801382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711417046.3A Active CN108280132B (zh) | 2017-01-06 | 2017-12-25 | 建立语义图像分割的个性化知识库的方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9939272B1 (zh) |
CN (1) | CN108280132B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046213A (zh) * | 2019-12-18 | 2020-04-21 | 电子科技大学 | 一种基于图像识别的知识库构建方法 |
US10748036B2 (en) | 2017-11-21 | 2020-08-18 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402690B2 (en) * | 2016-11-07 | 2019-09-03 | Nec Corporation | System and method for learning random-walk label propagation for weakly-supervised semantic segmentation |
US10217224B2 (en) * | 2016-12-22 | 2019-02-26 | TCL Research America Inc. | Method and system for sharing-oriented personalized route planning via a customizable multimedia approach |
US11797837B2 (en) * | 2017-04-24 | 2023-10-24 | Intel Corporation | Dynamic distributed training of machine learning models |
US11409994B2 (en) | 2018-05-15 | 2022-08-09 | Shenzhen University | Methods for image segmentation, computer devices, and storage mediums |
WO2019232099A1 (en) * | 2018-05-29 | 2019-12-05 | Google Llc | Neural architecture search for dense image prediction tasks |
CN109033321B (zh) * | 2018-07-18 | 2021-12-17 | 成都快眼科技有限公司 | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 |
CN110909744B (zh) * | 2019-11-26 | 2022-08-19 | 山东师范大学 | 结合语义分割的多描述编码方法及系统 |
CN112070780B (zh) * | 2020-08-05 | 2024-09-13 | 中国人民解放军61540部队 | 居民地提取结果轮廓直线性处理方法和装置及设备 |
CN112508128B (zh) * | 2020-12-22 | 2023-07-25 | 北京百度网讯科技有限公司 | 训练样本的构建方法、计数方法、装置、电子设备及介质 |
US20230410278A1 (en) * | 2022-06-15 | 2023-12-21 | Xerox Corporation | Techniques for binarizing images to determine jetting quality in additive manufacturing |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133579A1 (en) * | 2006-11-17 | 2008-06-05 | Nhn Corporation | Map service system and method |
US20100023250A1 (en) * | 2008-07-25 | 2010-01-28 | Mays Joseph P | Open area maps |
CN101739397A (zh) * | 2008-11-17 | 2010-06-16 | 新疆亚奥数码科技有限公司 | 基于mpeg-7的图像检索系统 |
CN102142020A (zh) * | 2010-01-29 | 2011-08-03 | 株式会社电装 | 用于基于地图数据来执行处理的电子设备 |
US20130268189A1 (en) * | 2012-04-10 | 2013-10-10 | International Business Machines Corporation | Personalized route generation |
CN103697882A (zh) * | 2013-12-12 | 2014-04-02 | 深圳先进技术研究院 | 一种基于图像识别的地理三维空间定位方法和装置 |
KR20140070791A (ko) * | 2012-11-27 | 2014-06-11 | 삼성전자주식회사 | 사용자의 인터랙션을 기반으로 영상 내의 윤곽선을 분할하는 장치 및 방법 |
US8843515B2 (en) * | 2012-03-07 | 2014-09-23 | Snap Trends, Inc. | Methods and systems of aggregating information of social networks based on geographical locations via a network |
US20160258767A1 (en) * | 2015-03-08 | 2016-09-08 | Microsoft Technology Licensing, Llc | Search along the route |
CN106294616A (zh) * | 2016-08-02 | 2017-01-04 | 长江大学 | 一种基于移动互联网的智能问答机器人系统 |
CN108230168A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 通过定制多媒体方法共享个性化路线规划的方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310644B2 (en) * | 2001-06-06 | 2007-12-18 | Microsoft Corporation | Locating potentially identical objects across multiple computers |
US7805401B2 (en) * | 2003-04-14 | 2010-09-28 | Novell, Inc. | Method and apparatus for splitting a replicated volume |
US7349913B2 (en) * | 2003-08-21 | 2008-03-25 | Microsoft Corporation | Storage platform for organizing, searching, and sharing data |
US7805461B2 (en) * | 2003-12-05 | 2010-09-28 | Edgenet, Inc. | Method and apparatus for database induction for creating frame based knowledge tree |
US7389393B1 (en) * | 2004-10-21 | 2008-06-17 | Symantec Operating Corporation | System and method for write forwarding in a storage environment employing distributed virtualization |
US8233715B2 (en) * | 2008-04-28 | 2012-07-31 | Microsoft Corporation | Probabilistic intensity similarity measure based on noise distributions |
-
2017
- 2017-01-06 US US15/400,233 patent/US9939272B1/en active Active
- 2017-12-25 CN CN201711417046.3A patent/CN108280132B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133579A1 (en) * | 2006-11-17 | 2008-06-05 | Nhn Corporation | Map service system and method |
US20100023250A1 (en) * | 2008-07-25 | 2010-01-28 | Mays Joseph P | Open area maps |
CN101739397A (zh) * | 2008-11-17 | 2010-06-16 | 新疆亚奥数码科技有限公司 | 基于mpeg-7的图像检索系统 |
CN102142020A (zh) * | 2010-01-29 | 2011-08-03 | 株式会社电装 | 用于基于地图数据来执行处理的电子设备 |
US8843515B2 (en) * | 2012-03-07 | 2014-09-23 | Snap Trends, Inc. | Methods and systems of aggregating information of social networks based on geographical locations via a network |
US20130268189A1 (en) * | 2012-04-10 | 2013-10-10 | International Business Machines Corporation | Personalized route generation |
KR20140070791A (ko) * | 2012-11-27 | 2014-06-11 | 삼성전자주식회사 | 사용자의 인터랙션을 기반으로 영상 내의 윤곽선을 분할하는 장치 및 방법 |
CN103697882A (zh) * | 2013-12-12 | 2014-04-02 | 深圳先进技术研究院 | 一种基于图像识别的地理三维空间定位方法和装置 |
US20160258767A1 (en) * | 2015-03-08 | 2016-09-08 | Microsoft Technology Licensing, Llc | Search along the route |
CN106294616A (zh) * | 2016-08-02 | 2017-01-04 | 长江大学 | 一种基于移动互联网的智能问答机器人系统 |
CN108230168A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 通过定制多媒体方法共享个性化路线规划的方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10748036B2 (en) | 2017-11-21 | 2020-08-18 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
US11256961B2 (en) | 2017-11-21 | 2022-02-22 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
CN111046213A (zh) * | 2019-12-18 | 2020-04-21 | 电子科技大学 | 一种基于图像识别的知识库构建方法 |
CN111046213B (zh) * | 2019-12-18 | 2021-12-10 | 电子科技大学 | 一种基于图像识别的知识库构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108280132B (zh) | 2021-12-14 |
US9939272B1 (en) | 2018-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280132A (zh) | 建立语义图像分割的个性化知识库的方法及系统 | |
US10657652B2 (en) | Image matting using deep learning | |
US10692243B2 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
US10497122B2 (en) | Image crop suggestion and evaluation using deep-learning | |
US9558268B2 (en) | Method for semantically labeling an image of a scene using recursive context propagation | |
CN113039563A (zh) | 学习生成用于训练神经网络的合成数据集 | |
CN109960453A (zh) | 根据被引导的用户会话移除和替换图像中的对象 | |
WO2019108251A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
CN111241394B (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
CN105210085A (zh) | 使用最短连线特征的图像标记 | |
US20150302317A1 (en) | Non-greedy machine learning for high accuracy | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN112580720A (zh) | 一种模型训练方法及装置 | |
CN116310318A (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN116861850A (zh) | 一种数据处理方法及其装置 | |
CN111522979A (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
KR102427723B1 (ko) | 인공지능 기반 상품 추천 방법 및 그 시스템 | |
Jia et al. | Dginstyle: Domain-generalizable semantic segmentation with image diffusion models and stylized semantic control | |
CN117351192A (zh) | 一种对象检索模型训练、对象检索方法、装置及电子设备 | |
Shi et al. | Novel individual location recommendation with mobile based on augmented reality | |
Anilkumar et al. | An adaptive DeepLabv3+ for semantic segmentation of aerial images using improved golden eagle optimization algorithm | |
Kang et al. | ETLi: Efficiently annotated traffic LiDAR dataset using incremental and suggestive annotation | |
Valko et al. | Review of state of computer vision technologies development in the world and Ukraine | |
US20220164680A1 (en) | Environment augmentation based on individualized knowledge graphs | |
CN111006653B (zh) | 智能路线规划方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province Applicant after: TCL Technology Group Co.,Ltd. Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District Applicant before: TCL Corp. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |