CN112862840A - 图像分割方法、装置、设备及介质 - Google Patents
图像分割方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112862840A CN112862840A CN202110240846.2A CN202110240846A CN112862840A CN 112862840 A CN112862840 A CN 112862840A CN 202110240846 A CN202110240846 A CN 202110240846A CN 112862840 A CN112862840 A CN 112862840A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- network
- segmentation
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000003709 image segmentation Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 70
- 238000013507 mapping Methods 0.000 claims abstract description 50
- 230000003044 adaptive effect Effects 0.000 claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 27
- 238000010606 normalization Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 123
- 230000006870 function Effects 0.000 claims description 54
- 238000003702 image correction Methods 0.000 claims description 34
- 238000012986 modification Methods 0.000 claims description 34
- 230000004048 modification Effects 0.000 claims description 34
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 14
- 238000013461 design Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 206010037180 Psychiatric symptoms Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分割方法、装置、设备及介质,涉及图像处理领域。该方法包括:获取所述输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。本申请会根据空域自适应掩层来确定出更为准确的分割区域,提高图像分割在语义上的准确性。
Description
技术领域
本申请涉及图像处理领域,特别涉及一种图像分割方法、装置、设备及介质。
背景技术
图像分割值指基于语义将图像分割为若干个区域,每个区域具有特定的性质。例如,将图像分割为“人”和“马”两个区域。
相关技术是通过提取图像中像素的颜色特征,来确定分割区域的大致形状,并从语义角度确定图像中各个像素之间的关系,来获得分割区域的边缘。在获得分割区域的边缘后,对分割区域的整体进行优化,同时优化分割区域的边缘。
相关技术在分割区域的语义正确性上并不理想,常常会出现错误的分割情况,例如,将图像中“人”的区域划分为“马”。
发明内容
本申请实施例提供了一种图像分割方法、装置、方法及介质,该方法通过校正语义掩层,生成空域自适应掩层,并根据空域自适应掩层来确定出更为准确的分割区域。所述技术方案如下:
根据本申请的一个方面,提供了一种图像分割方法,该方法包括:
获取所述输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;
对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;
基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;
基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。
根据本申请的另一个方面,提供了一种图像分割装置,该装置包括:
基础分割模块,用于获取所述输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;
语义分割模块,用于对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;
校正模块,用于基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;
所述校正模块,还用于基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。
在本申请的一个可选设计中,所述校正模块,还用于获取所述语义掩层中目标像素点的邻域像素点的像素值和标签值,所述目标像素点为所述语义掩层中位于分割区域边缘的像素点;基于所述邻域像素点的像素值和标签值,迭代计算所述目标像素点的标签值;基于迭代后的所述目标像素点的标签值,替换所述目标像素点的标签值,获得所述空域自适应掩层。
在本申请的一个可选设计中,所述校正模块,还用于基于所述邻域像素点的像素值,计算所述邻域像素点的权重值;基于所述邻域像素点的权重值和所述邻域像素点的标签值,加权计算所述目标像素点的标签值;重复上述两个步骤,直至满足迭代完成条件,获得所述目标像素点的标签值。
在本申请的一个可选设计中,所述基础分割模块,还用于将所述输入图像输入到全卷积子网络中,输出所述输入图像的所述评分映射。
在本申请的一个可选设计中,所述全卷积子网络包括至少i层网络结构,第m+1层网络结构的输入是由第m层网络结构的特征和第n层网络结构的对应特征线性融合且非线性激活后获得的,所述第n层网络结构的特征是随机获得的,其中,m,n,i均为正整数,n<m<m+1<i。
在本申请的一个可选设计中,所述语义分割模块,还用于通过图像修正子网络对所述评分映射进行指数归一化,获得所述输入图像的语义掩层。
所述校正模块,还用于基于所述语义掩层中的像素点的标签值,通过所述图像修正子网络生成所述输入图像的空域自适应掩层;基于所述空域自适应掩层,通过所述图像修正子网络获得所述输入图像的所述分割校正结果。
在本申请的一个可选设计中,所述装置还包括:训练模块。
训练模块,用于获取图像训练集,所述图像训练集包括训练样本和所述训练样本对应的真实标注;将所述训练样本输入到全卷积子网络中;将所述全卷积子网络输出的所述训练样本的评分映射输入到所述图像修正子网络;基于所述图像修正子网络的输出结果和所述真实标注,通过损失函数计算误差,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述训练模块,还用于获取所述训练样本的全局权重池和惩罚函数;基于所述全局权重池和所述惩罚函数的和,获得所述训练样本的分类得分;基于所述分类得分,计算得到第一损失函数的系数;将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第一损失函数,得到第一误差;基于所述第一误差,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述训练模块,还用于获得所述训练样本的评分映射;对所述训练样本的评分映射进行指数归一化,获得所述训练样本的语义掩层;基于所述训练样本的评分映射和所述训练样本的语义掩层,获得所述全局权重池;基于所述训练样本的语义掩层,获得所述惩罚函数。
在本申请的一个可选设计中,所述训练模块,还用于基于所述训练样本的语义掩层和所述训练样本的空域适应性掩层,计算得到第二损失函数的系数;将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第二损失函数,得到第二误差;基于所述第二误差,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述校正模块,还用于基于所述可通行区域和所述障碍物区域,生成载具控制指令,所述载具控制指令用于控制虚拟载具在虚拟场景中的移动,所述虚拟载具是所述虚拟角色在所述虚拟环境中使用的载具。
根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上方面所述的图像分割方法。
根据本申请的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条程序代码,程序代码由处理器加载并执行以实现如上方面所述的图像分割方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,上述计算机程序产品或计算机程序包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上方面所述的图像分割方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过生成输入图像的评分映射,来获得输入图像的语义掩层,并对语义掩层进行优化和校正,以生成相应的空域自适应掩层,由空域自适应掩层获得最终的分割结果。可以提高图像分割在语义上的准确性,同时,可以保障图像分割获得的分割区域在边缘处具有连续性,不会出现中断的情况。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机系统的结构示意图;
图2是本申请一个示例性实施例提供的图像分割方法的流程示意图;
图3是本申请一个示例性实施例提供的图像分割方法的流程示意图;
图4是本申请一个示例性实施例提供的图像修正子网络的训练方法的流程示意图;
图5是本申请一个示例性实施例提供的图像修正子网络训练方法的流程示意图;
图6是本申请一个示例性实施例提供的图像修正子网络训练方法的流程示意图;
图7是本申请一个示例性实施例提供的网络模型的总体架构图;
图8是本申请一个示例性实施例提供的类别评分计算的架构图;
图9是本申请一个示例性实施例提供的分割结果对比的示意图;
图10是本申请一个示例性实施例提供的示例性运用场景的流程示意图;
图11是本申请一个示例性实施例提供的虚拟场景图像的分割结果示意图;
图12是本申请一个示例性实施例提供的图像分割装置的结构示意图;
图13是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行介绍,如下所示:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
全卷积神经网络(Fully Convolutional Networks,FCN):可以对图像进行像素级的分割,输出分割完成后的图像。
条件随机场(Conditional Random Field,CRF):是一种判别式概率模型,是随机场的一种,用于标注或分析序列资料。
掩层(mask):这里是指图像处理中的一种基本算子,将原图中的像素与掩层(通常为01矩阵)对应的像素做与运算。
指数归一化:指将一个含任意实数的K维向量z投影到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。可以在两种数据不具有可比性的情况下,通过指数归一化,实现两种数据的比较。
RGB值:其中,R(Red)代表红,G(Green)代表绿,B(Blue)代表蓝。RGB值代表的是红、绿、蓝三个通道的颜色所对应的数值。示例性的,将白色的RGB值记为(255,255,255)。
图1示出了本申请一个示例性实施例提供的计算机系统的框图。计算机系统100包括:终端120和服务器140。
终端120上安装有与图像分割相关的应用程序。该应用程序可以是app(application,应用程序)中的小程序,也可以是专门的应用程序,也可以是网页客户端。示例性的,终端120截取图像,并将图像发送到服务器140,由服务器140进行图像分割,并根据分割后的图像来确定指令,向终端120发送该指令。而训练该神经网络所用的图像样本可通过本申请的方法获得终端120是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。
终端120通过无线网络或有线网络与服务器140相连。
服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140用于为图像分割的应用程序提供后台服务,并将图像样本的筛选的结果发送到终端120上。可选地,服务器140承担主要计算工作,终端120承担次要计算工作;或者,服务器140承担次要计算工作,终端120承担主要计算工作;或者,服务器140和终端120两者采用分布式计算架构进行协同计算。
图2示出了本申请一个示例性实施例提供的图像分割方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行,该方法包括如下步骤:
步骤202:获取输入图像的评分映射,评分映射是基于输入图像中像素点的空间信息所获得的分割结果。
输入图像可以任意图像。示例性的,输入图像为游戏场景中的虚拟图像,或者,输入图像为现实环境中的图像。
输入图像的获取方法可以存在多种。示例性的,输入图像是由用户实时拍摄输入的,或者,输入图像是终端通过访问本地存储空间获得的,或者,输入图像是由其它终端向用户所持有的终端发送获得的,或者,输入图像是从互联网上下载的。本申请对输入图像的具体获取方式不做限定。
评分映射是基于输入图像中像素点的空间信息所获得的分割结果。示例性的,在输入图像中有“人”和“马”的图像,而输入图像中像素点的空间信息会指示该像素点处于输入图像中的空间坐标。
步骤204:对评分映射进行指数归一化,获得输入图像的语义掩层,语义掩层是基于语义所分割获得的掩层。
指数归一化指将评分映射中的像素点映射到其它维度上,用以获得输入图像的输入掩层。
语义掩层是基于语义所分割获得的掩层。示例性的,基于语义,将输入图像中的“人”和“马”分割为两个不同的区域。
可选地,本步骤通过神经网络模型来实现具体的过程。示例性的,通过图像修正子网络对评分映射进行指数归一化。
步骤206:基于语义掩层中的像素点的标签值,生成输入图像的空域自适应掩层,标签值用于表示像素点的语义特征,空域自适应掩层是对语义掩层进行校正所获得的掩层。
空域自适应掩层是对语义掩层进行校正所获得的掩层。相较于语义掩层,在语义上,空域自适应掩层具有更好的分割效果,对输入图像内物体的分割更为准确。
标签值用于表示像素点的语义特征。示例性的,在标签值属于[1,4]属于区间时,将该标签值对应的像素点的语义特征认定为“人”,在标签值属于[7,13]区间时,将该标签值对应的像素点的语义特征认定为“马”。
可选地,本步骤通过神经网络模型来实现具体的过程。示例性的,基于语义掩层中的像素点的标签值,通过图像修正子网络生成输入图像的空域自适应掩层。
步骤208:基于空域自适应掩层,获得输入图像的分割校正结果。
由于空域自适应掩层本质属于一种图像运算中的算子,因此,为得到输入图像的分割校正结果,还需要将空域自适应掩层同输入图像做与运算,得到最终的分割校正结果。
可选地,本步骤通过神经网络模型来实现具体的过程。示例性的,基于空域自适应掩层,通过图像修正子网络获得输入图像的分割校正结果。
综上所述,本实施例通过生成输入图像的评分映射,来获得输入图像的语义掩层,并对语义掩层进行优化和校正,以生成相应的空域自适应掩层,由空域自适应掩层获得最终的分割结果。可以提高图像分割在语义上的准确性,同时,可以保障分割获得的分割区域在边缘处具有连续性,不会出现中断的情况。
图3示出了本申请一个示例性实施例提供的图像分割方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行,该方法包括如下步骤:
步骤301:将输入图像输入到全卷积子网络中,输出输入图像的评分映射。
全卷积子网络用于对输入图像进行初步的图像分割,输出输入图像的评分映射。该评分映射可以被认为是输入图像的分割结果。
步骤302:对评分映射进行指数归一化,获得输入图像的语义掩层。
具体过程可以参照上面的步骤204。
步骤303:获取语义掩层中目标像素点的邻域像素点的像素值和标签值。
目标像素点为语义掩层中位于分割区域边缘的像素点。由于在图像分割中,分割区域边缘决定了分割区域的形状,而图像分割中最容易出现错误的就是分割区域边缘,故在保证分割质量的前提下,使用分割区域边缘的像素点可以减少计算量。
邻域像素点指在空间上位于目标像素点周侧位置的像素点。示例性的,目标像素点为3×3像素点阵的中心,则邻域像素点为该像素点阵中除目标像素点以外的像素点。示例性的,邻域像素点是位于以目标像素点为圆心,3个单位长度为半径的圆内的像素点。
像素值用于表示像素点的亮度信息或颜色信息。可选地,像素值为像素点的RGB值。
步骤304:基于邻域像素点的像素值和标签值,迭代计算目标像素点的标签值。
1、基于邻域像素点的像素值,计算邻域像素点的权重值。
由于在实际的图像处理中,颜色相近的像素点是同一语义类别的概率很大。因此,对使用邻域像素点的像素值来计算器各自的权重值。
2、基于邻域像素点的权重值和邻域像素点的标签值,加权计算目标像素点的标签值。
示例性的,给出一种加权计算的方法,如下所示:
其中,αi,j,l,n代表输入图像I的函数,通过邻域像素点的像素值、像素方差来确定。N(i,j)代表目标像素点的邻域,用于确定邻域像素点,其中的i,j代表邻域的大小。(l,n)代表邻域像素点,其中的l,n代表邻域像素点的具体坐标。T代表迭代的次数。代表语义掩层中邻域像素点的标签值。代表迭代计算后目标像素点的标签值。
3、重复上述两个步骤,直至满足迭代完成条件,获得目标像素点的标签值。
迭代完成条件表示迭代计算的终止。可选的,迭代完成条件包括迭代计算达到预设次数、目标像素点的标签值收敛中的至少一种。
步骤305:基于迭代后的目标像素点的标签值,替换目标像素点的标签值,获得空域自适应掩层。
由于迭代后的目标像素点的标签值是通过邻域像素点的标签值获得的,且,相邻的色素点之间应当具有相近的标签值,故使用迭代后的目标像素点的标签值替换目标像素点的标签值。
综上所述,本实施例通过生成输入图像的评分映射,来获得输入图像的语义掩层,并对语义掩层进行优化和校正,以生成相应的空域自适应掩层,由空域自适应掩层获得最终的分割结果。可以提高图像分割在语义上的准确性,同时,可以保障分割获得的分割区域在边缘处具有连续性,不会出现中断的情况。
且,在迭代计算空域自适应掩层时,使用的是语义掩层中的数据,不需要引入的额外的参数,可以减少计算量。
图4示出了本申请一个示例性实施例提供的图像修正子网络的训练方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行,该方法包括如下步骤:
步骤401:获取图像训练集。
图像训练集包括训练样本和所述训练样本对应的真实标注。
训练样本可以任意图像。示例性的,训练样本为游戏场景中的虚拟图像,或者,训练样本为现实环境中的图像。
在本实施例中,该真实标注为训练样本的图像级标注。即,该真实标注仅需对图像内容进行简易的标注不涉及到像素级别的标注。
图像训练集的获取方法可以存在多种。示例性的,图像训练集是由用户实时拍摄输入的,或者,图像训练集是终端通过访问本地存储空间获得的,或者,图像训练集是由其它终端向用户所持有的终端发送获得的,或者,图像训练集是从互联网上下载的。本申请对图像训练集的具体获取方式不做限定。
步骤402:将训练样本输入到全卷积子网络中。
全卷积子网络包括至少i层网络结构,第m+1层网络结构的输入是由第m层网络结构的特征和第n层网络结构的对应特征线性融合且非线性激活后获得的,第n层网络结构的特征是随机获得的,其中,m,n,i均为正整数,n<m<m+1<i。
步骤403:将全卷积子网络输出的训练样本的评分映射输入到图像修正子网络。
具体过程可参照步骤301。
步骤404:基于图像修正子网络的输出结果和真实标注,通过损失函数,对图像修正子网络进行训练。
可选地,基于图像修正子网络的输出结果和真实标注,通过损失函数获得误差,并通过误差反向传播算法,修正图像修正子网络中的网络参数。
综上所述,本实施例给出了一种训练图像修正子网络的具体方法,使得图像修正子网络可以借由图像级的真实标注完成训练,真实标注的获取方法简单,训练得到的图像修正子网络在图像分割的准确率高。且,在训练过程中具有较好的随机性和多样性。
图5示出了本申请一个示例性实施例提供的图像修正子网络训练方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行,该方法包括如下步骤:
以下步骤501至步骤502可详细参照上述的步骤202至步骤204,此处不再赘述。
步骤501:获得训练样本的评分映射。
步骤502:对训练样本的评分映射进行指数归一化,获得训练样本的语义掩层。
步骤503:基于训练样本的评分映射和训练样本的语义掩层,获得全局权重池。
全局权重池用于存储输入图像中像素点的权重信息。
示例性的,给出一种计算全局权重池的方法,如下所示:
步骤504:基于训练样本的语义掩层,获得惩罚函数。
由于全局权重池与语义掩层的大小有较多的关联,会影响分割结果的完整性,因此,在本实施例中会增加一个惩罚函数,既可以保证语义掩层的值为接近于0的正数,还能保证分割结果的完整性。
示例性的,给出一种惩罚函数的计算方法,如下所示:
步骤505:基于全局权重池和所述惩罚函数的和,获得训练样本的分类得分。
分类得分用于减少对像素级特征的过度倚重,避免丧失对全局信息的把握。
步骤506:基于分类得分,计算得到第一损失函数的系数。
示例性的,给出一种第一损失函数的系数的计算方法,如下所示:
其中,Lcls(y,z)表示第一损失函数,zc是训练样本的真实标注的二值向量,c表示训练样本,yc表示分类得分记。
步骤507:将图像修正子网络的输出结果和训练样本对应的真实标注代入第一损失函数,得到第一误差。
第一误差用于表示图像修正子网络的输出结果和训练样本对应的真实标注之间的差异。
步骤508:基于第一误差,对图像修正子网络进行训练。
可选地,基于第一误差,通过误差反向传播算法,修正图像修正子网络中的网络参数。
综上所述,本实施例给出了一种损失函数的计算方法。使用该损失函数可以减少对像素级特征的过度倚重,避免丧失对全局信息的把握,还可以保证分割结果的完整性,避免分割结果出现错误或是遗漏。
图6示出了本申请一个示例性实施例提供的图像修正子网络训练方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行,该方法包括如下步骤:
步骤601:基于训练样本的语义掩层和训练样本的空域适应性掩层,计算得到第二损失函数。
第二损失函数是基于类别平衡,对各个类别对应的损失函数进行归一化后得到的损失函数。
可选地,结合空域自适应掩层,对背景区域超过第一预设值的图片,选择置信度大于第二预设值的像素点生成伪标注。第一预设值和第二预设值可由技术人员自行设置。示例性的,第一预设值为70%,第二预设值为60%。
示例性的,给出一种第二损失函数的计算方法:
其中,Lseg表示第二损失函数。ypgt表示得到的空域适应性掩层。mpgt表示空域适应性掩层包含的像素点的个数。(i,j)表示逐像素。c表示训练样本。
步骤602:将图像修正子网络的输出结果和训练样本对应的真实标注代入第二损失函数,得到第二误差。
第二误差用于表示图像修正子网络的输出结果和训练样本对应的真实标注之间的差异,且第二误差与第一误差不同。
步骤603:基于第二误差,对图像修正子网络进行训练。
可选地,基于第二误差,通过误差反向传播算法,修正图像修正子网络中的网络参数。
综上所述,本实施例给出了一种损失函数的计算方法。对输入图像中各个类别的损失函数进行了归一化,降低了计算量和计算难度。
图7示出了本申请一个示例性实施例提供的网络模型的总体架构图。该网络模型包括全卷积子网络71和图像修正子网络72。
全卷积子网络71内部采用跳跃连接结构,通过随机门702生成一个随机数,将输入图像701中前端的特征同当前层特征融合后,通过线性融合且非线性激活后,作为下一层的输入。输入图像701经由全卷积子网络71后会输出获得评分映射703。
图像修正子网络72的输出入为上述的评分映射703。图像修正子网络72进行指数归一化获得语义掩层704,之后,图像修正子网络72会对语义掩层704进行修正得到空域自适应掩层705。
在对图像修正子网络72进行训练的过程中,图像修正子网络72会根据评分映射703和语义掩层704,计算得到全局权重池706,并由全局权重池计算得出Lcls。且,图像修正子网络72还会根据语义掩层704和空域自适应掩层705,计算得到Lseg。
图8示出了本申请一个示例性实施例提供的类别评分计算的架构图。
该架构的输入为图像的特征张量801,该特征张量801的大小为K×h×ω,其中,K表示图像的通道数,h和ω表示图像的大小。对特征张量801进行以1×1卷积核的卷积,得到评分映射802,评分映射802可记为C+1×h×ω,其中,C为常数。对评分映射802进行指数归一化得到语义掩层803,同样可以记为C+1×h×ω。
全局权重池804是根据评分映射802和语义掩层803得到的,惩罚函数805是根据语义掩层803得到的。将全局权重池804和惩罚函数805通过一加法器,得到分类得分806,记为C×1。
图9示出了本申请一个示例性实施例提供的分割结果对比的示意图。其中,从左到右,图9中的(a)部分为输入图像,图9中的(b)部分为输入图像的真实标注,图9中的(c)部分为FCN网络的预测结果,图9中的(d)部分为空域自适应掩层的校正结果,图9中的(e)部分为生成的分割校正结果。
比较上面5幅图可以得到,本申请提供的方法所获得的分割校正结果具有语义分类和语义分割上的准确性,对复杂目标也具有较好的分割区域完整性、分割区域连续性以及语义准确性。
示例性的,本申请的方法可以运用于游戏中。示例性的,运用于FPS(First-PersonShooting game,第一人称射击类游戏)游戏中,在此类游戏中,通常会有载具(船、车辆、飞机等)供用户主控的虚拟角色进行驾驶。在游戏中,有自动驾驶载具的功能,以方便用户的操作,此时,本申请的图像分割方法可以有效识别游戏场景中的障碍物,以辅助载具的移动。
图10示出了本申请一个示例性实施例提供的示例性运用场景的流程示意图。
步骤1001:移动客户端获得虚拟场景图像。
移动客户端是由用户进行控制的。在移动客户端上运行有相应的游戏,并在终端上显示相应的游戏场景。
虚拟场景图像是以虚拟角色为视角对虚拟场景进行观察所获得的图像。可选地,通过截图的方式获取虚拟场景图像。
步骤1002:移动客户端将虚拟场景图像发送给服务器。
步骤1003:服务器基于虚拟场景图像,生成虚拟场景图像的可通行区域和障碍物区域。
服务器使用本申请涉及的图像分割方法对截取图像进行图像分割,生成虚拟场景图像的可通行区域和障碍物区域。示例性的,如图11所示,该图是对游戏中的虚拟场景进行图像分割所获得的分割结果,该分割结果中包括人物1101、障碍物1102和障碍物1103,则障碍物1102和障碍物1103为障碍物区域。
步骤1004:基于可通行区域和障碍物区域,生成载具控制指令。
服务器基于可通行区域和障碍物区域,确定截取图像中的障碍物,生成载具控制指令。
载具控制指令用于控制虚拟载具的移动,以避免虚拟载具同障碍物接触,且,虚拟载具是虚拟角色在虚拟环境中使用的载具。可选地,载具控制指令包括前进、后退、左转、右转、加速、减速、刹车、停止、启动、漂移中的至少一种。
示例性的,基于障碍物区域在虚拟场景图像中的位置,生成远离障碍物区域的载具控制指令,例如,障碍物区域在截取图像的左侧区域,则生成右转指令或停止指令,用于控制载具远离障碍物区域。
示例性的,基于可通行区域在虚拟场景图像中的位置,生成接近可通行区域的载具控制指令,例如,可通行区域在截取图像的左侧区域,则生成左转指令,用于控制载具接近可通行区域。
示例性的,基于障碍物区域占虚拟场景图像的比例,生成相应的载具控制指令。例如,在障碍物区域占虚拟场景图像的比例大于80%时,生成停止的载具控制指令,用于控制载具停下,或者,生成后退的载具控制指令,用于控制载具后退。例如,在障碍物区域占虚拟场景图像的比例小于5%时,生成随机移动的载具控制指令,用于控制载具在随机方向上进行移动。
步骤1005:向移动客户端发送载具控制指令。
服务器向移动客户端发送载具控制指令。
步骤1006:移动客户端根据载具控制指令控制载具的移动。
移动客户端根据服务器发送的载具控制指令控制载具的移动。
综上所述,本实施例给出了一种可选的实施场景。通过截取游戏场景中的虚拟场景图像,并利用本申请的图像分割方法,来确定场景中的障碍物并下发相应的指令以实现载具的移动。可以提高载具的避障能力,同时兼具实时性,能够快速对障碍物做出反应,控制载具的移动。
下面为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图12示出了本申请的一个示例性实施例提供的图像分割装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置1200包括:
基础分割模块1201,用于获取所述输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;
语义分割模块1202,用于对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;
校正模块1203,用于基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;
所述校正模块1203,还用于基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。
在本申请的一个可选设计中,所述校正模块1203,还用于获取所述语义掩层中目标像素点的邻域像素点的像素值和标签值,所述目标像素点为所述语义掩层中位于分割区域边缘的像素点;基于所述邻域像素点的像素值和标签值,迭代计算所述目标像素点的标签值;基于迭代后的所述目标像素点的标签值,替换所述目标像素点的标签值,获得所述空域自适应掩层。
在本申请的一个可选设计中,所述校正模块1203,还用于基于所述邻域像素点的像素值,计算所述邻域像素点的权重值;基于所述邻域像素点的权重值和所述邻域像素点的标签值,加权计算所述目标像素点的标签值;重复上述两个步骤,直至满足迭代完成条件,获得所述目标像素点的标签值。
在本申请的一个可选设计中,所述基础分割模块1201,还用于将所述输入图像输入到全卷积子网络中,输出所述输入图像的所述评分映射。
在本申请的一个可选设计中,所述全卷积子网络包括至少i层网络结构,第m+1层网络结构的输入是由第m层网络结构的特征和第n层网络结构的对应特征线性融合且非线性激活后获得的,所述第n层网络结构的特征是随机获得的,其中,m,n,i均为正整数,n<m<m+1<i。
在本申请的一个可选设计中,所述语义分割模块1202,还用于通过图像修正子网络对所述评分映射进行指数归一化,获得所述输入图像的语义掩层。
所述校正模块1203,还用于基于所述语义掩层中的像素点的标签值,通过所述图像修正子网络生成所述输入图像的空域自适应掩层;基于所述空域自适应掩层,通过所述图像修正子网络获得所述输入图像的所述分割校正结果。
在本申请的一个可选设计中,所述装置1200还包括:训练模块1204。
训练模块1204,用于获取图像训练集,所述图像训练集包括训练样本和所述训练样本对应的真实标注;将所述训练样本输入到全卷积子网络中;将所述全卷积子网络输出的所述训练样本的评分映射输入到所述图像修正子网络;基于所述图像修正子网络的输出结果和所述真实标注,通过损失函数,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述训练模块1204,还用于获取所述训练样本的全局权重池和惩罚函数;基于所述全局权重池和所述惩罚函数的和,获得所述训练样本的分类得分;基于所述分类得分,计算得到第一损失函数的系数;将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第一损失函数,得到第一误差;基于所述第一误差,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述训练模块1204,还用于获得所述训练样本的评分映射;对所述训练样本的评分映射进行指数归一化,获得所述训练样本的语义掩层;基于所述训练样本的评分映射和所述训练样本的语义掩层,获得所述全局权重池;基于所述训练样本的语义掩层,获得所述惩罚函数。
在本申请的一个可选设计中,所述训练模块1204,还用于基于所述训练样本的语义掩层和所述训练样本的空域适应性掩层,计算得到第二损失函数的系数;将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第二损失函数,得到第二误差;基于所述第二误差,对所述图像修正子网络进行训练。
在本申请的一个可选设计中,所述校正模块1203,还用于基于所述可通行区域和所述障碍物区域,生成载具控制指令,所述载具控制指令用于控制虚拟载具在虚拟场景中的移动,所述虚拟载具是所述虚拟角色在所述虚拟环境中使用的载具。
综上所述,本实施例通过生成输入图像的评分映射,来获得输入图像的语义掩层,并对语义掩层进行优化和校正,以生成相应的空域自适应掩层,由空域自适应掩层获得最终的分割结果。可以提高图像分割在语义上的准确性,同时,可以保障分割获得的分割区域在边缘处具有连续性,不会出现中断的情况。
图13是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器1300包括中央处理单元(英文:Central Processing Unit,简称:CPU)1301、包括随机存取存储器(英文:Random Access Memory,简称:RAM)1302和只读存储器(英文:Read-Only Memory,简称:ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input/Output系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中显示器1308和输入设备1309都通过连接到系统总线1305的输入/输出控制器1310连接到中央处理单元1301。基本输入/输出系统1306还可以包括输入/输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1307可以包括诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory,简称:EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
根据本申请的另一方面,还提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条程序代码,程序代码由处理器加载并执行以实现如上述的图像分割方法。
根据本申请的另一方面,还提供了一种计算机程序产品或计算机程序,上述计算机程序产品或计算机程序包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上述的图像分割方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种图像分割方法,其特征在于,所述方法包括:
获取输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;
对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;
基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;
基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语义掩层中像素点的标签值,生成所述输入图像的空域自适应掩层,包括:
获取所述语义掩层中目标像素点的邻域像素点的像素值和标签值,所述目标像素点为所述语义掩层中位于分割区域边缘的像素点;
基于所述邻域像素点的像素值和标签值,迭代计算所述目标像素点的标签值;
基于迭代后的所述目标像素点的标签值,替换所述目标像素点的标签值,获得所述空域自适应掩层。
3.根据权利要求2所述的方法,其特征在于,所述基于所述邻域像素点的像素值和标签值,迭代计算所述目标像素点的标签值,包括:
基于所述邻域像素点的像素值,计算所述邻域像素点的权重值;
基于所述邻域像素点的权重值和所述邻域像素点的标签值,加权计算所述目标像素点的标签值;
重复上述两个步骤,直至满足迭代完成条件,获得所述目标像素点的标签值。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取所述输入图像的评分映射,包括:
将所述输入图像输入到全卷积子网络中,输出所述输入图像的所述评分映射。
5.根据权利要求4所述的方法,其特征在于,所述全卷积子网络包括至少i层网络结构,第m+1层网络结构的输入是由第m层网络结构的特征和第n层网络结构的对应特征线性融合且非线性激活后获得的,所述第n层网络结构的特征是随机获得的,其中,m,n,i均为正整数,n<m<m+1<i。
6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
通过图像修正子网络对所述评分映射进行指数归一化,获得所述输入图像的语义掩层;
基于所述语义掩层中的像素点的标签值,通过所述图像修正子网络生成所述输入图像的空域自适应掩层;
基于所述空域自适应掩层,通过所述图像修正子网络获得所述输入图像的所述分割校正结果。
7.根据权利要求6所述的方法,其特征在于,所述图像修正子网络由以下步骤训练获得;
获取图像训练集,所述图像训练集包括训练样本和所述训练样本对应的真实标注;
将所述训练样本输入到全卷积子网络中;
将所述全卷积子网络输出的所述训练样本的评分映射输入到所述图像修正子网络;
基于所述图像修正子网络的输出结果和所述真实标注,通过损失函数,对所述图像修正子网络进行训练。
8.根据权利要求7所述的方法,其特征在于,所述基于所述图像修正子网络的输出结果和所述真实标注,通过损失函数计算误差,对所述图像修正子网络进行训练,包括:
获取所述训练样本的全局权重池和惩罚函数;
基于所述全局权重池和所述惩罚函数的和,获得所述训练样本的分类得分;
基于所述分类得分,计算得到第一损失函数的系数;
将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第一损失函数,得到第一误差;
基于所述第一误差,对所述图像修正子网络进行训练。
9.根据权利要求8所述的方法,其特征在于,所述获取所述训练样本的全局权重池和惩罚函数,包括:
获得所述训练样本的评分映射;
对所述训练样本的评分映射进行指数归一化,获得所述训练样本的语义掩层;
基于所述训练样本的评分映射和所述训练样本的语义掩层,获得所述全局权重池;
基于所述训练样本的语义掩层,获得所述惩罚函数。
10.根据权利要求6所述的方法,其特征在于,所述基于所述图像修正子网络的输出结果和所述真实标注,通过损失函数计算误差,对所述图像修正子网络进行训练,包括:
基于所述训练样本的语义掩层和所述训练样本的空域适应性掩层,计算得到第二损失函数的系数;
将所述图像修正子网络的输出结果和所述训练样本对应的真实标注代入所述第二损失函数,得到第二误差;
基于所述第二误差,对所述图像修正子网络进行训练。
11.根据权利要求1至3任一所述的方法,其特征在于,所述输入图像包括虚拟场景图像,所述虚拟场景图像是以虚拟角色为视角对虚拟场景进行观察所获得的图像;所述分割校正结果包括所述虚拟场景图像中的可通行区域和障碍物区域;
所述方法还包括:
基于所述可通行区域和所述障碍物区域,生成载具控制指令,所述载具控制指令用于控制虚拟载具在虚拟场景中的移动,所述虚拟载具是所述虚拟角色在所述虚拟环境中使用的载具。
12.一种图像分割装置,其特征在于,所述装置包括:
基础分割模块,用于获取输入图像的评分映射,所述评分映射是基于所述输入图像中像素点的空间信息所获得的分割结果;
语义分割模块,用于对所述评分映射进行指数归一化,获得所述输入图像的语义掩层,所述语义掩层是基于语义所分割获得的掩层;
校正模块,用于基于所述语义掩层中的像素点的标签值,生成所述输入图像的空域自适应掩层,所述标签值用于表示所述像素点的语义特征,所述空域自适应掩层是对所述语义掩层进行校正所获得的掩层;
所述校正模块,还用于基于所述空域自适应掩层,获得所述输入图像的所述分割校正结果。
13.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11中任一项所述的图像分割方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至11任一项所述的图像分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240846.2A CN112862840B (zh) | 2021-03-04 | 2021-03-04 | 图像分割方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240846.2A CN112862840B (zh) | 2021-03-04 | 2021-03-04 | 图像分割方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862840A true CN112862840A (zh) | 2021-05-28 |
CN112862840B CN112862840B (zh) | 2023-07-04 |
Family
ID=75991763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110240846.2A Active CN112862840B (zh) | 2021-03-04 | 2021-03-04 | 图像分割方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862840B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249306A (zh) * | 2022-09-13 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像处理方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144477A1 (en) * | 2016-06-15 | 2018-05-24 | Beijing Sensetime Technology Development Co.,Ltd | Methods and apparatuses, and computing devices for segmenting object |
CN111445486A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
EP3690797A2 (en) * | 2019-01-31 | 2020-08-05 | Stradvision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
CN111507343A (zh) * | 2019-01-30 | 2020-08-07 | 广州市百果园信息技术有限公司 | 语义分割网络的训练及其图像处理方法、装置 |
CN111915627A (zh) * | 2020-08-20 | 2020-11-10 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 语义分割方法、网络、设备及计算机存储介质 |
CN112101364A (zh) * | 2020-09-10 | 2020-12-18 | 西安电子科技大学 | 基于参数重要性增量学习的语义分割方法 |
-
2021
- 2021-03-04 CN CN202110240846.2A patent/CN112862840B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144477A1 (en) * | 2016-06-15 | 2018-05-24 | Beijing Sensetime Technology Development Co.,Ltd | Methods and apparatuses, and computing devices for segmenting object |
CN111507343A (zh) * | 2019-01-30 | 2020-08-07 | 广州市百果园信息技术有限公司 | 语义分割网络的训练及其图像处理方法、装置 |
EP3690797A2 (en) * | 2019-01-31 | 2020-08-05 | Stradvision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
CN111445486A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN111915627A (zh) * | 2020-08-20 | 2020-11-10 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 语义分割方法、网络、设备及计算机存储介质 |
CN112101364A (zh) * | 2020-09-10 | 2020-12-18 | 西安电子科技大学 | 基于参数重要性增量学习的语义分割方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249306A (zh) * | 2022-09-13 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像处理方法、装置及存储介质 |
CN115249306B (zh) * | 2022-09-13 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112862840B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111240476B (zh) | 基于增强现实的交互方法、装置、存储介质和计算机设备 | |
CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
CN110490959B (zh) | 三维图像处理方法及装置、虚拟形象生成方法以及电子设备 | |
US20230095182A1 (en) | Method and apparatus for extracting biological features, device, medium, and program product | |
CN112116684A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN112057858B (zh) | 虚拟对象的控制方法、装置、设备及存储介质 | |
CN110807379A (zh) | 一种语义识别方法、装置、以及计算机存储介质 | |
CN116210030A (zh) | 基于半监督关键点的模型 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN116012913A (zh) | 模型训练方法、人脸关键点检测方法、介质及装置 | |
CN116310318A (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN116399360A (zh) | 车辆路径规划方法 | |
CN115984930A (zh) | 微表情识别方法、装置、微表情识别模型的训练方法 | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 | |
CN111008622B (zh) | 一种图像对象检测方法、装置以及计算机可读存储介质 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
EP3929866A2 (en) | Inpainting method and apparatus for human image, and electronic device | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 | |
CN112463936B (zh) | 一种基于三维信息的视觉问答方法及系统 | |
CN115115699A (zh) | 姿态估计方法、装置、相关设备和计算机产品 | |
CN114639132A (zh) | 人脸识别场景下的特征提取模型处理方法、装置、设备 | |
CN113505866B (zh) | 基于边缘素材数据增强的图像分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043496 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |