CN116977683A - 对象识别方法、装置、计算机设备、存储介质和程序产品 - Google Patents

对象识别方法、装置、计算机设备、存储介质和程序产品 Download PDF

Info

Publication number
CN116977683A
CN116977683A CN202211453457.9A CN202211453457A CN116977683A CN 116977683 A CN116977683 A CN 116977683A CN 202211453457 A CN202211453457 A CN 202211453457A CN 116977683 A CN116977683 A CN 116977683A
Authority
CN
China
Prior art keywords
image
identified
pixel
target
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211453457.9A
Other languages
English (en)
Inventor
徐东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211453457.9A priority Critical patent/CN116977683A/zh
Publication of CN116977683A publication Critical patent/CN116977683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本申请涉及一种对象识别方法、装置、计算机设备、存储介质和程序产品。所述方法涉及人工智能,包括:获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果,提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果,基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。采用本方法实现了从像素以及区域图像双重角度的识别和判定,减少了像素分类处理、以及图像分割处理过程中的误差数据,在优化识别操作的同时,提升了所获得的待识别图像中的目标对象的识别准确度。

Description

对象识别方法、装置、计算机设备、存储介质和程序产品
技术领域
本申请涉及人工智能技术领域,特别是涉及一种对象识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,以及目标识别(比如对人脸、动物、建筑、车辆等的识别)在不同领域的推广应用,比如在游戏开发及应用场景下,需要对游戏进程中的游戏角色或游戏背景进行识别,以便实时确定游戏角色所在位置,从而在游戏进程中为游戏使用对象提供高质量的虚拟表现。
传统上,针对游戏进程中对游戏角色或游戏场景的识别,通常采用根据相邻帧图像序列中背景与目标对象的差异性进行目标检测的方式。具体来说,在动态场景中,由于背景运动缓慢,而目标对象运动速度快,进而通过将前后两帧或多帧图像做差值,则属于背景的图像相减后数值较小,而属于目标对象的图像相减后数值较大,并通过对差值再进行二值化处理,从而检测出动态的目标对象。
但是传统的识别方式,并不适应实际场景中分布多种不同运动速度的运动对象的情况,比如存在某些对象运动较慢时容易出现漏检现象,而且会导致目标重叠的部分检测失误,出现空洞现象。因此传统的识别检测方式,在运动对象较多、且运动速度分布差异较大的情况,仍然存在识别准确度低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升对对象的识别准确率的对象识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对象识别方法。所述方法包括:
获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
第二方面,本申请还提供了一种对象识别装置。所述装置包括:
像素分类处理模块,用于获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
区域分割处理模块,用于提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
目标对象确定模块,用于基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标图像。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
上述对象识别方法、装置、计算机设备、存储介质和计算机程序产品中,通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。同样地,通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果,进一步基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象,实现了从像素以及区域图像双重角度的识别和判定,减少了像素分类处理、以及图像分割处理过程中的误差数据,并不局限于传统上所采用的单一的背景与目标之间的差值计算确定目标对象的方式,在优化识别操作的同时,进一步提升了所获得的待识别图像中的目标对象的识别准确度。
附图说明
图1为一个实施例中对象识别方法的应用环境图;
图2为一个实施例中对象识别方法的流程示意图;
图3为一个实施例中图像多区域分割处理的流程示意图;
图4为一个实施例中游戏应用进程中实际游戏场景包括的目标对象示意图;
图5为一个实施例中获得像素分类结果的流程示意图;
图6为一个实施例中训练得到区域图像分割模型的流程示意图;
图7为一个实施例中区域图像分割模型对应的卷积核、以及卷积核矩阵示意图;
图8为另一个实施例中对象识别方法的流程示意图;
图9为一个实施例中对象识别装置的结构框图;
图10为一个实施例中对象识别系统的架构示意图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的对象识别方法,涉及人工智能技术,可应用于云技术、人工智能、智慧交通、以及辅助驾驶等各种场景。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,即人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。而人工智能技术作为一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术,其中,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
而机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习以及式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的对象识别方法,具体涉及人工智能技术中的计算机视觉技术、以及机器学习技术等技术,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
进一步地,终端102和服务器104均可单独用于执行本申请实施例中提供的对象识别方法,终端102和服务器104也可协同用于执行本申请实施例中提供的对象识别方法。举例来说,以终端102和服务器104协同执行本申请实施例中提供的对象识别方法为例,服务器104通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。进一步地,服务器104通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果。其中,待识别图像可存储至终端102的本地存储中,也可存储至数据存储系统或服务器104的云端存储中,当进行对象识别处理时,可从终端102的本地存储、数据存储系统或者服务器104的云端存储中获取。进一步地,服务器104可基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象。其中,获得目标对象后,可将各目标对象在终端102的游戏应用程序中标记并展示,实时确定游戏角色所在位置,以供游戏使用对象查看,从而在游戏进程中为游戏使用对象提供高质量的虚拟表现。
在一个实施例中,如图2所示,提供了一种对象识别方法,以该方法由计算机设备执行为例进行说明,可以理解的是,该计算机设备可以是图1所示的终端102,也可以是服务器104,还可以是终端102服务器104所组成的系统,并通过终端102和服务器104之间的交互实现。本实施例中,该对象识别方法,具体包括以下步骤:
步骤S202,获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。
具体地,通过获取待识别图像,并对待识别图像进行背景消除、图像分割、以及高频去噪等预处理后,获得预处理后的待识别图像,并基于待识别图像进行特征提取处理,具体是提取待识别图像中的图像色彩分布特征。其中,提取图像的色彩分布特征的目的,在于统计待识别图像上各个色彩所占面积分布、以及确定不同色彩的所在区域。
举例来说,提取待识别图像中的图像色彩分布特征时,具体是对3*3的图像块进行特征提取,即当前需要进行预测处理的像素点位于图像块的中心位置。也就是说,通过选择3*3的图像块进行特征提取,可实现在提取当前像素点的特征时,同时考虑当前像素点和周围像素点之间的关联关系,从而使得根据所提取的色彩分布特征确定的面积分布、区域划分更精准。其中,提取得到的色彩分布特征是与当前待进行预测处理的中心位置的像素点对应的,而不用于表述其他周边像素点的特征。
其中,具体是采用LBP算法(即Local Binary Pattern,理解为局部二值模式算法,表示描述图像特征像素点与各个像素点之间的灰度关系的局部特征的非参数算法)对待识别图像进行背景消除,提取待识别图像的纹理特征,并使用分水岭算法(即WatershedAlgorithm,表示根据分水岭的构成来考虑图像的分割的处理算法)进行图像分割,其目的在于将待识别图像中的目标对象和背景分离,进而将目标对象和背景区分出来。
同样地,由于经过背景消除以及图像分割后的待识别图像中,仍然存在高频噪声,则具体是使用低通滤波器对待识别图像进一步进行高频去噪处理,以过滤掉待识别图像中的高频噪声,使得待识别图像中的目标对象和背景的区分更加鲜明。
其中,待识别图像具体可以是不同游戏进程中的不同实际游戏场景图像,且不同实际游戏场景图像中通常包括多个目标对象,同时还涉及树木、动物、天空、建筑、以及湖泊等不同元素组成游戏背景。
进一步地,在获得待识别图像中的图像色彩分布特征后,即获得待识别图像中不同色彩所占面积分布、以及不同色彩的所在区域后,进一步基于图像色彩分布特征进行像素分类处理,获得像素分类结果。
其中,具体是采用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理,预测得到与图像色彩分布特征对应的各像素点的像素分类结果。其中,像素点的像素分类结果具体包括像素点属于目标对象、以及像素点属于背景。
在一个实施例中,训练好的像素分类预测模型,具体通过以下公式(1)进行表述:
其中,y表示模型的输出分类结果,具体可以包括0和1,0用于表示像素点属于背景,而1用于表示像素点属于目标对象。hk用于表示所应用到的模型具体包括k个模型组件,在模型中,j、k用于表示模型中不同模型组件的坐标,即wjk表示像素分类预测模型中坐标为(j,k)的模型组件的权重,N表示基础神经网络模型所包括的所有模型组件的数量。而针对待识别图像而言,j、k用于表示像素点的坐标,即xjk表示坐标为(j,k)的像素点的图像色彩分布特征。
同样地,公式(1)中函数g(hk)用于表示二值化分类过程,具体通过以下公式(2)对函数g(hk)进行表述:
其中,通过公式(2)提供的二值化分类方式,可计算得到模型的输出分类结果,比如具体是0还是1,0用于表示像素点属于背景,而1用于表示像素点属于目标对象。
进一步地,利用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理时,通过结合公式(1)和公式(2),可以得到以下公式(3),通过公式(3)确定得到目标图像中每个像素点的像素分类结果:
其中,通过结合公式(1)和公式(2),将公式(1)中的实际模型表述填充入公式(2)中,得到如公式(3)所示的分类预测方式,以基于公式(3)得到目标图像中每个像素点的像素分类结果。
在一个实施例中,在利用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理之前,还包括对初始神经网络模型进行训练,获得训练好的像素分类预测模型。
具体地,以基于不同游戏进程中的不同实际游戏场景图像进行对象识别为例,则具体是采集不同游戏进程中不同实际游戏场景下的多张图像,并基于多张实际游戏场景图像的特征点进行预先标注,获得携带分类标记的训练样本集。其中,分类标记包括0和1,0用于表示特征点属于背景,而1用于表示特征点属于目标对象(比如不同游戏场景下的游戏玩家角色、或游戏内置的非玩家角色等,均可以作为需要标注的目标对象)。
进一步地,在获得携带分类标记的训练样本集后,根据训练样本集对基础神经网络模型进行训练,在模型训练过程中,采用以下公式(4)所示的损失函数调节模型的权重,直至损失函数满足模型训练结束条件时,将训练结束时模型作为训练好的像素分类预测模型。其中:
其中,E表示模型训练过程中的损失函数值,k表示需要训练的基础神经网络模型中待训练的模型组件的编号,N表示基础神经网络模型所包括的所有模型组件的数量,y表示训练过程中基础神经网络模型的输出分类,t表示训练样本集携带的预先标注的分类标记。
可以理解的是,根据不同的实际应用场景需求,可预先设置针对模型训练过程中的模型训练结束条件,针对损失函数而言,具体可以是针对损失函数设置相应的损失函数阈值,若训练过程中损失函数值达到相应的损失函数阈值,则表明当前达到模型训练结束条件,将训练结束时的模型作为训练好的像素分类预测模型。
同样地,模型训练结束条件还可以是针对模型的训练迭代次数而言,比如模型的训练迭代次数达到预设的迭代次数阈值时,则表明当前达到模型训练结束条件,将训练结束时的模型作为训练好的像素分类预测模型。
步骤S204,提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果。
其中,具体是通过训练好的区域图像分割模型,对待识别图像进行深度图像特征提取,提取得到待识别图像的深度图像特征。其中,区域图像分割模型具体是通过对初始卷积神经网络模型训练得到的。
具体地,基于训练好的区域图像分割模型,对待识别图像进行特征提取,获得待识别图像在不同颜色区域的深度图像特征,并进一步对待识别图像在不同颜色区域的深度图像特征,分别进行图像分割处理,获得与待识别图像对应的区域图像分割结果。
进一步地,由于训练好的区域图像分割模型设置有预设数量的卷积核,则通过区域图像分割模型设置的各卷积核,可分别对待识别图像的不同颜色区域进行卷积处理,进而获得待识别图像在不同颜色区域的深度图像特征。也就是说,基于训练好的区域图像分割模型,具体是对待识别图像进行深度特征提取,即聚焦于待识别图像在不同颜色区域的深度特征,以获得待识别图像在不同颜色区域的深度图像特征。
同样地,对识别图像在不同颜色区域的深度图像特征分别进行图像分割处理,可获得与待识别图像对应的区域图像分割结果。其中,区域图像分割结果具体包括区域图像属于目标对象、以及区域图像属于背景,且一个待识别图像可对应多个区域图像分割结果,即一个待识别图像可以包括多个目标对象、以及多个位于不同位置的背景图像。
在一个实施例中,如图3所示,提供了图像多区域分割处理的流程,参照图3可知,训练好的区域图像分割模型对待识别图像的图像分割处理,具体包括卷积层进行卷积处理、池化层进行池化处理、上采样层进行上采样处理、反卷积层进行反卷积处理、以及最终进行的图像分割处理的完整处理过程。
具体地,参照图3可知,卷积层进行的卷积处理用于提取深度特征,池化层具体是采用最大值池化策略,对所提取的深度特征进池化处理,其目的在于减少图像分割处理过程中的计算量,具体是在3*3特征块内取最大的特征块。而上采样层所进行的上采样处理,通在矩阵内进行插值处理(比如线性插值,即相邻两个值的平均值插入),在特征提取过程中起到平滑作用。同样地,反卷积层进行反卷积处理时,通过前序操作,进行反卷积可起到聚类的作用,最终通过对待识别图像进行分割,以达到区分背景和目标对象、以及不同的目标对象之间的关系的目的。
步骤S206,基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象。
其中,在确定待识别图中的目标对象时,需要利用像素分类结果,对区域图像分割结果进行进一步校验,即根据像素分类结果重新对区域图像分割结果进行二次判定,也可以理解为通过二次判定,减少区域图像分割结果存在的误差数据,从而使得根据区域图像分割结果所确定的区域图像的归属更为精准,即能更准确地判定分割出的区域图像是属于目标对象、还是属于背景。
具体地,基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果,进而判断校验处理结果是否满足识别准确度条件。进一步地,若校验处理结果满足识别准确度条件,则根据区域图像分割结果,确定与待识别图像对应的目标对象。
其中,识别准确度条件可以理解为根据实际应用场景预先设置的识别准确度要求,比如识别准确度条件包括目标区域图像中属于目标对象的像素点的占比大于预设占比阈值。其中,预设占比阈值可根据实际应用场景的需求进行设置和灵活调整,不局限于具体取值。举例来说,本实施例中,预设占比阈值可取50%至80%中的不同取值,比如60%、70%等。
进一步地,若根据校验处理结果,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值,则将目标区域图像确定为与待识别图像对应的目标对象。其中,待识别图像中可包括多个目标对象。
在一个实施例中,具体通过以下公式(5),对基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象的过程进行表述:
其中,f(x,y)用于表示待识别图像中的目标对象或背景,f(x,y)=1用于表示输出的是待识别图像中的目标对象,f(x,y)=0则用于表示输出的是待识别图像中的背景。其中,if area(x,y)==1>60%用于表示识别准确度条件,即目标区域图像中属于目标对象的像素点的占比大于预设占比阈值60%。
可以理解的是,当根据像素分类结果对区域图像分割结果进行校验处理,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值(比如60%)时,则表明当前获得的校验处理结果满足识别准确度条件,进而将属于目标对象的像素点的占比大于预设占比阈值的目标区域图像,确定为与待识别图像对应的目标对象。
在一个实施例中,基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果,包括:
获取区域图像分割结果为区域图像属于目标对象对应的目标区域图像,并提取目标区域图像中的各像素点;根据像素分类结果,对目标区域图像中的各像素点进行校验处理,生成对应的校验处理结果。其中,校验处理结果包括目标区域图像中的像素点属于目标对象、以及目标区域图像中的像素点属于背景。
具体地,区域图像分割结果包括区域图像属于目标对象,以及区域图像属于背景,而由于具体是需要对目标对象进行标注、以及对目标对象所在位置进行实时关注,则需要获取区域图像分割结果为区域图像属于目标对象对应的目标区域图像,并提取目标区域图像中的各像素点。
进一步地,针对区域图像属于目标对象对应的目标区域图像中的各像素点,利用像素分类结果,重新进行二次判定,即进行校验处理,以生成对应的校验处理结果。
其中,校验处理结果包括目标区域图像中的像素点属于目标对象、以及目标区域图像中的像素点属于背景。也就是说,根据像素分类结果,对区域图像属于目标对象对应的目标区域图像中的各像素点进行校验处理时,可得到像素点属于目标对象、以及像素点属于背景的不同情况。
在一个实施例中,如图4所示,提供了一种游戏应用进程中实际游戏场景包括的目标对象示意图,参照图4可知,采用本申请实施例中的对象识别方法,可基于不同游戏进程中的不同实际游戏场景图像进行对象识别,获得不同游戏场景下的游戏玩家角色、或游戏内置的非玩家角色等,作为标注的目标对象。
进一步地,通过将各目标对象在游戏应用程序中标记并展示,实时确定游戏角色所在位置,以供游戏使用对象查看,从而在游戏进程中为游戏使用对象提供高质量的虚拟表现、以及贴近真实场景的良好游戏体验。参照图4可知,图4所示的实际游戏场景下,可标注多个目标对象(比如图4中所示的3个目标对象),并实时关注目标对象所在位置。同时,采用本申请实施例的对象识别方法,可对游戏的旋转特性以及遮挡方面,优化识别准确度以及目标对象所在位置的精准实时关注。
上述对象识别方法中,通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。同样地,通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果,进一步基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象,实现了从像素以及区域图像双重角度的识别和判定,减少了像素分类处理、以及图像分割处理过程中的误差数据,并不局限于传统上所采用的单一的背景与目标之间的差值计算确定目标对象的方式,在优化识别操作的同时,进一步提升了所获得的待识别图像中的目标对象的识别准确度。
在一个实施例中,如图5所示,获得像素分类结果的步骤,即获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果的步骤,具体包括:
步骤S502,提取待识别图像中的纹理特征,并基于纹理特征进行图像分割处理,获得目标图像和背景图像。
具体地,通过获取待识别图像,并对待识别图像进行背景消除,获得待识别图像中的纹理特征。其中,具体是采用LBP算法对待识别图像进行背景消除,提取待识别图像的纹理特征。
进一步地,获得待识别图像中的纹理特征后,采用分水岭算法基于待识别图像的纹理特征进行图像分割处理,将待识别图像中的目标对象和背景分离,进而将目标对象和背景区分出来,以获得目标图像和背景图像。
其中,由于经过背景消除以及图像分割后的待识别图像中,仍然存在高频噪声,则具体是使用低通滤波器对待识别图像进一步进行高频去噪处理,以过滤掉待识别图像中的高频噪声,使得待识别图像中的目标对象和背景的区分更加鲜明。
步骤S504,基于目标图像进行色彩分布特征提取,获得图像色彩分布特征。
其中,在对待识别图像进行背景消除、图像分割、以及高频去噪等预处理后,获得预处理后的待识别图像,并基于待识别图像中的目标图像进行特征提取处理,具体是提取目标图像的图像色彩分布特征。
具体地,通过提取目标图像中每个像素点的色彩值,并筛选得到色彩值符合预设阈值的目标像素点,进而根据各目标像素点进行色彩区域分布统计,获得与目标图像对应的图像色彩分布特征。其中,预设阈值可根据实际应用场景的需求进行调整和设置,不局限于具体某些取值,可实现目标对象和背景的区分即可满足预设阈值的设置要求。
进一步地,根据常规的色彩取值,分别对应设置多个预设阈值,并筛选得到符合不同预设阈值的多个目标像素点,即得到和不同色彩值对应的多个目标像素点。进而针对和不同色彩值对应的多个目标像素点,进行色彩区域分布统计,确定各个色彩所占面积分布、以及确定不同色彩的所在区域,从而根据各个色彩所占面积分布以及不同色彩的所在区域,以获得目标图像对应的图像色彩分布特征。
在一个实施例中,具体采用以下公式(6)实现对目标图像进行图像色彩分布特征的提取:
F(x,y,u)=[[∑1],[(x,y)]],ifcolor(x,y)==u(6)
其中,F(x,y,u)用于表示所提取得到的图像色彩分布特征,[[∑1],[(x,y)]]用于表示色彩值等于u的区域面积和,即由色彩值为u的多个像素点组成的区域的面积,而ifcolor(x,y)==u用于表示色彩值等于u的像素点对应的坐标。其中,u具体可以理解为根据常规的色彩取值分别对应设置的多个预设阈值,则可分别获得与不同u值对应的像素点组成的区域图像。
也就是说,通过公式(6)提供的提取方式,对坐标为(x,y)的像素点分别进行特征提取,获得每个点的特征矩阵,最终获得待识别图像中目标对应的图像色彩分布特征。
步骤S506,对目标图像中每个像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果。
其中,具体是采用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理,预测得到与图像色彩分布特征对应的各像素点的像素分类结果。其中,像素点的像素分类结果具体包括像素点属于目标对象、以及像素点属于背景。
具体地,通过获取目标图像中每个像素点的坐标值,并根据每个像素点的坐标值,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件。其中,采用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理时,针对目标图像中的每个像素点,具体是利用像素分类预测模型中相同坐标的模型组件,对相应像素点进行预测处理,以获得像素分类结果。
进一步地,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件后,进一步利用与每个像素点的坐标值相匹配的模型组件,分别对每一像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果。其中,像素分类结果包括像素点属于目标对象、以及像素点属于背景。
在一个实施例中,在利用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理之前,还包括对初始神经网络模型进行训练,获得训练好的像素分类预测模型。
具体来说,根据不同的实际应用场景需求,可预先设置针对模型训练过程中的模型训练结束条件,针对损失函数而言,具体可以是针对损失函数设置相应的损失函数阈值,若训练过程中损失函数值达到相应的损失函数阈值,则表明当前达到模型训练结束条件,将训练结束时的模型作为训练好的像素分类预测模型。
本实施例中,通过提取待识别图像中的纹理特征,并基于纹理特征进行图像分割处理,获得目标图像和背景图像,进而基于目标图像进行色彩分布特征提取,获得图像色彩分布特征。进一步地,通过对目标图像中每个像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果。实现了在像素点级别对目标图像进行分类预测处理,以获得对目标图像中每个像素点的准确像素分类结果,避免对整体图像进行识别处理时对某些像素点的遗漏识别,导致的识别误差,进一步提升对待识别图像的识别精准度。
在一个实施例中,如图6所示,训练得到区域图像分割模型的步骤,具体包括:
步骤S602,从待识别图像中随机提取预设数量的图像块,并获取各图像块的图像值。
具体地,通过从待识别图像中随机提取预设数量的图像块,其中,预设数量可根据实际应用场景的需求进行设置。进一步地,在提取出预设数量的图像块后,分别获取各图像块的图像值。
举例来说,比如出于区域图像分割模型中卷积层所提取的特征丰富程度的考虑,针对卷积层设置多个不同的卷积核,以提取丰富、全面的深度图像特征,则本申请实施例中,可针对区域图像分割模型设置5至10个等不同取值的卷积核,也还可以是其他数量取值的卷积核数量。
步骤S604,针对各图像块,分别从预设图像值集合中均匀抽取对应的预设图像值,预设图像值集合中设置与不同颜色区域对应的图像值。
具体地,由于预设图像值集合中设置与不同颜色区域对应的图像值,则针对每一图像块,可分别从预设图像值集合中均匀抽取与每一图像块一一对应的预设图像值。
其中,预设图像值集合中设置有包括在[0,255]内的256个图像值,分别与不同颜色区域相对应,针对预设数量的图像块,分别从预设图像值集合中均匀抽取相同数量的、与每一图像块一一对应的预设图像值。
步骤S606,基于各图像块的图像值以及预设图像值,确定与各图像块一一对应的图像卷积参数。
具体地,针对每一图像块,基于该图像块的图像值、以及抽取的对应的预设图像值,计算得到与每一图像块一一对应的图像卷积参数。其中,具体是通过计算图像块的图像值、以及抽取的对应的预设图像值之间的方差,获得与每一图像块一一对应的图像卷积参数。
步骤S608,获取各图像块的特征点坐标,并根据特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵。
具体地,通过获取预设数量的各图像块对应的特征点坐标,比如具体通过(x,y)表示特征点坐标,同时还需获取与待识别图像对应的特征矩阵的中心坐标,比如待识别图像为二维图像,其对应的特征矩阵为二维矩阵,则未经处理的待识别图像对应的特征矩阵的中心坐标,也可通过二维坐标表示,比如通过(ux、uy)表示与待识别图像对应的特征矩阵的中心坐标。
其中,针对每一图像块,根据确定得到的特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,分别进行矩阵计算,获得预设数量的卷积核矩阵。
进一步地,通过以下公式(7),计算得到预设数数量的卷积核矩阵:
其中,G(x,y)用于表示卷积核矩阵,σx、σy用于表示与图像块对应的图像卷积参数,具体是通过计算图像块的图像值、以及抽取的对应的预设图像值之间的方差得到。其中,x、y表示与图像块对应的特征点坐标,ux、uy表示与待识别图像对应的特征矩阵的中心坐标。
可以理解的是,预设数量的图像块的特征点坐标不同,而与待识别图像对应的特征矩阵的中心坐标(即ux、uy)属于固定的,则通过将不同图像块的特征点坐标x、y对ux、uy进行调节,则可计算得到预设数数量的不同卷积核矩阵。
步骤S610,根据预设数量的卷积核矩阵,针对初始卷积神经网络模型,设置对应预设数量的卷积核,获得区域图像分割模型。
具体地,针对初始卷积核神经网络模型的卷积层,根据预设数量的卷积核矩阵,为其卷积层设置对应预设数量的卷积核,从而获得训练好的区域图像分割模型。
可以理解的是,出于区域图像分割模型中卷积层所提取的特征丰富程度的考虑,针对卷积层设置多个不同的卷积核,以提取丰富、全面的深度图像特征,且卷积核的具体数量不进行具体限定,根据实际应用场景的需求进行设置和调整,比如说具体设置了5至10个不同的卷积核。
进一步地,如图7所示,提供了一种区域图像分割模型对应的卷积核、以及卷积核矩阵示意图,参照图7可知,本申请实施例中,针对区域图像分割模型,具体设置了6个不同的卷积核。
其中,在图7所示的卷积核、以及卷积核矩阵示意图中,左侧为卷积核,从下往上进行展示,第一层为代表平滑度,表示为均值卷积核,中间多层表示图像主要颜色区域的卷积核(每一层均对应不同颜色区域,用于对不同颜色区域的图像进行卷积处理),最后一层表示是高通滤波处理过程。通过将多层卷积核进行组合后再进行卷积处理,可提取信息丰富的深度图像特征,进而后续进行图像分割时,可形成多区域的图像分割,获得多个区域图像的区域图像分割结果。
同样地,在图7所示的卷积核、以及卷积核矩阵示意图中,右侧为与各卷积核分别对应的多个卷积核矩阵。
本实施例中,通过从待识别图像中随机提取预设数量的图像块,并获取各图像块的图像值,同时针对各图像块,分别从预设图像值集合中均匀抽取对应的预设图像值,进而基于各图像块的图像值以及预设图像值,确定与各图像块一一对应的图像卷积参数。进一步地,通过获取各图像块的特征点坐标,并根据特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵。最终可根据预设数量的卷积核矩阵,针对初始卷积神经网络模型,设置对应预设数量的卷积核,获得区域图像分割模型。实现了根据图像块的特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵,以通过具有多个卷积核的区域图像分割模型,提取得到丰富的深度图像特征,并基于丰富的深度图像特征进行图像分割处理,减少特征提取、图像分割处理过程中的误差数据,提升区域图像分割结果的精准度。
在一个实施例中,如图8所示,提供了一种对象识别方法,具体包括以下步骤:
步骤S801,提取待识别图像中的纹理特征,并基于纹理特征进行图像分割处理,获得目标图像和背景图像。
步骤S802,提取目标图像中每个像素点的色彩值,并筛选得到色彩值符合预设阈值的目标像素点。
步骤S803,根据各目标像素点进行色彩区域分布统计,获得与目标图像对应的图像色彩分布特征。
步骤S804,获取目标图像中每个像素点的坐标值,并根据每个像素点的坐标值,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件。
步骤S805,利用与每个像素点的坐标值相匹配的模型组件,分别对每一像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果,像素分类结果包括像素点属于目标对象、以及像素点属于背景。
步骤S806,从待识别图像中随机提取预设数量的图像块,并获取各图像块的图像值。
步骤S807,针对各图像块,分别从预设图像值集合中均匀抽取对应的预设图像值,预设图像值集合中设置与不同颜色区域对应的图像值。
步骤S808,基于各图像块的图像值以及预设图像值,确定与各图像块一一对应的图像卷积参数。
步骤S809,获取各图像块的特征点坐标,并根据特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵。
步骤S810,根据预设数量的卷积核矩阵,针对初始卷积神经网络模型,设置对应预设数量的卷积核,获得训练好的区域图像分割模型。
步骤S811,基于训练好的区域图像分割模型,对待识别图像进行特征提取,获得待识别图像在不同颜色区域的深度图像特征,区域图像分割模型设置有预设数量的卷积核,各卷积核分别用于对待识别图像的不同颜色区域进行卷积处理,获得待识别图像在不同颜色区域的深度图像特征。
步骤S812,对待识别图像在不同颜色区域的深度图像特征,分别进行图像分割处理,获得与待识别图像对应的区域图像分割结果,区域图像分割结果包括区域图像属于目标对象、以及区域图像属于背景。
步骤S813,获取区域图像分割结果为区域图像属于目标对象对应的目标区域图像,并提取目标区域图像中的各像素点。
步骤S814,根据像素分类结果,对目标区域图像中的各像素点进行校验处理,生成对应的校验处理结果,校验处理结果包括目标区域图像中的像素点属于目标对象、以及目标区域图像中的像素点属于背景。
步骤S815,若根据校验处理结果,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值,将目标区域图像确定为与待识别图像对应的目标对象,待识别图像中包括多个目标对象。
上述对象识别方法中,通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。同样地,通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果,进一步基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果,实现了根据像素分类结果对区域图像分割结果的二次判定,提升对区域图像分割处理的精准度,减少了图像分割处理过程中的误差数据,且只有在确定校验处理结果满足识别准确度条件时,才根据区域图像分割结果,确定出与待识别图像对应的目标对象,并不局限于传统的背景、目标之间的差值计算,在优化识别操作的同时,进一步提升了所获得的待识别图像中的目标对象的识别准确度。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象识别方法的对象识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象识别装置实施例中的具体限定可以参见上文中对于对象识别方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种对象识别装置,包括:像素分类处理模块902、区域分割处理模块904、以及目标对象确定模块906,其中:
像素分类处理模块902,用于获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。
区域分割处理模块904,用于提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果。
目标对象确定模块906,用于基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标图像。
上述对象识别装置中,通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。同样地,通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果,进一步基于像素分类结果、以及区域图像分割结果,确定与待识别图像对应的目标对象,实现了从像素以及区域图像双重角度的识别和判定,减少了像素分类处理、以及图像分割处理过程中的误差数据,并不局限于传统上所采用的单一的背景与目标之间的差值计算确定目标对象的方式,在优化识别操作的同时,进一步提升了所获得的待识别图像中的目标对象的识别准确度。
在一个实施例中,目标对象确定模块,还用于:
基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果;若校验处理结果满足识别准确度条件,根据区域图像分割结果,确定与待识别图像对应的目标对象。
在一个实施例中,区域图像分割结果包括区域图像属于目标对象;目标对象确定模块,还用于:
获取区域图像分割结果为区域图像属于目标对象对应的目标区域图像,并提取目标区域图像中的各像素点;根据像素分类结果,对目标区域图像中的各像素点进行校验处理,生成对应的校验处理结果;校验处理结果包括目标区域图像中的像素点属于目标对象、以及目标区域图像中的像素点属于背景。
在一个实施例中,识别准确度条件包括目标区域图像中属于目标对象的像素点的占比大于预设占比阈值;目标对象确定模块,还用于:
若根据校验处理结果,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值,将目标区域图像确定为与待识别图像对应的目标对象;待识别图像中包括多个目标对象。
在一个实施例中,像素分类处理模块,还用于:
提取待识别图像中的纹理特征,并基于纹理特征进行图像分割处理,获得目标图像和背景图像;基于目标图像进行色彩分布特征提取,获得图像色彩分布特征;对目标图像中每个像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果。
在一个实施例中,像素分类处理模块,还用于:
提取目标图像中每个像素点的色彩值,并筛选得到色彩值符合预设阈值的目标像素点;根据各目标像素点进行色彩区域分布统计,获得与目标图像对应的图像色彩分布特征。
在一个实施例中,像素分类处理模块,还用于:
获取目标图像中每个像素点的坐标值;根据每个像素点的坐标值,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件;利用与每个像素点的坐标值相匹配的模型组件,分别对每一像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果;像素分类结果包括像素点属于目标对象、以及像素点属于背景。
在一个实施例中,区域分割处理模块,还用于:
基于训练好的区域图像分割模型,对待识别图像进行特征提取,获得待识别图像在不同颜色区域的深度图像特征;区域图像分割模型设置有预设数量的卷积核,各卷积核分别用于对待识别图像的不同颜色区域进行卷积处理,获得待识别图像在不同颜色区域的深度图像特征;对待识别图像在不同颜色区域的深度图像特征,分别进行图像分割处理,获得与待识别图像对应的区域图像分割结果;区域图像分割结果包括区域图像属于目标对象、以及区域图像属于背景。
在一个实施例中,提供了一种对象识别装置,还包括区域图像分割模型训练模块,用于:
从待识别图像中随机提取预设数量的图像块,并获取各图像块的图像值;针对各图像块,分别从预设图像值集合中均匀抽取对应的预设图像值;预设图像值集合中设置与不同颜色区域对应的图像值;基于各图像块的图像值以及预设图像值,确定与各图像块一一对应的图像卷积参数;获取各图像块的特征点坐标,并根据特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵;根据预设数量的卷积核矩阵,针对初始卷积神经网络模型,设置对应预设数量的卷积核,获得区域图像分割模型。
上述对象识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图10所示,提供了一种对象识别系统,参照图10可知,该对象识别系统具体包括:1)P1基础特征提取-像素点分类过程,通过对原始图片进行背景消除、图像分割、以及高频去噪,再使用一个融合神经网络获取基本特征并对每个像素进行分类,区分是背景还是目标;2)P2深度特征提取-多区域图像分割过程,即面的分类,使用深度学习、卷积神经网络进行图像分割,主要聚焦在深度特征的提取,通过背景消除后的图片通过一个卷积神经网络进行深度特征提取,然后使用softmax分类器进行图像多区域的分割;3)P3点像素和区域分割融合的多分类过程,通过结合点像素的分类和区域的分割(即面的分割)进行多目标分类,完成多目标识别过程。其中:
P1、基础特征提取-像素点分类过程(即图10中所示的点分类过程):
具体地,通过获取待识别图像,并对待识别图像进行背景消除、图像分割、以及高频去噪等预处理后,获得预处理后的待识别图像,并基于待识别图像进行特征提取处理,具体是提取待识别图像中的图像色彩分布特征。其中,提取图像的色彩分布特征的目的,在于统计待识别图像上各个色彩所占面积分布、以及确定不同色彩的所在区域。
其中,具体是采用LBP算法(即Local Binary Pattern,理解为局部二值模式算法,表示描述图像特征像素点与各个像素点之间的灰度关系的局部特征的非参数算法)对待识别图像进行背景消除,提取待识别图像的纹理特征,并使用分水岭算法(即WatershedAlgorithm,表示根据分水岭的构成来考虑图像的分割的处理算法)进行图像分割,其目的在于将待识别图像中的目标对象和背景分离,进而将目标对象和背景区分出来。同样地,由于经过背景消除以及图像分割后的待识别图像中,仍然存在高频噪声,则具体是使用低通滤波器对待识别图像进一步进行高频去噪处理,以过滤掉待识别图像中的高频噪声,使得待识别图像中的目标对象和背景的区分更加鲜明。
进一步地,在获得待识别图像中的图像色彩分布特征后,即获得待识别图像中不同色彩所占面积分布、以及不同色彩的所在区域后,进一步基于图像色彩分布特征进行像素分类处理,获得像素分类结果。
在一个实施例中,具体是采用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理,预测得到与图像色彩分布特征对应的各像素点的像素分类结果。具体来说,通过获取目标图像中每个像素点的坐标值,并根据每个像素点的坐标值,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件。
其中,采用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理时,针对目标图像中的每个像素点,具体是利用像素分类预测模型中相同坐标的模型组件,对相应像素点进行预测处理,以获得像素分类结果。
具体地,从训练好的像素分类预测模型中,确定出与每个像素点的坐标值相匹配的模型组件后,进一步利用与每个像素点的坐标值相匹配的模型组件,分别对每一像素点的图像色彩分布特征进行分类预测处理,获得目标图像中每个像素点的像素分类结果。其中,像素分类结果包括像素点属于目标对象、以及像素点属于背景。
在一个实施例中,在利用训练好的像素分类预测模型,对图像色彩分布特征进行像素级的分类预测处理之前,还包括对初始神经网络模型进行训练,获得训练好的像素分类预测模型。
具体地,以基于不同游戏进程中的不同实际游戏场景图像进行对象识别为例,则具体是采集不同游戏进程中不同实际游戏场景下的多张图像,并基于多张实际游戏场景图像的特征点进行预先标注,获得携带分类标记的训练样本集。其中,分类标记包括0和1,0用于表示特征点属于背景,而1用于表示特征点属于目标对象(比如不同游戏场景下的游戏玩家角色、或游戏内置的非玩家角色等,均可以作为需要标注的目标对象)。
进一步地,在获得携带分类标记的训练样本集后,根据训练样本集对基础神经网络模型进行训练,在模型训练过程中,利用损失函数调节模型的权重,直至损失函数满足模型训练结束条件时,将训练结束时模型作为训练好的像素分类预测模型。
可以理解的是,根据不同的实际应用场景需求,可预先设置针对模型训练过程中的模型训练结束条件,针对损失函数而言,具体可以是针对损失函数设置相应的损失函数阈值,若训练过程中损失函数值达到相应的损失函数阈值,则表明当前达到模型训练结束条件,将训练结束时的模型作为训练好的像素分类预测模型。同样地,模型训练结束条件还可以是针对模型的训练迭代次数而言,比如模型的训练迭代次数达到预设的迭代次数阈值时,则表明当前达到模型训练结束条件,将训练结束时的模型作为训练好的像素分类预测模型。
P2、深度特征提取-多区域图像分割过程(即图10中所示的区域分类过程):
其中,具体是通过训练好的区域图像分割模型,对待识别图像进行深度图像特征提取,提取得到待识别图像的深度图像特征。其中,区域图像分割模型具体是通过对初始卷积神经网络模型训练得到的。
具体地,基于训练好的区域图像分割模型,对待识别图像进行特征提取,获得待识别图像在不同颜色区域的深度图像特征,并进一步对待识别图像在不同颜色区域的深度图像特征,分别进行图像分割处理,获得与待识别图像对应的区域图像分割结果。
进一步地,由于训练好的区域图像分割模型设置有预设数量的卷积核,则通过区域图像分割模型设置的各卷积核,可分别对待识别图像的不同颜色区域进行卷积处理,进而获得待识别图像在不同颜色区域的深度图像特征。也就是说,基于训练好的区域图像分割模型,具体是对待识别图像进行深度特征提取,即聚焦于待识别图像在不同颜色区域的深度特征,以获得待识别图像在不同颜色区域的深度图像特征。
同样地,对识别图像在不同颜色区域的深度图像特征分别进行图像分割处理,可获得与待识别图像对应的区域图像分割结果。其中,区域图像分割结果具体包括区域图像属于目标对象、以及区域图像属于背景,且一个待识别图像可对应多个区域图像分割结果,即一个待识别图像可以包括多个目标对象、以及多个位于不同位置的背景图像。
在一个实施例中,训练好的区域图像分割模型对待识别图像的图像分割处理,具体包括卷积处理、池化处理、上采样处理、反卷积处理、以及图像分割处理的完整处理过程。
具体地,卷积层进行的卷积处理用于提取深度特征,池化层具体是采用最大值池化策略,对所提取的深度特征进池化处理,其目的在于减少图像分割处理过程中的计算量,具体是在3*3特征块内取最大的特征块。而上采样层所进行的上采样处理,通在矩阵内进行插值处理(比如线性插值,即相邻两个值的平均值插入),在特征提取过程中起到平滑作用。同样地,反卷积层进行反卷积处理时,通过前序操作,进行反卷积可起到聚类的作用,最终通过对待识别图像进行分割,以达到区分背景和目标对象、以及不同的目标对象之间的关系的目的。
在一个实施例中,训练得到区域图像分割模型的方式,具体包括:
首先,从待识别图像中随机提取预设数量的图像块,并获取各图像块的图像值,同时,针对各图像块,分别从预设图像值集合中均匀抽取对应的预设图像值。其中,由于预设图像值集合中设置与不同颜色区域对应的图像值,则针对每一图像块,可分别从预设图像值集合中均匀抽取与每一图像块一一对应的预设图像值。
其次,针对每一图像块,基于该图像块的图像值、以及抽取的对应的预设图像值,计算得到与每一图像块一一对应的图像卷积参数。其中,具体是通过计算图像块的图像值、以及抽取的对应的预设图像值之间的方差,获得与每一图像块一一对应的图像卷积参数。
第三,通过获取预设数量的各图像块对应的特征点坐标,比如具体通过(x,y)表示特征点坐标,同时还需获取与待识别图像对应的特征矩阵的中心坐标,比如待识别图像为二维图像,其对应的特征矩阵为二维矩阵,则未经处理的待识别图像对应的特征矩阵的中心坐标,也可通过二维坐标表示,比如通过(ux、uy)表示与待识别图像对应的特征矩阵的中心坐标。
其中,针对每一图像块,根据确定得到的特征点坐标、图像卷积参数、以及与待识别图像对应的特征矩阵的中心坐标,分别进行矩阵计算,获得预设数量的卷积核矩阵。
具体地,针对初始卷积核神经网络模型的卷积层,根据预设数量的卷积核矩阵,为其卷积层设置对应预设数量的卷积核,从而获得训练好的区域图像分割模型。
进一步地,出于区域图像分割模型中卷积层所提取的特征丰富程度的考虑,针对卷积层设置多个不同的卷积核,以提取丰富、全面的深度图像特征,且卷积核的具体数量不进行具体限定,根据实际应用场景的需求进行设置和调整。
P3、点像素和区域分割融合的多分类过程(即图10中所示的点面融合多分类过程):
其中,在确定待识别图中的目标对象时,需要利用像素分类结果,对区域图像分割结果进行进一步校验,即根据像素分类结果重新对区域图像分割结果进行二次判定,也可以理解为通过二次判定,减少区域图像分割结果存在的误差数据,从而使得根据区域图像分割结果所确定的区域图像的归属更为精准,即能更准确地判定分割出的区域图像是属于目标对象、还是属于背景。
具体地,基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果,进而判断校验处理结果是否满足识别准确度条件。进一步地,若校验处理结果满足识别准确度条件,则根据区域图像分割结果,确定与待识别图像对应的目标对象。其中,识别准确度条件可以理解为根据实际应用场景预先设置的识别准确度要求,比如识别准确度条件包括目标区域图像中属于目标对象的像素点的占比大于预设占比阈值。
进一步地,若根据校验处理结果,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值,则将目标区域图像确定为与待识别图像对应的目标对象。其中,待识别图像中可包括多个目标对象。
可以理解的是,当根据像素分类结果对区域图像分割结果进行校验处理,确定目标区域图像中属于目标对象的像素点的占比大于预设占比阈值(比如60%)时,则表明当前获得的校验处理结果满足识别准确度条件,进而将属于目标对象的像素点的占比大于预设占比阈值的目标区域图像,确定为与待识别图像对应的目标对象。
上述对象识别系统中,通过获取待识别图像中的图像色彩分布特征,并基于图像色彩分布特征进行像素分类处理,获得像素分类结果。同样地,通过提取待识别图像的深度图像特征,并基于深度图像特征进行图像多区域分割处理,获得区域图像分割结果,进一步基于像素分类结果,对区域图像分割结果进行校验处理,生成对应的校验处理结果,实现了根据像素分类结果对区域图像分割结果的二次判定,提升对区域图像分割处理的精准度,减少了图像分割处理过程中的误差数据,且只有在确定校验处理结果满足识别准确度条件时,才根据区域图像分割结果,确定出与待识别图像对应的目标对象,并不局限于传统的背景、目标之间的差值计算,在优化识别操作的同时,进一步提升了所获得的待识别图像中的目标对象的识别准确度。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别图像、图像色彩分布特征、像素分类结果、深度图像特征、区域图像分割结果、校验处理结果、识别准确度条件、以及目标对象等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象识别方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种对象识别方法,其特征在于,所述方法包括:
获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标图像,包括:
基于所述像素分类结果,对所述区域图像分割结果进行校验处理,生成对应的校验处理结果;
若所述校验处理结果满足识别准确度条件,根据所述区域图像分割结果,确定与所述待识别图像对应的目标对象。
3.根据权利要求2所述的方法,其特征在于,区域图像分割结果包括区域图像属于目标对象;所述基于所述像素分类结果,对所述区域图像分割结果进行校验处理,生成对应的校验处理结果,包括:
获取区域图像分割结果为区域图像属于目标对象对应的目标区域图像,并提取所述目标区域图像中的各像素点;
根据所述像素分类结果,对所述目标区域图像中的各像素点进行校验处理,生成对应的校验处理结果;所述校验处理结果包括所述目标区域图像中的像素点属于目标对象、以及所述目标区域图像中的像素点属于背景。
4.根据权利要求2所述的方法,其特征在于,所述识别准确度条件包括所述目标区域图像中属于目标对象的像素点的占比大于预设占比阈值;所述若所述校验处理结果满足识别准确度条件,根据所述区域图像分割结果,确定与所述待识别图像对应的目标对象,包括:
若根据所述校验处理结果,确定所述目标区域图像中属于目标对象的像素点的占比大于预设占比阈值,将所述目标区域图像确定为与所述待识别图像对应的目标对象;所述待识别图像中包括多个目标对象。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果,包括:
提取所述待识别图像中的纹理特征,并基于所述纹理特征进行图像分割处理,获得目标图像和背景图像;
基于所述目标图像进行色彩分布特征提取,获得图像色彩分布特征;
对所述目标图像中每个像素点的图像色彩分布特征进行分类预测处理,获得所述目标图像中每个像素点的像素分类结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标图像进行色彩分布特征提取,获得图像色彩分布特征,包括:
提取所述目标图像中每个像素点的色彩值,并筛选得到色彩值符合预设阈值的目标像素点;
根据各所述目标像素点进行色彩区域分布统计,获得与所述目标图像对应的图像色彩分布特征。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标图像中每个像素点的图像色彩分布特征进行分类预测处理,获得所述目标图像中每个像素点的像素分类结果,包括:
获取所述目标图像中每个像素点的坐标值;
根据每个像素点的坐标值,从训练好的像素分类预测模型中,确定出与每个所述像素点的坐标值相匹配的模型组件;
利用与每个所述像素点的坐标值相匹配的模型组件,分别对每一所述像素点的图像色彩分布特征进行分类预测处理,获得所述目标图像中每个像素点的像素分类结果;所述像素分类结果包括像素点属于目标对象、以及像素点属于背景。
8.根据权利要求1至4任意一项所述的方法,其特征在于,所述提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果,包括:
基于训练好的区域图像分割模型,对所述待识别图像进行特征提取,获得所述待识别图像在不同颜色区域的深度图像特征;所述区域图像分割模型设置有预设数量的卷积核,各所述卷积核分别用于对所述待识别图像的不同颜色区域进行卷积处理,获得所述待识别图像在不同颜色区域的深度图像特征;
对所述待识别图像在不同颜色区域的深度图像特征,分别进行图像分割处理,获得与所述待识别图像对应的区域图像分割结果;所述区域图像分割结果包括区域图像属于目标对象、以及区域图像属于背景。
9.根据权利要求8所述的方法,其特征在于,所述区域图像分割模型的训练方式,包括:
从所述待识别图像中随机提取预设数量的图像块,并获取各所述图像块的图像值;
针对各所述图像块,分别从预设图像值集合中均匀抽取对应的预设图像值;所述预设图像值集合中设置与不同颜色区域对应的图像值;
基于各所述图像块的图像值以及所述预设图像值,确定与各所述图像块一一对应的图像卷积参数;
获取各所述图像块的特征点坐标,并根据所述特征点坐标、所述图像卷积参数、以及与所述待识别图像对应的特征矩阵的中心坐标,确定出预设数量的卷积核矩阵;
根据所述预设数量的卷积核矩阵,针对初始卷积神经网络模型,设置对应预设数量的卷积核,获得区域图像分割模型。
10.一种对象识别装置,其特征在于,所述装置包括:
像素分类处理模块,用于获取待识别图像中的图像色彩分布特征,并基于所述图像色彩分布特征进行像素分类处理,获得像素分类结果;
区域分割处理模块,用于提取所述待识别图像的深度图像特征,并基于所述深度图像特征进行图像多区域分割处理,获得区域图像分割结果;
目标对象确定模块,用于基于所述像素分类结果、以及所述区域图像分割结果,确定与所述待识别图像对应的目标图像。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202211453457.9A 2022-11-21 2022-11-21 对象识别方法、装置、计算机设备、存储介质和程序产品 Pending CN116977683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211453457.9A CN116977683A (zh) 2022-11-21 2022-11-21 对象识别方法、装置、计算机设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211453457.9A CN116977683A (zh) 2022-11-21 2022-11-21 对象识别方法、装置、计算机设备、存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN116977683A true CN116977683A (zh) 2023-10-31

Family

ID=88483726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211453457.9A Pending CN116977683A (zh) 2022-11-21 2022-11-21 对象识别方法、装置、计算机设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN116977683A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315264A (zh) * 2023-11-30 2023-12-29 深圳市普拉托科技有限公司 基于图像识别的托盘检测方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315264A (zh) * 2023-11-30 2023-12-29 深圳市普拉托科技有限公司 基于图像识别的托盘检测方法及相关装置
CN117315264B (zh) * 2023-11-30 2024-03-08 深圳市普拉托科技有限公司 基于图像识别的托盘检测方法及相关装置

Similar Documents

Publication Publication Date Title
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
CN110222718A (zh) 图像处理的方法及装置
Zhang et al. Deep salient object detection by integrating multi-level cues
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN113592894A (zh) 一种基于边界框和同现特征预测的图像分割方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113592893B (zh) 一种确定主体和精准化边缘相结合的图像前景分割方法
CN116977683A (zh) 对象识别方法、装置、计算机设备、存储介质和程序产品
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN114299101A (zh) 图像的目标区域获取方法、装置、设备、介质和程序产品
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN116403062A (zh) 一种点云目标检测方法、系统、设备及介质
CN115294162A (zh) 目标识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication