HK40028902A - 目标区域识别方法、装置、设备及可读存储介质 - Google Patents
目标区域识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- HK40028902A HK40028902A HK42020018392.9A HK42020018392A HK40028902A HK 40028902 A HK40028902 A HK 40028902A HK 42020018392 A HK42020018392 A HK 42020018392A HK 40028902 A HK40028902 A HK 40028902A
- Authority
- HK
- Hong Kong
- Prior art keywords
- convolution
- image
- feature
- target
- image content
- Prior art date
Links
Description
技术领域
本申请实施例涉及人工智能领域,特别涉及一种目标区域识别方法、装置、设备及可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其中,神经网络模型是人工智能的一种实现方式。
相关技术中,在对图像中的图像内容进行区域确定时,通常机器学习模型对图像内容对应的区域进行确定,且通过预测卷积核的采样位置偏移量改变卷积核的采样位置,从而进行卷积处理,并对处理后的特征进行识别,得到图像区域。
然而,由于图像内容通常在图像中以不规则的角度进行排列,针对一些在图像中以各种角度排列的图像内容,以上述方式进行识别时,由于无法将角度结合在识别过程中,从而导致识别准确率较低。
发明内容
本申请实施例提供了一种目标区域识别方法、装置、设备及可读存储介质,可以提高对图像内容对应的区域进行识别的准确率。所述技术方案如下:
一方面,提供了一种目标区域识别方法,所述方法包括:
获取输入图像,所述输入图像中包括待识别的图像内容;
预测所述图像内容在所述输入图像中的第一旋转角度;
以所述第一旋转角度对目标识别模型中的卷积核进行旋转后,以旋转后的所述卷积核对所述输入图像的图像特征进行卷积处理,得到目标特征;
对所述目标特征进行识别,得到所述图像内容对应的区域数据,其中,所述区域数据中包括旋转角度,所述旋转角度用于指示所述图像内容在所述输入图像中相对默认角度的偏转角度;
通过所述区域数据在所述输入图像中确定所述图像内容对应的所述目标区域。
另一方面,提供了一种目标区域识别装置,所述装置包括:
获取模块,用于获取输入图像,所述输入图像中包括待识别的图像内容;
预测模块,用于预测所述图像内容在所述输入图像中的第一旋转角度;
处理模块,用于以所述第一旋转角度对目标识别模型中的卷积核进行旋转后,以旋转后的所述卷积核对所述输入图像的图像特征进行卷积处理,得到目标特征;
识别模块,用于对所述目标特征进行识别,得到所述图像内容对应的区域数据,其中,所述区域数据中包括旋转角度,所述旋转角度用于指示所述图像内容在所述输入图像中相对默认角度的偏转角度;通过所述区域数据在所述输入图像中确定所述图像内容对应的所述目标区域。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的目标区域识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的目标区域识别方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中任一所述的目标区域识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过目标识别模型以旋转卷积方式对输入图像的图像特征进行处理,从而识别得到输入图像中图像内容对应的目标区域,且目标区域为通过旋转卷积方式确定图像内容的旋转角度后,进行对应旋转后得到的区域,提高了对图像内容对应的目标区域进行识别的识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性的实施例提供的目标区域识别的结果示意图;
图2是本申请一个示例性实施例提供的目标区域识别方法的流程图;
图3是基于图2示出的实施例提供的对框选区域进行旋转的过程示意图;
图4是本申请另一个示例性实施例提供的目标区域识别方法的流程图;
图5是基于图4示出的实施例提供的目标识别模型的识别过程示意图;
图6是基于图4示出的实施例提供的旋转卷积过程的示意图;
图7是本申请另一个示例性实施例提供的目标区域识别方法的流程图;
图8是基于图7示出的实施例提供的本申请整体方案的结构示意图;
图9是本申请一个示例性实施例提供的目标区域识别装置的结构框图;
图10是本申请另一个示例性实施例提供的目标区域识别装置的结构框图;
图11是本申请一个示例性的实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
旋转卷积:是指通过对卷积核进行旋转的方式,以旋转后的卷积核对图像进行卷积处理的方式。示意性的,针对图像中的图像内容A,首先对图像内容A在图像中的旋转角度进行预测,并以预测得到的旋转角度对卷积核进行旋转后,以旋转后的卷积核对图像特征进行卷积处理,并得到目标特征,根据目标特征对图像内容A所在的区域进行识别。
结合上述名词简介,对本申请实施例的应用场景进行举例说明:
第一,在无人货架应用场景中,需要通过对货架上的商品进行识别,从而确定商品的排列密集程度以及商品排列位置等,然而,由于无人货架上方设置的摄像头针对不同商品的图像采集对应有不同的角度,如:摄像头拍摄左侧商品时,商品呈左上角向右下角倾斜,摄像头拍摄右侧商品时,商品呈右上角向左下角倾斜,通过本申请实施例提供的方法,将摄像头拍摄的无人货架图像输入目标识别模型后,通过旋转卷积方式对图像特征进行特征处理后,确定商品在图像中的旋转角度,并在商品区域标注时,通过旋转角度对区域进行旋转,从而对商品区域进行更准确的识别以及标注;
示意性的,请参考图1,将商品货架图100输入目标识别模型110,通过目标识别模型110对商品货架图100的图像特征进行旋转卷积处理后,识别得到商品货架图100中的商品,以及商品的旋转角度,并结合旋转角度对商品货架图100中的商品进行标注,如标注框120所示。
第二,在场景内容审核应用场景中,以对旗帜内容进行审核为例进行说明,通过对街道上的队旗进行识别,从而确定街道上已布置的队旗是否符合要求,然而,由于本身旗帜排列在街道的不同位置,且表现为飘扬的状态,从摄像头的角度对街道进行拍摄时,不同旗帜表现的角度不同,通过本申请实施例提供的方法,将摄像头拍摄的街道图像输入目标识别模型后,通过旋转卷积方式对图像特征进行特征处理后,确定旗帜在图像中的旋转角度,并在旗帜区域标注时,通过旋转角度对区域进行旋转,从而对街道中的旗帜区域进行更准确的识别以及标注。
上述两种应用场景仅为本申请示意性的举例,本申请实施例提供的目标区域识别方法还可以应用于其他通过旋转卷积确定图像中的目标内容的方案中,本申请实施例对此不加以限定。
值得注意的是,本申请实施例提供的目标区域识别方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。其中,终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种,服务器可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。其中,当终端和服务器协同实现本申请实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
结合上述名词简介以及应用场景,对本申请实施例提供的目标区域识别方法进行说明,以该方法应用于服务器中为例进行说明,如图2所示,该方法包括:
步骤201,获取输入图像,输入图像中包括待识别的图像内容。
可选地,输入图像为图像内容待识别的图像,且图像内容在被识别过程中,包括对图像内容所在的区域进行框选识别。在一个可选的实施例中,对图像内容所在区域进行框选识别后,从框选区域中对图像内容进行物体识别、人物识别、种类识别等识别方式中的至少一种;在一个可选的实施例中,对图像内容所在的区域进行框选识别后,在图像中对框选的区域进行标注,从而对图像内容在图像中的区域位置进行示意。
示意性的,本实施例中,以无人货架应用场景为例进行说明,则输入图像为无人货架周侧设置的摄像头采集得到的图像,由于摄像头设置在无人货架的周侧,对多个无人货架轮流进行图像采集,针对不同的货架以不同的角度完成图像采集,从而不同货架上的商品在采集得到的图像中呈现的角度不同,也即,不是所有商品在图像中都能呈现正面矩形形状。
示意性的,本实施例中,以购物应用程序中的以图搜物场景为例进行说明,用户拍摄需要在购物应用程序中搜索的商品的照片,并上传至购物应用程序的服务器中,由服务器根据用户上传的照片,从照片中识别得到用户需要搜索的图像内容,并进行框选后,从商品库中进行搜索,如:用户拍摄需要购买的裤子的照片后,将照片上传到服务器中,由服务器对照片中的裤子进行识别框选后,对框选区域中的裤子进行商品搜索,并将搜索结果和框选结果反馈至用户,由用户确认框选的区域是否准确,以及搜索结果中是否包括需要购买的裤子。
步骤202,预测图像内容在输入图像中的第一旋转角度。
可选地,通过目标识别模型首先对图像内容在输入图像中的第一旋转角度进行预测,其中,第一旋转角度可以作为最终区域数据中的旋转角度,也可以在结合第一旋转角度对图像特征进行旋转卷积处理后,根据生成的目标特征得到第二旋转角度,并将第二旋转角度作为区域数据中的旋转角度。
步骤203,以第一旋转角度对目标识别模型中的卷积核进行旋转后,以旋转后的卷积核对输入图像的图像特征进行卷积处理,得到目标特征。
可选地,目标识别模型为深度学习模型,且目标识别模型为神经网络模型。
可选地,目标识别模型为预先通过样本图像训练得到的模型,可选地,样本图像为公开的旋转目标数据集中的图像,旋转目标数据集作为训练数据集对目标识别模型进行训练,且训练数据集中的图像标注有目标框,且目标框为标注有旋转角度的旋转框。可选地,针对像素较大的图像,首先根据开发包对图像进行有重合的切割,得到尺度合适的子图,通过子图对目标识别模型进行训练和测试,其中,在测试阶段,对子图的测试结果进行合并。
可选地,在对目标识别模型进行训练时,采用基于Adam梯度下降法求解神经网络模型的卷积层模板参数w和偏置参数b,在每次迭代的过程中,计算预测结果误差并反向传播至神经网络模型,计算梯度并更新神经网络模型中的参数。
可选地,在对图像内容对应的目标区域进行识别时,首先通过目标识别模型对输入图像进行特征提取,得到图像特征,从而通过卷积核以旋转卷积方式进行特征处理后,得到目标特征。
可选地,在进行特征处理时,通过至少两种卷积核以旋转卷积方式对图像特征进行特征处理,并将至少两种卷积核的卷积结果进行融合,得到目标特征。
步骤204,对目标特征进行识别,得到图像内容对应的区域数据,其中,区域数据中包括旋转角度。
可选地,旋转角度用于指示图像内容在输入图像中相对默认角度的偏转角度。示意性的,输入图像中的默认角度为沿输入图像的侧边的方向,则旋转角度为图像内容相对于输入图像侧边的偏转角度。
示意性的,请参考图3,在图像300中包括图像内容310,框选区域320为默认角度对应的区域,框选区域330为对框选区域320根据旋转角度旋转后得到的与图像内容310对应的区域。
步骤205,通过区域数据在输入图像中确定图像内容对应的目标区域。
可选地,区域数据中包括旋转角度,区域数据中还包括尺寸数据和位置数据,通过尺寸数据确定图像内容对应的目标区域的尺寸,通过位置数据确定图像内容在输入图像中所处的位置。
结合尺寸数据、位置数据和旋转角度,对图像内容在输入图像中对应的目标区域进行确定。
可选地,尺寸数据用于指示图像内容对应的目标区域的长宽数值;位置数据用于指示图像内容的中心点在输入图像中对应的像素点,其中,中心点可以对应一个像素点,也可以对应一组像素点。
综上所述,本实施例提供的目标区域识别方法,通过目标识别模型以旋转卷积方式对输入图像的图像特征进行处理,从而识别得到输入图像中图像内容对应的目标区域,且目标区域为通过旋转卷积方式确定图像内容的旋转角度后,进行对应旋转后得到的区域,提高了对图像内容对应的目标区域进行识别的识别准确率。
在一个可选的实施例中,通过至少两种卷积核对图像特征进行旋转卷积处理,图4是本申请另一个示例性实施例提供的目标区域识别方法的流程图,以该方法应用于服务器中为例进行说明,如图4所示,该方法包括:
步骤401,获取输入图像,输入图像中包括待识别的图像内容。
可选地,输入图像为图像内容待识别的图像,且图像内容在被识别过程中,包括对图像内容所在的区域进行框选识别。
步骤402,通过目标识别模型对输入图像进行特征提取,得到图像特征。
可选地,采用沙漏网络Hourglassnetwork作为躯干网络对输入图像进行特征提取,得到图像特征。
步骤403,将图像特征通过至少两种卷积核以旋转卷积方式进行特征处理后,得到目标特征。
可选地,目标识别模型为基于动态信息聚合技术(Dynamic InformationAggregation Module,DIAM),用于提取更准确,并具有旋转不变性的特征。其中,目标识别模型包括两个主要部分:1、自适应旋转卷积操作子,用于根据预测的旋转角度,提取校准后的特征;2、自适应特征聚合操作子,用于自适应聚合来自不同形状、大小的感受野的特征。也即,目标识别模型在对图像内容进行识别时,对应包括:1、旋转卷积,用于提取与旋转目标更契合的特征;2、多通道特征聚合,借助注意力机制自适应的聚合不同具有不同感受野的特征,得到最终的语义特征。
可选地,本实施例中,将图像特征通过至少两种卷积核以旋转卷积方式进行特征处理时,包括如下情况:通过两种卷积核以旋转卷积方式对图像特征进行特征处理;通过三种卷积核以旋转卷积方式对图像特征进行特征处理;通过四种卷积核以旋转卷积方式对图像特征进行特征处理等,上述举例中,以两种、三种以及四种卷积核为例进行举例说明,不同卷积核的数量还可以更多,本申请实施例对此不加以限定。
可选地,首先预测图像内容在输入图像中的第一旋转角度,并以第一旋转角度对目标识别模型中的至少两种卷积核进行旋转,将图像特征通过至少两种卷积核进行特征处理,得到目标特征。
可选地,将图像特征通过至少两种卷积核以旋转卷积方式进行特征处理,得到至少两个旋转卷积特征,其中,每种卷积核对应一个旋转卷积特征。
可选地,首先将Hourglassnetwork输出的图像特征通过1×1形状的卷积进行通道压缩,得到压缩特征,并对压缩特征通过至少两种卷积核以旋转卷积方式进行特征处理。
本实施例中,以通过三种卷积核以旋转卷积方式对图像特征进行特征处理为例进行说明。示意性的,以三个分支对压缩后的图像特征(也即上述压缩特征)进行卷积,每个分支采用不同形状的卷积核,如:第一个分支采用3×3的卷积核,第二个分支采用1×3的卷积核,第三个分支采用3×1的卷积核,采用三个分支的卷积核分别对图像特征进行旋转卷积处理,得到三个旋转卷积特征。
可选地,通过至少两种卷积核得到至少两个旋转卷积特征后,将至少两个旋转卷积特征通过注意力机制进行卷积,生成至少两个注意力图,其中,每个注意力图对应一个旋转卷积特征,结合至少两个旋转卷积特征和至少两个注意力图,生成输入图像的目标特征。可选地,对至少两个注意力图进行归一化,得到归一化特征后,将归一化特征与至少两个旋转卷积特征分别相乘取加权和,并通过注意力机制进行卷积,生成目标特征。
示意性的,请参考图5,对输入图像进行特征提取后,得到图像特征510,对图像特征510通过1×1形状的卷积进行通道压缩,得到压缩特征520,通过第一卷积核531(3×3形状的卷积核)、第二卷积核532(1×3形状的卷积核)和第三卷积核533(3×1形状的卷积核)分别对压缩特征520进行旋转卷积,其中,通过第一卷积核531旋转卷积后生成第一旋转卷积特征541,通过第二卷积核532旋转卷积后生成第二旋转卷积特征542,通过第三卷积核533旋转卷积后生成第三旋转卷积特征543,对第一旋转卷积特征541、第二旋转卷积特征542和第三旋转卷积特征543通过注意力机制进行卷积,生成注意力图,其中,将第一旋转卷积特征541通过注意力机制进行卷积,生成第一注意力图551,将第二旋转卷积特征542通过注意力机制进行卷积,生成第二注意力图552,将第三旋转卷积特征543通过注意力机制进行卷积,生成第三注意力图553,对第一注意力图551、第二注意力图552和第三注意力图553进行归一化,得到归一化特征后,将归一化特征与至少两个旋转卷积特征分别相乘取加权和,并通过注意力机制进行卷积,生成目标特征560。
可选地,对各分支的旋转卷积特征的融合还可以采用硬融合,也即,不对注意力图进行归一化,而是逐像素位置挑选最大值,根据注意力图的挑选结果对旋转卷积特征进行挑选。
可选地,DIAM模块的每个分支在最开始采用旋转卷积,请参考图6,其示出了本申请一个示例性实施例提供的旋转卷积结构示意图,如图6所示,根据预测的旋转角度θ,借助旋转矩阵600,在每个像素位置生成卷积核对应采样位置的偏移坐标,由采样位置加上偏移坐标得到新的采样位置,并继续进行卷积运算。其中,偏移坐标是在卷积核进行旋转后,对采样位置在图像中的偏移情况进行分析后得到的。
其中,偏移坐标的计算方式如下公式一所示:
公式一:δpi=Mr(θ)·pi-pi
其中,δpi表示偏移坐标,θ为预测的旋转角度,pi表示采样位置,Mr表示结合预测的旋转角度进行旋转后的卷积核。
步骤404,对目标特征进行识别,得到图像内容对应的区域数据。
可选地,对目标特征进行识别得到图像内容对应的尺寸数据和位置数据,则将第一旋转角度、尺寸数据和位置数据确定为区域数据;或,对目标特征进行识别,得到图像内容对应的第二旋转角度、尺寸数据和位置数据,则将第二旋转角度、尺寸数据和位置数据确定为区域数据。其中,第二旋转角度为通过目标特征再预测得到的角度,第一旋转角度和第二旋转角度可以相同,也可以不相同。
步骤405,通过区域数据在输入图像中确定图像内容对应的目标区域。
可选地,区域数据中包括旋转角度,区域数据中还包括尺寸数据和位置数据,通过尺寸数据确定图像内容对应的目标区域的尺寸,通过位置数据确定图像内容在输入图像中所处的位置。
结合尺寸数据、位置数据和旋转角度,对图像内容在输入图像中对应的目标区域进行确定。
综上所述,本实施例提供的目标区域识别方法,通过目标识别模型以旋转卷积方式对输入图像的图像特征进行处理,从而识别得到输入图像中图像内容对应的目标区域,且目标区域为通过旋转卷积方式确定图像内容的旋转角度后,进行对应旋转后得到的区域,提高了对图像内容对应的目标区域进行识别的识别准确率。
本实施例提供的方法,设计多分支结构,不同分支采用不同形状的卷积核,同时借助旋转卷积,根据形状、大小、旋转角度自适应调整感受野,使用特征融合结构,使神经网络中同一层的神经元能够自适应的调整感受野,以及自适应的选择不同角度、形状、大小的感受野,目标识别模型的识别更加灵活,识别结果更准确。
在一个可选的实施例中,位置数据中包括中心点数据和偏移值,图7是本申请另一个示例性实施例提供的目标区域识别方法的流程图,以该方法应用于服务器中为例进行说明,如图7所示,该方法包括:
步骤701,获取输入图像,输入图像中包括待识别的图像内容。
可选地,输入图像为图像内容待识别的图像,且图像内容在被识别过程中,包括对图像内容所在的区域进行框选识别。
步骤702,通过目标识别模型对输入图像进行特征提取,得到图像特征。
可选地,采用沙漏网络Hourglassnetwork作为躯干网络对输入图像进行特征提取,得到图像特征。
步骤703,预测图像内容在输入图像中的第一旋转角度。
可选地,首先通过目标识别模型对图像内容在输入图像中的第一旋转角度进行预测,并根据预测得到的第一旋转角度对输入图像的图像特征进行旋转卷积处理。
步骤704,以第一旋转角度对至少两种卷积核进行旋转后,对图像特征进行旋转卷积处理,得到目标特征。
本实施例中,以通过三种卷积核以旋转卷积方式对图像特征进行特征处理为例进行说明。示意性的,以三个分支对压缩后的图像特征(也即上述压缩特征)进行卷积,每个分支采用不同形状的卷积核。
可选地,通过至少两种卷积核得到至少两个旋转卷积特征后,将至少两个旋转卷积特征通过注意力机制进行卷积,生成至少两个注意力图,结合至少两个旋转卷积特征和至少两个注意力图,生成输入图像的目标特征。可选地,对至少两个注意力图进行归一化,得到归一化特征后,将归一化特征与至少两个旋转卷积特征分别相乘取加权和,并通过注意力机制进行卷积,生成目标特征。
步骤705,通过目标特征生成图像内容对应的第二旋转角度、尺寸数据、中心点数据和偏移值。
可选地,对目标特征进行回归分析处理后,生成图像内容对应的尺寸数据。
可选地,通过对目标特征进行识别分析,得到图像内容对应的第二旋转角度、尺寸数据和位置数据。其中,第二旋转角度与上述第一旋转角度可以是相同的,也可以是不同的。
尺寸数据用于指示图像内容对应的区域对应的宽高数据。
位置数据中包括中心点数据和偏移值,其中,中心点数据用于指示图像内容的中心点所对应的像素点位置,偏移值用于指示中心点数据在图像特征的缩放过程中产生的偏移量。
可选地,通过目标特征对图像内容的中心点进行预测,得到中心点数据,也即结合目标特征输出每个像素点属于图像内容中心的概率,并根据每个像素点对应的概率数据确定图像内容的中心点位置;通过目标特征对中心点在图像特征缩放过程中的偏移量进行预测,得到偏移值。偏移值用于对预测得到的中心点数据进行修正。
可选地,在确定上述区域数据的过程中,第二旋转角度、尺寸数据和偏移值对应回归任务,中心点数据对应分类任务,也即,第二旋转角度、尺寸数据和偏移值以回归至对应的回归曲线进行识别,而中心点数据通过对像素点进行分类,判断像素点是否属于中心点进行识别。
可选地,在进行区域数据的生成过程中,通过动态滤波器对区域数据的识别过程进行修正,从而提高区域数据识别过程中的准确率。示意性的,在通过动态滤波器进行修正时,至少包括如下两种情况:
第一,针对分类任务,通过动态滤波器进行特征修正;
可选地,将动态滤波器作为卷积核对默认特征进行卷积处理,得到特征修正量,其中,默认特征为与图像特征(或上述目标特征)对应的特征;以特征修正量对默认特征进行修正后,得到待识别特征,并通过识别模型对待识别特征进行分类,得到分类数据,如:得到上述中心点数据。其中,在通过动态滤波器进行特征修正时,可以实现为通过动态滤波器对目标特征进行修正,并对修正后的目标特征进行分类,得到分类数据;也可以实现为通过动态滤波器对图像特征进行修正,并对修正后的图像特征进行旋转卷积处理后,生成目标特征进行分类,得到分类数据。
可选地,在特征修正过程中,还对应有用于限定特征修正量的修正上限的第一超参数,通过第一超参数和特征修正量对默认特征进行修正,得到待识别特征。
示意性的,特征修正量的计算过程请参考如下公式二:
公式二:FΔ=Fmid×Kc
其中,FΔ用于指示特征修正量,Fmid用于指示默认特征,Kc表示动态滤波器。其中,默认特征为与图像特征对应的特征,如:默认特征为对图像特征压缩处理后得到的特征,或,默认特征为对图像特征进行放大处理后得到的特征。
示意性的,特征修正过程请参考如下公式三:
公式三:Hc=C((1+ε×FΔ/||FΔ||)×Fmid;Φ)
其中,Hc表示修正后的待识别特征,C表示分类器,也即最后一层卷积,ε表示第一超参数,FΔ用于指示特征修正量,Fmid用于指示默认特征,Φ为分类器中的参数。可选地,ε的取值为预先设定的,如:本实施例中,将ε设定为0.1,用于限定特征修正上限。
示意性的,通过上述特征修正方式对每个像素点进行识别,并对应属于中心点和不属于中心点分别确定一个概率值,如:对像素点A通过识别模型进行分类后,得到其属于中心点的概率为0.1,不属于中心点的概率为0.9。
第二,针对回归任务,通过动态滤波器进行结果修正。
可选地,将动态滤波器作为卷积核对默认特征进行卷积处理,得到结果修正量,其中,默认特征为与图像特征(或上述目标特征)对应的特征;通过识别模型对默认特征进行回归分析,得到回归分析结果,以结果修正量对回归分析结果进行修正,得到回归类数据,如:得到上述第二旋转角度、尺寸数据和偏移值。其中,在通过动态滤波器进行结果修正时,可以实现为通过动态滤波器生成与图像特征对应的结果修正量,也可以实现为通过动态滤波器生成与目标特征对应的结果修正量。
可选地,在结果修正过程中,还对应有用于限定结果修正量的修正上限的第二超参数,通过第二超参数和结果修正量对回归分析结果进行修正,得到回归类数据。
示意性的,结果修正量的计算过程请参考如下公式四:
公式四:HΔ=Fmid×Kr
其中,HΔ用于指示结果修正量,Fmid用于指示默认特征,Kr表示动态滤波器。其中,默认特征为与图像特征对应的特征,如:默认特征为对图像特征压缩处理后得到的特征,或,默认特征为对图像特征进行放大处理后得到的特征。
示意性的,结果修正过程请参考如下公式五:
公式五:Hr=(1+δ×tanh(HΔ))×Hb
其中,Hr表示修正后的回归类数据,δ表示第二超参数,Hb表示回归分析结果,HΔ用于指示结果修正量。可选地,δ的取值为预先设定的。
步骤706,通过区域数据在输入图像中确定图像内容对应的目标区域。
可选地,区域数据中包括旋转角度、尺寸数据和位置数据,通过尺寸数据确定图像内容对应的目标区域的尺寸,通过位置数据确定图像内容在输入图像中所处的位置,并通过旋转角度确定图像内容在图像中的旋转情况。
可选地,位置数据中包括中心点数据和偏移值,针对输入图像确定区域数据后,首先根据中心点数据与偏移值选取目标中心位置,根据预测的尺寸数据(也即目标区域的宽高)确定不包括旋转角度的区域,根据预测的旋转角度对区域进行旋转后,得到最终的目标区域。
示意性的,请参考图8,对图像800进行特征提取后,对提取的特征进行旋转卷积处理,最终得到目标特征810,根据目标特征810进行识别,输出得到旋转角度821、尺寸数据822、偏移值823和中心点数据824。
示意性的,在相关技术中确认目标区域、以及本申请中确认目标的过程中,确认结果准确率如下表一所示:
表一
其中,mAP为机器学习中的目标检测领域,用于衡量目标检测算法的性能的指标,表示全类平均正确率。CP用于表示基于Compact CNN的高性能简单目标检测算法;RC1是指使用选择性搜索对输入图像提取不同尺寸不同形状大小的候选区域,并选取训练好的深度学习分类模型,将输出层截掉,将候选区域型变为网络输入需要的固定形状,得到每个候选区域的特征图,通过分类器进行分类,并将特征图与位置标签匹配的方式;RRD为旋转敏感回归检测(Rotation-Sensitive Regression Detection);RoI Trans是指通过Roi-pooling方式进行特征提取的方式。
如上表一可知,本申请实施例提供的目标区域识别方法,在目标检测领域达到的全类平均正确率较高,对mPA有显著的提升。
综上所述,本实施例提供的目标区域识别方法,通过目标识别模型以旋转卷积方式对输入图像的图像特征进行处理,从而识别得到输入图像中图像内容对应的目标区域,且目标区域为通过旋转卷积方式确定图像内容的旋转角度后,进行对应旋转后得到的区域,提高了对图像内容对应的目标区域进行识别的识别准确率。
本实施例提供的方法,在对图像内容的位置进行确定时,通过确定图像内容的中心点位置和偏移值,对图像特征在缩放过程中,中心点所产生的偏移量进行确定,并以偏移值对中心点位置进行修正,从而提高图像内容对应的目标区域识别结果的准确率。
图9是本申请一个示例性实施例提供的目标区域识别装置的结构框图,如图9所示,该装置包括:
获取模块910,用于获取输入图像,所述输入图像中包括待识别的图像内容;
预测模块920,用于预测所述图像内容在所述输入图像中的第一旋转角度;
处理模块930,用于以所述第一旋转角度对目标识别模型中的卷积核进行旋转后,以旋转后的所述卷积核对所述输入图像的图像特征进行卷积处理,得到目标特征;
识别模块940,用于对所述目标特征进行识别,得到所述图像内容对应的区域数据,其中,所述区域数据中包括旋转角度,所述旋转角度用于指示所述图像内容在所述输入图像中相对默认角度的偏转角度;通过所述区域数据在所述输入图像中确定所述图像内容对应的所述目标区域。
在一个可选的实施例中,所述处理模块930,还用于以所述第一旋转角度对至少两种卷积核进行旋转;将所述图像特征通过所述至少两种卷积核进行卷积处理,得到所述目标特征。
在一个可选的实施例中,所述处理模块930,还用于将所述图像特征通过所述至少两种卷积核以所述旋转卷积方式进行特征处理,得到至少两个旋转卷积特征,其中,每种卷积核对应一个所述旋转卷积特征;
如图10所示,所述装置,还包括:
生成模块950,用于将所述至少两个旋转卷积特征通过注意力机制进行卷积,生成至少两个注意力图,其中,每个注意力图对应一个旋转卷积特征;结合所述至少两个旋转卷积特征和所述至少两个注意力图,生成所述输入图像的所述目标特征。
在一个可选的实施例中,所述生成模块950,还用于对所述至少两个注意力图进行归一化,得到归一化特征;将所述归一化特征与所述至少两个旋转卷积特征分别相乘取加权和,并通过所述注意力机制进行卷积,生成所述目标特征。
在一个可选的实施例中,所述识别模块940,还用于对所述目标特征进行识别,得到所述图像内容对应的尺寸数据和位置数据;将所述第一旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据;
或,
所述识别模块940,还用于对所述目标特征进行识别,得到所述图像内容对应的第二旋转角度、尺寸数据和位置数据;将所述第二旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据。
在一个可选的实施例中,所述位置数据中包括中心点数据和偏移值;
所述预测模块920,还用于通过所述目标特征对所述图像内容的中心点进行预测,得到所述中心点数据;通过所述目标特征对所述中心点在图像特征缩放过程中的偏移量进行预测,得到所述偏移值。
综上所述,本实施例提供的目标区域识别装置,通过目标识别模型以旋转卷积方式对输入图像的图像特征进行处理,从而识别得到输入图像中图像内容对应的目标区域,且目标区域为通过旋转卷积方式确定图像内容的旋转角度后,进行对应旋转后得到的区域,提高了对图像内容对应的目标区域进行识别的识别准确率。
需要说明的是:上述实施例提供的目标区域识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标区域识别装置与目标区域识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:
服务器1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器(Random Access Memory,RAM)1102和只读存储器(Read Only Memory,ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(InputOutput System,I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,大容量存储设备1107可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请的各种实施例,服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算手机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的目标区域识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的目标区域识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种目标区域识别方法,其特征在于,所述方法包括:
获取输入图像,所述输入图像中包括待识别的图像内容;
预测所述图像内容在所述输入图像中的第一旋转角度;
以所述第一旋转角度对目标识别模型中的至少两种卷积核进行旋转;
将所述输入图像的图像特征通过所述至少两种卷积核以旋转卷积方式进行特征处理,得到至少两个旋转卷积特征,其中,每种卷积核对应一个所述旋转卷积特征;
将所述至少两个旋转卷积特征通过注意力机制进行卷积,生成至少两个注意力图,其中,每个注意力图对应一个旋转卷积特征;
结合所述至少两个旋转卷积特征和所述至少两个注意力图,生成所述输入图像的目标特征;
对所述目标特征进行识别,得到所述图像内容对应的区域数据,其中,所述区域数据中包括旋转角度,所述旋转角度用于指示所述图像内容在所述输入图像中相对默认角度的偏转角度;
在所述输入图像中,通过所述区域数据确定所述图像内容对应的所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述结合所述至少两个旋转卷积特征和所述至少两个注意力图,生成所述输入图像的目标特征,包括:
对所述至少两个注意力图进行归一化,得到归一化特征;
将所述归一化特征与所述至少两个旋转卷积特征分别相乘取加权和,并通过所述注意力机制进行卷积,生成所述目标特征。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述目标特征进行识别,得到所述图像内容对应的区域数据,包括:
对所述目标特征进行识别,得到所述图像内容对应的尺寸数据和位置数据;将所述第一旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据;
或,
对所述目标特征进行识别,得到所述图像内容对应的第二旋转角度、尺寸数据和位置数据;将所述第二旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据。
4.根据权利要求3所述的方法,其特征在于,所述位置数据中包括中心点数据和偏移值;
所述方法还包括:
通过所述目标特征对所述图像内容的中心点进行预测,得到所述中心点数据;
通过所述目标特征对所述中心点在图像特征缩放过程中的偏移量进行预测,得到所述偏移值。
5.一种目标区域识别装置,其特征在于,所述装置包括:
获取模块,用于获取输入图像,所述输入图像中包括待识别的图像内容;
预测模块,用于预测所述图像内容在所述输入图像中的第一旋转角度;
处理模块,用于以所述第一旋转角度对目标识别模型中的卷积核进行旋转;将所述输入图像的图像特征通过至少两种卷积核以旋转卷积方式进行特征处理,得到至少两个旋转卷积特征,其中,每种卷积核对应一个所述旋转卷积特征;将所述至少两个旋转卷积特征通过注意力机制进行卷积,生成至少两个注意力图,其中,每个注意力图对应一个旋转卷积特征;结合所述至少两个旋转卷积特征和所述至少两个注意力图,生成所述输入图像的目标特征;
识别模块,用于对所述目标特征进行识别,得到所述图像内容对应的区域数据,其中,所述区域数据中包括旋转角度,所述旋转角度用于指示所述图像内容在所述输入图像中相对默认角度的偏转角度;在所述输入图像中,通过所述区域数据确定所述图像内容对应的所述目标区域。
6.根据权利要求5所述的装置,其特征在于,生成模块,还用于对所述至少两个注意力图进行归一化,得到归一化特征;将所述归一化特征与所述至少两个旋转卷积特征分别相乘取加权和,并通过所述注意力机制进行卷积,生成所述目标特征。
7.根据权利要求5或6所述的装置,其特征在于,所述识别模块,还用于对所述目标特征进行识别,得到所述图像内容对应的尺寸数据和位置数据;将所述第一旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据;
或,
所述识别模块,还用于对所述目标特征进行识别,得到所述图像内容对应的第二旋转角度、尺寸数据和位置数据;将所述第二旋转角度、所述尺寸数据和所述位置数据确定为所述图像内容对应的所述区域数据。
8.根据权利要求7所述的装置,其特征在于,所述位置数据中包括中心点数据和偏移值;
所述预测模块,还用于通过所述目标特征对所述图像内容的中心点进行预测,得到所述中心点数据;通过所述目标特征对所述中心点在图像特征缩放过程中的偏移量进行预测,得到所述偏移值。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至4任一所述的目标区域识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至4任一所述的目标区域识别方法。
11.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至4任一所述的目标区域识别方法。
Publications (2)
| Publication Number | Publication Date |
|---|---|
| HK40028902A true HK40028902A (zh) | 2021-02-11 |
| HK40028902B HK40028902B (zh) | 2022-12-30 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
| US10650042B2 (en) | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors | |
| CN111241989B (zh) | 图像识别方法及装置、电子设备 | |
| CN111563502B (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
| CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
| EP3968179A1 (en) | Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device | |
| CN109960742B (zh) | 局部信息的搜索方法及装置 | |
| CN111310731A (zh) | 基于人工智能的视频推荐方法、装置、设备及存储介质 | |
| CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
| CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
| US11501110B2 (en) | Descriptor learning method for the detection and location of objects in a video | |
| CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
| CN110765882A (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
| CN109740674A (zh) | 一种图像处理方法、装置、设备和存储介质 | |
| CN113822134B (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
| Balachandar et al. | Deep learning technique based visually impaired people using YOLO V3 framework mechanism | |
| CN117036658A (zh) | 一种图像处理方法及相关设备 | |
| CN115115825B (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
| CN114596435B (zh) | 语义分割标签的生成方法、装置、设备及存储介质 | |
| CN115661444A (zh) | 图像处理方法、装置、设备、存储介质及产品 | |
| CN111680722B (zh) | 内容识别方法、装置、设备及可读存储介质 | |
| CN117011629B (zh) | 目标检测模型的训练方法、装置、设备及存储介质 | |
| HK40028902B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
| HK40028902A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
| HK40028901A (zh) | 内容识别方法、装置、设备及可读存储介质 |