CN111931877B - 目标检测方法、装置、设备及存储介质 - Google Patents
目标检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111931877B CN111931877B CN202011085853.1A CN202011085853A CN111931877B CN 111931877 B CN111931877 B CN 111931877B CN 202011085853 A CN202011085853 A CN 202011085853A CN 111931877 B CN111931877 B CN 111931877B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- central point
- sampling
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 275
- 238000003860 storage Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 151
- 238000005070 sampling Methods 0.000 claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000009826 distribution Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims description 45
- 238000012216 screening Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 31
- 238000013473 artificial intelligence Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 18
- 230000001976 improved effect Effects 0.000 description 17
- 230000002093 peripheral effect Effects 0.000 description 13
- 230000002829 reductive effect Effects 0.000 description 11
- 241000282414 Homo sapiens Species 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000007906 compression Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000002202 sandwich sublimation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种目标检测方法、装置、设备及存储介质,涉及人工智能的计算机视觉技术。该方法包括:提取输入图像的图像特征;对所述图像特征预测得到尺寸图像、角度图像和中心点图像;对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积;对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点。该方法可以提高目标检测的准确度。
Description
技术领域
本申请涉及人工智能的计算机视觉技术,特别涉及一种目标检测方法、装置、设备及存储介质。
背景技术
随着深度学习的发展,目标检测技术取得了显著的进步,基于深度神经网络的目标检测方法迅速取代了传统方法,成为智能安防、家居、出行等领域不可或缺的关键技术。
相关技术中,提供有一种目标检测方法,使用卷积核提取图像特征,例如,待检测图像为5像素*5像素的图像,卷积核为3像素*3像素的图像,使用卷积核与待检测图像的左上角的3像素*3像素的图块进行卷积,然后向右侧滑动卷积核一次与待检测图像上每一个3像素*3像素的图块进行卷积提取图像特征,根据图像特征识别检测目标。
在检测旋转了任意角度以及密集排列的检测目标的场景中,例如,检测超市货架上密集排列的商品,两个检测目标都旋转了45°且紧挨着,使用相关技术中的方法,在滑动卷积核的过程中,没有图块能够正好覆盖一个单独的检测目标,卷积核也就无法提取到检测目标的准确特征,目标检测的结果不准确。
发明内容
本申请实施例提供了一种目标检测方法、装置、设备及存储介质,可以提高目标检测的准确度。所述技术方案如下。
根据本申请的一个方面,提供了一种目标检测方法,所述方法包括:
提取输入图像的图像特征,所述输入图像上包括至少一个检测目标;
对所述图像特征预测得到尺寸图像、角度图像和中心点图像,所述尺寸图像中像素点的像素值为所述像素点对应的所述检测目标的长度和宽度,所述角度图像中像素点的像素值为所述像素点所对应的所述检测目标的倾斜角度,所述中心点图像中像素点的像素值为所述像素点是否为所述检测目标的中心点;
对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积,所述旋转矩阵是根据所述中心点图像和所述角度图像确定的,所述第一分类结果包括所述检测目标的所述中心点和分类概率;
对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述图像特征区域是根据所述角度图像、所述尺寸图像和所述第一分类结果确定的所述检测目标所属的区域,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点,所述第二分类结果包括所述检测目标的所述中心点和所述分类概率。
根据本申请的另一方面,提供了一种目标检测装置,所述装置包括:
特征提取模块,用于提取输入图像的图像特征,所述输入图像上包括至少一个检测目标;
预测模块,用于对所述图像特征预测得到尺寸图像、角度图像和中心点图像,所述尺寸图像中像素点的像素值为所述像素点对应的所述检测目标的长度和宽度,所述角度图像中像素点的像素值为所述像素点所对应的所述检测目标的倾斜角度,所述中心点图像中像素点的像素值为所述像素点是否为所述检测目标的中心点;
样本筛选模块,用于对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积,所述旋转矩阵是根据所述中心点图像和所述角度图像确定的,所述第一分类结果包括所述检测目标的所述中心点和分类概率;
中心点聚焦模块,用于对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述图像特征区域是根据所述角度图像、所述尺寸图像和所述第一分类结果确定的所述检测目标所属的区域,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点,所述第二分类结果包括所述检测目标的所述中心点和所述分类概率。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的目标检测方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的目标检测方法。
根据本公开实施例的另一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的目标检测方法。
本申请实施例提供的技术方案带来的有益效果至少包括如下的有益效果。
通过使用样本筛选层来根据检测目标的倾斜角度提取检测目标的特征,使样本筛选层可以准确提取检测目标的特征,以便对检测目标进行分类,通过使样本筛选层根据检测目标的中心点来进行特征提取,使样本筛选层能够更关注检测目标中心点的特征,提高模型的识别性能。通过用学习到的中心点图像与角度图像指导样本筛选层有区分的通过旋转卷积,对检测目标的特征进聚合,提高模型的识别性能。同时该方法中先得到包含目标中心点的中心点图像再进一步得到准确的中心点位置,这种由粗到细的两阶段识别过程降低模型的学习压力,提高模型的识别性能。而中心点聚焦层可以为中心点位置提供足够的语义信息,同时抑制周围区域的特征响应,进而提高中心点识别精度,降低中心点的冗余。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机系统的框图;
图2是本申请一个示例性实施例提供的目标检测模型的示意图;
图3是本申请另一个示例性实施例提供的特征提取层的示意图;
图4是本申请另一个示例性实施例提供的样本筛选层的示意图;
图5是本申请另一个示例性实施例提供的卷积的示意图;
图6是本申请另一个示例性实施例提供的旋转卷积的示意图;
图7是本申请另一个示例性实施例提供的中心点聚焦层的示意图;
图8是本申请另一个示例性实施例提供的目标检测方法的用户界面示意图;
图9是本申请另一个示例性实施例提供的目标检测方法的方法流程图;
图10是本申请另一个示例性实施例提供的输入图像的示意图;
图11是本申请另一个示例性实施例提供的目标检测方法的方法流程图;
图12是本申请另一个示例性实施例提供的目标检测方法的方法流程图;
图13是本申请另一个示例性实施例提供的采样矩阵的示意图;
图14是本申请另一个示例性实施例提供的目标检测方法的流程图;
图15是本申请另一个示例性实施例提供的目标检测装置的框图;
图16是本申请另一个示例性实施例提供的服务器的结构示意图;
图17是本申请另一个示例性实施例提供的终端的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请实施例涉及的若干个名词进行简介。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three Dimensional,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API(Application Programming Interface,应用程序接口)接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
终端120与服务器140之间通过有线或者无线网络相互连接。
终端120可以包括具有图像获取功能的智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种,例如,终端120可以是连接有摄像头的台式电脑。或,终端120可以包括具有图像获取功能和信息发送功能的计算机设备,例如,终端120可以是能够接入广域网或局域网的摄像头,或,终端120可以是能够连接蓝牙的摄像头。或,终端120可以是存储有图像数据的计算机设备,或,终端120可以是能够接收图像数据的计算机设备。即,终端120可以是具有图像获取功能的计算机设备,由终端120获取图像并使用本申请提供的目标检测方法进行目标检测,或,终端120将获取的图像发送给服务器,由服务器使用本申请提供的目标检测方法进行目标检测。或,终端120可以是具有图像存储或图像接收功能的计算机设备,终端120使用本申请提供的目标检测方法对本地存储的图像进行目标检测,或,终端120可以从服务器或其他移动存储设备上获取图像,并使用本申请提供的目标检测方法对图像进行目标检测。
在一个可选的实施例中,终端120包括摄像装置,摄像装置用于采集图像,例如,摄像装置可以是:单目相机、双目相机、深度相机(RGB-D相机)、红外相机中的至少一种。示例性的,终端120还包括显示器;显示器用于显示摄像装置采集到的图像,或,显示目标检测结果。
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现本申请提供的目标检测方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器可以通过调用人脸区域识别模型来实现本申请提供的目标检测方法。示例性的,终端中的目标检测模型可以是由终端训练得到的;或,由服务器训练得到,终端从服务器获取。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的目标检测方法。示例性的,第二存储器中存储有目标检测模型。示例性的,服务器接收终端发送的图像,使用目标检测模型来进行目标检测。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
示意性的,本申请提供的目标检测方法可以应用于对排列紧密、具有一定倾斜角度的检测目标进行目标检测,例如,本申请提供的目标检测方法可以用于识别商品货架上紧密排列的商品。示意性的,本申请提供的目标检测方法可以用于智能超市、无人货架等场景中的商品识别。该技术方案解决旋转及密集排列场景下的目标检测问题,对于商品识别有着天然优势,因为商品识别场景中,商品排列密集,且由于摄像头角度等原因,商品会带有一定角度,使用本申请提供的目标检测方法可以准确识别此类商品。
如图2所示,是本申请提供的一种目标检测模型的示意图。在一种可选的实施例中,使用该目标检测模型进行目标检测的方法流程如下。
将输入图像201输入特征提取层202进行特征提取,得到图像特征203。
由尺寸预测层根据图像特征203进行尺寸预测得到尺寸图像204,尺寸预测层用于预测输入图像201中检测目标的大小;由角度预测层根据图像特征203进行角度预测得到角度图像205,角度预测层用于预测输入图像201中检测目标的倾斜角度;由中心点预测层根据图像特征203进行中心店预测得到中心点图像206,中心点预测层用于预测输入图像201中检测目标的中心点位置。示例性的,尺寸图像204为2通道图像,两个通道图像上像素点的像素值分别代表检测目标(检测目标的检测框)的宽度和长度;角度图像205位1通道图像,图像上像素点的像素值代表检测目标(检测目标的检测框)的倾斜角度;中心点图像206为1通道图像,图像上像素点的像素值代表该像素点是否为检测目标的中心点,示例性的,当该像素点为中心点时像素值为1,当该像素点不是中心点时像素值为0。示例性的,中心点预测层只是对检测目标中心的粗略预估,例如,在中心点图像206中可能对一个检测目标预测出多个中心点。
然后,在SSM(Sample Selection Module,样本筛选模块/样本筛选层),根据中心点图像206和角度图像205对图像特征203进行旋转卷积,进一步检测目标的特征,根据提取出的特征进行分类预测得到第一分类结果207,第一分类结果可以称为粗略热图(coarseheatmap)。第一分类结果207是k通道图像,k为正整数,k为目标检测模型可以识别的类别数量,k个通道图像上像素点的像素值分别代表检测目标属于k个类别的k和概率值。
然后,在CFM(Center Focus Module,样本筛选模块/样本筛选层),根据角度图像205、中心点图像206对图像特征203中中心点的语义特征进行增强,对语义特征增强后的图像特征进行旋转卷积,根据检测目标的倾斜角度和大小准确提取检测目标的特征,根据提取的特征进行分类预测得到第二分类结果208,第二分类结果的数据形式与第一分类结果相同,都为k通道图像,每个通道图像上像素点的像素值代表该像素点所述的检测目标属于某个类别的概率。示例性的,第一分类结果和第二分类结果能够区分检测目标的中心点和非中心点,例如,对于同一个检测目标的中心点和非中心点,中心点对应的分类的概率值较高,非中心点对应的分类的概率值较低或为0。
最后,将第一分类结果和第二分类结果每个通道的图像对应相乘得到第三分类结果。示例性的,分类结果相乘是指:每个通道上对应位置的像素点的像素值相乘,即,对于第i个通道(同一个类别),将第一分类结果的第一个像素点与第二分类结果的第一个像素点的像素值相乘得到第三分类结果的第一个像素点的像素值,将两个分类结果中第二个像素点的像素值相乘得到第三分类结果的第二个像素点的像素值,依次类推。例如,第一分类结果的第i个通道的图像可以表示为第一矩阵,第二分类结果的第i个通道的图像可以表示为第二矩阵,则第一分类结果的第i个通道的图像乘以第二分类结果的第i个通道的图像可以得到第三矩阵,即得到第三分类结果的第i个通道的图像。
目标检测模型最终输出的结果包括四个:尺寸图像、角度图像、中心点图像和第三分类结果,四个结果分别预测了检测目标的检测框的长度和宽度、检测框的倾斜角度、检测框的中心点、检测目标的所属类别。
下面分别对目标检测模型的特征提取层202、尺寸预测层、角度预测层、中心点预测层、SSM、CFM内的运算进行介绍。
特征提取层。示例性的,特征提取层可以采用现有的任意特征提取结构,例如,采用多层卷积进行特征提取。示例性的,本实施例采用Hourglass。Hourglass可以参照收录于2016年ECCV(European Conference on Computer Vision,欧洲计算机视觉国际会议)的论文《Stacked Hourglass Networks for Human Pose Estimation(用于人体姿态估计的叠加沙漏网络)》。示例性的,Hourglass过下采样、卷积、上采样等操作进行特征提取,例如,如图3所示,给出了一种Hourglass中的部分结构图,输入图像输入到Hourglass后进行下采样209,下采样后输入三个卷积单元210进行卷积,然后再进行下采样209、卷积以及上采样211,将上采样211得到的结果与未经过第二次下采样的卷积结果相加,将相加结果再次进行卷积和上采样211,将上采样211得到的结果再次与未经过第一次下采样的卷积结果相加得到最终结果。其中,卷积单元210内包括卷积层、BN层和激活层,图3中卷积单元210第一行的数值为输入卷积单元210的图像大小,第二行的数值为卷积单元210 输出的图像大小。图3所示出的为Hourglass的二阶网络结构,即,进行了两次下采样和上采样,Hourglass还可以采用一阶、三阶、四阶……网络结构进行特征提取,即,嵌套更多次的下采样和上采样。示例性的,Hourglass还可以级联多个网络结构(同阶或不同阶)实现更深层的特征提取。
角度预测层、尺寸预测层和中心点预测层。三个预测层都是根据特征提取层提取出的图像特征进行预测,分别得到角度图像、尺寸图像和中心点图像。在一中可选的实现方式中,三个预测层设置有多组卷积层、BN层和激活层,对图像特征多层卷积最终得到预测结果。示例性的,在一种可选的实现方式中,目标检测模型中还设置有补偿(offset)层,补偿层用于对下采样过程中产生的量化误差进行补偿。
示例性的,中心点预测层输出的中心点图像只是对检测目标的中心点的大致预测。可以理解为,中心点预测层输出的中心点图像只是预测出了中心点可能所在的区域,然后在之后SSM和CFM中根据中心点图像来细化中心点位置,提高对中心点位置预测的准确度。
SSM(样本筛选层)。如图4所示,SSM首先通过1*1卷积对图像特征X进行通道压缩,得到通道压缩后的图像特征XC,然后对图像特征XC进行旋转卷积得到旋转卷积结果X0,然后通过1*1卷积对旋转卷积结果X0进行通道增加得到通道增加后的旋转卷积结果Y。然后将旋转卷积结果Y输入全连接层得到第一分类结果,或,将旋转卷积结果Y输入卷积层、BN层和激活层再次进行特征提取,将特征提取的结果输入全连接层得到第一分类结果。SSM通过旋转卷积来根据检测目标的位置来准确提取特征,提高特征的类别敏感性,提高模型的识别能力。
下面对SSM中的旋转卷积进行介绍。如图4所示,在RCL(Rotatiom ConvolutionLayer,旋转卷积层),首先将角度图像θ和中心点图像206相乘得到中心点角度图像θ’。由于在角度图像θ中角度预测层会对输入图像中的每个像素点预测一个倾斜角度,而通常情况下,输入图像中大部分的像素点都不属于检测目标,是无意义的像素点,因此,为了使模型更关注于准确提取检测目标的特征,同时减少模型的运算量,本实施例使用中心点图像中的中心点来过滤角度图像中无意义的角度信息。由于在中心点图像中,检测目标的中心点的像素值为1其他像素点的像素值为0,则将中心点图像与角度图像相乘得到的中心点角度图像中,只有中心点对应的像素点保留有倾斜角度,其他像素点的像素值皆为0。
在得到中心点角度图像后,SSM模块根据中心点角度图像来进行旋转卷积。首先,对旋转卷积的原理进行介绍。在通常的卷积操作中,如图5所示,使用3*3大小的卷积核212对5*5大小的图像213进行卷积时,分别以图像213上的每一个点作为采样点,进行采样得到采样矩阵,将采样矩阵与卷积核212进行卷积。即,使用卷积核212从图像213的第一个点x0开始进行滑动采样,在第一次采样时采样中心即为卷积核212的中心点在图像213上对应的x0点,得到的采样矩阵即为卷积核212所覆盖的图像213的区域,当卷积核212所覆盖的区域没有取值时用0补位。第一采样得到的采样矩阵与卷积核进行卷积后,向右滑动卷积核212,继续以x1点作为采样中心进行采样和卷积,如此直至卷积核212滑动至x24点,则完成对图像213的卷积。但这种卷积方式,由于在采样时只能在垂直方向进行采样,其卷积结果也只能提取到垂直方向上的特征。例如,当以x6作为采样中心时,得到的采样矩阵为x0、x1、x2、x5、x6、x7、x10、x11、x12,则模型可以学习到这九个像素点上的特征。若如图6所示,检测目标就是垂直放置214的,则这个采样矩阵就可以很好地提取检测目标的特征;但若检测目标是倾斜放置215的,则如果按照垂直采样得到的这个采样矩阵,就不能很好得覆盖检测目标,也就无法准确地提取检测目标的特征。
因此,本实施例提供了旋转卷积的方式,来根据检测目标的倾斜角度进行采样得到采样矩阵。本实施例对原有卷积的采样过程进行了改进,使SSM根据采样中心对应的倾斜角度来求出旋转矩阵,根据旋转矩阵来算出采样的偏移位置,根据偏移位置来获取旋转采样矩阵。依旧以x6作为采样中心为例,假设x6在中心点角度图像中对应的倾斜角度为30°,则将30°带入旋转矩阵得到x6的旋转矩阵为,以x6为坐标原点(0,0)可以得到在原卷积方式中采样矩阵各中各个采样点相对于采样中心的坐标位置:x0的坐标位置为(-1,-1)、x1的坐标位置为(0,-1)、x2的坐标位置为(1,-1)、x5的坐标位置为(-1,0)、x7的坐标位置为(1,0)、x10的坐标位置为(-1,1)、x11的坐标位置为(0,1)、x12的坐标位置为(1,1)。然后将各采样点的坐标位置与旋转矩阵相乘即可得到该采样点的偏移坐标,例如,x0(-1,-1)与旋转矩阵相乘:,则x0的偏移坐标为(-0.36,-1.36)。依次计算x1、x2、x5、x6、x7、x10、x11、x12的偏移坐标,然后根据偏移坐标到图像213中找到对应位置的像素点的像素值,组成旋转采样矩阵。示例性的,即相当于将卷积核202旋转采样中心对应的倾斜角度后在图像213上进行采样,然后卷积。示例性的,由于图像213上每个像素点的坐标位置都是整数,而计算得到的偏移坐标可能包含小数,即,根据偏移坐标无法直接从图像213上找到对应的像素值,则可以根据双线性插值法来根据该偏移坐标附近的四个像素点的像素值来获取该偏移坐标对应的像素值。示例性的,上述举例中是以x6为采样中心进行解释说明的,为了便于理解是结合了图像213对偏移坐标的计算进行解释的,在实际处理过程中,由于采样矩阵的大小是固定的,直接以采样矩阵中采样中心作为坐标原点即可以计算得到采样矩阵中各个采样点原始的坐标位置,然后直接获取本次采样的采样中心对应的倾斜角度,计算得到偏移坐标,直接根据偏移坐标到图像上进行采样就可以了,不需要先用原始采样矩阵到图像上采样得到x0、x1、x2、x5、x6、x7、x10、x11、x12这些点,然后才去计算这些点的偏移坐标,再重新采样。
示例性的,如图4所示,SSM根据中心点角度图像θ’中本次采样中心对应的倾斜角度得到旋转矩阵216,然后根据旋转矩阵216对采样矩阵进行旋转得到各个采样点的偏移坐标,根据偏移坐标到图像特征XC上进行采样得到旋转采样矩阵,用旋转采样矩阵与卷积核进行卷积得到旋转卷积结果。示例性的,SSM模块根据如上方法,以图像特征XC上每一点都作为采样中心进行旋转卷积最终得到旋转卷积结果。示例性的,由于在中心点角度图像中只有中心点带有倾斜角度,非中心点的倾斜角度为0,即,SSM只对中心点进行采样时是旋转卷积,对非中心点进行采样时其旋转角度为0,即为原始的卷积方式。如此,便可以使模型准确学习到倾斜的检测目标的特征,提高特征的类别敏感性,提高模型的识别能力。
CFM(中心点聚焦层)。如图7所示,CFM首先通过1*1卷积对图像特征X进行通道压缩,得到通道压缩后的图像特征XC,然后对图像特征XC进行中心点聚焦处理得到中心点聚焦特征图像X1,然后对中心点聚焦特征图像X1进行旋转卷积得到特征提取后的中心点聚焦特征图像Z。然后将中心点聚焦特征图像Z输入全连接层得到第二分类结果,或,将中心点聚焦特征图像Z输入卷积层、BN层和激活层再次进行特征提取,将特征提取的结果输入全连接层得到第二分类结果。CFM通过增强检测目标中心点的语义信息来提高模型对中心点的识别性能,并且借助注意力机制对中心点周围的像素特征进行抑制,有效降低了中心点冗余的问题。
下面对CFM的中心点聚焦处理进行介绍。示例性的,如图7所示,首先借鉴ROIPooling操作,CFM根据尺寸预测层输出的尺寸图像204、第一分类结果207、角度205从图像特征XC中截取出检测目标所在的图像区域得到图像特征区域Xi。示例性的,第一分类结果207中具有更精确地检测目标的中心点的信息,即,分类概率较大的点即为检测目标的中心点。示例性的,CFM根据中心点、长度、宽度和倾斜角度可以在图像特征XC上确定出检测目标的检测框,根据检测框来剪裁检测目标所在的图像特征区域。示例性的,当存在多个检测框重叠时,CFM会对重叠的多个检测框进行筛选保留一个检测框,例如,CFM可以保留分类概率最大的中心点对应的检测框,或,CFM可以保留检测框大小最大的检测框,或,CFM可以保留检测框大小最小的检测框等等。
在得到图像特征区域Xi后,假设图像特征区域Xi的大小为c通道*h像素*w像素,首先,在通道维度上提取最大值,即,对于每一个像素位置(像素点),提取该像素位置在c个通道上的c个像素值中的最大值,则对于h像素*w像素个像素位置,可以提取得到h*w个最大值,即得到第一空间特征217,然后借助sigmoid函数对第一空间特征217进行归一化得到第二空间特征218。示例性的,归一化的式子为:
其中,x为第一空间特征,S(x)为第二空间特征。
然后,将第二空间特征与图像特征区域Xi相乘,即,对于图像特征区域Xi中每个通道的h像素*w像素的图像,乘以h像素*w像素的第二空间特征,得到加权图像特征区域。
然后,对加权图像特征区域进行global average pooling(全面平均池化)操作,即,对于每个通道中h像素*w像素的图像求一个平均值,得到c*1*1大小的高语义特征,将高语义特征加到图像特征区域Xi中中心点对应的数值上,即增强图像特征区域Xi中中心点的数值,得到语义增强后的图像特征区域Xi’。
然后,根据图像特征区域Xi的大小(h*w)确定相同大小的二维高斯分布矩阵219。二维高斯分布矩阵219中的数值大小呈现高斯分布的特征,即,中心区域数值高,向周边区域逐渐递减。示例性的,二维高斯分布矩阵219中的数值的取值范围为[0,1]。例如,当图像特征区域Xi的大小为9像素*9像素时,二维高斯分布矩阵219可以是如下所示的二维矩阵。
根据公式(1-g)γ,其中g为二维高斯分布矩阵219,γ为任意正整数,计算得到中心点聚焦矩阵,则中心点聚焦矩阵中的数值呈现中心位置数值小,向周边区域逐渐递增的趋势。例如,当γ取1,则根据上述二维高斯分布矩阵219可以得到中心点聚焦矩阵如下。
将中心点聚焦矩阵与语义增强后的图像特征区域Xi’相乘,即可弱化图像特征区域Xi’的中心区域的数值,增强周边区域的数值,得到高斯特征图像。然后将图像特征区域Xi中的中心点的数值加到高斯特征图像中的中心点的数值上,即,将图像特征区域Xi中的中心点的数值(c通道*1像素*1像素)抽出,加到高斯特征图像中的中心点的位置上得到中心点聚焦特征图像X1。如此,便可以在保证中心点数值突出的情况下,最大程度地弱化中心点附近区域的数值,使中心点在中心点聚焦特征图像中尤为突出,以便模型准确识别中心点,抑制中心点周围区域。
示例性的,在图像特征XC中包括至少一个检测目标,CFM会对每一个检测目标对应的中心点都进行中心点聚焦处理,最终得到中心点聚焦特征图像。即,最终的中心点聚焦特征图像的大小与图像特征XC的大小相同。
在得到中心点聚焦特征图像X1后,同样利用角度图像、中心点图像对中心点聚焦特征图像X1进行旋转卷积,得到特征提取后的中心点聚焦特征图像。再根据特征提取后的中心点聚焦特征图像进行分类预测得到第二分类结果。
对于目标检测模型的训练过程,使用公开的HRSC2016旋转目标数据集作为训练数据集,HRSC2016旋转目标数据集中对检测目标的标注标签皆为带角度的检测框。示例性的,由于HRSC2016旋转目标数据集中的图像过大,终端首先对图像进行有重合的切割得到合适尺寸的子图,将子图作为样本数据来训练目标检测模型。
示例性的,对于特征提取层中参数的初始化采用ExtremeNet在目标检测数据集MSCOCO训练的参数,ExtremeNet参见收录于CVPR(IEEE Conference on Computer Visionand Pattern Recognition,IEEE国际计算机视觉与模式识别会议)2019的目标检测论文《Bottom-up Object Detection by Grouping Extreme and Center Points(基于极值点和中心点分组的自底向上目标检测方法)》。对于角度预测层、尺寸预测层、中心点预测层、SSM和CFM的参数初始化则采用Xavier初始化方法。Xavier初始化方法可以参照2010年的论文《Understanding the difficulty of training deep feedforward neural networks(理解深度前馈神经网络训练的难点)》。
示例性的,采用全量样本回归损失函数训练来计算损失,基于Adam梯度下降法求解目标检测模型的卷及模板参数w和偏置参数b。在每次迭代过程中,计算预测结果的损失并向传播到目标检测模型,计算梯度并更新目标检测模型的网络参数。
示例性的,全量样本回归损失函数的式子如下。
考虑到样本回归难易程度不平衡的问题,即,样本中存在大量易回归样本,其数量远多于难回归样本,由于梯度累积效应容易误导模型的正常学习过程,因此,根据样本回归的难易程度为样本分配难易程度权重,降低易回归样本的作用,即可得到损失函数如下。
考虑到图像中正负样本不平衡的问题,分别为正负样本分配不同的权重,则得到上述全量样本回归损失函数。其中,正样本是图像中检测目标的中心点,负样本是除中心点之外的像素点(非中心点)。通过为正负样本分配不同的权重(正样本权重稍大、负样本权重稍小)来平衡图像中正负样本数量不均衡的问题。
示例性的,本实施例中仅采用上述全量样本回归损失函数来计算角度预测分支(角度图像)的损失,并对目标检测模型进行迭代训练。在其他可选的实现方式中,还可以采用上述全量样本回归损失函数对尺寸预测层、中心点预测层、SSM、CFM输出的尺寸图像、中心点图像、第一分类结果或第二分类结果中的至少一个预测值计算损失,并对目标检测模型进行迭代训练。
示例性的,当采用全量回归损失函数对中心点预测层输出的中心点图像计算损失时,负样本的权重还可以根据负样本距离中心点(正样本)的距离进行动态分配。例如,按照高斯分布,为距离正样本较近的负样本分配较高的正负样本权重,为距离正样本较远的负样本分配较低的正负样本权重。
示例性的,在训练阶段,为了使模型更快收敛,在角度预测层根据样本图像的样本图像特征预测得到样本角度图像后,在将样本角度图像输入SSM模块之前,会根据标注标签中的标注角度(真实角度)对输入SSM模块的样本角度图像进行修正,当预测的倾斜角度与标注角度之差的绝对值小于0.05时,采用预测的倾斜角度(预测值),反之则采用真实值,如此,得到修正后的样本角度图像。
示例性的,本实施例提供的目标检测模型,可以应用于超市货架的商品检测。例如,如图8所示,用户在终端120上使用WX小程序拍摄商品货架的照片,然后终端120将拍摄到的照片上传云服务器,云服务器使用本申请提供的目标检测方法进行目标检测,并将检测结果返回给WX小程序。WX小程序在终端上显示目标检测结果220。示例性的,目标检测结果包括在照片中用检测框221标注出检测到的检测目标(商品),以及检测目标所述的类别。使用本申请提供的目标检测方法,用户只需要输入待检测图像,目标检测模型就可以直接得到最终检测结果,不需要额外认为参与。
示例性的,本实施例提供的方法,是首先通过中心点预测层来预测初步的中心点可能在的区域,然后基于中心点图像使用SSM进一步细化中心点的位置,即,两阶段的方法来获取中心点位置。在其他可选的实现方式中,可以设置更多阶段的级联结构,来更精确地获取中心点位置。例如,级联两个中心点预测层,或级联两个SSM。
综上所述,本实施例提供的方法,通过使用SSM,使得目标检测模型能够由粗到细的实现两阶段的识别过程,大大降低模型的学习压力。同时,SSM可以帮助目标检测模型学习到类别敏感的特征,提高了模型的识别能力。通过使用CFM,增强中心点的语义信息,提高中心点的识别性能。另外,借助注意力机制对中心点周围像素特征进行抑制,有效降低了模型的中心点冗余问题。通过使用SSM和全量样本回归损失函数,有利于模型对于样本进行初步筛选,过滤掉绝大部分的负样本,极大地缓解了正负样本不均衡问题,进而提高了目标检测模型的识别能力。
图9示出了本申请一个示例性实施例提供的目标检测方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。所述方法包括如下方法。
步骤301,提取输入图像的图像特征,输入图像上包括至少一个检测目标。
示例性的,输入图像上的检测目标与输入图像的拍摄方向呈一定的倾斜角度。拍摄方向是与输入图像的一个边框线平行的方向。示例性的,检测目标与输入图像的拍摄方向呈一定的倾斜角度是指:用矩形框在输入图像中框出检测目标,则矩形框的边框线与输入图像的边框线不平行。示例性的,检测检测目标也可以与输入图像的拍摄方向平行,只是本实施例提供的目标检测方法在检测具有倾斜角度的检测目标时具有相比于现有的目标检测模型更准确的识别性能。
例如,输入图像可以是如图10所示的图像,检测目标为商品,在输入图像500中商品501与输入图像500的拍摄方向502呈锐角。
示例性的,检测目标是目标检测模型所需要识别的对象,例如,该对象可以是物品、人物、动物、植物中的至少一种。示例性的,检测目标是指目标检测模型需要从输入图像中识别出的图像区域。示例性的,该图像区域为物品、人物、动物、植物等所在的图像区域。例如,当目标检测模型用于检测商品时,则检测目标是商品,目标检测模型需要在输入图像中识别出商品所在的图像区域。
示例性的,计算机设备调用特征提取层提取输入图像的图像特征。特征提取层可以由上述实施例中提到的Hourglass构成。
步骤302,对图像特征预测得到尺寸图像、角度图像和中心点图像。
尺寸图像中像素点的像素值为像素点对应的检测目标的长度和宽度,角度图像中像素点的像素值为像素点所对应的检测目标的倾斜角度,中心点图像中像素点的像素值为像素点是否为检测目标的中心点。
示例性的,计算机设备调用预测层对图像特征进行预测得到尺寸图像、角度图像和中心点图像。示例性的,计算机设备对图像特征进行尺寸预测得到尺寸图像;对图像特征进行角度预测得到角度图像;对图像特征进行中心点预测得到中心点图像。
示例性的,预测层包括尺寸预测层、角度预测层和中心点预测层。计算机设备调用尺寸预测层对图像特征进行尺寸预测得到尺寸图像;调用角度预测层对图像特征进行角度预测得到角度图像;调用中心点预测层对图像特征进行中心点预测得到中心点图像。
示例性的,尺寸图像、角度图像和中心点图像与输入图像大小相等。或,尺寸图像、角度图像和中心点图像与输入图像存在映射关系,例如,尺寸图像上的第一个像素点对应了输入图像上第一个至第四个像素点。
示例性的,根据尺寸图像上的长度和宽度、根据中心点图像上的中心点位置、根据角度图像上的倾斜角度,可以在输入图像中画出检测目标的检测框,检测框是以中心点为中心的矩形框。例如,在尺寸图像中第一个像素点对应的长度为2、宽度为1,在角度图像中第一个像素点对应的倾斜角度为30°,在中心点图像中第一个像素点的数值为1,即,第一个像素点为中心点,则以第一个像素点为中心在输入图像上可以画出长度为2宽度为1倾斜角度为30°的检测框。
步骤303,对图像特征进行旋转卷积,输出第一分类结果。
旋转卷积包括利用旋转矩阵对图像特征进行旋转采样、以及利用卷积核对旋转采样得到的旋转采样矩阵进行卷积,旋转矩阵是根据中心点图像和角度图像确定的,第一分类结果包括检测目标的中心点和分类概率。
示例性的,计算机设备调用样本筛选层(SSM)对图像特征进行旋转卷积,根据旋转卷积得到的旋转卷积结果进行分类预测,输出第一分类结果。
示例性的,旋转卷积过程可以参照上述实施例。
步骤304,对图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果。
图像特征区域是根据角度图像、尺寸图像和第一分类结果确定的检测目标所属的区域,中心点聚焦处理用于基于高斯分布加权检测目标的中心点,第二分类结果包括检测目标的中心点和分类概率。
示例性的,计算机设备调用中心点聚焦层(CFM)对图像特征中的图像特征区域进行中心点聚焦处理,根据中心点聚焦处理的结果进行分类预测,输出第二分类结果。
示例性的,中心点聚焦处理的过程可以参照上述实施例。
示例性的,在步骤304之后,计算机设备还可以将第一分类结果和第二分类结果的乘积确定为第三分类结果。
示例性的,计算机设备根据第三分类结果、尺寸图像、角度图像和中心点图像输出目标检测结果,目标检测结果包括在输入图像上框出检测目标的检测框,以及检测目标所属的类别。
综上所述,本实施例提供的方法,通过使用样本筛选层来根据检测目标的倾斜角度提取检测目标的特征,使样本筛选层可以准确提取检测目标的特征,以便对检测目标进行分类,通过使样本筛选层根据检测目标的中心点来进行特征提取,使样本筛选层能够更关注检测目标中心点的特征,提高模型的识别性能。通过用学习到的中心点图像与角度图像指导样本筛选层有区分的通过旋转卷积,对检测目标的特征进聚合,提高模型的识别性能。同时该方法中先得到包含目标中心点的中心点图像再进一步得到准确的中心点位置,这种由粗到细的两阶段识别过程降低模型的学习压力,提高模型的识别性能。而中心点聚焦层可以为中心点位置提供足够的语义信息,同时抑制周围区域的特征响应,进而提高中心点识别精度,降低中心点的冗余。
示例性的,给出一种对图像特征进行中心点聚焦处理得到第二分类结果的示例性实施例。
图11示出了本申请一个示例性实施例提供的目标检测方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。在图9所示的示例性实施例的基础上,步骤304还包括步骤3041至步骤3044。
步骤3041,获取第一分类结果中检测目标的中心点,获取中心点在角度图像中对应的倾斜角度,获取中心点在尺寸图像中的长度和宽度。
示例性的,计算机设备根据第一分类结果来获取检测目标的中心点,例如,将第一分类结果中分类概率大于阈值的点确定为检测目标的中心点。然后根据中心点的位置到角度图像中获取中心点对应的倾斜角度,以及,到尺寸图像中获取中心点对应的长度和宽度。
步骤3042,根据中心点、倾斜角度、长度和宽度确定检测目标的检测框,根据检测框从图像特征中提取检测目标对应的图像特征区域。
计算机设备根据从第一分类结果、尺寸图像、角度图像中获取的信息,可以获得该中心点对应的检测框,根据检测框即可从图像特征中剪裁出检测目标对应的图像特征区域,然后对图像特征区域进行中心点聚焦处理。
步骤3043,利用二维高斯分布矩阵对图像特征区域进行中心点聚焦处理,得到中心点聚焦特征图像。
示例性的,中心点聚焦处理用于提高图像特征中中心点的数值,降低中心点附近其他像素点的数值,从而达到突出中心点的目的。示例性的,中心点聚焦处理还会综合图像特征的语义特征,并对中心点的特征进行增强,进一步突出中心点。
示例性的,计算机设备生成与图像特征区域的长度和宽度相等的二维高斯分布矩阵,二维高斯分布矩阵中的数值呈高斯分布;将目标矩阵的γ次方确定为中心点聚焦矩阵,目标矩阵为1与二维高斯分布矩阵之差,γ为正整数;将中心点聚焦矩阵与图像特征区域的乘积确定为高斯特征图像;将图像特征区域中的中心点的数值加到高斯特征图像中的中心点的数值上,得到中心点聚焦特征图像。
示例性的,二维高斯分布矩阵的求取方式可以参照上述实施例。
中心点聚焦矩阵为:(1-g)γ,其中,g为二维高斯分布矩阵。
计算机设备可以直接利用中心点聚焦矩阵对图像特征区域进行中心点聚焦处理,得到中心点聚焦特征图像。示例性的,计算机设备也可以先对图像特征进行语义增强,然后用中心点聚焦矩阵对语义增强后的图像特征区域进行中心点聚焦处理。
示例性的,以图像特征区域的尺寸为c通道*h像素*w像素为例,c、h、w为正整数,在步骤2043之前还包括以下步骤:计算机设备对图像特征区域在通道维度上提取最大值得到第一空间特征,第一空间特征的尺寸为1通道*h像素*w像素;对第一空间特征进行归一化处理得到第二空间特征;将第二空间特征与图像特征区域的乘积确定为加权图像特征区域;对加权图像特征区域在像素维度上求平均值得到高语义特征,高语义特征的尺寸为c通道*1像素*1像素;将高语义特征与图像特征区域中的中心点的数值相加,得到语义增强后的图像特征区域;则步骤2043可以替换为:将中心点聚焦矩阵与语义增强后的图像特征区域的乘积,确定为高斯特征图像。
例如,图像特征区域的尺寸为2通道*2像素*2像素,图像特征区域包括:第一通道:[],第二通道:[]。首先,计算机设备对图像特征区域在通道维度上提取最大值得到第一空间特征,则第一空间特征为[]。对第一空间特征进行归一化处理得到第二空间特征,归一化处理参照上述实施例提供的根据sigmoid函数进行归一化的方式,可以得到第二空间特征为[]。将第二空间特征与图像特征区域相乘,可以得到加权图像特征区域:第一通道:[],第二通道:[]。对加权图像特征区域在像素维度上求平均值得到高语义特征[2.495,6.483]。假设图像特征区域中第一个像素点(左上角的像素点)为中心点,则将高语义特征与图像特征区域中的中心点的数值相加,得到语义增强后的图像特征区域为:第一通道:[],第二通道:[]。
步骤3044,对中心点聚焦特征图像进行分类预测,输出第二分类结果。
示例性的,在得到中心点聚焦特征图像后,还可以对中心点聚焦特征图像进行旋转卷积,然后根据旋转卷积的结果进行分类预测。即,步骤3044还包括:计算机设备对中心点聚焦特征图像进行旋转卷积得到特征提取后的中心点聚焦特征图像;根据特征提取后的中心点聚焦特征图像进行分类预测第二分类结果。
示例性的,旋转卷积的方式可以参照上述实施例中的方式,即,根据角度图像和中心点图像求出中心点角度图像,根据中心点角度图像中的倾斜角度,计算得到旋转矩阵,利用旋转矩阵计算采样矩阵的偏移坐标,根据偏移坐标对中心点聚焦特征图像进行采样得到旋转采样矩阵,将旋转采样矩阵和卷积核进行卷积得到特征提取后的中心点聚焦特征图像。示例性的,CFM和SSM中的旋转卷积用到的卷积核是不同的。
综上所述,本实施例提供的方法,通过使用CFM,增强中心点的语义信息,提高中心点的识别性能。另外,借助注意力机制对中心点周围像素特征进行抑制,有效降低了模型的中心点冗余问题。
示例性的,给出一种对图像特征进行旋转卷积得到第一分类结果的示例性实施例。
图12示出了本申请一个示例性实施例提供的目标检测方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。示例性的,图像特征包括n个像素点,n为正整数,n个像素点对应有n个采样矩阵,其中,第i个采样矩阵的采样中心为第i个像素点,采样矩阵的大小与旋转卷积的卷积核的大小相同。在图9所示的示例性实施例的基础上,步骤303还包括步骤3031至步骤3036。
步骤3031,确定采样矩阵中各个采样点与采样中心相对的位置坐标。
以卷积核大小为3*3为例,则如图13所示,采样矩阵大小为3*3,则采样中心为y5,以y5为坐标原点,可以求得其他八个采样点相对于采样中心的位置坐标,y1(-1,-1)、y2(0,-1)、y3(1,-1)、y4(-1,0)、y6(1,0)、y7(-1,1)、y8(0,1)、y9(1,1)。
步骤3032,对第i个采样矩阵,根据第i个采样中心在角度图像中对应的第i个倾斜角度和各个采样点的位置坐标,确定第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数。
示例性的,计算机设备还会将角度图像和中心点图像相乘得到中心点角度图像,中心点角度图像用于保留角度图像中中心点的倾斜角度;则步骤3032包括:对第i个采样矩阵,根据第i个采样中心在中心点角度图像中对应的第i个倾斜角度和各个采样点的位置坐标,确定第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数。
示例性的,计算机设备获取第i个采样矩阵的第i个采样中心在中心点角度图像中对应的第i个倾斜角度,i是小于n的正整数;将第i个倾斜角度代入旋转矩阵,得到第i个旋转矩阵;将第i个旋转矩阵与采样点的位置坐标的乘积确定为采样点的第i个偏移坐标。
如图13所示,以第i个采样矩阵在图像特征中对应的采样中心为第一个像素点为例,第一个像素点在中心点角度图像中对应的倾斜角度为30°,则将30°带入旋转矩阵得到第i个旋转矩阵为,然后将各采样点的坐标位置与第i个旋转矩阵相乘即可得到该采样点的偏移坐标,例如,y1(-1,-1)与旋转矩阵相乘:,则y1的偏移坐标为(-0.36,-1.36)。依次计算y1、y2、y3、y4、y6、y7、y8、y9的偏移坐标,然后根据偏移坐标到图像特征中找到对应位置的像素点的像素值,组成旋转采样矩阵。
步骤3033,根据第i个偏移坐标在图像特征中进行采样得到第i个旋转采样矩阵。
例如,经过计算得到采样矩阵中各个采样点的偏移坐标为y1(-2,-2)、y2(0,-2)、y3(2,-2)、y4(-2,0)、y5(0,0)、y6(2,0)、y7(-2,2)、y8(0,2)、y9(2,2),则计算机设备根据偏移坐标到图像特征中获取(-2,-2)点的像素值、(0,-2)点的像素值、(2,-2)点的像素值、(-2,0)点的像素值、(0,0)点的像素值、(2,0)点的像素值、(-2,2)点的像素值、(0,2)点的像素值、(2,2)点的像素值,九个像素值组成旋转采样矩阵。
步骤3034,将卷积核与第i个旋转采样矩阵卷积得到第i个旋转卷积结果。
步骤3035,重复上述步骤得到n个采样矩阵的n个旋转卷积结果,n个旋转卷积结果合成旋转卷积结果。
按照上述方法,滑动采样矩阵到下一个采样中心,再次根据上述方法进行旋转卷积,如此直至图像特征中的n个像素点都作为采样中心被卷积一次,则最终得到旋转卷积结果。
步骤3036,根据旋转卷积结果进行分类预测输出第一分类结果。
综上所述,本实施例提供的方法,通过使用SSM,使得目标检测模型能够由粗到细的实现两阶段的识别过程,大大降低模型的学习压力。同时,SSM可以帮助目标检测模型学习到类别敏感的特征,提高了模型的识别能力。通过利用学习到的中心点图像与角度图像对图像特征进行有区分旋转卷积,对检测目标的特征进行类别敏感聚合,提高模型的识别性能。
示例性的,上述方法由目标检测模型执行,所述目标检测模型包括特征提取层、预测层、样本筛选层和中心点聚焦层,给出一种训练目标检测模型的示例性实施例。
图14示出了本申请一个示例性实施例提供的目标检测方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。该方法包括以下步骤。
步骤401,获取样本数据,样本数据包括样本图像和对样本图像中检测目标的标注标签,标注标签包括标注检测目标的旋转框,旋转框带有倾斜角度。
示例性的,样本数据可以是上述实施例所提到的HRSC2016旋转目标数据集。示例性的,标注标签包括旋转框的中心点、旋转框的长度和宽度、旋转框的倾斜角度,旋转框选中的检测目标的类别。
步骤402,调用特征提取层提取样本图像的样本图像特征。
步骤403,调用预测层根据样本图像特征预测得到样本尺寸图像、样本角度图像和样本中心点图像。
步骤404,调用样本筛选层对样本图像特征进行旋转卷积,输出第一样本分类结果。
示例性的,计算机设备会根据标注标签对样本角度图像进行修正。计算机设备根据标注标签修正样本角度图像得到修正后的样本角度图像,响应于样本角度图像中的预测角度与标注标签上的真实角度之差的绝对值小于阈值,采用样本角度图像中的预测角度;响应于样本角度图像中的预测角度与标注标签上的真实角度之差的绝对值大于阈值,采用标注标签中的真实角度。
示例性的,计算机设备调用样本筛选层根据修正后的样本角度图像、样本中心点图像对样本图像特征进行旋转卷积,输出第一样本分类结果。
步骤405,调用中心点聚焦层对样本图像特征中的样本图像特征区域进行中心点聚焦处理,输出第二样本分类结果。
步骤406,根据损失函数计算预测值与标注标签的损失,预测值包括样本尺寸图像、样本角度图像、样本中心点图像、第一样本分类结果、第二样本分类结果中的至少一个。
示例性的,根据上述实施例中所提供的全量样本回归损失函数计算预测值与标注标签的损失。示例性的,计算机设备获取样本的正负样本权重:响应于样本为正样本,样本的正负样本权重为第一权重;响应于样本为负样本,样本的正负样本权重为第二权重;正样本为样本图像中是检测目标的中心点的像素点,负样本为样本图像中不是中心点的像素点;计算预测值与标注标签的差值的绝对值;将绝对值与标注标签之商的β次方确定为难易程度权重,β为正整数;计算绝对值、难易程度权重、正负样本权重的乘积;将乘积除以样本图像中正样本的数量得到损失。
步骤407,根据损失使用梯度下降法迭代训练目标检测模型。
综上所述,本实施例提供的方法,通过使用SSM和全量样本回归损失函数,有利于模型对于样本进行初步筛选,过滤掉绝大部分的负样本,极大地缓解了正负样本不均衡问题,进而提高了目标检测模型的识别能力。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图15示出了本申请的一个示例性实施例提供的目标检测装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括如下装置。
特征提取模块601,用于提取输入图像的图像特征,所述输入图像上包括至少一个检测目标;
预测模块602,用于对所述图像特征预测得到尺寸图像、角度图像和中心点图像,所述尺寸图像中像素点的像素值为所述像素点对应的所述检测目标的长度和宽度,所述角度图像中像素点的像素值为所述像素点所对应的所述检测目标的倾斜角度,所述中心点图像中像素点的像素值为所述像素点是否为所述检测目标的中心点;
样本筛选模块603,用于对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积,所述旋转矩阵是根据所述中心点图像和所述角度图像确定的,所述第一分类结果包括所述检测目标的所述中心点和分类概率;
中心点聚焦模块604,用于对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述图像特征区域是根据所述角度图像、所述尺寸图像和所述第一分类结果确定的所述检测目标所属的区域,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点,所述第二分类结果包括所述检测目标的所述中心点和所述分类概率。
在一个可选的实施例中,所述中心点聚焦模块604,还用于:
获取所述第一分类结果中所述检测目标的所述中心点,获取所述中心点在所述角度图像中对应的所述倾斜角度,获取所述中心点在所述尺寸图像中的所述长度和所述宽度;
根据所述中心点、所述倾斜角度、所述长度和所述宽度确定所述检测目标的检测框,根据所述检测框从所述图像特征中提取所述检测目标对应的所述图像特征区域;
利用二维高斯分布矩阵对所述图像特征区域进行中心点聚焦处理,得到中心点聚焦特征图像;
对所述中心点聚焦特征图像进行分类预测,输出所述第二分类结果。
在一个可选的实施例中,所述中心点聚焦模块604,还用于:
生成与所述图像特征区域的长度和宽度相等的所述二维高斯分布矩阵,所述二维高斯分布矩阵中的数值呈高斯分布;
将目标矩阵的γ次方确定为中心点聚焦矩阵,所述目标矩阵为1与所述二维高斯分布矩阵之差,γ为正整数;
将所述中心点聚焦矩阵与所述图像特征区域的乘积确定为高斯特征图像;
将所述图像特征区域中的中心点的数值加到所述高斯特征图像中的中心点的数值上,得到所述中心点聚焦特征图像。
在一个可选的实施例中,所述图像特征区域的尺寸包括:c通道*h像素*w像素,c、h、w为正整数;所述中心点聚焦模块604,还用于:
对所述图像特征区域在通道维度上提取最大值得到第一空间特征,所述第一空间特征的尺寸为1通道*h像素*w像素;
对所述第一空间特征进行归一化处理得到第二空间特征;
将所述第二空间特征与所述图像特征区域的乘积确定为加权图像特征区域;
对所述加权图像特征区域在像素维度上求平均值得到高语义特征,所述高语义特征的尺寸为c通道*1像素*1像素;
将所述高语义特征与所述图像特征区域中的中心点的数值相加,得到语义增强后的所述图像特征区域;
将所述中心点聚焦矩阵与语义增强后的所述图像特征区域的乘积,确定为所述高斯特征图像。
在一个可选的实施例中,所述中心点聚焦模块604,还用于:
对所述中心点聚焦特征图像进行旋转卷积得到特征提取后的所述中心点聚焦特征图像;
根据特征提取后的所述中心点聚焦特征图像进行分类预测所述第二分类结果。
在一个可选的实施例中,所述图像特征包括n个像素点,n为正整数,所述n个像素点对应有n个采样矩阵,其中,第i个采样矩阵的采样中心为第i个像素点,所述采样矩阵的大小与所述旋转卷积的卷积核的大小相同;所述样本筛选模块603,还用于:
确定所述采样矩阵中各个采样点与所述采样中心相对的位置坐标;
对所述第i个采样矩阵,根据所述第i个采样中心在所述角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数;
根据所述第i个偏移坐标在所述图像特征中进行采样得到第i个旋转采样矩阵;
将所述卷积核与所述第i个旋转采样矩阵卷积得到第i个旋转卷积结果;
重复上述步骤得到所述n个采样矩阵的n个旋转卷积结果,所述n个旋转卷积结果合成旋转卷积结果;
根据所述旋转卷积结果进行分类预测输出所述第一分类结果。
在一个可选的实施例中,所述样本筛选模块603,还用于:
将所述角度图像和所述中心点图像相乘得到中心点角度图像,所述中心点角度图像用于保留所述角度图像中所述中心点的所述倾斜角度;
对第i个采样矩阵,根据所述第i个采样中心在所述中心点角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数。
在一个可选的实施例中,所述样本筛选模块603,还用于:
获取所述第i个采样矩阵的所述第i个采样中心在所述中心点角度图像中对应的第i个倾斜角度,i是小于n的正整数;
将所述第i个倾斜角度代入旋转矩阵,得到第i个旋转矩阵;
将所述第i个旋转矩阵与所述采样点的所述位置坐标的乘积确定为所述采样点的所述第i个偏移坐标。
在一个可选的实施例中,所述装置还包括:
分类结果输出模块605,还用于将所述第一分类结果和所述第二分类结果的乘积确定为第三分类结果。
在一个可选的实施例中,所述预测模块602包括:尺寸预测子模块608、角度预测子模块609和中心点预测子模块610;
所述尺寸预测子模块608,用于对所述图像特征进行尺寸预测得到所述尺寸图像;
所述角度预测子模块609,用于对所述图像特征进行角度预测得到所述角度图像;
所述中心点预测子模块610,用于对所述图像特征进行中心点预测得到所述中心点图像。
在一个可选的实施例中,所述装置由目标检测模型执行,所述目标检测模型包括特征提取层、预测层、样本筛选层和中心点聚焦层,所述装置还包括:
获取模块606,用于获取样本数据,所述样本数据包括样本图像和对样本图像中所述检测目标的标注标签,所述标注标签包括标注所述检测目标的旋转框,所述旋转框带有倾斜角度;
所述特征提取模块601,还用于调用所述特征提取层提取所述样本图像的样本图像特征;
所述预测模块602,还用于调用所述预测层根据所述样本图像特征预测得到样本尺寸图像、样本角度图像和样本中心点图像;
所述样本筛选模块603,还用于调用所述样本筛选层对所述样本图像特征进行旋转卷积,输出第一样本分类结果;
所述中心点聚焦模块604,还用于调用所述中心点聚焦层对所述样本图像特征中的样本图像特征区域进行中心点聚焦处理,输出第二样本分类结果;
训练模块607,用于根据损失函数计算预测值与所述标注标签的损失,所述预测值包括所述样本尺寸图像、所述样本角度图像、所述样本中心点图像、所述第一样本分类结果、所述第二样本分类结果中的至少一个;
所述训练模块607,还用于根据所述损失使用梯度下降法迭代训练所述目标检测模型。
在一个可选的实施例中,所述训练模块607,还用于:
获取样本的正负样本权重:响应于所述样本为正样本,所述样本的所述正负样本权重为第一权重;响应于所述样本为负样本,所述样本的所述正负样本权重为第二权重;所述正样本为所述样本图像中是所述检测目标的所述中心点的像素点,所述负样本为所述样本图像中不是所述中心点的像素点;
计算所述预测值与所述标注标签的差值的绝对值;
将所述绝对值与标注标签之商的β次方确定为难易程度权重,β为正整数;
计算所述绝对值、所述难易程度权重、所述正负样本权重的乘积;
将所述乘积除以所述样本图像中所述正样本的数量得到所述损失。
在一个可选的实施例中,所述训练模块607,还用于根据标注标签修正所述样本角度图像得到修正后的所述样本角度图像;
所述样本筛选模块603,还用于调用所述样本筛选层根据修正后的所述样本角度图像、所述样本中心点图像对所述样本图像特征进行旋转卷积,输出所述第一样本分类结果。
图16是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器1000包括中央处理单元(英文:Central Processing Unit,简称:CPU)1001、包括随机存取存储器(英文:Random Access Memory,简称:RAM)1002和只读存储器(英文:Read-Only Memory,简称:ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入/输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入/输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory,简称:EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
本申请还提供了一种终端,该终端包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的目标检测方法。需要说明的是,该终端可以是如下图17所提供的终端。
图17示出了本申请一个示例性实施例提供的终端1100的结构框图。该终端1100可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的目标检测方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。示例性的,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。示例性的,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图17中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的目标检测方法。
本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的目标检测方法。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的目标检测方法。
本申请还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的目标检测方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种目标检测方法,其特征在于,所述方法包括:
提取输入图像的图像特征,所述输入图像上包括至少一个检测目标;
对所述图像特征预测得到尺寸图像、角度图像和中心点图像,所述尺寸图像中像素点的像素值为所述像素点对应的所述检测目标的长度和宽度,所述角度图像中像素点的像素值为所述像素点所对应的所述检测目标的倾斜角度,所述中心点图像中像素点的像素值为所述像素点是否为所述检测目标的中心点;
对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积,所述旋转矩阵是根据所述中心点图像和所述角度图像确定的,所述第一分类结果包括所述检测目标的所述中心点和分类概率;
对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述图像特征区域是根据所述角度图像、所述尺寸图像和所述第一分类结果确定的所述检测目标所属的区域,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点,所述第二分类结果包括所述检测目标的所述中心点和所述分类概率。
2.根据权利要求1所述的方法,其特征在于,所述对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,包括:
获取所述第一分类结果中所述检测目标的所述中心点,获取所述中心点在所述角度图像中对应的所述倾斜角度,获取所述中心点在所述尺寸图像中的所述长度和所述宽度;
根据所述中心点、所述倾斜角度、所述长度和所述宽度确定所述检测目标的检测框,根据所述检测框从所述图像特征中提取所述检测目标对应的所述图像特征区域;
利用二维高斯分布矩阵对所述图像特征区域进行中心点聚焦处理,得到中心点聚焦特征图像;
对所述中心点聚焦特征图像进行分类预测,输出所述第二分类结果。
3.根据权利要求2所述的方法,其特征在于,所述利用二维高斯分布矩阵对所述图像特征区域进行中心点聚焦处理,得到中心点聚焦特征图像,包括:
生成与所述图像特征区域的长度和宽度相等的所述二维高斯分布矩阵,所述二维高斯分布矩阵中的数值呈高斯分布;
将目标矩阵的γ次方确定为中心点聚焦矩阵,所述目标矩阵为1与所述二维高斯分布矩阵之差,γ为正整数;
将所述中心点聚焦矩阵与所述图像特征区域的乘积确定为高斯特征图像;
将所述图像特征区域中的中心点的数值加到所述高斯特征图像中的中心点的数值上,得到所述中心点聚焦特征图像。
4.根据权利要求3所述的方法,其特征在于,所述图像特征区域的尺寸包括:c通道*h像素*w像素,c、h、w为正整数;所述方法还包括:
对所述图像特征区域在通道维度上提取最大值得到第一空间特征,所述第一空间特征的尺寸为1通道*h像素*w像素;
对所述第一空间特征进行归一化处理得到第二空间特征;
将所述第二空间特征与所述图像特征区域的乘积确定为加权图像特征区域;
对所述加权图像特征区域在像素维度上求平均值得到高语义特征,所述高语义特征的尺寸为c通道*1像素*1像素;
将所述高语义特征与所述图像特征区域中的中心点的数值相加,得到语义增强后的所述图像特征区域;
所述将所述中心点聚焦矩阵与所述图像特征区域的乘积确定为高斯特征图像,包括:
将所述中心点聚焦矩阵与语义增强后的所述图像特征区域的乘积,确定为所述高斯特征图像。
5.根据权利要求2至4任一所述的方法,其特征在于,所述根据所述中心点聚焦特征图像进行分类预测输出所述第二分类结果,包括:
对所述中心点聚焦特征图像进行旋转卷积得到特征提取后的所述中心点聚焦特征图像;
根据特征提取后的所述中心点聚焦特征图像进行分类预测所述第二分类结果。
6.根据权利要求1至4任一所述的方法,其特征在于,所述图像特征包括n个像素点,n为正整数,所述n个像素点对应有n个采样矩阵,其中,第i个采样矩阵的采样中心为第i个像素点,所述采样矩阵的大小与所述旋转卷积的卷积核的大小相同;
所述对所述图像特征进行旋转卷积,输出第一分类结果,包括以下步骤:
确定所述采样矩阵中各个采样点与所述采样中心相对的位置坐标;
对所述第i个采样矩阵,根据所述第i个采样中心在所述角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数;
根据所述第i个偏移坐标在所述图像特征中进行采样得到第i个旋转采样矩阵;
将所述卷积核与所述第i个旋转采样矩阵卷积得到第i个旋转卷积结果;
重复上述步骤得到所述n个采样矩阵的n个旋转卷积结果,所述n个旋转卷积结果合成旋转卷积结果;
根据所述旋转卷积结果进行分类预测输出所述第一分类结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述角度图像和所述中心点图像相乘得到中心点角度图像,所述中心点角度图像用于保留所述角度图像中所述中心点的所述倾斜角度;
所述对所述第i个采样矩阵,根据所述第i个采样中心在所述角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,包括:
对第i个采样矩阵,根据所述第i个采样中心在所述中心点角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,i是小于n的正整数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第i个采样中心在所述中心点角度图像中对应的第i个倾斜角度和各个采样点的所述位置坐标,确定所述第i个采样矩阵中各个采样点的第i个偏移坐标,包括:
获取所述第i个采样矩阵的所述第i个采样中心在所述中心点角度图像中对应的第i个倾斜角度,i是小于n的正整数;
将所述第i个倾斜角度代入旋转矩阵,得到第i个旋转矩阵;
将所述第i个旋转矩阵与所述采样点的所述位置坐标的乘积确定为所述采样点的所述第i个偏移坐标。
9.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
将所述第一分类结果和所述第二分类结果的乘积确定为第三分类结果。
10.根据权利要求1至4任一所述的方法,其特征在于,所述对所述图像特征预测得到尺寸图像、角度图像和中心点图像,包括:
对所述图像特征进行尺寸预测得到所述尺寸图像;
对所述图像特征进行角度预测得到所述角度图像;
对所述图像特征进行中心点预测得到所述中心点图像。
11.根据权利要求1至4任一所述的方法,其特征在于,所述方法由目标检测模型执行,所述目标检测模型包括特征提取层、预测层、样本筛选层和中心点聚焦层,所述方法还包括:
获取样本数据,所述样本数据包括样本图像和对样本图像中所述检测目标的标注标签,所述标注标签包括标注所述检测目标的旋转框,所述旋转框带有倾斜角度;
调用所述特征提取层提取所述样本图像的样本图像特征;
调用所述预测层根据所述样本图像特征预测得到样本尺寸图像、样本角度图像和样本中心点图像;
调用所述样本筛选层对所述样本图像特征进行旋转卷积,输出第一样本分类结果;
调用所述中心点聚焦层对所述样本图像特征中的样本图像特征区域进行中心点聚焦处理,输出第二样本分类结果;
根据损失函数计算预测值与所述标注标签的损失,所述预测值包括所述样本尺寸图像、所述样本角度图像、所述样本中心点图像、所述第一样本分类结果、所述第二样本分类结果中的至少一个;
根据所述损失使用梯度下降法迭代训练所述目标检测模型。
12.根据权利要求11所述的方法,其特征在于,所述根据损失函数计算预测值与所述标注标签的损失,包括:
获取样本的正负样本权重:响应于所述样本为正样本,所述样本的所述正负样本权重为第一权重;响应于所述样本为负样本,所述样本的所述正负样本权重为第二权重;所述正样本是所述样本图像中为所述检测目标的所述中心点的像素点,所述负样本为所述样本图像中不是所述中心点的像素点;
计算所述预测值与所述标注标签的差值的绝对值;
将所述绝对值与标注标签之商的β次方确定为难易程度权重,β为正整数;
计算所述绝对值、所述难易程度权重、所述正负样本权重的乘积;
将所述乘积除以所述样本图像中所述正样本的数量得到所述损失。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括:
根据标注标签修正所述样本角度图像得到修正后的所述样本角度图像;
所述调用所述样本筛选层对所述样本图像特征进行旋转卷积,输出第一样本分类结果,包括:
调用所述样本筛选层根据修正后的所述样本角度图像、所述样本中心点图像对所述样本图像特征进行旋转卷积,输出所述第一样本分类结果。
14.一种目标检测装置,其特征在于,所述装置包括:
特征提取模块,用于提取输入图像的图像特征,所述输入图像上包括至少一个检测目标;
预测模块,用于对所述图像特征预测得到尺寸图像、角度图像和中心点图像,所述尺寸图像中像素点的像素值为所述像素点对应的所述检测目标的长度和宽度,所述角度图像中像素点的像素值为所述像素点所对应的所述检测目标的倾斜角度,所述中心点图像中像素点的像素值为所述像素点是否为所述检测目标的中心点;
样本筛选模块,用于对所述图像特征进行旋转卷积,输出第一分类结果,所述旋转卷积包括利用旋转矩阵对所述图像特征进行旋转采样、以及利用卷积核对所述旋转采样得到的旋转采样矩阵进行卷积,所述旋转矩阵是根据所述中心点图像和所述角度图像确定的,所述第一分类结果包括所述检测目标的所述中心点和分类概率;
中心点聚焦模块,用于对所述图像特征中的图像特征区域进行中心点聚焦处理,输出第二分类结果,所述图像特征区域是根据所述角度图像、所述尺寸图像和所述第一分类结果确定的所述检测目标所属的区域,所述中心点聚焦处理用于基于高斯分布加权所述检测目标的所述中心点,所述第二分类结果包括所述检测目标的所述中心点和所述分类概率。
15.一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至13任一项所述的目标检测方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现如权利要求1至13任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085853.1A CN111931877B (zh) | 2020-10-12 | 2020-10-12 | 目标检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085853.1A CN111931877B (zh) | 2020-10-12 | 2020-10-12 | 目标检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931877A CN111931877A (zh) | 2020-11-13 |
CN111931877B true CN111931877B (zh) | 2021-01-05 |
Family
ID=73334363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011085853.1A Active CN111931877B (zh) | 2020-10-12 | 2020-10-12 | 目标检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931877B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434715B (zh) * | 2020-12-10 | 2022-07-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的目标识别方法、装置及存储介质 |
CN112906621A (zh) * | 2021-03-10 | 2021-06-04 | 北京华捷艾米科技有限公司 | 一种手部检测方法、装置、存储介质和设备 |
CN112668675B (zh) * | 2021-03-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
CN113095257A (zh) * | 2021-04-20 | 2021-07-09 | 上海商汤智能科技有限公司 | 异常行为检测方法、装置、设备及存储介质 |
CN113609951B (zh) * | 2021-07-30 | 2023-11-24 | 北京百度网讯科技有限公司 | 目标检测模型的训练和目标检测方法、装置、设备及介质 |
CN113570612B (zh) * | 2021-09-23 | 2021-12-17 | 苏州浪潮智能科技有限公司 | 一种图像处理方法、装置及设备 |
CN115311553A (zh) * | 2022-07-12 | 2022-11-08 | 青岛云天励飞科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537286A (zh) * | 2018-04-18 | 2018-09-14 | 北京航空航天大学 | 一种基于关键区域检测的复杂目标精准识别方法 |
CN109583483A (zh) * | 2018-11-13 | 2019-04-05 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的目标检测方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732225B (zh) * | 2013-12-24 | 2018-12-18 | 中国科学院深圳先进技术研究院 | 图像旋转处理方法 |
US10169684B1 (en) * | 2015-10-01 | 2019-01-01 | Intellivision Technologies Corp. | Methods and systems for recognizing objects based on one or more stored training images |
CN108520273A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 一种基于目标检测的稠密小商品快速检测识别方法 |
CN111242122B (zh) * | 2020-01-07 | 2023-09-08 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和系统 |
-
2020
- 2020-10-12 CN CN202011085853.1A patent/CN111931877B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537286A (zh) * | 2018-04-18 | 2018-09-14 | 北京航空航天大学 | 一种基于关键区域检测的复杂目标精准识别方法 |
CN109583483A (zh) * | 2018-11-13 | 2019-04-05 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的目标检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111931877A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931877B (zh) | 目标检测方法、装置、设备及存储介质 | |
CN110210571B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN110097019B (zh) | 字符识别方法、装置、计算机设备以及存储介质 | |
CN111489378B (zh) | 视频帧特征提取方法、装置、计算机设备及存储介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN111243668B (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
CN111325258A (zh) | 特征信息获取方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN112884770B (zh) | 图像分割处理方法、装置及计算机设备 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN111091166A (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN110059685A (zh) | 文字区域检测方法、装置及存储介质 | |
CN111897996A (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN112036331A (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN110570460A (zh) | 目标跟踪方法、装置、计算机设备及计算机可读存储介质 | |
CN112990053B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112733970B (zh) | 图像分类模型处理方法、图像分类方法及装置 | |
CN111930964B (zh) | 内容处理方法、装置、设备及存储介质 | |
CN110675412A (zh) | 图像分割方法、图像分割模型的训练方法、装置及设备 | |
CN111178343A (zh) | 基于人工智能的多媒体资源检测方法、装置、设备及介质 | |
CN111597922A (zh) | 细胞图像的识别方法、系统、装置、设备及介质 | |
CN114511864B (zh) | 文本信息提取方法、目标模型的获取方法、装置及设备 | |
CN113724189A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112053360B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |