CN111814534A - 视觉任务的处理方法、装置和电子系统 - Google Patents

视觉任务的处理方法、装置和电子系统 Download PDF

Info

Publication number
CN111814534A
CN111814534A CN202010422194.XA CN202010422194A CN111814534A CN 111814534 A CN111814534 A CN 111814534A CN 202010422194 A CN202010422194 A CN 202010422194A CN 111814534 A CN111814534 A CN 111814534A
Authority
CN
China
Prior art keywords
features
feature extraction
extraction module
feature
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010422194.XA
Other languages
English (en)
Inventor
夏春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010422194.XA priority Critical patent/CN111814534A/zh
Publication of CN111814534A publication Critical patent/CN111814534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种视觉任务的处理方法、装置和电子系统;其中,该方法包括:将待处理图像输入至预设的网络模型中,输出特征数据;基于特征数据,完成预设的视觉任务;网络模型包括至少一个特征提取模块;特征提取模块包括第一分支和第二分支;第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取目标数据的全局特征。该方式中,网络模型的每一个特征提取模块中均包含有待处理图像的全局特征和局部特征,避免了逐层累计提取全局特征造成特征损失的问题,有利于提高完成视觉任务的精确度;同时,网络模型也无需设置较多层数的特征提取模块,模型简单、参数少,运算速度快,也有利于模型在训练过程中快速收敛。

Description

视觉任务的处理方法、装置和电子系统
技术领域
本发明涉及深度学习技术领域,尤其是涉及一种视觉任务的处理方法、装置和电子系统。
背景技术
人脸识别是计算机视觉领域的一项基本任务,人脸识别能够识别或者验证图像中主体身份。用于人脸识别的卷积神经网络主要有AlexNet、Resnet、Resnext、Mobilenet、Shufflenet和VGG等框架模型。这些模型通过逐层累计扩大模型的感受野,节省了算力和存储资源,但是图像的全局信息只有在网络深层才可以获得;由于神经网络中,特征在经过池化Pooling层和步长stride大于1的卷积层时信息是有损失的,当特征累计到网络深层时,信息丢失比较严重。
针对上述问题,GoogLeNet模型通过不同的支路使用不同的感受野,然后再将得到的特征组合起来,该操作在一定程度上的缓解了信息丢失的问题,但是这个模型比较复杂,不同的支路的卷积没有共享,计算复杂。Res2net模型将一个卷积操作变成分割、串行卷积、特征融合的组合操作,在不增加参数量的同时,一定程度上增强了模型的特征提取能力,但是琐碎操作比较多。
综上所述,现有的可用于人脸识别的神经网络模型中,单一感受野逐层累计的模型,信息丢失比较严重且需要模型设计的层数比较深,不利于模型的收敛,而多尺度特征感知模型,计算耗时、参数量大、模型复杂。
发明内容
有鉴于此,本发明的目的在于提供一种视觉任务的处理方法、装置和电子系统,以避免逐层累计提取全局特征造成特征损失的问题,提高完成视觉任务的精确度;同时,简化模型,提高模型在训练过程中收敛速度。
第一方面,本发明实施例提供了一种视觉任务的处理方法,方法包括:获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;基于特征数据,完成预设的视觉任务;其中,网络模型包括至少一个特征提取模块;特征提取模块包括第一分支和第二分支;第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取目标数据的全局特征。
进一步地,上述第一分支包括第一卷积层;第一卷积层用于对目标数据进行第一卷积处理,得到目标数据的局部特征。
进一步地,上述第二分支包括第二卷积层、全连接层和第三卷积层;第二卷积层用于对目标数据进行第二卷积处理,以降低目标数据的通道数;全连接层用于从降低通道数后的目标数据中提取全局特征;第三卷积层用于对全局特征进行第三卷积处理,得到预设尺度和预设通道数的全局特征。
进一步地,上述特征提取模块还用于:将全局特征和局部特征进行拼接处理,得到包含有全局特征和局部特征的综合特征。
进一步地,上述特征提取模块还用于:基于预设的权重参数,将全局特征和局部特征进行拼接处理,得到综合特征;其中,权重参数用于:确定综合特征中,全局特征和局部特征的通道数。
进一步地,上述特征提取模块还包括第四卷积层;第四卷积层用于对包含有全局特征和局部特征的综合特征进行第四卷积处理,以对全局特征和局部特征进行特征融合,得到融合特征。
进一步地,上述第四卷积层还用于:通过预设的第一通道数调整参数,调整融合特征的通道数。
进一步地,上述特征提取模块还包括特征叠加层;特征叠加层用于:将输入至特征提取模块的目标数据,与融合特征进行逐点相加处理,得到目标数据和融合特征的叠加特征;将叠加特征输出特征提取模块。
进一步地,上述特征提取模块还包括第五卷积层;第五卷积层分别与第一分支和第二分支连接;第五卷积层用于通过预设的第二通道数调整参数,调整目标数据的通道数;将通道数调整后的目标数据,分别输入至第一分支和第二分支。
进一步地,上述网络模型包括多个特征提取模块;多个特征提取模块依次串联连接。
进一步地,上述网络模型通过下述方式训练得到:设置网络模型中的超参数;基于预设的样本集合对网络模型进行迭代训练,得到网络模型的多个中间训练结果和最终训练结果;将最终训练结果确定为训练后的网络模型;或者,基于预设的测试样本测试网络模型的中间训练结果和最终训练结果,根据测试结果确定训练后的网络模型。
第二方面,本发明实施例提供了一种视觉任务的处理装置,装置包括:特征提取模块,用于获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;任务完成模块,用于基于特征数据,完成预设的视觉任务;其中,网络模型包括至少一个特征提取模块;特征提取模块包括第一分支和第二分支;第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支提取目标数据的全局特征。
第三方面,本发明实施例提供了一种电子系统,电子系统包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述视觉任务的处理方法。
第四方面,本发明实施例提供了一种机器可读存储介质,机器可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述视觉任务的处理方法的步骤。
本发明实施例带来了以下有益效果:
上述视觉任务的处理方法、装置和电子系统,网络模型包括至少一个特征提取模块;该特征提取模块包括第一分支和第二分支;其中第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取目标数据的全局特征;待处理图像输入至训练完成的该网络模型中,然后基于该网络输出的特征数据,完成预设的视觉任务。该方式中,网络模型的每一个特征提取模块中均包含有待处理图像的全局特征和局部特征,避免了逐层累计提取全局特征造成特征损失的问题,有利于提高完成视觉任务的精确度;同时,网络模型也无需设置较多层数的特征提取模块,模型简单、参数少,运算速度快,也有利于模型在训练过程中快速收敛。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种视觉任务的处理方法的流程图;
图3为本发明实施例提供的一种特征提取模块的结构示意图;
图4为本发明实施例提供的另一种特征提取模块的结构示意图;
图5为本发明实施例提供的另一种特征提取模块的结构示意图;
图6为本发明实施例提供的一种网络模型的结构示意图;
图7为本发明实施例提供的另一种特征提取模块的结构示意图;
图8为本发明实施例提供的一种视觉任务的处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有的可用于人脸识别的神经网络模型中,单一感受野逐层累计的模型,信息丢失比较严重且需要模型设计的层数比较深,不利于模型的收敛,而多尺度特征感知模型,计算耗时、参数量大、模型复杂。基于此,本发明实施例提供的一种视觉任务的处理方法、装置和电子系统,该技术可以应用于人脸识别、图像分类等多种计算机视觉任务的处理过程中,该技术可采用相应的软件和硬件实现,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的视觉任务的处理方法、装置和电子系统的示例电子系统100。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子系统也可以具有其他组件和结构。
所述处理设备102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子系统100中的其它组件的数据进行处理,还可以控制所述电子系统100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的机器可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述机器可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述机器可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集设备110可以采集预览视频帧或图像数据,并且将采集到的预览视频帧或图像数据存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的视觉任务的处理方法、装置和电子系统的示例电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
实施例二:
参见图2所示的一种视觉任务的处理方法的流程图,该方法由上述电子系统中的处理设备执行;该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理,也可以与服务器相连,共同对信息进行分析处理,并将处理结果上传至云端。该方法包括如下步骤:
步骤S202,获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;
在本实施例中,待处理图像的来源、所包含的内容不做具体限定;但通常与预设的视觉任务相关;例如,如果视觉任务为人脸识别,该待处理图像中通常包含有人脸;如果视觉任务为图像分类,该待处理图像中通常包含有特定类型的内容,如人物、动物、风景等。
上述网络模型包括至少一个特征提取模块;如图3所示,该特征提取模块包括第一分支和第二分支;其中的第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取该目标数据的全局特征。
该网络模型可以包括一个特征提取模块,也可以包括多个特征提取模块;当网络模型包括多个特征提取模块时,多个特征提取模块通常依次串联连接,也可以称为级联连接。对于一个特征提取模块来说,该特征提取模块输入的数据称为目标数据,该目标数据可以为待处理图像本身,也可以为待处理图像经处理后的数据,也可以为其他特征提取模块的输出数据,或者该输出数据经处理后的数据。总之,目标数据通常与待处理图像有一定关联。
上述第一分支中可以包括一种或多种具体的操作,例如,卷积操作、全连接操作、池化操作等等;该第一分支用于提取目标数据的局部特征;通常来说,卷积操作可以提取目标数据的局部特征,因而第一分支中可以包含卷积操作;该局部特征的粒度,通常与卷积操作使用的卷积核的大小有关;卷积核越小,局部特征的粒度越小,即局部特征越细化;卷积核越大,局部特征的粒度越大,即局部特征越粗糙。
同理,上述第二分支可以包括一种或多种具体的操作,例如,卷积操作、全连接操作、池化操作等等;该第二分支用于提取目标数据的全局特征;通常,全连接操作可以提取目标数据的全局特征,因而第二分支可以包含全连接操作;除了全连接操作以外,该第二分支中还可以包含其他操作,用于在进行全连接操作前后,调整目标数据的通道数、宽度和高度等参数。
步骤S204,基于上述特征数据,完成预设的视觉任务。
例如,当视觉任务为人脸识别时,可以将上述网络模型输出的特征数据,与标准人脸的特征数据进行比对,基于比对结果得到待处理图像的人脸识别结果;当视觉任务为图像分类任务时,可以将上述网络模型输出的特征数据,与预设类别的图像特征进行比对,基于比对结果确定待处理图像的图像类型。
上述视觉任务的处理方法中,网络模型包括至少一个特征提取模块;该特征提取模块包括第一分支和第二分支;其中第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取目标数据的全局特征;待处理图像输入至训练完成的该网络模型中,然后基于该网络输出的特征数据,完成预设的视觉任务。该方式中,网络模型的每一个特征提取模块中均包含有待处理图像的全局特征和局部特征,避免了逐层累计提取全局特征造成特征损失的问题,有利于提高完成视觉任务的精确度;同时,网络模型也无需设置较多层数的特征提取模块,模型简单、参数少,运算速度快,也有利于模型在训练过程中快速收敛。
实施例三:
本实施例提供另一种视觉任务的处理方法;在上述实施例的基础上,该方法基于另一种网络模型实现;本实施例具体描述该网络模型的模型结构。与上述实施例类似,该网络模型包括至少一个特征提取模块;如图4所示,该特征提取模块中的第一分支包括第一卷积层;该第一卷积层用于对目标数据进行第一卷积处理,得到目标数据的局部特征。
该第一卷积层的卷积核可以根据局部特征的粒度设置,通常可以设置为3*3大小的卷积核。另外,该第一卷积层还可以调整局部特征的通道数和尺度;该通道数也可以理解为局部特征的维度或channel数,尺度可以理解为一个通道的局部特征的宽度(也可以称为width)和高度(也可以称为height)。例如,第一卷积层中可以设置通道数的比例缩放系数,如果该比例缩放系数为r1,则相较于目标数据的通道数C,局部特征的通道数可以为C/r1;如果r1取值为2,则局部特征的通道数可以为C/2。第一卷积层中可以设置步长stride,如果目标数据的尺度为W*H,则局部特征的尺度为(W/stride)*(H/stride)。作为示例,步长stride的值可以取1或2,当步长stride取1时,尺度不变,当步长stride取2时,目标数据的宽度缩小一倍,高度缩小一倍。
需要说明的是,上述第一卷积层中的比例缩放系数,也可以称为通道数调整参数;第一卷积层以及下述其他卷积层或全连接层中可能涉及到的通道调整参数或步长,可以根据网络模型对输入数据和输出数据的通道数、尺度等需求设置;通道调整参数和步长均可以理解为网络模型的超参数,在网络模型训练之前预先设置完成,在网络模型训练过程中,超参数不作变化。
该特征提取模块中的第二分支包括第二卷积层、全连接层和第三卷积层;第二卷积层用于对目标数据进行第二卷积处理,以降低目标数据的通道数;全连接层用于从降低通道数后的目标数据中提取全局特征;第三卷积层用于对全局特征进行第三卷积处理,得到预设尺度和预设通道数的全局特征。
其中,上述第二卷积层主要用于降低目标数据的通道数,该第二卷积层的卷积核大小可以设置为1*1;第二卷积层中也可以设置通道数的比例缩放系数,如果该比例缩放系数为r2,则相较于目标数据的通道数C,局部特征的通道数可以为C/r2;如果r2取值为2,则局部特征的通道数可以为C/2。第二卷积层中的通道数的比例缩放系数,可以根据后续全连接层对输入数据的通道数的需求设置。
上述全连接层在实际实现时,也可以通过卷积核大小为1*1的卷积操作实现;该全连接层输出的全局特征的通道数,通常与全连接层输入的降低通道数后的目标数据的通道数相同;该全连接层输出的全局特征的尺度,通常与全连接层输入的降低通道数后的目标数据的尺度相同。
上述第三卷积层主要用于降低全局特征的尺度,该第三卷积层的卷积核大小可以设置为3*3;该第三卷积层中可以设置有步长stride,如果全局特征的尺度为W*H,则第三卷积层输出的全局特征的尺度为(W/stride)*(H/stride)。同时,第三卷积层还用于调整全局特征的通道数,以使全局特征的通道数与局部特征的通道数相匹配。
上述方式中,网络模型的每一个特征提取模块中均包含有待处理图像的全局特征和局部特征,避免了逐层累计提取全局特征造成特征损失的问题,有利于提高完成视觉任务的精确度;同时,网络模型也无需设置较多层数的特征提取模块,模型简单、参数少,运算速度快,也有利于模型在训练过程中快速收敛。
实施例四:
基于上述实施例提供的该网络模型的模型结构,本实施例提供一种更加细化具体的网络模型的模型结构。与上述实施例类似,该网络模型包括至少一个特征提取模块;如图5所示,该特征提取模块还用于:将全局特征和局部特征进行拼接处理,得到包含有全局特征和局部特征的综合特征。
该拼接处理也可以称为concat处理。为了调整全局特征和局部特征在综合特征中的占比,在拼接处理过程中,还可以设置一比例系数,然后特征提取模块基于该比例系数,将全局特征和局部特征进行拼接处理,得到综合特征;其中,比例系数用于:调整综合特征中,全局特征和局部特征的通道数的比例。例如,比例系数α=0.3,如果综合特征的通道数为100,则其中30个通道数中的特征为局部特征,70个通道数中的特征为全局特征。
上述综合特征还可以通过下述公式表示:
Y=Concat(αFlocal(Wlocal,X),(1-α)Fglobal(Wglobal,X))
其中,Y表示综合特征,Concat表示拼接处理;α表示权重参数;Flocal表示局部特征;Fglobal表示全局特征;X为特征提取模块输入的目标数据;Wlocal为用于提取局部特征的网络的网络权重;例如,Wlocal为上述实施例中的第一卷积层的网络权重;Wglobal为用于提取全局特征的网络的网络权重;例如,Wglobal为上述实施例中的第二卷积层、全连接层和第三卷积层的网络权重。
进一步地,上述特征提取模块还包括第四卷积层;该第四卷积层用于对包含有全局特征和局部特征的综合特征进行第四卷积处理,以对全局特征和局部特征进行特征融合,得到融合特征。该第四卷积层的卷积核大小可以设置为1*1,通过对综合特征进行卷积操作,可以使综合特征中的全局特征和局部特征相互融合。
另外,上述第四卷积层还用于:通过预设的第一通道数调整参数,调整融合特征的通道数。该第一通道数调整参数通常为网络模型的超参数,在网络模型训练之前预先设置;例如,融合特征的通道数为C,第一通道调整参数为ro,则调整后的融合特征的通道数为C/ro
为了使网络模型能够在训练过程中快速收敛,网络模型的特征提取模块还可以包括特征叠加层;该特征叠加层用于:将输入至特征提取模块的目标数据,与融合特征进行逐点相加处理,得到目标数据和融合特征的叠加特征;将叠加特征输出特征提取模块。
在进行逐点相加的过程中,如果目标数据与融合特征的尺度不同,则需要先进行插值运算,以使二者的尺度相同,便于逐点相加。例如,目标数据的尺度为W*H;W为目标数据的宽度,H为目标数据的高度;融合特征的尺度为W/2*H/2,此时,需要对融合特征进行插值运算,将融合特征的尺度扩展为W*H。当二者尺度相同时,将目标数据和融合特征的相同位置上的特征点相加,得到上述叠加特征。
另外,上述特征提取模块还包括第五卷积层;该第五卷积层分别与第一分支和第二分支连接;该第五卷积层用于通过预设的第二通道数调整参数,调整目标数据的通道数;将通道数调整后的目标数据,分别输入至第一分支和第二分支。该第五卷积层的卷积核大小可以设置为1*1,该第二通道数调整参数通常为网络模型的超参数,在网络模型训练之前预先设置;例如,输入至特征提取模块的目标数据的通道数为C,第二通道调整参数为ri,则调整后的目标数据的通道数为C/ri
在大多情况下,网络模型包括多个上述特征提取模块;如图6所示,多个特征提取模块依次串联连接,也可以称为级联连接;图6中以四个特征提取模块为例进行说明,在实际实现时,可以根据网络模型的任务需求,设置特征提取模块的数量。
为了进一步理解上述视觉任务的处理方法,本实施例还提供另一种特征提取模块;如图7所示,输入至特征提取模块的目标数据的相关参数为N,C,H,W;其中,N为目标数据的批量数据的大小;C为目标数据的通道数;H为目标数据的高度;W为目标数据的宽度。目标数据首先经第五卷积层处理,通过第二通道调整参数ri调整目标数据的通道数,得到通道数为C/ri的目标数据;然后输入至整体局部特征并行(Global Local Feature Parallel,简称GLFP)子模块;该子模块中,目标数据同时输入至第一卷积层和第二卷积层;通过第一卷积层提取目标数据的局部特征,该第一卷积层还设置有步长stride参数,简称s,用于调整局部特征的宽度和高度;局部特征的通道数为C/2ri,高度为H/s,宽度为W/s。
上述第二卷积层用于调整目标数据的通道数,从C/ri调整为C/(ri*r),r为第二卷积层设置的调整通道数的参数;在输入至全连接层之前,还需要通过reshape函数对目标数据进行重新组织,重新组织后的目标函数的通道数为CHW/(ri*r),高度为1,宽度为1。然后再将目标数据输入至全连接层;通过全连接层提取目标数据的全局特征;全连接层输出的全局特征的通道数为CHW/(ri*r),高度为1,宽度为1,然后再通过reshape函数对全局特征重新组织,重新组织后的全局特征的通道数为C/(ri*r),高度为H,宽度为W。通过第三卷积层调整全局特征的通道数,以及尺度,即全局特征的宽度和高度;该第三卷积层设置有步长stride参数,简称s,通过参数s调整后的全局特征的高度为H/s,宽度为W/s;第三卷积层还将全局特征的维度调整为C/(2ri)。为了便于后续的特征拼接处理,第三卷积层的步长stride参数与上述第一卷积层的步长stride参数相同,以使局部特征和全局特征的特征尺度相同。
全局特征和局部特征经拼接处理后,得到综合特征;然后通过第四卷积层对综合特征进行特征融合处理,得到融合特征,该第四卷积层设置有第一通道调整参数为ro,通过该第一通道调整参数为ro调整融合特征的通道数,由于综合特征的通道数为C/ri,调整后的融合特征的通道数为C/ri ro。最后,融合特征再与目标数据进行叠加处理,得到叠加特征,该叠加特征即特征提取模块输出的特征。
本实施例还提供一种上述网络模型的训练方式,包括如下步骤:
步骤1,设置网络模型中的超参数;
该参数可以包括网络模型中各个特征提取模块中的卷积核大小、步长、通道调整参数等等。
步骤2,基于预设的样本集合对网络模型进行迭代训练,得到网络模型的多个中间训练结果和最终训练结果;
通常,每训练一次,得到网络模型的一个训练结果;最后一次训练后,得到网络模型的最终训练结果,在中间训练过程中,每训练一次,得到网络模型的一个中间训练结果;在网络模型训练过程中,中间训练结果和最终训练结果均被保存。
步骤3,将最终训练结果确定为训练后的网络模型;或者,基于预设的测试样本测试网络模型的中间训练结果和最终训练结果,根据测试结果确定训练后的网络模型。
当网络模型收敛时,停止训练,这时即可得到网络模型的最终训练结果,该最终训练结果可以作为训练后的网络模型。另一种实现方式中,可以基于预设的测试样本测试网络模型的中间训练结果和最终训练结果,例如,可以测试各个中间训练结果和最终训练结果对应的网络模型所提取特征的准确度,将准确度最高的训练结果,作为训练后的网络模型。
上述方式中,网络模型中的特征提取模块,联合全局特征和局部特征并行处理,网络模型由多个特征提取模块堆叠而成,每一个特征提取模块(也称为block)中,一路通过局部感受野得到局部特征,一路通过卷积全连接操作得到一个全局特征(也称为整体特征),然后将局部特征和全局特征拼接起来。这样操作的好处是,网络模型可以不用通过层层级联而得到更大的全局信息,可以实现每一个特征提取模块都会提取到全局特征和局特征,并传输到下一个特征提取模块;网络模型的整体信息传输性能得到了极大的提高。该模型可以在不增加耗时甚至是降低耗时的情况下,提高模型的精度。
实施例五:
如图8所示,一种视觉任务的处理装置的结构示意图;该装置包括:
特征提取模块80,用于获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;
任务完成模块81,用于基于特征数据,完成预设的视觉任务;
其中,网络模型包括至少一个特征提取模块;特征提取模块包括第一分支和第二分支;第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支提取目标数据的全局特征。
上述视觉任务的处理装置,网络模型包括至少一个特征提取模块;该特征提取模块包括第一分支和第二分支;其中第一分支用于提取输入至特征提取模块的目标数据的局部特征;第二分支用于提取目标数据的全局特征;待处理图像输入至训练完成的该网络模型中,然后基于该网络输出的特征数据,完成预设的视觉任务。该方式中,网络模型的每一个特征提取模块中均包含有待处理图像的全局特征和局部特征,避免了逐层累计提取全局特征造成特征损失的问题,有利于提高完成视觉任务的精确度;同时,网络模型也无需设置较多层数的特征提取模块,模型简单、参数少,运算速度快,也有利于模型在训练过程中快速收敛。
进一步地,上述第一分支包括第一卷积层;第一卷积层用于对目标数据进行第一卷积处理,得到目标数据的局部特征。
进一步地,上述第二分支包括第二卷积层、全连接层和第三卷积层;第二卷积层用于对目标数据进行第二卷积处理,以降低目标数据的通道数;全连接层用于从降低通道数后的目标数据中提取全局特征;第三卷积层用于对全局特征进行第三卷积处理,得到预设尺度和预设通道数的全局特征。
进一步地,上述特征提取模块还用于:将全局特征和局部特征进行拼接处理,得到包含有全局特征和局部特征的综合特征。
进一步地,上述特征提取模块还用于:基于预设的权重参数,将全局特征和局部特征进行拼接处理,得到综合特征;其中,权重参数用于:确定综合特征中,全局特征和局部特征的通道数。
进一步地,上述特征提取模块还包括第四卷积层;第四卷积层用于对包含有全局特征和局部特征的综合特征进行第四卷积处理,以对全局特征和局部特征进行特征融合,得到融合特征。
进一步地,上述第四卷积层还用于:通过预设的第一通道数调整参数,调整融合特征的通道数。
进一步地,上述特征提取模块还包括特征叠加层;特征叠加层用于:将输入至特征提取模块的目标数据,与融合特征进行逐点相加处理,得到目标数据和融合特征的叠加特征;将叠加特征输出特征提取模块。
进一步地,上述特征提取模块还包括第五卷积层;第五卷积层分别与第一分支和第二分支连接;第五卷积层用于通过预设的第二通道数调整参数,调整目标数据的通道数;将通道数调整后的目标数据,分别输入至第一分支和第二分支。
进一步地,上述网络模型包括多个特征提取模块;多个特征提取模块依次串联连接。
进一步地,上述装置还包括训练模块,训练模块用于:设置网络模型中的超参数;基于预设的样本集合对网络模型进行迭代训练,得到网络模型的多个中间训练结果和最终训练结果;将最终训练结果确定为训练后的网络模型;或者,基于预设的测试样本测试网络模型的中间训练结果和最终训练结果,根据测试结果确定训练后的网络模型。
本实施例还提供一种电子系统,电子系统包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述视觉任务的处理方法。
本实施例还提供一种机器可读存储介质,机器可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述视觉任务的处理方法的步骤。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种视觉任务的处理方法,其特征在于,所述方法包括:
获取待处理图像,将所述待处理图像输入至预设的网络模型中,输出所述待处理图像对应的特征数据;
基于所述特征数据,完成预设的视觉任务;
其中,所述网络模型包括至少一个特征提取模块;所述特征提取模块包括第一分支和第二分支;所述第一分支用于提取输入至所述特征提取模块的目标数据的局部特征;所述第二分支用于提取所述目标数据的全局特征。
2.根据权利要求1所述的方法,其特征在于,所述第一分支包括第一卷积层;所述第一卷积层用于对所述目标数据进行第一卷积处理,得到所述目标数据的局部特征。
3.根据权利要求1所述的方法,其特征在于,所述第二分支包括第二卷积层、全连接层和第三卷积层;
所述第二卷积层用于对所述目标数据进行第二卷积处理,以降低所述目标数据的通道数;
所述全连接层用于从降低通道数后的所述目标数据中提取全局特征;
所述第三卷积层用于对所述全局特征进行第三卷积处理,得到预设尺度和预设通道数的全局特征。
4.根据权利要求1所述的方法,其特征在于,所述特征提取模块还用于:将所述全局特征和所述局部特征进行拼接处理,得到包含有所述全局特征和所述局部特征的综合特征。
5.根据权利要求4所述的方法,其特征在于,所述特征提取模块还用于:基于预设的权重参数,将所述全局特征和所述局部特征进行拼接处理,得到所述综合特征;其中,所述权重参数用于:确定所述综合特征中,所述全局特征和所述局部特征的通道数。
6.根据权利要求4所述的方法,其特征在于,所述特征提取模块还包括第四卷积层;
所述第四卷积层用于对包含有所述全局特征和所述局部特征的综合特征进行第四卷积处理,以对所述全局特征和所述局部特征进行特征融合,得到融合特征。
7.根据权利要求6所述的方法,其特征在于,所述第四卷积层还用于:通过预设的第一通道数调整参数,调整所述融合特征的通道数。
8.根据权利要求6或7所述的方法,其特征在于,所述特征提取模块还包括特征叠加层;所述特征叠加层用于:
将输入至所述特征提取模块的所述目标数据,与所述融合特征进行逐点相加处理,得到所述目标数据和所述融合特征的叠加特征;
将所述叠加特征输出所述特征提取模块。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述特征提取模块还包括第五卷积层;所述第五卷积层分别与所述第一分支和所述第二分支连接;
所述第五卷积层用于通过预设的第二通道数调整参数,调整所述目标数据的通道数;将通道数调整后的所述目标数据,分别输入至所述第一分支和所述第二分支。
10.根据权利要求1所述的方法,其特征在于,所述网络模型包括多个特征提取模块;多个所述特征提取模块依次串联连接。
11.根据权利要求1所述的方法,其特征在于,所述网络模型通过下述方式训练得到:
设置所述网络模型中的超参数;
基于预设的样本集合对所述网络模型进行迭代训练,得到所述网络模型的多个中间训练结果和最终训练结果;
将所述最终训练结果确定为训练后的所述网络模型;或者,基于预设的测试样本测试所述网络模型的中间训练结果和所述最终训练结果,根据测试结果确定训练后的所述网络模型。
12.一种视觉任务的处理装置,其特征在于,所述装置包括:
特征提取模块,用于获取待处理图像,将所述待处理图像输入至预设的网络模型中,输出所述待处理图像对应的特征数据;
任务完成模块,用于基于所述特征数据,完成预设的视觉任务;
其中,所述网络模型包括至少一个特征提取模块;所述特征提取模块包括第一分支和第二分支;所述第一分支用于提取输入至所述特征提取模块的目标数据的局部特征;所述第二分支提取所述目标数据的全局特征。
13.一种电子系统,其特征在于,所述电子系统包括:处理设备和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1-11任一项所述的视觉任务的处理方法。
14.一种机器可读存储介质,所述机器可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1-11任一项所述的视觉任务的处理方法的步骤。
CN202010422194.XA 2020-05-18 2020-05-18 视觉任务的处理方法、装置和电子系统 Pending CN111814534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010422194.XA CN111814534A (zh) 2020-05-18 2020-05-18 视觉任务的处理方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010422194.XA CN111814534A (zh) 2020-05-18 2020-05-18 视觉任务的处理方法、装置和电子系统

Publications (1)

Publication Number Publication Date
CN111814534A true CN111814534A (zh) 2020-10-23

Family

ID=72848343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010422194.XA Pending CN111814534A (zh) 2020-05-18 2020-05-18 视觉任务的处理方法、装置和电子系统

Country Status (1)

Country Link
CN (1) CN111814534A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205131A (zh) * 2021-04-28 2021-08-03 阿波罗智联(北京)科技有限公司 图像数据的处理方法、装置、路侧设备和云控平台
CN115017021A (zh) * 2022-05-26 2022-09-06 杭州电子科技大学 一种视觉功能块执行时间预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205131A (zh) * 2021-04-28 2021-08-03 阿波罗智联(北京)科技有限公司 图像数据的处理方法、装置、路侧设备和云控平台
CN115017021A (zh) * 2022-05-26 2022-09-06 杭州电子科技大学 一种视觉功能块执行时间预测方法及系统
CN115017021B (zh) * 2022-05-26 2024-05-14 杭州电子科技大学 一种视觉功能块执行时间预测方法及系统

Similar Documents

Publication Publication Date Title
CN109493350B (zh) 人像分割方法及装置
US11126862B2 (en) Dense crowd counting method and apparatus
US11055516B2 (en) Behavior prediction method, behavior prediction system, and non-transitory recording medium
CN108875732B (zh) 模型训练与实例分割方法、装置和系统及存储介质
CN109829506B (zh) 图像处理方法、装置、电子设备和计算机存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
CN112101190A (zh) 一种遥感图像分类方法、存储介质及计算设备
US20200090028A1 (en) Neural network-based classification method and classification device thereof
JP2023545565A (ja) 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
CN110619319A (zh) 一种基于改进的mtcnn模型人脸检测方法和系统
CN110263215B (zh) 一种视频情感定位方法及系统
CN109816659B (zh) 图像分割方法、装置及系统
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN110457524B (zh) 模型生成方法、视频分类方法及装置
CN111127309B (zh) 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111292334B (zh) 一种全景图像分割方法、装置及电子设备
CN110222718A (zh) 图像处理的方法及装置
CN111814534A (zh) 视觉任务的处理方法、装置和电子系统
CN114973049A (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN112862828A (zh) 一种语义分割方法、模型训练方法及装置
CN110503149B (zh) 一种图像中局部特征分类方法及系统
CN112598110B (zh) 神经网络构建方法、装置、设备及介质
WO2024041108A1 (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination