CN110427915B - 用于输出信息的方法和装置 - Google Patents
用于输出信息的方法和装置 Download PDFInfo
- Publication number
- CN110427915B CN110427915B CN201910749781.7A CN201910749781A CN110427915B CN 110427915 B CN110427915 B CN 110427915B CN 201910749781 A CN201910749781 A CN 201910749781A CN 110427915 B CN110427915 B CN 110427915B
- Authority
- CN
- China
- Prior art keywords
- target
- detection
- neural network
- feature map
- intermediate layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取包括至少一个检测目标的图像;将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;从至少一个中间层的特征图中选择出目标特征图;根据目标特征图的尺寸将检测框坐标信息进行缩放处理;将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。该实施方式在保证检测精度与再识别准确率的前提下,提高了检测加再识别整体技术流程的速度,能够在很大程度上缓解工程需求压力。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
跟踪、人流量统计和车流量统计等技术通常需要基于检测技术与再识别技术。目前,检测加提取再识别特征采用的技术方案大多数遵循两阶段的技术流程,即先对一张尺寸较大的完整图片进行目标检测,裁剪出其中的目标图像,然后分别对得到的每张目标图像提取再识别特征。
每张目标图像需要单独处理,通常是经过专门用于再识别技术的神经网络来提取特征。这导致从目标检测到完成为每个目标提取再识别特征的整个流程耗时很长。难以满足对处理速度要求较高的应用场景,或者需要高性能算力提供支持。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:获取包括至少一个检测目标的图像;将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;从至少一个中间层的特征图中选择出目标特征图;根据目标特征图的尺寸将检测框坐标信息进行缩放处理;将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
在一些实施例中,该方法还包括:将各检测目标在目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
在一些实施例中,该方法还包括:将大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
在一些实施例中,该方法还包括:联合训练检测神经网络和再识别神经网络级联后的神经网络。
在一些实施例中,从至少一个中间层的特征图中选择出目标特征图,包括:从至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:获取单元,被配置成获取包括至少一个检测目标的图像;检测单元,被配置成将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;选择单元,被配置成从至少一个中间层的特征图中选择出目标特征图;缩放单元,被配置成根据目标特征图的尺寸将检测框坐标信息进行缩放处理;映射单元,被配置成将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
在一些实施例中,该装置还包括池化单元,被配置成:将各检测目标在目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
在一些实施例中,该装置还包括再识别特征单元,被配置成:将大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
在一些实施例中,该装置还包括训练单元,被配置成:联合训练检测神经网络和再识别神经网络级联后的神经网络。
在一些实施例中,选择单元进一步被配置成:从至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
第三方面,本公开的实施例提供了一种用于输出信息的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开的实施例提供的用于输出信息的方法和装置,将目标检测与再识别技术整合到一个神经网络中,能大大减少整体流程的时间,同时不会对检测及再识别效果造成较大影响。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
图3是根据本公开的用于输出信息的方法的一个应用场景的示意图;
图4是根据本公开的用于输出信息的方法的又一个实施例的流程图;
图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图像识别类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有摄像头并且支持图像浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的图像提供识别功能的后台图像识别服务器。后台图像识别服务器可以对接收到的图像识别请求等数据进行分析等处理,并将处理结果(例如图像特征、图像分类等)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,获取包括至少一个检测目标的图像。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行图像识别的终端接收待检测的图像,该图像中包括至少一个检测目标。检测目标可以是人物、车辆等物体。
步骤202,将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息。
在本实施例中,检测神经网络可以为任意的用于目标检测的神经网络。检测神经网络可以单独训练也可与再识别神经网络级联作为一个神经网络联合训练。目标检测方法可以分为两个大类,其一称为单阶段(one stage)目标检测方法,包括YOLO系列方法(YOLOv2,YOLO9000,YOLOv3等),G-CNN,SSD系列方法(R-SSD,DSSD,DSOD,FSSD等);其二称为两阶段(two stage)目标检测方法,包括R-CNN,SPPNet,Fast-RCNN,Faster-RCNN,FPN等。两阶段目标检测方法相比单阶段目标检测方法可以获得更高的检测准确率。例如,Faster-RCNN的检测过程,主要分为三部分:第一部分利用VGG网络结构进行基础的特征提取;第二部分是RPN(region proposal,区域候选网络),负责计算可能存在目标的区域(proposals)的坐标以及判断是前景/背景;对于输入特征图,首先经过一个3*3卷积得到proposal layer所需要的特征图,之后利用两个1*1卷积分别计算生成anchor(锚点)的类别分数和边框回归量,边框回归量和anchor在图像的对应坐标可以计算出预测的proposal坐标。之后利用RPN网络得到的目标区域proposal坐标再经过ROI-Pooling层得到相同长度的特征向量;第三部分,最后经过两个全连接层接入softmax实现具体分类和更精确的回归坐标。
步骤203,从至少一个中间层的特征图中选择出目标特征图。
在本实施例中,检测神经网络有多个中间层,每个中间层都会输出特征图,同一检测目标在不同中间层的特征图的尺寸通常不同。因为神经网络中特征图一般越往高层尺寸越小。所以如果整图很大,而目标很小,那么映射到一个高层特征图上的话,目标基本就没了。所以这种情况就得映射到相对较低层的特征图上,因此可取中间层的特征图。可预先指定取哪一个中间层的特征图。可选地,从至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
可选地,可为不同的检测目标选择不同的中间层,使得每个目标都能找到尺寸合适的中间层特征图。
步骤204,根据目标特征图的尺寸将检测框坐标信息进行缩放处理。
在本实施例中,目标特征图与原图的尺寸不相等,对检测框坐标信息进行缩放等处理,使得处理后的坐标信息映射到神经网络的某一层特征图时依然能够对应地框住特征图上的目标。
步骤205,将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
在本实施例中,检测框的坐标信息会映射到所选取的目标特征图上,得到输入图像中各个检测目标在目标特征图中对应的区域特征。该区域特征可继续用于后续的识别,例如,分类、颜色判断等。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,检测神经网络300接收到用户终端发送的输入图像后,得到检测神经网络的输出结果301和检测神经网络的中间特征。检测神经网络的输出结果301为输入图像中所有目标的检测框的坐标信息。将检测神经网络的输出结果301输入缩放处理模块302,对这些检测框的坐标信息进行缩放等处理,使得处理后的坐标信息映射到神经网络的某一层特征图时依然能够对应地框住特征图上的目标。303为检测神经网络的某一中间层的特征图,该特征图用于后续的再识别神经网络。具体在神经网络结构设计时选用哪一层,视图像中目标的大小和整幅图的比例而定。302处理后的输出信息,即检测框的坐标会映射到303所选取的某一层神经网络特征图上,得到输入图像中各个目标在特征图中对应的区域特征。这些区域特征大小不一致。ROI池化模块304将这些区域特征重新计算处理成大小一致的特征。再识别神经网络305以304输出的大小一致的区域特征作为输入,提取目标的再识别特征。再识别神经网络可以是几层卷积神经网络或其他形式的神经网络。
本公开的上述实施例提供的方法通过选择中间层特征进行检测框映射,可以提高目标检测的准确性。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,获取包括至少一个检测目标的图像。
步骤402,将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息。
步骤403,从至少一个中间层的特征图中选择出目标特征图。
步骤404,根据目标特征图的尺寸将检测框坐标信息进行缩放处理。
步骤405,将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
步骤401-405与步骤201-205基本相同,因此不再赘述。
步骤406,将各检测目标在目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
在本实施例中,将映射后的区域划分为相同大小的分段(sections)(sections数量与输出的维度相同)。对每个sections进行最大池化操作。这样我们就可以从不同大小的方框得到固定大小的相应的特征图。值得一提的是,输出的特征图的大小不取决于ROI(regions of interest,兴趣区域)和卷积特征图大小。ROI池化最大的好处就在于极大地提高了处理速度。
步骤407,将大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
在本实施例中,再识别是在非重叠多摄像头视角域下进行行人、车辆匹配,其难点在于不同摄像头下行人、车辆外形具有显著变化,难以提取不变性特征,识别率偏低。可通过现有的常用再识别神经网络,例如基于残差神经网络的再识别神经网络,识别出行人或车辆的用于再识别的特征。再识别的特征可包括颜色特征、纹理特征和兴趣点等特征,或是基于这些特征的融合等特征。
在本实施例的一些可选的实现方式中,联合训练检测神经网络和再识别神经网络级联后的神经网络。将检测神经网络和再识别神经网络作为一个整体联合训练,不需要分别单独训练两个网络。将检测神经网络和再识别神经网络整合到一个神经网络中,给定一幅图像,只需对本公开的神经网络进行一次前向计算即可得到图中目标的检测框以及对应的再识别特征。训练过程采用现有技术的通用方法,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400体现了对检测得到的区域特征用于再识别的步骤。由此,本实施例描述的方案可以将目标检测与再识别技术整合到一个神经网络中,能大大减少整体流程的时间,同时不会对检测及再识别效果造成较大影响。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:获取单元501、检测单元502、选择单元503、缩放单元504和映射单元505。其中,获取单元501,被配置成获取包括至少一个检测目标的图像;检测单元502,被配置成将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;选择单元503,被配置成从至少一个中间层的特征图中选择出目标特征图;缩放单元504,被配置成根据目标特征图的尺寸将检测框坐标信息进行缩放处理;映射单元505,被配置成将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
在本实施例中,用于输出信息的装置500的获取单元501、检测单元502、选择单元503、缩放单元504和映射单元505的具体处理可以参考图2对应实施例中的步骤201-205。
在本实施例的一些可选的实现方式中,装置500还包括池化单元(附图中未示出),被配置成:将各检测目标在目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
在本实施例的一些可选的实现方式中,装置500还包括再识别特征单元(附图中未示出),被配置成:将大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
在本实施例的一些可选的实现方式中,装置500还包括训练单元(附图中未示出),被配置成:联合训练检测神经网络和再识别神经网络级联后的神经网络。
在本实施例的一些可选的实现方式中,选择单元503进一步被配置成:从至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取包括至少一个检测目标的图像;将图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;从至少一个中间层的特征图中选择出目标特征图;根据目标特征图的尺寸将检测框坐标信息进行缩放处理;将经缩放处理后的检测框的坐标信息映射到目标特征图,得到各检测目标在目标特征图中对应的区域特征并输出。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、检测单元、选择单元、缩放单元和映射单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取包括至少一个检测目标的图像的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种用于输出信息的方法,包括:
获取包括至少一个检测目标的图像;
将所述图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;
根据图像中目标的大小和占整幅图的比例从所述至少一个中间层的特征图中选择出目标特征图,其中,不同的检测目标选择不同的中间层,使得每个目标都能找到尺寸合适的中间层特征图;
根据所述目标特征图的尺寸将所述检测框坐标信息进行缩放处理,使得处理后的坐标信息映射到神经网络的中间层的特征图时依然能够对应地框住特征图上的目标;
将经缩放处理后的检测框的坐标信息映射到所述目标特征图,得到各检测目标在所述目标特征图中对应的区域特征并输出。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将各检测目标在所述目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
3.根据权利要求2所述的方法,其中,所述方法还包括:
将所述大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
4.根据权利要求3所述的方法,其中,所述方法还包括:
联合训练所述检测神经网络和所述再识别神经网络级联后的神经网络。
5.根据权利要求1-4之一所述的方法,其中,所述从所述至少一个中间层的特征图中选择出目标特征图,包括:
从所述至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
6.一种用于输出信息的装置,包括:
获取单元,被配置成获取包括至少一个检测目标的图像;
检测单元,被配置成将所述图像输入预先训练的检测神经网络,得到至少一个中间层的特征图和检测框的坐标信息;
选择单元,被配置成根据图像中目标的大小和占整幅图的比例从所述至少一个中间层的特征图中选择出目标特征图,其中,不同的检测目标选择不同的中间层,使得每个目标都能找到尺寸合适的中间层特征图;
缩放单元,被配置成根据所述目标特征图的尺寸将所述检测框坐标信息进行缩放处理,使得处理后的坐标信息映射到神经网络的中间层的特征图时依然能够对应地框住特征图上的目标;
映射单元,被配置成将经缩放处理后的检测框的坐标信息映射到所述目标特征图,得到各检测目标在所述目标特征图中对应的区域特征并输出。
7.根据权利要求6所述的装置,其中,所述装置还包括池化单元,被配置成:
将各检测目标在所述目标特征图中对应的区域特征通过ROI池化转换为大小一致的区域特征。
8.根据权利要求7所述的装置,其中,所述装置还包括再识别特征单元,被配置成:
将所述大小一致的区域特征输入预先训练的再识别神经网络,输出再识别特征。
9.根据权利要求8所述的装置,其中,所述装置还包括训练单元,被配置成:
联合训练所述检测神经网络和所述再识别神经网络级联后的神经网络。
10.根据权利要求6-9之一所述的装置,其中,所述选择单元进一步被配置成:
从所述至少一个中间层的特征图中选择检测目标的尺寸大于预定值的特征图作为目标特征图。
11.一种用于输出信息的电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749781.7A CN110427915B (zh) | 2019-08-14 | 2019-08-14 | 用于输出信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749781.7A CN110427915B (zh) | 2019-08-14 | 2019-08-14 | 用于输出信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427915A CN110427915A (zh) | 2019-11-08 |
CN110427915B true CN110427915B (zh) | 2022-09-27 |
Family
ID=68416259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910749781.7A Active CN110427915B (zh) | 2019-08-14 | 2019-08-14 | 用于输出信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427915B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062249A (zh) * | 2019-11-11 | 2020-04-24 | 北京百度网讯科技有限公司 | 车辆信息获取方法、装置、电子设备及存储介质 |
CN110844785B (zh) * | 2019-11-28 | 2020-12-29 | 重庆中星微人工智能芯片技术有限公司 | 用于生成塔机吊臂信息的方法、装置、设备和介质 |
CN111539422B (zh) * | 2020-04-13 | 2022-09-06 | 南京理工大学 | 基于Faster RCNN的飞行目标协同识别方法 |
CN112419310B (zh) * | 2020-12-08 | 2023-07-07 | 中国电子科技集团公司第二十研究所 | 一种基于交并融合边框优选的目标检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018054329A1 (zh) * | 2016-09-23 | 2018-03-29 | 北京市商汤科技开发有限公司 | 物体检测方法和装置、电子设备、计算机程序和存储介质 |
CN109711437A (zh) * | 2018-12-06 | 2019-05-03 | 武汉三江中电科技有限责任公司 | 一种基于yolo网络模型的变压器部件识别方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022238B (zh) * | 2017-08-09 | 2020-07-03 | 深圳科亚医疗科技有限公司 | 对3d图像中对象进行检测的方法、计算机存储介质和系统 |
CN108229343B (zh) * | 2017-12-18 | 2020-10-30 | 北京市商汤科技开发有限公司 | 目标对象关键点检测方法、深度学习神经网络及装置 |
CN110084257A (zh) * | 2018-01-26 | 2019-08-02 | 北京京东尚科信息技术有限公司 | 用于检测目标的方法和装置 |
CN110110666A (zh) * | 2019-05-08 | 2019-08-09 | 北京字节跳动网络技术有限公司 | 目标检测方法和装置 |
-
2019
- 2019-08-14 CN CN201910749781.7A patent/CN110427915B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018054329A1 (zh) * | 2016-09-23 | 2018-03-29 | 北京市商汤科技开发有限公司 | 物体检测方法和装置、电子设备、计算机程序和存储介质 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN109711437A (zh) * | 2018-12-06 | 2019-05-03 | 武汉三江中电科技有限责任公司 | 一种基于yolo网络模型的变压器部件识别方法 |
Non-Patent Citations (2)
Title |
---|
YOLOv3: An Incremental Improvement;Joseph Redmon,et al.;《https://arxiv.org/abs/1804.02767》;20180408;全文 * |
基于深度卷积神经网络的遥感影像目标检测;孙梓超等;《上海航天》;20181025(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110427915A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11367313B2 (en) | Method and apparatus for recognizing body movement | |
CN110427915B (zh) | 用于输出信息的方法和装置 | |
US20200111203A1 (en) | Method and apparatus for generating vehicle damage information | |
US11436863B2 (en) | Method and apparatus for outputting data | |
CN111369427B (zh) | 图像处理方法、装置、可读介质和电子设备 | |
CN110188719B (zh) | 目标跟踪方法和装置 | |
EP3637310A1 (en) | Method and apparatus for generating vehicle damage information | |
CN109829432B (zh) | 用于生成信息的方法和装置 | |
CN112364860B (zh) | 字符识别模型的训练方法、装置和电子设备 | |
CN109118456B (zh) | 图像处理方法和装置 | |
CN107392189B (zh) | 用于确定无人车的驾驶行为的方法和装置 | |
CN110059623B (zh) | 用于生成信息的方法和装置 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN113569740B (zh) | 视频识别模型训练方法与装置、视频识别方法与装置 | |
CN109934142B (zh) | 用于生成视频的特征向量的方法和装置 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN111314626A (zh) | 用于处理视频的方法和装置 | |
CN113111684B (zh) | 神经网络模型的训练方法、装置和图像处理系统 | |
CN113033377A (zh) | 字符位置修正方法、装置、电子设备和存储介质 | |
CN109919220B (zh) | 用于生成视频的特征向量的方法和装置 | |
CN111783777A (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN111126159A (zh) | 用于实时跟踪行人的方法、装置、电子设备和介质 | |
CN114511744A (zh) | 图像分类方法、装置、可读介质和电子设备 | |
CN113033552B (zh) | 文本识别方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |