CN110096933B - 目标检测的方法、装置及系统 - Google Patents

目标检测的方法、装置及系统 Download PDF

Info

Publication number
CN110096933B
CN110096933B CN201810094901.XA CN201810094901A CN110096933B CN 110096933 B CN110096933 B CN 110096933B CN 201810094901 A CN201810094901 A CN 201810094901A CN 110096933 B CN110096933 B CN 110096933B
Authority
CN
China
Prior art keywords
component
image
detected
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810094901.XA
Other languages
English (en)
Other versions
CN110096933A (zh
Inventor
杨怡
蒋宇豪
陈茂林
杨双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810094901.XA priority Critical patent/CN110096933B/zh
Priority to EP19746653.5A priority patent/EP3683719A4/en
Priority to PCT/CN2019/072015 priority patent/WO2019149071A1/zh
Publication of CN110096933A publication Critical patent/CN110096933A/zh
Priority to US16/854,815 priority patent/US11367272B2/en
Application granted granted Critical
Publication of CN110096933B publication Critical patent/CN110096933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种目标检测的方法及装置,该方法包括:获取待检测图像中的目标候选区域;通过图像分割网络从目标候选区域中确定出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从待检测图像中提取对应于各部件候选区域的局部图像特征;通过双向长短时记忆网络LSTM对各部件候选区域的各局部图像特征进行学习,以获得用于描述部件候选区域之间的相互关系的部件关系特征;根据部件关系特征实现对待检测图像中的待检测目标的检测。采用本申请可提高目标检测的图像数据处理精度,增强目标检测的应用场景的多样性,提高目标检测的准确率。

Description

目标检测的方法、装置及系统
技术领域
本申请实施例涉及大数据领域,尤其涉及一种目标检测的方法及装置。
背景技术
在建立平安城市的时代大背景下,以图搜图成为用以辅助公共安全组织(例如人民公安)来快速定位目标(例如犯罪嫌疑人)的犯罪地点以及行动轨迹的重要技术手段之一。以图搜图是使用一张包含有某一目标的查询图像从海量的监控视频数据中查找得到包含该目标的图像数据,并根据包含该目标的图像数据确定出该目标在监控视频中出现的时间和地点等信息,以确定出该目标的行动轨迹。以图搜图包括建立目标数据库和目标查询的两个过程。在目标数据库的建立过程中,需要首先对海量视频进行目标检测和跟踪,从海量视频数据中提取出各个目标的图像数据用以创建以图搜图的目标数据库。在目标查询的过程中,通过将输入的包含有某一目标的查询图像与目标数据库中包括的图像数据进行比对,进而定位出该目标在海量视频中出现的时间和地点等信息。
现有技术的目标检测方式通过从图像中提取出目标候选区域,再将目标候选区域划分为固定大小的矩形图像块,然后将不同数目和位置的矩形图像块进行组合以得到目标可能的部件区域。例如,假设目标为行人,则通过矩形图像块划分重组得到的目标可能的部件区域包括头肩、左半身、右半身、以及腿部等。在现有技术中,目标候选区域的划分是按照矩形图像块划分,划分精度低并且划分得到的各个矩形图像块中包含的干扰信息较多,反应目标的姿态变化或者遮挡情况的准确率低,适用性差。
发明内容
本申请实施例提供了一种目标检测的方法及装置,可提高目标检测的图像数据处理精度,增强目标检测的应用场景的多样性,提高目标检测的准确率,适用性更强。
第一方面,本申请实施例提供了一种目标检测的方法,该方法包括:获取待检测图像中的目标候选区域,以及对应于目标候选区域的全局图像特征。这里目标候选区域为可能包含目标的多个区域(这里的目标在实际检测时可以理解为待检测目标),其中,包括真实包含目标的区域,也包括可能包含目标但是实际不包含目标的区域。这里全局图像特征为对应于目标候选区域的图像特征,全局图像特征是以目标为整体而提取的图像特征,该图像特征也可称为整体图像特征。通过图像分割网络从目标候选区域中确定出至少两个部件分别对应的部件候选区域,并从待检测图像中提取对应于各部件候选区域的局部图像特征。这里局部图像特征为针对目标的部件这类局部细节而提取的图像特征,一个部件候选区域对应一组局部图像特征。通过双向长短时记忆网络LSTM对各部件候选区域对应的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征,根据该部件关系特征实现对待检测图像中的待检测目标的检测。
在一些实现方式中,上述各部件候选区域之间的相互关系包括各部件候选区域相对于检测目标的关系,以及各部件候选区域相互之间的依赖关系中的至少一种。其中,各部件候选区域相对于检测目标的关系包括:当各部件候选区域属于同一检测目标时,各部件候选区域相对于该同一检测目标的关系,和/或,当各部件候选区域分属于不同检测目标时,各部件候选区域相对于其所属检测目标的关系。
在本申请实施例中,通过图像分割网络可对每个像素对应于各部件的预测结果进行划分以得到对应于各部件的部件候选区域。预测结果属于相同部件的像素可被划分到对应于该部件的部件候选区域中。通过图像分割网络可对目标部件进行识别和划分可从像素级的图像特征进行识别,部件划分具有更高的划分精确,增加了目标检测方法所适用的目标姿态变化等场景的多变性,适用性更强。在本申请实施例中,通过图像分割网络获取更高划分精度的局部图像特征之后,采用双向LSTM对各部件候选区域之间的相互关系进行学习,不仅能学习到各部件候选区域之间明显的位置关系,还可以分析出一些各部件候选区域之间隐含的部件联系,包括各部件属于同一个检测行人,或者各部件属于不同的检测行人等,可增强待检测图像中待检测目标的姿态变化或者遮挡等情况下的部件可识别性,进而可提高目标检测的准确率。在本申请实施例中,根据对应于各部件候选区域的局部特征图像学习得到的部件关系特征可用于待检测图像中是否包含目标的判断,操作简单,目标识别效率高。
在一些实现方式中,上述根据部件关系特征实现对待检测图像中的待检测目标的检测时,可根据部件关系特征,结合上述全局图像特征确定出待检测图像中的待检测目标。在本申请实施例中,部件关系特征还可结合上述全局图像特征进行融合实现待检测图像中的待检测目标的检测,可避免由于部件分割失误带来的干扰,提高目标检测的准确率。
在一些实现方式中,可将上述部件关系特征和全局图像特征进行融合,根据融合后的特征学习得到待检测图像中待检测目标的类别与位置的第一置信度。根据上述全局图像特征确定目标候选区域中包含待检测目标的第二置信度,并根据第一置信度和第二置信度的融合确定出待检测图像中包含待检测目标,进而可根据包含待检测目标的目标候选区域在待检测图像中位置确定待检测目标在所述待检测图像中的位置。在本申请实施例中,第一置信度是从目标的部件层面上判断待检测图像中是否包含目标以及目标位置的预测结果。第二置信度是从目标整体层面上判断待检测图像中是否包含目标以及目标位置的预测结果。当第二置信度大于或者等于预设阈值时,则可确定目标候选区域为包含目标的区域,否则可确定目标候选区域为不包含目标的背景区域。在本申请实施例中,融合第一置信度和第二置信度可在第一置信度对应的预测结果上结合第二置信度对应的预测结果得到更加准确的预测结果,提高目标检测的预测精度。本申请实施例可将待检测图像中目标候选区域的全局图像特征,与各部件候选区域的部件关系特征进行融合,将全局图像特征和局部图像特征进行融合可得到更加丰富的特征表达,进而可获得更加准确的检测结果,提高了目标检测的准确率,适用性更高。
在一些实现方式中,通过双向LSTM对各部件候选区域的局部图像特征进行学习时,可将各部件候选区域的局部图像特征按照预设部件顺序进行排序以得到排序后的特征序列,将所述特征序列输入双向LSTM。通过双向LSTM以目标与背景的二分类问题为学习任务来学习各部件候选区域之间的相互关系。这里目标与背景的二分类问题可以理解为区分某一部件候选区域是包含目标的区域,还是不包含目标(即背景)的区域总计为目标和背景两个类别的分类问题,为方便描述可简称为目标与背景的二分类问题。上述预设部件顺序可以为预先设定好的部件排列顺序,例如头部,左臂,右臂,左手,右手,上半身,左腿,右腿,左脚,右脚等,具体可根据实际应用场景需求确定,在此不做限制。在本申请实施例中,在利用双向LSTM进行部件候选区域与部件候选区域之间的相互关系学习时,通过给双向LSTM网络设定一个学习目标,即,以区分某一个部件候选区域为目标或者背景的二分类问题为学习目标学习得到用以表示各个部件候选区域之间的相互关系,进而可通过双向LSTM学习得到的用于描述部件候选区域之间的相互关系的部件关系特征实现待检测目标的检测,操作简单,可提高目标检测的检测效率。
第二方面,本申请实施例提供了一种目标检测的方法,该方法包括:获取待检测图像中的目标候选区域,以及对应于目标候选区域的全局图像特征。获取用于部件识别的正样本图像特征和负样本图像特征,根据上述正样本图像特征和负样本图像特征构建部件识别网络模型。可以理解,这里部件识别网络模型是具有获取目标部件的局部图像特征的能力的一种网络模型,部件识别网络模型的具体存在形式,在此不做限制。通过该部件识别网络模型从目标候选区域中识别出至少两个部件分别对应的部件候选区域,并从待检测图像中提取对应于各部件候选区域的局部图像特征。通过双向长短时记忆网络LSTM对各部件候选区域的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征,根据上述部件关系特征实现对待检测图像中的待检测目标的检测。
在本申请实施例中,通过用于部件识别的正样本图像特征和负样本图像特征可构建具备部件识别能力的部件识别网络模型,进而可通过部件识别网络模型从待检测图像中提取出各部件对应的局部图像特征,增强了目标部件的识别方式的多样性,同时也增加了部件候选区域和局部图像特征的获取方式的多样性,提高目标检测的实现方式多样性,适用性更强。
在一些实现方式中,获取用于部件识别的正样本图像特征和负样本图像特征时,可首先获取以目标为检测对象的候选框模板,将该候选框模板划分为N个方格,并从N个方格中确定出目标的各部件所在区域覆盖的方格,其中,N为大于1的整数,进而可利用候选框模板从用于目标部件识别的样本图像中获取目标检测的正样本图像和负样本图像。可以理解,候选框模板可以是预定构建好的、用于部件识别功能训练的模板,该模板适用于目标检测的部件识别网络模型的部件识别功能训练。进一步的,可获取用于部件识别的样本图像,从样本图像确定出以目标为检测对象的多个候选区域,进而将多个候选区域中标注了目标的候选区域确定为目标的正样本区域,与正样本区域的交并比小于预设比例的候选区域确定为目标的负样本区域。这里,两个区域的交并比可以理解为两个区域的交集面积与两个区域的并集面积的比值。将上述正样本区域划分为N个方格,并根据候选框模板从正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格,将负样本区域划分为N个方格,并将负样本区域的N个方格中对应于各部件的方格确定为各部件的负样本方格。进而将各部件的正样本方格区域的图像特征确定为各部件的正样本图像特征,将各部件的负样本方格区域的图像特征确定为各部件的负样本图像特征。
在本申请实施例中,可通过海量的样本图像来确定对应于目标的各部件的正样本图像特征和负样本图像特征,通过各部件的大量正样本图像特征和负样本图像特征可训练得到部件识别精度更高的部件识别网络模型,进而通过部件识别网络模型从待检测图像中提取各部件的局部图像特征时可提高对应于各部件的图像特征的提取精度,提高目标的部件分割的准确率,同时也增加了对应于各部件的局部图像特征的提取方式。
在一些实现方式中,根据候选框模板从正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格时,可根据候选框模板中各部件所在区域覆盖的方格,从正样本区域的N个方格中确定出各部件所覆盖的部件方格。其中,当任一部件i所覆盖的部件方格中包括一部件方格j,并且部件方格j中部件i所覆盖的区域与部件方格j的区域重叠度大于或者等于预设阈值时,将部件方格j确定为部件i的正样本方格,以此类推可确定出各部件的正样本方格。其中,i和j均为自然数。当任一部件i所覆盖的部件方格中包括一部件方格j,并且部件方格j中部件i所覆盖的区域与部件方格j的区域重叠度小于预设阈值时,将部件方格j确定为部件i的负样本方格,以此类推可确定出各部件的负样本方格。这里,部件i所覆盖的区域与部件方格j的区域重叠度可为部件方格j中包括的部件i的可见区域的面积与该部件方格j的面积的比值。部件i的可见区域是指在待检测图像的正样本区域中部件i所覆盖的区域,部件i所覆盖的区域可由N个方格中的一种或者多个,即任一部件在正样本区域中所覆盖的方格可包括一个或者多个
在本申请实施例中,通过候选框模板可从待检测图像的正样本图像中筛选出各部件所覆盖的方格,进而可将该方格对应的图像特征作为用于部件识别网络模型训练的正样本图像特征,正样本图像特征的筛选精度更高,可减少用于部件识别网络模型训练的样本数据中的干扰数据,进而可提高训练得到的部件识别网络模型的部件识别准确率,提高待检测图像中目标检测的准确率。
在一些实现方式中,由样本图像中的正样本图像特征和负样本图像特征构建部件识别网络模型时,可将样本图像中各部件的正样本图像特征和各部件的负样本图像特征作为部件识别模型的输入,通过部件识别模型以目标部件与背景的二分类问题为学习任务来学习获取部件的局部图像特征的能力,操作简单,适用性高。
在一些实现方式中,根据部件关系特征实现对待检测图像中的待检测目标的检测时,可将部件关系特征和全局图像特征进行融合,根据融合后的特征学习得到待检测图像中待检测目标的类别与位置的第一置信度。根据全局图像特征确定目标候选区域中包含待检测目标的第二置信度,并根据第一置信度和所述第二置信度的融合确定出待检测图像中包含待检测目标,进而可根据包含待检测目标的目标候选区域在待检测图像中位置确定待检测目标在待检测图像中的位置。这里,确定待检测目标在待检测图像中的位置时,可将真实包含待检测目标的目标候选区域在待检测图像中的位置确定为待检测目标的位置,操作简便,可行性高。
在一些实现方式中,通过双向LSTM对各部件候选区域的局部图像特征进行学习时,可将各部件候选区域的局部图像特征按照预设部件顺序进行排序以得到排序后的特征序列,将该特征序列输入双向LSTM,进而可通过双向LSTM以目标与背景的二分类问题为学习任务来学习各部件候选区域之间的相互关系。在本申请实施例中,上述各部件候选区域之间的相互关系包括各部件候选区域相对于检测目标的关系,以及各部件候选区域相互之间的依赖关系中的至少一种。其中,各部件候选区域相对于检测目标的关系包括:当各部件候选区域属于同一检测目标时,各部件候选区域相对于该同一检测目标的关系,和/或,当各部件候选区域分属于不同检测目标时,各部件候选区域相对于其所属检测目标的关系。
第三方面,本申请实施例提供了一种目标检测的装置,该装置包括用于执行上述第一方面和/或第一方面的任意一种可能的实现方式所提供的目标检测的方法的单元和/或模块,因此也能实现第一方面提供的目标检测的方法所具备的有益效果(或者优点)。
第四方面,本申请实施例提供了一种目标检测的装置,该装置包括用于执行上述第二方面和/或第二方面的任意一种可能的实现方式所提供的目标检测的方法的单元和/或模块,因此也能实现第二方面提供的目标检测的方法所具备的有益效果(或者优点)。
第五方面,本申请实施例提供了一种终端设备,该终端设备包括存储器和处理器;其中,该存储器用于存储一组程序代码,上述处理器用于调用存储器中存储的程序代码执行上述第一方面和/或第一方面中任意一种可能的实现方式所提供的目标检测的方法,因此也能实现第一方面提供的目标检测的方法所具备的有益效果。
第六方面,本申请实施例提供了一种计算机设备,该计算机设备可以为终端设备或其他类型的计算机设备。该计算机设备包括存储器和处理器,还可以包括输入/输出设备和通信接口等。其中,该存储器用于存储一组程序代码,上述处理器用于调用存储器中存储的程序代码执行上述第二方面和/或第二方面中任意一种可能的实现方式所提供的目标检测的方法,因此也能实现第二方面提供的目标检测的方法所具备的有益效果。
第七方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机执行上述第一方面和/或第一方面中任意一种可能的实现方式所提供的目标检测的方法,也能实现第一方面提供的目标检测的方法所具备的有益效果。
第八方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机执行上述第二方面和/或第二方面中任意一种可能的实现方式所提供的目标检测的方法,也能实现第二方面提供的目标检测的方法所具备的有益效果。
第九方面,本申请实施例提供了一种目标检测装置,该目标检测装置可以是一块芯片或多块协同工作的芯片,该目标检测装置中包括与目标检测装置耦合的输入设备,用于执行本申请实施例第一方面提供的技术方案。
第十方面,本申请实施例提供了一种目标检测装置,该目标检测装置可以是一块芯片或多块协同工作的芯片,该目标检测装置中包括与目标检测装置耦合的输入设备,用于执行本申请实施例第二方面提供的技术方案。
第十一方面,本申请实施例提供了一种目标检测系统,该目标检测系统包括处理器,用于支持目标检测的装置实现上述第一方面中所涉及的功能,例如,生成或者处理上述第一方面提供的目标检测的方法中所涉及的信息。在一种可能的设计中,上述目标检测系统还包括存储器,该存储器用于保存目标检测的装置必需的程序指令和数据。该目标检测系统可以由芯片构成,也可以包含芯片和其他分立器件。
第十二方面,本申请实施例提供了一种目标检测系统,该目标检测系统包括处理器,用于支持目标检测的装置实现上述第二方面中所涉及的功能,例如,生成或者处理上述第二方面提供的目标检测的方法中所涉及的信息。在一种可能的设计中,上述目标检测系统还包括存储器,该存储器用于保存目标检测的装置必需的程序指令和数据。该目标检测系统可以由芯片构成,也可以包含芯片和其他分立器件。
第十三方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面提供的目标检测的方法,也能实现第一方面提供的目标检测的方法所具备的有益效果。
第十四方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第二方面提供的目标检测的方法,也能实现第二方面提供的目标检测的方法所具备的有益效果。
通过实施本申请实施例,可提高目标检测的图像数据处理精度,增强目标检测的应用场景的多样性,提高目标检测的准确率,适用性更强。
附图说明
图1是本申请实施例提供的目标检测的方法所适用的系统架构示意图;
图2是本申请实施例提供的目标检测装置的结构示意图;
图3是本申请实施例提供的目标检测的方法的一流程示意图;
图4是本申请实施例提供的行人候选区域的一示意图;
图5是本申请实施例提供的行人候选区域的另一示意图;
图6A是本申请实施例提供的行人部件的一示意图;
图6B是本申请实施例提供的行人部件的一示意图;
图7是本申请实施例提供的行人检测方法的待检测图像处理流程示意图;
图8是本申请实施例提供的目标检测的方法的另一流程示意图;
图9是本申请实施例提供的行人候选区域的另一示意图;
图10是本申请实施例提供的行人候选区域的另一示意图;
图11是本申请实施例提供的行人候选区域的另一示意图;
图12是本申请实施例提供的目标检测装置的另一结构示意图;
图13是本申请实施例提供的目标检测装置的另一结构示意图。
具体实施方式
本申请实施例提供的目标检测的方法及装置适用的检测目标包括但不限于:行人、动物、车辆、以及人体携带物等,在此不做限制。其中,上述行人和动物等目标的检测还包括行人或者动物的不同姿态的检测,或者行人或者动物的部分躯体被遮挡情况下的检测等,在此不做限制。其中,上述人体携带物可包括平安城市中所关注的随身携带管制刀具等,在此不做限制。为方便描述,本申请实施例后续描述中待检测目标(或称目标)将以行人为例进行说明。
当前在行人检测领域中,基于深度神经网络模型的深度学习行人检测方法是行人检测的主要方法之一。在基于深度神经网络模型的深度学习行人检测方法中,首先构建特征提取网络模型,以通过特征提取网络模型对检测图像中的行人区域及背景区域提取特征,然后将行人检测问题转化为判断某个区域是否包含行人(包含行人的区域则归类为行人区域,否则归类为背景区域)的分类问题(为方便描述,下面可简称为区分是行人或者不是行人(即背景)总计两个类别的二分类问题,或者简称行人与背景的二分类问题)以及确定包含行人的某一区域在检测图像中的具体位置(用以表示检测图像中行人的具体位置)的回归问题来设计优化函数。进而,可结合大规模的行人检测的样本图像数据来训练特征提取网络模型,得到特征网络提取模型中的特征提取部分的参数、分类部分的参数及回归(即定位)部分的参数。当输入一幅待检测图像至特征提取网络模型时,首先采用特征网络提取模型中的特征提取部分提取图像特征并基于此特征提取行人候选区域,接着对每个行人候选区域采用特征提取网络模型的分类部分判断其是否包含行人,同时采用特征提取网络模型的回归部分确定包含行人的各个行人候选区域在待检测图像中的具体位置以确定待检图像中行人的具体位置,从而完成待检测图像中的行人目标检测。
本申请实施例提供了一种融合行人整体图像特征和行人部件的局部图像特征的行人检测方法及装置(即目标检测方法及装置,下面以目标为行人的目标检测方法及装置为例进行说明)。本申请实施例提供的行人检测方法及装置采用深度学习框架进行行人检测,并在采用深度学习框架的基础上,采用图像分割网络获取行人部件的局部图像特征,使得行人部件的划分更精确并且行人部件数目可根据实际情况灵活调整,行人部件的局部特征图像的提取精度更高,操作更灵活。同时,本申请实施例提供的行人检测方法采用双向长短时记忆(long short-term memory,LSTM)网络对行人部件之间的相互关系进行学习以得到用以描述行人部件之间相互关系的特征(为方便描述,下面可以部件关系特征进行说明)。最后,利用多任务学习挖掘行人整体图像特征与行人部件的局部图像特征之间的相关性以实现高效的特征共享,从而可达到在复杂行人检测场景下提高行人检测率的目的,特别是在行人部件被遮挡较为严重的行人检测场景中,准确识别出行人及其具体位置。可选的,在本申请实施例中,行人部件可包括:头部、躯干、左臂、左手、右臂、右手、左腿、左脚、右腿以及右脚等,在此不做限制。
参见图1,图1是本申请实施例提供的目标检测的方法所适用的系统架构示意图。本申请实施例提供的目标检测的方法可适用于目标检测系统10中,比如,以图搜图系统等。在上述目标检测系统10中,包括但不限于处理器11、存储器12、通信接口13、输入设备14和显示器15等处理模块。上述处理器11、存储器12、通信接口13、输入设备14和显示器15等模块可通过通信总线连接,在此不做限制。上述通信接口13用于与网元通信,以建立目标检测系统10与网元的通信连接。其中,上述输入设备14用于监控视频等待处理数据的输入。上述存储器12可用于存储操作系统、应用程序以及行人检测算法等数据。上述处理器11用于执行行人检测算法以实现对待处理数据的行人检测。上述显示器15可用于显示行人检测结果。上述存储器12还用于保存待处理数据的行人检测结果。
上述存储器12还用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器12包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM)。图1中仅示出了一个存储器,当然,存储器也可以根据需要,设置为多个。
存储器12也可以是处理器11中的存储器,在此不做限制。
处理器11可以是一个或多个中央处理器(central processing unit,CPU)。在处理器11是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。上述的处理器11可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例提供的目标检测方法。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,上述输入设备14可包括监控摄像头,或者无线终端的摄像头等,在此不做限制。其中,上述无线终端可以是具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备,经无线接入网与一个或多个核心网进行通信的移动终端。例如,无线终端可以为移动电话、计算机、平板电脑、个人数码助理(personal digital assistant,PDA)、移动互联网设备(mobile Internet device,MID)、可穿戴设备和电子书阅读器(e-bookreader)等。又如,无线终端也可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动设备。
输入设备14用于输入待检测的数据,例如监控视频、图像等待处理数据(为方便描述,本申请实施例将以待检测图像为例进行说明);监控视频输入到目标检测系统10之后,处理器11可用于执行本申请实施例提出的行人检测方法以实现对监控视频中的行人的检测。处理器11完成对监控视频中的行人的检测之后,则可将检测结果显示于显示器上,以供用户查阅。此外,在对监控视频进行行人检测之后,还可结合后续的行人跟踪、行人图像特征提取等算法构建的数据库的数据保存于存储器中以供后续查询使用。下面将结合图1,对上述处理器所执行的行人检测方法的实现方式进行说明。本申请实施例提供的行人检测方法仅是本申请实施例中以行人为目标的目标检测方法的一示例,具体的,本申请实施例提供的目标检测的方法也可用于动物或者车辆等目标的检测,在此不做限制。为方便描述,下面将以行人检测的方法为例进行说明,即目标检测的方法中所要检测的目标将以行人为例进行说明。
在一些实现方式中,本申请实施例提供的行人检测的方法可由目标检测装置执行,例如上述目标检测系统10中的处理器11,在此不做限制。
参见图2,图2是本申请实施例提供的目标检测装置的结构示意图。在本申请实施例中,目标检测装置中包括但不限于特征提取单元111、目标候选区域提取单元112、图像分割单元113、部件相互关系学习单元114以及目标预测单元115等。
其中,上述特征提取单元111,用于获取待检测图像中以行人为检测目标的图像特征。
上述目标候选区域提取单元112,用于基于上述特征提取单元111针对行人的检测目标提取的图像特征,从待检测图像中提取出所有可能的行人候选区域。在本申请实施例中,行人候选区域具体可为行人候选矩形框区域,在此不做限制。
上述特征提取单元111,还用于从待检测图像中提取的图像特征中包括对应于行人候选区域的整体图像特征,其中,对应于行人候选区域的整体图像特征可为在该行人候选区域内以行人为整体提取的图像特征,在此不做限制。
上述图像分割单元113,用于通过图像分割网络从上述目标候选区域提取单元112提取的各个行人候选区域中提取针对行人部件分割的对应于各部件的局部图像特征。
上述图像分割单元113,还用于基于上述提取的对应于各部件的局部图像特征,对上述目标候选区域提取单元112提取的行人候选区域进行部件分割,以得到行人的部件候选区域。其中,上述行人候选区域划分得到的部件候选区域可为一个或者多个,本申请实施例将以多个为例进行说明。
上述部件相互关系学习单元114,用于采用双向LSTM学习上述图像分割单元113分割得到的各个部件候选区域之间的相互关系以得到用于描述部件候选区域之间的相互关系的部件关系特征。本申请实施例采用双向LSTM对各部件候选区域之间的相互关系进行学习,不仅能学习到各部件候选区域之间明显的位置关系,还可以分析出一些各部件候选区域之间隐含的部件联系。比如,一个行人候选区域内有手臂、头部、躯干等行人,但头部是属于一个行人,手臂和躯干属于另外一个行人,也就是说不同行人之间存在遮挡的状态下,双向LSTM模型可以在一定程度上判断到该行人候选区域中包含的行人是否为一个行人,或者多个行人。
可选的,本申请实施例采用双向LSTM对各部件候选区域之间的相互关系进行学习,不仅可以学习到各部件候选区域相对于检测目标的关系,还可以学习到各部件候选区域相互之间的依赖关系等。其中,上述各部件候选区域相对于检测目标的关系,可包括各部件候选区域属于同一个检测行人,或者各部件候选区域分属于不同的检测行人等。本申请实施例通过双向LSTM学习各部件候选区域之间的相互关系时,可学习到各部件候选区域属于同一个检测行人时,各部件候选区域相对于该检测行人的关系。可选的,本申请实施例通过双向LSTM学习各部件候选区域之间的相互关系时,还可在学习到各部件候选区域分属于不同的检测行人时,各部件候选区域相对于其所属检测行人的关系。例如,多个部件候选区域分别属于某一检测行人的头部候选区域、躯干候选区域以及腿部候选区域等。或者,多个部件候选区域分属于不同的检测行人,其中包括检测行人1的头部候选区域,检测行人2的躯干候选区域以及检测行人1的腿部候选区域等。上述各部件候选区域之间的相互关系仅是举例,具体可根据实际应用场景中待检测图像中待检测行人的姿态变化或者遮挡情况确定,在此不做限制。
目标预测单元115,用于在特征层面融合上述特征提取单元111提取的整体图像特征与上述部件相互关系学习单元114学习得到的部件关系特征以得到融合后的特征。例如,通过串联的方式将上述整体图像特征和部件关系特征融合在一起,并将融合后的特征送入局部分类器中,得到基于局部分类器的得分。其中,局部分类器的得分表示局部分类器根据输入的特征确定包含行人的可能性。可选的,目标预测单元115还用于将上述整体图像特征送入行人检测的整体分类器,得到基于整体分类器的得分,在分类器层面融合行人检测的整体分类器得分与局部分类器的得分,实现对待检测图像中的行人进行检测的行人检测结果。通过融合行人检测的整体分类器得分与局部分类器的得分以得到最终的行人检测结果的实现方式,可避免由于部件分割失误带来的干扰,提高行人检测的准确率。
下面将结合上述目标检测装置,对本申请实施例提供的行人检测的方法的具体实现方式进行描述。
实施例一
参见图3,是本申请实施例提供的目标检测的方法的一流程示意图。本申请实施例提供的目标检测的方法可包括步骤:
S301,获取待检测图像中的目标候选区域。
在一些实现方式中,当待检测图像通过输入设备14输入至目标检测系统10之后,特征提取单元111从待检测图像中提取以行人为检测对象的图像特征。在基于深度神经网络模型的深度学习行人检测方法,可首先采用卷积神经网络(convolutional neuralnetwork,CNN)提取待检测图像的深度特征,然后采用区域提取网络(region proposalnetwork,RPN)根据卷积神经网络提取的深度特征从待检测图像中提取局部区域候选框,例如可能包含行人的行人外接矩形框等。可选的,特征提取单元111从待检测图像中提取图像特征时,可首先利用深度学习框架下的原始网络模型作为用以行人检测的目标网络模型的初始化。进而可以用判断某一区域是包含行人的行人区域还是不包含行人的背景区域的分类问题(即区分是行人或者不是行人(即背景)总计两个类别的二分类问题,简称行人与背景的二分类问题)替换原始网络模型的分类问题,结合用以行人检测的样本图像(或者样本数据集)对该原始网络模型进行训练以构建用于行人检测的目标网络模型。其中,上述构建的用于行人检测的目标网络模型可为卷积神经网络,进而可使得构建得到的卷积神经网络可更好地适应于行人检测任务。例如,可首先选取用ImagNet数据集训练得到的VGG Net作为用以训练的原始网络模型,再以行人或者背景的二分类问题替换原始ImageNet数据集中的1000类分类问题,结合用以行人检测的样本图像来对上述VGG Net进行训练。利用VGGNet的现有网络模型框架,通过对VGG Net进行初始化,并利用行人检测的样本图像对该现有网络模型框架进行区分行人和背景的功能训练,通过对VGG Net进行训练以调整VGG Net的网络参数,使得VGG Net的网络参数为适用于行人检测的网络参数,这个过程则可称为对VGG Net模型进行微调以构建用于行人检测的网络模型。
可选的,上述深度学习框架下的原始网络模型还可包括Alex、GoogleNet以及ResNet等网络模型,具体可根据实际应用场景需求确定,在此不做限制。
可选的,特征提取单元11构建了用于行人检测的卷积神经网络之后,则可通过该卷积神经网络从待检测图像中提取以行人为检测对象的图像特征。可选的,该图像特征可为卷积神经网络最后一层卷积层的深度特征,该图像特征可为用以描述待检测模型中是否包含行人的图像特征,是以行人为整体而提取的图像特征,因此为方便描述,该图像特征也为称为整体图像特征。
在一些实现方式中,目标候选区域提取单元112从待检测图像中提取以行人为检测对象的目标候选区域(即行人候选区域,为方便描述,下面将以行人候选区域为例进行说明)。在行人候选区域的提取过程中,目标候选区域提取单元112可通过学习真实给定的行人的特征(例如用于表达行人是什么样子的一些图像特征),从行人检测的实际应用场景中的待检测图像中枚举可能包含行人的行人候选区域。如图4,图4是本申请实施例提供的行人候选区域的一示意图。在本申请实施例中,目标候选区域提取单元112从待检测图像中枚举的行人候选区域中包括真实包含行人的区域,也包括可能包含行人但是实际上不包含行人的区域。如图4所示,目标候选区域提取单元112可从待检测图像中提取数不胜数的行人候选区域,例如图4中密集分布的矩形框所框的各个区域,其中,包括真实包含行人的区域,例如白色矩形框所框的区域1、区域2、区域3和区域4。在本申请实施例中,行人候选区域具体可为行人候选矩形框对应的图像区域,在此不做限制。为方便描述,下面行人候选区域可以以真实包含行人的区域为例进行说明。结合图5,图5是本申请实施例提供的行人候选区域的另一示意图。目标候选区域提取单元112可从待检测图像中提取出可能包含行人的行人外接矩形框,例如行人1的外接矩形框(即矩形框1)和行人2的外接矩形框(即矩形框2),并将矩形框1对应的图像区域和矩形框2对应的图像区域确定为以行人为检测对象的目标候选区域。
可选的,目标候选区域提取单元112可首先获取一个初始RPN模型,该初始RPN模型具有初始网络参数,并且该初始RPN模型通过其初始网络参数可从图像中框出前景或者背景区域。目标候选区域提取单元112可利用初始RPN模型的网络模型框架,通过对初始RPN模型进行初始化,并利用用于行人检测的行人样本图像对该初始RPN模型进行以行人为检测对象的功能训练,通过对该初始RPN模型进行训练以调整该初始RPN模型的网络参数,使得训练后的RPN模型的网络参数为适用于框出行人或者背景的网络参数。这个过程则可称为对初始RPN模型进行微调以构建适用于行人检测的网络模型,通过上述训练方式训练得到的RPN模型则可为用于实现以行人为检测对象的区域提取功能的目标PRN模型。该目标PRN模型的网络参数可由以行人为检测对象的行人样本图像训练得到,因此可更好地适用于行人检测。构建得到目标RPN模型之后,则可结合滑动窗口的方法从上述待检测图像中确定出多个可能包含行人的矩形框区域。例如,利用滑动窗口的方法,结合卷积神经网络的卷积核在上述从卷积神经网络最后一层卷积层中提取的深度特征(即上述以行人为整体而提取的图像特征),对该深度特征进行逐帧图像特征滑动,并在滑动过程中计算每次滑动的图像特征中包含行人这一检测对象的特征的置信度。其中,每次滑动的图像特征中包含行人这一检测对象的特征的置信度则为该图像特征中包含行人的可能性,置信度越高,则包含行人的可能性越大。通过滑动窗口的方法对上述提取的深度特征进行滑动,则可从上述待检测图像中确定出多个候选区域(为方便描述,下面将以矩形框区域为例进行说明),其中,一个矩形框所框区域(为方便描述,可简称为矩形框区域)内的图像则为一个候选框特征图。从待检测图像中确定出多个矩形框区域之后,则可从各个矩形框区域对应的候选框特征图中筛选出包含行人图像特征的置信度大于或者等于预设阈值的候选框特征图,将筛选得到的候选框特征图对应的候选区域作为行人候选区域(即目标候选区域),例如行人外接矩形框。在本申请实施例中,一个行人候选区域中包含行人的置信度也可理解为待检测图像在这个区域有行人这类检测目标的可能性,既可表示待检测图像中包含行人的可能性,也可表示行人在这个区域的可能性,在此不做限制。这个区域对应于对深度特征进行逐帧图像特征滑动过程中行人在候选框特征图中的位置,该位置也可还原到待检测图像中相应的位置,进而可确定行人在待检测图像中的位置。
可选的,上述行人候选区域对应的图像特征则可为以行人为检测目标提取的全局图像特征,即行人候选矩形框区域内的图像特征。例如,图5所示的矩形框1所框区域内的图像特征。在本申请实施例中,全局图像特征也可称为整体图像特征,整体图像特征可为用于表征行人候选矩形框区域内行人图像的特征,即以行人为整体而提取的图像特征,整体图像特征对应于目标候选区域,在这里即对应于行人候选矩形框区域。为方便描述,下面将以整体图像特征为例进行说明。对应于以行人为整体而提取的图像特征,下面针对行人部件这类行人局部细节而提取的图像特征可为称为局部图像特征。该整体图像特征可用于与用于描述行人的部件与部件之间的部件关系特征进行融合以确定待检测图像中是否包含行人和/或所包含的行人在待检测图像中的位置(例如包含行人的行人候选矩形框区域在待检测图像中的位置)等。
S302,通过图像分割网络从目标候选区域中确定出至少两个部件分别对应的部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从待检测图像中提取对应于各部件候选区域的局部图像特征。
在一些实现方式中,目标候选区域提取单元112确定了待检测图像中的行人候选区域之后,则可通过图像分割单元113对行人候选区域进行行人部件分割,以从行人候选区域中确定出对应于各行人部件的部件候选区域。其中,行人候选区域可包括真实包含行人的区域,也可包括可能包含行人但是实际不包含行人的区域,在此不做限制。为方便描述,下面行人候选区域可以以真实包含行人的区域为例进行说明。如图6A,图6A是本申请实施例提供的行人部件的一示意图。结合图5,在图5所示的矩形框1中,行人1对应的可见行人部件包括图6A中所示的头部、左手、左臂、躯干、左腿、左脚、右腿以及右脚。其中,针对行人1,上述图6A中行人1的头部、左手、左臂、躯干、左腿、左脚、右腿以及右脚中任一行人部件对应的区域则为对应于该任一行人部件的部件候选区域。再比如,如图6B,图6B是本申请实施例提供的行人部件的一示意图。在图5所示的矩形框2中,由于行人1和行人2直接的相互遮挡,使得行人2对应的可见行人部件包括图6B中所示的头部、躯干、右腿、右脚和左脚。其中,针对行人2,上述图6B中行人2的头部、躯干、右腿、右脚和左脚中任一行人部件对应的区域则为对应于行人2的该任一行人部件的部件候选区域。
可选的,若行人候选区域是可能包含行人但是实际不包含行人的区域,图像分割单元113可通过预测判断的方式也可对行人候选区域进行行人部件分割,以从行人候选区域中确定出对应于各行人部件的部件候选区域,具体可根据实际应用场景确定,在此不做限制。
在一些实现方式中,图像分割单元113可从待检测图像中提取得到各个部件候选区域对应的局部图像特征,以得到对应于各行人部件的局部图像特征。其中,一个行人部件候选区域对应一组局部图像特征,即一个行人部件对应一组局部图像特征。可选的,图像分割单元113可构建一个用以行人检测的图像分割网络,采用图像分割网络获取行人部件,使得行人部件划分更精细、行人部件的数目可根据实际应用场景灵活调整,更准确地捕捉行人的姿态变化或遮挡情况。
可选的,本申请实施例提供的图像分割网络可为全卷积网络(fullyconvolutional networks,FCN)。采用全卷积网络从待检测图像中提取对应各部件的局部图像特征时,首先,可将待检测图像输入全卷积网络,通过全卷积网络输出待检测图像中每个像素所对应的行人部件的预测结果。进一步的,通过全卷积网络可对每个像素对应于各行人部件的预测结果进行划分以得到对应于各行人部件的部件候选区域。预测结果属于相同部件的像素可被划分到对应于该部件的部件候选区域中。其中,一个部件候选区域则可表示为行人的一个部件的候选区域,进而可得多行人的多个部件的部件候选区域。从每个部件候选区域中提取的图像特征均可作为对应于该部件候选区域所表示的行人部件的局部图像特征。若从待检测图像中提取得到多个部件候选区域,则可提取各部件候选区域的图像特征作为对应于各行人部件的局部图像特征。例如,如图6A中,行人1的头部对应一个部件候选区域(为方便描述,可假设为部件候选区域11),该部件候选区域11内的图像特征则为对应于行人1的头部的局部图像特征。同理,从行人1的其他行人部件对应的部件候选区域提取的图像特征则为对应于行人1的其他行人部件的局部图像特征。从行人2的各行人部件对应的部件候选区域提取的图像特征则为对应于行人2的各行人部件的局部图像特征。通过全卷积网络对行人部件进行识别和划分可从像素级的图像特征进行识别,进而可得到像素级的局部图像特征,可比传统分矩形块的部件划分具有更高的划分精确,也因此更加贴合复杂多变的实际场景,适用性更强。
可选的,在本申请实施例中,行人部件可包括头部,左臂,右臂,左手,右手,躯干(例如上半身),左腿,右腿,左脚以及右脚等,在此不做限制。待检测图像中可包括上述行人部件中的一个或者多个,上述图像分割单元113可通过全卷积网络从待检测图像中提取对应于各部件的局部图像特征,进而可由对应于各行人部件的局部图像特征确定出各个行人部件之间的相互关系。
S303,通过双向LSTM对各部件候选区域的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征。
在一些实现方式中,图像分割单元113获取得到对应于各行人部件的局部图像特征之后,则可通过部件关系学习单元114学习各行人部件之间的相互关系。可选的,部件关系学习单元114将各部件候选区域的各局部图像特征按照预设部件顺序进行排序以得到排序后的特征序列,将上述特征序列输入双向LSTM。其中,上述预设部件顺序可为头部,左臂,右臂,左手,右手,上半身,左腿,右腿,左脚,右脚,具体可根据实际应用场景确定,在此不做限制。部件关系学习单元114可通过双向LSTM以行人与背景的二分类问题为学习目标来学习各部件候选区域之间的相互关系。例如,双向LSTM可以学习得到区域与区域之间的关系,其中,区域具体表现为什么类型的区域可根据实际应用场景确定。例如,在行人检测的应用场景中,区域与区域之间则具体表现为行人部件所对应的部件候选区域与部件候选区域之间的相互关系。因此,在利用双向LSTM进行区域与区域之间的学习时,还需要给双向LSTM设定一个学习目标,即,以区分某一个部件候选区域为行人或者背景的二分类问题为学习目标,进而可通过双向LSTM学习得到用以表示行人部件的各个部件候选区域之间的相互关系。
可选的,上述各部件候选区域之间的相互关系包括各部件候选区域相对于待检测目标的关系,以及各部件候选区域相互之间的依赖关系等。其中,上述各部件候选区域相对于待检测目标的关系包括:当各部件候选区域属于同一待检测目标时,各部件候选区域相对于同一检测目标的关系,和/或,当各部件候选区域分属于不同待检测目标时,各部件候选区域相对于其所属待检测目标的关系。例如,当各部件候选区域属于同一个待检测目标时,各部件候选区域分别为该检测目标的头部、躯干或者手臂等部件中的哪一个。上述各部件候选区域相互之间的依赖关系可包括各部件候选区域对应的各部件相互之间的连接关系等,例如,头部连着躯干,左臂连着躯干的左侧,右臂连着躯干的右侧等,在此不做限制。
可选的,部件关系学习单元114可根据图像分割单元113提取的对应于各行人部件的局部图像特征,对各部件候选区域之间的相互关系进行建模与学习,提取可描述各行人部件之间相互关系的特征。例如,假设行人部件可包括头部,左臂,右臂,左手,右手,躯干,左腿,右腿,左脚,右脚的10个部位。部件关系学习单元114可首先构建一个双向LSTM模型,将上述图像分割单元113提取的对应于各部件的局部图像特征进行组合以得到一个特征序列,并将所述特征序列输入上述构建的双向LSTM模型,通过上述双向LSTM模型以行人与背景的二分类问题为学习目标,来学习各行人部件之间的相互关系。
在一些实现方式中,本申请实施例提供的双向LSTM中包括多个LSTM记忆单元,其中,LSTM记忆单元中各参数可通过如下公式1至5确定。
其中,公式1至5满足:
it=σ(Wixt+Uiht-1) (1)
ft=σ(Wfxt+Ufht-1) (2)
ot=σ(Woxt+Uoht-1) (3)
在上述公式1至5中,σ(x)与均为非线性激活函数。
其中,σ(x)为sigmoid函数并且满足:σ(x)=(1+exp(-x))-1
为tanh函数并且满足:/>
在本申请实施例中,各部件候选区域对应的个局部图像特征按照预设部件顺序,通过排序的方式串联成为一个特征序列输入到双向LSTM中,因此,在某一时刻t输入的局部图像特征则对应于某一部件候选区域,因此,在上述公式1至5中,变量t可对应于部件候选区域。xt则表示对应于时刻t上输入的对应于部件候选区域的局部图像特征。it,ft和ot分别代表时刻t的输入门,记忆门和输出门输出的时刻t输入的局部图像特征对应于某一行人部件的概率。其中,上述输入门、记忆门和输出门统称为LSTM记忆单元的逻辑门。ct表示时刻t输入的局部图像特征所表示的行人部件的信息,为方便描述可称为LSTM记忆单元在当前时刻t的信息。
在本申请实施例提供的双向LSTM网络中,对于LSTM记忆单元在当前时刻t的信息以及LSTM记忆单元中的每一个逻辑门(输入门、输出门、记忆门)所输出的概率的计算中均分别存在一个在当前时刻t对应于各个部件候选区域的输入xt和上一时刻t-1对应于各个部件候选区域的隐含变量ht-1的权重转移矩阵W。例如,对应it的Wi,对应于ft的Wf,对应于ot的Wo以及对应于ct的Wc等。其中,上述隐含变量可ht-1由上一时刻t-1输出门和记忆单元的输出确定。其中,隐含变量是隐形状态变量,是相对于可观测变量的参量。可观测变量可包括可以直接从待检测图像中得到的特征,隐含变量是高于这些可观测变量一层的抽象概念的变量,并隐含变量是可以用于控制可观测变量的变化的参量。
本申请实施例提供的双向LSTM是一个不断利用输入的特征序列的上下文(context)信息的网络模型,因此可有当前时刻t与上一时刻t-1以及下一时刻t+1处理得到的数据相互嵌套的情况存在。例如,时刻t的输入的局部图像特征xt以及上一时刻t-1处理得到的隐含变量ht-1,在权重转移矩阵W的作用下处理得到当前时刻t对应的LSTM记忆单元的各逻辑门的输出,当前时刻t记忆单元的输出。最终,根据当前时刻t,记忆单元和输出门的输出得到下一时刻t+1的隐含变量ht+1
在本申请实施例中,双向LSTM的输出是一个代表各个部件候选区域之间的相互关系的部件关系特征,该部件关系特征是对应于输入的特征序列的一个输出序列。因此,部件关系学习单元114可将双向LSTM模型学习各行人部件之间的相互关系时的输出结果在序列维度上进行线性加权等方法进行融合,进而可得到待检测行人在不同姿态变化情况与遮挡情况下的部件关系特征。例如,上述将双向LSTM模型的输出结果在序列维度上进行线性加权融合可以是给输出序列中每个时刻对应的特征添加一个系数,所有系数加起来等于1。进而,可将每个特征与其对应的系数相乘,之后将相乘得到的所有特征相加进而可得到线性加权融合得到的部件关系特征。
在本申请实施例中,部件关系学习单元114通过双向LSTM模型对各行人部件之间的相互关系进行学习的过程中,双向LSTM模型的输出结果是一个代表各部件之间的相互关系的部件关系特征。其中,上述部件关系特征为用于描述各部件候选区域之间的相互关系的特征。该部件关系特征可直接送入局部分类器以得到该待检测图像的行人候选区域中是否为行人的分类结果(即检测结果)。其中,上述局部分类器可为预先由样本图像中行人部件对应的局部图像特征进行训练,通过训练得到的具备区分行人或者背景的能力的一种网络模型。局部分类器可根据输入的局部图像特征区分该局部图像特征是否为包含行人的图像特征,还是是不包含行人的背景图像特征。此外,为了加强特征提取单元111提取的整体图像特征对行人检测任务的拟合程度,在本申请实施例中,部件关系学习单元114学习得到的部件关系特征还可与上述整体图像特征进行融合,以实现待检测图像中的行人检测,进而可提高行人检测的准确率。
S304,根据双向LSTM学习得到的部件关系特征实现对待检测图像中的待检测目标的检测。
在一些实现方式中,目标预测单元115对双向LSTM学习得到的部件关系特征实现对待检测图像中的待检测行人的检测。目标预测单元115可根据融合后的特征预测待检测图像中是否包含行人,或者待检测图像中包含的行人位置(即包含行人的行人候选区域的位置)。可选的,目标预测单元115可通过多任务学习将上述特征提取单元111提取的整体图像特征,和双向LSTM学习得到的部件关系特征进行融合,并将融合后的特征送入局部分类器,通过局部分类器对融合后的特征进行学习以得到待检测图像中待检测目标的类别(例如行人)与位置的第一置信度。在本申请实施例中,第一置信度表示局部分类器对某一行人候选区域中包含行人的可能性的预测结果。当第一置信度大于或者等于预设阈值时,则可确定局部分类器的预测结果该行人候选区域为包含行人的行人区域,否则可确定该行人候选区域为不包含行人的背景区域。若该行人候选区域为行人区域,则可将该行人区域在待检测图像中的位置确定为行人在待检测图像中的具体位置。其中,上述整体图像特征和部件关系特征的融合可采用线性加权、串接或者卷积操作等方式进行融合,并且可根据实际应用场景需求确定融合方式,在此不做限制。融合后的特征相当于实现了整体图像特征与局部图像特征的互补,同时捕捉了整体层面上的结构关系和各类遮挡情况下的部件层面上的部件相互关系,实现整体结构关系和部件相互关系两者的优势互补,进而可提高行人检测的准确率。例如,整体图像特征是以行人为整体而提取的图像特征,表示的是在待检测图像中可能包含行人的行人候选区域内的图像特征。部件关系特征是对应于行人部件的、表示部件候选区域内的各个行人部件的相互关系的图像特征,表示的是在待检测图像中可能包含行人的行人候选区域中该行人的各部件的局部图像特征。例如,整体图像特征用于表示行人候选区域为可能包含行人的行人区域,并且可从整体上预测行人姿态,例如直立行走状态(部件之间不相互遮挡)。部件关系特征表示的行人部件之间的相互关系为一个行人的完整部件(头部,左臂,右臂,左手,右手,上半身,左腿,右腿,左脚,右脚均有)中各个部件之间的相互关系,或者两个不同行人的部件(头部,左臂,右臂,左手,右手,上半身,左腿,右腿,左脚,右脚等特征为两个行人的部件)中各个部件之间的相互关系的两种预测结果。因此,融合整体图像特征和部件关系特征则可筛选出表示行人特征更高精度的图像特征(保留一个行人的预测结果),融合得到的特征可以是用于从整体和局部上共同预测部件候选区域中所包含的局部图像特征为对应于行人部件的特征图像。利用整体图像特征的整体判断和局部图像特征的局部判断的相互弥补,实现更高精度、更高准确率的行人检测。
在本申请实施例中,输入为对应于行人部件的部件关系特征、通过部件关系特征实现行人与背景的预测的分类器称为局部分类器,相对应的,输入为整体图像特征、通过整体图像特征实现行人的预测的分类器称为整体分类器。
可选的,目标预测单元115还可根据行人候选区域的整体图像特征送入整体分类器(例如Softmax分类器),通过上述整体分类器确定行人候选区域中包含待检测目标的第二置信度,并根据第一置信度和第二置信度的融合确定出待检测图像中包含待检测目标(即行人),进而可根据行人候选区域的位置确定行人的位置。在本申请实施例中,第一置信度是局部分类器对某一行人候选区域中包含行人的预测结果,是从行人部件的层面上判断的预测结果。第二置信度表示整体分类器对某一行人候选区域中包含行人的可能性的预测结果,是从行人整体层面上判断的预测结果。当第二置信度大于或者等于预设阈值时,则可确定整体分类器的预测结果为该行人候选区域为包含行人的行人区域,否则可确定预测结果为该行人候选区域为不包含行人的背景区域。若该行人候选区域为行人区域,则可将该行人区域在待检测图像中的位置确定为行人在待检测图像中的具体位置。在本申请实施例中,融合第一置信度和第二置信度可在第一置信度对应的预测结果上结合第二置信度对应的预测结果得到更加准确的预测结果,提高行人检测的预测精度。本申请实施例可将待检测图像中行人候选区域的整体图像特征,与各部件候选区域的部件关系特征进行融合,将整体图像特征和局部图像特征进行融合可得到更加丰富的特征表达,进而可获得更加准确的行人检测结果。
下面将结合图7,对本申请实施例提供的行人检测方法中待检测图像的处理流程进行说明。图7是本申请实施例提供的行人检测方法的待检测图像处理流程示意图。在本申请实施例中,首先采用卷积神经网络提取以行人为检测对象的图像深度特征,并从待检测图像中提取行人候选区域以及行人候选区域对应的整体图像特征。然后,结合图像分割网络提取用于部件分割的局部图像特征并对行人候选区域进行部件分割以得到多个部件候选区域。进一步的,可将对应于各行人部件的局部图像特征送入双向LSTM模型,以通过双向LSTM模型学习用于描述各部件之间的相互关系的部件关系特征,该部件关系特征可直接用于行人检测结果的输出,亦可进一步与行人候选区域的整体图像特征进行融合,得到图7所示局部分类器的输出。可行的,该局部分类器的输出可直接作为行人检测结果的输出,操作简单。亦可进一步与单独采用行人整体图像特征的整体分类器的输出相融合,得到图7中所示的行人检测结果。通过整体分类器和局部分类器的输出融合可避免由于部件分割失误带来的干扰,提高行人检测的准确率,适用性更强。
本申请实施例可采用图像分割网络来获取行人部件候选区域,使得行人部件的获取更精细,可以更灵活得捕捉待检测图像中行人的姿态变化或者遮挡状态。此外,本申请实施例采用双向LSTM学习行人部件之间的相互关系,提取可用以描述行人部件之间的相互关系的部件关系特征,进一步加强对行人姿态变化或遮挡状态下的图像处理能力,行人部件的识别准确率更高,适用性更强。进一步的,本申请实施例采用多任务学习的方式融合待检测图像中行人候选区域的整体图像特征和待检测图像中各行人部件候选区域的局部图像特征,增加了用以判断待检测图像中是否包含行人或者待检测图像中行人的位置的特征多样性,使得不同特征之间互相约束相互促进,增加了行人检测的准确率。本申请实施例提供的行人检测方法融合行人整体图像特征与行人部件关系特征,既可适用于简单行人姿态变化场景下的行人检测,还可适用于复杂行人姿态变化场景下的行人检测,特别是行人姿态变化较大或遮挡较为严重时,行人检测率更高,适用范围更大。
实施例二
在上述实施例一所描述的行人检测方法中,一方面通过构建图像分割网络来获取对应于各行人部件的部件候选区域,以及各个部件候选区域对应的局部图像特征,进而通过双向LSTM模型来学习行人部件之间的部件关系特征。另一方面,通过将双向LSTM模型学习到的部件关系特征与行人候选区域的整体图像特征进行融合以实现待检测图像中的行人检测,进一步增强了目标检测系统对复杂应用场景下对行人姿态变化和遮挡状态的图像处理能力,实现对实际视频监控场景下的行人的最优检测。
此外,本申请实施例还可根据行人的整体矩形框和可见框两种标注信息来获取待检测图像中可能包含的行人部件,然后,将获取的行人部件的图像特征送入双向LSTM模型来进行行人部件之间的相互关系的学习。进一步的,可根据双向LSTM学习到的部件关系特征,和待检测图像中的行人整体特征实现对待检测图像中的行人检测。
参见图8,图8是本申请实施例提供的目标检测的方法的另一流程示意图。本申请实施例提供的目标检测的方法可包括步骤:
S401,获取待检测图像中的目标候选区域。
可选的,特征提取单元111提取以行人为检测对象的图像特征,并通过目标候选区域提取单元112从待检测图像中确定出行人候选区域,通过特征提取单元111从待检测图像中提取出行人候选区域的整体图像特征的实现方式可参见上述实施例一中步骤S301所描述的实现方式,在此不再赘述。
S402,获取用于部件识别的正样本图像特征和负样本图像特征,根据上述正样本图像特征和负样本图像特征构建部件识别网络模型。
在一些实现方式中,图像分割单元113通过行人的正样本图像和负样本图像构建部件识别网络模型,以通过构建的部件识别网络模型从行人候选区域中识别出可能的行人部件,以及对应于各行人部件的局部图像特征。图像分割单元113可利用以行人为检测对象的候选框模板从用于行人部件识别的样本图像中获取行人检测的正样本图像特征和负样本图像特征。其中,上述候选框模板可以是预定构建好的、用于部件识别功能训练的模板,该模板适用于行人检测的部件识别网络模型的部件识别功能训练。参见图9,图9是本申请实施例提供的行人候选区域的另一示意图。假设行人姿态的理想状态为行人处于其外接矩形框的中央,进而可将该行人的外接矩形框划分为N个方格,并从这N个方格中确定出在该理想状态下的行人姿态中行人的各部件所在区域覆盖的方格。其中,N为大于1的整数。例如,首先假定在理想情况下行人位于其外接矩形框的中央,此时将其外接矩形框均匀划分为一定数目的方格,如N个方格,进而可确定在该理想情况下,行人的头部、躯干、左臂、右臂、左腿、右腿等行人部件所在区域所覆盖的方格。
可选的,图像分割单元113可从用以行人检测训练的数据集中获取用于部件识别的样本图像。以任一样本图像为例,图像分割单元113可从上述样本图像中确定出以行人为检测对象的多个候选区域。参见图10,图10是本申请实施例提供的行人候选区域的另一示意图。假设图10所示为样本图像,该样本图像中包括行人3,图像分割单元113可从样本图像中确定出以行人为检测对象的4个候选区域,例如,候选区域1至候选区域4。进一步的,图像分割单元113可将上述多个候选区域中标注了行人的候选区域确定为正样本区域。例如候选框2行人3的外接矩形框,完整框住了行人3的整个轮廓,因此候选框2可预先标注为用于识别行人3的正样本区域。与正样本区域的交并比小于预设比例的候选区域确定为负样本区域。可选的,两个区域的交并比可理解为两个区域的交集面积与两个区域的并集面积的比值。上述预先比例可为两个区域的交并比小于0.5。例如,如图10所示,候选框1和候选框2的交并比明显小于0.5,因此可将候选区域1确定为负样本区域。候选框3和候选框2的交并比明显大于0.5,因此可将候选区域3确定为正样本区域。进一步的,图像分割单元113可将正样本区域划分为N个方格,并利用上述候选框模板从正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格。例如,图像分割单元113可将上述多个候选区域中真实标注的行人框(即真实标注的行人外接矩形框)作为行人的正样本区域,而与真实标注的行人框的交并比小于0.5的所有候选框对应的局部图像区域均确定为行人的负样本区域。
在所有负样本区域中的任一负样本区域(作为负样本的候选框对应的矩形框区域)内,将该负样本区域划按照上述候选框模板的划分方式划分成N个方格。由任一负样本区域划分得到的对应于各个行人部件的方格均确定为各行人部件的负样本方格。例如,在某一负样本区域划分得到的N个方格中,对应于头部的方格则确定为头部的负样本方格,对应于躯干的方格则确定为躯干的负样本方格等。在所有行人正样本区域中的任一正样本区域内,将该正样本区域按照上述候选框模板的划分方式划分成N个方格,再根据上述候选框模板中各部件所在区域覆盖的方格,从该正样本区域的N个方格中确定出各部件所覆盖的部件方格。具体实现中,在任一正样本区域内,由于该正样本区域真实标注为行人框,然而在正样本区域内的行人的姿态如何还无法确认,行人的各部件所在的真实位置(区分理想状态下的位置)也未知。在上述候选框模板中,可以知道理想情况下行人的各部件的具体位置,因此借助上述候选框模板在可从正样本区域中筛选出各部件所覆盖的部件方格,进而可确定正样本区域中行人的各部件的真实位置。例如,参见图11,图11是本申请实施例提供的行人候选区域的另一示意图。以候选框2为例,将作为正样本区域的候选框2按照候选框模板的划分方式划分为N个方格之后,可将根据候选框模板中各个行人部件所在理想位置从候选框2中确定出各行人部件所覆盖的部件方格。例如,根据候选框模板中行人头部的理想位置,从候选框2的N个方格中确定出行人头部所覆盖的部件方格,例如图11中头部所覆盖的6个方格,具体看人采用先横后竖的方式编号为方格1、方格2(未示出)、方格3、方格4(未示出)、方格5和方格6(未示出),在此不做限制。
进一步的,可从上述正样本区域中确定样本图像中包含的行人真实姿态(区分理想状态下的行人姿态)下行人的可见区域,例如行人3在候选框2中的可见区域,其中,行人2在候选框2中的可见区域包括头部、躯干、左臂、左手、右臂、右手、左腿、右腿以及右脚等部件中各部件所覆盖的区域。其中,为方便描述,针对某一部件的可见区域可称为该部件的部件可见区域。在正样本区域中,任一部件的部件可见区域为该部件在正样本区域中所覆盖的区域。任一部件可见区域可由N个方格中的一个或者多个方格组成,即任一部件在正样本区域中所覆盖的方格可包括一个或者多个,其中,每个方格可包括该部件的部件可见区域的一部分。例如,如图11所示,在真实标注的候选框2中,行人3的头部所覆盖了方格1至方格6的6个方格,即在候选框2中,行人3的头部可见区域由方格1至方格6组成,其中,方格1至方格6中每个方格包括行人3的头部可见区域的一部分。图像分割单元113可根据某一方格中所包括的某一部件的部件可见区域的这部分面积确定是将该方格确定为该部件的正样本方格,还是负样本方格。当一部件i所覆盖的部件方格中包括一部件方格j,并且部件方格j中包含部件i的可见区域与该部件方格j的区域重叠度大于或者等于预设阈值时,将该部件方格j确定为该部件i的正样本方格。其中,上述部件方格j中包含部件i的可见区域与部件方格j的区域重叠度则为部件方格j中包括的部件i的可见区域的面积与该部件方格j的面积的比值。其中,i和j均为自然数。例如,参见图11,在候选框2所示的头部可见区域中,通过头部可见区域与方格1方格6的区域重叠度比较,假设方格1中头部的可见区域与方格1的区域重叠度小于预设阈值,则可将方格1确定为头部的负样本方格。方格3和方格5中可见区域与方格的区域重叠度大于预设阈值,则可将方格1和方格5确定为头部的正样本方格。同理,可从各正样本区域中确定出头部之外的其他各部件的正样本方格。当任一部件i’所覆盖的任一部件方格j’中部件i’的可见区域与部件方格j’的区域重叠度小于预设阈值时,将该部件方格j’确定为该部件i’的负样本方格。同理,可从各负样本区域中以确定出各部件的负样本方格。例如,在任一正样本区域对应的矩形框区域内,图像分割单元113可计算该矩形框区域各个小方格区域中的部件可见区域与小方格区域的区域重叠度,并预先设定重叠度的预设阈值来确定是否要将某一行人部件的可见区域部分覆盖的方格包含进对应于该行人部件的正样本方格中。若某一方格中包含的行人部件的可见区域与该方格的区域重叠度大于或者等于预设阈值则将该方格确定为其所对应的行人部件的正样本方格,即该方格中包含某一行人部件的可见区域的面积与该方格的面积的比值大于或者等于预设阈值,则将该方格确定为该行人部件的正样本方格。若该方格中包含的行人部件可见区域与该方格的区域重叠度小于预设阈值则将该方格确定为其所对应的行人部件的负样本方格,从而可获取得到对应于行人的各部件的正样本方格和负样本方格。
在本申请实施例中,图像分割单元113获取得到对应于各部件的正样本方格之后,则可将各正样本方格的图像特征确定为各部件的正样本图像特征,将各部件的负样本方格区域的图像特征确定为各部件的负样本图像特征。在本申请实施例中,图像分割单元113可通过海量的样本图像来确定对应于行人的各部件的正样本图像特征和负样本图像特征,进而可提高对应于各部件的图像特征的提取精度,提高行人的部件分割的准确率。在实施例二中,与实施例一不同的是,图像分割单元113不通过图像分割网络进行对应于各部件的局部图像特征提取,而是通过海量的样本图像来获取对应于各部件的正样本图像特征和负样本图像特征,增加了对应于各部件的局部图像特征的提取方式。
在一些实现方式中,图像分割单元113获取得到各部件的正样本图像特征和负样本图像特征之后,则可根据各部件的正样本图像特征和各部件的负样本图像特征作为部件识别模型的输入,通过部件识别模型以行人部件与背景的二分类问题为学习目标来学习获取行人部件的局部图像特征的能力。例如,可首先选取用ImagNet数据集训练得到的VGGNet作为用以训练的原始网络模型,再以行人部件与非行人部件的二分类问题替换原始ImageNet数据集中的1000类分类问题,结合上述用于部件识别的正样本图像特征和负样本图像特征来对上述VGG Net进行训练。利用VGG Net的现有网络模型框架,利用上述用于部件识别的正样本图像特征和负样本图像特征对该现有网络模型框架进行区分行人部件和非行人部件的功能训练,通过对VGG Net进行训练以调整VGG Net的网络参数,使得VGG Net的网络参数为适用于行人部件识别的网络参数,这个过程则可称为构建用于部件识别的部件识别网络模型。
S403,通过部件识别网络模型从目标候选区域中识别出至少两个部件分别对应的至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从待检测图像中提取对应于各部件候选区域的局部图像特征。
在一些实现方式中,图像分割单元113训练得到具有获取行人部件的局部图像特征能力的部件识别网络模型之后,则可通过该部件识别网络模型从待检测图像的行人候选区域中识别出一个或者多个部件候选区域,进而可从待检测图像中提取对应于各部件候选区域的局部图像特征。进而可由对应于各行人部件的局部图像特征确定出各个行人部件之间的相互关系。
S404,通过双向LSTM对各部件候选区域的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征。
S405,根据双向LSTM学习得到的部件关系特征实现对待检测图像中的待检测目标的检测。
可选的,上述通过LSTM双向各部件候选区域之间的相互关系的学习,并根据双向LSTM学习到的部件关系特征结合待检测图像中的行人整体图像特征,实现对待检测图像中的行人的检测可参见上述实施例一中的步骤S303和S304所描述的实现方式,在此不再赘述。
在本申请实施例中,实施例二所提供的实现方式在前期数据准备阶段,无需对行人的各部件进行单独标注,无论是像素级的标注或者矩形框的标注均不在需要,进而可降低前期训练阶段的数据获取所带来的工作量,进而可大幅度节省前期数据准备所消耗的时间,操作更简单,降低了行人检测的实现复杂度。实施例二采用与实施例一不同的实现方式进行行人部件的识别,增加行人部件的识别方式多样性,同时也增加了待检测图像中行人检测的实现方式多样性。
在本申请实施例中,如图2所示的目标检测装置11可通过其包含的各个单元(或者模块)用于执行上述实施例一和/或实施例二所提供的目标检测方法。为了更好地区分目标检测装置11在执行不同的实施例(例如实施例三和实施例四)时,其内置的各个单元所执行的不同操作,下面将以目标检测装置21和目标检测装置31为例进行说明。其中,目标检测装置21可为用于执行上述实施例一所提供的目标检测方法的装置,目标检测装置31可为用于执行上述实施例二所提供的目标检测方法的装置。下面将结合图12和图13对本申请实施例提供的目标检测装置所执行的实现方式进行说明。
实施例三
参见图12,图12是本申请实施例提供的目标检测装置的另一结构示意图。在本申请实施例中,目标检测装置21可包括:目标候选区域提取单元211、图像分割单元213、部件关系学习单元214和目标预测单元215。
目标候选区域提取单元211,用于获取待检测图像中以目标为检测对象的目标候选区域。
图像分割单元213,用于通过图像分割网络从目标候选区域提取单元211所提取的目标候选区域中确定出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从待检测图像中提取对应于各部件候选区域的局部图像特征。
部件关系学习单元214,用于通过双向LSTM对图像分割单元213提取的各部件候选区域的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征。
目标预测单元215,用于根据部件关系学习单元213获取的部件关系特征实现对待检测图像中的待检测目标的检测。
可选的,目标检测装置还可以包括特征提取单元212。
在一些实现方式中,特征提取单元212,用于获取待检测图像中对应于目标候选区域提取单元211所提取的目标候选区域的全局图像特征。
上述目标预测单元215用于:根据部件关系学习单元214获得的部件关系特征,结合特征提取单元212获取的全局图像特征确定出待检测图像中的待检测目标。
在一些实现方式中,上述目标预测单元215用于:将部件关系学习单元214获得的部件关系特征和特征提取单元212获取的全局图像特征进行融合,根据融合后的特征学习得到待检测图像中待检测目标的类别与位置的第一置信度;根据全局图像特征确定目标候选区域提取单元获取的目标候选区域中包含待检测目标的第二置信度,并根据第一置信度和第二置信度的融合确定出待检测图像中包含待检测目标;根据包含待检测目标的目标候选区域在待检测图像中位置确定待检测目标在所述待检测图像中的位置。
在一些实现方式中,上述部件关系学习单元214用于:将图像分割单元213提取的各部件候选区域的局部图像特征按照预设部件顺序进行排序以得到排序后的特征序列,将上述特征序列输入双向LSTM;通过双向LSTM以目标与背景的二分类问题为学习任务来学习各部件候选区域之间的相互关系。
在一些实现方式中,上述各部件候选区域之间的相互关系包括各部件候选区域相对于检测目标的关系,以及各部件候选区域相互之间的依赖关系中的至少一种。其中,各部件候选区域相对于检测目标的关系包括:当各部件候选区域属于同一检测目标时,各部件候选区域相对于同一检测目标的关系,和/或,当各部件候选区域分属于不同检测目标时,各部件候选区域相对于其所属检测目标的关系。
具体实现中,目标检测装置21可通过其内置的各个单元执行上述实施例一的各个步骤所提供的实现方式,具体可参见上述实施例一中相应的单元所执行的实现方式,在此不再赘述。
本申请实施例可采用图像分割网络来获取行人部件候选区域,使得行人部件的获取更精细,可以更灵活得捕捉待检测图像中行人的姿态变化或者遮挡状态。此外,本申请实施例采用双向LSTM学习行人部件之间的相互关系,提取可用以描述行人部件之间的相互关系的部件关系特征,进一步加强对行人姿态变化或遮挡状态下的图像处理能力,行人部件的识别准确率更高,适用性更强。进一步的,本申请实施例采用多任务学习的方式融合待检测图像中行人候选区域的整体图像特征和待检测图像中各行人部件候选区域的局部图像特征,增加了用以判断待检测图像中是否包含行人或者待检测图像中行人的位置的特征多样性,使得不同特征之间互相约束相互促进,增加了行人检测的准确率。本申请实施例提供的行人检测方法融合行人整体图像特征与行人部件关系特征,既可适用于简单行人姿态变化场景下的行人检测,还可适用于复杂行人姿态变化场景下的行人检测,特别是行人姿态变化较大或遮挡较为严重时,行人检测率更高,适用范围更大。
实施例四:
参见图13,是本申请实施例提供的目标检测装置的另一结构示意图。在本申请实施例中,目标检测装置31可包括:目标候选区域提取单元311、图像分割单元313、部件关系学习单元314和目标预测单元315。
目标候选区域提取单元311,用于获取待检测图像中以目标为检测对象的目标候选区域。
图像分割单元313,用于获取用于部件识别的正样本图像特征和负样本图像特征,根据上述正样本图像特征和负样本图像特征构建部件识别网络模型。
可选的,目标检测装置31还可以包括特征提取单元312。
特征提取单元312,用于获取待检测图像中对应于目标候选区域提取单元311所提取的目标候选区域的全局图像特征。
上述图像分割单元313,还用于通过部件识别网络模型从目标候选区域提取单元311提取的目标候选区域中识别出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从待检测图像中提取对应于各部件候选区域的局部图像特征。
部件关系学习单元314,用于通过双向LSTM对图像分割单元313所提取的所述各部件候选区域的局部图像特征进行学习,以获得用于描述各部件候选区域之间的相互关系的部件关系特征。
目标预测单元315,用于根据部件关系学习单元314获得的所述部件关系特征实现对所述待检测图像中的待检测目标的检测。
在一些实现方式中,上述图像分割单元313用于:
获取以目标为检测对象的候选框模板,将上述候选框模板划分为N个方格,并从N个方格中确定出目标的各部件所在区域覆盖的方格,其中,N为大于1的整数;获取用于部件识别的样本图像,从样本图像确定出以目标为检测对象的多个候选区域;将上述多个候选区域中标注了目标的候选区域确定为目标的正样本区域,与正样本区域的交并比小于预设比例的候选区域确定为目标的负样本区域;将正样本区域划分为N个方格,并根据上述候选框模板从正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格;将负样本区域划分为N个方格,并将负样本区域的N个方格中对应于各部件的方格确定为各部件的负样本方格;将各部件的正样本方格区域的图像特征确定为各部件的正样本图像特征,将各部件的负样本方格区域的图像特征确定为各部件的负样本图像特征。
在一些实现方式中,上述图像分割单元313用于:
根据上述候选框模板中各部件所在区域覆盖的方格,从正样本区域的N个方格中确定出各部件所覆盖的部件方格;当任一部件i所覆盖的部件方格中包括一部件方格j,并且部件方格j中部件i所覆盖的区域与部件方格j的区域重叠度大于或者等于预设阈值时,将部件方格j确定为部件i的正样本方格,以确定出各部件的正样本方格;其中,i和j均为自然数;当任一部件i所覆盖的部件方格中包括一部件方格j,并且部件方格j中所述部件i所覆盖的区域与部件方格j的区域重叠度小于预设阈值时,将部件方格j确定为部件i的负样本方格,以确定出各部件的负样本方格。
在一些实现方式中,上述图像分割单元313用于:
将各部件的正样本图像特征和各部件的负样本图像特征作为部件识别模型的输入,通过部件识别模型以目标部件与背景的二分类问题为学习任务来学习获取部件的局部图像特征的能力。
在一些实现方式中,上述目标预测单元315用于:
将部件关系学习单元314获得的部件关系特征和特征提取单元312获取的全局图像特征进行融合,根据融合后的特征学习得到待检测图像中待检测目标的类别与位置的第一置信度;根据全局图像特征确定目标候选区域中包含待检测目标的第二置信度,并根据第一置信度和第二置信度的融合确定出待检测图像中包含待检测目标;根据包含待检测目标的目标候选区域在待检测图像中位置确定待检测目标在待检测图像中的位置。
在一些实现方式中,上述部件关系学习单元314用于:
将图像分割单元313获取的各部件候选区域的局部图像特征按照预设部件顺序进行排序以得到排序后的特征序列,将所述特征序列输入双向LSTM;通过双向LSTM以目标与背景的二分类问题为学习任务来学习所述各部件候选区域之间的相互关系。
在一些实现方式中,上述各部件候选区域之间的相互关系包括各部件候选区域相对于检测目标的关系,以及各部件候选区域相互之间的依赖关系中的至少一种。其中,各部件候选区域相对于检测目标的关系包括:当各部件候选区域属于同一检测目标时,各部件候选区域相对于同一检测目标的关系,和/或,当各部件候选区域分属于不同检测目标时,各部件候选区域相对于其所属检测目标的关系。
具体实现中,目标检测装置31可通过其内置的各个单元执行上述实施例二的各个步骤所提供的实现方式,具体可参见上述实施例二中相应的单元所执行的实现方式,在此不再赘述。
在本申请实施例中,实施例四所提供的目标检测装置31在前期数据准备阶段,无需对行人的各部件进行单独标注,无论是像素级的标注或者矩形框的标注均不在需要,进而可降低前期训练阶段的数据获取所带来的工作量,进而可大幅度节省前期数据准备所消耗的时间,操作更简单,降低了行人检测的实现复杂度。实施例四采用与实施例三中的目标检测装置21分别采用不同的实现方式进行行人部件的识别,增加行人部件的识别方式多样性,同时也增加了待检测图像中行人检测的实现方式多样性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (22)

1.一种目标检测的方法,其特征在于,所述方法包括:
获取待检测图像中的目标候选区域;
通过图像分割网络从所述目标候选区域中确定出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从所述待检测图像中提取对应于各部件候选区域的局部图像特征;
通过双向长短时记忆网络LSTM对所述各部件候选区域的局部图像特征进行学习,以获得用于描述所述各部件候选区域之间的相互关系的部件关系特征;
根据所述部件关系特征实现对所述待检测图像中的所述待检测目标的检测;
其中,所述通过双向长短时记忆网络LSTM对所述各部件候选区域的局部图像特征进行学习包括:
将所述各部件候选区域的局部图像特征按照预设顺序进行排序以得到排序后的特征序列,将所述特征序列输入所述双向长短时记忆网络LSTM;
通过所述双向长短时记忆网络LSTM以目标与背景的二分类问题为学习任务来学习所述各部件候选区域之间的相互关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述部件关系特征实现对所述待检测图像中的待检测目标的检测,包括:
根据所述部件关系特征,结合全局图像特征确定出所述待检测图像中的待检测目标,所述全局图像特征对应于所述目标候选区域;
对应的,所述根据所述部件关系特征实现对所述待检测图像中的待检测目标的检测之前,所述方法还包括:
获取对应于所述目标候选区域的所述全局图像特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述部件关系特征,结合全局图像特征确定出所述待检测图像中的待检测目标包括:
将所述部件关系特征和所述全局图像特征进行融合,根据融合后的特征学习得到所述待检测图像中所述待检测目标的类别与位置的第一置信度;
根据所述全局图像特征确定所述目标候选区域中包含所述待检测目标的第二置信度,并根据所述第一置信度和所述第二置信度的融合确定出所述待检测图像中包含所述待检测目标;
根据所述目标候选区域在所述待检测图像中的位置确定所述待检测目标在所述待检测图像中的位置。
4.根据权利要求3所述的方法,其特征在于,所述各部件候选区域之间的相互关系包括所述各部件候选区域相对于所述待检测目标的关系,以及所述各部件候选区域相互之间的依赖关系中的至少一种。
5.一种目标检测的方法,其特征在于,所述方法包括:
获取待检测图像中的目标候选区域;
获取用于部件识别的正样本图像特征和负样本图像特征,根据所述正样本图像特征和所述负样本图像特征构建部件识别网络模型;
通过所述部件识别网络模型从所述目标候选区域中识别出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从所述待检测图像中提取对应于各部件候选区域的局部图像特征;
通过双向长短时记忆网络LSTM对所述各部件候选区域的局部图像特征进行学习,以获得用于描述所述各部件候选区域之间的相互关系的部件关系特征;
根据所述部件关系特征实现对所述待检测图像中的所述待检测目标的检测;
其中,所述通过双向长短时记忆网络LSTM对所述各部件候选区域的局部图像特征进行学习包括:
将所述各部件候选区域的局部图像特征按照预设顺序进行排序以得到排序后的特征序列,将所述特征序列输入所述双向长短时记忆网络LSTM;
通过所述双向长短时记忆网络LSTM以目标与背景的二分类问题为学习任务来学习所述各部件候选区域之间的相互关系。
6.根据权利要求5所述的方法,其特征在于,所述获取用于部件识别的正样本图像特征和负样本图像特征包括:
获取候选框模板,将所述候选框模板划分为N个方格,并从所述N个方格中确定出目标的各部件所在区域覆盖的方格,其中,N为大于1的整数;
获取用于部件识别的样本图像,从所述样本图像确定出多个候选区域;
将所述多个候选区域中标注了目标的候选区域确定为所述目标的正样本区域,与所述正样本区域的交并比小于预设比例的候选区域确定为所述目标的负样本区域;
将所述正样本区域划分为N个方格,并根据所述候选框模板从所述正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格;
将所述负样本区域划分为N个方格,并将所述负样本区域的N个方格中对应于各部件的方格确定为各部件的负样本方格;
将所述各部件的正样本方格区域的图像特征确定为各部件的正样本图像特征,将所述各部件的负样本方格区域的图像特征确定为各部件的负样本图像特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述候选框模板从所述正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格包括:
根据所述候选框模板中各部件所在区域覆盖的方格,从所述正样本区域的N个方格中确定出各部件所覆盖的部件方格;
当任一部件i所覆盖的部件方格中包括一部件方格j,并且所述部件方格j中所述部件i所覆盖的区域与所述部件方格j的区域重叠度大于或者等于预设阈值时,将所述部件方格j确定为所述部件i的正样本方格,以确定出各部件的正样本方格;其中,i和j均为自然数;
当任一部件i所覆盖的部件方格中包括一部件方格j,并且所述部件方格j中所述部件i所覆盖的区域与所述部件方格j的区域重叠度小于预设阈值时,将所述部件方格j确定为所述部件i的负样本方格,以确定出各部件的负样本方格。
8.根据权利要求5-7任一项所述的方法,其特征在于,所述根据所述正样本图像特征和所述负样本图像特征构建部件识别网络模型包括:
将所述各部件的正样本图像特征和所述各部件的负样本图像特征作为部件识别模型的输入,通过所述部件识别模型以目标部件与背景的二分类问题为学习任务来学习获取部件的局部图像特征的能力。
9.根据权利要求8所述的方法,其特征在于,所述根据所述部件关系特征实现对所述待检测图像中的待检测目标的检测,包括:
将所述部件关系特征和全局图像特征进行融合,根据融合后的特征学习得到所述待检测图像中所述待检测目标的类别与位置的第一置信度,所述全局图像特征对应于所述目标候选区域;
根据所述全局图像特征确定所述目标候选区域中包含所述待检测目标的第二置信度,并根据所述第一置信度和所述第二置信度的融合确定出所述待检测图像中包含所述待检测目标;
根据包含所述待检测目标的所述目标候选区域在所述待检测图像中位置确定所述待检测目标在所述待检测图像中的位置;
对应的,所述根据所述部件关系特征实现对所述待检测图像中的待检测目标的检测之前,所述方法还包括:
获取对应于所述目标候选区域的所述全局图像特征。
10.根据权利要求9所述的方法,其特征在于,所述各部件候选区域之间的相互关系包括所述各部件候选区域相对于待检测目标的关系,以及所述各部件候选区域相互之间的依赖关系中的至少一种。
11.一种目标检测的装置,其特征在于,所述装置包括:
目标候选区域提取单元,用于获取待检测图像中的目标候选区域;
图像分割单元,用于通过图像分割网络从所述目标候选区域提取单元所提取的所述目标候选区域中确定出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从所述待检测图像中提取对应于各部件候选区域的局部图像特征;
部件关系学习单元,用于通过双向长短时记忆网络LSTM对所述图像分割单元提取的所述各部件候选区域的局部图像特征进行学习,以获得用于描述所述各部件候选区域之间的相互关系的部件关系特征;
目标预测单元,用于根据所述部件关系学习单元获取的所述部件关系特征实现对所述待检测图像中的所述待检测目标的检测;
其中,所述部件关系学习单元用于:
将所述图像分割单元提取的所述各部件候选区域的局部图像特征按照预设顺序进行排序以得到排序后的特征序列,将所述特征序列输入所述双向长短时记忆网络LSTM;
通过所述双向长短时记忆网络LSTM以目标与背景的二分类问题为学习任务来学习所述各部件候选区域之间的相互关系。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括特征提取单元,
所述特征提取单元,用于获取所述待检测图像中对应于所述目标候选区域提取单元所提取的所述目标候选区域的全局图像特征;
所述目标预测单元用于:
根据所述部件关系学习单元获得的所述部件关系特征,结合所述特征提取单元获取的所述全局图像特征确定出所述待检测图像中的所述待检测目标。
13.根据权利要求12所述的装置,其特征在于,所述目标预测单元用于:
将所述部件关系学习单元获得的所述部件关系特征和所述特征提取单元获取的所述全局图像特征进行融合,根据融合后的特征学习得到所述待检测图像中所述待检测目标的类别与位置的第一置信度;
根据所述全局图像特征确定所述目标候选区域提取单元获取的所述目标候选区域中包含所述待检测目标的第二置信度,并根据所述第一置信度和所述第二置信度的融合确定出所述待检测图像中包含所述待检测目标;
根据包含所述待检测目标的目标候选区域在所述待检测图像中位置确定所述待检测目标在所述待检测图像中的位置。
14.根据权利要求13所述的装置,其特征在于,所述各部件候选区域之间的相互关系包括所述各部件候选区域相对于检测目标的关系,以及所述各部件候选区域相互之间的依赖关系中的至少一种。
15.一种目标检测的装置,其特征在于,所述装置包括:
目标候选区域提取单元,用于获取待检测图像中的目标候选区域;
图像分割单元,用于获取用于部件识别的正样本图像特征和负样本图像特征,根据所述正样本图像特征和所述负样本图像特征构建部件识别网络模型;
所述图像分割单元,还用于通过所述部件识别网络模型从所述目标候选区域提取单元提取的所述目标候选区域中识别出至少两个部件候选区域,每个部件候选区域对应待检测目标的一个部件,并从所述待检测图像中提取对应于各部件候选区域的局部图像特征;
部件关系学习单元,用于通过双向长短时记忆网络LSTM对所述图像分割单元所提取的所述各部件候选区域的局部图像特征进行学习,以获得用于描述所述各部件候选区域之间的相互关系的部件关系特征;
目标预测单元,用于根据所述部件关系学习单元获得的所述部件关系特征实现对所述待检测图像中的所述待检测目标的检测;
其中,所述部件关系学习单元用于:
将所述图像分割单元获取的所述各部件候选区域的局部图像特征按照预设顺序进行排序以得到排序后的特征序列,将所述特征序列输入所述双向长短时记忆网络LSTM;
通过所述双向长短时记忆网络LSTM以目标与背景的二分类问题为学习任务来学习所述各部件候选区域之间的相互关系。
16.根据权利要求15所述的装置,其特征在于,所述图像分割单元用于:
获取候选框模板,将所述候选框模板划分为N个方格,并从所述N个方格中确定出目标的各部件所在区域覆盖的方格,其中,N为大于1的整数;
获取用于部件识别的样本图像,从所述样本图像确定出多个候选区域;
将所述多个候选区域中标注了目标的候选区域确定为所述目标的正样本区域,与所述正样本区域的交并比小于预设比例的候选区域确定为所述目标的负样本区域;
将所述正样本区域划分为N个方格,并根据所述候选框模板从所述正样本区域的N个方格中确定出对应于各部件的正样本方格和负样本方格;
将所述负样本区域划分为N个方格,并将所述负样本区域的N个方格中对应于各部件的方格确定为各部件的负样本方格;
将所述各部件的正样本方格区域的图像特征确定为各部件的正样本图像特征,将所述各部件的负样本方格区域的图像特征确定为各部件的负样本图像特征。
17.根据权利要求16所述的装置,其特征在于,所述图像分割单元用于:
根据所述候选框模板中各部件所在区域覆盖的方格,从所述正样本区域的N个方格中确定出各部件所覆盖的部件方格;
当任一部件i所覆盖的部件方格中包括一部件方格j,并且所述部件方格j中所述部件i所覆盖的区域与所述部件方格j的区域重叠度大于或者等于预设阈值时,将所述部件方格j确定为所述部件i的正样本方格,以确定出各部件的正样本方格;其中,i和j均为自然数;
当任一部件i所覆盖的部件方格中包括一部件方格j,并且所述部件方格j中所述部件i所覆盖的区域与所述部件方格j的区域重叠度小于预设阈值时,将所述部件方格j确定为所述部件i的负样本方格,以确定出各部件的负样本方格。
18.根据权利要求15-17任一项所述的装置,其特征在于,所述图像分割单元用于:
将所述各部件的正样本图像特征和所述各部件的负样本图像特征作为部件识别模型的输入,通过所述部件识别模型以目标部件与背景的二分类问题为学习任务来学习获取部件的局部图像特征的能力。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括特征提取单元,
所述特征提取单元,用于获取所述待检测图像中对应于所述目标候选区域提取单元所提取的所述目标候选区域的全局图像特征;
所述目标预测单元用于:
将所述部件关系学习单元获得的所述部件关系特征和所述特征提取单元获取的所述全局图像特征进行融合,根据融合后的特征学习得到所述待检测图像中所述待检测目标的类别与位置的第一置信度;
根据所述全局图像特征确定所述目标候选区域中包含所述待检测目标的第二置信度,并根据所述第一置信度和所述第二置信度的融合确定出所述待检测图像中包含所述待检测目标;
根据包含所述待检测目标的目标候选区域在所述待检测图像中位置确定所述待检测目标在所述待检测图像中的位置。
20.根据权利要求19所述的装置,其特征在于,所述各部件候选区域之间的相互关系包括所述各部件候选区域相对于检测目标的关系,以及所述各部件候选区域相互之间的依赖关系中的至少一种。
21.一种计算机可读存储介质,其特征在于,包括指令,所述指令在计算机上运行时,使得计算机执行如权利要求1-4任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,包括指令,所述指令在计算机上运行时,使得计算机执行如权利要求5-10任一项所述的方法。
CN201810094901.XA 2018-01-30 2018-01-30 目标检测的方法、装置及系统 Active CN110096933B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810094901.XA CN110096933B (zh) 2018-01-30 2018-01-30 目标检测的方法、装置及系统
EP19746653.5A EP3683719A4 (en) 2018-01-30 2019-01-16 TARGET DETECTION METHOD, DEVICE AND SYSTEM
PCT/CN2019/072015 WO2019149071A1 (zh) 2018-01-30 2019-01-16 目标检测的方法、装置及系统
US16/854,815 US11367272B2 (en) 2018-01-30 2020-04-21 Target detection method, apparatus, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810094901.XA CN110096933B (zh) 2018-01-30 2018-01-30 目标检测的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110096933A CN110096933A (zh) 2019-08-06
CN110096933B true CN110096933B (zh) 2023-07-18

Family

ID=67442406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810094901.XA Active CN110096933B (zh) 2018-01-30 2018-01-30 目标检测的方法、装置及系统

Country Status (4)

Country Link
US (1) US11367272B2 (zh)
EP (1) EP3683719A4 (zh)
CN (1) CN110096933B (zh)
WO (1) WO2019149071A1 (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898086B (zh) * 2018-06-20 2023-05-26 腾讯科技(深圳)有限公司 视频图像处理方法及装置、计算机可读介质和电子设备
CN109359676A (zh) * 2018-10-08 2019-02-19 百度在线网络技术(北京)有限公司 用于生成车辆损伤信息的方法和装置
US11568554B2 (en) * 2019-10-25 2023-01-31 7-Eleven, Inc. Contour-based detection of closely spaced objects
TWI686748B (zh) * 2018-12-07 2020-03-01 國立交通大學 人流分析系統及人流分析方法
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN110175527B (zh) * 2019-04-29 2022-03-25 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
CN110516768A (zh) * 2019-08-29 2019-11-29 中新智擎科技有限公司 一种垃圾分类管理的方法、装置及人工智能机器人
CN110532985B (zh) * 2019-09-02 2022-07-22 北京迈格威科技有限公司 目标检测方法、装置及系统
CN110356325B (zh) * 2019-09-04 2020-02-14 魔视智能科技(上海)有限公司 一种城市交通客运车辆盲区预警系统
US11468266B2 (en) * 2019-09-27 2022-10-11 Raytheon Company Target identification in large image data
CN110766058B (zh) * 2019-10-11 2023-04-18 西安工业大学 一种基于优化rpn网络的战场目标检测方法
CN110991242B (zh) * 2019-11-01 2023-02-21 武汉纺织大学 一种负样本挖掘的深度学习烟雾识别方法
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN110992322A (zh) * 2019-11-25 2020-04-10 创新奇智(青岛)科技有限公司 基于卷积神经网络的贴片掩膜检测系统及检测方法
CN110991533B (zh) * 2019-12-03 2023-08-04 Oppo广东移动通信有限公司 图像识别方法、识别装置、终端设备及可读存储介质
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111401376B (zh) * 2020-03-12 2023-06-30 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN111311290B (zh) * 2020-04-17 2023-08-08 广州信天翁信息科技有限公司 一种物品数字化、验证方法及相关装置
CN111612675B (zh) * 2020-05-18 2023-08-04 浙江宇视科技有限公司 同行对象确定方法、装置、设备及存储介质
CN111814567A (zh) * 2020-06-11 2020-10-23 上海果通通信科技股份有限公司 人脸活体检测的方法、装置、设备和存储介质
IL298986A (en) * 2020-06-12 2023-02-01 Univ Washington Eye tracking on close-to-eye displays
CN111881849A (zh) * 2020-07-30 2020-11-03 Oppo广东移动通信有限公司 图像场景检测方法、装置、电子设备及存储介质
CN111914937A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种轻量化改进目标检测方法及检测系统
CN112101282B (zh) * 2020-09-25 2024-04-26 北京瞰天科技有限公司 水上目标识别方法、装置及电子设备和存储介质
CN113159082B (zh) * 2020-09-30 2023-06-02 北京理工大学 一种增量式学习目标检测网络模型构建及权重更新方法
CN112487918B (zh) * 2020-11-25 2022-10-18 天津津航技术物理研究所 一种红外图像小目标检测方法
CN112529867A (zh) * 2020-12-10 2021-03-19 欧冶链金再生资源有限公司 一种废钢料中密封件的识别方法
CN113033557A (zh) * 2021-04-16 2021-06-25 北京百度网讯科技有限公司 用于训练图像处理模型和检测图像的方法、装置
CN113159183B (zh) * 2021-04-23 2022-08-30 中国科学院合肥物质科学研究院 基于局部密集区域密度特征检测的微小害虫图像识别方法
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113240739B (zh) * 2021-04-29 2023-08-11 三一重机有限公司 一种挖掘机、属具的位姿检测方法、装置及存储介质
CN113361329B (zh) * 2021-05-11 2022-05-06 浙江大学 一种基于实例特征感知的鲁棒单目标跟踪方法
CN113257008B (zh) * 2021-05-12 2022-06-21 兰州交通大学 基于深度学习的行人流量动态控制系统及方法
US20220392209A1 (en) * 2021-06-04 2022-12-08 Apple Inc. Object recognition
CN113643364A (zh) * 2021-07-05 2021-11-12 珠海格力电器股份有限公司 一种图像目标检测方法、装置和设备
CN113657186A (zh) * 2021-07-26 2021-11-16 浙江大华技术股份有限公司 一种基于行人重识别的特征提取方法、装置和存储介质
CN113627412A (zh) * 2021-08-02 2021-11-09 北京百度网讯科技有限公司 目标区域的检测方法、装置、电子设备和介质
CN113743340B (zh) * 2021-09-09 2023-09-26 智道网联科技(北京)有限公司 用于自动驾驶的计算机视觉网络模型优化方法及相关装置
CN114155417B (zh) * 2021-12-13 2022-07-19 中国科学院空间应用工程与技术中心 图像目标的识别方法、装置、电子设备及计算机存储介质
CN114255373B (zh) * 2021-12-27 2024-02-02 中国电信股份有限公司 序列异常检测方法、装置、电子设备和可读介质
CN113989626B (zh) * 2021-12-27 2022-04-05 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN114708432B (zh) * 2022-04-02 2023-05-23 广西壮族自治区自然资源遥感院 基于规则网格离散化目标分割区域的加权度量方法
CN114677633B (zh) * 2022-05-26 2022-12-02 之江实验室 基于多部件特征融合的行人检测多目标跟踪系统及方法
CN115100431B (zh) * 2022-07-26 2023-08-08 北京百度网讯科技有限公司 目标检测方法、神经网络及其训练方法、设备和介质
CN115050086B (zh) * 2022-08-15 2022-11-04 北京百度网讯科技有限公司 样本图像生成方法、模型训练方法、图像处理方法和装置
CN116912230A (zh) * 2023-08-11 2023-10-20 海格欧义艾姆(天津)电子有限公司 贴片焊接质量检测方法、装置、电子设备和存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113414A (ja) * 2010-11-22 2012-06-14 Sony Corp 部位検出装置、部位検出方法、及びプログラム
US9443137B2 (en) * 2012-05-08 2016-09-13 Samsung Electronics Co., Ltd. Apparatus and method for detecting body parts
CN103390150B (zh) 2012-05-08 2019-01-08 北京三星通信技术研究有限公司 人体部件检测方法和装置
CN103853794B (zh) * 2012-12-07 2017-02-08 北京瑞奥风网络技术中心 一种基于部件关联的行人检索方法
CN104424466B (zh) * 2013-08-21 2018-05-15 佳能株式会社 对象检测方法、对象检测设备及图像拾取设备
WO2015149009A1 (en) * 2014-03-27 2015-10-01 Georgia Tech Research Corporation Systems and methods for identifying traffic control devices and testing the retroreflectivity of the same
CN105095835A (zh) 2014-05-12 2015-11-25 比亚迪股份有限公司 行人检测方法及系统
CN104166861B (zh) 2014-08-11 2017-09-29 成都六活科技有限责任公司 一种行人检测方法
CN104537647B (zh) 2014-12-12 2017-10-20 中安消技术有限公司 一种目标检测方法及装置
CN105095869A (zh) 2015-07-24 2015-11-25 深圳市佳信捷技术股份有限公司 行人检测方法及装置
WO2017092615A1 (zh) * 2015-11-30 2017-06-08 上海联影医疗科技有限公司 一种计算机辅助诊断系统及方法
CN105678297A (zh) * 2015-12-29 2016-06-15 南京大学 一种基于标签转移及lstm模型的人像语义分析的方法及系统
CN106203506B (zh) 2016-07-11 2019-06-21 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法
WO2018015414A1 (en) * 2016-07-21 2018-01-25 Siemens Healthcare Gmbh Method and system for artificial intelligence based medical image segmentation
US10664750B2 (en) * 2016-08-10 2020-05-26 Google Llc Deep machine learning to predict and prevent adverse conditions at structural assets
CN106650667A (zh) 2016-12-26 2017-05-10 北京交通大学 一种基于支持向量机的行人检测方法及系统
CN106845374B (zh) 2017-01-06 2020-03-27 清华大学 基于深度学习的行人检测方法及检测装置
CN106803083B (zh) 2017-02-04 2021-03-19 北京旷视科技有限公司 行人检测的方法及装置
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US10209718B2 (en) * 2017-03-14 2019-02-19 Starsky Robotics, Inc. Vehicle sensor system and method of use
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
US20190096066A1 (en) * 2017-09-28 2019-03-28 4Sense, Inc. System and Method for Segmenting Out Multiple Body Parts
US11263409B2 (en) * 2017-11-03 2022-03-01 Board Of Trustees Of Michigan State University System and apparatus for non-intrusive word and sentence level sign language translation
US20190143517A1 (en) * 2017-11-14 2019-05-16 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for collision-free trajectory planning in human-robot interaction through hand movement prediction from vision
US10373332B2 (en) * 2017-12-08 2019-08-06 Nvidia Corporation Systems and methods for dynamic facial analysis using a recurrent neural network
CN108229376B (zh) * 2017-12-29 2022-06-03 百度在线网络技术(北京)有限公司 用于检测眨眼的方法及装置
CN111133447B (zh) * 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
JP7229881B2 (ja) * 2018-08-14 2023-02-28 キヤノン株式会社 医用画像処理装置、学習済モデル、医用画像処理方法及びプログラム
US10223614B1 (en) * 2018-09-04 2019-03-05 StradVision, Inc. Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN110569701B (zh) * 2018-12-29 2020-08-07 阿里巴巴集团控股有限公司 计算机执行的车辆定损方法及装置
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10726303B1 (en) * 2019-01-30 2020-07-28 StradVision, Inc. Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same
US11393088B2 (en) * 2019-06-27 2022-07-19 Nutech Ventures Animal detection based on detection and association of parts
US11823378B2 (en) * 2019-12-20 2023-11-21 PAIGE.AI, Inc. Systems and methods for processing electronic images to detect contamination in specimen preparations
US11127142B2 (en) * 2019-12-31 2021-09-21 Baidu Usa Llc Vehicle trajectory prediction model with semantic map and LSTM
US11348253B2 (en) * 2020-01-09 2022-05-31 Alibaba Group Holding Limited Single-channel and multi-channel source separation enhanced by lip motion
US11280899B2 (en) * 2020-02-28 2022-03-22 The Boeing Company Target recognition from SAR data using range profiles and a long short-term memory (LSTM) network
US20210279640A1 (en) * 2020-03-05 2021-09-09 Uber Technologies, Inc. Systems and Methods for Training Machine-Learned Models with Deviating Intermediate Representations
KR102144706B1 (ko) * 2020-03-11 2020-08-14 아주대학교산학협력단 합성곱 신경망 기반의 도로 검출 장치 및 방법

Also Published As

Publication number Publication date
US11367272B2 (en) 2022-06-21
WO2019149071A1 (zh) 2019-08-08
CN110096933A (zh) 2019-08-06
US20200250461A1 (en) 2020-08-06
EP3683719A4 (en) 2020-12-09
EP3683719A1 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
CN110096933B (zh) 目标检测的方法、装置及系统
US20210012198A1 (en) Method for training deep neural network and apparatus
CN110889325B (zh) 多任务面部动作识别模型训练和多任务面部动作识别方法
US10902056B2 (en) Method and apparatus for processing image
CN111291809B (zh) 一种处理装置、方法及存储介质
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
JP2019087229A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
Zhao et al. Hi-Fi: Hierarchical feature integration for skeleton detection
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN112651291A (zh) 基于视频的姿势估计方法、装置、介质及电子设备
CN115512005A (zh) 一种数据处理方法及其装置
CN114882437A (zh) 一种识别模型的训练方法、装置、电子设备和存储介质
CN113011398A (zh) 一种针对多时相遥感图像的目标变化检测方法及装置
Li et al. Mineral prospectivity mapping using attention-based convolutional neural network
CN110992404A (zh) 目标跟踪方法、装置和系统及存储介质
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN111695419A (zh) 一种图像数据处理方法及相关装置
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN115223245A (zh) 景区游客行为的检测聚类方法、系统、设备及存储介质
Surya et al. The IoT-based real-time image processing for animal recognition and classification using deep convolutional neural network (DCNN)
CN113792807A (zh) 皮肤病分类模型训练方法、系统、介质和电子设备
Desai Applying Deep learning techniques-Masked facial recognition in Smartphone security systems using transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant