CN113935358A - 一种行人追踪方法、设备和存储介质 - Google Patents

一种行人追踪方法、设备和存储介质 Download PDF

Info

Publication number
CN113935358A
CN113935358A CN202010603573.9A CN202010603573A CN113935358A CN 113935358 A CN113935358 A CN 113935358A CN 202010603573 A CN202010603573 A CN 202010603573A CN 113935358 A CN113935358 A CN 113935358A
Authority
CN
China
Prior art keywords
pedestrian
track
features
mode
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010603573.9A
Other languages
English (en)
Inventor
窦笑
申光
侯春华
李东方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202010603573.9A priority Critical patent/CN113935358A/zh
Priority to US18/013,874 priority patent/US20230351794A1/en
Priority to PCT/CN2021/102652 priority patent/WO2022001925A1/zh
Priority to EP21833495.1A priority patent/EP4174716A4/en
Publication of CN113935358A publication Critical patent/CN113935358A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Abstract

本发明公开一种行人追踪方法、设备和存储介质,属于通信技术领域。该方法包括:对预设监控摄像头采集的视频画面进行行人轨迹分析,生成行人轨迹图片集;对所述行人轨迹图片集进行多模态特征提取,并形成行人多模态数据库;将所述行人多模态数据库输入到训练好的多模态识别系统中,进行行人追踪,生成行人在预设监控摄像头中的移动轨迹。

Description

一种行人追踪方法、设备和存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种行人追踪方法、设备和存储介质。
背景技术
如今,视频监控已经遍布在我们生活的各个角落中,并且人脸识别技术已经非常成熟。然而,在实际的安防应用场景中,并非所有的摄像头都能够拍摄到清晰的人脸,由于头发、口罩和帽子等遮挡,很难通过人脸识别系统判定行人身份。不仅如此,在实际的应用场景中,一个摄像头往往无法覆盖所有的区域,而且多个摄像头之间一般也没有重叠,因此跨镜追踪检索系统对人员进行锁定和查找显得十分必要。
目前,跨镜追踪技术在产业界和学术界都受到广泛关注,并取得显著进展,从政策方面看,公安部推出平安城市的概念,并且发布了多项预研课题,相关的行业标准也在紧锣密鼓的制定当中。跨镜追踪检索系统使用最多的就是行人重识别。在该领域,大多研究者一般采用基于行人图片特征来定位和检索行人的方案,这样对行人特征的鲁棒性提出了很高的要求,但是真实的场景往往都是非常复杂,比如无正脸照、姿态变换、服装变换、遮挡、光线、摄像头分辨率较低和室内外环境变化等,这些因素通常会导致行人检索与追踪的失败。
发明内容
本发明实施例的主要目的在于提出一种行人追踪方法、设备和存储介质,旨在通过多模态的方式,利用多种模态特征融合成一个综合属性特征,这样各种特征中优势和劣势会形成互补,对跨镜追踪系统会有更好的效果,具有较高的应用价值。
为实现上述目的,本发明实施例提供了一种行人追踪方法,所述方法包括以下步骤:
对预设监控摄像头采集的视频画面进行行人轨迹分析,生成行人轨迹图片集;
对所述行人轨迹图片集进行多模态特征提取,并形成行人多模态数据库;
将所述行人多模态数据库输入到训练好的多模态识别系统中,进行行人追踪,生成行人在预设监控摄像头中的移动轨迹。
为实现上述目的,本发明提供了一种行人追踪的设备,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行,以实现前述方法的步骤。
为实现上述目的,本发明提供了一种计算机可读存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述方法的步骤。
本发明提出的一种行人追踪方法、设备和存储介质,其结合多目标跟踪、行人重识别、行人属性、人脸识别及摄像机拓扑时空约束等多模态智能分析方法的跨镜行人追踪检索系统。通过对各个模态权重参数的调整,最终得到一个针对特定监控区域行人的最优综合评价特征,可以极大的提升跨镜行人追踪的准确率,使得拥有更优的跨镜行人检索体验。
附图说明
图1是本发明实施例一提供的一种行人追踪方法的流程图。
图2是本发明实施例提供的一种行人追踪系统流程图。
图3是本发明实施例提供的一种行人追踪系统结构框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明提出了一种基于多模态的跨镜追踪检索系统,以多目标行人追踪为基础,结合行人重识别网络、行人质量分析、行人属性分析、人脸识别和摄像头的时间和空间位置信息,来进一步提高跨镜追踪检索的准确率和速度。
实施例一
如图1所示,本实施例提供了一种行人追踪方法,该方法包括以下步骤:
步骤S110:对预设监控摄像头采集的视频画面进行行人轨迹分析,生成行人轨迹图片集;
步骤S120:对所述行人轨迹图片集进行多模态特征提取,并形成行人多模态数据库;
步骤S130:将所述行人多模态数据库输入到训练好的多模态识别系统中,进行行人追踪,生成行人在预设监控摄像头中的移动轨迹。
本发明实施例还包括:接收目标行人轨迹,提取所述目标行人的多模态特征,并在所述行人多模态数据库中查找与所述目标行人的多模态特征匹配的第一行人轨迹;将所述目标行人轨迹和所述第一行人轨迹合并生成第二行人轨迹,在所述行人多模态数据库中查询与所述第二行人轨迹匹配的行人轨迹;根据与所述第二行人轨迹匹配的行人轨迹,生成所述目标行人在预设监控摄像头中的移动轨迹。
本发明实施例还包括从所述行人轨迹图片集选取质量参数在预设范围内的图像,并对所述选取的质量参数在预设范围内的图像进行特征提取。
其中,根据训练集对所述多模态识别系统中各模态参数的影响因子进行调整,得到所述训练好的多模态识别系统。
具体地说,所述行人轨迹图片集中的图片名称包括:轨迹ID、视频帧号、所述图片拍摄时间、地点信息。
其中,所述生成行人在预设监控摄像头中的移动轨迹包括:根据所述监控摄像机分布拓扑的图结构进行行人的移动规律分析。
具体的,将监控摄像头的时空拓扑关系与目标的外观表现模型匹配算法进行结合,使用监控摄像头拓扑的图结构分析行人移动和转移的规律,从而对行人的跨镜追踪进行时空约束。如果跟踪目标在某个节点(摄像头)处消失,则在其相邻几步可达的节点处进行目标检测,再进行匹配与关联。
更进一步地,空间关系定义了节点之间是否建立边,以及边的方向。图模型的建立过程中,如果两个节点之间在物理空间位置上一步可达,即不经过其他任何节点,则为它们之间建立一条边。
在实际应用系统中,采用统计学习方法为目标的运动建立时间约束,从而定义节点之间合理的权值。想要获取一组摄像头节点数据的统计规律往往比较困难,这是由许多因素决定的:包括目标的运动规律、摄像机的地理位置、监控周边交通环境变化等。本实施例中,对所有观测时间进行聚类并计算每个类内的方差;根据摄像头相对坐标及路线情况初始化权重,根据行人重识别比对情况进行修正。
考虑到行人无法同时出现在多个摄像头以及从一个摄像头移动到另一个摄像头需要考虑其时间统计规律,可以利用该时空约束显著减少待查询的样本量,减少了查询时间并提高了检索性能。
结合摄像头的空间经纬坐标及可行走路线的空间约束,可以估计出摄像头节点间的连接关系及初始移动时间。后续结合行人重识别的间隔时间进行不断的修正,可以获得摄像头网络拓扑的边权值。
后续查询时,首先根据待查询轨迹确定以此节点为中心的摄像机网络拓扑中的临近节点,再结合边权值限定临近节点中查询数据的时间范围。在每个临近节点的对应时间范围内进行轨迹匹配。
在临近节点A中匹配到目标后,则以该节点为新的网络中心,在摄像机网络拓扑中的临近节点中继续查询,并更新行人行进轨迹和出现的时间节点。在查询结束后完成行人行进轨迹的绘制。
若在推荐的时间范围内没有匹配到目标,则在扩大的时间范围内进一步查询,若仍没有查询到,则在以该节点(query)为中心的下一层临近节点进行查询。
在一个实施例中,所述多模态特征包括以下一种或多种:行人特征、人脸特征和行人属性特征。具体地说,所述行人特征包括以下一种或多种:高矮胖瘦的体型特征和姿势特征;所述人脸特征信息包括以下一种或多种:脸型特征、脸部表情特征和肤色特征;所述行人属性信息包括以下一种或多种:发型长短、发型颜色、服装款式、服装颜色以及携带物品。
本发明实施例二提出一种行人追踪设备,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行,以实现如图1所示的具体步骤。
本发明实施例三提出一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如图1所示的具体步骤。
本发明实施例公开了一种利用多模态信息融合来对不同摄像头下同一行人进行检索与追踪的系统,如图2所示,该方法包括以下步骤:
步骤S1,获取监控区域中不同摄像头的视频;
步骤S2,对获取到的离线视频进行行人检测,并完成行人轨迹提取,相应的行人轨迹图片集中的图片名以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ),保存在以轨迹ID命名的子文件夹下;
步骤S3,通过行人质量分析模块,提取行人轨迹图片集中质量参数在预设范围内的图像,本实施例中选取图片质量较好且时间较分散的5张图片,作为top5行人轨迹;
步骤S4,分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征,特征提取完成,把三种特征和(轨迹ID、视频帧号、时间、地点)保存到数据库中;
具体的,行人重识别网络是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,通过行人重识别网络确定行人特征。
行人属性网络用于提取行人属性,行人属性是关于行人外貌的语义性描述,人体不同的部位具有不同的属性,例如,人体头部相关属性有“短发”及“长发”等;衣服款式相关属性有“长袖”“短袖”“连衣裙”和“短裤”等;携带物相关属性有“双肩包”“单肩包”“手提包”和“无携带”等。在不同环境和场合可以对行人属性进行选择和细分,使之有利于行人的再识别。行人属性信息与人的外观信息相关联的,是更为具体的语义信息,在进行行人比对或行人检索时,根据行人属性的相似情况可以过滤不相关数据。
步骤S5,采用一批人工标注好的测试集来优化多模态权重参数;
步骤S6,输出最终检测结果。
本发明相对其它只基于行人图片特征来定位和检索的方案,融合了人脸、行人属性、时间和空间等多模态信息,使得检索更具备鲁棒性,更能够适应复杂的真实场景。
图3是本发明实施例提供的一种基于多模态检索的跨镜行人追踪系统结构框图,如图3所示,主要包括五个模块,分别为:数据获取与轨迹提取模块,最佳轨迹提取模块,特征提取和多模态信息入库模块,多模态权重调整模块,检索交互和结果展示模块。
数据获取与轨迹提取模块,从监控的视频单元中获取离线视频图像,每个监控单元只负责自己区域的数据保存和提取,保存到指定文件夹下,对已保存的视频进行轨迹追踪提取,并对行人图片自动标注轨迹ID、图片帧号、时间信息和位置信息。
最佳轨迹提取模块,从行人轨迹中筛选出行人质量较完整的,同时,具有较大时间间隔的5张行人轨迹图片。
特征提取和多模态信息入库模块是提取行人、人脸和行人属特征,并将这三种特征和轨迹ID、行人轨迹图片时间和空间信息,保存到行人多模态数据库中。
多模态权重调整模块是使用一批标注的测试集来优化多模态参数值的权重,最终达到针对不同的数据集有自己最优的模态参数。
检索交互和结果展示模块是,能够提供界面化操作轨迹搜索轨迹和图片搜索轨迹,并能够显示最优轨迹和每个摄像头下的最优轨迹排名,并能够通过轨迹中的图片帧号,可以搜索到视频中该轨迹,并进行实时播放。
实施例四
本发明实施例提供的一种基于多模态的跨镜追踪检索系统,获取监控区域的离线视频,对视频中的行人进行行人检索,采用轨迹追踪算法进行行人轨迹提取,并对每张图片完成以轨迹ID、视频帧号和对应时间、地点复合命名,使用行人质量分析模块提取轨迹中的最佳5张行人图片。对其所有轨迹图片进行人脸、行人和行人属性特征进行提取,特征提取完成后将所有的多模态信息入库。使用测试集对多模态系统参数进行自适应调整,最后完成跨镜头的行人轨迹搜索,并将结果显示在界面上。该方法相对人工检索方法,很大程度上减少了工作量,高效率的同时还有较高的准确率,该方案可实现跨镜头的行人检索,为智慧安防和平安城市提供了相当有力的支持。
请参见图2,下面对上述各步骤进行详细的描述。
在步骤S1中,确定检索区域,并获取该区域监控的离线视频,该区域可以是商场、写字楼、居民小区和社区等相对固定的场所,并且该离线视频应该是某一时间段的,至少是同一天的监控视频。将视频保存到本地,并标记摄像头ID、位置和起始时间,在本实施例中,选取三个不同角度的镜头,摄像头ID为C0、C1和C2。
在步骤S2中,对各个摄像头下的离线视频进行行人检测、轨迹追踪。相应的行人轨迹图片集中图片以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ),保存在以轨迹ID命名的子文件夹下。这里行人检测模型采用的是SSD(Single Shot MultiBox Detector,深度学习目标检测算法)算法来获取当前帧行人的位置框和边界框,采用匈牙利追踪算法获取行人轨迹。
在步骤S3中,对上步获取的行人轨迹,使用行人质量分析模型,这里采用的是人体骨骼关键点检测算法,通过骨骼关键点的个数来判别行人的完整性,若图片中行人骨骼关键点的个数等于预设值,则判断获取的该行人的图片信息完整,本实施例中,选取的关键点包括:头部、肩部、手掌、脚掌。对于有较多行人图片的轨迹,提取该轨迹中质量较好且时间较分散的5张图片,作为top5行人轨迹。
在步骤S4中,分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征,特征提取完成,把三种特征和(轨迹ID、视频帧号、时间、地点)保存到行人多模态数据库中。
在步骤S5中,因为跨镜追踪的数据集对场景要求非常严格,在网络上没有任何资源可供使用,所以采用了自己构建的训练集,通过提取三个不同镜头下的离线监控视频,三个摄像头分别命名为C0、C1和C2。然后对离线视频进行行人多目标检测跟踪、审核和人工标注。查询(query)数据归属于C0摄像头,被查询(gallery)轨迹数据分属于两个摄像头C1和C2。使用该标注好的训练集优化多模态识别系统,经过上述S4步骤,完成一系列的多模态信息入库(该数据库归属于多模态权重优化数据库,与之前S4步生成的信息检索数据库不存在冲突),其中每条轨迹包含5张图片,在进行人脸、行人特征及行人属性比对时将采取批量特征比对的方式进行,然后采用C0->C1,C0->C2的检索方式,最终对C0->C1,C0->C2,统计检索命中率。然后动态的调整多模态权重参数,重新进行C0->C1,C0->C2,统计检索命中率。当检索命中率达到最高时认为,当前的多模态参数为最优多模态参数,既完成多模态参数特征的优化调整。
在步骤S6中,最终采用优化好的多模态权重参数,对S4步已经生成的信息检索数据库,进行跨镜下的行人检索,输出最终检测结果。本发明最终能够提供界面化操作轨迹搜索轨迹和图片搜索轨迹,并能够显示最优轨迹和每个摄像头下的最优轨迹排名,并能够通过轨迹中的图片帧号,可以搜索到视频中该轨迹,并进行实时播放。
实施例五
本发明实施例提供的这种基于多模态的跨镜追踪检索系统,应用于如下两种场景,分别是行人轨迹搜索轨迹和行人图片搜素行人图片,利用数据库中的轨迹ID,行人特征、人脸特征,行人属性和摄像头位置信息,来进行轨迹和图片快速准确的检索,利用不同特征之间的约束,来达到精确匹配的效果。
该轨迹匹配的任务目的是:任意选中一个已抽取的轨迹,根据多模态特征进行检索,在同一个视频内以及视频间匹配出与其相关的所有轨迹。
具体实施步骤如下:
在步骤S11中,确定检索区域,并获取该区域监控的离线视频,该区域可以是商场、写字楼、居民小区和社区等相对固定的场所,并且该离线视频应该是某一时间段的,至少是同一天的监控视频。将视频保存到本地,并标记摄像头ID、位置和起始时间,在本实例中,选取三个不同角度的镜头,摄像头ID为C0、C1和C2。
在步骤S12中,对各个摄像头下的离线视频进行行人检测、轨迹追踪。相应的行人轨迹图片以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ),保存在以轨迹ID命名的子文件夹下。这里行人检测模型采用的是SSD算法来获取当前帧行人的位置框和边界框,采用匈牙利追踪算法获取行人轨迹。
在步骤S13中,对上步获取的行人轨迹,使用行人质量分析模型,这里采用的是人体骨骼关键点检测算法,通过骨骼关键点的个数来判别行人的完整性,对于有较多行人图片的轨迹,提取该轨迹中质量较好且时间较分散的5张图片,作为top5行人轨迹。
在步骤S14中,分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征,特征提取完成,把三种特征和(轨迹ID、视频帧号、时间、地点)保存到信息检索数据库中。
在步骤S15中,在该步完成轨迹匹配和图匹配。在选取视频内匹配和视频间匹配优先级时,考虑到视频内的图像是同源数据,在进行匹配时更能保证准确性,所以优先处理视频内的轨迹匹配。同时在选用特征的作用优先级时,考虑到人脸特征是行人最为鲁棒的特征,优先进行人脸特征的比对,根据S14步骤中存储的结构性特征,并根据不同特征作用的先后、视频内轨迹匹配及视频间轨迹匹配的优先级,匹配工作的流程如下:
1)首先进行视频内的轨迹匹配,首先使用目标轨迹的人脸特征,与其它含有人脸特征的轨迹进行批量化的特征比对,若能完成特征匹配,并在行人特征比对和行人属性的批量特征比对时有一定的相关性,则认为轨迹能够匹配成功。其次将匹配到的轨迹与目标轨迹结合作为第二行人轨迹,在剩余的轨迹内进行查询,查询算法为使用行人特征和行人属性特征的批量特征比对,在该过程中将使用重排序算法进行轨迹匹配。该过程充分结合初步查询的稳定轨迹,使第二行人轨迹中包含更多姿态和角度的样本,使该过程的查询更加的稳定。至此完成了视频内的轨迹匹配。
2)然后进行视频间的轨迹匹配,与视频内的轨迹匹配较类似,也要首先使用query中的人脸特征与时空约束中的临近节点中的行人轨迹进行批量特征匹配。然后利用结合了初次匹配到的样本作为query在临近节点中进行再次查询。不同的是,考虑到跨镜过程中数据源的变化,该过程中特征比对的阈值将适当降低。
3)以行人图片搜索行人图片,对传入的待查询图片要进行结构化的特征提取,通过进行行人检测、行人特征提取、行人属性识别及人脸检测、人脸特征提取完成其特征结构化。在进行以图搜图时,首先在可疑节点的视频轨迹内进行查询,查询到目标轨迹后,后续将使用轨迹匹配的算法进行进一步查询。
若在可疑节点没有查询到目标行人,则进一步扩大范围,在临近节点内进行全量查询,若能确定大致时间范围,则可疑进一步增加检索的效率和准确性。
至此,本实例已完成以行人轨迹匹配搜素轨迹和以行人图片搜索行人图片的过程。
综上所述,本发明实施例采用以下技术方案:
步骤11)、在进行行人轨迹提取时,对行人图片自动标注轨迹ID、时间信息和位置信息,在后续跨镜检索的时候可以利用轨迹ID、图片帧号、时间和空间信息。同时,该系统还能够同时对多个镜头下的多个视频进行轨迹提取。
步骤12)、行人质量分析模块,采用的是人体骨骼关键点检测技术,通过该技术选取几个关键点,通过检测到的关键点个数来判断行人的完整性,会输出一个完整性得分,通过该得分提取一些质量较差的行人图片(这样会去除一些遮挡较为严重的行人图片),然后在利用图片的时间信息选取轨迹中5张时间间隔较大的图片(因为相邻帧图片之间的行人姿态变化较小,多个不同姿态同一个行人的轨迹特征更具有判别性,同时五张图片可以减少轨迹匹配的计算量)。
步骤13)、本发明结合了行人多目标跟踪、关键点骨骼检测、行人重识别、行人属性结构化、人脸识别和摄像机的拓扑时空约束等多模态信息的融合来实现跨摄像头下的行人追踪检索方案。
步骤14)、利用多模态信息融合后的特征来更好的实现跨镜头下行人轨迹搜索行人轨迹,行人图片搜索行人轨迹的目标,最终实现跨镜追踪。
步骤15)、在进行目标行人的跨镜追踪时,可能面临巨大的数据量,进行全量搜索查询几乎是不可能的。本系统将摄像机的时空拓扑关系与目标的外观表现模型匹配算法进行结合,使用摄像机网络拓扑的图结构分析行人移动和转移的规律,从而对行人的跨镜追踪进行时空约束。
步骤16)、采用一批标注好的实际场景的数据集来优化各个模态之间的权重参数来达到跨镜追踪检索的最优效果。
本发明实施例提出的一种行人追踪方法、设备和存储介质,可以自动完成跨镜追踪检索,打破单一固定摄像头的视角局限,同时也避免了手动回放大量监控视频来搜寻检索目标,极大地提高了检索效率,并且提高了追踪范围。多模态信息的利用,该跨镜检索特征综合了多种模态信息,包括人脸、行人、属性和时空信息,形成了多模态特征的互补,综合后的特征更具有特征判别性,在进行跨镜追踪检索时具有更好的鲁棒性,同时提高了检索精度。该系统能够通过测试集能够自适应的调整多模态权重参数,这样在很大的程度上解决了摄像头的跨域问题,通过参数的调整能够更好的适应不同的监控场景。该系统具有较好的人机交互界面,能够界面化的配置摄像头位置信息,模态权重参数信息,能够通过按键操作,行人追踪,特征提取和特征入库,界面化操作轨迹检索轨迹,行人图片搜索轨迹,界面显示最优轨迹,不同摄像头下的轨迹搜索排名,并能够进行轨迹播放。数据库信息可视化,非常便于操作使用。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种行人追踪方法,其特征在于,所述方法包括以下步骤:
对预设监控摄像头采集的视频画面进行行人轨迹分析,生成行人轨迹图片集;
对所述行人轨迹图片集进行多模态特征提取,并形成行人多模态数据库;
将所述行人多模态数据库输入到训练好的多模态识别系统中,进行行人追踪,生成行人在预设监控摄像头中的移动轨迹。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收目标行人轨迹,提取所述目标行人的多模态特征,并在所述行人多模态数据库中查找与所述目标行人的多模态特征匹配的第一行人轨迹;
将所述目标行人轨迹和所述第一行人轨迹合并生成第二行人轨迹,在所述行人多模态数据库中查询与所述第二行人轨迹匹配的行人轨迹;
根据与所述第二行人轨迹匹配的行人轨迹,生成所述目标行人在预设监控摄像头中的移动轨迹。
3.根据权利要求1所述的方法,其特征在于,还包括从所述行人轨迹图片集选取质量参数在预设范围内的图像,并对所述选取的质量参数在预设范围内的图像进行特征提取。
4.根据权利要求1所述的方法,其特征在于,根据训练集对所述多模态识别系统中各模态参数的影响因子进行调整,得到所述训练好的多模态识别系统。
5.根据权利要求1所述的方法,其特征在于,所述行人轨迹图片集中的图片名称包括:轨迹ID、视频帧号、所述图片拍摄时间、地点信息。
6.根据权利要求1所述的方法,其特征在于,所述生成行人在预设监控摄像头中的移动轨迹包括:
根据所述监控摄像机分布拓扑的图结构进行行人的移动规律分析。
7.根据权利要求1-6任一所述的方法,其特征在于,所述多模态特征包括以下一种或多种:行人特征、人脸特征和行人属性特征。
8.根据权利要求7所述的方法,其特征在于,所述行人特征包括以下一种或多种:高矮胖瘦的体型特征和姿势特征;所述人脸特征信息包括以下一种或多种:脸型特征、脸部表情特征和肤色特征;所述行人属性信息包括以下一种或多种:发型长短、发型颜色、服装款式、服装颜色以及携带物品。
9.一种行人追踪的设备,其特征在于,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1-8任一项所述的基于多模态检索的行人追踪的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至8中任一项所述的基于多模态检索的行人追踪的方法的步骤。
CN202010603573.9A 2020-06-29 2020-06-29 一种行人追踪方法、设备和存储介质 Pending CN113935358A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010603573.9A CN113935358A (zh) 2020-06-29 2020-06-29 一种行人追踪方法、设备和存储介质
US18/013,874 US20230351794A1 (en) 2020-06-29 2021-06-28 Pedestrian tracking method and device, and computer-readable storage medium
PCT/CN2021/102652 WO2022001925A1 (zh) 2020-06-29 2021-06-28 行人追踪方法和设备,及计算机可读存储介质
EP21833495.1A EP4174716A4 (en) 2020-06-29 2021-06-28 PEDESTRIAN TRACKING METHOD AND APPARATUS AND COMPUTER READABLE STORAGE MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010603573.9A CN113935358A (zh) 2020-06-29 2020-06-29 一种行人追踪方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113935358A true CN113935358A (zh) 2022-01-14

Family

ID=79272756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010603573.9A Pending CN113935358A (zh) 2020-06-29 2020-06-29 一种行人追踪方法、设备和存储介质

Country Status (4)

Country Link
US (1) US20230351794A1 (zh)
EP (1) EP4174716A4 (zh)
CN (1) CN113935358A (zh)
WO (1) WO2022001925A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994925A (zh) * 2023-02-14 2023-04-21 成都理工大学工程技术学院 一种基于关键点检测的多行人快速跟踪方法
CN117237418A (zh) * 2023-11-15 2023-12-15 成都航空职业技术学院 一种基于深度学习的运动目标检测方法和系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666403A (zh) * 2022-02-18 2022-06-24 国政通科技有限公司 一种基于目标轨迹的警务信息推送系统及方法
CN115830076B (zh) * 2023-02-21 2023-05-09 创意信息技术股份有限公司 一种人员轨迹视频智能分析系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8325981B2 (en) * 2009-04-21 2012-12-04 Nec Soft, Ltd. Human tracking apparatus, human tracking method, and human tracking processing program
US10095954B1 (en) * 2012-01-17 2018-10-09 Verint Systems Ltd. Trajectory matching across disjointed video views
CN108629791B (zh) * 2017-03-17 2020-08-18 北京旷视科技有限公司 行人跟踪方法和装置及跨摄像头行人跟踪方法和装置
CN107657232B (zh) * 2017-09-28 2020-07-14 南通大学 一种行人智能识别方法及其系统
CN108229456B (zh) * 2017-11-22 2021-05-18 深圳市商汤科技有限公司 目标跟踪方法和装置、电子设备、计算机存储介质
CN110188691A (zh) * 2019-05-30 2019-08-30 银河水滴科技(北京)有限公司 一种移动轨迹确定方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994925A (zh) * 2023-02-14 2023-04-21 成都理工大学工程技术学院 一种基于关键点检测的多行人快速跟踪方法
CN115994925B (zh) * 2023-02-14 2023-09-29 成都理工大学工程技术学院 一种基于关键点检测的多行人快速跟踪方法
CN117237418A (zh) * 2023-11-15 2023-12-15 成都航空职业技术学院 一种基于深度学习的运动目标检测方法和系统

Also Published As

Publication number Publication date
EP4174716A4 (en) 2023-12-27
US20230351794A1 (en) 2023-11-02
EP4174716A1 (en) 2023-05-03
WO2022001925A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
KR102415632B1 (ko) 정보처리장치, 정보처리방법 및 기억매체
CN113935358A (zh) 一种行人追踪方法、设备和存储介质
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN104303193B (zh) 基于聚类的目标分类
Kalra et al. Dronesurf: Benchmark dataset for drone-based face recognition
US8130285B2 (en) Automated searching for probable matches in a video surveillance system
JP6172551B1 (ja) 画像検索装置、画像検索システム及び画像検索方法
CN111241932A (zh) 汽车展厅客流检测与分析系统、方法及存储介质
CN110428449A (zh) 目标检测跟踪方法、装置、设备及存储介质
CN110889314B (zh) 图像处理方法、装置、电子设备、服务器及系统
CN110334231A (zh) 一种信息处理方法及装置、存储介质
KR20160109761A (ko) 건설현장 맞춤형 이미지 분석기술을 활용한 중장비/근로자 인식 및 추적 방법 및 시스템
CN112183353A (zh) 一种图像数据处理方法、装置和相关设备
CN110969644A (zh) 人员轨迹追踪方法、装置及系统
JPWO2011145239A1 (ja) 位置推定装置、位置推定方法及びプログラム
KR20220024736A (ko) 시각적 포지셔닝 방법 및 관련 장치
US20240111835A1 (en) Object detection systems and methods including an object detection model using a tailored training dataset
KR102250712B1 (ko) 전자 장치 및 제어 방법
Sinha et al. Image retrieval using landmark indexing for indoor navigation
CN110991316B (zh) 一种运用于开放环境的形体和身份信息自动采集的方法
CN114035482A (zh) 一种楼宇智能监控系统及监控方法
KR102426594B1 (ko) 크라우드소싱 환경에서 객체의 위치를 추정하는 시스템 및 방법
Di Bono et al. Multimedia target tracking through feature detection and database retrieval
Nguyen et al. Tracking customers in crowded retail scenes with siamese tracker
Liu Research on Face Tracking Recognition System Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination