CN116958195A

CN116958195A - 物件追踪整合方法及整合装置

Info

Publication number: CN116958195A
Application number: CN202210491925.5A
Authority: CN
Inventors: 郭峻因; 赖志昇
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2022-04-13
Filing date: 2022-05-07
Publication date: 2023-10-27
Also published as: US20230334675A1; TW202341006A; JP7360520B1; JP2023156963A

Abstract

本发明公开一种物件追踪整合方法及整合装置。在方法中，取得一张或更多张第一图像及一张或更多张第二图像。第一图像是来自第一图像撷取装置，且第二图像是来自第二图像撷取装置。侦测第一图像及第二图像中的一个或更多个目标物件。匹配第一图像中的目标物件的侦测结果及第二图像中的目标物件的侦测结果。依据第一图像的侦测结果及第二图像的侦测结果之间的匹配结果更新目标物件的侦测结果。由此，可提升关联准确度及监视范围。

Description

物件追踪整合方法及整合装置

技术领域

本发明涉及一种图像侦测技术，且特别涉及一种物件追踪整合方法及整合装置。

背景技术

近年来，诸如通信、感测、半导体等技术快速发展。如何利用这些先进技术来解决现存问题是热门的研究及开发主题之一。在我们的日常生活中，为了安全相关问题，道路、店家、公司或住家装载有监视系统，以方便监视特定区域。虽然使用者可即时观看监视画面，但人工监视的成本高，且人为的疏忽难以避免。

值得注意的是，现有图像识别技术可助于侦测特定目标。然而，受限于拍摄视野，可能需要布建多台图像撷取装置(例如，相机或摄影机)。此外，不同相机或摄影机所拍摄到的图像也没有进一步整合，尚需要人工确认不同图像之间的关联性。

发明内容

有鉴于此，本发明实施例提供一种物件追踪整合方法及整合装置，可将来自多图像撷取装置的图像中所侦测到的目标相关联，进而提升监视范围。

本发明一实施例的物件追踪整合方法包括(但不仅限于)下列步骤：取得一张或更多张第一图像及一张或更多张第二图像。第一图像是来自第一图像撷取装置，且第二图像是来自第二图像撷取装置。侦测第一图像及第二图像中的一个或更多个目标物件。匹配第一图像中的目标物件的侦测结果及第二图像中的目标物件的侦测结果。依据第一图像的侦测结果及第二图像的侦测结果之间的匹配结果更新目标物件的侦测结果。

本发明一实施例的整合装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以载入并执行程序代码以执行：取得一张或更多张第一图像及一张或更多张第二图像，侦测第一图像及第二图像中的一个或更多个目标物件，匹配第一图像中的目标物件的侦测结果及第二图像中的目标物件的侦测结果，并依据第一图像的侦测结果及第二图像的侦测结果之间的匹配结果更新目标物件的侦测结果。第一图像是来自第一图像撷取装置，且第二图像是来自第二图像撷取装置。

基于上述，根据本发明实施例的物件追踪整合方法及整合装置，融合来自不同图像撷取装置的图像的侦测结果。由此，可提升监视覆盖率，并改善单一图像撷取装置的监视死角。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附的附图作详细说明如下。

附图说明

图1是本发明一实施例的系统的元件方块图；

图2是本发明一实施例的物件追踪整合方法的流程图；

图3A是本发明一实施例的路侧单元(Road Side Unit，RSU)的示意图；

图3B是本发明一实施例的侦测结果的示意图；

图4是本发明一实施例的多尺寸侦测的示意图；

图5是本发明一实施例的侦测结果与追踪结果的边界框(bounding box)的示意图；

图6是本发明一实施例的轨迹匹配的示意图；

图7A是本发明一实施例的第一图像的侦测结果的示意图；

图7B是本发明一实施例的第二图像的侦测结果的示意图；

图8是本发明一实施例的物件匹配的示意图。

符号说明

1:系统

20、30:图像撷取装置

100:整合装置

110:存储器

130:通信收发器

150:处理器

S210～S240:步骤

R1、R2:路侧单元

O1～O6:目标物件

T1、T2:轨迹

t1、t2:时间点

SR:容许范围

具体实施方式

图1是依据本发明一实施例的系统1的元件方块图。请参照图1，系统1包括(但不仅限于)第一图像撷取装置20、第二图像撷取装置30及整合装置100。需说明的是，图1以两台图像撷取装置作为范例说明，然而其数量不以此为限。

第一图像撷取装置20和第二图像撷取装置30可以是相机、摄影机、监视器、智能型手机或具备图像撷取功能的路侧单元，并据以撷取指定视野内的图像。

整合装置100可以是智能型手机、平板电脑、服务器、云端主机或电脑主机。整合装置100包括(但不仅限于)存储器110通信收发器130及处理器150。

存储器110可以是任何型态的固定或可移动随机存取存储器(Radom AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存存储器(flash memory)、传统硬盘(Hard Disk Drive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似元件。在一实施例中，存储器110用以存储程序代码、软件模块、组态配置、数据(例如，图像、侦测结果等)或文件，并待后文详述其实施例。

通信收发器130可以是支持诸如第四代(4G)或其他世代移动通信、Wi-Fi、蓝牙、红外线、无线射频识别(Radio Frequency Identification，RFID)、乙太网络(Ethernet)、光纤网络等通信收发器、序列通信界面(例如RS-232)，也可以是通用串列总线(UniversalSerial Bus，USB)、Thunderbolt或其他通信传输界面。在本发明实施例中，通信收发器130用以与其他电子装置(例如，图像撷取装置20、30)传送或接收数据。

处理器150耦接存储器110及通信收发器130。处理器150可以是中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processing unit，GPU)，或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可编程控制器、现场可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit，ASIC)、神经网络加速器或其他类似元件或上述元件的组合。在一实施例中，处理器150用以执行整合装置100的所有或部分作业，且可载入并执行存储器110所存储的各程序代码、软件模块、文件及数据。在一些实施例中，处理器150的功能可通过软件或芯片实现。

在一些实施例中，第一图像撷取装置20及第二图像撷取装置30中的任一个可与整合装置100整合成独立装置。

下文中，将搭配系统1中的各项装置、元件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而随之调整，且并不仅限于此。

图2是依据本发明一实施例的物件追踪整合方法的流程图。请参照图2，处理器150取得一张或更多张第一图像及一张或更多张第二图像(步骤S210)。具体而言，第一图像是来自于第一图像撷取装置20，且第二图像是来自于第二图像撷取装置30。第一图像撷取装置20的拍摄视角及/或拍摄方向不同于第二图像撷取装置30。第一图像撷取装置20的拍摄范围与第二图像撷取装置30的拍摄范围至少有部分重叠。

举例而言，图3A是依据本发明一实施例的路侧单元(Road Side Unit，RSU)R1、R2的示意图。请参照图3A，路侧单元R1、R2设于十字路口的对角两处。两路侧单元R1、R2上的图像撷取装置的重叠拍摄范围(如图中的两个三角形)大致涵盖四条斑马线。须说明的是，图3A的拍摄范围仅是作为范例说明，其形状、大小、位置及设置环境可能改变。例如，第一图像撷取装置20和第二图像撷取装置30是卖场、大厅或停车场的监视器，并可能设置于任何位置。

处理器150侦测一张或更多张第一图像及一张或更多张第二图像中的一个或更多个目标物件(步骤S220)。具体而言，目标物件可以是人、动物、车辆、机器或其他特定物。针对单一帧(frame)的图像，可利用物件侦测技术。物件侦测的演算法有很多种。例如，YOLO(You Only Look Once)、SSD(Single Shot Detector)或R-CNN。针对多张连续图像，可利用(多)物件追踪技术。物件追踪的主要功能在于追踪前后图像帧所框选的相同物件。物件追踪的演算法也有很多种。例如，光流法(optical flow)、SORT(Simple Online andRealtime Tracking)或Deep SORT、联合检测及嵌入向量(Joint Detection andEmbedding，JDE)。

在一实施例中，目标物件的侦测结果包括目标物件的代表信息。例如，物件类型、边界框、识别码及/或坐标。以路侧单元应用为例的话，物件类型可以是行人、脚踏车、机车、汽车及大型车。边界框(或称感兴趣区域(Region of Interest，ROI))是用于框选图像中目标物件的区域。在一实施例中，边界框可以不同颜色呈现在图像上，例如，黑色、红色、蓝色、黄色及/或绿色等。识别码(或称编号)是以特定编码形式区别不同物件类型或目标物件。坐标是第一图像或第二图像中的像素坐标，并可位于边界框涵盖范围内的任一个位置。

举例而言，图3B是依据本发明一实施例的侦测结果的示意图。请参照图3，以路侧单元的设置环境为例，左右两图分别是第一图像及第二图像。两张图像都分别侦测到目标物件O1(以行人为例)及目标物件O2(以汽车为例)。在一实施例中，例如，标号「O1」及「O2」可以作为两者的识别码。

在一实施例中，处理器150可基于自一张第一图像中裁切出(小)兴趣区域，以产生仅有这兴趣区域的裁切图像。即，裁切图像是受裁切的图像中的一部分。这裁切图像可用于侦测较小目标物件。处理器150可通过基于深度学习的检测模型分别检测第一图像与裁切图像中的一个或更多个目标物件，并合并第一图像及裁切图像中对于目标物件的侦测结果。例如，取两图像的侦测结果的联集。在合并过程中，若有任一个相同目标物件同时在第一图像及裁切图像中侦测到，则并交比(Intersection over Union，IoU)可能难以通过非最大抑制(non-maximum suppression，NMS)演算法滤除。因此，处理器150可自裁切图像的侦测结果中排除邻近边界(near-border)侦测。接着，处理器150可再利用最大抑制演算法得出两者的最终结果。需说明的是，前述第一图像可置换成第二图像，于此不再赘述。

图4是依据本发明一实施例的多尺寸侦测的示意图。请参照图4，输入图像中的下图是上图的裁切图像。侦测模型可分别对两张图像推论，以得出侦测结果。如推论结果(即，侦测结果)的下图所示，相较于上图，更多侦测出三台汽车(如图中黑色边界框所标记)。排除重复侦测之后，最终的合并结果即是五台汽车(如图中黑色边界框所标记)。

值得注意的是，在一些高速移动的环境(例如，道路、或铁路)中，物件追踪的侦测结果可能不稳定。举例而言，图5是依据本发明一实施例的侦测结果与追踪结果的边界框(bounding box)的示意图。请参照图5，追踪结果的边界框可能有部分没有正确地贴近目标物件(以汽车为例)的边缘。在一实施例中，针对与侦测匹配的追踪，处理器150可利用物件侦测所得的边界框取代物件追踪所得的边界框。而针对与侦测未匹配的追踪，处理器150可利用卡门(Kalman)滤波器预测其位置。此外，针对不同物件类型，处理器150可依据相似性分配到不同组，以利于稳定追踪的识别。

在一实施例中，侦测结果包括像素位置。处理器150可利用单应性转换(homography transformation)将一个或更多个目标物件在一张或更多张第一图像及一张或更多张第二图像中的像素位置转换成一个共用空间上的位置和移动速度。具体而言，由于图像撷取装置20、30的拍摄视角及/或拍摄方向不同，为了后续匹配(关联或融合)的需求，目标物件在图像中的位置可转换到共用的空间(或坐标系)。

共用空间以经纬度坐标系为例，坐标转换的公式如下：

S为单应性转换后的比例因素(scaling factor)，u、v为像素坐标，H为由经纬度坐标转换至像素坐标的单应性矩阵(h₁₁、h₁₂、h₁₃、h₂₁、h₂₂、h₂₃、h₃₁、h₃₂、h₃₃是矩阵中的元素)，且x、y为对应于u、v的经纬度坐标。单应性矩阵可由已知的像素坐标及对应的经纬度坐标得出。接着，通过反矩阵来将像素坐标转换成经纬度坐标。须说明的是，共用空间还可能是其他二维或三维空间或坐标系。例如，球极坐标系或其他地理坐标系。

决定共用空间的位置(或坐标)之后，处理器150可基于前后帧的图像决定移动距离、轨迹及移动速度。此外，处理器150还可将目标物件的轨迹或位置映射到电子地图上。

请参照图2，处理器150匹配一张或更多张第一图像中的一个或更多个目标物件的侦测结果及一张或更多张图像中的一个或更多个目标物件的侦测结果(步骤S230)。举例而言，图6是依据本发明一实施例的轨迹匹配的示意图。请参照图6，目标物件O3、O4的轨迹T1、T2映射到电子地图上可能有差异。处理器130可判断两轨迹T1、T2的相似度，并据以确定是否为相同目标物件。

在一实施例中，处理器150可判断自第一图像或第二图像所侦测到的目标物件中的第一物件的代表信息。这代表信息可以是前述侦测结果所得出的物件类型、边界框、识别码、移动速度、轨迹及/或坐标。

处理器150可依据第一物件的代表信息判断第一物件是否为已追踪目标。处理器150可依据物件类型或识别码对第一物件进行分类。须说明的是，依据不同需求，物件类型可能相关于多种外观特征。以人为例，肤色、性别、身高或胖瘦。以车为例，厂牌、车型、颜色或型号。

另一方面，已追踪目标是自第一图像及/或第二图像中的已匹配或尚未匹配的目标物件。已匹配是指确认两图像中的目标物件为同一者。尚未匹配是指任一图像中的目标物件无法在另一图像中找到相同者。处理器150可比对第一物件的代表信息及已追踪目标的代表信息之间的相同或相似度。例如，处理器150可确认第一物件的物件类型是否相同于已追踪目标，再进一步比对两者的位置、速度及/或轨迹。

处理器150可依据已追踪目标的判断结果匹配目标物件的侦测结果。反应于第一物件不为已追踪目标(即，第一物件为先前尚未出现的目标)，处理器150可判断第一图像中的第一物件是否为第二图像中的第二物件。即，进行多图像撷取装置的目标匹配。

在一实施例中，除了诸如物件类型、边界框或识别码的比对，处理器150可依据第一图像中的第一物件的轨迹及移动速度决定容许范围。处理器150可由前后图像的比对决定轨迹及移动速度。处理器150可将第一物件的轨迹的最后位置作为中心并向外延伸，以形成容许范围。例如，向外延伸的距离是移动速度与第一图像及第二图像之间的拍摄时间差的乘积。处理器150可判断第二图像中的第二物件是否在容许范围内。这容许范围是为了轨迹估测的误差及/或时间差内的移动。若第二物件位于这容许范围内，则处理器150可将这第二物件与第一物件为同一者。而若第二物件未位于这容许范围内，则处理器150可将这第二物件视为与第一物件不同者。相似地，处理器150也可基于第二图像中的第二物件决定另一容许范围，并判断第一图像中的第一物件是否在这容许范围内。

举例而言，图7A是依据本发明一实施例的第一图像的侦测结果的示意图，且图7B是依据本发明一实施例的第二图像的侦测结果的示意图。请参照图7A，时间点t1有目标物件O6，且时间点t2出现目标物件O5。请参照图7B，时间点t2出现目标物件O5。

图8是依据本发明一实施例的物件匹配的示意图。请参照图8，以第二图像为例，目标物件O5在时间点t1至时间点t2的轨迹的最后位置(例如，时间点t2的所在位置)向外延伸的圆形作为容许范围SR。假设物件O5的移动速度为每秒10米且第一图像及第二图像之间的拍摄时间差为0.1秒，则容许范围SR的半径可以是1米。第一图像中的目标物件O5位于容许范围SR内，因此两图像中的目标物件O5视为同一者。而目标物件O6并没有位于容许范围SR内，因此目标物件O5、O6视为不同者。

在一实施例中，处理器150可利用组合最佳化演算法配对一张或更多张第一图像中的一个或更多个目标物件及一张或更多张第二图像中的一个或更多个目标物件。组合最佳化演算法例如是匈牙利演算法、K-M演算法(Kuhn-Munkres Algorithm)或是对偶方法。举例而言，针对第一图像及第二图像中的任一轨迹的最后位置，处理器150可利用半正矢(haversine)公式计算两个位置的经纬度坐标之间的距离，并据以决定距离花费矩阵。距离花费表示任一位置到另一位置所花费的距离。处理器150可设定最大距离门槛值并使用匈牙利演算法判断第一图像及第二图像中的轨迹是否匹配或能配对。

请参照图2，处理器150可依据该一张或更多张第一图像的侦测结果及一张或更多张第二图像的侦测结果之间的匹配结果更新目标物件的侦测结果(步骤S240)。在一实施例中，反应于第一物件为已追踪目标，处理器150可更新已追踪目标的位置。例如，将第一物件的位置作为更新已追踪目标的最终位置，并据以更新移动速度、轨迹等信息。

在一实施例中，反应于第一物件不为已追踪目标且第一物件与第二物件为相同者，处理器150可整合这两物件的代表信息，并作为新的单一已追踪目标。例如，取两者的位置中间点为最终位置，且使用相同识别码。

在一实施例中，反应于第一物件不为已追踪目标且第一物件与第二物件为不同者，处理器150可分别将两物件作为新的两个已追踪目标。

须说明的是，前述以两台图像撷取装置的图像整合作为范例说明。然而，依据发明精神，可延伸至更多图像整合。

综上所述，在本发明实施例的物件追踪整合方法及整合装置中，可匹配来自不同图像撷取装置的图像中的目标物件。其中，利用共用空间上的位置、轨迹及移动速度进行目标匹配(关联)，也可更新已追踪目标。由此，可提升匹配准确度，并能通过多图像撷取装置来提升监视覆盖面积。此外，可避免单一图像撷取装置因物件重叠而遗漏侦测。本发明实施例还能应用在诸如交通管理、商家监控、工作监控等应用场景。

虽然结合以上实施例公开了本发明，然而其并非用以限定本发明，任何所属技术领域中普通技术人员，在不脱离本发明的精神和范围内，可作些许的更动与润饰，故本发明的保护范围应当以所附的权利要求所界定的为准。

Claims

1.一种物件追踪整合方法，包括：

取得至少一第一图像及至少一第二图像，其中该至少一第一图像是来自第一图像撷取装置，且该至少一第二图像是来自第二图像撷取装置；

侦测该至少一第一图像及该至少一第二图像中的至少一目标物件；

匹配该至少一第一图像中的该至少一目标物件的侦测结果及该至少一第二图像中的该至少一目标物件的侦测结果；以及

依据该至少一第一图像的侦测结果及该至少一第二图像的侦测结果之间的匹配结果更新该至少一目标物件的侦测结果。

2.如权利要求1所述的物件追踪整合方法，其中该侦测结果包括像素位置，且侦测该至少一第一图像及该至少一第二图像中的至少一目标物件的步骤包括：

利用单应性转换(homography transformation)将该至少一目标物件在该至少一第一图像及该至少一第二图像中的像素位置转换成共用空间上的位置和移动速度。

3.如权利要求1所述的物件追踪整合方法，其中匹配该至少一第一图像中的该至少一目标物件的侦测结果及该至少一第二图像中的该至少一目标物件的侦测结果的步骤包括：

利用组合最佳化演算法配对该至少一第一图像中的该至少一目标物件及该至少一第二图像中的该至少一目标物件。

4.如权利要求1所述的物件追踪整合方法，其中匹配该至少一第一图像中的该至少一目标物件的侦测结果及该至少一第二图像中的该至少一目标物件的侦测结果的步骤包括：

判断该至少一目标物件中的第一物件的代表信息；

依据该第一物件的代表信息判断该第一物件是否为已追踪目标；以及

依据该已追踪目标的判断结果匹配该至少一目标物件的侦测结果。

5.如权利要求4所述的物件追踪整合方法，其中该代表信息包括物件类型、边界框、识别码及坐标中的至少一者。

6.如权利要求4所述的物件追踪整合方法，其中更新该至少一目标物件的侦测结果的步骤包括：

反应于该第一物件为该已追踪目标，更新该已追踪目标的位置。

7.如权利要求4所述的物件追踪整合方法，其中匹配该至少一第一图像中的该至少一目标物件的侦测结果及该至少一第二图像中的该至少一目标物件的侦测结果的步骤包括：

反应于该第一物件不为该已追踪目标，判断该至少一第一图像中的该第一物件是否为该至少一第二图像中的第二物件。

8.如权利要求7所述的物件追踪整合方法，其中判断该至少一第一图像中的该第一物件是否为该至少一第二图像中的该第二物件的步骤包括：

依据该至少一第一图像中的该第一物件的轨迹及移动速度决定容许范围；以及

判断该第二图像中的该第二物件是否在该容许范围内。

9.如权利要求1所述的物件追踪整合方法，其中侦测该至少一第一图像中的该至少一目标物件的步骤包括：

自该第一图像中裁切出兴趣区域，以产生仅该兴趣区域的裁切图像；

合并该第一图像及该裁切图像中对于该至少一目标物件的侦测结果。

10.如权利要求1所述的物件追踪整合方法，其中侦测该至少一第一图像中的该至少一目标物件的步骤包括：

利用物件侦测所得的边界框取代物件追踪所得的边界框。

11.一种整合装置，包括：

存储器，用以存储程序代码；以及

处理器，耦接该存储器，经配置用以载入并执行该程序代码以执行：

12.如权利要求11所述的整合装置，其中该侦测结果包括像素位置，且该处理器还经配置用以：

13.如权利要求11所述的整合装置，其中该处理器还经配置用以：

14.如权利要求11所述的整合装置，其中该处理器还经配置用以：

判断该至少一目标物件中的第一物件的代表信息；

15.如权利要求14所述的整合装置，其中该代表信息包括物件类型、边界框、识别码及坐标中的至少一者。

16.如权利要求14所述的整合装置，其中该处理器还经配置用以：

17.如权利要求14所述的整合装置，其中该处理器还经配置用以：

18.如权利要求17所述的整合装置，其中该处理器还经配置用以：

判断该第二图像中的该第二物件是否在该容许范围内。

19.如权利要求11所述的整合装置，其中该处理器还经配置用以：

20.如权利要求11所述的整合装置，其中该处理器还经配置用以：

利用物件侦测所得的边界框取代物件追踪所得的边界框。