CN111401111A

CN111401111A - 物件追踪系统、物件追踪方法与非暂态计算机可读介质

Info

Publication number: CN111401111A
Application number: CN201910005225.9A
Authority: CN
Inventors: 虞登翔; 吴彦兴
Original assignee: Realtek Semiconductor Corp
Current assignee: Realtek Semiconductor Corp
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2020-07-10

Abstract

本公开涉及物件追踪系统、物件追踪方法与非暂态计算机可读介质。物件追踪方法包含下列操作：基于一深度学习模型检测一物件在一第一视频帧中的一第一区域，以根据该第一视频帧与该第一区域预测该物件于一预测视频帧中的一预测区域；基于该深度学习模型检测该物件在一第二视频帧中的一第二区域；以及计算该预测区域以及该第二区域之间的一关联性，以追踪该物件。

Description

物件追踪系统、物件追踪方法与非暂态计算机可读介质

技术领域

本案是有关于一种物件追踪系统与方法，且特别是有关于应用于丢帧运算的物件追踪系统、方法与非暂态计算机可读介质。

背景技术

近年来，人工智能技术的相关应用与日俱增。例如，应用于如图像和语音识别等等领域。在图像识别中，目前的技术需要直接输入原始视频数据来进行辨识。如此，需处理的数据量过大，耗费较多系统效能。

发明内容

为了解决上述问题，本案之一些方式提供一种物件追踪系统，其包含存储器与处理器。存储器用以储存至少一计算机程序码。处理器用以储存该至少一计算机程序码，以执行下列操作：基于一深度学习模型检测一物件在一第一视频帧中的一第一区域，以根据该第一视频帧与该第一区域预测该物件于一预测视频帧中的一预测区域；基于该深度学习模型检测该物件在一第二视频帧中的一第二区域；以及计算该预测区域以及该第二区域之间的一关联性，以追踪该物件。

本案之一些方式提供一种物件追踪方法，其包含下列操作：基于一深度学习模型检测一物件在一第一视频帧中的一第一区域，以根据该第一视频帧与该第一区域预测该物件于一预测视频帧中的一预测区域；基于该深度学习模型检测该物件在一第二视频帧中的一第二区域；以及计算该预测区域以及该第二区域之间的一关联性，以追踪该物件。

本案之一些方式提供一种非暂态计算机可读介质，其具有一计算机程序，其中该计算机程序被一处理器执行时，使该处理器执行复数个操作，且该些操作包含：基于一深度学习模型检测一物件在一第一视频帧中的一第一区域与该物件在一第二视频帧中的一第二区域；根据该第一区域预测该物件于该第一视频帧与该第二视频帧之间的一预测视频帧中的一预测区域；以及计算该预测区域以及该第二区域之间的一关联性，以追踪该物件。

综上所述，本案实施例提供的物件追踪系统、方法与非暂态计算机可读介质可利用丢帧运算的方式来持续追踪物件，以达到降低数据运算量的效果。

附图说明

本案附图说明如下：

图1为根据本案的一些实施例所绘示的物件追踪系统的示意图；

图2为根据本案的一些实施例所绘示的一种物件追踪方法的流程图；以及

图3A为根据本案一些实施例所绘示多个原始视频帧、延迟视频帧之间的关系示意图；

图3B为根据本案一些实施例所绘示检测物件的操作示意图；以及

图4为根据本案一些实施例所绘示根据图3B的预测区域与第二区域执行图2中一操作的示意图。

具体实施方式

本文所使用的所有词汇具有其通常的意义。上述之词汇在普遍常用之字典中之定义，在本说明书的内容中包含任一于此讨论的词汇之使用例子仅为示例，不应限制到本公开内容之范围与意义。同样地，本公开内容亦不仅以于此说明书所示出的各种实施例为限。

在本文中，使用第一、第二与第三等等的词汇，是只用来辨别单一元件。因此，在下文中的一第一元件也可被称为第二元件，而不脱离本案的本意。本文中所使用之“与/或”包含一或多个相关联的项目中的任一者以及所有组合。

关于本文中所使用之“耦接”或“连接”，均可指二或多个元件相互直接作实体或电性接触，或是相互间接作实体或电性接触，亦可指两个或多个元件相互操作或动作。

于本文中，用语“电路系统(circuitry)”泛指包含一或多个电路(circuit)所形成的单一系统。用语“电路”泛指由一或多个电晶体与/或一或多个主被动元件按一定方式连接以处理信号的物件。

参照图1，图1为根据本案的一些实施例所绘示的物件追踪系统100的示意图。于一些实施例中，物件追踪系统100可用于追踪一特定物件的位置。于一些实施例中，物件追踪系统100可实现于各种电子装置(例如：计算机主机、伺服器、手机、笔记型电脑、平板电脑等等)。

于一些实施例中，物件追踪系统100包含处理器110、存储器120与输入输出装置130。处理器110耦接至存储器120以及荧幕130。于各个实施例中，处理器110可为中央处理单元(CPU)、专用集成电路(Application-specific integrated circuit,ASIC)、多处理器、分散式处理系统、或合适的处理电路。

存储器120用以储存至少一计算机程序CPC。于一些实施例中，存储器120更用以储存对应于一深度学习模型的虚拟数据D1。于一些实施例中，前述的深度学习模型为使用人工智能(Artificial Intelligence,AI)技术来实施类神经网路(例如为卷积神经网路)，并预先对大量视频数据进行训练，以进行视频辨识。于一些实施例中，处理器110可执行至少一计算机程序CPC，以基于深度学习模型分析视频数据以辨识视频中的至少一物件与其对应类别(例如：人脸)。于一些实施例中，处理器110可与至少一编解码电路(未绘示)与/或影音处理电路(未绘示)协同运作，以分析视频数据。

于一些实施例中，存储器120为非暂态计算机可读取储存介质。例如，非暂态计算机可读取储存介质包含半导体或固态存储器、磁带、可移除式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘与/或光学磁盘。在使用光学磁盘的一个或多个实施例中，计算机可读取储存介质包含只读记忆光盘(CD-ROM)、可重复录写光盘(CD-R/W)与/或数字影音光盘(DVD)。

输入输出装置130用以接收包含连续的多张原始(raw)视频帧(frame)的视频数据SV。于本文中，原始视频帧代表尚未被执行视频辨识的视频数据。于一些实施例中，前述的至少一计算机程序CPC可由多个指令集编码而成，以执行包含后述第2图的多个操作。藉此，处理器110可分析视频数据SV，以产生用于追踪至少一特定物件的数据DF。于一些实施例中，输入输出装置130可为各种类型的数据传输电路或收发器电路，以接收视频数据SV并传输数据DF至其他系统或电路。

图2为根据本案的一些实施例所绘示的一种物件追踪方法200的流程图。为易于理解，物件追踪方法200的多个操作将参照图1的物件追踪系统100进行说明。

于操作S210，接收包含连续的多张原始视频帧的视频数据。

于操作S220，基于深度学习模型分析多张原始视频帧中的初始视频帧，以检测一物件于此初始视频帧中所位于的一第一区域，并输出该初始视频帧为一第一延迟视频帧。

于操作S230，根据初始视频帧以及第一区域预测物件于预测视频帧中的一预测区域。

为理解操作S210至S230，请参照图3A与图3B，图3A为根据本案一些实施例所绘示多个原始视频帧、延迟视频帧之间的关系示意图，且图3B为根据本案一些实施例所绘示检测物件的操作示意图。为易于理解，图3A与图3B中的类似元件将被指定为相同标号。

如图3A所示，输入输出装置130可接收视频数据SV，其包含多张原始视频帧310-0至310-4，其分别对应至时间T0～T4。原始视频帧310-0为初始视频帧(亦即最早的视频帧，对应于时间T0)。处理器110可基于深度学习模型分析原始视频帧310-0中是否有一物件存在，并辨识此物件于原始视频帧310-0中的区域A-1。处理器110延迟原始视频帧310-0并输出为视频帧320-1，其与原始视频帧310-1大致对应于时间T1。

如图3B所示，于一些实施例中，物件可为一人脸O1。处理器110辨识出原始视频帧310-0的内容中存在一人脸O1，并确认人脸O1位于原始视频帧310-0中的一区域A-1。于一些实施例中，处理器110在检测此区域A-1时输出一信心指数CF。于一些实施例中，信心指数CF相当于深度学习模型认为本次检测的可信度。例如，于此例中，区域A-1对应的信心指数CF为71.35，即代表区域A-1内的物件有71.35％的机率为人脸。

继续参照图3A，处理器110可基于原始视频帧310-0以及区域A-1等信息产生一预测视频帧320-2，其与原始视频帧310-2大致对应于时间T2。如图3B所示，于一些实施例中，处理器320-2将原始视频帧310-0直接作为预测视频帧320-2，并依据区域A-1与其对应的信心指数CF决定物件(例如为人脸O1)位于在预测视频帧320-2中的预测区域B-1。于一些实施例中，处理器110可根据信心指数CF与预设比例PR的一乘积扩大区域A-1，以决定预测区域320-2。

例如，以图3B所示，区域A-1与预测区域320-2之中心位置相同。于一些实施例中，预设比例PR可为0.1。如先前所述，信心指数CF为71.35。于此条件下，故信心指数CF为71.35与预设比例PR之乘积约为7，即处理器110可由区域A-1的上下边缘向外延伸共7个像素的距离及左右边缘向外延伸共7个像素的距离，因此，区域A-1的上下边缘以及左右边缘向外延伸各3.5个(即0.5*CF*PR)像素的距离，以作为预测区域B-1。

于一些实施例中，预测区域B-1设置以大于区域A-1，以涵盖物件在连续的时间T1～T2之间所可能移动的范围。上述产生预测区域B-1的方式或是预设比例PR的数值用于示例，且本案并不以此为限。各种产生预测区域B-1的方式以及各种数值的预设比例PR皆为本案所涵盖的范围。

继续参照图2，于操作S240中，基于深度学习模型分析多张原始视频帧中的另一原始视频帧，以检测物件于此原始视频帧中所位于的一第二区域，并输出该此原始视频帧为一第二延迟视频帧。

例如，如图3A所示，处理器110可基于深度学习模型分析原始视频帧310-2，以辨识物件于原始视频帧310-2中的区域A-2。接着，原始视频帧310-2被延迟输出为视频帧320-3，其与原始视频帧310-3大致对应于时间T3。

如图3B所示，类似于前述操作，处理器110基于深度学习模型辨识出原始视频帧310-2亦存在人脸O1，并确认人脸O1位于原始视频帧310-2中的区域A-2。

继续参照图2，于操作S250中，计算预测区域与第二区域之间的一关联性，以追踪物件。参照第4图，图4为根据本案一些实施例所绘示根据图3B的预测区域B-1与区域A-2执行操作S250的示意图。为易于理解，图4与图3B中的类似元件将被指定为相同标号。

于一些实施例中，处理器110可根据预测区域B-1以及区域A-2执行一目标检测函数，以确认物件在两张视频帧之间的关联性。于一些实施例中，目标检测函数可为交互比(intersection over union，IOU)。例如，如图4所示，处理器110可依据预测区域B-1与区域A-2的交集410以及预测区域B-1与区域A-2的联集420决定交互比，其中交互比可表示为：IOU＝410/420。当交互比越接近1，代表预测区域B-1以及区域A-2的关联性越高。于此条件下，预测区域B-1可足以反映物件(例如为人脸O1)于时间T3的位置。反之，则代表预测区域B-1不足以反映物件(例如为人脸O1)于时间T3的位置，以重新修正或训练。

如图3A所示，处理器110可根据后续的原始视频帧来反复执行上述操作，以持续追踪物件。于一些实施例中，处理器110可将多个帧(例如为视频帧320-1、预测视频帧320-2、视频帧320-3)、帧与时间的对应关系、区域信息(区域A-1与A-2、预测区域B-1)、信心指数CF以及关联性(例如为交互比)等等信息作为数据DF输出给后续系统或电路，或是依据数据DF执行其他相关操作，以显示物件追踪的结果。

如图3A所示，于一些实施例中，基于深度学习模型被分析的两张原始视频帧310-0与310-2为非连续帧。等效而言，物件追踪方法200为一掉帧(drop frame)运算程序。亦即，于一些实施例中，处理器110不对所接收到的视频数据SV内的所有原始视频帧进行分析。如此一来，数据运算量可以降低。此外，藉由操作S230，处理器110可预估物件在未分析的原始视频帧(例如：原始视频帧310-1)的可能位置，以持续检测物件。

上述物件追踪方法200的多个操作仅为示例，并非限于上述示例的顺序执行。在不违背本公开内容的各实施例的操作方式与范围下，在物件追踪方法200下的各种操作当可适当地增加、替换、省略或以不同顺序执行。

于一些实施例中，物件追踪方法200的实施方式可为软件、硬件与/或固件。于一些实施例中，物件追踪方法200可由具有相应指令的软件或计算机程序实现，并储存于一非暂态计算机可读介质(例如为存储器120)内，以供一处理器(例如为处理器110)执行前述的各个操作。

为易于理解，上述内容以追踪单一物件示例，但本案并不以此为限。上述物件追踪方法200亦可用于追踪多个物件。此外，物件的类别亦不限于人脸。各种类别的物件皆为本案所涵盖的范围。

虽然本案已以实施方式公开如上，然其并非限定本案，任何熟习此技艺者，在不脱离本案之精神和范围内，当可作各种更动与润饰，因此本案之保护范围当视后附之申请专利范围所界定者为准。

[符号说明]

100：物件追踪系统

120：存储器

CPC：计算机程序

SV：视频数据

200：物件追踪方法

S230、S240：操作

310-0：原始视频帧

310-2：原始视频帧

310-4：原始视频帧

A-1～A-2：区域

CF：信心指数

320-2：预测视频帧

PR：预设比例

420：联集110：处理器130：输入输出装置

D1：虚拟数据

DF：数据

S210、S220：操作

S250：操作

310-1：原始视频帧

310-3：原始视频帧

T0～T4：时间

O1：人脸

B-1：预测区域

320-4：预测视频帧

320-1、320-3：视频帧

410：交集。

Claims

1.一种物件追踪系统，包含：

一存储器，用以储存至少一计算机程序码；以及

一处理器，用以储存该至少一计算机程序码，以执行下列操作：

基于一深度学习模型检测一物件在一第一视频帧中的一第一区域，以根据该第一视频帧与该第一区域预测该物件于一预测视频帧中的一预测区域；

基于该深度学习模型检测该物件在一第二视频帧中的一第二区域；以及

计算该预测区域以及该第二区域之间的一关联性，以追踪该物件。

2.如权利要求1所述的物件追踪系统，其中该第一视频帧与该第二视频帧为复数个非连续帧。

3.如权利要求1所述的物件追踪系统，其中该第一视频帧对应于一第一时间，该第二视频帧对应于一第二时间，且该预测视频帧对应于该第一时间与该第二时间之间的一第三时间。

4.如权利要求1所述的物件追踪系统，其中该处理器还用以根据延迟该第一视频帧与该第二视频帧，以追踪该物件。

5.如权利要求1所述的物件追踪系统，其中该预测区域大于该第一区域。

6.如权利要求1所述的物件追踪系统，其中该处理器用以在检测该第一区域时输出一信心指数，并根据该信心指数与该第一区域决定该预测区域。

7.如权利要求6所述的物件追踪系统，其中该处理器用以根据该信心指数与一预设比例的一乘积扩大该第一区域，以决定该预测区域。

8.如权利要求1所述的物件追踪系统，其中该处理器用以根据该预测区域与该第二区域的一交集与该预测区域与该第二区域的一联集决定该关联性。

9.一种物件追踪方法，包含：

10.一种非暂态计算机可读介质，其具有一计算机程序，其中该计算机程序被一处理器执行时，使该处理器执行复数个操作，且该些操作包含：

基于一深度学习模型检测一物件在一第一视频帧中的一第一区域与该物件在一第二视频帧中的一第二区域；

根据该第一区域预测该物件于该第一视频帧与该第二视频帧之间的一预测视频帧中的一预测区域；以及