CN110348270B

CN110348270B - 影像物件辨识方法与影像物件辨识系统

Info

Publication number: CN110348270B
Application number: CN201810290591.9A
Authority: CN
Inventors: 陈亘志; 潘柔允
Original assignee: Ali Corp
Current assignee: Ali Corp
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2023-06-09
Anticipated expiration: 2038-04-03
Also published as: CN110348270A; US10867182B2; US20200175279A1

Abstract

一种影像物件辨识方法与影像物件辨识系统。自视频流中的第(i‑1)帧侦测出第一影像物件。获取第一影像物件的辨识结果。接收视频流中的第i帧，并自第i帧侦测出第二影像物件。依据第一影像物件于第(i‑1)帧上的位置与第二影像物件于第i帧上的位置，判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。若第二影像物件与第一影像物件对应至所述相同的待辨识物件，判断待辨识物件的辨识信心度是否大于预设临界值，以对第二影像物件进行物件辨识或者赋予第一影像物件的辨识结果给第二影像物件。

Description

影像物件辨识方法与影像物件辨识系统

技术领域

本发明是有关于一种影像辨识技术，且特别是一种可辨识出物件识别信息的影像物件辨识方法与影像物件辨识系统

背景技术

物件辨识技术在影像辨识技术中占有重要的角色，也是目前各大科技研究中心致力研发的技术之一。尤其是，人脸辨识技术的应用日趋广泛，人脸辨识技术一般应用于人机介面(human computer interface)、家庭视频保全(home video surveillance)、生物侦测的脸部辨识或是海关出入境的安全检查、公共监视器、个人电脑甚至是银行金库等安全监控。近年来，人脸辨识的技术也逐渐地开始应用于一般的数字相机或摄影机中。另外，由于具有相机的电子装置越来越普及，因此将人脸辨识技术应用于生活中的各种状况，亦显得重要。

以一般人脸辨识系统为例，在撷取一帧影像之后，是先从影像中侦测出人脸区块。之后，再针对影像中的人脸区块进行人脸辨识，从而判断各个人脸区块所对应的身份信息。假设处理模块从一帧影像中侦测出一个人脸区块需要A MIPS(每秒百万指令)的运算量，且处理模块辨识此人脸区块需要B MIPS的运算量，则处理模块对于从一帧影像中辨识出一个人脸物件所需要的运算量总共为A+B MIPS。可见得，当影像中存在多个待辨识的人脸物件或需要对多帧影像持续进行人脸辨识时，处理模块的运算量是相当庞大的。此外，当需要对视频中的多帧影像持续进行人脸辨识时，辨识器的辨识率可能受到环境因子的干扰而飘忽不定，导致对于同一物件的辨识结果的输出不稳定。

发明内容

有鉴于此，本发明提供一种影像物件辨识方法与影像物件辨识系统，可大幅降低运算量并提升影像物件辨识的稳定度。

本发明实施例提供一种影像物件辨识方法，所述方法包括下列步骤。接收视频流中的第(i-1)帧，自第(i-1)帧侦测出第一影像物件。获取第一影像物件的辨识结果。接收视频流中的第i帧，并自第i帧侦测出第二影像物件，其中i为大于1的整数。依据第一影像物件于第(i-1)帧上的位置与第二影像物件于第i帧上的位置，判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。若第二影像物件与第一影像物件并非对应至所述相同的待辨识物件，对第二影像物件进行物件辨识。若第二影像物件与第一影像物件对应至所述相同的待辨识物件，判断待辨识物件的辨识信心度是否大于预设临界值，以对第二影像物件进行物件辨识或者赋予第一影像物件的辨识结果给第二影像物件。

从另一观点来看，本发明实施例提出一种影像物件辨识系统，其包括影像撷取装置与处理模块。影像撷取装置拍摄一场景而获取视频流，而所述处理模块耦接影像撷取装置。所述处理模块接收视频流中的第(i-1)帧，自第(i-1)帧侦测出第一影像物件，并获取第一影像物件的辨识结果。所述处理模块接收视频流中的第i帧，并自第i帧侦测出第二影像物件，其中i为大于1的整数。所述处理模块依据第一影像物件于第(i-1)帧上的位置与第二影像物件于第i帧上的位置，判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。若第二影像物件与第一影像物件并非对应至所述相同的待辨识物件，所述处理模块对第二影像物件进行物件辨识。若第二影像物件与第一影像物件对应至所述相同的待辨识物件，所述处理模块判断待辨识物件的辨识信心度是否大于预设临界值，以对第二影像物件进行物件辨识或赋予第一影像物件的辨识结果给第二影像物件。

基于上述，在本发明的一实施例中，视频流包括在时间轴上依序排列的多张连续帧。在侦测并辨识第(i-1)帧中的影像物件后，影像物件辨识系统接着再判断第(i-1)帧中的影像物件与第i帧中的影像物件是否对应至相同的待辨识物件。当第(i-1)帧中的影像物件与第i帧中的影像物件对应至相同的待辨识物件时，影像物件辨识系统可在特定条件下选择赋予第(i-1)帧中的影像物件的辨识结果给第i帧中的影像物件，而非对第i帧中的影像物件再次执行物件辨识的运算。藉此，影像物件辨识系统不需要对视频流的每一帧上的影像物件进行物件辨识，即部分的物件辨识的运算可以被省略，致使影像辨识的运算量可大幅降低并节省运算资源。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

图1是依据本发明一实施例所绘示的影像物件辨识系统的方块图。

图2是依据本发明一实施例所绘示的影像物件辨识方法的流程图。

图3A是依据本发明一实施例所绘示的影像物件辨识系统的功能方块图。

图3B是依据本发明一实施例所绘示的影像物件辨识系统的功能方块图。

图4是依据本发明一实施例所绘示的影像物件辨识方法的流程图。

图5A是影像物件重叠的示意图。

图5B是影像物件超出边界的示意图。

图6是依据本发明一实施例所绘示的依据移动特性判断第一影像物件与第二影物件是否对应至相同的待辨识物件的示意图。

图7是依据本发明一实施例所绘示的播放帧的示意图。

附图标记说明

10：影像物件辨识系统

110：影像撷取装置

120：储存装置

130：处理模块

140：显示装置

310：缩放模块

320：物件侦测模块

330：物件辨识模块

340：显示引擎模块

331：辨识方法决定模块

332：分类器辨识模块

F(1)～F(N)：帧

B1、B2：边界框

P1：第一参考点

P2：第二参考点

C1～C7：影像物件

E1：帧的边界

N1～N3：识别信息

N4：通知

S201～S206、S401～S412：步骤

具体实施方式

现将详细参考本示范性实施例，在附图中说明所述示范性实施例之实例。另外，凡可能之处，在附图及实施方式中使用相同标号的元件/构件代表相同或类似部分。

图1是依据本发明一实施例所绘示的影像物件辨识系统的方块图，但此仅是为了方便说明，并不用以限制本发明。首先图1先介绍影像物件辨识系统中的相关构件以及配置关系，详细功能与操作将配合图2、图3A与图3B一并揭露。

请参照图1，影像物件辨识系统10包括影像撷取装置110、储存装置120、处理模块130，以及显示装置140。处理模块130耦接至影像撷取装置110以及储存装置120。在一实施例中，影像物件辨识系统10可包括具有储存装置120与处理模块130的运算系统，以及外接于上述运算系统的影像撷取装置110。例如，影像物件辨识系统10可以是由笔记型电脑或桌上型电脑与外接摄影机而构成。或者，影像物件辨识系统10可以是由数字机顶盒(Set TopBox，STB)与外接摄影机与显示器而构成，本发明不在此设限。在另一实施例中，影像物件辨识系统10可以是将影像撷取装置110、储存装置120，以及处理模块130整合为单一电子装置。例如，影像物件辨识系统10可以是智能手机、平板电脑、内嵌摄像镜头的数字机顶盒等具有影像撷取功能的电子装置，本发明不在此设限。

影像撷取装置110用以朝一场景撷取影像而产生视频流，并且包括具有透镜以及感光元件的摄像镜头。感光元件用以感测进入透镜的光线强度，进而产生影像。感光元件可以例如是电荷耦合元件(charge coupled device，CCD)、互补性氧化金属半导体(complementary metal-oxide semiconductor，CMOS)元件或其他元件，本发明不在此设限。

储存装置120用以储存影像、程式码等数据，其可以例如是任意形式的固定式或可移动式随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、快闪存储器(flash memory)、硬盘或其他类似装置、集成电路及其组合。

处理模块130可为硬件元件与软件元件的组合。上述硬件元件可以例如是中央处理单元(central processing unit，CPU)，或是其他可程式化之一般用途或特殊用途的微处理模块(microprocessor)、数字信号处理模块(digital signal processor，DSP)、可程式化控制器、特殊应用集成电路(application specific integrated circuits，ASIC)、可程式化逻辑装置(programmable logic device，PLD)或其他类似装置或这些装置的组合。上述软件元件可以是储存于存储器中的程式码、指令等。换言之，处理模块130可执行储存于储存装置120中的程式码，或者执行内建于处理模块130中存储器所纪录的程式码，从而实现本发明实施例之影像物件辨识方法的各步骤。

显示装置140可以为任一类型的显示器，例如为液晶显示器(Liquid CrystalDisplay，LCD)、发光二极管(Light Emitting Diode，LED)显示器、有机发光二极管(Organic Light Emitting Diode，OLED)显示器或软性显示器等等。

影像撷取装置110通常静止设置于一个固定位置，并对着特定场景进行拍摄而产生视频流。影像撷取装置110将视频流提供给由处理模块130与储存装置120组成的运算系统。视频流包括分别对应至不同时间点的多帧。因此，于本发明的实施例中，透过分析与处理视频流的各帧，出现于被拍摄之特定场景中的人物或物体可以自视频流中被侦测并辨识出来，以获取出现于被拍摄之特定场景中的人物或物体的身份辨识结果。

以下即搭配图1的影像物件辨识系统10的各元件列举实施例，以说明影像物件辨识系统10执行其影像物件辨识方法的详细步骤。图2是依据本发明一实施例所绘示的影像物件辨识方法的流程图。请同时参照图1与图2。

首先，于步骤S201，处理模块130接收视频流中的第(i-1)帧，并自第(i-1)帧侦测出第一影像物件。于此，i为大于1的整数。于一实施例中，处理模块130可依据事先建立的物件特征进行特征点侦测，从而侦测出第(i-1)帧中包括第一影像物件的区域。上述被处理模块130侦测出的第一影像物件即为待辨识物件。举例而言，处理模块130可依据事先建立的人脸特征(例如眼部特征、鼻子特征或嘴巴特征)自第(i-1)帧中侦测出包括人脸的区域。例如，处理模块130可利用哈尔特征(Haar-like特征)来进行人脸侦测，从而取得帧中的人脸物件。于另一实施例中，藉由利用深度学习模型所训练出来的特征向量，处理模块130可自第(i-1)帧中侦测出包括影像物件的区域。深度学习模型例如是由卷积层类神经网路(Convolution Neural Network，CNN)或深度神经网路(Deep Neural Networks，DNN)等学习网路实作，本发明并不以此为限。

接着，于步骤S202，处理模块130获取第一影像物件的辨识结果。于一实施例中，在侦测到第一影像物件之后，处理模块130可从第(i-1)帧中获取包括第一影像物件的感兴趣区域(Region of Interest，ROI)，并依据上述感兴趣区域内的影像内容进行物件身份辨识。上述的感兴趣区域基于至少足以包围第一影像物件的边界框(bounding box)而决定。

于一实施例中，处理模块130可依据事先建立的多组物件特征进行特征点比对，从而获取第一影像物件的辨识结果。举例而言，藉由比对感兴趣区域内的五官特征与数据库内的模板特征，处理模块130可辨识出被拍摄者的身份。于另一实施例中，藉由利用深度学习模型所训练出来的特征向量，处理模块130可将第一影像物件分类为多种样本物件其中之一，从而获取第一影像物件的辨识结果。深度学习模型例如是由卷积层类神经网路(CNN)或深度神经网路(DNN)等学习网路实作，本发明并不以此为限。所谓的辨识结果包括物件名称、代号或物件编号等等识别信息。

于步骤S203，处理模块130接收视频流中的第i帧，并自第i帧侦测出第二影像物件。相似的，透过前述说明的物件侦测方法，处理模块130可自第i帧侦测出第二影像物件。

于步骤S204，依据第一影像物件于第(i-1)帧上的位置与第二影像物件于第i帧上的位置，处理模块130判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。具体而言，由于第(i-1)帧与第i帧是于时间轴上连续的两帧，对于同一被拍摄物体而言，其分别于第(i-1)帧的成像位置与第i帧的成像位置一般来说符合一些特定规则。上述规则是基于帧率与物体移动速率的限制等等因素而定。基此，于本发明实施例中，依据第一影像物件于第(i-1)帧上的位置与第二影像物件于第i帧上的位置，处理模块130可判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。关于如何判断第二影像物件与第一影像物件是否对应至相同的待辨识物件，后续实施例将进一步详细说明。

若第二影像物件与第一影像物件并非对应至相同的待辨识物件(步骤S204判断为否)，于步骤S206，处理模块130对第i帧上的第二影像物件进行物件辨识。亦即，当第(i-1)帧上的第一影像物件所对应的待辨识物件不同于第i帧上的第二影像物件所对应的待辨识物件，处理模块130需要再次对第i帧上的第二影像物件进行物件辨识(像是透过前述的影像特征比对演算法或深度学习模型)，以获取第二影像物件的辨识结果。

另一方面，若第二影像物件与第一影像物件对应至相同的待辨识物件(步骤S204判断为是)，于步骤S205，处理模块130判断待辨识物件的辨识信心度是否大于预设临界值，以对第二影像物件进行物件辨识或者赋予第一影像物件的辨识结果给第二影像物件。更进一步而言，若待辨识物件的辨识信心度大于预设临界值，处理模块130赋予第一影像物件的辨识结果给第二影像物件。若待辨识物件的辨识信心度并非大于预设临界值，处理模块130利用物件辨识演算法对第二影像物件进行物件辨识。

于一实施例中，待辨识物件的辨识信心度是基于各帧之物件辨识机率而决定的参数值，上述的物件辨识机率例如是分类器的辨识机率(亦称为分类信心度)。亦即，待辨识物件的辨识信心度可随当前处理帧的更迭而变动。在第一影像物件的辨识结果已经获取的情况下，处理模块130可依据第一影像物件的辨识结果计算出待辨识物件的目前辨识信心度，从而选择直接将第一影像物件的辨识结果赋予给第二影像物件或再次对第二影像物件执行物件辨识运算程序。

于一实施例中，处理模块130响应于执行利用分类器的物件辨识，处理模块130依据用以实现物件辨识之分类器所产生的辨识机率来计算辨识信心度。当辨识机率大于第一机率，处理模块130增加辨识信心度。当辨识机率小于第二机率，处理模块130降低辨识信心度。第一机率大于第二机率。此外，当处理模块130判定第一影像物件与第二影像物件并非对应至相同的待辨识物件时，处理模块130可将待辨识物件的辨识信心度还原为一预设值，例如将辨识信心度归零。

由此可见，当第一影像物件与第二影像物件被判别为对应至相同的待辨识物件，且所述待辨识物件的辨识信心度累加至大于预设临界值时，处理模块130可直接将第一影像物件的辨识结果赋予给第二影像物件，而不需要再次耗费运算资源对第二影像物件执行物件辨识运算程序。如此一来，可大幅节省运算时间与运算资源。

值得一提的是，当人脸过度转向而非正对影像撷取装置的镜头时，现有的物件辨识演算法将无法提供正确的辨识结果，可能提供错误的辨识结果或辨识失败而无法提供辨识结果。一般而言，当人脸的侧转角度超过约45度时，虽然仍可能侦测出为人脸，但习知的物件辨识演算法将不易计算出正确的辨识机率。基此，当待辨识的人脸侧转角度超过约45度时，习知的影像辨识演算法将难以输出正确的辨识结果直至人脸的侧转角度回复为约小于45度，从而影响输出辨识结果的稳定度。相较之下，本发明实施例的影像物件辨识系统可基于辨识信心度与影像物件的位置而直接将先前的辨识结果赋予给当前待辨识的影像物件。基此，只要所述的第二影像物件被侦测为对应相同待辨识物件且辨识信心度足够，在许多习知演算法已无法提供正确辨识结果的情况下，本发明实施例的影像物件辨识系统还是可正确的提供辨识结果，因而可稳定的输出辨识结果。上述的人脸侧转角度45度仅为一例示，影响辨识成功率的人脸侧转角度上限实际上依各种不同演算方法和分类器而有所差异，本发明无意于此处加以限制。

图3A是依据本发明一实施例所绘示的影像物件辨识系统的功能方块图。请参照图3A，处理模块130可依据功能而区分为缩放模块310、物件侦测模块320、物件辨识模块330与显示引擎模块340。缩放模块310可自储存装置120或影像撷取装置110依序获取视频流的多个帧F(1)～F(N)。缩放模块310用以缩小帧F(1)～F(N)的影像尺寸，例如将解析度为1080p的帧F(1)～F(N)压缩为解析度为480p的帧F(1)～F(N)，用以减少后续物件侦测及辨识所需的运算量。物件侦测模块320自压缩后的帧F(1)～F(N)侦测出影像物件，并将包括影像物件的感兴趣区域(ROI)座标传送给物件辨识模块330。上述感兴趣区域例如是60x 60像素点的一个影像区块。物件辨识模块330产生各帧F(1)～F(N)上之影像物件的辨识结果，并将辨识结果输出给显示引擎模块340。显示引擎模块340依序从储存装置120或影像撷取装置110获取帧F(1)～F(N)、从物件侦测模块320接收各帧F(1)～F(N)上之影像物件的感兴趣区域的座标，以及从物件辨识模块330获得各帧F(1)～F(N)上之影像物件的辨识结果，从而驱动一显示装置基于各帧F(1)～F(N)而将标示有辨识结果的画面逐一播放出来。在本实施例中，物件侦测模块320可提供经标准化的感兴趣区域座标，以供显示引擎模块340驱动显示装置在帧F(1)～F(N)上对应的位置显示影像物件的感兴趣区域及标示辨识结果。或者，物件侦测模块320或显示引擎模块340亦可根据缩放模块310对帧F(1)～F(N)的压缩比例，计算出感兴趣区域在原始帧F(1)～F(N)的对应座标，以达到同样的显示效果。本发明不以此为限。

承上述，物件辨识模块330可依据前一帧的辨识结果或再次执行物件辨识运算程序，来获取影像物件的辨识结果。以下将近一步详细说明。图3B是依据本发明一实施例所绘示的影像物件辨识系统的功能方块图。请参照图3B，物件辨识模块330可包括辨识方法决定模块331与分类器辨识模块332。

辨识方法决定模块331用以决定产生影像物件之辨识结果的方式。当辨识方法决定模块331判断前一帧(例如第(i-1)帧F(i-1))上的影像物件与当前帧(例如第i帧F(i))上的影像物件对应至相同的待辨识物件且辨识信心度大于预设临界值时，辨识方法决定模块331直接赋予前一帧上的影像物件的辨识结果给当前帧上的影像物件。另一方面，当辨识方法决定模块331判断前一帧上的影像物件与当前帧上的影像物件并非对应至相同的待辨识物件或辨识信心度不大于预设临界值时，分类器辨识模块332用以基于深度学习模型的分类器来执行物件辨识运算程序。

于一实施例中，响应于分类器辨识模块332执行物件辨识，辨识方法决定模块331可依据分类器所产生的辨识机率来决定递增或递减待辨识物件的辨识信心度。详细而言，分类器辨识模块332所使用的分类器可计算出影像物件分别被分类为多种分类结果的多个机率值，并依据最高的机率值而将影像物件分类至多种分类结果其中之一，以产生最终的辨识结果。分类器所计算出的最高的机率值即为本发明实施例所述的辨识机率。若分类器辨识模块332分类影像物件而产生的辨识机率大于第一机率，辨识方法决定模块331可增加辨识信心度。若分类器辨识模块332分类影像物件而产生的辨识机率小于第二机率，辨识方法决定模块331可降低辨识信心度。第一机率与第二机率为依据实际应用而设计的机率门槛值，第一机率大于第二机率。举例而言，第一机率可以是60％而第二机率可以是40％，但本发明并不以此为限。

举例而言，假设分类器辨识模块332对第(i-1)帧F(i-1)上的影像物件进行物件辨识，辨识方法决定模块331可依据分类第(i-1)帧F(i-1)上的影像物件而产生的辨识机率来计算并纪录当前的辨识信心度Con^(i-1)。之后，当辨识方法决定模块331在决定第i帧F(i)上的影像物件的辨识结果产生方式时，依据基于分析第i帧F(i)之前的帧而决定的辨识信心度Con^(i-1)，辨识方法决定模块331决定是否直接使用第(i-1)帧F(i-1)上的影像物件的辨识结果还是再次执行物件辨识运算程序。所述预设临界值可依据实际应用状况而设计，本发明对此并不限制。

于此列举一范例以清楚说明是否执行物件辨识运算程序。假设第一机率设置为65％、第二机率设置为45％、辨识信心度初始化为0，且预设临界值设置为2。表1示出如何获取影像物件之辨识结果的范例。然而，表1的范例仅用以说明本实施例的影像物件辨识方法的原理，并非用以限定本发明。

表1

如表1的范例所示，当影像物件辨识系统分析第1帧时，由于没有前一帧可以判断是否对应至同一待辨识物件，因此辨识方法决定模块331决定对影像物件执行物件辨识。之后，分类器辨识模块332利用分类器执行物件辨识，并取得影像物件被分类为辨识结果的辨识机率为70％。基此，因为辨识机率大于第一机率(假设为65％)，所以辨识方法决定模块331可将辨识信心度从0增加到1。

接着，如表1的范例所示，当影像物件辨识系统分析第2帧时，虽然辨识方法决定模块331判断第1帧上的影像物件与第2帧上的影像物件对应至同一待辨识物件，但辨识信心度尚未大于预设临界值(假设为2)，因此辨识方法决定模块331决定对第2帧上的影像物件执行物件辨识。之后，分类器辨识模块332利用分类器执行物件辨识，并取得影像物件被分类为辨识结果的辨识机率为75％。基此，因为辨识机率大于第一机率(假设为65％)，所以辨识方法决定模块331可将辨识信心度从1增加到2。

接着，如表1的范例所示，当影像物件辨识系统分析第3帧时，虽然辨识方法决定模块331判断第3帧上的影像物件与第2帧上的影像物件对应至同一待辨识物件，但辨识信心度尚未大于预设临界值(假设为2)，因此辨识方法决定模块331决定对第3帧上的影像物件执行物件辨识。之后，分类器辨识模块332利用分类器执行物件辨识，并取得影像物件被分类为辨识结果的辨识机率为70％。基此，因为辨识机率大于第一机率(假设为65％)，所以辨识方法决定模块331可将辨识信心度从2增加到3。

接着，如表1的范例所示，当影像物件辨识系统分析第4帧时，辨识方法决定模块331判断第4帧上的影像物件与第3帧上的影像物件对应至同一待辨识物件，且基于第1帧至第3帧而累积出来的辨识信心度大于预设临界值(假设为2)，因此辨识方法决定模块331决定直接将第3帧上的影像物件的辨识结果赋予给第4帧上的影像物件。亦即，当分析第4帧时，分类器辨识模块332并不会利用分类器执行物件辨识运算程序。

接着，如表1的范例所示，当影像物件辨识系统分析第5帧时，辨识方法决定模块331判断第5帧上的影像物件与第4帧上的影像物件并非对应至同一待辨识物件，因此辨识方法决定模块331决定对第5帧上的影像物件执行物件辨识，并将辨识信心度从3还原为预设值0。之后，分类器辨识模块332利用分类器执行物件辨识，并取得影像物件被分类为辨识结果的辨识机率为60％。基此，因为辨识机率并未大于第一机率(假设为65％)也未小于第二机率，所以辨识方法决定模块331不变应辨识信心度，致使辨识信心度保持于0。

补充说明，若上述范例中的第5帧被辨识方法决定模块331判断为与第4帧上的影像物件对应至同一待辨识物件，则因辨识信心度仍然为3，辨识方法决定模块331亦会决定直接将第4帧上的影像物件的辨识结果赋予给第5帧上的影像物件。对于后续的帧亦会依照相同的判断方式继续赋予辨识结果，直到某一帧被判断与其前一帧上的影像物件并非对应至同一待辨识物件为止。

图4是依据本发明一实施例所绘示的影像物件辨识方法的流程图。请同时参照图1与图4。

于步骤S401，处理模块130接收视频流中的第(i-1)帧，自第(i-1)帧侦测出第一影像物件。于步骤S402，处理模块130获取第一影像物件的辨识结果。于步骤S403，处理模块130接收视频流中的第i帧，并自第i帧侦测出第二影像物件。

于步骤S404，处理模块130根据第二影像物件于第i帧上的位置，判断第二影像物件是否超出第i帧的边界，或与第i帧上的第三影像物件至少一部分重叠。处理模块130可能在同一帧侦测到二个以上的影像物件，而每个被侦测到的影像物件都可依据对应的边界框的长宽(例如皆为60像素)及起始位置，而判断所述影像物件在该帧的位置。举例而言，请参照图5A所示之物件重叠的示意图。处理模块130分别在第i帧当中侦测到第二影像物件C5与第三影像物件C6后，分别根据第二影像物件C5与第三影像物件C6的边界框覆盖的范围，处理模块130可判断第二影像物件C5与第三影像物件C6重叠。图5B是第二影像物件超出边界的示意图。请参照图5B，根据第二影像物件C5的边界框的长宽及起始位置，可知第二影像物件C5有部分位置落于边界E1之外，处理模块130可判断第二影像物件C5超出第i帧F(i)的边界E1。

于图4的实施例中，若步骤S404判断为否，也就是第二影像物件未超出边界E1，也未与其他影像物件重叠，处理模块130则于步骤S405判断第二影像物件与第一影像物件是否对应至相同的待辨识物件。基于帧率(frame rate)与被拍摄物体移动上的合理限制，处理模块130可分析两帧上影像物件之间的移动特性来判断第一影像物件与第二影像物件是否对应至相同的待辨识物件。因此，处理模块130依据第一影像物件于第(i-1)帧上的位置与第二影像物件于第i帧上的位置，获取一移动特性。接着，处理模块130判断移动特性是否符合一移动规则。此移动规则的标准取决于被拍摄物体与帧率。举例而言，假设被拍摄物体为人体，人体在特定时段(此特定时段的长度取决于帧率)内的移动速率或移动距离或移动方向应是在合理范围内的。本发明实施例的移动特性可包括基于两帧上的两影像物件所计算出来的移动距离、移动速率与移动向量等等。所述的移动规则包括分别依据移动距离、移动速率与移动向量所定义出来的距离临界值、速度临界值与移动方向的预设范围等等。

于一实施例中，处理模块130可计算第一影像物件的第一参考点与第二影像物件的第二参考点之间的移动距离，并判断第一参考点与第二参考点之间的移动距离是否小于距离临界值。举例而言，图6是依据本发明一实施例所绘示的依据移动特性判断第一影像物件与第二影物件是否对应至相同的待辨识物件的示意图。请参照图6，第一影像物件的第一参考点P1为第一影像物件的边界框B1的中心点，而第二影像物件的第二参考点P2为第二影像物件的边界框B2的中心点。处理模块130可依据边界框B1与边界框B2的尺寸以及镜头的焦距计算出深度距离d，并取得水平移动距离D。

之后，处理模块130可利用深度距离d与水平移动距离D计算出第一参考点P1与第二影像物件的第二参考点P2之间的移动距离md。处理模块130可判断移动距离md是否小于距离临界值，而判断第一影像物件与第二影像物件是否对应至相同的待辨识物件。若移动距离md小于距离临界值，处理模块130判定第一影像物件与第二影像物件对应至相同的待辨识物件。若移动距离md不小于距离临界值，处理模块130判定第一影像物件与第二影像物件并非对应至相同的待辨识物件。

于一实施例中，处理模块130可先计算第一影像物件的第一参考点与第二影像物件的第二参考点之间的移动距离，再依据帧率与移动距离计算移动速率。如图6的范例所示，处理模块130可进一步将移动距离md除以帧率的倒数而计算出移动速率，如式(1)所示。

其中，v代表移动速率、D代表水平移动距离、d代表深度距离、F代表帧率。

接着，处理模块130可判断移动速率是否小于速度临界值，而判断第一影像物件与第二影像物件是否对应至相同的待辨识物件。若移动速率小于速度临界值，处理模块130判定第一影像物件与第二影像物件对应至相同的待辨识物件。若移动速率不小于速度临界值，处理模块130判定第一影像物件与第二影像物件并非对应至相同的待辨识物件。

于一实施例中，处理模块130可计算第一影像物件与第二影像物件之间的移动向量(motion vector)，并判断移动向量的方向是否位于预设范围内。处理模块130例如可透过比对边界框B1内的物件特征与边界框B2内的物件特征来计算出相邻两帧上第一影像物件与第二影像物件之间的移动向量。处理模块130可藉由判断移动向量的方向是否位于预设范围内，而得知此移动向量所对应的移动路径是否合理，从而判断第一影像物件与第二影像物件是否对应至相同的待辨识物件。上述几种利用移动特性及移动规则判断第一影像物件与第二影像物件是否对应至相同的待辨识物件的具体作法仅为例示，本发明不以此为限。

请回到图4的流程，若步骤S405判断为是，于步骤S406，处理模块130判断待辨识物件对应的辨识信心度是否大于预设临界值。若步骤S406判断为是，于步骤S408，处理模块130将赋予步骤S402所获得的第一影像物件的辨识结果给第二影像物件。具体来说，即是指处理模块130可将对应于第一影像物件的物件名称、代号或物件编号等识别信息指定为第二影像物件的识别信息。若步骤S406判断为否，处理模块130将执行步骤S409而对第二影像物件进行物件辨识运算处理。

于图4的实施例中，若于步骤S404判断出第二影像物件与第三影像物件重叠或第二影像物件超出第i帧的边界E1，处理模块130除了将对第二影像物件进行物件辨识外亦会将信心辨识度还原为预设值。此外，若于步骤S405判断出第一影像物件与第二影像物件并非对应至相同的待辨识物件，处理模块130亦会将信心辨识度还原为预设值，并对第二影像物件进行物件辨识。

因此，若步骤S404判断为是，或步骤S405判断为否，处理模块130皆会执行步骤S407，将辨识信心度还原为预设值，并且于步骤S409对第二影像物件进行物件辨识。

在完成步骤S409的物件辨识后，于步骤S410，处理模块130响应于执行物件辨识，而依据分类器产生的辨识机率增加或减少辨识信心度。

于步骤S411，处理模块130获取第二影像物件的辨识结果，所述的第二影像物件的辨识结果可以是执行步骤S408及S409其中之一所产生的结果。于步骤S412，当播放第i帧时，处理模块130依据第二影像物件的辨识结果，透过显示装置140将第二影像物件的识别信息标示于第i帧中第二影像物件的一侧。举例而言，图7是依据本发明一实施例所绘示的播放帧的示意图。图7所示的范例中，影像物件为人脸。当播放第i帧时，处理模块130可依据三个第二影像物件C1～C3的辨识结果，透过显示装置140将第二影像物件C1～C3的识别信息N1～N3(如物件名称)分别标示于第i帧中第二影像物件C1～C3的一侧。然而，假设无法成功获得影像物件C4的识别信息(可能因为是未进行注册的人脸或人脸的转向角度太大)，处理模块130可将第二影像物件C4无法辨识的通知N4标示于第i帧中第二影像物件C4的一侧。

然而，图4系用以说明影像物件辨识系统取得第i帧上之影像物件的辨识结果的流程。基于图3A与图3B的说明可知，图4之流程可反复执行而取得各帧上之影像物件的辨识结果。举例而言，步骤S402所获得的第一影像物件的辨识结果亦可以是经过影像辨识而产生、或被赋予其前帧的影像物件的辨识结果而来。

综上所述，于本发明的实施例中，在多张连续帧上的影像物件都对应至相同的待辨识物件的情况下，辨识信心度往往可持续累积。一旦辨识信心度累积至预设临界值，在多张连续帧上的影像物件都对应至相同的待辨识物件的情况下，本发明实施例的影像物件辨识系统只要执行影像物件侦测并确认影像物件的位置与移动信息，就可稳定取得影像物件的辨识结果。运算量庞大的物件辨识运算流程可于分析部分帧时被省略，从而明显降低运算时间与节省运算资源。藉此，影像物件分析系统的处理器的负担可大模降低。此外，藉由辨识信心度的计算，影像物件辨识系统针对影像流之多帧所提供的辨识结果较不易受到环境因素的干扰，从而提升影像物件辨识系统的稳定度。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视后附的申请专利范围所界定者为准。

Claims

1.一种影像物件辨识方法，其特征在于，包括：

接收视频流中的一第(i-1)帧，自该第(i-1)帧侦测出一第一影像物件；

获取该第一影像物件的辨识结果；

接收该视频流中的一第i帧，并自该第i帧侦测出一第二影像物件，其中i为大于1的整数；以及

依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至相同的待辨识物件；

其中若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，对该第二影像物件进行物件辨识；以及

若该第二影像物件与该第一影像物件对应至所述相同的待辨识物件，判断该待辨识物件的辨识信心度是否大于一预设临界值，以对该第二影像物件进行该物件辨识或者赋予该第一影像物件的该辨识结果给该第二影像物件，其中该待辨识物件的该辨识信心度的增加或减少系基于辨识机率而决定，其中该辨识机率为使用分类模型来决定该第二影像物件与该第一影像物件对应至所述相同的待辨识物件之机率。

2.如权利要求1所述的影像物件辨识方法，其特征在于，判断该待辨识物件的该辨识信心度是否大于该预设临界值，以对该第二影像物件进行该物件辨识或者赋予该第一影像物件的该辨识结果给该第二影像物件的步骤包括：

若该待辨识物件的该辨识信心度大于该预设临界值，赋予该第一影像物件的该辨识结果给该第二影像物件；以及

若该待辨识物件的该辨识信心度并非大于该预设临界值，对该第二影像物件进行该物件辨识。

3.如权利要求1所述的影像物件辨识方法，其特征在于，所述方法还包括：

若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，将该辨识信心度还原为一预设值。

4.一种影像物件辨识方法，其特征在于，包括：

获取该第一影像物件的辨识结果；

接收该视频流中的一第i帧，并自该第i帧侦测出一第二影像物件，其中i为大于1的整数；

若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，对该第二影像物件进行物件辨识；以及

若该第二影像物件与该第一影像物件对应至所述相同的待辨识物件，判断该待辨识物件的辨识信心度是否大于一预设临界值，以对该第二影像物件进行该物件辨识或者赋予该第一影像物件的该辨识结果给该第二影像物件，

在接收该视频流中的该第i帧，并自该第i帧侦测出该第二影像物件的步骤之后，所述方法还包括：

根据该第二影像物件于该第i帧上的位置，判断该第二影像物件是否超出该第i帧的边界，或与该第i帧上的一第三影像物件至少一部分重叠；

若该第二影像物件超出该第i帧的边界或与该第三影像物件重叠，对该第二影像物件进行该物件辨识；以及

若该第二影像物件未超出该第i帧的边界或未与该第三影像物件重叠，则执行依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至所述相同的待辨识物件。

5.如权利要求4所述的影像物件辨识方法，其特征在于，所述方法还包括：

若该第二影像物件超出该第i帧的边界或与该第三影像物件重叠，将该辨识信心度还原为一预设值。

6.如权利要求4所述的影像物件辨识方法，其特征在于，还包括：

响应于执行该物件辨识，而依据一分类器产生的一辨识机率增加或减少该辨识信心度，

其中，当该辨识机率大于第一机率，增加该辨识信心度，

当该辨识机率小于第二机率，降低该辨识信心度，该第一机率大于该第二机率。

7.如权利要求4所述的影像物件辨识方法，其特征在于，依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至所述相同的待辨识物件的步骤包括：

依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，获取一移动特性；

判断该移动特性是否符合一移动规则。

8.如权利要求4所述的影像物件辨识方法，其特征在于，还包括：

当播放该第i帧时，依据该第二影像物件的辨识结果，将该第二影像物件的识别信息标示于该第i帧中该第二影像物件的一侧。

9.如权利要求4所述的影像物件辨识方法，其特征在于，该第一影像物件与该第二影像物件为人脸，该物件辨识为人脸辨识。

10.一种影像物件辨识系统，其特征在于，包括：

一影像撷取装置，拍摄一场景而获取视频流；

一处理模块，耦接该影像撷取装置，

其中所述处理模块接收该视频流中的一第(i-1)帧，自该第(i-1)帧侦测出一第一影像物件，并获取该第一影像物件的辨识结果，

其中所述处理模块接收该视频流中的一第i帧，并自该第i帧侦测出一第二影像物件，其中i为大于1的整数；

其中所述处理模块依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至相同的待辨识物件；

其中若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，所述处理模块对该第二影像物件进行物件辨识；若该第二影像物件与该第一影像物件对应至所述相同的待辨识物件，所述处理模块判断该待辨识物件的辨识信心度是否大于一预设临界值，以对该第二影像物件进行该物件辨识或赋予该第一影像物件的该辨识结果给该第二影像物件，其中该待辨识物件的该辨识信心度的增加或减少系基于辨识机率而决定，其中该辨识机率为使用分类模型来决定该第二影像物件与该第一影像物件对应至所述相同的待辨识物件之机率。

11.如权利要求10所述的影像物件辨识系统，其特征在于，若该待辨识物件的该辨识信心度大于该预设临界值，所述处理模块赋予该第一影像物件的该辨识结果给该第二影像物件；以及若该待辨识物件的该辨识信心度并非大于该预设临界值，所述处理模块对该第二影像物件进行该物件辨识。

12.如权利要求10所述的影像物件辨识系统，其特征在于，若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，所述处理模块将该辨识信心度还原为一预设值。

13.一种影像物件辨识系统，其特征在于，包括：

一影像撷取装置，拍摄一场景而获取视频流；

一处理模块，耦接该影像撷取装置，

其中所述处理模块依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至相同的待辨识物件，

其中若该第二影像物件与该第一影像物件并非对应至所述相同的待辨识物件，所述处理模块对该第二影像物件进行物件辨识；若该第二影像物件与该第一影像物件对应至所述相同的待辨识物件，所述处理模块判断该待辨识物件的辨识信心度是否大于一预设临界值，以对该第二影像物件进行该物件辨识或赋予该第一影像物件的该辨识结果给该第二影像物件，

所述处理模块根据该第二影像物件于该第i帧上的位置，判断该第二影像物件是否超出该第i帧的边界，或与该第i帧上的一第三影像物件至少一部分重叠；以及若该第二影像物件超出该第i帧的边界或与该第三影像物件重叠，所述处理模块对该第二影像物件进行物件辨识，

其中若该第二影像物件未超出该第i帧的边界或未与该第三影像物件重叠，则所述处理模块依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，判断该第二影像物件与该第一影像物件是否对应至所述相同的待辨识物件。

14.如权利要求13所述的影像物件辨识系统，其特征在于，若该第二影像物件超出该第i帧的边界或与该第三影像物件重叠，所述处理模块将该辨识信心度还原为一预设值。

15.如权利要求13所述的影像物件辨识系统，其特征在于，所述处理模块响应于执行该物件辨识，而依据一分类器产生的一辨识机率计算该辨识信心度，

其中当该辨识机率大于第一机率，所述处理模块增加该辨识信心度；以及当该辨识机率小于第二机率，所述处理模块降低该辨识信心度，该第一机率大于该第二机率。

16.如权利要求13所述的影像物件辨识系统，其特征在于，所述处理模块依据该第一影像物件于该第(i-1)帧上的位置与该第二影像物件于该第i帧上的位置，获取一移动特性，并判断该移动特性是否符合一移动规则。

17.如权利要求13所述的影像物件辨识系统，其特征在于，还包括一显示装置，其中当该显示装置播放该第i帧时，依据该第二影像物件的辨识结果，该显示装置将该第二影像物件的识别信息显示于该第i帧中该第二影像物件的一侧。

18.如权利要求13所述的影像物件辨识系统，其特征在于，该第一影像物件与该第二影像物件为人脸，该物件辨识为人脸辨识。