CN110197106A

CN110197106A - 物件标示系统及方法

Info

Publication number: CN110197106A
Application number: CN201810263514.4A
Authority: CN
Inventors: 粘为博; 杨宗贤; 庄淳富
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2018-02-26
Filing date: 2018-03-28
Publication date: 2019-09-03
Also published as: TW201937405A; US10685263B2; JP2019149142A; TWI666595B; JP6686080B2; US20190266439A1

Abstract

本发明公开一种物件标示系统及方法。物件标示系统包括第一物件标示模块、第二物件标示模块、标示整合模块及影格间追踪模块。第一物件标示模块依据第一二维影像产生第一物件标示结果，其中第一二维影像为二维影片的多个影格其中之一。第二物件标示模块依据三维信息产生第二二维影像，及依据三维信息及第二二维影像产生第二物件标示结果。标示整合模块依据第一物件标示结果及第二物件标示结果产生第三物件标示结果。影格间追踪模块依据第三物件标示结果执行影格间物件标示程序，以产生第四物件标示结果。

Description

物件标示系统及方法

技术领域

本发明是有关于一种物件标示系统及方法。

背景技术

物件侦测(object detection)的技术被广泛应用在许多领域中，诸如自动驾驶(self-driving)、卫星影像分析、车辆实时监控等。在建立一套自动物件侦测系统的过程中，必须要提供大量的训练数据给物件标示(labeling)模型学习，以提升标示的准确性。然而，现有技术中，训练数据大多仰赖人为手动标示，或半手动标示(即由低阶人工智能粗略标示后，再以手动标示或调整)。因而，为了提供大量的训练数据，势必要耗费大量的人力资源。

另一方面，若不想耗费太多的人力资源在提供训练数据上，仅以低阶人工智能进行物件标示，则标示结果的准确度将难以达到要求。

发明内容

本发明的目的提供一种物件标示系统及方法。

本发明实施例公开一种物件标示系统，包括第一物件标示模块、第二物件标示模块、标示整合模块及影格间追踪模块。第一物件标示模块用以依据第一二维影像产生第一物件标示结果，其中第一二维影像为二维影片的多个影格其中之一。第二物件标示模块用以依据三维信息产生第二二维影像，并依据三维信息及第二二维影像产生第二物件标示结果。标示整合模块用以依据第一物件标示结果及第二物件标示结果产生第三物件标示结果。影格间追踪模块用以依据第三物件标示结果执行影格间物件标示程序，以产生第四物件标示结果。

本发明实施例公开一种物件标示方法，包括：由第一物件标示模块依据第一二维影像产生第一物件标示结果，其中第一二维影像为二维影片的多个影格其中之一；由第二物件标示模块依据三维信息产生第二二维影像，并依据三维信息及第二二维影像产生第二物件标示结果；由标示整合模块依据第一物件标示结果及第二物件标示结果产生第三物件标示结果；以及由影格间追踪模块依据第三物件标示结果执行影格间物件标示程序，以产生第四物件标示结果。

为了对本发明的上述及其他方面有更佳的了解，下文特举实施例，并配合附图详细说明如下：

附图说明

图1A绘示依据本发明实施例的物件标示系统的方块图；

图1B绘示依据本发明另一实施例的物件标示系统的方块图；

图2A绘示依据本发明实施例的物件标示方法的流程图；

图2B绘示依据本发明实施例的影格间物件标示程序的流程图；

图3A～3D绘示执行物件标示方法的示意图；以及

图4A～4D绘示执行影格间物件标示程序的示意图。

符号说明：

1a～1d：物件标示系统

12：第一物件标示模块

14：第二物件标示模块

16：标示整合模块

18：训练数据产生模块

19：影格间追踪模块

2Dimg1：第一二维影像

3Dinfo：三维信息

LABEL1：第一物件标示结果

LABEL2：第二物件标示结果

LABEL3：第三物件标示结果

LABEL4：第四物件标示结果

Tdata：训练数据

S202～S208：步骤

601～605：物件框

O：机车物件

具体实施方式

请参照图1A，图1A绘示依据本发明实施例的物件标示系统的方块图。请同时参照图2A所示的物件标示方法的流程图以及图3A～3C的示意图，以便于理解。物件标示系统1a可用以侦测(detect)、辨识(recognize)及标示(label)影像(image)或影片(video)中的物件(object)。物件可例如是影像或影片中的行人、机车、汽车或上述的组合等。物件标示系统1a包括第一物件标示模块12、第二物件标示模块14、标示整合模块16以及影格间追踪模块19。在一实施例中，物件标示系统1a还可包括训练数据(training data)产生模块18。在另一实施例中，训练数据产生模块18是设置于外部装置(未绘示)，而外部装置耦接至物件标示系统1a。换言之，训练数据产生模块18是选择性地包括在物件标示系统1a之中。

第一物件标示模块12用以接收第一二维影像2Dimg1。在一实施例中，第一二维影像2Dimg1是二维摄影机(2D camera)所拍摄的实时影像(real-time image)。在另一实施例中，第一二维影像2Dimg1是储存于计算器可读储存装置的影像。第一二维影像2Dimg1可为独立的二维影像、图片或是二维影片(video)的多个影格(image frame)的其中之一。本文所谓影片的“影格”是指影片的帧(frame)，例如帧率(frame rate)为25fps的影片即具有每秒25个影格。

第一物件标示模块12可依据第一二维影像2Dimg1产生第一物件标示结果LABEL1(步骤S202)。在一实施例中，第一物件标示模块12是具有可学习能力(例如深度学习(deeplearning))的应用程序(application)、计算器可读指令(instruction)、程式(program)或程序(process)，且当第一物件标示模块12由一个或多个处理器(processor)执行时，可辨识并标示出第一二维影像2Dimg1中的物件(例如以物件框框起并标示诸如行人、机车及汽车等的物件类型)，以产生第一物件标示结果LABEL1。举例来说，于标示物件时，第一物件标示模块12可先将第一二维影像2Dimg2以一个或多个滤镜(filter)将噪声(noise)或其他可能影响物件判别的信息(information)过滤掉。接着，第一物件标示模块12找出可能是物件的轮廓，再依据轮廓判断是否为物件，若判断为物件则进一步判断此物件的物件类型。第一物件标示模块12将所有辨识出的物件以物件框框起并标示物件类型，以产生第一物件标示结果LABEL1。在另一实施例中，第一物件标示模块12可采用现有的物件标示模型，例如Faster R-CNN、SSD及YOLOv2等。

例如图3A所示，第一物件标示模块12产生的第一物件标示结果LABEL1包括物件框301、302、303，物件类型分别为汽车、汽车及行人。

第二物件标示模块14耦接至第一物件标示模块12，并用以接收三维信息3Dinfo。在一实施例中，三维信息3Dinfo是三维摄影机或空间感测装置(例如光达(Lidar))所拍摄或感测的实时影像或实时信息。在另一实施例中，三维信息3Dinfo是储存于计算器可读储存装置的影像或数据。在一实施例中，三维信息3Dinfo与第一二维影像2Dimg1是由包括多个异质(heterogeneous)传感器的一个或多个装置于同一时间，以实质相同的角度对同一区域拍摄或感测而得。所谓异质是例如指二维传感器及三维传感器，两者所能感测的维度(dimension)不同，而在本质上有所差异的传感器。三维信息3Dinfo可包括点云(pointcloud)，即所拍摄或感测的区域中每一个点的位置(例如三维坐标)、色彩信息(例如RGB值)、物体的深度、光照射在物体后产生的反射光的强度或上述的组合等。

第二物件标示模块14可依据三维信息3Dinfo产生第二二维影像，并依据三维信息3Dinfo及第二二维影像产生第二物件标示结果LABEL2(步骤S204)。在一实施例中，第二物件标示模块14为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序，且当第二物件标示模块14由一个或多个处理器执行时，可采用本领域技术人员所熟知的转换逻辑或转换算法将三维信息3Dimg转换为第二二维影像；基于三维信息3Dinfo计算出一个或多个物件的位置、大小及轮廓等，并以物件框将所计算出的物件标示在第二二维影像上，以产生第二物件标示结果LABEL2。

例如图3B所示，第二物件标示模块14产生的第二物件标示结果LABEL2包括物件框301、303、304，物件类型分别为汽车、行人及行人。需要注意的是，由于第二二维影像是基于三维信息所产生，故可能与第一二维影像2Dimg1不同。图3A～3C仅是以说明为目的而绘示，并非用以限制本发明。

标示整合模块16耦接至第一物件标示模块12及第二物件标示模块14。标示整合模块16可依据第一物件标示结果LABEL1及第二物件标示结果LABEL2产生第三物件标示结果LABEL3(步骤S206)。在一实施例中，标示整合模块16为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序，且当标示整合模块16由一个或多个处理器执行时，可基于第一物件标示结果LABEL1及第二物件标示结果LABEL2产生第三物件标示结果LABEL3。在一实施例中，标示整合模块16取第一物件标示结果LABEL1及第二物件标示的并集(Union)作为第三物件标示结果LABEL3，亦即第三物件标示结果LABEL3中标示出的物件包括第一物件标示结果LABEL1中标示的物件及第二物件标示结果LABEL2中标示的物件。例如图3C所示，第三物件标示结果LABEL3包括物件框301、302、303、304，物件类型分别为汽车、汽车、行人及行人。

影格间追踪模块19耦接至标示整合模块16。在一实施例中，影格间追踪模块19为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序，且当影格间追踪模块19由一个或多个处理器执行时，可依据第三物件标示结果LABEL3执行影格间(inter-frame)物件标示程序，以产生第四物件标示结果LABEL4(步骤S207)。

为清楚说明影格间物件标示程序，请参照图2B的影格间物件标示程序的流程图及图4A～4D的执行影格间物件标示程序的示意图。

影格间物件标示程序包括步骤S2071及S2073。在步骤S2071中，影格间追踪模块19于第三物件标示结果LABEL3中找出至少一个第一物件框(如图4A中的601、605)。在步骤S2073中，影格间追踪模块19依据演算法于第一二维影像2Dimg1的前一影格或后一影格(或依据第一二维影像2Dimg1的前一影格或后一影格所产生的第三物件标示结果LABEL3)中对应于各至少一个第一物件框的位置处以一特定比例标示第二物件框(如图4B～4D中的602、603、604)，以产生第四物件标示结果LABEL4。

在一实施例中，图4A～4D例如是二维影片中的四张影格，于时间轴上首先出现的是图4D，接着依序是图4C、图4B及图4A。在一些情况下，由于图4D中的机车物件O较小，可能无法被第一物件标示模块12及第二物件标示模块14辨识并标示出来，于图4B及图4C中的影格亦然，直到图4A的影格时，机车物件O才被成功标示。换言之，在执行影格间物件标示程序之前，只存在物件框601，而不存在物件框602、603、604。当执行影格间物件标示程序时，影格间追踪模块19会依据例如光流算法(optical flow algorithm)计算器车物件O的速度与行进方向，得出机车物件O是迎面行驶过来的结果。接着，影格间追踪模块19会在影片中的前一影格(图4B)中找寻与物件框601对应的位置，并依据所算出的机车物件O的速度计算物件框602的大小并标示出机车物件O，重复此动作并标示出物件框603、604，以作为第四物件标示结果LABEL4。在一些实施例中，第四物件标示结果LABEL4会被输入训练数据产生模块18。

在另一实施例中，图4A～4D例如是二维影片中的四张影格，于时间轴上首先出现的是图4A，接着依序是图4B、图4C及图4D。与前述实施例差别在于，影格间追踪模块19会往影片中的后一影格找寻与物件框601对应的位置，以标示出机车物件O。

在一实施例，物件标示系统1a可进一步包括缓存器(未绘示)，用以储存第三物件标示结果LABEL3、第四物件标示结果LABEL4或上述的组合。当影格间追踪模块19执行影格间物件标示程序时，可于缓存器中提取依据影片中的前一(或多个)影格所产生的第三物件标示结果LABEL3。

在一实施例中，影格间追踪模块19可以特定比例例如物件框601的0.5倍标示物件框602，然本发明不以此为限。

另外，如图4A～4D中所示，由于物件框605所标示的是一静止的物件，故在图4A～4D物件框605是一直存在，且大小不变。

训练数据产生模块18耦接至物影格间追踪模块19。训练数据产生模块18可依据第四物件标示结果LABEL4(或者同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生训练数据Tdata，并将训练数据Tdata提供给第一物件标示模块12(步骤S208)。需要注意的是，步骤S208可选择性地被执行，例如当物件标示系统1a包括训练数据产生模块18时，步骤S208可被执行，而当训练数据产生模块18设置于物件标示系统1a的外部(即物件标示系统1a不包括训练数据产生模块18)时，步骤S208可不包括在此流程中，而在其他流程中被执行。在一实施例中，训练数据产生模块18为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序，且当训练数据产生模块18由一个或多个处理器执行时，可基于第三物件标示结果LABEL3产生训练数据Tdata，并提供给第一物件标示模块12。

在一实施例中，训练数据产生模块18可依据第四物件标示结果LABEL4(或者同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生纯文字文件(例如txt档案)。此纯文字文件的内容记载第四物件标示结果LABEL4所标示出的所有物件的物件类型、位置及大小，亦即此纯文字文件是针对第四物件标示结果LABEL4所标示出的所有物件的描述，或者此纯文字文件即是用以描述第四物件标示结果LABEL4。训练数据产生模块18可将第四物件标示结果LABEL4与此纯文字文件连结在一起，作为训练数据Tdata提供给第一物件标示模块12。在一实施例中，训练数据产生模块18在产生训练数据Tdata后，可将训练数据Tdata储存至数据库(database)，而第一物件标示模块12可通过读取数据库中的数据进行学习，以提升标示的准确度。

在一实施例中，训练数据Tdata被第一物件标示模块12当作第一真实结果(groundtruth)来使用。第一物件标示模块12可将第一物件标示结果LABEL1与训练数据Tdata(即第一真实结果)进行比较，并计算两者之间的差异或相似度。例如，第一物件标示模块12计算第一物件标示结果LABEL1与训练数据Tdata之间的交叠率(intersection over union,IOU)，以获得第一置信度，其中交叠率的计算方式可例如是两者的物件的交集数量除以物件的并集数量。例如以图3A与图3C(即假设第四物件标示结果LABLE4相同于第三物件标示结果LABEL3且对应的纯文字文件作为训练数据时)为例，第一物件标示结果LABEL1与第四物件标示结果LABEL4的交叠率为75％。当第一物件标示结果LABEL1与训练数据Tdata差异越小(交叠率越大)时，第一置信度越高，亦即第一物件标示模块12与第一真实结果越接近，会被认为是准确度越高。反之，当第一物件标示结果LABEL1与训练数据Tdata差异越大(交叠率越小)时，第一置信度越低。此外，第一物件标示模块12可依据训练数据Tdata对第一物件标示模块12内部的一个或多个参数进行调整或修正。经过多次调整与修正，第一物件标示模块12所产生的第一物件标示结果LABEL1可与训练数据Tdata越来越接近，亦即准确度越来越高。

在一实施例中，第二物件标示模块14可依据第二真实结果及第二物件标示结果LABEL2计算第二置信度。第二真实结果可通过接收用户的输入，以标示第二二维影像中的物件而产生，或者可通过类神经网络(neural network)计算而得(例如依据过去的第四标示结果LABEL4或训练数据Tdata)。第二物件标示模块14依据计算第二物件标示结果LABEL2与第二真实结果之间的差异或相似度(例如交叠率)，以获得第二置信度。当第二置信度越高，代表第二物件标示结果LABEL2与第二真实结果越接近，亦即准确度越高。

在一实施例中，标示整合模块16可依据第一置信度及第二置信度决定一权重比例。标示整合模块16可依据权重比例决定采用第一物件标示结果LABEL1与第二物件标示结果LABEL2的比例。例如，在亮度较低的环境下，第一物件标示模块12的第一置信度可能较低，第二物件标示模块14的第二置信度可能较高。此种情况下，标示整合模块16可决定权重比例偏重于第二物件标示模块14，亦即当整合第一物件标示结果LABEL1与第二物件标示结果LABEL2时，采用较多第二物件标示结果LABEL2中标示出的物件，而采用较少第一物件标示结果LABEL1中标示的物件。

在一实施例中，训练数据产生模块18可依据第四物件标示结果LABEL4与第三真实结果计算一第三置信度，其中第三真实结果可通过类神经网络计算而得(例如依据过去的标示结果或训练数据)。训练数据产生模块18可依据第三置信度决定是否启用手动辅助标示程序。例如，当第三置信度低于阈值时，训练数据产生模块18可决定起用手动辅助标示程序。当手动辅助标示程序被启用时，训练数据产生模块18可接收来自用户(user)的输入，例如通过用户接口(user interface)，以对第三物件标示结果LABEL3、训练数据Tdata或上述两者进行调整或修正，诸如将错误标示的物件移除、修改被标示的物件的物件类型、标示未标示的物件或上述的组合等。在一实施例中，当第一物件标示模块12与第二物件标示模块14对一个或多个物件在是否为物件的判别上有歧异时，训练数据产生模块18可启动手动辅助标示程序。例如图3A中，第一物件标示模块12判断物件框302中标示的是物件，物件类型为汽车，而图3B中，第二物件标示模块14判断对应于图3A中物件框302位置的不是物件，而未标示。这种情况下，训练数据产生模块18可启用手动辅助标示程序，例如于用户接口弹出一对话框显示第一物件标示模块12标示的物件框302及物件，以供用户选择物件框302中标示的是否确实为物件。

在一实施例中，当第一置信度、第二置信度及第三置信度皆过低(例如第一置信度、第二置信度及第三置信度皆低于阈值)时，训练数据产生模块18可启用手动辅助标示程序。在手动辅助标示程序中，可于用户接口显示一个或多个物件候选者，以供用户选择各个物件候选者是否确实是物件。接着，训练数据产生模块18会依据用户的选择将被选的物件制作成训练数据Tdata。

请参照图1B，图1B绘示本发明另一实施例的物件标示系统的方块图。请同时参照图3D，以利理解。物件标示系统1b与物件标示系统1a类似，差异在于训练数据产生模块18。

在本实施例中，训练数据产生模块18包括物件裁切程序182、手动辅助标示程序184及训练数据转换程序186，其中手动辅助标示程序184的启用条件与细节与前文所述类似。

物件裁切程序182被执行时，训练数据产生模块18可将第四物件标示结果LABEL4中所标示的物件裁切下来(如图3D所示，假设第四物件标示结果LABEL4相同于第三物件标示结果LABEL3)，并依据物件类型进行分类。当训练数据转换程序186被执行时，训练数据产生模块18可将裁切下来的物件框301～304所标示的物件传送入类神经网络中进行分析，以得到相同物件类型的物件的共同特性、轮廓、参数或上述的组合，以产生训练数据Tdata，而不同于物件标示系统1a。第一物件标示模块12在计算第一置信度时，会计算训练数据Tdata中不同物件类型的物件所具有的特性、轮廓、参数或上述的组合与第一物件标示模块12内部辨识各个物件类型所用的特性、轮廓、参数或上述的组合之间的差异程度。而在学习时，第一物件标示模块12则可依据训练数据Tdata调整或修正第一物件标示模块12内部辨识各个物件类型所用的特性、轮廓、参数或上述的组合。

值得一提的是，在一实施例中，上述的第一物件标示模块12、第二物件标示模块14、标示整合模块16及影格间追踪模块19(选择性地包括训练数据产生模块18)可整合于同一装置(例如监控中心的主计算机或自动驾驶车的行车计算机)中，通过连接于外部的二维摄影机及三维摄影机所提供的第一二维影像2Dimg1及三维信息3Dinfo实行本方法。在另一实施例中，第一物件标示模块12可整合在二维摄影机中，第二物件标示模块14可整合在三维摄影机中，标示整合模块16及影格间追踪模块19(选择性地包括训练数据产生模块18)则设置在服务器。在这个例子中，第一物件标示模块12(即二维摄影机)依据自身取得的第一二维影像2Dimg1产生第一标示结果LABEL1并传送至服务器；第二物件标示模块14(即三维摄影机)依据自身取得的三维信息3Dinfo产生第二标示结果LABEL2并传送至服务器。服务器中的标示整合模块16将第一标示结果LABEL1及第二标示结果LABEL2整合为第三物件标示结果LABEL3，影格间追踪模块19依据第三物件标示结果LABEL3产生第四物件标示结果LABEL4，训练数据产生模块18再依据第四物件标示结果LABEL4(或同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生训练数据Tdata。换言之，上述的各模块不仅可以软件的形式实现，也能以硬件或固件的形式实现。

由上述的多个实施例可知，物件标示系统及物件标示方法可藉由运用具有不同维度的第一二维影像2Dimg1及三维信息3Dinfo作为第一物件标示模块12及第二物件标示模块14的输入，获得第一物件标示结果LABEL1及第二物件标示结果LABEL2，接着将第一物件标示结果LABEL1及第二物件标示结果LABEL2进行整合得到第三物件标示结果LABEL3，由影格间追踪模块19依据第三物件标示结果LABEL3产生第四物件标示结果LABEL4，再由训练数据产生模块18基于第四物件标示结果LABEL4产生训练数据Tdata，以提供给第一物件标示模块12进行学习。由于第一二维影像2Dimg2与三维信息3Dinfo所能提供的信息不同，第一物件标示模块12与第二物件标示模块14有各自擅长辨认或不擅长辨认的环境或物件。藉由整合两者提供的物件标示结果，便可达到取长补短的效果。不仅可提高标示的自动化程度，降低人工手动标示的比例，还能够增加物件标示的准确度。此外，通过影格间追踪模块19及影格间物件标示程序对影片中动态的物件进行追踪及标示，而能够针对第一物件标示模块12与第二物件标示模块14皆未标示出的物件进行追踪及标示，进一步提升物件标示的准确度，减少需要人工辅助标示的情况。

综上所述，虽然本发明已以实施例公开如上，然其并非用以限定本发明。本发明所属技术领域中的技术人员，在不脱离本发明的精神和范围内，当可作各种更动与润饰。因此，本发明的保护范围当视所附的权利要求所界定者为准。

Claims

1.一种物件标示系统，包括：

第一物件标示模块，用以依据第一二维影像产生第一物件标示结果，其中所述第一二维影像为二维影片的多个影格其中之一；

第二物件标示模块，用以依据三维信息产生第二二维影像，并依据所述三维信息及所述第二二维影像产生第二物件标示结果；

标示整合模块，用以依据所述第一物件标示结果及所述第二物件标示结果产生第三物件标示结果；以及

影格间追踪模块，用以依据所述第三物件标示结果执行影格间物件标示程序，以产生第四物件标示结果。

2.根据权利要求1所述的物件标示系统，所述物件标示系统还包括：

训练数据产生模块，用以依据所述第三物件标示结果与所述第四物件标示结果产生训练数据，并将所述训练数据输入所述第一物件标示模块。

3.根据权利要求1所述的物件标示系统，其中所述影格间物件标示程序包括：

于所述第三物件标示结果中找出至少一个第一物件框；以及

依据演算法于所述第一二维影像的前一影格或后一影格中对应于各所述至少一个第一物件框的位置处以特定比例标示第二物件框，以产生所述第四物件标示结果。

4.根据权利要求1所述的物件标示系统，其中所述第一物件标示模块进一步依据所述第一物件标示结果及第一真实结果计算第一置信度，所述第二物件标示模块进一步依据所述第二物件标示结果及第二真实结果计算第二置信度，所述标示整合模块依据所述第一置信度及所述第二置信度决定权重比例，并进一步依据所述权重比例产生所述第三物件标示结果。

5.根据权利要求1所述的物件标示系统，其中所述第三物件标示结果为所述第一物件标示结果及所述第二物件标示结果的并集。

6.根据权利要求1所述的物件标示系统，其中所述训练数据产生模块依据所述第四物件标示结果及一第三置信度判断是否启用手动辅助标示程序。

7.根据权利要求1所述的物件标示系统，其中所述训练数据产生模块依据所述第四物件标示结果产生用以描述所述第四物件标示结果的纯文字文件，并连结所述第四物件标示结果及所述纯文字文件作为所述训练数据，或者所述训练数据产生模块将所述第四物件标示结果中的一个或多个物件框所标示的一个或多个物件进行裁切及分类以作为所述训练数据。

8.一种物件标示方法，包括：

由第一物件标示模块依据第一二维影像产生第一物件标示结果，其中所述第一二维影像为二维影片的多个影格其中之一；

由第二物件标示模块依据三维信息产生第二二维影像，并依据所述三维信息及所述第二二维影像产生第二物件标示结果；

由标示整合模块依据所述第一物件标示结果及所述第二物件标示结果产生第三物件标示结果；以及

由影格间追踪模块依据所述第三物件标示结果执行影格间物件标示程序，以产生第四物件标示结果。

9.根据权利要求8所述的物件标示方法，所述物件标示方法还包括：

由训练数据产生模块依据所述第三物件标示结果与所述第四物件标示结果产生训练数据，并将所述训练数据输入所述第一物件标示模块。

10.根据权利要求8所述的物件标示方法，其中所述影格间物件标示程序包括：

于所述第三物件标示结果中找出至少一个第一物件框；以及

11.根据权利要求8所述的物件标示方法，其中所述第一物件标示模块进一步依据所述第一物件标示结果及一第一真实结果计算第一置信度，所述第二物件标示模块进一步依据所述第二物件标示结果及第二真实结果计算一第二置信度，所述标示整合模块依据所述第一置信度及所述第二置信度决定权重比例，并进一步依据所述权重比例产生所述第三物件标示结果。

12.根据权利要求8所述的物件标示方法，其中所述第三物件标示结果为所述第一物件标示结果及所述第二物件标示结果的并集。

13.根据权利要求8所述的物件标示方法，其中所述训练数据产生模块依据所述第四物件标示结果及第三置信度判断是否启用手动辅助标示程序。

14.根据权利要求8所述的物件标示方法，其中所述训练数据产生模块依据所述第四物件标示结果产生用以描述所述第四物件标示结果的纯文字文件，并连结所述第四物件标示结果及所述纯文字文件作为所述训练数据，或者所述训练数据产生模块将所述第四物件标示结果中的一个或多个物件框所标示的一个或多个物件进行裁切及分类以作为所述训练数据。