CN110197106A - 物件标示系统及方法 - Google Patents

物件标示系统及方法 Download PDF

Info

Publication number
CN110197106A
CN110197106A CN201810263514.4A CN201810263514A CN110197106A CN 110197106 A CN110197106 A CN 110197106A CN 201810263514 A CN201810263514 A CN 201810263514A CN 110197106 A CN110197106 A CN 110197106A
Authority
CN
China
Prior art keywords
result
mark
module
indicates
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810263514.4A
Other languages
English (en)
Inventor
粘为博
杨宗贤
庄淳富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN110197106A publication Critical patent/CN110197106A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种物件标示系统及方法。物件标示系统包括第一物件标示模块、第二物件标示模块、标示整合模块及影格间追踪模块。第一物件标示模块依据第一二维影像产生第一物件标示结果,其中第一二维影像为二维影片的多个影格其中之一。第二物件标示模块依据三维信息产生第二二维影像,及依据三维信息及第二二维影像产生第二物件标示结果。标示整合模块依据第一物件标示结果及第二物件标示结果产生第三物件标示结果。影格间追踪模块依据第三物件标示结果执行影格间物件标示程序,以产生第四物件标示结果。

Description

物件标示系统及方法
技术领域
本发明是有关于一种物件标示系统及方法。
背景技术
物件侦测(object detection)的技术被广泛应用在许多领域中,诸如自动驾驶(self-driving)、卫星影像分析、车辆实时监控等。在建立一套自动物件侦测系统的过程中,必须要提供大量的训练数据给物件标示(labeling)模型学习,以提升标示的准确性。然而,现有技术中,训练数据大多仰赖人为手动标示,或半手动标示(即由低阶人工智能粗略标示后,再以手动标示或调整)。因而,为了提供大量的训练数据,势必要耗费大量的人力资源。
另一方面,若不想耗费太多的人力资源在提供训练数据上,仅以低阶人工智能进行物件标示,则标示结果的准确度将难以达到要求。
发明内容
本发明的目的提供一种物件标示系统及方法。
本发明实施例公开一种物件标示系统,包括第一物件标示模块、第二物件标示模块、标示整合模块及影格间追踪模块。第一物件标示模块用以依据第一二维影像产生第一物件标示结果,其中第一二维影像为二维影片的多个影格其中之一。第二物件标示模块用以依据三维信息产生第二二维影像,并依据三维信息及第二二维影像产生第二物件标示结果。标示整合模块用以依据第一物件标示结果及第二物件标示结果产生第三物件标示结果。影格间追踪模块用以依据第三物件标示结果执行影格间物件标示程序,以产生第四物件标示结果。
本发明实施例公开一种物件标示方法,包括:由第一物件标示模块依据第一二维影像产生第一物件标示结果,其中第一二维影像为二维影片的多个影格其中之一;由第二物件标示模块依据三维信息产生第二二维影像,并依据三维信息及第二二维影像产生第二物件标示结果;由标示整合模块依据第一物件标示结果及第二物件标示结果产生第三物件标示结果;以及由影格间追踪模块依据第三物件标示结果执行影格间物件标示程序,以产生第四物件标示结果。
为了对本发明的上述及其他方面有更佳的了解,下文特举实施例,并配合附图详细说明如下:
附图说明
图1A绘示依据本发明实施例的物件标示系统的方块图;
图1B绘示依据本发明另一实施例的物件标示系统的方块图;
图2A绘示依据本发明实施例的物件标示方法的流程图;
图2B绘示依据本发明实施例的影格间物件标示程序的流程图;
图3A~3D绘示执行物件标示方法的示意图;以及
图4A~4D绘示执行影格间物件标示程序的示意图。
符号说明:
1a~1d:物件标示系统
12:第一物件标示模块
14:第二物件标示模块
16:标示整合模块
18:训练数据产生模块
19:影格间追踪模块
2Dimg1:第一二维影像
3Dinfo:三维信息
LABEL1:第一物件标示结果
LABEL2:第二物件标示结果
LABEL3:第三物件标示结果
LABEL4:第四物件标示结果
Tdata:训练数据
S202~S208:步骤
601~605:物件框
O:机车物件
具体实施方式
请参照图1A,图1A绘示依据本发明实施例的物件标示系统的方块图。请同时参照图2A所示的物件标示方法的流程图以及图3A~3C的示意图,以便于理解。物件标示系统1a可用以侦测(detect)、辨识(recognize)及标示(label)影像(image)或影片(video)中的物件(object)。物件可例如是影像或影片中的行人、机车、汽车或上述的组合等。物件标示系统1a包括第一物件标示模块12、第二物件标示模块14、标示整合模块16以及影格间追踪模块19。在一实施例中,物件标示系统1a还可包括训练数据(training data)产生模块18。在另一实施例中,训练数据产生模块18是设置于外部装置(未绘示),而外部装置耦接至物件标示系统1a。换言之,训练数据产生模块18是选择性地包括在物件标示系统1a之中。
第一物件标示模块12用以接收第一二维影像2Dimg1。在一实施例中,第一二维影像2Dimg1是二维摄影机(2D camera)所拍摄的实时影像(real-time image)。在另一实施例中,第一二维影像2Dimg1是储存于计算器可读储存装置的影像。第一二维影像2Dimg1可为独立的二维影像、图片或是二维影片(video)的多个影格(image frame)的其中之一。本文所谓影片的“影格”是指影片的帧(frame),例如帧率(frame rate)为25fps的影片即具有每秒25个影格。
第一物件标示模块12可依据第一二维影像2Dimg1产生第一物件标示结果LABEL1(步骤S202)。在一实施例中,第一物件标示模块12是具有可学习能力(例如深度学习(deeplearning))的应用程序(application)、计算器可读指令(instruction)、程式(program)或程序(process),且当第一物件标示模块12由一个或多个处理器(processor)执行时,可辨识并标示出第一二维影像2Dimg1中的物件(例如以物件框框起并标示诸如行人、机车及汽车等的物件类型),以产生第一物件标示结果LABEL1。举例来说,于标示物件时,第一物件标示模块12可先将第一二维影像2Dimg2以一个或多个滤镜(filter)将噪声(noise)或其他可能影响物件判别的信息(information)过滤掉。接着,第一物件标示模块12找出可能是物件的轮廓,再依据轮廓判断是否为物件,若判断为物件则进一步判断此物件的物件类型。第一物件标示模块12将所有辨识出的物件以物件框框起并标示物件类型,以产生第一物件标示结果LABEL1。在另一实施例中,第一物件标示模块12可采用现有的物件标示模型,例如Faster R-CNN、SSD及YOLOv2等。
例如图3A所示,第一物件标示模块12产生的第一物件标示结果LABEL1包括物件框301、302、303,物件类型分别为汽车、汽车及行人。
第二物件标示模块14耦接至第一物件标示模块12,并用以接收三维信息3Dinfo。在一实施例中,三维信息3Dinfo是三维摄影机或空间感测装置(例如光达(Lidar))所拍摄或感测的实时影像或实时信息。在另一实施例中,三维信息3Dinfo是储存于计算器可读储存装置的影像或数据。在一实施例中,三维信息3Dinfo与第一二维影像2Dimg1是由包括多个异质(heterogeneous)传感器的一个或多个装置于同一时间,以实质相同的角度对同一区域拍摄或感测而得。所谓异质是例如指二维传感器及三维传感器,两者所能感测的维度(dimension)不同,而在本质上有所差异的传感器。三维信息3Dinfo可包括点云(pointcloud),即所拍摄或感测的区域中每一个点的位置(例如三维坐标)、色彩信息(例如RGB值)、物体的深度、光照射在物体后产生的反射光的强度或上述的组合等。
第二物件标示模块14可依据三维信息3Dinfo产生第二二维影像,并依据三维信息3Dinfo及第二二维影像产生第二物件标示结果LABEL2(步骤S204)。在一实施例中,第二物件标示模块14为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序,且当第二物件标示模块14由一个或多个处理器执行时,可采用本领域技术人员所熟知的转换逻辑或转换算法将三维信息3Dimg转换为第二二维影像;基于三维信息3Dinfo计算出一个或多个物件的位置、大小及轮廓等,并以物件框将所计算出的物件标示在第二二维影像上,以产生第二物件标示结果LABEL2。
例如图3B所示,第二物件标示模块14产生的第二物件标示结果LABEL2包括物件框301、303、304,物件类型分别为汽车、行人及行人。需要注意的是,由于第二二维影像是基于三维信息所产生,故可能与第一二维影像2Dimg1不同。图3A~3C仅是以说明为目的而绘示,并非用以限制本发明。
标示整合模块16耦接至第一物件标示模块12及第二物件标示模块14。标示整合模块16可依据第一物件标示结果LABEL1及第二物件标示结果LABEL2产生第三物件标示结果LABEL3(步骤S206)。在一实施例中,标示整合模块16为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序,且当标示整合模块16由一个或多个处理器执行时,可基于第一物件标示结果LABEL1及第二物件标示结果LABEL2产生第三物件标示结果LABEL3。在一实施例中,标示整合模块16取第一物件标示结果LABEL1及第二物件标示的并集(Union)作为第三物件标示结果LABEL3,亦即第三物件标示结果LABEL3中标示出的物件包括第一物件标示结果LABEL1中标示的物件及第二物件标示结果LABEL2中标示的物件。例如图3C所示,第三物件标示结果LABEL3包括物件框301、302、303、304,物件类型分别为汽车、汽车、行人及行人。
影格间追踪模块19耦接至标示整合模块16。在一实施例中,影格间追踪模块19为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序,且当影格间追踪模块19由一个或多个处理器执行时,可依据第三物件标示结果LABEL3执行影格间(inter-frame)物件标示程序,以产生第四物件标示结果LABEL4(步骤S207)。
为清楚说明影格间物件标示程序,请参照图2B的影格间物件标示程序的流程图及图4A~4D的执行影格间物件标示程序的示意图。
影格间物件标示程序包括步骤S2071及S2073。在步骤S2071中,影格间追踪模块19于第三物件标示结果LABEL3中找出至少一个第一物件框(如图4A中的601、605)。在步骤S2073中,影格间追踪模块19依据演算法于第一二维影像2Dimg1的前一影格或后一影格(或依据第一二维影像2Dimg1的前一影格或后一影格所产生的第三物件标示结果LABEL3)中对应于各至少一个第一物件框的位置处以一特定比例标示第二物件框(如图4B~4D中的602、603、604),以产生第四物件标示结果LABEL4。
在一实施例中,图4A~4D例如是二维影片中的四张影格,于时间轴上首先出现的是图4D,接着依序是图4C、图4B及图4A。在一些情况下,由于图4D中的机车物件O较小,可能无法被第一物件标示模块12及第二物件标示模块14辨识并标示出来,于图4B及图4C中的影格亦然,直到图4A的影格时,机车物件O才被成功标示。换言之,在执行影格间物件标示程序之前,只存在物件框601,而不存在物件框602、603、604。当执行影格间物件标示程序时,影格间追踪模块19会依据例如光流算法(optical flow algorithm)计算器车物件O的速度与行进方向,得出机车物件O是迎面行驶过来的结果。接着,影格间追踪模块19会在影片中的前一影格(图4B)中找寻与物件框601对应的位置,并依据所算出的机车物件O的速度计算物件框602的大小并标示出机车物件O,重复此动作并标示出物件框603、604,以作为第四物件标示结果LABEL4。在一些实施例中,第四物件标示结果LABEL4会被输入训练数据产生模块18。
在另一实施例中,图4A~4D例如是二维影片中的四张影格,于时间轴上首先出现的是图4A,接着依序是图4B、图4C及图4D。与前述实施例差别在于,影格间追踪模块19会往影片中的后一影格找寻与物件框601对应的位置,以标示出机车物件O。
在一实施例,物件标示系统1a可进一步包括缓存器(未绘示),用以储存第三物件标示结果LABEL3、第四物件标示结果LABEL4或上述的组合。当影格间追踪模块19执行影格间物件标示程序时,可于缓存器中提取依据影片中的前一(或多个)影格所产生的第三物件标示结果LABEL3。
在一实施例中,影格间追踪模块19可以特定比例例如物件框601的0.5倍标示物件框602,然本发明不以此为限。
另外,如图4A~4D中所示,由于物件框605所标示的是一静止的物件,故在图4A~4D物件框605是一直存在,且大小不变。
训练数据产生模块18耦接至物影格间追踪模块19。训练数据产生模块18可依据第四物件标示结果LABEL4(或者同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生训练数据Tdata,并将训练数据Tdata提供给第一物件标示模块12(步骤S208)。需要注意的是,步骤S208可选择性地被执行,例如当物件标示系统1a包括训练数据产生模块18时,步骤S208可被执行,而当训练数据产生模块18设置于物件标示系统1a的外部(即物件标示系统1a不包括训练数据产生模块18)时,步骤S208可不包括在此流程中,而在其他流程中被执行。在一实施例中,训练数据产生模块18为储存于一个或多个计算器可读媒体的应用程序、计算器可读指令、程式或程序,且当训练数据产生模块18由一个或多个处理器执行时,可基于第三物件标示结果LABEL3产生训练数据Tdata,并提供给第一物件标示模块12。
在一实施例中,训练数据产生模块18可依据第四物件标示结果LABEL4(或者同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生纯文字文件(例如txt档案)。此纯文字文件的内容记载第四物件标示结果LABEL4所标示出的所有物件的物件类型、位置及大小,亦即此纯文字文件是针对第四物件标示结果LABEL4所标示出的所有物件的描述,或者此纯文字文件即是用以描述第四物件标示结果LABEL4。训练数据产生模块18可将第四物件标示结果LABEL4与此纯文字文件连结在一起,作为训练数据Tdata提供给第一物件标示模块12。在一实施例中,训练数据产生模块18在产生训练数据Tdata后,可将训练数据Tdata储存至数据库(database),而第一物件标示模块12可通过读取数据库中的数据进行学习,以提升标示的准确度。
在一实施例中,训练数据Tdata被第一物件标示模块12当作第一真实结果(groundtruth)来使用。第一物件标示模块12可将第一物件标示结果LABEL1与训练数据Tdata(即第一真实结果)进行比较,并计算两者之间的差异或相似度。例如,第一物件标示模块12计算第一物件标示结果LABEL1与训练数据Tdata之间的交叠率(intersection over union,IOU),以获得第一置信度,其中交叠率的计算方式可例如是两者的物件的交集数量除以物件的并集数量。例如以图3A与图3C(即假设第四物件标示结果LABLE4相同于第三物件标示结果LABEL3且对应的纯文字文件作为训练数据时)为例,第一物件标示结果LABEL1与第四物件标示结果LABEL4的交叠率为75%。当第一物件标示结果LABEL1与训练数据Tdata差异越小(交叠率越大)时,第一置信度越高,亦即第一物件标示模块12与第一真实结果越接近,会被认为是准确度越高。反之,当第一物件标示结果LABEL1与训练数据Tdata差异越大(交叠率越小)时,第一置信度越低。此外,第一物件标示模块12可依据训练数据Tdata对第一物件标示模块12内部的一个或多个参数进行调整或修正。经过多次调整与修正,第一物件标示模块12所产生的第一物件标示结果LABEL1可与训练数据Tdata越来越接近,亦即准确度越来越高。
在一实施例中,第二物件标示模块14可依据第二真实结果及第二物件标示结果LABEL2计算第二置信度。第二真实结果可通过接收用户的输入,以标示第二二维影像中的物件而产生,或者可通过类神经网络(neural network)计算而得(例如依据过去的第四标示结果LABEL4或训练数据Tdata)。第二物件标示模块14依据计算第二物件标示结果LABEL2与第二真实结果之间的差异或相似度(例如交叠率),以获得第二置信度。当第二置信度越高,代表第二物件标示结果LABEL2与第二真实结果越接近,亦即准确度越高。
在一实施例中,标示整合模块16可依据第一置信度及第二置信度决定一权重比例。标示整合模块16可依据权重比例决定采用第一物件标示结果LABEL1与第二物件标示结果LABEL2的比例。例如,在亮度较低的环境下,第一物件标示模块12的第一置信度可能较低,第二物件标示模块14的第二置信度可能较高。此种情况下,标示整合模块16可决定权重比例偏重于第二物件标示模块14,亦即当整合第一物件标示结果LABEL1与第二物件标示结果LABEL2时,采用较多第二物件标示结果LABEL2中标示出的物件,而采用较少第一物件标示结果LABEL1中标示的物件。
在一实施例中,训练数据产生模块18可依据第四物件标示结果LABEL4与第三真实结果计算一第三置信度,其中第三真实结果可通过类神经网络计算而得(例如依据过去的标示结果或训练数据)。训练数据产生模块18可依据第三置信度决定是否启用手动辅助标示程序。例如,当第三置信度低于阈值时,训练数据产生模块18可决定起用手动辅助标示程序。当手动辅助标示程序被启用时,训练数据产生模块18可接收来自用户(user)的输入,例如通过用户接口(user interface),以对第三物件标示结果LABEL3、训练数据Tdata或上述两者进行调整或修正,诸如将错误标示的物件移除、修改被标示的物件的物件类型、标示未标示的物件或上述的组合等。在一实施例中,当第一物件标示模块12与第二物件标示模块14对一个或多个物件在是否为物件的判别上有歧异时,训练数据产生模块18可启动手动辅助标示程序。例如图3A中,第一物件标示模块12判断物件框302中标示的是物件,物件类型为汽车,而图3B中,第二物件标示模块14判断对应于图3A中物件框302位置的不是物件,而未标示。这种情况下,训练数据产生模块18可启用手动辅助标示程序,例如于用户接口弹出一对话框显示第一物件标示模块12标示的物件框302及物件,以供用户选择物件框302中标示的是否确实为物件。
在一实施例中,当第一置信度、第二置信度及第三置信度皆过低(例如第一置信度、第二置信度及第三置信度皆低于阈值)时,训练数据产生模块18可启用手动辅助标示程序。在手动辅助标示程序中,可于用户接口显示一个或多个物件候选者,以供用户选择各个物件候选者是否确实是物件。接着,训练数据产生模块18会依据用户的选择将被选的物件制作成训练数据Tdata。
请参照图1B,图1B绘示本发明另一实施例的物件标示系统的方块图。请同时参照图3D,以利理解。物件标示系统1b与物件标示系统1a类似,差异在于训练数据产生模块18。
在本实施例中,训练数据产生模块18包括物件裁切程序182、手动辅助标示程序184及训练数据转换程序186,其中手动辅助标示程序184的启用条件与细节与前文所述类似。
物件裁切程序182被执行时,训练数据产生模块18可将第四物件标示结果LABEL4中所标示的物件裁切下来(如图3D所示,假设第四物件标示结果LABEL4相同于第三物件标示结果LABEL3),并依据物件类型进行分类。当训练数据转换程序186被执行时,训练数据产生模块18可将裁切下来的物件框301~304所标示的物件传送入类神经网络中进行分析,以得到相同物件类型的物件的共同特性、轮廓、参数或上述的组合,以产生训练数据Tdata,而不同于物件标示系统1a。第一物件标示模块12在计算第一置信度时,会计算训练数据Tdata中不同物件类型的物件所具有的特性、轮廓、参数或上述的组合与第一物件标示模块12内部辨识各个物件类型所用的特性、轮廓、参数或上述的组合之间的差异程度。而在学习时,第一物件标示模块12则可依据训练数据Tdata调整或修正第一物件标示模块12内部辨识各个物件类型所用的特性、轮廓、参数或上述的组合。
值得一提的是,在一实施例中,上述的第一物件标示模块12、第二物件标示模块14、标示整合模块16及影格间追踪模块19(选择性地包括训练数据产生模块18)可整合于同一装置(例如监控中心的主计算机或自动驾驶车的行车计算机)中,通过连接于外部的二维摄影机及三维摄影机所提供的第一二维影像2Dimg1及三维信息3Dinfo实行本方法。在另一实施例中,第一物件标示模块12可整合在二维摄影机中,第二物件标示模块14可整合在三维摄影机中,标示整合模块16及影格间追踪模块19(选择性地包括训练数据产生模块18)则设置在服务器。在这个例子中,第一物件标示模块12(即二维摄影机)依据自身取得的第一二维影像2Dimg1产生第一标示结果LABEL1并传送至服务器;第二物件标示模块14(即三维摄影机)依据自身取得的三维信息3Dinfo产生第二标示结果LABEL2并传送至服务器。服务器中的标示整合模块16将第一标示结果LABEL1及第二标示结果LABEL2整合为第三物件标示结果LABEL3,影格间追踪模块19依据第三物件标示结果LABEL3产生第四物件标示结果LABEL4,训练数据产生模块18再依据第四物件标示结果LABEL4(或同时依据第三物件标示结果LABEL3及第四物件标示结果LABEL4)产生训练数据Tdata。换言之,上述的各模块不仅可以软件的形式实现,也能以硬件或固件的形式实现。
由上述的多个实施例可知,物件标示系统及物件标示方法可藉由运用具有不同维度的第一二维影像2Dimg1及三维信息3Dinfo作为第一物件标示模块12及第二物件标示模块14的输入,获得第一物件标示结果LABEL1及第二物件标示结果LABEL2,接着将第一物件标示结果LABEL1及第二物件标示结果LABEL2进行整合得到第三物件标示结果LABEL3,由影格间追踪模块19依据第三物件标示结果LABEL3产生第四物件标示结果LABEL4,再由训练数据产生模块18基于第四物件标示结果LABEL4产生训练数据Tdata,以提供给第一物件标示模块12进行学习。由于第一二维影像2Dimg2与三维信息3Dinfo所能提供的信息不同,第一物件标示模块12与第二物件标示模块14有各自擅长辨认或不擅长辨认的环境或物件。藉由整合两者提供的物件标示结果,便可达到取长补短的效果。不仅可提高标示的自动化程度,降低人工手动标示的比例,还能够增加物件标示的准确度。此外,通过影格间追踪模块19及影格间物件标示程序对影片中动态的物件进行追踪及标示,而能够针对第一物件标示模块12与第二物件标示模块14皆未标示出的物件进行追踪及标示,进一步提升物件标示的准确度,减少需要人工辅助标示的情况。
综上所述,虽然本发明已以实施例公开如上,然其并非用以限定本发明。本发明所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰。因此,本发明的保护范围当视所附的权利要求所界定者为准。

Claims (14)

1.一种物件标示系统,包括:
第一物件标示模块,用以依据第一二维影像产生第一物件标示结果,其中所述第一二维影像为二维影片的多个影格其中之一;
第二物件标示模块,用以依据三维信息产生第二二维影像,并依据所述三维信息及所述第二二维影像产生第二物件标示结果;
标示整合模块,用以依据所述第一物件标示结果及所述第二物件标示结果产生第三物件标示结果;以及
影格间追踪模块,用以依据所述第三物件标示结果执行影格间物件标示程序,以产生第四物件标示结果。
2.根据权利要求1所述的物件标示系统,所述物件标示系统还包括:
训练数据产生模块,用以依据所述第三物件标示结果与所述第四物件标示结果产生训练数据,并将所述训练数据输入所述第一物件标示模块。
3.根据权利要求1所述的物件标示系统,其中所述影格间物件标示程序包括:
于所述第三物件标示结果中找出至少一个第一物件框;以及
依据演算法于所述第一二维影像的前一影格或后一影格中对应于各所述至少一个第一物件框的位置处以特定比例标示第二物件框,以产生所述第四物件标示结果。
4.根据权利要求1所述的物件标示系统,其中所述第一物件标示模块进一步依据所述第一物件标示结果及第一真实结果计算第一置信度,所述第二物件标示模块进一步依据所述第二物件标示结果及第二真实结果计算第二置信度,所述标示整合模块依据所述第一置信度及所述第二置信度决定权重比例,并进一步依据所述权重比例产生所述第三物件标示结果。
5.根据权利要求1所述的物件标示系统,其中所述第三物件标示结果为所述第一物件标示结果及所述第二物件标示结果的并集。
6.根据权利要求1所述的物件标示系统,其中所述训练数据产生模块依据所述第四物件标示结果及一第三置信度判断是否启用手动辅助标示程序。
7.根据权利要求1所述的物件标示系统,其中所述训练数据产生模块依据所述第四物件标示结果产生用以描述所述第四物件标示结果的纯文字文件,并连结所述第四物件标示结果及所述纯文字文件作为所述训练数据,或者所述训练数据产生模块将所述第四物件标示结果中的一个或多个物件框所标示的一个或多个物件进行裁切及分类以作为所述训练数据。
8.一种物件标示方法,包括:
由第一物件标示模块依据第一二维影像产生第一物件标示结果,其中所述第一二维影像为二维影片的多个影格其中之一;
由第二物件标示模块依据三维信息产生第二二维影像,并依据所述三维信息及所述第二二维影像产生第二物件标示结果;
由标示整合模块依据所述第一物件标示结果及所述第二物件标示结果产生第三物件标示结果;以及
由影格间追踪模块依据所述第三物件标示结果执行影格间物件标示程序,以产生第四物件标示结果。
9.根据权利要求8所述的物件标示方法,所述物件标示方法还包括:
由训练数据产生模块依据所述第三物件标示结果与所述第四物件标示结果产生训练数据,并将所述训练数据输入所述第一物件标示模块。
10.根据权利要求8所述的物件标示方法,其中所述影格间物件标示程序包括:
于所述第三物件标示结果中找出至少一个第一物件框;以及
依据演算法于所述第一二维影像的前一影格或后一影格中对应于各所述至少一个第一物件框的位置处以特定比例标示第二物件框,以产生所述第四物件标示结果。
11.根据权利要求8所述的物件标示方法,其中所述第一物件标示模块进一步依据所述第一物件标示结果及一第一真实结果计算第一置信度,所述第二物件标示模块进一步依据所述第二物件标示结果及第二真实结果计算一第二置信度,所述标示整合模块依据所述第一置信度及所述第二置信度决定权重比例,并进一步依据所述权重比例产生所述第三物件标示结果。
12.根据权利要求8所述的物件标示方法,其中所述第三物件标示结果为所述第一物件标示结果及所述第二物件标示结果的并集。
13.根据权利要求8所述的物件标示方法,其中所述训练数据产生模块依据所述第四物件标示结果及第三置信度判断是否启用手动辅助标示程序。
14.根据权利要求8所述的物件标示方法,其中所述训练数据产生模块依据所述第四物件标示结果产生用以描述所述第四物件标示结果的纯文字文件,并连结所述第四物件标示结果及所述纯文字文件作为所述训练数据,或者所述训练数据产生模块将所述第四物件标示结果中的一个或多个物件框所标示的一个或多个物件进行裁切及分类以作为所述训练数据。
CN201810263514.4A 2018-02-26 2018-03-28 物件标示系统及方法 Pending CN110197106A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107106279A TWI666595B (zh) 2018-02-26 2018-02-26 物件標示系統及方法
TW107106279 2018-02-26

Publications (1)

Publication Number Publication Date
CN110197106A true CN110197106A (zh) 2019-09-03

Family

ID=67684570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810263514.4A Pending CN110197106A (zh) 2018-02-26 2018-03-28 物件标示系统及方法

Country Status (4)

Country Link
US (1) US10685263B2 (zh)
JP (1) JP6686080B2 (zh)
CN (1) CN110197106A (zh)
TW (1) TWI666595B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11430312B2 (en) * 2018-07-05 2022-08-30 Movidius Limited Video surveillance with neural networks
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
US11100702B2 (en) 2019-12-27 2021-08-24 Industrial Technology Research Institute 3D image labeling method based on labeling information of 2D image and 3D image labeling device
CN111179318B (zh) * 2019-12-31 2022-07-12 浙江大学 基于双流法的复杂背景运动小目标检测方法
US11610412B2 (en) * 2020-09-18 2023-03-21 Ford Global Technologies, Llc Vehicle neural network training
TWI783572B (zh) * 2021-07-14 2022-11-11 信驊科技股份有限公司 物件追蹤方法及物件追蹤裝置
TWI782806B (zh) * 2021-12-02 2022-11-01 財團法人國家實驗研究院 點雲算圖方法
TWI830549B (zh) * 2022-12-22 2024-01-21 財團法人工業技術研究院 物件自動化標記方法及其系統
CN117156221B (zh) * 2023-10-31 2024-02-06 北京头条易科技有限公司 一种短视频内容理解标注方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367616A (zh) * 2001-01-20 2002-09-04 三星电子株式会社 视频序列中产生对象标识图象的装置和方法
CN101431665A (zh) * 2007-11-08 2009-05-13 财团法人工业技术研究院 物件侦测与追踪的方法与系统
JP2015142181A (ja) * 2014-01-27 2015-08-03 キヤノン株式会社 制御装置、制御方法
US20160180195A1 (en) * 2013-09-06 2016-06-23 Toyota Jidosha Kabushiki Kaisha Augmenting Layer-Based Object Detection With Deep Convolutional Neural Networks
WO2016181550A1 (ja) * 2015-05-14 2016-11-17 オリンパス株式会社 画像処理装置
US20170220887A1 (en) * 2016-01-29 2017-08-03 Pointivo, Inc. Systems and methods for extracting information about objects from scene information
CN107133569A (zh) * 2017-04-06 2017-09-05 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN107463918A (zh) * 2017-08-17 2017-12-12 武汉大学 基于激光点云与影像数据融合的车道线提取方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610191B2 (en) 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
TWI302879B (en) 2006-05-12 2008-11-11 Univ Nat Chiao Tung Real-time nighttime vehicle detection and recognition system based on computer vision
KR101607224B1 (ko) * 2008-03-03 2016-03-29 아비길론 페이턴트 홀딩 2 코포레이션 동적 물체 분류 방법 및 장치
WO2010026170A1 (en) 2008-09-02 2010-03-11 Ecole Polytechnique Federale De Lausanne (Epfl) Image annotation on portable devices
TWI497449B (zh) 2012-12-26 2015-08-21 Ind Tech Res Inst 非監督式調適方法與應用其之影像自動分類方法
US9384213B2 (en) 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
CN103559237B (zh) 2013-10-25 2017-02-15 南京大学 基于目标跟踪的半自动图像标注样本生成方法
CN104735296B (zh) * 2013-12-19 2018-04-24 财团法人资讯工业策进会 行人侦测系统与方法
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US9476730B2 (en) 2014-03-18 2016-10-25 Sri International Real-time system for multi-modal 3D geospatial mapping, object recognition, scene annotation and analytics
US9195912B1 (en) * 2014-07-24 2015-11-24 National Taipei University Of Technology Face annotation method and a face annotation system
JP6407626B2 (ja) 2014-08-26 2018-10-17 日立オートモティブシステムズ株式会社 物体認識装置及び車両制御システム
CN104317912B (zh) 2014-10-28 2017-07-25 华中师范大学 基于邻域与距离度量学习的图像语义自动标注方法
CN105631479B (zh) 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
WO2018077401A1 (en) * 2016-10-26 2018-05-03 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367616A (zh) * 2001-01-20 2002-09-04 三星电子株式会社 视频序列中产生对象标识图象的装置和方法
CN101431665A (zh) * 2007-11-08 2009-05-13 财团法人工业技术研究院 物件侦测与追踪的方法与系统
US20160180195A1 (en) * 2013-09-06 2016-06-23 Toyota Jidosha Kabushiki Kaisha Augmenting Layer-Based Object Detection With Deep Convolutional Neural Networks
JP2015142181A (ja) * 2014-01-27 2015-08-03 キヤノン株式会社 制御装置、制御方法
WO2016181550A1 (ja) * 2015-05-14 2016-11-17 オリンパス株式会社 画像処理装置
US20170220887A1 (en) * 2016-01-29 2017-08-03 Pointivo, Inc. Systems and methods for extracting information about objects from scene information
CN107133569A (zh) * 2017-04-06 2017-09-05 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN107463918A (zh) * 2017-08-17 2017-12-12 武汉大学 基于激光点云与影像数据融合的车道线提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆峰等: "《基于信息融合的智能车障碍物检测方法》", 《计算机应用》 *

Also Published As

Publication number Publication date
TW201937405A (zh) 2019-09-16
US10685263B2 (en) 2020-06-16
JP2019149142A (ja) 2019-09-05
TWI666595B (zh) 2019-07-21
JP6686080B2 (ja) 2020-04-22
US20190266439A1 (en) 2019-08-29

Similar Documents

Publication Publication Date Title
CN110197106A (zh) 物件标示系统及方法
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
CN110163904B (zh) 对象标注方法、移动控制方法、装置、设备及存储介质
WO2022083402A1 (zh) 障碍物检测方法、装置、计算机设备和存储介质
CN110097553B (zh) 基于即时定位建图与三维语义分割的语义建图系统
Kim et al. Deep learning based vehicle position and orientation estimation via inverse perspective mapping image
Levinson et al. Traffic light mapping, localization, and state detection for autonomous vehicles
Lookingbill et al. Reverse optical flow for self-supervised adaptive autonomous robot navigation
US20200026283A1 (en) Autonomous route determination
WO2020094033A1 (en) Method and system for converting point cloud data for use with 2d convolutional neural networks
CN110738121A (zh) 一种前方车辆检测方法及检测系统
CN106503653A (zh) 区域标注方法、装置和电子设备
CN110765922A (zh) 一种agv用双目视觉物体检测障碍物系统
US11361457B2 (en) Annotation cross-labeling for autonomous control systems
CN112507862B (zh) 基于多任务卷积神经网络的车辆朝向检测方法及系统
US20220058818A1 (en) Object-centric three-dimensional auto labeling of point cloud data
CN114359181B (zh) 一种基于图像和点云的智慧交通目标融合检测方法及系统
US11703596B2 (en) Method and system for automatically processing point cloud based on reinforcement learning
CN114972968A (zh) 基于多重神经网络的托盘识别和位姿估计方法
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN116830164A (zh) LiDAR去相关对象检测系统与方法
CN115187941A (zh) 目标检测定位方法、系统、设备及存储介质
CN116597122A (zh) 数据标注方法、装置、电子设备及存储介质
CN117372536A (zh) 激光雷达与相机标定方法、系统、设备和存储介质
CN118043864A (zh) 障碍物识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190903

WD01 Invention patent application deemed withdrawn after publication